bengtzzon: Sutchs kritik av Pikettys USA-data

Mina kollegor och jag har skapat ett nytt dataset om förmögenheter i Sverige år 1750, 1800, 1850 och 1900, baserat på ungefär 5000 bouppteckningar. I en artikel i Economic History Review har vi presenterat våra beräkningar av ojämlikheten i ägande. Där ville vi också jämföra med andra länders långsiktiga utveckling. Jag gick igenom den tidigare litteraturen för att ta fram de jämförande siffrorna. En given referens var Thomas Pikettys Capital in the 21st Century, där han samlat historisk statistik från tidigare forskning framför allt om Frankrike, Storbritannien och USA, men även Sverige på lång sikt, utifrån Roine och Waldenström (2009). Bekvämast för mig vore då förstås att se Capital som en one-stop-shop, och helt enkelt ta alla siffror för de tre andra länderna därifrån. Men jag har ju läst Hanson Jones epokgörande studie av USA 1774, som efterföljande som Lindert och Williamson och Shanahan och Correll använt och justerat på olika sätt. Och jag har läst Lindert (1986) som tog fram förmögenhetsspridningen i Storbritannien på lång sikt. Och när jag jämförde vad jag hittade i dessa studier med siffrorna i Pikettys jämförande dataset, som refererade tillbaka till Hanson Jones och Lindert, så hittade jag avvikelser. Det var oroande. När vi gjorde vårt diagram där vi jämför toppdecilens andel av de totala privata förmögenheterna i Sverige med Frankrike, Storbritannien och USA använde vi därför Carole Shammas (1993) genomskinliga bearbetningar av Hanson Jones data för 1774 och folkräkningen 1870 för USA, och Lindert (1986) för Storbritannien 1740-1870. För åren från och med 1900 använde vi Pikettys samling. Resultatet syns i diagrammet nedan.

Jag grävde aldrig vidare i avvikelserna mellan uppgifterna i originalforskningen -- Hanson Jones/Shammas, Lindert -- och Piketty (2014). Men nu har en veteran inom amerikansk ekonomisk historia, Richard Sutch, skrivit ett paper som är en grundlig genomgång av Pikettys behandling av statistiken på förmögenhetsspridning i USA. Vad som kommer fram vad gäller olika "justeringar" är delvis hårresande, även om resultaten, alltså vad statistiken visar, egentligen inte förändras -- egentligen, som Pseudoerasmus påpekat på twitter, så är den mer korrekta bilden som Sutchs statistik visar "mer Piketty än Piketty själv", på så sätt att den bättre passar med Pikettys teoretiska-politiska argument. Inte desto mindre är den metodologiska kritiken/källkritiken bra och viktig. Vad är det då som Sutch säger?

Toppercentilen på 1900-talet

Den empiri som Piketty använder om förmögenhetsspridningen i USA på 1900-talet är (1) Kopczuk och Saez (2004) analys av arvsskattedata från 1916 och framåt, och (2) den "Survey of Consumer Finances" (SCF) som centralbanken Federal Reserve genomfört 1962, 1969, 1983, 1989, 1992, 1995, 1998, 2001, 2004, 2007, 2009, 2010 och 2013. SCF har analyserats av Edward Wolff i en rad studier. Arvskattedatan och SCF-datan har viktiga skillnader i metod, framför allt att arvsskatten ger information om förmögenhet per individ medan SCF ger information per "spending unit", i praktiken hushåll. Piketty (2014, s. 56) menar att hushållsdata alltid ger högre ojämlikhet, eftersom makar då kombinerar sitt ägande. Eftersom han också menar att SCF-datan är mer pålitlig, och arvskattedatan ger en lägre förmögenhetsspridning, så justerar Piketty arvskattedatan för att kunna använda dem före 1962 i en enda tidssserie tillsammans med SCF-datan för 1962-2013. Justeringen verkar vara helt ad hoc: vid det överlappande året 1962 så ger SCF en toppercentil-andel av förmögenheterna som är 25 procent högre än arvsskattedatan, och därför applicerar han en multiplikator på arvskattedata-skattningarna på 1.25. För 1916-29 använder han oförklarligt en annan multiplikator, 1.2 (Sutch, s 592). Sutch är starkt kritisk till antagandet att fördelningen av förmögenhet inom hushåll är så pass konstant över tid att man kan använda i princip samma multiplikator hela tiden -- jag återkommer till det.

Sutchs figur 1 visar Kopczuk och Saez skattning, den prickade linjen, och Wolffs skattning baserad på SCF, feta prickar, tillsammans med Pikettys blandning. Om det enda problemet hade varit Pikettys uppjustering av arvsskattedatan med 1.2-1.25 så hade det varit en sak -- sådana pragmatiska/godtyckliga justeringar görs i de många makrohistoriska studier med långa tidsserier. Men här kommer också en del andra konstigheter fram. 1962 justerar Piketty av oklara skäl ner Wolffs skattning av p99:s andel med 2 procentenheter, och för 1974 simulerar P fram en siffra baserat antagligen på den nedåtgående trenden i arvsskattedatan. Därefter interpolerar han en rak linje från den simulerade siffran för 1974 till SCF-datapunkten för 1989. Det gjordes inga SCF-surveys på 1970-talet, så så sett kan jag förstå att P simulerade en punkt för 1974; trenden i ojämlikhet är i princip identisk oavsett om man skattar den med arvsskattedata eller med SCF, så att interpolera SCF utifrån trender i arvsskattedatan ser jag inte som något stort problem. En lite märklig grej som P gör därefter är att han tar decennie-snitt, baserat på olika många år för olika decennier -- för 1960-, 1980- och 2000-talen för ett enda år var (1962, 1989, 2007). (Sutch, s 593) Det ser jag som lite konstigt -- vi blir av med en massa intressant variation -- men inte som något direkt problem.

Sammanfattningsvis tycker jag inte att Pikettys skattningar av toppercentilens andel under 1900-talet är så farliga. Vi kan definitivt diskutera hållbarheten i justeringsfaktorn med 1.2-1.25, men ska man kombinera två olika metoder (arvsskattedata, SCF-data) med olika nivåer men samma trender så måste man göra någon slags justering, och det var nog den rimligaste han kunde göra givet vad som fanns då. Ned-justeringen 1962 med 2 procentenheter är konstig men gör knappast någon skillnad. Simuleringen 1974 kan man haja till för men att imputera utveckling mellan datapunkter baserat på trenderna i en variabel som mäter samma sak med en annan metod och därför har andra nivåer men samma trend, ser jag inte som något problem. Dock ökar problemen därifrån.

1800-talet

Föga förvånande är det svårare att mäta förmögenhetsfördelningen på 1800-talet än på 1900-talet. För USA på 1800-talet har Piketty egentligen bara en enda datapunkt, Lee Soltows (1975) analys av förmögenhetsräkningen år 1870. Soltows metoder är i princip alltid lite förbluffande så här i efterhand -- t.ex. hans studie av fattiga och rika i Sverige 1805-1855, eller den om förmögenhetsojämlikhet i Finland 1800, eller den om Sverige runt 1800. I sin analys av förmögenhetsräkningen 1870 gjorde Soltow ett "spin sample" baserat på de fysiska mikrofilmerna av räkningslistorna.

"Soltow marked a spot on the glass screen of the microfilm reader, turned the crank a half turn, and sampled the individual whose name fell on the marked spot provided it identified a male 20 years old or older (Soltow 1975: 4–5). He proceeded in this fashion through all 1,761 rolls of microfilm for the 1870 Census!" (Sutch, s. 594)

Soltow beräknade utifrån detta att bland vuxna män så ägde den rikaste procenten 27 procent av förmögenheterna. Piketty räknar upp detta med 1.2 för att simulera hushållsdata. (s 594) Då ägde den rikaste procenten (av "hushållen") 32 procent år 1870, vilket implicerar en stor ökning till 45.1 procent år 1910, utifrån Pikettys tidigare diskuterade justering av Kopczuk och Saez. En sådan ökning talar P mycket om i de narrativa delarna av sin bok, om skenande ojämlikhet under den så kallade "gilded age"; rubriken på Krugmans recension i NYRB var följdaktligen "Why We're in a New Gilded Age".

Beräkningen för 1870 har sina problem, men mycket värre är att Piketty anger en siffra för 1810 som är rent fiktiv, resultatet av en hundra års interpolering från 1774 (17 procent för toppercentilen) till 1870! Som Sutch helt riktigt påpekar: att linjärt interpolera över en så turbulent tid är oerhört problematiskt. (s. 595)

Toppdecilen
Också Pikettys skattningar för toppdecilens andel är märkliga. För 1870 anger han Soltows siffra, via Lindert, på 71 procent; här avstår Piketty inkonsekvent nog från att applicera den individ-till-hushåll-multiplikatorn på 1.2 som han annars använt. (s 596) Med en sådan multiplikator så hade Piketty fått fram att ojämlikheten minskade mellan 1870 och 1910 -- vilket förstås inte passar med hans story.

Mellan 1910 och 1970 har Piketty egentligen inga data på toppdecilens andel av förmögenheter -- så rik är inte informationen från arvsskattedatat eller SCF-datat. Då gör han en mycket konstig grej och tar helt enkelt toppercentilens andel och slår på 36 procentenheter. Varför skillnaden mellan P99 och P90-99 just ska vara 36 procentenheter förklarr han inte; i Soltows skattning för 1870 är det t.ex. 43 procentenheter.

Diskussion
"Very little of value can be salvaged from Piketty's treatment of data from the nineteenth century." (s. 597)

Sutch går vidare med att konstatera att sedan Pikettys bok 2014 så har det kommit bättre studier av förmögenhetsspridningen. För 1870 har IPUMS-projektet gjort ett mycket bättre dataset än det som Soltow använde, och för 1900-talet så har Saez och Zucman (2016) använt den kapitaliserade inkomst-metoden för att beräkna förmögenhetsspridningen 1912-2015.

Referenser

Richard Sutch (2017) "The One Percent across Two Centuries: A Replication of Thomas Piketty’s Data on the Concentration of Wealth in the United States", Social Science History.

bengtzzon

lördag 4 november 2017

Sutchs kritik av Pikettys USA-data

Inga kommentarer:

Skicka en kommentar