måndag 29 augusti 2022

Varför ser ojämlikheten (toppinkomstandelar) i Norden så olika ut med olika källor?

Hur har inkomstojämlikheten -- definierat som andelen som går till den procent som tjänar mest -- utvecklats i Norden de senaste fyrtio åren? För varje nordiskt land finns det en given utgångspunkt för att studera toppinkomstandelarna över tid: Atkinson och Sögaard (2016) för Danmark, Roikonen (2021) för Finland, Aaberge, Atkinson och Modalsli (2020) för Norge, och Roine och Waldenström (2008) för Sverige. Så här ser utvecklingen sedan 1980 ut enligt dessa fyra studier:

Här ser vi att den danska serien slutar 2010 och den svenska -- hämtad från Daniel Waldenströms hemsida, där han uppdaterat serierna från artikeln som publicerades 2008 -- 2013. Man kan då surfa in på World Inequality Database och få mer uppdaterade serier:


Här går alla serier till och med 2020. Men serierna är oroväckande olika de från originalstudierna. Hur kan skillnaderna vara så stora? Jag har gått in och kollat i serie-beskrivningarna. En första sak man kan tänka på är att 2018, 2019 och 2020 i alla fyra länder är extrapoleringar, alltså inga riktiga data. De mer substantiella skillnaderna mellan de två diagrammen är:

  • Danmark har en väldigt platt trend enligt Atkinson och Sögaard, till och med en minskande trend ca 1980-1996. Men enligt WID.World ökar topprocentens andel rejält i Danmark under samma tid: från 6,8 procent 1980 till 9,6 procent 1996 och 10,5 procent 1997. Detta medan A & S anger 5,5 procent 1980 och 5,1 procent 1996 och 5,2 procent 1997.
  • Sverige har en långsamt stigande nivå enligt Roine och Waldenström, från 4 procent 1980 till 6 procent under senare hälften av 1990-talet och början av 00-talet. Men enligt WID.World är nivån runt 7 procent 1980 och volatil under 80-talet med en jätteökning under 1990-talskrisen, från 7,8 procent 1992 till 11,5 procent 1995.
  • Finland har skillnader, men inte lika stora som Danmark och Sverige.
  • Norge har en peak 2000 i båda dataseten, men en 2006 (Skatteomläggningen) i AAM men 2008 i WID

Skillnader vad gäller nivåer och skillnader mellan länder:

  • Enligt originalpublikationerna var ojämlikhetsordningen 2010 Norge – Finland – Sverige – Danmark. Enligt WID är ordningen  Norge – Danmark – Sverige – Finland. Danmark ser mycket mer ojämlikt ut enligt WID, medan Finland knappt ökat alls.

Varifrån kommer då skillnaderna?


Så här diskuteras källorna för den svenska toppinkomstandelen, pre-tax:

Summary of data construction by year (see source for details): 1980: interpolated survey + concept correction + tax data, 1981: survey + concept correction + tax data, 1982-1986: interpolated survey + concept correction + tax data, 1987: survey + concept correction + tax data, 1988-1991: interpolated survey + concept correction + tax data, 1992: survey + concept correction + tax data, 1993-1994: interpolated survey + concept correction + tax data, 1995: survey + concept correction + tax data, 1996-1999: interpolated survey + concept correction + tax data, 2000: survey + concept correction + tax data, 2001-2002: interpolated survey + concept correction + tax data, 2003-2013: survey + tax data, 2014-2018: extrapolated distribution using survey data, 2019-2020: extrapolated distribution. Before 1980, pretax income shares retropolated based on fiscal income: see source.
Före 1980 är nivåerna alltså extrapolerade utifrån Roine och Waldenströms serie, men splicade på den nivå som WID själva räknat fram för 1980, utifrån Roine och Waldenström men med någon korrigering för (a) survey, och (b) "concept correction". Som källor anger WID:

Roine, Jesper and Waldenström, Daniel (2010). Top Incomes in Sweden over the Twentieth Century; in Atkinson, A. B. and Piketty, T. (editors) Top Incomes: A Global Perspective, Oxford University Press, chapter 7. Series updated by the same authors.; Blanchet, Chancel and Gethin (2020), “Why is Europe less Unequal than the US?”; Updated by Morgan and Neef (2020), “Regional DINA update for Europe”; Updated by Morgan and Neef (2021), “2021 DINA Regional Update for Europe”; For long run series (full population), Chancel, L., Piketty, T. “Global Income Inequality 1820-2020: The Persistence and Mutation of Extreme Inequality” (2021)

Jag får alltså gå in i Blanchet, Chancel och Gethin (2020) och Morgan och Neef (2020, 2021) för att få en inblick i vad för korrigeringar som gjorts, som gör att WID:s bild ser såpass olika ut jämfört med de fyra nationella studierna.

Blanchet, Chancel och Gethin (2020) är en studie i Distributional National Accounts-inriktningen (DINA). DINA-approachen är känd inte minst för diskussionen om fördelningen efter skatter och bidrag, men jag är intresserad av pretax-fördelningen. Så här definierar BCG pretax income:

"Pretax income corresponds to income after the operation of social insurance systems, but before other types of redistribution. It is equal to factor income, plus pension benefits (17% of national income on average) and unemployment and disability benefits (1.7%), minus the social contributions that pay for them. Contributions and transfers are generally observed in survey data and can therefore be directly removed from or added to individual factor incomes." (s. 9)
Den statistiska enheten är en vuxen person (20 år eller äldre), och för gifta par delar de inkomsten 50-50 mellan de två personerna. Survey-mikrodatat de använder är för det första EU:s Statistics on Income and Living Conditions (EU-SILC) som gjorts årligen sedan 2004, och dess föregångare European Community Household Panel (ECHP) som finns för åren 1994-2001 för 13 västeuropeiska länder. Det andra survey-mikrodatat de använder är Luxembourg Income Study (LIS) som har harmoniserade mikrodata för 26 länder med en del data från 1970-talet, men för de flesta västeuropeiska länderna sedan 1985.

Så här förklarar Blanchet, Chancel och Gethin hur de går tillväga för att bygga serierna från dessa olika källor:

"First, we derive measures of household income inequality from survey microdata. Second, we train a machine learning algorithm to correct conceptual inconsistencies in survey tabulations. Third, we combine survey data with tax data to correct incomes at the top end of the distribution. Fourth, we combine external data sources with national accounts aggregates to distribute unreported national income components." (s. 12)
Proceduren beskrivs i mer detalj i tabell 2:


En grundläggande kommentar man kan göra angående min jämförelse mellan de två diagrammen i början av inlägget är att det inte är konstigt att ojämlikhetsnivåerna är olika i de två diagrammen. WID:s serier har inga ambitioner att reproducera nivåerna från skattedata-studierna; tvärtom så börjar ju WID med surveydata och använder därefter skattedata-studierna för att extrapolera bakåt från givna nivåer. Det gör också att det inte är så konstigt att Danmark går från lägst nivå i skattedata-diagrammet till snudd på högst nivå i WID-diagrammet.

Istället börjar de alltså från surveydatan: de menar att de har survey-data för både pre-tax och post-tax fördelningen för nästan alla länder sedan 2007, och för en längre period för några länder (säkert inklusive de nordiska). De omvandlar post-tax-skattningar i surveys till pre-tax-mått på ett intressant sätt:

"To tackle this prediction problem, we choose to rely on XGBoost (Chen and Guestrin, 2016), a state-of-the-art implementation of a standard, high-performing machine learning algorithm called boosted regression trees. The key idea behind our harmonization procedure is that while the income or consumption concepts we observe are different, they are also related. Using all the cases in which the income distribution is simultaneously observed for two different concepts, we can thus map the way they tend to relate to one another, and convert any source concept to our concept of interest. We provide a detailed overview of the method and results of this imputation procedure in appendix section 1.3. In particular, we show that this approach performs better than more naive ones, such as assuming a single correction coefficient by percentile." (s. 13)

De menar dock att denna procedur inte gör någon större skillnad, eftersom de flesta land-år har både pre-tax och post-tax-mått.

Steg tre är att kombinera surveys och skattedata. Surveys tenderar att missa de rikaste -- som inte vill svara på frågor om sina inkomster -- vilket gör att man underskattar ojämlikheten. (Se Blanchet, Flores och Morgan 2022.) Därför använder Blanchet, Chancel och Gethin "standard survey calibration methods" som justerar upp toppinkomsterna baserat på information från skattedata. Detta har en stor effekt: "Correcting survey-based estimates using top income shares derived from tax data has a large impact on our estimates of the income distribution, because surveys tend to significantly underestimate both the level of top income inequality and its rise since the 1980s in most European countries." (s. 14-15)

Det fjärde steget är alltså att i DINA-anda lägga till inkomst-komponenter som finns i BNP men sällan i inkomstfördelningsstudier: imputed rents (alltså den implicita inkomsten av en bostad som man inte betalar hyra för, eftersom man äger den) från bostäder som folk äger själva, företagsvinster som inte delats ut till aktieägare, och offentliga intäkter som produktskatter. För mina syften torde imputed rents vara den viktigaste faktorn, och den menar de att de täcker enkelt utifrån EU-SILC som inkluderar denna variabel. Utifrån information i EU-SILC så ut för de "a simple statistical matching procedure, using income as a continuous variable, to add imputed rents to the rest of our series".

Man blir ju väldigt nyfiken på hur vart och ett av de här stegen påverkar skattningarna av ojämlikheten. Jag hade gärna sett det för ett land i taget, men figur 1 visar i alla fall effekten för alla 26 europeiska länder i studien tagna tillsammans. För toppdecilens andel kan man jämföra den rosa linjen, som redovisar resultaten från EU-SILC, ECHP och LIS kombinerade, med den mörkröda linjen som korrigerar surveys utifrån skattedata. Skillnaden är remarkabel: med surveys finns det ingen trend alls från mitten av 1990-talet till 2017, medan med korrigering från skattedata ökar andelen frånrunt 32-33 procent i mitten av 90-talet till 35 procent 2017.


 En annan intressant jämförelse är den mellan BCG:s lite budget-DINA och en fullfjädrad DINA-beräkning. Figur Ib gör detta för Frankrike, med en jämförelse mellan BCG:s estimat och de som Garbinti, Goupille-Lebret och Piketty (2018) gjort.


Från detta går de vidare till resultatdiskussionen som handlar rätt mycket om skillnaderna i ojämlikhet mellan Europa -- och inom Europa jämförs norra, västra och östra Europa -- och USA, och varför dessa skillnader uppstår. Men det är ju inte vad jag är intresserad av här.

Jag går istället vidare med att kolla på Marc Morgan och Theresa Neefs "2020 DINA Update for Europe" (pdf). Morgan är Västeuropa-koordinator på World Inequality Lab i Paris, och Neef är Östeuropa-koordinator. Uppdateringarna för det senaste året kommer huvudsakligen från EU-SILC. För några få länder, framför allt Frankrike och Österrike, är uppdateringarna mer omfattande:

"Some country-based researchers are currently working on producing distributional national accounts for their countries at a greater level of detail and precision than the estimates of this update. Austria and France are the only two countries included in this update that have followed this strategy to date (see Table 1). The results for other countries should gradually come out over this academic year. These concern the cases of Belgium, Germany, Spain and Sweden. We expect that more countries will be added to this list over time. This is desirable as it will improve cross-country comparability." 

Tabell 1 sammanfattar uppdateringarna. Jag har bara klippt ut två fjärdedelar, men de visar i alla fall Danmark, Finland, Norge och Sverige. (s. 2)


Metodologin sammanfattar Morgan och Neef helt enkelt som BCG, alltså Blanchet, Flores och Morgan, som börjar med surveys och  gör justeringar i tre steg, först med skattedata, och sen med "missing income compnents". Morgan och Neefs studie ger alltså inga nya justeringar till datat i diagrammen ovan jämfört med BCG.

Inga kommentarer: