bengtzzon: Ojämlikhet i jämförande dataset: en diskussion från 2001

Eftersom jag forskar om inkomstojämlikhet i Sverige 1870 till 1970, med nya mikrodata från inkomstskatter som folk betalat, så har jag blivit väldigt intresserad av metoder och källor i inkomstojämlikhetsforskningen. Pikettys U-kurvor över inkomstojämlikhet i industriländerna sedan 1900-talets början har blivit välkända de senaste tio åren, liksom slogans om 1 procent och 99 procent, men metodologierna och detaljerna diskuteras inte så ofta.

Härförleden bloggade jag om James K. Galbraiths kritik av World Inequality Lab-metodologierna; här ska jag kolla på etn betydligt äldre diskussion, från 2001. Det var Anthony B. Atkinson, ojämlikhetsforskningens nestor, och Andrea Brandolini som det året publicerade sin artikel "Promise and Pitfalls in the Use of "Secondary" Data-Sets: Income Inequality in OECD Countries as a Case Study". Det känns väldigt 1990-tal när de säger att det senaste decennierna har sett många ekonometrisk studier med internationella nationalräkenskaper samlade av Summers och Heston (1991) och utbildnings med mera-data av Barro och Lee (1996) -- den typen av forskningsdesign har minst sagt gått ur modet sedan dess, i och med identifikationsrevolutionen. I alla fall så anger A och B syftet med sin artikel att diskutera internationella dataset om inkomstfördelning. Vad ger de och vilka är siskerna? Hur bör de insamlas? Hur kan de användas för att öka vår föreståelse? Viktigast är frågorna (a) om datakvalitet och (b) data consistency, två centrala frågor men som inte diskuteras så mycket som de borde. (s. 771) De jämför med fältet nationalräkenskaper: ett halvsekels framsteg där innebär att man nu kan vara ganska trygg i att måtten från olika länder faktiskt motsvarar samma sak och är jämförbara, tack vara standarder som FN:s System of National Accounts, SNA. Något sådant finns inte i ojämlikhetsforskningen.

" Gini coefficients of income inequality may be published for a range of countries, but there is no
agreed basis of definition. For example, the official series may refer to income before tax (as in the United States) or to disposable income (as in the United Kingdom)." (s. 772)

De refererar en stor mängd jämförande studier om ojämlikhet sedan 1960-talet, och kommer sedan till nutid, dvs. 1990-talet:

"The 1990s saw further construction of such data-sets, again involving international agencies. The ILO published a compendium (Hamid Tabatabai 1996), as a contribution to the International Year for the Eradication of Poverty. The World Bank, which has for years published income distribution data in its annual World Development Report, has advanced secondary data-sets both in scale and in form of dissemination. The data-set assembled at the World Bank by Klaus Deininger and Lyn Squire (1996) draws together more than 2,600 observations on Gini coefficients and, in many cases, quintile shares from a wide variety of studies covering 135 developed and developing countries. From these data, they identify a "high quality" subset of nearly 700 observa tions for 115 countries, not more than one per country per year, which they label "accept" for the guidance of users. The Deininger and Squire (DS) data-set has been made freely available at the World Bank's web-site. The United Nations University-World Institute for Development Economics Research and the United Nations Development Programme (1999) have extended this further in their World Income Inequality Database (WIID), containing about 4,600 observations on Gini coefficients, covering 149 countries. The WIID data-set is not only freely available electronically but also has an attractive and user- friendly interface." (s. 773)

De presenterar också följande magnifika tabell som ger en översikt över forskning som använt de här internationella databaserna:

Mycket av forskningen, säger A och B, har handlat om hur ojämlikhet påverakr ekonomisk tillväxt: uppmuntrar den investeringar och sparande? Är aggregerad konsumtion större om ojämlikheten är större? Många har också testat Kuznets (1955) förslag om hur ojämlikheten utvecklas över tid, eller hypotesen att alla länder konvergerar över tid till samma nivå av ojämlikheten.

I diagram 1 visas Gini-koefficienter för tidigt 1990-tal i Världsbankdatasetet (Deininger and Squire 1996) och i Gottschalk och Smeedings (1997, JEL) bearbetning av Luxembourg Income Study. Länderna rangordnas enligt nivån på ojämlikhet i DS-datat. Resultaten, säger A och B, är ganska kontraintuitiva: Danmark och Sverige i mitten av gruppen, när man hade förväntat sig låg ojämlikhet där, och Storbritannien också i mitten, när man hade förväntat sig hög ojämlikhet där -- tvärtom har UK enligt DS-datat lägre ojämlikhet ca 1990 än vad Sverige och Danmark har. Rangordningen är väldigt olik om vi istället följer LIS: korrelationen mellan Gini-koefficienterna i DS och i LIS är bara 0.48. Ordningen är mer som vi förväntar oss i LIS: Skandinavien och Benelux har lägst ojämlikhet där. Varför stå stora skillnader mellan DS och LIS? Särskilt förvirrande är det med tanke på att 7 av DS observationer enligt dem kommer från LIS. En källa till skilnader är diskrepanser i definitioner. DS har några mått som är bruttoinkomster (före skatter och transfereringar) och andra som är netto -- en otroligt grov sak att blanda! Ett annat problem är justeringar för hushållsinkomster: de flesta måtten i DS data är ojusterade totala hushållsinkomster, men två bygger på hushållsekvivalenter, alltså att man justerar varje hushålls inkomster för hur många personer de är. LIS-datat är däremot konsekvent netto-Ginis för hushåll justerade per ekvivalent person. Nästa källa till skillnader är olika data. DS data för USA bygger på Current Population Survey, just som LIS data för USA gör. Men DS har använt data på fördelning mellan familjer, hushåll med minst två personer, för att beräkna sin Gini, vilket alltså avviker från de andra måtten på hushåll, som inkluderar singelhushåll. (s. 777)

Atkinson och Brandolini visar att Romer och Romers (1998) slutsats att ojämlikheten ökar i tider med mer inflation, inte håller om man använder konsekventa data, alltså antingen bara brutto- eller bara nettoojämlikhet. (s. 778-9)

De går vidare med att visa hur olika estimaten av ojämlikhetens utveckling i Nederländerna sedan 1970-talet är, beroende på hur man mäter. (s. 779-781)

En diskussion om hur olika samlade dataset relaterar till varandra, intresserar mig inte lika mycket.

När de sedan mynnar ut i en mer praktisk rekommendation på vilka faktorer man ska tänka på:

(a) choice of reference unit; among the units used have been the household, the inner family, the tax unit, and the individual income earner; the DS and WIID data-sets, for example, are largely based on the household unit, but there are observations on other bases (as noted earlier, the 1975 figure for the Netherlands relates to income recipients);
(b) adjustment for the size (n) and the composition of the reference unit; there may be no adjustment, or total resources may be divided by an equivalence scale reflecting size and composition (one example being a per capita income distribution);
(c) welfare weighting of the single observations /.../
(d) concept of resource utilized, where a basic choice is that between income and expenditure; in general for OECD countries we have data on in come, but for Spain, for example, six of the eight DS "accept" estimates relate to expenditure, as is the case for the majority (eleven out of seventeen) of the "reliable and national" estimates in WIID;
(e) the comprehensiveness of both in come and expenditure definitions may vary: many of the income figures reported in the DS and WIID data-sets for Italy, for example, exclude interest and dividends; similar considerations apply to the definition of expenditure (such as the inclusion or exclusion of home production);
(f) the tax treatment of income can be handled in a variety of ways: /.../
(g) income, or expenditure, may be measured over a variety of time periods; most data refer to a year, but in some cases, such as the United Kingdom, the reference period for earnings is the most recent pay period; where the period is less than a year, problems of seasonality may arise (Szekely and Hilgert 1999);
(h) where the data refer to an extended period, such as a year, there will be people who are present for only part of the period, on account of entering or leaving the population; these part-year units may be excluded or included, and, if included, they may be treated in different ways (for example, a four-month income multiplied by three, or treated as a third of a person)" (s. 785)

Vad gäller källor säger det att det ofta antas att förstahandsvalet är hushållssurveys, men det finns också administrativa data. Av dessa är skattedata främst: "Historically these have provided long runs of continuous data;' today they may be linked with other sources such as social security and labor market agency records." (s. 785) Det finns en rad problem med inkomstskattedata: (i) täckningen av de med inkomster under skattetröskeln; (ii) vissa typer av inkomster kanske underrapporteras; (iii) definitionen av beskattningsbar inkomst kan variera; (iv) definitionen av skatteenhet kanske inte passar ens syften; (v) det kan uppstå problem med "part-year units" (?). Men hushålls-surveys har också problem:

"The sampling frame may be dated or otherwise unrepresentative. For example, underlying the data for Italy for 1948 (used in a number of recent studies of the relationship between inequality and
growth) was a sampling frame extrapolated from a pre-war census. Once the sample has been drawn, there is the problem of sampling error, which in turn depends on the size and structure
of the sample. Where the survey is part of a panel, there is sample attrition. ..." (s. 786)

Alla källor har problem, säger A och B, och man bör acceptera detta och redovisa problemen -- samt standardfelen för ens beräkningar -- så att användare av data kan justera på olika sätt och kombinera olika källor. (s. 786)

De diskuterar hur man ska se på olika typer av samlade internationella dataset. T ex: används top-coding, alltså att de med högst inkomster inte mäts? Och: vad för metod har använts för att beräkna Gini-koefficienter?

En egen sektion i artikeln är: "Dealing with Data Differences across Countries". Dummyvariabler i ens regressioner? Nästa sektion är: "Dealing with Data Differences over Time". Här ger de några fascinerande diskussioner av ojämlikheten över tid, där de jämför DS estimat med alternativa källor, för UK (se figur nedan), USA och Kanada.

Slutsatsdiskussionen är kort och handlar om konkreta råd. Jag tolkar andemeningen i dessa helt enkelt som att man måste hålla koll på vad grundkällorna och definitionerna och måtten egentligen är för de olika länderna i de här internationella dataseten, och att folk måste vara mer noggranna med att inte blanda estimat som egentligen inte går att jämföra. (s. 795-6)

Referenser
Anthony B. Atkinson and Andrea Brandolini (2001) "Promise and Pitfalls in the Use of "Secondary" Data-Sets: Income Inequality in OECD Countries as a Case Study", Journal of Economic Literature , Sep., 2001, Vol. 39, No. 3 (Sep., 2001), pp. 771-799

bengtzzon

onsdag 19 maj 2021

Ojämlikhet i jämförande dataset: en diskussion från 2001

Inga kommentarer:

Skicka en kommentar