torsdag 14 maj 2015

Att åldersjustera i fördelningsberäkningar baserade på tvärsnitt

Tillsammans med tre kollegor från Lund arbetar jag på en studie av förmögenhetsfördelning i Sverige 1750, 1800, 1850 och 1900. För vart och ett av dessa år har vi ca 900 bouppteckningar, som upprättats när personer dött, som anger vad den avlidne ägde och skulder som hen hade. Dessa används för att räkna ut en nettoförmögenhet för varje person, och dessa kan vi använda för att studera fördelningen av förmögenheter i befolkningen, med mått som gini-koefficienten eller toppandelar. Ett uppenbart dataproblem är dock att bouppteckningarna upprättas när personen dött, och att gamla personer därför är överrepresenterade och unga personer underrepresenterade. Detta behöver vi korrigera för på något sätt. I detta blogginlägg tittar jag därför på den klassiska metoden i bouppteckningsforskningen, som Alice Hanson Jones var pionjär för på 1970-talet, och på ett nyare nationalekonomiskt paper som handlar om åldersjusterad gini-koefficient.

Lindgren 2002
Ekonomisk-historikern Håkan Lindgren använder i artikeln "The modernization of Swedish credit markets, 1840--1905" bouppteckningar för att studera kreditrelationer i Sverige, närmare bestämt Kalmar, från 1840 till 1900-talets början. Hans intresse är hur välutvecklat låneväsendet var -- kunde man låna för att investera och liknande? -- och hurpass formaliserat det var -- lånade man banker eller från informella "sockenbankirer"? (För att använda ett begrepp som Anders Perlinge skrivit om.) När folk dog skulle deras skulder betalas tillbaka ur dödsboet, så därför var man noga med att ta med skulderna i bouppteckningen, och därför kan Lindgren använda just bouppteckningar som källa. Men det finns förstås källproblem här. Lindgren disktuerar två representativitetsproblem. Det första är: är de fattiga underrepresenterade i bouppteckningarna? Om man var mindre benägna att göra bouppteckningar för dem så blir de ju underrepresenterade. Och om de också t ex var mindre benägna att ha lån (och än mer att låna ut) så kommer "finansialiseringen" av Kalmar underskattas. (s 817-9) Lindgren refererar uppskattningar att även om lagen om bouppteckningar kom 1734 så var det så sent som 1770 bara 10 procent av de döda som boupptecknades. Men han menar att andelen som boupptecknades ökade rejält över tid så att i början av 1800-talet nivån var runt 42-43 procent och på 1830-talet "it regularly exceeded 50 percent." (Referenser till Gadds Järn och potatis, Isacsons Ekonomisk tillväxt och social differentiering, Markkanens "Use of probate inventories" i SEHR 1976, och Petersons Jordbrukets omvandling.) Därmed bör denna representativitet vara okej för hans paper, som ju börjar 1840. Vidare så är han intresserad specifikt av kreditrelationer och just där hade man extra starka incitament att bouppteckna om den döde hade skulder.

Här är det dock det andra representativitetsproblem som Lindgren diskuterar som jag är intresserad av. Det är ett fundamentalt problem med bouppteckningar som material: bouppteckningarna är ett register över de döda, men när vi forskar med uppteckningarna som material så vill vi typiskt kunna uttala oss om den levande, inte den döda befolkningen. Men de som dött är ju inte representativa: de är i genomsnitt äldre, och dessutom så kan deras beteende i slutet av livet ha påverkats av vetskapen av att döden är nära förestående (om de dör av sjukdom t ex). Så här resonerar Lindgren om detta:
"The second level of the representativeness problem concerns the degree to which the assets and debts of the deceased correspond to those of the living. This problem, in turn, has two dimensions, one systematic and one nonsystematic. The nonsystematic source of error is the most challenging and difficult to evaluate. Some people die quickly as a result of an accident or a relatively brief sickness. Others, however, expire after a long illness- a period during which they may, voluntarily or involuntarily, have rearranged their assets and debts. Invalidity itself may have forced them to sell assets, draw down their savings, or incur debts. The problem of financial erosion during the immediate pre-death period is obviously relevant to all studies utilizing estate inventories to illuminate the wealth status of the living population." (s 819)
För att kolla om denna osystematiska störning har effekter, så använder Lindgren uppgifterna i bouppteckningarna om huruvida den döde haft läkarkostnader eller ej. Har den döde haft det så tolkas det som att han eller hon visste att döden var nära, och dessa kan då jämföras med de som ej haft läkarkostnader för att se om den förra gruppen har lägre förmögenhet etc (har anpassat sig till förestående döden) än den senare. Lindgren finner dock inga signifikanta sådana skillnader. Den systematiska felkällan med bouppteckningarnas representativitet är att de inte är rättvisande vad gäller ålder, kön och klass.För att se om döende i olika åldrar är olika benägna att boupptecknas jämför Lindgren dödstalen ur dödböckerna med bouppteckningarna.


Det ser ut som att unga som dog sällan boupptecknades -- det har rimligtvis att göra med att de inte ägde så mycket. Högst andel boupptecknade är i åldern 35-49. När han gör motsvarande jämförelse vad gäller kön finner han ingen systematisk underrepresentation. För social klass finns däremot en sådan. I de "högre" grupperna har 70 procent boupptecknats, också "mellangruppen" är välrepresentead, men "de lägre klasserna" står för 60 procent av dödsfallen men bara 27 procent av bouppteckningarna. (s 822) Lindgren menar dock att dessa 27 procent är en slående hög andel och att eftersom bouppteckningarna över de fattiga visar att de verkligen var fattiga -- hade föga resurser -- så är inte de saknade fattiga så intressanta för en studie av förmögenhet och finanser. (Studerade man fördelning däremot vilket vi gör så måste förstås även de saknade fattiga korrigeras för.)

Den enda faktor som Lindgren, som ju fokuserar på skulderna, korrigerar för är ålder. Han har räknat fram dödsratios i Kalmar för fem åldersgrupper: 15-19 år, 20-34, 35-49, 50-64 och över 65. De inverterade mortalitetstalen för de fem åldersgrupperna "were used to convert the debts of estates into an estimate of the total debts of the city's entire living population. Of course, with a sufficiently large sample, it would be possible to adjust the debt figures not just for variations in death rates among age groups, but also for gender and class differences." (824) Och Lindgren förklarar i en fotnot:
"Inspiration has been drawn from the work of Alice Hanson Jones*. As early as the 1970s, she introduced this method of 'inflating' wealth data contained in estate inventories to reconstruct the physical wealth of the living population in the British North American Colonies." (824n)
För att kontrollera om den skattning som Lindgren får fram av kreditrelationer i den levande befolkningen är rimlig, så jämför han den skattade lånestocken med den faktiska lånestocken från Sparbanken i Kalmar 1840--45 och 1871--75. (Sparbankens utlåningsstatistik har han rensat från lån till landsbygden utanför Kalmar.) Med åldersjusteringen med Hanson Jones metod är de skattade värdena bara 9 respektive 7 procent under den faktiska lånestocken, så det ser ut som att skattningarna utifrån bouppteckningar är hållbara (s 825).

Hanson Jones 1972
I denna tidiga artikel från Hanson Jones projekt -- tidigare hade hon publicerat en 1970 i  Economic Development and Cultural Change samt en i Anneles 1969 -- så börjar hon med att förklara studiens syfte: "The purpose of my studies is to estimate the total and per capita wealth of the thirteen colonies in the early 1770's and something of its composition and distribution." Och hon säger om denna artikel:
"The estimates for New England presented here add another building block to the accumulating evidence that a rather high level of living was reached in the American colonies at the close of over 150 years of economic development. They also show that wealth was unequally distributed among the population in this transitionally commercial era, well before the onset of industrialism." (s 98)
Hon går genast på att förklara (och rättfärdiga) data och metodologi. Hon använder bouppteckningar och "accounts of executors or administrators of 381 estates probabated in 1774 in sample countries". Detta kan låta som ett litet underlag för den som inte är "familiar with the theory of small samples and the refinements in their application developed in recent years by statisticians", säger HJ (s 99), men hon menar att sampledesign är genomtänkt och rigoröst genomförd. Det fanns 1774 30 counties i New England och hon har grupperat dem i sju ungefär lika stora, geografiskt sammanhängande grupper. Därefter har ett county per grupp slumpmässigt urvalts. Inom dessa sju counties har HJ analyserat alla bouppteckningar från år 1774, med två undantag. I Essex County nöjde hon sig med 102 uppteckningar fram till bokstaven P bland efternamnen, och i Hampshire County fick hon komplettera med några bouppteckningar från 1773 för att komma upp till minimimålet om 25. (s 99n) Det verkar som att hon har valt år 1774 eftersom det vad gäller prisnivån var ett normalt år utan krigstidsinflation och liknande.

Bouppteckningarna i New England upprättades med tre edsvurna vittnen (ofta inkluderande änkan eller en son) utsedda av en domstol (court). De inkluderar personlig förmögenhet ("personal estate") så väl som finansiella tillgångar och krav; vidare så inkluderar de just i New England men inte annanstans i kolonierna fastigheter, jord och förbättringar på denna ("real estate"). Skulderna verkar inte alltd finnas med, så den typ av studie som Lindgren (2002) gör för Kalmar hade inte gått att göra för New England 1774. HJ:s material tycks också sämre på så sätt att de inte inkluderar ålder på personen som dött eller hans/hennes yrke; dessa uppgifter har HJ fått gräva fram med andra källor (s 100). De verkar i alla fall ha realistiska värderingar av ägodelarna, för de överensstämmer väl med priser från auktioner med dödsboen.

Hon gör två typer av skattningar av förmögenhetsnivån. Den första baseras på åldersjustering av bouppteckningarna. Den andra är med ytterligare justeringar som endast beskrivs i ett appendix som enligt en fotnot kan fås vid nationalekonomiska institutionen vid Washington University -- vilket så här 40 år senare känns svårt. (s 100n) Hon säger också att skattningarna här är i "skeleton form" och att "the framework can be fleshed out with additional details which I hope to present at a later date" (s 100).

Hennes skattning av förmögenhet per capita, med bara "physical wealth", är £36 eller, om man bara räknar fria män £174. Här är alltså inte finansiella tillgångar och skulder inräknade; detta ska hon räkna in senare, säger hon. (Men för total förmögenhet tar de förstås ut sig, så länge kreditrelationerna är inom landet.)

Hon menar att hennes förmögenhetsskattning överensstämmer med en del andra indikatorer som säger att den genomsnittliga amerikanska kolonisten hade en högre levnadsstandard under 1700-talets tredje fjärdedel än vad deras europeiska motsvarigheter hade. Däremot får hon fram en lite lägre förmögenhet per capita New England jämfört med hennes tidigare (1970) skattning för "the Middle Colonies" (New York, Pennsylvania osv). (s 105) Hon menar kolonisterna inte exploaterades av England utan snarare deltog i en lukrativ internationell ekonomi ledd därifrån.

Hon kollar också på förmögenhetens sammansättning. "Real estate" (jord och fastigheter) står för 70 procent i New England och 63 procent i Middle Colonies. Hon gör också en jämförelse med förmögenheterna i USA 1966 som inte framstår som så intressant. (s 108f) Hennes diskussion av sammansättningen är överhuvudtaget inte så intressant utan består rätt mycket av en lista av saker som folk kunde äga (jfr kritiken i recensionen i Social History, fotnoten nedan).

Strukturen i pappret är obegriplig och långt bak kommer en metoddiskussion. Hon konstaterar att bouppteckningsdata måste ålderskorrigeras, eftersom (1) äldre är mer benägna att dö än yngre, och (2) äldre har i genomsnitt större förmögenheter. Detta syns i tabell 4.


Justeringen görs genom en viktning av data utifrån de levandes åldersfördelning för proportionerna. (s 114)

Vidare så vill Hanson Jones justera för att en del av befolkningen aldrig boupptecknades; antagligen var fattiga överrepresenterade i denna grupp. Hon räknar ut att i New England var det 63 procent som inte boupptecknades, vilket är mycket högre än 29 procent som hon fann i Middle Colonies. (s 116) I Middle Colonies antog hon att de 29 procenten i genomsnitt hade en fjärdedel så stor förmögenhet som genomsnittet för de som boupptecknades. (s 117) Denna guesstimate baserar hon på ett resonemang att många av dem som inte boupptecknades antagligen var sådana som var helt utan förmögenhet, men att också en del med förmögenhet kan ha löst arv och bodelning informellt, utan att kalla in den offentliga administrationen. (s 116f) Därför antar hon inte noll förmögenhet hos dem. I New England där hela 67 procent inte boupptecknades verkar däremot 1/4-antagandet alltför lågt. (s 117) Istället använder hon här ett antagande om att deras förmögenhet var 1/2 av de boupptecknades. Det är med detta antagande som hon har fått fram skattningen av £36 förmögenhet per capita. (s 118)

När hon ska göra beräkningar av fördelningen av förmögenheterna så provar hon både med 1/2 och 1/4-antagandena för de icke boupptecknade, och med två olika antaganden om fördelningen inom gruppen icke boupptecknade.


Om hon ignorerar de icke boupptecknade och deras idiosynkrasier, och bara gör en åldersjustering (skattningen "Probate-type living, Free Adult") så får hon en förmögenhetsgini på 0.58 i New England, och att de rikaste tio procenten äger 40 procent av den totala förmögenheten. Om hon däremot också gör en justering för icke boupptecknade så blir ginin 0.64 med antagandet om att de icke boupptecknade i snitt har 1/2 av vad de boupptecknade har, eller 0.71 med antagandet om 1/4. Den rikaste decilen äger här 47 eller 32 procent av den totala förmögenheten.

Resultaten, säger hon, stärker nyare revisionism oom ojämlikheten i USA/kolonierna före revolutionen. Tidigare har man antagit att förmögenhetsojämlikheten var "fairly small" före 1800-talet och sedan ökade kraftigt med industrialiseringen (s 121). HJ håller med om att ojämlikheten nog ökade på 1800-talet, men att den var hyfsat hög redan 1800. Gallman (1969, NBER Conference on Research in Income and Wealth) har skattat förmögenhetsginin år 1860 till 0.82, med ett antagande om noll förmögenhet i de fem lägsta deceilerna. HJ menar att några i denna lägre halvan av befolkningen hade förmögenhet, men inte så mycket att det skulle göra någon stor skillnad.

Hanson Jones har i slutet av artikeln också en sektion om yrken och förmögenhet samt förmögenhet per county, men det är inte av intresse här.

Hanson Jones 1982
Detta papper är tio år senare än det förra som jag diskuterat och under tiden har Hanson Jones hunnit publicera flera papers och två viktiga böcker: American Colonial Wealth (1977) och Wealth of a Nation To Be (1980). Detta papper sammanfattar hur hon gjort sin 1774-förmögenhetsskattning utifrån bouppteckningar genom att använda statistisk "theory of small samples". Hon argumenterar för sin metod, kollar på möjliga vägar framåt, och svarar sina kritiker.

Hennes data för 1774 består av 919 bouppteckningar. Hon har skapat 21 kluster av counties. Varje county har haft samma sannolikhet att ingå i samplet, korrigerat för befolkningsmängd. Boston, Salem, Philadelphia och Charleston är med, men inte på grund av några speciella urval (s 275). Bouppteckningarna har kompletterats med uppgifter om jordägande från skattelistor i Middle Colonies och från jordköp i Södern. (jfr s 278 om att "real estate" inte är med i bouppteckningarna där.) Hanson Jones har gjort två justeringar till data: för den ojämna åldersfördelningen bland de boupptecknade, och för grupper som hade mindre sannolikhet att bli boupptecknade (s 274). Så här formulerar Hanson Jones sig om att dra slutsatser om den levande befolkningen utifrån bouppteckningarna:
"If the findings from decedents are to be interpreted as applicable to the living population, then a further question needs to be asked. What systematic differences exist between the decedent population and the living population which might importantly affect the outcome? For example, does the older age of many decedents suggest greater wealth and landholding than would be expected among a living population with more younger persons in it?" (277)
Hanson Jones diskuterar också relaterade dokument -- testamenten, godsförteckningar -- och varför skattedata inte funkar för att studera förmögenhet i USA före ca 1860, 1870 nånting. (s 279-281) (Jfr Piketty och Zucman 2013: vad gäller historisk förmögenhetsfördelning i USA så har de för 1870, 1880, 1900 och 1912 data från Goldsmith (1952, 1962, 1965) men tidigare än så använder de skattningar från Hanson Jones (1977).

Almås och Havnes 2012 
"Income and wealth differ over the life cycle. In cross-sectional distributions of income or wealth, classical inequality measures such as the Gini could therefore find substantial inequality even if everyone have the same life-time income or wealth." Så tydligt och bra börjar de norska nationalekonomerna Ingvild Almås och Tarjei Havnes sitt paper "Adjusting for age effects in cross-sectional distributions", publicerat i Stata Journal 2012. Det är rätt intuitivt: vi kan förstå att man tenderar att få högre inkomst när man går från att vara t ex 20 år till 50, och än mer om man jämför barn med vuxna. I vanliga jämförelser brukar man väl använda en population med bara de över 16 eller över 20 år (och kanske bara de i arbetsför ålder), men också då kommer åldersorsakade skillnader att kvarstå.

Almås och Havnes korta artikel går egentligen ut på att presentera ett kommando, adgini, som de har skrivit till Stata och som gör åldersjusteringar i gini-beräkningar. Men för att kunna förklara det förklarar de också vad för typ av ålderskorrigeringar som görs med olika alternativa ginibegrepp. Den första som presenterade ett åldersjusterat ginibegrppp var Paglin (1975), och Almås och Havnes presenterar i denna artikel tre olika justeringar: Paglin-gini, Wertz-gini (1979), och så deras egna AG-gini.

De presenterar denna generella formel för att räkna ut AG:


där det viktiga för våra syften är w_i och ~w_i samt w_j och ~w_j. w_i är den förmögenhet (wealth) som individ i har, och ~w_i är den förmögenhet som individ i skulle ha för att nå en helt jämn förmögenhetsfördelning. Motsvarande är w_j och ~w_j detsamma för individ j, och vad formeln gör är alltså att ta summan av (Σ) jämförelserna mellan olika individer i populationen för deras respektive avstånd mellan deras faktiska förmögenhet och den förmögenhet som de skulle ha med en jämn fördelning. Skillnaden mellan AG, det åldersjusterade måttet, och vanlig gini är att den utjämnande förmögenhetsnivån (~w) inte är samma för alla individer, utan beroende av vilken åldersgrupp man tillhör. (I vanlig gini är den utjämnande förmögenhetsnivån μ som är medel-förmögenheten.)

Finessen med deras mått AG jämfört med Paglin-gini och Wertz-gini är att PG och WG endast tar hänsyn till ålder när åldereffekten ska rensas bort. Med AG-begreppet utgår man däremot från att det finns faktorer som påverkar förmögenheten som också korrelerar med ålder (mest uppenbart, utbildning) och att PG och WG därför kommer överskatta ålderns betydelse för förmögenheten. AG använder därför en multipel regressions-approach för att åldersrensa. De ställer upp en formel för individens förmögenhet w_i:

w_i = f(a_i) h(X_i)

där där a_i är individens ålder och f följdaktligen effekten av ålder på förmögenhet, och X_i en uppsättning kontrollvariabler, med h som effekterna av dem. Poängen är alltså att få fram en "ren" ålderseffekt på förmögenheten.

Så här presenterar de Wertz-gini:


Denna bygger på summan av skillnaderna mellan avståndet mellan individpars förmögenhet (w_i resp w_j) och den genomsnittliga förmögenheten i deras åldersgrupp (μ_i resp μ_j).

Och Paglin-gini:


Ett problem med PG som Almås och Havnes pekar på är att den högsta förmögenheten i en yngre åldersgrupp med lägre medel (t ex μ_i) kan vara högre än den lägsta förmögenheten i en äldre åldersgrupp med högre medel (t ex μ_j). Denna överlappning stökar till jämförelsen. (s 9) Denna överlappning räknas själv ut (den kallas R) och en debatt kring PG är huruvida R ska ses som en "inter-age or a within age-groups component".Referenser
Almås, Ingvild och Tarjei Havnes (2012) "Adjusting for age effects in cross-sectional distributions", The Stata Journal.
Hanson Jones, Alice (1972) "Wealth estimates for the New England colonies about 1770", Journal of Economic History.
Hanson Jones, Alice (1982) "Estimating wealth of the living from a probate sample", Journal of Interdisciplinary History 13: 273-300.
Lindgren, Håkan (2002) "The modernization of Swedish credit markets, 1840--1905: Evidence from probate records", Journal of Economic History.

Fotnot
*Alice Hanson Jones är en legend inom ekonomisk historia -- amerikanska Economic History Associations pris för bästa avhandling heter t ex Alice Hanson Jones-priset -- men  det är inte alla som har älskat hennes forskning. Recensionen i Social History av hennes bok Wealth of a Nation To Be (Columbia UP, 1980) är historiografiskt intressant:
"There is no doubt that Wealth of a Nation To Be is a book to be reckoned with. Some critics will reckon it a good book - a milestone in the "statistical dark age" of American economic history; and others a bad book - a millstone in the tradition of the "new economic history" of early America. I hold to the second view.
The attractions of this statistician's handbook and its model for inquiry into "national wealth" and "national income" in the American colonies on the eve of Independence have not escaped me. The appeal, of course, lies in the technically elegant account of how colonial wealth - or, more precisely, of how the aggregate and per capita, non-human private wealth of the 2.35 million free people, excluding Indians, who inhabited the American colonies in 1774- can be derived by applying modem statistical and sampling methods to late eighteenth-century probate records; in the seemingly endless explanations of sophisticated calculations which, because they are difficult and deceptive, need all the explaining they can get; and in the enormous amount of data collected into hundreds of tables and figures that litter the text. Material of this nature takes up better than half of the book. The rest represents an effort to play with the data and to bring it to bear upon issues of social structure and of wealth distribution. But here the probate sample is too small to do justice to the topics, and the discussion slips from the sophisticated to the simplistic. Generalizations tend to be sophomoric, comparisons misleading and conclusions banal. In the end, it is this contrast between technique and history that prevents an ambitious study of early American wealth patterns, with its undoubtedly useful model for teasing national wealth and income figures out of probate records, from assuming any great importance in the historical literature.
The preliminary to this book should not be missed. In her preface, Alice Hanson Jones explains the origins of the work and reveals a great deal about herself - her high spirits, courage, tenacity and impressive credentials as a statistician and an economic historian in pursuit of a lifelong interest in the well-being of the "common man". Not marriage, motherhood, the Great Depression, a sojourn with the Bureau of Labor Statistics, World War II or serious illness, it seems, could deter Jones from finishing, some thirty-five years later, a dissertation, begun in 1934 as a study of the "standard of living in the northern American colonies, ca. 1770", on the subject of the "Wealth Estimates for the American Middle Colonies, 1774" (pp. x, xi). The slight but significant shift in the technical, spatial and temporal parameters of the dissertation occurred when, in 1964, Jones chanced to take a handful of published probate records to her dissertation adviser, Robert W. Fogel, then a professor of economics at the University of Chicago. "His eyes glistening", Fogel asked, '"Where are these things?' and, 'Why couldn't you take a cluster sample of counties, take a subsample of inventories from these counties for a certain date or dates, and why couldn't you made [sic] a wealth estimate?'" (pp. xi, xii).
Why not, indeed. Four years later, the job done and dissertation in hand, she again sought out Fogel who this time, doubtless with eyes still shining, urged, "Go on and do it for all thirteen colonies" (p. xii). The rest, as they say, is history- the history of a small handicraft industry of workers and advisers, headed by Jones, which over the next dozen years produced a three-volume work, American Colonial Wealth: Documents and Methods, published in 1977 by Amo Press; a second, revised edition of the same work, published in 1978 under a new title, American Colonial Wealth ; several articles ; and, finally, the present study, Wealth of a Nation To Be."
...