Visar inlägg med etikett Metod. Visa alla inlägg
Visar inlägg med etikett Metod. Visa alla inlägg

måndag 6 januari 2025

Problem med interaktionsmodeller

 
diagnostiska scatterplots som rekommenderas av Hainmueller, Mummolo och Xu 
för forskare som använder interaktionsmodeller
 

I kvantitativ samhällsvetenskap är det vanligt med interaktionsmodeller, regressioner där utfallsvariabeln (Y) inte bara beror på två olika förklarande variabler (D och X), utan också på samvariationen mellan D och X. Man kan, för att ta exempel från studier som jag bloggat om, argumentera som Hope och Martelli att inkomstojämlikheten påverkas både av informations- och kommunikationsteknologin som ökar efterfrågan på högutbildad arbetskraft, och av arbetsmarknadsinstitutioner som regleringar och fackföreningsstyrka, och av interaktionen mellan teknologi och institutioner: teknologin kommer ju inte implementeras på samma sätt i USA och i Sverige. Eller så kan man argumentera som Evans att implikationerna av ens klasstillhörighet för ens placering på vänster-höger-skalan kommer variera med ens grad av kyrklighet. Man kan också argumentera som Potrafke att globaliseringen av ekonomin skärper skillnaderna mellan vänster- och högerregeringar vad gäller offentliga utgifter. Det är bara tre exempel från 2000- och 2010-talens samhällsvetenskap; interaktionsmodeller har över huvud taget blivit mycket intensivt använda dessa decennier.

Det indikeras också av hur många citeringar ledande metodartiklar om interaktionsmodeller har: Brambor, Clark och Golders mycket inflytelserika artikel från 2006 har snart 7500 citeringar på Google Scholar. [1] Statsvetarna Jens Hainmueller (verksam vid Stanford), Jonathan Mummolo (Princeton) och Yiqing Xu (också Stanford) intervenerade i denna diskussion för fem år sedan med sin artikel "How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice". De börjar med att definiera interaktionsmodellen:

 Y = μ + αD + ηX + β (D · X ) + e

Här är α effekten av den ena förklarande variabeln vi är intresserade av, η är effekten av den andra förklaringsvariabeln, och β är interaktionseffekten: hur effekten av D varierar beroende på värdet på X.

Hainmueller, Mummolo och Xu (hädanefter sammanfattar jag dem som HMX) lägger fram två problem med interaktionsmodeller så som de används i statsvetenskap idag. Det första är att interaktionsmodellen låter effekten av D variera med värdet av X, men däremot antar man att själva interaktionseffekten β är linjär "and follows the functional form given by ∂Y /∂D = α + β X .". De kallar detta antagandet LIE, linear interaction effect, och menar att när de replikerar 46 interaktionseffekter i 22 artiklar i statsvetenskapliga topptidskrifter, så varierar effekten bara linjärt i 48 procent av fallen. Deras andra problem talar till mitt historiker-hjärta:

"Scholars using multiplicative interaction models routinely report the effect of D on Y across a wide range of X values by plugging the X values into the conditional marginal-effect formula ∂Y /∂D = α + β X . However, often little attention is paid as to whether there is sufficient common support in the data when computing the conditional marginal effects. Ideally, to compute the marginal effect of D at a given value of the moderator, x_o , there needs to be (1) a sufficient number of observations whose X values are close to x_o and (2) variation in the treatment, D , at x_o . If either of these two conditions fails, the conditional marginal-effect estimates are based on extrapolation or interpolation of the functional form to an area where there is no or only sparse data and therefore the effect estimates are fragile and model dependent (King and Zeng 2006). In our replications we find that this type of extrapolation is common in empirical practice." (s. 165)

Helt enkelt en poäng i den empiriska andan: vilken variation har du egentligen att utforska i X och Y? Hur samvarierar egentligen D och X -- om din estimerade β säger att effekten av D är mycket starkare när X är 60 än när X är 30, finns det egentligen några datapunkter i ditt dataset där värdet på X är 60, och bland dessa datapunkter, finns det verkligen variation i D, att det finns datapunkter med högt X och lågt D, och datapunkter med högt X och högt D? Utifrån sin replikation av de 22 artiklarna, så säger de att i praktiken så presenterar statsvetare ofta sina interaktionseffekter som om de hade full variation på X och full variation på D, även när så inte är fallet.

HMX artikel är hands on och hjälpsam: deras första sektion efter att de förklarat de två problemen, är att presentera diagnostiska verktyg som empiriska forskare kan använda för att förstå om deras data lider av problemen, (1) LIE-antagandet eller  (2) "lack of common support". Som så ofta är scatterplots av rådatat till hjälp. För en modell där D är binär (0 eller 1), "we recommend plotting the outcome Y against the moderator X separately for the sample of treatment group observations (D = 1) and the sample of control group observations (D = 0)." För båda samplen rekommenderar de att man ska köra en linjär regression och en LOESS fit. Dessa scatterplots är 1a och 1b i Figur 1 som jag klistrat in ovan. I 1a ser vi att effekten av X på Y är mycket starkare i gruppen där D = 0 än i gruppen där D = 1, så det finns en effekt av D * X. LOESS och linjär regression divergerar inte särskilt mycket, så β är något i stil med linjär. I panelerna 1b, uppe till höger, är interaktionseffekten i (det hypotetiska) datat ickelinjär, och vi ser att linjerna från en linjär modell (blå) och LOESS (röd) divergerar kraftigt. Men också här förändrar D relationen mellan X och Y.

För problem två, common support, rekommenderar de att "we can simply compare the distribution of X in both groups and examine the range of X values for which there are a sufficient number of data points for the estimation of marginal effects." (s. 169) De har också inkluderat box plots för att illustrera spridningen på ett effektivt sätt. I box plotsen är punkten medianen, slutpunkterna på de tjocka staplarna är 25:e och 75:e percentilen, och slutet på de tunna staplarna är 5:e och 95:e percentilerna. Här är ju D binär och det är relativt enkelt att illustrera spridningen av X för olika värden av D: om D är kontinuerlig så rekommenderar de en "simple binning approach", med tre grupper: låg X (lägsta tredjedelen), mellanhög X (andra tredjedelen) och hög X (tredje tredjedelen).  Dessa tre plots, för deras hypotetiska data med kontinuerlig D och en linjär interaktionseffekt, finns på 1c. De tre plottarna visar tydligt närvaron av en interaktion D * X eftersom Y varierar negativt med X när D är låg (vänstra plotten), men positivt när D är hög (högra plotten).

I följande sektion presenterar de hur man kan beräkna effekten av D på Y givet olika värden av X. För siatutionen när X är kontinuerlig rekommenderar de, i enlighet med approachen som gav plottarna i 1c, att man delar in datat i tre delar med avseende på värdet på X. (s. 170-173) Figur 2 visar både interaktionseffekter beräknade och visade så som Brambor, Clark och Golder (2006) rekommenderar -- en linjär interaktion från lägsta till högsta värdet på X -- och så som HMX rekommenderar, med effekten av D helt enkelt beräknad för tre grupper: de med lägst värde på X, de med mellanvärden, och de med högst värde. Ironiskt (?) nog skulle en ren HMX-plot, alltså utan linjen med skuggade konfidensintervall som kommer från BCG, nog se mindre "fancy" ut.


Deras andra variant på hur man kan beräkna interaktionseffekter är en kernel smoothing estimator, en semiparametrisk estimator där en serie lokala effekter beräknas. Denna är tyngre att beräkna än den enklare varianten med tre bins, och inte lika enkel att presentera resultaten ifrån. (s. 173-175)

I följande sektion går de igenom 22 artiklar publicerade i fem topptidskrifter inom statsvetenskap: he American Political Science Review (APSR), The American Journal of Political Science (AJPS), The Journal of Politics (JOP), International Organization (IO) and Comparative Political Studies (CPS). Från dessa 22 artiklar analyserar de 46 beräknade interaktionseffekter. HMX visar att större delen av dessa argument om interaktionseffekter lider av ett eller båda av de problem som diskuterats i artikeln. Figur 5, som jag klistrat in nedan, illustrerar problemet "Lack of common support", att X helt enkelt inte varierar tillräckligt mycket för de olika värdena på D för att man ska kunna dra slutsatser om att effekten av D beror på värdet på X. Den övre plotten (a) visar att datasetet har extremt få observationer med D=1, D är oftast 0, och att observationerna med D=1 är väldigt snävt klustrade runt låga värden på X. Därför blir det orimligt att extrapolera till hur effekten av D skulle vara när X är lågt eller högt.


Figur 6 visar liknande problem. Här är det en studie, utförd som ett experiment i Vietnam, om ifall transparens och publicitet gör parlamentariker mer hederliga och mer aktiva som politiker. Författarna hävdar att effekten av publiciteten (i form av granskande journalistik, variabel D här) varierar med hur stark tillgången till internet är i politikerns provins. Tillgången till internet är alltså X i notationen använd här, och politikerns arbetskvalitet är Y. Figur 6 visar uppe till vänster författarnas egna graf, gjord i Stata, som tycks visa en mycket elegant linjär effekt, med inga signifikanta effekter av D när värdet på X är ungefär 0 till 2,5, och därefter signifikanta och allt starkare effekter. Men HMX plott (b) visar att tillgången till internet -- X -- faktiskt varierar extremt lite, och har ett par extrema outliers. [2] Dessa droppas i (c), och vi ser att den skattade effekten blir väldigt mycket flackare och aldrig statistiskt signifikant. Också kernel-skattningen i (d) visar detta.

De diskuterar också en artikel som argumenterar att närheten i tid till ett presidentval (D) påverkar hur många partier som ställer upp i ett parlamentsval (Y), men att effekten varierar med antalet presidentkandidater (X). Också här finns det problem med brist på variation i datat. I 59 procent av observationerna var värdet på X 0, och bland dessa 59 procent fanns det ingen variation alls i Y. Alltså kunde inte HMX bin-strategi estimera någon interaktion för den lägsta tredjedelen vad gäller X. Det är inte heller så, som ursprungsartikeln argumenterar, att interaktionen D * X är linjärt ökande: för låga värden på X finns det som sagt ingen interaktion alls, eftersom det inte finns variation, och enligt HMX var interaktionen för resterande 41 procent av observationer ickelinjär. (s. 182) Kernel-estimaten ger ungefär samma bild, med mycket breda konfidensintervall för låga och höga värden för X, och få statistiskt signifikanta platser för β.

Från de illustrativa exemplena går HMX vidare till en översikt över de 46 interaktionseffekterna i de 22 artiklarna. De skapar ett enkelt poängsystem där varje interaktion för 0 eller 1 poäng för varje indikator: (1) inga statistiskt signifikant olika värden för β på "låga" och "höga" värden på X, (2) vad de kallar "severe extrapolation", och (3) ickelinjära interaktionseffekter. 0 poäng är alltså toppen, inga problem här, och 3 är inte alls bra. Medelvärdet för de 46 interaktionseffekterna blev 1,7, vilket indikerar rätt seriösa problem; bara 4 av 46 effekter fick ett perfekt resultat, 0 poäng. Däremot fick 7 effekter 3 poäng. (s. 184)

HMX artikel var alltså välbehövlig och starkt motiverad: det är också talande att den redan, fem år efter sin publicering, har över 1000 citeringar på Google Scholar -- forskarna verkar alltså varit ivriga att ta till sig insikterna om interaktionsmodellernas potentiella problem. Till succén hör nog också att författarna skrivit kod för R, paketet "interflex", som man kan använda för att göra precis de diagnostiska analyser som de rekommenderar. Föredömligt!


 

referens

Jens Hainmueller, Jonathan Mummolo och Yiqing Xu (2019) "How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice", Political Analysis vol 27 s. 163-192.

fotnoter

[1] Hainmueller, Mummolo och Xu sammanfattar Brambor, Clark och Golders artikel så här: " For example, Brambor, Clark, and Golder (2006) provide a simple checklist of dos and don’ts.2 They recommend that scholars should (1) include in the model all constitutive terms (D and X ) alongside the interaction term (D · X ), (2) not interpret the coefficients on the constitutive terms (α and η) as unconditional marginal effects, and (3) compute substantively meaningful marginal effects and confidence intervals, ideally with a plot that shows how the conditional marginal effect of D onY changes across levels of the moderator X." (s. 164) HMX kommenterar att de flesta statsvetenskapliga artiklar som publiceras idag med interaktionsmodeller, följer BCG:s råd.

[2] I författarnas egna graf vser vi att effekten av D ska vara stark och statistiskt signifikant när tillgången till internet, X, har värden runt 2,5 till 9. Men plott (b) visar ju att det i princip inte finns några sådana observationer i datat! James Anderson har gjort en liknande kritik av artikeln redan 2013: Andersons mer policyinriktade papper påpekade att författarnas beräkningar faktiskt föreslog att "transparens" (så som de mätte det) faktiskt hade en positiv men icke signifikant effekt i ungefär 80 procent av valdistrikten.

torsdag 4 januari 2024

Kontingens

 
Franska nationalförsamlingen 4 augusti 1789, målning av Charles Monnet.
Nationalförsamlingen förklarade denna session att: "The National Assembly 
abolishes the feudal system entirely."


I samhällsvetenskapliga förklaringsförsök används "contingency", som jag översätter som kontingens, som beteckning för utfall som undflyr teoretiska försök att förutsäga, utfall som undflyr de förväntade mönstren. Sociologen Ivan Ermakoff, professor vid University of Wisconsin-Madison, har en mycket fascinerande artikel på detta tema i American Journal of Sociology från 2015. Så här elegant introducerar Ermakoff sitt problem:

"The notion of contingency presents us with a quandary. We use it to designate what we do not know, what is outside the realm of an inquiry, or what eludes the grasp of an explanatory model (Carr 1963, p. 134; Gallie 1964, p. 92). In so doing, we make the notion a residual category: being outside of knowledge, outside of an inquiry, or outside of an explanatory model, contingency has no fixed place and no content proper. Its boundaries are indefinitely extensible. Whatever content it may have, it owes to the entity that makes it residual. It exists, so to speak, by proxy." (s. 64-65)
Detta är som jag uppfattar det den gängse definitionen av det kontingenta: residualen från prediktiva modeller, det undflyende. Men Ermakoff menar att "kontingens" används också på ett annat sätt: "to characterize processes and events that could have not been or could have been otherwise" (s. 65). Syftet med Ermakoffs artikel är att utreda de två motstridiga definitionerna, det kontingenta som en residual eller det kontingenta som en egenskap för vissa processer. Kan vi säga att en del processer är mer, andra mindre kontingenta? Ermakoff är inte nöjd med perspektivet som ser kontingens som slumpens verk:

"equating contingency with chance happenings without further ado is limiting in two respects. First, the claim of causal independence implies paying attention to disruptions exogenous to the system of action being considered. In the realm of social and historical phenomena, however, such a focus is too restrictive: in many instances, disruptive happenings are endogenous to the process that they contribute to derailing. If so, causal independence no longer applies. Second, the notion of chance happenings leaves open the question of how we should analyze the impact of disruptive happenings on collective outcomes. An exclusive focus on chance happenings moves the attention away from the identification of indeterminacy as a property intrinsic to processes and events." (s. 66)

Om vi ser obestämbarheten (indeterminacy) som en inneboende del av processerna, så kan vi också komma till individers betydelse på denna väg. Enskilda individers påverkan kan ses som exempel på hur "små" orsaker kan ha "stora" effekter. Ermakoff efterfrågar en systematisk analys av hur rollen för individens agens begränsas och bestäms, och han teoretiserar detta genom fyra typer av påverkan: pyramidal, pivotal, sequential, och epistemic. Så här definierar han dessa fyra:

"A pyramidal impact rests on the existence of a hierarchical system of power relations. Pivotal is the action that decisively shifts a balance of power. Sequential impact describes the alignment of individual stances on observed behavior. The impact is epistemic when it affects beliefs that actors presume they are sharing." (s. 66)

Ermakoff använder en analys av nattsessionen för Frankrikes Nationalförsamling 4 augusti 1789, där församlingen tog det legendariska beslutet att "avskaffa det feodala systemet", för att utveckla teorin. Artikelns bidrag är tre. (1) en kritisk diskussion och utvärdering av olika perspektiv på kontingens. (2) artikeln "engages the challenge posed by the presumption of indeterminate social and historical processes", utan att falla i fällan att helt enkelt avfärda utfall som slumpmässiga. (3) artikeln ger en typologi över individers påverkan -- "små" orsaker med "stora" utfall. (4) Artikeln utvecklar en metod för att analysera kedjor av kausalitet och slumpens roll i dessa. (5) en ny, teoretiskt grundad, analys av vad som hände i Nationalförsamlingen 4 augusti 1789.

Den första sektionen efter introduktionen diskuterar fyra "conceptual hints" för hur man kan analysera kontingens mera precist. Den första är "conjunctural causation", där utfall beror på olika konstellationer av orsaker, och en viss faktor alltså inte alltid ger samma utfall, beroende på andra faktorer (Abbott 2001; Hall 1999; Ragin 1987). Här är samhällelig kausalitet alltså nästan per definition kontingent, eftersom utfall beror på olika interaktioner (s. 71). Därmed blir definitionen också för bred för Ermakoff, eftersom alla processer i detta perspektiv är kontingenta. Den andra ledtråden är historisk tid, som i sin tur har två versioner: antingen en där historisk kontext och "environmental factors" mer allmänt spelar roll, en annan som mer specifikt fokuserar på sekvenser av händelser och hur ordningen av händelser spelar roll (Abbott 1983). Ermakoffs kritik mot denna konceptualisering är lik den mot "conjunctural causation", att den inte ger en tillräckligt systematisk analys av orsak och verkan, och kontingensens roll där i. Den tredje ledtråden är slump (chance): i samhälleliga processer kan det finnas helt lösryckta orsaker som inte alls är inblandade i någon endogen samhällelig process: från Gallie (1964) lånar Ermakoff exemplet med att den engelske kungen William III:s häst snavade över en gång grävd av en mullvad, vilket gjorde att kungen bröt ett ben, vilket gjorde att han fick lunginflammation och dog. Ingenting som William III eller någon av hans allierade eller politiska fiender hade gjort, bestämde var mullvaden grävde. Ermakoff menar dock att denna typ av rena slump är ovanlig, och tar ett kontra-exempel: att en soldat den 23 februari 1848 på Boulevard des Capucines i Paris, utanför Utrikesdepartementet, avlossade sitt gevär mot en folkmassa, varpå kravaller bröt ut vilket orsakade februarirevolutionen 1848. Ermakoff menar att även om det var den enskilde soldatens nervositet som fick honom att -- utan att ha blivit beordrad -- avlossa geväret, så gjorde kontexten det sannolikt att något skulle hända; skottet var så sett endogent till den övergripande processen. Vidare så menar han att även om slumpmässiga händelser sker hela tiden, så är vi inte intresserade av det i sig, utan av händelsernas effekter, och för att förstå dem måste vi se dem i de sociala processerna (Sewell 1996). Den fjärde ledtråden är mänsklig agens. Om människan har en fri vilja, kan inte historiens gång vara förutbestämd, är ett vanligt perspektiv. Ermakoff relativiserar detta: människan bestämmer inte fritt sina utfall, utan misslyckas ofta med vad han eller hon försöker: han tar som exempel (från Hall 1999) att om Englands kung Charles I inte hade varit så dålig på att sköta kronans affärer, så hade varken kronans budgetproblem eller kriget mot Skottland lett till revolution och republik. (s. 75) John R. Hall (Cultures of Inquiry, 1999) och andra har teoretiserat hur olika personer har olika kraft att påverka historien; Hall använder begreppet "effort" för att beteckna "variation in the strength of intentionality". Jag undrar dock om inte Ermakoffs avfärdande av individens agens som källa till kontingens, är rotat i samma strävan efter precision som avfärdandet av slumpen och "conjunctural causality".

Från denna kritisk diskussion går han vidare till ett mer positivt program om att analysera historiska processer som endogent kan generera obestämdhet och kontingens. Central här är frågan om hur vissa orsaker (händelser) får stora effekter -- och andra inte. En typ av effekt är den pyramidala: en liten grupp agerar bestämt, och får stora effekter. Som exempel (från Traugott 2002 och Sewell 2005) tar Ermakoff de stora effekterna av att Eugène Thomas, direktör för den franska statens verkstäder för att ge fattiga arbete, fick sparken i maj 1848. Att han blev avskedad ledde till stora protester och bidrog till junirevolten 1848. Den andra typen av effekt är pivotal, när ett fåtal individer "reconfigure a balance of forces between two camps". Från Leff (1969) lånar Ermakoff ett exempel: om inte två styrelsemedlemmar för det tyska nationella folkpartiet hade varit frånvarande från ett möte den 30 juni 1930 hade Hugenberg antagligen inte kunnat leda partiet till en allians med Hitler, och Hitler hade då inte kommit till makten som ledare för en parlamentarisk majoritet. En tredje typ av effekt är sequential: en händelse som "triggers a process of behavioral alignment" (s. 79). Detta är relaterat till  formella modeller av spridning av beteende: tröskelmodeller, kaskadmodeller, och vågmodeller. Som exempel tar Ermakoff den mycket stora effekten av att gatuförsäljaren Mohamed Bouazizi den 10 december 2010 tände eld på sig själv i protest mot situationen i Tunisien. Efter bara tre veckor fick presidenten lämna landet. Den fjärde typen av stor effekt är epistemic, en påverkan på hur folk formar vad de vet och vad de tror. Som exempel tar Ermakoff när Slobodan Milosovic på en resa till Kosovo 1987, i egenskap av kommunistisk funktionär, inte tog avstånd mot nationalistiska uttryck, utan tvärtom uppmuntrade serbisk nationalism mot Kosovo.

I sin egen analys av den franska nationalförsamlingens "avskaffande av feodalismen" tar Ermakoff hänsyn till dynamiken över tid i sociala processer, och hur en individs agerande och uttalanden kan påverka andra personer och även öka osäkerheten om vad som kommer att hända -- en faktor som förstås i sig har implikationer för utvecklingen. Nationalförsamlingen möttes från den 5 maj 1789, tillkallade av Ludvig XIV på grund av nationens kris (ekonomisk och vidare), för första gången sedan 1614. Den 12 juli börjar upploppen i Paris, den 14 juli stormar folkmassorna Bastiljen, och under andra halvan av juli pågår bondeuppror på landsbygden. När nationalförsamlingen samlas i början av augusti är det alltså under svåra krisförhållanden i landet. Redan i början av session den 5 augusti talade två adelsmän för att införa jämlik beskattning (oberoende av stånd) och lätta feodala krav på bönderna. Redan i början talade alltså två aristokrater om reform; hur skulle detta tas emot? Osäkerhet rådde och olika politiker kunde alltså påverka förloppet. På förhand skulle man inte ha förväntat sig -- givet de sociala och politiska skiljaktigheterna -- att de tre stånden skulle ha samlats om att avskaffa feodalismen, men så hände, och olika historiker som Furet (1989) och Sewell (1985) har pekat på den 5 augusti 1789 som en avgörande händelse i den franska revolutionen. Ändå är orsakerna fortfarande gåtfulla, menar Ermakoff.

Därför lägger han fram sin analys i en Event Study Analysis. Han betonar hur överraskade politikerna själva blev över utvecklingen (s. 89-90). Figur 1 presenterar ESA:n grafiskt, med de olika delhändelserna presenterade steg för steg i kronologisk ordning, och med olika scenarios för hur diskussionen skulle kunna sluta. Scenario 1 är vad man började med, ett uttalande om att återskapa lag och ordning på landsbygden. Scenario 2 är att avskaffa feodala privilegier och skapa skattejämlikhet. Scenario 3 är konflikt, klyftor och polarisering. I sin analys betonar han betydelsen av nodala punkter och av obestämbarheten. Olika politikers reaktioner på andra politikers agerande (som i sin tur var reaktioner på andra politikers agerande) skapade nya händelsekedjor.


Ger analysen en positiv bestämning av kontingensens roll i processen? "The most reliable indicators of contingency are those that directly document this experience: indicators that show people seeking behavioral cues from others, waiting to see which sense of direction might emerge from this information, finding themselves in a quagmire when expectations remain indeterminate, or wavering if cues are inconsistent and contradictory." (s. 100) Ermakoff relaterar här till hur det Serbiska kommunistpartiets toppar reagerade på Milosevic nationalistiska utspel i april 1987, och den stora osäkerhet som rådde i SKP.


referens

Ivan Ermakoff (2015) "The Structure of Contingency", American Journal of Sociology 121 (1): 64-125.

torsdag 22 december 2022

Ett ekonomisk-historiskt perspektiv på persistensstudier

 “History never really says goodbye. History says, see you later.”

— Eduardo Galeano (2013)

 

De senaste 20 årens trend med persistensstudier har fått ett par översikter och jag har redan bloggat om den av statsvetarna Cirone och Pepinsky (2022). Här ska det istället handla om den översikt som ekonomisk-historikerna Leticia Arroyo Abad (CUNY) och Noel Maurer (GWU) publicerade förra året i Journal of Historical Political Economy. Om Cirone och Pepinskys studie var beskrivande till positiv, så utgår Abad och Maurer från vad de kallar en "hälsosam skepticism". Cirone och Pepinsky diskuterade metodologiska och analytiska problem och utmaningar i litteraturen, men betonade, kan man nog säga, möjligheterna: Abad och Maurer belyser mer vad persistensstudierna missar, tar ett bredare perspektiv, inte så mycket på persistensstudiernas egna villkor som Cirone och Pepinsky gjorde.

Abad och Maurers sätt att introducera persistenstemat och -forskningen är intressant! De utgår från institutionell teori:

"Social science assumes the persistence of human institutions. Rules that can change suddenly and randomly are no rules at all. For example, a constitution cannot shape political behavior if politicians can change the procedures that govern lawmaking at their whim. Studying institutions, therefore, means studying the conditions under which institutions are stable and the conditions under which they change. This realization, of course, dates back at least to classical Marxism in which history is seen as a progression from one equilibrium to another, with persistence within the stages. Douglass North’s seminal work (North, 1991) took this insight but removed the teleological elements and proposed a framework to explain how institutions might change — slowly! — over time. As economists and political scientists turned their interest towards the study of institutions, they inevitably began to ask questions about how institutions originated and why they change." (s. 33)

Medan Cirone och Pepinsky började sin diskussion av persistensstudier med AJR (2001, 2002), börjar Abad och Maurer med AJR:s omedelbara föregångare, Engerman och Sokoloffs jämförelse mellan Sydamerika och Nordamerika utifrån en analys av skillnader i vad för koloniala institutioner som skapades på de två kontinenterna. Hos Engerman och Sokoloff ledde olika klimat- och odlingsförutsättningar i Nord och Syd till att olika grödor odlades av kolonisatörerna i Nord och Syd, och att vissa grödor men inte andra odlades med slaveri, vilket genom slaveriets långsiktiga negativa effekter gjorde att dessa regioner idag är fattigare än de vars klimat och jord inte lämpade sig för bomull eller socker. "This line of inquiry was not new, but it led to the emergence of the modern persistence literature", säger Abad och Maurer och menar att AJR (2001) egentligen lade fram en ny version av Engerman och Sokoloffs hypotes. Hos AJR var det inte lämpligheten för vissa grödor som var avgörande, utan förekomsten av tropiska sjukdomar på 1500-1600-talen som gjorde att de europeiska kolonisatörerna valde att regera vissa regioner avlägset (och starkt ojämlikt) men andra med större delaktighet vilket gav bättre utveckling på sikt. Steg tre i persistensstudiernas utveckling var enligt Abad och Maurer att forskare insåg att om man ville mäta effekterna av "bra" och "dåliga" institutioner så skulle man få problem med att jämföra länder som i övrigt är olika, och då började forskarna istället använda mått på inom-statlig variation: mellan socknar, distrikt, valdistrikt etc. På 2010-talet tog det fart, men inte så mycket i ekonomisk-historiska tidskrifter som i nationalekonomiska. På 00-talet var bara runt 5 procent av historiska artiklar publicerade i NEK-tidskrifter persistensstudier, men på 10-talet snarare 15-20 procent.

Joachim Voth (2020) har delat in persistensstudierna i två typer: "apples to oranges"-studier som förklarar ekonomiska utfall idag med icke-ekonomiska orsaker förr, och "apples to apples"-studier som förklarar icke-ekonomiska utfall idag med icke-ekonomiska orsaker förr. Abad och Maurer går ganska rakt in på sin kritik:

"One problem with “Apples to oranges” papers is that the mechanisms are often ill-defined or ad hoc. As a practical matter it is extremely difficult to publish a paper that finds that a major historical event had no effect decades or centuries later. The lack of clear historically-grounded mechanisms, combined with publication bias, opens the possibility that the literature is leading us to believe that there is more persistence than actually exists. Publication bias means that persistence studies are already biased towards false positives. But without clearly-specified and historically-sound mechanisms, the scales
will be weighted even further towards misidentifying spurious correlations and overstating the actual degree of persistence." (s. 34-35)

Det låter som en helt korrekt bedömning. De har också specifika invändingar mot "apples to apples"-studier: hur vet vi att t ex tiden som en polsk by spenderade under ryskt styre påverkar väljarpreferenser mer, eller per capita-inkomster mer? Som Voth klargör är de kausala kedjorna också komplexa och blandar in en mängd variabler: "Does the history of Russian rule in Polish villages influence voting patterns through per capita income? The results of such studies can be hard to interpret unless the mechanisms are extremely well-specified." (s. 35)

Jag gillar väldigt mycket hur Abad och Maurer tänker på persistensstudier och vad de egentligen säger som fält. På ett sätt, säger de, är varje persistens-studie också en anti-persistens-studie: att händelse eller chock X år TX har en idag mätbar effekt, innebär ju att de institutioner som rådde år TX-1 avskaffats. Om koloniala institutioner bestämmer den ekonomiska utvecklingen, så betyder det att för-koloniala institutioner inte spelar roll på sikt, inte har persistens.* Ett annat exempel är Alesina och Fuchs-Schündelns (2007) artikel där de menar att DDR formade sina medborgares politiska preferenser på ett beständigt sätt, så att de en gång bodde i DDR även idag är mer positiva till statlig omfördelning etc än de tyskar som en gång bodde i BRD. Detta implicerar att det kvasi-sovjetiska styret i DDR formade folks preferenser och att preferenser från före andra världskriget alltså inte är persistenta, inte har ett eko idag.** Att jämföra BRD och DDR har också gjorts i en rad andra studier: om tillit, om attityder till migration idag, etc. Det finns också en motsatt studie, som betonar skillnaderna före Tysklands delning: Fritsch och Wyrwich (2016) menar att entreprenörskapet redan 1925 var starkare i det som tjugo år senare blev BRD, än i de regioner som blev DDR.

Ett annat sätt att hitta en "treatment", säger Abad och Maurer, är att använda de tämligen godtyckliga koloniala gränser som europeiska kolonisatörer gjorde. Cogneau och Moradi (2014) använder t ex uppdelningen av Togoland efter första världskriget för att studera effekterna av engelsk och fransk utbildningspolitik. Miguel (2004) använde den godtyckliga, rätlinjiga gränsen mellan Kenya och Tanzania för att studera statsbildning och identitet, och fann att tanzanisk politik lyckades överkomma förexisterande skillnader. I en europeisk kontext fann Backhaus (2019) ett liknande resultat i Polen: 1911 fanns där stora skillnader i utbildning mellan områden under rysk, österrikiskt eller preussiskt styre, men skillnaderna hade minskat 1931 och försvunnit 1961. Abad och Maurer sammanfattar: "In short, the arm of history may be long but it is not always strong." (s. 38)


Sektion två handlar om var ens historiska data kommer ifrån, och deras problem. Många persistensstudier av Afrika har utgått från den geografiska fördelningen av etniska grupper före koloniseringen för att kunna studera effekter av kolonialism och slavhandel på senare politiska och ekonomiska utfall. Man har ofta förlitat sig på antropologen George Murdock som 1959 publicerade en studie av etniska grupper i Afrika: kartan ovan, från Nathan Nunn, bygger på Murdock. Så här karakteriserar Abad och Maurer mottagandet av Murdocks studie när den kom: 

"The volume was described as “courageous”, “bold”, “influential”, “tour de force”, “provocative” but also “a special menace,” “dogmatic,” and “factually wrong.” The volume was criticized widely and harshly by linguists, historians, and anthropologists in terms that make an economics seminar seem warm and welcoming. Murdock cherry-picked work by botanists, creatively massaged demographic evidence, ignored historical work, disregarded post-war censuses, and contradicted anthropologi-
cal findings. Nor did he make it easy to dispel doubts about factual errors, generalizations, and selective use of sources as his book did not provide a comprehensive discussion of his sources — or even any footnotes at all." (s. 39-40)

Abad och Maurer citerar också en mängd kritiker på olika punkter; de drar inga uttalade slutsatser om implikationerna för de många persistensstudier som använt Murdocks data, men man kan nog läsa in att de är kritiska. De pekar också nöjt på att statsvetaren Paine (2019) tagit fram ett eget dataset för att konkurrera med Murdock.

I studier av Latinamerika har en mängd studier använt befolkningstäthet före Columbus och kolonisatörernas ankomst som en oberende variabel som formar en rad utfall idag: utbildningsgrad, inkomst per capita, tvångsarbete, ekonomisk utveckling, osv. Här finns det en mängd mätproblem:

"The problem is that estimating historical population figures for Latin America is a highly uncertain process at best, due to the lack of pre-Columbian records and the post-contact demographic collapse. The most common technique is to backcast from early colonial population counts. Doing so, however, requires an estimate of the rate of depopulation during the first century after the conquest. Estimations of that rate, however, are all over the map. For New Spain, “High Counters” assumed that the depopulation rate was over 90%; “minimalists” ran with a rate around 20%. These problems are compounded when scholars attempt to estimate the population of geographic units smaller than Viceroyalties. While we can connect different indigenous groups to historical geographical entities, the actual boundaries of these entities are blurry and do not correspond to the eponymous modern units. Compounding the problem, indigenous groups did not respect contemporary political borders. Any estimate of pre-Columbian population densities linked to a particular modern political unit embeds an army of assumptions." (s. 41)
De konkretiserar med en diskussion av Argentina och vad för data som egentligen finns där om befolkningstätheten under den förkoloniala perioden.

Den tredje sektionen handlar om de kausala mekanismerna. När jag läste Cirone och Pepinskys översikt över persistensstudierna blev jag lite förvånad över hur enkelt de lät persistensstudier komma undan utan att kunna förklara vilka de kausala mekanismerna är som länkar avlägsen orsak år T med samtida utfall år T+500. Abad och Maurer är mer ense med mig:

"Persistence studies need a convincing mechanism to explain what stops the effects of past events from dissipating. After all, people move, institutions change, and borders shift. Without mechanisms what you have is quantum persistence: spooky effects at a (temporal) distance.
Mechanisms can take multiple forms. To give a few examples, institutional inertia, cultural transmission, and (used loosely) agglomeration economies have all been proposed as plausible mechanisms. The question is not whether mechanisms are needed. Nor is the question whether such mechanisms can be demonstrated to be the only mechanisms that could explain persistence. Rather, the question is whether the proposed mechanisms will be well-specified and historically-grounded or vague and ahistorical." (s. 43)
De diskuterar tre slags studier som misslyckas med att presentera övertygande kausala mekanismer. Den första är en studie som förlitar sig på en teoretisk modell för att beskriva en hypotetisk mekanism, utan att ge historiska belägg för att mekanismen faktiskt fanns i verkligheten. En annan blandar ihop alternativa utfall med belägg för historiska mekanismer. En tredje presenterar plausibla mekanismer "but tortures history in the process". Som exempel på typ ett ger de Ashraf och Galors (2013) i sanning långsökta argument om att det är vår genetiska diversitet, som varierar mellan länder och regioner idag beroende på vad som hände under homo sapiens uttåg ur Afrika för ca 120 000 år sedan, som bestämmer variationer i ekonomisk utveckling i världen idag.

"Nonetheless, it remains unclear how genetic diversity translates into economic development. After all, human beings do not directly observe genetic diversity. Rather, people observe phenotypical variations, linguistic differences, ethnic fractionalization, or religious diversity. The evidence that genetic diversity produces differences that humans will care about comes from theory and animal studies. There are alternative explanations for their results — that they have identified a genetic pattern in Europe and East Asia, which also happen  to be the most densely-populated places in 1500 and the richest parts of the world today. In addition, their mechanism, if correct, generates implications
that are not obviously plausible. Would reducing Ethiopia’s genetic diversity (presumably without changing anything else about the country) really lead to economic development? Would encouraging (say) Ethiopians to migrate to Bolivia automatically do the same? The best that can be said about the long-term influence of genetic diversity on growth is that old Scottish adage: 'not proven.'" (s. 44)
Abad och Maurers bedömning verkar rimlig, och i en fotnot refererar de också till kritik från d'Alpoim Guedes et al (2013) om dataproblemen i Ashraf och Galors studie, och Gelmans (2013) "delightfully brutal take down of a prestigious paper that the author considered silly."

En annan studie på mycket lång sikt, om än inte lika lång som Ashraf och Galors, är Com et als (2010) “Was the Wealth of Nations Determined in 1000 B.C.?” De använder Atlas of Cultural Evolution för att koda ifall en region använde en viss teknologi år 1000 f Kr, år 0, och år 1500 e Kr. De använder data om var dagens befolkningar i olika länder kommer ifrån ursprungligen, alltså deras etnicitet, och menar att om land X idag har stor andel befolkning från region Y som år 0 använde en viss teknologi, så är det mer sannolikt att land X idag är rikt. Liksom med Ashraf och Galor är Abad och Maurer inte helt nöjda:

"One problem, however, comes from the fact that Putterman and Weil [om dagens länders befolkningars etniska ursprung] measure only post-1500 migrations. It is unclear, then, why the level of technology used in (say) Iberia in 1000 B.C. should determine technology use in 1500, given that few of the inhabitants of Iberia in 1500 descended from people who were there 2,500 years earlier. Nor should path dependence be accepted without some historical evidence that it operated: there are numerous historical episodes of catch-up in which societies quickly adopt innovations developed elsewhere. In addition, their sources and coding are heavily weighted towards technologies used in
Western Europe." (s. 45)

Ännu lite kortare lång sikt jobbar de studier med som följer Engerman och Sokoloff i att studera effekter av kolonialismen i Amerika. Dessa studier följer E och S i ämne, men använder mer finfördelade data och kollar på variationer inom länder.

"The most ambitious of these papers, Bruhn and Gallego (2012), classify contemporary subnational jurisdictions in terms of a combination of their pre-Columbian population density and their primary economic activities during the colonial era. They divide colonial activities into three categories:
good, bad, and ugly. Good places have no labor exploitation, bad places exploit native and “imported” labor, whereas ugly places exploit local labor simply because there is a lot of labor there to exploit. They then link these colonial institutions to modern economic outcomes. Their coding algorithm
produces some odd results. For example, Virginia and North Carolina are classified as “good,” which is bit puzzling in light of the savage slave systems that characterized both states during the colonial period. Similarly, Missouri receives a rating of “bad,” even though the first plantations did not appear in the state until it became part of the independent United States." (s. 46)

Bruhn och Gallego (2012) visade att regioner med vad de kallade "dåliga" institutioner på 1600-talet var fattigare idag, och de med "bra" institutioner är rikare idag. Det finns dock några undantag, menar Abad och Maurer: norra Mexiko och sydöstra Brasilien hade dåliga institutioner på 1600-talet men är relativt rika, medan det omvända gäller för norra Amerika.

"The conceptual problem with Bruhn and Gallego (2012) is that they do not identify the mechanisms which transmitted the effects of colonial activities to the year 2000. Rather, they confound outcomes for mechanisms. For example, they show that “bad” colonial activities in a region are correlated with modern-day under-representation in the lower house of the legislature. The problem is that modern-day under-representation cannot be a direct cause of modern-day lower income levels. Rather, the cause would be past under-representation that slowed past growth, leading to lower income levels of today. Their mechanism is plausible — although it is unclear why they only consider the lower house
in bicameral systems — but undemonstrated." (s. 46)

Dell (2010) är ett Latinamerika-papper som jobbar seriöst med mekanismerna. Dell utforskar effekterna av mita-institutionen, en form av tvångsarbete som spanjorerna använde för att driva silvergruvorna i Potosí.

"The proposed mechanisms were the system of land tenure, the provision of public goods, and market participation. The paper is meticulous and very well done, but the proposed mechanisms are somewhat questionable, historically speaking. It is not clear that the mita in its classic form persisted for very long. Historians have shown that the mita obligation changed over time. Indigenous populations challenged the institution by buying-out the obligation, baptizing children as females, and mass outmigration. As a result, the mita in 1700s was a very distant cousin to its form in 1578 (Abad and Maurer, 2019).
Dell’s primary mechanism relies on data showing that large-scale plantations (haciendas) became more common outside the mita catchment area. Dell posits that haciendas were good for economic development through three channels. First, they protected peasants from colonial exploitation. Second, after independence haciendas saw more productivity growth than non-haciendas because they enjoyed more secure property rights. Third, after independence haciendas were better able to mobilize for public investment in roads and schools. The causal mechanism therefore depends on two claims: (1) the Crown discouraged hacienda formation in mita areas; and (2) at least one of the three aforementioned channels operated after independence." (s. 47)
Abad och Maurer är inte övertygade av Dells påstående, grundat i historisk litteratur, att haciendorna utgjorde en konkurrent till den koloniala staten och dess mita vad gällde att rekrytera arbetskraft; A och M menar tvärtom att haciendorna ibland fungerade som arbetskraftsförmedlare till statens gruvor. A och M menar också att böndernas motstånd mot haciendornas expansion in i tidigare mita-områden efter Perus självständighet, visar att haciendorna inte var så mycket bättre som arbetsgivare än vad gruvorna var, som Dell menar och förutsätter. A och M ifrågasätter också de mekanismer genom vilka haciendorna enligt Dell sedan främjat tillväxt: investeringar i vägar och skolor.

Från Dell går de vidare till Banerjee och Iyer (2005) som också de ställer frågor om vilka effekter extraktiva koloniala institutioner har på ekonomin på lång sikt.

"They ask whether the colonial landlord system in British India had long-term effects. Under the landlord system, the British placed the local tax liability for a village or group of villages with a single person. The landlord, in turn, received the right to collect taxes from the occupants under his jurisdiction, subject to some legal protections. Independent India abolished the system in short order, unsurprisingly. After demonstrating a causal relationship between being under a landlord and outcomes over the next few decades, they proceed a bit like Sherlock Holmes, eliminating plausible mechanisms until one is left: a polarized and conflictual political environment created by peasant “memories of an oppressive and often absentee landlord class” (Banerjee and Iyer, 2005, p. 1210). Similarly, Iyer (2010) finds that whether an area was under direct or indirect British rule before independence has a persistent effect on the provision of public goods decades later, paying careful attention to the historical plausibility of the proposed mechanisms." (s. 48)
En tredje studie om detta är Acharya, Blackwell och Sens (2016) studie om slaveriets långsiktiga effekter i USA. De menar att i counties med fler slavar utvecklade de vita starkare rasistiska attityder, och dessa attityder har därefter överförts från generation till generation, så att counties med mer slaveri på 1850-talet ännu idag är mer rasistiska. Detta är en ganska rolig kommentar i förbifarten, som ändå är rätt fundamental: "Of course, the effect they find is marginal: anti-black attitudes spread throughout the nation and emerged in the North as well." (s. 49)

En rad andra studier har också byggt sin mekanism på kulturell överföring från generation till generation:

"Voigtländer and Voth (2012), for example, showed that medieval pogroms in Germany correlated geographically with multiple measures of anti-Semitic oppression and hostility after World War I: Nazi vote shares, anti-Jewish riots, the share of Jews sent to the camps, letters to Der Stürmer, and attacks during Kristallnacht in 1938. As would be expected from a model of cultural transmission, the association weakens with higher levels of migration and in the Hanseatic trading cities, whose economic base required a modicum of tolerance to function. Jha (2013) shows that medieval Indian trading cities, like the Hanseatic League, were far less likely to experience intercommunal violence in 1850–1950, an effect which continues after independence in weakened form. The mechanism is the existence of intergroup complementarities: that is, patterns occupational specialization by ethnicity (enforced and encouraged by community norms) that require intergroup cooperation to function. He carefully uses history to establish the existence of such institutions historically; he then uses 2005 household data to show that attitudes consistent with the mechanism have survived. The fact that his postulated effect survived for so long but weakened over time adds to the credibility of the results." (s. 49)

Chen et al (2020) menar att regioner i Kina med en tradition av att göra det kinesiska rikets examina idag har en starkare utbildningskultur: "They postulate that the need to pass the exams created pro-education traditions among elite families, which in turn passed those attributes on to their children and grandchildren. They cannot observe intermediate cultural variables, but they can and do observe
intermediate measures of elite social cohesion, which provides evidence for their proposed mechanism." (s. 49)

"Establishing mechanisms may be the next frontier.", konstaterar Abad och Maurer, som sagt lite i kontrast till Cirone och Pepinsky. Till och med Acemoglu själv har i ett medförfattat paper 2020 anmärkt att persistens-idéerna, "ideas based on institutional stasis" blivit väldigt populära trots att institutioner i verkligheten förändras ständigt. Abad och Maurers slutsats för mekanism-sektionen är väldigt rimlig och lovande:

"But we would argue that the primary way forward involved taking history more seriously. Identifying convincing mechanisms implies paying attention of the history “in the middle,” painfully constructing historical datasets, and sweating the details. A greater understanding of historical methods and more
collaboration with trained historians would be invaluable. Persistence studies could thereby both better identify real mechanisms and avoid another of the famous pitfalls in this literature: “the compression of history.” It is to this pitfall that we now turn." (s. 50)


fotnot

* De pekar på att James Robinson, R:et i AJR, förklarat Botswanas ekonomiska succé med förkoloniala institutioner som gjort att landet inte drabbats av de koloniala institutionerna så som AJR (2001) säger. 

** Voth (2020) dömer däremot i princip ut Alesina och Fuchs-Schundelns studie; för honom exemplifierar den studien det mer generella problemet med persistensstudier som ignorerar skillnader mellan enheter som föregår "the treatment", i detta fall kommunistiskt styre: "The assumption that assignment to treatment in the past is often as “good as random” is unfortunately often wrong. Implicitly, the Alesina and Fuchs-Schündeln paper assumes that pre-1945, East and West Germany were largely identical in attitudes – and hence, any differences that appear today must be the result of the Communist “treatment”. This assumption is prima facie sensible, in the absence of evidence to the contrary – after all, they had formed part of the same country since 1871. However, there is strong evidence that the area of Germany that became the GDR was already strongly different in a number of important dimensions prior to 1945 – church attendance was already lower, female labor force participation was higher, and electoral support for the Communists was higher in the East in the interwar period (Sascha O. Becker, Mergele, and Woessmann 2020). In other words, the ‘treatment’ of Communist rule and Soviet occupation may only have preserved or amplified pre-existing differences. This does not imply that there was no persistence – it implies that it was so strong in this particular case that even the cultural and social effects of a brutal, long-lasting dicatatorship did little more than to leave intact differences that existed long ago." (Voth 2020, s. 11)

referens
Leticia Arroyo Abad och Noel Maurer (2021) "History Never Really Says Goodbye: A Critical Review of the Persistence Literature", Journal of Historical Political Economy, 2021, 1: 31–68