torsdag 6 februari 2025

Antikens ekonomi och antikens kliometri

 
en gallisk-romersk relief som avbildar skördearbete 
 

Vad vet ekonomisk-historiker om Antikens Rom? Och hur vet de det? Vad för källor, metoder och teorier använder historiker och andra för att kartlägga antikens ekonomier? Arkeologen och klassicisten Kim Bowes från University of Pennsylvania har en superintressant artikel om detta i tidskriften Capitalism: A Journal of History and Economics från år 2021. Artikeltiteln är "When Kuznets Went to Rome" och utgångspunkten är ett skifte på detta fält, under 1990-talet, från en mer substantivistisk, antropologisk approach till antikens ekonomier, till en mer nationalekonomisk eller kliometrisk approach. 

Tidigare, säger hon, dominerades fältet av substantivistiska analysmodeller som de som Moses Finley (1912-1986), lärare och professor i Cambridge 1956-1982, arbetade med. Finley menade att man inte ska använda moderna nationalekonomiska begrepp för att förklara antikens ekonomi, eftersom antikens människor saknade sådana begrepp själva -- de saknade för den delen också begreppet "ekonomi" i dagens bemärkelse, som en avskild samhällssfär. Så här sammanfattar Wikipedia perspektivet som Finley lägger fram i sin klassiska bok The Ancient Economy från 1973:

"Finley interpreted the economy from 1000 BC to AD 500 sociologically rather than through use of economic models (as did Michael Rostovtzeff). Finley viewed the ancient economy as largely a by-product of status, with economic relations being embedded in ancient institutions that are very much unlike those present in modern times.

He viewed the ancient economy as largely stagnant since, among other things, the scope of economic action was not directed to economic or productive growth as is so often the case in modern times: technological innovations therefore went without adoption, large projects were executed for prestige rather than practical benefit, and economic development, or profit maximisation. Such views, and the uncritical acceptance of elite ancient writers' economic mentalités, have been challenged and overturned by archaeological discoveries through the late 20th century."

Detta är verkligen ett klassiskt substantivistiskt perspektiv: att hävda att det -- kontra nationalekonomi 101 -- inte finns någon universell mikroekonomi av nyttomaximerande individer i olika samhällen över tid och rum, utan istället att varje typ av samhälle har sin egen mikroekonomi, ungefär. [1] Jag tror att den teoretiker som mest av allt associeras med perspektivet är den ekonomiske antropologen Karl Polanyi, och det är också slående att Finleys Ancient Economy publiceras samma år som antropologen Marshall Sahlins mycket inflytelserika The Stone Age Economy, som lägger fram en egen tolkning av stenålderns nationalekonomi.

Men detta perspektiv vände sig alltså en del antikhistoriker ifrån på 1990-talet och 2000-talet, säger Bowes: hon pekar på Walter Scheidel och Sitta von Redens antologi The Ancient Economy (2002) och Scheidel, Ian Morris och Richard Sallers Cambridge Economic History of the Greco-Roman World (2007). I denna forskning ställer man frågor om "BNP per capita" i Antikens Rom, om produktivitet, tillväxt och inkomstfördelning; forskningen relaterar till bredare, icke-antika projekt som Angus Maddisons forskning om BNP i historien och Branko Milanovics forskning om inkomstfördelning. Så här kontextualiserar Bowes den kliometriska breddningen:

"The 2008 financial crisis, growing concerns about long-term inequality, and a sense that non-state, non-elite economic actors might also merit a place in Rome’s economic history have all put these calculations on a broader stage, both in the field of Roman economic history and beyond. Estimates of Roman GDP or Gini coefficients for income in equality have been applied to subjects as varied as Roman slave demographics, the economic well-being of Roman artisans, and Piketty’s models for long-term capital distribution." (s. 9)
Jag läser det som att Bowes omfamnar den ämnesmässiga breddningen, men är kritisk till den kliometriska metodologin:

"Historians and economists alike have rushed to calculate Roman GDP and place it on a graph with  those of other pre-modern economies, using the resulting numbers to make sweeping assessments about progress or its absence, or to affirm a natural, historical law driving wealth inequality. In the process, the calculations used to estimate Roman GDP or inequality have seen very  little criticism. In particular, the efforts’ calculative heuristics, the imputed relationship between macroeconomic measurements and economic well-being, and their assumptions about the very nature of history all have yet to be properly interrogated. While some of this work on GDP has had the salutatory effect of making the Roman world relevant and accessible, the data that has been used to do so is largely a fiction, and the resultant histories, stripped of nuance and complexity, are rendered into Kuznets’s worst nightmare—simplistic teleologies of growth or stagnation." (s. 9)
Bowes essä ägnas åt en ingående kritisk granskning av just dessa metodologier och data, och vad för slutsatser de egentligen leder till i fråga om antika Roms historia och samhälle. 

 
ekvation ur Keith Hopkins artikel "Taxes and Trade in the Roman Empire" från 1980
 

Framför allt så handlar det om hur forskare beräknat BNP per capita, och hur de beräknat inkomstfördelningen. De första beräkningarna av romersk BNP gjordes av Keith Hopkins år 1980, och de var då en bi-effekt av hans egentliga syfte, som avar att illustrera relationen mellan beskattning och ekonomiska flöden. Han beräknade romersk BNP helt enkelt som befolkningen gånger en beräknad vetekonsumtion gånger priset på vete. Resultatet var 8244 miljoner sesterces (förkortas av Bowes som HS), enligt Hopkins själv snarast en metafor, men taget på allvar av senare forskare.

Senare skattningar av romersk BNP har snarare haft intresset att jämföra levnadsstandarden i Rom med den i andra delar av världen och senare tider. Dessa moderna historiker och ekonomer har jobbat lite väl galant med källorna, menar Bowes; hon betonar att källäget egentligen är sparsmakat och problematiskt:

"What exists instead are a very  limited range of wheat prices (some thirty, ranging from the second century BCE through the early third century CE) and wage series (some sixty, ranging from the second century BCE through the early third century CE), the vast majority and most reliable of which come from Roman Egypt, along with a handful of literary references to slave and army rations. As has been noted by the scholars most attentive to the limitations of these data, most of these data points are circumscribed by particular contextual exigencies: Roman Egypt may or may not be representative of the rest of the Roman world; the limited wage and wheat price series may be affected by instances of short-term scarcity that make averages problematic; the data from the capital city is almost certainly biased by price-setting for wheat and by high costs of living for wages, and so on. Literary sources in which price is a signal aspect of the rhetorical toolkit are hard to lay next to papyri that record wheat and wage prices in unemotional but locally framed contexts. And the Roman population headcount is hotly debated, with estimates differing by an order of magnitude." (s. 12)

Hon säger att det är ekonomer som har "kört bilen" medan historikerna, mer intresserade av kontext och källkritik, suttit i passagerarsätet. Beräkningar av BNP från utgiftssidan har således gjorts på ett väldigt pragmatiskt sätt, med data på vetepriser multiplicerat med ett antagande om hur mycket vete gemene man och kvinna konsumerade, för att få fram grund-levnadsstandarden. Antagandena om hur mycket man åt har tagits inte från faktiska uppskattningar av konsumtion, utan från ett antagande om hur många kalorier man behövde för att överleva, eller romerska ransoner för slavar och soldater, eller från uppgifter från bönder i Aten på 400-talet f Kr. [2] Ett annat sätt att beräkna BNP är från inkomstsidan, och då har forskare som Goldsmith (ROIW, 1984), Temin och Scheidel och Friesen (J of Roman Studies, 2009) använt t ex en löneuppgift för lågutbildade arbetare multiplicerat med antal arbetsdagar per år i ett modernt dataset, multiplicerat med en siffra för genomsnittlig sysselsättning i ett modernt dataset, plus icke-löneinkomster från olika källor. Många lantarbetare och bönder i antikens Rom hade förstås inte särskilt mycket penninglöner, och då kringgår forskarna detta problem genom att helt enkelt utgå från att löneserierna motsvarar en överlevnadsnivå (utan överskott) som också bönderna bör ha legat på. (s. 13-14) 

De resulterande BNP per capita-skattningarna varierar från 166 till 380 HS, vilket är fattigare än 1500-talets Europa och i de mer pessimistiska varianterna motsvarar moderna ekonomier som Uganda och Rwanda.

Beräkningarna har också använts för att skatta inkomstfördelningen. Flera forskare -- Goldsmith (1984), Milanovic, Lindert och Williamson (2011) -- har använt en approach där man börjar med att identifera ett par elitgrupper och beräkna en genomsnittlig inkomst per grupp. I det romerska fallet är de fyra elitgrupperna "senatorial elite, the equestrian or knight class, the decurion or town councilors", och övriga eliter. De har i detta fall gjort inkomstberäkningen per elitgrupp i två steg: först en beräkning av medelförmögenheten för gruppen, och sedan denna multiplicerad med 0,06 för att få fram en tänkt årlig inkomst med 6 procents avkastning på kapital. Resten av BNP fördelas därefter med en genomsnittlig inkomst för hela icke-eliten. 

 
från Scheidel och Friesens "The Size of the Economy and the Distribution 
of Income in the Roman Empire", Journal of Roman Studies, 2009

En alternativ approach används av Scheidel och Friesen som använder en Pareto-fördelning för att distribuera BNP inom eliten, de översta 3 procenten av befolkningen. De övriga 97 procenten delar de in i nio lika stora inkomstgrupper, för vilka de tilldelar inkomste utifrån två olika scenarios: ett "optimistiskt" och ett "pessimistiskt". De får fram att 90 procent av Roms befolkning levde på eller runt existensminimum, medan 6-12 procent levde på vad de definierar som en "respektabel" nivå. Den högsta 1,5 procentens andel av inkomsterna beräknar de till 15-25 procent. Gini-koefficienten blir 0,42 till 0,44, alltså i sig inte särskilt högt. (s. 15)

Från denna redogörelse går Bowes vidare till sin källkritiska och metodologiska kritik. Hon talar om hur kliometrikerna plockar upp några data här och några uppgifter där och sedan "smetar ut" (smear) dessa över flera decennier och olika regioner -- Grekland, Egypten, Italien...

"A limited number of contextually contingent price data, like wheat prices, are smeared—their chronological and geographic fixity stripped away so they can be effectively averaged to form the “wheat price” constant. This happens, too, with most of the data used for subsistence consumption constants. The repeated use of 175 kilograms of wheat per year per person as a precise subsistence amount actually derives from an attempt— itself full of assumptions and contingencies—to calculate the production and consumption levels of fourth-century BCE Athenian farmers. This very specific, and also very hypothetical, figure becomes untethered from the chora of ancient Athens and smeared over the whole of the ancient world to represent how the majority ate,—which is thus rendered fixed and unchanging. Just so, the slave wages recommended by Cato are part of a carefully composed literary effort to bridge the gap between the ideal of a peasant farmer and the reality of slave-run estates in which slaves are simply an extension of the master’s hand." (s. 16)

Det finns en mängd olika problem här: dels "smetandet", att låta Aten på 300-talet f Kr också stå för Italien eller Egypten 200 år senare, dels källorna i sig: tendenser så som Polybius syften när han skriver om den romerska armén, eller Catos egna syften med sin text, eller bristfällig information eller tolkning som när man fokuserar helt på vetet även om Cato också skriver om vin och fikon. Bowes säger dock att än värre än "smetandet" är vad hon kallar "data sucking", när man tar data från en kontext och applicerar dem på en helt annan kontext -- som att ta konsumtionsdata från 1900-talet och låta dem representera antikens Rom. Mer specifikt så kritiserar Bowes bland annat hur Walter Scheidel använder Robert Allens konsumtionskorg som baseras på kejsare Diocletianus prisedikt från tidiga 300-talet e Kr, och beräknar dess pris utifrån egyptiska priser från första till tredje århundradet e Kr. I denna korg ingår bland annat tvål och ljus, som inte användes i antikens Rom. Här menar Bowes också att  den avkontextualiserade användningen av data tenderar att reproducera tidigare resultat, eftersom man väljer data för en "fattig ekonomi" som saknar data, från en annan "fattig ekonomi", och sedan drar slutsatser om den datalösa "fattiga ekonomin", och kanske då helt enkelt komma fram till att den var fattig.

Detta hävdar hon också angående BNP-skattningarna som är en del av Angus Maddisons projekt: enligt Bowes var Maddison övertygad om att förindustriella ekonomier var lika varann och inte hade någon varaktig ekonomisk tillväxt, så data väljs för att reproducera denna bild, så att antikens Rom får ungefär samma BNP per capita som förmoderna Neapel eller Bysans under medeltiden. [3] Ett centralt antagande i denna process är det om konsumtionsnivån på existensminimum: en människa behöver en viss mängd kalorier för att överleva, och de förindustriella människorna antas i denna litteratur framför allt ha fått sina kalorier från spannmål. Om konsumtionen av spannmål är konstant i förindustriella ekonomier, och mat stod för 60-70 procent av konsumtionen, så förklarar detta mycket varför BNP/capita stagnerade enligt beräkningarna.

Löneserierna är mer reella än vad konsumtionsdatat är, säger hon, men fortfarande problematiska, inte minst genom antagandet om att många var löntagare i antikens Rom, vilket inte är fallet. (s. 20) Utöver att anta att många var löntagare, så kan man också, som Scheidel och Milanovic, anta att lönerna helt enkelt sattes utifrån existensminimum -- och då är man tillbaka på den föregående punkten. Här kritiserar hon särskilt Scheidel och Friesen (2009) för deras metod när de beräknar Roms BNP per capita och inkomstfördelning. [4]

Så här rundar Bowes av sin kritik om BNP, löner och ojämlikhet i antikens Rom, med en verklig bredsida:

"The purpose of this somewhat belabored critique is not to suggest that specific calculations of  either GDP or in equality for the Roman world arewrong, although they probably are. Rather, it is to suggest that  there is very little about them that is Roman. To counter stubborn data lacunae or apply a similar data yardstick to a broad range of economies—in short, motivated by the desire to compare rather than to actually measure— these authors’ various estimates for Roman GDP and the concomitant effort to measure inequality are largely predetermined by a reiterated and reinserted series of pre-modern data constants. In their attempt to place the Roman world, the Byzantine empire, and the French Ancien Régime on the same graph, these models are forced to resort to a kind of extreme economic formalism, assuming, in effect, that economic and cultural behaviors can be so completely dissociated that the latter might change while the former remain constant and thus allowing the scholar to infill Roman lacunae with data— for consumption, wage practices, price ratios, and wealth distribution—from other periods. The results may or may not resemble actual Roman economic well-being; in a way, that was never the  actual goal. The purpose of these calculations—all but Hopkins’s, at any rate— was to re- inscribe the Roman world into a pre-modern economic monolith, not to reveal anything about the exigencies of life experienced by the Roman majority." (s. 21-22)
Jag tycker nog att hon är lite orättvis, att kliometrikernas pragmatism med källor ändå är befogad när källäget är svårt, men det är inte desto mindre en intressant kritik. Hon menar också att kritiken tidigare uteblivit, eftersom antikhistoriens socialhistoriker -- källnära -- knappt läser vad Bowes kallar kliometriska "GDP boys". Därför har antikens kliometri, teknisk som den är, också kunnat användas i böcker med större genomslag, som Scheidels The Great Leveller (2017) eller Pikettys Capital in the 21st Century (2014). Så här karaktäriserar Bowes elegant hur Maddison och andra siffror från antiken används i Pikettys narrativ:

"While ideologically worlds apart, Piketty’s long- term capital project, when it extends its r>g model further backwards in time, not only depends upon Maddison’s numbers for the Roman and medieval worlds, but also uses them to hammer home the evitability of capital-driven inequality in slow-growth environments. For at the heart of Maddison’s and Piketty’s (and Milanovic’s) projects is a particular conception of modernity as a time when things happen—growth, exploding inequality—defined in opposition to a static, longue durée “pre-modernity” when nothing happens—glacial growth, “natural” inequality. In a way, the Roman-specific critiques I’ve laid out above anchor the origins of this presumed modern versus pre-modern binary, a binary that relies on manufactured data for
subsistence in order to create a metahistorical arc of extremely slow growth followed by modern progress or its opposite." (s. 23)
Från denna diskussion går hon vidare till hur BNP per capita-skattningarna använts i stora narrativ om den ekonomiska utvecklingen och specifikt om Roms roll i detta. Här menar Bowes att den antika kliometrin inkorporerats i nya stora narrativ om imperiernas uppgång och fall, en typ av historieskrivning som trillade ur modet på 1970-80-talen men som kommit tillbaka idag. [5] Bowes menar att detta är en mansdominerad forskningsgenre som går tillbaka till 1800-talets heroiska narrativ -- "It is telling, and important, that the Gibbon for our age is the rise and decline of economic development" -- men nu med diagram:

"Tellingly, quantitative data has taken the place of purple passages culled from primary sources. This data is displayed in carefully constructed graphs—for coin circulation, femur length, lead pollution, wheat prices, Lorenz curves—that make historical causation manifest through rising or falling numbers.  These graphs merit a study in themselves, so prominent have they become in these new histories and so layered in their never-stated generative assumptions about data correlation and historical causality. In them we can see quantitative demonstrations that the advent of Roman rule produced radical economic in equality from a plot of British  house sizes; that periods of Roman economic and political florescence can be directly read off changing lead levels in the Greenland ice sheet; that changes in human femur length document an increase in standards of living; or that differences in wheat prices reveal the economic devastation caused by plague in the late
empire." (s. 27; femur betyder lårben)

 Från detta går Bowes till sitt eget, mer positiva program för vägen framåt. Det hon vill ta med sig från den kliometriska revolutionen i den romersk-historiska forskningen är fokuset på vanligt folk, bortom eliterna, och användningen av kvantitativa data för att dra bredare slutsatser om hur livet var i antikens Rom. Hon vill ha mer romerska data, mindre extrapolering från andra kontexter och mer faktisk information från det romerska imperiet. Här handlar det mycket om hushållsdata, som berättar vad folk faktiskt konsumerade, bortom den vetecentriska kliometrin om historiska levnadsstandarder, och om pengar. För levnadsstandarden vill hon se bortom en "unskilled wage" och se på mer komplext sammansatta inkomster för de många småbönderna; här refererar hon bl.a. till sin egna Roman Peasant Project. Så här lanserar hon sin egen approach relativt till kliometrikernas:

"At the moment, in an attempt to participate in the longue-durée comparative effort, Romanists have tried to run before they can walk, and in  doing so, they’ve probably totally misrepresented welfare and in equality as well as overall economic performance. We need to keep the urgency to tell big stories, but use thick, small-scale data to tell them, returning to a place we actually know quite well—the household—and exploiting both well-known and new datasets in the context of lives lived—not
trends already assumed. " (s. 32)

 

 

referens

Kim Bowes (2021) "When Kuznets Went to Rome: Roman Economic Well-Being and the Reframing of Roman History", Capitalism: A Journal of History and Economics, Volume 2, Number 1, Winter
2021, pp. 7-40.

fotnoter

[1] Den formuleringen, minus "ungefär", lånar jag från den marxistiske historikern Robert Brenner. “[E]very historically evolved type of society – what Marx called mode of production – has its own microeconomics”, citerat från Brenner, "Property and Progress: Where Adam Smith Went Wrong", i Chris Wickham (red.) Marxist History-writing for hte Twenty-first Century (Oxford UP, 2007).

[2] Kalori-minima: Hopkins; slav- och soldatransoner: Goldsmith; Atens bönder: Temin, “Estimating GDP in the Early Roman Empire.” 

[3] Angående att Bowes menar att dessa ekonomer/kliometriker väljer antaganden för att få de resultat de vill ha, så skriver hon bl.a. att: "For most of the economists involved in these debates, of course, the point was not to ask  whether the Roman world was, in fact, a world of subsistence farmers, but to demonstrate the relatively static quality of all such economies compared to industrially driven growth."  (s. 19)

[4] Hon skriver bl.a. att: "despite a pretense of internal checks, Scheidel and Friesen’s inequality exercise is a largely cir-
cular one in which pre-modern or ahistorical data both drive the GDP calculations at its base and determine the distribution of the resultant overall wealth." (s. 21) 

[5] Hennes exempel är Harpers Fate of Rome och Scheidels Great Leveler och Escape from Rome. Hon sammanfattar Harpers och Scheidels narrativ om Rom så här: "Thus, one can read, on the one hand, that the expansion of monetization driven by foreign plunder fueled a Roman economic “revolution”; that innovation in water-driven machines produced a mini-industrial revolution so expansive that its effects are registered in lead pollution on the Greenland ice-sheet; and that economic growth driven by urbanization, agricultural intensification, and trade resulted in historically unprecedented health and physical well-being as mea sured in the human skeletal record. On the other hand, one can also read that a volcanic eruption and a succession of plagues in the late empire created catastrophic economic impacts that ultimately led to the empire’s political collapse; and
finally and most expansively, that the Roman economy experienced no real per capita growth and was so unequal in its wealth distribution that only its catastrophic collapse could equalize wealth and unleash innovation and growth in the Middle Ages." (s. 24)

måndag 6 januari 2025

Problem med interaktionsmodeller

 
diagnostiska scatterplots som rekommenderas av Hainmueller, Mummolo och Xu 
för forskare som använder interaktionsmodeller
 

I kvantitativ samhällsvetenskap är det vanligt med interaktionsmodeller, regressioner där utfallsvariabeln (Y) inte bara beror på två olika förklarande variabler (D och X), utan också på samvariationen mellan D och X. Man kan, för att ta exempel från studier som jag bloggat om, argumentera som Hope och Martelli att inkomstojämlikheten påverkas både av informations- och kommunikationsteknologin som ökar efterfrågan på högutbildad arbetskraft, och av arbetsmarknadsinstitutioner som regleringar och fackföreningsstyrka, och av interaktionen mellan teknologi och institutioner: teknologin kommer ju inte implementeras på samma sätt i USA och i Sverige. Eller så kan man argumentera som Evans att implikationerna av ens klasstillhörighet för ens placering på vänster-höger-skalan kommer variera med ens grad av kyrklighet. Man kan också argumentera som Potrafke att globaliseringen av ekonomin skärper skillnaderna mellan vänster- och högerregeringar vad gäller offentliga utgifter. Det är bara tre exempel från 2000- och 2010-talens samhällsvetenskap; interaktionsmodeller har över huvud taget blivit mycket intensivt använda dessa decennier.

Det indikeras också av hur många citeringar ledande metodartiklar om interaktionsmodeller har: Brambor, Clark och Golders mycket inflytelserika artikel från 2006 har snart 7500 citeringar på Google Scholar. [1] Statsvetarna Jens Hainmueller (verksam vid Stanford), Jonathan Mummolo (Princeton) och Yiqing Xu (också Stanford) intervenerade i denna diskussion för fem år sedan med sin artikel "How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice". De börjar med att definiera interaktionsmodellen:

 Y = μ + αD + ηX + β (D · X ) + e

Här är α effekten av den ena förklarande variabeln vi är intresserade av, η är effekten av den andra förklaringsvariabeln, och β är interaktionseffekten: hur effekten av D varierar beroende på värdet på X.

Hainmueller, Mummolo och Xu (hädanefter sammanfattar jag dem som HMX) lägger fram två problem med interaktionsmodeller så som de används i statsvetenskap idag. Det första är att interaktionsmodellen låter effekten av D variera med värdet av X, men däremot antar man att själva interaktionseffekten β är linjär "and follows the functional form given by ∂Y /∂D = α + β X .". De kallar detta antagandet LIE, linear interaction effect, och menar att när de replikerar 46 interaktionseffekter i 22 artiklar i statsvetenskapliga topptidskrifter, så varierar effekten bara linjärt i 48 procent av fallen. Deras andra problem talar till mitt historiker-hjärta:

"Scholars using multiplicative interaction models routinely report the effect of D on Y across a wide range of X values by plugging the X values into the conditional marginal-effect formula ∂Y /∂D = α + β X . However, often little attention is paid as to whether there is sufficient common support in the data when computing the conditional marginal effects. Ideally, to compute the marginal effect of D at a given value of the moderator, x_o , there needs to be (1) a sufficient number of observations whose X values are close to x_o and (2) variation in the treatment, D , at x_o . If either of these two conditions fails, the conditional marginal-effect estimates are based on extrapolation or interpolation of the functional form to an area where there is no or only sparse data and therefore the effect estimates are fragile and model dependent (King and Zeng 2006). In our replications we find that this type of extrapolation is common in empirical practice." (s. 165)

Helt enkelt en poäng i den empiriska andan: vilken variation har du egentligen att utforska i X och Y? Hur samvarierar egentligen D och X -- om din estimerade β säger att effekten av D är mycket starkare när X är 60 än när X är 30, finns det egentligen några datapunkter i ditt dataset där värdet på X är 60, och bland dessa datapunkter, finns det verkligen variation i D, att det finns datapunkter med högt X och lågt D, och datapunkter med högt X och högt D? Utifrån sin replikation av de 22 artiklarna, så säger de att i praktiken så presenterar statsvetare ofta sina interaktionseffekter som om de hade full variation på X och full variation på D, även när så inte är fallet.

HMX artikel är hands on och hjälpsam: deras första sektion efter att de förklarat de två problemen, är att presentera diagnostiska verktyg som empiriska forskare kan använda för att förstå om deras data lider av problemen, (1) LIE-antagandet eller  (2) "lack of common support". Som så ofta är scatterplots av rådatat till hjälp. För en modell där D är binär (0 eller 1), "we recommend plotting the outcome Y against the moderator X separately for the sample of treatment group observations (D = 1) and the sample of control group observations (D = 0)." För båda samplen rekommenderar de att man ska köra en linjär regression och en LOESS fit. Dessa scatterplots är 1a och 1b i Figur 1 som jag klistrat in ovan. I 1a ser vi att effekten av X på Y är mycket starkare i gruppen där D = 0 än i gruppen där D = 1, så det finns en effekt av D * X. LOESS och linjär regression divergerar inte särskilt mycket, så β är något i stil med linjär. I panelerna 1b, uppe till höger, är interaktionseffekten i (det hypotetiska) datat ickelinjär, och vi ser att linjerna från en linjär modell (blå) och LOESS (röd) divergerar kraftigt. Men också här förändrar D relationen mellan X och Y.

För problem två, common support, rekommenderar de att "we can simply compare the distribution of X in both groups and examine the range of X values for which there are a sufficient number of data points for the estimation of marginal effects." (s. 169) De har också inkluderat box plots för att illustrera spridningen på ett effektivt sätt. I box plotsen är punkten medianen, slutpunkterna på de tjocka staplarna är 25:e och 75:e percentilen, och slutet på de tunna staplarna är 5:e och 95:e percentilerna. Här är ju D binär och det är relativt enkelt att illustrera spridningen av X för olika värden av D: om D är kontinuerlig så rekommenderar de en "simple binning approach", med tre grupper: låg X (lägsta tredjedelen), mellanhög X (andra tredjedelen) och hög X (tredje tredjedelen).  Dessa tre plots, för deras hypotetiska data med kontinuerlig D och en linjär interaktionseffekt, finns på 1c. De tre plottarna visar tydligt närvaron av en interaktion D * X eftersom Y varierar negativt med X när D är låg (vänstra plotten), men positivt när D är hög (högra plotten).

I följande sektion presenterar de hur man kan beräkna effekten av D på Y givet olika värden av X. För siatutionen när X är kontinuerlig rekommenderar de, i enlighet med approachen som gav plottarna i 1c, att man delar in datat i tre delar med avseende på värdet på X. (s. 170-173) Figur 2 visar både interaktionseffekter beräknade och visade så som Brambor, Clark och Golder (2006) rekommenderar -- en linjär interaktion från lägsta till högsta värdet på X -- och så som HMX rekommenderar, med effekten av D helt enkelt beräknad för tre grupper: de med lägst värde på X, de med mellanvärden, och de med högst värde. Ironiskt (?) nog skulle en ren HMX-plot, alltså utan linjen med skuggade konfidensintervall som kommer från BCG, nog se mindre "fancy" ut.


Deras andra variant på hur man kan beräkna interaktionseffekter är en kernel smoothing estimator, en semiparametrisk estimator där en serie lokala effekter beräknas. Denna är tyngre att beräkna än den enklare varianten med tre bins, och inte lika enkel att presentera resultaten ifrån. (s. 173-175)

I följande sektion går de igenom 22 artiklar publicerade i fem topptidskrifter inom statsvetenskap: he American Political Science Review (APSR), The American Journal of Political Science (AJPS), The Journal of Politics (JOP), International Organization (IO) and Comparative Political Studies (CPS). Från dessa 22 artiklar analyserar de 46 beräknade interaktionseffekter. HMX visar att större delen av dessa argument om interaktionseffekter lider av ett eller båda av de problem som diskuterats i artikeln. Figur 5, som jag klistrat in nedan, illustrerar problemet "Lack of common support", att X helt enkelt inte varierar tillräckligt mycket för de olika värdena på D för att man ska kunna dra slutsatser om att effekten av D beror på värdet på X. Den övre plotten (a) visar att datasetet har extremt få observationer med D=1, D är oftast 0, och att observationerna med D=1 är väldigt snävt klustrade runt låga värden på X. Därför blir det orimligt att extrapolera till hur effekten av D skulle vara när X är lågt eller högt.


Figur 6 visar liknande problem. Här är det en studie, utförd som ett experiment i Vietnam, om ifall transparens och publicitet gör parlamentariker mer hederliga och mer aktiva som politiker. Författarna hävdar att effekten av publiciteten (i form av granskande journalistik, variabel D här) varierar med hur stark tillgången till internet är i politikerns provins. Tillgången till internet är alltså X i notationen använd här, och politikerns arbetskvalitet är Y. Figur 6 visar uppe till vänster författarnas egna graf, gjord i Stata, som tycks visa en mycket elegant linjär effekt, med inga signifikanta effekter av D när värdet på X är ungefär 0 till 2,5, och därefter signifikanta och allt starkare effekter. Men HMX plott (b) visar att tillgången till internet -- X -- faktiskt varierar extremt lite, och har ett par extrema outliers. [2] Dessa droppas i (c), och vi ser att den skattade effekten blir väldigt mycket flackare och aldrig statistiskt signifikant. Också kernel-skattningen i (d) visar detta.

De diskuterar också en artikel som argumenterar att närheten i tid till ett presidentval (D) påverkar hur många partier som ställer upp i ett parlamentsval (Y), men att effekten varierar med antalet presidentkandidater (X). Också här finns det problem med brist på variation i datat. I 59 procent av observationerna var värdet på X 0, och bland dessa 59 procent fanns det ingen variation alls i Y. Alltså kunde inte HMX bin-strategi estimera någon interaktion för den lägsta tredjedelen vad gäller X. Det är inte heller så, som ursprungsartikeln argumenterar, att interaktionen D * X är linjärt ökande: för låga värden på X finns det som sagt ingen interaktion alls, eftersom det inte finns variation, och enligt HMX var interaktionen för resterande 41 procent av observationer ickelinjär. (s. 182) Kernel-estimaten ger ungefär samma bild, med mycket breda konfidensintervall för låga och höga värden för X, och få statistiskt signifikanta platser för β.

Från de illustrativa exemplena går HMX vidare till en översikt över de 46 interaktionseffekterna i de 22 artiklarna. De skapar ett enkelt poängsystem där varje interaktion för 0 eller 1 poäng för varje indikator: (1) inga statistiskt signifikant olika värden för β på "låga" och "höga" värden på X, (2) vad de kallar "severe extrapolation", och (3) ickelinjära interaktionseffekter. 0 poäng är alltså toppen, inga problem här, och 3 är inte alls bra. Medelvärdet för de 46 interaktionseffekterna blev 1,7, vilket indikerar rätt seriösa problem; bara 4 av 46 effekter fick ett perfekt resultat, 0 poäng. Däremot fick 7 effekter 3 poäng. (s. 184)

HMX artikel var alltså välbehövlig och starkt motiverad: det är också talande att den redan, fem år efter sin publicering, har över 1000 citeringar på Google Scholar -- forskarna verkar alltså varit ivriga att ta till sig insikterna om interaktionsmodellernas potentiella problem. Till succén hör nog också att författarna skrivit kod för R, paketet "interflex", som man kan använda för att göra precis de diagnostiska analyser som de rekommenderar. Föredömligt!


 

referens

Jens Hainmueller, Jonathan Mummolo och Yiqing Xu (2019) "How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice", Political Analysis vol 27 s. 163-192.

fotnoter

[1] Hainmueller, Mummolo och Xu sammanfattar Brambor, Clark och Golders artikel så här: " For example, Brambor, Clark, and Golder (2006) provide a simple checklist of dos and don’ts.2 They recommend that scholars should (1) include in the model all constitutive terms (D and X ) alongside the interaction term (D · X ), (2) not interpret the coefficients on the constitutive terms (α and η) as unconditional marginal effects, and (3) compute substantively meaningful marginal effects and confidence intervals, ideally with a plot that shows how the conditional marginal effect of D onY changes across levels of the moderator X." (s. 164) HMX kommenterar att de flesta statsvetenskapliga artiklar som publiceras idag med interaktionsmodeller, följer BCG:s råd.

[2] I författarnas egna graf vser vi att effekten av D ska vara stark och statistiskt signifikant när tillgången till internet, X, har värden runt 2,5 till 9. Men plott (b) visar ju att det i princip inte finns några sådana observationer i datat! James Anderson har gjort en liknande kritik av artikeln redan 2013: Andersons mer policyinriktade papper påpekade att författarnas beräkningar faktiskt föreslog att "transparens" (så som de mätte det) faktiskt hade en positiv men icke signifikant effekt i ungefär 80 procent av valdistrikten.