måndag 6 januari 2025

Problem med interaktionsmodeller

 
diagnostiska scatterplots som rekommenderas av Hainmueller, Mummolo och Xu 
för forskare som använder interaktionsmodeller
 

I kvantitativ samhällsvetenskap är det vanligt med interaktionsmodeller, regressioner där utfallsvariabeln (Y) inte bara beror på två olika förklarande variabler (D och X), utan också på samvariationen mellan D och X. Man kan, för att ta exempel från studier som jag bloggat om, argumentera som Hope och Martelli att inkomstojämlikheten påverkas både av informations- och kommunikationsteknologin som ökar efterfrågan på högutbildad arbetskraft, och av arbetsmarknadsinstitutioner som regleringar och fackföreningsstyrka, och av interaktionen mellan teknologi och institutioner: teknologin kommer ju inte implementeras på samma sätt i USA och i Sverige. Eller så kan man argumentera som Evans att implikationerna av ens klasstillhörighet för ens placering på vänster-höger-skalan kommer variera med ens grad av kyrklighet. Man kan också argumentera som Potrafke att globaliseringen av ekonomin skärper skillnaderna mellan vänster- och högerregeringar vad gäller offentliga utgifter. Det är bara tre exempel från 2000- och 2010-talens samhällsvetenskap; interaktionsmodeller har över huvud taget blivit mycket intensivt använda dessa decennier.

Det indikeras också av hur många citeringar ledande metodartiklar om interaktionsmodeller har: Brambor, Clark och Golders mycket inflytelserika artikel från 2006 har snart 7500 citeringar på Google Scholar. [1] Statsvetarna Jens Hainmueller (verksam vid Stanford), Jonathan Mummolo (Princeton) och Yiqing Xu (också Stanford) intervenerade i denna diskussion för fem år sedan med sin artikel "How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice". De börjar med att definiera interaktionsmodellen:

 Y = μ + αD + ηX + β (D · X ) + e

Här är α effekten av den ena förklarande variabeln vi är intresserade av, η är effekten av den andra förklaringsvariabeln, och β är interaktionseffekten: hur effekten av D varierar beroende på värdet på X.

Hainmueller, Mummolo och Xu (hädanefter sammanfattar jag dem som HMX) lägger fram två problem med interaktionsmodeller så som de används i statsvetenskap idag. Det första är att interaktionsmodellen låter effekten av D variera med värdet av X, men däremot antar man att själva interaktionseffekten β är linjär "and follows the functional form given by ∂Y /∂D = α + β X .". De kallar detta antagandet LIE, linear interaction effect, och menar att när de replikerar 46 interaktionseffekter i 22 artiklar i statsvetenskapliga topptidskrifter, så varierar effekten bara linjärt i 48 procent av fallen. Deras andra problem talar till mitt historiker-hjärta:

"Scholars using multiplicative interaction models routinely report the effect of D on Y across a wide range of X values by plugging the X values into the conditional marginal-effect formula ∂Y /∂D = α + β X . However, often little attention is paid as to whether there is sufficient common support in the data when computing the conditional marginal effects. Ideally, to compute the marginal effect of D at a given value of the moderator, x_o , there needs to be (1) a sufficient number of observations whose X values are close to x_o and (2) variation in the treatment, D , at x_o . If either of these two conditions fails, the conditional marginal-effect estimates are based on extrapolation or interpolation of the functional form to an area where there is no or only sparse data and therefore the effect estimates are fragile and model dependent (King and Zeng 2006). In our replications we find that this type of extrapolation is common in empirical practice." (s. 165)

Helt enkelt en poäng i den empiriska andan: vilken variation har du egentligen att utforska i X och Y? Hur samvarierar egentligen D och X -- om din estimerade β säger att effekten av D är mycket starkare när X är 60 än när X är 30, finns det egentligen några datapunkter i ditt dataset där värdet på X är 60, och bland dessa datapunkter, finns det verkligen variation i D, att det finns datapunkter med högt X och lågt D, och datapunkter med högt X och högt D? Utifrån sin replikation av de 22 artiklarna, så säger de att i praktiken så presenterar statsvetare ofta sina interaktionseffekter som om de hade full variation på X och full variation på D, även när så inte är fallet.

HMX artikel är hands on och hjälpsam: deras första sektion efter att de förklarat de två problemen, är att presentera diagnostiska verktyg som empiriska forskare kan använda för att förstå om deras data lider av problemen, (1) LIE-antagandet eller  (2) "lack of common support". Som så ofta är scatterplots av rådatat till hjälp. För en modell där D är binär (0 eller 1), "we recommend plotting the outcome Y against the moderator X separately for the sample of treatment group observations (D = 1) and the sample of control group observations (D = 0)." För båda samplen rekommenderar de att man ska köra en linjär regression och en LOESS fit. Dessa scatterplots är 1a och 1b i Figur 1 som jag klistrat in ovan. I 1a ser vi att effekten av X på Y är mycket starkare i gruppen där D = 0 än i gruppen där D = 1, så det finns en effekt av D * X. LOESS och linjär regression divergerar inte särskilt mycket, så β är något i stil med linjär. I panelerna 1b, uppe till höger, är interaktionseffekten i (det hypotetiska) datat ickelinjär, och vi ser att linjerna från en linjär modell (blå) och LOESS (röd) divergerar kraftigt. Men också här förändrar D relationen mellan X och Y.

För problem två, common support, rekommenderar de att "we can simply compare the distribution of X in both groups and examine the range of X values for which there are a sufficient number of data points for the estimation of marginal effects." (s. 169) De har också inkluderat box plots för att illustrera spridningen på ett effektivt sätt. I box plotsen är punkten medianen, slutpunkterna på de tjocka staplarna är 25:e och 75:e percentilen, och slutet på de tunna staplarna är 5:e och 95:e percentilerna. Här är ju D binär och det är relativt enkelt att illustrera spridningen av X för olika värden av D: om D är kontinuerlig så rekommenderar de en "simple binning approach", med tre grupper: låg X (lägsta tredjedelen), mellanhög X (andra tredjedelen) och hög X (tredje tredjedelen).  Dessa tre plots, för deras hypotetiska data med kontinuerlig D och en linjär interaktionseffekt, finns på 1c. De tre plottarna visar tydligt närvaron av en interaktion D * X eftersom Y varierar negativt med X när D är låg (vänstra plotten), men positivt när D är hög (högra plotten).

I följande sektion presenterar de hur man kan beräkna effekten av D på Y givet olika värden av X. För siatutionen när X är kontinuerlig rekommenderar de, i enlighet med approachen som gav plottarna i 1c, att man delar in datat i tre delar med avseende på värdet på X. (s. 170-173) Figur 2 visar både interaktionseffekter beräknade och visade så som Brambor, Clark och Golder (2006) rekommenderar -- en linjär interaktion från lägsta till högsta värdet på X -- och så som HMX rekommenderar, med effekten av D helt enkelt beräknad för tre grupper: de med lägst värde på X, de med mellanvärden, och de med högst värde. Ironiskt (?) nog skulle en ren HMX-plot, alltså utan linjen med skuggade konfidensintervall som kommer från BCG, nog se mindre "fancy" ut.


Deras andra variant på hur man kan beräkna interaktionseffekter är en kernel smoothing estimator, en semiparametrisk estimator där en serie lokala effekter beräknas. Denna är tyngre att beräkna än den enklare varianten med tre bins, och inte lika enkel att presentera resultaten ifrån. (s. 173-175)

I följande sektion går de igenom 22 artiklar publicerade i fem topptidskrifter inom statsvetenskap: he American Political Science Review (APSR), The American Journal of Political Science (AJPS), The Journal of Politics (JOP), International Organization (IO) and Comparative Political Studies (CPS). Från dessa 22 artiklar analyserar de 46 beräknade interaktionseffekter. HMX visar att större delen av dessa argument om interaktionseffekter lider av ett eller båda av de problem som diskuterats i artikeln. Figur 5, som jag klistrat in nedan, illustrerar problemet "Lack of common support", att X helt enkelt inte varierar tillräckligt mycket för de olika värdena på D för att man ska kunna dra slutsatser om att effekten av D beror på värdet på X. Den övre plotten (a) visar att datasetet har extremt få observationer med D=1, D är oftast 0, och att observationerna med D=1 är väldigt snävt klustrade runt låga värden på X. Därför blir det orimligt att extrapolera till hur effekten av D skulle vara när X är lågt eller högt.


Figur 6 visar liknande problem. Här är det en studie, utförd som ett experiment i Vietnam, om ifall transparens och publicitet gör parlamentariker mer hederliga och mer aktiva som politiker. Författarna hävdar att effekten av publiciteten (i form av granskande journalistik, variabel D här) varierar med hur stark tillgången till internet är i politikerns provins. Tillgången till internet är alltså X i notationen använd här, och politikerns arbetskvalitet är Y. Figur 6 visar uppe till vänster författarnas egna graf, gjord i Stata, som tycks visa en mycket elegant linjär effekt, med inga signifikanta effekter av D när värdet på X är ungefär 0 till 2,5, och därefter signifikanta och allt starkare effekter. Men HMX plott (b) visar att tillgången till internet -- X -- faktiskt varierar extremt lite, och har ett par extrema outliers. [2] Dessa droppas i (c), och vi ser att den skattade effekten blir väldigt mycket flackare och aldrig statistiskt signifikant. Också kernel-skattningen i (d) visar detta.

De diskuterar också en artikel som argumenterar att närheten i tid till ett presidentval (D) påverkar hur många partier som ställer upp i ett parlamentsval (Y), men att effekten varierar med antalet presidentkandidater (X). Också här finns det problem med brist på variation i datat. I 59 procent av observationerna var värdet på X 0, och bland dessa 59 procent fanns det ingen variation alls i Y. Alltså kunde inte HMX bin-strategi estimera någon interaktion för den lägsta tredjedelen vad gäller X. Det är inte heller så, som ursprungsartikeln argumenterar, att interaktionen D * X är linjärt ökande: för låga värden på X finns det som sagt ingen interaktion alls, eftersom det inte finns variation, och enligt HMX var interaktionen för resterande 41 procent av observationer ickelinjär. (s. 182) Kernel-estimaten ger ungefär samma bild, med mycket breda konfidensintervall för låga och höga värden för X, och få statistiskt signifikanta platser för β.

Från de illustrativa exemplena går HMX vidare till en översikt över de 46 interaktionseffekterna i de 22 artiklarna. De skapar ett enkelt poängsystem där varje interaktion för 0 eller 1 poäng för varje indikator: (1) inga statistiskt signifikant olika värden för β på "låga" och "höga" värden på X, (2) vad de kallar "severe extrapolation", och (3) ickelinjära interaktionseffekter. 0 poäng är alltså toppen, inga problem här, och 3 är inte alls bra. Medelvärdet för de 46 interaktionseffekterna blev 1,7, vilket indikerar rätt seriösa problem; bara 4 av 46 effekter fick ett perfekt resultat, 0 poäng. Däremot fick 7 effekter 3 poäng. (s. 184)

HMX artikel var alltså välbehövlig och starkt motiverad: det är också talande att den redan, fem år efter sin publicering, har över 1000 citeringar på Google Scholar -- forskarna verkar alltså varit ivriga att ta till sig insikterna om interaktionsmodellernas potentiella problem. Till succén hör nog också att författarna skrivit kod för R, paketet "interflex", som man kan använda för att göra precis de diagnostiska analyser som de rekommenderar. Föredömligt!


 

referens

Jens Hainmueller, Jonathan Mummolo och Yiqing Xu (2019) "How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice", Political Analysis vol 27 s. 163-192.

fotnoter

[1] Hainmueller, Mummolo och Xu sammanfattar Brambor, Clark och Golders artikel så här: " For example, Brambor, Clark, and Golder (2006) provide a simple checklist of dos and don’ts.2 They recommend that scholars should (1) include in the model all constitutive terms (D and X ) alongside the interaction term (D · X ), (2) not interpret the coefficients on the constitutive terms (α and η) as unconditional marginal effects, and (3) compute substantively meaningful marginal effects and confidence intervals, ideally with a plot that shows how the conditional marginal effect of D onY changes across levels of the moderator X." (s. 164) HMX kommenterar att de flesta statsvetenskapliga artiklar som publiceras idag med interaktionsmodeller, följer BCG:s råd.

[2] I författarnas egna graf vser vi att effekten av D ska vara stark och statistiskt signifikant när tillgången till internet, X, har värden runt 2,5 till 9. Men plott (b) visar ju att det i princip inte finns några sådana observationer i datat! James Anderson har gjort en liknande kritik av artikeln redan 2013: Andersons mer policyinriktade papper påpekade att författarnas beräkningar faktiskt föreslog att "transparens" (så som de mätte det) faktiskt hade en positiv men icke signifikant effekt i ungefär 80 procent av valdistrikten.