tisdag 23 juni 2026

Relationen mellan historia och samhällsvetenskaplig metod: fallet HPE


 

Historisk forskning och samhällsvetenskaplig metod kan närma sig på flera sätt. Jag har nyligen bloggat om Wawro och Katznelsons diskussion om detta i fallet American Political Development (APD), en inriktning inom US-amerikansk statsvetenskap som i huvudsak använder kvalitativa statsvetenskapliga metoder. Här ska jag istället kolla på en mer utpräglat kvantitativ litteratur, nämligen Historical Political Economy (HPE). HPE är en forskningsinrktning som utvecklats inom statsvetenskapen, och i någon mån nationalekonomin, under 2010- och 2020-talen. Här handlar det om samhällsvetare som använder kvantitativa samhällsvetenskapliga metoder, men applicerar dem på historiska fenomen och skeenden. Där finns det alltså en avgörande skillnad mot APD vars kanoniska metod är den fördjupande, teoretiskt rotade fallstudien.

För att definiera HPE vänder jag mig till översiktsartikeln "Historical Political Economy: What Is It?", publicerad i Oxford Handbook of Historical Political Economy. Artikeln är skriven av bokens två redaktörer, Jeffery A. Jenkins och Jared Rubin. Jenkins är professor i statsvetenskap vid University of Southern California, har publicerat bland annat böckerna Republican Party Politics and the American South, 1865-1968 (2020) och Congress and the First Civil Rights Era, 1861-1918 (2021) och en stor mängd vetenskapliga artiklar framför allt om USA:s politiska historia. Rubin är professor i nationalekonomi vid Chapman University i södra Kalifornien och har publicerat bland annat böckerna  Rulers, Religion & Riches: Why the West Got Rich and the Middle East Did Not (2017) och How the World Became Rich: The Historical Origins of Economic Growth (2022) samt en mängd vetenskapliga artiklar bland annat om Englands ekonomiska historia och reformationens ekonomiska historia. 

Jenkins och Rubin lägger fram tre kriterier för att en artikel eller en bok ska räknas som HPE. Ett, "all works of HPE must attempt to establish a falsi able argument, that is, one that can be tested and proven false (or logically contradicted)." Detta kan göras med kvalitativ eller kvantitativ metod, säger de, men intressant nog så säger de att "Under this criterion, works that are merely descriptive do not qualify." I min King-Keohane-Verba-färgade världsbild är detta ett ohållbart argument. [1] Som KKV säger (och som John Gerring visat än tydligare i "Mere Description"), så kan ju deskriptiva argument -- ökar ojämlikheten globalt eller minskar den, ökar marknadskoncentrationen i USA eller inte, osv -- vara lika omstridda och i lika stort behov av testning som kausala argument. I alla fall, så är kriterium två för Jenkins och Rubin att "all works of HPE must have some interest in understanding and explaining historical context." 1980- och 90-talen kan vara historia idag, men man kan inte bara skriva o msamtiden, och man måste ha ett intresse för den historiska kontexten. Att göra en makroekonomisk studie med en lång tidsserie är inte i sig HPE. Det tredje kriteriet är att studien måste innehålla ett "political economy element". De definierar politisk ekonomi med hjälp av Weingast och Wittman i introduktionen till Oxford Handbook of Political Economy: 

“political economy is the methodology of economics applied to the analysis of
political behavior and institutions. As such, it is not a single, uni ed approach, but a family of approaches…. This is tied together by a set of methodologies, typically associated with economics, but now part and parcel of political science itself.” 

Ekonomisk-historiska studier av löner och priser är alltså inte i sig HPE, om de inte är "concerned with the political processes driving these phenomena." Och omvänt, så är politisk-historiska studier inte nödvändigtvis HPE, om de inte jobbar med politisk-ekonomiska aspekter. [2] Utifrån de tre kriterierna kommer de fram till Venndiagrammet nedan som också påvisar relationen till närliggande discipliner som ekonomisk historia och politisk historia:


HPE är ett nytt begrepp men forskningen inom disciplinen går långt tillbaka: de pekar på de Tocqueville och Marx som föregångare från 1800-alet, och Max Weber, Werner Sombart och RH Tawney från det tidiga 1900-talet. Tre viktiga skillnader i dagens HPE jämfört med dessa föregångare är dagens användning av stora dataset, det större fokuset på kausala designer influerat av diskussioner inom ekonometrin, och en större användning av matematik och formella modeller. Man kan också säga att HPE bygger vidare på forskning ffrån det sena 1900-talet av Douglass North, William Riker och andra. Men i huvudsak är HPE som disciplin en ny skapelse, och det är först sedan 2021 som den har en egen tidskrift, Journal of Historical Political Economy (JHPE). Tidskriften för samman två separata grupper forskare, säger de: statsvetare som sysslar med kvantitativ historisk forskning, och ekonomisk-historiker och applied economists som blivit mer intresserade av de politiska aspekterna. Det finns alltså en tidskrift sedan 2021, och en Oxford Handbook sedan 2024, men Jenkins och Rubin säger att det fortfarande finns hinder för nätverksutvecklingen inom HPE. Ett, att fältet inte har någon årlig konferens. Två, att "academia has become increasingly siloed. Economists, political scientists, and historians are less likely to be rewarded (i.e., with tenure and promotion) by their departments for interdisciplinary work, especially when that work is not published in a known outlet within the discipline. The inherent interdisciplinarity of HPE also means that one must keep up with multiple literatures. This is time consuming, and is typically not rewarded by the profession."

När Jenkins och Rubin börjar sin översikt över pågående forskning inom HPE så säger de att HPE befinner sig på forskningsfronten på två sätt: genom användning av de senaste teknikerna för kausal inferens, och genom studier av persistens. De utgår i din diskussion från Anna Callis, Thad Dunning, och Guadalupe Tuñóns kapitel “Causal Inference and Knowledge Accumulation in Historical Political Economy”. Callis et al pekar på HPE:s starka förankring i identifikationsrevolutionen och den ymniga användningen av "naturliga experiment", diskontinuiteter, historiska instrument och chocker eller reformer som tillåter en diff-in-diff-design. Dippel och Leonard kritiserar i sin artikel i det första numret av JHPE det väldigt starka fokuset på "naturliga experiment" i HPE-artiklar, som de menar bland annat gör att man kanske gör eleganta studier med väldigt liten extern validitet. Gentemot detta lyfter Jenkins och Rubin ett för mig lite otippat argument, att varje empirisk studie med liten extern validitet ändå främjar kumulativt lärande och kan ge en pusselbit till det stora pusslet.

Vad gäller persistensstudierna refererar de kritiken om att dessa saknar historisk förståelse av perioden och processerna mellan den historiska chocken och det samtida utfallet, en kritik som formulerats t ex av Arroyo Abad och Maurer (2021) som pekar på “the failure to recognize institutional change (‘anti-persistence’), vague mechanisms, the insufficient use (or misuse) of historical sources and narratives, the compression of history, and a failure to account for the effects of geography”. Också här refererar Jenkins och Rubin hur Callis, Dannung och Tunon försvarar den kvantitativa approachen; de pekar också på Acharya, Blackwell och Sens kapitel specifikt om persistensstudier.

En tredje "margin" där HPE är cutting edge är, säger Jenkins och Rubin, att samla in data. Cirone diskuterar i sitt kapitel "Data in Historical Political Economy" just detta. Digitalisering och internets lagringsmöjligheter har gjort det väldigt mycket enklare att samla in stora mängder data och dela dem. Cirone klassificerar HPE-data i sju kategorier: “sociodemographic and population data, government or institutional records, geographic and spatial data, political data, economic data, ethnographic data, and civil society data.”

Jenkins och Rubin pekar också på ett par punkter där HPE skulle kunna bli ännu bättre. Det första är att alltid beakta den historiska kontexten i varje HPE-analys, "even if its primary purpose is to show “persistence.”" Den andra är att de håller med Sean Gailmard, i kapitlet "Formal Models in Historical Political Economy", att HPE:s studier tenderar att vara underteoretiserade. De citerar också Gailmard från en bloggpost 2021 från Broadstreet:

 “While credible identification has obvious and important bene ts for empirical HPE, making it the centerpiece of any research program in HPE is going to distort the kinds of historical and theoretical understanding we create. In particular, centering the demands of causal identification will slant case selection without any corresponding benefits for generalized historical knowledge.”

Här balanserar Jenkins och Rubin Callis et als optimism om att varje ny fallstudie ger ny kunskap, med Gailmards pessimism eller frustration: vi behöver också teori för att kunna relatera de olika studierna och fallen till varann.

Den sista sektionen i Jenkins och Rubins inledning heter "The Future of HPE". Den börjar soligt: "For all the reasons given so far—and for reasons repeated again and again throughout this volume—the future
of HPE is extraordinarily bright."  De pekar framför allt på två områden där HPE behöver ta steg framåt. Det ena är att bredda den geografiska specialiseringen från Nordamerika och Europa. Den andra är att arbeta mer med teori. "In our opinion, too many papers in HPE (and economics and political science more generally) rigorously establish causal connections without applying that same level of rigor to the mechanisms driving those connections. This is where we need formal theory the most: it is a complement, not a substitute, of rigorous causal analysis." Men framför allt så är de optimister. Att jobba med historiska data blir enklare och enklare: nya metoder för digitalisering, OCR-inläsning och geografiska analyser i GIS. Digital humaniora. Och så vidare. Andelen artiklar om HPE i topptidskrifterna inom statsvetenskap är hög, och det har kommit fram en mängd yngre forskare som visar framfötterna.

 

referenser

Jeffery Jenkins och Jared Rubin (2024) "Historical Political Economy: What Is It?", i Jenkins och Rubin (red.) Oxford Handbook of Historical Political Economy. Oxford UP.

fotnoter

[1] Det är också intressant utifrån att Rubin just publicerat en artikel i QJE som så vitt jag kan se för fram rent deskriptiva argument. Se på de tre argumenten i deras abstract: "Our analysis yields three main findings. First, there was a separation in the languages of science and religion beginning in the mid-eighteenth century. Second, volumes using language at the nexus of science and political economy became more progress-oriented during the Enlightenment. Third, volumes using industrial language—especially those at the science-political economy nexus—were more progress-oriented beginning in the eighteenth century." Alla dessa tre argument är deskriptiva!

[2] De citerar också Pablo Beramendis definition av HPE från Broadstreet-bloggen, 2021. Beramendis formulering är elegant och effektiv så jag citerar hela från Jenkins och Rubin: "What I think identifies historical political economy (HPE) as an approach relative to prior efforts is a three-fold commitment. The  rst one is theoretical: an explicit effort not to let the description of a
process substitute for an argument (often in the form of an endless forest of arrows quickly progressing towards negative degrees of freedom) and, more constructively, to develop an abstract logic about the causal relationships of interest that, subsequently, guides empirical efforts. The second one is methodological: a pledge to both dig deep into historical sources to improve measurement as a theoretically driven exercise and pursue, as far as possible given the data context, compelling research designs. Finally, the third one is a commitment to transgression, transgression of artificial disciplinary boundaries and scholarly prejudices to embrace the diffusion of tools, approaches, models and techniques to maximize access to new data (often in vast amounts) and,
critically, to analyze it rigorously."

måndag 22 juni 2026

Relationen mellan historia och kvantitativ samhällsvetenskaplig metod: fallet APD


En av de för mig som ekonomisk-historiker mest intressanta skärningspunkterna i forskningen är den mellan disciplinen historia -- som tenderar att arbeta källintensivt och med kvalitativa metoder/small N designs -- och kvantitativ forskning inom statsvetenskap, sociologi och nationalekonomi. Statsvetaren Gregory J. Wawro och historikern Ira Katznelson, båda verksamma vid Columbia-universitetet i New York, har 2014 och 2020 publicerat två artiklar om just denna skärningspunkt, specifikt för hur man kan kombinera historiska och samhällsvetenskapliga metoder inom fältet American Political Development (APD). APD är en inriktning inom amerikansk statsvetenskap som arbetar med USA:s politisk-historiska utveckling och framför allt med kvalitativa metoder; APD är nära relaterat till forskningsprogrammet historisk institutionalism. [1]

En rolig grej med att läsa 2014-artikeln nu är att den redan, tolv år senare, så tydligt känns som att den kommer från en tidigare era inom samhällsvetenskapen, metodmässigt. [2] Titeln "Designing Historical Social Scientific Inquiry" går tillbaka på King-Keohane-Verbas klassiska metodbibel från 1994, Designing Social Inquiry, och diskussionen hör verkligen till 1990-talets och 00-talets fokus på panelregressioner och hur kan kunde frångå antaganden om linjära och konstanta effekter/korrelationer för att istället tillåta effekt-heterogenitet. (Jag disputerade 2013 och min avhandling var väldigt färgad av de diskussionerna, med structural breaks, rolling regressions för tidsvarierande koefficienter, interaktionsmodeller, multilevel m m, som jag förstås lärt mig på metodkurser på 00-talet och tidigt 10-tal.) Wawro och Katznelson nämner Angrist och Pischkes fundamentala artikel i Journal of Economic Perspectives från 2010 som var med och startade (och namngav) identifikationsrevolutionen, som ledde metoddiskussionen i ett ganska annorlunda håll, mer fokuserat på forskningsdesign, men Angrist och Pischkes fokus på regressionsdiskontinuitet, differences-in-differences med mera spelar ingen roll i Wawro och Katznelsons artikel. [3]

Utgångspunkten för deras diskussion är väldigt intressant: historikers och kvalitativa statsvetares grundläggande argument mot linjär regressionsanalys, att denna missar betydelsen av kontext och hur kausala relationer inte kommer vara konstanta över tid och mellan olika kontexter. Så här presenterar de APD:s diskussion av tidsvarierande effekter:

"We need to be receptive to how the complex and interdependent features of causal relations are sensitive to temporality and periodicity by way of a rigorous historical sensibility that places “politics in time,” a goal that long has been an aspiration of APD scholarship focused on path dependency, heterogeneous causality, and contingency (Pierson 2004, 102, 109; also, see Orren and Skowronek 2004)." (s. 527) [4]

Wawro och Katznelson säger att de håller med APD-forskarna i deras kritik av standard-kvantitativa metoder, men att de menar att APD när de väljer att bara använda kvalitativa metoder, både försvagar sin egen position inom statsvetenskapen, och "are missing the chance to probe rigorously into subjects that matter by the absence of appealing quantitative tools." De anför alltså både pragmatiska och substantiella skäl för att APD ska använda kvantiativ metod i högre utsträckning.

Det huvudsakliga problemet med "standard regression models" för historikers intresse för kontext, temporalitet och periodicity är att man tenderar att estimera konstanta koefficienter/effekter över lång tid och över olika kontexter. Mot detta ställer de modeller som tillåter varierande koefficienter: "Parameter variation offers a potentially powerful solution by permitting the effects of explanatory variables to change and evolve along dimensions that are thought to be important." (s. 529) Det kan handla om koefficienter som estimeras separat för två olika perioder, före och efter en critical juncture, eller med variation mellan kontexter.

Den första typen av modell som de lyfter fram är Structured additive regression-modeller (STAR). Dessa presenteras på följande vis:

"Structured additive regression (STAR) models extend generalized additive models by incorporating flexible nonparametric functions of covariates that can account for nonlinear effects and build in complexities in relationships among variables that are not possible in standard regression models (Fahrmeir and Tutz 2001; Hastie and Tibshirani 1990). STAR models generalize several classes of models familiar to political scientists, including generalized additive mixed models, variable coefficient models, and multilevel/hierarchical models. STAR models can capture parameter variation as well as unobserved heterogeneity that is likely to exist in the data while performing parameter smoothing to reduce the estimation instability that can result when we increase the parameter-to-data ratio. Smoothing can be done in a way that is particularly sensitive not just to historical time but also in ways that provide flexibility over other dimensions as well, such as region and policy area.
Bayesian approaches to estimation of STAR models provide the kind of flexibility that we seek. While frequentist approaches that use smoothing splines—especially splines over the time dimension—offer flexibility, a key advantage to going the Bayesian route is that we can use priors that incorporate assumptions that are particularly useful for historical analysis." (s. 529-530)

De exemplifierar fördelen med denna typen av modell med en undersökning av röstmönster i USA:s Kongress för medborgarrättsfrågor (civil rights) sedan tidigt 1800-tal. Vi kan förvänta oss att hur Demokrater och Republikaner röstar och samröstar (eller röstar mot varann) i dessa frågor förändras över tid: t ex med Lincoln och inbördeskriget på 1860-talet som en brytpunkt, eller med Lyndon B Johnsons liberala politik gentemot de svartas rättigheter i Södern på 1960-talet som en brytpunkt. Vi kan förvänta oss varierande effekter per period, eller per kongress.

Det första empiriska exemplet är som sagt röstmönster i US Congress. Här introducerar de också hur statsvetare jobbar med varierande effekter i regressioner över tid, utifrån structural breaks. Det vanligaste sättet att identifiera strukturella brytpunkter, skriver de 2014, är att göra ett Chow-test, "which assumes that it is valid to break a series into two parts—before and after some posited significant event. Yet it could be the case that the series should be broken into more than two parts and that the most important breaks occur at different points in time from those explicitly posited. If there are more structural breaks in the data than specified, we could reach incorrect inferences." (s. 531) W och K förespråkar istället ett flexiblare sätt att identifiera strukturella brytpunkter, bayesianska metoder där man använder informationskriterier för att beräkna vilket antal brytpunkter som ger bäst resultat. (531-2)

Nästa empiriska exempel är hur vanligt det är med split-party U.S. Senate delegations. Detta bygger på att varje delstat i USA har rätt att utse två senatorer, och att dessa väljs på ett rullande schema: en delstat väljer en senator vartannat år, och varje gång kan valet av ny senator alltså delvis "kompensera" för vem man valde förra gången. Brunell och Grofman (1998) har undersökt hur vanligt det är med split-party och lyfter fram att frekvensen av detta talar till en rad viktiga ämnen: realignment-teori, effekten av 17th Amendment (1913, bestämde att senatorer ska vara direktvalda), och ifall väljare väljer "divided government" för att balansera ut extrema politiker. Brunell och Grofman gör en tidsserieanalys för perioden 1788 till 1996 (!) där "the percentage of split Senate delegations is regressed on lags and lagged differences to account for the directionality of the multistage realignment process, variables that mark the received locations of realigning elections (e.g., 1830, 1862, 1896, and 1932), and a dummy that indicates the move to direct election." (s. 533) W och K säger att Brunell och Grofmans studie är extremt välgjord men att det ändå finns skäl att tänka vidare om fallet med split Senate delegations. Bland annat utifrån hur Mayhew (2002) och andra ifrågasatt realignment-teori: utifrån detta kan en mer flexibel metod för att bestämma strukturella brytpunkter vara mer befogad än B och G:s metod där de själva sätter parametrarna (1862, 1896 osv). Resultaten av en omanalys av detta, med Barry-Hartigan och Bai-Perrons metoder för att hitta strukturella brytpunkter, syns i Figur 1 ovan. Enligt dessa tester var t ex inte 1896 eller 1932 några brytpunkter för benägenheten till split Senate delegations, och att man hittar en brytpunkt 1908 talar emot betydelsen av 17th Amendment, med tanke på att den först implementerades 1913.

Wawro och Katznelsons tredje exempel handlar om hur Demokraternas politiska koalition omformades av politiken under New Deal. Här omanalyserar de en studie som Katznelson själv gjort, tillsammans med Farhang och publicerad 2005 i APD:s hustidskrift Studies in American Political Development. Närmare bestämt så handlar det om hur Demokrater från Sydstater och Nordstater kunde hålla ihop så länge New Deals arbetarvänliga politik inte omfattade svarta arbetare (många i jordbruk eller husliga tjänster) i Södern, medan koalitionen började krackelera när Nordstatsdemokraterna började omfamna kraven på rättvisa i att också förbättra livet och förhållandena för de svarta arbetarna. Wawro och Katznelson beskriver processen så här:

"During the early years of the New Deal, southern Democrats behaved much like their northern colleagues because labor policy was explicitly designed so that it would not interfere with the southern system of racial apartheid. Specifically, domestic and agricultural sectors—occupations in which the majority of African Americans were employed—were largely exempted from New Deal labor protections. The basis of this arrangement was a set of Faustian bargains in which liberals outside the South allowed a distinctly illiberal social and political order to perpetuate for the sake of securing and maintaining national majority coalitions. As labor unions began to mobilize in the South, and as their inroads began to undercut Jim Crow through the partial racial integration of union locals and by the challenge they posed to the region’s racialized, low-wage political economy, senators and representatives from that section became less willing partners in the New Deal coalition. Pursuing an insight of Key’s (1949), Farhang and Katznelson show how this decline in the southern propensity to vote with their northern counterparts on labor questions was the opening wedge for the later emergence of the Conservative Coalition that linked Republicans and southern Democrats in votes to resist a more robust federal government." (s. 535)

Farhang och Katznelsons studie bygger på röstmönster (roll-call voting data) i Kongressen från 1933 till 1948 och visar att likheten mellan Sydstats- och Nordstatsdemokrater minskar över tid; inte minst så slutade Sydstatsdemokraterna stödja arbetarvänlig lafstiftning när facket växt sig starkare. [5] "The analysis that Farhang and Katznelson offer can be conceived as one of changing parameters. " (s. 535) Wawro och Katznelson använder STAR-modeller för att omanalysera detta mönster och specifikt vad den fackliga styrkan hade för implikationer för röstningen i Kongressen. Jämfört med Farhang och Katznelsons modeller så inkluderar dessa tidsvarierande effekter. Kanske så fanns det för Sydstatarna en "temporal component of accelerating concern"? Och omständigheterna under andra världskriget, med tighta arbetsmarknader och en speciell politisk mobilisering, kan också ha format omröstningarna under krigsåren.


Så här sammanfattar Wawro och Katznelson resultaten av sin omanalys av Farhang och Katznelsons (2005) studie:

"Allowing parameters to vary over time and region while employing historically relevant priors thus reveals a fascinating nuance inside the more general pattern identified by Farhang and Katznelson(2005)—one that indicates an interesting and significant modification to our understanding of this era’s labor policymaking. While senators from the Deep South were much less supportive of labor as unionization, the African American population in their states, and urbanization increased in tandem, their colleagues from the Border South were significantly less hostile to labor into the Fair Deal period. These results suggest that senators from this region were cross pressured, caught between their overarching desire to protect a system of white supremacy and the need to be responsive to their voters, some of whom were drawn to unions and their capacity to improve life situations. While segments of constituencies in this region feared the threat to desegregation and the southern order that union activity presented, other constituents were actually being mobilized to join unions, implying that they might pose effective opposition to reelection-seeking senators who were hostile to labor. As a result, some southerners in Congress may have hedged their bets in places where unions were experiencing the most success at organizing and where, concomitantly, preferences for segregation were weaker.
The methods we have applied provide clear and unexpected evidence that unionization in the Border South tempered defections from the majority party position in the 1940s, a pattern within a pattern that had been missed not only by Farhang and Katznelson (2005) but also by all the extant literature on unions and the South written by historians and social scientists, including Marshall’s (1967) still standard work.
In all, this replication demonstrates the usefulness of permitting parameter heterogeneity while constraining it with historically relevant priors. ..." (s. 540)

I slutsatserna återkommer de till riskerna med ömsesidig oförståelse mellan historiker och historiskt orienterade samhällsvetare. Att använda modeller med varierande effekter över tid och mellan enheter kan vara en väg framåt för att överbrygga motsättningarna och den ömsesidiga oförståelsen, säger de: "Good research on historical periods cannot proceed by a flattening universalism. Rather than expect models to predictably port across time, we should be building models that seek to internalize and reflect central historical features and processes by integrating parameter heterogeneity and complexity inside their very construction." (s. 541)

 

Om 2014-artikeln var en fläkt från 1990- och 2000-talens metoddiskussioner, så är 2020-artikeln, publicerad i Jenkins specialnummer av Public Choice om APD och metod och återpublicerad i den editerade volymen från 2020, Causal Inference and American Political Development, mycket mera ett explicit engagemang med identifikationsrevolutionen. De diskuterar Rubins (1974, 1978, 1990) potential outcomes-modell, diskussionerna om kausal inferens och randomisering. De säger att APD-forskningen över tid rört sig till att inkludera OLS-regressioner med kontrollvariabler, men inte riktigt med den typen av designer som "causalistas" förespråkar. [6]

Men faktum är att W och K vill varna för detta: "First, we worry that standard OLS approaches insufficiently are attuned to central problems of history and historicity, including context, specificity, and temporality. And we are concerned as well that no compelling reason exists for historical scholarship deeply concerned with causality to rely on standard regression analysis without going further." (s. 303) De är optimistisk om möjligheten att använda geografiska regressions-diskontinuitets-designer (RDD) a la Melissa Dells (2010) studie av tvångsarbete i Peru och Bolivia, men mer skeptiska till tidsbaserade diskontinuitetsdesigner. Däremot tror de att man kan använda sig av RDD-designer där man jämför politiska kandidater som knappt vunnit respektive knappt förlorat val, så som Feigenbaum, Palmer ohc Schneer ("Descended from immigrants and revolutionists: How immigrant experience shapes congressional decisionmaking on immigration votes", konferenspapper 2018, publicerat i QJE 2025) gjort för att undersöka hur politikers familje-migrationshistorier påverkat deras röstning i migrationsfrågor 1915-1971.

Nästa diskussion handlar om instrumentvariabeldesigner, lanserade som kausala designer för nationalekonomi av Angrist, Imbens och Rubin i en rad artiklar på 1990-talet, som alla relaterade till Rubins potential outcomes-modell. Wawro och Katznelson ser IV-designer som lovande för APD:

"A number of influential and well-placed publications in the field of economic development have used IV for historical work, effectively establishing it as a definable approach. APD scholars will find much to like in this literature. The questions pursued are of the “big” variety that APD prides itself on tackling (Mettler and Valelly 2016). Historical materials are deeply engaged, especially when it comes to arguments for why the IVs employed are valid. Archival resources are mined painstakingly to compile astoundingly rich historical datasets amenable to quantitative analysis and suitable for IV designs. Much of this work marries qualitative and quantitative efforts in the ways advocated by Dunning (2012), with the former involving a grappling with historical context in ways that justify the latter." (s. 305)

Här diskuterar de t ex Feyrer och Sacerdotes ("Colonialism and modern income: Islands as natural experiments", RESTAT 2009) studie av hur längden av perioden under kolonialism påverkar den ekonomiska utvecklingen, med vindförhållanden som instrument. Kolonisatörerna koloniserade först öasr som det med den tidens segelteknik var enkelt att segla till. Vindförhållandena borde inte ha några kausala effekter på den ekonomiska utvecklingen idag, och är alltså ett giltigt instrument för koloniseringsperioden. Liknande så använder Hoyt Bleakley och Jeffrey Lin ("Portage and path dependence", QJE 2012) svårframkomlig vattengeografi, t ex vattenfall, som instrument för var det var särskilt viktigt att anlägga städer för att hantera transporter för länge sen. Vattenfallen har ingen egen effekt på den ekonomiska utvecklingen idag, så utgör ett relevant instrument för urbaniseringens effekter på ekonomisk utveckling. 

Wawro och Katznelson reser dock en invändning mot IV-designerna. Det handlar om att de typiskt använder ett förhållande från för länge sedan, flera hundra år, och kör regressionen med en nutida utfallsvariabel på den historiska instrumentvariabeln. Tiden däremellan beaktas inte. (Ekonomisk-historikern Gareth Austins "Compression of history".)  De diskuterar Nunn och Wantchekons (2011) IV-studie av slavhandelns effekter på tilltro som exempel: det finns mer än hundra år av historia mellan måttet på slavhandeln och måttet på samtida tilltro. Gentemot IV-designens avstånd mellan historiska orsaker och nutida utfall, ställer W och K en rad intressanta frågor om hur man skulle kunna utveckla approachen:

"the empirical strategy does raise questions about what we would expect to see if we had data from intervening intervals. Would we expect relationships to decay, grow stronger, or stay the same across time? If relationships between explanatory variables of interest and outcomes vary over time, what does that tell us about the nature of the persistence? What if the extent of correlation between instruments and endogenous variables changes over time? In a sense, we would expect such shifts, but what does this mean in terms of the theory of persistence?" (s. 307)

Från denna mer principiella diskussion går de över till en diskussion av användningar av IV-designer inom APD-forskning. Acharya, Blackwell och Sen (2016, 2018) använder en historisk IV-design, liknande Nunns (2008) för att utforska slaveriets bestående effekter på politiken i USA. ABS argumenterar att vita i områden som var mer beroende av slaveriet för sin ekonomi reagerade mer negativt på avskaffandet av slaveriet, och agerade för att etablera institutionella och kulturella förhållanden som skulle upprätthålla de vitas makt över svarta. Så här beskriver Wawro och Katznelson argumentet och metoden:

"ABS find a relationship at the individual respondent-level between slaves per capita in a county in 1860 and the likelihood today of identifying as Republican, opposing affirmative action, and expressing racial resentment and “colder” feelings toward African–Americans. In order to bolster the validity of their estimates as causal, the authors use cotton-growing suitability to instrument for the proportion of the population made up by slaves on the eve of the Civil War. Nunn and Qian (2011) first deployed the design using crop suitability as an instrument in their study of the impact of the potato on population growth and urbanization. The concern is that a simple regression of political attitudes on the proportion of slaves in a county would not account sufficiently for all pre-1860 covariates that would have had a simultaneous effect on both the slave population proportion in 1860 and contemporary attitudes. The argument for doing two-stage least squares is that cotton-growing suitability would have a direct relationship with slave proportions in 1860, but would not be related to racial attitudes today, thus providing the necessary exclusion restriction. The design enables them to discount other potential explanations, including possible “racial threats” perceived by whites who currently are living in close proximity to high concentrations of African–Americans." (s. 308)

Invändningar har rests, säger Wawro och Katznelson, mot att ABS inte har något faktiskt mått på hurpass användbar jorden var för att odla bomull år 1860, utan att jordkvalitetsvariabeln istället härrör från perioden 1961-1990. Här kan man t ex ställa frågor om omvänd kausalitet: kanske intensiv odling av bomull under slaveriperioden slet ut jorden och i sig gjorde att jorden 1961-1990 var mindre effektiv för att odla bomull. (Nunn och Qian försöker undvika sådan endogenitet genom att använda bara de aspekter av suitability för potatisodling som inte kan påverkas på detta sätt: värme, regn.) En annan invändning är att ABS bara kollar just på bomullslämplighet som instrument, trots att slavar användes också för att producera andra jordbruksprodukter. ABS (2016) säger i en fotnot att de “omit suitability for other crops, such as tobacco, because they have no relationship with slavery conditional on cotton suitability.” Detta trots att Fogel (1989) visar att det fanns stora koncentrationer av slavar också i områden som inte odlade bomull, särskilt i upper South där man odlade tobak. Wawro och Katznelson reser invändningar mot ABS design som är helt i enlighet med deras 2014-artikel och intresset för varierande effekter över tid och mellan enheter, här delstater:

"We also question whether or not it is reasonable to assume homogeneous coefficients between the Deep South and the Border South. ABS address heterogeneity by including state fixed effects in their regressions. However, it is reasonable to worry about heterogeneity of the coefficients across states in the first-stage regression and possibly the second. The question of how crop suitability varied over time also remains, as southerners embraced innovations in farming techniques and technology that helped to revive depleted lands (Craven 1926)." (s. 310)

Som mer generell slutsats menar de att en viktig metodologisk väg framåt är att gentemot IV-designer utforska varierande effekter över tid. "We are hopeful that devoting more thought and effort to developing causal approaches that are more self-consciously historical will enable researchers to avoid trading off identification for the flattening of time." (s. 311)

 

anteckningar

Gregory J. Wawro och Ira Katznelson (2014) "Designing Historical Social Scientific Inquiry: How Parameter Heterogeneity Can Bridge the Methodological Divide between Quantitative
and Qualitative Approaches"
, American Journal of Political Science.

Gregory J. Wawro och Ira Katznelson (2020) "American political development and new challenges 
of causal inference"
, Public Choice 185: 299–314

 

fotnoter

[1] APD verkar vara mer kontroversiellt och debatterat än vad man som utomstående genast förstår. Jag vet inte riktigt vad det handlar om men jag antar att det har med metodstrider att göra? Det är i vilket fall slående att redaktörerna för Oxford Handbook of American Political Development, Suzanne Mettler (Cornell) och Richard Valelly (Swarthmore),  i sin inledning till handboken talar om APD som att fältet "emerged in the early 1980s as an insurgent movement". Insurgent!

Jeffery A. Jenkins (USC) ger i sin inledning till volymen Causal Inference and American Political Development, publicerad av Springer 2024, också ett intressant perspektiv på APD:s metodologi, från ett kvantitativt håll; Jenkins är kvantitativ statsvetare som under 2020-talet varit med om att etablera Historical Political Economy (HPE) som ett forskningsfält, som drivs av kvantitativ metod. Volymen springer ur en workshop arrangerad 2019, före HPE myntats som begrepp, ägnad åt att föra samman Causal Inference (CI) och APD, och Jenkins kommenterar så här på mötet mellan CI och APD: "As many of the authors discussed, CI and APD do not easily go together. For example, Caughey and Chatfield (2020: 359) noted: “both causal inference and APD are centrally interested in questions of causation, but they approach causation with very different ontological and epistemological commitments.” Specifically, while CI scholars typically incorporate careful, experiment-based research designs to produce “average effects of discrete, manipulable ‘treatments’” (Caughey and Chatfield 2020: 360), APD scholars have traditionally focused on “large, complex, normatively significant questions about historical processes and institutions – questions that typically are not well-suited to a crisply defined design-based inference about the effect of a specific ‘treatment’” (Schickler 2020: 502)." Citat från Jenkins, s. v.

[2] Det är kanske också den har förvånansvärt få citeringar för att vara en programmatisk metodartikel publicerad i en av statsvetenskapens topp tre-tidskrifter: enligt Google Scholar har den bara citerats 50 gånger.

[3] De diskuterar Angrist och Pischke så här: "Although social scientists have recently paid a good deal more attention to unearthing more persuasive and powerful instrumental variables to address endogeneity and identify causal effects (Angrist and Pischke 2009), our focus here is on the substantial progress that can be made by augmenting standard models with techniques that have only recently come to the attention of political scientists. These techniques work within the framework of the regression model in ways that satisfy a desire for parsimony while incorporating features historians see as crucial to representing historical events and development." (s. 528)

[4] För den andra dimensionen, kontext, har de en intressant definition som jag inte riktigt förstår. Jag citerar: "Defined as “the dependency of sufficient causes upon necessary causes” (Gaddis 2002, 97), context concerns those features of social reality that make a given cause a candidate for sufficient status. This orientation to how particular surrounding circumstances affect the play of causal relations implies close attention to the particularity of locations and moments, for interaction of factors is shaped by noteworthy elements at distinct times and places." (s. 527)

[5] De definierar Södern som "the 17 states that mandated racial segregation before the 1954 Brown decision". Södern delas i sin tur in i tre grupper: Deep South (Alabama, Florida, Georgia, Louisiana, Mississippi, South Carolina, och Texas), Border South (fyra delstater), och de övriga sex.

[6] Så här beskriver W och K (2020) utvecklingen: "While earlier generations of APD scholars viewed detailed narratives, combined with some descriptive statistics, as sufficient for evaluating causal claims, regression analysis has become a standard method within APD’s toolkit, thus helping to move at least some parts of APD closer to the mainstream of political science, though not without cost." Fotnoten här går till: "For recent works in the APD tradition that employ regressions, see Caughey and Warshaw (2016),  Farhang (2010), Mulroy (Forthcoming), Ogorzalek (2018), and Schickler (2016)." (s. 303)

tisdag 16 juni 2026

Jordägare och demokratin


En av de mest beständiga hypoteserna i litteraturen om demokratins och de auktoritära regimernas ursprung, är den att en hög grad av ojämlikhet i jordbruket missgynnar chanserna för demokratin. Michael Albertus, statsvetare vid University of Chicago, sammanfattar i en artikel i World Politics från 2017 argumenten kring detta så här:

"There is considerable consensus that among the major social actors, large landowners are often the least likely group to support democracy. The reasons offered in the literature for why wealthy landowners should be systematically antidemocratic are legion. By holding fixed assets that cannot easily be shielded from taxation, landowners are apprehensive that majority rule in unequal societies will result in expropriation of those assets.[1] Landowners fear that the secret ballot and freedom of the press will undermine their ability to pressure or otherwise influence their workers to support candidates favorable to landlords.[2] At the same time, the repressive instruments that supply nonwage or servile labor to landlords by coercive means are far less readily available under democracy, and that threatens the profits, social status, and way of life of the most labor-repressive landowners.[3]"

Det finns alltså tre element här. För det första, att jordägarnas egendom -- själva jorden -- ligger fast och alltså inte kan flytta till ett grannland eller till ett skatteparadis ifall en ny demokratisk regim inför omfördelande skatter. Här refererar Albertus till Wood (2000), Boix (2003) (som diskuteras på bloggen här), Acemoglu och Robinson (2006), Ziblatt (2008) och Ansell och Samuels (2014). För det andra, att jordägare förväntas förlita sig på press mot underlydande för att hålla sig fast vid den politiska makten, och att möjligheterna att göra detta minskar med demokratisering. Referenserna här är Mahoney (2001), Baland och Robinson (2008), Ziblatt (2009) och Mares (2015). För det tredje, att godsägarna vill ha billig arbetskraft och att de använder repression för att hålla nere lönerna. Möjligheterna till detta kan minska med demokratin. Referenserna här är Gerschenkron (1943), Moore (1966) och Rueschemeyer, Stephens och Stephens (1992).

Det finns gott om empiriska belägg som stödjer dessa argument, säger Albertus och börjar diskussionen med Ziblatts (2008) studie av Preussen i det sena 1800-talet. Han går vidare så här:

"Labor-repressive landowners effectively sidelined democracy in interwar Austria, whereas their relative weakness in Northern Europe enabled democracy to take root. Labor-dependent landowners were key players in the creation of fascism in interwar Europe. Powerful landowners in El Salvador and South Africa long sought to suppress peasant and other popular movements that favored democracy. The same was true in Guatemala. The absence of powerful landed elite, in contrast, helped pave the way for early democracy in Costa Rica." (s. 233-234)

Det här är ju superintressant och som svensk är det inte minst referensen till norra Europa, här på en jämlik Sonderweg, som fascinerar mig. Referensen för Albertus här är Rueschemeyer, Huber Stephens och Stephens klassiska Capitalist Development and Democracy från 1992. En fantastisk bok, men jag håller inte med om deras kodning av jordojämlikheten i Sverige (som de inte har några hårda data för). I min artikel med Felix Kersting i Comparative Political Studies från tidigare i år så polemiserar vi med denna kodning. [1] Men teoretiskt sett är diskussionen väldigt intressant och den kan ju hålla i kontraster som Guatemala (hög landojämlikhet) kontra Costa Rica (låg dito) även om den inte håller i norra Europa. [2]

Albertus kommer i alla fall till att det finns nyare studier som ifrågasätter dessa teorier. Kanske gör den ökade kapitalrörligheten de senaste decennierna att jordägarna blir mindre speciella (jämfört med andra kapitalägare) vad gäller hur känsliga de är för beskattningen. En rad jordreformer under autokratiska regimer (Albertus 2015) visar också att jordägarna inte alltid har politikerna i sin ficka heller i de odemokratiska regimerna. Tre, det ökade inslaget av paramilitära konflikter på 1960-70-talen gjorde repressionen allt kostsammare och minskade den relativa kostnaden för demokratiseringen.

Detta öppnar, säger han, för ett nytt test av teorin att stora jordägare hindrar demokratin. De flesta tidigare studierna är antingen fallstudier, kvantitativa subnationella analyser som Ziblatts (2008, 2009) studier av Preussen, eller medium-N-studier som Rueschemeyer, Stephens och Stephens (1992). Så här ramar han in sin studies bidrag:

"The most comprehensive cross-national statistical analyses are perhaps those of Carles Boix, and Ben Ansell and David Samuels, who do not directly measure the presence of landed elites or labor-dependent agriculture; rather, they measure the concentration of land or more precisely, the share of farms held in family-size plots.
 This article offers the broadest cross-national empirical test to date of the relationship between landowners and democracy. i focus on what is argued to be the most robust finding in the literature: that a powerful labor-dependent landowning class is inimical to democracy. To examine this hypothesis i construct an original, continuous measure of labor-dependent agriculture dating back to 1930 by calculating the percentage of the population that works in agriculture and relies upon employers or landlords for access to rural land for farming." (s. 235) 

Här är det alltså Boix bok Democracy and Redistribution (Cambridge, 2003) och Ansell och Samuels bok Inequality and Democratization (Cambridge, 2014) som refereras. Och måttet på agrar ojämlikhet är Vanhanens: andelen av jorden som brukas av familjejordbruk, alltså jordbruk som bygger på den ägande eller arrenderande familjens arbetskraft, inte anställd arbetskraft. Det är ett yxigt mått, men i alla fall ett mått på den sociala strukturen i jordbruket, och ett mått som tack vare den finske statsvetaren Vanhanen finns tillgängligt för en stor mängd länder. Ur ett svenskt perspektiv är det lustiga här att dessa data inte alls visar att Sverige skulle vara något särskilt jämlikt jordbruksland. Här står en större procent för en större jämlikhet (fler familjejordbruk, omvänt färre gods) och en lägre procent för en lägre ojämlikhet, och i diagrammet nedan visar jag och mina medförfattare Jakob Molinder och Svante Prado att Sverige under perioden 1870-1930, demokratiseringsperioden, befinner sig ungefär i mitten av fördelningen. Större andel familjejordbruk än i Frankrike, Belgien, Nederländerna, Italien och Storbritannien, men lägre andel än i Österrike, Tyskland, USA, Kanada och Norge. (Sverige och Danmark har i princip identiska nivåer och trender.)


Att Sveriges medelmåttiga position här talar emot idén om att Sverige hade ett exceptionellt jämlikt jordbruk, verkar ingen ha plockat upp. [3] I vilket fall så talar denna detalj väl bara för Albertus ambition, när han lanserar sitt nya mått på labor-dependent agriculture sedan 1930.

I teoridelen diskuterar Albertus nyanser av vilka aspekter av den agrara ojämlikheten det är som bör ha de negativa effekterna på demokratin. James Mahoney (2003) säger i en nyare översikt, kapitlet “Knowledge accumulation in comparative historical research: The case of democracy and authoritarianism” i samlingsvolymen Comparative Historical Analysis in the Social Sciences, att, och här citerar jag Albertus som citerar Mahoney, "“new evidence is sufficient to falsify” Moore’s contention that labor-repressive landowners systematically block democracy." RHSS (1992) fokuserar därför att det är alla godsherrar som förlitar sig på en stor mängd billig arbetskraft, snarare än labor-repressive godsherrar specifikt, som motverkar demokratin. [4] I sin bok om Latinamerika specifikt säger Huber Stephens och Stephens (1995) liknande att de stora godsägarna med stort behov av billig arbetskraft faktiskt inte använde så många labor-repressive ingrepp av typen restriktioner av flyttningar. De behövde inte det eftersom det fanns en så stor grupp fattiga som ändå var tvungna att ställa upp för att arbeta billigt och under dåliga förhållanden. Mahoney (2003) drog utifrån detta slutsatsen att “we now have solid evidence that the power of labor-dependent landed elites—if not labor-repressive landed elites, as Moore hypothesized—is negatively correlated with the establishment and persistence of democracy.” (s. 238) Albertus kommenterar: "I build on this shift in the literature with my focus on labor-dependent, rather than strictly labor-repressive, agriculture."

När han lanserar sitt eget mått gör han blnd annat en väldigt intressant kritik av Vanhanens mått. Det säger hur stor procent av gårdarna som är familjejordbruk, men inte hur stora de är och hur stor del av jorden som brukas av familjejordbruk. Han konkretiserar med Brasilien år 1980: 37 procent av gårdarna var mindre än 5 hektar vilket är ganska mycket, men dessa utgjorde bara 1,3 procent av jorden och jordägande-Ginin var 0.86, en av de högsta i världen. (s. 241)

Albertus utfallsvariabler är i huvudsak av två typer: övergångar till demokrati, och demokratisk varaktighet. Detta data kommer från Cheibub, Gandhi och Vreeland (2010) som utvidgar Przeworski et als (2000) dataset.  Han undersöker också mer specifika aspekter av demokratin: nivån av rösträtt (från V-Dem), hur starkt parlamentet är gentemot regeringen, och hurpass fria valen är.

När han lanserar den oberoende variabeln gör han det mycket i relation till Rueschemeyer, Huber Stephens och Stephens och deras resonemang om det arbetsintensiva jordbruket. De räknar in tenants och sharecroppers i den underlydande arbetskraften och motiverar detta. (s. 245-249) Prosterman och Riedinger (1987) utvecklade ett mått på insecure tenure och använde detta som proxy för hur sannolikt det var att en revolution skulle bryta ut. Deras data omfattar 13 länder före revolutioner och ytterligare 78 länder från och med 1970-talet.

"I create the continuous variable labor-dependent agriculture by using several different data sets. data on the total number of agricultural holdings and the number of holdings that are owned or held in ownerlike possession are taken from the world censuses of agriculture (wca), which have been coordinated by the un’s Food and agriculture organization in decadal intervals since 1930. The most recent wave that has been made public is the 2000 wave, consisting of censuses conducted between 1996 and 2005. The wca data also contain information on the number of holdings with ownership or ownershiplike rights. The 
temporal scope of the data prevents any conclusions about the role of labor-dependent agriculture in the first wave of democracy or in the first half of the interwar period. " (s. 249) 

Han använder folkräkningsdata för att få fram antalet hushåll, och antalet hushåll som är verksamma i jordbruket. Med dessa variabler skapar han själva indikatorn:

"I then construct a measure of nonowner families engaged in agricultural labor by calculating the difference between the number of families dedicated to agriculture and the number of individually operated agricultural holdings with owner or ownerlike possession. This number is divided by the total number of families in the population to generate labor-dependent agriculture, an indicator of the percentage of families in a country that are engaged in agricultural labor, but lack ownership or ownershiplike rights.80 By capturing the prevalence of labor-dependent agriculture, this indicator implicitly accounts for the importance—and relational power—of landowners in society." (s. 250)

Och resultatet ser ut så här: 

"Labor-dependent agriculture varies from 0.1 percent of the population, corresponding to the united states in the early 2000s, to 73.2 percent of the population, which corresponds to iraq in the early 1950s. It has a mean of 21.6 percent and a standard deviation of 15.3 percent. other countries that score very low on labor-dependent agriculture include much of western and northern europe in the last several decades. countries that score particularly high on the measure include Venezuela in the 1930s, honduras prior to 1960, and Pakistan before 1970." (s. 250)

Resultaten är rimliga säger han: måttet är mycet lägre i Argentina och Uruguay än i historically labor-dependent ekonomier som Guatemala och Honduras. Colombia och Ecuador är mittemellan de låga och de höga länderna. Detta syns i Figur 1 som jag klistrat in ovan.

Den empiriska undersökningen börjar med dynamiska probitmodeller för att undersöka demokratiska övergångar. I en första bivariat modell har arbetsintensivt jordbruk ingen statistiskt signifikant effekt på sannolikheten för demokratisk övergång (men koefficienten är negativ). Inte heller när albertus kontrollerar för inkomst per capita eller antal tidigare regimskiften blir effekten signifikant. Med årsdummies och region-fixed effects blir koefficienten för arbetsberoende jordbruk positiv och signifikant, men med en svag effekt. Inte heller med Gini eller Vanhanens familjejordbruksmått händer något.

När Albertus byter utfallsvariabel till demokratisk varaktighet blir effekterna mer som förväntat. "A two standard deviation increase in labor-dependent agriculture increases the likelihood of democratic breakdown by an estimated 24 percent. The same is true in model 2(b), which introduces controls." (s. 256)

När han kollar på dimensionerna av demokrati är arbetsberoende jordbruk negativt relaterat till rösträtt, valens grad av frihet, och parlamentets makt.

Han går vidare med att kolla på ifall effekterna är föränderliga över tid. Han delar in samplet i 1930-1974 och 1974- och effekterna för de två subperioderna är helt olika varann. Graden arbetsberoende jordbruk har en positiv och statistiskt signifikant effekt på demokratiska övergångar efter 1974, och en negativ effekt på demokratisk varaktighet före 1974 -- men inte efter 1974. "The positive effect after the 1974 onset of the third wave postdates much of the early, influential literature on landowners and democracy. early authors such as Alexander Gerschenkron and Moore could not have known that labor-dependent landowners would subsequently become a positive force for democracy in much of the third wave." (s. 259) För att testa vad det är som gör att jordägarna blir positiva för demokratin efter 1974 kör han interaktionsmodeller där arbetsberoende jordbruk interageras först med kapitalrörlighet, sedan med föregående jordreformer, och sedan med data om inbördeskrig och liknande väpnade konflikter. Det verkar som att jordreformer och väpnade konflikter, men inte kapitalrörlighet, förändrar jordägarnas beteende vis-a-vis demokratin.

I en ny undersökning kollar han ifall länder med större grad av arbetsberoende jordbruk var mer benägna att introducera konstitutioner som riggade kommande demokratiseringar för att ändå koncentrera makten till den gamla eliten. (s. 267-272. Här föregår artikeln forskningen som Albertus publicerade tillsammans med Victor Menaldo i Authoritarianism and the Elite Origins of Democracy, publicerad av Cambridge UP 2018.)

I slutsatssektionen, som är relativt kort, bygger han på resultatet om de olika resultaten före och efter 1974, och resultatet om införandet av riggade konstitutioner:

"The positive shift in the role of labor-dependent landowners in democracy, spurred by spreading land reform and domestic civil conflict, is a major untold story of democracy’s third wave. it also helps explain why many third-wave democracies have low  institutional quality, as has been widely noted. Labor-dependent agriculture is tied to a host of democratic ills that plague developing democracies and hobble their efforts to consolidate. This has left a “democratic deficit” in these countries that is difficult to circumvent." (s. 272-273)

 

referenser

Michael Albertus (2017) "Landowners and democracy: The social origins of  democracy reconsidered", World Politics 69 (2).

fotnoter

[1] Vi skriver: "we have established that Sweden and Germany during the decades around 1900 were essentially similar regarding land inequality. This finding makes the comparison relevant. If we would accept the assumptions of Rueschemeyer et al. (1992, pp. 91–102), Ansell and Samuels (2014), Albertus (2017), or Domènech and Sanchez-Cuenca (2022) that Sweden had an egalitarian agrarian structure, then the comparison would not make sense." (s. 985) Albertus kommer också i teoridelen, s. 237, tillbaka till idén om ett relativt jämlikt Norden, och bygger också här på RHSS (1992).

[2] I fotnoter diskuterar han dock att skillnadenra också här kanske handlar mer om statsstruktur än om landojämlikhet. Om Costa Rica: "Yashar 1997, however, argues that this was not so straightforward: the state’s role in organizing production and the development of civil society were key to ultimate Costa Rican democracy.

[3] De studier som använt Vanhanens mått är väl mer kvantitativa och kollar på många länder, fokuserar inte in på enskilda fall som Sverige. Albertus refererar Ansell och Samuels resultat så här: "Ansell and Samuels use Vanhanen’s family farms measure while adjusting for the rural population and find that consistent with their own predictions and with Boix’s but not with those of Acemoglu and Robinson, a dearth of family farms decreases the probability of democratization in a linear fashion." (s. 240) I detta perspektiv kan man ju se det som helt enkelt att Sverige inte var särskilt sannolikt att demokratiseras 1920, men inte heller särskilt osannolikt fall.

[4] Albertus formulerar det så här: "In a sweeping and comprehensive study, Dietrich Rueschemeyer, Evelyne Huber Stephens, and John Stephens examine a range of advanced capitalist and Latin American countries and hypothesize that landed elites dependent upon a large supply of cheap agricultural labor, though not necessarily labor-repressive landlords, will be the most consistently antidemocratic social force. This modification of moore’s concept of labor-repressive agriculture captures a broader degree of landlord reliance on the political control of labor, even if not necessarily on outright coercion." (s. 238)

söndag 3 maj 2026

Differences-in-differences-approachen

Sedan 00-talet har differences-in-differences varit en av de absolut vanligaste metoderna inom empirisk nationalekonomi. I detta inlägg tänkte jag göra en överblick över hur diskussionerna kring denna metod utvecklats de senaste 20 åren.

 

Redan 2004 publicerade Marianne Bertrand (U Chicago), Esther Duflo (MIT) och Sendhil Mullainathan (MIT) en artikel med den braskande rubriken "How much should we trust differences-in-differences estimates?" Så här förklarar de estimatorns popularitet: "The great appeal of DD estimation comes from its simplicity as well as its potential to circumvent many of the endogeneity problems that typically arise when making comparisons between heterogeneous individuals (see Meyer [1995] for an overview)." (s. 250) Men de pekar också på att det redan (år 2004) finns en stor kritisk litteratur om metoden. "Treatment" i D-i-D handlar ofta om lagar som införs i delstater i USA, säger de, och att man jämför delstater med och utan sådan lag, men en vanlig invändning är då: är införandet av ens treatment verkligen exogent? [1]

Det är dock inte detta problem som Bertrand et al fokuserar på, utan problem med alltför små standardfel till ens estimatorer. De presenterar DiD-estimatorn som följande ekvation:

 Y_ist =  A_s + B_t + cX_ist +  βI_st + ε_ist, 

där Y är utfallet för individen i grupp (t ex delstat) s år t, A_s och B_t är fixed effects för delstat och år, X_ist är kontrollvariabler på individnivå, och I_st är en dummy för treatment eller ej. β är alltså koefficienten för effekten. Standardfelen för denna koefficient är oftast OLS-SEs, ibland korrigerade för korrelerade chocker inom delstat-år-celler (alltså något slags klustring).

Argumentet i Bertrand et als artikel är att skattningen av ekvationen lider ev ett stort och underskattat problem med seriekorrelation. Tre saker gör att detta blir ett särskilt stort problem i en DID-kontext. Ett, DID har ganska långa tidsserier -- studierna de kollar på har i genomsnitt 16,5 perioder. Två, de vanligaste utfallsvariablerna har stark seriekorrelation. Tre, treatment-variabeln I varierar inte mycket, om alls, över tid.

För att beräkna hur stort problemet är kör de i en rad simulationer där de inför placebo-lagar på delstatsnivå i USA. När man skattar effekter av dessa fiktiva lagar borde dessa effekter statistiskt sett bli signifikanta på 5-procentsnivån 5 procent av gångerna, men när de t ex provar med kvinnolöner som utfallsvariabler och med 21 år data så hittar de en "signifikant effekt" av den fejkade lagen 45 procent av gångerna. De replikerar också detta med Monte Carlo-metod. Monte Carlo-metoden använder de också för att prova vad för fixar för seriekorrelationen som biter. En parametrisk korrektion för en viss DGP som en AR(1) räcker inte. En icke-parametrisk teknik, "block bootstrap", fungerar när antalet delstater/grupper är stort nog. Enklare fixar kan också funka. Den ena är att ta bort tidsseriedimensionen genom att helt enkelt dela in datat i en pre- och en post-period. Den andra är att "one can allow for an unrestricted covariance structure over time within states, with or without making the assumption that the error terms in all states follow the same process. This technique works well when the number of groups is large (e.g., 50 states) but fares more poorly as the number of groups gets small." (s. 252)

Deras översikt över DID-artiklar samlar alla atiklar med denna metod i sex tidskrifter mellan 1990 och 2000. "We classifi ed a paper as “DD” if it focuses on specific interventions and uses units unaffected by the law as a control group." Med denna metod hittar de 92 DID-artiklar i de sex tidskrifterna. Av dessa använde 18 sysselsättning som utfall, 13 löner, 8 hälsa eller medicinska utlägg, 6 arbetslöshet, 4 fertilitet, 4 försäkringar, 3 fattigdom, och 3 konsumtion eller sparande. Det genomsnittliga antalet perioder är 16,5 men bara 5 av artiklarna diskuterar uttalat autokorrelation; av dessa 5 använder 4 en autoregressiv modellspecifikation (AR(k)). [2]

I deras diagnostiska tester av var problemen kommer ifrån börjar de med faktiska lönedata från delstaterna (från Current Population Survey) men med påhittade lagar som införs. Därefter experimenterar de också med att fejka lönedata som får följa en AR(1)-struktur. De provar också hur väl en block bootstrap-modell hanterar problemet. Wikipedia definierar block bootstrap så här: 

"The block bootstrap is used when the data, or the errors in a model, are correlated. In this case, a simple case or residual resampling will fail, as it is not able to replicate the correlation in the data. The block bootstrap tries to replicate the correlation by resampling inside blocks of data (see Blocking (statistics)). The block bootstrap has been used mainly with data correlated in time (i.e. time series) but can also be used with data correlated in space, or among groups (so-called cluster data)."

 Med 50 delstater funkar block bootstrap-metoden bra för att sluta få typ I-fel (alltså att man tror att det finns en signifikant effekt fast det inte gör det). Men med färre antal stater -- 20, 10 -- så funkar det mindre bra. Nästa approach är den enklare, att helt enkelt reducera tidsseriedimensionen till bara två perioder: pre och post. Detta funkar bara om alla treated delstater upplever treatment samtidigt, men de säger att man kan modifiera regressionen så att det funkar också med heterogen treatment. (s. 267)

Den sista korrigeringsmetoden är vad de kallar "empirical variance-covariance matrix" och de introducerar denna så här:

"Specifically, suppose that the autocorrelation process is the same across all states and that there is no cross-sectional heteroskedasticity. In this case, if the data are sorted by states and (by decreasing order of) years, the variance-covariance matrix of the error term is block diagonal, with 50 identical blocks of size T by T (where T is the number of time periods). Each of these blocks is symmetric, and the element (i, i   j) is the correlation between  i and  i j. We can therefore use the variation across the 50 states to estimate each element of this matrix, and use this estimated matrix to compute standard errors. Under the as- sumption that there is no heteroskedasticity, this method will produce consistent estimates of the standard error as N (the number of groups) goes to infi nity [Kiefer 1980]." (s. 250) 

Metoden funkar väl med 50 delstater, men mindre bra med ett mindre antal stater. De gör också en variant, "arbitrary variance-covariance matrix".

I slutsatserna betonar de att autokorrelationen i utfallen gör att standardfelen i många DID-studier är starkt underskattade. Med tanke på att t-värdena i många av de 92 DID-studier de tittat på ligger runt 2, betyder det att "effekterna" som skattats inte alls är statistiskt signifikanta. 

 

Året därefter, 2005, publicerade Alberto Abadie (då Harvard, sedan 2016 MIT) också han en artikel om metodproblemen inom DID-litteraturen. Hans artikel är dock mycket annorlunda. I abstract introducerar han problematiken: "the conventional DID estimator requires that, in the absence of the treatment, the average outcomes for the treated and control groups would have followed parallel paths over time. This assumption may be implausible if pre-treatment characteristics that are thought to be associated with the dynamics of the outcome variable are unbalanced between the treated and the untreated." Identifikationsproceduren som han använder kommer från Heckman et al (“Matching as an Econometric Evaluation Estimator: Evidence from Evaluating a Job Training Programme”, REStud, 1997, “Characterizing Selection Bias using Experimental Data”, Econometrica 1998) säger han, men han presenterar tre nya saker. Ett, estimationsproceduren kräver inte upprepade observationer från samma individer. Två, "it allows the estimation of parsimonious parametric approximations to the average effect of the treatment on the treated conditional on selected covariates of interest." Tre, hans ramverk kan hantera olika intensiteter i treatment.

Abadie presenterar en utfallsvariabel Y_it som genereras i en viss datagenereringsprocess, en components of variance process:

Y (i, t) = δ(t) + α · D(i, t) + η(i) + υ(i, t),  

där α är effekten av treatment och de andra delarna är tids-delen, individ-delen och v (i, t) är en "individual-transitory shock that has mean zero at each period, t = 0, 1, and is possibly correlated in time". Bara Y och D observeras, andra skattas. Efter en del manipulation får han:

Y (i, t) = µ + τ · D(i, 1) + δ · t + α · D(i, t) + ε(i, t). 

Som är en difference-in-difference-modell, eftersom:

α = {E[Y (i, 1) | D(i, 1) = 1] − E[Y (i, 1) | D(i, 1) = 0]}
− {E[Y (i, 0) | D(i, 1) = 1] − E[Y (i, 0) | D(i, 1) = 0]},  

Vi vill ju beräkna α som är effekten av treatment. Men hur funkar detta om det finns en selektion in i treatment eller helt enkelt en korrelation i utfallsvariabeln före treatment? Abadie refererar här till "Ashenfelter's dip" efter Ashenfelter (1978) som visade att individer som utvaldes till utbildningsprogram tenderade att ha negativa inkomstvariationer just innan de sattes i utbildningen. Ashenfelter och Card föreslog redan 1985 ett sätt för att hantera detta problem.

Till skillnad från Bertrand et als artikel är Abadies artikel mycket teknisk och jag kommer inte gå in på detaljerna, men det räcker väl att säga att han resonerar principiellt ekonometriskt om hur man ska hantera problemet med "Ashenfelter's dip" och relaterad selektion in i treatment och ifall man kan använda kontrollvariabler för att göra detta. Meyer (1995) pekar på ett problem med att ha med kovariater i ens regression, ifall ens treatment har olika effekter på olika grupper i befolkningen. Abadie lägger fram en ny metod för att inkludera kontrollvariabler i en DID-modell. Så här introducerar han sin egen approach till detta problem jämfört med Heckman et als förslag:

"A related way to accommodate covariates in a DID estimator has been explored by Heckman et al. (1997, 1998) who propose a DID estimator of the average treatment effect on the treated based also on conditional identification restrictions. Their estimator is constructed by matching differences in pre-treatment and post-treatment outcomes for the treated to weighted averages of differences in pre-treatment and post-treatment outcomes for the untreated. The differences are matched on the probability of treatment exposure conditional on the covariates (the propensity score) and the weights are determined non-parametrically using local linear regression. This article, however, proposes a direct weighting scheme on the propensity score that can be used to estimate the effect of the treatment on the treated without estimating weights non-parametrically in a previous step." (s. 4-5)

Om bidraget i Heckman et al (1997) var att föreslå en slags variant av propensity score matching, en teknik för att kontrollera för vilka enheter som väljs in i treatment och vilka som inte gör det, så  kan man säga att Abadie föreslår en annan lösning: 

"This article proposes simple weighting schemes to produce estimators of the average effect on the treated E[Y 1(1) − Y 0(1) | D = 1] and parsimonious parametric approximations to its conditional version E[Y 1(1) − Y 0(1) | Xk , D = 1], where Xk is a function of X (for example, a subset of the variables in X). The weighting scheme is directly based on the propensity score, P(D = 1 | X), which is the only function which needs to be estimated in a first step. As a result, the proposed method reduces the first step estimation burden and allows the researcher to use four or two times more observations for first step estimation, relative to direct estimation of equation (9). In practice, this feature may be an important advantage if non-parametric estimation is carried out in the first step. When the number of observations is too small for non-parametric estimation in the first step, the proposed method allows the researcher to circumvent the curse of dimensionality by placing parametric restrictions on the propensity score, which leaves E[Y 1(1) − Y 0(1) | Xk , D = 1] unrestricted, rather than on each one of the conditional means of equation (9), which may impose unwanted restrictions on E[Y 1(1) − Y 0(1) | Xk , D = 1]." (s. 7)

En central skillnad mellan Heckman et als (1997) metod och Abadies (2005) metod är att den tidigare handlade om att matcha enheter baserat på deras egenskaper (vektorn kontrollvariabler X) och sannolikheter att bli "treated" eller inte, medan Abadies kräver en längre tidshorisont och bygger på hur treated och non-treated enheter förändrades före treatment sattes in, givet deras egenskaper (vektorn kontrollvariabler X). I sina slutsatser säger han: "In this article, I have introduced a family of semiparametric difference-in-differences estimators of treatment effects based on conditional identification restrictions. These estimators may be particularly appropriate when the distribution of observed characteristics that are thought to be related to the dynamics of the outcome variable differs between treated and untreated." (s. 13) Det seminparametriska här syftar på att Abadies estimator inte kräver linjära effekter av X på Y men att matchningen låter en skilja på olika grupper (utifrån värden på X) men utan att säga att β av X ska vara densamma överallt.

 

2008 hade DID-litteraturen nått så långt att den fick stora översikter och synteser. Då var det Guido M. Imbens och Jeffrey M. Wooldridge som publicerade "Recent Developments in the Econometrics of Program Evaluation" som ett NBER WP; pappret publicerades ett år senare i Journal of Economic Literature, men jag har läst WP-versionen. De sade i sin introduktion att den ekonometriska litteraturen om kausala effekter av "programs or policies" under de två föregående decennierna nått sådan "level of maturity" att det var dags för en surveyartikel.

Det fundamentala metodologiska problemet med att utvärdera effekten av en treatment eller ett program är att utfallet för varje enhet bara kommer vara ett: "The problem is that we can at most observe one of these outcomes because the unit can be exposed to only one level of the treatment." Diskussionen om hur man kan hantera detta problem går tillbaka till Ashenfelter (1978) och följande studier av Ashenfelter and Card (1985), Heckman and Robb (1985), Lalonde (1986), Fraker and Maynard (1987), Card and Sullivan (1988), och Manski (1990).  Denna litteratur fokuserade metodologiskt framför allt på problem med endogenitet, ifall det fanns en systematik i vilka enheter som blev behandlade och vilka som inte blev det. Parallellt så arbetade Rubin (1973, 1974, 1977, 1978) inom statistiken med ungefär samma problem och hans lösning på problemet fick av Holland (1986) namnet Rubin Causal Model. (I slutsatssektionen säger Imbens och Wooldridge att en av de viktiga aspekterna av "the modern literature" är att statistiker och ekonometriker nu konvergerat runt "the Rubin potential outcomes framework" som "the dominant framework", s. 75.) Den statistiska idealmodellen för att utvärdera en kausal effekt av en intervention är så klart om interventionen är helt slumpmässigt tilldelad (randomiserad); denna typ av experiment är ovanliga inom nationalekonomin men har under 2000-talet använts inom utvecklingsekonomin (Duflo 2001; Miguel och Kremer 2004; Angrist, Bettinger och KRemer 2005; Banerjee, Duflo, Cole och Lnden 2007) och inom beteendeekonomi (Bertrand och Mullainathan 2004). Det är dock vanligare med observationsdata och då gäller det för att etablera kausalitet snarare att skapa jämförbara treated och untreated grupper:

"All these labels refer to some form of the assumption that adjusting treatment and control groups for differences in observed covariates, or pretreatment variables, remove all biases in comparisons between treated and control units. This case is of great practical relevance, with many studies relying on some form of this assumption. The semiparametric effi ciency bound has been calculated for this case (Hahn, 1998) and various semi-parametric estimators have been proposed (Hahn, 1998; Heckman, Ichimura, and Todd, 1998; Hirano, Imbens and Ridder, 2003; Chen, Hong, and Tarozzi, 2005; Imbens, Newey and Ridder, 2005; Abadie and Imbens, 2006)." (s. 2-3)

Det finns en rad strategier för att hantera detta, säger de och rabblar upp 10- och 20-talets stora metoder en efter en:

"Without unconfoundedness there is no general approach to estimating treatment effects.Various methods have been proposed for special cases, and in this review we will discuss several of them. One approach (Rosenbaum and Rubin, 1983; Rosenbaum, 1995) consists of sensitivity analyses, where robustness of estimates to specific limited departures from unconfoundedness are investigated. A second approach, developed by Manski (1990, 2003, 2007), consists of bounds analyses, where ranges of estimands consistent with the data and the limited assumptions the researcher is willing to make, are derived and estimated. A third approach, instrumental variables, relies on the presence of additional treatments, the so-called instruments, that satisfy specific exogeneity and exclusion restrictions. The formulation of this method in the context of the potential outcomes framework is presented in Imbens and Angrist (1994) and Angrist, Imbens and Rubin (1996). A fourth approach applies to settings where, in its pure form, overlap is completely absent because the assignment is a deterministic function of covariates, but comparisons can be made exploiting contintuity of average outcomes as a function of covariates. This setting, known as the regression discontinuity design, has a long tradition in statistics (see Shadish, Campbell, and Cook, (2002), Cook (2007) for a historical perspective), but has recently been revived in the economics literature through work by VanderKlaauw (2002), Hahn, Todd, and VanderKlaauw (2000), Lee (2001), and Porter (2003). Finally, a fifth approach, referred to as diff erence–in–diff erences, relies on the presence of additional data in the form of samples of treated and control units before and after the treatment. An early application is Ashenfelter and Card (1985). Recent theoretical work includes Abadie (2005), Bertrand, Dufl o and Mullainathan (2004), Donald and Lang (2008), and Athey and Imbens (2006)." 

Ur-exemplet är ett job market training program, säger de: det arketypiska studieobjektet sedan Ashenfelter (1978) och Lalonde (1986).

Sektion 2 av översiktsartikeln handlar om Rubin Causal Model.  Individen i (bland i = 1, ..., N) har två potentiella utfall, Y_i0 och Y_i1, där det första är om han eller hon inte är med i programmet (W_i=0) och det andra är om han eller hon är med (W_i=1). "This distinction between the pair of potential outcomes (Yi(0), Yi(1)) and the realized outcome Yi is the hallmark of modern statistical and econometric analyses of treatment effects." (s. 5) Ramverket kommer från början från Neyman (1923) och har också utvecklats av Haavelmo (1943) i dennes arbete på simultaneous equations models, SEMs (Haavelmo ville studera sambandet mellan utbud och efterfrågan). Så här diskuterar Imbens och Wooldridge fördelarna med ett ramverk av potential outcomes jämfört med ett av realized outcomes:

"The potential outcomes framework has a number of advantages over a framework based directly on realized outcomes. The fi rst advantage of the potential outcome framework is that it allows us to defi ne causal eff ects before specifying the assignment mechanism, and without making functional form or distributional assumptions. The most common definition of the causal effect at the unit level is as the difference Yi(1) − Yi(0), but we may wish to look at ratios Yi(1)/Yi(0), or other functions. Such definitions do not require us to take a stand on whether the eff ect is constant or varies accross the population. Further, defi ning individual-specific treatment effects using potential outcomes does not require us to assume endogeneity or exogeneity of the assignment mechanism. By contrast, the causal effects are more difficult to defi ne in terms of the realized outcomes. Often, researchers write down a regression function Y_i = α + τ · W_i + ε_i. This regression function is then interpreted as a structural equation, with τ as the causal effect. Left unclear is whether the causal effect is constant or not, and what the properties of the unobserved component, ε_i, are. The potential outcomes approach separates these issues, and allows the researcher to first define the causal effect of interest without considering probabilistic properties of the outcomes or assignment." (s. 5-6)

Den andra fördelen med POA är att den "links the analysis of causal effects to explicit manipulations." (s. 6) När man utgår från tänkandet kring vad för slags utfall som skulle kunna observeras så manas man att tänka på vilka förlopp som kan påverka vilka utfall som uppstår. (Detta gillar jag verkligen -- det påminner mig om den mycket mer specifika poängen om interaktionsmodeller att man måste tänka på ifall en viss kombination, som modellen förutsätter, ens är möjlig.) En tredje fördel, säger Imbens och Wooldridge, är att den "separates the modelling of the potential outcomes from that of the assignment mechanism. Modelling the realized outcome is complicated by the fact that it combines the potential outcomes and the assignment mechanism." En fjärde fördel är att den "allows us to formulate probabilistic assumptions in terms of potentially observable variables, rather than in terms of unobserved components." En femte fördel är att den klargör var osäkerheten i estimatorerna kommer ifrån.

RCM:s andra komponent efter potential outcomes är the assignment mechanism: "This is defined as the conditional probability of receiving the treatment, as a function of potential outcomes and observed covariates." De ser tre varianter av denna, från enklast till svårast. Den första är ett randomiserat experiment där assignment to treatment inte korrelerar med möjliga utfall.  Metoder för att studera fall med denna typ av tilldelningsmekanism diskuteras i sektion 4. Den andra typen av tilldelningsmekanism "maintains the restriction that the assignment probabilities do not depend on the potential outcomes": W_i ⊥ (Y_i(0), Y_i(1)) | X_i, alltså att sannolikheten för att hamna i treatment-gruppen är oberoende av utfallen givet vad vi vet om kontrollvariablerna X_i. ". The precise form of this critical assumption, not tied to functional form or distributional assumptions, was fi rst presented in Rosenbaum and Rubin (1983a). Following Rubin (1990) we refer to this assignment mechanism as unconfounded assignment.
Somewhat confusingly, this assumption, or variations on it, are in the literature also referred to by various other labels. These include selection on observables, exogeneity, and conditional independence." Metoder för att studera fall med denna typ av tilldelningsmekanism diskuteras i sektion 5. Den tredje typen är alla andra, och dessa metoder diskuteras i sektion 6: indstrumentvariabler, regressionsdiskontinuitet, och DID.

En slags begränsning med denna typ av metoder är att man i princip alltid utgår ifrån att en enhets treatment inte påverkar utfallen för en annan enhet. Det är väl i princip vad som ligger bakom att dessa metoder är så stora inom applicerad mikro, men inte inom makro.

"In most of the literature it is assumed that treatments received by one unit do not affect outcomes for another unit. Only the level of the treatment applied to the specifi c individual is assumed to potentially aff ect outcomes for that particular individual. In the statistics literature this assumption is referred to as the Stable-Unit-Treatment-Value-Assumption (SUTVA, Rubin, 1978). In this paper we mainly focus on settings where this assumption is maintained."  (s. 9)

Detta antagandet är välmotiverat i medicinska studier, säger Imbens och Wooldridge: om en individ får en ny behandling får stroke så kommer detta inte påverka hälsoutfallen för en helt annan patiant. I nationalekonomiska applikationer är detta ett mer problematiskt antagande: "It is clear that a labor market program that affects the labor market outcomes for one individual potentially has an effect on the labor market outcomes for others. In a world with a fixed number of jobs, a training program could only redistribute the jobs, and ignoring this constraint on the number of jobs by using a partial, instead of a general, equilibrium analysis could lead one to erroneously conclude that extending the program to the entire population would raise aggregate employment. Such concerns have rarely been addressed in the recent program evaluation literature. Exceptions include Heckman, Lochner, and Taber (1999) who provide some simulation evidence for the potential biases that may result from ignoring these issues." (s. 9) [3]

Efter genomgången av RCM-modellens beståndsdelar följer sektionen "What are We Interested in? Estimands and Hypotheses". I de tidiga studierna i denna litteratur, säger Imbens och Wooldridge, så utgick man från att effekter var homogena och linjära. I litteraturen idag använder man mer flexibla beräkningar. Diskussionen börjar efter dessa preliminära poänger med en diskussion om average treatment effects.  De börjar med estimanden PATE, Population Average Treatment Effect: τ_pate = E[Y_i(1) − Y_i(0)] . Detta är effekten som skulle uppstå på varje individ i populationen om varje individ behandlades.  Och därefter Population Average Treatment Effect on the Treated, PATT: τ_patt = E[Y_i(1) − Y_i(0)|W_i = 1] . Detta är effekten på de individer som faktiskt behandlades. I praktiken kommer denna vara mycket mer relevant än PATE. Nästa variant är CATT och CATE som är conditional ATT och ATE, alltså conditional på X. Nästa variant är att beräkna effekter för subgrupper, utifrån Crump, Hotz, Imbens och Mitnik (2008).

"In settings with selection on unobservables the enumeration of the estimands of interest becomes more complicated. A leading case is instrumental variables. In the presence of heterogeneity in the eff ect of the treatment one can typically not identify the average effect of the treatment even in the presence of valid instruments. There are two new approaches in the recent literature. One is to focus on bounds for well-defined estimands such as the average effect τ_pate or τ_cate. Manski (1990, 2003) developed this approach in a series of papers. An alternative is to focus on estimands that can be identified under weaker conditions than those requird for the average treatment effect. Imbens and Angrist (1994) show that one can, under much weaker conditions than required for identifi cation of τ_pate, identify the average effect for the subpopulation of units whose treatment status is aff ected by the instrument. They refer to this subpopulation as the compliers. This does not directly fit into the classification above since the subpopulation is not defined solely in terms of covariates. We discuss this estimand in more detail in Section 6.3." (s. 12-13)

Sektion 3.2 handlar om kvantil-estimander. Dessa introducerades i den statistiska litteraturen på 1970-talet men slog först nyligen igenom i nationalekonom, säger Imbens och Wooldridge 2008. Doksum (1974) and Lehman (1974) define τ_q = F_Y(1) ^−1 (q) - F_Y(0) ^-1 (q)" som q-kvantil-treatment-effekten. Kvantil-effekten definieras som skillnaden mellan "quantiles of the two marginal potential outcome distributions, rather than as quantiles of the unit level effect".[4] Metoder för att skatta τ_q har utvecklats av Bitler, Gelbach och Hoynes (2002), Firpo (2006) och Abadie, Angrist och Imbens (2002).

Sektion 3.3 handlar om hypotestestning. Sektion 3.4 om "Decision-theoretic questions".

Efter dessa kommer sektion 4, om randomiserade experiment. En rad papers om arbetsmarknadspolicies i det sena 80-talet ifrågasatte de existerande metodernas förmåga att skatta kausala effekter, och på 90-00-talen har en stor mängd utvecklingsekonomisk forskning genomfört experiment. De diskuterar Fisher's (1925) exakta p-värden för hypotestestning. (s. 16-18)

Sektion 5 heter "Estimation and Inference under Unconfoundedness". Dessa metoder är vanligare än rena experiment, säger Imbens och Wooldridge.

"Methods for estimation of average treatment effects under unconfoundedness are the most widely used in this literature. Often this assumption, which requires that conditional on observed covariates there are no unobserved factors that are associated both with the assignment and with the potential outcomes, is controversial. Nevertheless, in practice, where often data have been collected in order to make this assumption more plausible, there are many cases where there is no clearly superior alternative, and the only alternative is to abandon the attempt to get precise inferences. In this section we discuss some of these methods and the issues related to them. A general theme of this literature is that the concern is more with biases than with efficiency." (s. 19)

Så här diskuterar de vidare denna miljö:

"This setting is closely related to that underlying standard multiple regression analysis with a rich set of controls. Unconfoundedness implies that we have a sufficiently rich set of predictors for the treatment indicator, contained in the vector of covariates X_i, such that adjusting for differences in these covariates leads to valid estimates of causal eff ects. Combined with linearity assumptions of the conditional expectations of the potential outcomes given covariates, the unconfoundedness assumption justifi es linear regression. But in the last fifteen years the literature has moved away from the earlier emphasis on regression methods. The main reason is that, although locally linearity of the regression functions may be a reasonable approximation, in many cases the estimated average treatment effects based on regression methods can be severely biased if the linear approximation is not accurate globally. To assess the potential problems with (global) regression methods, it is useful to report summary statistics of the covariates by treatment status." (s. 19)

Om vi har alla relevanta variabler i vektorn X så kommer effekten av treatment kunna skattas utan bias -- men det är ett starkt antagande. De föreslår att man testar detta antagande t ex genom ekvationen: ΔX= (X_1 - X_0) / (√S_0^2+S_1^2), alltså skillnaderna i covariates X mellan treated gruppen (1) och kontrollgruppen (0), justerad för variansen. De går över vill olika metoder för att justera för covariates. Propensity score matching beräknar sannolikheten att man hamnar i treatment snarare än kontrollgruppen; en annan variant är pairwise matching. De går över till att diskutera grundantagandet unconfoundedness, introducerat av Rosenbaum och Rubin (1983): W_i ⊥ (Y_i(0), Y_i(1) | X_i. Om treatment-effekten τ är konstant och ε_i är okorrelerad med W_i är den skattade effekten i regressionen kausal. Antagande 2 är overlap, 0 < pr(W_i = 1 | X_i = x) <1. Det säger att för alla möjliga värden på X så finns det både treated och untreated enheter. Rosenbaum och Rubin (1983) sammanfattade de två antagandena unconfoundedness och overlap som "strong ignorability". [5]

De presenterar en generell approachen till regression för att beräkna ATE och diskuterar olika aspekter av vad som gör estimatorn effektiv. Vad finns det för variation i datat och hur påverkar detta estimatorns olika aspekter? Här introducerar de via Heckman, Ichimura och Todd (1997) och samma författare plus Smith (1998) kernel regression som en metod för att hantera icke-linjära relationer, och polynomialer som ett annat alternativ. Med kernel-regressionen viktar man observationer närmre x högre, med en bandbredd satt som h: större h, stark smoothing, mindre h, mer diffus smoothing. Imbens och Wooldridge säger att bandbredden ofta sätts lite godtyckligt och konstaterar att det också finns versioner med kontinuerlig smoothing snarare än kernel-regressionens fastare smoothing. Sieve-estimatorn är ett exempel på denna approach.

De går vidare med metoder som är baserade på propensity scores, som också går tillbaka till Rosenbaum och Rubin (1983). Om unconfoundedness gäller så är de potentiella utfallen och treatment oberoende av varann, givet propensity scores. De diskuterar tre praktiska metoder för att använda detta. Den första är att använda enheternas propensity scores som förklarande variabel i en regressionsanalys. Imbens och Wooldridge rekommenderar att man ska avstå från denna metod:"Because the propensity score does not have a substantive meaning, it is difficult to motivate a low order polynomial as a good approximation to the conditional expectation." (s. 28-29) De säger att individer med propensity scores 0.45 och 0.50 sannolikt är mycket mer lika varann än individer med PS 0.01 och 0.06. Den andra metoden, som kallas blocking, subclassification eller stratification justerar också för propensity scores som påminner om regressionsanalys, men mer flexibelt. Man delar in samplet i strata utifrån diskretiserade värden på PS och ser därefter fördelningen av treated och untreated inom varje strata som ett randomiserat experiment. Den tredje metoderna är att vikta om observationerna. Bland varianterna på detta finns inverse probability weighting-estimatorn. (s. 30-31)

Från propensity scores-metoderna går de till matching-metoder (sektion 5.5). "Matching estimators impute the missing potential outcomes using only the outcomes of a few nearest neighbors of the opposite treatment group. In that sense, matching is similar to non-parametric kernel regression, with the number of neighbors playing the role of the bandwidth in the kernel regression." (s. 31)

Följande sektion är "Combining Regression and Propensity Score Weighting" (5.6) och följande efter det handlar om att kombinera subclassification och regressionsanalys (5.7), och därefter matchning och regression (5.8). Efter dessa mer praktiska delar tar de ett steg tillbaka till "A General Method for Estimating Variances" (5.9). 5.10 är mer direkt intressant för mig: "Overlap in Covariate Distributions". (s. 39-43) Här börjar de med att diskutera den metod som Rubin (2006) föreslagit för att droppa kontrollenheter som är alltför olika treatment-enheter för att jämförelsen ska vara rimlig. Förutsättningen är alltså att man har ett stort antal kontrollenheter i sitt sample, så att man lite granna kan välja och vraka mellan dem. Rubin föreslår att man ordnar treated och kontrollenheter var för sig utifrån propensity score, alltså sannolikheten att selekteras in i treatment, och att man sedan matchar enheter utifrån propensity score. I processen släpper man de kontrollenheter som avviker mest från treated enheter vad gäller bakgrundsvariablerna. Crump, Hotz, Imbens och Mitnik (2008) föreslår en annan approach, ägnad för kontexter när man vill skatta average treatment effect, till skillnad från average effect for the treated som hos Rubin. Den sista sektionen i kapitel 5 är "Assessing the Unconfoundedness Assumption". (s. 43-46) Jag skippar denna och sektionen "Testing" och sektionen 5.13, "Selection of Covariates".

Kapitel 6 heter "Selection of Unobservables" och diskuterar olika metoder som har det gemensamt att de "relax the pair of assumptions made in Section 5", alltså framför allt unconfoundedness. Den första metoden som de diskuterar är Manskis (1990, 1995, 2003, 2005, 2007) metod om "bounds", som går ut på på i komplicerade sammanhang skatta inte ett precis punktestimat av en effekt, utan att skata en lower bound-effekt och en upper bound-effekt.

Den andra metoden är Sensitivity Analysis. Här relaxar man unconfoundedness-antagandet något, antar att det finns oobserverade variabler som är korrelerade både med utfallen och med treatment, och man beräknar hur stort problem detta är, hur stor bias är, genom att relatera treatment-status till tillgängliga kontrollvariabler. Frågan är: hur stor skillnad gör det för ens punktestimat (för effekten av treatment på Y) eller för p-värdet för effekten av treatment, om man inkluderar covariates?

Den tredje metoden är instrumentvariabler. Bloom (1984, “Accounting for No–shows in Experimental Evaluation Designs,” Evaluation Review) använde eligibility för ett program som instrument för deltagande i programmet. Denna typ av design funkar när elegibility delas ut slumpmässigt. Imbens och Angrist föreslog i sin klassiska artikel“Identification and Estimation of Local Average Treatment Effects” i Econometrica, 1994, en mycket bredare approach till instrument. Nyckelantagandet är att instrumentet är exogent: (Yi(0), Yi(1), Wi(0), Wi(1)) ⊥ Zi, alltså att utfallet kan vara Y0 eller Y1 med/utan behandling (W) oavsett värde på Z och personen kan ta upp hypotetiskt tillgänglig behandling eller ej oavsett Z. [6] Imbens och Angrist introducrade begreppet "compliance type", som fångar vilken treatment en individ får beroende på sitt värde på instrumentet. När både treatment och instrument är binära finns det fyra typer: never-taker, complier, defier, och always-taker. De introducerar också antagandet monotonitet, W_i(1) >= W_i(0) för alla individer, så att högre värde på Z inte ger lägre nivå på W. Detta antagande utesluter alltså typen "defier", och kallas ibland "no-defiance" assumption. De utforskar utifrån dessa två antaganden hur man kan identifiera average effect of the treatment på subpopulationen compliers. Imbens och Wooldridge förklarar ganska utförligt Imbens och Angrists analys av relationen mellan never-takers, compliers, och always-takers (när man uteslutit defiers) och hur man kan beräkna Local Average Treatment Effect LATE utifrån de tre gruppernas beteende. Imbens och Angrist delade på Nobelpriset i ekonomi 2021 och jag citerar (via Wikipedia) Nobelpriskommitténs motivering till priset: Imbens och Angrist och deras LATE-ramverk

"significantly altered how researchers approach empirical questions using data generated from either natural experiments or randomized experiments with incomplete compliance to the assigned treatment. At the core, the LATE interpretation clarifies what can and cannot be learned from such experiments."

 Imbens och Wooldridge definierar den så här: 

τ_late = E[Y_i(1) − Y_i(0)|W_i(0) = 0, W_i(1) = 1] = E[Y_i(1) − Y_i(0)|T_i = complier]. 

Här kan man däremot inte beräkna den genomsnittliga kausala effekten på never-takers eller always-takers, men däremot kan man använda Manskis bounds approach för att i alla fall sätta gränser uppåt och neråt för den genomsnittliga effekten i hela populationen.  

Följande metod efter IV är Regression Discontinity Design, RDD. Denna metod har funnits inom psykologi och applicerad statistik sedan 1960-talet, säger de, men slog bara igenom i nationalekonomin på 1990-2000-talen: DiNardo och Lee (1994), Angrist och Lavy (1999), Van der Klaauw (2002), Lee, Moreetti och Butler (2004), och så vidare. RDD är i grunden en väldigt enkel metod: "The basic idea behind the RD design is that assignment to the treatment is determined, either completely or partly, by the value of a predictor (the forcing variable X_i) being on either side of a common threshold. This generates a discontinuity, sometimes of size one, in the conditional probability of receiving the treatment as a function of this particular predictor." (s. 58) Alltså, det är en kontext där en enhets placering ovanför eller nedanför ett tröskelvärde (på variabeln X) helt eller delvis bestämmer ifall enheten blir treated eller untreated. Man skiljer på sharp och fuzzy RDD. I en sharp RDD är alla enheter med värde på X över tröskelvärdet c treated (det är inte frivilligt), och alla enheter under c är untreated (de har inte tillgång till treatment). Man estimerar, säger Imbens och Wooldridge: 

τ_srd = E[Yi(1) − Yi(0)  X_i = c]. 

I fuzzy RDD innebär inte tröskelvärdet att sannolikheten för treatment skiftar från noll till ett, utan det måste bara finnas ett skifte där. I praktiken, säger de, måste diskontinuiteten vara så pass stor att man kan se den i enkla grafiska beskrivningar. (s. 60) I och med att tilldelningen till treatment och icke-treatment här inte är 100-procentig på de två sidorna av tröskelvärdet så kommer resonemangen om compliers, defiers etcetera tillbaka här. Hahn, Todd och Van der Klaauw (2001) definierar i fuzzy RDD-kontexten en complier som enheter vars beteende påverkas av tröskelvärdet, och definierar utifrån detta samt monotonitetsantagandet att:

τ_frd = E[Y_i(1) − Y_i(0) | unit i is a complier and X_i = c]. 

Estimanden τ_frd är den genomsnittliga effekten av treatment, säger Imbens och Wooldridge, men bara för enheter runt tröskelvärdet c, och bara för compliers. För att kunna generalisera till den bredare beolkningen behövs fler inslag i modellen. Om unconfoundedness råder så blir det mycket enklare att skatta genomsnittliga effekter för befolkningen i stort. En viktig diskussion i RDD är hur breda fönster/bandwidths man ska sätta runt tröskelvärdet: vilken är egentligen gruppen just under och gruppen just över tröskeln som är riligast att jämföra för att dra kausala slutsatser om effekten av treatment? I och W diskuterar olika approacher för att beräkna den rätta bbandbredden, däribland Ludwig och Miller (2005) och Imbens och Lemieux (2007). (s. 60-61) Den sista diskussionen om RDD är två möjliga problem med metoden. Det ena problemet är ifall tröskelvärdet också innebär skiften på andra variabler/covariates. Det andra problemet är ifall enheterna kan manipulera sitt värde på X, putta sig själva över eller under gränsen.

Från RDD övergår de till det egentliga ämnet för detta blogginlägg, Difference-in-Differences. Imbens och Wooldridge ramar in denna diskussion så här: 

"Since the seminal work by Ashenfelter (1978) and Ashenfelter and Card (1985), the use of Difference-In-Diff erences (DID) methods has become widespread in empirical economics. Influential applications include Card (1990), Meyer, Viscusi and Durbin (1995), Card and Krueger (1993), Eissa and Liebman (1996), Blundell, Duncan and Meghir (1998), and many others. The simplest setting is one where outcomes are observed for units observed in one of two groups, in one of two time periods. Only units in one of the two groups, in the second time period, are exposed to a treatment." (s. 64)

Den här 2x2-designen (två perioder, två grupper) är ju i grund och botten enkel: i period 0 finns ingen treatment, i period 1 är en grupp treated och den andra gruppen förblir untreated. Förändringen i kontrollgruppens värde på utfallet man är intresserad av, subtraheras från förändringen i treatment-gruppen för att räkna ut effekten av treatment. Denna "double differencing", skillnad från period 0 till period 1 och skillnaden mellan grupp T och grupp C, rensar ut bias från hur grupperna skiljer sig åt i förutsättningar, redan under period 0. Utfallet för individ i som är i icke-treatmentgruppen (vilket skrivs Y_i(0)) skrivs:

Y_i(0) = α + β · T_i + γ · G_i + ε_i,  

där β fångar utvecklingen över tid, och γ gruppens medelvärde. Denna ekvation för gruppen utan treament förenas sedan med en ekvation för gruppen med treatment:

τ_did = E[Y_i(1)] − E[Y_i(0)]
=  E[Y_i|G_i = 1, T_i = 1] − E[Y_i|G_i = 1, T_i = 0]  
− E[Y_i|G_i = 0, T_i = 1] − E[Y_i|G_i = 0, T_i = 0]  . 

Det vill säga det som sades ovan, att vi ar utvecklingen i treatment-gruppen (det första ledet efter lika med-tecknet i ekvationen) minus utvecklingen i kontrollgruppen (det andra ledet). Kombinerat blir de två ekvationerna en ekvation som vi kan skatta med OLS:

Y_i = α + β1 · T_i + γ1 · G_i + τ_did · W_i + ε_i 

Hittills har allt med DID varit väldigt enkelt, när man bara har två grupper och två tidsperioder. När man börjar öka på i grupperna och perioderna blir det lite mer komplicerat. I ekvationen motsvarande den för icke-treatment-gruppen ovan får man ha flera parametrar för grupper och tidsperioder, inte bara en β och en γ. Det blir då också intressant att beräkna en diff-in-diff mellan olika icke-treatment-grupper: då ska DID-koefficienten så klart vara noll och om den inte är det så säger det något intressant om heterogenitet i ens data. (s. 66) Från detta går I och W till det problem som bland andra Bertrand, Duflo och Mullainathan (2004) diskuterat, hur det kan finnas korrelation i feltermen inom grupper över tid vilket gör att en naiv OLS överskattar precisionen i estimaten. Startpunkten är följande struktur för feltermen ε_i:

ε_i = ηG_i,T_i + ν_i, 

där η fångar upp den gruppspecifika trenden över tid. Finns det sådana effekter i en 2x2-setting är den konventionella DID-estimatorn inte konsistent, säger I och W, och det är svårt att beräkna hur stort klusterproblemet är. Bertrand et al fokuserar däremot på en setting med fler än två tidsperioder, och visar på en metod för att beräkna hur stark den autoregressiva processen är inom grupperna. Också Hansen (2007a, b) diskuterar metoder för att hantera dessa problem.

Nästa diskussion (sektion 6.5.4) diskuterar DID med paneldata och vilka skillnader det gör ifall enheterna inom grupperna är desamma över tid eller inte. Från detta går de till Athey och Imbens (2006) changes-in-changes-modell som motsvarar DID men utan antagande om linjaritet. För enheter utan treatment sätter de en generisk funktion h_0: Y_i(0) = h_0(U_i, T_i), där U är de egenskaper som styr utfallet på individnivå. U kan variera mellan grupper men inte inom grupper över tid. Till detta lägger de tre antanganden från standard-DID för att bygga CIC-modellen: 

Ui − E[Ui|Gi] ⊥ Gi (additivity)
h0(u, t) = φ(u + δ · t), (single index model) 
for a strictly increasing function φ(·), 

φ(·) is the identity function. (identity transformation).  

Den genomsnittliga treatment-effekten τ_cic räknas ut som τ_cic = E[Y_i(1)−Y_i(0) | G_i = 1, T_i = 1]. Finessen med CIC jämfört med DID är dock att man kan räkna ut inte bara genomsnittliga effekter utan också icke-linjära effekter, effekter som varierar per kvantil etc (se variabeln U ovan). En hjälpsam ekonometriprofessor och bloggare, Daniel Millimet från Southern Methodist University i Texas (länkad ovan) förklarar att i teorin så skulle man kunna beräkna kvantilspecifika DID i en 2x2-kontext med samma metod som vanlig DID: om vi t ex är intresserade av effekten av treatment på percentil 25, 50 (medianen) och 75, så beräknar vi hur dessa utvecklas i treatment- och kontrollgrupperna och beräknar treatment-effekten som skillnaden i utvecklingen i treatmentgruppen (för, säg 25:e percentilen) och utvecklingen i kontrollgruppen för samma percentil. Men Imbens och Athey argumenterar för att det skulle kräva missvisande antaganden. Så här förklarar bloggaren skillnaden mellan en tänkt kvantil-DID-approach (QDID) och den approach som Athey och Imbens föreslår, QCIC:

"QDID posits that quantile q of the Y(0) distribution for the treatment units would have evolved over time in an identical manner to quantile q of the Y(0) distribution for the control units. If you will, the parallel trends assumption holds at quantile q. Instead, QCIC is based on the assumption that quantile q of the Y(0) distribution for the treatment units would have evolved over time in an identical manner to quantile q' of the Y(0) distribution for the control units, where q' may not equal q. In other words, quantile q for the treatment units would have followed a parallel trend to quantile q' for the control units." 

Bloggaren gör en väldigt pedagogisk förklaring av Imbens och Atheys argument här, varför de inte nöjer sig med att matcha 25:e percentilen inom treatmentgruppen med 25:e percentilen inom kontrollgruppen. Parantetiskt kan man säga att det går tillbaka på antagandet ovan, att de antar att förmågor etc som fångas av variabeln U kan variera mellan grupper. Därför är percentilen 25 inom behandlingsgruppen inte nödvändigtvis bäst matchad mot percentil 25 i kontrollgruppen: i själva verket kan personerna/enheterna på p25 i de två grupperna vara väldigt olika varann.

"An illustration will make this clear. Returning to the job training example from above, suppose we are interested in estimating the QTT at the median. The sample median wage for the treatment units in period 0 is, say, $10/hr. So, we then turn to the wage distribution for the control units in period 0 and we see to which quantile $10/hr corresponds. If the treatment group is positively selected, $10/hr might represent, say, the 70th quantile of the wage distribution in period 0 for the control units. We then examine how the 70th quantile of the wage distribution changes over time for the control units and assume the median wage for the treatment units would have evolved similarly. If the 70th quantile for the control units increases to, say $12/hr in period 1, then the counterfactual median wage for the treatment units in period 1 is $12/hr. The QCIC estimate of the QTT at the median is then given by the realized median wage of the treatment units in period 1 minus $12/hr.

A bit strange, indeed, but in hindsight it seems obvious. While we are assuming parallel trends between the treatment and control units across different quantiles, we are assuming parallel trends between treatment and control units with the same value of the outcome in the pretreatment period."

Imbens och Wooldridge förklarar approachen på ett mer formellt sätt. Grundproblemet är väl det vanliga problemet i kausal inferens från statistik, att man observerar utfallen för treatment-gruppen i period 1 med treatment, men aldrig treatment -- det är en helt kontrafaktisk fördelning som man måste jämföra den faktiska realiserade fördelningen med. Kanske man man säga att Athey och Imbens approach är unik just i hur den tillåter en att beräkna den kontrafaktiska fördelningen. Athey och Imbens demonstrerar, säger Imbens och Wooldridge, att man utifrån antaganden om monotonitet för u och att T_i och U_i är conditional independent givet G_i så kan fördelningen F för Y(0) identifieras som: 

F_Y11(y) = F_Y10(F^(−1)_Y00 (F_Y01(y))),  

där F_Ygt är fördelningen för Y_i inom grupp g och period t. Det sista elementet är vilken plats i rangen en enhet med värdet y har i fördelningen för kontrollgruppen, treatment-perioden: F_Y01(y). Det näst sista är vilket värde samma rang hade i kontrollgruppen period 0: F^(−1)_Y00. Det tredje sista är  F_Y10, vilken rang detta motsvarar i behandlingsgruppen, period 0. Och det första elementet på höger sida om lika med-tecknet, F_Y10, frågar: vilken rang motsvarar det i treatment-gruppen, tid 0? Totalt sett ger detta dribblande mellan rang och faktiska värden, mellan treatment-grupp och kontrollgrupp och period 0 och 1 en kontrafaktisk fördelning för treatmentgruppen i treatmentperioden (1). Det centrala antagandet är att rankingen inte förändras av treatment.

Förväntat kontrafaktiskt utfall för treatment-gruppen under period två ifall den inte hade utsatts för treatment (Y_i(0) | G_i = 1, T_i = 1) beräknar de så här:

E[Y_i(0) | G_i = 1, T_i = 1] = E [F^(−1)_01 (F_00(Y_i10))  .

Den kontrafaktiska fördelningen är alltså fördelningen för treatmentgruppen i före-perioden, (Y_i10), rank-mappad genom vilken percentil detta motsvarar i kontrollgruppen i före-perioden (F_00), och därefter en ny, omvänd transformation från rank till värde, för kontrollgruppen i efter-perioden (F^(−1)_01). Detta speglar det annorlunda kontrafaktiska antagande som CIC gör jämfört med DID och som jag diskuterat ovan. Det tillåter också en beräkning av olika effekter tvärsöver fördelningen, kanske att individer med låg U responderar helt annorlunda på treatment än vad individer med hög U gör?

Från DID och varianten CIC går Imbens och Wooldridge till The Abadie-Diamond-Hainmueller Artificial Control Group Approach, men metod för kontexter med flera olika kontrollgrupper. "Applications in Abadie, Diamond and Hainmueller (2007) to estimation of the effect of smoking legislation in California, and the eff ect of reunifi cation on West Germany are very promising.", säger Imbens och Wooldridge; ekonomisk-historikern Joe Francis skulle inte nödvändigtvis hålla med.

Kapitel 7 har rubriken "Multi-valued and Continuous Treatments". De flesta program evaluation-metoder som utvecklats har fokuserat på binära treatments, säger Imbens och Wooldridge, men på sistone har det också skett en del med mer varierande treatments. Jag skippar detta kapitel. (s. 71-74)

Slutsatskapitlet, kapitel 8, är mycket kort och jag citerar det i sin helhet:

"Over the last two decades there has been a proliferation of the literature on program evaluation.This includes theoretical econometrics work, as well as empirical work. Important features of the modern literature are the convergence of the statistical and econometric literatures, with the Rubin potential outcomes framework now the dominant framework. The modern literature has stressed the importance of relaxing functional form and distributional assumptions, and has allowed for general heterogeneity in the effects of the treatment. This has led to renewed interest in identification questions, leading to unusual and controversial estimands such as the local average treatment effect (Imbens and Angrist, 1994), as well as to the literature on partial identication (Manski, 1990). It has also borrowed heavily from the semiparametric literature, using both efficiency bound results (Hahn, 1998) and methods for inference based on series and kernel estimation (Newey, 1994ab). It has by now matured to the point that is is of great use for practitioners." (s. 75)

Det mest intressanta ur mitt perspektiv här är väl dels hur centralt Rubins "potential outcomes"-ramverk är, dels den stora betoningen från Imbens och Angrist framåt på att skilja på effekter på olika nivåer: effekter bara på complies, kontra effekter i hela befolkningen, och från om med 90-00-talen också olika effekter på olika platser i fördelningen, som i fallet med Athey och Imbens Changes-in-Changes-ramverk.


Jag hoppar tio år framåt i tiden och går till Andrew Goodman-Bacons (då Vanderbilt Univ, nu Federal Reserve Minneapolis) papper "Difference-in-Differences with Variation in Treatment Timing" som publicerades i Journal of Econometrics 2021 men som jag läst i WP-version från 2018. Hans abstract är så pedagogiskt som det kan bli, så jag citerar det utförligt:

"The canonical difference-in-differences (DD) model contains two time periods, “pre” and “post”, and two groups, “treatment” and “control”. Most DD applications, however, exploit variation across groups of units that receive treatment at different times. This paper derives an expression for this general DD estimator, and shows that it is a weighted average of all possible two-group/two-period DD estimators in the data. This result provides detailed guidance about how to use regression DD in practice. I define the DD estimand and show how it averages treatment effect heterogeneity and that it is biased when effects change over time." 

Liksom redan pappertiteln säger så handlar det alltså om DID i kontexter när inte all treatment kommer samtidigt, och från abstract utläser jag att grundproblematiken i pappret är vad som händer ifall treatment-effekten inte är konstant över tid, fastän grundtanken i en 2x2-DID så klart är det. Goodman-Bacon påpekar att 2x2 är helt central i hela DID-diskussionen: med "a common trends assumption, a two-group/two-period (2x2) DD identifies the average treatment effect on the treated. All econometrics textbooks and survey articles describe this structure,2 and recent methodological extensions build on it.3" Fotnot 3, om nyliga metodutvecklingar, anger: "Inverse propensity score reweighting: Abadie (2005), synthetic control: Abadie, Diamond, and Hainmueller (2010), changes-in-changes: Athey and Imbens (2006), quantile treatment effects: Callaway, Li, and Oka (forthcoming)." Och det känns ju tryggt att Athey och Imbens vid det här laget 12 år gamla papper fortfarande räknas som "recent": idag, på 2020-talet, skämtas det friskt om att det tvärtom kommer en ny DID-estimator varje år eller mer. Det viktiga här är i alla fall hur Goodman-Bacon fortsätter: många -- han säger t o m de flesta -- användningar av DID avviker i praktiken från 2x2-setupen genom att ha treatment som inträffar vid olka tider; i en fotnot refererar han att hälften av de 93 DID-papers som under 2014-15 publicerades i 5 topptidskrifter hade variation i timing. (s. 1)

Att beräkna den tänkta genomsnittliga effekten på treated i 2x2-DID är enkelt eftersom man bara jämför de fyra grupperna: (treatmentgruppen post - treatmentgruppen pre) - (kontrollgruppen post - kontrollgruppen pre). För settings med fler tidsperioder vet vi inte lika mycket, säger Goodman-Bacon:

"In contrast to our substantial understanding of the canonical 2x2 DD model, we know relatively little about the two-way fixed effects DD model when treatment timing varies. We do not know precisely how it compares mean outcomes across groups.5 We typically rely on general descriptions of the identifying assumption like “interventions must be as good as random, conditional on time and group fixed effects” (Bertrand, Duflo, and Mullainathan 2004, p. 250), and consequently lack well-defined strategies to test the validity of the DD design with timing. We have limited understanding of the treatment effect parameter that regression DD identifies. Finally, we often cannot evaluate when alternative specifications will work or why they change estimates." (s. 2) [7]

Pappret visar att twoway-fixed effects-DID-estimatorn med flera perioder ger ett viktat genomsnitt av alla möjliga 2x2-estimatorer som jämför olika timinggrupper med varann. Ibland kommer jämförelsegruppen vara treatmentgrupper som inte behandlats än, ibland kommer den vara rena kontrollgrupper. "As in any least squares estimator, the weights on the 2x2 DD’s are proportional to group sizes and the variance of the treatment dummy within each pair. Treatment variance is highest for groups treated in the middle of the panel and lowest for groups treated at the extremes." (s. 2) Så här förklarar han värdet av sin approach och hur den relaterar till den nya litteraturen inom diff-in-diff:

"By decomposing the DD estimator into its sources of variation (the 2x2 DD’s) and providing an explicit interpretation of the weights in terms of treatment variances, my results extend recent research on DD models with heterogeneous effects.7 Assuming equal counterfactual trends, Abraham and Sun (2018), Borusyak and Jaravel (2017), and de Chaisemartin and D’HaultfŒuille (2018b) show that two-way fixed effects DD yields an average of treatment effects across all groups and times, some of which may have negative weights. My results show how these weights arise from differences in timing and thus treatment variances, facilitating a connection between models of treatment allocation and the interpretation of DD estimates.8 I also explain why the negative weights occur: when already-treated units act as controls, changes in their treatment effects over time get subtracted from the DD estimate. This negative weighting only arises when treatment effects vary over time, in which case it typically biases regression DD estimates away from the sign of the true treatment effect. This does not imply a failure of the underlying design, but it does caution against the use of a single-coefficient two-way fixed effects specification to summarize time-varying effects." (s. 2-3)

Jag hade inte haft en tanke på olika vikter för olika grupper och olika DID-jämförelser i en sån här DID-setting, så det tycker jag är en väldigt fascinerande poäng! Att systematiskt tänka på vilken vikt olika grupper får, och Goodman-Bacon presenerar flera metoder för att göra detta: både att plotta gruppvisa DID-resultat som är under the hood om man bara tar en estimator, mot sina vikter. Och för det andra, att göra en Oaxaca-Blinder-Kitagawa-style dekomponering av hur mycket av de olika koefficienten beror på själva i de olika ingående DID-jämförelserna kontra deras olika vikter. "The source of instability matters because changes due to different weighting reflect changes in the estimand (not bias), while changes in the 2x2 DD’s suggest that covariates address confounding." (s. 4) För att demonstrera vikten av metoden replikerar Goodman-Bacon Stevenson och Wolfers (2006) studie av effekterna av lagändringar som gör skilsmässa enklare, på kvinnors självmordsfrkevens. Stevenson och Wolfers fann att en förenkling av skilsmässa (att det räcker med att en part vill ha skilsmässa) minskar kvinnors självmordstal med 3 per 1 miljon kvinnor. Goodman-Bacon menar att den sanna effekten är närmare -5 självmord per 1 miljon kvinnor.


Startpunkten för Goodman-Bacons analys är den enklaste 2x2-DID-modellen:

 𝑦_𝑖t = 𝛾 + 𝛾_i TREAT_𝑖 + 𝛾_t POST_t + 𝛽^(2𝑥2)TREAT_𝑖 × POST_t + 𝑢_𝑖 (1)

Och anpassningen till en twoway-fixed-effects-regression när man har treatment vid olika perioder, så inte bara en pre-period och en post-period: 

 𝑦_𝑖t = 𝛼_𝑖 + 𝛼_t + 𝛽^(𝐷𝐷)_𝑖t + 𝑒_𝑖t  (2)

Med olika treatment-perioder kan man inte använda (1) utan folk tenderar att använda (2). Goodman-Bacon säger att "Researchers clearly recognize that differences in when units received treatment 
contribute to identification, but have not been able to describe how these comparisons are made." och går vidare med att bygga upp hur den egentligen funkar. Tänk en balanserad panel med T perioder (t) och N enheter (i) som var och en tillhör antingen en untreated grupp U, en early treatment-grupp k som får en binär treatment vid t^*k och så en sen treatment-grupp l som får sin treatment vid t^*l > t^*k. Figur 1 (inklistrad ovan) plottar denna struktur. Han frångår här språket med en "kontrollgrupp" för att förtydliga att med flera tidsperioder så blir också treatment-grupper "kontroller", beroende på när det sker. Figur 2 plottar denna struktur, för ett case med tre grupper. Panel A och B visar att med bara en treatment-grupp så är vi tillbaka på klassisk 2x2-mark medan Panel C och D visar att med bara treatment-grupper och ingen untreated, så kommer identifikationen hänga på att jämföra tidigt treated (k) med inte ännu treated (l). Goodman-Bacon säger att: "My central result is that any two-way fixed effects DD estimator is a weighted average of well-understood 2x2 DD estimators, like those plotted in figure 2." (s. 6)


Han härleder detta matematiskt, och jag kommer skippa det mer tekniska, inklusive ett DID Decomposition Theorem. (s. 7-8) Det blir viktigare för mig när han kommer tillbaka till den mer principiella frågan om vad det är för parametar som DID egentligen skattar och med vilka antaganden. Han dekomponerar, utifrån Callaway och sant'Annas (2018) definition av "group-time average treatment effect" ATT för grupp k vid tid t, DID-koefficienten:

β^(DD) = VWATT VWCT + ΔATT 

Där VWATT är koefficienten man får ur en vanlig TWFE DID-estimator, som Goodman-Bacon kallar the “variance-weighted average treatment effect on the treated” (VWATT). Den andra termen, “variance-weighted common trends” (VWCT) står för gemensamma trender i settingen med flera tidsperioder. Och den sista termen ΔATT är hur ATT förändras över tid. ΔATT kan alltås ses som ett mått på bias i den enda koefficienten β^(DD) som man hoppas är = ATT. "Note that this does not mean that the DD research design is invalid. In this case other specifications, such as an event-study model (Jacobson, LaLonde, and Sullivan 1993) or “stacked DD” (Abraham and Sun 2018, Deshpande and Li 2017, Fadlon and Nielsen 2015), or other estimators such as reweighting strategies (Callaway and Sant'Anna 2018, de Chaisemartin 
and D’HaultfŒ uille 2018b) may be more appropriate." (s. 12)

 I slutsatserna betonar Goodman-Bacon att:

"My central result, the DD decomposition theorem, shows that a two-way fixed effects DD 
coefficient equals a weighted average of all possible simple 2x2 DD’s that compare one group that changes treatment status to another group that does not. Many ways in which the theoretical  interpretation of regression DD differs from the canonical model stem from the fact that these simple components are weighted together based both on sample sizes and the variance of their treatment dummy. This defines the DD estimand, the variance-weighted average treatment effect on the treated (VWATT), and generalizes the identifying assumption on counterfactual outcomes to variance-weighted common trends (VWCT). Moreover, I show that because already-treated units act as controls in some 2x2 DD’s, the two-way fixed effects model requires an additional identifying assumption of time-invariant treatment effects.  
The DD decomposition theorem also leads to several new tools for practitioners. Graphing the 2x2 DD’s against their weight displays all the identifying variation in any DD application, and summing weights across types of comparisons quantifies “how much” of a given estimate comes from different sources of variation. I use the DD decomposition theorem to propose a reweighted balance test that reflects this identifying variation, is easy to implement, has higher power than tests of joint balance across groups, and shows how large and in what direction any imbalance occurs. I suggest several simple methods to learn why estimates differ across alternative specifications. The weighted average representation leads to a Oaxaca-Blinder-Kitagawa-style decomposition that quantifies how much of the difference in estimates comes from changes in the 2x2 DD’s, the weights, or both. Plots of the components or the weights across specifications show clearly where differences come from and can help researchers understand why their estimates changes and whether or not it is a problem." (s. 29-30)

Som någon som gillar dekomponeringsmetoder och att beskriva data på nära och detaljerade sätt så bara måste jag ju älska detta! Tekniskt ja men också djupt intuitivt, att man ska veta vad det är för variation i data man exploaterar när man gör sina beräkningar. Och plotta det!

 

Clément de Chaisemartin (då University of California-Santa Barbara, nu Sciences Po i Paris) och Xavier d'Haultfoeuilles (CREST-ENSAE i Frankrike) artikel i American Economic Review, 2021, är nära relaterad till Goodman-Bacons. Också här kan man se edt som att de utforskar vad det egentligen är som driver resultaten i Twoway Fixed Effects-designer/DID-designer. De sammanfattar ungefär sin utgångspunkt i citatet nedan.

Artikeln är matematisk och teoretisk och jag ska inte gå in på detljerna men det intressanta är alltså att estimatorn β_fe som är standard i diff-in-diff är en viktad summa av en rad diff-in-diff-jämförelser men att inte varje jämförelse i ens modell kommer mätas på samma sätt. Problemet med negativa vikter, som kan flippa koefficienterna, är centralt här, i en kontext med staggered treatment och potentiellt heterogena effekter över tid. CdC och Xd'H lägger fram en ny estimator, som de kallar DID_M, som kan hantera dessa problem, och som är implementerad i två nya Stata-paket. Dessa tillåter också att man beräknar vikterna i regressionen (paketet twowayfeweights, sedermera också tillgängligt för R). Så här förklarar de hur deras approach relaterar till andra pågående metodologiska studier inom diff-in-diff:

"More recently, Borusyak and Jaravel (2017), Abraham and Sun (2018), Athey and Imbens (2018), Callaway and Sant’Anna (2018), and  Goodman-Bacon (2018) study the special case of staggered adoption designs, where the treatment of a group is weakly increasing over time. Those papers derive some important results specific to that design that we do not consider here. Still, some of the results in those papers are related to ours, and we describe precisely those connections later in the paper. The most important dimension on which our paper differs from those is that our results apply to any two-way fixed effects regressions, not only to those with staggered adoption. In our survey of the AER papers estimating  two-way fixed effects regressions, less than 10 percent have a staggered adoption design. This suggests that while staggered adoptions are an important research design, they may account for a relatively small minority of the applications where two-way fixed effects regressions have been used." (s. 2966)
Liyang Sun (då MIT, nu UCL) och Sarah Abraham (Cornerstone Research) diskuterar i sin artikel "Estimating dynamic treatment effects in event studies with heterogeneous treatment effects", publicerad i Journal of Econometrics 2021 användningen av leads och lags för att utforska effekter över tid. Detta är deras abstract:
"To estimate the dynamic effects of an absorbing treatment, researchers often use two-way fixed effects regressions that include leads and lags of the treatment. We show that in settings with variation in treatment timing across units, the coefficient on a given lead or lag can be contaminated by effects from other periods, and apparent pretrends can arise solely from treatment effects heterogeneity. We propose an alternative estimator that is free of contamination, and illustrate the relative shortcomings of two-way fixed effects regressions with leads and lags through an empirical application."

Och så här sammanfattar de i introduktionen vad artikeln gör:


 Också här rör det sig alltså om problem med staggered treatment och hur man då ska jämföra treated grupper, never treated och not yet treated. Om Goodman-Bacons artikel är väldigt diagnostisk: hur ska man identifiera problemen i ens modell och mäta dem, så är Sun och Abrahams mer framåtblickande: här är en estimator som löser de identifierade problemen med heterogena effekter och problematiska jämförelser.

Kirill Borusyak, Xavier Jaravel och Jann Spiess fortsätter i sin artikel  "Revisiting Event-Study Designs: Robust and Efficient Estimation" i Review of Economic Studies 2024 på problematiken med diff-in-diff med staggered treatment och heterogena kausala effekter.


referenser

Alberto Abadie (2005) "Semiparametric Difference-in-Differences Estimators", Review of Economic Studies.

Andrew Baker, Brantly Callaway, Scott Cunningham, Andrew Goodman-Bacon och Pedro H. C. Sant’Anna (2025) "Difference-in-Differences Designs: A Practitioner’s Guide", arxiv.org working paper, juni 2025.

Marianne Bertrand, Esther Duflo och Sendhil Mullainathan (2004) "How much should we trust differences-in-differences estimates?", Quarterly Journal of Economics

Kirill Borusyak, Xavier Jaravel och Jann Spiess (2024) "Revisiting Event-Study Designs: Robust and Efficient Estimation", Review of Economic Studies. -- över 4 000 citeringar på Google Scholar.

Clément de Chaisemartin and Xavier D'Haultfoeuille (2019) "Two-way Fixed Effects Estimators with Heterogeneous Treatment Effects", NBER Working Paper No. 25904. -- publicerad 2020 i American Economic Review. -- ungefär 7 000 citeringar på Google Scholar.

Andrew Goodman-Bacon (2018) "Difference-in-differences with variation in treatment timing", NBER Working Paper. -- publicerad 2021 i Journal of Econometrics. -- över 11 000 citeringar på Google Scholar.

Guido M. Imbens and Jeffrey M. Wooldridge (2008) "Recent Developments in the Econometrics of Program Evaluation", NBER Working Paper No. 14251. -- publicerad 2009 i Journal of Economic Literature.

Jonathan Roth, Pedro HC Sant'Anna, Alyssa Bilinski och John Poe (2023) "What's trending in difference-in-differences? A synthesis of the recent econometrics literature", Journal of Econometrics, 235: 2218-2244. 

Liyang Sun  och Sarah Abraham (2021) "Estimating dynamic treatment effects in event studies with
heterogeneous treatment effects"
, Journal of Econometrics 225: 171-199. -- ungefär 7 400 citeringar på Google Scholar.

 

fotnoter

[1] Deras fotnot här är: "See Besley and Case [2000]. Another prominent concern has been whether DD estimation ever isolates a specifi c behavioral parameter. See Heckman [2000] and Blundell and MaCurdy [1999]. Abadie [2000] discusses how well the comparison groups used in nonexperimental studies approximate appropriate control groups. Athey and Imbens [2002] critique the linearity assumptions used in DD estimation and provide a general estimator that does not require such assumptions." (s. 250)

[2] Bertrand et al gör också en intressant anmärkning o mmetoden här: "Two additional points are worth noting. First, 80 of the original 92 DD papers have a potential problem with grouped error terms as the unit of observation is more detailed than the level of variation (a point discussed by Donald and Lang [2001]). Only 36 of these papers address this problem, either by clustering standard errors or by aggregating the data. Second, several techniques are used (more or less informally) for dealing with the possible endogeneity of the intervention variable. For example, three papers include a lagged dependent variable in equation (1), seven include a time trend specifi c to the treated states, fiffteen plot some graphs to examine the dynamics of the treatment effect, three examine whether there is an “effect” before the law, two test whether the effect is persistent, and eleven formally attempt to do triple-differences (DDD) by fi nding another control group. In Bertrand, Dufllo, and Mullainathan [2002] we show that most of these techniques do not alleviate the serial correlation issues." (s. 254)

[3] "The most interesting literature in this area views the interactions not as a nuisance but as the primary object of interest. This literature, which includes models of social interactions and peer eff ects, has been growing rapidly in the last decade, following the early work by Manski (1993). See Manski (2000) and Brock and Durlauf (2000) for recent surveys. Empirical work includes Kling, Liebman and Katz (2007), who look at the eff ect of households moving to neighborhoods with higher average socio-economic status; Sacerdote (2001), who studies the eff ect of college roommate behavior on a student’s grades; Glaeser, Sacerdote and Scheinkman (1996), who study social interactions in criminal behavior; Case and Katz (1991), who look at neighbourhood eff ects on disadvantaged youths, Graham (2006), who infer interactions from the eff ect of class size on the variation in grades; and Angrist and Lang (2004), who study the effect of desegregation programs on students’ grades. Many identifi cation and inferential questions remain unanswered in this literature. (s. 10)

[4] "In general the quantile of the diff erence, τ˜_q, differs from the difference in the quantiles, τ_q, unless there is perfect rank correlation between the potential outcomes Yi(0) and Yi(1) (the leading case of this is the constant additive treatment eff ect). The quantiles of the treatment effect, τ˜_q, have received much less attention than the quantile treatment eff ects, τ_q. The main reason is that the τ˜_q are generally not identifi ed without assumptions on the rank correlation between the potential outcomes, even with data from a randomized experiment." (s. 13)

[5] De diskuterar här också efficiency bounds. Vilken estimator av ATE har lägst varians, alltså är mest effektiv? 

[6] DE förklarar att : "Formulating exogeneity in this way is attractive compared to conventional residual-based definitions, as it does not require the researcher to specify a regression function in order to define the residuals. This assumption captures two properties of the instrument. First, it captures random assignment of the instrument so that causal eff ects of the instrument on the outcome and treatment received can be estimated consistently. This part of the assumption, which is implied by explicitly randomization of the instrument, as for example in the seminal draft lottery study by Angrist (1990), is not sufficient for causal interpretations of instrumental variables methods. The second part of the assumption captures an exclusion restriction that there is no direct effect of the instrument on the outcome. This second part is captured by the absence of z in the definition of the potential outcome Yi(w). This part of the assumption is not implied by randomization of the instrument and it has to be argued on a case by case basis. See Angrist, Imbens and Rubin (1996) for more discussion on the distinction between these two assumptions, and for a formulation that separates them." (s. 55)

[7] Goodman-Bacon har en intressant fotnot här: "This often leads to sharp disagreements. See Neumark, Salas, and Wascher (2014) on unit-specific linear trends, Lee and Solon (2011) on weighting and outcome transformations, and Shore-Sheppard (2009) on age time fixed effects. "