Empirical microeconomics has experienced a credibility revolution, with a consequent increase in policy relevance and scientific impact. Sensitivity analysis played a role in this, but as we see it, the primary engine driving improvement has been a focus on the quality of empirical research designs."
Angist och Pischke, "The Credibility Revolution in Empirical Economics: How Better Research Design is Taking the Con out of Econometrics" (2010)
Paul Goldsmith-Pinkham, nationalekonom vid Yale, har ett intressant nytt surveypapper i NBER WP-serien. Det handlar om de empiriska metoder som på 1990- och 00-talen slog igenom inom mikroekonomin och hur dessa spridit sig över olika fält inom nationalekonomin. Han börjar sitt papper så här:
"How far has the credibility revolution spread? Angrist and Pischke (2010) documented a sea change in how economists approach empirical work—a shift toward transparent research designs, explicit identification strategies, and credible causal inference. Currie, Kleven, and Zwiers (2020b) showed that this shift was accelerating through the late 2010s, at least in applied microeconomics. But that analysis left open a basic question: are finance, macroeconomics, and other fields keeping pace, or has the revolution been narrower than it appears?"
Janet Currie, Henrik Kleven och Esmée Zwiers (alla tre då verksamma vid Princeton, Zwiers nu i Amsterdam) undersökte två typer av outputs: NBER Working Papers mellan 1980 och 2018, och artiklar i nationalekonomins topp 5-tidskrifter mellan 2004 och 2019. De begränsade sitt sample till mikroekonomi och fann att detta fält ökade sin andel av artiklarna i topptidskrifterna under perioden, kanske drivet av fältets expertis i de fräcka nya metoderna som sammanfattades under rubriken "identifikationsrevolutionen" eller till och med "trovärdighetsrevolutionen" (Angrist och Pischke 2010): andelen applicerad mikro i topp 5 steg från runt 55-60 procent under 00-talets mitt till 70-75 procent 2013-2019. Figur 2 visar att de mikroekonomiska artiklarna också förändrades i sitt innehåll under perioden: andelen som nämnde "identifikation" ökade från 4 procent till 50 procent, och fler använde experimentella eller kvasi-experimentella metoder eller administrativa data. En aspekt som jag tycker är väldigt intressant är att mängden diagram som en del av allt detta har ökat relativt till antalet tabeller; det visas i panel D i diagrammet.
Diagram 3 (inte visat här) visar att andelen labb-experiment också ökade, liksom diskussion om extern validitet. Diagram A.IV visar att andelen av papers i applicerad mikro som diskuterar (kausala) mekanismer ökat från 20 procent till 60 procent i NBER WP-serien, och till 70 procent i topp 5-artiklarna. Diagram 4 diskuterar användningen av fyra specifika metoder: diff-in-diff, regression discontinutity, event studies, och bunching. Deras historiografi här är intressant:
"Figure IV drills down on specific quasi-experimental methods: difference-in-differences, re-
gression discontinuity, event studies, and bunching. These methods have all become more popular over time, in roughly the order named. The use of difference-in-differences was virtually non-existent until 1990 and then starts growing. The first papers that mention difference-in-differences estimators in our data are Ashenfelter and Card (1985) and Card and Sullivan (1988), which appeared as NBER working papers in 1984 and 1987, respectively. As far as we are aware, the very first paper to use a difference-in-differences approach is Ashenfelter (1978), although that paper did not use the difference-in-differences language. It is quite striking that, today, almost 25 percent of all NBER working papers in applied micro make references to difference-in-differences.
Regression discontinuity approaches start gaining popularity around 2000, following the early contributions by authors such as Angrist and Lavy (1999) and Hahn, Todd, and Van der Klaauw (2001), which were circulated as NBER working papers a couple of years prior.
Event studies and bunching approaches are more recent, having taken off during the last decade. Both of these approaches are closely linked to the increased use of administrative data sources, which are critical to the effective implementation of these data-demanding approaches. Over time, event studies have become almost synonymous with difference-in-differences: It is now rare to use difference-in-differences without showing an event study graph, and conversely it is rare to show event studies without a control group. As a result, the sharp rise in the use of event studies over the last ten years goes hand in hand with the increased slope of the difference-in-differences series during this time period. The modern bunching approach starts with Saez (2010), although the NBER working paper version of that paper appeared more than ten years prior."
De nya metoderna har inte ersatt äldre kausala metoder som instrumentvariabler eller fixed effects; "The fact that old and new methods appear to be complements rather than substitutes suggests that another outgrowth of the credibility revolution is the rise of the “collage” approach to empirical work. Authors no longer hang their hats on a single method or dataset, but attempt to make a case based on a more multi-pronged approach." Diagram 6 visar på spridningen av fyra fenomen, av ganska blandad karaktär: binscatter plots som blivit populära sedan de användes i Chetty et al (2011, “How Does Your Kindergarten Classroom Affect Your Earnings? Evidence from Project STAR”, QJE); preanalysis plans; maskinlärning; och textanalys.
Så långt Currie, Kleven och Zwiers. Goldsmith-Pinkham tar vid där de slutade, med motsvarande metod men med ett mycket större sample: 44 000 NBER WPs från 1982 till 2025 och 12 300 artiklar från elva topptidskrifter inom nationalekonomi och finans [1] från 2011 och 2024. Medan Currie et al begränsade sin analys till mikroekonomin så utvidgar Goldsmith-Pinkham fokus till nationalekonomin som helhet, just för att kunna studera om samma metoder som dominerar inom applicerad mikro också blivit populära t ex inom makro och finans.
Goldsmith-Pinkham sammanfattar sina resultat i tre steg. Ett, finans och makro är metodologiskt sett fortfarande annorlunda än applicerad mikro. Två, utanför applied micro är det differences-in-differences som dominerar trovärdighetsrevolutionen; här säger G-P lite syrligt att "This reliance on a single method is striking given the recent econometrics literature highlighting sensitivities in DiD designs (Roth 2022; De Chaisemartin and d’Haultfoeuille 2020; Callaway, Goodman-Bacon, and Sant’Anna 2024)." (s. 1) Och tre, det finns en stor skillnad mellan de metoder som diskuteras i ekonometrikernas egna Journal of Econometrics -- där dominerar icke-parametriska beräkningar, bootstrap-metoder och asymptotisk teori -- och de metoder som dominerar bland praktikerna, diff-in-diff och identifikationsstrategier. PGP: "The tools powering the credibility revolution and the theoretical literature developing new estimators occupy largely separate methodological spaces."
Huvudresultaten syns för NBER WP-serien i Figur 3 som jag klistrat in ovan: frekvensen av diskussion om "identifikation", användning av experimentella och kvasi-experimentalla metoder, och användning av administrativa data i working papers sedan 2000, uppdelat på tre typer av nationalekonomi: applicerad mikro, finans, och makro/annat.
Figur 4 fortsätter med mer detaljerad nerbrytning på metoder: differences-in-differences inklusive event studies i panel A; syntetiska kontrollmetoder i panel B; Bartik och shift-share instrument i panel C; instrumentvariabler i panel D; experimentella metoder i panel E, och regression discontinity i panel F. Diff-in-diff är vanligast, mellan 20 och 35 procent av alla WPs idag beroende på fält, medan instrumentvariabler är allra starkast inom ett särskilt fält, med runt 30 procent inom applicerad mikro sedan 2010 (diff-in-diff har däremot ökat mycket snabbt, från "bara" 10-15 procent inom mikro runt 2010), medan IV "bara" ligger runt 15-20 procent inom de andra fälten. Syntetiska kontroller är mycket ovanligare, runt 3 procent, Bartik/shift-share någonstans mittemellan liksom RD runt 8-9 procent, och experimenten mycket vanliga inom mikro (25 procent) men inte så vanliga i de andra fälten (runt 10 procent).
Resultaten för tidskrifterna är överlag liknande med en stor ökning över tid, högre nivåer inom mikro än inom andra fält, och en mycket stark ställning för diff-in-diff-designer. [2] Undersökningen av Journal of Econometrics ger mer kontrasterande resultat:
"Most credibility revolution methods—DiD, event studies, RD, RCTs, administrative data, synthetic control, Bartik instruments, binscatter, and heterogeneous treatment effects—appear far less frequently in the Journal of Econometrics than in applied journals. DiD appears in approximately 19% of applied journal papers but under 4% of Journal of Econometrics papers; event studies show a similar gap. The exceptions are identification language and instrumental variables, where the Journal of Econometrics matches or exceeds applied journals—reflecting the theoretical literature on identification and IV estimation that is a core focus of the journal." (s. 16)
Goldsmith-Pinkham har undersökt vad det är för metoder som diskuteras inom JoE istället:
"Asymptotic theory and Monte Carlo simulation top the list—appearing in 86% and 65% of papers respectively—but these reflect the standard toolkit for deriving and validating estimators; applied papers rely on asymptotic theory implicitly even when they do not use the term. The more informative contrasts involve substantive methods: nonparametric estimation (58%), time series models (54%), structural/GMM/MLE methods (54%), and Bayesian methods all appear at far higher rates in the Journal of Econometrics than in applied journals. These are the estimation and inference techniques that form the theoretical infrastructure of econometrics—important in their own right, but distant from the day-to-day practice of most applied economists." (s. 17)
Från denna diskussion om heterogenitet inom nationalekonomin rör Goldsmith-Pinkham sig till frågan om det så att säga borde ske en konvergens. Det är inte hans argument, säger han:
"Many questions in macroeconomics are fundamentally about general equilibrium, and the applied micro toolkit—built around partial equilibrium and local treatment effects—may not be the right tool for every setting. The same is true in asset pricing, where the object of interest is often an equilibrium price rather than a treatment effect. The more relevant distinction is between fields where quasi-experimental methods are feasible but underused—corporate finance, for example, has abundant natural experiments—and fields where the questions themselves call for different approaches. Nakamura and Steinsson (2018, “Identification in macroeconomics”, JEP) offer a thoughtful example of how credibility revolution thinking can be adapted to macroeconomic settings without simply importing the applied micro playbook."
I slutsatsdelen har Goldsmith-Pinkham en intressant reflektion om ifall resultaten är drivna av hans metod. Metoden är ju att med en maskininlärningsmodell läsa en stor mängd text och räkna omnämnande av olika metoder och upplägg. Hade resultaten varit annorlunda om man t ex hade kollat på citeringar till klassiska papers ur identifikationsrevolutionen?
"One limitation of this analysis is that keyword mentions measure the diffusion of methodological language but not the quality of adoption or influence of methods. Validation against LLM classification (Appendix A) shows that keyword precision varies across categories—exceeding 90% for regression discontinuity and lab experiments, but falling below 50% for DiD and event studies, where many mentions reflect discussion rather than use as a primary research design. Cross-field comparisons should therefore be interpreted with caution for categories where precision is lowest, as some of the measured gap may reflect differences in vocabulary rather than uptake. A complementary approach would track citations to foundational credibility revolution papers—Angrist and Krueger ( “Does compulsory school attendance affect schooling and earnings?”, QJE, 1991), Angrist and Pischke (Mostly Harmless Econometrics: An Empiricist’s Companion, 2009), Imbens and Lemieux (“Regression discontinuity designs: A guide to practice”, J of Econometrics, 2008)—across fields. If finance and macro cite these works at comparable rates but describe methods differently, the measured gap would partly reflect writing conventions rather than substantive methodological differences. If citation rates also differ, this would reinforce the keyword evidence." (s. 21)
I Appendix finns en stor mängd ytterligare resultat. Jag fastnar särskilt för diagrammet som fångar "den grafiska revolutionen", motsvarande Currie, Kleven och Zwiers Figur 2D: alltså ration av diagram till tabeller, här i NBER WPs. Diagrammet nedan visar att i makro så använde man vid 2000-talets början och mitt ungefär 50-75 procent mer diagram än tabeller, och den övervikten har nu ökat till ungefär 200 procent! Inom mikro är trenden faktiskt mindre häftig, från runt 25 procent till runt 125 procent, och inom finans är trenden liknande. Den totala trenden (svart streckad linje) visar att vid 00-talets början gick det ungefär 1,5 diagram på varje tabell, vid 2010-talets mitt ungefär 1,75 diagram per tabell, och idag ungefär 2,4 diagram per tabell.
referenser
Janet Currie, Henrik Kleven, och Esmée Zwiers (2020) "Technology and Big Data Are Changing Economics: Mining Text to Track Methods", American Economic Review Papers and Proceedings.
Paul Goldsmith-Pinkham (2026) "Tracking the Credibility Revolution across Fields", NBER Working Paper 35051, april 2026.
fotnot
[1] Dessa tidskrifter: "three general-interest economics journals (AER, QJE, JPE), the four American Economic Journals (Applied, Policy, Macro, Micro), three top finance journals (Journal of Finance, Review of Financial Studies, Journal of Financial Economics), and the Journal of Econometrics." (s. 2)
[2] "AEJ Applied Economics and AEJ Economic Policy show the highest rates of credibility revolution methods—unsurprising given their explicit focus on applied empirical work. Among the general-interest journals, AER and QJE show higher rates than JPE, reflecting differences in paper composition. The finance journals show moderate adoption of DiD and identification language but lower rates of RD and experimental methods—echoing the NBER findings at the journal level." (s. 14-15)
























