lördag 27 maj 2023

Den jämförande metoden i statsvetenskap

Statsvetarna Dan Slater och Daniel Ziblatt skrev 2013 en artikel om krisen för metoden "the controlled comparison", som definieras som en metod "in which a researcher strategically selects cases for analysis that either exhibit contrasting outcomes despite their many otherwise similar characteristics, or similar outcomes despite their many otherwise contrasting characteristics." Slater och Ziblatt menar att metoden tar en central plats i statsvetenskaplig forskning om stora frågor som demokratins och diktaturens ursprung, ex-spanska koloniers olika utveckling i Latinamerika, varför Indien men inte Pakistan blev en demokrati, och så vidare.

Men idag, säger de, möter metoden stark kritik från två håll. " First, they have been criticized by quantitatively oriented scholars, quite fairly at times, as insufficiently rigorous or for requiring such restrictive epistemological assumptions that they do not justify their authors’ grandest ambitions of generalizability (Geddes, 2003; King, Keohane, & Verba, 1994; Sekhon, 2004)." För det andra har metoden kritiserats av en ny generation kvalitativa metodologer. " These critiques fit within an emergent “multi-method turn” in comparative politics that entails growing endorsement among both qualitative and quantitatively oriented scholars for a particular methodological formula: Deep studies of particular country cases for purposes of establishing “internal validity,” combined with broader large-N analysis to ensure “external validity.”" (s. 1303)

Slater och Ziblatt vill inte avfärda multi method-tillvägagångssättet, men vill försvara den jämförande studien. De menar att en del kritik mot metoden helt enkelt är orättvis, som när George och Bennett (2004) menar att den jämförande metoden bara visar korrelationer för ett par fall, "without reference to the rich narrative and process tracing that in practice always accompanies the best work in this tradition. Hence they mistakenly consider process tracing an “alternative” to controlled comparisons rather than one of its defining features. According to this caricatured but commonly held view, controlled comparisons are nothing more than a weak form of statistical inference—a view Lijphart effectively debunked back in 1975—rather than  a distinctive method with distinct advantages." (s. 1305) Också Tarrows (2010) kvalificerade försvar för vad han kallar "paired comparisons" menar att den jämförande studien är sämre på extern och intern validitet än vad multi-method-studien är; S och Z menar att detta beror på att Tarrow antar att den jämförande studien bygger på icke-representativ sampling, utan att diskutera hur man kan göra sin sampling systematiskt för att kunna dra generella slutsatser.

Efter inledningen börjar den substantiella diskussionen med ämnet metod vs intern och extern validitet. De citerar Gerring som definierar dessa centrala begrepp:

"Internal validity refers to the correctness of a hypothesis with respect to the sample (the cases actually studied by the researcher). External validity refers to the correctness of a hypothesis with respect to the population of an inference (cases not studied). The key element of external validity thus rests upon the representativeness of the sample" (cit. s. 1305)
De menar dock att litteraturen i jämförande politik också använder en annan implicit definition: håller ditt argument som du gjort i en studie av land X, också för land Y?
"Hence when we say in this essay that a hypothesis enjoys external validity, we mean both that it holds true in more than one country case, and that the additional country case(s) played no role in helping to generate the hypothesis in question. By this understanding, when a hypothesis generated in part through the study of empirics from a single-country case study proves valid in any other country case study, it enjoys at least some degree of external validity. To be sure, subnational evidence can often establish the external validity of a hypothesis in its standard sense, without requiring cross-national evidence. Yet external validity as discussed here requires both that an argument prove valid in multiple countries (i.e., the colloquial comparativist understanding) and that at least some of those cases have “out-of-sample” status (i.e., the standard definition of external validity)." (s. 1306)
Det är en gammal diskussion i jämförande politik att det finns en motsättning mellan intern validitet -- att göra detaljerad rättvisa åt det enskilda fallet, och ta in komplex kausalitet -- och extern validitet -- att göra generella argument som kan testas annanstans.
"In their depiction of qualitative and quantitative research as “a tale of two cultures,” Mahoney and Goertz (2006) conclude that researchers in these two traditions harbor distinctive explanatory goals. Although “quantitative researchers” aim to estimate the average causal effect of variables across a wide population of cases, “qualitative scholars” hope to “explain individual cases.” Similarly, Gerring suggests that internal validity is a characteristic strength of qualitative analysis, whereas quantitative analysis is ideally suited for external validity. " (s. 1306)
Slater och Ziblatt håller inte alls med om detta. Tvärtom så menar de att det ibland är kvantitativ forskning som bäst ger rättvisa åt ett enskilt fall, och small-N-jämförelser som ger bäst extern validitet. För att utveckla detta argument börjar de med att diskutera den bok "that, more than any other, marked the shift in comparative politics toward studies combining multiple methods in the intensive study of a single country: Putnam’s (1993) Making Democracy Work." Putnam använde kvantitativ metod för intern validitet, för att visa att det var socialt kapital, inte t ex ekonomisk modernisering, som drev kvaliteten i statsapparaten i Italien. Han använde "controlled comparison" mellan två enheter, södra och norra Italien, för att att få extern validitet.
"By working subnationally and quantitatively, Putnam controls for a wide array of national-level factors (e.g., Catholicism, parliamentarism, fascist legacies) that could plausibly influence government performance in the Italian context. Even more important for purposes of portability, Putnam broadly compares two parts of Italy whose variation in outcomes is so vast that it approximates the full range of variation in industrialized democracies; in other words, northern Italy is nearly as well run as any country or subnational region in the OECD, whereas southern Italy is among the worst managed. With no quantitative finding in Putnam’s book providing any information on social capital and government performance beyond Italy’s shores, it is above all his controlled comparison—with its combination of sophisticated theoretical argumentation, meticulous control over alternative explanations, and representative range of empirical variation—that best explains the portability of Making Democracy Work. Putnam’s quantitative analysis convinces us that social capital shapes government performance in Italy (internal validity), whereas his qualitative ontrolled comparison raises the tantalizing prospect that his explanation for dramatic variation across Italian regions might shed light on the similarly dramatic variation in government performance that we witness around the world (external validity)—as indeed it has, though hardly without challenge or refinement (Tarrow, 1996; Tsai, 2007; Varshney, 2002)." (s. 1308-1309)

Också Wilkinsons argument att muslimer i Indien är säkrast från anti-muslimska upplopp i regioner där de är en viktig grupp väljare, eftersom politiker där kommer använda polisen för att skydda viktiga väljargrupper, görs helt med kvantitativ metod. [1] I sitt slutkapitel säkrar han sin studies externa validitet genom  "in-depth analysis of three cases strategically chosen for their variation in theoretically relevant factors besides electoral incentives (Romania, Malaysia, and Ireland)" och användning av Mills "method of agreement". (s. 1309) Liknande gör Posner (2006) i sin studie av institutioner av etnisk politik, där han i huvudsak gör en kvantitativ analys av variationer inom Zambia, och i slutet tillägger en kvalitativ jämförelse med andra afrikanska länder för att påvisa resultatens externa validitet. Kalyvas (2006) övertygar i sin studie av inbördeskriget i Grekland om hur inbördeskrig fungerar, genom sitt "sophisticated theoretical framework and case material drawn from other countries".

För att visa att ens argument har extern validitet, måste man alltid göra "'out of sample' tests", antingen kvalitativa eller kvantitativa. De presenterar tre kriterier för hur man får extern validitet. Det första är att "the guiding research puzzle and reported findings should always be expressed in terms of general variables or mechanisms, not terms that are completely context specific." Här relaterar de till Przeworski och Teunes (in)famösa argument att jämförande studier bör "eliminate proper names" och menar gentemot Mahoney och Goertz att medan kvalitativa forskare är intresserade av sina fall, så är de inte bara intresserade av sina fall. Det andra kriteriet är att fånga "representativ variation". "In our view, outstanding comparative work is more often driven by a desire to explain puzzling variation in outcomes than particular cases per se." (s. 1311) Det är mer sannolikt att man får "externally valid findings when the variation in the sample broadly mirrors variation in some broader and explicitly defined population of cases." (s. 1312) Tvärtom den ofta upprepade regeln att man inte ska välja fall utifrån deras värde på den beroende variabeln, så menar S och Z att "strategically choosing cases in search of representative variation can be one effective way to avoid the trap of selection bias." (s. 1312) Men hur kan man då veta att ens sample av fall har en variation som "largely mirrors the broader population"? Här gäller det att använda tidigare forskning och särskilt när utfallen är ordinal eller nominal så kan man identifiera utfallens "typologiska representativitet". Det gäller t ex Barrington Moores typologi av utfallen kommunism, fascism eller demokrati, eller Ertmans utfall byråkratisk eller patrimonial statsformation, eller Ziblatts federala eller unitära stat. Om man forskar om något som inte är så utforskat som dessa teman, så blir det något mer komplext. "Here one can begin by conducting the kind of “brush–clearing” cross-national statistical analysis Lieberman (2005) proposes as a first step of a “nested research design” to locate individual cases in a broader universe. With this model, one can supplement and situate one’s case-specific knowledge by analyzing descriptive statistics on a broader set of cases to identify the full range of actual outcomes within a population. Once the researcher has identified the relevant variation of outcomes as well as the “scope conditions” for testing a theory, she or he can proceed with a case-selection strategy that aims at representative variation." (s. 1312-1313)

Variation är det ena bladet på den kontrollerade jämförelsens sax, och kontroll är det andra bladet. Här har bokstavliga läsningar av Mills difference- och agreement-metoder fått det att se svårare ut än vad det är: "In our view, controlled comparisons need not meet the standard of “natural experiments,” but they do require intense theoretical engagement to generate external validity." De kallar denna approach "folk Bayesian". De kommer tillbaka till sin polemik mot idén att bara kvantitativ analys av large-N samples kan ge extern validitet:

"In a political world marked by equifinality and multiple causation, probabilistic statistical significance simply cannot serve as the solitary viable standard for external validity. If an argument deriving from a controlled comparison is stated in terms of general variables and can be shown to shed explanatory light on specific cases outside the original sample, then the original argument can be said to enjoy external validity." (s. 1314) [2]
Från detta går de till att visa sitt arguments relevans i ett särskilt fall: Gregory Luebberts klassiska bok Liberalism, Fascism, or Social Democracy från 1991.
"In a single class-coalitional framework, Luebbert sets out to explain why liberal democracy survived in three interwar European cases (Britain, France, and Switzerland), while transforming into social democracy in four (Denmark, the Netherlands, Norway, and Sweden) and collapsing into fascism in three others (Germany, Italy, and Spain)." (s. 1315)

Luebbert ger ett argument som verkar ha intern validitet, alltså förklarar variationen i de fall han studerar, och dessutom extern validitet, alltså går att generalisera till andra fall/länder. Hur lyckas han med det? "Of course writing long before the “multimethod turn,” in comparative politics, Luebbert does not deploy the now paradigmatic mix of a single national case study and large-N cross-national study. Indeed, had he used the latter method, it is hard to imagine he would have developed the innovative argument that he does." (s. 1315) Istället använder han den gammeldags metoden, "controlled comparison". I högre grad än Moore så utformar Luebbert sitt argument med allmänna variabler och mekanismer som inte bygger på detaljer från just de fall som han studerar. Han gör också noggrant en typologi över de möjliga utfallen som täcker alla utfall som observeras i Europa -- fascism, socialdemokrati, liberaldemokrati, och traditionell diktatur.

"In addition, Luebbert establishes the greater internal and external validity of his argument vis-à-vis competing explanations through careful process tracing and original cross-national comparisons. For example, he notes the weakness of one common hypothesis, that landed elites were in and of themselves an automatic barrier to democracy, by examining where within countries fascists received their most votes. He finds that it was first in northern Italy and Spain and western Germany, not where landed estates were dominant but rather where family farms were, that fascists made their greatest inroads, thereby challenging conventional accounts (p. 309). This potent combination of within-case and cross-case evidence simultaneously bolsters both the internal and external validity of his claims, and serves as an example of the controlled comparison at its best." (s. 1315-1316)

Här pekar Slater och Ziblatt på att Luebbert med sin metod, som kombinerar process tracing inom en rad länder med jämförelser mellan dem, lyckas generera nya förklaringar, inte minst attt fascismen inte förklaras av jordägarnas makt utan delvis av högerns reaktion på när socialisterna försökte organisera lantarbetarna. I Skandinavien lyckades socialisterna, vilket ledde till ett socialdemokratiskt utfall, men i Tyskland misslyckades de, och fascisterna vann dragkampen om det agrara stödet.

Superintressant nog så går de från detta över till att visa att just denna Luebberts förklaring till fascismen i Tyskland (och avsaknaden av fascism i Skandinavien) fungerar lika väl för att förklara två fall långt borta både i tid och rum: Indonesien 1965-66 och Thailand 1976.

"Perhaps surprisingly, this seemingly region-specific explanation resonates in the geographically and temporally distant context of Cold War Southeast Asia. There, as in interwar Europe, fledgling electoral democracies crumbled between the mid-1950s and early 1970s, primarily to be replaced by right-wing, military-dominated successors. Yet also as in interwar Europe, democratic breakdown occurred quite differently in what would otherwise appear to be quite similar cases. Of most interest to our discussion of Luebbert here, violent right-wing regimes rose to power with the direct and murderous assistance of reactionary elements in the countryside in response to a burgeoning leftist threat (i.e., Luebbert’s fascist pathway) in two specific cases: Indonesia (1965–1966) and Thailand (1976). Interestingly, neither of these cases is characterized by highly concentrated landownership, lending added credence to Luebbert’s argument as opposed to Moore’s." (s. 1316)

De beskriver utvecklingen i Indonesien (s. 1316-1318) och Thailand (s. 1318-1320). De gör också en kortare utblick till Filippinerna och Ferdinand Marcos utrop av undantagstillstånd 1972. Kuppen föregicks av en del vänsteraktivism ledd av studenter, men olikt i Thailand hade den filippinska vänstern inte försökt organisera lantarbetarna. (Slater 2010, kap. 5.) Helt i enlighet med Luebberts argument var också Marcos kupp inte lika våldsam på landsbygden som kuppen i Thailand fyra år senare. Dessutom är skillnaden mellan Thailand och Filippinerna förenlig med Luebberts modell, men inte med Moores, eftersom Filippinerna hade en starkare labor-repressive jordägande klass än vad Thailand hade: " although the Philippines clearly possessed more of an entrenched labor-repressive landed elite than either Thailand or 
Indonesia, it would be in Thailand and Indonesia—and not in the Philippines—where democratic breakdown would most chillingly resemble the popularly violent dynamics of European fascism." (s. 1320)

De börjar slutsatsdelen med att diskuterade spänningen eller trade-offen mellan den jämförande studiens två mål: att göra fallen rättvisa och beskriva dem i detalj, och att lägga fram kausala analyser vars mekanismer man kan testa också i andra fall. De menar att det finns en sådan trade-off men att den nuvarande multi-method-konsensusen inom statsvetenskapen förväxlat relationen mellan large-N-studier och small-N med relationen mellan extern och intern validitet. Det är inte så att regressionsanalys på large-N nödvändigtvis är bättre på exterm validitet och därmed  är inte multi-metod-approachen den enda approachen för att förena extern och intern validitet. Istället så menar de att den "recently much-maligned" metoden jämförande studier är lika bra, så länge som designen uppfyller tre kriterier:" comparisons that operationalize their chief subject of concern in terms of general variables or mechanisms, that seek out representative variation that attempts to mirror a broader population, and that engage with theory to select 
cases that maximize control." (s. 1322)

Och de slutar med en fin appell för att studera inte bara variation inom länder utan också skillnader mellan länder:

"An exclusive focus on variation within countries has a major limitation if never combined with cross-national comparisons: We necessarily overlook the causal importance of national-level attributes in conditioning relationships among subnational variables. Unless one believes that the political features of entire nation-states (e.g., electoral institutions, party systems, state capacity, revolutionary histories) are irrelevant to the outcomes comparativists care about most, controlled cross-national comparisons remain indispensable to the craft of comparative politics." (s. 1323)

När jag skrev min artikel med Felix Kersting om sambandet mellan agrar ojämlikhet och politiska utfall i Tyskland och Sverige hade jag inte läst Slater och Ziblatts artikel till slut, men detta är ju väldigt mycket hur jag tänker i de här frågorna! Min och Felix artikel bygger framför allt på kvantitativa analyser av skillnader inom länderna, men jämförelsen mellan de två länderna är också en nödvändig del av hur vi bygger vårt argument och utvecklar teorin.


referens
Dan Slater and Daniel Ziblatt (2013) "The Enduring Indispensability of the Controlled Comparison", Comparative Political Studies 46(10) 1301–1327

fotnoter
[1] Likt Putnam hänvisar Wilkinson till att variationen inom landet är stor: "Gujarat experiences levels of violence that rival those of highly violent nation-states, whereas Tamil Nadu is as peaceful as highly stable nation-states, capturing a range of variation in Wilkinson’s sample that broadly mirrors variation in the global population." (s. 1309)
[2] De tar ett intressant exempel: "In our view, such cross-national tests do not produce external validity; they confirm it. For instance, in recent work on oil wealth and authoritarian breakdown, Smith’s (2007) original argument derived from a controlled Indonesia–Iran comparison proved to hold true in a quantitative test of 107 developing countries over a 40-year period. This test did not _make_ Smith’s argument externally valid, but rather _showed_ that his immaculately crafted controlled comparison had produced externally valid findings before a single regression analysis was run." (s. 1313-1314)

Inga kommentarer: