Nationalekonomerna Nicole Fortin (University of British Columbia, UBC), Thomas Lemieux (också UBC) och Sergio Firpo (Insper, Brasilien) börjar sitt kapitel om dekomponeringsmetoder inom nationalekonomin, publicerat i en Handbook of Labor Economics, på ett rakt och effektivt sätt:
"What are the most important explanations accounting for pay differences between men and women? To what extent has wage inequality increased in the United States between 1980 and 2010 because of increasing returns to skill? Which factors are behind most of the growth in US GDP over the last 100 years? These important questions all share a common feature. They are typically answered using decomposition methods. The growth accounting approach pioneered by Solow (1957) and others is an early example of a decomposition approach aimed at quantifying the contribution of labor, capital, and unexplained factors (productivity) to US growth. But it is in labor economics, starting with the seminal papers of Oaxaca (1973) and Blinder (1973), that decomposition methods have been used the most extensively. These two papers are among the most heavily cited in labor economics, and the Oaxaca-Blinder (OB) decomposition is now a standard tool in the toolkit of applied economists."
I fallet Solows (1957) produktionsfunktion så var den: Q = F(K,L;t) där Q stod för kvantiteten output, K för input av kapital, L för input av arbete, och t för teknisk utveckling. Den ökning av Q som inte kan härröras till ökning av K eller L ansågs då kunna förklaras av en (icke observerad) förändrad i t, den så kallade Solowresidualen. Hos Oaxaca (1973) var framställningen mer teknisk, inställd på att förklara skillnaden mellan mäns och kvinnors löner på urbana arbetsmarknader och hur mycket som förblev oförklarat efter att man kontrollerar för erfarenhet, utbildning och andra relevanta variabler som facklig/ickefacklig, sektor osv. Den oförklarade residualen kunde då ses som ett mått på omfattningen av diskriminering av kvinnor. Det var alltså en regressionsbaserad dekomponering. [1] (Se också Blinder 1973.)
Fortin et al kommenterar att dekomponeringsanalyserna alltså ofta är väldigt ambitiösa: att förklara ekonomisk tillväxt, eller könsdiskriminering på arbetsmarknaden, och liknande stora frågor. Detta betyder, säger de, att man ofta använder stora antaganden för att göra analysen möjlig. Framför allt så måste man göra "allt annat lika"-antaganden och alltså göra delvisa jämviktsanalyser snarare än allmänna jämviktsanalyser: redan Gregg Lewis (1963) påpekade att när man för att estimera fackets effekt på de fackligt anslutna arbetarnas löner genom att dekomponera skillnaderna mellan de fackligt anslutna och de fackligt icke anslutna och tillskriva residualen (efter kontrollen för andra relevanta variabler) till facket, så gör man antagandet att fackets existens inte har några effekter på de icke anslutna -- vilket det säkerligen har. Kapitlet kommer framför allt använda delvis jämviktsapproachen, men diskutera allmänna jämviktsaspekter i slutet, säger Fortin et al.
Dekomponeringsanalysens andra stora begränsning, säger de, är att även om man med dekomponering kan belägga vilka faktorer som spelar roll, så kan man inte säga något om mekanismerna genom vilka de spelar roll. Vad man däremot kan göra är så klart att "provide useful indications of particular hypotheses or explanations to be explored in more detail. For example, if a decomposition indicates that differences in occupational affiliation account for a large fraction of the gender wage gap, this suggests exploring in more detail how men and women choose their fields of study and occupations." (s. 3)
De skriver historien om dekomponeringsmetodernas plats i nationalekonomin ungefär så här. Hos Oaxaca och Blinder i det tidiga 1970-talet var utfallsvariabeln som skulle dekomponeras framför allt medelvärdet av en variabel, t ex lönen för en kvinna och för en man. Med Richard Freemans papers i det tidiga 1980-talet skiftade intresset till olika delar av fördelningen. Men det var framför allt på 1990-talet som dekomponeringsmetoderna tog riktig fart, med studierna av inkomstojämlikhetens utveckling i USA. Här kom Juhn et al (1993) och DiNardo et al (1996) med nya dekomponeringsmetoder.
På 1990-talet utvecklade sig dekomponeringsmetoderna också i dialog med vad de kallar "the program evaluation literature", alltså forskningen inom offentlig ekonomi och arbetsmarknadsekonomi som arbetar med att med kausala metoder beräkna effekterna av olika policies. Med influenserna därifrån har dekomponeringslitteraturen arbetat hårdare på flera element, säger de: "to (i) clarify the assumptions underneath popular decomposition methods, (ii) propose estimators for some of the elements of the decomposition, and (iii) obtain formal results on the statistical properties of the various decomposition terms. As we explain below, the key connection with the treatment effects literature is that the “unexplained” component of a Oaxaca decomposition can be interpreted as a treatment effect. Note that, despite the interesting parallel with the program evaluation literature, we explain in the paper that we cannot generally give a “causal” interpretation to the decomposition results." (s. 4)
De förklarar grundmodellen så här:
Det stora här är alltså skillnaden mellan de två huvudposterna, den delen av variationen som förklaras av variationer i vilka värden grupp A och grupp B har på kontrollvariablerna X ("explained") och den andra delen, "unexplained", som t ex skulle kunna vara diskriminering i Oaxacas (1973) fall eller teknologiska framsteg i fallet Solow (1957). Att dela upp ΔµO i de två komponenterna ΔµS och ΔµX kallar de för en "aggregate decomposition" och med "detailed decomposition" syftar de på att dela upp både ΔµS och ΔµX i "the respective contributions of each covariate".
Sedan 1990-talet, säger de, har mycket fokus varit på att inte bara dekomponera medelvärden. Man tog sig an metoder från program evaluation-litteraturen för att dekomponera också per kvantiler och liknande (Hirano et al 2003; Firpo 2007). [2]
Efter att ha introducerat huvuddragen i dekomponeringsmetodernas utveckling så går de över till sektion II som presenterar dekomponeringarnas teori på ett lite mer avancerat sätt; Fortin et al menar att dekomponeringarnas stringens har underskattats eftersom litteraturen varit så praktiskt inriktad och inte diskuterat antaganden och teori på något utförligt sätt, och därför blir det särskilt viktigt att göra det här. De ägnar också ungefär 25 sidor åt detta. (s. 10-36)
Jag skippar den mer tekniska delen och går till del III. I praktiken är det enkelt att göra en Oaxaca-Blinder-dekomponering, säger de. Tabell 2 visar de underliggande estimaten för en O-B-dekomponering av könslönegapet i USA år 2000. "The composition effect is computed as the difference between the male and female means reported in column (1) multiplied by the male coefficients reported in column (2). The corresponding wage structure effect is computed from the difference between the male and female coefficients reported in columns (2) and (3)." Kompositionseffekten förklarar 0.197 (0.018) logpoäng av 0.233 (0.015) genomsnittligt log-lönegap mellan män och kvinnor. "When the male wage structure is used as reference, only an insignificant 0.036 (0.019) part of the gap (the wage structure effect) is left unexplained."
I samband med exemplet med löneskillnaden män-kvinnor för de också intressanta resonemang om vad för kontrafaktiska fördelningar man kan använda. Hade kvinnor haft männens lönestruktur om könsdiskrimineringen inte hade funnits? En rad studier (Reimers, 1983; Cotton, 1998; Neumark, 1988; Oaxaca and Ransom, 1994) har föreslagit en "weighted average expression" β∗ = ΩβA + (I − Ω)βB, där Ω = I sammanfaller med β∗ = βA, och Ω = 0 sammanfallermed β∗ = βB, och där Ω = ω. Om Ω = 1 är männens fördelning och Ω = 0 är kvinnornas. Dekomponeringen är obalanserad på så sätt att om man utgår från kvinnornas lönestruktur för att bedöma männens så ger det ett resultat, och om man omvänt använder männens för att bedöma kvinnornas så ger det ett annat resultat. Om man varierar Ω kan man spela med detta förhållande. Man kan också använda en reweighting-approach där man "omskapar" t ex kvinnornas fördelning med värdena på X från männen, t ex i inverse probability weighting. Då kan man göra dekomponeringen i komposition (skillnader i X) och struktur (skillnader i avkastning på X) utan att anta att effekten är linjär (som när man bara kollar på medelvärdet). I relation till detta diskuterara de också att Barsky et al (2002) dekomponerade hur etniska skillnader i förmögenhet i USA är icke-linjärt beroende av löneskillnader med mera, och därför gick ifrån en parametrisk approach (linjär, loglinjär etc) till en icke-parametrisk approach där de mer direkt modellerar variationen i data. Så här förklarar de approachen:
En annan utveckling av dekomponeringsmodellerna är att förklara binära utfallsvariabler, t ex arbetskraftsdeltagande. (s. 51-52)
Nästa stora sektion handlar om dekomponeringar av andra dimensioner av fördelningen än medelvärdet. Diskussionen börjar med variansen i (loggade) löner, som Richard Freeman (1980, 1984) analyserade i sina papers på 1980-talet. Freeman visade att medan facket i USA ökar ojämlikheten mellan fackligt anslutna och icke anslutna arbetare genom att höja de fackligt anslutna arbetarnas löner, så minskar de ändå den totala ojämlikheten eftersom fackets negativa effekt på ojämlikheten bland de fackligt anslutna kvantitativt dominerar effekten på skillnaden mellan de två grupperna (de anslutna och icke anslutna). Andra forskare på 1980-talet som Cowell (1980) och Shorrocks (1980, 1984) visade att man också kunde dekomponera ojämlikhetsmått som Gini och Theil med samma tekniker. Det är ju egentligen denna typ av dekomponeringar som jag är intresserad av, så jag citerar Fortin et als diskussion om dessa mera utförligt:
"Note that the between vs. within decomposition is quite different in spirit from the aggregate or detailed OB decomposition discussed in the previous section. There are advantages and disadvantages to this alternative approach. On the positive side, looking at between- and within-group effects can help understand economic mechanisms, as in the case of unions, or the sources of inequality growth (Juhn et al., 1993).On the negative side, the most important drawback of the between vs. within decomposition is that it does not hold in the case of many other interesting inequality measures such as the interquartile ranges, the probability density function, etc. This is a major shortcoming since looking at what happens where in the distribution is important for identifying the factors behind changes or differences in distributions. Another drawback of the between vs. within approach is that it does not provide a straightforward way of looking at the specific contribution of each covariate, i.e. to perform a detailed decomposition. One final drawback is that with a rich enough set of covariates the number of possible groups becomes very large, and some parametric restrictions have to be introduced to keep the estimation problem manageable." (s. 53)
Just dessa problem ledde till nya innovationer på 1990-talet:
"In response to these drawbacks, a new set of approaches have been proposed for performing aggregate decompositions on any distributional statistic. Some approaches such as Juhn et al. (1993), Donald et al. (2000), and Machado and Mata (2005) can be viewed as extensions of the variance decomposition approach where the whole conditional distribution (instead of just the conditional variance) are estimated using parametric approaches. Others such as DiNardo et al. (1996) completely bypass the problem of estimating conditional distributions and are, as such, closer cousins to estimators proposed in the program evaluation literature." (s. 54)
De börjar den substantiella diskussionen i sektionen med variansdekomponeringen. Medelvärdes-dekomponeringarna antar att: E(Y |X) = Xβ. Alltså att värdet på Y ökar linjärt med värdena på X. "This follows directly from the linearity and zero conditional mean assumptions introduced in Section 2. Using the law of conditional expectations, it then follows that the unconditional mean is E(Y ) = E(E(Y |X)) = E(X)β." Man kan utvidga denna logik från medelvärdet till variansen:
Variansen delas i den första kedjans sista led in i två delar. spridning i löner givet samma egenskaper, alltså within-group-ojämlikheten. β′Var(X)β är istället spridningen i löner som beror på skillnaden i grupptillhörighet, alltså between-group-ojämlikheten. Länge ner har vi ΔV=ΔXV+ΔSV där, återigen, delta V alltså är hela variansen, delta XV variansen som beror på skillnader i X, och delta SV variansen som beror på skillnaden i struktur. De diskuterar ett mycket intressant metodproblem med att beräkna vA(X) och vB(X), alltså variansen i de två grupperna A och B. De säger med referens till en tidigare studie av Lemieux (2006) att ännu tidigare studier utgick från att feltermerna i regressionerna för att skatta vA(X) och vB(X) var homoskedastiska (alltså ingen variation i feltermen relaterat till värdena på X) men att Lemieux visade att med heteroskedastiska fel så kan skillnader mellan σA^2 och σB^2 göra att dekomponeringen tillskriver strukturen (delta VS) effekter som egentligen är kompositionseffekter (delta VX). "Lemieux (2006b) has shown this was a major problem when looking at changes in residual wage inequality in the United States since the late 1980s."
Nästa subsektion handlar om att dekomponera andra ojämlikhetsmått än variansen. De resonerar mycket intressant om att många faktorer som vi teoretiserar påverkar ojämlikheten inte påverkar alla delar av fördelningen lika mycket, utan tvärtom lämpar sig för metoder som låter oss utforska heterogena effekter. De förklarar detta så här:
"An important limitation of summary measures of dispersion such as the variance, the Gini coefficient or the Theil coefficient is that they provide little information regarding what happens where in the distribution. This is an important shortcoming in the literature on changes in wage inequality where many important explanations of the observed changes have specific implications for specific points of the distribution. For instance, the minimum wage explanation suggested by DiNardo et al. (1996) should only affect the bottom end of the distribution. At the other extreme, explanations based on how top executives are compensated should only affect the top of the distribution. Other explanations based on de-unionization (Freeman, 1993; Card, 1992; DiNardo et al., 1996) and the computerization of “routine” jobs (Autor et al., 2003) tend to affect the middle (or “lower middle”) of the distribution. As a result, it is imperative to go beyond summary measures such as the variance to better understand the sources of growing wage inequality." (s. 57)
Med dessa metoder vill man kanske t ex dekomponera gapet i inkomst mellan percentil 90 och percentil 10. De diskuterar olika antaganden och metoder man kan göra för att göra detta, med början i Juhn et als approach från 1993.
Nästa sektion handlar om reweighting-metoder. (s. 63ff) Nästa därefter om metoder "based on estimating the conditional distribution". (s. 69ff)
Nästa stora sektion, sektion 5, handlar om "DETAILED DECOMPOSITIONS FOR GENERAL DISTRIBUTIONAL STATISTICS". (s. 74-87) Den sista sektionen handlar om tre extensioner. "We first consider the case where either the ignorability or the zero conditional mean assumptions are violated because of self-selection or endogeneity of the covariates.We next discuss the situation where some of these problems can be addressed when panel data are available. We conclude the section by discussing the connection between conventional decomposition methods and structural modeling."
Slutsatssektionen börjar: "The development of new decomposition methods has been a fertile area of research over the last 10-15 years." (s. 96) De avslutar med att diskutera relationen mellan dekomponeringsmetoder och strukturella modeller.
"The literature on inequality provides some useful hints on how this connection can be useful and improved upon. In this literature, decomposition methods have helped uncover the most important factors behind the large secular increase in the distribution of wages. Those include the return to education, de-unionization, and the decline in the minimum wage, to mention a few examples. These findings have spurred a large number of more conceptual studies trying to provide formal economic explanations for these important phenomena. In principle, these explanations can then be more formally confronted to the data by writing down and estimating a structural model, and using simulation methods to quantify the role of these explanations.
This suggest a two-step research strategy where “off-the-shelf ” decomposition methods, like those discussed in this chapter, can first be used to uncover the main forces underlying an economic henomenon of interest. More “structural” decomposition methods could then be used to better understand the economics behind the more standard decomposition results. We expect such a research strategy to be a fruitful area of research in the years to come." (s. 96-97)
referens
Nicole Fortin, Thomas Lemieux och Sergio Firpo (2011) "Decomposition Methods in Economics", i Orley Ashenfelter och David Card (red.) Handbook of Labor Economics, Volume 4a. Elsevier.
fotnoter
[1] Efter att ha presenterat sina regressionsresultat
säger Oaxaca: "The effects of discrimination are approximated by the
residual left after subtracting the effects of differences in individual
characteristics from the overall wage differential. The calculations
based on the full-scale wage regressions are presented in Table 3. As a
simple average of the two estimates obtained, discrimination accounts
for 58.4%o of the logarithmic wage differential for whites and 55.6%o
for blacks. The average value of the discrimination coefficient is .29
for whites and .25 for blacks. Table 4 presents the effects of
discrimination calculated from the personal characteristics wage
regressions. Predictably, the estimated effects of discrimination are
larger than those reported in Table 3: Discrimination accounts for
approximately 77.7%o of the wage diffferential for whites and 93.6%o for
blacks." I slutsatserna till artikeln säger han att: "As in other
studies we find the sex differential to be quite large. We are in
agreement with other researchers that unequal pay for equal work does
not account for very much of the male-female wage differential. Rather
it is the concentration of women in lower paying jobs that produces such
large differentials. Our results suggest that a substantial proportion
of the male-female wage differential is attributable to the effects of
discrimination.
The effects of discrimination are estimated as the residual left after adjusting the
sex differential for differences in various characteristics. This
methodological technique is found in other studies as well and may take
the form of regression analysis or standardization analysis. There are
some difficulties with this general approach which should be mentioned. "
(s. 708)
[2] De diskuterar det så här, där IPW står för Inverse Probability Weighting: "While most of the results in the program evaluation literature have been obtained in the case of the mean (e.g., Hirano et al., 2003), they can also be extended to the case of quantiles (Firpo, 2007) or more general distribution parameters (Firpo, 2010). The IPW estimator originally proposed in the decomposition literature by DiNardo et al. (1996) or matching methods can be used to perform the decomposition under the assumption of ignorability. More parametric approaches such as those proposed by Juhn et al. (1993), Donald et al. (2000) and Machado and Mata (2005) could also be used. These methods involve, however, a number of assumptions and/or computational difficulties that can be avoided when the sole goal of the exercise is to perform an aggregate decomposition. By contrast, IPW methods involve no parametric assumptions and are an efficient way of estimating the aggregate decomposition." (s. 7)




Inga kommentarer:
Skicka en kommentar