Correction de Heckman — Wikipédia

Technique statistique corrigeant le biais d’échantillonnage

le Correction de Heckman est une technique statistique pour corriger le biais d’échantillons sélectionnés de manière non aléatoire ou de variables dépendantes tronquées accidentellement, un problème omniprésent dans les sciences sociales quantitatives lors de l’utilisation de données d’observation.^[1] Conceptuellement, cela est réalisé en modélisant explicitement la probabilité d’échantillonnage individuelle de chaque observation (l’équation dite de sélection) ainsi que l’espérance conditionnelle de la variable dépendante (l’équation dite de résultat). La fonction de vraisemblance qui en résulte est mathématiquement similaire au modèle tobit pour les variables dépendantes censurées, une connexion établie pour la première fois par James Heckman en 1974.^[2] Heckman a également développé une approche de fonction de contrôle en deux étapes pour estimer ce modèle,^[3] ce qui évite la charge de calcul d’avoir à estimer les deux équations conjointement, mais au prix de l’inefficacité.^[4] Heckman a reçu le prix Nobel de sciences économiques en 2000 pour ses travaux dans ce domaine.^[5]

Les analyses statistiques basées sur des échantillons sélectionnés de manière non aléatoire peuvent conduire à des conclusions erronées. La correction de Heckman, une approche statistique en deux étapes, offre un moyen de corriger les échantillons sélectionnés de manière non aléatoire.

Heckman a discuté du biais résultant de l’utilisation d’échantillons sélectionnés non aléatoires pour estimer les relations comportementales en tant qu’erreur de spécification. Il propose une méthode d’estimation en deux étapes pour corriger le biais. La correction utilise une idée de fonction de contrôle et est facile à mettre en œuvre. La correction de Heckman implique une hypothèse de normalité, fournit un test pour le biais de sélection d’échantillon et une formule pour le modèle corrigé du biais.

Supposons qu’un chercheur veuille estimer les déterminants des offres salariales, mais n’ait accès aux observations salariales que pour ceux qui travaillent. Étant donné que les personnes qui travaillent sont sélectionnées de manière non aléatoire dans la population, l’estimation des déterminants des salaires à partir de la sous-population qui travaille peut introduire un biais. La correction de Heckman se déroule en deux étapes.

Dans la première étape, le chercheur formule un modèle, basé sur la théorie économique, pour la probabilité de travailler. La spécification canonique de cette relation est une régression probit de la forme

{displaystyle operatorname {Prob} (D=1|Z)=Phi (Zgamma ),}

où ré indique un emploi (ré = 1 si le répondant est employé et ré = 0 sinon), Z est un vecteur de variables explicatives, ${displaystylegamma}$ est un vecteur de paramètres inconnus, et Φ est le fonction de distribution cumulative de la distribution normale standard. L’estimation du modèle donne des résultats qui peuvent être utilisés pour prédire cette probabilité d’emploi pour chaque individu.

Dans un deuxième temps, le chercheur corrige l’autosélection en incorporant une transformation de ces probabilités individuelles prédites comme variable explicative supplémentaire. L’équation du salaire peut être précisée,

{displaystyle w^{*}=Xbeta +u}

où ${displaystyle w^{*}}$ désigne une offre salariale sous-jacente, qui n’est pas observée si le répondant ne travaille pas. L’espérance conditionnelle de salaire sachant que la personne travaille est alors

{displaystyle E[w|X,D=1]=Xbeta +E[u|X,D=1].}

Sous l’hypothèse que le les termes d’erreur sont conjointement normaux, nous avons

{displaystyle E[w|X,D=1]=Xbeta +rho sigma _{u}lambda (Zgamma ),}

où ρ est la corrélation entre les déterminants non observés de la propension à travailler ${displaystyle varepsilon}$ et déterminants non observés des offres salariales tu, σ_tu est l’écart type de ${displaystyle u}$ , et ${displaystylelambda}$ est le ratio Mills inverse évalué à ${displaystyle Zgamma }$ . Cette équation démontre la perspicacité de Heckman selon laquelle la sélection d’échantillons peut être considérée comme une forme de biais des variables omises, conditionnel aux deux X et sur ${displaystyle lambda }$ c’est comme si l’échantillon était choisi au hasard. L’équation de salaire peut être estimée en remplaçant ${displaystylegamma}$ avec les estimations Probit de la première étape, en construisant ${displaystylelambda}$ terme, et l’inclure comme variable explicative supplémentaire dans estimation par régression linéaire de l’équation des salaires. Puisque ${displaystyle sigma _{u}>0}$ ne peut être nul que si ${displaystylerho =0}$ , donc tester le nul que le coefficient sur ${displaystylelambda}$ est égal à zéro équivaut à tester la sélectivité de l’échantillon.

Les réalisations de Heckman ont généré un grand nombre d’applications empiriques en économie ainsi que dans d’autres sciences sociales. La méthode originale a ensuite été généralisée, par Heckman et par d’autres.^[6]

Inférence statistique[[[[Éditer]

La correction de Heckman est un estimateur M en deux étapes où la matrice de covariance générée par l’estimation MCO de la deuxième étape est incohérente.^[7] Des erreurs standard correctes et d’autres statistiques peuvent être générées à partir d’une approximation asymptotique ou par rééchantillonnage, par exemple via un bootstrap.^[8]

Désavantages[[[[Éditer]

L’estimateur en deux étapes décrit ci-dessus est un estimateur du maximum de vraisemblance à information limitée (LIML). En théorie asymptotique et en échantillons finis comme le démontrent les simulations de Monte Carlo, l’estimateur à information complète (FIML) présente de meilleures propriétés statistiques. Cependant, l’estimateur FIML est plus difficile à mettre en œuvre sur le plan informatique.^[9]
Le modèle canonique suppose que les erreurs sont conjointement normales. Si cette hypothèse échoue, l’estimateur est généralement incohérent et peut fournir une inférence trompeuse dans de petits échantillons.^[10] Des alternatives semi-paramétriques et d’autres alternatives robustes peuvent être utilisées dans de tels cas.^[11]
Le modèle obtient une identification formelle à partir de l’hypothèse de normalité lorsque les mêmes covariables apparaissent dans l’équation de sélection et l’équation d’intérêt, mais l’identification sera ténue à moins qu’il y ait de nombreuses observations dans les queues où il y a une non-linéarité substantielle dans le rapport de Mills inverse. Généralement, une restriction d’exclusion est nécessaire pour générer des estimations crédibles : il doit y avoir au moins une variable qui apparaît avec un coefficient non nul dans l’équation de sélection mais qui n’apparaît pas dans l’équation d’intérêt, essentiellement un instrument. Si aucune variable de ce type n’est disponible, il peut être difficile de corriger la sélectivité de l’échantillonnage.^[9]

Implémentations dans les packages de statistiques[[[[Éditer]

R : Des procédures de type Heckman sont disponibles dans le sampleSelection paquet.^[12]^[13]
Stata : la commande heckman fournit le modèle de sélection de Heckman.^[14]^[15]

Voir également[[[[Éditer]

Les références[[[[Éditer]

^ Winship, Christophe; Mare, Robert D. (1992). “Modèles pour le biais de sélection d’échantillon”. Revue annuelle de sociologie. 18: 327–350. est ce que je:10.1146/annurev.so.18.080192.001551.
^ Heckman, James (1974). “Prix fictifs, salaires du marché et offre de main-d’œuvre”. Économétrie. 42 (4): 679–694. est ce que je:10.2307/1913937.
^ Heckman, James (1976). “La structure commune des modèles statistiques de troncature, de sélection d’échantillons et de variables dépendantes limitées et un estimateur simple pour de tels modèles”. Annales de la mesure économique et sociale. 5 (4): 475–492.
^ Nawata, Kazumitsu (1994). “Estimation des modèles de biais de sélection d’échantillons par l’estimateur de vraisemblance maximale et l’estimateur en deux étapes de Heckman”. Lettres d’économie. 45 (1) : 33–40. est ce que je:10.1016/0165-1765(94)90053-1.
^ Uchitelle, Louis (12 octobre 2000). “2 Américains remportent le prix Nobel d’économie”. New York Times.
^ Lee, Lung-Fei (2001). “Auto-sélection”. Dans Baltagi, B. (éd.). Un compagnon à l’économétrie théorique. Oxford : Blackwell. p. 383–409. est ce que je:10.1002/9780470996249.ch19. ISBN 9780470996249.
^ Amemiya, Takeshi (1985). Économétrie avancée. Cambridge : Harvard University Press. pp. 368–372. ISBN 0-674-00560-0.
^ Cameron, A. Colin; En ligneTrivedi, Pravin K. (2005). « Estimation m séquentielle en deux étapes ». Microéconométrie : méthodes et applications. New York : Cambridge University Press. p. 200–202. ISBN 0-521-84805-9.
^ ^une ^b En lignePuhani, P. (2000). “La correction Heckman pour la sélection d’échantillons et sa critique”. Journal des études économiques. 14 (1) : 53–68. est ce que je:10.1111/1467-6419.00104.
^ En ligneGoldberger, A. (1983). “Biais de sélection anormal”. À Karlin, Samuel; Amemiya, Takeshi; Goodman, Leo (éd.). Études en économétrie, séries chronologiques et statistiques multivariées. New York : Presse académique. pp. 67–84. ISBN 0-12-398750-4.
^ Newey, Whitney ; Powell, J.; Walker, James R. (1990). “Estimation semi-paramétrique des modèles de sélection: quelques résultats empiriques”. Revue économique américaine. 80 (2): 324–328. JSTOR 2006593.
^ Toomet, O.; En ligneHenningsen, A. (2008). “Modèles de sélection d’échantillons dans R : Package sampleSelection”. Journal des logiciels statistiques. 27 (7) : 1–23. est ce que je:10.18637/jss.v027.i07.
^ “sampleSelection : Modèles de sélection d’échantillons”. Projet R. 3 mai 2019.
^ “Heckman – modèle de sélection Heckman” (PDF). Manuel de statistiques.
^ Cameron, A. Colin; En ligneTrivedi, Pravin K. (2010). Microéconométrie à l’aide de Stata (Éd. révisée). Station College : Stata Press. p. 556–562. ISBN 978-1-59718-073-3.

Lectures complémentaires[[[[Éditer]

En ligneAchen, Christopher H. (1986). “Estimation des effets du traitement dans les quasi-expériences : le cas des données censurées”. L’analyse statistique des quasi-expériences. Berkeley : Presse de l’Université de Californie. p. 97–137. ISBN 0-520-04723-0.
Breen, Richard (1996). Modèles de régression – Données censurées, échantillonnées sélectionnées ou tronquées. Mille Chênes : Sauge. p. 33–48. ISBN 0-8039-5710-6.
Fu, Vincent Kang; Winship, Christophe; Mare, Robert D. (2004). “Modèles de biais de sélection d’échantillons”. Dans Hardy, Mélissa ; Bryman, Alan (éd.). Manuel d’analyse des données. Londres : Sauge. p. 409–430. est ce que je:10.4135/9781848608184.n18. ISBN 0-7619-6652-8.
En ligneGreene, William H. (2012). “Troncation accidentelle et sélection d’échantillons”. Analyse économétrique (Septième éd.). Boston : Pearson. p. 912–27. ISBN 978-0-273-75356-8.
Vella, Francis (1998). “Modèles d’estimation avec biais de sélection d’échantillon: une enquête”. Journal des ressources humaines. 33 (1): 127-169. est ce que je:10.2307/146317. JSTOR 146317.

Liens externes[[[[Éditer]

[1] Winship, Christophe; Mare, Robert D. (1992). “Modèles pour le biais de sélection d’échantillon”. Revue annuelle de sociologie. 18: 327–350. est ce que je:10.1146/annurev.so.18.080192.001551.

[2] Heckman, James (1974). “Prix fictifs, salaires du marché et offre de main-d’œuvre”. Économétrie. 42 (4): 679–694. est ce que je:10.2307/1913937.

[3] Heckman, James (1976). “La structure commune des modèles statistiques de troncature, de sélection d’échantillons et de variables dépendantes limitées et un estimateur simple pour de tels modèles”. Annales de la mesure économique et sociale. 5 (4): 475–492.

[4] Nawata, Kazumitsu (1994). “Estimation des modèles de biais de sélection d’échantillons par l’estimateur de vraisemblance maximale et l’estimateur en deux étapes de Heckman”. Lettres d’économie. 45 (1) : 33–40. est ce que je:10.1016/0165-1765(94)90053-1.

[5] Uchitelle, Louis (12 octobre 2000). “2 Américains remportent le prix Nobel d’économie”. New York Times.

[6] Lee, Lung-Fei (2001). “Auto-sélection”. Dans Baltagi, B. (éd.). Un compagnon à l’économétrie théorique. Oxford : Blackwell. p. 383–409. est ce que je:10.1002/9780470996249.ch19. ISBN 9780470996249.

[7] Amemiya, Takeshi (1985). Économétrie avancée. Cambridge : Harvard University Press. pp. 368–372. ISBN 0-674-00560-0.

[8] Cameron, A. Colin; En ligneTrivedi, Pravin K. (2005). « Estimation m séquentielle en deux étapes ». Microéconométrie : méthodes et applications. New York : Cambridge University Press. p. 200–202. ISBN 0-521-84805-9.

[puhani-9] une ^b En lignePuhani, P. (2000). “La correction Heckman pour la sélection d’échantillons et sa critique”. Journal des études économiques. 14 (1) : 53–68. est ce que je:10.1111/1467-6419.00104.

[10] En ligneGoldberger, A. (1983). “Biais de sélection anormal”. À Karlin, Samuel; Amemiya, Takeshi; Goodman, Leo (éd.). Études en économétrie, séries chronologiques et statistiques multivariées. New York : Presse académique. pp. 67–84. ISBN 0-12-398750-4.

[11] Newey, Whitney ; Powell, J.; Walker, James R. (1990). “Estimation semi-paramétrique des modèles de sélection: quelques résultats empiriques”. Revue économique américaine. 80 (2): 324–328. JSTOR 2006593.

[12] Toomet, O.; En ligneHenningsen, A. (2008). “Modèles de sélection d’échantillons dans R : Package sampleSelection”. Journal des logiciels statistiques. 27 (7) : 1–23. est ce que je:10.18637/jss.v027.i07.

[13] “sampleSelection : Modèles de sélection d’échantillons”. Projet R. 3 mai 2019.

[14] “Heckman – modèle de sélection Heckman” (PDF). Manuel de statistiques.

[15] Cameron, A. Colin; En ligneTrivedi, Pravin K. (2010). Microéconométrie à l’aide de Stata (Éd. révisée). Station College : Stata Press. p. 556–562. ISBN 978-1-59718-073-3.

Inférence statistique[[[[Éditer]

Désavantages[[[[Éditer]

Implémentations dans les packages de statistiques[[[[Éditer]

Voir également[[[[Éditer]

Les références[[[[Éditer]

Lectures complémentaires[[[[Éditer]

Liens externes[[[[Éditer]

A découvrir

Mème : Maintenant que je prends de...

Téléchargement gratuit du navigateur Google Chrome –...

Conseils de survie dans le désert de...