Échantillonnage en grappes — Wikipédia

 Échantillonnage en grappes — Wikipédia

En statistiques, Échantillonnage en grappes est un plan d’échantillonnage utilisé lorsque des groupements mutuellement homogènes mais internes hétérogènes sont évidents dans une population statistique. Il est souvent utilisé dans les études de marché. Dans ce plan d’échantillonnage, la population totale est divisée en ces groupes (appelés grappes) et un échantillon aléatoire simple des groupes est sélectionné. Les éléments de chaque grappe sont ensuite échantillonnés. Si tous les éléments de chaque grappe échantillonnée sont échantillonnés, on parle alors de plan d’échantillonnage en grappes « à une étape ». Si un sous-échantillon aléatoire simple d’éléments est sélectionné dans chacun de ces groupes, on parle de plan d’échantillonnage en grappes « à deux degrés ». Une motivation commune pour l’échantillonnage en grappes est de réduire le nombre total d’entretiens et les coûts compte tenu de la précision souhaitée. Pour une taille d’échantillon fixe, l’erreur aléatoire attendue est plus petite lorsque la majeure partie de la variation de la population est présente à l’intérieur des groupes, et non entre les groupes.

Éléments de cluster[[[[Éditer]

La population au sein d’un cluster devrait idéalement être aussi hétérogène que possible, mais il devrait y avoir une homogénéité entre les clusters. Chaque grappe doit être une représentation à petite échelle de la population totale. Les clusters doivent être mutuellement exclusifs et collectivement exhaustifs. Une technique d’échantillonnage aléatoire est ensuite utilisée sur toutes les grappes pertinentes pour choisir les grappes à inclure dans l’étude. Dans l’échantillonnage en grappes à un degré, tous les éléments de chacune des grappes sélectionnées sont échantillonnés. Dans l’échantillonnage en grappes à deux degrés, une technique d’échantillonnage aléatoire est appliquée aux éléments de chacune des grappes sélectionnées.

La principale différence entre l’échantillonnage en grappes et l’échantillonnage stratifié est que dans l’échantillonnage en grappes, la grappe est traitée comme l’unité d’échantillonnage, de sorte que l’échantillonnage est effectué sur une population de grappes (au moins au premier degré). Dans l’échantillonnage stratifié, l’échantillonnage est effectué sur des éléments à l’intérieur de chaque strate. Dans l’échantillonnage stratifié, un échantillon aléatoire est tiré de chacune des strates, tandis que dans l’échantillonnage en grappes, seules les grappes sélectionnées sont échantillonnées. Une motivation commune de l’échantillonnage en grappes est de réduire les coûts en augmentant l’efficacité de l’échantillonnage. Cela contraste avec l’échantillonnage stratifié où la motivation est d’augmenter la précision.

Il existe également un échantillonnage en grappes à plusieurs degrés, où au moins deux degrés sont pris pour sélectionner les éléments des grappes.

Lorsque les clusters sont de tailles différentes[[[[Éditer]

Sans modifier le paramètre estimé, l’échantillonnage en grappes est sans biais lorsque les grappes ont approximativement la même taille. Dans ce cas, le paramètre est calculé en combinant tous les clusters sélectionnés. Lorsque les clusters sont de tailles différentes, plusieurs options s’offrent à vous :

Une méthode consiste à échantillonner des grappes, puis à étudier tous les éléments de cette grappe. Une autre méthode est une méthode en deux étapes d’échantillonnage d’une proportion fixe d’unités (que ce soit 5 % ou 50 %, ou un autre nombre, selon des considérations de coût) à partir de chacune des grappes sélectionnées. Le fait de se fier à l’échantillon tiré de ces options produira un estimateur sans biais. Cependant, la taille de l’échantillon n’est plus fixée à l’avance. Cela conduit à une formule plus compliquée pour l’erreur type de l’estimateur, ainsi qu’à des problèmes avec l’optique du plan d’étude (puisque l’analyse de puissance et les estimations de coûts se rapportent souvent à une taille d’échantillon spécifique).

Une troisième solution possible consiste à utiliser un échantillonnage de probabilité proportionnelle à la taille. Dans ce plan d’échantillonnage, la probabilité de sélectionner une grappe est proportionnelle à sa taille, de sorte qu’une grande grappe a une plus grande probabilité de sélection qu’une petite grappe. L’avantage ici est que lorsque les grappes sont sélectionnées avec une probabilité proportionnelle à la taille, le même nombre d’entretiens doit être réalisé dans chaque grappe échantillonnée de sorte que chaque unité échantillonnée ait la même probabilité de sélection.

Applications de l’échantillonnage en grappes[[[[Éditer]

Un exemple d’échantillonnage en grappes est l’échantillonnage aréolaire ou l’échantillonnage géographique en grappes. Chaque cluster est une zone géographique. Parce qu’une population géographiquement dispersée peut être coûteuse à enquêter, une plus grande économie qu’un simple échantillonnage aléatoire peut être réalisée en regroupant plusieurs répondants au sein d’une zone locale dans un cluster. Il est généralement nécessaire d’augmenter la taille totale de l’échantillon pour obtenir une précision équivalente dans les estimateurs, mais des économies de coûts peuvent rendre possible une telle augmentation de la taille de l’échantillon.

L’échantillonnage en grappes est utilisé pour estimer les taux de mortalité élevés dans des cas tels que les guerres, les famines et les catastrophes naturelles.[1]

Avantage[[[[Éditer]

  • Peut être moins cher que d’autres plans d’échantillonnage – par ex. moins de frais de déplacement, frais d’administration.
  • Faisabilité : Ce plan d’échantillonnage prend en compte de grandes populations. Étant donné que ces groupes sont si grands, le déploiement de tout autre plan d’échantillonnage serait très coûteux.
  • Économie : Les deux principales préoccupations habituelles des dépenses, à savoir les déplacements et l’inscription, sont considérablement réduites dans cette méthode. Par exemple : La compilation d’informations de recherche sur chaque ménage d’une ville serait très coûteuse, alors que la compilation d’informations sur divers blocs de la ville serait plus économique. Ici, les déplacements ainsi que les efforts de référencement seront considérablement réduits.
  • Variabilité réduite : dans le cas rare d’une corrélation intraclasse négative entre les sujets au sein d’une grappe, les estimateurs produits par l’échantillonnage en grappes produiront des estimations plus précises que les données obtenues à partir d’un échantillon aléatoire simple (c’est-à-dire que l’effet de plan sera inférieur à 1). Ce n’est pas un scénario commun.

Utilisation majeure : lorsque la base de sondage de tous les éléments n’est pas disponible, nous pouvons recourir uniquement à l’échantillonnage en grappes.

Désavantage[[[[Éditer]

  • Erreur d’échantillonnage plus élevée, qui peut être exprimée par l’effet de plan : le rapport entre la variance d’un estimateur réalisé à partir des échantillons de l’étude en grappes et la variance d’un estimateur obtenu à partir d’un échantillon de sujets dans une étude non en grappes tout aussi fiable, échantillonnée au hasard .[2] Plus la corrélation intraclasse est grande entre les sujets au sein d’une grappe, plus l’effet de plan s’aggrave (c’est-à-dire plus il augmente à partir de 1. Ce qui indique une augmentation attendue plus importante de la variance de l’estimateur). En d’autres termes, plus il y a d’hétérogénéité entre clusters et d’homogénéité entre sujets au sein d’un cluster, moins nos estimateurs sont précis. En effet, dans de tels cas, il est préférable d’échantillonner autant de grappes que possible et de se contenter d’un petit échantillon de sujets de chaque grappe (c’est-à-dire un échantillonnage en grappes à deux degrés).
  • Complexité. Les échantillonnages en grappes sont plus sophistiqués et nécessitent plus d’attention sur la façon de planifier et sur la façon d’analyser (c’est-à-dire: prendre en compte les poids des sujets lors de l’estimation des paramètres, des intervalles de confiance, etc.)

En savoir plus sur l’échantillonnage en grappes[[[[Éditer]

Échantillonnage en grappes à deux degrés[[[[Éditer]

L’échantillonnage en grappes à deux degrés, un cas simple d’échantillonnage à plusieurs degrés, est obtenu en sélectionnant des échantillons de grappes au premier degré, puis en sélectionnant un échantillon d’éléments de chaque grappe échantillonnée. Considérons une population de N grappes au total. Dans la première étape, m les grappes sont sélectionnées à l’aide de la méthode d’échantillonnage en grappes ordinaire. Dans la deuxième étape, un échantillonnage aléatoire simple est généralement utilisé.[3] Il est utilisé séparément dans chaque cluster et les nombres d’éléments sélectionnés dans différents clusters ne sont pas nécessairement égaux. Le nombre total de clusters N, nombre de clusters sélectionnés m, et le nombre d’éléments des grappes sélectionnées doit être prédéterminé par le concepteur de l’enquête. L’échantillonnage en grappes à deux degrés vise à minimiser les coûts d’enquête et en même temps à contrôler l’incertitude liée aux estimations d’intérêt.[4] Cette méthode peut être utilisée en sciences de la santé et en sciences sociales. Par exemple, les chercheurs ont utilisé un échantillonnage en grappes à deux degrés pour générer un échantillon représentatif de la population irakienne afin de mener des enquêtes sur la mortalité.[5] L’échantillonnage dans cette méthode peut être plus rapide et plus fiable que d’autres méthodes, c’est pourquoi cette méthode est maintenant fréquemment utilisée.

Inférence lorsque le nombre de clusters est petit[[[[Éditer]

Les méthodes d’échantillonnage en grappes peuvent entraîner un biais important lorsqu’on travaille avec un petit nombre de grappes. Par exemple, il peut être nécessaire de regrouper au niveau de l’État ou de la ville des unités qui peuvent être petites et en nombre fixe. Les méthodes microéconométriques pour les données de panel utilisent souvent des panels courts, ce qui revient à avoir peu d’observations par cluster et de nombreux clusters. Le problème des petits clusters peut être considéré comme un problème de paramètre accessoire.[6] Bien que les estimations ponctuelles puissent être estimées avec une précision raisonnable, si le nombre d’observations par cluster est suffisamment élevé, nous avons besoin du nombre de clusters pour que les asymptotiques entrent en jeu. Si le nombre de clusters est faible, la matrice de covariance estimée peut être biaisée vers le bas.[7]

Un petit nombre de clusters est un risque lorsqu’il existe une corrélation sérielle ou lorsqu’il existe une corrélation intraclasse comme dans le contexte Moulton. Lorsque nous avons peu de grappes, nous avons tendance à sous-estimer la corrélation en série entre les observations lorsqu’un choc aléatoire se produit, ou la corrélation intraclasse dans un cadre Moulton.[8] Plusieurs études ont mis en évidence les conséquences de la corrélation sérielle et mis en évidence le problème des petits clusters.[9][10]

Dans le cadre du facteur de Moulton, une explication intuitive du problème des petits clusters peut être dérivée de la formule du facteur de Moulton. Supposons pour simplifier que le nombre d’observations par cluster est fixé à m. Au dessous de, représente la matrice de covariance ajustée pour le clustering, représente la matrice de covariance non ajustée pour le clustering, et représente la corrélation intraclasse :

Le ratio sur le côté gauche fournit une indication de combien le scénario non ajusté surestime la précision. Par conséquent, un nombre élevé signifie un fort biais à la baisse de la matrice de covariance estimée. Un petit problème de cluster peut être interprété comme un grand n : lorsque les données sont fixes et que le nombre de clusters est faible, le nombre de données au sein d’un cluster peut être élevé. Il s’ensuit que l’inférence lorsque le nombre de grappes est petit n’aura pas une couverture correcte.[8]

Plusieurs solutions au problème des petits clusters ont été proposées. On peut utiliser une matrice de variance robuste en grappes corrigée du biais, effectuer des ajustements de distribution T ou utiliser des méthodes de bootstrap avec des raffinements asymptotiques, tels que le percentile-t ou le bootstrap sauvage, qui peuvent conduire à une meilleure inférence d’échantillon fini.[7] Cameron, Gelbach et Miller (2008) fournissent des microsimulations pour différentes méthodes et constatent que le bootstrap sauvage fonctionne bien face à un petit nombre de grappes.[11]

Voir également[[[[Éditer]

Les références[[[[Éditer]

  1. ^ David Brown, Une étude affirme que le nombre de morts « excédentaires » en Irak a atteint 655 000, Washington Post, mercredi 11 octobre 2006. Consulté le 14 septembre 2010.
  2. ^ Kerry et Bland (1998). Notes statistiques : Le coefficient de corrélation intra-cluster dans la randomisation des clusters. Journal médical britannique, 316, 1455-1460.
  3. ^ Ahmed, Saifuddin (2009). Méthodes dans les enquêtes par sondage (PDF). L’Université Johns Hopkins et Saifuddin Ahmed.
  4. ^ Daniel Pfeffermann ; C. Radhakrishna Rao (2009). Handbook of Statistics Vol.29A Sample Surveys: Theory, Methods and Infernece. ISBN Elsevier B.V. 978-0-444-53124-7.
  5. ^ LP Galway; Nathaniel Bell ; Al S SAE; Amy Hagopian ; Gilbert Burnham ; Abraham Flaxman ; Guillaume M Weiss ; Julie Rajaratnam; Tim K Takaro (27 avril 2012). « Une méthode d’échantillonnage en grappes en deux étapes utilisant des données de population maillées, un SIG et des images Google EarthTM dans une enquête sur la mortalité basée sur la population en Irak ». Revue internationale de géographie de la santé. 11: 12. doi:10.1186/1476-072X-11-12. PMC 3490933. PMID 22540266.
  6. ^ Cameron A. C. et P. K. Trivedi (2005) : Microeconometrics : Methods and Applications. Cambridge University Press, New York.
  7. ^ une b Cameron, C. et D. L. Miller (2015) : A Practitioner’s Guide to Cluster-Robust Inference. Journal des ressources humaines 50(2), pp. 317-372.
  8. ^ une b Angrist, J.D. et J.-S. Pischke (2009) : Économétrie principalement inoffensive. Le compagnon d’un empiriste. Princeton University Press, New Jersey.
  9. ^ Bertrand, M., E. Duflo et S. Mullainathan (2004) : À quel point devrions-nous faire confiance aux estimations des différences de différences ? Journal trimestriel d’économie 119 (1), p. 249-275.
  10. ^ Kezdi, G. (2004) : Estimation d’erreur standard robuste dans les modèles de panneaux à effets fixes. Revue statistique hongroise 9, pp. 95–116.
  11. ^ Cameron, C., J. Gelbach et D. L. Miller (2008) : Améliorations basées sur le bootstrap pour l’inférence avec des erreurs groupées. The Review of Economics and Statistics 90, pp. 414-427.



Source de l’article

A découvrir