Comprendre l’estimateur de Kaplan-Meier (analyse de survie) | par Pratik Kumar

 Comprendre l’estimateur de Kaplan-Meier (analyse de survie) | par Pratik Kumar


Une introduction à l’une des techniques de l’analyse de survie.

Photo par Markus Spiske sur Unsplash

Il s’agit d’un ensemble d’opérations statistiques pour l’analyse de données pour lesquelles la variable d’intérêt est la suivante le temps jusqu’à ce qu’un événement se produise. Il peut s’agir d’un décès, de l’incidence d’une maladie, de la perte d’un client, d’un rétablissement, etc.

Elle est utilisée pour estimer la durée de vie d’une population particulière à l’étude.

Elle est également appelée Le temps de l’événement L’analyse de survie est utilisée pour comparer des groupes lorsque le temps est un facteur important. L’analyse de survie est utilisée pour comparer des groupes lorsque le temps est un facteur important. D’autres tests, comme la régression linéaire simple, permettent de comparer des groupes, mais ces méthodes ne tiennent pas compte du temps. Elle se concentre sur deux parties importantes de l’information, premièrement, que le participant subisse ou non l’événement d’intérêt pendant la période d’étude; deuxième, la durée du suivi pour chaque individu suivi.

L’analyse de survie se compose des parties suivantes :

  1. Données de survie
  2. Fonction de survie
  3. Méthode d’analyse

L’analyse de Kaplan-Meier mesure le temps de survie entre une certaine date et le moment du décès, de l’échec ou d’autres événements importants. Elle est également connue sous le nom de estimateur de limite de produit, qui est une statistique non paramétrique utilisée pour estimer la fonction de survie à partir de données sur la durée de vie.

Par exemple, il peut être utilisé pour calculer :

  • Combien de temps les gens restent-ils au chômage après une perte d’emploi ?
  • Combien de temps faut-il aux couples qui suivent un traitement de fertilité pour tomber enceinte ?
  • Temps de défaillance des pièces d’une machine.
  • Temps de survie après traitement. (dans Pratiques médicales)

Un graphique de l’estimateur de Kaplan-Meier est une série de pas horizontaux décroissants, qui se rapproche de la véritable fonction de survie pour cette population, compte tenu d’un échantillon de taille suffisante. L’estimation de Kaplan-Meier est souvent utilisée en raison de sa facilité d’utilisation supposée.

Par exemple, nous allons étudier la durée de vie des dirigeants politiques dans le monde. Un dirigeant politique, dans ce cas, est défini par la durée du mandat d’un seul individu qui contrôle le régime en place. L’événement de naissance est le début du mandat de l’individu, et l’événement de décès est la retraite de l’individu.

La censure peut se produire si,

  1. Toujours en fonction au moment de la compilation de l’ensemble de données (2008)
  2. Meurent alors qu’ils sont au pouvoir (y compris les assassinats).

Considérons les données suivantes (20 premières observations, à partir de 1808 observations),

Pour estimer la fonction de survie, nous allons d’abord utiliser l’estimation de Kaplan-Meier, définie :

où ‘d’ est le nombre d’événements de décès au temps ‘t’, et ‘n’ est le nombre de sujets à risque de décès juste avant le temps ‘t’.

Fonction de survie

Le graphique ci-dessus montre la fonction de survie utilisant l’estimateur de Kaplar-Meier pour les dirigeants politiques. L’axe des y représente la probabilité qu’un leader soit toujours en place après ‘t’ ans, où ‘t’ ans est sur l’axe des x. Nous constatons que très peu de dirigeants dépassent les 20 ans de mandat.

En outre, nous pouvons également segmenter les données en régimes politiques, comme le montre le graphique suivant,

Régimes mondiaux

Il est incroyable de constater combien de temps encore ces régimes non démocratiques existent ! Nous pouvons également le comprendre par la comparaison suivante entre pays,

En effectuant l’analyse de Kaplan-Meier, pour éviter les erreurs courantes, on peut garder à l’esprit ce qui suit,

  1. Pour faire des inférences sur ces probabilités de survie, nous avons besoin du test log-rank.
  2. Dichotomisez la variable afin que les valeurs soient classées comme faibles ou élevées. Le point de coupure médian est souvent utilisé pour séparer les groupes faible et élevé afin d’éviter des problèmes comme le test log-rank qui ne compare que la survie entre les groupes.
  3. Kaplan Meier est une méthode univariable. Cela signifie que les résultats de Kaplan Meier sont facilement biaisés, exagérant l’importance du pronostic, ou manquant complètement le signal.
  4. Il faut étudier la valeur ajoutée des nouveaux facteurs pronostiques, en quantifiant dans quelle mesure les nouveaux marqueurs améliorent les prédictions.

L’estimateur de Kaplan-Meier est largement utilisé en raison de sa simplicité et de sa facilité d’accès. Mais il faut faire attention lors de sa mise en œuvre, car il peut conduire à des résultats erronés, avec des hypothèses erronées.

  1. https://lifelines.readthedocs.io/en/latest/Quickstart.html
  2. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3932959/
  3. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3059453/
  4. Analyse complète en Python,



Source de l’article

A découvrir