Un guide complet pour l’analyse de survie en Python, partie 1

 Un guide complet pour l’analyse de survie en Python, partie 1


Par Pratik Shukla, ingénieur en apprentissage automatique en herbe.

Bases de l’analyse de survie

Analyse de survie est un ensemble d’approches statistiques utilisées pour déterminer le temps nécessaire pour qu’un événement d’intérêt se produise. L’analyse de survie est utilisée pour étudier la temps jusqu’à ce que certains un événement d’intérêt (souvent appelé mort) se produit. Le temps peut être mesuré en années, mois, semaines, jours, etc. L’événement qui vous intéresse peut être quelque chose d’intéressant. Cela peut être un vrai décès, une naissance, une retraite, etc.

Comment peut-il être utile d’analyser les données sur la pandémie COVID-19 en cours?

(1) Nous pouvons trouver le nombre de jours avant que les patients ne présentent des symptômes du COVID-19.

(2) Nous pouvons trouver pour quel groupe d’âge il est le plus mortel.

(3) Nous pouvons trouver quel traitement a la probabilité de survie la plus élevée.

(4) Nous pouvons déterminer si le sexe d’une personne a un effet significatif sur sa durée de survie?

(5) On peut également trouver le nombre médian de jours de survie des patients.

Nous allons effectuer une analyse approfondie des patients atteints d’un cancer du poumon. Ne vous inquiétez pas une fois que vous aurez compris la logique derrière cela, vous pourrez l’exécuter sur n’importe quel ensemble de données. Excitant, non?

Analyse de survie est utilisé dans une variété de domaines tels que:

  • Études sur le cancer pour les analyses du temps de survie des patients.
  • Sociologie pour «l’analyse de l’histoire des événements».
  • En ingénierie pour «l’analyse des temps de défaillance».
  • Temps jusqu’à la panne du produit.
  • Délai avant une demande de garantie.
  • Temps jusqu’à ce qu’un processus atteigne un niveau critique.
  • Temps écoulé entre le contact commercial initial et une vente.
  • Temps écoulé entre l’embauche d’un employé et son licenciement ou son départ.
  • Temps écoulé entre l’embauche d’un vendeur et sa première vente.

Dans études sur le cancer, les questions de recherche typiques comprennent:

(1) Quel est l’impact de certaines caractéristiques cliniques sur la survie du patient? Par exemple, y a-t-il une différence entre le groupe de personnes dont le taux de sucre dans le sang est élevé et ceux qui n’en ont pas?

(2) Quelle est la probabilité qu’une personne survive à une période donnée (années, mois, jours)? Par exemple, étant donné un ensemble de patients cancéreux, nous pourrons dire que si 300 (nombre aléatoire) jours après le diagnostic de cancer a été passé, alors la probabilité que cette personne soit en vie à ce moment-là sera de 0,7 (nombre aléatoire ).

(3) Y a-t-il des différences de survie entre les groupes de patients? Par exemple, disons que deux groupes de personnes ont reçu un diagnostic de cancer. Ces 2 groupes ont reçu 2 types de traitements différents. Maintenant, notre objectif ici sera de savoir s’il existe une différence significative entre le temps de survie de ces 2 groupes différents en fonction du traitement qui leur a été administré.

Objectifs

Dans les études sur le cancer, la plupart des analyses de survie utilisent les méthodes suivantes.

(1) Parcelles de Kaplan-Meier pour visualiser les courbes de survie.

(2) Parcelles Nelson-Aalen pour visualiser le danger cumulé.

(3) Test de log-rank pour comparer les courbes de survie de deux ou plusieurs groupes

(4) Régression des risques proportionnels de Cox pour découvrir l’effet de différentes variables comme l’âge, le sexe, le poids sur la survie.

Concepts fondamentaux

Ici, nous commençons par définir les termes fondamentaux de l’analyse de survie, notamment:

  • Temps de survie et événement.
  • Censure des données.
  • Fonction de survie et fonction de danger.

Durée de survie et type d’événements dans les études sur le cancer

Temps de survie: fait référence à un laps de temps jusqu’à ce qu’un sujet soit vivant ou participe activement à une enquête.

Il existe principalement trois types d’événements, dont:

(1) Rechute: détérioration de l’état de santé d’une personne après une amélioration temporaire.

(2) Progression: le processus de développement ou d’évolution progressive vers un état plus avancé. (Amélioration de la santé.)

(3) Mort: la destruction ou la fin définitive de quelque chose.

Censurer

Comme mentionné ci-dessus, l’analyse de survie se concentre sur la survenue d’un événement d’intérêt (par exemple, naissance, décès, retraite). Mais il est toujours possible que l’événement ne soit pas observé pour diverses raisons. Ces observations sont appelées observations censurées.

La censure peut se produire des manières suivantes:

  1. Un patient n’a pas (encore) vécu l’événement d’intérêt (décès ou rechute dans notre cas) au cours de la période d’étude.
  2. Un patient n’est plus suivi.
  3. Si un patient déménage dans une autre ville, le suivi peut ne pas être possible pour le personnel de l’hôpital.

Ce type de censure, nommé censure à droite, est traité dans l’analyse de survie.

Il existe trois types généraux de censure, de censure à droite, de censure à gauche et de censure par intervalles.

Censurer juste: La mort de la personne.

Censure gauche: L’événement ne peut pas être observé pour une raison quelconque. Il inclut les événements survenus avant le début de l’expérience. (par exemple, le nombre de jours depuis la naissance lorsque l’enfant a commencé à marcher.)

Censure d’intervalle: Lorsque nous avons des données pour certains intervalles uniquement.

Fonctions de survie et de danger

Nous utilisons généralement deux probabilités liées pour analyser les données de survie.

(1) La probabilité de survie

(2) La probabilité de danger

Pour trouver la probabilité de survie, nous utiliserons la fonction de survie S

La probabilité de danger, notée h

Notez que, contrairement à la fonction de survivant, qui se concentre sur le fait de ne pas avoir d’événement, la fonction de danger se concentre sur l’événement qui se produit. Je pense que nous pouvons clairement voir qu’une probabilité de survie plus élevée et une probabilité de risque plus faible sont bonnes pour le patient.

Passons à la partie de codage cool!

Vous pouvez télécharger l’ensemble de données à partir de ici.

Description des données

Estimateur Kaplan-Meier

Le Estimateur de Kaplan – Meier est une statistique non paramétrique utilisée pour estimer la fonction de survie (probabilité qu’une personne survit) à partir de données sur la durée de vie. Dans la recherche médicale, il est souvent utilisé pour mesurer la fraction de patients vivant pendant un certain temps après le traitement. Par exemple, calculer la durée (année, mois, jour) pendant laquelle un patient a vécu après avoir reçu un diagnostic de cancer ou le début de son traitement. L’estimateur est nommé d’après Edward L. Kaplan et Paul Meier, qui ont chacun soumis des manuscrits similaires à la Journal de l’American Statistical Association.

La formule de Kaplan-Meier est la suivante:

La probabilité au temps ti, S (ti), est calculée comme suit:

Nous pouvons également l’écrire comme

Fonction de survie

Par exemple,

De manière plus généralisée, on peut dire que,

Fonction de survie simplifiée.

Par exemple, nous pouvons dire que,

Dans le prochain article, nous allons implémenter Kaplan-Meier Fitter et Nelson-Aalen Fitter en utilisant python.

Résultat final

À la fin de cette série en trois parties, vous pourrez tracer des graphiques comme celui-ci à partir desquels nous pouvons extrapoler sur la survie d’un patient. Tenir fermement!

Toute la série:

  • Un guide complet pour l’analyse de survie en Python, partie 1

    Cette série en trois parties couvre un examen avec des explications étape par étape et un code sur la façon d’effectuer une analyse statistique de survie utilisée pour étudier le temps qu’un événement prend pour se produire, comme la survie des patients pendant la pandémie COVID-19, le temps de l’échec des produits d’ingénierie, ou même le temps de conclure une vente après un premier contact client.

  • Un guide complet pour l’analyse de survie en Python, partie 2

    Nous examinons un exemple détaillé mettant en œuvre la théorie de l’ajustement de Kaplan-Meier ainsi que la théorie de l’ajustement de Nelson-Aalen, à la fois avec des exemples et du code partagé.

  • Un guide complet pour l’analyse de survie en Python, partie 3

    Nous examinons un exemple détaillé d’implémentation de l’installateur Kaplan-Meier basé sur différents groupes, un test Log-Rank et une régression de Cox, le tout avec des exemples et du code partagé.

Original. Republié avec permission.

Bio: Pratik Shukla est un ingénieur en apprentissage automatique en herbe qui aime présenter des théories complexes de manière simple. Pratik a poursuivi ses études de premier cycle en informatique et poursuit un programme de maîtrise en informatique à l’Université de Californie du Sud. « Viser la lune. Même si vous le manquez, vous atterrirez parmi les étoiles. – Les Brown »

En rapport:



Source de l’article

A découvrir