Analyse de survie – Partie A. L’analyse de survie est utilisée pour estimer… | par Taimur Zahid
Une introduction aux concepts de Survival Analysis et à son implémentation dans le package lifelines pour Python.
L’analyse de survie est utilisée pour estimer la durée de vie d’une population particulière à l’étude. C’est also appelé Analyse «Time to Event» car le but est d’estimer le temps dont dispose un individu ou un groupe d’individus pour vivre un événement d’intérêt. Cette estimation de temps est la durée entre les événements de naissance et de décès[1]. L’analyse de survie a été initialement développée et utilisée par des chercheurs médicaux et des analystes de données pour mesurer la durée de vie d’une certaine population.[1]. Mais, au fil des ans, il a été utilisé dans diverses autres applications telles que la prédiction du taux de désabonnement des clients / employés, l’estimation de la durée de vie d’une machine, etc. L’événement de naissance peut être considéré comme le moment où un client commence son adhésion avec un société, et l’événement de décès peut être considéré comme le client quittant l’entreprise.
Dans l’analyse de survie, nous n’avons pas besoin des points de départ et des points d’arrivée exacts. Toutes les observations ne partent pas toujours de zéro. Un sujet peut entrer à tout moment dans l’étude. Toutes les durées sont relatives[7]. Tous les sujets sont ramenés à un point de départ commun où le temps t est nul (t = 0) et tous les sujets ont des probabilités de survie égales à un, c’est-à-dire que leurs chances de ne pas vivre l’événement d’intérêt (décès, churn, etc.) sont 100%.
Il peut se produire des situations où le volume des données empêche leur utilisation complète dans l’analyse de survie. Dans de telles situations, l’échantillonnage stratifié peut aider. Dans l’échantillonnage stratifié, votre objectif est d’avoir un nombre égal ou presque égal de sujets de chaque groupe de sujets dans l’ensemble de la population. Chaque groupe est appelé une strate. La population entière est stratifiée (divisée) en groupes en fonction de certaines caractéristiques. Désormais, pour sélectionner un certain nombre de sujets dans chaque groupe, vous pouvez utiliser l’échantillonnage aléatoire simple. Le nombre total de sujets est spécifié au début et vous répartissez le nombre total requis entre chaque groupe et vous choisissez ce nombre de sujets au hasard dans chaque groupe[12].
Il est important de comprendre que tous les membres de la population ne connaîtront pas l’événement d’intérêt (décès, taux de désabonnement, etc.) pendant la période d’étude. Par exemple, il y aura des clients qui sont encore membres de l’entreprise, ou des employés travaillant encore pour l’entreprise, ou des machines qui fonctionnent encore pendant la période d’observation / d’étude. Nous ne savons pas quand ils connaîtront l’événement d’intérêt au moment de l’étude. Tout ce que nous savons, c’est qu’ils ne l’ont pas encore vécu. Leurs temps de survie sont plus longs que leur temps dans l’étude. Leurs temps de survie sont donc qualifiés de «censurés»[2]. Cela indique que leurs temps de survie étaient coupés. Par conséquent, la censure vous permet de mesurer la durée de vie de la population qui n’a pas encore vécu l’événement qui vous intéresse.
Il est à noter que les personnes / sujets qui n’ont pas vécu l’événement d’intérêt doivent faire partie de l’étude, car les supprimer complètement fausserait les résultats en faveur de tous les participants à l’étude expérimentant l’événement d’intérêt. Nous ne pouvons donc pas ignorer ces membres et la seule façon de les distinguer de ceux qui ont vécu l’événement d’intérêt est d’avoir une variable qui indique la censure ou la mort (l’événement d’intérêt).
Il existe différents types de censure effectués dans l’analyse de survie, comme expliqué ci-dessous[3]. Notez que la censure doit être indépendante de la valeur future du danger pour ce sujet particulier [24].
- Censure juste: Cela se produit lorsque le sujet entre à t = 0, c’est-à-dire au début de l’étude et se termine avant que l’événement d’intérêt ne se produise. Cela peut être soit de ne pas vivre l’événement d’intérêt au cours de l’étude, c’est-à-dire qu’ils ont vécu plus longtemps que la durée de l’étude, soit de ne pas faire partie de l’étude complètement et de partir tôt sans éprouver l’événement d’intérêt, c’est-à-dire qu’ils sont partis et nous ne pouvait plus les étudier.
- Censure gauche: Cela se produit lorsque l’événement de naissance n’a pas été observé. Un autre concept connu sous le nom d’échantillonnage biaisé en longueur doit également être mentionné ici. Ce type d’échantillonnage se produit lorsque le but de l’étude est d’effectuer une analyse sur les personnes / sujets qui ont déjà vécu l’événement et que nous souhaitons voir s’ils le vivront à nouveau. Le package lifelines prend en charge les ensembles de données censurés à gauche en ajoutant le mot-clé left_censoring = Vrai. Notez que par défaut, il est défini sur False. Exemple[9]:
- Censure d’intervalle: Cela se produit lorsque la période de suivi, c’est-à-dire le temps entre les observations, est pas continu. Cela peut être hebdomadaire, mensuel, trimestriel, etc.
- Troncature à gauche: Il est appelé entrée tardive. Les sujets peuvent avoir vécu l’événement d’intérêt avant d’entrer dans l’étude. Il existe un argument nommé «entrée» qui spécifie la durée entre la naissance et l’entrée dans l’étude. Si nous remplissons la région tronquée, cela nous rendra trop confiants quant à ce qui se passe au début de la période après le diagnostic. C’est pourquoi nous les tronquons[9].
En bref, les sujets qui n’ont pas vécu l’événement d’intérêt pendant la période d’étude sont censurés à droite et les sujets dont la naissance n’a pas été vue sont censurés à gauche.[7]. L’analyse de survie a été développée pour résoudre principalement le problème de la censure à droite[7].
La fonction de survie est donnée par,
La fonction de survie définit la probabilité que l’événement d’intérêt ne se soit pas produit au temps t. Il peut également être interprété comme le probabilité de survie après le temps t [7]. Ici, T est la durée de vie aléatoire tirée de la population et il ne peut pas être négatif. Notez que S
Source de l’article