Qu’est-ce que l’analyse de survie? Types d’analyse de survie et défis

 Qu’est-ce que l’analyse de survie? Types d’analyse de survie et défis


analyse de survie

L’analyse de survie peut être définie comme les méthodologies utilisées pour explorer le temps nécessaire pour qu’une occasion / un événement se produise. Un modèle de régression normal peut échouer dans l’analyse de la prédiction précise, car le «temps écoulé avant l’événement» n’est généralement pas distribué normalement et rencontre des problèmes de gestion de la censure (nous en discuterons plus tard) qui peuvent modifier le résultat prévu.

Contribué par: Utkarsh

L’idée de base que l’on obtient est qu’elle représente principalement les événements négatifs de sa vie / de son scénario. Par exemple, prédire la mort d’une personne, une rechute dans l’état de santé d’une personne, un taux de désabonnement d’un employé dans une organisation ou une panne de machine.

Cependant, cette méthodologie peut également être utilisée pour prédire les événements positifs dans la vie des sujets, tels que l’obtention d’un emploi après l’obtention du diplôme, le mariage, l’achat d’une maison ou d’un nouveau produit comme une voiture.

Dans cet article, nous traiterons de l’exemple de l’analyse de survie Time-to-Event et non par des exemples impliquant des décès ou une maladie grave.

Les deux aspects importants sur lesquels cette analyse doit être fondée sont:

  1. Quand 🡪 heure à laquelle l’analyse a commencé
  2. Si l’événement s’est produit ou a échoué

L’exemple à travers lequel ce scénario peut être expliqué est quand une personne achètera-t-elle une voiture après avoir obtenu un emploi?

Il faut toujours s’assurer d’inclure les cas où les chances que des événements se produisent sont égales pour tous les sujets. Autrement dit, tous les sujets que nous choisissons d’impliquer dans notre analyse doivent avoir l’idée d’acheter un poste de voiture pour obtenir un emploi.

Dans le scénario habituel, une personne est censée acheter quelques articles de luxe dans sa vie après avoir commencé à gagner et une voiture est un article de luxe important et courant à rechercher de nos jours.

Quatre types de méthodologies sont suivis pour réaliser ces analyses:

  1. Origine du temps
  2. Événement
  3. Échelle de temps
  4. Time-to-event (TTE)
  1. Origine du temps – C’est le moment où commence le temps de suivi. Dans le scénario ci-dessus, obtenir un emploi serait défini comme une «origine temporelle».
  2. Événement – c’est l’occurrence d’une activité bien définie. L’achat de la voiture serait un exemple d ‘«événement qui se passe».
  3. Échelle de temps – C’est essentiellement l’unité de temps dans laquelle nous ferons les prévisions ou l’analyse. Il doit être constant pour une analyse similaire. Dans notre cas, nous prenons l’échelle de temps en années.
  4. Time-to-event – C’est le temps nécessaire pour qu’un événement se produise ou se termine.

Ce délai d’événement aura toujours une valeur supérieure ou égale à «Zéro».

Cela signifierait que dès que la personne obtient le poste, elle achèterait une voiture

  • Lorsque la valeur de TTE = Infinity ou ∞

Cela signifierait que la personne n’a jamais acheté une voiture après avoir obtenu un emploi ou peut l’avoir achetée après l’intervalle de temps / temps d’observation prédéfini

Remarque: il n’est pas nécessaire que tous les sujets entrent dans l’étude en même temps. Ils sont ensuite amenés à un point de départ commun où le temps

Le temps d’entrée ici est ramené à un point commun

Disons que l’intervalle de temps prédéfini que nous avons fixé pour ce problème est de dix ans. Nous n’aurions donc pas les données «voiture achetée» pour deux sujets (sujets 3 et 5) dans l’exemple de graphique ci-dessus, car ils n’ont pas acheté la voiture dans le laps de temps observé.

Il peut y avoir quelques cas où l’origine temporelle est inconnue pour certains sujets ou les sujets peuvent venir au départ mais chuter entre les deux. Ces anomalies sont ensuite traitées à travers le concept de «censure».

La censure

L’un des plus grands défis auxquels fait face l’analyse de survie est que quelques sujets ne vivraient pas l’événement dans le délai observé donné. Par conséquent, leurs temps de survie ne seront pas connus du chercheur. Il peut y avoir des cas où le sujet vit un événement différent, ce qui rend en outre impossible le suivi. Par exemple, après quelques années, certains des sujets quittent leur emploi (avant d’acheter une voiture) pour créer leur propre entreprise ou poursuivre des études supérieures. Et donc, choisissez de ne pas acheter une voiture sous peu.

L’inclusion des données censurées est un aspect essentiel car elle équilibre les biais dans les prévisions.

Types de censure

  1. Censure à droite: Si l’événement se produit au-delà de l’heure prédéfinie, les données sont considérées comme censurées à droite. C’est de loin le type de censure le plus courant
  2. Censure gauche: Cela se produit lorsqu’un sujet est connu pour avoir eu l’événement avant le début de l’observation, mais l’heure exacte de l’événement est obscure.
  3. Censure d’intervalle: Cela se produit lorsque l’événement est observé dans le temps prédéfini, mais nous ne savons pas exactement quand l’événement s’est produit.

Hypothèses en matière de censure

Avant de discuter du sujet mentionné, il est nécessaire de discuter des deux facteurs clés, la censure informative et non informative.

La censure informative se produit lorsque les sujets sont perdus pour des raisons liées à l’étude.

La censure non informative se produit lorsque les sujets sont perdus pour des raisons non liées à l’étude. Par exemple, certains sujets, après quelques années, refusent d’acheter leur voiture, même s’ils peuvent se le permettre.

Maintenant, revenons aux hypothèses –

  1. Les sujets censurés ont la même probabilité de vivre l’événement que les sujets qui font toujours partie de l’étude.
  2. Les événements pour chaque sujet sont indépendants les uns des autres.
  3. Les sujets qui se joignent tôt ont les mêmes probabilités de survie que ceux qui rejoignent l’étude tardivement.
  4. Il devrait y avoir suffisamment de temps et de nombre d’événements dans l’étude.

Fonctions utilisées dans l’analyse de survie

  • Fonction de survie S
    • Fonction de densité de probabilité F
      • Fonction de danger h
        • Fonction de danger cumulé H

          Connaître la valeur de l’une de ces fonctions aboutirait finalement à connaître la valeur des autres fonctions.

          1. S

            En fonction de l’objectif de l’analyse time-to-event, différentes approches de modélisation peuvent être utilisées.

            1. Modèles non paramétriques – Ils ne nécessitent pas d’hypothèses sur la forme du danger ou de la survie. Ces tests peuvent vérifier si la survie diffère entre les sous-populations. Les principales limites de cette approche sont que (i) seules les covariables catégorielles peuvent être testées, et (ii) la façon dont la survie est affectée par la covariable ne peut pas être évaluée.
            2. Modèles semi-paramétriques (modèles Cox) – Ils supposent que l’aléa peut être écrit comme un aléa de base (qui ne dépend que du temps), multiplié par un terme qui ne dépend que des covariables (et non du temps). Dans cette hypothèse d’effet de covariable proportionnel, on peut analyser l’effet des covariables (catégoriques et continues) de manière paramétrique, en laissant le risque de base indéfini.
            3. Modèles paramétriques – Il est nécessaire de spécifier pleinement la fonction de danger dans ces modèles. Si un bon modèle peut être trouvé, les tests statistiques sont plus puissants que pour les modèles semi-paramétriques. De plus, il n’y a aucune restriction sur la façon dont les covariables affectent le risque. Les modèles paramétriques peuvent également être facilement utilisés pour les prédictions.

            Définition de la covariable – Les covariables sont des caractéristiques (à l’exclusion de la traitement) des sujets d’une expérience. Dans notre exemple, la principale caractéristique qui peut affecter l’achat d’une voiture est le salaire. Cependant, en dehors de ce facteur principal, les autres facteurs peuvent être le mode de vie d’une personne après son emploi, une région où elle vit, si elle a un type de prêt à rembourser, etc.

            L’importance d’ajouter les covariables dans notre analyse est qu’elles peuvent augmenter la précision de toute prédiction.

            Le tableau ci-dessous intègre les opportunités pour les 3 méthodologies / approches.

            Estimateur Kaplan-Meier: Il s’agit de l’approche non paramétrique la plus courante et est également connue sous le nom d’estimateur de limite de produit. Il est utilisé pour estimer la fonction de survie à partir des données de durée de vie.

            La courbe de Kaplan-Meier montre la fonction de survie estimée en traçant les probabilités de survie estimées en fonction du temps.

            L’estimateur de la fonction de survie S

            avec ti étant un moment où au moins un événement s’est produit, dje le nombre d’événements (par exemple, des sujets qui ont acheté une voiture) qui se sont produits au moment tje et nje, les sujets connus pour avoir survécu (n’ont pas encore eu d’événement ou été censurés) jusqu’au moment tje.

            L’hypothèse principale de cette méthode est que les sujets ont la même probabilité de survie quel que soit le moment où ils ont été étudiés.

            Un graphique de l’estimateur de Kaplan – Meier est une série d’étapes horizontales décroissantes qui, avec une taille d’échantillon suffisamment grande, se rapproche de la véritable fonction de survie pour cette population. Ce graphique peut être utilisé facilement pour estimer la médiane ainsi que les quartiles du temps de survie.

            Estimateur Nelson – Aalen: C’est un estimateur non paramétrique du taux de risque cumulé fonction en cas de censuré ou des données incomplètes. Il est utilisé dans la théorie de la survie pour estimer le nombre cumulé d’événements attendus.

            L’estimateur est donné par-

            Avec dje le nombre d’événements au temps tje et nje le nombre total d’individus à risque à tje.

            La courbure de l’estimateur de Nelson – Aalen donne une idée de la forme du taux de risque.

            Tests basés sur le rang peut également être utilisé pour tester statistiquement la différence entre les courbes de survie. Ces tests comparent le nombre d’événements observés et attendus à chaque point dans le temps entre les groupes, sous l’hypothèse nulle que les fonctions de survie sont égales entre les groupes. Deux des tests basés sur le rang les plus largement reconnus dans l’écriture sont le test du log rank, qui donne à chaque point dans le temps un poids équivalent, et le test de Wilcoxon, qui charge chaque point dans le temps en fonction de la quantité de sujets en danger. Compte tenu de ce poids, le test de Wilcoxon est plus délicat aux contrastes entre courbes au début de l’analyse de survie, lorsque davantage de sujets sont en danger.

            Cela nous amène à la fin du blog sur l’analyse de survie. Nous espérons que vous avez trouvé cela utile! Vous pouvez améliorer vos compétences avec Cours en ligne gratuits de la Great Learning Academy aujourd’hui.

            Lire aussi:
            Comprendre la distribution et la définition des probabilités
            Qu’est-ce que l’unité linéaire rectifiée (ReLU)? | Introduction à la fonction d’activation ReLU

            2



Source de l’article

A découvrir