Apprentissage profond pour l’analyse de survie

 Apprentissage profond pour l’analyse de survie

Auteurs : Laura Löschmann, Daria Smorodina


Table des matières

  1. Motivation – Analyse de rentabilisation
  2. Introduction à l’analyse de survie
  3. Base de données
  4. Méthodes standard en analyse de survie
  5. Apprentissage profond pour l’analyse de survie
  6. Évaluation
  7. Conclusion
  8. Les références

Avec la crise financière qui a frappé les États-Unis et l’Europe en 2008, l’International Accounting Standards Board (IASB) a décidé de réviser ses normes comptables pour les instruments financiers, par ex. prêts ou hypothèques pour combler les lacunes perçues qui auraient contribué à l’ampleur de la crise. Norme internationale d’information financière 9 qui a pris effet pour tous les exercices ouverts à compter du 1er janvier 2018 [1].

Auparavant, les pertes de valeur sur les actifs financiers n’étaient comptabilisées que dans la mesure où il existait une indication objective de dépréciation, ce qui signifie qu’un événement de perte devait se produire avant qu’une perte de valeur puisse être comptabilisée. [2]. Les nouvelles règles comptables pour les instruments financiers obligent les banques à constituer des provisions pour pertes attendues dans leur portefeuille de prêts. La provision pour pertes doit être comptabilisée avant que la perte de crédit réelle ne soit encourue. Il s’agit d’une approche plus prospective que son prédécesseur dans le but d’aboutir à une comptabilisation plus rapide des pertes de crédit [3].

Pour mettre en œuvre les nouvelles règles comptables, les banques doivent construire des modèles capables d’évaluer le risque d’un emprunteur aussi précisément que possible. Un paramètre clé du risque de crédit est la probabilité de défaut. Des techniques de classification telles que la régression logistique et les arbres de décision peuvent être utilisées afin de classer les prêts risqués des prêts non risqués. Ces techniques de classification ne tiennent cependant pas compte du moment du défaut. Grâce à l’utilisation de l’analyse de survie, des calculs plus précis des risques de crédit sont possibles, car cette analyse fait référence à un ensemble de techniques statistiques capables d’estimer le temps nécessaire pour qu’un client fasse défaut.


L’analyse de survie aussi appelée analyse du temps jusqu’à l’événement fait référence à l’ensemble d’analyses statistiques qui prend une série d’observations et tente d’estimer le temps qu’il faut pour qu’un événement d’intérêt se produise.

Le développement de l’analyse de survie remonte au XVIIe siècle avec la première table de mortalité jamais produite par le statisticien anglais John Graunt en 1662. Le nom « Analyse de survie » vient de l’application de longue date de ces méthodes car, au cours des siècles, elles étaient uniquement liées à l’enquête sur la mortalité. les taux. Cependant, au cours des dernières décennies, les applications des méthodes statistiques d’analyse de survie ont été étendues au-delà de la recherche médicale à d’autres domaines. [4].

L’analyse de survie peut être utilisée dans le domaine de l’assurance maladie pour évaluer les primes d’assurance. Cela peut être un outil utile pour la fidélisation de la clientèle, par ex. afin d’estimer le temps pendant lequel un client mettra probablement fin à son abonnement. Avec ces informations, l’entreprise peut intervenir avec des incitations suffisamment tôt pour fidéliser son client. La prédiction précise des désabonnements à venir se traduit par des campagnes très ciblées, limitant les ressources dépensées pour les clients qui seraient probablement restés de toute façon.
Les méthodes d’analyse de survie peuvent également être appliquées dans le domaine de l’ingénierie, par ex. pour estimer la durée de vie utile restante des machines.


2.1 Termes courants

L’analyse de survie est une collection de méthodes d’analyse de données avec la variable de résultat du temps d’intérêt jusqu’à l’événement. En général, l’événement décrit l’événement d’intérêt, également appelé événement de décès, le temps fait référence au moment de la première observation, également appelé événement de naissance, et le temps jusqu’à l’événement est le durée entre la première observation et le moment où l’événement se produit [5].
Les sujets dont les données ont été recueillies pour l’analyse de survie n’ont généralement pas le même moment de la première observation. Un sujet peut entrer dans l’étude à tout moment. Utiliser des durées assure une nécessaire relativité [6]. En référence à l’analyse de rentabilisation, l’événement de naissance est la comptabilisation initiale d’un prêt, l’événement de décès, par conséquent l’événement d’intérêt, décrit le temps de défaillance d’un client et la durée est le temps entre la comptabilisation initiale et l’événement de défaillance.

Pendant la période d’observation, tous les sujets ne connaîtront pas l’événement d’intérêt. Par conséquent, on ne sait pas si les sujets connaîtront l’événement d’intérêt à l’avenir. Le calcul de la durée, le temps écoulé entre la première observation et l’événement d’intérêt, est impossible. Ce type particulier de données manquantes peut apparaître pour deux raisons :

  1. Le sujet fait toujours partie de l’étude mais n’a pas encore connu l’événement d’intérêt.
  2. Le sujet a vécu un événement différent qui a également conduit à la fin de l’étude pour ce sujet.

Dans l’analyse de survie, ces données manquantes sont appelées la censure qui fait référence à l’incapacité d’observer la variable d’intérêt pour l’ensemble de la population. Cependant, la censure des données doit être prise en compte, abandonner les données non observées sous-estimerait la durée de vie des clients et biaiserait les résultats. Par conséquent, les sujets particuliers sont étiquetés censuré.

Étant donné que pour les sujets censurés, l’événement de décès n’a pas pu être observé, le type de censure est appelé censure à droite qui est la plus courante dans l’analyse de survie. Par opposition à cela, il y a une censure à gauche au cas où l’événement de naissance ne pourrait pas être observé.

La première raison des cas censurés concernant le cas d’utilisation sont les prêts qui ne sont pas encore arrivés à échéance et qui n’ont pas fait l’objet d’un défaut au moment de la collecte des données.

Le deuxième motif de censure concerne les prêts qui n’ont pas connu l’événement de défaut mais l’événement de remboursement anticipé. Avec cela le prêt est remboursé ce qui entraîne la fin de l’observation pour ce prêt. Ce type de censure est utilisé dans les modèles avec un événement d’intérêt [7].

En termes de différents domaines d’application, une détermination exacte de l’événement de naissance et de décès est vitale.
Vous trouverez ci-dessous quelques exemples d’événements de naissance et de décès ainsi que des cas de censure possibles, en plus du cas de censure général selon lequel l’événement d’intérêt ne s’est pas encore produit, pour divers cas d’utilisation dans l’industrie :




2.2 Fonction de survie

L’ensemble des méthodes statistiques liées à l’analyse de survie a pour objectif d’estimer la fonction de survie à partir des données de survie. La fonction de survie $S

$$S

$T$ est la durée de vie aléatoire tirée de la population étudiée et ne peut pas être négative. En ce qui concerne l’analyse de rentabilisation, il s’agit du temps pendant lequel un client est en mesure de payer ses taux de prêt, il n’est pas en défaut. La fonction de survie $S

Au début de l’étude ($t=0$), aucun sujet n’a encore vécu l’événement. Par conséquent, la probabilité $S(0)$ de survivre au-delà du temps zéro est de 1. $S(infty) = 0$ car si la période d’étude était illimitée, tout le monde finirait probablement par vivre l’événement d’intérêt et la probabilité de survivre finirait par tomber à 0. En théorie, la fonction de survie est lisse, en pratique les événements sont observés sur une échelle de temps concrète, par exemple jours, semaines, mois, etc., de sorte que le graphique de la fonction de survie ressemble à une fonction échelonnée [9].


(La source: [9a])

(La source: [9a])


2.3 Fonction de danger

Dérivée de la fonction de survie, la fonction de risque $h

$$h

Par conséquent, la fonction de risque modélise quelles périodes ont les chances les plus élevées ou les plus faibles d’un événement. Contrairement à la fonction de survie, la fonction de risque n’a pas besoin de commencer à 1 et de descendre à 0. Le taux de risque change généralement avec le temps. Il peut commencer n’importe où et monter et descendre au fil du temps. Par exemple, la probabilité de défaut de paiement d’une hypothèque peut être faible au début mais peut augmenter au cours de la durée de l’hypothèque.

(La source: [10a])

Le graphique ci-dessus est un exemple théorique pour une fonction de risque [11]. Cette fonction de risque spécifique est également appelée courbe de baignoire en raison de sa forme. Ce graphique montre la probabilité qu’un événement d’intérêt se produise au fil du temps.

Il pourrait décrire la probabilité qu’un client se désabonne d’un magazine au fil du temps. Dans les 30 premiers jours, le risque de se désinscrire est élevé, puisque le client teste le produit. Mais si le client aime le contenu, c’est-à-dire qu’il « survit » les 30 premiers jours, le risque de désabonnement diminue et stagne à un niveau inférieur. Après un certain temps, le risque augmente à nouveau car le client a peut-être besoin d’un apport différent ou s’est ennuyé avec le temps. Le graphique donne donc des informations importantes sur le moment d’initier des incitations pour les clients dont le risque de se désabonner est sur le point d’augmenter afin de les fidéliser.

L’objectif principal de l’analyse de survie est d’estimer et d’interpréter les fonctions de survie et/ou de risque à partir des données de survie.


Nous avons utilisé l’ensemble de données du monde réel de 50 000 emprunteurs hypothécaires américains qui a été fourni par International Financial Research (www.internationalfinancialresearch.org).
Les données sont présentées sous forme de « instantané » dans un format de panel et représentent une collection de portefeuilles de prêts hypothécaires résidentiels aux États-Unis sur 60 périodes. Le prêt peut commencer avant le début initial de cette étude et être payé une fois qu’elle sera également terminée.

Lorsqu’une personne demande un prêt hypothécaire, les prêteurs (banques) veulent connaître la valeur du risque qu’ils prendraient en prêtant de l’argent.
Dans l’ensemble de données donné, nous sommes en mesure d’inspecter ce processus en utilisant les informations clés des fonctionnalités suivantes :

  • Divers horodatages pour le montage du prêt, l’échéance future et la première apparition dans l’étude de survie.
  • Facteurs extérieurs comme le produit intérieur brut (PIB) ou les taux de chômage au moment de l’observation.
  • Indice de prix moyen au moment de l’observation.
  • Score FICO pour chaque individu : plus le score est élevé, plus le risque est faible (un « bon » score de crédit est considéré comme étant compris entre 670 et 739).
  • Taux d’intérêt pour chaque prêt émis.
  • Étant donné que notre objet d’analyse est les données hypothécaires, nous avons quelques informations sur les types de biens immobiliers recherchés (maison pour une seule famille ou non, cette propriété est-elle dans une zone de développement urbain, etc.) qui jouent également un rôle important pour le montant du prêt potentiel.

Afin d’utiliser nos données pour l’analyse de survie, nous devons spécifier les termes caractéristiques. le événement de naissance est le moment de la comptabilisation initiale de l’hypothèque, le événement de décès est la valeur par défaut du client. le durée est le temps entre l’événement de naissance et de décès. Certains clients n’ont pas encore fait défaut, ils seront donc étiquetés « censurés » dans une analyse plus approfondie.

Le graphique ci-dessous montre un exemple de concept de censure à un moment précis (13 mois).



Certains clients ont fait défaut avant ce moment (lignes rouges) et d’autres « ont survécu » au-delà (marqués de lignes bleues) et à ce stade, on ne sait pas si ces clients connaîtront l’événement d’intérêt.

Le traitement de ce type d’informations manquantes est l’un des principaux avantages de l’analyse de survie.
La répartition de l’événement d’intérêt (dans le graphique ci-dessous) montre que plus des 2/3 des clients sont étiquetés comme « censurés ». L’abandon de ces observations entraînerait une perte d’informations importante et un résultat biaisé.


L’analyse de survie nécessite un format de jeu de données spécifique :

  • $E_i$ est l’indicateur d’événement tel que $E_i = 1$, si un événement se produit, et $E_i = 0$ en cas de censure (colonne default_time)
  • $T_i$ est la durée observée (total_obs_time colonne)
  • $X_i$ est un vecteur de caractéristiques $p$-dimensionnel (covariables à partir de la troisième colonne).



Les méthodes standard d’estimation peuvent être classées en trois groupes principaux : non paramétrique, semi-paramétrique, et paramétrique approches. Le choix de la méthode à utiliser doit être guidé par la conception de l’ensemble de données et la question de recherche d’intérêt. Il est possible d’utiliser plusieurs approches.

  • Paramétrique Les méthodes reposent sur l’hypothèse que la distribution des temps de survie correspond à des distributions de probabilités spécifiques. Ce groupe comprend des méthodes telles que les distributions exponentielles, de Weibull et lognormales. Les paramètres à l’intérieur de ces modèles sont généralement estimés à l’aide de certaines estimations du maximum de vraisemblance.
  • Dans le non paramétrique méthodes, il n’y a pas de dépendances sur la forme des paramètres dans les distributions sous-jacentes. La plupart du temps, l’approche non paramétrique est utilisée pour décrire les probabilités de survie en fonction du temps et pour donner une vue moyenne de la population d’un individu. La méthode univariée la plus répandue est la estimateur de Kaplan-Meier et utilisé comme première étape dans l’analyse descriptive de la survie (section 4.1).
  • Au semi-paramétrique méthodes correspond à la Modèle de régression de Cox qui est basé à la fois sur des composantes paramétriques et non paramétriques (section 4.2).

Généralement, la gamme de méthodes statistiques disponibles qui peuvent être mises en œuvre dans l’analyse de survie est très étendue et une sélection d’entre elles est présentée dans le cadre de notre article de blog. Le schéma ci-dessous permet de les connaître brièvement :


(La source: [18])

(La source: [18])

4.1 Kaplan – estimateur Meier

L’idée clé de l’estimateur de Kaplan-Meier est de diviser l’estimation de la fonction de survie $S

$$ hat{S
où $n_i$ est un nombre d’individus à risque au moment $t_i$ et $d_i$ est un nombre de sujets qui ont vécu l’événement au moment $t_i$.

Lors de l’utilisation de l’estimateur de Kaplan-Meier, certaines hypothèses doivent être prises en compte :

  • Toutes les observations – à la fois censurées et par défaut – sont utilisées dans l’estimation.
  • Il n’y a pas d’effet de cohorte sur la survie, les sujets ont donc la même probabilité de survie quelle que soit leur nature et le moment de leur apparition dans l’étude.
  • Les individus censurés ont les mêmes probabilités de survie que ceux qui continuent d’être examinés.
  • La probabilité de survie est égale pour tous les sujets.

Le principal inconvénient de cette méthode est qu’elle ne peut pas estimer la probabilité de survie en considérant toutes les covariables dans les données (il s’agit d’un univarié approche) qui ne montre pas d’estimations individuelles mais la distribution globale de la survie de la population. En comparaison, les modèles semi- et paramétriques permettent d’analyser toutes les covariables et d’estimer $S

Le $S
A titre d’exemple, dans le graphique ci-dessous, il est clair que pour le temps $t = 10$ mois, la probabilité que les emprunteurs survivent au-delà de ce temps est d’environ 75 %.




4.2 Modèle à risques proportionnels de Cox

Le modèle de risques proportionnels de Cox (CoxPH) implique non seulement des caractéristiques de temps et de censure, mais également des données supplémentaires en tant que covariables (pour notre recherche, toutes les caractéristiques de l’ensemble de données ont été utilisées).

Le modèle à risques proportionnels de Cox (1972) est largement utilisé dans les statistiques de survie multivariées en raison d’une mise en œuvre relativement facile et d’une interprétation informative.
Il décrit les relations entre la distribution de la survie et les covariables. La variable dépendante est exprimée par la fonction de risque (ou l’intensité par défaut) comme suit :

  • Cette méthode est considérée comme semi-paramétrique : elle contient un ensemble paramétrique de covariables et une composante non paramétrique $lambda_{0}
  • Le deuxième composant est partial hazards ou alors hazard ratio et ils définissent l’effet de risque des covariables observées sur le risque de base $lambda_{0}
  • Ces composantes sont estimées par vraisemblance partielle et sont invariantes dans le temps.
  • En général, le modèle de Cox fait une estimation de la fonction de log-risque $lambda(t|x)$ comme une combinaison linéaire de ses covariables statiques et du risque de base.
Interprétation pratique de la régression de Cox :

Le signe d’aléas partiels (coef colonne) pour chaque covariable joue un rôle important. Un signe positif augmente le risque de base $lambda_{0}


Le composant essentiel du CoxPH est le hypothèse de proportionnalité: les fonctions de risque pour deux sujets restent proportionnelles à tout moment et le rapport de risque ne varie pas avec le temps. À titre d’exemple, si un client a un risque de défaut de remboursement lors d’une observation initiale qui est deux fois plus faible que celui d’un autre client, alors pour toutes les observations ultérieures, le risque de défaut de remboursement reste deux fois plus faible.

Par conséquent, des propriétés plus importantes du CoxPH peuvent être dérivées :

  • Les moments où les individus peuvent vivre l’événement d’intérêt sont indépendants les uns des autres.
  • Les courbes de risque d’un individu ne se croisent pas.
  • Il existe un effet linéaire multiplicatif des covariables estimées sur la fonction de risque.

Cependant, pour l’ensemble de données donné, cette propriété de proportionnalité ne tient pas en raison d’une violation de certaines covariables. Certaines méthodes supplémentaires peuvent surmonter cette violation :

  • La première consiste à regrouper ces variables en intervalles plus petits et à les stratifier. On garde dans le modèle les covariables qui n’obéissent pas à l’hypothèse proportionnelle. Le problème qui peut survenir dans ce cas est une perte d’information (puisque différentes valeurs sont maintenant regroupées).
  • Nous pouvons étendre les données variables dans le temps et appliquer un type spécial de régression de Cox avec des variables continues.
  • Forêts de survie aléatoire.
  • Extension avec les réseaux de neurones.

4.3 Régression de Cox variable dans le temps

Auparavant, nous avons supposé que les prédicteurs (covariables) sont constants au cours du suivi. Cependant, des covariables variant dans le temps peuvent être incluses dans les modèles de survie.
Les changements au fil du temps peuvent être incorporés en utilisant une modification spéciale du modèle CoxPH.

Cela étend le temps personnel des individus en intervalles de longueur différente. L’hypothèse clé de l’inclusion de covariables variant dans le temps est que son effet ne dépend pas du temps.
Les caractéristiques variant dans le temps doivent être utilisées lorsqu’il est émis l’hypothèse que le risque prédit dépend de manière significative des valeurs ultérieures de la covariable que la valeur de la covariable à la ligne de base. Les défis avec les covariables variant dans le temps sont des données manquantes dans la covariable à différents pas de temps. [15]

Avant d’exécuter le modèle de régression de Cox incluant de nouvelles covariables, il est nécessaire de pré-traiter l’ensemble de données dans un format dit « long » (où chaque durée est représentée dans démarrer et arrêter vue). [8]



L’ajustement du modèle de Cox sur des données modifiées variant dans le temps implique l’utilisation de la descente de gradient (ainsi que pour le modèle de risque proportionnel standard). Fonctions spéciales intégrées dans lignes de vie package demande un effort supplémentaire pour aider à la convergence des données (haute colinéarité entre certaines variables). [8]


4.4 Forêts de survie aléatoire

Une autre approche d’apprentissage automatique réalisable qui peut être utilisée pour éviter la contrainte proportionnelle du modèle de risques proportionnels de Cox est une forêt de survie aléatoire (RSF).
La forêt de survie aléatoire est définie comme une méthode d’arbre qui construit une estimation d’ensemble pour la fonction de risque cumulé. La construction d’ensembles à partir d’apprenants de base, tels que des arbres, peut considérablement améliorer les performances de prédiction. [13]

  • Fondamentalement, RSF calcule une forêt aléatoire en utilisant le test du log-rank comme critère de division. Il calcule les risques cumulés des nœuds feuilles dans chaque arbre et les moyenne dans l’ensemble suivant.
  • L’arbre atteint sa taille maximale à condition que chaque nœud terminal n’ait pas moins d’un nombre prédéfini de décès. [18]
  • Les échantillons hors sac sont ensuite utilisés pour calculer l’erreur de prédiction de la fonction de risque cumulé d’ensemble.

La mise en œuvre technique ultérieure est basée sur scikit-survie paquet, qui a été construit sur scikit-apprendre: qui permet la mise en œuvre d’une analyse de survie tout en utilisant la puissance de scikit-apprendre. [14]

Voici un exemple simple de construction de RSF pour tester ce modèle sur nos données de survie. Certes, le réglage des hyperparamètres peut être appliqué pour RSF afin d’améliorer les métriques de précision et les performances.


Au cours des dernières années, une quantité importante de recherches en apprentissage automatique a été menée en combinant l’analyse de survie avec les réseaux de neurones (l’image ci-dessous permet d’avoir un aperçu de cette vaste gamme de méthodes)[18]. Avec le développement de technologies d’apprentissage en profondeur et de capacités de calcul, il est possible d’obtenir des résultats exceptionnels et de mettre en œuvre une gamme d’architectures sur des ensembles de données volumineux avec différents processus sous-jacents et un apprentissage plus individuel à l’intérieur.

On peut définir des groupes particuliers de méthodes concernant le deep learning en analyse de survie :

  • Le premier est basé sur le développement ultérieur du modèle de base des risques proportionnels de Cox : DeepSurv (article 5.1), Cox-nnet (extension de CoxPH sur des jeux de données génétiques spécifiques et régularisations). [16]
  • Comme approche alternative, des modèles de survie entièrement paramétriques qui utilisent RNN pour prédire séquentiellement une distribution dans le temps jusqu’au prochain événement : RNN-SURV, RNN Weibull Time-To-Event etc. [17] [26]
  • D’autre part, il existe de nouveaux réseaux neuronaux avancés d’apprentissage en profondeur, tels que Coup profond, développé pour traiter également les données de survie avec des risques concurrents (section 5.2).

(La source: [18])

(La source: [18])

5.1 DeepSurv

L’adaptation initiale de l’analyse de survie pour répondre aux réseaux de neurones (Farragi et Simon, 1995) était basée sur la généralisation du modèle à risques proportionnels de Cox avec une seule couche cachée. L’objectif principal du modèle initial était d’apprendre les relations entre les covariables primaires et la fonction de risque de danger correspondante. Suite au développement de l’architecture du réseau neuronal avec la régression de Cox, il a été prouvé que dans les grands ensembles de données du monde réel avec des interactions non linéaires entre les variables, il est plutôt compliqué de conserver l’hypothèse de proportionnalité principale du modèle de régression de Cox. Cependant, le réseau de Farragi et Simon a étendu cette qualité de non-linéarité. [25]


Il y a quelques années, l’architecture d’apprentissage en profondeur plus sophistiquée, DeepSurv, a été proposée par J.L. Katzman et al. en complément du réseau Simon-Farragi. Il a montré des améliorations du modèle CoxPH et des mesures de performance lors du traitement de données non linéaires [12]. Cette architecture a su gérer la principale contrainte des aléas proportionnels. En plus de cela, tout en estimant la fonction de log-risque $h(X)$ avec le modèle CoxPH, nous avons utilisé la combinaison linéaire de caractéristiques statiques à partir de données données $X$ et les risques de base. Avec DeepSurv, nous pouvons également abandonner cette hypothèse.

DeepSurv est un réseau de neurones à rétroaction profonde qui estime l’effet de chaque individu sur leur taux de risque par rapport aux poids paramétrés du réseau $theta$. Généralement, la structure de ce réseau de neurones est assez simple. Comparé au réseau Simon-Farragi, DeepSurv est configurable avec plusieurs nombres de couches cachées.

  • Les données d’entrée $X$ sont représentées comme un ensemble de covariables observées.
  • Les couches cachées dans ce modèle sont des couches d’activation non linéaires entièrement connectées avec pas nécessairement le même nombre de nœuds dans chacune d’elles, suivies de couches d’abandon.
  • La couche de sortie n’a qu’un seul nœud avec une fonction d’activation linéaire qui donne la sortie $hat{h}_{theta}$ (estimations du risque log-risque).



Auparavant, l’optimisation de la régression de Cox classique s’exécute en raison d’une optimisation de la Cox partial likelihood. Cette vraisemblance est définie par la formule suivante avec des poids paramétrés $beta$ :

où $t_i, e_i, x_i$ sont respectivement le temps, l’événement et les données de covariable de base dans la i-ème observation. Plus explicitement, il s’agit d’un produit de probabilités à l’instant $t_i$ pour la i-ième observation étant donné l’ensemble des individus à risque ($R$) qui ne sont pas censurés et n’ont pas vécu l’événement d’intérêt avant l’instant $t_i$.

le loss function pour ce réseau est un log de vraisemblance partielle négative $ L_c(beta)$ du CoxPH (équation ci-dessus) avec une régularisation supplémentaire :

où $lambda$ est le paramètre de régularisation l2 et N(e = 1) – ensemble des individus avec événement observable.

Afin de minimiser la fonction de perte avec cette régularisation, il est nécessaire de maximiser la partie entre les grandes parenthèses. Pour chaque sujet $i$ connaissant l’événement, nous augmentons le facteur de risque et les objets censurés $j$, qui n’ont pas vécu d’événement avant le temps $t_i$ devraient avoir un risque minimisé.


Mise en œuvre pratique:

Pour construire le modèle DeepSurv, nous avons découvert deux options d’implémentation :

  1. https://github.com/jaredleekatzman/DeepSurv – référentiel officiel du document discuté. Cependant, les packages à l’intérieur n’ont pas été mis à jour récemment et la gamme de fonctions utiles n’est pas disponible.
  2. https://github.com/havakv/pycox – basé sur l’environnement PyTorch, approche informatique rapide pour exécuter des modèles d’analyse de survie. Ce package est utilisé pour DeepSurv.

Premièrement, nous avons divisé l’ensemble de données de survie en former, test, validation sous-ensembles, puis standardisez les données données (uniquement les variables continues) puisque notre couche de sortie est une activation de régression de Cox linéaire et convertissez ces sous-ensembles en tableaux :

Quelques transformations de la variable cible avec un événement et durée informations:

  • Construire le MLP Vanilla avec quatre couches cachées,
  • Normalisation par lots (pour la stabilisation et la réduction du bruit des données),
  • Dropout 40% entre les couches cachées,
  • ReLU ont été choisis comme couche d’activation optimale (autrement, des unités linéaires exponentielles à l’échelle (SELU) peuvent être implémentées),
  • L’optimiseur Adam a été utilisé pour l’entraînement du modèle, sans définir la valeur du taux d’apprentissage initial.


Cependant, le taux d’apprentissage était trop élevé et, par conséquent, nous avons mis une valeur de 0,001, afin d’améliorer les performances :

Le tableau ci-dessous montre l’ensemble des hyperparamètres utilisés dans l’apprentissage et l’optimisation. Comme il n’y avait pas d’option de recherche d’hyperparamètres intégrée dans pycox package, ces paramètres ont été dérivés manuellement.

Le choix final (lr = 0,001, batch_size = 128, number_nodes = 256) était basé sur la plus petite valeur de perte (elle est égale à -7,2678223). Comparé au CoxPH standard (où la perte était de -14,1 $approx$), il s’agit d’une amélioration significative.


5.2 Coup profond

Le modèle appelé « DeepHit » a été présenté dans un article de Changhee Lee, William R. Zame, Jinsung Yoon, Mihaela van der Schaar en avril 2018. Il décrit une approche d’apprentissage en profondeur de l’analyse de survie mise en œuvre dans un environnement de flux tensoriel.

DeepHit est un réseau de neurones profonds qui apprend directement la distribution des temps de survie. Cela signifie que ce modèle ne fait aucune hypothèse sur un processus stochastique sous-jacent, de sorte que les paramètres du modèle ainsi que la forme du processus stochastique dépendent des covariables de l’ensemble de données spécifique utilisé pour l’analyse de survie. [18]

Le modèle contient essentiellement deux parties, un sous-réseau partagé et une famille de sous-réseaux spécifiques à une cause. En raison de cette architecture, un grand avantage de DeepHit est qu’il peut facilement être utilisé pour des ensembles de données de survie avec un risque unique mais aussi avec plusieurs risques concurrents.
L’ensemble de données utilisé jusqu’à présent décrit un seul risque, le risque de défaut. Les clients qui n’ont pas vécu l’événement d’intérêt sont censurés. Les raisons de la censure peuvent être que l’événement d’intérêt n’a pas été vécu ou qu’un autre événement s’est produit qui a également conduit à la fin de l’observation, mais n’est pas l’événement d’intérêt pour l’analyse de survie.

L’ensemble de données d’origine contient des informations sur un deuxième risque, le remboursement anticipé, également appelé payer. Pour une utilisation antérieure, l’ensemble de données a été prétraité de manière à ce que les clients avec un remboursement anticipé soient également étiquetés censuré, car le seul événement intéressant était le cas de défaut. Si le deuxième risque devient également le centre d’attention en termes d’analyse de survie, une deuxième étiquette de gain (gain = 2) peut être introduite dans la colonne d’événement de l’ensemble de données. Par conséquent, un risque concurrent est un événement dont la survenance exclut la survenance de l’événement principal d’intérêt. [19]




Le graphique ci-dessous montre la distribution de la variable cible le temps de l’événement dans l’ensemble de données pour les risques concurrents. Au total, plus de clients subissent l’événement de paiement que font face à l’événement de défaut ou deviennent censurés. Tout au long de la période d’observation, la plupart des clients qui remboursent par anticipation remboursent leur hypothèque dans la première année. La proportion de clients qui font défaut est également élevée au cours de la première année. Le montant des paiements ainsi que des défauts par mois diminue après la première année. La plupart des clients censurés sont censurés après 2,5 ans, en plus d’un pic de clients censurés au neuvième mois.




Pour gérer également les risques concurrents, DeepHit fournit une architecture d’apprentissage multitâche flexible.
L’apprentissage multitâche a été inspiré à l’origine par les activités d’apprentissage humain. Les gens appliquent souvent les connaissances acquises lors de tâches précédentes pour aider à apprendre une nouvelle tâche. Par exemple, pour une personne qui apprend à faire du vélo et du monocycle ensemble, l’expérience d’apprendre à faire du vélo peut être utilisée pour conduire un monocycle et vice versa. Semblable à l’apprentissage humain, il est utile que plusieurs tâches d’apprentissage soient apprises conjointement, car les connaissances contenues dans une tâche peuvent être exploitées par d’autres tâches.
Dans le contexte des modèles d’apprentissage en profondeur, plusieurs modèles pourraient être entraînés, chaque modèle n’apprenant qu’une seule tâche (a). Si ces multiples tâches sont liées les unes aux autres, un modèle d’apprentissage multitâche peut être utilisé dans le but d’améliorer l’apprentissage d’un modèle en utilisant les connaissances acquises tout au long de l’apprentissage de tâches liées en parallèle (b). [20]

(La source: [20a])

L’apprentissage multitâche est similaire à l’apprentissage par transfert, mais présente quelques différences significatives. Les modèles d’apprentissage par transfert utilisent plusieurs tâches sources afin d’améliorer les performances sur la tâche cible. Les modèles d’apprentissage multi-tâches traitent toutes les tâches de la même manière, il n’y a pas de hiérarchie d’importance des tâches. Il n’y a pas d’attention focalisée sur une tâche spécifique. L’objectif des modèles d’apprentissage multi-tâches est d’améliorer les performances de toutes les tâches.

L’approche la plus couramment utilisée pour l’apprentissage multitâche dans les réseaux de neurones est appelée partage de paramètres durs. L’architecture générale d’un tel modèle d’apprentissage multitâche décrit deux parties principales. La première partie est un sous-réseau partagé, où le modèle apprend la représentation commune des tâches associées. Le modèle se divise ensuite en sous-réseaux spécifiques aux tâches afin d’apprendre les parties non communes de la représentation. Le nombre de sous-réseaux spécifiques à une tâche est égal au nombre de tâches connexes sur lesquelles le modèle est entraîné.
Par souci d’exhaustivité, une autre approche de l’apprentissage multitâche est le partage de paramètres souples qui décrit une architecture où chaque tâche a son propre modèle avec ses propres paramètres. Pour encourager les paramètres à devenir similaires, des techniques de régularisation sont appliquées entre les paramètres des modèles spécifiques à la tâche. Étant donné que DeepHit fournit une architecture de partage de paramètres durs, l’approche de partage de paramètres souples sera négligée dans les explications ultérieures.

(La source: [20b])

Former un modèle d’apprentissage multitâche autant de fonctions de perte que de tâches sont nécessaires. Le modèle est ensuite entraîné par rétropropagation. Le fait que les sous-réseaux spécifiques aux tâches partagent des couches cachées communes permet un apprentissage complet. Through the shared hidden layers, features that are developed in the hidden layers of one task can also be used by other tasks. Multi-task learning enables features to be developed to support several tasks which would not be possible if multiple singe-task learning models would be trained on the related tasks in isolation. Also some hidden units can specialise on one task, providing information that are not important for the other tasks. By keeping the weights to these hidden units small gives these tasks the opportunity to ignore these hidden units. [21]

With multi-task learning a model can increase its performance due to several reasons. By using the data of multiple related tasks, multi-task learning increases the sample size that is used to train the model which is a kind of implicit data augmentation. The network sees more labels, even though these labels are not the labels from the same task but highly related tasks. A model that learns different similar tasks simultaneously is able to learn a more general representation that captures all of the tasks.

Moreover by learning multiple tasks together the network has to focus on important information rather than task-specific noise. The other tasks provide additional evidence for the relevance or irrelevance of the features and help to attract the network´s attention to focus on the important features.

Some tasks are harder to learn even by themselves. A model can benefit from learning the hard task combined with an easier related task. Multi-task learning allows the model to eavesdrop, learn the hard task through the simple related task, and therefore learn the hard task easier and faster than learning the hard task in isolation.

In addition different related tasks can treat each other as a form of regularisation term since the model has to learn a general representation of all tasks. Learning the tasks in a single-task learning approach would bear the risk of overfitting on one task. [22]

Architecture of the DeepHit model for two competing risks

(La source: [22a])

The architecture of the DeepHit model is similar to the conventional multi-task learning architecture of hard parameter sharing, but has two main differences. DeepHit provides a residual connection between the original covariates and the input of the cause-specific sub-networks. This means that the input of the cause-specific sub-networks is not only the output of the preceded shared sub-network but also the original covariates. These additional input allows the cause-specific sub-network to better learn the non-common representation of the multiple causes.

The other difference refers to the final output of the model. DeepHit uses one single softmax output layer so that the model can learn the joint distribution of the competing events instead of their marginal distribution. Thus the output of the DeepHit model is a vector $y$ for every subject in the dataset giving the probabilities that the subject with covariates $x$ will experience the event $k$ for every timestamp $t$ within the observation time. The probabilities of one subject sum up to 1.


The visualisation of the DeepHit model shows the architecture for a survival dataset of two competing risks. This architecture can easily be adjusted to more or less competing risks by adding or removing cause-specific sub-networks. The architecture of the DeepHit model depends on the number of risks.

To implement the model the DeepHit repository has to be cloned to create a local copy on the computer.

DeepHit also needs the characteristic survival analysis input setting containing the event labels, the durations as well as the covariates. A function is provided that either applies standardisation or normalization of the data. For this analysis standardisation was applied on the data.

The variable num_Category describes the dimension of the time horizon of interest and is needed in order to calculate the output dimension of the output layer of the model.
num_Event gives the number of events excluding the case of censoring, since censoring is not an event of interest. This number defines the architecture of the model, it specifies the number of cause-specific sub-networks and is also needed to calculate the dimension of the output layer, which is the multiplication of num_Category et num_Event.
The input dimension is defined by the number of covariates used to feed the network.

The hyperparameters of DeepHit can be tuned by running random search using cross-validation. The function get_random_hyperparameters randomly takes values for parameters out of a manually predefined range for those parameters.
Possible candidates for parameter tuning can be:

  • Batch size
  • Number of layers for the shared sub-network
  • Number of layers for the cause-specific sub-network
  • Number of nodes for the shared sub-network
  • Number of nodes for the cause-specific sub-network
  • Learning rate
  • Dropout
  • Activation function

The chosen parameters are forwarded to the function get_valid_performance along with the event labels, durations and covariates (summarized in DATA) as well as the masks for the loss calculations (summarized in MASK). This function takes the forwarded parameters to build a DeepHit model corresponding to the number of events of interest as well as the number of layers and nodes for the sub-networks. The dataset is then spilt into training, validation and test sets in order to start training the model on the training set using the chosen parameters. The training is done with mini batches of the training set over 50.000 iterations. Every 1000 iteration a prediction is done on the validation set and the best model is saved to the specified file path. The evaluation of the models is based on the concordance index. The best result (= highest concordance index) is returned if there is no improvement for the next 6000 iterations (early stopping). The concordance index is a measure for survival analyis models and is explained in detail in the evaluation part of this blog post.

DeepHit is build with Xavier initialisation and dropout for all the layers and is trained by back propagation via the Adam optimizer. To train a survival analysis model like DeepHit a loss function has to be minimised that is especially designed to handle censored data.

The loss function of the DeepHit model is the sum of two terms.

$L_{1}$ is the log-likelihood of the joint distribution of the first hitting time and event. This function is modified in a way that it captures censored data and considers competing risks if necessary.
The log-likelihood function also consists out of two terms. The first term captures the event and the time, the event occurred, for the uncensored customers. The second term captures the time of censoring for the censored customers giving the information that the customer did not default up to that time.

$L_{2}$ is a combination of cause-specific ranking loss functions since DeepHit is a multi-task learning model and therefore needs cause-specific loss functions for training. The ranking loss function incorporates the ** estimated cumulative incidence function ** calculated at the time the specific event occurred. The formula of the cumulative incidence function (CIF) is as follows:

This function expresses the probability that a particular event k occurs on or before time t conditional on covariates X. To get the estimated CIF, the sum of the probabilities from the first observation time to the time, the event k occurred, is computed.

The cause-specific ranking loss function adapts the idea of concordance. A customer that experienced the event k on a specific time t should have a higher probability than a customer that will experience the event sometime after this specific time t. The ranking loss function therefore compares pairs of customers that experienced the same event of interest and penalizes an incorrect ordering of pairs.

After the training process the saved optimised hyperparameters as well as the corresponding trained model can be used for the final prediction on the test dataset.


6.1 Concordance index

For the evaluation of survival analysis models the performance measures need to take censored data into account. The most common evaluation metric in survival analysis is the concordance index (c-index). It shows the model’s ability to correctly provide a reliable ranking of the survival times based on the individual risk scores. The idea behind concordance is that a subject that dies at time t should have a higher risk at time t than a subject who survives beyond time t.

  • The concordance index expresses the proportion of concordant pairs in a dataset, thus estimates the probability that, for a random pair of individuals, the predicted survival times of the two individuals have the same ordering as their true survival times. A concordance index of 1 represents a model with perfect prediction, an index of 0.5 is equal to random prediction. [23]

For a better understanding of this definition the concordance index is calculated on some simple example predictions. The following table shows the true default times of four theoretical customers along with default time predictions of three different models.

To calculate the concordance index the number of concordant pairs has to be divided by the number of possible ones. By having four customers the following pairs are possible:
(A,B) , (A,C) , (A,D) , (B,C) , (B,D) , (C,D). The total number of possible pairs is 6.

  • Model 1 predicts that A defaults before B, and the true default time confirms that A defaults before B. The pair (A,B) is a concordant pair. This comparison needs to be done for every possible pair. For the prediction of Model 1 all possible pairs are concordant, which results in an Concordance index of 1 – perfect prediction.
  • For the prediction of Model 2 there are five concordant pairs, but for the pair (C,D) the model predicts that D defaults before C, whereas the true default times show that C defaults before D. With this the concordance index is 0.83 (5/6).
  • The concordance index of Model 3 is also equal to 1, since the model predicts the correct order of the possible pairs even though the actual default times are not right in isolation.

The next example shows the computation of the concordance index in case of right-censoring:

The first step is to figure the number of possible pairs. The default times of customer A can be compared to the default times of the other customers. The customer B is censored, which means that the only information given is the fact that customer B did not default up to time 2, but there is no information if customer B will default and if so, when the customer will experience the event of default. Therefore a comparison between customer B and C as well as customer B and D is impossible because these customers defaulted after customer B was censored. The comparison between customers C and D is possible since both customers are not censored. In total there are four possible pairs:
(A,B) , (A,C) , (A,D), (C,D)
The second step is to check if these possible pairs are concordant. The first three pairs are concordant, the pair (C,D) is discordant. The result is a concordance index of 0.75 (3/4). [24]

The dataset used for the blog post features the case of right-censoring but the reason for censoring is that these customers are still in the phase of repaying and their loans have not matured yet. Therefore the time of censoring is equal to the last observation time. Due to this the case that some customer default after a customer was censored is not possible. The example of the concordance index in case of right-censoring is shown for the sake of completeness since other survival datasets can have this case. A medical dataset for example can have data about patients with a heart disease. If a patient dies due to different reasons than a heart disease this patient would be censored. This can happen during the observation time and other patients can die due to a heart disease at a later time.

Model evaluation

The table shows the concordance indices of the models trained with the mortgage dataset. The benchmark models, CoxPH and Random survival forests, start with a convenient performance but are outperformed by the deep learning models whereas the DeepHit model achieved the highest concordance index.

After evaluating the performance of the models we have a look into the output of the two best performing models, DeepSurv and DeepHit.


6.2 DeepSurv – Survival curves

As we have already learned before in part 4.1 about Kaplan-Meier estimator, survival curve represents a statistical graphical interpetation of the survival behaviour of subjects (i.e. mortgage borrowers) in the form of a graph showing percentage surviving vs time. This allows to examine and compare estimated survival times for each individual (except Kaplan-Meier model) and define global patterns in data (in example, sharp lines which go close to 0% propability may have certain explaination).

The graph below represents the estimated survival lifetimes for 15 individual mortgage borrowers from the test dataset using the output of the DeepSurv model. According to the graph, for a significant amount of customers the predicted survival times decrease within the first two years. For instance, for the customer with ID 5 the survival function shows that after 15 months he has a probability of roughly 50% to survive beyond 15 months. Whereas the survival function of customer with ID 9 at the same point in time shows that he has only 25% chance to survive beyond this time.

By the end of our study there is a certain flatten part at $t approx 42$ months for some number of customers. The possible reason behind this can be due to provided individual “treatments” by the bank e.g. in order to reduce the maturity time.




6.3 DeepHit – Hazard graphs

The output of the DeepHit model is a vector for every customer giving the probabilities of the customer experiencing the event of interest for every point in time. The evaluation time is 72 months. Therefore the output gives 72 probabilities for every customer experiencing the event of default (single risk). It is the joint distribution of the first hitting time and event, hence the sum of the probabilities of a customer is equal to 1. The following graph displays the visualisation of the output of every customer included in the test set (10.000 customers).



The graph shows that in the beginning there seems to be a higher risk of default which is decreasing within the first two years which also matches to the predicted survival curves of the DeepSurv model. Throughout the evaluation time there are several probability increases for individual customers. There is a higher risk of default after the second and third year as well as within the period of the fifth and sixth year of credit time. Unfortunately it is not possible to compare these specific times to actual events in the past to derive any reasons for these peaks since the periods of the mortgage dataset used for this analysis are deidentified. Thus it cannot be retraced when the data for this dataset was collected.

To get a closer look at the individual hazard graphs in order to compare the prediction of the model to the true default times the hazard graphs of a selection of six customers is plotted.





For the most part the hazard graphs of these customers show that within the first year the probability of default is higher and mostly decreasing within the second year.

  • Hazard graph 1 also represents this trend. Throughout the rest of the evaluation time the probability values decrease and range between 0.5% and 2%. In the dataset the customer was censored after 26 months. With regard to the predicted hazard ratio if the customer “survives” beyond the first year he probably does not experience the event of default afterwards.
  • Hazard graph 2 starts with a high default probability after 3 months. With respect to the actual values, the customer defaulted after 3 months, the model could make a precise prediction.
  • Hazard graph 3 shows the highest values within the time of 10 and 13 months after initial recognition of the mortgage which represents the actual values of the customer defaulting after 13 months.
  • Hazard graph 4 differs from the other graphs since it starts with low risk of default period. The probability is not decreasing until the start of the sixth year of credit time except a little increase at the end of the second year. The model predicts that if the customer will experience the event of default it will be sometime after the fifth year of credit time. The customer was censored after 39 months, he is still repaying his mortgage rates and has not experienced the event yet.
  • The customers of Hazard graph 5 and 6 were censored after a short time interval. They both have an increased risk of default within the first year. For customer 5 the second and third year is a low risk period, followed by years of higher risk of default.
    Hazard graph 6 shows a decrease in hazard after the second year but like the Hazard Rate 1 and 3 the probabilities vary between low values until the end of evaluation time.

In case of two competing risks the output of DeepHit is a vector of length 144 for every customer. This length comes from 72 probabilities of experiencing event 1 (default) and 72 probabilities of experiencing event 2 (payoff). The vector gives the joint probability distribution of both events, so the sum of a vector of one customer is equal to 1.

To get an overview of the predictions the output of every customer per event is visualised. When comparing the graphs the different ranges of the probability of risk have to be noted. The first graph shows the hazard ratios of the customer experiencing the event of default. In the beginning the risk of default is higher but decreases within the first two years reaching a low risk period within the years three and four. After that period the probability to default increases locally and for some individual customers the model predicts the highest risk of default after 5 years which is probably a result due to the censored data.
The risk of payoff is compared to the default risk higher in the beginning, since in total more customers experience the event of payoff than the event of default. It is slightly decreasing throughout the first 4.5 years, for some customers the event of payoff is pretty likely within the fifth year.




Looking at selected individual hazard graphs plotting the joint distribution of both events per customer to compare the predictions with the true event times of the selected customers.





  • Hazard Graph 1 gives a higher probability of experiencing default than payoff. Moreover the model predicts the default to be at the end of first year, which matches the true default time of the customer experiencing the event of default after 13 months.
  • The Hazard Graph 2 starts with a low risk period of more than two years regarding both events. After 2.5 years the risk of early repayment is increasing but after four years of credit time the model also predicts a strong increased hazard in default. In total the model predicts a slightly higher risk of payoff. The customer was censored after 39 months, which corresponds to the long period of low risk to experience one of these events, but with regard to this customer the model is not able to make a strong prediction to either default or payoff.
  • The Hazard Graph 3 shows a high risk of payoff right in the beginning. The prediction represents the customers true event time of experiencing the event of payoff after 1 months.
  • Hazard Graph 4 is similar to the third graph and also leads to a good prediction of payoff after 4 months which matches the actual values of the customer. The graph shows a sudden increase in payoff risk around 4.5 years that again decreases to a zero risk afterwards which is probably a result of the pattern the model learned, but looks more like an unrealistic outlier.

Mostly the DeepHit models for single as well as for competing risks can already make great predictions on the test dataset. With regard to the initial introduced business case, the predicted probability values of each customer can be used in order to calculate the expected credit loss to set up the provisions as a counterbalance to the recognised values of the loans. The formula of the expected credit loss is:

(La source: [27])

The output of survival analysis provides the probability values to fill the part of the formula in the above red box. The more precise the prediction of the survival analysis models the more exact calculations of the expected credit losses is possible which has an impact on the bank’s income statement.


We hope that our blog post gives everyone a clear overview of survival analysis and probably inspires to use it in further academic or professional work. The standard survival statistics, such as the Cox proportional hazards model, already allows to gain a meaningful insight from data without any sophisticated implementation of the model.

The advanced extension of survival analysis models using machine learning practices gives more methodological freedom. With proper hyperparameter tuning process it is possible to achieve more precise predictions of the time-to-event target variable.

The format of the dataset is exceptionally important. In order to apply survival analysis techinques, the data has to meet the requirements of the characteristic survival analysis data points: event, duration and valuable features.

The implementation of more complex survival analysis models in Python is still in development. With increasing popularity of this methods in different industries we hope that it is just a question of time that the variety of functions within the survival analysis packages will rise.

Thanks for reading our blogpost and surviving it 🙂

via GIPHY


[1] IFRS 9 Financial Instruments – https://www.ifrs.org/issued-standards/list-of-standards/ifrs-9-financial-instruments/#about (accessed: 29.01.2020)

[2] Ernst & Young (December 2014): Impairment of financial instruments under IFRS 9 – https://www.ey.com/Publication/vwLUAssets/Applying_IFRS:_Impairment_of_financial_instruments_under_IFRS_9/$FILE/Apply-FI-Dec2014.pdf

[3] Bank for International Settlements (December 2017): IFRS 9 and expected loss provisioning – Executive Summary – https://www.bis.org/fsi/fsisummaries/ifrs9.pdf

[4] Liberato Camilleri (March 2019): History of survival snalysis – https://timesofmalta.com/articles/view/history-of-survival-analysis.705424

[5] Sucharith Thoutam (July 2016): A brief introduction to survival analysis

[6] Taimur Zahid (March 2019): Survival Analysis – Part A – https://towardsdatascience.com/survival-analysis-part-a-70213df21c2e

[7] Lore Dirick, Gerda Claeskens, Bart Baesens (2016): Time to default in credit scoring using survival analysis: a benchmark study

[8] lifelines – Introduction to survival analysis – https://lifelines.readthedocs.io/en/latest/Survival%20Analysis%20intro.html

[9] Nidhi Dwivedi, Sandeep Sachdeva (2016): Survival analysis: A brief note – https://lifelines.readthedocs.io/en/latest/Survival%20Analysis%20intro.html

[9a] https://www.slideshare.net/zhe1/kaplan-meier-survival-curves-and-the-logrank-test

[10] Maria Stepanova, Lyn Thomas (2000): Survival analysis methods for personal loan data

[10a] https://www.statisticshowto.datasciencecentral.com/hazard-function/

[11] Hazard Function: Simple Definition – https://www.statisticshowto.datasciencecentral.com/hazard-function/ (accessed 29.01.2020)

[12] Jared L. Katzman, Uri Shaham, Alexander Cloninger, Jonathan Bates, Tingting Jiang,
and Yuval Kluger (2018): DeepSurv: personalized treatment recommender system using a Cox
proportional hazards deep neural network – https://arxiv.org/abs/1606.00931

[13] Hemant Ishwaran, Udaya B. Kogalur,
Eugene H. Blackstone and Michael S. Lauer (2008): Random Survival Forests – https://arxiv.org/pdf/0811.1645.pdf

[14] ‘scikit-survival’ package – https://scikit-survival.readthedocs.io/en/latest/

[15] Time-to-event Analysis – https://www.mailman.columbia.edu/research/population-health-methods/time-event-data-analysis

[16] Travers Ching,Xun Zhu,Lana X. Garmire (2018): Cox-nnet: An artificial neural network method for prognosis prediction of high-throughput omics data – https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006076

[17] Eleonora Giunchiglia, Anton Nemchenko, and Mihaela van der Schaar (2018): RNN-SURV: A Deep Recurrent Model for Survival Analysis – http://medianetlab.ee.ucla.edu/papers/RNN_SURV.pdf

[18] Changhee Lee, William R. Zame, Jinsung Yoon, Mihaela van der Schaar (April 2018): DeepHit: A Deep Learning Approach to Survival Analysis with Competing Risks

[19] Peter C. Austin, Douglas S. Lee, Jason P. Fine (February 2016): Introduction to the Analysis of Survival Data in the Presence of Competing Risks – https://www.ahajournals.org/doi/10.1161/CIRCULATIONAHA.115.017719

[20] Yu Zhang, Qiang Yang (2018): A survey on Multi-Task Learning

[20a] https://www.researchgate.net/publication/307622018_Improving_Machined_Surface_Variation_Prediction_by_Integrating_Multi-Task_Gaussian_Process_Learning_with_Cutting_Force_Induced_Surface_Variation_Modeling

[20b] https://ruder.io/multi-task/index.html#hardparametersharing

[21] Rich Caruana (1997): Multitask Learning

[22] Sebastian Rude (October 2017): An Overview of Multi-Task Learning in Deep Neural Networks

[22a] https://www.semanticscholar.org/paper/DeepHit%3A-A-Deep-Learning-Approach-to-Survival-With-Lee-Zame/803a7b26bdc0feafbf45bc5d57c2bc3f55b6f8fc

[23] PySurvival Introduction, Performance metrics, C-index – https://square.github.io/pysurvival/metrics/c_index.html#introduction (accessed 04.02.2020)

[24] Alonso Silva Allende (October 2019): Concordance Index as an Evaluation Metric – https://medium.com/analytics-vidhya/concordance-index-72298c11eac7 (accessed 04.02.2020)

[25] David Faraggi Richard Simon (1995): A neural network model for survival data – https://onlinelibrary.wiley.com/doi/abs/10.1002/sim.4780140108

[26] WTTE-RNN – Less hacky churn prediction – https://ragulpr.github.io/2016/12/22/WTTE-RNN-Hackless-churn-modeling/

[27] Bernd Engelmann (April 2018) – Calculating Lifetime Expected Loss for IFRS 9: Which Formula is Correct?


Source de l’article

A découvrir