Caractéristiques de la cohorte
Dans ce travail, nous utilisons les données de l’initiative publique Alzheimer’s Disease Neuroimaging Initiative (ADNI)3132 pour le développement du modèle et de l’Australian Imaging, Biomarker & Lifestyle Flagship Study of Ageing (AIBL)33 pour la validation externe. Tous les participants présentant une base cognitive normale, ayant effectué au moins une visite de suivi et disposant d’antécédents médicaux documentés ont été sélectionnés. Dans l’ADNI, on compte 389 personnes censurées et 105 personnes ayant effectué la transition, tandis que l’ensemble de données de l’AIBL comprend 290 personnes censurées et 30 personnes ayant effectué la transition. Toutes leurs variables de référence sont résumées dans le tableau 1. Dans l’ADNI, nous constatons une différence statistiquement significative en termes d’âge entre les groupes censurés (moyenne = 73,84, écart-type = 5,84) et transitionnés (moyenne = 75,80, écart-type = 5,65) (p = 0,002). De plus, bien que cela ne soit pas significatif, un pourcentage plus élevé d’hommes ont fait la transition par rapport aux individus censurés (56,2 % contre 47,0 %, p = 0,120). En termes de scores cognitifs, des différences significatives ont été observées dans plusieurs mesures entre les groupes censurés et ceux ayant fait la transition. Par exemple, l’échelle d’évaluation clinique de la démence (CDRSB), l’échelle d’évaluation de la maladie d’Alzheimer (ADAS), le test d’apprentissage verbal auditif de Rey (RAVLT) et le questionnaire sur les activités fonctionnelles (FAQ) ont montré des différences statistiquement significatives entre les deux groupes. En ce qui concerne les caractéristiques de comorbidité, la présence de certaines affections différait de manière significative entre les individus censurés et ceux ayant effectué la transition. Il convient de noter que la prévalence des troubles endocriniens et métaboliques (46,3 % contre 57,1 %, p = 0,062) et des troubles rénaux et génito-urinaires (42,2 % contre 57,1 %, p = 0,009) était plus élevée chez les personnes ayant fait l’objet d’une transition que chez celles ayant fait l’objet d’une censure. Par rapport à l’ADNI, les participants à l’AIBL ont tendance à être légèrement plus jeunes (âge moyen : 72,32 ans contre 73,84 ans), mais présentent des niveaux d’éducation et une répartition raciale comparables. Il convient de noter que l’AIBL compte une proportion plus élevée d’hommes dans le groupe censuré par rapport à l’ADNI (55,9 % contre 47,0 %). L’AIBL montre également des tendances similaires en matière de scores cognitifs, malgré des variations dans certaines mesures spécifiques. En ce qui concerne les comorbidités, l’AIBL présente des différences dans la prévalence de certaines affections par rapport à l’ADNI, ce qui suggère des variations potentielles dans les profils de santé entre les deux cohortes. Par exemple, en ce qui concerne les affections endocriniennes et métaboliques, dans l’ADNI, les participants censurés et ceux ayant fait l’objet d’une transition présentaient une prévalence supérieure à 45 %, tandis que dans l’AIBL, les individus ayant fait l’objet d’une transition et ceux censurés présentaient une prévalence inférieure à 17 %.
Performances des modèles d’apprentissage automatique et profond
Dans cette étude, nous avons procédé à une évaluation approfondie des modèles d’analyse de survie basés sur l’apprentissage automatique et l’apprentissage profond afin de prédire la progression de la maladie d’Alzheimer à un stade précoce. Les modèles — Cox proportional hazards (CoxPH), recursive partitioning for survival trees (Rpart), random survival forest (RSF), fast random survival forest (FastRSF), cross-validated generalized linear model via penalized maximum likelihood (CVGlmnet), DeepSurv, DeepHit et CoxTime — ont été comparés à travers quatre ensembles de caractéristiques distincts (FS) (FS1, FS2, FS3 et FS4), chacun combinant de différentes manières des données démographiques, des scores cognitifs et des comorbidités. Le déroulement de nos modèles est détaillé dans la section Méthodes.
Les performances de nos modèles d’apprentissage automatique sur l’ensemble de données ADNI pour les quatre ensembles de caractéristiques différents (FS1, FS2, FS3 et FS4) sont présentées dans la figure 1 sous la forme d’une carte thermique indiquant la valeur moyenne de l’indice C. Tous les résultats présentés sont basés sur des données de test non vues. À titre de référence, le modèle de risques proportionnels de Cox (première colonne) est inclus. Parmi les modèles évalués, le modèle d’apprentissage automatique Fast Random Survival Forest et le modèle d’apprentissage profond DeepSurv se sont distingués, atteignant un indice C de 0,84 lorsqu’ils ont été appliqués à FS1. Le modèle CoxPH, Rpart et RSF ont atteint des indices C de 0,82, 0,75 et 0,76, respectivement. CVGlmnet et CoxTime ont donné des résultats modérés, avec des indices C de 0,67 et 0,75. Le modèle Deephit a affiché un indice C légèrement inférieur, à 0,66. Cet ensemble de caractéristiques intègre toutes les modalités de données, ce qui se traduit par des performances supérieures à celles des autres ensembles de caractéristiques. Pour compléter ces résultats, nous avons effectué un bootstrapping (1 000 rééchantillonnages) sur FS1 afin d’obtenir des intervalles de confiance à 95 % pour l’indice C (tableau 3). Fast RSF a obtenu l’indice C moyen le plus élevé, à 0,8607 [0.8107–0.9107], confirmant ainsi ses performances prédictives solides et stables. DeepSurv et RSF suivaient de près avec respectivement 0,8226 [0.7726–0.8726] et 0,7844 [0.7344–0.8344], respectivement. Nous avons effectué un test de Kruskal-Wallis qui a révélé des différences globales significatives (\(\chi ^2\) = 60,56, df = 7, \(p < 0,0001\)), et les comparaisons post-hoc de Dunn avec correction de Holm ont confirmé que Fast RSF surpassait significativement DeepSurv (p = 0,041), ainsi que d’autres modèles de référence tels que CoxPH (p = 0,002) et DeepHit (\(\text {p} < 0,001\)). Ces résultats fournissent un soutien statistique à la sélection de Fast RSF comme modèle le plus performant.

Carte thermique affichant la performance moyenne mesurée par l’indice de concordance de chaque algorithme d’apprentissage automatique avec chaque ensemble de caractéristiques (FS) sur l’ensemble de données ADNI. Les valeurs moyennes de l’indice C sont calculées sur les plis CV externes, sans bootstrapping. Les intervalles de confiance sont indiqués séparément pour les comparaisons finales des modèles. Abréviations : Dem = données démographiques, CS = scores cognitifs, Com = comorbidités.
L’exclusion des comorbidités (FS3) a entraîné une baisse significative des performances, l’indice C tombant à 0,76 pour la forêt de survie aléatoire rapide et à 0,33 pour DeepSurv. Cette baisse souligne le rôle central des informations sur les comorbidités dans l’amélioration de la puissance prédictive du modèle, particulièrement évident dans les modèles complexes tels que Deepsurv. Les modèles CoxPH et RSF ont atteint des indices C de 0,75 et 0,76, respectivement. Rpart et CVGlmnet ont obtenu des scores de 0,5 et 0,68, tandis que Deephit a affiché une valeur modérée de 0,61. CoxTime a obtenu un score de 0,66. De même, l’exclusion des scores cognitifs (FS2) a entraîné une baisse de l’indice C à 0,59 pour la forêt de survie aléatoire rapide et à 0,74 pour DeepSurv, ce qui est une baisse prévisible compte tenu de l’importance des scores cognitifs dans la prédiction des résultats. CoxPH et CoxTime ont chuté respectivement à 0,62 et 0,59. Rpart et RSF ont obtenu des scores de 0,5 et 0,59, tandis que CVGlmnet et Deephit ont atteint respectivement 0,58 et 0,53. Lors de l’utilisation de FS4, qui ne comprend que des données démographiques, les performances de la plupart des modèles ont diminué. L’indice c du modèle Fast Random Survival Forest a fortement chuté à 0,48, indiquant une perte significative de précision prédictive. D’autres modèles, tels que CVGlment et Rpart, ont également affiché des valeurs d’indice c plus faibles, respectivement de 0,50 et 0,56. Il est intéressant de noter que le modèle Cox a maintenu des performances plus stables par rapport aux autres ensembles de caractéristiques. De même, Deephit a maintenu des performances relativement stables, avec une légère baisse à 0,65. Dans l’ensemble, l’inclusion des comorbidités et des scores cognitifs (FS1) améliore considérablement la précision prédictive de la plupart des modèles par rapport à l’utilisation des seules caractéristiques démographiques (FS4).
L’indice C moyen des huit modèles était de 0,76 pour FS1, diminuant à 0,67 pour FS3 et encore plus bas pour FS2. Il convient de noter que la forêt aléatoire rapide a systématiquement surpassé les autres modèles lorsque toutes les modalités de données ont été incluses.
Nos meilleurs modèles, qui ont atteint un indice C de 0,84, ont surpassé les précédentes études d’analyse de survie menées sur le même ensemble de données (ADNI) et la même cohorte (CN à MCI), qui avaient obtenu des scores d’indice C de 0,6614 et 0,6816, respectivement. Le tableau 2 fournit plus de détails sur la comparaison, y compris les caractéristiques et les modèles utilisés dans chaque étude. Notre approche permet d’améliorer considérablement la prédiction précoce de la progression de la maladie d’Alzheimer. En tirant parti de trois modalités rentables et non invasives, nous nous démarquons favorablement des approches précédentes qui reposaient sur des techniques coûteuses et invasives telles que l’IRM, la TEP et les biomarqueurs sanguins. Cette sélection délibérée de caractéristiques et de modèles souligne notre capacité à obtenir des résultats très prometteurs, démontrant que les données cliniques facilement disponibles peuvent être suffisantes pour une prédiction précise.
Caractéristiques prédictives
Après avoir identifié les deux modèles les plus performants avec un indice c de 0,84 à l’aide du FS1, qui comprenait des informations démographiques, des comorbidités et des scores cognitifs, nous procédons maintenant à un test statistique de signification afin de déterminer si ces deux modèles les plus performants sont significativement différents en termes de performances par rapport aux autres modèles et éventuellement entre eux. Comme décrit dans la méthodologie, nous avons utilisé le test de Kruskal-Wallis pour évaluer s’il existait des différences statistiquement significatives dans les scores de risque prédits entre les huit modèles entraînés sur l’ensemble de caractéristiques FS1. Ce test non paramétrique évalue les différences globales dans les prédictions des modèles sans supposer la normalité. La statistique chi-carré obtenue était de 5,623 (df = 7, p = 0,5844), ce qui indique qu’il n’y a pas de différence significative dans les classements médians des risques entre les modèles.
Malgré l’absence de signification statistique, nous avons procédé à la sélection des modèles en fonction de leurs performances prédictives et de leur pertinence pratique. Fast Random Survival Forest et DeepSurv se sont révélés être les modèles les plus performants selon l’indice C, RSF obtenant le score global le plus élevé (0,84). Pour étayer davantage ce choix, nous avons effectué un deuxième test de Kruskal-Wallis sur les distributions de l’indice C bootstrappées entre les modèles, suivi d’un test post-hoc de Dunn avec correction de Holm. Ces analyses supplémentaires ont révélé que Fast RSF était nettement plus performant que la plupart des modèles de référence, ce qui renforce son adéquation pour l’interprétation en aval. En fin de compte, nous avons sélectionné Fast RSF comme modèle principal en raison de ses performances élevées, de la stabilité du modèle entre les imputations et de son interprétabilité dans des contextes cliniques. Cette sélection reflète un équilibre entre les preuves statistiques et les besoins pratiques d’une prise de décision transparente dans les applications médicales.
Les caractéristiques influençant les résultats du modèle le plus performant (Fast Random Survival Forest sur FS1) feront l’objet d’une analyse plus approfondie. Au départ, le modèle classe ces caractéristiques à l’aide d’une méthode de « permutation ». Ensuite, nous identifions et sélectionnons les 10 caractéristiques les plus importantes en fonction de ce classement, à savoir : ADAS13, AGE, RAVLT learning, FAQ, ADAS11, RAVLT immediate, Comorbidity Renal& Genitourinary, CDRSB, ADASQ4, Comorbidity Endocrine & Metabolic. Les caractéristiques sélectionnées comprennent une caractéristique démographique : l’âge, 7 scores cognitifs : ADAS13, apprentissage RAVLT, FAQ, ADAS11, RAVLT immédiat, CDRSB, ADASQ4, et 2 comorbidités : endocriniennes et métaboliques et rénales et génito-urinaires. La sélection des caractéristiques est conforme à la littérature existante, où l’âge apparaît comme le facteur de risque le plus important dans la maladie d’Alzheimer, reflétant son association bien établie avec la progression de la maladie34. De plus, les scores cognitifs constituent des indicateurs cruciaux de la MA, ce qui justifie davantage leur inclusion dans la caractéristique prédictive.
Pour notre analyse exploratoire, nous utilisons des graphiques de dépendance partielle (PDP) afin d’offrir une représentation visuelle de la relation entre ces caractéristiques individuelles et la variable cible, tout en maintenant les autres caractéristiques constantes. Les PDP pour les 10 caractéristiques les plus importantes sélectionnées par nos modèles de forêt de survie aléatoire rapide sont présentés dans la figure 2. Plus précisément, la figure 2a correspond à l’ADAS13, la figure 2b à l’AGE, la figure 2c à l’apprentissage RAVLT, la figure 2d au FAQ, la figure 2e à l’ADAS11, la figure 2f au RAVLT immédiat, la figure 2g à la comorbidité (rénale et génito-urinaire), la figure 2h à CDRSB, la figure 2i à ADASQ4 et la figure 2j à la comorbidité (endocrinienne et métabolique). La nuance bleue dans le graphique, qui est plus foncée pour les valeurs élevées et plus claire pour les valeurs faibles, indique l’impact variable de la caractéristique sur la fonction de survie prédite. Par exemple, dans le cas de la caractéristique « AGE », à mesure que l’âge augmente, la nuance devient plus foncée et la fonction de survie plus foncée est plus faible, ce qui suggère une relation négative plus forte entre l’âge et la probabilité de survie. À l’inverse, pour les âges plus jeunes, l’ombrage est plus clair et la fonction de survie plus claire est élevée, ce qui indique un impact plus faible de l’âge sur la probabilité de survie. La tendance observée dans la valeur de la fonction de survie correspond au motif d’ombrage : à mesure que l’âge augmente, la valeur de la fonction de survie diminue, ce qui indique une probabilité prédite plus élevée de subir l’événement d’intérêt (conversion en MCI). À l’inverse, pour les âges plus jeunes, la valeur de la fonction de survie augmente, ce qui suggère un risque plus faible de subir l’événement.

Graphiques de dépendance partielle des 10 caractéristiques sélectionnées par le modèle d’apprentissage automatique le plus performant. L’axe des temps est exprimé en mois.

Courbes de survie de Kaplan-Meier stratifiées par (a) la présence de comorbidités endocriniennes/métaboliques (par exemple, le diabète), (b) les comorbidités rénales/génito-urinaires, et (c) groupe d’âge (\(\le 70\) vs. \(>70\) ans).
Lorsque l’on examine les profils de survie à dépendance partielle des caractéristiques de comorbidité « Rénale et génito-urinaire » et « Endocrinienne et métabolique », on observe deux lignes distinctes de la fonction de survie : une ligne bleu clair représentant l’absence (0) ou l’inexistence de la caractéristique, et une ligne bleu foncé représentant la présence (1) ou l’existence de la caractéristique. Pour les deux caractéristiques, la ligne plus foncée représente systématiquement une fonction de survie inférieure à celle de la ligne plus claire, ce qui suggère que la présence de ces comorbidités est associée à une diminution des probabilités de survie.
Afin d’évaluer plus en détail la pertinence clinique de ces observations, des courbes de Kaplan-Meier ont été générées pour des sous-groupes définis par les caractéristiques clés. Les personnes présentant des comorbidités rénales ont montré une survie significativement plus faible que celles qui n’en présentaient pas (Fig. 3a, log-rank p=0,04), ce qui confirme la tendance observée dans le graphique de dépendance partielle. En revanche, si les personnes présentant des comorbidités endocriniennes/métaboliques, notamment le diabète, ont également montré une tendance à une survie plus faible, cette différence n’était pas statistiquement significative (Fig. 3b, log-rank p=0,06). De plus, les courbes de survie stratifiées par âge ont révélé que les personnes âgées de plus de 70 ans avaient des résultats significativement moins bons que celles âgées de 70 ans ou moins (Fig. 3c, log-rank p=0,003). Ces résultats soulignent la valeur prédictive de l’âge et de la santé rénale dans les résultats de survie et renforcent l’interprétabilité des capacités de stratification du modèle.
Validation externe
Notre modèle le plus performant, la forêt de survie aléatoire rapide, a fait l’objet d’une validation externe par rapport à l’ensemble de données AIBL afin d’évaluer sa généralisation. Pour renforcer cette stratégie de validation, nous avons adopté une approche en deux étapes. Dans un premier temps, nous avons appliqué le modèle original le plus performant, entraîné sur l’ensemble complet des caractéristiques ADNI (FS1), à l’ensemble de données AIBL après avoir aligné les dimensions des caractéristiques en ajoutant des variables manquantes avec des valeurs neutres. Cela a donné un indice C de 0,73, démontrant une performance prédictive robuste et soulignant les capacités constantes du modèle sur l’ensemble des ensembles de données. Dans un deuxième temps, nous avons répété le processus en utilisant uniquement les caractéristiques communes à l’ADNI et à l’AIBL. Le modèle de forêt aléatoire rapide a été réentraîné à l’aide de ces caractéristiques communes et a obtenu un indice C de 0,79 sur l’ensemble de test ADNI et de 0,75 sur l’ensemble de données AIBL. Ensuite, comme l’imputation zéro peut introduire un biais, nous avons effectué une analyse de sensibilité en utilisant l’imputation multiple sur l’ensemble de données AIBL. Sur les cinq versions imputées, le modèle a obtenu un indice C combiné de 0,77, ce qui indique une meilleure généralisation dans des conditions moins biaisées et met en évidence la variabilité due aux données manquantes. Les performances internes sont restées stables, ce qui renforce la fiabilité du modèle. Les résultats des trois étapes de validation sont résumés dans le tableau 4.
Source de l’article



