Analyse de la machine à vecteur de support pour la survie
Nous avons ajusté deux modèles SSVM, l’un basé sur la moyenne des mesures de cytokines individuelles et l’autre basé sur la différence entre la dernière et la première mesure de cytokine enregistrée. Chaque modèle incorporait 48 cytokines et 25 variables de base comme covariables, dont les caractéristiques sont résumées dans le tableau 1. En utilisant le modèle survivalsvm de R, qui offre des options de modélisation flexibles (par exemple, régression, classement et méthodes hybrides), nous avons spécifiquement utilisé l’approche SVM hybride pour sa capacité à combiner des éléments de régression et de classement, comme indiqué dans l’équation (2). L’approche gamma.mu a été fixé à 0,5 pour équilibrer la régularisation, tandis que le paramètre opt.meth a été fixé à quadprogen invoquant l’outil quadprog pour la programmation quadratique. En outre, le noyau additif (\(add\_kernel\)) a été appliqué pour cartographier les données d’entrée dans un espace à plus haute dimension, améliorant ainsi la séparation des classes. Pour traiter la différenciation, nous avons utilisé la méthode diff1, qui évite l’hypothèse d’un premier point de données non censuré. La performance du modèle, mesurée par l’indice C (tableau 2), indique que le modèle basé sur la différence est plus performant que le modèle basé sur la moyenne, comme le montre un indice C plus élevé. L’analyse a été réalisée avec une graine fixe (set.semences(32024)) pour assurer la reproductibilité et 7 cœurs de CPU pour optimiser l’efficacité des calculs dans un environnement R.
Analyse de la forêt de survie aléatoire
Nous avons ajusté deux modèles de forêt de survie aléatoire, l’un basé sur la moyenne des cytokines et l’autre sur la différence des cytokines, en incorporant des arbres de survie construits avec les règles de division du log-rank et du log-rank score appliquées aux ensembles de données. Les covariables de ces modèles comprenaient 48 cytokines et 25 variables de base. Les caractéristiques résumées de ces modèles ajustés sont présentées dans le tableau 3. Pour assurer la reproductibilité, une graine fixe (set.semences(32024)). Nous avons spécifié 500 arbres (\N(arbre = 500\N)) pour obtenir un apprentissage d’ensemble robuste, tandis que la taille minimale des nœuds terminaux (\(nodesize = 50\)) a été défini pour contrôler la profondeur de l’arbre et éviter un surajustement. En outre, nous avons défini 5 divisions aléatoires par nœud (\N(nsplit = 5\N)) pour améliorer la performance prédictive grâce à la variabilité des candidats au fractionnement. Les bloc.taille a été fixée à 1, ce qui permet au modèle de construire un arbre par bloc de calcul, et l’importance des caractéristiques (\N(importance = VRAI\N)) a été activée pour mettre en évidence les prédicteurs influents. Ces modèles RSF ont été exécutés en R à l’aide de la fonction randomForestSRC avec 7 cœurs de CPU pour le calcul parallèle afin d’optimiser l’efficacité des calculs.
La forêt de survie aléatoire basée sur le modèle de la covariable cytokine moyenne a été ajustée, produisant des taux d’erreur de 31,10 % et 35,72 % pour les forêts construites à l’aide d’arbres de survie basés sur les règles de division du score log-rank et log-rank, respectivement. Notamment, ces taux d’erreur pour le modèle moyen sont considérablement plus élevés que ceux du modèle de différence, avec des taux d’erreur de 27,71 % et 34,85 %, respectivement (comme détaillé dans le tableau 3). Cette observation suggère la supériorité du modèle de différence sur le modèle moyen, le modèle de différence utilisant la règle de division log-rank obtenant la meilleure performance parmi tous les modèles. En outre, le taux d’erreur de la règle de division log-rank était inférieur à celui de la règle de division du score log-rank pour les deux modèles de covariables cytokines dérivées. En outre, nous avons effectué une analyse plus poussée en ajustant les modèles avec différents nombres d’arbres de survie (100, 200, 300, 400 et 500). Les taux d’erreur se sont stabilisés pour la règle de division log-rank à partir de 200 arbres de survie, alors que les règles de division du score log-rank ne s’étaient pas encore stabilisées même à 500 arbres de survie pour les deux modèles, comme l’illustre la figure 1.

Erreur de prédiction pour les forêts de survie de 500 arbres pour les modèles moyens (panneaux supérieurs) et les modèles de différence (panneaux inférieurs) pour le log-rank et le score log-rank dans les panneaux de gauche et de droite respectivement, en utilisant un ensemble de données d’entraînement de 80 %.
La mesure d’importance par permutation a été utilisée pour déterminer les cytokines les plus importantes et les variables de base liées à l’incidence du VIH47. L’utilisation du RSF permet d’inclure les 48 cytokines et les 25 covariables de base, indépendamment de leur conformité avec l’hypothèse PH de Cox, car cette hypothèse n’est pas une condition préalable. Le RSF fonctionne uniquement sur une base non paramétrique, ce qui évite de devoir adhérer à l’hypothèse PH de Cox pendant le processus de sélection des covariables.60. Dans l’analyse RSF du modèle moyen (voir Fig. 2), les 20 cytokines et covariables de base les plus cruciales et les plus fortement liées à l’incidence du VIH, telles qu’identifiées à l’aide de la règle de division log-rank, étaient les suivantes : MIG, SCF, M-CSF, TNF-A, IP-10, nombre de partenaires stables au cours de l’année écoulée, MIF, IL-9, IL-2RA, IL-6, autres sources de revenus, IL-1B, TNF-B, TRAIL, RANTES, G-CSF, IFN-G, nombre de partenaires occasionnels au cours de l’année écoulée, EOTAXIN et IL-17A. Les 20 premiers résultats identifiés par le score log-rank étaient les suivants : RANTES, M-CSF, état civil, partenaire sexuel et autre partenaire, MIG, IL-9, BASIC-FGF, SCF, IL-2RA, IL-1A, IL-7, TNF-A, IL-8, IFN-G, statut VIH du partenaire, HGF, IL-10 et MIP-1A.

Classement des cytokines et des variables de base les plus prédictives de l’incidence du VIH chez les femmes âgées de 18 à 40 ans pour le modèle moyen. L’importance de la variable est déterminée séparément pour les panneaux de gauche et de droite à l’aide de la méthode du log-rank (a) et le score log-rank (b), respectivement.
Selon l’analyse RSF de la différence mo-del (voir Fig. 3), les 20 cytokines et covariables de base les plus cruciales et les plus fortement liées à l’incidence du VIH, identifiées à l’aide de la règle de division log-rank, étaient MIG, IL-1B, IP-10, MIP-1B, G-CSF, TNF-A, SDF-1A, IL-8, IL-1RA, RANTES, IFN-G, IL-9, IL-2, PDF-BB, M-CSF, IL-15, nombre de partenaires stables au cours de l’année écoulée, HGF, TNF-B et IL-6. Les 20 premiers identifiés par le score log-rank étaient IL-1B, IL-1RA, RANTES, SDF-1A, IL-2, VEGF, G-CSF, IFN-G, B-NGF, SCF, statut marital, partenaire sexuel et autre partenaire, M-CSF, MIP-B, IP-10, MIG, statut VIH du partenaire, IL-1A, IL-3 et EOTAXIN.

Classement des cytokines et des variables de base les plus prédictives de l’incidence du VIH chez les femmes âgées de 18 à 40 ans pour le modèle de différence. L’importance de la variable est déterminée séparément pour les panneaux de gauche et de droite à l’aide de la méthode du log-rank (a) et le score log-rank (b), respectivement.
Performance prédictive
Nous avons évalué la performance du modèle dans le temps en utilisant les mesures de performance AUC et les scores de Brier (illustrés dans la Fig. 4) et la performance globale du modèle pendant toute la durée en utilisant l’indice de concordance et les scores de Brier intégrés (illustrés dans la Fig. 5). Ces évaluations ont été réalisées à la fois pour la règle du log-rank et la règle du log-rank avec fractionnement des scores à l’aide de la fonction R paquet survex61. Le modèle présentant des scores intégrés/de Brier plus faibles et des valeurs de SSC et d’indice de concordance plus élevées a été jugé plus performant au fil du temps et sur l’ensemble du domaine temporel, respectivement. La figure 5 indique que la règle de partage du log-rank du modèle de différence est plus performante que tous les autres modèles, tandis que la règle de partage du log-rank du modèle moyen est la moins performante. En général, le RSF avec la règle de division log-rank a démontré des performances supérieures à celles du RSF avec la règle de division du score log-rank.

Comparaison des performances des modèles RSF (la moyenne dans le panneau de gauche et les modèles de différence dans le panneau de droite) à l’aide de la règle du log-rank et du log-rank score split rule en utilisant la mesure de performance AUC (panneau supérieur) et le score de Brier (panneau inférieur) au fil du temps en utilisant l’ensemble de données d’entraînement à 80 %.

Comparaison des performances des modèles RSF sur l’ensemble du domaine temporel à l’aide de l’ensemble de données d’apprentissage de 80 %.
Nous avons étendu notre analyse en utilisant la méthode des explications additives de Shapley (SHAP) pour vérifier l’importance relative de notre cytokine et des variables de base. Une valeur SHAP de 0 indique une influence négligeable de la cytokine sur la prédiction de l’incidence du VIH, comme le montre le tableau 4. Les résultats du modèle moyen RSF utilisant la règle de division log-rank ont indiqué les cytokines suivantes BASIC-FGF, EOTAXIN, G-CSF, IL-15, IL-4, IL-5, IL-6, IL-9, IP-10, RANTES, TNF-A, M-CSF, MIG, et SCF et les variables de base ; le traitement, le niveau d’éducation le plus élevé, les autres sources de revenus, le nombre d’années passées à Durban, l’âge au début de la vie sexuelle, le nombre de partenaires stables au cours de l’année écoulée, le partenaire le plus âgé et la fréquence d’utilisation du préservatif ont eu une influence positive sur la prédiction de l’incidence du VIH. En outre, les cytokines GM-CSF, IL-15, IL-17A, IL-2, IL-18, MIF, TNF-B, TRAIL et B-NGF et les variables de base, à savoir le nombre de partenaires et les pertes anormales, ont eu une influence négative sur la prédiction des infections par le VIH.
Si l’on considère les résultats du modèle RSF moyen utilisant la règle de division du score log-rank, les cytokines ayant un effet positif sur la prédiction des infections par le VIH sont BASIC-FGF, IFN-G, IL-13, IL-5, IL-6, IL-7, MIP-1A, RANTES, TNF-A, VEGF, IL-12P40, IL_1A et M-CSF. En outre, les variables qui ont influencé négativement la prédiction de l’incidence du VIH sont l’IL-9, le HGF, l’IL-16, le MCP-3 et le MIG. En outre, les variables de base (site, niveau d’éducation le plus élevé, revenu autonome, salaire, revenu du mari, allocation sociale, autre revenu, montant du revenu, âge au début, nombre de partenaires, nombre de partenaires stables au cours de l’année écoulée, nombre de partenaires occasionnels au cours de l’année écoulée ou des 30 derniers jours, partenaire le plus âgé, partenaire sexuel ayant un autre partenaire et décharge anormale) n’ont aucun effet sur la prédiction de l’incidence du VIH, tandis que le fait de vivre avec un partenaire, le nombre d’années passées à Durban, la fréquence d’utilisation du préservatif et le statut VIH du partenaire sexuel influencent positivement la prédiction de l’infection par le VIH. Seul l’état matrimonial a un impact négatif sur la prédiction de l’incidence du VIH.
Les résultats du modèle de différence RSF utilisant la règle de division log-rank ont montré que les cytokines BASIC-FGF, EOTAXIN, IL-10, IL-17A, IL-5, IL-7, MIP-1A, TNF-A, MCP-3, TNF-B et B-NGF avaient un impact positif sur la prédiction de l’incidence du VIH. En outre, le G-CSF, le GM-CSF, l’IFN-G, l’IL-13, l’IL-15, l’IL-1B, l’IL-1RA, l’IL-2, l’IL-6, l’IL-8, l’IP-10, le MCP-1, le MIP-1B, le PDGF-BB, le RANTES, le GRO-A, le VEGF, le HGF, l’IFN-A2, l’IL-12P40, l’IL-16, l’IL-18, l’IL-1A, l’IL-2RA, l’IL-3, le MCS-F, le MIF, le MIG, le SCF, le SDF-1A et le TRAIL ont eu une influence négative sur la prédiction des infections par le VIH. Les covariables de base qui ont influencé positivement la prédiction de l’incidence du VIH sont : le traitement, le site, le fait de vivre avec un partenaire, le niveau d’éducation le plus élevé, le revenu autonome, le salaire, le revenu du mari, la subvention sociale, d’autres revenus, le montant du revenu, l’âge au moment de l’inscription, l’âge au début, le nombre de partenaires, le nombre de partenaires stables au cours de l’année écoulée, le nombre de partenaires occasionnels au cours de l’année écoulée et des 30 derniers jours, le nombre de rapports sexuels, le partenaire le plus âgé, la fréquence d’utilisation du préservatif et le statut sérologique du partenaire sexuel.
Les résultats du modèle de différence RSF utilisant la règle de division du score log-rank ont montré que les cytokines EOTAXIN, IL-5, IL-18, MCP_3 et B-NGF avaient un impact positif sur la prédiction de l’incidence du VIH. Cependant, le G-CSF, le GM-CSF, l’IFN-G, l’IL-10, le BASIc-FGF, l’IL-12P70, l’IL-13, l’IL-15, l’IL17-A, l’IL-1RA, l’IL-2, l’IL-4, l’IL-6, l’IL-7, l’IL-8, l’IL-9, l’IP-10, le MCP_1, le MIP-1A, le MIP-1B, le PDGF-BB, le RANTES, VEGF, GRO-A, VEGF, HGF, IFN-A2, IL-12P40, IL-16, IL-1A, IL-2RA, IL-3, LIF, MIF, MIG, SCF, SDF-1A, TNF-B et TRAIL ont influencé négativement la prédiction des infections par le VIH. Les variables de base qui ont influencé positivement la prédiction de l’incidence du VIH sont : le traitement, le site, le fait de vivre avec un partenaire, le niveau d’éducation le plus élevé, le revenu autonome, le salaire, la subvention sociale, d’autres revenus, le montant du revenu, le nombre d’années vécues à Durban, l’âge au début, le nombre de partenaires, le nombre de partenaires stables au cours des 30 derniers jours, le nombre de partenaires occasionnels au cours de l’année ou des 30 derniers jours, le nombre de rapports sexuels, le partenaire le plus âgé, le partenaire sexuel a un autre partenaire, la fréquence d’utilisation du préservatif, les pertes anormales et le statut sérologique du partenaire sexuel. L’état matrimonial a eu une influence négative sur la prédiction de l’incidence du VIH.

Performance prédictive du modèle moyen RSF pour le log-rank et le score log-rank dans le panneau de gauche et de droite respectivement, en utilisant un ensemble de données d’entraînement de 20 %.

Performance prédictive du modèle de différence RSF pour le log-rank et le score log-rank dans le panneau de gauche et de droite respectivement, en utilisant un ensemble de données d’entraînement de 20 %.
Les figures 6 et 7 illustrent la force de prédiction de l’effet des variables, de la plus élevée à la plus faible. L’axe vertical présente les noms des cytokines et des variables de base classés par ordre d’importance, les variables les mieux classées apparaissant en haut et les valeurs SHAP sur l’axe horizontal. Les cytokines/variables de base qui ont augmenté les prédictions sont représentées en vert, tandis que celles qui ont diminué les prédictions sont ombrées en rouge clair. Chaque point de données représente une ligne de l’ensemble de données original, les points rouge foncé indiquant la valeur SHAP moyenne. La majorité des cytokines ont eu une plus grande influence sur la prédiction de l’incidence du VIH, comme le montre leur classement plus élevé par rapport aux variables de base dans les modèles de moyenne et de différence lorsque l’on utilise les règles de log-rank et de log-rank-split. Fait remarquable, de nombreuses cytokines et variables de base ont influencé positivement la prédiction de l’incidence du VIH, tant dans les modèles de moyenne que de différence, en utilisant les règles de division du score log-rank et log-rank.
Les vingt variables ayant l’impact le plus significatif sur la prédiction de l’incidence du VIH identifiées par les valeurs SHAP du modèle moyen RSF lors de l’utilisation de la règle de division log-rank sont les suivantes ; MIG, SCF, M-CSF, IP-10, IL-1B, IL-2RA, TNF-A, IL-9, IL-5, IL-1A, IFN-G, RANTES, TNF-B, SDF-1A, partenaire le plus âgé, EOTAXIN, traitement, MIP-1A, MIF et LIF, tandis que celles identifiées en utilisant la règle de division du score log-rank étaient ; MIG, RANTES, TNF-A, SCF, M-CSF, IL-1B, IL-2RA, IFN-G, IL-1A, G-CSF, SASIC-FGF, SDF-1A, HGF, IL-9, IL-8, MIP-1A, IL-13, VEGF et IL-5. Les vingt variables ayant l’impact le plus significatif sur la prédiction de l’incidence du VIH identifiées par les valeurs SHAP du modèle de différence RSF lors de l’utilisation de la règle de division log-rank comprenaient : SDF-1A, MIP-1B, IL-1RA, IL-12P40, IL-1B, GM-CSF, RANTES, VEGF, IL-8, MIG, PDGF-BB, MCP-1, IL-2, CTACK, G-CSF, HGF, IL-6, IFN-G, EOTAXIN et TNF-A. Ceux identifiés par les valeurs SHAP du modèle de différence RSF utilisant la règle de division du score log-rank étaient RANTES, G-CSF, MIP-1B, IL-1B, VEGF, SDF-1A, M-CSF, IL-6, HGF, MCP-1, IL-2, IL-8, IL-1RA, PDGF-BB, IL-13, IP-10, MIF, SCF, IL-1A et IL-2RA.

Courbes ROC du modèle moyen RSF pour le log-rank et le score log-rank dans le panneau de gauche et de droite respectivement, en utilisant un ensemble de données d’entraînement de 20 %.

Courbes ROC du modèle de différence RSF pour le log-rank et le score log-rank dans le panneau de gauche et de droite respectivement, en utilisant un ensemble de données d’entraînement de 20 %.
En outre, des courbes ROC ont été tracées, comme illustré dans les figures 8 et 9, pour évaluer la performance des modèles de moyenne et de différence dans la prédiction de l’incidence du VIH en utilisant les règles de division du log-rank et du score log-rank. Ces courbes comparent le taux de vrais positifs (sensibilité) au taux de faux positifs (1 – spécificité), ce qui constitue un moyen essentiel d’évaluer la précision prédictive des modèles RSF62. Dans l’ensemble, la règle de division log-rank avait une meilleure performance prédictive sur un et deux ans que le score log-rank pour les modèles de moyenne et de différence.
Analyse des études d’ablation
L’étude d’ablation présentée dans le tableau 6 illustre l’impact de la taille de l’ensemble de caractéristiques sur les performances du modèle, évaluées par les modèles RSF en utilisant les règles de division des scores log-rank et log-rank pour les modèles de moyenne et de différence, chacun entraîné sur 80 % de l’ensemble de données (N=560). Pour le modèle moyen, l’inclusion des 50 et 60 premières caractéristiques a produit l’indice C le plus élevé de 0,8704 et 0,7716 en utilisant les règles de division du score log-rank et log-rank respectivement, ce qui indique que ces sous-ensembles de caractéristiques ont fourni l’équilibre prédictif optimal. Les performances du modèle ont légèrement diminué lorsque toutes les caractéristiques ont été incluses, avec un C-index de 0,8676 (log-rank) et de 0,7697 (log-rank score), ce qui suggère une baisse des performances prédictives lors de l’ajout de nouvelles caractéristiques. Pour le modèle de différence, la performance la plus élevée a été obtenue lorsque toutes les caractéristiques ont été incluses, avec des indices C de 0,88801 et 0,8380 pour les règles de division du log-rank et du log-rank respectivement. Les résultats indiquent que l’ensemble complet de caractéristiques fournit la précision prédictive optimale, bien que l’utilisation de moins de caractéristiques, en particulier les 40 à 70 premières, permette de maintenir des niveaux de performance comparables. Cela suggère que si le modèle bénéficie d’un ensemble complet de caractéristiques, les 40 à 70 premières caractéristiques capturent la majeure partie de la valeur prédictive, comme le montre la diminution minimale des règles de division des scores log-rank et log-rank lorsque l’on passe de toutes les caractéristiques à 40 à 70 caractéristiques. Dans l’ensemble, les deux modèles sont très performants avec des ensembles de caractéristiques réduits, ce qui souligne l’importance de la sélection des caractéristiques clés. En pratique, la sélection des 50 premières caractéristiques dans le modèle moyen et des 40 à 70 premières dans le modèle de différence peut constituer un équilibre quasi optimal entre la complexité du modèle et le pouvoir prédictif.
Source de l’article



