Forêt d’arbres décisionnels – Wikipédia
Un article de Wikipédia, l’encyclopédie libre.
Les forêts d’arbres décisionnels[[[[1] (ou forêts aléatoires de l’anglais classificateur de forêt aléatoire) ont été premièrement proposées par Ho en 1995[[[[2] et ont été formellement proposés en 2001 par Leo Breiman[[[[3] et Adèle Cutler[[[[4]. Elles font partie des techniques d’apprentissage automatique. Cet algorithme combine les concepts de sous-espaces aléatoires et de ensachage. L’algorithme des forêts d’arbres décisionnels effectue un apprentissage sur de multiples arbres de décision entraînés sur des sous-ensembles de données légèrement différentes.
La base du calcul repose sur l’apprentissage par arbre de décision. La proposition de Breiman[[[[3] vise à corriger plusieurs inconvénients connus de la méthode initiale, comme la sensibilité des arbres uniques à l’ordre des prédicteurs, en calculant un ensemble de arbres partiellement indépendants.
Une présentation rapide de la proposition[[[[5] peut s’exprimer comme suit:
- Créer nouveaux ensembles d’apprentissage par un double processus d’échantillonnage:
- sur les observations, en utilisant un tirage avec remise d’un nombre d’observations identiques à celui des données d’origine (technique connue sous le nom de amorcer),
- et sur les prédicteurs, en n’en retenant qu’un échantillon de cardinal (la limite n’est qu’indicative).
- Sur chaque échantillon, sur entraîne un arbre de décision selon une des techniques connues, en limitant la croissance par validation croisée.
- Sur stocke les prédictions de la variable d’intérêt pour chaque observation d’origine.
- La prédiction de la forêt aléatoire est alors un simple vote majoritaire (Apprentissage en ensemble).
Le principal inverse de cette méthode est que l’on perd l’aspect visuel des arbres de décision uniques.
Le modèle uplift est une application des forêts d’arbres décisionnels pour la détection des populations sensibles aux opérations de marketing ciblées.
Liens externes[[[[modificateur | modifier le code]
Logiciels[[[[modificateur | modifier le code]
- Programme RF original de Breiman et Cutler
- Random Jungle, une mise en œuvre rapide (C ++, calcul parallèle, structures creuses) pour les données sur les espaces de grandes dimensions
- Paquetage randomForest pour R, module de classification et de régression basée sur une forêt d’arbres à l’aide de données aléatoires. Basé sur le programme original en Fortran de Breiman et Cutler.
- STATISTICA Forêts Aléatoires est un module dédié aux forêts d’arbres décisionnels intégrés dans Statistica Data Miner.
Remarques[[[[modificateur | modifier le code]
- Robert Nisbet, John Elder, Gary Miner, Manuel pour l’analyse statistique et l’exploration de données, Academic Press, Page 247 Edition 2009
- Ho, Tin Kam, « Forêts à décision aléatoire », Actes de la 3e Conférence internationale sur l’analyse et la reconnaissance des documents, Montréal, QC, Du 14 au 16 août 1995, p. 278-282 (lire en ligne)
- Leo Breiman, « Forêts aléatoires », Apprentissage automatique, vol. 45, no 1, , p. 5–32 (EST CE QUE JE 10.1023 / A: 1010933404324)
- Andy Liaw, « Documentation pour R package randomForest »,
- Pirmin Lemberger, Marc Batty, Médéric Morille et Jean-Luc Raffaëlli, Big Data et Machine Learning, Dunod, , pp 130-131.
(fr) Breiman, Leo, « Modélisation statistique: les deux cultures », Science statistique, vol. 16, no 3, , p. 199-231 (lire en ligne).
Source de l’article