Forêt aléatoire – Wikipedia

Techniques
30 avril 2020
2118
252 minutes read

Une méthode d’apprentissage machine d’ensemble

Forêts aléatoires ou forêts à décision aléatoire sont une méthode d’apprentissage d’ensemble pour la classification, la régression et d’autres tâches qui fonctionnent en construisant une multitude d’arbres de décision au moment de la formation et en produisant la classe qui est le mode des classes (classification) ou la prédiction moyenne (régression) des arbres individuels.^[1]^[2] Les forêts de décision aléatoire corrigent l’habitude des arbres de décision de sur-adapter à leur ensemble d’entraînement.^[3]^:587–588

Le premier algorithme pour les forêts à décision aléatoire a été créé par Tin Kam Ho^[1] en utilisant la méthode du sous-espace aléatoire,^[2] ce qui, dans la formulation de Ho, est un moyen de mettre en œuvre l’approche de “discrimination stochastique” de la classification proposée par Eugene Kleinberg.^[4]^[5]^[6]

Une extension de l’algorithme a été développée par Leo Breiman^[7] et Adele Cutler,^[8] qui s’est inscrit^[9] “Random Forests” en tant que marque (à partir de 2019^[update], propriété de Minitab, Inc.).^[10] L’extension combine l’idée «d’ensachage» de Breiman et une sélection aléatoire de fonctionnalités, introduite en premier par Ho^[1] et plus tard indépendamment par Amit et Geman^[11] afin de construire une collection d’arbres de décision avec variance contrôlée.

Histoire[[[[Éditer]

La méthode générale des forêts à décision aléatoire a été proposée pour la première fois par Ho en 1995.^[1] Ho a établi que les forêts d’arbres se séparant avec des hyperplans obliques peuvent gagner en précision à mesure qu’elles grandissent sans souffrir de surentraînement, tant que les forêts sont limitées au hasard pour être sensibles aux seules dimensions de caractéristiques sélectionnées. Un travail ultérieur dans le même sens^[2] ont conclu que d’autres méthodes de fractionnement se comportent de la même manière, à condition qu’elles soient forcées au hasard d’être insensibles à certaines dimensions de caractéristiques. Notez que cette observation d’un classificateur plus complexe (une forêt plus grande) devenant plus précise presque monotone contraste fortement avec la croyance commune selon laquelle la complexité d’un classificateur ne peut atteindre qu’un certain niveau de précision avant d’être blessée par un sur-ajustement. L’explication de la résistance de la méthode forestière au surentraînement peut être trouvée dans la théorie de Kleinberg de la discrimination stochastique.^[4]^[5]^[6]

Le développement précoce de la notion de Breiman de forêts aléatoires a été influencé par les travaux d’Amit et
Geman^[11] qui a introduit l’idée de rechercher sur un sous-ensemble aléatoire de la
décisions disponibles lors de la division d’un nœud, dans le contexte de la croissance d’un seul
arbre. L’idée de la sélection aléatoire de sous-espaces de Ho^[2] était également influent dans la conception de forêts aléatoires. Dans cette méthode, une forêt d’arbres est cultivée,
et la variation entre les arbres est introduite en projetant les données de formation
dans un sous-espace choisi au hasard avant d’ajuster chaque arbre ou chaque nœud. Enfin, l’idée de
optimisation aléatoire des nœuds, où la décision à chaque nœud est sélectionnée par un
procédure randomisée, plutôt qu’une optimisation déterministe a d’abord été
présenté par Dietterich.^[12]

L’introduction de forêts aléatoires proprement dites a d’abord été faite dans un document
par Leo Breiman.^[7] Cet article décrit une méthode de construction d’une forêt de
arbres non corrélés utilisant une procédure de type CART, combinés avec un nœud aléatoire
optimisation et ensachage. En outre, ce document combine plusieurs
ingrédients, certains déjà connus et certains nouveaux, qui constituent la base de la
la pratique moderne des forêts aléatoires, en particulier:

Utilisation d’une erreur hors du sac comme estimation de l’erreur de généralisation.
Mesurer l’importance variable par permutation.

Le rapport propose également le premier résultat théorique pour les forêts aléatoires
forme d’une borne sur l’erreur de généralisation qui dépend de la force de la
arbres dans la forêt et leur corrélation.

Algorithme[[[[Éditer]

Préliminaires: apprentissage par arbre de décision[[[[Éditer]

Les arbres de décision sont une méthode populaire pour diverses tâches d’apprentissage automatique. Apprentissage de l’arbre “venir[s] le plus proche de répondre aux exigences pour servir de procédure standard pour l’exploration de données “, dit Hastie et al., “car il est invariant sous l’échelle et diverses autres transformations de valeurs d’entités, est robuste à l’inclusion d’entités non pertinentes et produit des modèles inspectables. Cependant, ils sont rarement précis”.^[3]^:352

En particulier, les arbres qui poussent très profondément ont tendance à apprendre des schémas très irréguliers: ils s’adaptent à leurs ensembles d’entraînement, c’est-à-dire ont un biais faible, mais une variance très élevée. Les forêts aléatoires sont un moyen de faire la moyenne de plusieurs arbres de décision profonds, entraînés sur différentes parties du même ensemble d’apprentissage, dans le but de réduire la variance.^[3]^:587–588 Cela se fait au détriment d’une légère augmentation du biais et d’une certaine perte d’interprétabilité, mais augmente généralement considérablement les performances du modèle final.

Ensachage[[[[Éditer]

L’algorithme de formation pour les forêts aléatoires applique la technique générale d’agrégation bootstrap, ou ensachage, aux apprenants d’arbres. Étant donné un ensemble de formation $X$ = $X 1$ , …, $X n$ avec réponses $Oui$ = $y 1$ , …, $y n$ , ensachage à plusieurs reprises (B fois) sélectionne un échantillon aléatoire avec remplacement de l’ensemble d’apprentissage et ajuste les arbres à ces échantillons:

Pour

b

= 1, …,

B

Échantillon, avec remplacement, $n$ exemples de formation de $X$ , $Oui$ ; appelle ça $X b$ , $Oui b$ .
Former un arbre de classification ou de régression $F b$ sur $X b$ , $Oui b$ .

Après l’entraînement, prédictions pour des échantillons invisibles $X’$ peut être faite en faisant la moyenne des prévisions de tous les arbres de régression individuels sur $X’$ :

{ displaystyle { hat {f}} = { frac {1} {B}} sum _ {b = 1} ^ {B} f_ {b} (x ‘)}

ou en prenant le vote majoritaire dans le cas des arbres de classement.

Cette procédure d’amorçage conduit à de meilleures performances du modèle car elle diminue la variance du modèle, sans augmenter le biais. Cela signifie que bien que les prédictions d’un seul arbre soient très sensibles au bruit dans son ensemble d’apprentissage, la moyenne de nombreux arbres ne l’est pas, tant que les arbres ne sont pas corrélés. La simple formation de plusieurs arbres sur un seul ensemble d’entraînement donnerait des arbres fortement corrélés (ou même le même arbre plusieurs fois, si l’algorithme d’apprentissage est déterministe); l’échantillonnage bootstrap est un moyen de décorréler les arbres en leur montrant différents ensembles d’apprentissage.

De plus, une estimation de l’incertitude de la prédiction peut être faite comme l’écart type des prédictions de tous les arbres de régression individuels sur $X’$ :

{displaystyle sigma ={sqrt {frac {sum _{b=1}^{B}(f_{b}(x')-{hat {f}})^{2}}{B-1}}}.}

Le nombre d’échantillons / arbres, $B$ , est un paramètre libre. En règle générale, quelques centaines à plusieurs milliers d’arbres sont utilisés, selon la taille et la nature de l’ensemble d’entraînement. Un nombre optimal d’arbres $B$ peut être trouvé en utilisant la validation croisée ou en observant les erreur hors du sac: l’erreur de prédiction moyenne sur chaque échantillon d’apprentissage $xᵢ$ , en utilisant uniquement les arbres qui n’avaient pas $xᵢ$ dans leur échantillon bootstrap.^[13]

L’erreur de formation et de test a tendance à se stabiliser après qu’un certain nombre d’arbres ont été ajustés.

De l’ensachage aux forêts aléatoires[[[[Éditer]

La procédure ci-dessus décrit l’algorithme d’ensachage d’origine pour les arbres. Les forêts aléatoires ne diffèrent que d’une seule façon de ce schéma général: elles utilisent un algorithme d’apprentissage d’arbre modifié qui sélectionne, à chaque division candidate dans le processus d’apprentissage, un sous-ensemble aléatoire des caractéristiques. Ce processus est parfois appelé «mise en sac des fonctionnalités». La raison pour cela est la corrélation des arbres dans un échantillon de bootstrap ordinaire: si une ou quelques fonctionnalités sont des prédicteurs très forts pour la variable de réponse (sortie cible), ces fonctionnalités seront sélectionnées dans de nombreux $B$ arbres, ce qui les rend corrélés. Ho fournit une analyse de la façon dont l’ensachage et la projection aléatoire dans le sous-espace contribuent à des gains de précision dans différentes conditions.^[14]

En règle générale, pour un problème de classification avec $p$ traits, √ $p$ (arrondi vers le bas) des fonctions sont utilisées dans chaque division.^[3]^:592 Pour les problèmes de régression, les inventeurs recommandent $p / 3$ (arrondi vers le bas) avec une taille de nœud minimale de 5 par défaut.^[3]^:592. En pratique, les meilleures valeurs pour ces paramètres dépendent du problème et doivent être traitées comme des paramètres de réglage^[3]^:592.

[[[[Éditer]

Ajout d’une étape supplémentaire de rendements de randomisation arbres extrêmement randomisésou ExtraTrees. Bien qu’ils soient similaires aux forêts aléatoires ordinaires en ce qu’ils constituent un ensemble d’arbres individuels, il existe deux différences principales: premièrement, chaque arbre est formé en utilisant l’échantillon d’apprentissage complet (plutôt qu’un échantillon bootstrap), et deuxièmement, la division descendante en l’apprenant de l’arbre est randomisé. Au lieu de calculer localement optimal point de coupure pour chaque caractéristique considérée (sur la base, par exemple, du gain d’informations ou de l’impureté de Gini), Aléatoire le point de coupure est sélectionné. Cette valeur est sélectionnée à partir d’une distribution uniforme dans la plage empirique de l’entité (dans l’ensemble d’apprentissage de l’arbre). Ensuite, parmi toutes les divisions générées aléatoirement, la division qui donne le score le plus élevé est choisie pour diviser le nœud. Semblable aux forêts aléatoires ordinaires, le nombre d’entités sélectionnées au hasard à prendre en compte à chaque nœud peut être spécifié. Les valeurs par défaut de ce paramètre sont ${displaystyle {sqrt {p}}}$ pour la classification et ${ displaystyle p}$ pour la régression, où ${ displaystyle p}$ est le nombre de fonctions du modèle. [15]

Propriétés[[[[Éditer]

Importance variable[[[[Éditer]

Les forêts aléatoires peuvent être utilisées pour classer de manière naturelle l’importance des variables dans un problème de régression ou de classification. La technique suivante a été décrite dans l’article original de Breiman^[7] et est implémenté dans le package R randomForest.^[8]

La première étape pour mesurer l’importance variable dans un ensemble de données ${ displaystyle { mathcal {D}} _ {n} = {(X_ {i}, Y_ {i}) } _ {i = 1} ^ {n}}$ consiste à ajuster une forêt aléatoire aux données. Pendant le processus d’ajustement, l’erreur hors du sac pour chaque point de données est enregistrée et moyenne sur la forêt (les erreurs sur un ensemble de test indépendant peuvent être remplacées si l’ensachage n’est pas utilisé pendant la formation).

Pour mesurer l’importance du ${ displaystyle j}$ -th caractéristique après la formation, les valeurs de la ${ displaystyle j}$ -la caractéristique est permutée parmi les données d’apprentissage et l’erreur hors du sac est à nouveau calculée sur cet ensemble de données perturbé. Le score d’importance pour le ${ displaystyle j}$ -th caractéristique est calculée en faisant la moyenne de la différence d’erreur hors du sac avant et après la permutation sur tous les arbres. Le score est normalisé par l’écart-type de ces différences.

Les entités qui produisent de grandes valeurs pour ce score sont classées comme plus importantes que les entités qui produisent de petites valeurs. La définition statistique de la mesure d’importance variable a été donnée et analysée par Zhu et al.^[16]

Cette méthode de détermination de l’importance variable présente certains inconvénients. Pour les données comprenant des variables catégorielles avec un nombre différent de niveaux, les forêts aléatoires sont biaisées en faveur des attributs avec plus de niveaux. Méthodes telles que les permutations partielles^[17]^[18]

et faire pousser des arbres impartiaux^[19]^[20]peut être utilisé pour résoudre le problème. Si les données contiennent des groupes de caractéristiques corrélées de pertinence similaire pour la sortie, les groupes plus petits sont préférés aux groupes plus grands.^[21]

Relation avec les voisins les plus proches[[[[Éditer]

Une relation entre les forêts aléatoires et la $k$ -algorithme de voisin le plus proche ( $k$ -NN) a été souligné par Lin et Jeon en 2002.^[22] Il s’avère que les deux peuvent être considérés comme soi-disant régimes de quartiers pondérés. Ce sont des modèles construits à partir d’un ensemble de formation ${ displaystyle {(x_ {i}, y_ {i}) } _ {i = 1} ^ {n}}$ qui font des prédictions ${ displaystyle { hat {y}}}$ pour de nouveaux points $X’$ en regardant le “voisinage” du point, formalisé par une fonction de poids $W$ :

{ displaystyle { hat {y}} = sum _ {i = 1} ^ {n} W (x_ {i}, x ‘) , y_ {i}.}

Ici, ${ displaystyle W (x_ {i}, x ‘)}$ est le poids non négatif du $je$ ‘e point d’entraînement par rapport au nouveau point $X’$ dans le même arbre. Pour tout particulier $X’$ , les poids des points ${ displaystyle x_ {i}}$ doit résumer à un. Les fonctions de poids sont données comme suit:

Dans $k$ -NN, les poids sont ${ displaystyle W (x_ {i}, x ‘) = { frac {1} {k}}}$ si $X je$ est l’un des $k$ points les plus proches de $X’$ et zéro sinon.
Dans un arbre, ${ displaystyle W (x_ {i}, x ‘) = { frac {1} {k’}}}$ si $X je$ est l’un des $k ‘$ pointe dans la même feuille que $X’$ et zéro sinon.

Puisqu’une forêt fait la moyenne des prévisions d’un ensemble de $m$ arbres avec fonctions de poids individuelles ${ displaystyle W_ {j}}$ , ses prédictions sont

{ displaystyle { hat {y}} = { frac {1} {m}} sum _ {j = 1} ^ {m} sum _ {i = 1} ^ {n} W_ {j} ( x_ {i}, x ‘) , y_ {i} = sum _ {i = 1} ^ {n} left ({ frac {1} {m}} sum _ {j = 1} ^ { m} W_ {j} (x_ {i}, x ‘) droite) , y_ {i}.}

Cela montre que toute la forêt est à nouveau un schéma de voisinage pondéré, avec des poids qui font la moyenne de ceux des arbres individuels. Les voisins de $X’$ dans cette interprétation sont les points ${ displaystyle x_ {i}}$ partager la même feuille dans n’importe quel arbre ${ displaystyle j}$ . De cette façon, le quartier de $X’$ dépend de manière complexe de la structure des arbres, et donc de la structure de l’ensemble d’apprentissage. Lin et Jeon montrent que la forme du quartier utilisé par une forêt aléatoire s’adapte à l’importance locale de chaque entité.^[22]

Apprentissage non supervisé avec des forêts aléatoires[[[[Éditer]

Dans le cadre de leur construction, les prédicteurs forestiers aléatoires conduisent naturellement à une mesure de dissimilarité entre les observations. On peut également définir une mesure de dissimilarité aléatoire des forêts entre des données non étiquetées: l’idée est de construire un prédicteur aléatoire des forêts qui distingue les données «observées» des données synthétiques générées de manière appropriée.^[7]^[23]

Les données observées sont les données d’origine non étiquetées et les données synthétiques sont tirées d’une distribution de référence. Une dissimilarité aléatoire des forêts peut être intéressante car elle gère très bien les types de variables mixtes, est invariante aux transformations monotones des variables d’entrée et est robuste aux observations périphériques. La dissemblance aléatoire des forêts traite facilement un grand nombre de variables semi-continues en raison de sa sélection de variables intrinsèques; par exemple, la dissimilarité aléatoire de forêt “Addcl 1” pèse la contribution de chaque variable selon sa dépendance à d’autres variables. La dissemblance aléatoire des forêts a été utilisée dans une variété d’applications, par ex. pour trouver des grappes de patients en fonction des données des marqueurs tissulaires.^[24]

Variantes[[[[Éditer]

Au lieu d’arbres de décision, des modèles linéaires ont été proposés et évalués comme estimateurs de base dans les forêts aléatoires, en particulier la régression logistique multinomiale et les classificateurs bayésiens naïfs.^[25]^[26]

Forêt aléatoire de noyau[[[[Éditer]

Dans l’apprentissage automatique, les forêts aléatoires du noyau établissent la connexion entre les forêts aléatoires et les méthodes du noyau. En modifiant légèrement leur définition, les forêts aléatoires peuvent être réécrites en tant que méthodes du noyau, qui sont plus interprétables et plus faciles à analyser.^[27]

Histoire[[[[Éditer]

Leo Breiman^[28] a été la première personne à remarquer le lien entre la forêt aléatoire et les méthodes du noyau. Il a souligné que les forêts aléatoires qui sont cultivées en utilisant i.i.d. les vecteurs aléatoires dans la construction de l’arbre sont équivalents à un noyau agissant sur la vraie marge. Lin et Jeon^[29] a établi le lien entre les forêts aléatoires et le plus proche voisin adaptatif, ce qui implique que les forêts aléatoires peuvent être considérées comme des estimations adaptatives du noyau. Davies et Ghahramani^[30] proposé Random Forest Kernel et montrer qu’il peut surpasser empiriquement les méthodes de noyau de pointe. Scornet^[27] a d’abord défini les estimations KeRF et a donné le lien explicite entre les estimations KeRF et la forêt aléatoire. Il a également donné des expressions explicites pour les noyaux basés sur une forêt aléatoire centrée^[31] et forêt aléatoire uniforme,^[32] deux modèles simplifiés de forêt aléatoire. Il a nommé ces deux KeRF KeRF centré et KeRF uniforme, et a prouvé les limites supérieures de leurs taux de cohérence.

Notations et définitions[[[[Éditer]

Préliminaires: Forêts centrées[[[[Éditer]

Forêt centrée^[31] est un modèle simplifié pour la forêt aléatoire d’origine de Breiman, qui sélectionne uniformément un attribut parmi tous les attributs et effectue des séparations au centre de la cellule le long de l’attribut présélectionné. L’algorithme s’arrête lorsqu’un arbre de niveau entièrement binaire ${ displaystyle k}$ est construit, où ${ displaystyle k in mathbb {N}}$ est un paramètre de l’algorithme.

Forêt uniforme[[[[Éditer]

Forêt uniforme^[32] est un autre modèle simplifié pour la forêt aléatoire d’origine de Breiman, qui sélectionne uniformément une entité parmi toutes les entités et effectue des fractionnements en un point uniformément dessiné sur le côté de la cellule, le long de l’entité présélectionnée.

De la forêt aléatoire à KeRF[[[[Éditer]

Étant donné un échantillon de formation ${ displaystyle { mathcal {D}} _ {n} = {( mathbf {X} _ {i}, Y_ {i}) } _ {i = 1} ^ {n}}$ de ${ displaystyle [0,1]^ {p} times mathbb {R}}$ -évalué des variables aléatoires indépendantes distribuées comme la paire prototype indépendante ${ displaystyle ( mathbf {X}, Y)}$ , où ${ displaystyle operatorname {E} [Y^{2}]< infty}$ . Nous visons à prédire la réponse ${ displaystyle Y}$ , associée à la variable aléatoire ${ displaystyle mathbf {X}}$ , en estimant la fonction de régression ${ displaystyle m ( mathbf {x}) = operatorname {E} [Ymid mathbf {X} =mathbf {x} ]}$ . Une forêt de régression aléatoire est un ensemble de ${ displaystyle M}$ arbres de régression randomisés. Dénoter ${ displaystyle m_ {n} ( mathbf {x}, mathbf { Theta} _ {j})}$ la valeur prédite au point ${ displaystyle mathbf {x}}$ par le ${ displaystyle j}$ -th arbre, où ${ displaystyle mathbf { Theta} _ {1}, ldots, mathbf { Theta} _ {M}}$ sont des variables aléatoires indépendantes, distribuées comme une variable aléatoire générique ${ displaystyle mathbf { Theta}}$ , indépendant de l’échantillon ${ displaystyle { mathcal {D}} _ {n}}$ . Cette variable aléatoire peut être utilisée pour décrire le caractère aléatoire induit par la division des nœuds et la procédure d’échantillonnage pour la construction d’arbres. Les arbres sont combinés pour former l’estimation de la forêt finie ${ displaystyle m_ {M, n} ( mathbf {x}, Theta _ {1}, ldots, Theta _ {M}) = { frac {1} {M}} sum _ {j = 1} ^ {M} m_ {n} ( mathbf {x}, Theta _ {j})}$ .
Pour les arbres de régression, nous avons ${ displaystyle m_ {n} = sum _ {i = 1} ^ {n} { frac {Y_ {i} mathbf {1} _ { mathbf {X} _ {i} in A_ {n} ( mathbf {x}, Theta _ {j})}} {N_ {n} ( mathbf {x}, Theta _ {j})}}}$ , où ${ displaystyle A_ {n} ( mathbf {x}, Theta _ {j})}$ est la cellule contenant ${ displaystyle mathbf {x}}$ , conçu de façon aléatoire ${ displaystyle Theta _ {j}}$ et jeu de données ${ displaystyle { mathcal {D}} _ {n}}$ , et ${ displaystyle N_ {n} ( mathbf {x}, Theta _ {j}) = sum _ {i = 1} ^ {n} mathbf {1} _ { mathbf {X} _ {i} dans A_ {n} ( mathbf {x}, Theta _ {j})}}$ .

Ainsi, les estimations aléatoires des forêts satisfont, pour ${ displaystyle mathbf {x} in [0,1]^ {d}}$ , ${ displaystyle m_ {M, n} ( mathbf {x}, Theta _ {1}, ldots, Theta _ {M}) = { frac {1} {M}} sum _ {j = 1} ^ {M} left ( sum _ {i = 1} ^ {n} { frac {Y_ {i} mathbf {1} _ { mathbf {X} _ {i} in A_ {n } ( mathbf {x}, Theta _ {j})}} {N_ {n} ( mathbf {x}, Theta _ {j})}} right)}$ . La forêt de régression aléatoire a deux niveaux de moyenne, d’abord sur les échantillons dans la cellule cible d’un arbre, puis sur tous les arbres. Ainsi, les contributions des observations qui se trouvent dans des cellules avec une forte densité de points de données sont plus petites que celles des observations qui appartiennent à des cellules moins peuplées. Afin d’améliorer les méthodes de forêt aléatoire et de compenser la mauvaise estimation, Scornet^[27] KeRF défini par

{ displaystyle { tilde {m}} _ {M, n} ( mathbf {x}, Theta _ {1}, ldots, Theta _ {M}) = { frac {1} { sum _ {j = 1} ^ {M} N_ {n} ( mathbf {x}, Theta _ {j})}} sum _ {j = 1} ^ {M} sum _ {i = 1} ^ {n} Y_ {i} mathbf {1} _ { mathbf {X} _ {i} dans A_ {n} ( mathbf {x}, Theta _ {j})},}

qui est égal à la moyenne de la ${ displaystyle Y_ {i}}$ tombe dans les cellules contenant ${ displaystyle mathbf {x}}$ dans la foret. Si nous définissons la fonction de connexion de la ${ displaystyle M}$ forêt finie comme ${ displaystyle K_ {M, n} ( mathbf {x}, mathbf {z}) = { frac {1} {M}} sum _ {j = 1} ^ {M} mathbf {1} _ { mathbf {z} dans A_ {n} ( mathbf {x}, Theta _ {j})}}$ , c’est-à-dire la proportion de cellules partagées entre ${ displaystyle mathbf {x}}$ et ${ displaystyle mathbf {z}}$ , alors nous avons presque sûrement ${ displaystyle { tilde {m}} _ {M, n} ( mathbf {x}, Theta _ {1}, ldots, Theta _ {M}) = { frac { sum _ {i = 1} ^ {n} Y_ {i} K_ {M, n} ( mathbf {x}, mathbf {x} _ {i})} { sum _ { ell = 1} ^ {n} K_ {M, n} ( mathbf {x}, mathbf {x} _ { ell})}}}$ , qui définit le KeRF.

Centré KeRF[[[[Éditer]

La construction du KeRF Centré de niveau ${ displaystyle k}$ est la même que pour la forêt centrée, sauf que les prédictions sont faites par ${ displaystyle { tilde {m}} _ {M, n} ( mathbf {x}, Theta _ {1}, ldots, Theta _ {M})}$ , la fonction de noyau ou la fonction de connexion correspondante est

{ displaystyle { begin {aligné} K_ {k} ^ {cc} ( mathbf {x}, mathbf {z}) = sum _ {k_ {1}, ldots, k_ {d}, sum _ {j = 1} ^ {d} k_ {j} = k} & { frac {k!} {k_ {1}! cdots k_ {d}!}} left ({ frac {1} { d}} à droite) ^ {k} prod _ {j = 1} ^ {d} mathbf {1} _ { lceil 2 ^ {k_ {j}} x_ {j} rceil = lceil 2 ^ {k_ {j}} z_ {j} rceil}, \ & { text {pour tous}} mathbf {x}, mathbf {z} in [0,1]^ {d}. end {aligné}}}

Uniform KeRF[[[[Éditer]

Uniforme KeRF est construit de la même manière que la forêt uniforme, sauf que les prédictions sont faites par ${ displaystyle { tilde {m}} _ {M, n} ( mathbf {x}, Theta _ {1}, ldots, Theta _ {M})}$ , la fonction de noyau ou la fonction de connexion correspondante est

{ displaystyle K_ {k} ^ {uf} ( mathbf {0}, mathbf {x}) = sum _ {k_ {1}, ldots, k_ {d}, sum _ {j = 1} ^ {d} k_ {j} = k} { frac {k!} {k_ {1}! ldots k_ {d}!}} left ({ frac {1} {d}} right) ^ {k} prod _ {m = 1} ^ {d} left (1- | x_ {m} | sum _ {j = 0} ^ {k_ {m} -1} { frac {(- ln | x_ {m} |) ^ {j}} {j!}} droite) { text {pour tous}} mathbf {x} in [0,1]^ {d}.}

Propriétés[[[[Éditer]

Relation entre KeRF et forêt aléatoire[[[[Éditer]

Les prédictions fournies par KeRF et les forêts aléatoires sont proches si le nombre de points dans chaque cellule est contrôlé:

Supposons qu’il existe des séquences ${ displaystyle (a_ {n}), (b_ {n})}$ de telle sorte que, presque sûrement,

${ displaystyle a_ {n} leq N_ {n} ( mathbf {x}, Theta) leq b_ {n} { text {and}} a_ {n} leq { frac {1} {M }} sum _ {m = 1} ^ {M} N_ {n} { mathbf {x}, Theta _ {m}} leq b_ {n}.}$

Alors presque sûrement,

${ displaystyle | m_ {M, n} ( mathbf {x}) – { tilde {m}} _ {M, n} ( mathbf {x}) | leq { frac {b_ {n} – a_ {n}} {a_ {n}}} { tilde {m}} _ {M, n} ( mathbf {x}).}$

Relation entre KeRF infini et forêt aléatoire infinie[[[[Éditer]

Lorsque le nombre d’arbres ${ displaystyle M}$ va à l’infini, alors nous avons une forêt aléatoire infinie et une KeRF infinie. Leurs estimations sont proches si le nombre d’observations dans chaque cellule est limité:

Supposons qu’il existe des séquences ${ displaystyle ( varepsilon _ {n}), (a_ {n}), (b_ {n})}$ de telle sorte que, presque sûrement

${ displaystyle operatorname {E} [N_{n}(mathbf {x} ,Theta )] geq 1,}$

${ displaystyle operatorname {P} [a_{n}leq N_{n}(mathbf {x} ,Theta )leq b_{n}mid {mathcal {D}}_{n}] geq 1- varepsilon _ {n} / 2,}$

${ displaystyle operatorname {P}[a_{n}leqoperatorname{E}_{Theta}[a_{n}leqoperatorname{E}_{Theta}[a_{n}leqoperatorname{E}_{Theta}[a_{n}leqoperatorname{E}_{Theta}[N_{n}(mathbf {x} ,Theta )] leq b_ {n} mid { mathcal {D}} _ {n}] geq 1- varepsilon _ {n} / 2,}$

Alors presque sûrement,

${ displaystyle | m _ { infty, n} ( mathbf {x}) – { tilde {m}} _ { infty, n} ( mathbf {x}) | leq { frac {b_ {n } -a_ {n}} {a_ {n}}} { tilde {m}} _ { infty, n} ( mathbf {x}) + n varepsilon _ {n} left ( max _ { 1 leq i leq n} Y_ {i} droite).}$

Résultats de cohérence[[[[Éditer]

Suppose que ${ displaystyle Y = m ( mathbf {X}) + varepsilon}$ , où ${ displaystyle varepsilon}$ est un bruit gaussien centré, indépendant de ${ displaystyle mathbf {X}}$ , avec variance finie ${ displaystyle sigma ^ {2} < infty}$ . De plus, ${ displaystyle mathbf {X}}$ est uniformément répartie sur ${ displaystyle [0,1]^ {d}}$ et ${ displaystyle m}$ est Lipschitz. Scornet^[27] limites supérieures prouvées sur les taux de cohérence pour KeRF centré et KeRF uniforme.

Cohérence du KeRF centré[[[[Éditer]

Fournir ${ displaystyle k rightarrow infty}$ et ${ displaystyle n / 2 ^ {k} rightarrow infty}$ , il existe une constante ${ displaystyle C_ {1}> 0}$ ,
${ displaystyle mathbb {E} [{tilde {m}}_{n}^{cc}(mathbf {X} )-m(mathbf {X} )]^ {2} leq C_ {1} n ^ {- 1 / (3 + d log 2)} ( log n) ^ {2}}$ .

Cohérence de KeRF uniforme[[[[Éditer]

Fournir ${ displaystyle k rightarrow infty}$ et ${ displaystyle n / 2 ^ {k} rightarrow infty}$ , il existe une constante ${ displaystyle C> 0}$ .

RF dans les travaux scientifiques[[[[Éditer]

Cette section a besoin d’expansion avec: exemples supplémentaires et clarification. Vous pouvez aider en y ajouter. Une discussion pertinente peut être trouvée sur le page de discussion. (Février 2019)

L’algorithme est souvent utilisé dans les travaux scientifiques en raison de ses avantages. Par exemple, il peut être utilisé pour évaluer la qualité de Wikipédia des articles.^[33]^[34]^[35]

Implémentations open source[[[[Éditer]

Le RF d’origine par Breiman et Cutler écrit en Fortran 77.
ALGLIB contient une modification de la forêt aléatoire en C #, C ++, Pascal, VBA.
fête Implémentation basée sur les arbres d’inférence conditionnelle dans R.
randomForest pour la classification et la régression dans R.
Implémentation de Python avec des exemples dans scikit-learn.
Exploration de données Orange La suite comprend un apprenant aléatoire de la forêt et peut visualiser la forêt formée.
Matlab la mise en oeuvre.
SQP Le logiciel utilise un algorithme de forêt aléatoire pour prédire la qualité des questions d’enquête, en fonction des caractéristiques formelles et linguistiques de la question.
Weka RandomForest dans la bibliothèque Java et l’interface graphique.
ranger Une implémentation C ++ de forêt aléatoire pour la classification, la régression, la probabilité et la survie. Comprend une interface pour R.

Voir également[[[[Éditer]

Références[[[[Éditer]

^ ^une ^b ^c ^ré Ho, Tin Kam (1995). Forêts à décision aléatoire (PDF). Actes de la 3e Conférence internationale sur l’analyse et la reconnaissance des documents, Montréal, QC, 14-16 août 1995. pp. 278-282. Archivé de l’original (PDF) le 17 avril 2016. Récupéré 5 juin 2016.
^ ^une ^b ^c ^ré Ho TK (1998). “La méthode du sous-espace aléatoire pour la construction des forêts de décision” (PDF). Transactions IEEE sur l’analyse de modèles et l’intelligence artificielle. 20 (8): 832–844. est ce que je:10.1109 / 34.709601.
^ ^une ^b ^c ^ré ^e ^F Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). Les éléments de l’apprentissage statistique (2e éd.). Springer. ISBN 0-387-95284-5.
^ ^une ^b Kleinberg E (1990). “Discrimination stochastique” (PDF). Annales de mathématiques et d’intelligence artificielle. 1 (1–4): 207–239. CiteSeerX 10.1.1.25.6750. est ce que je:10.1007 / BF01531079.
^ ^une ^b Kleinberg E (1996). “Une Méthode de Modélisation Stochastique Résistante au Surentraînement pour la Reconnaissance de Motifs”. Annales de statistiques. 24 (6): 2319-2349. est ce que je:10.1214 / aos / 1032181157. MONSIEUR 1425956.
^ ^une ^b Kleinberg E (2000). “Sur la mise en œuvre algorithmique de la discrimination stochastique” (PDF). Transactions IEEE sur PAMI. 22 (5): 473-490. CiteSeerX 10.1.1.33.4131. est ce que je:10.1109 / 34.857004.
^ ^une ^b ^c ^ré Breiman L (2001). “Forêts aléatoires”. Apprentissage automatique. 45 (1): 5–32. est ce que je:10.1023 / A: 1010933404324.
^ ^une ^b Liaw A (16 octobre 2012). “Documentation pour le package R randomForest” (PDF). Récupéré 15 mars 2013.
^ Numéro d’enregistrement de la marque américaine 3185828, enregistré le 2006/12/19.
^ “FORÊTS ALÉATOIRES Marque de commerce de Health Care Productivity, Inc. – Numéro d’enregistrement 3185828 – Numéro de série 78642027 :: Marques Justia”.
^ ^une ^b Amit Y, Geman D (1997). “Quantification et reconnaissance de formes avec des arbres randomisés” (PDF). Calcul neuronal. 9 (7): 1545-1588. CiteSeerX 10.1.1.57.6069. est ce que je:10.1162/neco.1997.9.7.1545.
^ Dietterich, Thomas (2000). “An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization”. Apprentissage automatique. 40 (2): 139–157. doi:10.1023/A:1007607513941.
^ Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). An Introduction to Statistical Learning. Springer. pp. 316–321.
^
Ho, Tin Kam (2002). “A Data Complexity Analysis of Comparative Advantages of Decision Forest Constructors” (PDF). Pattern Analysis and Applications. 5 (2): 102–112. doi:10.1007/s100440200009.
^ Geurts P, Ernst D, Wehenkel L (2006). “Extremely randomized trees” (PDF). Apprentissage automatique. 63: 3–42. doi:10.1007/s10994-006-6226-1.
^ Zhu R, Zeng D, Kosorok MR (2015). “Reinforcement Learning Trees”. Journal of the American Statistical Association. 110 (512): 1770–1784. doi:10.1080/01621459.2015.1036994. PMC 4760114. PMID 26903687.
^ Deng,H.; Runger, G.; Tuv, E. (2011). Bias of importance measures for multi-valued attributes and solutions. Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). pp. 293–300.
^ Altmann A, Toloşi L, Sander O, Lengauer T (May 2010). “Permutation importance: a corrected feature importance measure”. Bioinformatique. 26 (10): 1340–7. doi:10.1093/bioinformatics/btq134. PMID 20385727.
^ Strobl C, Boulesteix A, Augustin T (2007). “Unbiased split selection for classification trees based on the Gini index” (PDF). Computational Statistics & Data Analysis. 52: 483–501. CiteSeerX 10.1.1.525.3178. doi:10.1016/j.csda.2006.12.030.
^ Painsky A, Rosset S (2017). “Cross-Validated Variable Selection in Tree-Based Methods Improves Predictive Performance”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (11): 2142–2153. arXiv:1512.03444. doi:10.1109/tpami.2016.2636831. PMID 28114007.
^ Tolosi L, Lengauer T (July 2011). “Classification with correlated features: unreliability of feature ranking and solutions”. Bioinformatique. 27 (14): 1986–94. doi:10.1093/bioinformatics/btr300. PMID 21576180.
^ ^une ^b Lin, Yi; Jeon, Yongho (2002). Random forests and adaptive nearest neighbors (Technical report). Technical Report No. 1055. University of Wisconsin.
^ Shi, T., Horvath, S. (2006). “Unsupervised Learning with Random Forest Predictors”. Journal of Computational and Graphical Statistics. 15 (1): 118–138. CiteSeerX 10.1.1.698.2365. doi:10.1198/106186006X94072. JSTOR 27594168.CS1 maint: uses authors parameter (lien)
^ Shi T, Seligson D, Belldegrun AS, Palotie A, Horvath S (April 2005). “Tumor classification by tissue microarray profiling: random forest clustering applied to renal cell carcinoma”. Modern Pathology. 18 (4): 547–57. doi:10.1038/modpathol.3800322. PMID 15529185.
^ Prinzie, A., Van den Poel, D. (2008). “Random Forests for multiclass classification: Random MultiNomial Logit”. Expert Systems with Applications. 34 (3): 1721–1732. doi:10.1016/j.eswa.2007.01.029.CS1 maint: uses authors parameter (lien)
^ Prinzie, Anita (2007). “Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB”. In Roland Wagner, Norman Revell, Günther Pernul (eds.). Database and Expert Systems Applications: 18th International Conference, DEXA 2007, Regensburg, Germany, September 3-7, 2007, Proceedings. Lecture Notes in Computer Science. 4653. pp. 349–358. doi:10.1007/978-3-540-74469-6_35. ISBN 978-3-540-74467-2.CS1 maint: uses editors parameter (lien)
^ ^une ^b ^c ^ré Scornet, Erwan (2015). “Random forests and kernel methods”. arXiv:1502.03836 [[[[math.ST].
^ Breiman, Leo (2000). “Some infinity theory for predictor ensembles” (PDF). Technical Report 579, Statistics Dept. UCB. ^{[[[[lien mort permanent]}
^ Lin, Yi; Jeon, Yongho (2006). “Random forests and adaptive nearest neighbors”. Journal of the American Statistical Association. 101 (474): 578–590. CiteSeerX 10.1.1.153.9168. doi:10.1198/016214505000001230.
^ Davies, Alex; Ghahramani, Zoubin (2014). “The Random Forest Kernel and other kernels for big data from random partitions”. arXiv:1402.4293 [[[[stat.ML].
^ ^une ^b Breiman L, Ghahramani Z (2004). “Consistency for a simple model of random forests”. Statistical Department, University of California at Berkeley. Technical Report (670). CiteSeerX 10.1.1.618.90.
^ ^une ^b Arlot S, Genuer R (2014). “Analysis of purely random forests bias”. arXiv:1407.3939 [[[[math.ST].
^ Węcel K, Lewoniewski W (2015-12-02). Modelling the Quality of Attributes in Wikipedia Infoboxes. Lecture Notes in Business Information Processing. 228. pp. 308–320. doi:10.1007/978-3-319-26762-3_27. ISBN 978-3-319-26761-6.
^ Lewoniewski W, Węcel K, Abramowicz W (2016-09-22). Quality and Importance of Wikipedia Articles in Different Languages. Information and Software Technologies. ICIST 2016. Communications in Computer and Information Science. Communications in Computer and Information Science. 639. pp. 613–624. doi:10.1007/978-3-319-46254-7_50. ISBN 978-3-319-46253-0.
^ Warncke-Wang M, Cosley D, Riedl J (2013). Tell me more: An actionable quality model for wikipedia. WikiSym ’13 Proceedings of the 9th International Symposium on Open Collaboration. WikiSym ’13. pp. 8:1–8:10. doi:10.1145/2491055.2491063. ISBN 9781450318525.

Lectures complémentaires[[[[Éditer]

Liens externes[[[[Éditer]

Source de l’article

Post Views: 3 190

Histoire[[[[Éditer]

Algorithme[[[[Éditer]

Préliminaires: apprentissage par arbre de décision[[[[Éditer]

Ensachage[[[[Éditer]

De l’ensachage aux forêts aléatoires[[[[Éditer]

[[[[Éditer]

Propriétés[[[[Éditer]

Importance variable[[[[Éditer]

Relation avec les voisins les plus proches[[[[Éditer]

Apprentissage non supervisé avec des forêts aléatoires[[[[Éditer]

Variantes[[[[Éditer]

Forêt aléatoire de noyau[[[[Éditer]

Histoire[[[[Éditer]

Notations et définitions[[[[Éditer]

Préliminaires: Forêts centrées[[[[Éditer]

Forêt uniforme[[[[Éditer]

De la forêt aléatoire à KeRF[[[[Éditer]

Centré KeRF[[[[Éditer]

Uniform KeRF[[[[Éditer]

Propriétés[[[[Éditer]

Relation entre KeRF et forêt aléatoire[[[[Éditer]

Relation entre KeRF infini et forêt aléatoire infinie[[[[Éditer]

Résultats de cohérence[[[[Éditer]

Cohérence du KeRF centré[[[[Éditer]

Cohérence de KeRF uniforme[[[[Éditer]

RF dans les travaux scientifiques[[[[Éditer]

Implémentations open source[[[[Éditer]

Voir également[[[[Éditer]

Références[[[[Éditer]

Lectures complémentaires[[[[Éditer]

Liens externes[[[[Éditer]

A découvrir

Comment transformer vos toilettes en toilettes portables...

DVIDS – Images – Cobra Gold 18...

Vivez votre propre documentaire animalier dans «...