« La différence fondamentale entre le bagging et la forêt aléatoire est que dans les forêts aléatoires, seul un sous-ensemble dentités est sélectionné au hasard parmi le total et la meilleure répartition La fonctionnalité du sous-ensemble est utilisée pour diviser chaque nœud dans une arborescence, contrairement à la mise en sac où toutes les fonctionnalités sont prises en compte pour la division dun nœud. » Cela signifie-t-il que lensachage est identique à la forêt aléatoire, si une seule variable explicative (prédicteur) est utilisée comme entrée?
Réponse
La différence fondamentale est que dans les forêts aléatoires, seul un sous-ensemble dentités est sélectionné au hasard sur le total et la meilleure entité de division du sous-ensemble est utilisée pour diviser chaque nœud dans un arbre, contrairement à lensachage où toutes les entités sont considérées pour diviser un nœud.
Commentaires
- Donc, si nous avons des modèles densachage avec reg logistique, reg linéaire, trois arbres de décision comme modèles de base, les trois arbres de décision utiliseront toutes les fonctionnalités?
Réponse
Lensachage en général est un acronyme comme le travail qui est un portemanteau de Bootstrap et dagrégation. En général, si vous prenez un tas déchantillons bootstrap de votre jeu de données dorigine, ajustez les modèles $ M_1, M_2, \ dots, M_b $, puis faites la moyenne de toutes les prédictions de modèle $ b $, il sagit dune agrégation bootstrap, cest-à-dire Bagging. Cela se fait comme une étape dans lalgorithme de modèle de forêt aléatoire. La forêt aléatoire crée des échantillons bootstrap et à travers les observations et pour chaque arbre de décision ajusté, un sous-échantillon aléatoire des covariables / caractéristiques / colonnes est utilisé dans le processus dajustement. La sélection de chaque covariable se fait avec une probabilité uniforme dans le document bootstrap original. Donc, si vous aviez 100 covariables, vous choisiriez un sous-ensemble de ces caractéristiques, chacune ayant une probabilité de sélection de 0,01. Si vous naviez quune seule covariable / caractéristique, vous choisiriez cette caractéristique avec la probabilité 1. Le nombre de covariables / caractéristiques que vous échantillonnez parmi toutes les covariables de lensemble de données est un paramètre de réglage de lalgorithme. Ainsi, cet algorithme ne fonctionnera généralement pas bien dans les données de grande dimension.
Réponse
Je voudrais apporter une clarification, il y a une distinction entre ensachage et arbres ensachés .
Ensachage ( b ootstrap + agg regat ing ) utilise un ensemble de modèles où:
- chaque modèle utilise un ensemble de données bootstrap (partie bootstrap de lensachage)
- les prédictions des modèles « sont agrégées (partie agrégation de lensachage)
Cela signifie quen ensachage, vous pouvez utiliser nimporte quel modèle de votre choix, pas seulement des arbres.
De plus, arbres ensachés sont des ensembles ensachés où chaque modèle est un arbre.
Donc, dans un sens e, chaque arbre ensaché est un ensemble ensaché, mais chaque ensemble ensaché nest pas un arbre ensaché.
Compte tenu de cette clarification, je pense que la réponse de user3303020 fournit une bonne explication.