“A diferença fundamental entre ensacamento e floresta aleatória é que em florestas aleatórias, apenas um subconjunto de recursos é selecionado aleatoriamente do total e a melhor divisão recurso do subconjunto é usado para dividir cada nó em uma árvore, ao contrário de bagging onde todos os recursos são considerados para dividir um nó. ” Isso significa que ensacamento é o mesmo que floresta aleatória, se apenas uma variável explicativa (preditor) for usada como entrada?
Resposta
A diferença fundamental é que em florestas aleatórias, apenas um subconjunto de recursos é selecionado aleatoriamente do total e o melhor recurso de divisão do subconjunto é usado para dividir cada nó em uma árvore, ao contrário de ensacamento, onde todos os recursos são considerados para dividir um nó.
Comentários
- Então, se tivermos modelos de ensacamento com registro logístico, registro linear, três árvores de decisão como modelos base, todas as três árvores de decisão usarão todos os recursos?
Resposta
Bagging em geral é um acrônimo como work, que é um portmanteau de Bootstrap e agregação. Em geral, se você pegar um monte de amostras bootstrap do seu conjunto de dados original, ajustar os modelos $ M_1, M_2, \ dots, M_b $ e depois calcular a média de todas as previsões do modelo $ b $, isso é agregação bootstrap, ou seja, Bagging. Isso é feito como uma etapa dentro do algoritmo do modelo de floresta aleatória. A floresta aleatória cria amostras de bootstrap e através de observações e para cada árvore de decisão ajustada, uma subamostra aleatória das covariáveis / características / colunas é usada no processo de adaptação. A seleção de cada covariável é feita com probabilidade uniforme no artigo bootstrap original. Portanto, se você tivesse 100 covariáveis, selecionaria um subconjunto desses recursos, cada um com probabilidade de seleção de 0,01. Se você tivesse apenas 1 covariável / característica, você selecionaria aquela característica com probabilidade 1. Quantas das covariáveis / características amostradas de todas as covariáveis no conjunto de dados é um parâmetro de ajuste do algoritmo. Portanto, esse algoritmo geralmente não terá um bom desempenho em dados de alta dimensão.
Resposta
Gostaria de fornecer um esclarecimento, há uma distinção entre ensacamento e árvores ensacadas .
Bagging ( b ootstrap + agg regat ing ) está usando um conjunto de modelos onde:
- cada modelo usa um conjunto de dados bootstrap (bootstrap parte do bagging)
- modelos “previsões são agregadas (agregação parte do bagging)
Isso significa que no bagging, você pode usar qualquer modelo de sua escolha, não apenas árvores.
Além disso, árvores ensacadas são conjuntos ensacados onde cada modelo é uma árvore.
Então, em certo sentido e, cada árvore ensacada é um conjunto ensacado, mas nem todo conjunto ensacado é uma árvore ensacada.
Com esse esclarecimento, acho que a resposta do usuário3303020 fornece uma boa explicação.