¿Cuál es la diferencia entre ensacado y bosque aleatorio si solo se usa una variable explicativa?

«La diferencia fundamental entre ensacado y bosque aleatorio es que en los bosques aleatorios, solo un subconjunto de características se selecciona al azar del total y la mejor división la característica del subconjunto se usa para dividir cada nodo en un árbol, a diferencia del ensacado donde todas las características se consideran para dividir un nodo «. ¿Eso significa que el ensacado es lo mismo que el bosque aleatorio, si solo se usa una variable explicativa (predictor) como entrada?

Respuesta

La diferencia fundamental es que en los bosques aleatorios, solo un subconjunto de características se selecciona al azar del total y la mejor característica dividida del subconjunto se usa para dividir cada nodo en un árbol, a diferencia del ensacado donde se consideran todas las características para dividir un nodo.

Comentarios

Entonces, si tenemos modelos de ensacado con registro logístico, registro lineal, tres árboles de decisión como modelos base, ¿los tres árboles de decisión usarán todas las características?

Respuesta

El empaquetamiento en general es un acrónimo como trabajo que es un acrónimo de Bootstrap y agregación. En general, si toma un montón de muestras de arranque de su conjunto de datos original, ajuste los modelos $ M_1, M_2, \ dots, M_b $ y luego promedie todas las predicciones del modelo $ b $, esto es agregación de arranque, es decir, embolsado. Esto se realiza como un paso dentro del algoritmo del modelo de bosque aleatorio. El bosque aleatorio crea muestras bootstrap y entre observaciones y para cada árbol de decisión ajustado se utiliza una submuestra aleatoria de las covariables / características / columnas en el proceso de ajuste. La selección de cada covariable se realiza con probabilidad uniforme en el documento de arranque original. Entonces, si tuviera 100 covariables, seleccionaría un subconjunto de estas características, cada una con una probabilidad de selección de 0.01. Si solo tuviera 1 covariable / característica, seleccionaría esa característica con probabilidad 1. La cantidad de covariables / características que muestreó de todas las covariables en el conjunto de datos es un parámetro de ajuste del algoritmo. Por lo tanto, este algoritmo generalmente no funcionará bien en datos de alta dimensión.

Respuesta

Me gustaría proporcionar una aclaración, hay una distinción entre ensacado y árboles ensacados .

Embolsado ( b ootstrap + agg regata ing ) está usando un conjunto de modelos donde:

cada modelo usa un conjunto de datos bootstrap (parte de arranque del ensacado)
modelos «las predicciones se agregan (parte de agregación del ensacado)

Esto significa que en el ensacado, puede usar cualquier modelo de su elección, no solo árboles.

Además, árboles en bolsas son conjuntos en bolsas donde cada modelo es un árbol.

Entonces, en un sentido e, cada árbol en bolsas es un conjunto en bolsas, pero no cada conjunto en bolsas es un árbol en bolsas.

Dada esta aclaración, creo que la respuesta del usuario3303020 proporciona una buena explicación.

Respuesta

Comentarios

Respuesta

Respuesta

Deja una respuesta Cancelar la respuesta