“La differenza fondamentale tra insaccamento e foresta casuale è che nelle foreste casuali, solo un sottoinsieme di elementi viene selezionato casualmente dal totale e dalla migliore suddivisione la funzione del sottoinsieme viene utilizzata per dividere ogni nodo in un albero, a differenza del raggruppamento in cui tutte le caratteristiche sono considerate per la divisione di un nodo. ” Ciò significa che linsaccare è lo stesso della foresta casuale, se viene utilizzata solo una variabile esplicativa (predittore) come input?
Risposta
La differenza fondamentale è che nelle foreste casuali, solo un sottoinsieme di elementi viene selezionato casualmente dal totale e la migliore funzione di suddivisione dal sottoinsieme viene utilizzata per dividere ogni nodo in un albero, a differenza del bagging in cui vengono considerate tutte le caratteristiche per dividere un nodo.
Commenti
- Quindi, se abbiamo modelli di insaccamento con registro logistico, registro lineare, tre alberi decisionali come modelli di base, tutti e tre gli alberi decisionali useranno tutte le funzionalità?
Answer
Bagging in generale è un acronimo come work che è una combinazione di Bootstrap e aggregazione. In generale, se prendi un gruppo di campioni bootstrap del tuo set di dati originale, adatti i modelli $ M_1, M_2, \ dots, M_b $ e poi fai la media di tutte le previsioni del modello $ b $, questa è laggregazione bootstrap, ovvero Bagging. Questa operazione viene eseguita come passaggio allinterno dellalgoritmo del modello di foresta casuale. La foresta casuale crea campioni di bootstrap e attraverso osservazioni e per ogni albero decisionale adattato viene utilizzato un sottocampione casuale delle covariate / caratteristiche / colonne nel processo di adattamento. La selezione di ciascuna covariata viene eseguita con probabilità uniforme nel documento bootstrap originale. Quindi, se avessi 100 covariate, selezioneresti un sottoinsieme di queste caratteristiche, ciascuna con probabilità di selezione 0,01. Se avessi solo 1 covariata / caratteristica, selezioneresti quella caratteristica con probabilità 1. Quante delle covariate / caratteristiche campionate da tutte le covariate nel set di dati è un parametro di regolazione dellalgoritmo. Pertanto, questo algoritmo non funzionerà generalmente bene con dati ad alta dimensione.
Risposta
Vorrei fornire un chiarimento, cè una distinzione tra insaccare e alberi in sacchi .
Inserimento in sacchi ( b ootstrap + agg regat ing ) utilizza un insieme di modelli in cui:
- ogni modello utilizza un set di dati bootstrap (parte bootstrap del bagging)
- modelli “le previsioni sono aggregate (parte di aggregazione del bagging)
Ciò significa che nel bagging è possibile utilizzare qualsiasi modello di tua scelta, non solo alberi.
Inoltre, alberi in sacchi sono insiemi in sacchi in cui ogni modello è un albero.
Quindi, in un senso e, ogni albero insaccato è un insieme insaccato, ma non ogni insieme insaccato è un albero insaccato.
Dato questo chiarimento, penso che la risposta di user3303020 fornisca una buona spiegazione.