Bagging classifier vs RandomForestClassifier [duplicate] (Italiano)

Questa domanda ha già una risposta qui :

Risposta

Sì, cè una differenza. In sklearn se raccogli alberi decisionali, finisci comunque per utilizzare tutte le funzionalità con ogni albero decisionale. Nelle foreste casuali, tuttavia, utilizzi un sottoinsieme di funzionalità.

La documentazione sklearn ufficiale sui metodi di assemblaggio avrebbe potuto essere un po più chiara su la differenza, ecco cosa dice:

  1. Quando i campioni vengono estratti con sostituzione, il metodo è noto come Bagging
  2. Nelle foreste casuali (vedere le classi RandomForestClassifier e RandomForestRegressor), ogni albero nellinsieme è costruito da un campione estratto con la sostituzione (cioè un campione bootstrap) dal training set . “

Quindi sembrerebbe che non ci sia differenza se si inseriscono gli alberi decisionali, giusto? Si scopre che la documentazione afferma anche:

Inoltre, quando si divide ogni nodo durante la costruzione di un albero, la migliore suddivisione si trova tra tutte le caratteristiche di input o un sottoinsieme casuale di dimensione max_features. “

Quindi questo è un altro modo per introdurre la casualità, limitando il numero di caratteristiche nelle suddivisioni. In pratica, è davvero utile sintonizzare max_features per ottenere un buon adattamento.

Commenti

  • ' non ogni albero che riceve un sottoinsieme di funzioni candidate, ' ciascuno split .
  • @Matthew Drury Grazie per averlo sottolineato, corretto.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *