Svar
Ja, der er forskel. I sklearn, hvis du poserer beslutningstræer, ender du stadig med at bruge alle funktioner med hvert beslutningstræ. I tilfældige skove bruger du dog et undersæt af funktioner.
Den officielle sklearn-dokumentation om samlingsmetoder kunne have været lidt mere klar over forskellen, her er hvad den siger:
- “ Når prøver tegnes med erstatning, er metoden kendt som Bagging ”
- ” I tilfældige skove (se klasserne RandomForestClassifier og RandomForestRegressor) er hvert træ i ensemblet bygget fra en prøve trukket med erstatning (dvs. en bootstrap-prøve) fra træningssættet . “
Så det ser ud til, at der ikke er nogen forskel, hvis du træffer beslutningstræer, ikke? Det viser sig, at dokumentationen også siger:
“ Desuden findes der ved opdeling af hver node under konstruktionen af et træ den bedste split enten fra alle inputfunktioner eller en tilfældig delmængde af størrelse max_features
. “
Så dette er endnu en måde at indføre tilfældighed ved at begrænse antallet af funktioner ved delingerne. I praksis er det nyttigt at indstille max_features
for at få en god pasform.
Kommentarer
- Det ' er ikke hvert træ , der modtager et undersæt af kandidatfunktioner, det ' er hver split .
- @Matthew Drury Tak for påpeget, rettet.