Bagging-klassifikator vs RandomForestClassifier [duplikat] (Dansk)

Dette spørgsmål har allerede svar her :

Svar

Ja, der er forskel. I sklearn, hvis du poserer beslutningstræer, ender du stadig med at bruge alle funktioner med hvert beslutningstræ. I tilfældige skove bruger du dog et undersæt af funktioner.

Den officielle sklearn-dokumentation om samlingsmetoder kunne have været lidt mere klar over forskellen, her er hvad den siger:

  1. Når prøver tegnes med erstatning, er metoden kendt som Bagging
  2. I tilfældige skove (se klasserne RandomForestClassifier og RandomForestRegressor) er hvert træ i ensemblet bygget fra en prøve trukket med erstatning (dvs. en bootstrap-prøve) fra træningssættet . “

Så det ser ud til, at der ikke er nogen forskel, hvis du træffer beslutningstræer, ikke? Det viser sig, at dokumentationen også siger:

Desuden findes der ved opdeling af hver node under konstruktionen af et træ den bedste split enten fra alle inputfunktioner eller en tilfældig delmængde af størrelse max_features. “

Så dette er endnu en måde at indføre tilfældighed ved at begrænse antallet af funktioner ved delingerne. I praksis er det nyttigt at indstille max_features for at få en god pasform.

Kommentarer

  • Det ' er ikke hvert træ , der modtager et undersæt af kandidatfunktioner, det ' er hver split .
  • @Matthew Drury Tak for påpeget, rettet.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *