Svar
Ja, det är skillnad. I sklearn om du påser beslutsträd använder du fortfarande alla funktioner i varje beslutsträd. I slumpmässiga skogar använder du dock en delmängd av funktioner.
Den officiella sklearn dokumentation om ensemblingsmetoder kunde ha varit lite tydligare om skillnaden, här är vad den säger:
- ” När prover ritas med utbyte kallas metoden Bagging ”
- ” I slumpmässiga skogar (se RandomForestClassifier och RandomForestRegressor-klasserna) är varje träd i ensemblet byggt från ett prov ritat med ersättning (dvs. ett bootstrap-prov) från träningsuppsättningen . ol>
Så det verkar som om det inte är någon skillnad om du avgör beslutsträd, eller hur? Det visar sig att dokumentationen också säger:
” Dessutom, när man delar upp varje nod under konstruktionen av ett träd, finns den bästa delningen antingen från alla inmatningsfunktioner eller en slumpmässig delmängd av storlek
max_features
. ”Så detta är ytterligare ett sätt att införa slumpmässighet genom att begränsa antalet funktioner vid delningarna. I praktiken är det bra att verkligen ställa in
max_features
för att få en bra passform.Kommentarer
- Det ' är inte varje träd som får en delmängd av kandidatfunktioner, det ' är vardera dela .
- @Matthew Drury Tack för att du påpekat, rättad.