Da, există o diferență. În sklearn dacă bagați copaci de decizie, veți continua să utilizați toate caracteristicile cu fiecare copac de decizie. Cu toate acestea, în pădurile aleatorii, utilizați un subset de caracteristici.
Documentația oficială sklearn despre metodele de asamblare ar fi putut fi un pic mai clară despre diferența, iată ce scrie:
- „ Când eșantioanele sunt extrase cu înlocuire, atunci metoda este cunoscută sub numele de Bagging ”
- ” În pădurile aleatorii (vezi clasele RandomForestClassifier și RandomForestRegressor), fiecare copac din ansamblu este construit dintr-un eșantion desenat cu înlocuire (adică un eșantion bootstrap) din setul de antrenament . „
Deci, s-ar părea că nu există nicio diferență dacă bagați copaci de decizie, nu? Se pare că documentația mai precizează:
„ Mai mult, atunci când se împarte fiecare nod în timpul construcției unui copac, cea mai bună împărțire se găsește fie din toate caracteristicile de intrare, fie dintr-un subset aleatoriu de dimensiune max_features
. „
Deci acesta este un alt mod de a introduce aleatoriu, prin limitarea numărului de caracteristici la împărțiri. În practică, este util să reglați într-adevăr max_features
pentru a obține o potrivire bună.
Comentarii