Care este diferența dintre împachetare și pădure aleatorie dacă se utilizează o singură variabilă explicativă?

„Diferența fundamentală între împachetarea și pădurea aleatorie este că în pădurile aleatorii, doar un subset de caracteristici sunt selectate la întâmplare din total și cea mai bună împărțire caracteristica din subset este utilizată pentru împărțirea fiecărui nod într-un copac, spre deosebire de punerea în sac, unde toate caracteristicile sunt luate în considerare pentru împărțirea unui nod. ” Asta înseamnă că împachetarea este aceeași cu pădurea aleatorie, dacă se utilizează o singură variabilă explicativă (predictor) ca intrare?

Răspuns

Diferența fundamentală este că în pădurile aleatorii, doar un subset de caracteristici sunt selectate aleatoriu din total și cea mai bună caracteristică divizată din subset este utilizată pentru a împărți fiecare nod într-un copac, spre deosebire de împachetare, unde toate caracteristicile sunt considerate pentru divizarea unui nod.

introduceți descrierea imaginii aici

Comentarii

  • Deci, dacă avem modele de bagging cu reg logistic, reg liniar, trei arborele decizional ca modele de bază, toate cele trei arborele decizional vor folosi toate caracteristicile?

Răspuns

Bagging-ul, în general, este un acronim ca o lucrare, care este un portmanteau de Bootstrap și agregare. În general, dacă luați o grămadă de probe bootstrappate din setul de date original, potriviți modelele $ M_1, M_2, \ dots, M_b $ și apoi mediați toate predicțiile modelului $ b $, aceasta este agregarea bootstrap, adică Bagging. Aceasta se face ca un pas în cadrul algoritmului modelului de pădure aleatorie. Pădurea aleatorie creează eșantioane bootstrap și între observații și pentru fiecare arbore de decizie montat se utilizează un subșantion aleatoriu al covariabilelor / caracteristicilor / coloanelor în procesul de montare. Selectarea fiecărei covariate se face cu o probabilitate uniformă în hârtia bootstrap originală. Deci, dacă ați avea 100 de covariabile, ați selecta un subset al acestor caracteristici fiecare având probabilitatea de selecție 0,01. Dacă ați avea doar 1 covariantă / caracteristică, ați selecta acea caracteristică cu probabilitatea 1. Câte dintre covariabile / caracteristici pe care le eșantionați din toate covariabilele din setul de date este un parametru de reglare a algoritmului. Astfel, acest algoritm nu va funcționa în general bine în datele de înaltă dimensiune.

Răspuns

Aș dori să ofer clarificări, există o distincție între pungi și copaci în pungă .

Bagging ( b ootstrap + agg regat ing ) utilizează un ansamblu de modele în care:

  1. fiecare model folosește un set de date bootstrap (partea de bootstrap a bagajului)
  2. predicțiile modelelor sunt agregate (partea de agregare a bagajului)

Aceasta înseamnă că, în bagaj, puteți utiliza orice modelul la alegere, nu numai copaci.

Mai departe, copaci în sac sunt ansambluri învelite în care fiecare model este un copac.

Deci, într-un sens e, fiecare copac în sac este un ansamblu în sac, dar nu fiecare ansamblu în sac este un arbore în sac.

Având în vedere această clarificare, cred că răspunsul utilizatorului3303020 oferă o explicație bună.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *