Mi a különbség a zsákolás és a véletlenszerű erdő között, ha csak egy magyarázó változót használnak?

“Az alapvető különbség a zsákolás és a véletlenszerű erdő között az, hogy a Véletlenszerű erdőkben csak a jellemzők egy részét választják ki véletlenszerűen az összes és a legjobb osztásból Az alkészlet jellemzője az egyes csomópontok felosztására szolgál egy fában, ellentétben a zsákolással, ahol az összes tulajdonságot figyelembe vesszük egy csomópont felosztásában. ” Ez azt jelenti, hogy a zsákolás megegyezik a véletlenszerű erdővel, ha csak egy magyarázó változót (prediktort) használunk bemenetként?

Válasz

Az alapvető különbség az, hogy a Véletlenszerű erdőkben csak a jellemzők egy részhalmazát választják ki véletlenszerűen az összesből, és az alhalmaz legjobb osztási tulajdonságát használják az egyes csomópontok felosztására egy fában, ellentétben a zsákolással, ahol minden tulajdonságot figyelembe vesznek csomópont felosztásához.

ide írja be a kép leírását

Megjegyzések

  • Tehát ha logisztikai reg, lineáris reg, három döntési fa mint alapmodellek vannak zsákolási modellek, mindhárom döntésfa minden funkciót használni fog?

Válasz

A táskázás általában olyan rövidítés, mint a munka, amely a Bootstrap és az összesítés jelentősége. Általánosságban, ha egy csomó bootstrapped mintát vesz az eredeti adatkészletből, illeszkedjen a (z) $ M_1, M_2, \ dots, M_b $ modellekhez, majd átlagolja az összes $ b $ modell előrejelzését, ez a bootstrap összesítése, azaz a csomagolás. Ez a Random forest model algoritmuson belül lépésként történik. A véletlenszerű erdő bootstrap mintákat hoz létre, és megfigyeléseken keresztül, és minden illesztett döntési fához a kovariánsok / jellemzők / oszlopok véletlenszerű almintáját használják az illesztési folyamatban. Az egyes kovariátumok kiválasztása egyenlő valószínűséggel történik az eredeti bootstrap papíron. Tehát, ha 100 kovariátora van, akkor ezeknek a tulajdonságoknak egy részhalmazát kell kiválasztania, amelyek mindegyikének kiválasztási valószínűsége 0,01. Ha csak 1 kovariát / jellemzője lenne, akkor azt a valószínűséget válassza ki, hogy 1 valószínűséggel. Az adathalmaz összes kovariátusából hány mintát vett kovariát / tulajdonság közül az algoritmus hangolási paramétere. Így ez az algoritmus általában nem fog jól teljesíteni nagydimenziós adatokban.

Válasz

Szeretnék pontosítani, különbség van a zsákolás és zsákos fák .

Csomagolás ( b ootstrap + agg regat ing ) modellek együttesét használja, ahol:

  1. mindegyik modell bootstrapped adatkészletet használ (a csomagolás bootstrap része)
  2. a modellek “előrejelzései összesítve vannak (a csomagolás összesítési része)

Ez azt jelenti, hogy a csomagolásban bármilyen az Ön által választott modell, nemcsak fák.

Továbbá, zsákos fák zsákos együttesek, ahol minden modell egy fa.

Tehát bizonyos értelemben e, minden zsákos fa zsákos együttes, de nem minden zsákos együttes zsákos fa.

Ezt a pontosítást figyelembe véve úgy gondolom, hogy a user3303020 válasza jó magyarázatot ad.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük