Mitä eroa on säkityksessä ja satunnaisessa metsässä, jos käytetään vain yhtä selittävää muuttujaa?

”Perusero säkitys- ja satunnaismetsien välillä on, että satunnaisissa metsissä vain osajoukot valitaan satunnaisesti kokonaismäärästä ja parhaasta jaosta Alijoukon ominaisuutta käytetään jakamaan jokainen solmu puuhun, toisin kuin pussituksessa, jossa kaikki ominaisuudet otetaan huomioon solmun jakamisessa. ” Tarkoittaako tämä sitä, että säkitys on sama kuin satunnainen metsä, jos syötteenä käytetään vain yhtä selittävää muuttujaa (ennustaja)?

Vastaus

Perusero on, että satunnaisissa metsissä vain osajoukko valitaan satunnaisesti kokonaismäärästä ja alaryhmän parasta jako-ominaisuutta käytetään puun jokaisen solmun jakamiseen, toisin kuin pussituksessa, jossa kaikki ominaisuudet otetaan huomioon solmun jakamiseksi.

kirjoita kuvan kuvaus tähän

Kommentit

  • Joten jos meillä on pussitusmalleja, joissa on logistinen reg, lineaarinen reg, kolme päätöspuuta perusmalleina, kaikki kolme päätöspuuta käyttävät kaikkia ominaisuuksia?

vastaus

Laukku on yleensä lyhenne, kuten työ, joka on Bootstrapin ja yhdistämisen esimerkki. Yleensä jos otat joukon bootstrapped-näytteitä alkuperäisestä tietojoukostasi, sovi mallit $ M_1, M_2, \ dots, M_b $ ja keskitä sitten kaikki $ b $ -mallien ennusteet, tämä on bootstrap-aggregaatti eli pussitus. Tämä tehdään askeleena Random forest -mallialgoritmissa. Satunnainen metsä luo bootstrap-näytteet ja havaintojen yli, ja jokaiselle sovitetulle päätöspuulle käytetään sovitusprosessissa satunnaista alinäytettä kovariaateista / piirteistä / sarakkeista. Jokaisen kovariaatin valinta tehdään yhtenäisellä todennäköisyydellä alkuperäisessä bootstrap-paperissa. Joten jos sinulla olisi 100 kovariaattia, valitsisit näiden ominaisuuksien osajoukon valintatodennäköisyydellä 0,01. Jos sinulla olisi vain 1 kovariaatti / ominaisuus, valitset kyseisen ominaisuuden todennäköisyydellä 1. Kuinka monta kovariaatista / ominaisuudesta otat kaikista tietojoukon kovariaateista, on algoritmin viritysparametri. Täten tämä algoritmi ei yleensä toimi hyvin suurdimensionaalisessa datassa.

vastaus

Haluan antaa selvennyksen. pussitus ja pussitetut puut .

pussitus ( b ootstrap + agg regat ing ) käyttää mallien yhdistelmää, jossa:

  1. jokainen malli käyttää käynnistysrajoitettua tietojoukkoa (laukkujen bootstrap-osa)
  2. mallit ”ennusteet kootaan (kassaamisen osa-alue)

Tämä tarkoittaa, että pussituksessa voit käyttää mitä tahansa valitsemasi malli, ei vain puita.

Lisäksi pussitetut puut ovat säkittyjä yhtyeitä, joissa kukin malli on puu.

Joten, tietyssä mielessä e, jokainen pussiin pakattu puu on pussattu kokonaisuus, mutta jokainen pussattu kokonaisuus ei ole pussi.

Tämän selvennyksen vuoksi katson, että user3303020: n vastaus antaa hyvän selityksen.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *