„Podstawowa różnica między lasem zbierającym a losowym polega na tym, że w lasach losowych tylko podzbiór cech jest wybierany losowo z całości i najlepszego podziału element z podzbioru służy do dzielenia każdego węzła w drzewie, w przeciwieństwie do pakowania w worki, w którym wszystkie elementy są brane pod uwagę przy dzieleniu węzła. ” Czy to oznacza, że gromadzenie jest tym samym, co losowy las, jeśli tylko jedna zmienna objaśniająca (predyktor) jest używana jako dane wejściowe?
Odpowiedź
Podstawowa różnica polega na tym, że w lasach losowych tylko podzbiór cech jest wybierany losowo z całości, a najlepszy podział z podzbioru jest używany do dzielenia każdego węzła w drzewie, w przeciwieństwie do pakowania, w którym uwzględniane są wszystkie cechy do podziału węzła.
Komentarze
- Więc jeśli mamy modele zbiorcze z reg logistycznym, reg liniowym, trzema drzewami decyzyjnymi jako modelami bazowymi, wszystkie trzy drzewa decyzyjne będą używać wszystkich funkcji?
Odpowiedź
Pakowanie w ogólności jest akronimem podobnym do pracy, będącym połączeniem Bootstrap i agregacji. Ogólnie rzecz biorąc, jeśli weźmiesz kilka próbek bootstrap z oryginalnego zbioru danych, dopasujesz modele $ M_1, M_2, \ dots, M_b $, a następnie uśrednisz wszystkie prognozy modelu $ b $, jest to agregacja bootstrap, tj. Odbywa się to jako krok w algorytmie Random Forest Model. Random forest tworzy próbki typu bootstrap i między obserwacjami, a dla każdego dopasowanego drzewa decyzyjnego w procesie dopasowywania używana jest losowa podpróbka zmiennych towarzyszących / cech / kolumn. Wyboru każdej zmiennej towarzyszącej dokonuje się z jednakowym prawdopodobieństwem w oryginalnym dokumencie bootstrap. Więc gdybyś miał 100 zmiennych towarzyszących, wybrałbyś podzbiór tych cech, z których każda ma prawdopodobieństwo wyboru 0,01. Gdybyś miał tylko jedną zmienną towarzyszącą / cechę, wybrałbyś tę cechę z prawdopodobieństwem 1. To, ile z zmiennych towarzyszących / cech próbkujesz ze wszystkich zmiennych towarzyszących w zestawie danych, jest parametrem dostrajającym algorytmu. Dlatego algorytm ten generalnie nie będzie działał dobrze w danych wielowymiarowych.
Odpowiedź
Chciałbym wyjaśnić, istnieje różnica między pakowanie i zapakowane drzewa .
Pakowanie ( b ootstrap + agg regat ing ) korzysta z zestawu modeli, w których:
- każdy model używa załadowanego zestawu danych (część bootstrap pakowania)
- modele „prognozy są agregowane (część agregacji pakowania)
Oznacza to, że podczas pakowania można użyć dowolnego wybrany model, nie tylko drzewa.
Ponadto drzewa w workach to zestawy w workach, w których każdy model jest drzewem.
A więc w pewnym sensie e, każde zapakowane drzewo jest zapakowanym zespołem, ale nie każdy zapakowany zespół jest zapakowanym drzewem.
Biorąc pod uwagę to wyjaśnienie, myślę, że odpowiedź użytkownika3303020 stanowi dobre wyjaśnienie.