Jaka jest różnica między workowaniem a losowym lasem, jeśli używana jest tylko jedna zmienna objaśniająca?

„Podstawowa różnica między lasem zbierającym a losowym polega na tym, że w lasach losowych tylko podzbiór cech jest wybierany losowo z całości i najlepszego podziału element z podzbioru służy do dzielenia każdego węzła w drzewie, w przeciwieństwie do pakowania w worki, w którym wszystkie elementy są brane pod uwagę przy dzieleniu węzła. ” Czy to oznacza, że gromadzenie jest tym samym, co losowy las, jeśli tylko jedna zmienna objaśniająca (predyktor) jest używana jako dane wejściowe?

Odpowiedź

Podstawowa różnica polega na tym, że w lasach losowych tylko podzbiór cech jest wybierany losowo z całości, a najlepszy podział z podzbioru jest używany do dzielenia każdego węzła w drzewie, w przeciwieństwie do pakowania, w którym uwzględniane są wszystkie cechy do podziału węzła.

tutaj wprowadź opis obrazu

Komentarze

  • Więc jeśli mamy modele zbiorcze z reg logistycznym, reg liniowym, trzema drzewami decyzyjnymi jako modelami bazowymi, wszystkie trzy drzewa decyzyjne będą używać wszystkich funkcji?

Odpowiedź

Pakowanie w ogólności jest akronimem podobnym do pracy, będącym połączeniem Bootstrap i agregacji. Ogólnie rzecz biorąc, jeśli weźmiesz kilka próbek bootstrap z oryginalnego zbioru danych, dopasujesz modele $ M_1, M_2, \ dots, M_b $, a następnie uśrednisz wszystkie prognozy modelu $ b $, jest to agregacja bootstrap, tj. Odbywa się to jako krok w algorytmie Random Forest Model. Random forest tworzy próbki typu bootstrap i między obserwacjami, a dla każdego dopasowanego drzewa decyzyjnego w procesie dopasowywania używana jest losowa podpróbka zmiennych towarzyszących / cech / kolumn. Wyboru każdej zmiennej towarzyszącej dokonuje się z jednakowym prawdopodobieństwem w oryginalnym dokumencie bootstrap. Więc gdybyś miał 100 zmiennych towarzyszących, wybrałbyś podzbiór tych cech, z których każda ma prawdopodobieństwo wyboru 0,01. Gdybyś miał tylko jedną zmienną towarzyszącą / cechę, wybrałbyś tę cechę z prawdopodobieństwem 1. To, ile z zmiennych towarzyszących / cech próbkujesz ze wszystkich zmiennych towarzyszących w zestawie danych, jest parametrem dostrajającym algorytmu. Dlatego algorytm ten generalnie nie będzie działał dobrze w danych wielowymiarowych.

Odpowiedź

Chciałbym wyjaśnić, istnieje różnica między pakowanie i zapakowane drzewa .

Pakowanie ( b ootstrap + agg regat ing ) korzysta z zestawu modeli, w których:

  1. każdy model używa załadowanego zestawu danych (część bootstrap pakowania)
  2. modele „prognozy są agregowane (część agregacji pakowania)

Oznacza to, że podczas pakowania można użyć dowolnego wybrany model, nie tylko drzewa.

Ponadto drzewa w workach to zestawy w workach, w których każdy model jest drzewem.

A więc w pewnym sensie e, każde zapakowane drzewo jest zapakowanym zespołem, ale nie każdy zapakowany zespół jest zapakowanym drzewem.

Biorąc pod uwagę to wyjaśnienie, myślę, że odpowiedź użytkownika3303020 stanowi dobre wyjaśnienie.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *