Jaký je rozdíl mezi pytlováním a náhodným lesem, pokud je použita pouze jedna vysvětlující proměnná?

„Zásadní rozdíl mezi pytlováním a náhodným lesem spočívá v tom, že v náhodných lesích je náhodně vybrána pouze podmnožina funkcí z celkového a nejlepšího rozdělení funkce z podmnožiny se používá k rozdělení každého uzlu ve stromu, na rozdíl od pytlování, kde jsou všechny prvky považovány za rozdělení uzlu. “ Znamená to, že pytlování je stejné jako náhodný les, pokud je jako vstup použita pouze jedna vysvětlující proměnná (prediktor)?

Odpověď

Zásadní rozdíl spočívá v tom, že v náhodných lesích je náhodně vybrána pouze podmnožina prvků z celkového počtu a nejlepší rozdělená vlastnost podmnožiny je použita k rozdělení každého uzlu ve stromu, na rozdíl od pytlování, kde jsou zohledněny všechny prvky pro rozdělení uzlu.

zde zadejte popis obrázku

Komentáře

  • Takže pokud máme modely pytlování s logistickým regem, lineárním reg, třemi rozhodovacími stromy jako základními modely, všechny tři rozhodovací stromy budou využívat všechny funkce?

Odpověď

Pytlování je obecně zkratka jako práce, která je portmanteau Bootstrapu a agregace. Obecně platí, že pokud vezmete spoustu bootstrapovaných vzorků vaší původní datové sady, přizpůsobíte modely $ M_1, M_2, \ dots, M_b $ a poté průměrujete všechny předpovědi modelu $ b $, jedná se o agregaci bootstrapu, tj. Bagging. To se provádí jako krok v rámci algoritmu modelu náhodného lesa. Náhodný les vytváří vzorky bootstrapu a napříč pozorováními a pro každý přizpůsobený rozhodovací strom se v procesu přizpůsobení používá náhodný dílčí vzorek kovariát / funkcí / sloupců. Výběr každé kovariáty se provádí s jednotnou pravděpodobností v původním bootstrap papíru. Pokud byste tedy měli 100 kovariátů, vybrali byste podmnožinu těchto funkcí, přičemž každá z nich by měla pravděpodobnost výběru 0,01. Pokud byste měli pouze 1 proměnnou / vlastnost, vybrali byste tuto vlastnost s pravděpodobností 1. Kolik proměnných / vlastností, které vzorkujete ze všech proměnných v datové sadě, je ladicím parametrem algoritmu. Tento algoritmus tedy nebude ve vysokodimenzionálních datech obecně fungovat dobře.

Odpověď

Chtěl bych objasnit, že mezi pytlování a pytlované stromy .

Pytlování ( b ootstrap + agg regat ing ) používá soubor modelů, kde:

  1. každý model používá zaváděnou datovou sadu (bootstrap část pytlování)
  2. předpovědi modelů jsou agregovány (agregační část pytlování)

To znamená, že v pytlování můžete použít libovolné model podle vašeho výběru, nejen stromy.

Dále pytlované stromy jsou seskupené soubory, kde každý model je strom.

Takže v jistém smyslu e, každý pytlovaný strom je pytlovaným souborem, ale ne každý pytlovaný soubor je pytlovaným stromem.

Vzhledem k tomuto vysvětlení si myslím, že odpověď uživatele3303020 poskytuje dobré vysvětlení.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *