Was ist der Unterschied zwischen Bagging und Random Forest, wenn nur eine erklärende Variable verwendet wird?

„Der grundlegende Unterschied zwischen Absacken und zufälliger Gesamtstruktur besteht darin, dass in zufälligen Gesamtstrukturen nur eine Teilmenge von Merkmalen zufällig aus der Gesamtzahl und der besten Aufteilung ausgewählt wird Das Merkmal aus der Teilmenge wird verwendet, um jeden Knoten in einem Baum zu teilen, im Gegensatz zum Absacken, bei dem alle Merkmale zum Teilen eines Knotens berücksichtigt werden. “ Bedeutet dies, dass das Absacken mit einer zufälligen Gesamtstruktur identisch ist, wenn nur eine erklärende Variable (Prädiktor) als Eingabe verwendet wird?

Antwort

Der grundlegende Unterschied besteht darin, dass in zufälligen Gesamtstrukturen nur eine Teilmenge von Merkmalen zufällig aus der Gesamtzahl ausgewählt wird und das beste Teilungsmerkmal aus der Teilmenge verwendet wird, um jeden Knoten in einem Baum zu teilen, anders als beim Absacken, bei dem alle Merkmale berücksichtigt werden zum Teilen eines Knotens.

Geben Sie hier die Bildbeschreibung ein.

Kommentare

  • Wenn wir also Bagging-Modelle mit logistischer Registrierung, linearer Registrierung und drei Entscheidungsbäumen als Basismodelle haben, verwenden alle drei Entscheidungsbäume alle Funktionen?
  • / ul>

Antwort

Bagging ist im Allgemeinen ein Akronym wie work, das ein Portmanteau von Bootstrap und Aggregation ist. Wenn Sie eine Reihe von Bootstrap-Beispielen Ihres ursprünglichen Datensatzes entnehmen, passen Sie im Allgemeinen die Modelle $ M_1, M_2, \ dots, M_b $ an und mitteln Sie dann alle $ b $ -Modellvorhersagen. Dies ist die Bootstrap-Aggregation, d. H. Bagging. Dies erfolgt als Schritt innerhalb des Random Forest-Modellalgorithmus. Die zufällige Gesamtstruktur erstellt Bootstrap-Stichproben und über Beobachtungen hinweg. Für jeden angepassten Entscheidungsbaum wird eine zufällige Teilstichprobe der Kovariaten / Merkmale / Spalten im Anpassungsprozess verwendet. Die Auswahl jeder Kovariate erfolgt mit einheitlicher Wahrscheinlichkeit im Original-Bootstrap-Papier. Wenn Sie also 100 Kovariaten hätten, würden Sie eine Teilmenge dieser Merkmale auswählen, die jeweils eine Auswahlwahrscheinlichkeit von 0,01 haben. Wenn Sie nur 1 Kovariate / Merkmal hätten, würden Sie dieses Merkmal mit Wahrscheinlichkeit 1 auswählen. Wie viele der Kovariaten / Merkmale, die Sie aus allen Kovariaten im Datensatz abtasten, sind ein Abstimmungsparameter des Algorithmus. Daher funktioniert dieser Algorithmus in hochdimensionalen Daten im Allgemeinen nicht gut.

Antwort

Ich möchte klarstellen, es gibt eine Unterscheidung zwischen bagging und eingesackte Bäume .

Absacken ( b ootstrap + agg regat ing ) verwendet ein Ensemble von Modellen, wobei:

  1. jedes Modell einen Bootstrap-Datensatz verwendet (Bootstrap-Teil des Absackens)
  2. Modelle „Vorhersagen werden aggregiert (Aggregationsteil des Absackens)

Dies bedeutet, dass Sie beim Absacken beliebige Modell Ihrer Wahl, nicht nur Bäume.

Außerdem eingesackte Bäume sind eingesackte Ensembles, bei denen jedes Modell ein Baum ist.

Also in gewissem Sinne e, jeder Sackbaum ist ein Sackensemble, aber nicht jedes Sackensemble ist ein Sackbaum.

Angesichts dieser Klarstellung denke ich, dass die Antwort von user3303020 eine gute Erklärung liefert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.