“バギングとランダムフォレストの基本的な違いは、ランダムフォレストでは、特徴のサブセットのみが全体と最良の分割からランダムに選択されることです。サブセットの機能は、すべての機能がノードの分割と見なされるバギングとは異なり、ツリー内の各ノードを分割するために使用されます。」これは、1つの説明変数(予測子)のみが入力として使用される場合、バギングはランダムフォレストと同じであることを意味しますか?
回答
基本的な違いは、ランダムフォレストでは、すべての特徴が考慮されるバギングとは異なり、特徴のサブセットのみが全体からランダムに選択され、サブセットからの最良の分割特徴がツリー内の各ノードの分割に使用されることです。ノードを分割する場合。
コメント
- つまり、ロジスティックreg、linear reg、3つの決定木をベースモデルとするバギングモデルがある場合、3つの決定木すべてがすべての機能を使用しますか?
回答
一般に、バギングは、ブートストラップと集約のポートマントーである作業のような頭字語です。一般に、元のデータセットのブートストラップされたサンプルの束を取得し、モデル$ M_1、M_2、\ dots、M_b $を適合させてから、すべての$ b $モデル予測を平均すると、これはブートストラップ集約、つまりバギングです。これは、ランダムフォレストモデルアルゴリズム内のステップとして実行されます。ランダムフォレストは、ブートストラップサンプルと観測全体を作成し、フィッティングされた決定木ごとに、共変量/特徴/列のランダムサブサンプルがフィッティングプロセスで使用されます。各共変量の選択は、元のブートストラップペーパーで均一な確率で行われます。したがって、100個の共変量がある場合、これらの機能のサブセットを選択すると、それぞれの選択確率は0.01になります。共変量/特徴が1つしかない場合は、確率1でその特徴を選択します。データセット内のすべての共変量からサンプリングする共変量/特徴の数は、アルゴリズムの調整パラメーターです。したがって、このアルゴリズムは通常、高次元データではうまく機能しません。
回答
説明したいのですが バギング および バギングされた木 。
バギング ( b ootstrap + agg regat ing )は、次のようなモデルのアンサンブルを使用しています。
- 各モデルはブートストラップされたデータセットを使用します(バギングのブートストラップ部分)
- モデルの予測が集約されます(バギングの集約部分)
これは、バギングで任意のを使用できることを意味します。 em>木だけでなく、選択したモデル。
さらに、 袋に入れられた木 は、各モデルがツリーであるバッグ化されたアンサンブルです。
つまり、感覚的にはたとえば、袋に入れられた各ツリーは袋に入れられたアンサンブルですが、袋に入れられた各アンサンブルが袋に入れられたツリーであるとは限りません。
この説明を踏まえると、user3303020の回答が適切な説明になると思います。