“배깅과 랜덤 포레스트의 근본적인 차이점은 랜덤 포레스트에서는 피처의 하위 집합 만 전체 및 최상의 분할 중에서 임의로 선택된다는 것입니다. 모든 기능이 노드 분할을 위해 고려되는 배깅과는 달리 하위 집합의 기능은 트리의 각 노드를 분할하는 데 사용됩니다. ” 이것은 설명 변수 (예측 자)가 하나만 입력으로 사용되는 경우 배깅이 랜덤 포레스트와 동일하다는 것을 의미합니까?
Answer
근본적인 차이점은 랜덤 포레스트에서는 모든 기능이 고려되는 배깅과는 달리 전체 기능 중 일부만 무작위로 선택되고 하위 집합에서 최상의 분할 기능이 트리의 각 노드를 분할하는 데 사용된다는 것입니다. 노드 분할 용.
댓글
- 그러면 로지스틱 reg, 선형 reg, 3 개의 의사 결정 트리를 기본 모델로 사용하는 배깅 모델이 있다면 세 가지 의사 결정 트리 모두 모든 기능을 사용할까요?
Answer
Bagging은 일반적으로 Bootstrap 및 Aggregation의 대표자 인 work와 같은 약어입니다. 일반적으로 원본 데이터 세트의 부트 스트랩 된 샘플을 여러 개 가져와 $ M_1, M_2, \ dots, M_b $ 모델에 맞는 다음 모든 $ b $ 모델 예측의 평균을 내면 이것이 부트 스트랩 집계, 즉 Bagging입니다. 이것은 Random Forest 모델 알고리즘 내에서 한 단계로 수행됩니다. 랜덤 포레스트는 부트 스트랩 샘플과 전체 관측 값을 생성하고 각 피팅 된 의사 결정 트리에 대해 공변량 / 특징 / 열의 랜덤 하위 샘플이 피팅 프로세스에 사용됩니다. 각 공변량의 선택은 원래 부트 스트랩 논문에서 균일 한 확률로 수행됩니다. 따라서 공변량이 100 개인 경우 이러한 특성의 하위 집합은 각각 선택 확률이 0.01입니다. 공변량 / 특징이 1 개 뿐인 경우 확률 1로 해당 특성을 선택합니다. 데이터 세트의 모든 공변량에서 샘플링하는 공변량 / 특징의 수는 알고리즘의 조정 매개 변수입니다. 따라서이 알고리즘은 일반적으로 고차원 데이터에서 잘 수행되지 않습니다.
답변
설명하고 싶습니다. 배깅 및 배깅 된 나무 .
배깅 ( b ootstrap + agg regat ing )는 다음과 같은 모델 앙상블을 사용합니다.
- 각 모델은 부트 스트랩 데이터 세트를 사용합니다. (배깅의 부트 스트랩 부분)
- 모델 “예측이 집계됩니다 (배깅의 집계 부분)
즉, 배깅에서 모든 모델을 선택할 수 있습니다.
더욱, 수백 나무 는 각 모델이 나무 인 배깅 된 앙상블입니다.
그래서 감각적으로 e, 각각의 bagged 트리는 bagged ensemble이지만 각 bagged ensemble은 bagged tree가 아닙니다.
이 설명을 감안할 때 user3303020의 답변이 좋은 설명을 제공한다고 생각합니다.