저는 Bartlett의 테스트가 표본이 동일한 분산을 가진 모집단에서 추출되었는지 확인하는 것과 관련이 있음을 이해합니다.
표본이 등분 산을 가진 모집단에서 테스트의 귀무 가설을 기각하지 못하므로 주성분 분석이 부적절합니다.
이 상황의 문제가 어디인지 잘 모르겠습니다 (동 분산 데이터가 있음). 설정) 거짓말. 모든 데이터의 기본 분포가 동일한 데이터 세트를 사용하면 어떤 문제가 있습니까? 이 조건이 존재하는 경우 큰 문제가되지 않습니다. 이것이 PCA를 부적절하게 만드는 이유는 무엇입니까?
온라인에서 좋은 정보를 찾을 수없는 것 같습니다. 이 테스트가 PCA와 관련된 이유를 해석 한 경험이있는 사람이 있습니까?
답변
질문 제목에 대한 답변입니다.
Bartlett의 구 형성 테스트 $ ^ 1 $ (종종 이전 PCA 또는 요인 수행) 분석은 데이터가 공분산이 0 인 다변량 정규 분포에서 오는지 여부를 테스트합니다. (검정의 표준 점근 버전은 다변량 정규성에서 벗어나는 데 전혀 견고하지 않습니다. 비가 우스 클라우드로 부트 스트랩을 사용할 수 있습니다.) 동등하게, 귀무 가설은 모집단 상관 행렬이 단위 행렬이거나 공분산 행렬이 대각 행렬이라는 것입니다.
이제 다변량 구름이 완벽하게 구형이라고 가정합니다 (즉, 공분산 행렬이 단위 행렬에 비례 함). ). 그러면 1) 임의의 차원이 주요 구성 요소를 제공 할 수 있으므로 PCA 솔루션이 고유하지 않습니다 .2) 모든 구성 요소가 동일한 분산 (고유 값)이므로 PCA는 데이터를 줄이는 데 도움이되지 않습니다.
다변량 클라우드가 변수 축을 따라 엄격하게 직사각형 인 타원체 인 두 번째 경우를 상상해보십시오 (즉, 공분산 행렬은 대각선입니다. 대각선을 제외한 모든 값은 0입니다. 그러면 PCA 변환에 의해 암시되는 회전은 0이됩니다. 주요 구성 요소는 변수 자체이며 순서가 변경되고 의도적으로 부호 반전됩니다. 이것은 사소한 결과입니다. 데이터를 줄이기 위해 일부 약한 차원을 삭제하는 데 PCA가 필요하지 않았습니다.
$ ^ 1 $ 통계에서 몇 가지 (최소한 세 개 이상) 테스트의 이름은 다음과 같습니다. 바틀렛. 여기서는 Bartlett의 구형 테스트에 대해 설명합니다.
답변
이라는 두 개의 테스트가있는 것 같습니다. Bartlett의 테스트 . 참조 (1937)는 표본이 분산이 같은 모집단에서 추출되었는지 여부를 결정합니다. 다른 하나는 데이터 집합에 대한 상관 행렬이 단위 행렬 (1951)인지 여부를 테스트하는 것으로 보입니다. 이미 상관 관계가없는 원래 변수를 되돌릴 수 있기 때문에 항등 상관 행렬을 사용하여 데이터에 대해 PCA를 실행하지 않는 것이 더 합리적입니다. 비교 예 :
- http://en.wikipedia.org/wiki/Bartlett”s_test –
- https://personality-project.org/r/html/cortest.bartlett.html .
댓글
- +1 이것은 다른 것보다 혼란을 더 잘 해결합니다. 답변.