Rozumiem, że test Bartletta dotyczy określenia, czy próbki pochodzą z populacji o równych wariancjach.
Jeśli próbki są z populacji o równych wariancjach, to nie odrzucamy hipotezy zerowej testu, a zatem analiza składowych głównych jest niewłaściwa.
Nie jestem pewien, gdzie jest problem z tą sytuacją (mając dane homoskedastyczne zestaw) kłamstwa. Jaki jest problem z posiadaniem zestawu danych, w którym podstawowa dystrybucja wszystkich danych jest taka sama? Po prostu nie widzę wielkiej sprawy, jeśli taki stan istnieje. Dlaczego miałoby to uczynić PCA nieodpowiednim?
Nie mogę znaleźć żadnych dobrych informacji w Internecie. Czy ktoś ma jakieś doświadczenie w interpretowaniu, dlaczego ten test jest istotny dla PCA?
Odpowiedź
W odpowiedzi na tytuł pytania.
Test sferyczności Bartletta $ ^ 1 $, który jest często wykonywany przed PCA lub czynnikiem analiza, testy, czy dane pochodzą z wielowymiarowego rozkładu normalnego z zerowymi kowariancjami. (Proszę zauważyć, że standardowa asymptotyczna wersja testu wcale nie jest odporna na odejście od wielowymiarowej normalności. Można użyć bootstrappingu z chmurą non-gaussowską). równoważnie, hipoteza zerowa jest taka, że macierz korelacji populacji jest macierzą tożsamości lub że macierz kowariancji jest macierzą diagonalną.
Wyobraź sobie teraz, że wielowymiarowa chmura jest idealnie kulista (tj. jej macierz kowariancji jest proporcjonalna do macierzy tożsamości Następnie 1) dowolne wymiary mogą służyć głównym komponentom, więc rozwiązanie PCA nie jest unikalne; 2) wszystkie komponenty mają te same wariancje (wartości własne), więc PCA nie może pomóc w zmniejszeniu danych.
Wyobraź sobie drugi przypadek, w którym chmura wielowymiarowa jest elipsoidalna z podłużnością ściśle wzdłuż osi zmiennych (tj. jego macierz kowariancji jest przekątna: wszystkie wartości są równe zero z wyjątkiem przekątnej). Wtedy rotacja implikowana przez transformację PCA będzie wynosić zero; Głównymi składnikami są same zmienne, tylko uporządkowane i potencjalnie odwrócone. To trywialny wynik: nie było potrzeby PCA, aby odrzucić niektóre słabe wymiary i zredukować dane.
$ ^ 1 $ Kilka (co najmniej trzy, o ile wiem) testy w statystykach nazwano po Bartlett. Tutaj mówimy o teście sferyczności Bartletta.
Odpowiedź
Wygląda na to, że istnieją dwa testy o nazwie Test Bartletta . Ten, do którego odwołujesz się (1937), określa, czy twoje próbki pochodzą z populacji o równych wariancjach. Inny wydaje się sprawdzać, czy macierz korelacji dla zbioru danych jest macierzą tożsamości (1951). Bardziej sensowne jest, aby nie uruchamiać PCA na danych z macierzą korelacji tożsamości, ponieważ po prostu odzyskasz oryginalne zmienne, ponieważ są już nieskorelowane. Porównaj, np.
- http://en.wikipedia.org/wiki/Bartlett”s_test do
- https://personality-project.org/r/html/cortest.bartlett.html .
Komentarze
- +1 To rozwiązuje nieporozumienia lepiej niż inne odpowiedź.