Proč sférickost diagnostikovaná Bartlett ' s testem znamená, že PCA je nevhodná?

Rozumím tomu, že Bartlettův test se týká určení, zda jsou vaše vzorky z populací se stejnými odchylkami.

Pokud jsou vzorky z populací se stejnými odchylkami, pak se nám nepodařilo odmítnout nulovou hypotézu testu, a proto je analýza hlavní složky nevhodná.

Nejsem si jistý, kde je problém s touto situací (mít homoskedastické údaje set) lži. Jaký je problém s datovou sadou, kde je základní distribuce všech vašich dat stejná? Prostě nevidím velký problém, pokud tato podmínka existuje. Proč by to způsobilo, že by byl PCA nevhodný?

Zdá se mi, že nikde online nenajdu žádné dobré informace. Máte někdo zkušenosti s výkladem toho, proč je tento test relevantní pro PCA?

Odpověď

V reakci na název otázky.

Bartlettův test sférickosti $ ^ 1 $, který se často provádí před PCA nebo faktorem Analýza testuje, zda data pocházejí z vícerozměrného normálního rozdělení s nulovými kovariancemi. (Upozorňujeme, že standardní asymptotická verze testu není vůbec robustní vzhledem k odklonu od vícerozměrné normality. Dalo by se použít bootstrapping s negauským cloudem.) ekvivalentní nulovou hypotézou je, že korelační maticí populace je matice identity nebo že kovarianční matice je diagonální.

Představte si, že multivariační mrak je dokonale sférický (tj. jeho kovarianční matice je úměrná matici identity) ). Potom 1) libovolné dimenze mohou sloužit hlavním komponentám, takže řešení PCA není jedinečné; 2) všechny komponenty mají stejné odchylky (vlastní hodnoty), takže PCA nemůže pomoci snížit data.

Představte si druhý případ, kdy vícerozměrný mrak je elipsoid s podlouhlostí přesně podél os proměnných (tj. jeho kovarianční matice je úhlopříčka: všechny hodnoty jsou nulové kromě úhlopříčky). Pak bude rotace implikovaná transformací PCA nulová; hlavními komponentami jsou samotné proměnné, které jsou pouze přeuspořádány a potenciálně vráceny zpět. To je triviální výsledek: k vyřazení některých slabých dimenzí ke snížení dat nebylo nutné žádné PCA.


$ ^ 1 $ Několik (alespoň tří, podle mého vědomí) testů ve statistikách je pojmenováno po Bartlett. Tady mluvíme o Bartlettově testu sférickosti.

Odpověď

Zdá se, že existují dva testy s názvem Bartlettův test . Ten, na který jste odkazovali (1937), určuje, zda jsou vaše vzorky z populací se stejnými odchylkami. Zdá se, že další testuje, zda je korelační matice pro sadu dat matice identity (1951). Dává větší smysl, že byste PCA nespustili na datech s maticí korelace identity, protože pouze získáte zpět své původní proměnné, protože již nesouvisí. Porovnejte např.

Komentáře

  • +1 To řeší zmatky lépe než ostatní odpověď.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *