Hvorfor betyder sfæricitet diagnosticeret af Bartlett ' s test, at en PCA er upassende?

Jeg forstår, at Bartletts test handler om at bestemme, om dine prøver er fra populationer med lige store afvigelser.

Hvis prøverne er fra populationer med lige store afvigelser, så afviser vi ikke testens nulhypotese, og derfor er en hovedkomponentanalyse upassende.

Jeg er ikke sikker på, hvor problemet med denne situation (har en homoskedastisk data sæt) ligger. Hvad er problemet med at have et datasæt, hvor den underliggende distribution af alle dine data er den samme? Jeg kan bare ikke se big deal, hvis denne tilstand eksisterer. Hvorfor ville dette gøre en PCA upassende?

Jeg kan ikke synes at finde nogen god information hvor som helst online. Har nogen nogen erfaring med at fortolke, hvorfor denne test er relevant for en PCA?

Svar

Som svar på spørgsmålets titel.

Bartletts sfæriske test $ ^ 1 $, hvilket ofte udføres før PCA eller faktor analyse, tester, om dataene kommer fra multivariat normalfordeling med nul kovarianter. (Bemærk venligst, at den asymptotiske standardversion af testen slet ikke er robust for at afvige fra multivariat normalitet. Man kan bruge bootstrapping med nongussisk sky.) For at sætte ækvivalent er nulhypotesen, at populationskorrelationsmatrixen er identitetsmatrix, eller at kovariansmatricen er diagonal.

Forestil dig nu, at multivariat sky er perfekt sfærisk (dvs. dens kovariansmatrix er proportional med identitetsmatricen Derefter 1) alle vilkårlige dimensioner kan tjene hovedkomponenter, så PCA-løsningen er ikke unik; 2) alle komponenter har de samme afvigelser (egenværdier), så PCA kan ikke hjælpe med at reducere dataene.

Forestil dig det andet tilfælde, hvor multivariat sky er ellipsoid med aflanghed strengt langs variablernes “akser (dvs. dens kovariansmatrix er diagonal: alle værdier er nul undtagen diagonalen). Derefter vil den rotation, der er impliceret ved PCA-transformation, være nul; Hovedkomponenter er selve variablerne, kun omorganiseret og potentielt tegn-tilbageført. Dette er et trivielt resultat: ingen PCA var nødvendig for at kassere nogle svage dimensioner for at reducere dataene.


$ ^ 1 $ Flere (mindst tre, til min opmærksomhed) test i statistikker er opkaldt efter Bartlett. Her taler vi om Bartletts sfæriske test.

Svar

Det ser ud til, at der er to tests kaldet Bartletts test . Den, du henviste til (1937), bestemmer, om dine prøver er fra populationer med lige store afvigelser. En anden ser ud til at teste, om korrelationsmatricen for et datasæt er identitetsmatrixen (1951). Det giver mere mening, at du ikke vil køre PCA på data med en identitetskorrelationsmatrix, da du bare får dine originale variabler tilbage, da de allerede ikke er korreleret. Sammenlign f.eks.

Kommentarer

  • +1 Dette løser forvirring bedre end de andre svar.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *