Varför betyder sfäricitet som diagnostiserats av Bartlett ' s test att en PCA är olämplig?

Jag förstår att Bartletts test handlar om att avgöra om dina prover kommer från populationer med lika varians.

Om proverna är från populationer med lika varians, då misslyckas vi med att avvisa testets nollhypotes, och därför är en huvudkomponentanalys olämplig.

Jag är inte säker på var problemet med denna situation (med en homoskedastisk data set) lögner. Vad är problemet med att ha en datamängd där den underliggande fördelningen av alla dina data är densamma? Jag förstår bara inte saken om detta villkor finns. Varför skulle detta göra en PCA olämplig?

Jag kan inte tycka hitta någon bra information var som helst online. Har någon erfarenhet av att tolka varför detta test är relevant för en PCA?

Svar

Som svar på frågetiteln.

Bartletts sfäricitet $ ^ 1 $, vilket ofta görs före PCA eller faktor analys, testar om data kommer från multivariat normalfördelning med noll kovarianter. (Observera att standard asymptotisk version av testet inte alls är robust för avvikelsen från multivariat normalitet. Man kan använda bootstrapping med nongussisk moln.) För att sätta likvärdigt är nollhypotesen att populationskorrelationsmatrisen är identitetsmatris eller att kovariansmatrisen är diagonal.

Föreställ dig nu att multivariat moln är perfekt sfäriskt (dvs. dess kovariansmatris är proportionell mot identitetsmatrisen Då kan 1) alla godtyckliga dimensioner tjäna huvudkomponenter, så PCA-lösningen är inte unik; 2) alla komponenter har samma avvikelser (egenvärden), så PCA kan inte hjälpa till att minska data.

Föreställ dig det andra fallet där multivariat moln är ellipsoid med avlånghet strikt längs variablernas axlar (dvs. dess kovariansmatris är diagonal: alla värden är noll utom diagonalen). Då blir rotationen som antas av PCA-transformation noll; Huvudkomponenterna är själva variablerna, endast ordnade och potentiellt sign-reverted. Detta är ett trivialt resultat: ingen PCA behövdes för att kasta bort några svaga dimensioner för att minska data.


$ ^ 1 $ Flera (minst tre, enligt min medvetenhet) tester i statistik är uppkallade efter Bartlett. Här talar vi om Bartletts sfäricitetstest.

Svar

Det verkar som om det finns två tester som heter Bartletts test . Den du refererade till (1937) avgör om dina prover kommer från populationer med samma varians. En annan verkar testa om korrelationsmatrisen för en uppsättning data är identitetsmatrisen (1951). Det är mer meningsfullt att du inte skulle köra PCA på data med en identitetskorrelationsmatris, eftersom du bara får tillbaka dina ursprungliga variabler eftersom de redan är okorrelerade. Jämför t.ex.

Kommentarer

  • +1 Detta löser förvirringarna bättre än de andra svara.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *