Hvorfor betyr sfærisitet diagnostisert av Bartlett ' s test at en PCA er upassende?

Jeg forstår at Bartletts Test er opptatt av å avgjøre om prøvene dine kommer fra populasjoner med like avvik.

Hvis prøvene er fra populasjoner med like avvik, så klarer vi ikke å avvise testens nullhypotese, og derfor er en hovedkomponentanalyse upassende.

Jeg er ikke sikker på hvor problemet med denne situasjonen (å ha en homoskedastisk data sett) ligger. Hva er problemet med å ha et datasett der den underliggende distribusjonen av alle dataene dine er den samme? Jeg ser bare ikke saken hvis denne tilstanden eksisterer. Hvorfor ville dette gjøre en PCA upassende?

Jeg kan ikke synes å finne god informasjon hvor som helst på nettet. Er det noen som har noen erfaring med å tolke hvorfor denne testen er relevant for en PCA?

Svar

Som svar på spørsmålstittelen.

Bartletts sfæriske test $ ^ 1 $, som ofte gjøres før PCA eller faktor analyse, tester om dataene kommer fra multivariat normalfordeling med null kovarianter. (Vær oppmerksom på at standard asymptotisk versjon av testen slett ikke er robust for avvik fra multivariat normalitet. Man kan bruke bootstrapping med nongaussian cloud.) ekvivalent er nullhypotesen at populasjonskorrelasjonsmatrisen er identitetsmatrise eller at kovariansmatrisen er diagonal.

Tenk deg at multivariat sky er perfekt sfærisk (dvs. dens kovariansmatrise er proporsjonal med identitetsmatrisen Deretter kan 1) eventuelle vilkårlige dimensjoner tjene hovedkomponenter, så PCA-løsningen er ikke unik; 2) alle komponentene har de samme avvikene (egenverdier), så PCA kan ikke bidra til å redusere dataene.

Se for deg det andre tilfellet der multivariat sky er ellipsoid med avlenghet strengt langs variablene «akser (dvs. dens kovariansmatrise er diagonal: alle verdier er null unntatt diagonalen). Da vil rotasjonen implisert av PCA-transformasjon være null; hovedkomponentene er variablene i seg selv, bare omorganisert og potensielt signert tilbakestilt. Dette er et trivielt resultat: ingen PCA var nødvendig for å forkaste noen svake dimensjoner for å redusere dataene.


$ ^ 1 $ Flere (minst tre, til min bevissthet) tester i statistikk er oppkalt etter Bartlett. Her snakker vi om Bartletts sfæriske test.

Svar

Det ser ut til at det er to tester kalt Bartletts test . Den du refererte til (1937) avgjør om prøvene dine kommer fra populasjoner med like avvik. En annen ser ut til å teste om korrelasjonsmatrisen for et datasett er identitetsmatrisen (1951). Det er mer fornuftig at du ikke vil kjøre PCA på data med en identitetskorrelasjonsmatrise, siden du bare vil få tilbake de opprinnelige variablene dine siden de ikke er sammenhengende. Sammenlign f.eks.

Kommentarer

  • +1 Dette løser forvirringene bedre enn de andre svar.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *