Waarom betekent sfericiteit gediagnosticeerd door Bartlett ' s Test dat een PCA ongepast is?

Ik begrijp dat Bartletts Test zich bezighoudt met het bepalen of uw steekproeven afkomstig zijn uit populaties met gelijke varianties.

Als de steekproeven zijn van populaties met gelijke varianties, dan kunnen we de nulhypothese van de test niet verwerpen, en daarom is een principale componentanalyse ongepast.

Ik weet niet zeker waar het probleem met deze situatie (met homoskedastische gegevens set) leugens. Wat is het probleem met het hebben van een dataset waarbij de onderliggende distributie van al je data hetzelfde is? Ik zie het probleem gewoon niet in als deze voorwaarde bestaat. Waarom zou dit een PCA ongepast maken?

Ik kan nergens online goede informatie vinden. Heeft iemand enige ervaring met het interpreteren waarom deze test relevant is voor een PCA?

Antwoord

In antwoord op de titel van de vraag.

Bartletts bolvormigheidstest $ ^ 1 $, wat vaak wordt gedaan voorafgaand aan PCA of factor analyse, test of de gegevens afkomstig zijn van multivariate normale distributie met nul covarianties. (merk op dat de standaard asymptotische versie van de test helemaal niet robuust is om af te wijken van multivariate normaliteit. Men zou bootstrapping kunnen gebruiken met een niet-Russische cloud.) het equivalent is de nulhypothese dat de populatiecorrelatiematrix een identiteitsmatrix is of dat de covariantiematrix diagonaal is.

Stel je nu voor dat een multivariante wolk perfect bolvormig is (dwz dat de covariantiematrix evenredig is met de identiteitsmatrix. ). Dan 1) willekeurige afmetingen kunnen hoofdcomponenten dienen, dus PCA-oplossing is niet uniek; 2) alle componenten hebben dezelfde varianties (eigenwaarden), dus PCA kan niet helpen om de gegevens te verkleinen.

Stel je het tweede geval voor waarin een multivariate wolk ellipsoïd is met langwerpigheid strikt langs de assen van de variabelen (d.w.z. de covariantiematrix is diagonaal: alle waarden zijn nul behalve de diagonaal). Dan is de rotatie geïmpliceerd door PCA-transformatie nul; hoofdcomponenten zijn de variabelen zelf, alleen opnieuw gerangschikt en mogelijk van teken teruggedraaid. Dit is een triviaal resultaat: er was geen PCA nodig om enkele zwakke dimensies te negeren om de gegevens te verminderen.


$ ^ 1 $ Verschillende (naar mijn weten drie) tests in de statistieken zijn vernoemd naar Bartlett. Hier hebben we het over de sfericiteitstest van Bartlett.

Antwoord

Het lijkt erop dat er twee tests zijn genaamd Bartletts test . Degene waarnaar u verwijst (1937) bepaalt of uw steekproeven afkomstig zijn uit populaties met gelijke varianties. Een andere lijkt te testen of de correlatiematrix voor een set gegevens de identiteitsmatrix is (1951). Het is logischer dat u PCA niet zou uitvoeren op gegevens met een identiteitscorrelatiematrix, aangezien u gewoon uw oorspronkelijke variabelen terugkrijgt, aangezien ze al niet-gecorreleerd zijn. Vergelijk bijvoorbeeld

Reacties

  • +1 Dit lost de verwarring beter op dan de andere antwoord.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *