Warum bedeutet die von Bartlett ' s diagnostizierte Sphärizität, dass eine PCA unangemessen ist?

Ich verstehe, dass es bei Bartletts Test darum geht, festzustellen, ob Ihre Proben aus Populationen mit gleichen Varianzen stammen.

Wenn die Proben sind Bei Populationen mit gleichen Varianzen lehnen wir die Nullhypothese des Tests nicht ab, und daher ist eine Hauptkomponentenanalyse unangemessen.

Ich bin nicht sicher, wo das Problem mit dieser Situation liegt (mit homoskedastischen Daten set) lügt. Was ist das Problem mit einem Datensatz, bei dem die zugrunde liegende Verteilung aller Ihrer Daten gleich ist? Ich sehe die große Sache einfach nicht, wenn dieser Zustand vorliegt. Warum sollte dies eine PCA unangemessen machen?

Ich kann anscheinend nirgendwo online gute Informationen finden. Hat jemand Erfahrung mit der Interpretation, warum dieser Test für eine PCA relevant ist?

Antwort

Antwort auf den Fragentitel.

Bartletts Test der Sphärizität $ ^ 1 $, der häufig vor PCA oder Faktor durchgeführt wird Bei der Analyse wird getestet, ob die Daten aus einer multivariaten Normalverteilung mit null Kovarianzen stammen. (Beachten Sie bitte, dass die asymptotische Standardversion des Tests überhaupt nicht robust gegenüber der Abweichung von der multivariaten Normalität ist Entsprechend lautet die Nullhypothese, dass die Populationskorrelationsmatrix eine Identitätsmatrix ist oder dass die Kovarianzmatrix eine diagonale ist.

Stellen Sie sich nun vor, dass die multivariate Wolke perfekt sphärisch ist (dh ihre Kovarianzmatrix ist proportional zur Identitätsmatrix ). Dann 1) können beliebige Abmessungen Hauptkomponenten dienen, sodass die PCA-Lösung nicht eindeutig ist; 2) alle Komponenten haben die gleichen Varianzen (Eigenwerte), so dass PCA nicht helfen kann, die Daten zu reduzieren.

Stellen Sie sich den zweiten Fall vor, in dem die multivariate Wolke ellipsoid ist und die Länge entlang der Variablenachsen (d. h. Die Kovarianzmatrix ist diagonal: Alle Werte außer der Diagonale sind Null. Dann ist die durch die PCA-Transformation implizierte Drehung Null; Hauptkomponenten sind die Variablen selbst, die nur neu geordnet und potenziell vorzeichenumgekehrt sind. Dies ist ein triviales Ergebnis: Es wurde keine PCA benötigt, um einige schwache Dimensionen zu verwerfen, um die Daten zu reduzieren.


$ ^ 1 $ Nach mehreren (meines Wissens mindestens drei) Tests in Statistiken sind benannt Bartlett. Hier sprechen wir vom Bartlett-Sphärizitätstest.

Antwort

Es scheint, dass es zwei Tests gibt, die genannt werden Bartletts Test . Die von Ihnen referenzierte (1937) bestimmt, ob Ihre Proben aus Populationen mit gleichen Varianzen stammen. Ein anderer scheint zu testen, ob die Korrelationsmatrix für einen Datensatz die Identitätsmatrix ist (1951). Es ist sinnvoller, PCA nicht für Daten mit einer Identitätskorrelationsmatrix auszuführen, da Sie nur Ihre ursprünglichen Variablen zurückerhalten, da diese bereits nicht korreliert sind. Vergleichen Sie z. B.

Kommentare

  • +1 Dies löst die Verwirrungen besser als die anderen Antwort.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.