De ce sfericitatea diagnosticată de testul Bartlett ' înseamnă că un PCA este inadecvat?

Înțeleg că testul Bartlett se referă la determinarea dacă eșantioanele dvs. provin din populații cu varianțe egale.

Dacă eșantioanele sunt din populații cu varianțe egale, atunci nu reușim să respingem ipoteza nulă a testului și, prin urmare, o analiză a componentei principale este inadecvată.

Nu sunt sigur unde este problema cu această situație (având date homoskedastice set) minciuni. Care este problema cu un set de date în care distribuția subiacentă a tuturor datelor dvs. este aceeași? Pur și simplu nu văd mare lucru dacă există această condiție. De ce ar face ca un PCA să fie inadecvat?

Parcă nu găsesc nicio informație bună oriunde online. Are cineva experiență în interpretarea motivului pentru care acest test este relevant pentru un PCA?

Răspuns

Ca răspuns la titlul întrebării.

Testul de sfericitate al lui Bartlett $ ^ 1 $, care se face adesea înainte de PCA sau factor analiză, testează dacă datele provin dintr-o distribuție normală multivariată cu zero covarianțe. (Rețineți că versiunea asimptotică standard a testului nu este deloc robustă față de abaterea de la normalitatea multivariată. S-ar putea folosi bootstrapping-ul cu cloud nongusian.) echivalent, ipoteza nulă este că matricea de corelație a populației este matricea identității sau că matricea de covarianță este diagonală.

Imaginați-vă acum că norul multivariat este perfect sferic (adică matricea sa de covarianță este proporțională cu matricea de identitate Apoi 1) orice dimensiune arbitrară poate servi componentelor principale, deci soluția PCA nu este unică; 2) toate componentele au aceleași varianțe (valori proprii), deci PCA nu poate ajuta la reducerea datelor.

Imaginați-vă al doilea caz în care norul multivariat este elipsoid cu alungire strict de-a lungul variabilelor „axe (adică matricea sa de covarianță este diagonală: toate valorile sunt zero, cu excepția diagonalei). Atunci rotația implicată de transformarea PCA va fi zero; componentele principale sunt variabilele în sine, doar reordonate și potențial semnate-revenite. Acesta este un rezultat banal: nu a fost nevoie de PCA pentru a elimina unele dimensiuni slabe pentru a reduce datele.


$ ^ 1 $ Mai multe teste (cel puțin trei, după părerea mea) din statistici sunt numite după Bartlett. Aici vorbim despre testul de sfericitate al lui Bartlett.

Răspuns

Se pare că există două teste numite Testul lui Bartlett . Cel la care ați făcut referire (1937) determină dacă eșantioanele dvs. provin din populații cu varianțe egale. Un altul pare să testeze dacă matricea de corelație pentru un set de date este matricea identității (1951). Este mai logic că nu veți rula PCA pe date cu o matrice de corelare a identității, deoarece veți obține înapoi variabilele originale, deoarece acestea sunt deja necorelate. Comparați, de exemplu,

Comentarii

  • +1 Aceasta rezolvă confuziile mai bine decât celălalt răspuns.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *