Miksi Bartlett ' -testin diagnosoitu pallomaisuus tarkoittaa PCA: n sopimattomuutta?

Ymmärrän, että Bartlettin testi pyrkii määrittämään, ovatko näytteesi populaatioista, joiden varianssit ovat samat.

Jos näytteet ovat yhtäläisillä variaatioilla olevista populaatioista, emme hylkää testin nollahypoteesia, ja siksi pääkomponenttianalyysi ei ole sopiva.

En ole varma, missä tämän tilanteen ongelma (homoskedastisten tietojen saaminen) sarja) valheita. Mikä ongelma on tietojoukossa, jossa kaikkien tietojesi taustalla oleva jakauma on sama? En vain näe suurta ongelmaa, jos tämä ehto on olemassa. Miksi tämä tekisi PCA: n sopimattomaksi?

En näytä löytävän mitään hyvää tietoa mistään verkosta. Onko kenelläkään kokemusta tulkinnasta, miksi tämä testi liittyy PCA: han?

Vastaus

Vastauksena kysymyksen otsikkoon.

Bartlettin pallotesti $ ^ 1 $, joka tehdään usein ennen PCA: ta tai tekijää analyysi, testaa, ovatko tiedot peräisin monivaiheisesta normaalijakaumasta, jossa ei ole kovarianssia. (Huomaa, että testin tavallinen asymptoottinen versio ei ole lainkaan vankka poikkeamiselle monimuuttujan normaaluudesta. Voidaan käyttää käynnistysseurantaa nongaussin pilven kanssa.) vastaavasti nollahypoteesi on, että populaatiokorrelaatiomatriisi on identiteettimatriisi tai että kovarianssimatriisi on diagonaalinen.

Kuvittele nyt, että monimuuttujainen pilvi on täysin pallomainen (ts. sen kovarianssimatriisi on verrannollinen identiteettimatriisiin) Tällöin 1) kaikki mielivaltaiset mitat voivat palvella pääkomponentteja, joten PCA-ratkaisu ei ole ainutlaatuinen; samat varianssit (ominaisarvot), joten PCA ei voi auttaa vähentämään tietoja.

Kuvittele toinen tapaus, jossa monimuuttujainen pilvi on ellipsoidinen ja pitkänomainen tiukasti muuttujien ”akseleilla (ts. sen kovarianssimatriisi on lävistäjä: kaikki arvot ovat nollia paitsi lävistäjä). Sitten PCA-muunnoksen implisiittinen kierto on nolla; Pääkomponentit ovat muuttujia itse, vain järjestettyinä ja potentiaalisesti allekirjoitettuina. Tämä on vähäpätöinen tulos: PCA: ta ei tarvittu eräiden heikkojen ulottuvuuksien hylkäämiseksi tietojen vähentämiseksi.


$ ^ 1 $ Useat (vähintään kolme tietojeni mukaan) tilastotestiä on nimetty Bartlett. Tässä puhumme Bartlettin pallotestistä.

Vastaus

Näyttää olevan kaksi testiä nimeltä Bartlettin testi . Viitattu (1937) määrittää, ovatko näytteesi populaatioista, joiden varianssit ovat samat. Toinen näyttää testaavan, onko tietojoukon korrelaatiomatriisi identiteettimatriisi (1951). On järkevämpää, että et suorittaisi PCA: ta tiedoilla, joilla on identiteettikorrelaatiomatriisi, koska saat vain alkuperäiset muuttujat takaisin, koska ne ovat jo korreloimattomia. Vertaa esim.

kommentit

  • +1 Tämä ratkaisee sekaannukset paremmin kuin muut vastaus.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *