Megértettem, hogy Bartlett tesztje annak meghatározásával foglalkozik, hogy a mintáid azonos varianciájú populációkból származnak-e.
Ha a minták egyenlő eltérésekkel rendelkező populációkból, akkor nem tudjuk elutasítani a teszt nullhipotézisét, ezért egy főkomponens-elemzés nem helyénvaló.
Nem vagyok biztos benne, hogy hol van a probléma ezzel a helyzettel (homoszkasztikus adatokkal rendelkezem) meg) hazugság. Mi a probléma azzal az adatkészlettel, ahol az összes adat mögöttes megoszlása megegyezik? Csak nem látom a nagy ügyet, ha ez a feltétel fennáll. Miért tenné alkalmatlanná a PCA-t?
Úgy tűnik, hogy nem találok jó információt bárhol online. Van valakinek tapasztalata annak értelmezéséről, hogy ez a teszt miért releváns a PCA szempontjából?
Válasz
A kérdés címére válaszolva.
elemzés, teszteli, hogy az adatok többváltozós normális eloszlásból származnak-e, nulla kovariancia mellett. (Megjegyzés: kérjük, vegye figyelembe, hogy a teszt standard aszimptotikus változata egyáltalán nem robusztus a többváltozós normalitástól való eltérésre. Lehet, hogy a bootstrap-ot nongaussian felhővel használjuk.) ekvivalensen a nullhipotézis az, hogy a populációs korrelációs mátrix identitásmátrix, vagy hogy a kovarianciamátrix átlós.
Képzeljük el, hogy a többváltozós felhő tökéletesen gömb alakú (azaz kovarianciamátrixa arányos az identitásmátrixszal) Ekkor 1) tetszőleges dimenziók szolgálhatják a fő összetevőket, így a PCA-megoldás nem egyedi; 2) az összes komponens rendelkezik ugyanazok a varianciák (sajátértékek), így a PCA nem tud segíteni az adatok csökkentésében.
Képzeljük el a második esetet, amikor a többváltozós felhő ellipszoid alakú, szigorúan a változók tengelyei mentén hosszúkás (azaz kovarianciamátrixa átlós: az átló kivételével minden érték nulla). Ekkor a PCA transzformációval járó forgatás nulla lesz; fő alkotóelemek maguk a változók, csak átrendezve és potenciálisan előjelekkel visszaállítva. Ez triviális eredmény: nem volt szükség PCA-ra néhány gyenge dimenzió elvetéséhez az adatok csökkentése érdekében.
$ ^ 1 $ A statisztikákban több (legalább három, tudomásom szerint) tesztet neveznek el Bartlett. Itt a Bartlett-féle gömbtesztről beszélünk.
Válasz
Úgy tűnik, hogy két teszt létezik, az úgynevezett Bartlett tesztje t. Az általad hivatkozott (1937) meghatározza, hogy a mintáid azonos varianciájú populációkból származnak-e. Úgy tűnik, hogy egy másik teszteli, hogy az adatsor korrelációs mátrixa az azonosság-mátrix (1951). Ésszerűbb, hogy nem futtatná a PCA-t azonosságkorrelációs mátrixú adatokon, mivel az eredeti változókat csak visszakapja, mivel azok már nincsenek korrelálva. Hasonlítsa össze például: id = “00c3ed08c9″>
http://en.wikipedia.org/wiki/Bartlett”s_test –
Megjegyzések
- +1 Ez jobban megoldja a zavarokat, mint a másik válasz.