Perché la sfericità diagnosticata dal test di Bartlett ' indica che un PCA non è appropriato?

Capisco che il test di Bartlett si occupa di determinare se i tuoi campioni provengono da popolazioni con varianze uguali.

Se i campioni sono da popolazioni con varianze uguali, quindi non riusciamo a rifiutare lipotesi nulla del test, e quindi unanalisi delle componenti principali è inappropriata.

Non sono sicuro di dove sia il problema con questa situazione (avendo un dato omoschedastico set) bugie. Qual è il problema con un set di dati in cui la distribuzione sottostante di tutti i tuoi dati è la stessa? Semplicemente non vedo il grosso problema se questa condizione esiste. Perché questo renderebbe inappropriato un PCA?

Non riesco a trovare nessuna buona informazione da nessuna parte online. Qualcuno ha esperienza nellinterpretazione del motivo per cui questo test è rilevante per un PCA?

Risposta

In risposta al titolo della domanda.

Bartlett “s test of shericity $ ^ 1 $, che spesso viene eseguito prima del PCA o del fattore analisi, verifica se i dati provengono da una distribuzione normale multivariata con covarianze zero. (Si noti, per favore, che la versione asintotica standard del test non è affatto robusta rispetto alla partenza dalla normalità multivariata. Si potrebbe usare il bootstrap con cloud nongaussiano). in modo equivalente, lipotesi nulla è che la matrice di correlazione della popolazione sia la matrice dellidentità o che la matrice di covarianza sia diagonale.

Immagina ora che la nuvola multivariata sia perfettamente sferica (cioè la sua matrice di covarianza è proporzionale alla matrice dellidentità Quindi 1) qualsiasi dimensione arbitraria può servire i componenti principali, quindi la soluzione PCA non è unica; 2) tutti i componenti hanno le stesse varianze (autovalori), quindi PCA non può aiutare a ridurre i dati.

Immagina il secondo caso in cui la nuvola multivariata è ellissoide con oblunghezza strettamente lungo gli assi delle variabili (es. la sua matrice di covarianza è diagonale: tutti i valori sono zero tranne la diagonale). Quindi la rotazione implicita nella trasformazione PCA sarà zero; componenti principali sono le variabili stesse, solo riordinate e potenzialmente invertite di segno. Questo è un risultato banale: non è stato necessario alcun PCA per scartare alcune dimensioni deboli e ridurre i dati.


$ ^ 1 $ Diversi (almeno tre, a mia conoscenza) i test nelle statistiche prendono il nome Bartlett. Qui stiamo parlando del test di sfericità di Bartlett.

Risposta

Sembra che ci siano due test chiamati Test di Bartlett . Quello a cui hai fatto riferimento (1937) determina se i tuoi campioni provengono da popolazioni con varianze uguali. Un altro sembra testare se la matrice di correlazione per un insieme di dati è la matrice identità (1951). Ha più senso che tu non esegua PCA su dati con una matrice di correlazione identità, poiché recupererai semplicemente le tue variabili originali poiché sono già non correlate. Confronta, ad esempio,

Commenti

  • +1 Questo risolve le confusioni meglio dellaltro risposta.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *