Por que o teste de esfericidade diagnosticado por Bartlett ' s significa que um PCA é impróprio?

Eu entendo que o teste de Bartlett se preocupa em determinar se suas amostras são de populações com variâncias iguais.

Se as amostras são de populações com variâncias iguais, falhamos em rejeitar a hipótese nula do teste e, portanto, uma análise de componente principal é inadequada.

Não tenho certeza de onde está o problema com esta situação (ter dados homocedásticos conjunto) mentiras. Qual é o problema de ter um conjunto de dados em que a distribuição subjacente de todos os seus dados é a mesma? Simplesmente não vejo grande problema se essa condição existe. Por que isso tornaria um PCA impróprio?

Não consigo encontrar nenhuma informação boa em qualquer lugar online. Alguém tem alguma experiência em interpretar por que este teste é relevante para um PCA?

Resposta

Em resposta ao título da pergunta.

Teste de esfericidade de Bartlett $ ^ 1 $, que geralmente é feito antes do PCA ou fator análise, testa se os dados vêm de distribuição normal multivariada com covariâncias zero. (Observe, por favor, que a versão assintótica padrão do teste não é de todo robusta para o afastamento da normalidade multivariada. Pode-se usar bootstrapping com nuvem não-gaussiana) de forma equivalente, a hipótese nula é que a matriz de correlação populacional é uma matriz de identidade ou que a matriz de covariância é diagonal.

Imagine agora que a nuvem multivariada é perfeitamente esférica (ou seja, sua matriz de covariância é proporcional à matriz de identidade ). Então, 1) quaisquer dimensões arbitrárias podem servir aos componentes principais, de modo que a solução PCA não é única; 2) todos os componentes têm as mesmas variâncias (valores próprios), então o PCA não pode ajudar a reduzir os dados.

Imagine o segundo caso em que a nuvem multivariada é elipsóide com oblongo estritamente ao longo dos eixos das variáveis (ou seja, sua matriz de covariância é diagonal: todos os valores são zero, exceto a diagonal). Então, a rotação implícita pela transformação PCA será zero; os componentes principais são as próprias variáveis, apenas reordenadas e potencialmente revertidas no sinal. Este é um resultado trivial: nenhum PCA foi necessário para descartar algumas dimensões fracas para reduzir os dados.

$ ^ 1 $ Vários (pelo menos três, que eu saiba) testes em estatísticas têm o nome de Bartlett. Aqui, estamos falando do teste de esfericidade de Bartlett.

Resposta

Parece que há dois testes chamados Teste de Bartlett . Aquele que você referenciou (1937) determina se suas amostras são de populações com variâncias iguais. Outro parece testar se a matriz de correlação para um conjunto de dados é a matriz de identidade (1951). Faz mais sentido você não executar o PCA em dados com uma matriz de correlação de identidade, uma vez que você apenas receberá de volta suas variáveis originais, pois elas já não estão correlacionadas. Compare, por exemplo,

Comentários

+1 Isso resolve as confusões melhor do que o outro resposta.

Resposta

Resposta

Comentários

Deixe uma resposta Cancelar resposta