¿Por qué la esfericidad diagnosticada por la prueba de Bartlett ' s significa que un PCA es inapropiado?

Entiendo que la prueba de Bartlett se ocupa de determinar si sus muestras son de poblaciones con varianzas iguales.

Si las muestras son de poblaciones con varianzas iguales, no rechazamos la hipótesis nula de la prueba y, por lo tanto, un análisis de componentes principales es inapropiado.

No estoy seguro de dónde está el problema con esta situación (tener datos homocedásticos conjunto) mentiras. ¿Cuál es el problema de tener un conjunto de datos donde la distribución subyacente de todos sus datos es la misma? Simplemente no veo el gran problema si existe esta condición. ¿Por qué esto haría que un PCA sea inapropiado?

Parece que no puedo encontrar ninguna buena información en ningún lugar en línea. ¿Alguien tiene alguna experiencia en la interpretación de por qué esta prueba es relevante para un PCA?

Respuesta

En respuesta al título de la pregunta.

Prueba de esfericidad de Bartlett $ ^ 1 $, que a menudo se realiza antes de PCA o factor análisis, prueba si los datos provienen de una distribución normal multivariada con covarianzas cero. (Tenga en cuenta que la versión asintótica estándar de la prueba no es en absoluto robusta a la desviación de la normalidad multivariada. Se podría usar bootstrapping con nubes no gaussianas). De manera equivalente, la hipótesis nula es que la matriz de correlación de la población es una matriz de identidad o que la matriz de covarianza es una diagonal.

Imagine ahora que la nube multivariada es perfectamente esférica (es decir, su matriz de covarianza es proporcional a la matriz de identidad Entonces 1) cualquier dimensión arbitraria puede servir a los componentes principales, por lo que la solución de PCA no es única; 2) todos los componentes tienen las mismas varianzas (valores propios), por lo que PCA no puede ayudar a reducir los datos.

Imagine el segundo caso en el que la nube multivariante es elipsoide con oblongo estrictamente a lo largo de los ejes de las variables (es decir, su matriz de covarianza es diagonal: todos los valores son cero excepto la diagonal). Entonces la rotación que implica la transformación PCA será cero; Los componentes principales son las variables mismas, solo reordenadas y potencialmente revertidas de signo. Este es un resultado trivial: no se necesitó PCA para descartar algunas dimensiones débiles para reducir los datos.


$ ^ 1 $ Varias (al menos tres, según mi conocimiento) pruebas en estadísticas llevan el nombre de Bartlett. Aquí estamos hablando de la prueba de esfericidad de Bartlett.

Respuesta

Parece que hay dos pruebas llamadas Prueba de Bartlett . El que hizo referencia (1937) determina si sus muestras son de poblaciones con varianzas iguales. Otro parece probar si la matriz de correlación para un conjunto de datos es la matriz de identidad (1951). Tiene más sentido que no ejecute PCA en datos con una matriz de correlación de identidad, ya que solo obtendrá sus variables originales, ya que ya no están correlacionadas. Compare, por ejemplo,

Comentarios

  • +1 Esto resuelve las confusiones mejor que el otro respuesta.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *