Pourquoi la sphéricité diagnostiquée par le test de Bartlett ' s signifie-t-elle qu’une ACP est inappropriée?

Je comprends que le test de Bartlett vise à déterminer si vos échantillons proviennent de populations de variances égales.

Si les échantillons sont à partir de populations à variances égales, alors nous ne parvenons pas à rejeter lhypothèse nulle du test, et donc une analyse en composantes principales est inappropriée.

Je ne sais pas où est le problème avec cette situation (avoir des données homoscédastiques set) mensonges. Quel est le problème davoir un ensemble de données où la distribution sous-jacente de toutes vos données est la même? Je ne vois tout simplement pas le problème si cette condition existe. Pourquoi est-ce que cela rendrait un PCA inapproprié?

Je ne peux pas sembler trouver de bonnes informations sur Internet. Quelquun a-t-il une expérience de linterprétation de la raison pour laquelle ce test est pertinent pour une ACP?

Réponse

En réponse au titre de la question.

Test de sphéricité de Bartlett $ ^ 1 $, qui est souvent effectué avant lACP ou le facteur analyse, teste si les données proviennent dune distribution normale multivariée avec des covariances nulles (notez sil vous plaît que la version asymptotique standard du test nest pas du tout robuste au départ de la normalité multivariée. On pourrait utiliser le bootstrap avec un nuage non-russe.) de manière équivalente, lhypothèse nulle est que la matrice de corrélation de population est une matrice didentité ou que la matrice de covariance est une matrice diagonale.

Imaginez maintenant que le nuage multivarié est parfaitement sphérique (cest-à-dire que sa matrice de covariance est proportionnelle à la matrice didentité ). Ensuite, 1) toute dimension arbitraire peut servir les composants principaux, donc la solution PCA nest pas unique; 2) tous les composants ont les mêmes variances (valeurs propres), donc lACP ne peut pas aider à réduire les données.

Imaginez le second cas où le nuage multivarié est ellipsoïde avec une oblongueur strictement le long des axes des variables (i.e. sa matrice de covariance est diagonale: toutes les valeurs sont nulles sauf la diagonale). Alors la rotation impliquée par la transformation PCA sera nulle; les principales composantes sont les variables elles-mêmes, seulement réordonnées et potentiellement inversées par signe. Cest un résultat trivial: aucune PCA nétait nécessaire pour éliminer certaines dimensions faibles afin de réduire les données.


$ ^ 1 $ Plusieurs tests (au moins trois, à ma connaissance) dans les statistiques sont nommés daprès Bartlett. Nous parlons ici du test de sphéricité de Bartlett.

Réponse

Il semble quil existe deux tests appelés Test de Bartlett . Celui que vous avez référencé (1937) détermine si vos échantillons proviennent de populations à variances égales. Un autre semble tester si la matrice de corrélation pour un ensemble de données est la matrice didentité (1951). Il est plus logique que vous nexécutiez pas PCA sur des données avec une matrice de corrélation didentité, car vous récupérerez simplement vos variables dorigine car elles ne sont déjà pas corrélées. Comparez, par exemple,

Commentaires

  • +1 Cela résout les confusions mieux que lautre réponse.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *