バートレット検定は、サンプルが等分散の母集団からのものであるかどうかを判断することに関係していることを理解しています。
サンプルが分散が等しい母集団からは、検定のnull仮説を棄却できないため、主成分分析は不適切です。
この状況の問題がどこにあるのかわかりません(ホモスケダスティックデータがある)セット)嘘。すべてのデータの基本的な分布が同じであるデータセットを持つことの問題は何ですか?この状態が存在する場合、私は大したことはわかりません。なぜこれがPCAを不適切にするのでしょうか?
オンラインのどこにも良い情報が見つからないようです。このテストがPCAに関連する理由を解釈した経験のある人はいますか?
回答
質問のタイトルへの回答。
バートレットの球形度の検定 $ ^ 1 $。これは多くの場合、PCAまたは因子の前に行われます。分析では、データが共分散がゼロの多変量正規分布に由来するかどうかをテストします(テストの標準漸近バージョンは、多変量正規性からの逸脱に対してまったくロバストではないことに注意してください。非ガウスクラウドでブートストラップを使用する場合があります)。同等に、ヌル仮説は、母集団相関行列が同一性行列であるか、共分散行列が対角線であるというものです。
多変量クラウドが完全に球形である(つまり、その共分散行列が同一性行列に比例する)と想像してください。 )。次に、1)任意の次元が主成分を提供できるため、PCAソリューションは一意ではありません。2)すべてのコンポーネントが同じ分散(固有値)であるため、PCAはデータの削減に役立ちません。
多変量雲が楕円体であり、変数の軸に厳密に沿って長方形である2番目のケースを想像してみてください(つまり、その共分散行列は対角です。対角を除くすべての値はゼロです)。その場合、PCA変換によって暗示される回転はゼロになります。主成分は変数自体であり、並べ替えられ、潜在的に符号が元に戻されるだけです。これは些細な結果です。データを減らすためにいくつかの弱い次元を破棄するためにPCAは必要ありませんでした。
$ ^ 1 $統計のいくつか(少なくとも3つ)のテストは名前にちなんで名付けられていますバートレット。ここでは、バートレットの球面性検定について説明しています。
回答
と呼ばれる2つの検定があるようです。バートレットの検定。参照したもの(1937)は、サンプルが等分散の母集団からのものであるかどうかを判別します。もう1つは、データセットの相関行列が単位行列(1951)であるかどうかをテストするようです。すでに無相関であるため、元の変数を取得するだけなので、ID相関行列を使用してデータに対してPCAを実行しない方が理にかなっています。たとえば、
- http://en.wikipedia.org/wiki/Bartlett”s_test から
- https://personality-project.org/r/html/cortest.bartlett.html 。
コメント
- +1これにより、他の混乱よりも混乱が解消されます。答え。