どの距離を使用しますか?例:マンハッタン、ユークリッド、ブレイカーチスなど

私はコミュニティエコロジストではありませんが、最近はコミュニティエコロジーデータに取り組んでいます。

これらの距離の数学を除いて、私が理解できなかったのは、使用する各距離の基準と、それを適用できる状況です。たとえば、カウントデータで何を使用するか?勾配を変換する方法2つの場所の間の距離に対する角度?または2つの場所の温度または降雨量?各距離の仮定は何ですか?それはいつ意味がありますか?

コメント

  • 距離測定基準、それらの仮定、意味、および適用可能性を理解するための信頼できる方法は、それらの公式について瞑想することです。ご存知のように、比較解剖学により、さまざまな動物の生活と行動を予測できます。また、距離測定基準に関する本や記事を読んでください。 。
  • 注意事項:ブレイ・カーチスは距離ではなく非類似性です。

回答

残念ながら、ほとんどの場合、質問に対する明確な答えはありません。つまり、特定のアプリケーションについて、同様の正確な回答を生成する距離メトリックが確かに多数あります。数十、おそらく数百の有効な距離メトリックがアクティブに使用されていることを考えると、「正しい」距離を見つけることができるという概念は、適切な距離メトリックを選択する問題について考える生産的な方法ではありません。

代わりに、間違った距離メトリックを選択しない ことに焦点を合わせます。距離に「絶対等級」を反映させますか(たとえば、距離を使用して同様の平均値を持つ株式を特定することに関心があります)、または応答の全体的な形状を反映しますか(たとえば、時間の経過とともに同様に変動する株価、しかし、生の値がまったく異なる可能性があります)?前者のシナリオはマンハッタンやユークリッドなどの距離を示し、後者はたとえば相関距離を示します。

データの共分散構造がわかっている場合は、マハラノビス距離の方がおそらく適切です。純粋にカテゴリ別のデータの場合、一致する距離など、多くの提案された距離があります。カテゴリと連続の混合ガウアーの距離は人気があります(私の意見では理論的にはやや不満ですが)。

最後に、私の意見では、結果と結論が次のように堅牢であることを実証すると、分析が強化されます。距離メトリックの選択(もちろん、適切な距離のサブセット内)。使用する距離メトリックの微妙な変化によって分析が大幅に変化する場合は、不整合の理由を特定するためにさらに調査を行う必要があります。

コメント

  • correlation distanceとはどういう意味ですか?1- r
  • @ttnphnsうん、$ 1-r $が最も一般的です。'は、特定の類似性メトリック$ \ rho \ in [-1,1] $に対して注目に値します。非類似度に変換するための少なくとも3つの式は次のとおりです。(1)Bhattacharyya 'のメソッド$ cos ^ {-1}(\ rho)$、(2)Kolmogorov 'のメソッド$ 1- \ rho $、および(3)Matusita 'メソッド$ \ sqrt {2-2 \ rho} $。これは、$ Practice $で'通常は選択が重要だとは思わない別の領域です。そうすると、結果の堅牢性が心配になります。
  • 私の最後のコメントの引用:Krzanowski(1983)。 Biometrika、70(1)、235–243。 236ページを参照してください。
  • OK、ありがとう。 この回答も確認してください。 r は、標準化されたデータ(比較されているプロファイル)で取得されたユークリッド距離に正確に関連しているという事実に賛成です。これは、あなたの言葉ではreflect overall shape of the responseです。
  • 良い投稿です。ご指摘のとおり、2つの指標は確かに関連しています。現在の議論にあなたのポイントを文脈化するために、主な違いは、ユークリッド距離変数は(通常)中心ではなく、相関式が変数とスケールを標準偏差で中心にすることです。したがって、相関は線形変換に対して不変ですが、ユークリッド距離は必ずしもそうではありません。

回答

正しい選択距離は基本的なタスクではありません。データセットでクラスター分析を行いたい場合、異なる距離を使用すると異なる結果が表示される可能性があるため、変動性をうまく捉える偽の良いアーティファクトを作成できるため、どの距離を選択するか注意することが非常に重要です。

ユークリッドの距離は、連続する数値変数があり、絶対距離を反映したい。この距離はすべての変数を考慮に入れており、冗長性を排除していません。したがって、同じことを説明する(相関している)3つの変数がある場合、この効果に3つの重みを付けます。さらに、この距離はスケール不変ではないため、通常、距離を使用するには事前にスケールする必要があります。
生態学の例:多くの地域からさまざまな観察結果があり、専門家が微生物学的、物理的サンプルを採取しました。および化学的要因。生態系のパターンを見つけたい。これらの要因には高い相関関係がありますが、すべての人が関連していることはわかっているため、これらの冗長性を排除したくありません。単位の影響を避けるために、スケーリングされたデータでユークリッド距離を使用します。

マハラノビス distanceは、連続する数値変数があり、絶対距離を反映したいが、冗長性を削除したい場合に適しています。変数を繰り返した場合、その繰り返し効果はなくなります。

家族ヘリンジャー種のプロファイルコード距離が適切です。 、プロファイルを区別したい場合。これらの距離は、各観測値の合計量によって重み付けされます。絶対的な大きさは大きく異なりますが、変数ごとに変数を変更すると距離が小さくなるようになります。気を付けて!これらの距離はプロファイル間の違いを非常によく反映していますが、マグニチュード効果は失われています。サンプルサイズが異なる場合に非常に役立つ可能性があります。
生態学の例:多くの土地の動物相を調査したいので、胃鞘の目録のデータマトリックス(行のサンプリング場所と種名)があります。列で)。一部の地域にはいくつかの種があり、他の地域には他の種があるため、行列は多くのゼロと異なる大きさを持つことを特徴としています。ヘリンガー距離を使用できます。

ブレイカーチスは非常に似ていますが、プロファイルを区別し、相対的な大きさも考慮に入れる場合に適しています。

コメント

  • ユースケースと例を区別していただきありがとうございます。これは、航空分類モデルへの適用に非常に役立つことがわかりました。

回答

マンハッタンの距離について: Kaufman、Leonard、PeterJ.Rousseeuw。 「データ内のグループの検索:クラスター分析の概要」 (2005)。

たとえば、最初の変数の差が1であるような状況では、マンハッタン距離の使用をお勧めします。 2番目の変数の3は、最初の変数の2と2番目の変数の2の差と同じです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です