トレーニングデータセットのクラスのバランスをとる必要があるのはいつですか?

オンラインコースを受講しました。そこでは、分類アルゴリズムが多数決に適用されるため、トレーニングデータのクラスのバランスが崩れると問題が発生する可能性があることを学びました。アンバランスが大きすぎると良い結果が得られます。課題では、多数派クラスをアンダーサンプリングすることでデータのバランスをとる必要がありました。

ただし、このブログでは、バランスの取れたデータはさらに悪いと主張しています。

https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/

では、どちらですか?データのバランスを取るべきかどうか?クラスの不均衡な比率に適応できる可能性があるため、使用するアルゴリズムに依存しますか?もしそうなら、不均衡なデータに対して信頼できるのはどれですか?

回答

直感的な理由はブログ投稿で説明されています:

目標が予測である場合、これは明確なバイアスを引き起こします。さらに悪いことに、サンプルサイズが大きくなるにつれて一貫した推定値が得られないという意味で、永続的なバイアスになります。

したがって、おそらく(人為的に)バランスの取れたデータの問題は、アンバランスの場合よりも悪化します。 。

バランスの取れたデータは分類に適していますが、出現頻度に関する情報が明らかに失われているため、精度メトリック自体や生産パフォーマンスに影響を及ぼします。 。

英語のアルファベット(26文字)から手書きの文字を認識しているとしましょう。すべての文字の外観のバランスを取りすぎると、すべての文字が(正しくまたは正しく)分類される確率が約1/26になるため、分類子は元のサンプルでの文字の実際の分布を忘れます。そして、分類子がすべての文字を高精度で一般化して認識できる場合は ok です

しかし、精度と最も重要な一般化が「それほど高くない」場合(定義を与えることはできません-「最悪の場合」と考えることができます)-誤分類されたポイントが最も多くなります-次のように、すべての文字に均等に分散する可能性があります。

"A" was misclassified 10 times "B" was misclassified 10 times "C" was misclassified 11 times "D" was misclassified 10 times ...and so on 

バランスをとらない場合とは対照的に(「A」と「C」の確率がはるかに高いと仮定)テキストでの表示)

"A" was misclassified 3 times "B" was misclassified 14 times "C" was misclassified 3 times "D" was misclassified 14 times ...and so on 

したがって、頻繁なケースでは誤分類が少なくなります。それが適切かどうかは、タスクによって異なります。自然なテキスト認識の場合、元のテキストのセマンティクスを保持し、認識タスクを予測に近づけるため、頻度の高い文字の方が実行可能であると主張できます(セマンティクスはを表します)。傾向)。ただし、「 ECCSAキーのスクリーンショット(エントロピーが多い->予測が少ない)のようなものを認識しようとしている場合は、データのバランスを崩しておくと役に立ちません。したがって、繰り返しになります。

最も重要な違いは、精度の見積もり自体が偏っていることです(バランスの取れたアルファベットの例でわかるように)、したがって、モデルの動作が最もまれなポイントまたは最も頻繁なポイントによってどのように影響を受けるかがわかりません。

PS 適合率/再現率の指標を最初に使用して、不均衡な分類のパフォーマンスをいつでも追跡し、均衡を追加する必要があるかどうかを判断できます。


編集推定理論は、サンプル平均と母集団平均の差を正確に示しています。たとえば、アルファベットの英語の文字の実際の分布を(おそらく)知っているかもしれません $ p(x_i | \ theta)$ が、サンプル(トレーニングセット)はそうではありません正しく推定するのに十分な大きさです( $ p(x_i | \ hat \ theta)$ を使用)。したがって、 $ \ hat \ theta_i- \ theta_i $ を補正するために、母集団自体またはから知られているパラメータに従ってクラスのバランスを取り直すことが推奨される場合があります。より大きなサンプル(したがって、より良い推定量)。ただし、実際には、すべてのステップで偏ったデータを取得するリスクがあるため、「より大きなサンプル」が同じように配布される保証はありません(たとえば、技術文献から収集された英語、フィクション、ライブラリ全体)。 。

この回答では、バランス調整の適用基準も明確にする必要があります。

クラスの不均衡の問題は、正と負のパターン自体の比率ではなく、少数派クラスに属するパターンが十分にないことが原因で発生します。通常、十分なデータがある場合、「クラスの不均衡の問題」は発生しません

結論として、トレーニングセットが十分に大きい場合、人工的なバランス調整が役立つことはめったにありません。より大きな同一に分散された

サンプルは、(特に予測のために)人工的なバランス調整の必要がないことも示唆しています。そうでない場合、推定量の品質は「恐竜に出会う確率」と同じくらい良好です。

通りで恐竜に出会う確率はどれくらいですか?

1/2恐竜に出会うか、出会わないかのどちらかです

コメント

  • 問題の説明に加えて、この回答からの重要なポイントは、最初にアンバランスを試して結果を確認し、必要な場合にのみバランスを取り、結果を確認してください。+ 1
  • つまり、トレーニングサブセットにクラスが均等に分散されていると、モデルは見えないデータの精度を失いますね。ただし、逆の場合、トレーニング/テストサブセットのデータセットのエントリをランダムに抽出しようとすると、分類器のパフォーマンスが向上しますか?
  • @ChristosK。多くの人が述べているように、問題を分類と見なすと、予測について推論するのは困難です。いずれにせよ、バイアスを取り除くと(「ランダムに」サンプリングする)、パフォーマンスを向上させるには、より大きなサンプルが必要になります。これは「通常」のサンプルがセマンティクスを保持するのに十分な大きさであるため、オーバーバランスは、適切な考慮なしにすべてを「平坦化」する正規化ハンマーのように傷つき、動作するだけです。また、恐竜の比喩が示唆しているように、「バランスのとれた」は「均等」を意味するのではありません。適切なバランスをとるのは、「ランダム」サンプルで一部の確率が誤って表現されていることがわかっている場合のみです。
  • @ChristosK。いくつかの説明をありがとう。私が意図したものと同じではありませんが、アプローチは非常に似ています。 k-foldの適用性に関する通常の推奨事項は、最初のサンプルが「ちょっと小さい」ときに行うことです。確かではありませんが、折りたたむことで問題が発生することはありません。実行回数が増えるだけで、予測を気にしないほど、トートロジーのように一般化やパフォーマンスを気にする必要がなくなります:)。しかし、全体として、k-foldは本質的にバイアスが少ないことを意味します。
  • @ChristosK。ああ、そして警告として、スパム/非スパムの比率はそれ自体が非定常確率変数である可能性があります。これらすべての「フェイクニュース」、「ロシアのトロール」など、このような仮定には注意が必要です。比率にもバイアスがかかる可能性があります。何かがアンダーサンプリングされている場合は、最初に分類器でPrecisionRecallを推定することをお勧めします-より多くのデータを収集/生成(?)したいです。

回答

@ kjetil-b-halvorsenのコメントと一致して、機械学習の急速な採用により、研究者は予測と分類について混乱しました。詳細に説明したように、ここでは、分類は少数のケースでのみ適切です。結果がまれである(または一般的すぎる)場合、確率はすべてです。その場合、個々の発生を予測することではなく、傾向についてのみ合理的に話します。

統計では、データの一部を除外する必要がある方法は非常に疑わしいことをしばらく前に学びました。そのため、結果のバランスを取るという目標は見当違いです。傾向(確率)の予測にはそれは必要ありません。確率を推定したら、thを適用することで最適な決定を下すことができます。予測されたリスクに対するユーティリティ/コスト/損失関数。

回答

分類から何を達成したいかによって異なりますか?

それが癌であるか非癌であるかを言うと、癌を検出することが重要です。ただし、非癌がデータの大部分を形成するため、分類子は基本的にすべてのケースを非癌クラスに送信し、非常に高い精度を得ることができます。しかし、それを買う余裕はないので、基本的に非がん症例をダウンサンプルし、決定境界をがん領域から非がん領域に移動します。

精度が唯一の使用例でもテスト時間のバランスがトレーニング時間と異なると予想される場合は、バランスを取ることが不可欠です。

たとえば、マンゴーとオレンジを分類する場合、900個のマンゴーと30個のオレンジを含むトレーニングデータセットがあります。ただし、マンゴーとオレンジが等しい市場に展開することを期待している場合は、精度を最大化するために、期待されるサンプル比率でサンプリングするのが理想的です。

コメント

  • それは私が行った講義から理解したことです。しかし、このブログ投稿が示唆しているように、バランスが悪い場合があるのはいつかわかりません。'なぜそれが悪いのかバランス、各クラスに十分なデータポイントが残っている場合は?
  • 申し訳ありませんが、あなたのアナロジーでは、市場の果物の分布はモデルacと何の関係がありますか教区副牧師?あなたはマンゴーをオレンジから分離することを学んだかどうかのどちらかです。 言い換えれば、同じモデルをオレンジのみまたはマンゴーのみの市場に展開できるはずです。
  • しかし、癌の例の問題は 分類と見なすリスク推定として扱う必要があります。 その後、不均衡なクラスの明らかな問題はなくなります。 stats.stackexchange.com/questions/127042/ … を参照してください。

回答

データのバランスが取れている場合は、メトリックの精度を確認することをお勧めします。 しかし、そのような状況では、データのバランスが崩れると、さまざまな反復で精度が一貫しなくなります。 適合率(PPR)、再現率(感度)など、より多くの指標を集中させる必要があります。 この2つのメトリックは、比較するときにバランスを取る必要があります。 また、適合率と再現率の調和平均であるF1-Scoreを確認する必要があります。 これは、すべての機械学習アルゴリズムに適用できます

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です