精度が重要な例と再現率が重要な例を教えてもらえますか?
コメント
- f1-scoreが最適です、私の友人
- 2つの間で'より重要なことよりも重要です一方を他方よりも最大化したい場合は何ですか('必ずしも他方を"少なくするわけではありません"重要)。
回答
- まれながんデータの場合モデリングでは、偽陰性を考慮しないものはすべて犯罪です。再現率は精度よりも優れた指標です。
- YouTubeの推奨事項については、偽陰性はそれほど問題ではありません。精度の方が優れています。
コメント
- @fate h主な違いはFPとFNです。 YouTubeの推奨事項は' FNに重点を置いていませんが、病院の臨床的決定は必要です。
回答
リコールがより重要な場合の実際のケースをお伝えします:
毎週何千もの無料の顧客が当社のウェブサイトに登録しています。コールセンターチームは全員に電話をかけたいのですが、それは不可能なので、買い手になる可能性が高いものを選ぶように頼まれます(高温の場合は私たちがそれらを参照する方法です)。買わない人に電話するのは気にしない(精度は重要ではない)が、高温の人は全員常に私の選択に含まれているので、買わずにはいられないことが非常に重要である。つまり、精度が地獄に落ちても、モデルには高い再現率が必要です。
お役に立てば幸いです。ミゲル。
回答
状況によっては、精度よりもリコールの方が重要な場合がありますが(またはその逆)、より解釈しやすい評価を得るには、両方が必要です。
たとえば、@ SmallChessが指摘しているように、医学界では、偽陰性は通常、予備診断の偽陽性よりも悲惨です。したがって、リコールをより重要な測定値と見なすことができます。ただし、100%再現率があり、モデルが役に立たない可能性があります。モデルが常に肯定的な予測を出力する場合、100%再現率はありますが、まったく情報がありません。
これが、複数の指標を検討する理由です。
などの指標回答
どちらがより重要かは、各エラーのコストによって異なります。
精度には直接コストがかかる傾向があります。誤検知が多いほど、真陽性あたりのコストが高くなります。コストが低ければ、精度はそれほど重要ではありません。たとえば、100万の電子メールアドレスがあり、それらすべてに電子メールを送信するのに10ドルかかる場合、試してみる価値はないでしょう。応答する可能性が最も高い人を特定します。すべての人にスパムを送信するだけではありません。
一方、思い出してください。偽陰性になるたびに機会をあきらめています。したがって、追加の正しい識別の限界値が小さい場合、リコールは最も重要ではありません。複数の機会があり、それらの間にはほとんど違いがなく、限られた数しか追求することができません。たとえば、リンゴを購入したいとします。店内にはリンゴが100個あり、そのうち10個は悪いです。良いリンゴの80%を見逃している悪いリンゴを区別する方法がある場合は、約18個の良いリンゴを識別します。通常、20%のリコールはひどいものですが、5個のリンゴだけが必要な場合は、他の72個のリンゴを見逃しても問題ありません。
したがって、リコールは次の場合に最も重要です。
-機会の数が少ない(良いリンゴが10個しかない場合、リコール率が20%しかない良いリンゴが5個見つかる可能性は低い)
-機会には大きな違いがあります(リンゴは他のリンゴよりも優れているため、5つの良いリンゴを得るには20%のリコール率で十分ですが、必ずしも最高のリンゴになるとは限りません)
または
-多数の機会があっても、機会の限界利益は高いままです。たとえば、ほとんどの買い物客は18個以上の良いリンゴの恩恵をあまり受けませんが、ストアは18個以上のリンゴを販売したいと考えています。
したがって、精度は高くなります。演技のコストが高いが、演技しないことのコストが低い場合は、リコールよりも重要です。これは、候補者ごとに行動する/行動しないことのコストであり、「行動をまったく起こさないコスト」と「行動をまったく起こさないコスト」ではないことに注意してください。リンゴの例では、特定のリンゴを購入する/購入しないコストであり、一部のリンゴを購入するコストとリンゴを購入しないコストではありません。特定のリンゴを購入しないコストは、他のリンゴ。悪いリンゴを買うコストは高いが、特定の良いリンゴを渡すコストは低いので、その例では精度がより重要です。別の例は、「類似した候補がたくさんある場合に採用することです。
演技のコストが低い場合、正確さよりも想起が重要ですが、候補者を引き継ぐ機会のコストは高くなります。以前に挙げたスパムの例があります(電子メールアドレスを見逃すコストは高くありませんが、応答しない人に電子メールを送信するコストはさらに低くなります)、別の例は特定することですインフルエンザの予防接種の候補者:インフルエンザの予防接種を必要としない人に与えると、数ドルかかります。インフルエンザの予防接種を必要とする人に与えないでください。そうすれば、彼らは死ぬ可能性があります。このため、ヘルスケア計画通常、インフルエンザの予防接種は、精度を完全に無視して、すべての人に提供されます。
回答
蓄積には、リコールよりも精度の重要性を説明する例をさらに作成する方法についての優れた回答があります。
他の回答のほとんどは、その重要性について説得力のある主張をしています。リコールのことなので、精度の重要性の例を挙げたいと思いました。これは完全に架空の例ですが、それは事実です。
機械学習モデルは、天気に基づいて特定の日が衛星を打ち上げるのに適しているかどうかを予測するために作成されているとしましょう。
-
モデルが誤って衛星を打ち上げるのに良い日が悪いと予測した場合(偽陰性)、ローンチのチャンスを逃しています。これはそれほど大したことではありません。
-
ただし、モデルが良い日であると予測したが、実際には衛星を打ち上げるのは悪い日である場合(偽陽性)その後、衛星が破壊される可能性があり、損害のコストは数十億になります。
これは再現率よりも適合率が重要な場合。
回答
適合率と再現率の違いを思い出すのに苦労しましたが、このニーモニックを自分で思いつくまで:
reCALLはCALLセンターに対してであるため、精度は妊娠検査に対してです。
妊娠検査では、検査メーカーは、陽性の結果が女性が本当に妊娠していることを意味することを確認する必要があります。突然結婚したり、家を購入したりして、陽性の検査に反応する人もいるかもしれません(多くの消費者が誤検知を起こし、理由もなく莫大な費用を負担した場合、検査メーカーは顧客を欠くでしょう)。私は一度偽陰性の妊娠検査を受けました、そしてそれは私が妊娠していることを知るまでにさらに数週間かかったことを意味しました…真実は最終的に明らかになりました。 (しゃれが意図されています。)
次に、保険金請求のコールセンターを想像してください。詐欺師が協力者と連絡を取り、週末に作り話を作成した後(「車が盗まれたとしましょう」)、ほとんどの詐欺の申し立ては月曜日に電話されます。保険会社にとって最善のことは何ですか。毎週月曜日に?たぶん、彼らは正確さよりも想起を優先するように調整する必要があります。詐欺の一部を見逃して、決して支払われるべきではなかった現金を支払うよりも、さらなる調査のために、より多くの請求を肯定的(詐欺の可能性が高い)としてフラグを立てる方がはるかに優れています。偽陽性(詐欺の可能性があるとして追加の精査のフラグが立てられているが、顧客の損失は本物だった)は、警察の報告を主張したり、セキュリティビデオの作成を要求したりできる経験豊富な調整者を割り当てることで解決できる可能性があります。詐欺師の虚偽の請求と現金での支払い)は保険会社にとって純粋な損失であり、より多くの詐欺を助長します。
F1は素晴らしいですが、テスト/予測がどのように使用されるかを理解することは非常に重要です。 「間違っているリスクは常にあります…間違った場合の結果がどれほど悲惨なものになるかを知りたいのです。
回答
メールスパムの検出:これは、精度の例の1つです。 はよりも重要ですを思い出してください。
簡単な要約:
-
精度:これは、何かポジティブなことを予測したときに、実際にポジティブだった回数を示します。一方、
-
リコール:これは、実際の肯定的なデータからわかります。正しく予測した回数。
上記のとおり、スパムメールが検出された場合、スパムメール(肯定的なケース)が検出されずに残っていても問題ありません。」スパムフォルダ but に移動します。メールが良好(否定的)の場合は、スパムフォルダには移動しないでください。つまり、精度がより重要です(モデルが何かポジティブなもの(つまりスパム)を予測する場合は、スパムである方がよいでしょう。それ以外の場合は、重要なメールを見逃す可能性があります。
明確になることを願っています。
回答
いつクラスが不均衡であり、高い真陽性が必要なため、リコールよりも精度が優先されます。精度には影響を与える可能性のある偽陰性が式に含まれていないためです。
回答
ここに “私が取った簡単な例Aurelion Geronの著書、Scikit-LearnとTensorflowを使用したハンズオンマシンラーニングから。子供向けのWebサイトブロッカーで「安全な」Webサイトのみを表示できるようにしたいとします。
この場合、「安全な」Webサイトがポジティブクラスです。ここでは、一部の安全なWebサイトがネガティブまたは安全でないクラスの一部であると予測され、その結果ブロックされた場合でも、ブロッカーがWebサイトが安全であることを完全に確認する必要があります。つまり、リコールを犠牲にして高精度が必要です。
安全リスクがポジティブクラスである空港のセキュリティの場合、すべての潜在的な安全リスクを確実に調査する必要があります。この場合、精度を犠牲にして高いリコールが得られます(安全上の問題がない多くのバッグが調査されます)。