機械学習とデータサイエンスのコンテキストで「ベースライン」とはどういう意味ですか?
誰かが私に書いた:
ヒント:適切なベースラインでは、約200のRMSEが得られます。
私はしませんこれを取得します。トレーニングデータの予測モデルのRMSEが500未満の場合、それは良いことを意味しますか?
そして「ベースラインアプローチ」とは何でしょうか?
回答
ベースラインは、非常に基本的なモデル/ソリューションの結果です。通常、ベースラインを作成してから、より良い結果を得るために、より複雑なソリューションを作成しようとします。ベースラインよりも良いスコアを達成した場合、それは良いことです。
コメント
- まあ、それは私のポイントにとって正確にはどういう意味ですか?私の2つの引用について
- ベースラインは200なので、より良いスコアが必要です。あなたの場合、スコアが高いほど、スコアが低いほど良いことを意味します。 200未満になりたいと考えています。回帰を扱っていると仮定して' m。ベースラインに最初に使用するのは、通常の最小二乗回帰です。
回答
ベースラインはヒューリスティック、単純な要約統計量、ランダム性、または機械学習を使用してデータセットの予測を作成する方法。これらの予測を使用して、ベースラインのパフォーマンス(精度など)を測定できます。この指標は、他の機械学習アルゴリズムと比較するものになります。
詳細:
機械学習アルゴリズムは、入力(機能)データとターゲット変数(またはラベル)の関係をモデル化する関数を学習しようとします。テストするときは、通常、何らかの方法でパフォーマンスを測定します。たとえば、アルゴリズムは75%正確かもしれませんが、これはどういう意味ですか?ベースラインのパフォーマンスと比較することでこの意味を推測できます。
一般的なベースラインには、 scikit-learnの「ダミー」推定値:
分類ベースライン:
- 「層別」:トレーニングセットのクラス分布を尊重して予測を生成します。
- 「most_frequent」:トレーニングセット内で最も頻度の高いラベルを常に予測します。
- 「前」:常にクラスを予測しますs事前クラスを最大化します。
- 「均一」:ランダムに均一に予測を生成します。
- 「定数」:常にユーザーが提供する定数ラベルを予測します。
これは、非多数派クラスを評価する指標に役立ちます。
回帰ベースライン:
- 「中央値」:常にトレーニングセットの中央値を予測します
- 「分位数」:常にトレーニングセットの指定された分位数を予測し、分位数パラメーターを指定します。
- 「定数」:ユーザーが提供する定数値を常に予測します。
一般に、選択したベースラインよりもパフォーマンスが優れているアプローチが必要になります。上記の例では、75%の精度を、同じデータで実行したベースラインよりも高くする必要があります。
最後に、機械学習の特定のドメイン(レコメンダーなど)を扱っている場合システム)の場合、通常、現在の最先端(SoTA)アプローチであるベースラインを選択します。通常、アプローチがこれらよりも優れていることを実証する必要があるためです。たとえば、新しい協調フィルタリングアルゴリズムを評価する際に、それを行列因数分解と比較したい場合があります。これは、それ自体が学習アルゴリズムですが、レコメンダーシステムの研究で非常に成功しているため、現在人気のあるベースラインです。
回答
機械学習アルゴリズムは多数あるため、問題に最適なMLアルゴリズムを知る必要があります。これは、ベースライン予測アルゴリズムによって識別されます。
ベースライン予測アルゴリズムは、分類精度やRMSEなど、問題の予測と同じように評価できる一連の予測を提供します。
これらのアルゴリズムのスコアは、問題に関する他のすべての機械学習アルゴリズムを評価するときに必要な比較ポイントを提供します。
詳細については、MLに関する非常に優れたブログがあります: "ベースライン"は、機械学習のコンテキストで何を意味しますか?