平易な英語での正則化とは何ですか?

他の記事とは異なり、このテーマのウィキペディアのエントリは、 -数学者(私のように)。

ルールの少ないモデルを好むという基本的な考え方を理解しました。私が得られないのは、一連のルールから、モデルを最小から最大の過剰適合に並べ替えるために使用できる「正則化スコア」にどのように到達するかです。

簡単な正則化方法を説明できますか?

統計的取引システムの分析のコンテキストに興味があります。次の2つの予測モデルを分析するために正則化を適用できるかどうか/どのように適用できるかを説明できれば素晴らしいと思います。

モデル1-次の場合に価格が上がる:

  • exp_moving_avg(価格、期間= 50)> exp_moving_avg(価格、期間= 200)

モデル2-次の場合に価格が上がる:

  • 価格[n] <価格[n-1]を10回続けて
  • exp_moving_avg(price、period = 200)上昇

しかし、私は「正則化をどのように行うかについての感覚をつかむことにもっと興味があります。それを説明するためのより良いモデルを知っているなら、そうしてください。

コメント

  • 例として、リッジ回帰があります。これは、係数の2乗の合計に制限があるOLSです。これにより、モデルにバイアスが導入されますが、係数の分散が大幅に減少する場合があります。LASSOは別の関連する方法ですが、L1を配置します。係数のサイズに対する制約。係数を削除するという利点があります。これは、p > n状況正規化とは、ある意味で、"縮小"モデルの過剰適合を回避する(および係数の分散を減らす)。これにより、通常、モデルの予測パフォーマンスが向上します。'。
  • @HairyBeastあなたの素敵なコメントを答えとしてください。可能であれば、OPが目前の問題にどのように変換されるかを理解できるように、説明的な例を追加してみてください。
  • @HairyBeastですから、正則化は次のアイデアを実装するための単なる方法であると言えます。 偏りと分散のトレードオフ
  • このビデオは、特にLp正則化のさまざまな形式を視覚化するのに非常に役立ちました: youtube。 com / watch?v = sO4ZirJh9ds
  • 正則化は、学習されたモデルの過剰適合に対処するためのものです。わかりやすい英語で視覚的に説明しようとしました。以下は、記事 medium.com/@vamsi149/ …

へのリンクです。

回答

簡単に言うと、正則化とは、モデルの予測(一般化)が向上するように、モデルの複雑さの優先レベルを調整または選択することです。これを行わないと、モデルが複雑すぎて過剰適合したり、単純すぎて過適合になったりする可能性があり、どちらの方法でも予測が不十分になります。

最小二乗法で複雑なモデルを少数のトレーニングデータに適合させる場合これは最も一般的な状況です。モデルの最適な複雑さは、モデリングするプロセスの種類とデータの品質に依存するため、事前に正しい複雑さはありません。

正規化するには、次の2つのことが必要です。

  1. たとえば、相互検証または一連の検証データを使用して、モデルの予測がどの程度優れているかをテストする方法(これにフィッティングエラーを使用することはできません)。
  2. モデルの複雑さや滑らかさ、または複雑さや滑らかさが異なるモデルの選択を変更できる調整パラメーター。

基本的に、複雑度パラメーターを調整(またはモデルを変更)して、最適なモデル予測を提供する値を見つけます。

最適化された正則化誤差は、全体的な予測の正確な推定値ではないことに注意してください。エラーなので、正則化後、最終的に追加の検証データセットを使用するか、追加の統計分析を実行して、偏りのない予測エラーを取得する必要があります。

(交差)検証テストを使用する代わりに、BayesianPriorsまたは複雑さや滑らかさを損なう他の方法ですが、これらには、より統計的に洗練され、問題とモデルの機能に関する知識が必要です。

コメント

  • +1私から。この答えが最初から始まっていて、とても理解しやすいのが好きです…
  • 正則化は本当に不適合を減らすために使用されたことがありますか?私の経験では、正則化は複雑さ/感度を下げるために複雑/敏感なモデルに適用されますが、複雑さ/感度を上げるために単純/鈍感なモデルには決して適用されません。
  • この答えは今ではかなり古いものですが、Tobyが言及していたのは、正則化は、データの量を考慮して適切な複雑さのモデルに適合させるための原則的な方法であると思います。これは、パラメーターが少なすぎる(またはパラメーターが間違っている)モデルを事前に選択することと、複雑すぎて適合しすぎるモデルを選択することの両方の代替手段です。

回答

経験的リスク最小化を介して学習を実行するとします。

より正確には:

  • 非負の損失関数$ L(\ text {実際の値}、\ text {予測値})$があります。悪い予測は
  • 予測が損失関数の平均を最小化するようにモデルを適合させたいと考えています。これはトレーニングデータ(あなたが持っている唯一のデータ)でのみ計算されます。

次に、学習プロセスの目的は、$ \ text {Model} = \ text {argmin} \ sum L(\ text {actual}、\ text {predicted}(\ text {Model}))$(thisこの方法は、経験的リスク最小化と呼ばれます。

ただし、十分なデータがなく、モデルに大量の変数がある場合は、パターンを説明するだけでなく、そのようなモデルを見つける可能性が非常に高くなります。ただし、データ内のランダムノイズについても説明します。この効果はオーバーフィットと呼ばれ、モデルの一般化能力の低下につながります。

オーバーフィットを回避するために、正規化項がターゲット関数に導入されます。$ \ text {Model} = \ text {argmin} \ sum L(\ text {actua l}、\ text {predicted}(\ text {Model}))+ \ lambda R(\ text {Model})$

通常、この用語$ R(\ text {Model})$は複雑なモデルに対する特別なペナルティ。たとえば、大きな係数(L2正則化、$ R $ =係数の2乗の合計)を持つモデル、またはゼロ以外の係数の場合は多くのモデル(L1正則化、$ R $ =係数の絶対値の合計)。決定木をトレーニングしている場合、$ R $がその深さになる可能性があります。

もう1つの観点は、$ R $が最良のモデルの形式に関する事前知識を導入することです(「それも持っていない」大きな係数」、「$ \ bar a $にほぼ直交している」)

回答

簡単に言えば、正則化期待するソリューションに利益をもたらすことです。あなたが言及するように、例えば、あなたは単純さのいくつかの定義のために、「単純な」解決策に利益をもたらすことができます。問題にルールがある場合、1つの定義でルールを少なくすることができます。しかし、これは問題に依存します。

しかし、あなたは正しい質問をしています。たとえば、サポートベクターマシンでは、この「単純さ」は「最大マージン」の方向に結びつきを断ち切ることから来ています。このマージンは問題の観点から明確に定義できるもの。ウィキペディアの SVMの記事には非常に優れた幾何学的な導出があります。正則化の用語は次のとおりです。 、少なくとも間違いなく、SVMの「秘密のソース」。

どのように正則化を行いますか?一般に、SVMを使用する場合は、L2正則化を使用し、使用する場合は、使用する方法に付属しています。 LASSOあなたはL1正則化を行っています(hairybeastが言っていることを参照してください)。ただし、独自のメソッドを開発している場合は、望ましいことを伝える方法を知る必要があります。望ましくないものからのソリューションであり、これを定量化する機能があります。最終的には、「コスト期間と正則化期間があり、両方の合計を最適化する必要があります。

回答

正則化手法は、機械学習モデルに適用される手法であり、決定境界/適合モデルをよりスムーズにします。これらの手法は、過剰適合を防ぐのに役立ちます。

例:L1、L2、ドロップアウト、ニューラルネットワークの重み減衰。パラメーターSVMの$ C $。

回答

簡単に言うと、正則化は、機械学習をトレーニングするときに過剰適合を回避するための手法です。アルゴリズム。十分な空きパラメータを持つアルゴリズムがある場合、サンプルを非常に詳細に補間できますが、サンプルの外側にある例は、真の傾向ではなくサンプルのノイズまたはランダムな不規則性をキャプチャしただけなので、この詳細補間に従わない場合があります。

モデル内のパラメーターの絶対値を制限することにより、過剰適合を回避します。これは、に項を追加することで実行できます。モデルパラメータの大きさに基づいてペナルティを課すコスト関数。大きさがL1ノルムで測定される場合、これは「L1正則化」と呼ばれ(通常、モデルはスパースになります)、L2ノルムで測定される場合、これは「L2正則化」と呼ばれます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です