ベイジアン投げ縄と通常の投げ縄

lasso 。さまざまなフォーラムでベイジアンアプローチと頻度主義アプローチについて多くの議論がなされていることを私は知っています。私の質問はなげなわに非常に固有です- ベイジアンなげなわと通常のなげなわの違いまたは利点は何ですか

パッケージの実装例は次の2つです。

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

では、いつ1つまたは他の方法を選択する必要がありますか?またはそれらは同じですか?

回答

標準のなげなわは L1正則化ペナルティを使用します回帰のスパース性を実現します。これは基本追跡とも呼ばれることに注意してください。

ベイジアンフレームワークでは、レギュラライザーの選択は事前確率の選択に類似しています。重み。ガウス事前分布が使用される場合、最大事後(MAP)ソリューションは、L2ペナルティが使用された場合と同じになります。直接同等ではありませんが、ラプラス事前分布(ゼロ付近で滑らかなガウス分布とは異なり、ゼロ付近で鋭くピークになります)は、L1ペナルティと同じ収縮効果を生成します。 このペーパーではベイジアンラッソについて説明します。

実際、パラメータの前にラプラスを配置する場合、MAPソリューションは同一である必要があります。 (単に類似しているだけではありません)L1ペナルティとラプラス事前確率による正則化は、L1ペナルティと同じ収縮効果を生み出します。ただし、ベイズ推定手順の近似またはその他の数値的な問題により、解は実際には同一ではない場合があります。

ほとんどの場合、両方の方法で生成される結果は非常に似ています。最適化の方法と近似を使用するかどうかによっては、標準の投げ縄の方がベイズバージョンよりも効率的に計算できる可能性があります。ベイジアンは、必要に応じて、誤差分散を含むすべてのパラメーターの区間推定を自動的に生成します。

コメント

  • "ガウス事前分布を使用する場合、 最尤法 の解は同じになります…. "。強調表示されたフレーズは、"最大事後確率(MAP)"となるはずです。これは、最尤推定がパラメーターの事前分布を無視するためです。 MAP推定では事前確率が考慮されますが、非正規化ソリューションに適用されます。
  • パラメーターの前にラプラスを配置すると、MAPソリューションはL1ペナルティとラプラスによる正則化と同じになります(単に類似しているだけではありません)。事前確率は、L1ペナルティと同じ収縮効果を生成します。
  • @mefathy yes you '両方の点で正しいです(can '私がMAPの代わりにMLを書いたとは信じていません….)もちろん実際にはYMMVですが。 '両方のコメントを組み込むように回答を更新しました。

回答

「最小二乗」とは、全体的な解がすべての方程式の結果で発生する誤差の二乗の合計を最小化することを意味します。最も重要なアプリケーションはデータフィッティングです。最小二乗の意味での最適適合は、残差平方和を最小化します。残差は、観測値とモデルによって提供される適合値の差です。最小二乗問題は、線形または通常の最小二乗と非線形の2つのカテゴリに分類されます。残差がすべての未知数で線形であるかどうかに応じて、線形最小二乗。

ベイズ線形回帰は、統計分析がコンテキスト内で行われる線形回帰へのアプローチです。ベイズ推定の。回帰モデルに正規分布のエラーがあり、特定の形式の事前分布が想定されている場合、モデルのパラメーターの事後確率分布に対して明示的な結果を利用できます。

一部のコンテキストでは最小二乗解の正規化バージョンが望ましい場合があります。Tikhonov正規化(またはリッジ回帰)は、パラメーターベクトルのL2ノルムである$ \ | \ beta \ | ^ 2 $が指定された値より大きくないという制約を追加します。ベイジアンのコンテキストでは、これは、パラメーターベクトルの前に正規分布するゼロ平均を配置することと同じです。

最小二乗の代替の正規化バージョンは、ラッソ(最小絶対収縮および選択演算子)です。パラメータベクトルのL1ノルムである$ \ | \ beta \ | _1 $、が指定された値以下であるという制約。ベイジアンのコンテキストでは、これは、パラメーターに平均ゼロのラプラス事前分布を配置することと同じです。ベクター。

ラッソ回帰とリッジ回帰の主な違いの1つは、リッジ回帰では、ペナルティが増加すると、すべてのパラメータが減少しますが、ゼロ以外のままですが、ラッソでは、ペナルティを増やすと、より多くのパラメータが発生します。

このペーパーでは、通常のラッソとベイジアンラッソおよびリッジ回帰を比較します(図1 を参照)。 。

回答

この質問に対する現在の回答は、「違いや利点は何ですか」という質問には実際には答えていないと思います。ベイジアン(原文のまま)なげなわと通常のなげなわの違いは?」と「それらは同じですか?」

まず、それらは同じではありません。

主な違いは次のとおりです。ベイジアン投げ縄は、パラメータの完全な事後分布からサンプリングを試みます。ラッソが事後モードを見つけようとしているのに対し、ラプラスの事前分布の下で(これもラプラスの事前分布の下で)。実際には、ベイジアンなげなわからの完全な事後分布は通常、事後平均によって要約されるため、実際には、これは次のように要約されます。

ベイジアンなげなわは、ラプラスの事前確率の下で事後平均を見つけようとします。なげなわは、ラプラス事前確率の下で事後モードを見つけようとします

事後平均と事後モードの利点は、事後平均がより良い予測精度を生成することです(平均二乗損失を想定)。ラプラス事後確率は、実際には回帰係数の分布を真に反映しています。ただし、多くのアプリケーションでは、ラプラス事前分布が係数の分布を真に反映していないため、この利点は実際には疑わしいです(一般に、これを確認するのは困難です!)

後部モードの利点計算上はるかに見つけやすいことを含めます(これは凸最適化の問題です)。

「いつ他の方法を選ぶべきか」と答えなかったことにお気づきかもしれません。これは一般的に答えるのが難しい質問だからです。私の答えは、一般的にこれらのどちらよりも優れた方法があるということです。しかし、これについて完全に議論するには、より長い投稿が必要になります。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です