ニューラルネットワークで正規化線形ユニット(ReLU)を使用するのはなぜですか?それはニューラルネットワークをどのように改善しますか?
ReLUが活性化関数であると言うのはなぜですか?ニューラルネットワークのsoftmax活性化関数ではありませんか?次のように、ReLUとsoftmaxの両方を使用していると思います。
ソフトマックス出力のニューロン1 —->ニューロン1の出力にReLUこれは
ニューロン2の入力—>ソフトマックス出力のニューロン2-> …
したがって、ニューロン2の入力は基本的にReLU(softmax(x1))です。これは正しいですか?
回答
ReLU関数は
ReLUがニューラルネットワークを改善する1つの方法は、トレーニングを高速化することです。勾配の計算は非常に簡単です( $ x $ の符号に応じて0または1のいずれか)。また、ReLUの計算ステップは簡単です。負の要素は0.0に設定されます。指数、乗算、除算の演算はありません。
ロジスティックおよび双曲線正接ネットワークの勾配は、の正の部分よりも小さくなります。 ReLU。これは、トレーニングが進むにつれて、ポジティブな部分がより迅速に更新されることを意味します。ただし、これにはコストがかかります。左側の0勾配には、「デッドニューロン」と呼ばれる独自の問題があります。勾配の更新により、出力が常にゼロになるように入力値がReLUに設定されます。 ELU(またはLeaky ReLU、PReLUなど)などの変更されたReLUユニットは、これを改善できます。
$ \ frac {d} {dx} \ text { ReLU}(x)= 1 \ forall x > 0 $ 。対照的に、シグモイド単位の勾配は最大で $ 0.25 $ です。一方、 $ \ tanh $ は、 $ 0.25 \ frac {d} {dx} \ tanh(x)\ le 1 \ forall x \ in [-1.31、1.31] $ (概算)。
コメント
- 質問したい、またはこのページに参加したという証拠はありません。率直に言って、私は' ReLUの機能に驚いていますが、'質問をやめました:)
- @aginenskyコメントは暫定的に削除されたようです。
- コメントは私によって削除されておらず、通知も受けていません。 '質問への回答を停止しました。これは、'コメントも完了したことを意味すると思います。
- @aginensky 'これによりコメントが停止される理由がわかりません。コメントやモデレートについて質問がある場合は、meta.stats.SEで質問できます。
回答
指摘すべき重要なことの1つは、ReLUはべき等であるということです。 ReLUが
シグモイド関数が入力を「押しつぶし」、勾配の問題が消えることがすぐにわかります。導関数は $ n $ (繰り返されるアプリケーションの数)は無限大に近づきます。
回答
ReLU入力xの最大関数(x、0)です。例:畳み込み画像からの行列。次に、ReLUは行列xのすべての負の値をゼロに設定し、他のすべての値は一定に保たれます。
ReLUは畳み込み後に計算され、tanhやsigmoidのような非線形活性化関数です。
Softmaxはニューラルネットワークの最後にある分類器です。これは、出力を0〜1の値に正規化するロジスティック回帰です(代替はSVM分類器です)。
CNNフォワードパス例:input-> conv-> ReLU-> Pool-> conv-> ReLU->プール-> FC->ソフトマックス
コメント
- 反対票。これは非常に悪い答えです! Softmaxは分類子ではありません!これは、出力を[0,1]の範囲に正規化(スケーリング)し、合計が1になるようにする関数です。ロジスティック回帰は"正規化"なんでも!文" ReLUは畳み込みの後に計算されるため、tanhやsigmoidのような非線形活性化関数です。"には動詞または意味がありません。
- 答えはそれほど悪くはありません。動詞のない文は" ReLUは畳み込み後に計算されるため、 IS であるため、tanhやsigmoidなどの非線形活性化関数です。"ソフトマックスを分類子として考えることも理にかなっています。これは、各クラスに確率を割り当てる確率的分類器と見なすことができます。 "正規化" / "正規化" [0,1]間隔への出力。
回答
ReLUはリテラルスイッチです。電気スイッチを使用すると、1ボルト入力で1ボルト出力、nボルト入力でnボルト出力がオンになります。ゼロで切り替えることにしたときのオン/オフは、ReLUとまったく同じグラフを提供します。いくつかの加重和の加重和(内積)は、依然として線形システムです。特定の入力に対して、ReLUスイッチは個別にオンまたはオフになります。 …の加重和のさまざまな加重和がスイッチによって相互に接続されているため、入力から出力への特定の線形射影が発生します。特定の入力ニューロンと特定の出力ニューロンには、実際には単一の有効な加重和に要約できる加重和の複合システムがあります。 ReLUは状態をゼロに切り替えるため、入力が徐々に変化しても出力に突然の不連続性はありません。
FFTやウォルシュアダマール変換など、数値的に効率的な加重和(内積)アルゴリズムが他にもあります。それらをReLUベースのニューラルネットワークに組み込んで計算ゲインの恩恵を受けることができない理由はありません(例:固定フィルターバンクニューラルネットワーク)。
回答
ReLUは、おそらく可能な限り最も単純な非線形関数の1つです。ステップ関数はより単純です。ただし、ステップ関数は、1つの点を除いて、すべての場所で1次導関数(勾配)がゼロになります。無限の勾配。ReLUはどこにでも有限の導関数(勾配)を持ちます。1つのポイントに無限の2次導関数があります。
フィードフォワードネットワークは、ゼロの勾配を探すことによってトレーニングされます。ここで重要なことは、 「大きなネット」の逆伝播ルーチンで計算する一次導関数がたくさんあり、ReLUのように高速に計算できるようになります。2つ目は、ステップ関数とは異なり、ReLUの勾配は常に有限であり、そうではないということです。ほぼすべての場所で些細なゼロ最後に、ディープラーニングネットがうまく機能するためには非線形アクティベーションが必要ですl、しかしそれは別の主題です。