신경망에 ReLU (Rectified Linear Unit)를 사용하는 이유는 무엇입니까? 이것이 신경망을 어떻게 개선합니까?
ReLU가 활성화 기능이라고 말하는 이유는 무엇입니까? 신경망을위한 소프트 맥스 활성화 함수가 아닌가요? ReLU와 softmax를 모두 사용한다고 생각합니다. 다음과 같이 :
neuron 1 with softmax output —-> ReLU on the output on the neuron 1, 이것은
뉴런 2의 입력 —> softmax 출력을 가진 뉴런 2-> …
그래서 뉴런 2의 입력은 기본적으로 ReLU (softmax (x1))입니다. 맞습니까?
Answer
ReLU 함수는 $ f (x) = \입니다. max (0, x). $ 일반적으로 이것은 행렬-벡터 곱과 같은 다른 함수의 출력에 요소별로 적용됩니다. MLP 사용에서 정류기 장치는 판독 값을 제외한 다른 모든 활성화 함수를 대체합니다. 하지만 원하는 경우 조합하여 사용할 수 있다고 생각합니다.
ReLU가 신경망을 개선하는 한 가지 방법은 훈련 속도를 높이는 것입니다. 그래디언트 계산은 매우 간단합니다 ( $ x $ 기호에 따라 0 또는 1). 또한 ReLU의 계산 단계는 쉽습니다. 음의 요소는 0.0으로 설정되어 지수, 곱셈 또는 나눗셈 연산이 없습니다.
로지스틱 및 쌍곡선 탄젠트 네트워크의 기울기는의 양수 부분보다 작습니다. ReLU. 이는 교육이 진행됨에 따라 긍정적 인 부분이 더 빠르게 업데이트됨을 의미합니다. 그러나 이것은 비용이 듭니다. 왼쪽의 0 그라디언트에는 “죽은 뉴런”이라는 자체 문제가 있습니다. 여기서 그라디언트 업데이트는 들어오는 값을 ReLU로 설정하여 출력이 항상 0이되도록합니다. ELU (또는 Leaky ReLU 또는 PReLU 등)와 같은 수정 된 ReLU 단위는이를 개선 할 수 있습니다.
$ \ frac {d} {dx} \ text { ReLU} (x) = 1 \ forall x > 0 $ 반대로 시그 모이 드 단위의 기울기는 최대 $ 0.25 $ 입니다. 반면 $ \ tanh $ 는 $ 0.25 \ frac {d} {dx} \ tanh (x) \ le 1 \ forall x \ in [-1.31, 1.31] $ (대략)
댓글
- 질문을하고 싶거나이 페이지에 참여했다는 증거가 없습니다. 솔직히 저는 ReLU가 얼마나 잘 작동하는지 ' 놀랐지 만 '에 대한 질문을 중단했습니다.
- @aginensky 댓글이 중간에 삭제 된 것 같습니다.
- 댓글은 내가 삭제 한 것도 아니고 알림도받지 않았습니다. 저는 ' 질문에 대한 답변을 중단했으며 이는 제가 ' 댓글도 끝냈 음을 의미합니다.
- @aginensky ' 이로 인해 댓글 작성이 중단되는 이유를 모르겠습니다. 댓글 및 검토에 대한 질문이있는 경우 meta.stats.SE에서 질문 할 수 있습니다.
답변
한 가지 중요한 점은 ReLU가 멱 등성이라는 것입니다. ReLU가 $ \ rho (x) = \ max (0, x) $ 이면 $ \ rho \ circ \ rho \ circ \ rho \ circ \ dots \ circ \ rho = \ rho $ 는 모든 유한 컴포지션에 적용됩니다.이 속성은 심층 신경망에 매우 중요합니다. 네트워크가 비선형 성을 적용합니다. 이제 동일한 입력에 2 개의 시그 모이 드 패밀리 함수를 1-3 회 반복적으로 적용 해 보겠습니다.
시그 모이 드 함수가 입력을”스쿼시 “하여 그라디언트 문제가 사라지는 것을 즉시 확인할 수 있습니다. 도함수는 $ n $ (반복되는 애플리케이션 수)가 무한대에 가까워졌습니다.
답변
ReLU 입력 x가있는 최대 함수 (x, 0)입니다. convolved 이미지에서 매트릭스. 그런 다음 ReLU는 행렬 x의 모든 음수 값을 0으로 설정하고 다른 모든 값은 일정하게 유지됩니다.
ReLU는 convolution 후에 계산되며 tanh 또는 sigmoid와 같은 비선형 활성화 함수입니다.
Softmax는 신경망 끝의 분류기입니다. 이는 출력을 0과 1 사이의 값으로 정규화하는 로지스틱 회귀입니다. (대안은 SVM 분류기입니다).
CNN Forward Pass 예 : input-> conv-> ReLU-> Pool-> conv-> ReLU-> Pool-> FC-> softmax
댓글
- 비 공감. 이것은 매우 나쁜 대답입니다! Softmax는 분류 기가 아닙니다! 출력을 [0,1] 범위로 정규화 (스케일링)하고 합계가 1이되도록하는 함수입니다. 로지스틱 회귀는 " 정규화하지 않습니다. " 무엇이든!문장 " ReLU는 컨볼 루션 후에 계산되므로 tanh 또는 sigmoid와 같은 비선형 활성화 함수입니다. "에는 동사 또는 감각이 없습니다.
- 답은 그렇게 나쁘지 않습니다. 동사가없는 문장은 " ReLU가 컨볼 루션 후에 계산되고 IS 이므로 tanh 또는 sigmoid와 같은 비선형 활성화 함수입니다. " 소프트 맥스를 분류기로 생각하는 것도 의미가 있습니다. 각 클래스에 확률을 할당하는 확률 적 분류기로 볼 수 있습니다. " 정규화 " / " 정규화 " 출력을 [0,1] 간격으로.
Answer
ReLU는 리터럴 스위치입니다. 전기 스위치를 사용하면 1 볼트 입력은 1 볼트 출력을 제공하고, n 볼트 입력은 켜질 때 n 볼트를 출력합니다. 0으로 전환하기로 결정할 때 On / Off는 ReLU와 정확히 동일한 그래프를 제공합니다. 여러 가중 합계의 가중 합계 (내적)는 여전히 선형 시스템입니다. 특정 입력의 경우 ReLU 스위치는 개별적으로 켜지거나 꺼집니다. 이는 …의 가중치 합계의 다양한 가중치 합계가 스위치에 의해 함께 연결되기 때문에 입력에서 출력으로의 특정 선형 투영이됩니다. 특정 입력 및 특정 출력 뉴런의 경우 실제로 단일 유효 가중치 합계로 요약 할 수있는 가중치 합계의 복합 시스템이 있습니다. ReLU가 0으로 상태를 전환하기 때문에 입력의 점진적인 변화에 대한 출력의 갑작스런 불연속성이 없습니다.
FFT 및 Walsh Hadamard 변환과 같은 다른 수치 적으로 효율적인 가중치 합 (내적) 알고리즘이 있습니다. ReLU 기반 신경망에이를 통합 할 수없고 계산상의 이점을 누릴 수없는 이유가 없습니다 (예 : 고정 필터 뱅크 신경망).
Answer
ReLU는 아마도 가능한 가장 단순한 비선형 함수 중 하나 일 것입니다. 단계 함수는 더 간단합니다. 그러나 단계 함수는 모든 곳에서 1 차 미분 (기울기) 0을 갖습니다. ReLU는 모든 곳에서 유한 미분 (기울기)을 가지고 있습니다. 한 지점에 무한 이차 미분을가집니다.
피드 포워드 네트워크는 0 기울기를 찾아 훈련됩니다. 여기서 중요한 것은 “대규모 그물”의 역 전파 루틴에서 계산할 1 차 도함수가 많고 ReLU처럼 빠르게 계산하는 데 도움이됩니다. 두 번째는 단계 함수와 달리 ReLU의 기울기가 항상 유한하고 그렇지 않다는 것입니다. 거의 모든 곳에 사소한 0이 있습니다. 마지막으로 딥 러닝 네트워크가 제대로 작동하려면 비선형 활성화가 필요합니다. l,하지만 그건 다른 주제입니다.