올가미 . 나는 다른 포럼에서 베이지안 접근법과 빈도주의 접근법에 대해 많이 논의한 것을 알고 있습니다. 내 질문은 올가미와 관련이 있습니다. 베이지안 올가미와 일반 올가미의 차이점 또는 장점은 무엇인가요? ?
다음은 패키지 구현의 두 가지 예입니다.
# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y)
그러면 언제 하나 또는 다른 방법을 사용해야합니까? 아니면 그들은 동일합니까?
답변
표준 올가미는 L1 정규화 패널티를 사용합니다. 회귀에서 희소성을 달성합니다. 이것은 Basis Pursuit 라고도합니다.
베이지안 프레임 워크에서 정규화를 선택하는 것은 이전을 선택하는 것과 유사합니다. 무게. Gaussian 사전이 사용되는 경우 MAP (Maximum a Posteriori) 솔루션은 L2 패널티가 사용 된 경우와 동일합니다. 직접적으로 동일하지는 않지만, Laplace 사전 (0 부근에서 평활 한 가우시안과 달리 0 부근에서 급격히 정점에 있음)은 L1 패널티에 대해 동일한 수축 효과를 생성합니다. 이 문서는 베이지안 올가미에 대해 설명합니다. .
사실 매개 변수보다 먼저 Laplace를 배치 할 때 MAP 솔루션은 동일해야합니다. (단순히 유사하지 않음) L1 페널티를 사용한 정규화와 라플라스 사전은 L1 페널티와 동일한 수축 효과를 생성합니다. 그러나 베이지안 추론 절차의 근사치 또는 기타 수치 문제로 인해 솔루션이 실제로 동일하지 않을 수 있습니다.
대부분의 경우 두 방법으로 생성 된 결과는 매우 유사합니다. 최적화 방법과 근사치 사용 여부에 따라 표준 올가미가 베이지안 버전보다 계산에 더 효율적일 것입니다. 베이지안은 오류 분산을 포함하여 필요한 경우 모든 매개 변수에 대한 간격 추정치를 자동으로 생성합니다.
설명
- " 가우시안 사전을 사용하는 경우 최대 가능성 솔루션은 동일합니다 …. ". 강조 표시된 문구는 " 최대 A Posteriori (MAP) " 여야합니다. 최대 가능성 추정은 매개 변수에 대한 사전 분포를 무시하고 선행 MAP 추정은 사전을 고려하는 반면에 비정규 화 된 솔루션으로 변환합니다.
- 라플라스를 매개 변수보다 우선시하면 MAP 솔루션은 L1 페널티 및 Laplace를 사용한 정규화와 동일합니다 (단순히 유사하지 않음). 이전은 L1 페널티와 동일한 수축 효과를 생성합니다.
- @mefathy 예 ' 둘 다 맞습니다 (가능 ' 내가 MAP 대신 ML을 썼다고 믿지 않는다 ….), 물론 실제로 YMMV. ' 두 댓글을 모두 포함하도록 답변을 업데이트했습니다.
답변
“최소 제곱”은 전체 솔루션이 모든 단일 방정식의 결과에서 생성 된 오류 제곱의 합을 최소화 함을 의미합니다. 가장 중요한 응용 분야는 데이터 피팅입니다. 최소 제곱 법의 최적 적합은 제곱 잔차의 합을 최소화하며, 잔차는 관측 값과 모델이 제공하는 적합치 간의 차이입니다. 최소 제곱 문제는 선형 또는 일반 최소 제곱과 비 모든 미지수에서 잔차가 선형인지 여부에 따라 선형 최소 제곱.
Bayesian 선형 회귀 는 통계 분석이 컨텍스트 내에서 수행되는 선형 회귀에 대한 접근 방식입니다. 베이지안 추론의. 회귀 모델에 정규 분포가있는 오류가 있고 특정 형태의 사전 분포를 가정하는 경우 모델 매개 변수의 사후 확률 분포에 대해 명시 적 결과를 사용할 수 있습니다.
일부 컨텍스트에서는 a 최소 제곱 해의 정규화 된 버전이 더 바람직 할 수 있습니다 .Tikhonov 정규화 (또는 능선 회귀)는 매개 변수 벡터의 L2- 노름 인 $ \ | \ beta \ | ^ 2 $가 주어진 값보다 크지 않다는 제약 조건을 추가합니다. 베이지안 컨텍스트에서 이것은 매개 변수 벡터 앞에 0- 평균 정규 분포를 배치하는 것과 동일합니다.
최소 제곱의 대체 정규화 된 버전은 Lasso (최소 절대 축소 및 선택 연산자)입니다. 매개 변수 벡터의 L1- 노름 인 $ \ | \ beta \ | _1 $, 가 주어진 값보다 크지 않음 . 베이지안 컨텍스트에서 이것은 매개 변수에 0 평균 라플라스 사전 분포를 배치하는 것과 같습니다. 벡터.
Lasso와 ridge 회귀의 주요 차이점 중 하나는 ridge 회귀에서 페널티가 증가함에 따라 모든 매개 변수가 감소하면서 여전히 0이 아닌 상태로 유지되는 반면, Lasso에서는 페널티를 높이면 더 많은 결과가 발생한다는 것입니다. 및 더 많은 매개 변수가 0으로 구동됩니다.
이 문서는 일반 올가미와 베이지안 올가미 및 능선 회귀를 비교합니다 ( 그림 1 참조). .
답변
저는이 질문에 대한 현재 답변이 “차이점 또는 장점이 무엇인가 Baysian (원문) 올가미 대 일반 올가미? ” 및 “동일합니까?”
첫째, 동일하지 않습니다.
주요 차이점은 다음과 같습니다. 베이지안 올가미는 매개 변수의 전체 사후 분포에서 샘플링을 시도합니다. 라플라스 사전 아래에있는 반면, 올가미는 사후 모드를 찾으려고합니다 (또한 라플라스 사전 아래에 있음). 실제로 베이지안 올가미의 전체 사후 분포는 일반적으로 사후 평균으로 요약되므로 실제로는 다음과 같이 요약됩니다.
베이지안 올가미는 라플라스 사전에서 사후 평균을 찾으려고 시도하지만 올가미는 라플라스 사전에서 사후 모드를 찾으려고합니다.
사후 모드와 사후 모드의 장점은 다음과 같은 경우 사후 평균이 더 나은 예측 정확도를 생성한다는 것입니다 (평균 제곱 손실 가정). 라플라스 사전은 실제로 회귀 계수 분포의 진정한 반영입니다. 그러나 많은 애플리케이션에서 라플라스 사전이 계수 분포의 진정한 반영이 아니기 때문에이 이점은 실제로 모호합니다 (일반적으로 확인하기 어렵습니다!)
사후 모드의 장점 계산적으로 찾기가 훨씬 쉽다는 것을 포함하십시오 (볼록 최적화 문제입니다).
내가 “언제 한 가지 방법이나 다른 방법으로 가야하는지”라고 대답하지 않았 음을 알 수 있습니다. 일반적으로 대답하기 어려운 질문이기 때문입니다. 내 대답은 일반적으로 이들 중 하나보다 더 나은 방법이 있다는 것입니다. 그러나 이것에 대한 완전한 논의에는 더 긴 게시물이 필요합니다.