이항 회귀와 로지스틱 회귀의 차이점은 ' 무엇입니까?

저는 항상 로지스틱 회귀를 단순히 연결 함수가 로지스틱 함수 인 이항 회귀의 특수한 경우라고 생각했습니다 (예를 들어, 프로 비트 대신 함수).

다른 질문에 대한 답변 을 읽었을 때 혼란 스러울 수있는 것 같고 로지스틱 링크가있는 로지스틱 회귀와 이항 회귀의 차이

차이는 무엇입니까?

답변

로지스틱 회귀는 “로지스틱”연결 함수를 사용하는 이항 회귀입니다.

$$ g (p) = \ log \ left (\ frac {p} {1-p} \ right) = X \ beta $$

로지스틱 회귀가 일반적으로 이항 개수보다는 이항 비율에 적용된다고 생각합니다.

댓글

  • 로지스틱 회귀가 일반적으로 개수가 아닌 비율에 적용된다는 것은 무엇을 의미합니까? 내가 ' 사람들이 파티에 참석할지 여부를 예측하려고하는데 특정 파티의 경우 9 명이 참석했고 1 명이 참석하지 않았다는 것을 알고 있다고 가정 해 보겠습니다. 로지스틱 회귀는 이것을 하나의 학습 예 (즉,이 당사자의 성공률 0.9)로 간주하고 링크가있는 이항 회귀에서는이를 10 개의 학습 예 (9 성공, 1 실패)로 취합니까?
  • @ raehtin-두 경우 모두 $ (n_i, f_i) = (10,0.9) $ 및 $ (n_i, x_i) = (10,9) $와 함께 $ 1 $ 샘플 / 트레이닝 케이스입니다. 차이점은 평균 및 분산 함수의 형태입니다. 이항의 경우 평균은 $ \ mu_i = n_ip_i $이고 표준 링크는 이제 $ \ log \ left (\ frac {\ mu_i} {n_i- \ mu_i} \ right) $ ( 자연 매개 변수 ")이고 분산 함수는 $ V (\ mu_i) = \ frac {\ mu_i (n_i- \ mu_i)} {n_i} $입니다. 분산 매개 변수 $ \ phi_i = 1 $. 물류의 경우 평균 $ \ mu_i = p_i $, 위 링크, $ V (\ mu_i) = \ mu_i (1- \ mu_i) $의 분산 함수 및 $ \ phi_i = \ frac {1} {n_i } $.
  • 로지스틱을 사용하면 $ n_i $가 평균 및 분산 함수에서 분리되므로 가중치를 통해 더 쉽게 고려할 수 있습니다.
  • 아, 알겠습니다. 생각 알겠습니다. 이것은 그들이 동등한 결과를 생성한다는 것을 의미합니까 (단순히 다른 방식에서 도달)?
  • @raegtin-그렇게 생각합니다. GLM 가중치, $ w_ {i} ^ {2} = \ frac {1} {\ phi_i V (\ mu_i) [g ' (\ mu_i)] ^ {2} } $는 두 경우 모두 동일하며 링크 함수는 동일한 로짓 값을 생성합니다. 따라서 X 변수도 동일하면 동일한 결과를 제공해야합니다.

Answer

이항 회귀는 분산이 $ \ mbox {var} (Y) = \ hat {Y} (1- \ hat {Y}) $로 제공되는 이항 평균-분산 관계를 사용하는 모든 유형의 GLM입니다. 로지스틱 회귀 분석에서 $ \ hat {Y} = \ mbox {logit} ^ {-1} (\ mathbf {X} \ hat {\ beta}) = 1 / (1- \ exp {(\ mathbf {X} \ hat {\ beta})}) $를 “링크”함수라고하는 로짓 함수와 함께 사용합니다. 그러나 이항 회귀 모델의 일반 클래스는 $ [0,1] $ 외부의 범위를 출력하는 함수를 포함하여 모든 유형의 연결 함수로 정의 할 수 있습니다. 예를 들어, 프로 빗 회귀는 역 정규 CDF의 링크를 사용하고 상대 위험 회귀는 로그 함수를 링크로 사용하며 추가 위험 모델은 ID 링크 모델을 사용합니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다