난이도 라는 용어를 발견했습니다. 보이지 않는 데이터에 대한 로그 평균 역 확률. 혼란에 대한 Wikipedia 기사 는 동일한 것에 대한 직관적 인 의미를 제공하지 않습니다.
이 난해성 측정은 pLSA 논문에서 사용되었습니다.
누구나 난이도 측정 ?
댓글
- pLSA에 대한 난이도는 어떻게 계산합니까? 개수가있는 데이터 매트릭스 $ X $가 있으며 TEM 알고리즘에 의해 $ p (d) $ 및 $ p (w | d) $가 계산됩니다.
- I ' Nisbett, Larose, Witten, Torgo 및 Shemueli (공동 저자 포함)의 5 개 데이터 마이닝 / 머신 러닝 / 예측 분석 책의 색인을 확인했으며이 용어는 ' 발생하지 않습니다. 그들 중 하나. 난 ' m 당혹 스럽습니다 🙂
- 난해함은 불확실성의 또 다른 멋진 이름입니다. 외적 평가에 대한 내재적 평가로 볼 수 있습니다. Jan Jurafsky는 여기 youtube.com/watch?v=BAN3NB_SNHY
- @zbicyclist에서 언어 모델링에 따른 예를 들어 우아하게 설명합니다. 당신은 ' 야생에서 예제를 찾고 있는데 ' NLP에서 특히 일반적이며 특히 언어 모델과 같은 것들을 평가하는 데 사용됩니다. .
- 일부 분야 (예 : 경제학)에서 사람들은 동등한 숫자에 대해 이야기합니다. $ \ exp (H) $ 여기서 $ H $는 자연 로그를 기반으로하는 엔트로피는 동일하게 공통된 범주의 동일한 수입니다. 따라서 확률이 0.5 인 두 범주는 각각 $ \ ln 2 $의 엔트로피를 생성하고 지수화는 동일한 공통 범주의 수로 2를 반환합니다. 불균등 확률의 경우 동등한 숫자는 일반적으로 정수가 아닙니다.
답변
복잡성에 대한 Wikipedia 기사 . 이산 분포의 복잡성을
$$ 2 ^ {-\ sum_x p (x) \ log_2 p (x)} $$
로도 쓸 수 있습니다. / p>
$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$
ie 확률의 역의 가중 기하 평균으로. 연속 분포의 경우 합계는 적분으로 바뀝니다.
이 기사는 또한 $ N $의 테스트 데이터 조각을 사용하여 모델의 난이도를 추정하는 방법을 제공합니다.
$$ 2 ^ {-\ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$
작성 가능
$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {또는} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$
또는 다양한 다른 방식을 사용하면 더욱 명확 해집니다. 여기서 “로그 평균 역 확률”의 출처입니다.
코멘트
- e가 2가 아닌 지수로 사용되는 경우 사이에 특별한 차이가 있습니까?
- @HenryE : 아니요, 공통 로그 밑수 $ 10 $도 작동합니다. 다른 밑수에있는 로그는 서로 비례하며 분명히 $ a ^ {\ log_a x} = b ^ {\ log_b x} $
- 다음과 같이 계산했습니다. 많은. 이전에 본 ' 다른 모든 공식이 2를 사용했을 때 왜 코드 조각이 e를 사용하여 난이도를 계산하는지 이해하려고 할 때이 대답을 찾았습니다. 이제 프레임 워크가 로그 손실 계산의 기준으로 사용하는 값을 아는 것이 얼마나 중요합니다.
- 지수 엔트로피처럼 보이는
답변
이것이 다소 직관적이라는 것을 알았습니다.
평가하는 데이터의 난이도 “평가 중, 일종의”이 일은 x면 주사위만큼 자주 맞습니다. “라고 말합니다.
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
댓글
- 그 ' 흥미로운 기사입니다. 깊이는 아니지만 좋은 소개 글일 수도 있습니다.
- 또한이 기사가 도움이된다는 것을 알았습니다. jamesmccaffrey.wordpress.com/2016/08/16/ …
답변
생각했습니다. 첫 번째 설명은 “나쁘지 않지만, 그 가치가 무엇이든간에 내 2 가지 의미가 있습니다.
우선, 당혹감은 추측하는 빈도를 나타내는 것과는 관련이 없습니다. 확률 적 시퀀스의 복잡성을 특성화하는 것과 더 관련이 있습니다.
우리는 수량, $$ 2 ^ {-\ sum_x p ( x) \ log_2 p (x)} $$
먼저 로그와 지수를 취소하겠습니다.
$$ 2 ^ {-\ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$
난이도는 엔트로피를 정의하는 데 사용하는 기본에 따라 변하지 않는다는 점을 지적 할 가치가 있다고 생각합니다. 따라서 이런 의미에서 , 난처함은 측정치로서 엔트로피보다 훨씬 더 독특하거나 덜 임의적입니다.
주사위와의 관계
이것을 조금 가지고 놀아 보겠습니다. 당신이 단지 동전을보고 있다고 가정 해 봅시다. 동전이 공정 할 때 엔트로피는 최대이고 난이도는 최대 $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1입니다. } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$
이제 $ N $ 양면 주사위? 난처함은 $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$입니다.
따라서 난이도는 주사위를 굴릴 때 주어진 확률 분포와 동일한 엔트로피를 가진 시퀀스를 생성하는 공정한 주사위의면 수를 나타냅니다.
상태 수
좋습니다. 이제 혼란에 대한 직관적 인 정의를 얻었으므로 모델의 상태 수에 의해 어떻게 영향을 받는지 간략하게 살펴 보겠습니다. $ N $ 주에 대한 확률 분포로 시작하고 $ N + 1 $ span에 대한 새로운 확률 분포를 만듭니다. >는 원래 $ N $ 상태의 가능성 비율이 동일하게 유지되고 새 상태의 확률이 $ \ epsilon임을 명시합니다. $ . 공정한 $ N $ 양면 다이로 시작하는 경우 새로운 $ N + 1 $ 양면 주사위로 새로운면이 $ \ epsilon $ 확률과 원래 $ N $ 확률로 굴립니다. span> 측면은 동일한 가능성으로 롤링됩니다. 따라서 임의의 원래 확률 분포의 경우 각주의 $ x $ 의 확률이 $ p_x $로 주어지면 , 원래 $ N $ 상태의 새로운 분포는 새 상태가 $$ p ^ \입니다. prime_x = p_x \ left (1- \ epsilon \ right) $$ , 새로운 당혹감은 다음에 의해 주어집니다.
$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$
$ \ epsilon \ rightarrow 0 $ 제한에서이 수량은 hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$
그러므로 주사위의 한쪽면이 점점 줄어들 가능성이 높아지고 그면이 존재하지 않는 것처럼 보이게됩니다.
댓글
- 물론 ' 1.39 nats의 가치가 있습니까?
- $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? 나는 $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = 만 할 수 있습니다. \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
- $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ 엡실론 \ right)} ^ {\ left (1- \ epsilon \ right)} $$
답변
Cover s Elements of Information Theory 2ed (2.146) : If $ X $ <에 따르면, 당혹감과 분포에서 값을 올바르게 추측 할 확률 사이에는 분명한 연관성이 있습니다. / span> 및 $ X “$ 는 iid 변수이고
$ P (X = X “) \ ge 2 ^ {-H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)
설명하자면 균등 분포 X의 난이도는 숫자 | X |입니다. 요소의. 균등 분포 X의 iid 샘플이 X에서 iid 추측을 수행하여 가져갈 값을 추측하려고하면 올바른 1 / | X | = 1 / 시간의 혼란이 있습니다. 균등 분포는 값을 추측하기 가장 어렵 기 때문에 추측이 옳은 빈도에 대한 하한 / 경험적 근사치로 1 / 퍼플 렉스를 사용할 수 있습니다.