난이도 라는 용어를 발견했습니다. 보이지 않는 데이터에 대한 로그 평균 역 확률. 혼란에 대한 Wikipedia 기사 는 동일한 것에 대한 직관적 인 의미를 제공하지 않습니다.

이 난해성 측정은 pLSA 논문에서 사용되었습니다.

누구나 난이도 측정 ?

pLSA에 대한 난이도는 어떻게 계산합니까? 개수가있는 데이터 매트릭스 $ X $가 있으며 TEM 알고리즘에 의해 $ p (d) $ 및 $ p (w | d) $가 계산됩니다.
I ' Nisbett, Larose, Witten, Torgo 및 Shemueli (공동 저자 포함)의 5 개 데이터 마이닝 / 머신 러닝 / 예측 분석 책의 색인을 확인했으며이 용어는 ' 발생하지 않습니다. 그들 중 하나. 난 ' m 당혹 스럽습니다 🙂
난해함은 불확실성의 또 다른 멋진 이름입니다. 외적 평가에 대한 내재적 평가로 볼 수 있습니다. Jan Jurafsky는 여기 youtube.com/watch?v=BAN3NB_SNHY
@zbicyclist에서 언어 모델링에 따른 예를 들어 우아하게 설명합니다. 당신은 ' 야생에서 예제를 찾고 있는데 ' NLP에서 특히 일반적이며 특히 언어 모델과 같은 것들을 평가하는 데 사용됩니다. .
일부 분야 (예 : 경제학)에서 사람들은 동등한 숫자에 대해 이야기합니다. $ \ exp (H) $ 여기서 $ H $는 자연 로그를 기반으로하는 엔트로피는 동일하게 공통된 범주의 동일한 수입니다. 따라서 확률이 0.5 인 두 범주는 각각 $ \ ln 2 $의 엔트로피를 생성하고 지수화는 동일한 공통 범주의 수로 2를 반환합니다. 불균등 확률의 경우 동등한 숫자는 일반적으로 정수가 아닙니다.

답변

복잡성에 대한 Wikipedia 기사 . 이산 분포의 복잡성을

$$ 2 ^ {-\ sum_x p (x) \ log_2 p (x)} $$

로도 쓸 수 있습니다. / p>

$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$

ie 확률의 역의 가중 기하 평균으로. 연속 분포의 경우 합계는 적분으로 바뀝니다.

이 기사는 또한 $ N $의 테스트 데이터 조각을 사용하여 모델의 난이도를 추정하는 방법을 제공합니다.

$$ 2 ^ {-\ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$

작성 가능

$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {또는} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$

또는 다양한 다른 방식을 사용하면 더욱 명확 해집니다. 여기서 “로그 평균 역 확률”의 출처입니다.

코멘트

e가 2가 아닌 지수로 사용되는 경우 사이에 특별한 차이가 있습니까?
@HenryE : 아니요, 공통 로그 밑수 $ 10 $도 작동합니다. 다른 밑수에있는 로그는 서로 비례하며 분명히 $ a ^ {\ log_a x} = b ^ {\ log_b x} $
다음과 같이 계산했습니다. 많은. 이전에 본 ' 다른 모든 공식이 2를 사용했을 때 왜 코드 조각이 e를 사용하여 난이도를 계산하는지 이해하려고 할 때이 대답을 찾았습니다. 이제 프레임 워크가 로그 손실 계산의 기준으로 사용하는 값을 아는 것이 얼마나 중요합니다.
지수 엔트로피처럼 보이는

답변

이것이 다소 직관적이라는 것을 알았습니다.

평가하는 데이터의 난이도 “평가 중, 일종의”이 일은 x면 주사위만큼 자주 맞습니다. “라고 말합니다.

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

그 ' 흥미로운 기사입니다. 깊이는 아니지만 좋은 소개 글일 수도 있습니다.
또한이 기사가 도움이된다는 것을 알았습니다. jamesmccaffrey.wordpress.com/2016/08/16/ …

답변

생각했습니다. 첫 번째 설명은 “나쁘지 않지만, 그 가치가 무엇이든간에 내 2 가지 의미가 있습니다.

우선, 당혹감은 추측하는 빈도를 나타내는 것과는 관련이 없습니다. 확률 적 시퀀스의 복잡성을 특성화하는 것과 더 관련이 있습니다.

우리는 수량, $$ 2 ^ {-\ sum_x p ( x) \ log_2 p (x)} $$

먼저 로그와 지수를 취소하겠습니다.

$$ 2 ^ {-\ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$

난이도는 엔트로피를 정의하는 데 사용하는 기본에 따라 변하지 않는다는 점을 지적 할 가치가 있다고 생각합니다. 따라서 이런 의미에서 , 난처함은 측정치로서 엔트로피보다 훨씬 더 독특하거나 덜 임의적입니다.

주사위와의 관계

이것을 조금 가지고 놀아 보겠습니다. 당신이 단지 동전을보고 있다고 가정 해 봅시다. 동전이 공정 할 때 엔트로피는 최대이고 난이도는 최대 $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1입니다. } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$

이제 $ N $ 양면 주사위? 난처함은 $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$입니다.

따라서 난이도는 주사위를 굴릴 때 주어진 확률 분포와 동일한 엔트로피를 가진 시퀀스를 생성하는 공정한 주사위의면 수를 나타냅니다.

상태 수

좋습니다. 이제 혼란에 대한 직관적 인 정의를 얻었으므로 모델의 상태 수에 의해 어떻게 영향을 받는지 간략하게 살펴 보겠습니다. $ N $ 주에 대한 확률 분포로 시작하고 $ N + 1 $ 는 원래 $ N $ 상태의 가능성 비율이 동일하게 유지되고 새 상태의 확률이 $ \ epsilon임을 명시합니다. $ . 공정한 $ N $ 양면 다이로 시작하는 경우 새로운 $ N + 1 $ 양면 주사위로 새로운면이 $ \ epsilon $ 확률과 원래 $ N $ 확률로 굴립니다. span> 측면은 동일한 가능성으로 롤링됩니다. 따라서 임의의 원래 확률 분포의 경우 각주의 $ x $ 의 확률이 $ p_x $로 주어지면 , 원래 $ N $ 상태의 새로운 분포는 새 상태가 $$ p ^ \입니다. prime_x = p_x \ left (1- \ epsilon \ right) $$ , 새로운 당혹감은 다음에 의해 주어집니다.

$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$

$ \ epsilon \ rightarrow 0 $ 제한에서이 수량은 hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$

그러므로 주사위의 한쪽면이 점점 줄어들 가능성이 높아지고 그면이 존재하지 않는 것처럼 보이게됩니다.

물론 ' 1.39 nats의 가치가 있습니까?
$$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? 나는 $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = 만 할 수 있습니다. \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
$$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ 엡실론 \ right)} ^ {\ left (1- \ epsilon \ right)} $$

답변

Cover s Elements of Information Theory 2ed (2.146) : If $ X $ <에 따르면, 당혹감과 분포에서 값을 올바르게 추측 할 확률 사이에는 분명한 연관성이 있습니다. / span> 및 $ X “$ 는 iid 변수이고

$ P (X = X “) \ ge 2 ^ {-H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)

설명하자면 균등 분포 X의 난이도는 숫자 | X |입니다. 요소의. 균등 분포 X의 iid 샘플이 X에서 iid 추측을 수행하여 가져갈 값을 추측하려고하면 올바른 1 / | X | = 1 / 시간의 혼란이 있습니다. 균등 분포는 값을 추측하기 가장 어렵 기 때문에 추측이 옳은 빈도에 대한 하한 / 경험적 근사치로 1 / 퍼플 렉스를 사용할 수 있습니다.

난처함이란 무엇입니까?

댓글

답변

코멘트

답변

댓글

답변

주사위와의 관계

상태 수

댓글

답변

답글 남기기 답글 취소하기