Ce este nedumerirea?

Am dat peste termenul perplexitate care se referă la probabilitatea inversă mediată de jurnal pe date nevăzute. Wikipedia articol despre perplexitate nu oferă un sens intuitiv pentru același lucru.

Această măsură de perplexitate a fost utilizată în hârtia pLSA .

Poate cineva să explice nevoia și semnificația intuitivă a măsură de nedumerire ?

Comentarii

  • Cum calculez perplexitatea pentru pLSA. Am datamatrix $ X $ care are numărul și prin algoritmul TEM se calculează $ p (d) $ și $ p (w | d) $.
  • I ‘ am verificat indicii a 5 cărți de extragere a datelor / învățare automată / analize predictive de Nisbett, Larose, Witten, Torgo și Shemueli (plus coautori) și acest termen nu apare ‘ în oricare dintre ele. ‘ sunt nedumerit 🙂
  • Perplexitatea este un alt nume de lux pentru incertitudine. Poate fi considerat ca o evaluare intrinsecă împotriva evaluării extrinseci. Jan Jurafsky o explică elegant cu exemple în conformitate cu modelarea limbajului aici la youtube.com/watch?v=BAN3NB_SNHY
  • @zbicyclist, Dacă ‘ căutați exemple în natură, ‘ este deosebit de obișnuit în NLP și în special pentru evaluarea unor lucruri precum modelele de limbă .
  • În unele domenii (de exemplu, economie) oamenii vorbesc despre numărul echivalent, astfel încât, de ex $ \ exp (H) $ unde $ H $ este entropie bazată pe logaritmi naturali este un număr echivalent de categorii la fel de comune. Deci, două categorii fiecare cu probabilitate 0,5 produc o entropie de $ \ ln 2 $ și exponențierea obține înapoi 2 ca număr de categorii la fel de comune. Pentru probabilități inegale, echivalentul numerelor nu este, în general, un număr întreg.

Răspuns

V-ați uitat la Articol Wikipedia despre nedumerire . Oferă perplexitatea unei distribuții discrete ca

$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$

care ar putea fi scrisă și ca

$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$

ie ca medie geometrică ponderată a inverselor probabilităților. Pentru o distribuție continuă, suma s-ar transforma într-o integrală.

Articolul oferă, de asemenea, o modalitate de estimare a perplexității pentru un model folosind $ N $ bucăți de date de test

$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$

care ar putea fi scris și

$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {or} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$

sau într-o varietate de alte moduri, iar acest lucru ar trebui să o facă și mai clară de unde vine „probabilitatea inversă log-medie”.

Comentarii

  • Există vreo distincție specială între când e este folosit ca exponent, mai degrabă decât 2?
  • @HenryE: nu, iar baza logaritmelor obișnuite 10 $ ar funcționa și ele – logaritmii din baze diferite sunt proporționale între ele și clar $ a ^ {\ log_a x} = b ^ {\ log_b x} $
  • M-am gândit ca mult. Am dat peste acest răspuns atunci când încercam să înțeleg de ce o bucată de cod folosea e pentru a calcula perplexitatea atunci când toate celelalte formulări pe care le ‘ am văzut anterior folosiseră 2. Îmi dau seama acum cât de important este să știi ce valoare folosește un cadru ca bază pentru calculul pierderii jurnalului
  • arată ca entropie exponențială

Răspuns

Am găsit acest lucru destul de intuitiv:

Nedumerirea a ceea ce evaluați, pe datele pe care le „îl reevaluați, vă spune un fel” acest lucru este corect la fel de des pe cât ar fi o matriță pe X. ”

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

Comentarii

Răspuns

M-am întrebat De asemenea, prima explicație nu este rea, dar iată ce sunt cei doi nativi ai mei pentru orice ar merita.


În primul rând, perplexitatea nu are nimic de-a face cu caracterizarea frecvenței cu care ghiciți ceva corect. Are mai mult de-a face cu caracterizarea complexității unei secvențe stochastice.

Ne uităm la o cantitate, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$

Mai întâi să anulăm jurnalul și exponențierea.

$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$

Cred că merită să subliniem că perplexitatea este invariantă cu baza pe care o folosiți pentru a defini entropia. Deci, în acest sens , perplexitatea este infinit mai unică / mai puțin arbitrară decât entropia ca măsurătoare.

Relația cu zarurile

Să jucăm un pic cu asta. Să spunem că te uiți doar la o monedă. Când moneda este echitabilă, entropia este la maxim, iar perplexitatea la maximum $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$

Acum ce se întâmplă când ne uităm la o $ N $ zaruri laterale? Perplexitatea este $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$

Deci, perplexitatea reprezintă numărul de laturi ale unei matrițe corecte care, atunci când este rulată, produce o secvență cu aceeași entropie ca distribuția de probabilitate dată.

Numărul de state

OK, deci acum că avem o definiție intuitivă a perplexității, să aruncăm o privire rapidă asupra modului în care este afectată de numărul de stări dintr-un model. începeți cu o distribuție de probabilitate în $ N $ și creați o nouă distribuție de probabilitate în $ N + 1 $ afirmă astfel încât raportul de probabilitate al stărilor $ N $ originale rămân aceleași și noua stare are probabilitate $ \ epsilon $ . În cazul în care începeți cu o matriță justă $ N $ , ne-am putea imagina crearea unui nou $ N + 1 $ matriță laterală astfel încât noua parte să fie rulată cu probabilitate $ \ epsilon $ și $ N $ laturile sunt laminate cu aceeași probabilitate. Deci, în cazul unei distribuții de probabilitate originale arbitrare, dacă probabilitatea fiecărei stări $ x $ este dată de $ p_x $ , noua distribuție a stărilor $ N $ originale date de noua stare va fi $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , iar noua perplexitate va fi dată de:

$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$

În limita ca $ \ epsilon \ rightarrow 0 $ , această cantitate este potrivită hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$

Așa cum faci o parte a matriței este din ce în ce mai puțin probabilă, perplexitatea ajunge să pară că partea nu ar exista.

Comentarii

  • Sigur că ‘ doar în valoare de ~ 1,39 nats?
  • Puteți explica cum obțineți $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Nu pot face decât $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
  • $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$

Răspuns

Există de fapt o legătură clară între perplexitate și șansele de a ghici corect o valoare dintr-o distribuție, dată de Cover „s Elements of Information Theory 2ed (2.146): Dacă $ X $ și $ X „$ sunt variabile iid, apoi

$ P (X = X „) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)

Pentru a explica, perplexitatea unei distribuții uniforme X este doar | X |, numărul de elemente. Dacă încercăm să ghicim valorile pe care le vor lua eșantioanele dintr-o distribuție uniformă X făcând pur și simplu presupuneri din X, vom fi corecți 1 / | X | = 1 / perplexitatea timpului. Deoarece distribuția uniformă este cea mai greu de ghicit valorile, putem folosi 1 / perplexitate ca o limită inferioară / aproximare euristică pentru cât de des presupunerile noastre vor fi corecte.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *