Hva er forvirring?

Jeg kom over begrepet forvirring som refererer til den logg-gjennomsnittlige omvendte sannsynligheten for usett data. Wikipedia artikkel om forvirring gir ikke en intuitiv betydning for det samme.

Dette forvirringsmålet ble brukt i pLSA papir.

Kan noen forklare behovet og den intuitive betydningen av forvirringstiltak ?

Kommentarer

  • Hvordan beregner jeg forvirring for pLSA. Jeg har datamatrix $ X $ som har tellingen og av TEM-algoritmen beregnes $ p (d) $ og $ p (w | d) $.
  • I ‘ har sjekket indeksene til 5 data mining / machine learning / predictive analytics books av Nisbett, Larose, Witten, Torgo og Shemueli (pluss medforfattere) og dette begrepet forekommer ikke ‘ t i noen av dem. Jeg ‘ er forvirret 🙂
  • Forvirring er et annet fancy navn for usikkerhet. Det kan betraktes som en egenvurdering mot ytre evaluering. Jan Jurafsky forklarer det elegant med eksempler i samsvar med språkmodellering her på youtube.com/watch?v=BAN3NB_SNHY
  • @zbicyclist, If du ‘ leter etter eksempler i naturen, er det ‘ spesielt vanlig i NLP, og spesielt for evaluering av ting som språkmodeller .
  • På noen felt (f.eks. økonomi) snakker folk om tallene som tilsvarer at f.eks $ \ exp (H) $ hvor $ H $ er entropi basert på naturlige logaritmer, er et ekvivalent antall like vanlige kategorier. Så to kategorier hver med sannsynlighet 0,5 gir entropi på $ \ ln 2 $ og eksponentiering får tilbake 2 som antall like vanlige kategorier. For ulik sannsynlighet er ikke tallene ekvivalent generelt et helt tall.

Svar

Du har sett på Wikipedia-artikkel om forvirring . Det gir forvirringen av en diskret fordeling som

$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$

som også kan skrives som

$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$

ie som et vektet geometrisk gjennomsnitt av sannsynlighetenes inverser. For en kontinuerlig fordeling vil summen bli en integral.

Artikkelen gir også en måte å estimere forvirring på en modell ved hjelp av $ N $ -biter testdata

$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$

som også kan skrives

$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {or} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$

eller på en rekke andre måter, og dette bør gjøre det enda tydeligere hvor «logg-gjennomsnittlig invers sannsynlighet» kommer fra.

Kommentarer

  • Er det noe spesielt skille mellom når e brukes som eksponent i stedet for 2?
  • @HenryE: nei, og vanlige logaritmer baserer $ 10 $ vil også fungere – logaritmer i forskjellige baser er proporsjonale med hverandre og tydeligvis $ a ^ {\ log_a x} = b ^ {\ log_b x} $
  • Jeg tenkte som mye. Jeg kom over dette svaret da jeg prøvde å forstå hvorfor en kode brukte e for å beregne forvirring når alle de andre formuleringene jeg ‘ som jeg tidligere hadde sett hadde brukt 2. Jeg skjønner nå hvor viktig det er å vite hvilken verdi et rammeverk bruker som grunnlag for loggberegning
  • ser ut som eksponentiell entropi

Svar

Jeg fant dette ganske intuitivt:

Forvirringen av hva du vurderer på dataene du «revurderer det på, forteller deg liksom» denne tingen er omtrent like ofte som en ensidig dør ville være. «

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

Kommentarer

Svar

Jeg har lurt på Dette også. Den første forklaringen er ikke dårlig, men her er mine to notater for hva det er verdt.


For det første har forvirring ingenting å gjøre med å karakterisere hvor ofte du gjetter noe riktig. Det har mer å gjøre med å karakterisere kompleksiteten til en stokastisk sekvens.

Vi ser på en mengde, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$

La oss først avbryte loggen og eksponentieringen.

$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$

Jeg synes det er verdt å påpeke at forvirring er uforanderlig med basen du bruker for å definere entropi. Så i denne forstand , forvirring er uendelig mer unik / mindre vilkårlig enn entropi som måling.

Forhold til terninger

La oss leke litt med dette. La oss si at du bare ser på en mynt. Når mynten er rettferdig, er entropien maksimalt, og forvirringen er maksimalt $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$

Hva skjer nå når vi ser på en $ N $ ensidig terning? Forvirring er $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$

Så forvirring representerer antall sider av en rettferdig dør som når den rulles, produserer en sekvens med samme entropi som din gitte sannsynlighetsfordeling.

Antall stater

OK, så nå som vi har en intuitiv definisjon av forvirring, la oss se raskt på hvordan den påvirkes av antall tilstander i en modell. La oss start med en sannsynlighetsfordeling over $ N $ stater, og opprett en ny sannsynlighetsfordeling over $ N + 1 $ sier slik at sannsynlighetsforholdet mellom de opprinnelige $ N $ -tilstandene forblir de samme og den nye staten har sannsynligheten $ \ epsilon $ . I tilfelle å starte med en rettferdig $ N $ -sidig dør, kan vi forestille oss å lage en ny $ N + 1 $ sided die slik at den nye siden blir rullet med sannsynlighet $ \ epsilon $ og den originale $ N $ sides er rullet med lik sannsynlighet. Så når det gjelder en vilkårlig original sannsynlighetsfordeling, hvis sannsynligheten for hver stat $ x $ er gitt av $ p_x $ , den nye distribusjonen av den opprinnelige $ N $ -statene gitt den nye tilstanden vil være $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , og den nye forvirringen vil bli gitt av:

$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ høyre) \ høyre)} ^ {p_x \ venstre (1- \ epsilon \ høyre)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ venstre ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$

I grensen som $ \ epsilon \ rightarrow 0 $ , er dette antallet godkjent hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$

Så når du gjør det rullende den ene siden av døen stadig mer usannsynlig, forvirringen ender med å se ut som om siden ikke eksisterer.

Kommentarer

  • Sikkert at ‘ er bare ~ 1,39 nats verdt?
  • Kan du utdype hvordan du får $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Jeg kan bare gjøre $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
  • $$ \ prod_x ^ N \ venstre {(1- \ epsilon \ høyre)} ^ {p_x \ venstre (1- \ epsilon \ høyre)} = {\ venstre (1- \ epsilon \ høyre)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ høyre)} ^ {\ left (1- \ epsilon \ right)} $$

Svar

Det er faktisk en klar sammenheng mellom forvirring og oddsen for å gjette en verdi fra en fordeling, gitt av Cover «s Elements of Information Theory 2ed (2.146): If $ X $ og $ X «$ er iid-variabler, så

$ P (X = X «) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)

For å forklare er forvirring av en jevn fordeling X bare | X |, tallet av elementer. Hvis vi prøver å gjette verdiene som prøver fra en jevn fordeling X tar ved å bare gjøre gjetninger fra X, vil vi være korrekte 1 / | X | = 1 / forvirring av tiden. Siden den jevne fordelingen er vanskeligst å gjette verdier fra, kan vi bruke 1 / perplexity som en nedre grense / heuristisk tilnærming for hvor ofte gjetningene våre vil være riktige.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *