Hvad er forvirring?

Jeg stødte på term forvirring som refererer til den log-gennemsnitlige omvendte sandsynlighed for usete data. Wikipedia artikel om forvirring giver ikke en intuitiv betydning for det samme.

Denne perplexitetsmåling blev brugt i pLSA papir.

Kan nogen forklare behovet og den intuitive betydning af måling af forvirring ?

Kommentarer

  • Hvordan beregner jeg forvirring for pLSA. Jeg har datamatrix $ X $, som har optællingen, og ved TEM-algoritme beregnes $ p (d) $ og $ p (w | d) $.
  • I ‘ har kontrolleret indekserne for 5 data mining / machine learning / predictive analytics bøger af Nisbett, Larose, Witten, Torgo og Shemueli (plus medforfattere) og dette udtryk forekommer ikke ‘ t i nogen af dem. Jeg ‘ er forvirret 🙂
  • Forvirring er et andet fancy navn for usikkerhed. Det kan betragtes som en iboende vurdering mod ekstern vurdering. Jan Jurafsky forklarer det elegant med eksempler i overensstemmelse med sprogmodellering her på youtube.com/watch?v=BAN3NB_SNHY
  • @zbicyclist, Hvis du ‘ leder efter eksempler i naturen, er det ‘ specielt almindelig i NLP og specifikt til evaluering af ting som sprogmodeller .
  • På nogle områder (f.eks. økonomi) taler folk om antallet af ækvivalenter, så f.eks $ \ exp (H) $ hvor $ H $ er entropi baseret på naturlige logaritmer er et ækvivalent antal lige almindelige kategorier. Så to kategorier hver med sandsynlighed 0,5 giver entropi på $ \ ln 2 $ og eksponentiering får 2 tilbage som antallet af lige så almindelige kategorier. For ulige sandsynligheder er antallet af ækvivalenter generelt ikke et heltal.

Svar

Du har set på Wikipedia-artikel om forvirring . Det giver forvirringen af en diskret distribution som

$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$

som også kunne skrives som

$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$

ie som et vægtet geometrisk gennemsnit af sandsynlighedenes inverser. For en kontinuerlig fordeling vil summen blive til en integral.

Artiklen giver også en måde at estimere forvirring på en model ved hjælp af $ N $ -stykker testdata

$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$

som også kunne skrives

$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {or} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$

eller på en række andre måder, og dette skulle gøre det endnu tydeligere hvor “log-gennemsnit invers sandsynlighed” kommer fra.

Kommentarer

  • Er der nogen særlig sondring mellem når e bruges som eksponent i stedet for 2?
  • @HenryE: nej, og fælles logaritmebase $ 10 $ ville også fungere – logaritmer i forskellige baser er proportionale med hinanden og klart $ a ^ {\ log_a x} = b ^ {\ log_b x} $
  • Jeg regnede som meget. Jeg stødte på dette svar, da jeg prøvede at forstå, hvorfor et stykke kode brugte e til at beregne forvirring, da alle de andre formuleringer, jeg ‘, som jeg tidligere havde set, havde brugt 2. Jeg ved nu hvor vigtigt det er at vide, hvilken værdi en ramme bruger som en base til beregning af logtab
  • ligner eksponentiel entropi

Svar

Jeg fandt dette ret intuitivt:

Forvirringen ved hvad du end nu vurderer på de data, du “vurderer det igen, fortæller dig slags” denne ting er lige så ofte som en x-sidet die ville være. “

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

Kommentarer

Svar

Jeg har undret mig Dette er også. Den første forklaring er ikke dårlig, men her er mine 2 nats for hvad det er værd.


For det første har forvirring intet at gøre med at karakterisere, hvor ofte du gætter på noget højre. Det har mere at gøre med at karakterisere kompleksiteten af en stokastisk sekvens.

Vi ser på en mængde, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$

Lad os først annullere loggen og eksponentieringen.

$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$

Jeg synes, det er værd at påpege, at forvirring er uforanderlig med den base, du bruger til at definere entropi. Så i denne forstand , forvirring er uendeligt mere unik / mindre vilkårlig end entropi som en måling.

Forhold til terninger

Lad os lege med dette lidt. Lad os sige, at du bare kigger på en mønt. Når mønten er retfærdig, er entropien maksimalt, og forvirringen er maksimalt $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$

Hvad sker der nu, når vi ser på en $ N $ sidet terning? Forvirring er $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$

Så forvirring repræsenterer antallet af sider af en retfærdig matrix, der når den rulles, producerer en sekvens med den samme entropi som din givne sandsynlighedsfordeling.

Antal stater

OK, så nu, hvor vi har en intuitiv definition af forvirring, lad os se hurtigt på, hvordan det påvirkes af antallet af stater i en model. Lad os start med en sandsynlighedsfordeling over $ N $ stater, og opret en ny sandsynlighedsfordeling over $ N + 1 $ siger sådan, at sandsynlighedsforholdet mellem de originale $ N $ stater forbliver den samme, og den nye tilstand har sandsynligheden $ \ epsilon $ . I tilfælde af at starte med en rimelig $ N $ -sidet dør, kan vi forestille os at oprette en ny $ N + 1 $ sidet dør således, at den nye side rulles med sandsynlighed $ \ epsilon $ og den originale $ N $ sider rulles med lige sandsynlighed. Så i tilfælde af en vilkårlig original sandsynlighedsfordeling, hvis sandsynligheden for hver tilstand $ x $ er angivet af $ p_x $ , den nye distribution af de originale $ N $ stater givet den nye tilstand vil være $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , og den nye forvirring gives af:

$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ højre) \ højre)} ^ {p_x \ venstre (1- \ epsilon \ højre)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ venstre ( 1- \ epsilon \ højre)} {\ venstre (1- \ epsilon \ højre)} ^ {p_x \ venstre (1- \ epsilon \ højre)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ venstre (1- \ epsilon \ højre)} ^ {\ venstre (1- \ epsilon \ højre)} \ prod_x ^ N p_x ^ {p_x \ venstre (1- \ epsilon \ højre)}} $$

I grænsen som $ \ epsilon \ rightarrow 0 $ er denne mængde godkendt hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$

Så når du gør det rullende den ene side af døen bliver stadig mere usandsynlig, forvirringen ender med at se ud som om siden ikke findes.

Kommentarer

  • Sikkert at ‘ er kun ~ 1,39 nats værd?
  • Kan du uddybe, hvordan du får $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Jeg kan kun gøre $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
  • $$ \ prod_x ^ N \ venstre {(1- \ epsilon \ højre)} ^ {p_x \ venstre (1- \ epsilon \ højre)} = {\ venstre (1- \ epsilon \ højre)} ^ {\ sum_x ^ N p_x \ venstre (1- \ epsilon \ højre)} = {\ venstre (1- \ epsilon \ højre)} ^ {\ venstre (1- \ epsilon \ højre) \ sum_x ^ N p_x} = {\ venstre (1- \ epsilon \ højre)} ^ {\ venstre (1- \ epsilon \ højre)} $$

Svar

Der er faktisk en klar sammenhæng mellem forvirring og oddsene for at gætte en værdi korrekt fra en fordeling, givet af Cover “s Elements of Information Theory 2ed (2.146): Hvis $ X $ og $ X “$ er iid-variabler, så

$ P (X = X “) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)

For at forklare er forvirring af en ensartet fordeling X bare | X |, tallet af elementer. Hvis vi forsøger at gætte de værdier, som iid-prøver fra en ensartet fordeling X tager ved simpelthen at lave iid-gætter fra X, vil vi være korrekte 1 / | X | = 1 / tidens forvirring. Da den ensartede fordeling er den sværeste at gætte værdier fra, kan vi bruge 1 / perplexity som en nedre grænse / heuristisk tilnærmelse til hvor ofte vores gæt er rigtige.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *