Jag stötte på term förvirring som refererar till den loggenomsnittliga inversa sannolikheten för osedda data. Wikipedia artikel om förvirring ger inte en intuitiv mening för detsamma.
Det här förvirringsmåttet användes i pLSA -papper.
Kan någon förklara behovet och den intuitiva innebörden av förvirringsmått ?
Kommentarer
- Hur beräknar jag förvirring för pLSA. Jag har datamatrix $ X $ som har antalet och med TEM-algoritmen beräknas $ p (d) $ och $ p (w | d) $.
- I ’ har kontrollerat indexen för 5 data mining / machine learning / predictive analytics books av Nisbett, Larose, Witten, Torgo och Shemueli (plus medförfattare) och denna term förekommer inte ’ t i någon av dem. Jag ’ förvirrad 🙂
- Förvirring är ett annat snyggt namn för osäkerhet. Det kan betraktas som en inneboende utvärdering mot yttre utvärdering. Jan Jurafsky förklarar det elegant med exempel i enlighet med språkmodellering här på youtube.com/watch?v=BAN3NB_SNHY
- @zbicyclist, If du ’ du letar efter exempel i naturen, det ’ är särskilt vanligt i NLP, och specifikt för utvärdering av saker som språkmodeller .
- I vissa områden (t.ex. ekonomi) talar människor om antalet motsvarande så att t.ex. $ \ exp (H) $ där $ H $ är entropi baserat på naturliga logaritmer är ett ekvivalent antal lika vanliga kategorier. Så två kategorier vardera med sannolikhet 0,5 ger entropi på $ \ ln 2 $ och exponentiering får tillbaka 2 som antalet lika vanliga kategorier. För ojämna sannolikheter är motsvarande siffror i allmänhet inte ett heltal.
Svar
Du har tittat på Wikipedia-artikel om förvirring . Det ger förvirringen hos en diskret distribution som
$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$
som också kan skrivas som
$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$
ie som ett viktat geometriskt medelvärde av sannolikhetens inverser. För en kontinuerlig fördelning skulle summan förvandlas till en integral.
Artikeln ger också ett sätt att uppskatta förvirring för en modell med $ N $ bitar testdata
$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$
som också skulle kunna skrivas
$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {eller} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$
eller på en mängd andra sätt, och detta bör göra det ännu tydligare där ”loggenomsnitt invers sannolikhet” kommer ifrån.
Kommentarer
- Finns det någon särskild skillnad mellan när e används som exponent snarare än 2?
- @HenryE: nej, och vanliga logaritmer baserar $ 10 $ skulle också fungera – logaritmer i olika baser är proportionella mot varandra och tydligt $ a ^ {\ log_a x} = b ^ {\ log_b x} $
- Jag tänkte som mycket. Jag stötte på det här svaret när jag försökte förstå varför en kod kod använde e för att beräkna förvirring när alla andra formuleringar jag ’ som jag sett tidigare hade använt 2. Jag inser nu hur viktigt det är att veta vilket värde ett ramverk använder som bas för loggförlustberäkningen
- ser ut som exponentiell entropi
Svar
Jag tyckte det här var ganska intuitivt:
Förvirringen av vad du än utvärderar, på de data du ”utvärderar det på, säger något till dig” den här saken är rätt så ofta som en x-sidig dör skulle vara. ”
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
Kommentarer
- Att ’ är en intressant artikel; kanske inte så på djupet men en bra inledande läsning.
- Jag tyckte också att den här artikeln var till hjälp, jamesmccaffrey.wordpress.com/2016/08/16/ …
Svar
Jag har undrat Det här också. Den första förklaringen är inte dålig, men här är mina 2 nats för vad det än är värt.
Först och främst har förvirring inget att göra med att karakterisera hur ofta du gissar något rätt. Det har mer att göra med att karakterisera komplexiteten i en stokastisk sekvens.
Vi tittar på en mängd, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$
Låt oss först avbryta loggen och exponentieringen.
$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$
Jag tycker att det är värt att påpeka att förvirring är oförändrad med den bas du använder för att definiera entropi. Så i den här meningen , förvirring är oändligt mer unik / mindre godtycklig än entropi som ett mått.
Förhållande till tärningar
Låt oss spela lite med detta. Låt oss säga att du bara tittar på ett mynt. När myntet är rättvist är entropin maximalt och förvirringen är högst $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$
Vad händer nu när vi tittar på en $ N $ sidiga tärningar? Förvirring är $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$
Så förvirring representerar antalet sidor av en rättvis matris som när den rullas producerar en sekvens med samma entropi som din angivna sannolikhetsfördelning.
Antal stater
OK, så nu när vi har en intuitiv definition av förvirring, låt oss ta en snabb titt på hur den påverkas av antalet tillstånd i en modell. Låt oss börja med en sannolikhetsfördelning över $ N $ anger och skapa en ny sannolikhetsfördelning över $ N + 1 $ anger sådana att sannolikhetsförhållandet för de ursprungliga $ N $ -tillstånden är desamma och det nya tillståndet har sannolikhet $ \ epsilon $ . Om vi börjar med en rättvis $ N $ sidig dör, kan vi tänka oss att skapa en ny $ N + 1 $ sidoform så att den nya sidan rullas med sannolikhet $ \ epsilon $ och originalet $ N $ sides rullas med lika sannolikhet. I fallet med en godtycklig original sannolikhetsfördelning, om sannolikheten för varje tillstånd $ x $ ges av $ p_x $ , den nya distributionen av de ursprungliga $ N $ staterna med tanke på att den nya staten kommer att vara $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , och den nya förvirringen ges av:
$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ vänster (p_x \ vänster (1- \ epsilon \ höger) \ höger)} ^ {p_x \ vänster (1- \ epsilon \ höger)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ vänster ( 1- \ epsilon \ höger)} {\ vänster (1- \ epsilon \ höger)} ^ {p_x \ vänster (1- \ epsilon \ höger)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ vänster (1- \ epsilon \ höger)} ^ {\ vänster (1- \ epsilon \ höger)} \ prod_x ^ N p_x ^ {p_x \ vänster (1- \ epsilon \ höger)}} $$
I gränsen som $ \ epsilon \ rightarrow 0 $ är denna kvantitet godkänd han $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$
Så när du gör rullar ena sidan av munstycket blir alltmer osannolikt, förvirringen hamnar som om sidan inte finns.
Kommentarer
- Visst att ’ är bara ~ 1,39 nats värda?
- Kan du utarbeta hur du får $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Jag kan bara göra $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
- $$ \ prod_x ^ N \ vänster {(1- \ epsilon \ höger)} ^ {p_x \ vänster (1- \ epsilon \ höger)} = {\ vänster (1- \ epsilon \ höger)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ höger)} ^ {\ vänster (1- \ epsilon \ höger)} $$
Svar
Det finns faktiskt en tydlig koppling mellan förvirring och oddsen för att korrekt gissa ett värde från en distribution, ges av Cover ”s Elements of Information Theory 2ed (2.146): If $ X $ och $ X ”$ är iidvariabler, då
$ P (X = X ”) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)
För att förklara är förvirringen av en enhetlig fördelning X bara | X |, antalet av element. Om vi försöker gissa värdena som samplingar från en enhetlig fördelning X tar genom att helt enkelt göra gissningar från X kommer vi att vara korrekta 1 / | X | = 1 / förvirring av tiden. Eftersom den enhetliga fördelningen är det svåraste att gissa värden från, kan vi använda 1 / förvirring som en lägre gräns / heuristisk approximation för hur ofta våra gissningar kommer att vara rätt.