Ik kwam de term perplexiteit tegen die verwijst naar de log-gemiddelde inverse kans op ongeziene gegevens. Wikipedia artikel over verwarring geeft geen intuïtieve betekenis voor hetzelfde.
Deze verwarringmaatstaf werd gebruikt in pLSA paper.
Kan iemand de noodzaak en intuïtieve betekenis van perplexiteitsmaatregel ?
Reacties
- Hoe bereken ik verwarring voor pLSA. Ik heb datamatrix $ X $ met de telling en door TEM-algoritme $ p (d) $ en $ p (w | d) $ worden berekend.
- I ‘ hebben de indices gecontroleerd van vijf boeken over datamining / machine learning / voorspellende analyse van Nisbett, Larose, Witten, Torgo en Shemueli (plus coauteurs) en deze term komt niet ‘ voor in elk van hen. Ik ‘ m perplex 🙂
- Verwarring is een andere mooie naam voor onzekerheid. Het kan worden beschouwd als een intrinsieke evaluatie tegen extrinsieke evaluatie. Jan Jurafsky legt het elegant uit met voorbeelden in overeenstemming met taalmodellering hier op youtube.com/watch?v=BAN3NB_SNHY
- @zbicyclist, If je ‘ op zoek bent naar voorbeelden in het wild, het ‘ komt vooral veel voor in NLP, en specifiek voor de evaluatie van zaken als taalmodellen .
- Op sommige gebieden (bijv. economie) praten mensen over het equivalent van getallen, zodat bijv $ \ exp (H) $ waarbij $ H $ entropie is op basis van natuurlijke logaritmen, is een equivalent aantal even vaak voorkomende categorieën. Dus twee categorieën met elk een kans van 0,5 leveren een entropie op van $ \ ln 2 $ en machtsverheffen krijgen 2 terug als het aantal even vaak voorkomende categorieën. Voor ongelijke kansen is het equivalent van getallen in het algemeen geen geheel getal.
Antwoord
Je hebt gekeken naar de Wikipedia-artikel over verwarring . Het geeft de verwarring van een discrete distributie als
$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$
wat ook kan worden geschreven als
$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$
ie als een gewogen geometrisch gemiddelde van de inverse van de kansen. Voor een continue distributie zou de som veranderen in een integraal.
Het artikel geeft ook een manier om de verwarring voor een model te schatten met behulp van $ N $ stukjes testgegevens
$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$
die ook kan worden geschreven
$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {of} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$
of op een aantal andere manieren, en dit zou het nog duidelijker moeten maken waar “log-gemiddelde inverse kans” vandaan komt.
Opmerkingen
- Is er een bepaald onderscheid tussen wanneer e wordt gebruikt als exponent in plaats van 2?
- @HenryE: nee, en gewone logaritmen basis $ 10 $ zouden ook werken – logaritmen in verschillende bases zijn proportioneel aan elkaar en duidelijk $ a ^ {\ log_a x} = b ^ {\ log_b x} $
- Ik dacht dat veel. Ik kwam dit antwoord tegen toen ik probeerde te begrijpen waarom een stuk code e gebruikte om verwarring te berekenen, terwijl alle andere formuleringen die ik ‘ eerder had gezien, 2 gebruikten. nu hoe belangrijk het is om te weten welke waarde een raamwerk gebruikt als basis voor de berekening van logverlies.
- ziet eruit als exponentiële entropie
Antwoord
Ik vond dit nogal intuïtief:
De verwarring van wat je ook evalueert, op de gegevens die je “herevalueert het op, zegt ongeveer” dit ding heeft ongeveer net zo vaak gelijk als een x-zijdige dobbelsteen zou zijn. “
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
Opmerkingen
- Dat ‘ s een interessant artikel; misschien niet zo diepgaand, maar een goede inleidende lezing.
- Ik vond dit artikel ook nuttig, jamesmccaffrey.wordpress.com/2016/08/16/ …
Antwoord
Ik heb me afgevraagd dit ook. De eerste verklaring is niet slecht, maar hier zijn mijn 2 nats voor wat dat ook waard is.
Allereerst heeft verwarring niets te maken met het karakteriseren van hoe vaak je iets raadt juist. Het heeft meer te maken met het karakteriseren van de complexiteit van een stochastische reeks.
We “kijken naar een hoeveelheid, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$
Laten we eerst het logboek en de machtsverheffing annuleren.
$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$
Ik denk dat het de moeite waard is erop te wijzen dat verwarring onveranderlijk is met de basis die je gebruikt om entropie te definiëren. Dus in deze zin , verwarring is oneindig veel unieker / minder willekeurig dan entropie als meting.
Relatie met dobbelstenen
Laten we hier een beetje mee spelen. Laten we zeggen dat je alleen maar naar een munt kijkt. Als de munt eerlijk is, is de entropie maximaal en de verwarring maximaal $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$
Wat gebeurt er nu als we naar een $ N $ dubbelzijdige dobbelstenen? Perplexiteit is $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$
Dus verwarring vertegenwoordigt het aantal zijden van een eerlijke dobbelsteen dat, wanneer het wordt gegooid, een reeks oplevert met dezelfde entropie als uw gegeven kansverdeling.
Aantal staten
OK, dus nu we een intuïtieve definitie van verwarring hebben, laten we eens kijken hoe het wordt beïnvloed door het aantal staten in een model. Laten we begin met een kansverdeling over $ N $ staten, en maak een nieuwe kansverdeling over $ N + 1 $ stelt zodanig dat de waarschijnlijkheidsverhouding van de oorspronkelijke $ N $ staten hetzelfde blijft en de nieuwe staat waarschijnlijkheid $ \ epsilon heeft $ . Als we beginnen met een eerlijke $ N $ dobbelsteen, kunnen we ons voorstellen dat we een nieuwe $ N + 1 $ zijdige dobbelsteen zodat de nieuwe zijde wordt gegooid met waarschijnlijkheid $ \ epsilon $ en de originele $ N $ zijden worden met gelijke waarschijnlijkheid gerold. Dus in het geval van een willekeurige oorspronkelijke kansverdeling, als de kans van elke toestand $ x $ wordt gegeven door $ p_x $ , de nieuwe distributie van de oorspronkelijke $ N $ staten gezien de nieuwe staat is $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , en de nieuwe verwarring wordt gegeven door:
$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$
Binnen de limiet van $ \ epsilon \ rightarrow 0 $ is dit aantal hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$
Dus als je aan het rollen bent de ene kant van de dobbelsteen wordt steeds onwaarschijnlijker, de verbijstering ziet er uiteindelijk uit alsof de kant niet “bestaat.
Reacties
- Zeker dat ‘ is slechts ~ 1,39 nats waard?
- Kunt u uitleggen hoe u $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Ik kan alleen $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
- $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$
Antwoord
Er is eigenlijk een duidelijk verband tussen verwarring en de kans om een waarde correct te raden uit een distributie, gegeven door Covers Elements of Information Theory 2ed (2.146): If $ X $ en $ X “$ zijn iid-variabelen,
$ P (X = X “) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)
Om uit te leggen: de verwarring van een uniforme verdeling X is gewoon | X |, het getal van elementen. Als we proberen de waarden te raden die iid samples uit een uniforme verdeling X zullen nemen door simpelweg iid gissingen te doen vanuit X, zullen we correct zijn 1 / | X | = 1 / perplexiteit van de tijd. Aangezien de uniforme verdeling het moeilijkst is om waarden te raden, kunnen we 1 / perplexity gebruiken als een ondergrens / heuristische benadering voor hoe vaak onze gissingen juist zullen zijn.