Narazil jsem na výraz perplexity , který odkazuje na log-zprůměrovaná inverzní pravděpodobnost na neviditelných datech. Článek o zmatku na Wikipedii nedává intuitivní význam.
Toto opatření zmatenosti bylo použito v článku pLSA .
Může někdo vysvětlit potřebu a intuitivní význam míra zmatku ?
Komentáře
- Jak vypočítám zmatek pro pLSA. Mám datamatrix $ X $, který má počet a algoritmem TEM jsou vypočítány $ p (d) $ a $ p (w | d) $.
- I ‚ zkontroloval jsem indexy 5 knih o dolování dat / strojovém učení / prediktivní analytice Nisbett, Larose, Witten, Torgo a Shemueli (plus spoluautoři) a tento termín se nevyskytuje ‚ v kterémkoli z nich. Jsem ‚ m zmatený 🙂
- Zmatenost je další fantazijní název pro nejistotu. Lze jej považovat za vnitřní hodnocení proti vnějšímu hodnocení. Jan Jurafsky to elegantně vysvětluje příklady v souladu s jazykovým modelováním zde na youtube.com/watch?v=BAN3NB_SNHY
- @zbicyclist, If ‚ hledáte příklady ve volné přírodě, ‚ je to v NLP obzvláště běžné, a to zejména pro hodnocení věcí, jako jsou jazykové modely .
- V některých oborech (např. ekonomie) lidé mluví o ekvivalentních číslech, takže např $ \ exp (H) $, kde $ H $ je entropie založená na přirozených logaritmech, je ekvivalentní počet stejně běžných kategorií. Takže dvě kategorie, každá s pravděpodobností 0,5, přináší entropii $ \ ln 2 $ a umocnění získá 2 jako počet stejně běžných kategorií. Pro nerovné pravděpodobnosti není ekvivalent čísel obecně celé číslo.
Odpověď
Podívali jste se na Článek Wikipedie o zmatku . Dává zmatek diskrétní distribuce jako
$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$
, které lze také zapsat jako
$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$
ie jako vážený geometrický průměr inverzí pravděpodobností. Pro kontinuální distribuci by se součet změnil na integrál.
Tento článek také poskytuje způsob odhadu zmatenosti modelu pomocí $ N $ kusů testovacích dat
$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$
, které lze také napsat
$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {or} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$
nebo různými jinými způsoby, a proto by to mělo být ještě jasnější odkud pochází „logaritmická průměrná inverzní pravděpodobnost“.
Komentáře
- Existuje nějaký konkrétní rozdíl mezi tím, když je e použito jako exponent místo 2?
- @HenryE: ne, a běžný základ logaritmů $ 10 $ by také fungoval – logaritmy v různých základnách jsou navzájem úměrné a jasně $ a ^ {\ log_a x} = b ^ {\ log_b x} $
- přišel jsem jako hodně. Na tuto odpověď jsem narazil, když jsem se pokoušel pochopit, proč část kódu používala e k výpočtu zmatku, když všechny ostatní formulace, které jsem dříve viděl, používaly 2. Uvědomuji si nyní je důležité vědět, jakou hodnotu rámec používá jako základ pro výpočet ztráty protokolu.
- vypadá jako exponenciální entropie
odpověď
Považuji to za docela intuitivní:
Nejasnost všeho, co hodnotíte, na datech, která „přehodnocuji to, něco vám řekne,„ tato věc má pravdu asi tak často, jako by to bylo na x-sided die. “
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
Komentáře
- To ‚ s zajímavý článek; možná ne tak do hloubky, ale dobré úvodní čtení.
- Také mi tento článek pomohl, jamesmccaffrey.wordpress.com/2016/08/16/ …
odpověď
přemýšlel jsem toto také. První vysvětlení není špatné, ale tady jsou moje 2 nats pro cokoli, co má hodnotu.
Nejprve má zmatek nic společného s charakterizováním toho, jak často něco hádáte správně. Má to více společného s charakterizováním složitosti stochastické sekvence.
Podíváme se na kvantitu, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$
Nejprve zrušíme protokol a umocnění.
$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$
Myslím, že stojí za to poukázat na to, že zmatenost je neměnná vůči základně, kterou používáte k definování entropie. Takže v tomto smyslu , zmatenost je nekonečně jedinečnější / méně libovolná než entropie jako měření.
Vztah ke kostkám
Pojďme si s tím trochu pohrát. Řekněme, že se jen díváte na minci. Když je mince spravedlivá, entropie je maximálně a zmatek je maximálně $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$
Co se stane, když se podíváme na třídu $ N $ oboustranné kostky? Zmatenost je $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$
Takže zmatek představuje počet stran spravedlivého nástroje, který při válcování vytváří sekvenci se stejnou entropií jako vaše dané rozdělení pravděpodobnosti.
Počet států
Dobře, takže teď, když máme intuitivní definici zmatku, pojďme se rychle podívat na to, jak je ovlivněn počtem stavů v modelu. začít s distribucí pravděpodobnosti ve státech $ N $ a vytvořit nové rozdělení pravděpodobnosti mezi $ N + 1 $ uvádí takové, že poměr pravděpodobnosti původních států $ N $ zůstává stejný a nový stav má pravděpodobnost $ \ epsilon $ . V případě, že začneme se spravedlivou $ N $ oboustrannou kostkou, můžeme si představit vytvoření nové $ N + 1 $ sided die tak, že se nová strana válí s pravděpodobností $ \ epsilon $ a původní $ N $ rozpětí> strany jsou válcovány se stejnou pravděpodobností. V případě libovolného původního rozdělení pravděpodobnosti, pokud je pravděpodobnost každého stavu $ x $ dána $ p_x $ , nová distribuce původních států $ N $ vzhledem k novému stavu bude $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ a nová zmatek bude dána:
$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ vlevo (p_x \ vlevo (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$
V limitu jako $ \ epsilon \ rightarrow 0 $ je toto množství přiměřené hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$
Takže když děláte válcování jedna strana matrice je stále nepravděpodobnější, zmatek nakonec vypadá, jako by ta strana neexistovala.
Komentáře
- Určitě to ‚ pouze ~ 1,39 nats v hodnotě?
- Můžete vysvětlit, jak získáte $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Mohu dělat pouze $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
- $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$
Odpověď
Ve skutečnosti existuje jasná souvislost mezi nejistotou a pravděpodobností správného uhodnutí hodnoty z distribuce, kterou uvádí Cover „s Elements of Information Theory 2ed (2.146): If $ X $ a $ X „$ jsou proměnné iid, pak
$ P (X = X „) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)
Abychom vysvětlili, zmatenost rovnoměrného rozdělení X je pouze | X |, číslo prvků. Pokud se pokusíme uhodnout hodnoty, které iid vzorky z jednotného rozdělení X vezme jednoduše provedením iid odhadů z X, budeme mít pravdu 1 / | X | = 1 / zmatenost času. Vzhledem k tomu, že rovnoměrné rozdělení je nejtěžší odhadnout hodnoty, můžeme použít 1 / zmatek jako dolní mez / heuristickou aproximaci toho, jak často budou naše odhady správné.