Mi a zavartság?

Találtam egy zavartságot , amely a log-átlagolt inverz valószínűség láthatatlan adatokon. A zavartságról szóló Wikipedia cikk nem ad intuitív jelentést ugyanannak.

Ezt a zavartsági mértéket a pLSA cikkben használták.

Meg tudja magyarázni valaki a zavartsági mérés ?

Megjegyzések

  • Hogyan számíthatom ki a pLSA zavartságát. Van $ X $ datamatrixom, amelynek meg van a száma, és a TEM algoritmus alapján kiszámítjuk az $ p (d) $ és az $ p (w | d) $ értékeket. div> ve ellenőrizte Nisbett, Larose, Witten, Torgo és Shemueli (plusz társszerzők) 5 adatbányászat / gépi tanulás / prediktív elemzés könyvének indexeit, és ez a kifejezés nem fordul elő ‘ bármelyikükben. I ‘ zavarba jöttem 🙂
  • A bizonytalanság másik fantázianeve a zavartság. Az extrinsic értékeléssel szembeni belső értékelésnek tekinthető. Jan Jurafsky elegánsan megmagyarázza példákkal a nyelv modellezésének megfelelően itt: youtube.com/watch?v=BAN3NB_SNHY
  • @zbicyclist, Ha ‘ a vadonban keres példákat, ez ‘ különösen gyakori az NLP-ben, és kifejezetten olyan dolgok értékelésére, mint a nyelvi modellek .
  • Egyes területeken (pl. közgazdaságtan) az emberek a számokkal egyenértékűről beszélnek, így pl A $ \ exp (H) $ ahol a $ H $ a természetes logaritmusokon alapuló entrópia, ekvivalens számú ugyanolyan gyakori kategória. Tehát két kategória, amelyek 0,5 valószínűséggel hoznak $ \ ln 2 $ entrópiát, és a hatványozás 2-t kap, mint az ugyanolyan gyakori kategóriák száma. Egyenlőtlen valószínűségek esetén az egyenértékű számok általában nem egész számok.

Válasz

Megnézte a Wikipédia cikk a zavarról . Megadja a diszkrét eloszlás zavartságát

$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$

néven, amelyet

$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$

ie a valószínűségek inverzeinek súlyozott geometriai átlagaként. Folyamatos eloszlás esetén az összeg integrálissá válna.

A cikk módot ad arra is, hogy megbecsülje a modell zavartságát $ N $ tesztadatok felhasználásával

$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$

amely szintén írható

$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {vagy} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$

vagy sokféle más módon, és ennek még világosabbá kell tennie honnan származik a “log-átlag inverz valószínűség”.

Megjegyzések

  • Van-e különösebb megkülönböztetés között, ha az e-t kitevőnek használjuk a 2 helyett?
  • @HenryE: nem, és a $ 10 $ közös logaritmusalap is működne – a különböző alapú logaritmusok arányosak egymással és egyértelműen $ a ^ {\ log_a x} = b ^ {\ log_b x} $
  • úgy gondoltam, sokkal. Erre a válaszra akkor találtam rá, amikor megpróbáltam megérteni, miért használ egy kódrészlet az e-vel a zavartság kiszámításához, amikor az összes többi, korábban ‘ d megfogalmazott formátum 2-et használt. most mennyire fontos tudni, hogy egy keretrendszer milyen értéket használ a naplóveszteség számításának alapjául
  • úgy néz ki, mint az exponenciális entrópia

Válasz

Ezt meglehetősen intuitívnak találtam:

Annak zavara, amit értékelsz, az adatokon “újból kiértékelve, mintegy elárulja, hogy” ez a helyzet kb. olyan helyes, mint egy x oldalú szerszám. “

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

Megjegyzések

Válasz

Csodálkoztam ez is. Az első magyarázat nem “rossz”, de itt van a 2 természetem, bármit is ér.


Először is, a zavartságnak semmi köze annak jellemzéséhez, hogy milyen gyakran kitalál valamit jobb. Ennek több köze van egy sztochasztikus szekvencia összetettségének jellemzéséhez.

Egy mennyiséget vizsgálunk, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$

Először töröljük a naplót és a hatványozást.

$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$

Szerintem érdemes leszögezni, hogy a zavartság invariáns azzal az alaptal, amelyet az entrópia meghatározásához használ. Tehát ebben az értelemben , a zavartság végtelenül egyedibb / kevésbé önkényes, mint az entrópia mérésként.

Kapcsolat a kockákkal

Játsszunk ezzel egy kicsit. Mondjuk, hogy csak egy érmét néz. Ha az érme tisztességes, az entrópia maximális, a zavartság pedig legfeljebb $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$

Most mi történik, ha egy $ N $ kétoldalas kocka? A zavartság $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$

Tehát a zavartság a tisztességes szerszám oldalainak számát jelenti, amely feltekercselve ugyanazon entrópiájú szekvenciát eredményez, mint az adott valószínűség-eloszlás.

Állapotok száma

OK, ezért most, amikor intuitív definícióval rendelkezünk a zavartságról, vessünk egy gyors pillantást arra, hogy a modell állapotainak száma hogyan befolyásolja. kezdje egy valószínűségi eloszlással $ N $ állapot felett, és hozzon létre egy új valószínűségeloszlást $ N + 1 $ span fölött > olyan állapotok, hogy az eredeti $ N $ állapot valószínűségi aránya ugyanaz marad, és az új állapot valószínűsége $ \ epsilon $ . Ha tisztességes $ N $ oldalú kockával indul, elképzelhetjük, hogy létrehozunk egy új $ N + 1 $ oldalú szerszám, így az új oldal $ \ epsilon $ valószínűséggel és az eredeti $ N $ oldalakat azonos valószínűséggel tekerjük. Tehát egy tetszőleges eredeti valószínűségeloszlás esetén, ha az egyes állapotok $ x $ valószínűségét a $ p_x $ adja meg az eredeti $ N $ állapot új terjesztése az új állapotnak megfelelően $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , és az új zavartságot a következők adják:

$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = = frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$

A (z) $ \ epsilon \ rightarrow 0 $ korlátban ez a mennyiség kb. hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$

Tehát gördülékenyen a szerszám egyik oldala egyre valószínűtlenebb, a zavartság úgy néz ki, mintha az oldal nem létezik.

Megjegyzések

  • Bizonyára ‘ csak ~ 1,39 nats értéket ér?
  • Bemutathatja, hogyan juthat $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Csak $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
  • $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$

Válasz

Valójában világos összefüggés van a zavartság és az eloszlásból származó érték helyes kitalálásának esélye között, amelyet a Cover 2 s információelméleti elemei (2.146) adtak meg: Ha $ X $ és $ X “$ iid változó, akkor

$ P (X = X “) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)

Megmagyarázandó, hogy az egyenletes X eloszlás zavara csak | X |, a szám elemekből. Ha megpróbáljuk kitalálni azokat az értékeket, amelyeket az egyenletes X eloszlásból származó minták vesznek, azáltal, hogy egyszerűen csak iid tippelünk X-ből, akkor 1 / | X | = 1 / az idő zavartsága lesz helyes. Mivel az egyenletes eloszlást a legnehezebb kitalálni az értékekből, használhatjuk az 1 / zavartságot alsó határ / heurisztikus közelítésként arra vonatkozóan, hogy a találgatásaink milyen gyakran lesznek helyesek.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük