Találtam egy zavartságot , amely a log-átlagolt inverz valószínűség láthatatlan adatokon. A zavartságról szóló Wikipedia cikk nem ad intuitív jelentést ugyanannak.
Ezt a zavartsági mértéket a pLSA cikkben használták.
Meg tudja magyarázni valaki a zavartsági mérés ?
Megjegyzések
- Hogyan számíthatom ki a pLSA zavartságát. Van $ X $ datamatrixom, amelynek meg van a száma, és a TEM algoritmus alapján kiszámítjuk az $ p (d) $ és az $ p (w | d) $ értékeket. div> ve ellenőrizte Nisbett, Larose, Witten, Torgo és Shemueli (plusz társszerzők) 5 adatbányászat / gépi tanulás / prediktív elemzés könyvének indexeit, és ez a kifejezés nem fordul elő ‘ bármelyikükben. I ‘ zavarba jöttem 🙂
- A bizonytalanság másik fantázianeve a zavartság. Az extrinsic értékeléssel szembeni belső értékelésnek tekinthető. Jan Jurafsky elegánsan megmagyarázza példákkal a nyelv modellezésének megfelelően itt: youtube.com/watch?v=BAN3NB_SNHY
- @zbicyclist, Ha ‘ a vadonban keres példákat, ez ‘ különösen gyakori az NLP-ben, és kifejezetten olyan dolgok értékelésére, mint a nyelvi modellek .
- Egyes területeken (pl. közgazdaságtan) az emberek a számokkal egyenértékűről beszélnek, így pl A $ \ exp (H) $ ahol a $ H $ a természetes logaritmusokon alapuló entrópia, ekvivalens számú ugyanolyan gyakori kategória. Tehát két kategória, amelyek 0,5 valószínűséggel hoznak $ \ ln 2 $ entrópiát, és a hatványozás 2-t kap, mint az ugyanolyan gyakori kategóriák száma. Egyenlőtlen valószínűségek esetén az egyenértékű számok általában nem egész számok.
Válasz
Megnézte a Wikipédia cikk a zavarról . Megadja a diszkrét eloszlás zavartságát
$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$
néven, amelyet
$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$
ie a valószínűségek inverzeinek súlyozott geometriai átlagaként. Folyamatos eloszlás esetén az összeg integrálissá válna.
A cikk módot ad arra is, hogy megbecsülje a modell zavartságát $ N $ tesztadatok felhasználásával
$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$
amely szintén írható
$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {vagy} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$
vagy sokféle más módon, és ennek még világosabbá kell tennie honnan származik a “log-átlag inverz valószínűség”.
Megjegyzések
- Van-e különösebb megkülönböztetés között, ha az e-t kitevőnek használjuk a 2 helyett?
- @HenryE: nem, és a $ 10 $ közös logaritmusalap is működne – a különböző alapú logaritmusok arányosak egymással és egyértelműen $ a ^ {\ log_a x} = b ^ {\ log_b x} $
- úgy gondoltam, sokkal. Erre a válaszra akkor találtam rá, amikor megpróbáltam megérteni, miért használ egy kódrészlet az e-vel a zavartság kiszámításához, amikor az összes többi, korábban ‘ d megfogalmazott formátum 2-et használt. most mennyire fontos tudni, hogy egy keretrendszer milyen értéket használ a naplóveszteség számításának alapjául
- úgy néz ki, mint az exponenciális entrópia
Válasz
Ezt meglehetősen intuitívnak találtam:
Annak zavara, amit értékelsz, az adatokon “újból kiértékelve, mintegy elárulja, hogy” ez a helyzet kb. olyan helyes, mint egy x oldalú szerszám. “
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
Megjegyzések
- Ez ‘ s egy érdekes cikk; talán nem is olyan mélyreható, de jó bevezető olvasmány.
- Ezt a cikket is hasznosnak találtam, jamesmccaffrey.wordpress.com/2016/08/16/ …
Válasz
Csodálkoztam ez is. Az első magyarázat nem “rossz”, de itt van a 2 természetem, bármit is ér.
Először is, a zavartságnak semmi köze annak jellemzéséhez, hogy milyen gyakran kitalál valamit jobb. Ennek több köze van egy sztochasztikus szekvencia összetettségének jellemzéséhez.
Egy mennyiséget vizsgálunk, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$
Először töröljük a naplót és a hatványozást.
$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$
Szerintem érdemes leszögezni, hogy a zavartság invariáns azzal az alaptal, amelyet az entrópia meghatározásához használ. Tehát ebben az értelemben , a zavartság végtelenül egyedibb / kevésbé önkényes, mint az entrópia mérésként.
Kapcsolat a kockákkal
Játsszunk ezzel egy kicsit. Mondjuk, hogy csak egy érmét néz. Ha az érme tisztességes, az entrópia maximális, a zavartság pedig legfeljebb $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$
Most mi történik, ha egy $ N $ kétoldalas kocka? A zavartság $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$
Tehát a zavartság a tisztességes szerszám oldalainak számát jelenti, amely feltekercselve ugyanazon entrópiájú szekvenciát eredményez, mint az adott valószínűség-eloszlás.
Állapotok száma
OK, ezért most, amikor intuitív definícióval rendelkezünk a zavartságról, vessünk egy gyors pillantást arra, hogy a modell állapotainak száma hogyan befolyásolja. kezdje egy valószínűségi eloszlással $ N $ állapot felett, és hozzon létre egy új valószínűségeloszlást $ N + 1 $ span fölött > olyan állapotok, hogy az eredeti $ N $ állapot valószínűségi aránya ugyanaz marad, és az új állapot valószínűsége $ \ epsilon $ . Ha tisztességes $ N $ oldalú kockával indul, elképzelhetjük, hogy létrehozunk egy új $ N + 1 $ oldalú szerszám, így az új oldal $ \ epsilon $ valószínűséggel és az eredeti $ N $ oldalakat azonos valószínűséggel tekerjük. Tehát egy tetszőleges eredeti valószínűségeloszlás esetén, ha az egyes állapotok $ x $ valószínűségét a $ p_x $ adja meg az eredeti $ N $ állapot új terjesztése az új állapotnak megfelelően $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , és az új zavartságot a következők adják:
$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = = frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$
A (z) $ \ epsilon \ rightarrow 0 $ korlátban ez a mennyiség kb. hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$
Tehát gördülékenyen a szerszám egyik oldala egyre valószínűtlenebb, a zavartság úgy néz ki, mintha az oldal nem létezik.
Megjegyzések
- Bizonyára ‘ csak ~ 1,39 nats értéket ér?
- Bemutathatja, hogyan juthat $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Csak $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
- $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$
Válasz
Valójában világos összefüggés van a zavartság és az eloszlásból származó érték helyes kitalálásának esélye között, amelyet a Cover 2 s információelméleti elemei (2.146) adtak meg: Ha $ X $ és $ X “$ iid változó, akkor
$ P (X = X “) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)
Megmagyarázandó, hogy az egyenletes X eloszlás zavara csak | X |, a szám elemekből. Ha megpróbáljuk kitalálni azokat az értékeket, amelyeket az egyenletes X eloszlásból származó minták vesznek, azáltal, hogy egyszerűen csak iid tippelünk X-ből, akkor 1 / | X | = 1 / az idő zavartsága lesz helyes. Mivel az egyenletes eloszlást a legnehezebb kitalálni az értékekből, használhatjuk az 1 / zavartságot alsó határ / heurisztikus közelítésként arra vonatkozóan, hogy a találgatásaink milyen gyakran lesznek helyesek.