Mikä on hämmennys?

Löysin termin hämmennystä , joka viittaa lokin keskimääräinen käänteinen todennäköisyys näkymättömille tiedoille. Wikipedia artikkeli hämmennyksestä ei anna intuitiivista merkitystä samalle.

Tätä hämmennystä käytettiin pLSA -artikkelissa.

Voiko kukaan selittää hämmennyksen mitta ?

Kommentit

  • Kuinka lasken hämmennystä pLSA: lle. Minulla on datamatriisi $ X $, jolla on määrä ja TEM-algoritmilla lasketaan $ p (d) $ ja $ p (w | d) $.
  • I ’ ve tarkasti Nisbettin, Larosen, Wittenin, Torgon ja Shemuelin (plus avustajat) viiden tiedonlouhinnan / koneoppimisen / ennakoivan analyysin kirjojen indeksit, ja tätä termiä ei esiinty missään niistä. Olen hämmentynyt ’ 🙂
  • Hämmennys on toinen epävarmuuden hieno nimi. Sitä voidaan pitää sisäisenä arviointina ulkoista arviointia vastaan. Jan Jurafsky selittää sen tyylikkäästi esimerkkeillä kielimallinnuksen mukaisesti täällä youtube.com/watch?v=BAN3NB_SNHY
  • @zbicyclist, Jos ’ etsit esimerkkejä luonnosta, se ’ on erityisen yleistä NLP: ssä ja erityisesti kielimallien kaltaisten asioiden arvioimiseksi .
  • Joillakin aloilla (esim. taloustiede) puhutaan vastaavista luvuista niin, että esim $ \ exp (H) $, jossa $ H $ on entropia luonnollisten logaritmien perusteella, on vastaava määrä yhtä yleisiä luokkia. Joten kaksi kategoriaa, joista jokaisella on todennäköisyys 0,5, tuottaa tuoton entropian $ \ ln 2 $ ja eksponention saa takaisin 2 yhtä yleisten luokkien lukumääränä. Epätasaisten todennäköisyyksien vuoksi vastaava luku ei yleensä ole kokonaisluku.

Vastaa

Olet tarkastellut Wikipedian artikkeli hämmennyksestä . Se antaa erillisen jakauman hämmennyksen muodossa

$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$

joka voidaan kirjoittaa myös nimellä

$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ oikea) $$

ie todennäköisyyksien käänteisten painotettuna geometrisena keskiarvona. Jatkuvassa jakaumassa summa muuttuisi integraaliksi.

Artikkeli antaa myös tavan arvioida mallin hämmennys käyttämällä $ N $ testituloksia

$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$

joka voidaan myös kirjoittaa

$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {tai} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$

tai monilla muilla tavoilla, ja tämän pitäisi tehdä siitä vielä selkeämpi mistä ”log-keskimääräinen käänteinen todennäköisyys” tulee.

Kommentit

  • Onko mitään erityistä eroa, kun e: tä käytetään eksponenttina 2: n sijasta?
  • @HenryE: ei, ja tavallisten logaritmien perusta $ 10 $ toimisi myös – eri perustojen logaritmit ovat verrannollisia toisiinsa ja selvästi $ a ^ {\ log_a x} = b ^ {\ log_b x} $
  • Ajattelin paljon. Löysin tämän vastauksen, kun yritin ymmärtää, miksi koodikappale käytti e: tä hämmennyksen laskemiseen, kun kaikki muut aiemmin ’ d aiemmin näkemäni formulaatiot olivat käyttäneet 2: ta. nyt kuinka tärkeää on tietää, mitä arvoa kehys käyttää tukihäviön laskennan perustana
  • näyttää eksponentiaaliselta entropialta

Vastaus

Minusta tämä oli melko intuitiivinen:

Arvioidun datan hämmennys ”sen uudelleenarviointi, tavallaan kertoo sinulle” tämä asia on oikeassa niin usein kuin x-puolinen muotti olisi. ”

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

Kommentit

vastaus

Olen miettinyt tämäkin. Ensimmäinen selitys ei ole ”huono, mutta tässä on 2 tietokonettani kaikesta siitä, mikä sen arvoista on.


Ensinnäkin hämmennyksellä ei ole mitään tekemistä sen kanssa, kuinka usein arvaat jotain. Se on enemmän tekemistä stokastisen sekvenssin monimutkaisuuden kuvaamisen kanssa.

Tarkastelemme suuruutta, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$

Poistetaan ensin loki ja eksponentti.

$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$

Mielestäni on syytä huomauttaa, että hämmennys on invariantti sen pohjan kanssa, jota käytät entropian määrittelemiseen. Joten tässä mielessä , hämmennys on äärettömän ainutlaatuisempi / vähemmän mielivaltainen kuin entropia mittauksena.

Suhde noppiin

Pelataan tämän vähän. Sanotaan, että katsot vain kolikkoa. Kun kolikko on oikeudenmukainen, entropia on maksimissaan ja hämmennys enintään $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$

Mitä tapahtuu, kun katsomme $ N $ yksipuolinen noppaa? Hämmennys on $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$

Joten hämmennys edustaa reilun muotin sivujen lukumäärää, joka rullattuna tuottaa sekvenssin samalla entropialla kuin annettava todennäköisyysjakauma.

Tilojen lukumäärä

OK, joten nyt kun meillä on intuitiivinen määritelmä hämmennyksestä, katsotaanpa nopeasti, miten mallin tilojen lukumäärä vaikuttaa siihen. aloita todennäköisyysjakaumalla $ N $ -tiloille ja luo uusi todennäköisyysjakauma $ N + 1 $ toteaa, että alkuperäisten $ N $ -tilojen todennäköisyyssuhde pysyy samana ja uudella tilalla on todennäköisyys $ \ epsilon $ . Jos aloitetaan kohtuullisella $ N $ -puoleisella kuolla, voimme kuvitella uuden $ N + 1 $ yksipuolinen muotti siten, että uusi puoli rullataan todennäköisyydellä $ \ epsilon $ ja alkuperäinen $ N $ sivut rullataan samalla todennäköisyydellä. Joten mielivaltaisen alkuperäisen todennäköisyysjakauman tapauksessa, jos kunkin tilan $ x $ todennäköisyys on annettu $ p_x $ , alkuperäisen $ N $ -tilan uusi jakelu uudelle tilalle annetaan $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , ja uuden hämmennyksen antaa:

$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = = frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ oikea)} ^ {\ vasen (1- \ epsilon \ oikea)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$

Rajalla $ \ epsilon \ rightarrow 0 $ tämä määrä on noin hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$

Joten kun teet rullan kärjen toinen puoli on yhä epätodennäköisempi, hämmennys päätyi näyttämään siltä kuin sivua ei olisi olemassa.

Kommentit

  • Varmasti, että ’ vain ~ 1,39 nats?
  • Voitteko kertoa, miten saat $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Voin tehdä vain $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
  • $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$

Vastaa

Hämmennyksen ja kertoimen välillä arvata oikein jakaumasta on tosiasiassa selkeä yhteys, jonka Coverin tietoteorian elementit 2ed (2.146) antavat: Jos $ X $ ja $ X ”$ ovat iid-muuttujia, sitten

$ P (X = X ”) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {hämmennys}} $ (1)

Selittämiseksi yhtenäisen jakauman X hämmennys on vain | X |, luku elementtejä. Jos yritämme arvata arvot, jotka iid-näytteet ottavat yhtenäisestä jakaumasta X, tekemällä yksinkertaisesti iid-arvauksia X: stä, olemme oikeat 1 / | X | = 1 / ajan hämmennystä. Koska tasainen jakauma on vaikeimmin arvattavissa olevia arvoja, voimme käyttää arvoa 1 / hämmennystä alarajana / heuristisena arvioina siitä, kuinka usein arvauksemme ovat oikeita.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *