Mi sono imbattuto nel termine perplessità che si riferisce a la probabilità inversa media logaritmica su dati invisibili. Larticolo di Wikipedia sulla perplessità non dà un significato intuitivo allo stesso.
Questa misura di perplessità è stata utilizzata nel documento pLSA .
Qualcuno sa spiegare la necessità e il significato intuitivo di misura perplessità ?
Commenti
- Come calcolare la perplessità per pLSA. Ho datamatrix $ X $ che ha il conteggio e dallalgoritmo TEM $ p (d) $ e $ p (w | d) $ vengono calcolati.
- I ‘ ho controllato gli indici di 5 libri di data mining / machine learning / analisi predittiva di Nisbett, Larose, Witten, Torgo e Shemueli (più coautori) e questo termine non ‘ in nessuno di loro. Sono ‘ perplesso 🙂
- La perplessità è un altro nome di fantasia per indicare lincertezza. Può essere considerato come una valutazione intrinseca rispetto alla valutazione estrinseca. Jan Jurafsky lo spiega elegantemente con esempi conformi ai modelli linguistici qui su youtube.com/watch?v=BAN3NB_SNHY
- @zbicyclist, If ‘ stai cercando esempi in natura, è ‘ particolarmente comune nella PNL, e in particolare per la valutazione di cose come i modelli linguistici .
- In alcuni campi (es. economia) le persone parlano di numeri equivalenti in modo che es $ \ exp (H) $ dove $ H $ è lentropia basata sui logaritmi naturali è un numero equivalente di categorie ugualmente comuni. Quindi, due categorie ciascuna con probabilità 0,5 producono unentropia di $ \ ln 2 $ e lesponenziazione ritorna 2 come numero di categorie ugualmente comuni. Per probabilità diverse, lequivalente numerico non è in generale un numero intero.
Risposta
Hai guardato il Articolo di Wikipedia sulla perplessità . Dà la perplessità di una distribuzione discreta come
$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$
che potrebbe anche essere scritto come
$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$
ie come media geometrica ponderata degli inversi delle probabilità. Per una distribuzione continua, la somma si trasformerebbe in un integrale.
Larticolo fornisce anche un modo per stimare la perplessità per un modello utilizzando $ N $ pezzi di dati di prova
$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$
che potrebbe anche essere scritto
$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {o} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$
o in una varietà di altri modi, e questo dovrebbe renderlo ancora più chiaro da dove proviene la “probabilità inversa media logaritmica”.
Commenti
- Esiste una distinzione particolare tra quando e viene utilizzato come esponente anziché 2?
- @HenryE: no, e anche la base dei logaritmi comuni $ 10 $ funzionerebbe – i logaritmi in basi diverse sono proporzionali tra loro e chiaramente $ a ^ {\ log_a x} = b ^ {\ log_b x} $
- Ho pensato come tanto. Mi sono imbattuto in questa risposta quando stavo cercando di capire perché un pezzo di codice stava usando e per calcolare la perplessità quando tutte le altre formulazioni che ‘ avevo visto in precedenza avevano usato 2. Mi rendo conto ora quanto è importante sapere quale valore utilizza un framework come base per il calcolo della perdita di registro
- sembra entropia esponenziale
Risposta
Ho trovato questo piuttosto intuitivo:
La perplessità di qualunque cosa tu “stia valutando, sui dati che “rivalutandolo, ti dice” questa cosa è giusta tanto quanto lo sarebbe un dado x-sided. “
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
Commenti
- Quello ‘ è un articolo interessante; forse non così approfondito ma una buona lettura introduttiva.
- Ho trovato utile anche questo articolo, jamesmccaffrey.wordpress.com/2016/08/16/ …
Risposta
Mi “mi chiedevo anche questo. La prima spiegazione non è male, ma qui ci sono i miei 2 nat per qualunque cosa valga.
Prima di tutto, la perplessità non ha nulla a che fare con la caratterizzazione della frequenza con cui indovini qualcosa giusto. Ha più a che fare con la caratterizzazione della complessità di una sequenza stocastica.
Stiamo “guardando una quantità, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$
Per prima cosa cancelliamo il logaritmo e lelevazione a potenza.
$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$
Penso che valga la pena sottolineare che la perplessità è invariante con la base che usi per definire lentropia. Quindi in questo senso , la perplessità è infinitamente più unica / meno arbitraria dellentropia come misura.
Relazione con i dadi
Giochiamo un po con questo. Diciamo che stai solo guardando una moneta. Quando la moneta è giusta, lentropia è al massimo e la perplessità è al massimo di $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$
Ora cosa succede quando guardiamo una classe $ N $ dadi a due facce? La perplessità è $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$
Quindi la perplessità rappresenta il numero di facce di un dado equilibrato che, una volta lanciato, produce una sequenza con la stessa entropia della distribuzione di probabilità data.
Numero di stati
OK, ora che abbiamo una definizione intuitiva di perplessità, diamo una rapida occhiata a come è influenzato dal numero di stati in un modello. inizia con una distribuzione di probabilità su $ N $ e crea una nuova distribuzione di probabilità su $ N + 1 $ afferma che il rapporto di verosimiglianza degli stati $ N $ originali rimane lo stesso e il nuovo stato ha probabilità $ \ epsilon $ . Nel caso di iniziare con un dado equo $ N $ , potremmo immaginare di creare un nuovo $ N + 1 $ sided die in modo tale che il nuovo lato venga tirato con probabilità $ \ epsilon $ e loriginale $ N $ i lati vengono laminati con la stessa probabilità. Quindi, nel caso di una distribuzione di probabilità originale arbitraria, se la probabilità di ogni stato $ x $ è data da $ p_x $ , la nuova distribuzione degli stati $ N $ originali dato il nuovo stato sarà $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , e la nuova perplessità sarà data da:
$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$
Nel limite di $ \ epsilon \ rightarrow 0 $ , questa quantità si avvicina hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$
Così come fai rotolare un lato del dado sempre più improbabile, la perplessità finisce per sembrare che il lato non “esista.
Commenti
- Sicuramente ‘ vale solo ~ 1,39 nats?
- Puoi spiegarci come ottenere $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Posso solo fare $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
- $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$
Risposta
In realtà cè una chiara connessione tra la perplessità e le probabilità di indovinare correttamente un valore da una distribuzione, data da Cover “s Elements of Information Theory 2ed (2.146): If $ X $ e $ X “$ sono variabili iid, quindi
$ P (X = X “) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplessità}} $ (1)
Per spiegare, la perplessità di una distribuzione uniforme X è solo | X |, il numero di elementi. Se proviamo a indovinare i valori che iid campiona da una distribuzione uniforme X assumerà semplicemente indovinando iid da X, saremo corretti 1 / | X | = 1 / perplessità del tempo. Poiché la distribuzione uniforme è la più difficile da indovinare i valori, possiamo usare 1 / perplessità come un limite inferiore / approssimazione euristica per quanto spesso le nostre ipotesi saranno corrette.