Me encontré con el término perplejidad que se refiere a la probabilidad inversa promediada logarítmicamente sobre datos no vistos. El artículo de Wikipedia sobre la perplejidad no da un significado intuitivo a la misma.
Esta medida de perplejidad se utilizó en el artículo pLSA .
¿Alguien puede explicar la necesidad y el significado intuitivo de medida de la perplejidad ?
Comentarios
- ¿Cómo calculo la perplejidad para pLSA? Tengo la matriz de datos $ X $ que tiene el recuento y por el algoritmo TEM se calculan $ p (d) $ y $ p (w | d) $.
- I ‘ he comprobado los índices de cinco libros de minería de datos, aprendizaje automático y análisis predictivo de Nisbett, Larose, Witten, Torgo y Shemueli (además de los coautores) y este término no ‘ t aparece en cualquiera de ellos. Estoy ‘ perplejo 🙂
- La perplejidad es otro nombre elegante para la incertidumbre. Puede considerarse como una evaluación intrínseca frente a una evaluación extrínseca. Jan Jurafsky lo explica elegantemente con ejemplos de acuerdo con el modelado del lenguaje aquí en youtube.com/watch?v=BAN3NB_SNHY
- @zbicyclist, si si ‘ está buscando ejemplos en la naturaleza, ‘ es particularmente común en PNL, y específicamente para la evaluación de cosas como modelos de lenguaje .
- En algunos campos (por ejemplo, economía) la gente habla de los números equivalentes para que, por ejemplo, $ \ exp (H) $ donde $ H $ es la entropía basada en logaritmos naturales es un número equivalente de categorías igualmente comunes. Entonces, dos categorías, cada una con probabilidad 0.5, producen una entropía de $ \ ln 2 $ y la exponenciación obtiene 2 como el número de categorías igualmente comunes. Para probabilidades desiguales, el número equivalente no es en general un entero.
Respuesta
Ha mirado el Artículo de Wikipedia sobre la perplejidad . Da la perplejidad de una distribución discreta como
$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$
que también podría escribirse como
$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$
es decir como un promedio geométrico ponderado de las inversas de las probabilidades. Para una distribución continua, la suma se convertiría en una integral.
El artículo también ofrece una forma de estimar la perplejidad de un modelo usando $ N $ piezas de datos de prueba
$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$
que también podría escribirse
$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {o} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$
o en una variedad de otras formas, y esto debería dejarlo aún más claro de donde proviene la «probabilidad inversa del promedio logarítmico».
Comentarios
- ¿Hay alguna distinción particular entre cuando e se usa como exponente en lugar de 2?
- @HenryE: no, y los logaritmos comunes base $ 10 $ también funcionarían: los logaritmos en diferentes bases son proporcionales entre sí y claramente $ a ^ {\ log_a x} = b ^ {\ log_b x} $
- Pensé que mucho. Encontré esta respuesta cuando estaba tratando de entender por qué un fragmento de código usaba e para calcular la perplejidad cuando todas las otras formulaciones que ‘ había visto anteriormente habían estado usando 2. Me doy cuenta ahora, ¿qué importancia tiene saber qué valor utiliza un marco como base para el cálculo de la pérdida de registros?
- parece entropía exponencial
Respuesta
Encontré esto bastante intuitivo:
La perplejidad de lo que sea que esté evaluando, en los datos que «reevaluarlo, como que te dice» esto es correcto tan a menudo como lo sería un dado de lado x «.
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
Comentarios
- Eso ‘ es un artículo interesante; tal vez no tan en profundidad, pero una buena lectura introductoria.
- También encontré este artículo útil, jamesmccaffrey.wordpress.com/2016/08/16/ …
Responder
Me he preguntado esto también. La primera explicación no es mala, pero aquí están mis 2 nats para lo que sea que valga.
En primer lugar, la perplejidad no tiene nada que ver con caracterizar la frecuencia con la que adivinas algo correcto. Tiene más que ver con caracterizar la complejidad de una secuencia estocástica.
Estamos viendo una cantidad, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$
Primero cancelemos el registro y la exponenciación.
$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$
Creo que vale la pena señalar que la perplejidad es invariante con la base que usas para definir la entropía. Entonces, en este sentido , la perplejidad es infinitamente más única / menos arbitraria que la entropía como medida.
Relación con los dados
Juguemos un poco con esto. Digamos que estás mirando una moneda. Cuando la moneda es justa, la entropía está en un máximo y la perplejidad está en un máximo de $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$
Ahora, ¿qué sucede cuando miramos una clase $ N $ dados lados? La perplejidad es $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$
Entonces, la perplejidad representa el número de lados de un dado justo que, cuando se lanza, produce una secuencia con la misma entropía que la distribución de probabilidad dada.
Número de estados
Bien, ahora que tenemos una definición intuitiva de perplejidad, echemos un vistazo rápido a cómo se ve afectada por el número de estados en un modelo. comience con una distribución de probabilidad sobre $ N $ estados y cree una nueva distribución de probabilidad sobre $ N + 1 $ establece que la razón de probabilidad de los estados $ N $ originales permanece igual y el nuevo estado tiene probabilidad $ \ epsilon $ . En el caso de comenzar con un dado de $ N $ justo, podríamos imaginar la creación de un nuevo $ N + 1 $ dado de lados de tal manera que el nuevo lado se lanza con probabilidad $ \ epsilon $ y el original $ N $ los lados se enrollan con la misma probabilidad. Entonces, en el caso de una distribución de probabilidad original arbitraria, si la probabilidad de cada estado $ x $ viene dada por $ p_x $ , la nueva distribución de los estados $ N $ originales dado el nuevo estado será $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , y la nueva perplejidad vendrá dada por:
$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$
En el límite de $ \ epsilon \ rightarrow 0 $ , esta cantidad se aproxima hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$
Así que a medida que haces rodar un lado del dado es cada vez más improbable, la perplejidad termina pareciendo que el lado no existe.
Comentarios
- Seguramente que ‘ ¿solo vale ~ 1,39 nats?
- ¿Puedes explicar cómo se obtiene $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Solo puedo hacer $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
- $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$
Responder
En realidad, existe una clara conexión entre la perplejidad y las probabilidades de adivinar correctamente un valor de una distribución, dada por la Teoría de Elementos de Información de Cover 2ed (2.146): If $ X $ y $ X «$ son variables iid, luego
$ P (X = X «) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplejidad}} $ (1)
Para explicar, la perplejidad de una distribución uniforme X es simplemente | X |, el número de elementos. Si intentamos adivinar los valores que tomarán las muestras de iid de una distribución uniforme X simplemente haciendo conjeturas de iid a partir de X, estaremos en lo correcto 1 / | X | = 1 / perplejidad del tiempo. Dado que la distribución uniforme es la más difícil de adivinar los valores, podemos usar 1 / perplejidad como una aproximación heurística / límite inferior de la frecuencia con la que nuestras conjeturas serán correctas.