Encontrei o termo perplexidade que se refere a a probabilidade inversa da média logarítmica em dados não vistos. O artigo da Wikipedia sobre perplexidade não fornece um significado intuitivo para o mesmo.
Esta medida de perplexidade foi usada no papel pLSA .
Alguém pode explicar a necessidade e o significado intuitivo de medida de perplexidade ?
Comentários
- Como calculo a perplexidade para pLSA. Eu tenho a matriz de dados $ X $ que tem a contagem e pelo algoritmo TEM $ p (d) $ e $ p (w | d) $ são calculados.
- I ‘ verificou os índices de 5 livros de mineração de dados / aprendizado de máquina / análise preditiva de Nisbett, Larose, Witten, Torgo e Shemueli (mais co-autores) e este termo não ‘ ocorre em qualquer um deles. Eu ‘ estou perplexo 🙂
- Perplexidade é outro nome sofisticado para incerteza. Pode ser considerada como uma avaliação intrínseca contra a avaliação extrínseca. Jan Jurafsky explica elegantemente com exemplos de acordo com a modelagem de linguagem aqui em youtube.com/watch?v=BAN3NB_SNHY
- @zbicyclist, If você ‘ está procurando exemplos na natureza, ‘ é particularmente comum em PNL e especificamente para a avaliação de coisas como modelos de linguagem .
- Em alguns campos (por exemplo, economia) as pessoas falam sobre os números equivalentes para que, por exemplo, $ \ exp (H) $ onde $ H $ é a entropia baseada em logaritmos naturais é um número equivalente de categorias igualmente comuns. Portanto, duas categorias, cada uma com probabilidade de 0,5, geram entropia de $ \ ln 2 $ e a exponenciação retorna 2 como o número de categorias igualmente comuns. Para probabilidades desiguais, os números equivalentes não são em geral um inteiro.
Resposta
Você olhou para Artigo da Wikipedia sobre perplexidade . Ele dá a perplexidade de uma distribuição discreta como
$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$
que também pode ser escrita como
$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$
ie como uma média geométrica ponderada dos inversos das probabilidades. Para uma distribuição contínua, a soma se transformaria em uma integral.
O artigo também fornece uma maneira de estimar a perplexidade de um modelo usando $ N $ pedaços de dados de teste
$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$
que também pode ser escrito
$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {ou} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$
ou de uma variedade de outras maneiras, e isso deve deixar ainda mais claro de onde vem a “probabilidade inversa da média logarítmica”.
Comentários
- Existe alguma distinção particular entre quando e é usado como o expoente em vez de 2?
- @HenryE: não, e logaritmos comuns de base $ 10 $ também funcionariam – logaritmos em bases diferentes são proporcionais entre si e claramente $ a ^ {\ log_a x} = b ^ {\ log_b x} $
- Eu imaginei como Muito de. Encontrei esta resposta quando estava tentando entender por que um trecho de código estava usando e para calcular a perplexidade quando todas as outras formulações que eu ‘ d anteriormente visto estavam usando 2. Eu percebo agora como é importante saber qual valor um framework usa como base para o cálculo da perda de log
- parece entropia exponencial
Resposta
Achei isso bastante intuitivo:
A perplexidade de tudo o que você está avaliando, nos dados que “reavaliando, meio que diz a você” essa coisa está certa com a mesma frequência com que um dado do lado x estaria. “
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
Comentários
- Isso ‘ é um artigo interessante; talvez não tão em profundidade, mas uma boa leitura introdutória.
- Também achei este artigo útil, jamesmccaffrey.wordpress.com/2016/08/16/ …
Resposta
Eu me perguntei isso também. A primeira explicação não é ruim, mas aqui estão meus 2 nats para qualquer coisa que valha a pena.
Em primeiro lugar, a perplexidade não tem nada a ver com a caracterização da frequência com que você adivinha algo certo. Tem mais a ver com a caracterização da complexidade de uma sequência estocástica.
Estamos olhando para uma quantidade, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$
Vamos primeiro cancelar o log e a exponenciação.
$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$
Acho que vale a pena ressaltar que a perplexidade é invariante com a base que você usa para definir a entropia. Portanto, neste sentido , a perplexidade é infinitamente mais única / menos arbitrária do que a entropia como medida.
Relação com os dados
Vamos brincar um pouco com isso. Digamos que você esteja apenas olhando para uma moeda. Quando a moeda é justa, a entropia está no máximo e a perplexidade é no máximo $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$
Agora, o que acontece quando olhamos para uma classe de $ N $ dados laterais? A perplexidade é $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$
Portanto, perplexidade representa o número de lados de um dado justo que, quando lançado, produz uma sequência com a mesma entropia de sua distribuição de probabilidade dada.
Número de estados
OK, agora que temos uma definição intuitiva de perplexidade, vamos dar uma olhada rápida em como ela é afetada pelo número de estados em um modelo. Vamos comece com uma distribuição de probabilidade em $ N $ estados e crie uma nova distribuição de probabilidade em $ N + 1 $ afirma que a razão de verossimilhança dos estados $ N $ originais permanece a mesma e o novo estado tem probabilidade $ \ epsilon $ . No caso de começar com um dado $ N $ justo, podemos imaginar a criação de um novo $ N + 1 $ dado lateral de forma que o novo lado seja rolado com probabilidade $ \ epsilon $ e o $ N $ original vão> lados são enrolados com igual probabilidade. Portanto, no caso de uma distribuição de probabilidade original arbitrária, se a probabilidade de cada estado $ x $ for dada por $ p_x $ , a nova distribuição dos estados $ N $ originais, dado o novo estado, será $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , e a nova perplexidade será dada por:
$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$
No limite de $ \ epsilon \ rightarrow 0 $ , esta quantidade se aproxima hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$
Então, enquanto você faz o rolamento um lado do dado cada vez mais improvável, a perplexidade acaba parecendo que o lado não existe.
Comentários
- Certamente que ‘ s apenas ~ 1,39 nats vale a pena?
- Você pode explicar como obter $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Só posso fazer $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
- $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$
Resposta
Na verdade, há uma conexão clara entre a perplexidade e as chances de adivinhar corretamente um valor de uma distribuição, dada pela Teoria dos Elementos da Informação de Cover 2ed (2.146): If $ X $ e $ X “$ são variáveis iid, então
$ P (X = X “) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexidade}} $ (1)
Para explicar, a perplexidade de uma distribuição uniforme X é apenas | X |, o número de elementos. Se tentarmos adivinhar os valores que iid amostras de uma distribuição uniforme X obterão simplesmente fazendo estimativas iid de X, estaremos corretos 1 / | X | = 1 / perplexidade do tempo. Como a distribuição uniforme é a mais difícil de adivinhar os valores, podemos usar 1 / perplexity como um limite inferior / aproximação heurística para a frequência com que nossas estimativas estarão corretas.