Quest-ce que la perplexité?

Je suis tombé sur le terme perplexité qui fait référence à la probabilité inverse moyenne logarithmique sur des données invisibles. Larticle de Wikipedia sur la perplexité ne donne pas une signification intuitive à la même chose.

Cette mesure de perplexité a été utilisée dans larticle pLSA .

Quelquun peut-il expliquer le besoin et la signification intuitive de mesure de perplexité ?

Commentaires

  • Comment calculer la perplexité pour pLSA. Jai datamatrix $ X $ qui a le nombre et par lalgorithme TEM $ p (d) $ et $ p (w | d) $ sont calculés.
  • I ‘ ve a vérifié les indices de 5 livres dexploration de données / dapprentissage automatique / danalyse prédictive de Nisbett, Larose, Witten, Torgo et Shemueli (plus les coauteurs) et ce terme ne se produit ‘ dans l’un d’entre eux. Je ‘ m perplexe 🙂
  • La perplexité est un autre nom de fantaisie pour lincertitude. Il peut être considéré comme une évaluation intrinsèque par rapport à lévaluation extrinsèque. Jan Jurafsky lexplique avec élégance avec des exemples conformément à la modélisation du langage ici à youtube.com/watch?v=BAN3NB_SNHY
  • @zbicyclist, If vous ‘ cherchez des exemples dans la nature, il ‘ est particulièrement courant en PNL, et spécifiquement pour lévaluation de choses comme les modèles de langage .
  • Dans certains domaines (par exemple léconomie), les gens parlent des nombres équivalents de sorte que par exemple $ \ exp (H) $ où $ H $ est lentropie basée sur les logarithmes naturels est un nombre équivalent de catégories également communes. Ainsi, deux catégories chacune avec une probabilité de 0,5 donnent une entropie de $ \ ln 2 $ et lexponentiation revient à 2 comme nombre de catégories également communes. Pour des probabilités inégales, les nombres équivalents ne sont pas en général un entier.

Réponse

Vous avez regardé le Article Wikipédia sur la perplexité . Cela donne la perplexité dune distribution discrète comme

$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$

qui pourrait aussi sécrire

$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$

ie en tant que moyenne géométrique pondérée des inverses des probabilités. Pour une distribution continue, la somme se transformerait en une intégrale.

Larticle donne également un moyen destimer la perplexité pour un modèle utilisant des éléments $ N $ de données de test

$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$

qui pourrait aussi sécrire

$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {ou} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$

ou dune variété dautres manières, et cela devrait le rendre encore plus clair doù provient la « probabilité inverse log-moyenne ».

Commentaires

  • Y a-t-il une distinction particulière entre le moment où e est utilisé comme exposant plutôt que 2?
  • @HenryE: non, et les logarithmes communs de base $ 10 $ fonctionneraient aussi – les logarithmes dans différentes bases sont proportionnels les uns aux autres et clairement $ a ^ {\ log_a x} = b ^ {\ log_b x} $
  • Jai figuré comme beaucoup. Je suis tombé sur cette réponse alors que jessayais de comprendre pourquoi un morceau de code utilisait e pour calculer la perplexité alors que toutes les autres formulations que jai ‘ vues précédemment utilisaient 2. Je me rends compte maintenant combien il est important de savoir quelle valeur un framework utilise comme base pour le calcul de la perte de log
  • ressemble à une entropie exponentielle

Réponse

Jai trouvé cela plutôt intuitif:

La perplexité de tout ce que vous évaluez, sur les données que vous « réévaluer, en quelque sorte, vous dit » cette chose est juste à peu près aussi souvent quun dé à côtés X le serait. « 

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

Commentaires

Réponse

Je « me suis demandé ceci aussi. La première explication nest pas mauvaise, mais voici mes 2 nats pour tout ce que ça vaut.


Tout dabord, la perplexité na rien à voir avec la fréquence à laquelle vous devinez quelque chose à droite. Cela a plus à voir avec la caractérisation de la complexité dune séquence stochastique.

Nous « examinons une quantité, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$

Annulons dabord le log et lexponentiation.

$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$

Je pense quil vaut la peine de souligner que la perplexité est invariante avec la base que vous utilisez pour définir lentropie. Donc, dans ce sens , la perplexité est infiniment plus unique / moins arbitraire que lentropie en tant que mesure.

Relation aux dés

Jouons un peu avec ça. Disons que vous êtes juste en train de regarder une pièce de monnaie. Lorsque la pièce est juste, lentropie est au maximum et la perplexité est au maximum de $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$

Maintenant, que se passe-t-il quand on regarde une classe $ N $ dés face? La perplexité est $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$

La perplexité représente donc le nombre de côtés dun dé juste qui, une fois lancé, produit une séquence avec la même entropie que votre distribution de probabilité donnée.

Nombre d’états

OK, maintenant que nous avons une définition intuitive de la perplexité, voyons rapidement comment elle est affectée par le nombre d’états dans un modèle. commencez par une distribution de probabilité sur les états $ N $ et créez une nouvelle distribution de probabilité sur $ N + 1 $ états tels que le rapport de vraisemblance des états originaux $ N $ reste le même et le nouvel état a une probabilité $ \ epsilon $ . Dans le cas de commencer avec un dé juste $ N $ , nous pourrions imaginer créer un nouveau $ N + 1 $ dé face de telle sorte que le nouveau côté soit lancé avec la probabilité $ \ epsilon $ et loriginal $ N $ les côtés sont roulés avec la même probabilité. Donc, dans le cas dune distribution de probabilité originale arbitraire, si la probabilité de chaque état $ x $ est donnée par $ p_x $ , la nouvelle distribution des états dorigine $ N $ étant donné le nouvel état sera $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , et la nouvelle perplexité sera donnée par:

$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$

Dans la limite de $ \ epsilon \ rightarrow 0 $ , cette quantité sapproche hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$

Alors comme vous faites rouler dun côté du dé de plus en plus improbable, la perplexité finit par donner limpression que le côté nexiste pas.

Commentaires

  • Sûrement que ‘ ne vaut que ~ 1,39 nats?
  • Pouvez-vous expliquer comment vous obtenez $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Je ne peux faire que $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
  • $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$

Réponse

Il existe en fait un lien clair entre la perplexité et les chances de deviner correctement une valeur à partir dune distribution, donnée par la théorie des éléments de linformation de Cover 2ed (2.146): Si $ X $ et $ X « $ sont des variables iid, alors

$ P (X = X « ) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexité}} $ (1)

Pour expliquer, la perplexité dune distribution uniforme X est juste | X |, le nombre déléments. Si nous essayons de deviner les valeurs que prendront les échantillons iid dune distribution uniforme X en faisant simplement des suppositions iid à partir de X, nous aurons raison 1 / | X | = 1 / perplexité du temps. Étant donné que la distribution uniforme est la plus difficile à deviner les valeurs, nous pouvons utiliser 1 / perplexité comme une limite inférieure / une approximation heuristique de la fréquence à laquelle nos suppositions seront exactes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *