Was ist Ratlosigkeit?

Ich bin auf den Begriff Ratlosigkeit gestoßen, auf den Bezug genommen wird die logarithmisch gemittelte inverse Wahrscheinlichkeit für unsichtbare Daten. Wikipedia Artikel über Ratlosigkeit gibt keine intuitive Bedeutung für dasselbe.

Dieses Verwirrungsmaß wurde in pLSA -Papier verwendet.

Kann jemand die Notwendigkeit und intuitive Bedeutung von Ratlosigkeit messen ?

Kommentare

  • Wie berechne ich die Ratlosigkeit für pLSA? Ich habe die Datenmatrix $ X $, die die Anzahl hat, und nach dem TEM-Algorithmus werden $ p (d) $ und $ p (w | d) $ berechnet.
  • I ‚ ve hat die Indizes von 5 Data Mining- / Machine Learning- / Predictive Analytics-Büchern von Nisbett, Larose, Witten, Torgo und Shemueli (plus Mitautoren) überprüft, und dieser Begriff kommt nicht vor ‚ in einem von ihnen. Ich ‚ bin ratlos 🙂
  • Ratlosigkeit ist ein weiterer ausgefallener Name für Unsicherheit. Es kann als intrinsische Bewertung gegen extrinsische Bewertung betrachtet werden. Jan Jurafsky erklärt es elegant anhand von Beispielen gemäß Sprachmodellierung hier unter youtube.com/watch?v=BAN3NB_SNHY
  • @zbicyclist, If Sie ‚ suchen nach Beispielen in freier Wildbahn. ‚ ist besonders häufig in NLP und speziell für die Bewertung von Dingen wie Sprachmodellen
  • In einigen Bereichen (z. B. Wirtschaft) wird über die entsprechenden Zahlen gesprochen, so dass z $ \ exp (H) $ wobei $ H $ eine Entropie ist, die auf natürlichen Logarithmen basiert, ist eine äquivalente Anzahl von gleich häufigen Kategorien. Zwei Kategorien mit einer Wahrscheinlichkeit von jeweils 0,5 ergeben also eine Entropie von $ \ ln 2 $, und die Potenzierung erhält 2 als Anzahl gleich häufiger Kategorien zurück. Bei ungleichen Wahrscheinlichkeiten ist das Zahlenäquivalent im Allgemeinen keine Ganzzahl.

Antwort

Sie haben sich das Wikipedia-Artikel über Ratlosigkeit . Es gibt die Ratlosigkeit einer diskreten Verteilung als

$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$

an, die auch als

$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$

dh als gewichteter geometrischer Durchschnitt der Umkehrungen der Wahrscheinlichkeiten. Für eine kontinuierliche Verteilung würde sich die Summe in ein Integral verwandeln.

Der Artikel bietet auch eine Möglichkeit, die Verwirrung für ein Modell unter Verwendung von $ N $ Testdaten

$$ 2 ^ abzuschätzen {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$

, das auch geschrieben werden könnte

$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {or} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$

oder auf verschiedene andere Arten, und dies sollte es noch klarer machen woher „logarithmische durchschnittliche inverse Wahrscheinlichkeit“ kommt.

Kommentare

  • Gibt es einen besonderen Unterschied zwischen der Verwendung von e als Exponent anstelle von 2?
  • @HenryE: nein, und gemeinsame Logarithmenbasis $ 10 $ würde auch funktionieren – Logarithmen in verschiedenen Basen sind proportional zueinander und eindeutig $ a ^ {\ log_a x} = b ^ {\ log_b x} $
  • Ich dachte als viel. Ich bin auf diese Antwort gestoßen, als ich zu verstehen versuchte, warum ein Teil des Codes e zur Berechnung der Ratlosigkeit verwendete, wenn alle anderen Formulierungen, die ich zuvor gesehen hatte, 2 verwendet hatten Nun, wie wichtig es ist zu wissen, welchen Wert ein Framework als Grundlage für die Berechnung des Protokollverlusts verwendet.
  • sieht aus wie exponentielle Entropie

Antwort

Ich fand das ziemlich intuitiv:

Die Ratlosigkeit dessen, was Sie bewerten, an den Daten, die Sie Wenn Sie es erneut auswerten, erfahren Sie, dass dieses Ding ungefähr so oft richtig ist, wie es ein x-seitiger Würfel wäre.

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

Kommentare

Antwort

Ich habe mich gefragt Dies auch. Die erste Erklärung ist nicht schlecht, aber hier sind meine 2 Nats für was auch immer das wert ist.


Erstens hat Ratlosigkeit nichts damit zu tun, zu charakterisieren, wie oft Sie etwas erraten Richtig. Es hat mehr mit der Charakterisierung der Komplexität einer stochastischen Sequenz zu tun.

Wir betrachten eine Menge, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$

Lassen Sie uns zuerst das Protokoll und die Potenzierung aufheben.

$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$

Ich denke, es ist erwähnenswert, dass die Ratlosigkeit mit der Basis, die Sie zur Definition der Entropie verwenden, unveränderlich ist. In diesem Sinne , Verwirrung ist unendlich eindeutiger / weniger willkürlich als Entropie als Maß.

Beziehung zu Würfeln

Lassen Sie uns ein wenig damit spielen. Nehmen wir an, Sie schauen sich nur eine Münze an. Wenn die Münze fair ist, ist die Entropie maximal und die Ratlosigkeit maximal $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$

Was passiert nun, wenn wir uns eine $ N $ seitige Würfel? Ratlosigkeit ist $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$

Ratlosigkeit repräsentiert also die Anzahl der Seiten eines fairen Würfels, die beim Würfeln eine Sequenz mit derselben Entropie wie Ihre angegebene Wahrscheinlichkeitsverteilung erzeugt.

Anzahl der Zustände

OK. Nachdem wir nun eine intuitive Definition der Ratlosigkeit haben, werfen wir einen kurzen Blick darauf, wie sie von der Anzahl der Zustände in einem Modell beeinflusst wird Beginnen Sie mit einer Wahrscheinlichkeitsverteilung über die Zustände $ N $ und erstellen Sie eine neue Wahrscheinlichkeitsverteilung über $ N + 1 $ gibt an, dass das Wahrscheinlichkeitsverhältnis der ursprünglichen $ N $ -Zustände gleich bleibt und der neue Zustand die Wahrscheinlichkeit $ \ epsilon hat $ . Wenn Sie mit einem fairen $ N $ -seitigen Würfel beginnen, können Sie sich vorstellen, einen neuen $ N + 1 $ seitig sterben, so dass die neue Seite mit der Wahrscheinlichkeit $ \ epsilon $ und dem ursprünglichen $ N $ gewürfelt wird Spannweite> Seiten werden mit gleicher Wahrscheinlichkeit gerollt. Wenn also bei einer beliebigen ursprünglichen Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit für jeden Zustand $ x $ durch $ p_x $ gegeben ist , die neue Verteilung der ursprünglichen $ N $ -Zustände unter Berücksichtigung des neuen Status lautet $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ und die neue Ratlosigkeit wird gegeben durch:

$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$

In der Grenze als $ \ epsilon \ rightarrow 0 $ entspricht diese Menge hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$

So wie Sie das Rollen machen Eine Seite des Würfels wird immer unwahrscheinlicher. Die Verwirrung sieht so aus, als ob die Seite nicht existiert.

Kommentare

  • Sicherlich diese ‚ ist nur ~ 1,39 Nats wert?
  • Können Sie erläutern, wie Sie $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Ich kann nur $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = tun \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
  • $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$

Antwort

Es gibt tatsächlich einen klaren Zusammenhang zwischen Ratlosigkeit und der Wahrscheinlichkeit, einen Wert aus einer Verteilung richtig zu erraten, wie in Covers Elements of Information Theory 2ed (2.146) angegeben: If $ X $ und $ X „$ sind iid-Variablen, dann

$ P (X = X. „) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {Ratlosigkeit}} $ (1)

Zur Erklärung ist die Ratlosigkeit einer Gleichverteilung X nur | X |, die Zahl von Elementen. Wenn wir versuchen, die Werte zu erraten, die iid-Stichproben aus einer gleichmäßigen Verteilung X annehmen, indem wir einfach iid-Vermutungen von X anstellen, sind wir korrekt 1 / | X | = 1 / Ratlosigkeit der Zeit. Da die Gleichverteilung am schwierigsten zu erraten ist, können wir 1 / Ratlosigkeit als untere Grenze / heuristische Näherung für die Häufigkeit verwenden, mit der unsere Vermutungen richtig sind.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.