Co to jest zakłopotanie?

Natrafiłem na termin konsternacja , który odnosi się do odwrotne prawdopodobieństwo uśrednione w dzienniku dla niewidocznych danych. Artykuł Wikipedii na temat konsternacji nie daje tego samego intuicyjnego znaczenia.

Ta miara zakłopotania została użyta w artykule pLSA .

Czy ktoś może wyjaśnić potrzebę i intuicyjne znaczenie miara konsternacji ?

Komentarze

  • Jak obliczyć zakłopotanie dla pLSA. Mam datamatrix $ X $, który ma liczbę i algorytm TEM $ p (d) $ i $ p (w | d) $ są obliczane.
  • I ' sprawdził wskaźniki w 5 książkach dotyczących eksploracji danych / uczenia maszynowego / analiz predykcyjnych autorstwa Nisbett, Larose, Witten, Torgo i Shemueli (oraz współautorów) i ten termin nie występuje w którymkolwiek z nich. Jestem ' zakłopotany 🙂
  • Zdziwienie to kolejna wymyślna nazwa niepewności. Można to uznać za wewnętrzną ocenę w stosunku do oceny zewnętrznej. Jan Jurafsky wyjaśnia to elegancko za pomocą przykładów zgodnie z modelowaniem języka tutaj na youtube.com/watch?v=BAN3NB_SNHY
  • @zbicyclist, If jeśli ' szukasz przykładów w środowisku naturalnym, jest to ' szczególnie powszechne w NLP, a szczególnie do oceny rzeczy takich jak modele językowe .
  • W niektórych dziedzinach (np. ekonomii) ludzie mówią o równoważnych liczbach, więc np $ \ exp (H) $ gdzie $ H $ jest entropią opartą na logarytmach naturalnych jest równoważną liczbą jednakowo wspólnych kategorii. Tak więc dwie kategorie, każda z prawdopodobieństwem 0,5, dają entropię równą $ \ ln 2 $, a potęgowanie zwraca 2 jako liczbę równie wspólnych kategorii. W przypadku nierównych prawdopodobieństw odpowiednik liczb nie jest na ogół liczbą całkowitą.

Odpowiedź

Spojrzałeś na Artykuł w Wikipedii dotyczący zakłopotania . Daje to zawiłość dystrybucji dyskretnej jako

$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$

, który można również zapisać jako

$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$

ie jako ważona średnia geometryczna odwrotności prawdopodobieństw. W przypadku rozkładu ciągłego suma zamieniłaby się w całkę.

Artykuł podaje również sposób oszacowania komplikacji dla modelu przy użyciu N $ fragmentów danych testowych

$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$

który można również zapisać

$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {lub} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$

lub na wiele innych sposobów, co powinno uczynić sprawę jeszcze jaśniejszą skąd pochodzi „odwrotne prawdopodobieństwo logarytmiczne średnie”.

Komentarze

  • Czy jest jakaś szczególna różnica między tym, kiedy e jest używane jako wykładnik, a nie 2?
  • @HenryE: nie, i zwykłe logarytmy o podstawie 10 $ również działałyby – logarytmy w różnych podstawach są do siebie proporcjonalne i wyraźnie $ a ^ {\ log_a x} = b ^ {\ log_b x} $
  • Uznałem, że dużo. Natknąłem się na tę odpowiedź, gdy próbowałem zrozumieć, dlaczego fragment kodu używa e do obliczenia zakłopotania, podczas gdy wszystkie inne wyrażenia, które ' d poprzednio widziałem, używały 2. Zdaję sobie sprawę teraz, jak ważne jest, aby wiedzieć, jakiej wartości używa framework jako podstawy do obliczenia utraty dziennika
  • wygląda jak wykładnicza entropia

Odpowiedź

Wydaje mi się, że to raczej intuicyjne:

Złożoność cokolwiek oceniasz, na podstawie danych, „ponownie oceniając to, w pewnym sensie mówi ci, że„ ta rzecz ma rację tak często, jak byłaby to kostka o przekątnej x ”.

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

Komentarze

Odpowiedź

Zastanawiałem się to też. Pierwsze wyjaśnienie nie jest złe, ale oto moje 2 zwroty za cokolwiek to jest warte.


Po pierwsze, zakłopotanie nie ma nic wspólnego z określeniem, jak często coś zgadujesz Racja. Ma więcej wspólnego ze scharakteryzowaniem złożoności sekwencji stochastycznej.

Patrzymy na ilość, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$

Najpierw anulujmy dziennik i potęgowanie.

$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$

Myślę, że warto wskazać, że zakłopotanie jest niezmienne z podstawą, której używasz do zdefiniowania entropii. W tym sensie , zakłopotanie jest nieskończenie bardziej niepowtarzalne / mniej arbitralne niż entropia jako miara.

Relacja do kości

Pobawmy się trochę. Powiedzmy, że patrzysz tylko na monetę. Kiedy moneta jest uczciwa, entropia jest maksymalna, a zakłopotanie osiąga maksimum $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$

A teraz, co się stanie, gdy spojrzymy na klasę N $ N $ jednostronne kości? Kłopot to $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$

Tak więc zakłopotanie reprezentuje liczbę boków uczciwej kości, że po wyrzuceniu tworzy sekwencję o takiej samej entropii jak podany rozkład prawdopodobieństwa.

Liczba stanów

OK, więc teraz, gdy mamy intuicyjną definicję zakłopotania, przyjrzyjmy się szybko, jak wpływa na to liczba stanów w modelu. zacznij od rozkładu prawdopodobieństwa w $ N $ stanach i utwórz nowy rozkład prawdopodobieństwa na $ N + 1 $ stwierdza w taki sposób, że współczynnik prawdopodobieństwa oryginalnych stanów $ N $ pozostaje taki sam, a nowy stan ma prawdopodobieństwo $ \ epsilon $ . W przypadku rozpoczęcia od uczciwego $ N $ kostki bocznej, możemy sobie wyobrazić tworzenie nowego $ N + 1 $ jednostronna kostka tak, że nowa strona zostanie wyrzucona z prawdopodobieństwem $ \ epsilon $ , a oryginalny $ N $ rozpiętość> boki są zwijane z równym prawdopodobieństwem. Tak więc w przypadku dowolnego pierwotnego rozkładu prawdopodobieństwa, jeśli prawdopodobieństwo każdego stanu $ x $ jest podane przez $ p_x $ , nowa dystrybucja oryginalnych stanów $ N $ z nowym stanem będzie miała postać $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , a nowa komplikacja zostanie podana przez:

$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$

W limicie $ \ epsilon \ rightarrow 0 $ , ta ilość zbliża się hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$

Więc gdy robisz toczenie jedna strona kostki jest coraz mniej prawdopodobna, zakłopotanie kończy się tak, jakby ta strona nie istniała.

Komentarze

  • Z pewnością ' s tylko ~ 1,39 natsa?
  • Czy możesz wyjaśnić, jak możesz uzyskać $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Mogę tylko zrobić $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
  • $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$

Odpowiedź

W rzeczywistości istnieje wyraźny związek między zakłopotaniem a prawdopodobieństwem prawidłowego odgadnięcia wartości z rozkładu, podane przez Cover „Elementy teorii informacji 2ed (2.146): Jeśli $ X $ i $ X „$ to zmienne iid, a następnie

$ P (X = X „) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)

Aby wyjaśnić, złożoność rozkładu jednorodnego X to po prostu | X |, liczba elementów. Jeśli spróbujemy zgadnąć, jakie wartości przyjmie iid próbki z rozkładu jednorodnego X, po prostu wykonując iid zgadnięcia z X, będziemy mieli rację 1 / | X | = 1 / zakłopotanie czasu. Ponieważ rozkład jednorodny jest najtrudniejszy do odgadnięcia z wartości, możemy użyć 1 / konsternacja jako dolnej granicy / przybliżenia heurystycznego dla tego, jak często nasze przypuszczenia będą prawidłowe.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *