Natrafiłem na termin konsternacja , który odnosi się do odwrotne prawdopodobieństwo uśrednione w dzienniku dla niewidocznych danych. Artykuł Wikipedii na temat konsternacji nie daje tego samego intuicyjnego znaczenia.
Ta miara zakłopotania została użyta w artykule pLSA .
Czy ktoś może wyjaśnić potrzebę i intuicyjne znaczenie miara konsternacji ?
Komentarze
- Jak obliczyć zakłopotanie dla pLSA. Mam datamatrix $ X $, który ma liczbę i algorytm TEM $ p (d) $ i $ p (w | d) $ są obliczane.
- I ' sprawdził wskaźniki w 5 książkach dotyczących eksploracji danych / uczenia maszynowego / analiz predykcyjnych autorstwa Nisbett, Larose, Witten, Torgo i Shemueli (oraz współautorów) i ten termin nie występuje w którymkolwiek z nich. Jestem ' zakłopotany 🙂
- Zdziwienie to kolejna wymyślna nazwa niepewności. Można to uznać za wewnętrzną ocenę w stosunku do oceny zewnętrznej. Jan Jurafsky wyjaśnia to elegancko za pomocą przykładów zgodnie z modelowaniem języka tutaj na youtube.com/watch?v=BAN3NB_SNHY
- @zbicyclist, If jeśli ' szukasz przykładów w środowisku naturalnym, jest to ' szczególnie powszechne w NLP, a szczególnie do oceny rzeczy takich jak modele językowe .
- W niektórych dziedzinach (np. ekonomii) ludzie mówią o równoważnych liczbach, więc np $ \ exp (H) $ gdzie $ H $ jest entropią opartą na logarytmach naturalnych jest równoważną liczbą jednakowo wspólnych kategorii. Tak więc dwie kategorie, każda z prawdopodobieństwem 0,5, dają entropię równą $ \ ln 2 $, a potęgowanie zwraca 2 jako liczbę równie wspólnych kategorii. W przypadku nierównych prawdopodobieństw odpowiednik liczb nie jest na ogół liczbą całkowitą.
Odpowiedź
Spojrzałeś na Artykuł w Wikipedii dotyczący zakłopotania . Daje to zawiłość dystrybucji dyskretnej jako
$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$
, który można również zapisać jako
$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$
ie jako ważona średnia geometryczna odwrotności prawdopodobieństw. W przypadku rozkładu ciągłego suma zamieniłaby się w całkę.
Artykuł podaje również sposób oszacowania komplikacji dla modelu przy użyciu N $ fragmentów danych testowych
$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$
który można również zapisać
$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {lub} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$
lub na wiele innych sposobów, co powinno uczynić sprawę jeszcze jaśniejszą skąd pochodzi „odwrotne prawdopodobieństwo logarytmiczne średnie”.
Komentarze
- Czy jest jakaś szczególna różnica między tym, kiedy e jest używane jako wykładnik, a nie 2?
- @HenryE: nie, i zwykłe logarytmy o podstawie 10 $ również działałyby – logarytmy w różnych podstawach są do siebie proporcjonalne i wyraźnie $ a ^ {\ log_a x} = b ^ {\ log_b x} $
- Uznałem, że dużo. Natknąłem się na tę odpowiedź, gdy próbowałem zrozumieć, dlaczego fragment kodu używa e do obliczenia zakłopotania, podczas gdy wszystkie inne wyrażenia, które ' d poprzednio widziałem, używały 2. Zdaję sobie sprawę teraz, jak ważne jest, aby wiedzieć, jakiej wartości używa framework jako podstawy do obliczenia utraty dziennika
- wygląda jak wykładnicza entropia
Odpowiedź
Wydaje mi się, że to raczej intuicyjne:
Złożoność cokolwiek oceniasz, na podstawie danych, „ponownie oceniając to, w pewnym sensie mówi ci, że„ ta rzecz ma rację tak często, jak byłaby to kostka o przekątnej x ”.
http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/
Komentarze
- Że ' to interesujący artykuł; może nie tak dogłębnie, ale dobra lektura wprowadzająca.
- Ten artykuł był również pomocny, jamesmccaffrey.wordpress.com/2016/08/16/ …
Odpowiedź
Zastanawiałem się to też. Pierwsze wyjaśnienie nie jest złe, ale oto moje 2 zwroty za cokolwiek to jest warte.
Po pierwsze, zakłopotanie nie ma nic wspólnego z określeniem, jak często coś zgadujesz Racja. Ma więcej wspólnego ze scharakteryzowaniem złożoności sekwencji stochastycznej.
Patrzymy na ilość, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$
Najpierw anulujmy dziennik i potęgowanie.
$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$
Myślę, że warto wskazać, że zakłopotanie jest niezmienne z podstawą, której używasz do zdefiniowania entropii. W tym sensie , zakłopotanie jest nieskończenie bardziej niepowtarzalne / mniej arbitralne niż entropia jako miara.
Relacja do kości
Pobawmy się trochę. Powiedzmy, że patrzysz tylko na monetę. Kiedy moneta jest uczciwa, entropia jest maksymalna, a zakłopotanie osiąga maksimum $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$
A teraz, co się stanie, gdy spojrzymy na klasę N $ N $ jednostronne kości? Kłopot to $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$
Tak więc zakłopotanie reprezentuje liczbę boków uczciwej kości, że po wyrzuceniu tworzy sekwencję o takiej samej entropii jak podany rozkład prawdopodobieństwa.
Liczba stanów
OK, więc teraz, gdy mamy intuicyjną definicję zakłopotania, przyjrzyjmy się szybko, jak wpływa na to liczba stanów w modelu. zacznij od rozkładu prawdopodobieństwa w $ N $ stanach i utwórz nowy rozkład prawdopodobieństwa na $ N + 1 $ stwierdza w taki sposób, że współczynnik prawdopodobieństwa oryginalnych stanów $ N $ pozostaje taki sam, a nowy stan ma prawdopodobieństwo $ \ epsilon $ . W przypadku rozpoczęcia od uczciwego $ N $ kostki bocznej, możemy sobie wyobrazić tworzenie nowego $ N + 1 $ jednostronna kostka tak, że nowa strona zostanie wyrzucona z prawdopodobieństwem $ \ epsilon $ , a oryginalny $ N $ rozpiętość> boki są zwijane z równym prawdopodobieństwem. Tak więc w przypadku dowolnego pierwotnego rozkładu prawdopodobieństwa, jeśli prawdopodobieństwo każdego stanu $ x $ jest podane przez $ p_x $ , nowa dystrybucja oryginalnych stanów $ N $ z nowym stanem będzie miała postać $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , a nowa komplikacja zostanie podana przez:
$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$
W limicie $ \ epsilon \ rightarrow 0 $ , ta ilość zbliża się hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$
Więc gdy robisz toczenie jedna strona kostki jest coraz mniej prawdopodobna, zakłopotanie kończy się tak, jakby ta strona nie istniała.
Komentarze
- Z pewnością ' s tylko ~ 1,39 natsa?
- Czy możesz wyjaśnić, jak możesz uzyskać $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Mogę tylko zrobić $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
- $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$
Odpowiedź
W rzeczywistości istnieje wyraźny związek między zakłopotaniem a prawdopodobieństwem prawidłowego odgadnięcia wartości z rozkładu, podane przez Cover „Elementy teorii informacji 2ed (2.146): Jeśli $ X $ i $ X „$ to zmienne iid, a następnie
$ P (X = X „) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)
Aby wyjaśnić, złożoność rozkładu jednorodnego X to po prostu | X |, liczba elementów. Jeśli spróbujemy zgadnąć, jakie wartości przyjmie iid próbki z rozkładu jednorodnego X, po prostu wykonując iid zgadnięcia z X, będziemy mieli rację 1 / | X | = 1 / zakłopotanie czasu. Ponieważ rozkład jednorodny jest najtrudniejszy do odgadnięcia z wartości, możemy użyć 1 / konsternacja jako dolnej granicy / przybliżenia heurystycznego dla tego, jak często nasze przypuszczenia będą prawidłowe.