Natrafiłem na termin konsternacja , który odnosi się do odwrotne prawdopodobieństwo uśrednione w dzienniku dla niewidocznych danych. Artykuł Wikipedii na temat konsternacji nie daje tego samego intuicyjnego znaczenia.

Ta miara zakłopotania została użyta w artykule pLSA .

Czy ktoś może wyjaśnić potrzebę i intuicyjne znaczenie miara konsternacji ?

Komentarze

Jak obliczyć zakłopotanie dla pLSA. Mam datamatrix $ X $, który ma liczbę i algorytm TEM $ p (d) $ i $ p (w | d) $ są obliczane.
I ' sprawdził wskaźniki w 5 książkach dotyczących eksploracji danych / uczenia maszynowego / analiz predykcyjnych autorstwa Nisbett, Larose, Witten, Torgo i Shemueli (oraz współautorów) i ten termin nie występuje w którymkolwiek z nich. Jestem ' zakłopotany 🙂
Zdziwienie to kolejna wymyślna nazwa niepewności. Można to uznać za wewnętrzną ocenę w stosunku do oceny zewnętrznej. Jan Jurafsky wyjaśnia to elegancko za pomocą przykładów zgodnie z modelowaniem języka tutaj na youtube.com/watch?v=BAN3NB_SNHY
@zbicyclist, If jeśli ' szukasz przykładów w środowisku naturalnym, jest to ' szczególnie powszechne w NLP, a szczególnie do oceny rzeczy takich jak modele językowe .
W niektórych dziedzinach (np. ekonomii) ludzie mówią o równoważnych liczbach, więc np $ \ exp (H) $ gdzie $ H $ jest entropią opartą na logarytmach naturalnych jest równoważną liczbą jednakowo wspólnych kategorii. Tak więc dwie kategorie, każda z prawdopodobieństwem 0,5, dają entropię równą $ \ ln 2 $, a potęgowanie zwraca 2 jako liczbę równie wspólnych kategorii. W przypadku nierównych prawdopodobieństw odpowiednik liczb nie jest na ogół liczbą całkowitą.

Odpowiedź

Spojrzałeś na Artykuł w Wikipedii dotyczący zakłopotania . Daje to zawiłość dystrybucji dyskretnej jako

$$ 2 ^ {- \ sum_x p (x) \ log_2 p (x)} $$

, który można również zapisać jako

$$ \ exp \ left ({\ sum_x p (x) \ log_e \ frac {1} {p (x)}} \ right) $$

ie jako ważona średnia geometryczna odwrotności prawdopodobieństw. W przypadku rozkładu ciągłego suma zamieniłaby się w całkę.

Artykuł podaje również sposób oszacowania komplikacji dla modelu przy użyciu N $ fragmentów danych testowych

$$ 2 ^ {- \ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q (x_i)} $$

który można również zapisać

$$ \ exp \ left (\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left (\ dfrac {1} {q (x_i)} \ right)}} {N} \ right) \ text {lub} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q (x_i)}} $$

lub na wiele innych sposobów, co powinno uczynić sprawę jeszcze jaśniejszą skąd pochodzi „odwrotne prawdopodobieństwo logarytmiczne średnie”.

Komentarze

Czy jest jakaś szczególna różnica między tym, kiedy e jest używane jako wykładnik, a nie 2?
@HenryE: nie, i zwykłe logarytmy o podstawie 10 $ również działałyby – logarytmy w różnych podstawach są do siebie proporcjonalne i wyraźnie $ a ^ {\ log_a x} = b ^ {\ log_b x} $
Uznałem, że dużo. Natknąłem się na tę odpowiedź, gdy próbowałem zrozumieć, dlaczego fragment kodu używa e do obliczenia zakłopotania, podczas gdy wszystkie inne wyrażenia, które ' d poprzednio widziałem, używały 2. Zdaję sobie sprawę teraz, jak ważne jest, aby wiedzieć, jakiej wartości używa framework jako podstawy do obliczenia utraty dziennika
wygląda jak wykładnicza entropia

Odpowiedź

Wydaje mi się, że to raczej intuicyjne:

Złożoność cokolwiek oceniasz, na podstawie danych, „ponownie oceniając to, w pewnym sensie mówi ci, że„ ta rzecz ma rację tak często, jak byłaby to kostka o przekątnej x ”.

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

Komentarze

Że ' to interesujący artykuł; może nie tak dogłębnie, ale dobra lektura wprowadzająca.
Ten artykuł był również pomocny, jamesmccaffrey.wordpress.com/2016/08/16/ …

Odpowiedź

Zastanawiałem się to też. Pierwsze wyjaśnienie nie jest złe, ale oto moje 2 zwroty za cokolwiek to jest warte.

Po pierwsze, zakłopotanie nie ma nic wspólnego z określeniem, jak często coś zgadujesz Racja. Ma więcej wspólnego ze scharakteryzowaniem złożoności sekwencji stochastycznej.

Patrzymy na ilość, $$ 2 ^ {- \ sum_x p ( x) \ log_2 p (x)} $$

Najpierw anulujmy dziennik i potęgowanie.

$$ 2 ^ {- \ sum_ {x} p (x) \ log_2 p (x)} = \ frac {1} {\ prod_ {x} p (x) ^ {p (x)}} $$

Myślę, że warto wskazać, że zakłopotanie jest niezmienne z podstawą, której używasz do zdefiniowania entropii. W tym sensie , zakłopotanie jest nieskończenie bardziej niepowtarzalne / mniej arbitralne niż entropia jako miara.

Relacja do kości

Pobawmy się trochę. Powiedzmy, że patrzysz tylko na monetę. Kiedy moneta jest uczciwa, entropia jest maksymalna, a zakłopotanie osiąga maksimum $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$

A teraz, co się stanie, gdy spojrzymy na klasę N $ N $ jednostronne kości? Kłopot to $$ \ frac {1} {\ left (\ frac {1} {N} ^ \ frac {1} {N} \ right) ^ N} = N $$

Tak więc zakłopotanie reprezentuje liczbę boków uczciwej kości, że po wyrzuceniu tworzy sekwencję o takiej samej entropii jak podany rozkład prawdopodobieństwa.

Liczba stanów

OK, więc teraz, gdy mamy intuicyjną definicję zakłopotania, przyjrzyjmy się szybko, jak wpływa na to liczba stanów w modelu. zacznij od rozkładu prawdopodobieństwa w $ N $ stanach i utwórz nowy rozkład prawdopodobieństwa na $ N + 1 $ stwierdza w taki sposób, że współczynnik prawdopodobieństwa oryginalnych stanów $ N $ pozostaje taki sam, a nowy stan ma prawdopodobieństwo $ \ epsilon $ . W przypadku rozpoczęcia od uczciwego $ N $ kostki bocznej, możemy sobie wyobrazić tworzenie nowego $ N + 1 $ jednostronna kostka tak, że nowa strona zostanie wyrzucona z prawdopodobieństwem $ \ epsilon $ , a oryginalny $ N $ rozpiętość> boki są zwijane z równym prawdopodobieństwem. Tak więc w przypadku dowolnego pierwotnego rozkładu prawdopodobieństwa, jeśli prawdopodobieństwo każdego stanu $ x $ jest podane przez $ p_x $ , nowa dystrybucja oryginalnych stanów $ N $ z nowym stanem będzie miała postać $$ p ^ \ prime_x = p_x \ left (1- \ epsilon \ right) $$ , a nowa komplikacja zostanie podana przez:

$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left (p_x \ left (1- \ epsilon \ right) \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left ( 1- \ epsilon \ right)} {\ left (1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left (1- \ epsilon \ right)}} $$

W limicie $ \ epsilon \ rightarrow 0 $ , ta ilość zbliża się hes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$

Więc gdy robisz toczenie jedna strona kostki jest coraz mniej prawdopodobna, zakłopotanie kończy się tak, jakby ta strona nie istniała.

Komentarze

Z pewnością ' s tylko ~ 1,39 natsa?
Czy możesz wyjaśnić, jak możesz uzyskać $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = ( 1- \ epsilon) ^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$? Mogę tylko zrobić $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x (1- \ epsilon))} ^ {p_x (1- \ epsilon)} = \ prod_x ^ N {(1- \ epsilon)} ^ {p_x (1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x (1- \ epsilon)} $$
$$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right)} $$

Odpowiedź

W rzeczywistości istnieje wyraźny związek między zakłopotaniem a prawdopodobieństwem prawidłowego odgadnięcia wartości z rozkładu, podane przez Cover „Elementy teorii informacji 2ed (2.146): Jeśli $ X $ i $ X „$ to zmienne iid, a następnie

$ P (X = X „) \ ge 2 ^ {- H (X)} = \ frac {1} {2 ^ {H (X)}} = \ frac {1} {\ text {perplexity}} $ (1)

Aby wyjaśnić, złożoność rozkładu jednorodnego X to po prostu | X |, liczba elementów. Jeśli spróbujemy zgadnąć, jakie wartości przyjmie iid próbki z rozkładu jednorodnego X, po prostu wykonując iid zgadnięcia z X, będziemy mieli rację 1 / | X | = 1 / zakłopotanie czasu. Ponieważ rozkład jednorodny jest najtrudniejszy do odgadnięcia z wartości, możemy użyć 1 / konsternacja jako dolnej granicy / przybliżenia heurystycznego dla tego, jak często nasze przypuszczenia będą prawidłowe.

Co to jest zakłopotanie?

Komentarze

Odpowiedź

Komentarze

Odpowiedź

Komentarze

Odpowiedź

Relacja do kości

Liczba stanów

Komentarze

Odpowiedź

Dodaj komentarz Anuluj pisanie odpowiedzi