困惑とは何ですか?

用語困惑に出くわしました。見えないデータの対数平均逆確率。困惑に関するウィキペディアの記事は、同じことを直感的に理解することはできません。

この困惑の尺度は pLSA の論文で使用されました。

誰でも直観測定?

コメント

  • pLSAのパープレキシティを計算するにはどうすればよいですか。カウントのあるデータマトリックス$ X $があり、TEMアルゴリズムによって$ p(d)$と$ p(w | d)$が計算されます。
  • I ' Nisbett、Larose、Witten、Torgo、Shemueli(および共著者)による5つのデータマイニング/機械学習/予測分析の本のインデックスを確認しましたが、この用語は発生しません'それらのいずれかで。私は'困惑しています:)
  • 困惑は、不確実性を表すもう1つの派手な名前です。これは、外的評価に対する内的評価と見なすことができます。 Jan Jurafskyは、 youtube.com/watch?v=BAN3NB_SNHY
  • @ zbicyclist、Ifで、言語モデリングに従った例を使用してエレガントに説明しています。 '実際の例を探しています。'は、NLPで特に一般的であり、特に言語モデルなどの評価に適しています。 。
  • 一部の分野(経済学など)では、人々は同等の数値について話します。 $ \ exp(H)$ここで、$ H $は自然対数に基づくエントロピーであり、同等の数の同等に一般的なカテゴリです。したがって、確率0.5の2つのカテゴリは、それぞれ$ \ ln 2 $のエントロピーを生成し、べき乗は、等しく一般的なカテゴリの数として2を返します。確率が等しくない場合、同等の数値は一般に整数ではありません。

回答

を確認しました。 div id = “6b223e7704″>

困惑に関するウィキペディアの記事。離散分布の複雑さを

$$ 2 ^ {-\ sum_x p(x)\ log_2 p(x)} $$

として与えます。これは

と書くこともできます。 / p>

$$ \ exp \ left({\ sum_x p(x)\ log_e \ frac {1} {p(x)}} \ right)$$

ie確率の逆数の加重幾何平均として。連続分布の場合、合計は積分になります。

この記事では、$ N $個のテストデータを使用してモデルのパープレキシティを推定する方法も示しています。

$$ 2 ^ {-\ sum_ {i = 1} ^ N \ frac {1} {N} \ log_2 q(x_i)} $$

これは

$$ \と書くこともできますexp \ left(\ frac {{\ sum_ {i = 1} ^ N \ log_e \ left(\ dfrac {1} {q(x_i)} \ right)}} {N} \ right)\ text {または} \ sqrt [N] {\ prod_ {i = 1} ^ N \ frac {1} {q(x_i)}} $$

または他のさまざまな方法で、これによりさらに明確になるはずです。ここで、「対数平均逆確率」は由来します。

コメント

  • eを2ではなく指数として使用する場合に特別な違いはありますか?
  • @HenryE:いいえ、常用対数の基数$ 10 $も機能します-異なる基数の対数は互いに比例し、明らかに$ a ^ {\ log_a x} = b ^ {\ log_b x} $
  • 次のように計算しました。たくさん。 '以前に見た他のすべての定式化が2を使用していたのに、コードの一部がeを使用してエントロピーを計算している理由を理解しようとしたときにこの答えに出会いました。フレームワークがログ損失計算のベースとして使用する値を知ることの重要性
  • 指数エントロピーのように見える

回答

これはかなり直感的だと思いました:

あなたが評価しているデータに対する、あなたが評価しているものの複雑さ「それを評価し直すと、「これは、X面ダイと同じくらい頻繁に正しい」と言われます。

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

コメント

回答

疑問に思いましたこれも悪いことではありませんが、これが価値のあるものに対する私の2つのnatです。


まず、困惑は、何かを推測する頻度を特徴づけることとは関係ありません。右。それは確率的シーケンスの複雑さを特徴づけることともっと関係があります。

私たちは量を調べています。 $$ 2 ^ {-\ sum_x p( x)\ log_2 p(x)} $$

最初に、ログとべき乗をキャンセルしましょう。

$$ 2 ^ {-\ sum_ {x} p(x)\ log_2 p(x)} = \ frac {1} {\ prod_ {x} p(x)^ {p(x)}} $$

エントロピーを定義するために使用するベースによって、パープレキシティは不変であることを指摘する価値があると思います。したがって、この意味で、パープレキシティは、測定値としてのエントロピーよりも無限にユニークで恣意的ではありません。

ダイスとの関係

これを少し試してみましょう。コインを見ているだけだとしましょう。コインが公正な場合、エントロピーは最大になり、困惑は最大になります $$ \ frac {1} {\ frac {1} {2} ^ \ frac {1 } {2} \ times \ frac {1} {2} ^ \ frac {1} {2}} = 2 $$

ここで、 $ N $ サイドダイス?困惑は $$ \ frac {1} {\ left(\ frac {1} {N} ^ \ frac {1} {N} \ right)^ N} = N $$

つまり、パープレキシティは、転がされたときに、与えられた確率分布と同じエントロピーを持つシーケンスを生成する、公正なサイコロの面の数を表します。

状態の数

これで、困惑の直感的な定義ができたので、モデル内の状態の数によってどのように影響を受けるかを簡単に見てみましょう。 $ N $ 状態の確率分布から始めて、 $ N + 1 $ は、元の $ N $ 状態の確率比が同じままで、新しい状態の確率が $ \ epsilonになるように記述します。 $ 。公正な $ N $ サイドダイから始める場合、新しい $ N + 1 $ <を作成することを想像するかもしれません。 / span>サイドダイスは、新しいサイドが確率 $ \ epsilon $ と元の $ N $ サイドは同じ確率でロールされます。したがって、任意の元の確率分布の場合、各状態の確率 $ x $ $ p_x $で与えられると、新しい状態が与えられた場合の元の $ N $ 状態の新しい分布は $$ p ^ \になります。 prime_x = p_x \ left(1- \ epsilon \ right)$$ 、そして新しい困惑は次のように与えられます:

$$ \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N {\ left(p_x \ left (1- \ epsilon \ right)\ right)} ^ {p_x \ left(1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon \ prod_x ^ N p_x ^ {p_x \ left( 1- \ epsilon \ right)} {\ left(1- \ epsilon \ right)} ^ {p_x \ left(1- \ epsilon \ right)}} = \ frac {1} {\ epsilon ^ \ epsilon {\ left (1- \ epsilon \ right)} ^ {\ left(1- \ epsilon \ right)} \ prod_x ^ N p_x ^ {p_x \ left(1- \ epsilon \ right)}} $$

$ \ epsilon \ rightarrow 0 $ としての制限では、この量はおよそhes $$ \ frac {1} {\ prod_x ^ N {p_x} ^ {p_x}} $$

ダイの片側の可能性はますます低くなり、困惑はその側が存在しないかのように見えてしまいます。

コメント

  • 確かに'の価値はわずか〜1.39 natsですか?
  • $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} =( 1- \ epsilon)^ {1- \ epsilon} \ prod_x ^ N {p_x} ^ {p_x(1- \ epsilon)} $$? $$ \ prod_x ^ N {p ^ \ prime_x} ^ {p ^ \ prime_x} = \ prod_x ^ N {(p_x(1- \ epsilon))} ^ {p_x(1- \ epsilon)} =しか実行できません\ prod_x ^ N {(1- \ epsilon)} ^ {p_x(1- \ epsilon)} \ prod_x ^ N {p_x} ^ {p_x(1- \ epsilon)} $$
  • $$ \ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left(1- \ epsilon \ right)} = {\ left(1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left(1- \ epsilon \ right)} = {\ left(1- \ epsilon \ right)} ^ {\ left(1- \ epsilon \ right)\ sum_x ^ N p_x} = {\ left(1- \ epsilon \ right)} ^ {\ left(1- \ epsilon \ right)} $$

回答

実際には、CoverのElements of Information Theory 2ed(2.146)で示されているように、困惑と分布から値を正しく推測する確率との間には明確な関係があります。 $ X $ <の場合/ span>と $ X “$ はiid変数であり、

$ P(X = X “)\ ge 2 ^ {-H(X)} = \ frac {1} {2 ^ {H(X)}} = \ frac {1} {\ text {perplexity}} $ (1)

説明すると、一様分布Xの困惑は| X |であり、その数は要素の。 Xからiidを推測するだけで、一様分布Xからのiidサンプルが取る値を推測しようとすると、時間の1 / | X | = 1 /複雑さが正しくなります。一様分布は値を推測するのが最も難しいため、推測が正しい頻度の下限/ヒューリスティック近似として1 / perplexityを使用できます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です