Nehmen Sie eine binäre Klassifizierung an, dh $ y \ in \ {- 1,1 \} $ und dass die zugrunde liegende gemeinsame Wahrscheinlichkeitsverteilung, die die Daten erzeugt, bekannt ist, dh $ P_ {x, y} (x, y) $ ist bekannt
Ich war Es wurde mitgeteilt, dass die Bayes-Entscheidungsregel der Prädiktor war, den Sie bei der Lösung des folgenden Minimierungsproblems mit der Funktion für variable Variablen des Indikators ausgewählt haben (der angibt, ob Sie richtig oder falsch liegen):
$ $ min_ {c \ in \ mathcal {H}} \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $$
Ich habe mich gefragt, was der resultierende Prädiktor $ c ^ * $ für die Lösung des obigen Optimierungsproblems war und in welcher Beziehung er zur bekannten Verteilung steht Die Daten waren. dh was war die Prädiktoren $ c ^ * $ Beziehung zu $ P_ {y | x} (1 | x) $ und $ P_ {y | x} (- 1 | x) $ .
Was ich bisher getan hatte, war expand $ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $ :
$ \ mathbb {E} _ {x, y} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = \ mathbb {E} _ {x} \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] $
und minimieren Sie dann Folgendes:
$ \ mathbb {E} _ {y | x} [\ mathbb {1} _ {\ {c (x) \ neq y \}}] = P_ {y | x} (1 | x) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} + P_ {y | x} (- 1 | x ) \ mathbb {1} _ {\ {c (x) \ neq 1 \}} $
Aber es fiel mir schwer, weiterzumachen, weil ich mir nicht sicher war, wie ich den obigen Ausdruck minimieren sollte . Intuitiv möchte ich den Prädiktor auswählen, der meinen Fehler am niedrigsten macht. Also würde ich die Bezeichnung $ 1 $ oder $ – 1 $ wählen, je nachdem, welche die höchste Wahrscheinlichkeit von hatte auftreten. Es fiel mir jedoch schwer, diese Intuition mit der obigen Mathematik und der obigen Gleichung in einem präzisen oder strenge Angelegenheit.
Was ist die explizite Funktion für $ c ^ * (x) $ ?
Ist die folgende Funktion die richtige? Wenn ja, warum?
$$ c ^ * (x) = sign (2p_ {y | x} (1 | x) – 1) $ $
Antwort
Betrachten Sie Zufallsvariablen $ X $ und $ Y $, wobei $ Y \ in \ { + 1, -1 \} $. Wenn die Beobachtung $ X $ den Wert $ x $ hat, sagt uns die Entscheidungsregel $ c (x) $, die einen der beiden Werte $ + 1 $ und $ -1 $ annimmt, was Wert, den die Regel für $ Y $ angenommen hat. Die Wahl der Entscheidungsfunktion $ c (x) $ unterteilt den Bereich von $ X $ effektiv in zwei disjunkte Mengen $ \ Gamma _ {+ 1} $ und $ \ Gamma _ {- 1} $, dh $ c (x) $ kann ausgedrückt werden als $$ c (x) = \ begin {case} +1, & x \ in \ Gamma _ {+ 1}, \\ – 1, & x \ in \ Gamma _ {- 1}. \ end {case} $$ Das Experiment wird durchgeführt, was dazu führt, dass $ (X, Y) $ den Wert $ (x, y) $ annimmt, aber wir können nur den Wert von $ x $ beobachten. Wir wenden die Funktion $ c (x) $ an, um unsere Entscheidung $ + 1 $ oder $ -1 $ über den Wert von $ y $ zu treffen. Ein überlegenes Wesen (das alles weiß, einschließlich des Wertes von $ y $, der uns verborgen wurde) sagt uns dann, ob wir einen Fehler gemacht haben oder nicht: Fehler, wenn $ y $ nicht mit der Entscheidung $ c (x) $ übereinstimmt, die wir getroffen haben erreicht. Sei $ f _ {- 1} (x) $ die bedingte Dichte von $ X $ , wenn $ Y = -1 $ ist. Wenn dann $ Y = -1 $ ist, machen wir einen Fehler, wenn der beobachtete Wert von $ X $ in der Region $ \ Gamma _ {+ 1} $ liegt und die Bedingung Fehlerwahrscheinlichkeit ist also $ \ Anzeigestil P (E \ mid Y = -1) = \ int _ {\ Gamma _ {+ 1}} f _ {- 1} (x) \, \ mathrm dx. $ In ähnlicher Weise ist die bedingte Fehlerwahrscheinlichkeit, wenn $ Y = + 1 $ $ \ Anzeigestil P ist (E \ mid Y = + 1) = \ int _ {\ Gamma _ {- 1}} f _ {+ 1} (x ) \, \ mathrm dx. $ Daher ist die bedingungslose Fehlerwahrscheinlichkeit $ P (E) $ dieser Entscheidungsregel $$ \ begin {align} P (E) & = P \ {E \ mid Y = -1 \} P \ {Y = -1 \} + P \ {E \ mid Y = +1 \} P \ {Y = +1 \} \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int_ { \ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x) \, \ mathrm dx \\ & = \ int _ {\ Gamma _ {+ 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ pi _ {+ 1} \ cdot f _ {+ 1} (x ) \, \ mathrm dx \\ & \ quad + \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f _ {- 1} (x) \ , \ mathrm dx – \ int _ {\ Gamma _ {- 1}} \ pi _ {- 1} \ cdot f_ { -1} (x \, \ mathrm dx \\ & = \ pi _ {- 1} \ int _ {\ mathbb R} f _ {- 1} (x) \, \ mathrm dx + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right ] \, \ mathrm dx \\ P (E) & = \ pi _ {- 1} + \ int _ {\ Gamma _ {- 1}} \ left [\ pi _ {+ 1 } \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ right] \, \ mathrm dx \ tag {1} \ end {align} $$
Die Bayessche Entscheidungsregel ist die Regel, die die rechte Seite von $ (1) $ minimiert.Wir können nichts mit dem ersten Term tun, der für alle Entscheidungsregeln gleich ist, sondern durch geschickte Auswahl der Region $ \ Gamma _ {- 1} $ (die Entscheidungsregel wird effektiv durch die Region $ definiert \ Gamma _ {- 1} $) können wir $ P (E) $ kleiner machen. Beachten Sie, dass der Integrand in $ (1) $ positiv oder negativ sein kann, und indem Sie $$ \ Gamma _ {- 1} = \ {x \ Doppelpunkt \ pi_ {auswählen +1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) \ leq 0 \}, \ tag {2} $$ (also ohne von $ \ Gamma _ {- 1} $ alle Punkte $ x $, für die $ \ pi _ {+ 1} \ cdot f _ {+ 1} (x) – \ pi _ {- 1} \ cdot f _ {- 1} (x) > 0 $) stellen wir sicher, dass der Integrand im Integrationsbereich niemals positiv ist und das Integral daher einen möglichst negativen Wert hat. Daher minimiert die in $ (2) $ beschriebene Entscheidungsregel $ P (E) $ und ist die Bayessche Entscheidungsregel.
Wie spielt sich das alles in Bezug auf die posterioren Verteilungen ab? Die posteriore Verteilung von $ Y $ bei $ X $ ist diskret , und die Bayessche Entscheidungsregel lautet, zu wählen, welcher Wert von $ Y $ eine größere posteriore Wahrscheinlichkeit hat. Tatsächlich haben wir $$ \ begin {align} P \ {Y = + 1 \ mid X = x \} & = \ frac {\ pi _ {+ 1} f_ {+1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {3} \\ P \ {Y = -1 \ mid X = x \} & = \ frac {\ pi _ {- 1} f _ {- 1} (x)} {\ pi _ {+ 1} \ cdot f _ {+ 1} (x) + \ pi _ {- 1} \ cdot f _ {- 1} (x)} \ tag {4} \ end {align} $$ und wählen Sie die hintere Wahrscheinlichkeit aus Größer ergibt die gleiche Entscheidungsregel wie $ (2) $. Wenn nun $ P \ {Y = + 1 \ mid X = x \} = p_ {y | x} (1 | x) $ in der OP-Notation größer als $ P \ {Y = -1 \ mid ist X = x \} $, dann ist es wahr, dass $ p_ {y | x} (1 | x) > \ frac 12 $, und so $ \ operatorname {sgn} ( 2p_ {y | x} (1 | x) -1) = + 1 $, und so
Ja, die Bayes-Entscheidungsregel $ c ^ * (x) $ kann ausgedrückt werden als $ \ operatorname {sgn} (2p_ {y | x} (1 | x) -1) $
Die Tatsache, dass diese Auswahl $ P (E) $ minimiert, ist jedoch aus $ (3) $ und $ (4) $ oder aus dem prägnanten Ausdruck $ \ operatorname {sgn} (viel schwieriger zu erkennen) 2p_ {y | x} (1 | x) -1) $ als aus der Entwicklung, die zu $ (2) $ geführt hat. Oder zumindest nehme ich als Nicht-Statistiker die Angelegenheit so wahr, Ihr Kilometerstand kann variieren
Antwort
Es ist einfacher, dies zu beweisen, wenn Sie das Problem etwas anders formulieren:
$$ P (c (x) \ neq y) \ geq P (c ^ {*} (x) \ neq y) $$ oder gleichwertig, $$ \ mathbb {E} _ {x, y} \ left [1 _ {\ {c (x) = y \}} \ right] \ leq \ mathbb {E} _ {x, y} \ left [1 _ {\ {c ^ {*} ( x) = y \}} \ right] $$ und anstatt $ y \ in \ {- 1,1 \} $ zu haben, haben Sie $ y \ in \ {0,1 \} $ .
Beachten Sie, dass $ P_ {y | x} (0 | x) = 1-P_ {y | x} (1 | x) $ und $ 1 _ {\ {c (x) = 0 \ }} = 1-1 _ {\ {c (x) = 1 \}} $ , wenn wir also subtrahieren,
$$ \ mathbb {E} _ {y | x} \ left [1 _ {\ {c ^ {*} (x) = y \}} \ right] – \ mathbb {E} _ {y | x} \ left [1 _ {\ {c (x) = y \}} \ rechts] = P_ {y | x} (1 | x) \ links (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ { c (x) = 1 \}} \ rechts) + P_ {y | x} (0 | x) \ links (1 _ {\ {c ^ {*} (x) = 0 \}} – 1 _ {\ {c (x) = 0 \}} \ rechts) = \ links (2P (1 | x) -1 \ rechts) \ links (1 _ {\ {c ^ {*} (x) = 1 \}} – 1 _ {\ {c (x) = 1 \}} \ right) \ geq 0 $$
Nun, wenn $ P (1 | x) > 1/2 $ , dann nach der Definition von $ c ^ {*} (x) $ , $ c ^ {*} (x) = 1 $ und seit $ 1 _ {\ {c (x) = 1 \}} \ leq 0 $ , dann ist dieser Ausdruck größer oder gleich Null. Wenn $ P (1 | x) < 1/2 $ , dann per Definition $ c ^ {*} (x) = 0 $ und da $ 1 _ {\ {c (x) = 1 \}} \ geq 0 $ , dann gilt die Ungleichung.
Kommentare
- Ich habe eine Frage zu Ihrer Notation: von $ == $ haben Sie Mittelwert $ \ equiv $ (
\equiv
)? Das Zeichen==
wird eher bei der Programmierung verwendet (korrigieren Sie mich, wenn ich ' falsch liege). - @Tim I. zustimmen. Gleiches gilt für
!=
, was anzeigt, dass " nicht gleich "
ist