Ist die Standardabweichung eines Binomialdatensatzes informativ?

Ich arbeite an einem Datensatz mit An- / Abwesenheitsdaten, wobei meine Antwortvariable „Anteil der Standorte, an denen X vorhanden ist“ ist. Ich wurde gebeten, neben den mittleren Anteilen auch Standardabweichungen anzugeben. Es scheint mir jedoch, dass die Standardabweichung eines Binomialdatensatzes eine Polynomfunktion des Anteils selbst ist und keine zusätzlichen Informationen über die Variabilität der zugrunde liegenden Daten liefert. Wenn beispielsweise ein Anteil aus Daten 0,3 beträgt, sollte es keine Rolle spielen, ob dieser Anteil aus An- / Abwesenheitsdaten von 10, 100 oder 100.000 Standorten abgeleitet wurde. Der Standardentwickler sollte derselbe sein.

Wann Ich mache einen Beispieldatensatz und einen grafischen Mittelwert im Verhältnis zu st dev. Ich kann ihn mit einer Polynomfunktion 6. Ordnung mit einem R-Quadrat von 1,00 modellieren.

Kann also jemand meinen Verdacht bestätigen, dass Standardabweichungen ein sind inhärente Eigenschaft des Anteils in einem Binomial-Dataset und somit keine zusätzlichen Informationen über den Datensatz, aus dem dieser Anteil stammt?

Kommentare

  • Sie sollten in der Lage sein, die SD noch besser als Quadratwurzel einer quadratischen Funktion zu modellieren, da für einen Anteil $ p $ in einem Datensatz der Größe $ n $ die SD der Gesamtsumme $ \ sqrt {np (1-p)} $ ist .
  • @whuber: Ich denke, dass für die Binomialvariable (also für die Anzahl der Erfolge) die Standardabweichung $ \ sqrt {np (1-p)} $ ist , aber für den Anteil der Erfolge der sta Die Standardabweichung ist $ \ sqrt {\ frac {p (1-p)} {n}} $. Siehe meine Antwort auf diese Frage.
  • @fcoppens Das ist richtig, weshalb ich mich darum gekümmert habe Beschreibe dies als die SD der Gesamtsumme.
  • @whuber: ok dann :-), hast du dir meine Antwort angesehen?
  • Wenn der Rezensent eines Manuskripts danach gefragt hat Dann meinte der Prüfer vielleicht ein gewisses Maß an Genauigkeit für den geschätzten Anteil wie einen Standardfehler. ' Haben wir kein Gesetz, das besagt: " Sollen Sie für jede Schätzung immer ein Maß für die Genauigkeit angeben? " Wenn der Prüfer wirklich eine Standardabweichung meinte, könnte eine diplomatische Antwort darauf funktionieren, warum Standardfehler besser sind.

Antwort

Wenn Sie eine binomische Zufallsvariable $ X $ mit der Größe $ N $ und mit Erfolgswahrscheinlichkeit $ p $ haben, dh $ X \ sim Bin (N; p) $, dann der Mittelwert von X ist $ Np $ und seine Varianz ist $ Np (1-p) $. Wie Sie sagen, ist die Varianz ein Polynom zweiten Grades in $ p $. Beachten Sie jedoch, dass die Varianz auch von $ N $ abhängt! Letzteres ist wichtig für die Schätzung von $ p $:

Wenn Sie 30 Erfolge in 100 beobachten, beträgt der Anteil der Erfolge 30/100. Dies ist die Anzahl der Erfolge geteilt durch die Größe des Binomials, dh $ \ frac {X} {N} $.

Aber wenn $ X $ den Mittelwert $ Np $ hat, dann hat $ \ frac {X} {N} $ einen Mittelwert, der dem Mittelwert von $ X $ geteilt durch $ N $ entspricht, weil $ N $ ist eine Konstante. Mit anderen Worten, $ \ frac {X} {N} $ hat den Mittelwert $ \ frac {Np} {N} = p $. Dies impliziert, dass der Anteil der beobachteten Erfolge ein unvoreingenommener Schätzer der Wahrscheinlichkeit $ p $ ist.

Um die Varianz des Schätzers $ \ frac {X} {N} $ zu berechnen, müssen wir die Varianz von $ X $ durch $ N ^ 2 $ (Varianz von a (Variable geteilt durch a) teilen Konstante) ist die (Varianz der Variablen) geteilt durch das Quadrat der Konstante), also ist die Varianz des Schätzers $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. Die Standardabweichung des Schätzers ist die Quadratwurzel der Varianz, also $ \ sqrt {\ frac {p (1-p)} {N}} $.

Wenn Sie also 100 Mal eine Münze werfen und 49 Köpfe beobachten, ist $ \ frac {49} {100} $ ein Schätzer für die Wahrscheinlichkeit, mit dieser Münze den Kopf zu werfen, und die Standardabweichung dieser Schätzung ist $ \ sqrt {\ frac {0,49 \ times (1-0,49)} {100}} $.

Wenn Sie die Münze 1000 Mal werfen und 490 Köpfe beobachten, schätzen Sie die Wahrscheinlichkeit den Kopf erneut bei $ 0,49 $ und die Standardabweichung bei $ \ sqrt {\ frac {0,49 \ times (1-0,49)} {1000}} $ zu werfen.

Offensichtlich ist die Standardabweichung im zweiten Fall kleiner und daher ist der Schätzer genauer, wenn Sie die Anzahl der Würfe erhöhen.

Sie können daraus schließen, dass für eine Binomial-Zufallsvariable die Varianz ein quadratisches Polynom in p ist, aber sie hängt auch von N ab, und ich denke, dieser Standard Die Abweichung enthält zusätzliche Informationen zur Erfolgswahrscheinlichkeit.

Tatsächlich hat die Binomialverteilung zwei Parameter, und Sie benötigen immer mindestens zwei Momente (in diesem Fall) Verwenden Sie den Mittelwert (= erstes Moment) und die Standardabweichung (Quadratwurzel des zweiten Moments), um sie vollständig zu identifizieren.

P.S. Eine etwas allgemeinere Entwicklung, auch für Poisson-Binomial, findet sich in meiner Antwort auf Schätzen Sie die Genauigkeit einer Schätzung der Poisson-Binomialverteilung .

Antwort

Die Familie der Bernouli-Verteilungen wird vollständig durch eine Zahl parametrisiert, die normalerweise als $ p $ bezeichnet wird. Jede Populationsstatistik einer Bernouli-Verteilung muss also eine Funktion des Parameters $ p $ sein. Dies bedeutet nicht, dass diese Statistiken beschreibend nutzlos sind!

Zum Beispiel kann ich eine Box vollständig beschreiben, indem ich ihre Länge, Breite und Höhe gebe, aber das Volumen ist immer noch eine nützliche Statistik!

Kommentare

  • Warten Sie, ist das richtig? Nicht ' meine ich Bernoulli-Verteilung? Ich habe das Gefühl, ich sollte es ändern, aber es hat ein paar positive Stimmen …
  • Sie tun, dass ' ein ziemlich verständlicher Fehler ist, da Bernouli und Binomial sind so eng miteinander verbunden. Ich habe es für Sie bearbeitet.

Antwort

Sie könnten denken, Sie hätten einen Punkt wenn Sie kannten bereits den wahren Wert des Binomialparameters $ p $ und hatten es wirklich mit einem Binomialversuch zu tun (unabhängige Bernoulli-Versuche bei konstantem $ p $). Bei $ N $ -Fällen beträgt die Varianz der Anzahl der Erfolge in einem Binomialversuch $ N p (1-p) $, und eine (naive) Division durch $ N $, um die Varianz im Anteil der Erfolge zu erhalten, würde einen Wert ergeben unabhängig von $ N $. Dabei gibt es zwei Probleme. Erstens, wenn Sie den Wert von $ p $ kennen würden, müssten Sie diese Analyse nicht durchführen. Zweitens ist dieser naive Ansatz zur Bestimmung der Varianz im beobachteten Erfolgsanteil falsch, wie @ f-coppens hervorhebt.

Was Sie haben, ist eine Schätzung von $ p $ basierend auf einer Stichprobe von $ N $ Fällen. Die Konfidenzintervalle um Ihre Schätzung von $ p $ hängen vom Wert von $ N $ ab und verbessern sich ungefähr mit der Quadratwurzel Ich vermute, dass dies der Punkt ist, den Ihr Inquisitor anstrebt. Auf der Wikipedia-Seite unter binomiale Verteilung finden Sie Formeln für Konfidenzintervalle Es wird nicht einmal untersucht, ob alle Ihre Stichproben durch einen einzelnen Parameter $ p $ modelliert wurden.

Kommentare

  • Wenn Sie eine Variable durch eine Konstante N teilen, müssen Sie die Varianz durch $ N ^ 2 $ teilen! Siehe meine Antwort auf diese Frage.
  • @ f-coppens Ich bin korrigiert und habe meine Antwort entsprechend bearbeitet. Vielen Dank.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.