Was bedeutet gepoolte Varianz “ eigentlich ”?

Ich bin ein Neuling in der Statistik. Könnt ihr mir bitte hier helfen?

Meine Frage lautet wie folgt: Was macht gepoolte Varianz eigentlich bedeuten?

Wenn ich im Internet nach einer Formel für gepoolte Varianz suche, finde ich viel Literatur mit der folgenden Formel (zum Beispiel hier: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

\ begin {Gleichung} \ label {eq: dummpooledvar} \ displaystyle S. ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {Gleichung}

Aber was macht es tatsächlich berechnen? Denn wenn ich diese Formel zur Berechnung meiner gepoolten Varianz verwende, erhalte ich eine falsche Antwort.

Betrachten Sie beispielsweise diese „übergeordnete Stichprobe“:

\ begin {Gleichung} \ label { Gleichung: Elternstichprobe} 2,2,2,2,2,8,8,8,8,8 \ end {Gleichung}

Die Varianz dieser Elternstichprobe beträgt $ S ^ 2_p = 10 $, und sein Mittelwert ist $ \ bar {x} _p = 5 $.

Angenommen, ich habe diese übergeordnete Stichprobe in zwei Teilstichproben aufgeteilt:

  1. Die erste Teilstichprobe ist 2,2,2,2,2 mit dem Mittelwert $ \ bar {x} _1 = 2 $ und Varianz $ S ^ 2_1 = 0 $.
  2. Die zweite Teilstichprobe ist 8,8,8,8,8 mit dem Mittelwert $ \ bar {x} _2 = 8 $ und Varianz $ S ^ 2_2 = 0 $.

Wenn Sie nun die obige Formel verwenden, um die gepoolte / übergeordnete Varianz dieser beiden Teilstichproben zu berechnen, wird Null erzeugt, weil $ S_1 = 0 $ und $ S_2 = 0 $. Was berechnet diese Formel tatsächlich ?

Andererseits fand ich nach einer längeren Ableitung die Formel, die die korrekte gepoolte / übergeordnete Varianz erzeugt:

\ begin {Gleichung} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {Gleichung}

In der obigen Formel ist $ d_1 = \ bar {x_1} – \ bar {x} _p $ und $ d_2 = \ bar {x_2 } – \ bar {x} _p $.

Ich habe bei mir eine ähnliche Formel gefunden, zum Beispiel hier: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html und auch in Wikipedia. Obwohl ich zugeben muss, dass sie nicht genau so aussehen wie meine.

Also, was bedeutet gepoolte Varianz eigentlich? Sollte es nicht die Varianz der Elternstichprobe aus den beiden Teilstichproben bedeuten? ? Oder irre ich mich hier völlig?

Vielen Dank im Voraus.


BEARBEITEN 1: Jemand sagt, dass meine beiden oben genannten Unterproben pathologisch sind, da sie keine Varianz aufweisen. Nun, ich könnte Ihnen ein anderes Beispiel geben. Betrachten Sie dieses übergeordnete Beispiel:

\ begin {Gleichung} \ label {eq: parentample2} 1,2,3,4,5,46,47,48,49,50 \ end {Gleichung}

Die Varianz dieser übergeordneten Stichprobe beträgt $ S ^ 2_p = 564,7 $ und ihr Mittelwert ist $ \ bar {x} _p = 25,5 $.

Angenommen, ich habe diese übergeordnete Stichprobe in zwei Teilstichproben aufgeteilt:

  1. Die erste Teilstichprobe ist 1,2,3,4,5 mit dem Mittelwert $ \ Balken {x} _1 = 3 $ und Varianz $ S ^ 2_1 = 2,5 $.
  2. Die zweite Teilstichprobe ist 46,47,48,49,50 mit dem Mittelwert $ \ bar {x} _2 = 48 $ und Varianz $ S ^ 2_2 = 2,5 $.

Wenn Sie nun die Formel „Literatur“ verwenden, um die gepoolte Varianz zu berechnen, erhalten Sie 2,5, was völlig falsch ist. da die übergeordnete / gepoolte Varianz 564,7 sein sollte. Wenn Sie stattdessen „meine Formel“ verwenden, erhalten Sie die richtige Antwort.

Bitte haben Sie Verständnis, ich verwende hier extreme Beispiele, um den Leuten zu zeigen, dass die Formel tatsächlich falsch ist. Wenn ich „normale Daten“ verwende, die nicht viele Variationen aufweisen (Extremfälle), sind die Ergebnisse dieser beiden Formeln sehr ähnlich, und die Leute könnten den Unterschied aufgrund eines Rundungsfehlers verwerfen, nicht weil die Formel selbst so ist falsch.

Kommentare

Antwort

Einfach ausgedrückt ist die gepoolte Varianz eine (unverzerrte) Schätzung der Varianz innerhalb jeder Stichprobe unter der Annahme / Einschränkung, dass diese Varianzen gleich sind.

Dies wird im Wikipedia-Eintrag für gepoolte Varianz ausführlich erklärt, motiviert und analysiert.

not Schätzen Sie die Varianz einer neuen“ Meta-Stichprobe „, die durch Verketten der beiden einzelnen Stichproben gebildet wird, wie Sie angenommen haben. Wie Sie bereits festgestellt haben, erfordert die Schätzung eine völlig andere Formel.

Kommentare

  • Die Annahme der “ Gleichheit “ (dh dieselbe Population hat diese Stichproben realisiert) ist im Allgemeinen nicht erforderlich, um zu definieren, was es ist – “ gepoolt „. Pooled bedeutet einfach gemitteltes Omnibus (siehe meinen Kommentar zu Tim).
  • @ttnphns Ich denke, die Gleichheitsannahme ist notwendig, um der gepoolten Varianz eine konzeptionelle Bedeutung zu geben (die das OP angefordert hat), die über die verbale hinausgeht Beschreibung der mathematischen Operation, die an den Stichprobenvarianzen ausgeführt wird. Wenn die Populationsvarianzen nicht als gleich angenommen werden, ist ‚ unklar, wovon wir die gepoolte Varianz als Schätzung betrachten könnten. Natürlich könnten wir es einfach als eine Verschmelzung der beiden Varianzen betrachten und dabei belassen, aber das ‚ ist kaum aufschlussreich, wenn keine Motivation besteht, sich kombinieren zu wollen die Abweichungen an erster Stelle.
  • Jake, ich ‚ bin angesichts der spezifischen Frage des OP nicht anderer Meinung, aber ich wollte darüber sprechen Definition des Wortes “ gepoolt „, dass ‚ der Grund ist, warum ich sagte, “ im Allgemeinen „.
  • @JakeWestfall Ihre Antwort ist die bisher beste Antwort. Danke. Obwohl mir noch eines nicht klar ist. Laut Wikipedia ist die gepoolte Varianz eine Methode zur Schätzung der Varianz mehrerer verschiedener Populationen, wenn der Mittelwert jeder Population unterschiedlich sein kann, man jedoch davon ausgehen kann, dass die Varianz jeder Population ist gleich .
  • @JakeWestfall: Wenn wir also die gepoolte Varianz aus zwei verschiedenen Populationen mit unterschiedlichen Mitteln berechnen, was berechnet sie dann tatsächlich? Weil die erste Varianz die Variation in Bezug auf den ersten Mittelwert misst und die zweite Varianz in Bezug auf den zweiten Mittelwert ist. Ich weiß nicht, ‚, welche zusätzlichen Informationen aus der Berechnung gewonnen werden können.

Antwort

Die gepoolte Varianz wird verwendet, um Varianzen aus verschiedenen Stichproben zu kombinieren, indem deren gewichteter Durchschnitt ermittelt wird, um die „Gesamtvarianz“ zu erhalten. Das Problem bei Ihrem Beispiel ist, dass es sich um einen pathologischen Fall handelt, da jede der Unterproben eine Varianz von Null aufweist. Ein solcher pathologischer Fall hat sehr wenig mit den Daten zu tun, auf die wir normalerweise stoßen, da es immer eine gewisse Variabilität gibt und wenn es keine Variabilität gibt, kümmern wir uns nicht um solche Variablen, da sie keine Informationen enthalten. Sie müssen beachten, dass dies eine ist Sehr einfache Methode und es gibt kompliziertere Methoden zur Schätzung der Varianz in hierarchischen Datenstrukturen, die für solche Probleme nicht anfällig sind.

Wie bei Ihrem Beispiel in der Bearbeitung zeigt es, dass es wichtig ist, Ihre Annahmen klar anzugeben Nehmen wir an, Sie haben $ n $ Datenpunkte in $ k $ Gruppen. Wir würden dies als $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- bezeichnen 1, k}, x_ {n, k} $, wobei der $ i $ -te Index in $ x_ {i, j} $ für Fälle und der $ j $ -te Index für Gruppenindizes steht. Es sind mehrere Szenarien möglich. Sie können davon ausgehen, dass alle Punkte aus derselben Verteilung stammen (der Einfachheit halber nehmen wir eine Normalverteilung an).

$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$

Sie können davon ausgehen, dass jede der Teilstichproben ihren eigenen Mittelwert

$$ x_ {hat. i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$

oder seine eigene Varianz

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$

oder jeder von ihnen hat seine eigenen, unterschiedlichen Parameter

$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$

Abhängig von Ihren Annahmen kann eine bestimmte Methode oder Möglicherweise ist die Analyse der Daten nicht ausreichend.

Im ersten Fall wären Sie nicht daran interessiert, die gruppeninternen Varianzen zu schätzen, da Sie davon ausgehen würden, dass alle gleich sind. Wenn Sie jedoch die globale Varianz aus den Gruppenvarianzen aggregieren, erhalten Sie das gleiche Ergebnis wie bei Verwendung der gepoolten Varianz, da die Definition der Varianz

$$ \ mathrm {Var} (X) = \ frac lautet {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$

und im gepoolten Schätzer multiplizieren Sie es zuerst mit $ n-1 $, addieren es dann und dividieren es schließlich durch $ n_1 + n_2 – 1 $.

Im zweiten Fall bedeutet dies „unterschiedlich“, aber Sie haben eine gemeinsame Varianz. Dieses Beispiel kommt Ihrem Beispiel in der Bearbeitung am nächsten. In diesem Szenario würde die gepoolte Varianz die globale Varianz korrekt schätzen, während Sie bei einer geschätzten Varianz für den gesamten Datensatz falsche Ergebnisse erhalten würden, da Sie nicht berücksichtigen, dass die Gruppen unterschiedliche Mittelwerte haben

Im dritten Fall ist es nicht sinnvoll, die „globale“ Varianz zu schätzen, da Sie davon ausgehen, dass jede der Gruppen ihre eigene Varianz hat.Möglicherweise sind Sie weiterhin daran interessiert, die Schätzung für die gesamte Population zu erhalten. In diesem Fall werden jedoch sowohl (a) die einzelnen Varianzen pro Gruppe berechnet als auch (b) die globale Varianz aus dem gesamten Datensatz berechnet, kann zu irreführenden Ergebnissen führen . Wenn Sie mit dieser Art von Daten arbeiten, sollten Sie ein komplizierteres Modell verwenden, das die hierarchische Natur der Daten berücksichtigt.

Der vierte Fall ist der extremste und dem vorherigen ziemlich ähnlich. Wenn Sie in diesem Szenario den globalen Mittelwert und die Varianz schätzen möchten, benötigen Sie ein anderes Modell und andere Annahmen. In einem solchen Fall würden Sie annehmen, dass Ihre Daten hierarchisch strukturiert sind, und neben den gruppeninternen Mitteln und Abweichungen gibt es eine übergeordnete gemeinsame Abweichung, beispielsweise unter der Annahme des folgenden Modells

$$ \ begin {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$

wobei jede Stichprobe ihre eigenen Mittelwerte und Varianzen $ \ mu_j, \ sigma ^ 2_j $ hat, die selbst aus gemeinsamen Verteilungen stammen. In diesem Fall würden Sie ein hierarchisches Modell verwenden, das sowohl die Variabilität der unteren als auch der oberen Ebene berücksichtigt. Weitere Informationen zu dieser Art von Modellen finden Sie im Buch Bayesian Data Analysis von Gelman et al. und ihr Beispiel für acht Schulen . Dies ist jedoch ein viel komplizierteres Modell als der einfache gepoolte Varianzschätzer.

Kommentare

  • Ich habe meine Frage mit einem anderen Beispiel aktualisiert. In diesem Fall ist die Antwort aus der “ Literatur ‚ s Formel “ immer noch falsch. Ich verstehe, dass es sich normalerweise um “ normale Daten “ handelt, bei denen es keinen Extremfall wie in meinem obigen Beispiel gibt. Als Mathematiker sollte es Ihnen jedoch nicht ‚ egal sein, welche Formel tatsächlich korrekt ist, anstatt welche Formel in “ alltäglichem / häufigem Problem gilt „? Wenn eine Formel grundlegend falsch ist, sollte sie verworfen werden, insbesondere wenn es eine andere Formel gibt, die in allen Fällen gilt, pathologisch oder nicht.
  • Übrigens, Sie sagten, es gibt kompliziertere Wege der Varianzschätzung. Könnten Sie mir diese Wege zeigen? Vielen Dank
  • Tim, gepoolte Varianz ist nicht die Gesamtvarianz der “ kombinierten Stichprobe „. In der Statistik bedeutet “ gepoolt “ gewichtet gemittelt (wenn wir von gemittelten Größen wie Varianzen, Gewichten sprechen als n ‚ s) oder nur summiert (wenn wir von Summen wie Streuungen, Quadratsummen sprechen) . Bitte überdenken Sie Ihre Terminologie (Wortwahl) in der Antwort.
  • Obwohl vom aktuellen Thema abweichend, ist hier eine interessante Frage zu “ common “ Varianzkonzept. stats.stackexchange.com/q/208175/3277
  • Hanciong. Ich bestehe darauf, dass “ “ im Allgemeinen und sogar speziell “ gepoolte Varianz “ -Konzept erfordert im Allgemeinen keine Annahme wie: Gruppen stammten aus Populationen mit gleichen Varianzen. Pooling ist einfach eine Mischung (gewichtete Mittelung oder Summierung). In ANOVA und ähnlichen Umständen fügen wir diese statistische Annahme hinzu.

Antwort

Das Problem ist, wenn Sie verketten einfach die Stichproben und schätzen ihre Varianz. Sie gehen davon aus, dass sie aus derselben Verteilung stammen und daher denselben Mittelwert haben. Im Allgemeinen interessieren uns jedoch mehrere Stichproben mit unterschiedlichem Mittelwert. Ist dies sinnvoll?

Antwort

Der Anwendungsfall der gepoolten Varianz ist, wenn Sie zwei Stichproben aus Verteilungen haben, die:

  • kann unterschiedliche Mittel haben, aber
  • , von denen Sie erwarten, dass sie eine gleiche wahre Varianz haben.

Ein Beispiel hierfür ist eine Situation, in der Sie die Länge von Alices Nase $ n $ mal für eine Probe und die Länge von Bobs Nase $ m $ mal für die zweite messen. Diese führen aufgrund von Messfehlern wahrscheinlich zu einer Reihe unterschiedlicher Messungen im Millimeterbereich. Sie erwarten jedoch, dass die Varianz des Messfehlers unabhängig von der gemessenen Nase gleich ist.

In diesem Fall erhalten Sie durch die gepoolte Varianz eine bessere Schätzung der Varianz des Messfehlers als durch die Varianz von einer Probe allein.

Kommentare

  • Vielen Dank für Ihre Antwort, aber ich verstehe ‚ eines nicht . Die ersten Daten geben die Varianz in Bezug auf die Nasenlänge von Alice ‚ an, und die zweiten Daten geben die Varianz in Bezug auf Bob ‚ s Nasenlänge. Was bedeutet es eigentlich, wenn Sie aus diesen Daten eine gepoolte Varianz berechnen? Da die erste Varianz die Variation in Bezug auf Alice ‚ s und die zweite in Bezug auf Bob ‚ s misst, was also zusätzlich Informationen können wir durch Berechnung ihrer gepoolten Varianz gewinnen? Es handelt sich um völlig unterschiedliche Zahlen.

Antwort

Durch gepoolte Varianz versuchen wir nicht, die Varianz von a zu schätzen größere Probe, mit kleineren Proben. Daher beziehen sich die beiden von Ihnen angegebenen Beispiele nicht genau auf die Frage.

Eine gepoolte Varianz ist erforderlich, um eine bessere Schätzung der Populationsvarianz aus zwei Stichproben zu erhalten, die zufällig aus dieser Population entnommen wurden und auftauchen mit unterschiedlichen Varianzschätzungen.

Beispiel: Sie versuchen, die Varianz der Rauchgewohnheiten von Männern in London zu messen. Sie befragen zweimal 300 Männer aus London. Am Ende erhalten Sie zwei Varianzen (wahrscheinlich etwas anders) !). Da Sie nun eine faire Zufallsstichprobe durchgeführt haben (so gut es geht! Da eine echte Zufallsstichprobe fast unmöglich ist), haben Sie alle Rechte zu sagen, dass beide Varianzen wahre Punktschätzungen der Populationsvarianz sind (diesbezüglich männliche Männer in London) case).

Aber wie ist das möglich? dh zwei verschiedene Punktschätzungen !! Daher finden wir eine gemeinsame Punktschätzung, die gepoolte Varianz ist. Es ist nichts anderes als ein gewichteter Durchschnitt von zwei Punktschätzungen. Dabei sind die Gewichte der Freiheitsgrad, der jeder Probe zugeordnet ist.

Hoffe das klärt sich.

Antwort

Obwohl ich sehr spät zum Gespräch komme, kann ich vielleicht etwas Hilfreiches hinzufügen:
Es scheint mir dass das OP wissen möchte, warum (wofür) wir eine gepoolte Variabilitätsschätzung $ \ hat \ sigma_ {pooled} $ als gewichteten Durchschnitt von zwei Stichproben benötigen (be es Varianz oder Standardabweichung).

Soweit mir bekannt ist, muss dies hauptsächlich praktisch sein Eine Art von Dispersionsmaß ergibt sich aus dem Wunsch, Mittelwerte von (Unter-) Gruppen zu vergleichen: Wenn ich also die durchschnittliche Nasenlänge für 1) Personen vergleichen möchte, die sich keiner Gentherapie unterzogen haben, 2) Personen, die sich einer Gentherapie unterzogen haben, A und 3) Personen, die sich einer Gentherapie unterzogen haben B.
Um die Höhe der mittleren Längenunterschiede (mm) besser vergleichen zu können, teile ich die mittlere Differenz, z. B. $ e = \ Balken x_ {Kontrolle} – \ Balken x_ {GTA} = 30 mm-28 mm = 2 mm $ durch die Variabilitätsschätzung (hier Standardabweichung) ation). Abhängig von der Größe der Quadratwurzel der gepoolten Varianz (gepoolte Standardabweichung) können wir die Größe der 2-mm-Differenz zwischen diesen Gruppen besser beurteilen (z. B. $ d = 2 mm / 0,5 mm = 4 $ vs. $ d = 2 mm / 4 mm = 0,5 $ – > Tut Gentherapie A. Und wenn ja, wie viel? Wenn $ d = 4 $ oder $ 2 \ pm 0,5 mm $ Es scheint eine “ stabile “ oder “ konsistente “ oder “ große “ (verglichen mit der Variabilität) Differenz zwischen den mittleren Nasenlängen, wenn $ d = 0,5 $ oder $ 2 \ pm 4mm $ scheint relativ gesehen nicht so viel zu sein Wenn alle Werte in beiden Gruppen gleich sind und es daher keine Variabilität gibt In den Gruppen würde $ d $ nicht definiert, aber die Interpretation wäre $ 2 \ pm 0mm = 2mm $ genau).
Dies ist die Idee der Effektgröße (soweit ich weiß, zuerst theoretisch von Neyman und Pearson eingeführt, aber in der einen oder anderen Art, die schon lange verwendet wurde, siehe Stigler, 1986 zum Beispiel).
Ich vergleiche also den mittleren Unterschied zwischen Gruppen mit den mittleren Unterschieden innerhalb derselben Gruppen, dh dem gewichteten Durchschnitt der Varianzen (Standardabweichungen). Dies ist sinnvoller, als die mittlere Differenz zwischen (Unter-) Gruppen mit der mittleren Differenz innerhalb der gesamten “ “ -Gruppe zu vergleichen, weil Wie Sie (Hanciong) gezeigt haben, enthält die Varianz (und Standardabweichung) der gesamten Gruppe auch die Differenz (en) der Gruppenmittelwerte.

Die theoretische Notwendigkeit für die Maßnahme ergibt sich aus der Verwendung der $ t $ -Verteilung, um die Wahrscheinlichkeit für die beobachtete mittlere oder eine extremere Differenz zu ermitteln, wenn ein erwarteter Wert für die mittlere Differenz gegeben ist (p-Wert für z. B. Null-Hypothese-Signifikanz-Test) , NHST- oder Neyman-Pearson-Hypothesentest oder Fisher-Hypothesentest, Konfidenzintervalle usw.): $ p (e \ ge e_ {beobachtet} | \ mu_e = 0) $ .
Soweit ich weiß, wird der p-Wert durch die $ t $ -Verteilung (und insbesondere der $ F $ -Verteilung in Fällen mit mehr als 2 Vergleichsmitteln liefert nur dann korrekte Schätzungen für die Wahrscheinlichkeit, wenn beide (oder alle) Stichproben aus Populationen mit gleichen Varianzen gezogen werden (Homogenität der Varianz, wie bereits erwähnt) in den anderen Antworten bereits, dies sollte in (ausführlicher) in m beschrieben werden ost Statistik Lehrbücher). Ich denke, alle Verteilungen basieren auf der Normalverteilung ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) nimmt eine Varianz von mehr als 0 und weniger als $ \ infty $ an, so wäre es Es ist unmöglich, den p-Wert für einen Fall mit einer Variabilität innerhalb von 0 zu finden (in diesem Fall würden Sie offensichtlich nicht davon ausgehen, dass Sie Ihre Stichprobe aus einer Normalverteilung gezogen haben).
(Dies erscheint auch intuitiv sinnvoll: wenn ich möchte Um zwei oder mehr Mittelwerte zu vergleichen, sollte die Genauigkeit dieser Mittelwerte gleich oder zumindest vergleichbar sein:
Wenn ich meine Gentherapie A bei Personen durchführe, deren Nasenlängen ziemlich ähnlich sind, sagen Sie $ \ bar x \ pm 0,5 mm $ , aber in meiner Kontrollgruppe gibt es eine Gruppe von Personen mit hoher Variabilität der Nasenlängen, z. B. $ \ bar x \ pm 4 mm $ Es scheint nicht fair zu sein, diese Mittel direkt zu vergleichen, da diese Mittel nicht vorhanden sind die gleiche “ mittlere Bedeutung „; Tatsächlich könnte die sehr viel höhere Varianz / Standardabweichung in meiner Kontrollgruppe auf weitere Untergruppen hinweisen, möglicherweise auf Unterschiede in der Nasenlänge aufgrund von Unterschieden bei einigen Genen.)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.