Warum wird die Standardabweichung der Ergebnisse mit zunehmender Stichprobengröße kleiner? Kann jemand bitte ein Beispiel für Laien geben und erklären, warum

Mit zunehmender Stichprobengröße (z. B. eine Handelsstrategie mit einem Vorsprung von 80%) der Standard funktioniert Abweichung der Ergebnisse wird kleiner? Kann jemand bitte erklären, warum die Standardabweichung kleiner wird und die Ergebnisse näher am wahren Mittelwert liegen … vielleicht ein einfaches, intuitives mathematisches Beispiel für Laien.

Kommentare

  • Mögliches Duplikat von Welche intuitive Erklärung gibt es für den zentralen Grenzwertsatz?
  • “ Die Standardabweichung der Ergebnisse “ ist nicht eindeutig (welche Ergebnisse ??) – und Daher ist die sehr allgemeine Aussage im Titel absolut falsch (offensichtliche Gegenbeispiele existieren; ‚ ist nur manchmal wahr). Es ist möglicherweise besser, ein bestimmtes Beispiel anzugeben (z. B. die Stichprobenverteilung der Stichprobenmittel, die die Eigenschaft hat, dass die Standardabweichung mit zunehmender Stichprobengröße abnimmt).
  • Die Standardabweichung ist nicht ‚ nimmt nicht unbedingt ab, wenn die Stichprobengröße größer wird. Der Standardfehler des Mittelwerts ist jedoch möglicherweise, dass ‚ das ist, worauf Sie ‚ verweisen. In diesem Fall sind wir sicherer, wo die Mittelwert ist, wenn die Stichprobengröße zunimmt.
  • Ja, ich muss stattdessen Standardfehler gemeint haben. Warum nimmt der Stichprobenfehler des Mittelwerts ab? Können Sie bitte eine einfache, nicht abstrakte Mathematik bereitstellen, um visuell zu zeigen, warum? Warum erhalten wir ‚ sicherer ‚, wenn der Mittelwert mit zunehmender Stichprobengröße liegt (in meinem Fall sind die Ergebnisse tatsächlich eine engere Darstellung von eine Gewinnrate von 80%) wie kommt es dazu?

Antwort

Warum wird die Standardabweichung der Ergebnisse mit zunehmender Stichprobengröße (z. B. einer Handelsstrategie mit einer Kante von 80%) kleiner?

Das Schlüsselkonzept hier ist „Ergebnisse“. Was sind diese Ergebnisse ? Die Ergebnisse sind die Varianzen von Schätzern von Populationsparametern wie dem Mittelwert $ \ mu $.

Wenn Sie beispielsweise die Stichprobenvarianz $ s ^ 2_j $ von Werten messen $ x_ {i_j} $ in Ihrer Stichprobe $ j $ wird es bei größerer Stichprobe nicht kleiner $ n_j $: $$ s ^ 2_j = \ frac 1 {n_j-1} \ sum_ {i_j} (x_ { i_j} – \ bar x_j) ^ 2 $$ wobei $ \ bar x_j = \ frac 1 n_j \ sum_ {i_j} x_ {i_j} $ ein Stichprobenmittelwert ist.

Der Schätzer der Varianz $ s ^ 2_ \ mu $ eines Stichprobenmittelwerts $ \ bar x_j $ nimmt mit der Stichprobengröße ab: $$ \ frac 1 n_js ^ 2_j $$

Die Erklärung für Laien lautet wie folgt. Angenommen, die gesamte Bevölkerungsgröße beträgt $ n $. Wenn wir uns jeden Wert $ x_ {j = 1 \ dots n} $ angesehen hätten, wäre unser Stichprobenmittelwert gleich dem wahren Mittelwert gewesen: $ \ bar x_j = \ mu $. Mit anderen Worten, die Unsicherheit wäre Null, und die Varianz des Schätzers wäre auch Null: $ s ^ 2_j = 0 $

Wenn Sie jedoch nur die Stichprobe der Größe $ n_j $ betrachten Sie berechnen den Stichprobenmittelwertschätzer $ \ bar x_j $ mit der Unsicherheit $ s ^ 2_j > 0 $. Irgendwo zwischen der Stichprobengröße $ n_j $ und $ n $ liegt also die Unsicherheit (Varianz) ) des Stichprobenmittelwerts $ \ bar x_j $ hat sich von ungleich Null auf Null verringert. Dies ist die einfachste Erklärung, die ich finden kann.

Antwort

Vielleicht ist es am einfachsten, über den Unterschied zwischen einer Population und einer Stichprobe nachzudenken. Wenn ich Sie frage, was der Mittelwert einer Variablen in Ihrer Stichprobe ist, geben Sie mir keine Schätzung, oder? Sie berechnen sie einfach und sagen es mir, weil Sie per Definition alles haben die Daten, die die Stichprobe umfassen und daher die interessierende Statistik direkt beobachten können. Korrelationskoeffizienten unterscheiden sich in diesem Sinne nicht: Wenn ich Sie frage, wie die Korrelation zwischen X und Y in Ihrer Stichprobe und I ist Es ist klar, dass es egal ist, was es außerhalb der Stichprobe und in der größeren Population (real oder metaphysisch) ist, aus der es stammt. Dann knacken Sie einfach die Zahlen und sagen mir, dass keine Wahrscheinlichkeitstheorie involviert ist.

Was ist nun, wenn wir uns um die Korrelation zwischen diesen beiden Variablen außerhalb der Stichprobe kümmern, dh entweder in einer nicht beobachteten Population oder in der nicht beobachtbaren und in gewissem Sinne konstanten kausalen Dynamik der Realität? (Wenn wir sie als letztere verstehen dann ist die Bevölkerung eine „Superpopulation“, siehe zum Beispiel https://www.jstor.org/stable/2529429 .) Dann führen wir natürlich Signifikanztests durch und verwenden ansonsten das, was wir in der Stichprobe wissen, um abzuschätzen, was wir in der Bevölkerung nicht wissen, einschließlich der Standardabweichung der Bevölkerung, die anfängt zu erreichen Ihre Frage.

Aber lassen Sie uns zuerst über das andere Extrem nachdenken, wo wir eine Stichprobe sammeln, die so groß ist, dass sie einfach zur Bevölkerung wird.Stellen Sie sich Volkszählungsdaten vor, wenn es sich bei der Forschungsfrage um die gesamte reale Bevölkerung des Landes handelt oder wenn es sich um eine allgemeine wissenschaftliche Theorie handelt und wir eine unendliche „Stichprobe“ haben: Wenn ich wiederum wissen möchte, wie die Welt funktioniert, nutze ich sie meine Allmacht und nur meine Statistik von Interesse berechnen, anstatt nur zu schätzen. Was ist, wenn ich dann einen Brainfart habe und nicht mehr allmächtig bin, aber immer noch nah dran bin, so dass mir eine Beobachtung fehlt und meine Stichprobe jetzt eine Beobachtung ist, bei der die gesamte Bevölkerung nicht erfasst wird? Jetzt muss ich erneut Schätzungen vornehmen, mit einem Wertebereich, den es mit unterschiedlichen Wahrscheinlichkeiten annehmen könnte – ich kann es nicht mehr genau bestimmen -, aber das, was ich schätze, ist in Wirklichkeit immer noch eine einzelne Zahl – ein Punkt auf der Zahl Linie, kein Bereich – und ich habe immer noch Tonnen von Daten, daher kann ich mit 95% iger Sicherheit sagen, dass die wahre Statistik von Interesse irgendwo in einem sehr kleinen Bereich liegt. Es hängt natürlich alles davon ab, welchen Wert (welche Werte) davon haben Die letzte Beobachtung ist zufällig, aber es ist nur eine Beobachtung, daher müsste sie verrückt ungewöhnlich sein, um meine interessierende Statistik stark zu ändern, was natürlich unwahrscheinlich ist und sich in meinem engen Konfidenzintervall widerspiegelt.

Die andere Seite dieser Münze erzählt die gleiche Geschichte: Der Datenberg, den ich habe, könnte mich zufällig dazu veranlassen, Stichprobenstatistiken zu berechnen, die sich stark von denen unterscheiden, die ich berechnen würde, wenn ich könnte diese Daten nur mit den Beobachtungen ergänzen, die mir fehlen, aber die Chancen, sie zu haben Eine solche irreführende, rein zufällige voreingenommene Stichprobe ist wirklich sehr, sehr niedrig. Das ist im Grunde das, was ich bilde und kommuniziere, wenn ich mein sehr enges Konfidenzintervall für den Ort anzeige, an dem die interessierende Bevölkerungsstatistik wirklich liegt.

Wenn wir von dort aus rückwärts gehen, beginnt natürlich das Vertrauen zu verringern, und somit beginnt sich das Intervall plausibler Populationswerte – unabhängig davon, wo dieses Intervall auf der Zahlenlinie liegt – zu erweitern. Meine Stichprobe ist wie immer deterministisch, und ich kann Stichprobenmittelwerte und Korrelationen berechnen und diese Statistiken behandeln als ob es sich um Behauptungen darüber handelt, was ich berechnen würde, wenn ich vollständige Daten über die Bevölkerung hätte, aber je kleiner die Stichprobe, desto skeptischer muss ich gegenüber diesen Behauptungen sein und desto mehr Glaubwürdigkeit muss ich der Möglichkeit geben, dass was Ich würde wirklich sehen, dass Bevölkerungsdaten weit von dem entfernt sind, was ich in dieser Stichprobe sehe. All dies dient dazu, Ihre Frage in umgekehrter Reihenfolge zu beantworten: Unsere Schätzungen von Statistiken außerhalb der Stichprobe werden sicherer und konvergieren in einem einzigen Punkt , rep Bestimmte Kenntnisse mit vollständigen Daten zu ärgern, aus dem gleichen Grund, dass sie weniger sicher werden und umso breiter sind, je weniger Daten wir haben.

Es ist auch wichtig zu verstehen, dass die Standardabweichung einer Statistik ist bezieht sich speziell auf und quantifiziert die Wahrscheinlichkeiten, unterschiedliche Stichprobenstatistiken in unterschiedlichen Stichproben zu erhalten, die alle zufällig aus derselben Grundgesamtheit stammen, die wiederum selbst nur einen wahren Wert für diese interessierende Statistik hat. Es gibt überhaupt keine Standardabweichung dieser Statistik in der Bevölkerung selbst – sie ist eine konstante Zahl und variiert nicht. Eine Variable hat andererseits eine eigene Standardabweichung, sowohl in der Grundgesamtheit als auch in einer bestimmten Stichprobe, und dann gibt es die Schätzung dieser Grundgesamtheitsabweichung, die Sie angeben können die bekannte Standardabweichung dieser Variablen innerhalb einer bestimmten Stichprobe einer bestimmten Größe. Daher ist es wichtig, alle Referenzen gerade zu halten, wenn Sie eine Standardabweichung (oder vielmehr einen Standardfehler) um eine Punktschätzung einer Population haben können Die Standardabweichung der Variablen basiert auf der Standardabweichung dieser Variablen in Ihrer Stichprobe. Es gibt einfach keinen einfacheren Weg, darüber zu sprechen.

Und schließlich ist zu beachten, dass dies sicherlich möglich ist eine Stichprobe, um Ihnen eine voreingenommene Darstellung der Varianzen in der Bevölkerung zu geben. Obwohl dies relativ unwahrscheinlich ist, ist es immer möglich, dass eine kleinere Stichprobe Sie nicht nur über die interessierende Bevölkerungsstatistik belügt, sondern auch über Sie Wie sehr sollten Sie erwarten, dass diese Statistik von Interesse von Samp abweicht? le zu probieren. Daran führt kein Weg vorbei. Stellen Sie sich vor, jemand macht einen Anspruch geltend, und dann fragen Sie ihn, ob er lügt. Vielleicht sagen sie ja, in diesem Fall können Sie sicher sein, dass sie Ihnen „nichts sagen, was es wert ist, in Betracht gezogen zu werden. Aber wenn sie nein sagen, sind Sie wieder auf dem ersten Platz. Entweder lügen sie oder sie lügen nicht, und wenn Sie niemanden zu fragen haben, müssen Sie nur entscheiden, ob Sie ihnen glauben wollen oder nicht. (Bayesianer scheinen zu glauben, dass sie einen besseren Weg haben, um diese Entscheidung zu treffen, aber ich bin demütig anderer Meinung.)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.