À mesure que la taille de léchantillon augmente, pourquoi lécart type des résultats diminue-t-il? Quelquun peut-il donner un exemple profane et expliquer pourquoi

À mesure que la taille de léchantillon augmente (par exemple, une stratégie de trading avec un avantage de 80%), pourquoi la norme lécart des résultats diminue-t-il? Quelquun peut-il expliquer pourquoi lécart type devient plus petit et les résultats se rapprochent de la vraie moyenne … peut-être fournir un exemple mathématique simple et intuitif pour les profanes.

Commentaires

  • Double possible de Quelle explication intuitive y a-t-il pour le théorème de la limite centrale?
  •  » Lécart type des résultats  » est ambigu (quels résultats ??) – et donc la déclaration très générale dans le titre est strictement fausse (des contre-exemples évidents existent; il ‘ nest que parfois vrai). Il peut être préférable de spécifier un exemple particulier (comme la distribution déchantillonnage des moyennes déchantillon, qui a la propriété que lécart-type diminue à mesure que la taille de léchantillon augmente).
  • Lécart-type ne ‘ t diminue nécessairement à mesure que la taille de léchantillon augmente. Lerreur standard de la moyenne fait cependant, peut-être que ‘ est ce que vous ‘ référence, dans ce cas, nous sommes plus sûrs où le signifie que la taille de léchantillon augmente.
  • Oui, je dois plutôt parler derreur standard. Pourquoi lerreur déchantillon de la moyenne diminue-t-elle? Pouvez-vous sil vous plaît fournir des mathématiques simples et non abstraites pour montrer visuellement pourquoi. Pourquoi obtenons-nous ‘ plus sûrs ‘ où la moyenne est à mesure que la taille de léchantillon augmente (dans mon cas, les résultats sont en fait une représentation plus proche de un taux de réussite de 80%) comment cela se produit-il?

Réponse

À mesure que la taille de léchantillon augmente (par exemple, une stratégie de trading avec un avantage de 80%), pourquoi lécart type des résultats diminue-t-il?

Le concept clé ici est celui de «résultats». Quels sont ces résultats ? Les résultats sont les variances des estimateurs des paramètres de population tels que la moyenne $ \ mu $.

Par exemple, si vous « mesurez la variance de léchantillon $ s ^ 2_j $ des valeurs $ x_ {i_j} $ dans votre échantillon $ j $, il ne devient pas plus petit avec une taille déchantillon plus grande $ n_j $: $$ s ^ 2_j = \ frac 1 {n_j-1} \ sum_ {i_j} (x_ { i_j} – \ bar x_j) ^ 2 $$ où $ \ bar x_j = \ frac 1 n_j \ sum_ {i_j} x_ {i_j} $ est une moyenne déchantillon.

Cependant, lestimateur de la variance $ s ^ 2_ \ mu $ dune moyenne déchantillon $ \ bar x_j $ diminuera avec la taille de léchantillon: $$ \ frac 1 n_js ^ 2_j $$

Lexplication profane va comme ceci. Supposons que la taille totale de la population soit de $ n $. Si nous regardions chaque valeur $ x_ {j = 1 \ dots n} $, notre moyenne déchantillon aurait été égale à la vraie moyenne: $ \ bar x_j = \ mu $. En dautres termes, lincertitude serait nulle, et la variance de lestimateur serait également nulle: $ s ^ 2_j = 0 $

Cependant, lorsque vous ne regardez que léchantillon de taille $ n_j $ . Vous calculez lestimateur moyen de léchantillon $ \ bar x_j $ avec lincertitude $ s ^ 2_j > 0 $. Donc, quelque part entre la taille de léchantillon $ n_j $ et $ n $ lincertitude (variance ) de léchantillon signifie que $ \ bar x_j $ a diminué de non nul à zéro. Cest lexplication la plus simple que je puisse trouver.

Réponse

La manière la plus simple dy penser est peut-être la différence entre une population et un échantillon. Si je vous demande quelle est la moyenne dune variable dans votre échantillon , vous ne me donnez pas destimation, nest-ce pas? Vous vous contentez de la calculer et de me dire, car, par définition, vous avez tout les données qui composent léchantillon et peuvent donc observer directement la statistique dintérêt. Les coefficients de corrélation ne sont pas différents en ce sens: si je vous demande quelle est la corrélation entre X et Y dans votre échantillon , et je clairement ne se soucient pas de ce quil est en dehors de léchantillon et dans la population plus large (réelle ou métaphysique) dont il est tiré, alors il suffit de croiser les chiffres et de me dire, aucune théorie des probabilités nest impliquée.

Maintenant, que se passe-t-il si nous nous soucions de la corrélation entre ces deux variables en dehors de léchantillon, cest-à-dire soit dans une population non observée, soit dans la dynamique causale inobservable et en quelque sorte constante de la réalité? (Si nous la alors la population est une « superpopulation »; voir par exemple https://www.jstor.org/stable/2529429 .) Ensuite, bien sûr, nous faisons des tests de signification et utilisons autrement ce que nous savons, dans léchantillon, pour estimer ce que nous ne savons pas, dans la population, y compris lécart-type de la population qui commence à arriver à ta question.

Mais pensons-y dabord de lautre extrême, où nous rassemblons un échantillon qui est si grand quil devient simplement la population.Imaginez des données de recensement si la question de recherche concerne lensemble de la population réelle du pays, ou peut-être une théorie scientifique générale et nous avons un «échantillon» infini: alors, encore une fois, si je veux savoir comment le monde fonctionne, je tire parti mon omnipotence et juste calculer, plutôt que simplement estimer, ma statistique dintérêt. Et si jai alors un brainfart et que je ne suis plus omnipotent, mais que jen suis toujours proche, de sorte quil me manque une observation et que mon échantillon est maintenant une observation à court de capturer la population entière? Maintenant, je dois à nouveau faire des estimations, avec une plage de valeurs que cela pourrait prendre avec des probabilités variables – je ne peux plus le localiser – mais ce que je suis en train destimer est toujours, en réalité, un seul nombre – un point sur le nombre ligne, pas une plage – et jai encore des tonnes de données, donc je peux dire avec 95% de confiance que la vraie statistique dintérêt se situe quelque part dans une très petite plage. Tout dépend bien sûr de la ou des valeurs La dernière observation se trouve être, mais ce nest quune observation, donc il faudrait que ce soit complètement hors de lordinaire afin de changer beaucoup ma statistique dintérêt, ce qui, bien sûr, est peu probable et se reflète dans mon intervalle de confiance étroit.

Le revers de cette médaille raconte la même histoire: la montagne de données que je possède pourrait, par pure coïncidence, mamener à calculer des exemples de statistiques très différentes de ce que je calculerais si je pourrait simplement augmenter ces données avec les observations qui me manquent, mais les chances d’avoir tiré un échantillon si trompeur et biaisé purement par hasard sont vraiment, vraiment faibles. Cest essentiellement ce que je compte et que je communique lorsque je signale mon intervalle de confiance très étroit pour savoir où se trouve réellement la statistique de population dintérêt.

Maintenant, si nous reculons à partir de là, bien sûr, la confiance commence à diminuer, et donc lintervalle des valeurs de population plausibles – peu importe où cet intervalle se situe sur la droite numérique – commence à sélargir. Mon échantillon est toujours déterministe, comme toujours, et je peux calculer les moyennes déchantillon et les corrélations, et je peux traiter ces statistiques comme sil sagissait daffirmations sur ce que je calculerais si javais des données complètes sur la population, mais plus léchantillon est petit, plus je dois être sceptique à propos de ces affirmations, et plus je dois créditer la possibilité que ce Je verrais vraiment que les données démographiques seraient très éloignées de ce que je vois dans cet échantillon. Il sagit donc de répondre à votre question en quelque sorte à lenvers: nos estimations de toute statistique hors échantillon deviennent plus fiables et convergent vers un seul point , rep ressentir certaines connaissances avec des données complètes, pour la même raison qu’elles deviennent moins sûres et s’étendent plus largement moins nous avons de données.

Il est également important de comprendre que l’écart type d’une statistique fait spécifiquement référence et quantifie les probabilités dobtenir différentes statistiques déchantillons dans différents échantillons, tous tirés au hasard de la même population, qui, encore une fois, na elle-même quune seule vraie valeur pour cette statistique dintérêt. Il ny a pas du tout décart type de cette statistique dans la population elle-même – cest un nombre constant et ne varie pas. Une variable, en revanche, a un écart-type qui lui est propre, à la fois dans la population et dans tout échantillon donné, puis il y a lestimation de de cet écart-type de population que vous pouvez faire étant donné lécart type connu de cette variable dans un échantillon donné dune taille donnée. Il est donc important de garder toutes les références droites, lorsque vous pouvez avoir un écart-type (ou plutôt une erreur type) autour dune estimation ponctuelle dune population écart type de la variable, basé sur l’écart type de cette variable dans votre échantillon. Il n’ya pas de moyen plus simple d’en parler.

Et enfin, notez que oui, il est certainement possible pour un échantillon pour vous donner une représentation biaisée des variances de la population, donc, bien que ce soit relativement peu probable, il est toujours possible quun échantillon plus petit ne vous ment pas seulement sur la statistique de population dintérêt, mais vous ment également sur combien vous devriez vous attendre à ce que cette statistique dintérêt varie de le à échantillonner. Il ny a aucun moyen de contourner cela. Pensez-y comme si quelquun fait une réclamation et ensuite vous leur demandez sils mentent. Peut-être quils disent oui, auquel cas vous pouvez être sûr quils ne vous disent rien qui vaut la peine dêtre considéré. Mais sils disent non, vous êtes un peu de retour à la case départ. Soit ils mentent, soit ils ne le sont pas, et si vous navez personne dautre à qui demander, vous devez simplement choisir de les croire ou non. (Les Bayésiens semblent penser quils ont une meilleure façon de prendre cette décision, mais je ne suis humblement pas daccord.)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *