Jai un ensemble de données avec les caractéristiques suivantes et je narrive pas à men occuper. « Trois st.dev.s contiennent 99,7% des données », cest ce que je me dis, mais cela semble être mal formulé.
Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48
Cela me dit que 99,7% des données se trouvent entre 30 et 48, mais 100% des données se trouvent entre 34 et 46 et cela na pas de sens. Cela signifie-t-il simplement que mon échantillon nest pas représentatif de la population totale? Je veux dire, évidemment, ce n’est pas, mais supposons que je ne sache pas qu’il existe des humains de moins de 34 ans et de plus de 46 ans. Au fait, cela provient de la variable age
de léchantillon de données Stata nlsw88.dta
.
Jai examiné cette question , mais cela ne maide pas non plus à dénouer mon nœud cérébral. ht endroit pour demander.
EDIT: Je viens de réaliser que ce sont de nombreuses questions. Veuillez considérer la question den-tête comme celle qui nécessite une réponse. Le reste est à peu près juste mon processus de pensée désordonné qui se déroule.
Commentaires
- Le min et le max sont les min et max de la population qui vous avez observé . Lécart type est calculé à partir de léchantillon de population. En supposant alors une population infiniment grande avec les mêmes caractéristiques que léchantillon observé, et une distribution normale, 99,7% des personnes seraient entre 30 et 48. Le corollaire est que votre échantillon initial aurait dû être plus grand pour avoir observé quelquun de moins de 34 ou plus de 46.
Réponse
» Trois st.dev.s contiennent 99,7% des données »
Vous devez ajouter quelques mises en garde à une telle déclaration.
La chose à 99,7% est un fait concernant les distributions normales – 99,7% des valeurs de la population seront à moins de trois écarts-types de la population par rapport à la moyenne de la population.
En grands échantillons * à partir dun distribution normale, ce sera généralement approximativement le cas – environ 99,7% des données seraient à moins de trois écarts-types déchantillon de la moyenne de léchantillon (si vous échantillonniez à partir dune distribution normale, votre échantillon devrait être assez grand pour que cela soit approximativement vrai – il semble quil y ait environ 73% de chances dobtenir 0,9973 $ \ pm 0,0010 $ avec un échantillon de cette taille).
* en supposant un échantillonnage aléatoire
Mais vous ne disposez pas dun échantillon dune distribution normale.
Si vous ne mettez pas de restrictions sur la forme de la distribution, la proportion réelle à moins de 3 écarts-types de la moyenne peut être élevée ou inférieure.
$ \ qquad \ qquad ^ \ text { Exemple de distribution avec 100% de la distribution dans 2 sds de moyenne} $
La proportion dune distribution dans 3 stan les écarts importants de la moyenne pourraient être aussi bas que 88,9%. Vous pouvez avoir besoin de plus de 18 écarts types pour obtenir 99,7%. Dun autre côté, vous pouvez obtenir plus de 99,7% avec beaucoup moins dun écart type. Donc, la règle empirique des 99,7% nest pas forcément très utile à moins que vous népingliez un peu la forme de distribution.
Si vous relâchez un peu vos attentes (pour être seulement très « approximativement » 99,7%), alors la règle est parfois utile sans exiger la normalité tant que nous gardons à l esprit quelle ne fonctionnera pas toujours dans toutes les situations – même approximativement.
Commentaires
- Je soupçonne que votre 88,9% provient de en.wikipedia.org/wiki / Kolmogorov% 27s_inequality . Jétais assez bon en classe de probabilité mais cétait il y a de nombreuses années.
- @emory Je pense que ‘ est juste chebyshev ‘ s inégalité 🙂
- @Ant Merci. Cela semble juste. en.wikipedia.org/wiki/Chebyshev%27s_inequality
- Oui, il ‘ s Linégalité de Chebyshev ‘.
Réponse
La réponse courte est que votre échantillon na pas suivi précisément une distribution normale, donc suggère que vous pourriez avoir besoin de réexaminer vos hypothèses de base, en particulier celles que vous pouvez appliquer des outils conçus pour travailler avec une population normalement distribuée.
Juste tournez votre question dans lautre sens pour lillumination. Si votre échantillon était normalement distribué, alors on sattendrait à ce quune taille déchantillon de ~ 2000 produise 6 points de données en dehors de la plage 30-48, en moyenne. La vôtre ne le fait pas, ce qui soulève une question: «Quelle est la signification de cet écart par rapport à la normale pour toutes les prédictions que vous faites en supposant que votre population au sens large suit une distribution normale? »
Limplication plus large de cette petite anomalie est que, bien que votre échantillon ne diffère pas loin dune distribution normale, certaines prévisions faites en supposant quil représente une population normalement distribuée plus importante pourraient être intrinsèquement défectueuses et justifie une certaine réserve ou une enquête plus approfondie. Cependant, estimer la probabilité de cet écart par rapport à la normale, ainsi que les marges derreur implicites et la fiabilité des prévisions qui en résultent est bien au-delà de mon niveau de capacité, bien que heureusement exploré dans les nombreuses autres réponses ici!
Mais vous avez clairement une bonne habitude dexaminer vos résultats dans leur intégralité, de vous demander ce que vos résultats signifient réellement et sils prouvent ou non votre hypothèse dorigine. Recherchez dautres anomalies révélées dans les données, comme Kurtosis et Skew pour voir quels indices ils révèlent ou considèrent peut-être dautres distributions comme représentant mieux votre population.
Commentaires
- Cela ou simplement par pur hasard, là il ny avait aucun point de données dans la plage.
Réponse
« Trois st.dev.s (3 $ \ sqrt {\ sigma ^ 2} $) incluent 99,7% des données »fait référence aux distributions gaussiennes. Pour les distributions en général, linégalité de Chebyshev met une borne inférieure sur le montant de la masse de probabilité avec $ k $ de la moyenne. Mais y a-t-il une borne supérieure?
Avec une distribution de Bernoulli avec $ p $ = .5, le $ \ sigma $ est de .5. La moyenne $ \ mu $ est également de .5, ce qui signifie que 100% de la distribution se situe dans les limites de $ 1 \ sigma $ ou $ \ mu $. Quen est-il des plus petits nombres décarts types ?
Remarque: ce qui suit, pour simplifier, est un argument concernant les distributions avec $ \ mu = 0 $. Son extension à la distribution avec $ \ mu $ arbitraire est raisonnablement triviale.
Étant donné tout $ \ varepsilon $ positif et $ M $, il existe une distribution telle que vous avez $ \ varepsilon / 2 $ probabilité masse $ \ leftarrow M $ et $ \ varepsilon / 2 $ probabilité masse $ \ gt M $. Autrement dit,
$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $
Toutes choses étant égales par ailleurs, comme $ M \ à \ infty $, puis $ \ sigma \ to \ infty $. Cependant, pour tout $ N $ positif fixe, une fois que $ M $ dépasse $ N $, la masse de probabilité à lintérieur de $ N $ de zéro est toujours $ 1- \ varepsilon $, re sans frais de $ M $. Ainsi, si nous regardons la distance relative à partir de zéro (cest-à-dire le nombre décarts types, la valeur est $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), alors comme $ M \ to \ infty $, nous avons $ n \ to \ infty $, où $ n $ est le plus grand entier tel que « $ 1- \ varepsilon $ de la probabilité soit à moins de $ n \ sigma $ de $ \ mu $ » soit vrai.
Cela montre que pour tous les nombres positifs $ \ varepsilon $ et $ n $, il existe une distribution telle que la probabilité dêtre supérieur à $ n \ sigma $ à partir de zéro est inférieure à $ \ varepsilon $. Ainsi, par exemple, si vous voulez une probabilité de 99,999% dêtre inférieure à .000001 $ \ sigma $ à partir de zéro, il existe une distribution qui satisfait cela.