Ich habe einen Datensatz mit den folgenden Merkmalen und kann meinen Kopf scheinbar nicht darum wickeln. „Drei st.dev.s enthalten 99,7% der Daten“, sage ich mir, aber das scheint falsch zu sein.
Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48
Dies sagt mir dass 99,7% der Daten innerhalb von 30 und 48 liegen, aber 100% der Daten innerhalb von 34 und 46 liegen und das macht keinen Sinn. Bedeutet das nur, dass meine Stichprobe nicht repräsentativ für die Gesamtbevölkerung ist? Ich meine natürlich, es ist nicht „t, aber nehmen wir an, ich weiß nicht, dass Menschen existieren, die jünger als 34 und älter als 46 sind. Übrigens ist dies von der Variablen age
aus dem Stata-Beispieldatensatz nlsw88.dta
.
Ich habe mir diese Frage angesehen. aber es hilft mir auch nicht, meinen Gehirnknoten zu lösen. ht Ort zu fragen.
EDIT: Ich habe gerade festgestellt, dass dies viele Fragen sind. Bitte betrachten Sie die Header-Frage als die, die eine Antwort benötigt. Der Rest ist so ziemlich nur mein durcheinandergebrachter Denkprozess.
Kommentare
- Das Minimum und das Maximum sind das Minimum und das Maximum der Bevölkerung, die Sie beobachtet . Die Standardabweichung wird aus der Stichprobenpopulation berechnet. Unter der Annahme einer unendlich großen Population mit den gleichen Merkmalen wie die beobachtete Stichprobe und einer Normalverteilung wären 99,7% der Menschen zwischen 30 und 48 Jahre alt. Die Folge wäre, dass Ihre ursprüngliche Stichprobe größer gewesen wäre, um jemanden zu beobachten, der kleiner als ist 34 oder mehr als 46.
Antwort
“ Drei st.dev.s enthalten 99,7% der Daten. ”
Sie müssen einer solchen Anweisung einige Einschränkungen hinzufügen.
Bei 99,7% handelt es sich um eine Tatsache über Normalverteilungen – 99,7% der Bevölkerungswerte liegen innerhalb von drei Standardabweichungen der Bevölkerung vom Bevölkerungsdurchschnitt.
In großen Stichproben * aus a Normalverteilung ist dies normalerweise ungefähr der Fall – ungefähr 99,7% der Daten liegen innerhalb von drei Standardabweichungen der Stichprobe vom Stichprobenmittelwert (wenn Sie eine Stichprobe aus einer Normalverteilung gezogen haben, sollte Ihre Stichprobe sein groß genug, um ungefähr wahr zu sein – es sieht so aus, als ob es eine 73% ige Chance gibt, mit einer Stichprobe dieser Größe 0,9973 \ pm 0,0010 $ zu erhalten.
* unter der Annahme einer zufälligen Stichprobe
Sie haben jedoch keine Stichprobe aus einer Normalverteilung.
Wenn Sie die Verteilungsform nicht einschränken, kann der tatsächliche Anteil innerhalb von 3 Standardabweichungen vom Mittelwert hoch oder hoch sein niedriger.
$ \ qquad \ qquad ^ \ text { Beispiel einer Verteilung mit 100% der Verteilung innerhalb von 2 SDs des Mittelwerts} $
Der Anteil einer Verteilung innerhalb von 3 Stan Die Abweichungen des Mittelwerts könnten nur 88,9% betragen. Möglicherweise benötigen Sie mehr als 18 Standardabweichungen, um 99,7% zu erhalten. Andererseits können Sie mehr als 99,7% innerhalb eines deutlich geringeren als einer Standardabweichung erzielen. Die Faustregel von 99,7% ist also nicht unbedingt hilfreich, es sei denn, Sie legen die Verteilungsform ein wenig fest.
Wenn Sie Ihre Erwartung ein wenig lockern (nur sehr „ungefähr“ 99,7%), dann Die Regel ist manchmal nützlich, ohne Normalität zu erfordern, solange wir bedenken, dass sie nicht immer in jeder Situation funktioniert – auch nicht annähernd.
Kommentare
- Ich vermute, dass Ihre 88,9% von en.wikipedia.org/wiki stammen / Kolmogorov% 27s_inequality . Ich war ziemlich gut in der Wahrscheinlichkeitsklasse, aber das war vor vielen Jahren.
- @emory Ich denke, es ist ‚ nur chebyshev ‚ s Ungleichung 🙂
- @Ant Danke. Das klingt richtig. de.wikipedia.org/wiki/Chebyshev%27s_inequality
- Ja, es ist ‚ s Chebyshev ‚ s Ungleichung.
Antwort
Die kurze Antwort ist, dass Ihre Stichprobe nicht genau einer Normalverteilung gefolgt ist, was darauf hindeutet, dass Sie möglicherweise Ihre Grundannahmen überprüfen müssen, insbesondere eine, mit der Sie Tools anwenden können, die für die Arbeit mit einer normalverteilten Population entwickelt wurden.
Nur Drehen Sie Ihre Frage zur Erleuchtung um. Wenn Ihre Stichprobe normal verteilt wäre, würde man erwarten, dass eine Stichprobengröße von ~ 2000 durchschnittlich 6 Datenpunkte außerhalb des Bereichs von 30 bis 48 ergibt. Ihre nicht, was eine Frage signalisiert: „Welche Bedeutung hat diese Abweichung vom Normalwert für Vorhersagen, die Sie treffen, wenn Sie davon ausgehen, dass Ihre breitere Bevölkerung einer Normalverteilung folgt?“
Die breitere Implikation dieser kleinen Anomalie ist also, dass, obwohl Ihre Stichprobe möglicherweise nicht weit von einer Normalverteilung abweicht, einige Prognosen unter der Annahme, dass sie eine größere normalverteilte Population darstellt, von Natur aus fehlerhaft sein können und möglicherweise fehlerhaft sind Eine gewisse Qualifikation oder weitere Untersuchung ist erforderlich. Die Schätzung der Wahrscheinlichkeit dieser Abweichung vom Normalwert sowie der impliziten Fehlergrenzen und der Zuverlässigkeit der resultierenden Prognosen liegt jedoch weit über meinen Fähigkeiten, obwohl dies glücklicherweise in den vielen anderen Antworten hier untersucht wurde!
Aber Sie haben eindeutig die gute Angewohnheit, Ihre Ergebnisse vollständig zu überprüfen, zu hinterfragen, was Ihre Ergebnisse wirklich bedeuten und ob sie Ihre ursprüngliche Hypothese beweisen oder nicht. Suchen Sie nach weiteren Anomalien in den Daten, wie Kurtosis und Skew, um festzustellen, welche Hinweise vorliegen Sie enthüllen oder betrachten andere Verteilungen als besser repräsentativ für Ihre Bevölkerung.
Kommentare
- Das oder nur aus reiner Zufälligkeit waren keine Datenpunkte im Bereich.
Antwort
“Drei st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) enthält 99,7% der Daten ”bezieht sich auf Gaußsche Verteilungen. Für Verteilungen im Allgemeinen legt Chebyshevs Ungleichung eine Untergrenze für den Betrag der Wahrscheinlichkeitsmasse mit $ k $ des Mittelwerts fest. Aber gibt es eine Obergrenze?
Bei einer Bernoulli-Verteilung mit $ p $ = .5, das $ \ sigma $ ist .5. Der Mittelwert von $ \ mu $ ist ebenfalls .5, was bedeutet, dass 100% der Verteilung innerhalb von $ 1 \ sigma $ oder $ \ mu $ liegt. Was ist mit einer geringeren Anzahl von Standardabweichungen? ?
Hinweis: Der Einfachheit halber ist das Folgende ein Argument für Verteilungen mit $ \ mu = 0 $. Die Erweiterung auf Verteilungen mit beliebigen $ \ mu $ ist ziemlich trivial.
Gegeben Für alle positiven $ \ varepsilon $ und $ M $ gibt es eine Verteilung, bei der Sie $ \ varepsilon / 2 $ Wahrscheinlichkeitsmasse $ \ leftarrow M $ und $ \ varepsilon / 2 $ Wahrscheinlichkeitsmasse $ \ gt M $ haben.
$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $
Alle anderen sind gleich, als $ M \ bis \ infty $, dann $ \ sigma \ to \ infty $. Wenn jedoch für jedes feste positive $ N $ $ M $ $ N $ überschreitet, beträgt die Wahrscheinlichkeitsmasse innerhalb von $ N $ von Null immer $ 1- \ varepsilon $, re ohne $ M $. Wenn wir also den relativen Abstand von Null betrachten (dh die Anzahl der Standardabweichungen, deren Wert $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $ ist), dann als $ M \ bis \ Infty $ haben wir $ n \ bis \ Infty $, wobei $ n $ die größte Ganzzahl ist, so dass „$ 1- \ varepsilon $ der Wahrscheinlichkeit innerhalb von $ n \ sigma $ von $ \ mu $“ wahr ist.
Dies zeigt, dass es für alle positiven Zahlen $ \ varepsilon $ und $ n $ eine gewisse Verteilung gibt, so dass die Wahrscheinlichkeit, mehr als $ n \ sigma $ von Null zu sein, geringer als $ \ varepsilon $ ist. Wenn Sie beispielsweise eine Wahrscheinlichkeit von 99,999% von weniger als 0,000001 $ \ sigma $ von Null wünschen, gibt es eine Verteilung, die dies erfüllt.