Wat betekent het als ik, drie standaarddeviaties verwijderd van het gemiddelde, buiten de minimum- of maximumwaarde beland?

Ik heb een dataset met de volgende kenmerken en ik kan mijn hoofd er niet omheen slaan. “Drie st.dev.s bevatten 99,7% van de gegevens” is wat ik tegen mezelf zeg, maar dat lijkt onjuist te zijn verwoord.

Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48 

Dit vertelt me dat 99,7% van de data tussen 30 en 48 ligt, maar 100% van de data tussen 34 en 46 en dat slaat nergens op. Betekent dit gewoon dat mijn steekproef niet representatief is voor de totale populatie? Ik bedoel, het is duidelijk niet t, maar laten we aannemen dat ik niet weet dat er mensen jonger dan 34 en ouder dan 46 bestaan. Dit komt trouwens van de variabele age uit de Stata-voorbeelddataset nlsw88.dta.

Ik heb deze vraag bekeken, maar het helpt me ook niet om mijn hersenknoop los te maken. de plek om te vragen.

BEWERKEN: realiseerde me net dat dit veel vragen zijn. Beschouw alsjeblieft de koptekstvraag die moet worden beantwoord. De rest is eigenlijk gewoon mijn verknipte denkproces dat zich ontvouwt.

Opmerkingen

  • De min en max zijn de min en max van de populatie die jij observeerde . De standaarddeviatie wordt berekend op basis van de steekproefpopulatie. Ervan uitgaande dat een oneindig grote populatie met dezelfde kenmerken als de geobserveerde steekproef en een normale verdeling, 99,7% van de mensen tussen de 30 en 48 jaar zou zijn. Het gevolg is dat uw aanvankelijke steekproef groter zou moeten zijn om iemand te hebben waargenomen die minder dan 34 of hoger dan 46.

Antwoord

” Drie st.dev.s bevatten 99,7% van de gegevens ”

U moet enkele kanttekeningen plaatsen bij een dergelijke verklaring.

Het 99,7% ding is een feit over normale verdelingen – 99,7% van de populatiewaarden zal binnen drie populatie-standaarddeviaties van het populatiegemiddelde vallen.

normale dichtheid

In grote monsters * van een normale verdeling, zal dit meestal ongeveer het geval zijn – ongeveer 99,7% van de gegevens zou binnen drie steekproefstandaarddeviaties van het steekproefgemiddelde vallen (als u een steekproef uit een normale verdeling zou nemen, zou uw steekproef groot genoeg om dat ongeveer waar te laten zijn – het lijkt erop dat er ongeveer 73% kans is om $ 0,9973 \ pm 0,0010 $ te krijgen met een steekproef van die grootte).

* uitgaande van willekeurige steekproeven

Maar je hebt geen steekproef van een normale verdeling.

Als je geen beperkingen stelt aan de vorm van de verdeling, kan het werkelijke aandeel binnen 3 standaarddeviaties van het gemiddelde hoog zijn of lager.

gestandaardiseerde uniforme dichtheid $ \ qquad \ qquad ^ \ text { Voorbeeld van een distributie met 100% van de distributie binnen 2 sds van gemiddelde} $

Het aandeel van een distributie binnen 3 stan dard afwijkingen van het gemiddelde kunnen zo laag zijn als 88,9%. Mogelijk hebt u meer dan 18 standaarddeviaties nodig om 99,7% binnen te krijgen. Aan de andere kant kunt u meer dan 99,7% krijgen binnen een goede deal minder dan één standaarddeviatie. Dus de vuistregel van 99,7% helpt niet per se, tenzij je de distributievorm een beetje vastzet.

Als je je verwachting een beetje ontspant (om maar ongeveer 99,7% te zijn), dan de regel is soms nuttig zonder normaliteit te vereisen, zolang we in gedachten houden dat het niet altijd in elke situatie zal werken – zelfs bij benadering.

Opmerkingen

Antwoord

Het korte antwoord is dat uw steekproef niet precies een normale verdeling heeft gevolgd, dus suggereert dat u misschien uw basisaannames opnieuw moet onderzoeken, met name een dat u tools kunt toepassen die zijn ontworpen om te werken met een normaal verdeelde populatie.

Gewoon draai je vraag andersom voor verlichting. Als uw steekproef normaal verdeeld was, zou men verwachten dat een steekproefomvang van ~ 2000 gemiddeld 6 datapunten oplevert buiten het bereik van 30-48. De jouwe niet, wat een vraag aangeeft: Wat is de betekenis van deze afwijking van normaal voor alle voorspellingen die je doet door aan te nemen dat je bredere populatie een normale verdeling volgt?”

Dus de bredere implicatie van deze kleine anomalie is dat, hoewel uw steekproef niet ver verschilt van een normale verdeling, sommige voorspellingen die ervan uitgaan dat deze een grotere normaal verdeelde populatie vertegenwoordigt, inherent gebrekkig kunnen zijn en enige kwalificatie of verder onderzoek rechtvaardigen. Het inschatten van de waarschijnlijkheid van deze afwijking van normaal, en de impliciete foutmarges en betrouwbaarheid van de resulterende voorspellingen gaat mijn bekwaamheid echter ver te boven, hoewel gelukkig onderzocht in de vele andere antwoorden hier!

Maar je hebt duidelijk de goede gewoonte om je resultaten volledig te bekijken, je af te vragen wat je resultaten echt betekenen en of ze je oorspronkelijke hypothese bewijzen of niet. Zoek naar andere afwijkingen die in de gegevens aan het licht komen, zoals Kurtosis en Skew om te zien welke aanwijzingen ze onthullen of beschouwen andere distributies misschien als een betere representatie van uw populatie.

Opmerkingen

  • Dat of gewoon uit pure willekeur, daar waren geen datapunten in het bereik.

Antwoord

“Three st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) 99,7% van de gegevens bevatten ”verwijst naar Gaussiaanse verdelingen. Voor distributies in het algemeen legt Chebyshevs ongelijkheid een ondergrens aan de hoeveelheid kansmassa binnen $ k $ van het gemiddelde. Maar is er een bovengrens?

Met een Bernoulli-verdeling met $ p $ = .5, de $ \ sigma $ is .5. De gemiddelde $ \ mu $ is ook .5, wat betekent dat 100% van de distributie binnen $ 1 \ sigma $ of $ \ mu $ valt. Hoe zit het met kleinere aantallen standaarddeviaties ?

Opmerking: het volgende is voor de eenvoud een argument met betrekking tot distributies met $ \ mu = 0 $. De uitbreiding naar distributie met willekeurige $ \ mu $ is redelijk triviaal.

Gegeven elke positieve $ \ varepsilon $ en $ M $, er is een zodanige verdeling dat je $ \ varepsilon / 2 $ kansmassa $ \ linkerpijl M $ en $ \ varepsilon / 2 $ kansmassa $ \ gt M $ hebt. Dat wil zeggen,

$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $

Al het andere is gelijk, als $ M \ tot \ infty $, dan $ \ sigma \ to \ infty $. Echter, voor elke vaste positieve $ N $, zodra $ M $ $ N $ overschrijdt, is de waarschijnlijkheidsmassa binnen $ N $ van nul altijd $ 1- \ varepsilon $, re gardless van $ M $. Dus als we kijken naar de relatieve afstand vanaf nul (dat wil zeggen, het aantal standaarddeviaties, de waarde is $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), dan als $ M \ tot \ infty $, we hebben $ n \ tot \ infty $, waarbij $ n $ het grootste gehele getal is, zodat “$ 1- \ varepsilon $ van de waarschijnlijkheid binnen $ n \ sigma $ van $ \ mu $” waar is.

Dit toont aan dat voor alle positieve getallen $ \ varepsilon $ en $ n $, er een zodanige verdeling is dat de kans groter is dan $ n \ sigma $ vanaf nul kleiner is dan $ \ varepsilon $. Dus als u bijvoorbeeld een kans van 99,999% wilt hebben om minder dan .000001 $ \ sigma $ vanaf nul te zijn, is er een verdeling die daaraan voldoet.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *