Hva betyr det, når jeg tre standardavvik unna gjennomsnittet, lander jeg utenfor minimums- eller maksimumsverdien?

Jeg har et datasett med følgende egenskaper, og jeg ser ikke ut til å pakke hodet rundt det. “Tre st.dev.s inkluderer 99,7% av dataene” er det jeg sier til meg selv, men det ser ut til å være feilaktig formulert.

Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48 

Dette forteller meg at 99,7% av dataene ligger innenfor 30 og 48, men 100% av dataene ligger innenfor 34 og 46, og det gir ikke mening. Betyr det bare at utvalget mitt ikke er representativt for den totale befolkningen? Jeg mener selvsagt at det ikke er «t, men la oss anta at jeg ikke vet at det finnes mennesker yngre enn 34 og eldre enn 46. Forresten, dette er fra variabelen age fra Stata-eksempeldatasettet nlsw88.dta.

Jeg har sett på dette spørsmålet , men det hjelper meg ikke å løse hjerneknuten min heller. stedet å spørre.

EDIT: Bare innsett at det er mange spørsmål. Vennligst vurder topptekstspørsmålet det som trenger svar. Resten er stort sett bare den rotete tankeprosessen min utspiller seg.

Kommentarer

  • Min og maks er min og maks av befolkningen som du observerte . Standardavviket beregnes fra utvalgspopulasjonen. Forutsatt at en uendelig stor populasjon med de samme egenskapene som den observerte prøven, og en normal fordeling, ville 99,7% av befolkningen være mellom 30 og 48. Resultat er at den første prøven din måtte ha vært større for å ha observert noen mindre enn 34 eller større enn 46.

Svar

“ Tre st.dev.s inkluderer 99,7% av dataene ”

Du må legge til noen advarsler til en slik uttalelse.

99,7% tingen er et faktum om normalfordelinger – 99,7% av befolkningsverdiene vil være innenfor tre populasjonsstandardavvik for befolkningens gjennomsnitt.

normal tetthet

I store prøver * fra en normalfordeling, vil det vanligvis være tilnærmet tilfelle – om lag 99,7% av dataene ville være innenfor tre standardavvik for prøvene (hvis du prøvetok fra en normalfordeling, skulle prøven din være stor nok til at det tilnærmet er sant – det ser ut som om det er en 73% sjanse for å få $ 0,9973 \ pm 0,0010 $ med et utvalg av den størrelsen).

* forutsatt tilfeldig utvalg

Men du har ikke et utvalg fra en normalfordeling.

Hvis du ikke legger noen begrensninger på fordelingsformen, kan den faktiske andelen innen 3 standardavvik fra gjennomsnittet være høy eller lavere.

standardisert ensartet tetthet $ \ qquad \ qquad ^ \ text { Eksempel på en fordeling med 100% av fordelingen i 2 sds av gjennomsnitt} $

Andelen av en fordeling innen 3 stan dard avvik av gjennomsnittet kan være så lave som 88,9%. Du kan kreve mer enn 18 standardavvik for å få 99,7% inn. På den annen side kan du få mer enn 99,7% innen mye mindre enn ett standardavvik. Så 99,7% tommelfingerregel er ikke nødvendigvis mye hjelp med mindre du fester distribusjonsformen litt.

Hvis du slapper litt av forventningen din (å være bare veldig «omtrent» 99,7%), så regelen er noen ganger nyttig uten å kreve normalitet så lenge vi husker at den ikke alltid kommer til å fungere i alle situasjoner – til og med omtrent.

Kommentarer

Svar

Det korte svaret er at utvalget ditt ikke nøyaktig har fulgt en normalfordeling, så antyder kanskje at du kanskje trenger å undersøke basen forutsetningene dine, spesielt en som du kan bruke verktøy designet for å jobbe med en normal fordelt populasjon.

Bare snu spørsmålet ditt omvendt for opplysning. Hvis prøven din ble normalt distribuert, ville man forvente at en prøvestørrelse på ~ 2000 ga 6 datapunkter utenfor området 30-48 i gjennomsnitt. Yours ikke, som signaliserer et spørsmål «Hva er betydningen av dette avviket fra det normale for eventuelle spådommer du gjør ved å anta at din bredere befolkning følger en normalfordeling?»

Så den bredere implikasjonen av denne lille avviket er at selv om utvalget ditt kanskje ikke skiller seg langt fra en normalfordeling, kan noen prognoser som antas at det representerer en større normalt fordelt befolkning være iboende feil og kan berettiger en viss kvalifisering eller ytterligere undersøkelse. Men å estimere sannsynligheten for dette avviket fra det normale, og de underforståtte feilmarginene og påliteligheten til de resulterende prognosene, er langt utenfor mitt evne, men heldigvis utforsket i de mange andre svarene her! p> Men du har tydeligvis en god vane til å undersøke resultatene i sin helhet, for å stille spørsmål ved hva resultatene dine virkelig betyr, og om de beviser din opprinnelige hypotese eller ikke. Se etter ytterligere abnormiteter avslørt i dataene, som Kurtosis og Skew for å se hvilke ledetråder de avslører eller kanskje anser andre fordelinger som bedre representerer befolkningen din.

Kommentarer

  • Det eller bare av ren tilfeldighet, der var ingen datapunkter i området.

Svar

“Tre st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) inkluderer 99,7% av dataene ”refererer til gaussiske distribusjoner. For fordelinger generelt setter Chebyshevs ulikhet en nedre grense for mengden sannsynlighetsmasse som er $ k $ av gjennomsnittet. Men er det en øvre grense?

Med en Bernoulli-fordeling med $ p $ = .5, $ \ sigma $ er .5. Den gjennomsnittlige $ \ mu $ er også .5, noe som betyr at 100% av fordelingen er innenfor $ 1 \ sigma $ eller $ \ mu $. Hva med mindre antall standardavvik ?

Merk: følgende er for enkelhets skyld et argument angående distribusjoner med $ \ mu = 0 $. Dens utvidelse til distribusjon med vilkårlig $ \ mu $ er rimelig triviell.

Gitt noen positive $ \ varepsilon $ og $ M $, det er en fordeling slik at du har $ \ varepsilon / 2 $ sannsynlighetsmasse $ \ leftarrow M $ og $ \ varepsilon / 2 $ sannsynlighetsmasse $ \ gt M $. Det vil si

$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $

Alt annet er lik, som $ M \ til \ infty $, deretter $ \ sigma \ to \ infty $. Imidlertid, for enhver fast positiv $ N $, når $ M $ overstiger $ N $, er sannsynlighetsmassen innen $ N $ på null alltid $ 1- \ varepsilon $, re gardless av $ M $. Så hvis vi ser på den relative avstanden fra null (det vil si antall standardavvik er verdien $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), så som $ M \ til \ infty $, har vi $ n \ til \ infty $, der $ n $ er det største heltallet slik at «$ 1- \ varepsilon $ av sannsynligheten er innenfor $ n \ sigma $ på $ \ mu $» er sant.

Dette viser at det for noen positive tall $ \ varepsilon $ og $ n $ er en viss fordeling slik at sannsynligheten for å være mer enn $ n \ sigma $ fra null er mindre enn $ \ varepsilon $. Så hvis du for eksempel vil ha en sannsynlighet på 99,999% av å være mindre enn 0,000001 $ \ sigma $ fra null, er det en fordeling som tilfredsstiller det.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *