Jeg har et datasæt med følgende egenskaber, og det ser ikke ud til, at jeg kan pakke mit hoved rundt om det. “Tre st.dev.s inkluderer 99,7% af dataene” er, hvad jeg siger til mig selv, men det ser ud til at være forkert formuleret.
Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48
Dette fortæller mig at 99,7% af dataene ligger inden for 30 og 48, men 100% af dataene ligger inden for 34 og 46, og det giver ikke mening. Betyder det bare, at min prøve ikke er repræsentativ for den samlede befolkning? Jeg mener selvfølgelig, det er ikke “t, men lad os antage, at jeg ikke ved, at der findes mennesker yngre end 34 og ældre end 46. Forresten er dette fra variablen age
fra Stata-eksempeldatasættet nlsw88.dta
.
Jeg har kigget på dette spørgsmål , men det hjælper heller ikke mig med at løsne min hjerneknude. ht sted at spørge.
EDIT: Lige klar over, at det er mange spørgsmål. Overvej overskriftsspørgsmålet, det der har brug for svar. Resten er stort set bare min rodede tankeproces, der udfolder sig.
Kommentarer
- Min og max er min og max af befolkningen, som du observerede . Standardafvigelsen beregnes ud fra prøvepopulationen. Hvis vi antager, at en uendelig stor population med de samme karakteristika som den observerede prøve og en normalfordeling, ville 99,7% af befolkningen være mellem 30 og 48. Resultatet er, at din oprindelige prøve ville have været større for at have observeret nogen mindre end 34 eller mere end 46.
Svar
“ Tre st.dev.s inkluderer 99,7% af dataene ”
Du skal tilføje nogle advarsler til en sådan erklæring.
99,7% ting handler om normale fordelinger – 99,7% af befolkningsværdierne vil være inden for tre befolkningsstandardafvigelser for befolkningens gennemsnit.
I store prøver * fra en normalfordeling, vil det normalt være omtrent tilfældet – ca. 99,7% af data ville være inden for tre standardprøves standardafvigelser fra stikprøvernes gennemsnit (hvis du prøver fra en normalfordeling, skal din prøve være stor nok til, at det tilnærmelsesvis er sandt – det ser ud til, at der er en 73% chance for at få $ 0,9973 \ pm 0,0010 $ med en prøve af den størrelse).
* forudsat tilfældig prøveudtagning
Men du har ikke en prøve fra en normalfordeling.
Hvis du ikke lægger nogle begrænsninger på fordelingsformen, kan den faktiske andel inden for 3 standardafvigelser af gennemsnittet være høj eller lavere.
$ \ qquad \ qquad ^ \ text { Eksempel på en distribution med 100% af fordelingen inden for 2 sds af gennemsnit} $
Andelen af en distribution inden for 3 stan dard afvigelser af middelværdien kunne være så lave som 88,9%. Du kan kræve mere end 18 standardafvigelser for at få 99,7% ind. På den anden side kan du få mere end 99,7% inden for en hel del mindre end en standardafvigelse. Så 99,7% tommelfingerregel er ikke nødvendigvis meget hjælp, medmindre du fastgør fordelingsformen lidt.
Hvis du slapper lidt af din forventning (kun at være meget “omtrent” 99,7%), så reglen er undertiden nyttig uden at kræve normalitet, så længe vi husker, at den ikke altid fungerer i enhver situation – selv ca.
Kommentarer
- Jeg formoder, at dine 88,9% kommer fra da.wikipedia.org/wiki / Kolmogorov% 27s_inequality . Jeg var ret god i sandsynlighedsklassen, men det var for mange år siden.
- @emory Jeg synes, det ‘ er bare chebyshev ‘ s ulighed 🙂
- @ Ant Tak. Det lyder rigtigt. da.wikipedia.org/wiki/Chebyshev%27s_inequality
- Ja, det ‘ s Chebyshev ‘ s ulighed.
Svar
Det korte svar er, at din prøve ikke nøjagtigt har fulgt en normalfordeling, så antyder måske at du muligvis bliver nødt til at genoverveje dine basisantagelser, specifikt en, som du kan anvende værktøjer designet til at arbejde med en normalfordelt population.
Bare vend dit spørgsmål omvendt for oplysning. Hvis din prøve var normalt distribueret, ville man forvente, at en stikprøvestørrelse på ~ 2000 gav 6 datapunkter uden for intervallet 30-48 i gennemsnit. Det gør ikke dig, hvilket signalerer et spørgsmål “Hvad er betydningen af denne afvigelse fra det normale for eventuelle forudsigelser, du forudsiger ved at antage, at din bredere befolkning følger en normalfordeling?”
Så den bredere implikation af denne lille anomali er, at selvom din prøve muligvis ikke adskiller sig langt fra en normalfordeling, kan nogle prognoser, der antages, at den repræsenterer en større normalt fordelt befolkning iboende være mangelfulde og måske berettiger en vis kvalifikation eller yderligere undersøgelse. Men at estimere sandsynligheden for denne afvigelse fra det normale og de underforståede fejlmargener og pålideligheden af de resulterende prognoser er langt ud over mit evne, selvom det heldigvis udforskes i de mange andre svar her! p> Men du har tydeligvis en god vane til at undersøge dine resultater fuldt ud, stille spørgsmålstegn ved, hvad dine resultater virkelig betyder, og om de beviser din oprindelige hypotese eller ej. Se efter yderligere abnormiteter afsløret i dataene, som Kurtosis og Skew for at se hvilke spor de afslører eller måske betragter andre fordelinger som bedre repræsenterer din befolkning.
Kommentarer
- Det eller bare af ren tilfældighed, der var ingen datapunkter i intervallet.
Svar
“Tre st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) inkluderer 99,7% af dataene ”henviser til Gaussiske fordelinger. For distributioner generelt sætter Chebyshevs ulighed en lavere grænse for mængden af sandsynlighedsmasse med $ k $ af middelværdien. Men er der en øvre grænse?
Med en Bernoulli-fordeling med $ p $ = .5, $ \ sigma $ er .5. Den gennemsnitlige $ \ mu $ er også .5, hvilket betyder, at 100% af fordelingen er inden for $ 1 \ sigma $ eller $ \ mu $. Hvad med mindre antal standardafvigelser ?
Bemærk: følgende er for enkelheds skyld et argument angående distributioner med $ \ mu = 0 $. Dets udvidelse til distribution med vilkårlig $ \ mu $ er rimelig triviel.
Givet enhver positiv $ \ varepsilon $ og $ M $, der er en fordeling, så du har $ \ varepsilon / 2 $ sandsynlighedsmasse $ \ leftarrow M $ og $ \ varepsilon / 2 $ sandsynlighedsmasse $ \ gt M $. Det vil sige
$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $
Alt andet er lige, som $ M \ til \ infty $, derefter $ \ sigma \ to \ infty $. For enhver fast positiv $ N $, når $ M $ imidlertid overstiger $ N $, er sandsynlighedsmassen inden for $ N $ på nul altid $ 1- \ varepsilon $, re gardless af $ M $. Så hvis vi ser på den relative afstand fra nul (dvs. antallet af standardafvigelser er værdien $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), så som $ M \ til \ infty $, vi har $ n \ til \ infty $, hvor $ n $ er det største heltal, således at “$ 1- \ varepsilon $ af sandsynligheden er inden for $ n \ sigma $ på $ \ mu $” er sandt.
Dette viser, at for alle positive tal $ \ varepsilon $ og $ n $ er der en vis fordeling, så sandsynligheden for at være mere end $ n \ sigma $ fra nul er mindre end $ \ varepsilon $. Så hvis du f.eks. Vil have en sandsynlighed på 99,999% for at være mindre end 0,000001 $ \ sigma $ fra nul, er der en distribution, der tilfredsstiller det.