Jag har en datauppsättning med följande egenskaper och det verkar inte som att jag slår huvudet runt det. ”Tre st.dev.s innehåller 99,7% av data” är vad jag säger till mig själv, men det verkar vara felaktigt formulerat.
Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48
Detta säger mig att 99,7% av uppgifterna ligger inom 30 och 48, men 100% av uppgifterna ligger inom 34 och 46 och det är inte meningsfullt. Betyder det bara att mitt urval inte är representativt för den totala befolkningen? Jag menar självklart att det inte är ”t, men låt oss anta att jag inte vet att människor yngre än 34 och äldre än 46 existerar. Förresten, detta är från variabeln age
från Stata-exempeluppsättningen nlsw88.dta
.
Jag har tittat på den här frågan , men det hjälper mig inte heller att lossa min hjärnknut. ht plats att ställa.
EDIT: Just insett att det här är många frågor. Tänk på rubrikfrågan som behöver svar. Resten är ganska mycket bara min trassliga tankeprocess som utvecklas.
Kommentarer
- Min och max är min och max av befolkningen du observerade . Standardavvikelsen beräknas från provpopulationen. Om vi antar att en oändligt stor befolkning med samma egenskaper som det observerade urvalet och en normalfördelning skulle 99,7% av befolkningen vara mellan 30 och 48. Följden är att ditt ursprungliga urval måste ha varit större för att ha observerat någon mindre än 34 eller mer än 46.
Svar
“ Tre st.dev.s inkluderar 99,7% av data ”
Du måste lägga till några försiktighetsåtgärder till ett sådant uttalande.
99,7% är ett faktum om normalfördelningar – 99,7% av befolkningsvärdena ligger inom tre befolkningsstandardavvikelser för befolkningens medelvärde.
I stora prover * från en normalfördelning, kommer det vanligtvis att vara ungefär så – cirka 99,7% av data skulle ligga inom tre standardavvikelser från provets medelvärde (om du samplade från en normalfördelning, bör ditt prov vara tillräckligt stor för att det ska vara ungefär sant – det verkar som om det är en 73% chans att få $ 0,9973 \ pm 0,0010 $ med ett urval av den storleken).
* förutsatt slumpmässigt urval
Men du har inte ett prov från en normalfördelning.
Om du inte lägger några begränsningar för fördelningsformen, kan den faktiska andelen inom 3 standardavvikelser från medelvärdet vara hög eller lägre.
$ \ qquad \ qquad ^ \ text { Exempel på en distribution med 100% av fördelningen inom 2 sds medelvärde} $
Andelen av en distribution inom 3 stan dardavvikelser av medelvärdet kan vara så låga som 88,9%. Du kan behöva mer än 18 standardavvikelser för att få 99,7% in. Å andra sidan kan du få mer än 99,7% inom en hel del mindre än en standardavvikelse. Så 99,7% tumregel är inte nödvändigtvis mycket hjälp om du inte fäster ner distributionsformen lite.
Om du slappnar av din förväntan lite (att bara vara ”ungefär” 99,7%), regeln är ibland användbar utan att kräva normalitet så länge vi har i åtanke att den inte alltid kommer att fungera i alla situationer – till och med ungefär.
Kommentarer
- Jag misstänker att dina 88,9% kommer från en.wikipedia.org/wiki / Kolmogorov% 27s_inequality . Jag var ganska bra på sannolikhetsklassen men det var för många år sedan.
- @emory Jag tror att det ’ är bara chebyshev ’ s ojämlikhet 🙂
- @Ant Tack. Det låter rätt. sv.wikipedia.org/wiki/Chebyshev%27s_inequality
- Ja, det ’ s Chebyshev ’ s ojämlikhet.
Svar
Det korta svaret är att ditt urval inte exakt har följt en normalfördelning, så föreslår att du kanske kan behöva granska dina grundantaganden, särskilt en som du kan använda verktyg som är utformade för att arbeta med en normalfördelad population.
Bara vänd din fråga tvärtom för upplysning. Om ditt prov normalt distribuerades, skulle man förvänta sig att en provstorlek på ~ 2000 skulle ge 6 datapunkter i intervallet 30-48 i genomsnitt. Ditt gör inte, vilket signalerar en fråga ”Vad är betydelsen av denna avvikelse från det normala för alla förutsägelser du gör genom att anta att din bredare befolkning följer en normalfördelning?”
Så den bredare innebörden av denna lilla anomali är att även om ditt urval kanske inte skiljer sig långt från en normalfördelning, kan vissa prognoser antas att det representerar en större normalfördelad befolkning i sig kan vara felaktiga och kan berättigar till viss kvalificering eller ytterligare undersökning. Men att uppskatta sannolikheten för denna avvikelse från det normala och de underförstådda felmarginalerna och tillförlitligheten hos resulterande prognoser är långt bortom min förmåga, men lyckligtvis utforskas i de många andra svaren här!
Men du har helt klart en god vana att granska dina resultat i sin helhet, att ifrågasätta vad dina resultat verkligen betyder och om de bevisar din ursprungliga hypotes eller inte. Leta efter ytterligare avvikelser som avslöjas i data, som Kurtosis och Skew för att se vilka ledtrådar de avslöjar eller kanske anser andra distributioner som bättre representerar din befolkning.
Kommentarer
- Det eller bara av ren slumpmässighet, där fanns inga datapunkter i intervallet.
Svar
“Tre st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) inkluderar 99,7% av data ”hänvisar till Gaussiska distributioner. För distributioner i allmänhet sätter Chebyshevs ojämlikhet en lägre gräns på mängden sannolikhetsmassa med $ k $ av medelvärdet. Men finns det en övre gräns?
Med en Bernoulli-fördelning med $ p $ = .5, $ \ sigma $ är .5. Medelvärdet $ \ mu $ är också .5, vilket innebär att 100% av distributionen ligger inom $ 1 \ sigma $ eller $ \ mu $. Vad sägs om mindre antal standardavvikelser ?
Obs: följande är för enkelhetens skull ett argument angående distributioner med $ \ mu = 0 $. Dess förlängning till distribution med godtycklig $ \ mu $ är rimligt trivial.
Givet alla positiva $ \ varepsilon $ och $ M $, det finns en fördelning så att du har $ \ varepsilon / 2 $ sannolikhetsmassa $ \ leftarrow M $ och $ \ varepsilon / 2 $ sannolikhetsmassa $ \ gt M $. Det vill säga
$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $
Allt annat är lika, som $ M \ till \ infty $, sedan $ \ sigma \ to \ infty $. Men för alla fasta positiva $ N $, när $ M $ överstiger $ N $, är sannolikhetsmassan inom $ N $ på noll alltid $ 1- \ varepsilon $, re utan $ M $. Om vi alltså tittar på det relativa avståndet från noll (det vill säga antalet standardavvikelser är värdet $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), sedan som $ M \ till \ infty $, vi har $ n \ till \ infty $, där $ n $ är det största heltalet så att ”$ 1- \ varepsilon $ av sannolikheten ligger inom $ n \ sigma $ på $ \ mu $” är sant.
Detta visar att det för alla positiva tal $ \ varepsilon $ och $ n $ finns en viss fördelning så att sannolikheten för att vara mer än $ n \ sigma $ från noll är mindre än $ \ varepsilon $. Så om du till exempel vill ha en sannolikhet på 99,999% av att vara mindre än .000001 $ \ sigma $ från noll finns det en distribution som uppfyller det.