Van egy adatkészletem, amely a következő jellemzőkkel rendelkezik, és úgy tűnik, nem tudom átgondolni a fejem. “A három st.dev. az adatok 99,7% -át tartalmazza” – ezt mondom magamnak, de úgy tűnik, hogy pontatlanul van megfogalmazva.
Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48
Ez azt mondja nekem hogy az adatok 99,7% -a 30 és 48 közé esik, de az adatok 100% -a 34 és 46 közé esik, és ennek nincs értelme. Csak azt jelenti, hogy a mintám nem reprezentatív a teljes népességre nézve? Úgy értem, nyilvánvalóan nem “t”, de tegyük fel, hogy nem tudom, hogy 34 évnél fiatalabb és 46 évnél idősebb emberek léteznek. Ez egyébként a age
a Stata minta adatkészletéből nlsw88.dta
.
Megnéztem ezt a kérdést , de ez sem segít kibontani az agyam csomóját. ht hely, ahol kérdezhetsz. Kérjük, vegye figyelembe a fejléc kérdést, amelyre válaszra van szükség. A többi nagyjából csak az elrontott gondolatmenetem kibontakozása.
Kommentárok
- A min és a max azok a népesség min és max értékei, amelyek te megfigyelted . A szórást a mintapopuláció alapján számítják ki. Feltételezve, hogy akkor a végtelen nagy populáció ugyanazokkal a jellemzőkkel rendelkezik, mint a megfigyelt minta, és normális eloszlású, az emberek 99,7% -a 30 és 48 között lenne. Ennek következménye, hogy a kezdeti mintájának nagyobbnak kellett volna lennie ahhoz, hogy valakit kevesebb, mint 34 vagy nagyobb, mint 46.
Válasz
“ Három st.dev. tartalmazza az adatok 99,7% -át ”
Hozzá kell adnia néhány figyelmeztetést egy ilyen utasításhoz.
A 99,7% -os tény a normális eloszlás ról szól – a populációs értékek 99,7% -a a populáció átlagának három népességi szórásán belül lesz.
Nagy mintákban * egy normális eloszlás, ez általában hozzávetőlegesen így lesz – az adatok körülbelül 99,7% -a a minta átlagának három minta szórásán belül lenne (ha normál eloszlásból vettél mintát, akkor a mintádat elég nagy ahhoz, hogy ez megközelítőleg igaz legyen – úgy tűnik, hogy körülbelül 73% az esélye, hogy 0,9973 dollárt \ pm 0,0010 dollárt szerezzen egy ekkora mintával).
* véletlenszerű mintavételt feltételezve
De nincs minta normál eloszlásból.
Ha nem teszel valamilyen korlátozást az eloszlás alakjára, akkor az átlag 3 szórásán belüli tényleges arány magas lehet, vagy alacsonyabb.
$ \ qquad \ qquad ^ \ text { Példa olyan eloszlásra, amelynek eloszlása 100% -al az átlag 2 sds-jén belül van. $
A megoszlás aránya 3 stan-on belül az átlag eltérései akár 88,9% -ot is elérhetnek. Előfordulhat, hogy 18-nál több szórásra van szükség, hogy 99,7% -ot kapjon. Másrészt viszont jóval kevesebb, mint egy szórás esetén 99,7% -ot is elérhet. Tehát a 99,7% -os ökölszabály nem feltétlenül segít sokat, hacsak nem kissé lehúzza az eloszlás alakját.
Ha kissé ellazítja az elvárásait (hogy csak nagyon “durván” 99,7% legyen), akkor a szabály néha hasznos anélkül, hogy megkövetelné a normalitást, mindaddig, amíg szem előtt tartjuk, hogy ez nem mindig működik minden helyzetben – méghozzá megközelítőleg.
megjegyzések
- gyanítom, hogy 88,9% -a származik a hu.wikipedia.org/wiki / Kolmogorov% 27s_inequality . Nagyon jó voltam a Valószínűség órán, de ez sok évvel ezelőtt megtörtént.
- @emory szerintem ‘ s csak chebyshev ‘ s egyenlőtlenség 🙂
- @Ant Köszönöm. Ez jól hangzik. hu.wikipedia.org/wiki/Chebyshev%27s_inequality
- Igen, ez ‘ s Chebyshev ‘ egyenlőtlenség.
Válasz
A rövid válasz az, hogy a mintád nem pontosan követte a normális eloszlást, ezért azt javasolja, hogy esetleg újra meg kell vizsgálnod az alapfeltevéseidet, különösképpen azt, hogy alkalmazhatsz olyan eszközöket, amelyeket normál eloszlású populációval való együttműködésre terveztek.
Csak fordítsa meg a kérdését fordítva a megvilágosodás érdekében. Ha a mintád rendesen elosztott lenne, akkor a ~ 2000 mintaméret várhatóan átlagosan 6 adatpontot eredményez a 30-48 tartományon kívül. A tiéd nem, ami egy kérdést jelez: “Mi a jelentősége ennek a normától való eltérésnek minden olyan jóslat esetén, amelyet azzal feltételezel, hogy szélesebb népességed normális eloszlást követ?”
Ennek a kis anomáliának tehát szélesebb értelme az, hogy bár a mintája nem térhet el messze a normális eloszlástól, néhány előrejelzés, amely azt feltételezi, hogy nagyobb normálisan elosztott populációt képvisel, eredendően hibás lehet Ennek ellenére meg kell becsülni ennek a normálistól való eltérésnek a valószínűségét, és az ebből származó előrejelzések implikált hibahatára és megbízhatósága messze meghaladja képességem szintjét, bár szerencsére az itt található sok más válasz feltárta!
De nyilvánvalóan jó szokásod van teljes körűen átvizsgálni az eredményeidet, megkérdőjelezni, hogy az eredmények valóban mit jelentenek, és igazolják-e az eredeti hipotézisedet. Keresse meg az adatokban feltárt további rendellenességeket, például a Kurtosist és a Skew-t, hogy lássa, milyen nyomok vannak felfedik vagy esetleg más eloszlásokat tárnak fel, amelyek jobban reprezentálják a népességet.
Megjegyzések
- Ez vagy csak tiszta véletlenszerűségből, ott nem voltak adatpontok a tartományban.
Válasz
„Három st.dev.s ($ 3 \ sqrt A {\ sigma ^ 2} $) az adatok 99,7% -át tartalmazza ”Gauss-eloszlásokra utal. Az eloszlásokra általában Chebyshev egyenlőtlensége alacsonyabb határt szab a valószínűségi tömeg összegének, az átlag $ k $ -jával. De van-e felső határ?
Bernoulli-eloszlással $ p $ = .5, a $ \ sigma $ .5. Az átlagos $ \ mu $ szintén .5, ami azt jelenti, hogy az eloszlás 100% -a $ 1 \ sigma $ vagy $ \ mu $ tartományban van. Mi a helyzet a kisebb szórásokkal ?
Megjegyzés: az alábbiak az egyszerűség kedvéért egy argumentum a $ \ mu = 0 $ disztribúciókkal kapcsolatban. A tetszőleges $ \ mu $ disztribúcióra való kiterjesztése meglehetősen triviális.
Adott Bármely pozitív $ \ varepsilon $ és $ M $ esetén létezik olyan eloszlás, hogy $ \ varepsilon / 2 $ valószínűségi tömege $ \ leftarrow M $ és $ \ varepsilon / 2 $ valószínűségi tömege $ \ gt M $.
$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $
Minden más egyenlő, mivel $ M \ – \ infty $, majd $ \ sigma \ to \ infty $. Bármely fix pozitív $ N $ esetén azonban, ha $ M $ meghaladja a $ N $ értéket, a valószínűség tömege a nulla $ N $ értéken belül mindig $ 1- \ varepsilon $, re kert nélkül $ M $. Tehát, ha a nullától való relatív távolságot nézzük (vagyis a szórások száma $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), akkor mint $ M \ to \ infty $, van $ n \ to \ infty $, ahol $ n $ a legnagyobb egész szám, így a valószínűség “$ 1- \ varepsilon $ a $ \ mu $ $ n \ sigma $ -án belül van”.
Ez azt mutatja, hogy a pozitív $ \ varepsilon $ és $ n $ számok esetében van olyan eloszlás, hogy annak valószínűsége, hogy nullától több, mint $ n \ sigma $, kisebb, mint $ \ varepsilon $. Tehát például, ha azt szeretné, hogy 99,999% annak valószínűsége, hogy nullától kisebb, mint 0,000001 $ \ sigma $, van egy eloszlás, amely ezt kielégíti.