Minulla on tietojoukko, jolla on seuraavat ominaisuudet, enkä näytä kietovan pääni sen ympärille. ”Kolme st.dev.s sisältää 99,7% tiedoista”, sanon itselleni, mutta se näyttää olevan väärin muotoiltu.
Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48
Tämä kertoo minulle että 99,7% tiedoista on 30 ja 48 sisällä, mutta 100% tiedoista on 34 ja 46, eikä sillä ole järkeä. Tarkoittaako se vain sitä, että otokseni ei edusta koko väestöä? Tarkoitan, se ei tietenkään ole, mutta oletetaan, etten tiedä, että alle 34-vuotiaita ja yli 46-vuotiaita ihmisiä on olemassa. Muuten, tämä on muuttujasta age
Statan näytetiedostosta nlsw88.dta
.
Olen tarkastellut tätä kysymystä , mutta se ei auta minua myöskään avaamaan aivosolmua. ht paikka kysyä.
EDIT: Tajusin, että nämä ovat monia kysymyksiä. Harkitse otsikkokysymystä, joka tarvitsee vastauksen. Loppu on melkein vain sekaisin ajatteluprosessini kehittyminen.
Kommentit
- Minimi ja maksimi ovat väestön minimi ja maksimi olet havainnut . Keskihajonta lasketaan otospopulaatiosta. Olettaen sitten äärettömän suuren väestön, jolla on samat ominaisuudet kuin havaitulla otoksella, ja normaalijakauman, 99,7% ihmisistä olisi 30–48. Seurauksena on, että alkuperäisen otoksen olisi pitänyt olla suurempi, jotta olisi havaittu alle 34 tai enemmän kuin 46.
Vastaa
” Kolme st.dev.-tiedostoa sisältää 99,7% tiedoista.
Sinun on lisättävä joitain varoituksia tällaiseen lausekkeeseen.
99,7 prosentin asia on tosiasia normaalijakaumasta – 99,7 prosenttia populaatioarvoista on kolmen populaation keskihajonnan sisällä.
Suurissa näytteissä * normaalijakauma, se on yleensä suunnilleen näin – noin 99,7% tiedoista olisi kolmen otoksen keskihajonnan sisällä otoksen keskiarvosta (jos otat näytettä normaalijakaumasta, otoksen tulisi olla riittävän suuri, jotta se olisi suunnilleen totta – näyttää siltä, että on noin 73% mahdollisuus saada 0,9973 dollaria \ pm 0,0010 $ vastaavan kokoisen näytteen kanssa.
* olettaen satunnaisen otoksen
Mutta sinulla ei ole näytettä normaalijakaumasta.
Jos et aseta joitain rajoituksia jakauman muodolle, todellinen osuus keskiarvon 3 keskihajonnassa voi olla korkea tai alempi.
$ \ qquad \ qquad ^ \ text { Esimerkki jakaumasta, jonka jakauma on 100% keskiarvon 2 sds: n sisällä} $
3 jaan jakauman osuus dardin poikkeamat keskiarvosta voivat olla niinkin alhaiset kuin 88,9%. Saatat tarvita yli 18 standardipoikkeamaa saadaksesi 99,7% sisään. Toisaalta voit saada yli 99,7% paljon alle yhden keskihajonnan sisällä. Joten 99,7%: n nyrkkisääntö ei välttämättä ole paljon apua, ellet kiinnitä jakelumuotoa hieman alaspäin.
Jos rentoutat odotustasi hieman (ollaksesi vain hyvin ”karkeasti” 99,7%), niin Sääntö on joskus hyödyllinen vaatimatta normaalia, kunhan pidämme mielessä, että se ei aina toimi kaikissa tilanteissa – edes suunnilleen.
kommentit
- epäilen, että 88,9% on peräisin fi.wikipedia.org/wiki / Kolmogorov% 27s_inequality . Olin melko hyvä todennäköisyysluokassa, mutta se oli monta vuotta sitten.
- @emory mielestäni se ’ s vain chebyshev ’ s eriarvoisuus 🙂
- @Ant Kiitos. Se kuulostaa hyvältä. fi.wikipedia.org/wiki/Chebyshev%27s_inequality
- Kyllä, se ’ s Tšebyshev ’ n epätasa-arvo.
Vastaa
Lyhyt vastaus on se, että otoksesi ei ole noudattanut tarkasti normaalijakaumaa, joten ehdottaa, että sinun on ehkä tarkasteltava perusoletuksiasi, erityisesti sitä, että voit käyttää työkaluja, jotka on suunniteltu työskentelemään normaalisti jakautuneen väestön kanssa.
Vain käännä kysymyksesi toisinpäin valaistumisen vuoksi. Jos näytteesi jakautuu normaalisti, otoksen koon ~ 2000 voidaan odottaa tuottavan keskimäärin 6 datapistettä alueen 30-48 ulkopuolella. Sinun ei, mikä merkitsee kysymystä ”Mikä on tämän normaalista poikkeaman merkitys mahdollisille ennusteillesi olettaen, että laajempi väestösi seuraa normaalijakaumaa?”
Tämän pienen poikkeaman laajempi merkitys on siis se, että vaikka otoksesi ei ehkä poikkea kaukana normaalijakaumasta, jotkut tehdyt ennusteet, joiden oletuksena on, että se edustaa suurempaa normaalijakautunutta populaatiota, voivat olla luonnostaan virheellisiä ja voivat Tämän poikkeuksen todennäköisyyden arvioiminen normaalista ja siitä johtuvien ennusteiden oletetut virhemarginaalit ja luotettavuus ylittävät kuitenkin kykyni, vaikka onneksi niitä on tutkittu monissa muissa vastauksissa!
Mutta sinulla on selvästikin hyvä tapa tutkia tulokset kokonaisuudessaan, kyseenalaistaa, mitä tulokset todella tarkoittavat ja todistavatko ne alkuperäisen oletuksesi vai et. Etsi lisää tiedoissa paljastuneita poikkeavuuksia, kuten Kurtosis ja Skew, nähdäksesi mitä vihjeitä ne paljastavat tai ehkä pitävät muita jakaumia paremmin edustavan väestösi.
Kommentit
- Se tai vain puhtaasta satunnaisuudesta, siellä alueella ei ollut datapisteitä.
Vastaa
”Kolme st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) sisältää 99,7% tiedoista ”viittaa Gaussin jakaumiin. Jakeluihin yleensä Chebyshevin epätasa-arvo asettaa alarajan todennäköisyysmassan määrälle keskiarvon $ k $ kanssa. Mutta onko olemassa ylärajaa?
Bernoulli-jakaumalla, jossa on $ p $ = .5, $ \ sigma $ on .5. Keskimääräinen $ \ mu $ on myös .5, mikä tarkoittaa, että 100% jakelusta on $ 1 \ sigma $ tai $ \ mu $. Entä pienemmät lukemat keskihajonnoista ?
Huomaa: Seuraava on yksinkertaisuuden vuoksi argumentti jakeluista, joissa on $ \ mu = 0 $. Laajennus jakeluun mielivaltaisella $ \ mu $: lla on kohtuullisen triviaali.
Annettu mikä tahansa positiivinen $ \ varepsilon $ ja $ M $, jakauma on sellainen, että sinulla on $ \ varepsilon / 2 $ todennäköisyysmassa $ \ leftarrow M $ ja $ \ varepsilon / 2 $ todennäköisyysmassa $ \ gt M $.
$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $
Kaikki muut ovat yhtä suuret, kuten $ M \ – \ infty $, sitten $ \ sigma \ to \ infty $. Jos kuitenkin kiinteä positiivinen $ N $, kun $ M $ ylittää $ N $, todennäköisyyden massa nollan $ N $ sisällä on aina $ 1- \ varepsilon $, re ilman $ M $. Jos siis tarkastellaan suhteellista etäisyyttä nollasta (ts. Standardipoikkeamien lukumääräksi arvo on $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), niin kuten $ M \ to \ infty $, meillä on $ n \ – \ infty $, joissa $ n $ on suurin kokonaisluku siten, että ”todennäköisyyden $ 1- \ varepsilon $ on $ n \ sigma $: n sisällä $ \ mu $: ssa” on totta.
Tämä osoittaa, että kaikilla positiivisilla luvuilla $ \ varepsilon $ ja $ n $ on jonkin verran jakaumaa, että todennäköisyys olla yli $ n \ sigma $ nollasta on pienempi kuin $ \ varepsilon $. Joten jos esimerkiksi haluat 99,999%: n todennäköisyyden olla pienempi kuin .000001 $ \ sigma $ nollasta, on olemassa jakelu, joka tyydyttää sen.