Co to znamená, když tři standardní odchylky od průměru přistanu mimo minimální nebo maximální hodnotu?

Mám datovou sadu s následujícími charakteristikami a zdá se mi, že kolem ní neobejdu hlavu. „Tři st.dev.s obsahují 99,7% dat“, říkám si sám, ale zdá se mi to nepřesně formulované.

Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48 

Toto mi říká že 99,7% dat leží mezi 30 a 48, ale 100% dat leží mezi 34 a 46, a to nedává smysl. Znamená to jen, že můj vzorek nereprezentuje celkovou populaci? Myslím, že to samozřejmě není, ale předpokládejme, že nevím, že existují lidé mladší 34 let a starší 46 let. Mimochodem, toto je z proměnné age ze vzorové datové sady Stata nlsw88.dta.

Podíval jsem se na tuto otázku , ale ani to mi nepomůže rozvázat mozkový uzel. Kde se zeptat.

EDIT: Právě jsem si uvědomil, že je to mnoho otázek. Zvažte prosím otázku v záhlaví jako otázku, na kterou je třeba odpovědět. Zbytek je do značné míry jen můj zpackaný myšlenkový proces, který se rozvinul.

Komentáře

  • Min a max jsou min a max populace, která pozorovali jste . Směrodatná odchylka se vypočítá z populace vzorku. Za předpokladu, že by tedy nekonečně velká populace se stejnými charakteristikami jako sledovaný vzorek a normální distribucí byla 99,7% lidí mezi 30 a 48. Důsledkem je, že váš počáteční vzorek by musel být větší, aby bylo možné pozorovat někoho méně než 34 nebo více než 46.

Odpověď

“ Tři st.dev.s obsahují 99,7% dat.

K takovému prohlášení je třeba přidat několik upozornění.

99,7% věc je fakt o normálním rozdělení – 99,7% hodnot populace bude v rámci tří populačních standardních odchylek průměru populace.

normální hustota

Ve velkých vzorcích * z normální distribuce, bude to obvykle přibližně ten případ – asi 99,7% dat by bylo ve třech standardních odchylkách vzorku od střední hodnoty vzorku (pokud jste odebírali vzorky z normálního rozdělení, měl by váš vzorek být dostatečně velký na to, aby to byla přibližně pravda – vypadá to, že existuje asi 73% šance získat 0,9973 $ 0,0010 $ se vzorkem této velikosti).

* za předpokladu náhodného vzorkování

Ale nemáte vzorek z normální distribuce.

Pokud nedáte určitá omezení na tvar distribuce, skutečný podíl do 3 standardních odchylek od průměru může být vysoký nebo nižší.

standardizovaná jednotná hustota $ \ qquad \ qquad ^ \ text { Příklad distribuce se 100% distribucí v průměru 2 sds} $

Podíl distribuce do 3 stan standardní odchylky průměru mohly být až 88,9%. Možná budete potřebovat více než 18 směrodatných odchylek, abyste získali 99,7%. Na druhou stranu můžete získat více než 99,7% při dobré hodnotě menší než jedna standardní odchylka. Pravidlo 99,7% tedy nutně moc nepomůže, pokud trochu neroztáhnete tvar distribuce.

Pokud trochu uvolníte své očekávání (být jen velmi „zhruba“ 99,7%), pak pravidlo je někdy užitečné, aniž by vyžadovalo normálnost, pokud máme na paměti, že to nemusí vždy fungovat v každé situaci – dokonce i přibližně.

Komentáře

Odpověď

Krátká odpověď je, že váš vzorek přesně nesledoval normální distribuci, takže naznačuje, že možná budete muset znovu posoudit své základní předpoklady, konkrétně ten, který můžete použít nástroje určené pro práci s normálně distribuovanou populací.

Jen obrátit svou otázku obráceně pro osvícení. Pokud byl váš vzorek normálně distribuován, pak by se dalo očekávat, že velikost vzorku ~ 2000 přinese v průměru 6 datových bodů mimo rozsah 30-48. Vaše ne, což signalizuje otázku „Jaký je význam této odchylky od normálu pro jakékoli předpovědi, které učiníte za předpokladu, že vaše širší populace sleduje normální rozdělení?“

Takže širší implikace této malé anomálie spočívá v tom, že ačkoliv se váš vzorek nemusí daleko lišit od normálního rozdělení, některé prognózy, které vycházejí z předpokladu, že skutečně reprezentuje větší normálně distribuovanou populaci, mohou být ze své podstaty vadné a mohou vyžadují určitou kvalifikaci nebo další vyšetřování. Odhad pravděpodobnosti této odchylky od normálu a implicitní chybová rozpětí a spolehlivost výsledných předpovědí je však nad mou úroveň schopností, i když naštěstí prozkoumány v mnoha dalších odpovědích zde! p> Ale zjevně máte dobrý zvyk podrobně zkoumat své výsledky, ptát se, co vaše výsledky skutečně znamenají a zda dokazují vaši původní hypotézu nebo ne. Podívejte se na další abnormality odhalené v datech, jako je Kurtosis a Skew, abyste zjistili, jaké stopy odhalují nebo možná považují jiné distribuce za lépe reprezentující vaši populaci.

Komentáře

  • To nebo jen z čistého nahodilosti existuje nebyly v rozsahu žádné datové body.

Odpověď

„Tři st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) zahrnuje 99,7% dat “odkazuje na Gaussovy distribuce. U distribucí obecně Čebyševova nerovnost stanoví spodní hranici množství pravděpodobnostní masy se střední hodnotou $ k $. Existuje však horní hranice?

S Bernoulliho distribucí s $ p $ = .5, $ \ sigma $ je 0,5. Průměr $ \ mu $ je také 0,5, což znamená, že 100% distribuce je v rámci $ 1 \ sigma $ nebo $ \ mu $. A co menší počet standardních odchylek ?

Poznámka: Následující text pro jednoduchost představuje argument týkající se distribucí s $ \ mu = 0 $. Jeho rozšíření na distribuci s libovolnými $ \ mu $ je přiměřeně triviální.

Vzhledem k tomu jakýkoli kladný $ \ varepsilon $ a $ M $, existuje takové rozdělení, že máte $ \ varepsilon / 2 $ pravděpodobnostní hmotnost $ \ leftarrow M $ a $ \ varepsilon / 2 $ pravděpodobnostní hmotnost $ \ gt M $. To znamená,

$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $

Všechny ostatní jsou stejné, jako $ M \ to \ infty $, pak $ \ sigma \ to \ infty $. Avšak u každého fixního pozitivního $ N $ $, jakmile $ M $ překročí $ N $, je pravděpodobnostní hmotnost v rámci $ N $ od nuly vždy $ 1- \ varepsilon $, re bez ohledu na $ M $. Podíváme-li se tedy na relativní vzdálenost od nuly (tj. Počet směrodatných odchylek, hodnota je $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), pak jako $ M \ to \ infty $, máme $ n \ to \ infty $, kde $ n $ je největší celé číslo, takže „$ 1- \ varepsilon $ pravděpodobnosti je v rámci $ n \ sigma $ od $ \ mu $“ je pravda.

To ukazuje, že pro všechna kladná čísla $ \ varepsilon $ a $ n $ existuje nějaká distribuce, takže pravděpodobnost, že bude více než $ n \ sigma $ od nuly, bude menší než $ \ varepsilon $. Například pokud chcete, aby pravděpodobnost 99,999% byla menší než 0,000001 $ \ sigma $ od nuly, existuje distribuce, která to splňuje.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *