Mam zbiór danych o następujących cechach i nie mogę się nim zająć. Mówię sobie: „Trzy st.dev.s obejmują 99,7% danych”, ale wydaje mi się, że jest to niedokładne.
Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48
To mówi mi że 99,7% danych mieści się w przedziale 30–48, ale 100% danych mieści się w przedziale 34–46, a to nie ma sensu. Czy to tylko oznacza, że moja próba nie jest reprezentatywna dla całej populacji? To znaczy, oczywiście, tak nie jest, ale załóżmy, że nie wiem, że istnieją ludzie w wieku poniżej 34 lat i powyżej 46 lat. Przy okazji, pochodzi ze zmiennej age
z przykładowego zbioru danych Stata nlsw88.dta
.
Spojrzałem na to pytanie , ale to też nie pomaga mi rozwiązać węzła mózgowego. ht miejsce do zadawania.
EDYCJA: Właśnie sobie uświadomiłem, że jest wiele pytań. Potraktuj pytanie nagłówka jako wymagające odpowiedzi. Reszta to w zasadzie tylko mój popsuty proces myślowy.
Komentarze
- Minimalna i maksymalna to minimalna i maksymalna liczba ludności, która obserwowałeś . Odchylenie standardowe oblicza się z populacji próbki. Zakładając zatem nieskończenie dużą populację z takimi samymi cechami jak obserwowana próbka i rozkładem normalnym, 99,7% ludzi będzie w przedziale od 30 do 48. W konsekwencji Twoja początkowa próbka musiałaby być większa, aby zaobserwować kogoś mniej niż 34 lub więcej niż 46.
Odpowiedź
” Trzy st.dev.s obejmują 99,7% danych ”
Do takiego stwierdzenia należy dodać kilka zastrzeżeń.
99,7% jest faktem dotyczącym normalnych rozkładów – 99,7% wartości populacji będzie się mieścić w trzech populacyjnych odchyleniach standardowych średniej populacji.
W dużych próbkach * z rozkład normalny, zwykle będzie to w przybliżeniu przypadek – około 99,7% danych będzie mieściło się w trzech próbnych odchyleniach standardowych średniej próbki (jeśli próbkowałeś z rozkładu normalnego, twoja próbka wystarczająco duże, aby było to w przybliżeniu prawdziwe – wygląda na to, że istnieje około 73% szans na uzyskanie 0,9973 $ \ pm 0,0010 $ przy próbce tej wielkości).
* zakładając losowe próbkowanie
Ale nie masz próbki z rozkładu normalnego.
Jeśli nie nałożysz pewnych ograniczeń na kształt rozkładu, rzeczywisty odsetek w ramach 3 standardowych odchyleń średniej może być wysoki lub niższa.
$ \ qquad \ qquad ^ \ text { Przykład rozkładu ze 100% rozkładem wewnątrz 2 sd średniej} $
Udział rozkładu w 3 stanach średnie odchylenia od średniej mogą wynosić nawet 88,9%. Aby uzyskać 99,7% in, możesz potrzebować więcej niż 18 odchyleń standardowych. Z drugiej strony możesz uzyskać więcej niż 99,7% przy znacznie mniejszym niż jedno odchylenie standardowe. Zatem praktyczna reguła 99,7% niekoniecznie jest bardzo pomocna, chyba że nieco zmniejszysz kształt rozkładu.
Jeśli trochę rozluźnisz swoje oczekiwania (aby być tylko bardzo „z grubsza” 99,7%), wtedy reguła jest czasami przydatna bez wymagania normalności, o ile pamiętamy, że nie zawsze będzie działać w każdej sytuacji – nawet w przybliżeniu.
Komentarze
- Podejrzewam, że twoje 88,9% pochodzi z en.wikipedia.org/wiki / Kolmogorov% 27s_inequality . Byłem całkiem dobry w klasie prawdopodobieństwa, ale to było wiele lat temu.
- @emory Myślę, że to ' to tylko chebyshev ' s nierówność 🙂
- @Ant Dziękuję. Brzmi dobrze. en.wikipedia.org/wiki/Chebyshev%27s_inequality
- Tak, to ' s Czebyszewa ' nierówność.
Odpowiedź
Krótka odpowiedź polega na tym, że twoja próbka nie była dokładnie zgodna z rozkładem normalnym, więc sugeruje, że być może będziesz musiał ponownie zbadać swoje podstawowe założenia, w szczególności takie, że możesz zastosować narzędzia zaprojektowane do pracy z populacją o rozkładzie normalnym.
Po prostu odwróć swoje pytanie w drugą stronę, aby uzyskać oświecenie. Gdyby próbka miała rozkład normalny, można by oczekiwać, że wielkość próby ~ 2000 daje średnio 6 punktów danych poza zakresem 30-48. Wasz nie, co sygnalizuje pytanie: „Jakie jest znaczenie tego odchylenia od normy dla wszelkich prognoz, które podejmujesz, zakładając, że Twoja szersza populacja ma rozkład normalny?”
Zatem szerszą implikacją tej małej anomalii jest to, że chociaż twoja próbka może nie różnić się daleko od rozkładu normalnego, niektóre prognozy zakładające, że reprezentuje ona większą populację o normalnym rozkładzie, mogą być z natury wadliwe i mogą wymagają pewnych kwalifikacji lub dalszych badań. Jednak oszacowanie prawdopodobieństwa tego odchylenia od normy oraz implikowanych marginesów błędu i wiarygodności prognozowanych wyników wykracza daleko poza mój poziom umiejętności, chociaż na szczęście uwzględniono je w wielu innych odpowiedziach tutaj!
Ale masz dobry zwyczaj pełnej analizy wyników, kwestionowania, co naprawdę znaczą Twoje wyniki i czy potwierdzają Twoją pierwotną hipotezę, czy nie. Poszukaj dalszych nieprawidłowości ujawnionych w danych, takich jak Kurtosis i Skew, aby zobaczyć, jakie wskazówki ujawniają lub uważają, że inne rozkłady lepiej reprezentują twoją populację.
Komentarze
- To lub po prostu z czystej przypadkowości nie było punktów danych w zakresie.
Odpowiedź
„Three st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) zawiera 99,7% danych ”odnosi się do rozkładów Gaussa. Generalnie dla rozkładów nierówność Czebyszewa nakłada dolną granicę na masę prawdopodobieństwa przy k $ k $ średniej. Ale czy istnieje górna granica?
Przy rozkładzie Bernoulliego z $ p $ = .5, $ \ sigma $ to .5. Średnia $ \ mu $ to również .5, co oznacza, że 100% rozkładu mieści się w granicach 1 $ \ sigma $ lub $ \ mu $. A co z mniejszymi liczbami odchyleń standardowych ?
Uwaga: poniższy argument, dla uproszczenia, jest argumentem dotyczącym dystrybucji z $ \ mu = 0 $. Jego rozszerzenie na dystrybucję z dowolnym $ \ mu $ jest dość trywialne.
Biorąc pod uwagę jakikolwiek dodatni $ \ varepsilon $ i $ M $, istnieje rozkład taki, że masz $ \ varepsilon / 2 $ masa prawdopodobieństwa $ \ leftarrow M $ i $ \ varepsilon / 2 $ masa prawdopodobieństwa $ \ gt M $. To znaczy,
$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $
Wszystko inne jest równe, jak $ M \ do \ infty $, a następnie $ \ sigma \ do \ infty $. Jednak dla każdego ustalonego dodatniego $ N $, gdy $ M $ przekroczy $ N $, masa prawdopodobieństwa w granicach N $ N $ wynosi zawsze 1 $ \ varepsilon $, bez grosza $ M $. Zatem, jeśli spojrzymy na względną odległość od zera (to znaczy na liczbę odchyleń standardowych, wartość wynosi $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), to jako $ M \ to \ infty $, mamy $ n \ do \ infty $, gdzie $ n $ jest największą liczbą całkowitą, z której „$ 1- \ varepsilon $ prawdopodobieństwa mieści się w granicach $ n \ sigma $ $ \ mu $” jest prawdą.
To pokazuje, że dla dowolnych liczb dodatnich $ \ varepsilon $ i $ n $ istnieje taki rozkład, że prawdopodobieństwo, że będzie większe niż $ n \ sigma $ od zera, jest mniejsze niż $ \ varepsilon $. Na przykład, jeśli chcesz, aby prawdopodobieństwo 99,999% było mniejsze niż 0,000001 $ \ sigma $ od zera, istnieje rozkład, który to spełnia.