Przykłady typowych rozkładów z życia wzięte

Jestem absolwentem i interesuję się statystyką. Ogólnie podoba mi się ten materiał, ale czasami trudno mi myśleć o zastosowaniach w prawdziwym życiu. W szczególności moje pytanie dotyczy powszechnie stosowanych rozkładów statystycznych (normalny – beta-gamma itp.). Wydaje mi się, że w niektórych przypadkach otrzymuję określone właściwości, które sprawiają, że dystrybucja jest całkiem przyjemna – na przykład bez pamięci właściwość wykładnicza. Ale w wielu innych przypadkach nie mam intuicji zarówno co do znaczenia, jak i obszarów zastosowania typowych dystrybucji, które widzimy w podręcznikach.

Prawdopodobnie jest wiele dobrych źródeł, które rozwiązują moje obawy. byłbym zadowolony, gdybyś mógł się nimi podzielić. Byłbym o wiele bardziej zmotywowany do pracy, gdybym mógł powiązać go z przykładami z życia wziętymi.

Komentarze

Odpowiedź

Wikipedia ma stronę, która zawiera listę wielu rozkładów prawdopodobieństwa z linkami do bardziej szczegółowych informacji o każdej dystrybucji. Możesz przejrzeć listę i podążać za linkami, aby lepiej poznać typy o f aplikacje, do których często używane są różne dystrybucje.

Pamiętaj tylko, że te rozkłady są używane do modelowania rzeczywistości i jak powiedział Box: „wszystkie modele są błędne, niektóre modele są przydatne”.

Oto kilka typowych rozkładów i niektóre z powodów, dla których są przydatne:

Normalny: Jest to przydatne do przeglądania średnich i innych kombinacji liniowych (np. współczynniki regresji) ze względu na CLT. Wiąże się z tym, że jeśli wiadomo, że coś powstaje w wyniku addytywnego wpływu wielu różnych drobnych przyczyn, wówczas norma może być rozsądnym rozkładem: na przykład wiele miar biologicznych jest wynikiem wielu genów i wielu czynników środowiskowych i dlatego często są w przybliżeniu normalne. .

Gamma: Prawidłowo przekrzywiona i przydatna w przypadku rzeczy z naturalnym minimum równym 0. Powszechnie używana dla czasów, które upłynęły, i niektórych zmiennych finansowych.

Wykładniczy: specjalny przypadek Gamma. Jest bez pamięci i łatwo się skaluje.

Chi-kwadrat ($ \ chi ^ 2 $): specjalny przypadek gammy. Pojawia się jako suma kwadratów normalnych zmiennych (używanych do wariancji).

Beta: Zdefiniowane między 0 a 1 (ale można je przekształcić, aby znajdowało się między innymi wartościami), przydatne w przypadku proporcji lub innych wielkości, które muszą być między 0 i 1.

Dwumian: Ile „sukcesów” z danej liczby niezależnych prób z tym samym prawdopodobieństwem „sukcesu”.

Poisson: Wspólne dla zliczeń. Ładne właściwości, że jeśli liczba zdarzeń w okresie lub obszarze jest zgodna z Poissonem, to liczba w dwukrotnym czasie lub obszarze nadal jest zgodna z Poissonem (z dwukrotną średnią): działa to w przypadku dodawania Poissonów lub skalowania wartościami innymi niż 2.

Zwróć uwagę, że jeśli zdarzenia zachodzą w czasie, a czas między wystąpieniami jest wykładniczy, to liczba, która występuje w okresie, jest zgodna z Poissonem.

Ujemny dwumian: Liczy z minimalnym 0 (lub inna wartość w zależności od wersji) i bez górnej granicy. Koncepcyjnie jest to liczba „niepowodzeń” przed k „sukcesami”. Ujemny dwumian jest również mieszaniną zmiennych Poissona, których średnie pochodzą z rozkładu gamma.

Geometryczny: specjalny przypadek dla ujemnego dwumianu, gdzie jest to liczba „niepowodzeń” przed pierwszym „sukcesem”. Jeśli skrócisz (zaokrąglisz w dół) zmienną wykładniczą, aby była dyskretna, wynik będzie geometryczny.

Komentarze

  • Dziękuję za odpowiedź. Jednak wikipedia zapewnia bardziej ogólny opis, który ' bym chciał. Zasadniczo moje pytanie brzmi: dlaczego niektóre dystrybucje są fajne? Udzielenie możliwej odpowiedzi w przypadku rozkładu normalnego może być związane z centralnym ograniczonym twierdzeniem – które mówi, że jeśli spróbujesz nieskończonej liczby obserwacji, możesz faktycznie w asympotyce zobaczyć, że wystarczająca statystyka tych obserwacji, przy danej niezależności, ma rozkład normalny . Szukam więcej takich przykładów …
  • Niezupełnie rzeczywista dystrybucja, ale co z bimodalną? ' nie przychodzi mi do głowy żadne powszechnie spotykane przykłady z życia po tym, jak odkryłem, że wiele różnic między płciami u ludzi nie jest bimodalnych.
  • Dodaj wielomian

Odpowiedź

Kup i przeczytaj co najmniej 6 pierwszych rozdziałów (pierwsze 218 stron) Williama J. Fellera ” Wprowadzenie do teorii prawdopodobieństwa i jego zastosowań, tom 2 „ http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb .Przeczytaj przynajmniej wszystkie problemy do rozwiązania, a najlepiej spróbuj rozwiązać ich jak najwięcej. Nie musisz czytać tomu 1, który moim zdaniem nie jest szczególnie wartościowy.

Pomimo, że autor zmarł 45 i pół roku temu, zanim książka została ukończona, jest to po prostu jest najlepsza książka, z wyjątkiem żadnej, do rozwijania intuicji w zakresie prawdopodobieństwa i procesów stochastycznych oraz zrozumienia i wyczucia różnych rozkładów, ich relacji do zjawisk w świecie rzeczywistym i różnych zjawisk stochastycznych, które mogą i występują. fundament, który z niego zbudujesz, będziesz dobrze obsługiwany w statystykach.

Jeśli uda ci się to przez kolejne rozdziały, co staje się nieco trudniejsze, będziesz o lata świetlne przed prawie wszystkimi. jeśli znasz Feller Vol 2, znasz prawdopodobieństwo (i procesy stochastyczne), co oznacza, że wszystko, czego nie wiesz, na przykład nowe rozwiązania, będziesz w stanie szybko opanować i opanować, budując na tym solidnym fundamencie.

Prawie wszystko, co zostało wcześniej wspomniane w tym wątku, jest dostępne Feller Vol 2 (nie cały materiał w Kendall Advanced Theory of Statistics, ale przeczytanie tej książki będzie bułką z masłem po Feller Vol 2) i więcej, dużo więcej, a wszystko to w sposób, który powinien rozwinąć twoje myślenie stochastyczne i intuicja. Johnson i Kotz są dobrzy w drobiazgach dotyczących różnych rozkładów prawdopodobieństwa, Feller Vol 2 jest przydatny do nauki myślenia probabilistycznego oraz wiedzy, co wydobyć z Johnson i Kotz i jak z tego korzystać.

Odpowiedź

Teoria asymptotyczna prowadzi do rozkładu normalnego, ekstremalnych typów wartości, praw stabilnych i Poissona. Wykładniczy i Weibulla mają tendencję do pojawiania się jako parametryczny czas do rozkładu zdarzeń. W przypadku Weibulla jest to typ wartości ekstremalnej dla minimum próbki. W odniesieniu do modeli parametrycznych dla obserwacji o rozkładzie normalnym, rozkłady chi kwadrat, t i F powstają podczas testowania hipotez i szacowania przedziału ufności. Chi2 pojawiają się również w analizie tabeli kontyngencji i testach zgodności. Do badania potęgi testów mamy niecentralne rozkłady t i F. Rozkład hipergeometryczny powstaje w dokładnym teście Fishera dla tabel kontyngencji. Rozkład dwumianowy jest ważny podczas przeprowadzania eksperymentów w celu oszacowania proporcji. Ujemny dwumian jest ważnym rozkładem do modelowania nadmiernej dyspersji w procesie punktowym. Powinno to zapewnić dobry początek w praktyce Dystrybucje parametryczne. Dla nieujemnych zmiennych losowych na (0, ∞) rozkład Gamma jest elastyczny, ponieważ zapewnia różnorodne kształty, a normalna logarytmiczna jest również powszechnie używana. W [0,1] rodzina beta zapewnia rozkłady symetryczne, w tym również jednorodne ponieważ dystrybucje są pochylone w lewo lub w prawo.

Powinienem również wspomnieć, że jeśli chcesz poznać wszystkie szczegóły dotyczące dystrybucji w statystykach, istnieje klasyczna seria książek autorstwa Johnsona i Kotza, która zawiera dystrybucje dyskretne, ciągłe rozkłady jednowymiarowe i ciągłe rozkłady wielowymiarowe, a także tom 1 Zaawansowanej teorii statystyki autorstwa Kendalla i Stuarta.

Komentarze

  • Bardzo dziękuję za odpowiedź, jest to niezwykle przydatne. Jeszcze raz dziękuję, naprawdę mi to pomogło.

Odpowiedź

Wystarczy dodać inne doskonałe odpowiedzi.

Jak wspominali inni, rozkład Poissona jest przydatny wszędzie tam, gdzie mamy zliczanie zmiennych. Ale trzeba powiedzieć o wiele więcej! Poissona powstaje asymptotycznie ze zmiennej o rozkładzie dwumianowym, gdy $ n $ (liczba eksperymentów Bernoulliego) rośnie bez ograniczeń, a $ p $ (prawdopodobieństwo sukcesu każdego pojedynczego eksperymentu () spada do zera, w taki sposób, że $ \ lambda = np $ pozostaje stała, ograniczona od zera i nieskończoności. To mówi nam, że jest to przydatne, gdy mamy dużą liczbę indywidualnie bardzo nieprawdopodobnych zdarzeń. Dobrymi przykładami są: wypadki, takie jak liczba wypadków samochodowych w Nowym Jorku w dziennie, ponieważ za każdym razem, gdy przejeżdżają / spotykają się dwa samochody, prawdopodobieństwo wypadku jest bardzo niskie, a liczba takich okazji jest rzeczywiście astronomiczna! Teraz możesz pomyśleć o innych przykładach, takich jak łączna liczba wypadków lotniczych na świecie w ciągu roku. Klasyczny przykład, w którym liczba zgonów spowodowanych przez konnych w kawalerii preuskiej!

Kiedy Poissona używa się w epidemiologii, do modelowania liczby przypadków niektórych chorób, często okazuje się, że nie pasuje no cóż: wariancja też duży! Poissona ma wariancję = średnia, co można łatwo zobaczyć na podstawie granicy dwumianu: W dwumianu wariancja wynosi $ np (1-p) $, a gdy $ p $ idzie do zera, koniecznie $ 1-p $ idzie do jednego, więc wariancja idzie do $ np $, co jest oczekiwaniem, a te obie idą do $ \ lambda $.Jednym ze sposobów jest poszukiwanie alternatywy dla Poissona z większą wariancją, która nie jest uwarunkowana równością średniej, na przykład ujemny dwumian. ¿Ale dlaczego występuje zjawisko o większej wariancji? Jedną z możliwości jest to, że indywidualne prawdopodobieństwa choroby $ p $ dla jednej osoby nie są stałe i nie zależą od jakiejś obserwowanej współzmiennej (np. Wieku, zawodu, palenia papierosów, …). Nazywa się to modelami słabości lub modelami mieszanymi. Jednym ze sposobów na zrobienie tego jest założenie, że $ p $ „w populacji pochodzi z jakiejś dystrybucji i zakładając, że jest to na przykład rozkład gamma (co upraszcza matematykę …), otrzymujemy rozkład gamma-poissona – – który odzyskuje ujemny dwumian!

Odpowiedź

Ostatnio opublikowane badania sugeruje, że wbrew powszechnej opinii ludzkie wyniki NIE są rozkładane normalnie. Przeanalizowano dane z czterech dziedzin: (1) Naukowcy z 50 dyscyplin, na podstawie częstotliwości publikacji w najbardziej znanych czasopismach poświęconych danej dyscyplinie. (2 ) Artyści estradowi, tacy jak aktorzy, muzycy i pisarze, oraz liczba otrzymanych prestiżowych nagród, nominacji lub wyróżnień. (3) Politycy z 10 krajów oraz wyniki wyborów / reelekcji. (4) Kolegiści i zawodowi sportowcy przyglądający się najbardziej zindywidualizowanym dostępne środki, takie jak liczba biegów domowych, przyjęć w sportach zespołowych i łączna liczba wygranych w poszczególnych rozgrywkach porty. Autor pisze: „Widzieliśmy wyraźny i spójny rozkład prawa władzy w każdym badaniu, niezależnie od tego, jak wąsko lub szeroko analizowaliśmy dane …”

Komentarze

  • Kto zasugerował, że ludzka wydajność rozkłada się normalnie ?! Zasada 80-20 została zasugerowana przez Pareto (1906!).

Odpowiedź

Często używany jest rozkład Cauchyego w finansach, aby modelować zwrot z aktywów. Na uwagę zasługują również Bounded and Unbounded Distributions Johnsona ze względu na ich elastyczność (zastosowałem je do modelowania cen aktywów, wytwarzania energii elektrycznej i hydrologii).

Odpowiedź

Niektóre typowe rozkłady prawdopodobieństwa

Niektóre typowe rozkłady prawdopodobieństwa; Od tutaj

Jednolita dystrybucja (dyskretna) – Wyrzuciłeś 1 kostką i prawdopodobieństwo upadku któregokolwiek z 1, 2, 3, 4, 5 i 6 jest równe.

Jednolite dyskretne (z tutaj )

Jednolita dystrybucja (ciągła) – Rozpylono bardzo drobny proszek w kierunku ściany. W przypadku małego obszaru na ścianie prawdopodobieństwo opadnięcia pyłu na miejsce na ścianie jest jednolite.

Masz dużą butlę z gazem. Wydaje się, że dla każdego obszaru jednostkowego liczba cząsteczek gazu uderzających na cm kwadratowy wewnętrznej ściany na sekundę jest jednolita.

obraz z Wikipedii dotyczący kolizji gazowych z tutaj

Rozkład Bernoulliego – Próba Bernoulliego to (lub próba dwumianowa) to losowy eksperyment z dokładnie dwoma możliwymi wynikami, ” sukces ” i ” awaria „. W takiej próbie prawdopodobieństwo sukcesu wynosi p, prawdopodobieństwo niepowodzenia wynosi q = 1-p.

Na przykład w rzucie monetą możemy mieć 2 wynik – orzeł lub ogon. W przypadku uczciwej monety prawdopodobieństwo orła wynosi 1/2; prawdopodobieństwo ogona wynosi 1/2, jest to jeden rodzaj rozkładu Bernoulliego, który jest również jednolity.

W rzucie monetą, jeśli moneta jest niesprawiedliwa, na przykład prawdopodobieństwo uzyskania reszki wynosi 0,9, to prawdopodobieństwo wypadnięcia ogona wyniesie 0,1.

Bernauli Rozkład Bernauliego z prawdopodobieństwami 0,6 i 0,4; z tutaj

Rozkład dwumianowy – Jeśli próba Bernoulliego (z 2 wynikami, odpowiednio z prawdopodobieństwami p i q = 1-p) jest prowadzona n razy; (na przykład jeśli moneta jest rzucana n razy); będzie małe prawdopodobieństwo, że zdobędziesz wszystkie orły, i będzie małe prawdopodobieństwo, że zdobędziesz wszystkie reszki. Pewna wartość głowy i pewna wartość ogona byłyby maksymalne. Ten rozkład jest nazywany rozkładem dwumianowym.

BINOMIAL Rozkład dwumianowy z szachownicą.obraz zmodyfikowany na podstawie WP

Rozkład Poissona przykład z Wikipedii: osoba śledząca ilość otrzymywanych codziennie wiadomości może zauważyć, że otrzymuje średnio 4 listy dziennie. Jeśli wiadomości pochodzą z niezależnego źródła , wtedy liczba wiadomości odebranych w ciągu dnia jest zgodna z rozkładem Poissona, tj. będzie znikoma szansa na otrzymanie zera lub 100 wiadomości dziennie, ale maksymalna liczba (tutaj 4) wiadomości dziennie.

Podobnie, załóżmy, że na wyimaginowanej łące otrzymujemy około 10 kamyków na 1 km ^ 2. Przy proporcjonalnie większej powierzchni otrzymujemy proporcjonalnie więcej kamyków, ale dla pewnej próbki 1 km ^ 2 jest bardzo mało prawdopodobne, aby uzyskać 0 lub 100 kamyków. prawdopodobnie podąża za rozkładem Poissona.

Według Wikipedii liczba zdarzeń rozpadu na sekundę ze źródła radioaktywnego jest zgodna z rozkładem Poissona.

Poissona Rozkład Poissona z Wikipedii

Rozkład normalny lub Rozkład Gaussa – jeśli n liczba kostek wyrzuconych jednocześnie, a biorąc pod uwagę, że n jest bardzo duże; suma wyników każdej kostki byłaby zwykle skupiona wokół wartości centralnej. Nie za duży, nie za mały. Ten rozkład jest nazywany rozkładem normalnym lub krzywą w kształcie dzwonu.

trójkątny Suma z 2 matryc, z tutaj

CLT
Wraz ze wzrostem liczby jednoczesnych matryc rozkład zbliża się do Gaussa. Z centralnego twierdzenia o granicach

Podobnie, jeśli n liczba monet rzuconych jednocześnie, a n jest bardzo duża, byłaby niewielka dostanie wiele orłów lub zbyt wiele ogonów. Liczba głowic będzie się koncentrować wokół określonej wartości. To jest podobne do rozkładu dwumianowego, ale liczba monet jest jeszcze większa.

Komentarze

  • Proszę wspomnieć, czy jest jakieś nieporozumienie w moim powyższym wysiłku, ponieważ Boję się złożoności statystyk.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *