Wygląda na to, że ta dystrybucja może być przekrzywiona w prawo i bimodalna. Czy jest tylko dobrze przekrzywiony?
Komentarze
- Najpierw spójrz na tę odpowiedź .
- Czy masz tylko histogram do przejrzenia?
Odpowiedź
Jeśli histogram był faktycznie rozkład, z którego zostały narysowane dane (byłby wtedy wyraźnie jednorodny fragmentarycznie), można by powiedzieć, że był prawidłowy (o prawie każdy rozsądny pomiar) i multimodalny, ponieważ jest wyraźnie więcej niż dwa tryby.
Ale przypuszczalnie „próbujemy użyć histogramu, aby wywnioskować coś o rozkładzie populacji.
Tutaj mamy dwa problemy.
-
Zwykłe mówienie tego, co widzimy w próbce, na podstawie zmian próbkowania („szumu”). Próbkowanie populacji, która nie jest skośna, może skutkować próbą, która z pewnością wygląda na skośną, a próbkowanie populacji, która jest jednomodalna, może skutkować próbą, która może wydawać się mieć więcej niż jeden mod.
-
Na wygląd histogramu może czasami wpływać wybór szerokości przedziału, a nawet początku przedziału . Fakt, że histogram w pytaniu ma wiele przedziałów, pomaga złagodzić zarówno zakres, jak i częstotliwość tego rodzaju problemu, ale nadal może on wystąpić.
Jeśli masz oryginalną próbkę można w większym stopniu uniknąć drugiego problemu, biorąc pod uwagę więcej niż jeden ekran – można nie tylko sporządzać histogramy dla kilku różnych szerokości i początków przedziału, ale można zastosować inne wyświetlacze – wykresy QQ, empiryczne cdfs i tak dalej. (Trochę trudniej jest nauczyć się z nich wyodrębniać informacje, ale nie są one tak podatne na tego rodzaju problemy).
Biorąc pod uwagę duży rozmiar próbki i zakładając, że próbka jest próbą losową jakiejś populacji, bylibyśmy całkiem pewni, że rozkład, z którego została pobrana taka próba, byłby prawidłowy. Wrażenie bimodalności jest relatywnie słabsze (w tym sensie, że możemy rozsądnie zobaczyć, że dzieje się tak z populacją, która w rzeczywistości nie jest bimodalna, przynajmniej w mniejszej próbie), ale nadal wspomniałbym o pojawieniu się bimodalności na ekranie.
Całkowicie ignorując problem w 2. na razie, możemy uzyskać pewne pojęcie o tym, czy ten histogram może wystąpić w populacji unimodalnej, biorąc pod uwagę tylko unimodalny rozkład, który jest zbliżony do tego, co jest obserwowane i widziane jeśli może wytworzyć coś tak dalekiego od unimodalnego, jak to, co obserwujesz w próbce.
Aby uprościć sytuację, rozważ obszar między około 67 a 133 * (gdzie zawarłem moje szacunki liczby binów dla odpowiednie pojemniki w tym regionie):
Po obu stronach tego, w kilku pojemnikach przed i po tym segmencie gęstość dość wyraźnie spada; pytanie brzmi, czy możemy rozsądnie d ten kawałek jako losowa próbka z nierosnącego segmentu dystrybucji?
* Zwróć uwagę, że wpływ wyboru określonej części i skupienia się na tej części w szczególności jest tutaj ignorowany, ale tak nie jest coś, co naprawdę powinno być zignorowane (to zdecydowanie niesie ze sobą problem z „przeglądaniem danych” – na przykład, czy naprawdę powinniśmy uwzględnić następny pojemnik po ostatnim, który dołączyliśmy?). Jednak i tak zamierzam rzucić się naprzód, aby nadać sens prostej analizie, która dałaby pojęcie, czy nie rosnąca gęstość jest zgodna z danymi (w zależności od umieszczenia pojemnika). Zwróć uwagę, że to „wybranie dziwnej części do spojrzenia” w ten sposób generalnie zwiększy szansę znalezienia czegoś „znaczącego”, więc jeśli niczego nie znajdziemy, to naprawdę nie ma powodu, by powiedzieć, że to nie może ” t być unimodalnym.
Najpierw, aby sprawdzić, czy jest to zgodne z próbką z nierosnącej dystrybucji, potrzebujemy miary wzrostu. Proponuję po prostu dodać różnice w licznikach bin ($ b_i-b_ {i -1} $) za każdym razem, gdy zwiększają się (i liczą 0 w przeciwnym razie), tj. $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Więc dla bin-count 369, 373, 413, 375, 382 , 375 suma skoków w górę to U = 4 + 40 + 0 + 7 + 0 = 51.
„Najlepszym” nierosnącym przypadkiem do utworzenia naszego wyświetlacza będzie jednolity.
Całkowita liczba w tym regionie wynosi 2287 i jest 6 pojemników.
Jaka jest szansa, że próbka o rozmiarze 2287 z sześciu równie prawdopodobnych kategorii mogłaby dać łącznie skok, co najmniej 51 USD? To jest coś, co łatwo znaleźć w symulacji.
Próbując tego w R:
res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349
To sugeruje, że w jednolitej sekcji gęstości można łatwo zauważyć wzrost z tej wielkości próby – około połowę czasu, gdy wzrósłby co najmniej tak bardzo, gdyby była jednolita.
Oczywiście moglibyśmy wybrać inną miarę, ale to mi wystarcza. że jest zgodne z jednolitością w tej sekcji, a zatem histogram nie jest niespójny z próbką losową z ogólnego rozkładu unimodalnego.
[Edytuj: dla kompletności później wróciłem i przyjrzałem się kilku innym rozsądnym przetestuj statystyki, aby zobaczyć, czy to zrobiłoby dużą różnicę, ale one też nic nie wskazywały]
To oczywiście nie wystarczy, aby zadeklarować, że jest unimodalny. Po prostu nie możemy powiedzieć, że to „nie jest unimodalny.
Więc opisałbym to jako wyglądające na prawostronne. Jeśli musisz porozmawiać o tym, czy populacja ma więcej niż jeden tryb, posunąłbym się tylko do stwierdzenia, że istnieje pewna możliwość drugiego trybu gdzieś blisko 100, ale trudno jest cokolwiek z tego wywnioskować wyświetlania.
Komentarze
- Wow – super. Dzięki temu wszystko jest o wiele wyraźniejsze! Dzięki!
- " To, że ' nie wystarczy, aby zadeklarować X, oczywiście. Możemy po prostu ' nie mów, że ' nie jest Y. " – Statystyki w pigułce.