Jeśli mój histogram pokazuje krzywą w kształcie dzwonu, czy mogę powiedzieć, że moje dane mają rozkład normalny?

Utworzyłem histogram dla wieku respondenta i udało mi się uzyskać bardzo ładną krzywą w kształcie dzwonu, z której wywnioskowałem, że rozkład jest normalny.

Następnie przeprowadziłem test normalności w SPSS z n = 169. Wartość p (Sig.) testu Kołmogorowa-Smirnowa jest mniejsza niż 0,05 a więc dane naruszyły założenie normalności.

Dlaczego test wskazuje, że rozkład wieku nie jest normalny, ale histogram pokazał krzywą w kształcie dzwonu, która z mojego rozumienia jest normalna? Który wynik powinienem śledzić?

Komentarze

  • Dlaczego testujesz normalność?
  • Oprócz @Glen_b ' s doskonały komentarz i Aksakal ' równie doskonałą odpowiedzią , zauważ, że nawet w przypadku ciągłych rozkładów KS wymaga, aby średnia i sd były znane z góry , a nie szacowane na podstawie danych. To zasadniczo sprawia, że test K-S jest bezużyteczny. ” Test Kołmogorowa-Smirnowa to tylko ciekawostka historyczna. Nigdy nie należy go używać. ” (D ' Agostino in d ' Agostino & Stephens, red., 1986). Jeśli w ogóle, użyj zamiast tego Shapiro-Wilks.
  • @Stephan Kolassa Dobra rada, ale masz na myśli Shapiro-Wilka. (Sugestie MB Wilka i SS Wilksa są często mylone lub mylone; dziwne użycie ' jako zaborczych w języku angielskim również może przyczynić się do zamieszania, nawet dla wielu osób znających angielski jako ich pierwszy język).
  • W związku z komentarzem @StephanKolassa, patrz Czy Shapiro-Wilk jest najlepszym testem na normalność? … odpowiedź brzmi: niekoniecznie ', w zależności od tego, którą alternatywą ' jesteś zainteresowany, ale bardzo często jest to dobry wybór .

Odpowiedź

Zwykle to wiemy „s niemożliwe, aby zmienna miała dokładnie rozkład normalny …

Rozkład normalny ma nieskończenie długie ogony rozciągające się w dowolnym kierunku – jest mało prawdopodobne, aby dane leżały daleko w tych ekstremach, ale dla prawdziwego rozkładu normalnego musi być fizycznie możliwe. Od wieków model o rozkładzie normalnym będzie przewidywał niezerowe prawdopodobieństwo, że dane będą leżeć o 5 odchyleń standardowych powyżej lub poniżej średniej – co odpowiadałoby fizycznie niemożliwym wiekom, takim jak poniżej 0 lub powyżej 150. (Chociaż jeśli spojrzeć na piramida populacji , nie jest jasne, dlaczego miałbyś oczekiwać, że wiek będzie nawet w przybliżeniu normalny.) Podobnie, jeśli masz dane dotyczące wzrostu, które intuicyjnie może podążać za bardziej „normalnym” rozkładem, mógłby być naprawdę normalny tylko wtedy, gdyby istniała pewna szansa na wzrost poniżej 0 cm lub powyżej 300 cm.

I „ve Czasami widziałem, jak sugeruje to, że możemy ominąć ten problem, wyśrodkowując dane tak, aby miały średnią zero. W ten sposób możliwe są zarówno pozytywne, jak i negatywne „epoki skupione”. Ale chociaż sprawia to, że obie wartości ujemne są fizycznie wiarygodne i interpretowalne (ujemne wartości wyśrodkowane odpowiadają faktycznym wartościom leżącym poniżej średniej), nie można obejść problemu, że normalny model będzie dawał fizycznie niemożliwe prognozy z niezerowym prawdopodobieństwem, gdy dekodować modelowany „wyśrodkowany wiek” z powrotem do „rzeczywistego wieku”.

… więc po co zawracać sobie głowę testowaniem? Nawet jeśli nie jest to dokładne, normalność może nadal być użytecznym modelem

Ważną kwestią nie jest to, czy dane są dokładnie normalne – wiemy, a priori , że w większości sytuacji nie ma miejsca, nawet bez przeprowadzania testu hipotezy – ale czy przybliżenie jest wystarczająco dokładne dla Twoich potrzeb. Zobacz pytanie czy testowanie normalności jest w zasadzie bezużyteczne? Rozkład normalny jest wygodnym przybliżeniem do wielu celów. Rzadko jest „poprawny” – ale generalnie nie musi być dokładny ly poprawne, aby były przydatne. Spodziewałbym się, że rozkład normalny będzie zwykle rozsądnym modelem wzrostu ludzi, ale wymagałby bardziej niezwykłego kontekstu, aby rozkład normalny miał sens jako model wieku ludzi.

Jeśli naprawdę czujesz potrzebę wykonania testu normalności, to Kołmogorov-Smirnov prawdopodobnie nie jest najlepszą opcją: jak zauważono w komentarzach, dostępne są bardziej zaawansowane testy. Shapiro-Wilk ma dobrą moc przeciwko wielu możliwym alternatywom i ma tę zaletę, że nie musisz wcześniej znać prawdziwej średniej i wariancji .Należy jednak pamiętać, że w małych próbkach potencjalnie całkiem duże odchylenia od normalności mogą nadal pozostać niewykryte, podczas gdy w dużych próbach nawet bardzo małe (i ze względów praktycznych, nieistotne) odchylenia od normalności mogą okazać się „bardzo istotne” (niskie p -value).

„Dzwonkowaty” nie jest „niekoniecznie normalny

Wygląda na to, że powiedziano Ci, aby myśleć o danych w kształcie dzwonu – danych symetrycznych, które osiągają szczyt w środku i które mają mniejsze prawdopodobieństwo w ogonach – jako o danych „normalnych”. Ale rozkład normalny wymaga określonego kształtu szczytu i ogonów. Istnieją inne rozkłady o podobnym kształcie na pierwszy rzut oka, które można również scharakteryzować jako „dzwonkowate”, ale które nie są normalne. O ile nie masz dużo danych, „prawdopodobnie nie będziesz w stanie odróżnić, że” wygląda jak ta standardowa dystrybucja, ale nie jak inne „. A jeśli masz dużo danych, prawdopodobnie okaże się, że nie wygląda to całkiem jak żadna „z półki” dystrybucji! Ale w takim przypadku do wielu celów „równie dobrze byłoby użyć empirycznego CDF .

Galeria

dystrybucji w kształcie dzwonu „

rozkład normalny to „kształt dzwonu”, do którego jesteś przyzwyczajony; Cauchy ma ostrzejszy szczyt i „cięższy” (tj. zawiera większe prawdopodobieństwo) ogony; gdzieś pośrodku znajduje się t rozkład z 5 stopniami swobody (norma to t z nieskończonym df i Cauchyego wynosi t z 1 df, więc to ma sens); Laplace lub podwójny rozkład wykładniczy ma pdf utworzony z dwóch przeskalowanych rozkładów wykładniczych jeden po drugim, co daje ostrzejszy pik niż rozkład normalny; dystrybucja Beta jest zupełnie inna – nie „t mają ogony, które kierują się ku infini ty na przykład, zamiast mieć ostre cięcia – ale nadal może mieć kształt „garbu” pośrodku. Właściwie, bawiąc się parametrami, można również uzyskać coś w rodzaju „skośnego garbu”, a nawet kształtu „U” – galeria na połączonej stronie Wikipedii jest dość pouczająca na temat elastyczności tej dystrybucji. Na koniec trójkątny rozkład to kolejna prosta dystrybucja na skończonym nośniku, często używana w modelowaniu ryzyka.

Prawdopodobnie żadna z tych dystrybucji nie opisuje dokładnie twojego danych i bardzo wiele innych dystrybucji o podobnych kształtach, ale chciałem zająć się błędnym przekonaniem, że „garbaty w środku i mniej więcej symetryczny oznacza normalny”. Ponieważ istnieją fizyczne ograniczenia danych dotyczących wieku, jeśli dane dotyczące wieku są „garbowane” w środku, to nadal możliwe jest, że dystrybucja ze skończonym wsparciem, jak Beta lub nawet rozkład trójkątny, może okazać się lepszym modelem niż model z nieskończonymi ogonami, takimi jak Zwróć uwagę, że nawet jeśli dane były rzeczywiście normalnie rozłożone, histogram nadal prawdopodobnie nie będzie przypominał klasycznego „dzwonka”, chyba że rozmiar próbki jest dość duży. Nawet próbka z dystrybucji takiej jak Laplace, której plik PDF jest wyraźnie odróżnialny od tego normalnej ze względu na jej guzek, może generować histogram, który wizualnie wydaje się mniej więcej tak podobny do dzwonka, jak wyglądałaby prawdziwa normalna próbka.

Normalne i Laplacea próbki różnych próbek rozmiary

Kod R

 par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)  

Odpowiedź

Wiek nie może być normalny dystrybucja. Think log ically: nie możesz mieć ujemnego wieku, ale rozkład normalny dopuszcza liczby ujemne.

Istnieje wiele rozkładów w kształcie dzwonu. Jeśli coś ma kształt dzwonu, nie oznacza to, że musi być normalne.

Nie ma sposobu, aby dowiedzieć się na pewno czegokolwiek w statystykach, w tym z jakiego rozkładu pochodzą dane. Kształt jest wskazówka: kształt dzwonu jest jednym z argumentów za rozkładem normalnym. Zrozumienie danych jest również bardzo ważne. Zmienna, taka jak wiek, jest często wypaczona, co wyklucza normalność. Jak wspomniano, rozkład normalny nie ma granic, ale czasami jest używany dla zmiennych ograniczonych. Na przykład, jeśli średni wiek wynosi 20 lat, a odchylenie standardowe wynosi 1, wówczas prawdopodobieństwo < 17 lub> 23 lat jest mniejsze niż 0,3%. , jest możliwe, że rozkład normalny byłby dobrym przybliżeniem .

Możesz spróbować przeprowadzić test statystyczny na normalność, taki jak Jarque-Bera, który uwzględnia skośność i kurtoozę W niektórych przypadkach kurtooza może być ważna.Jest to bardzo ważne w finansach, ponieważ jeśli modelujesz dane z rozkładem normalnym, ale w rzeczywistości dane pochodzą z rozkładu o grubych ogonach, możesz nie docenić ryzyka i cen aktywów.

Pomogłoby to w zgłoszeniu niektórych statystyk opisowych lub histogramu danych dotyczących wieku i wzrostu, takich jak średnia, wariancja, skośność, kurtozy.

Komentarze

  • Dziękuję za pomoc, czy możesz mi powiedzieć, skąd mam wiedzieć, że określone dane pochodzą z rozkładu normalnego, na przykład w Twojej odpowiedzi stwierdził, że wiek nie może pochodzić z rozkładu normalnego, a inne dane, takie jak wzrost. Muszę wiedzieć. Chcę dowiedzieć się więcej na ten temat, ponieważ wydaje się, że źle zrozumiałem tę koncepcję, ponieważ jestem nowy. Jeszcze raz dziękuję.
  • Jednak normalna dystrybucja często jest używany jako przybliżenie dla takich zmiennych jak wiek. I nie stanowi to problemu, ponieważ age_centred można zdefiniować jako i masz zmienną o średniej 0, z pewnym odchyleniem standardowym, wartościami dodatnimi i ujemnymi. Więc nie ' nie będę tak surowy.
  • Nie możesz też mieć ujemnego wzrostu dla ludzi, ale to nie ' t byłaby dla mnie przeszkodą w opisaniu wzrostu jako o rozkładzie normalnym, gdyby było to dobre przybliżenie. A skoro o tym mowa, po co używać jakiegokolwiek rozkładu z nieskończonymi granicami dla pomiarów, które mogą być tylko skończone? Jak mówi @Tim, wszystko jest kwestią przybliżeń akceptowalnych, biorąc pod uwagę dane i cel.
  • Zgadzam się, że rozkład normalny może być dobrym przybliżeniem dla danych ograniczonych, ale pytanie dotyczyło tego, czy dane pochodzą z normalnego stanu, czy nie.
  • Wiek uczniów kończących szkołę średnią może mieć rozkład normalny, a także przyjmować wartości ujemne, jeśli wyśrodkowano średnią, jak wspomniano w @Tim. li>

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *