Pokud můj histogram zobrazuje křivku ve tvaru zvonu, mohu říci, že moje data jsou normálně distribuována?

Vytvořil jsem histogram pro věk respondenta a podařilo se mi získat velmi pěknou křivku ve tvaru zvonu, ze které jsem usoudil, že rozdělení je normální.

Poté jsem provedl test normality v SPSS s n = 169. Hodnota p (Sig.) testu Kolmogorov-Smirnov je menší než 0,05 a tak údaje porušily předpoklad normality.

Proč test ukazuje, že věkové rozdělení není normální, ale histogram ukázal křivku ve tvaru zvonu, což je podle mého názoru normální? Kterého výsledku se mám řídit?

Komentáře

  • Proč testujete normálnost?
  • Kromě @Glen_b ‚ s vynikajícím komentářem a Aksakal ‚ s stejně vynikající odpovědí , všimněte si, že i pro kontinuální distribuce KS vyžaduje, aby průměr a sd byly předem známy , neodhadovány z údajů. Díky tomu je test KS zbytečný. “ Test Kolmogorov-Smirnov je pouze historickou kuriozitou. Nikdy by se neměl používat. “ (D ‚ Agostino v d ‚ Agostino & Stephens, eds., 1986). Pokud vůbec, místo toho použijte Shapiro-Wilks.
  • @Stephan Kolassa Dobrá rada, ale máte na mysli Shapiro-Wilk. (Návrhy MB Wilka a SS Wilkse jsou často zmatené nebo sjednocené; podivné použití ‚ s jako přivlastňovacího v angličtině zde také může přispět ke zmatku, a to i pro mnoho lidí, kteří mají angličtinu jako jejich první jazyk.)
  • Souvisí s komentářem @StephanKolassa, viz Je Shapiro-Wilk nejlepším testem normality? … odpověď je, že to není ‚ nutně podle toho, o kterou alternativu máte ‚ zájem, ale často je to dobrá volba .

Odpověď

Obvykle to známe nemožné, aby proměnná byla přesně normálně distribuována …

Normální distribuce má nekonečně dlouhé ocasy vyčnívající v obou směrech – je nepravděpodobné, že by data ležela daleko v těchto extrémech, ale pro pravdivé normální rozdělení to musí být fyzicky možné. U věků bude normálně distribuovaný model předpovídat, že existuje nenulová pravděpodobnost, že data budou ležet 5 standardních odchylek nad nebo pod průměrem – což by odpovídalo fyzicky nemožným věkům, například pod 0 nebo nad 150. (I když se podíváte na a populační pyramida , není jasné, proč byste očekávali, že věk bude na prvním místě dokonce přibližně normálně distribuován.) Podobně, pokud byste měli údaje o výškách, které intuitivně by mohlo následovat „normálnější“ rozdělení, mohlo by to být skutečně normální, jen kdyby existovala nějaká šance na výšky pod 0 cm nebo nad 300 cm.

Já příležitostně vidělo, že to naznačuje, že se můžeme tomuto problému vyhnout centrováním dat tak, aby měly průměrnou nulu. Tímto způsobem je možný pozitivní i negativní „centrovaný věk“. Ale i díky tomu jsou záporné hodnoty fyzicky věrohodné a interpretovatelné (záporné středové hodnoty odpovídají skutečným hodnotám ležícím pod průměrem), neobchází to problém, že normální model vyprodukuje fyzicky nemožné předpovědi s nenulovou pravděpodobností, jakmile dekódujte modelovaný „středový věk“ zpět na „skutečný věk“.

… tak proč se obtěžovat s testováním? I když není přesné, normálnost může stále být užitečným modelem

Důležitá otázka opravdu není, zda jsou data úplně normální – známe a priori , které mohou „Ve většině situací to tak nemusí být, a to i bez provedení testu hypotézy – ale zda je aproximace dostatečně blízká vašim potřebám. Viz otázka je testování normality v podstatě zbytečné? Normální rozdělení je pohodlná aproximace pro mnoho účelů. Je zřídka „správné“ – ale obvykle nemusí být přesné správně, aby byly užitečné. Očekával bych, že normální distribuce bude obvykle rozumným modelem pro výšky lidí, ale to by vyžadovalo neobvyklejší kontext, aby normální distribuce měla smysl jako model věku lidí.

Pokud opravdu cítíte potřebu provést test normality, pak Kolmogorov-Smirnov pravděpodobně není tou nejlepší volbou: jak je uvedeno v komentářích, jsou k dispozici výkonnější testy. Shapiro-Wilk má dobrou sílu proti řadě možných alternativ a má tu výhodu, že předem nemusíte znát skutečný průměr a odchylku .Ale pozor, u malých vzorků mohou potenciálně poměrně velké odchylky od normality zůstat nezjištěné, zatímco u velkých vzorků se i velmi malé (a pro praktické účely irelevantní) odchylky od normality pravděpodobně projeví jako „vysoce významné“ (nízké p -value).

„Zvonkovitý“ není nutně normální

Zdá se, že vám bylo řečeno, abyste považovali data ve tvaru zvonu – symetrická data, která vrcholí uprostřed a která mají menší pravděpodobnost v ocasech, za „normální“. Ale normální rozdělení vyžaduje určitý tvar svého vrcholu a ocasu. Na první pohled existují další distribuce s podobným tvarem, které můžete také charakterizovat jako „zvonovité“, ale které nejsou normální. Pokud nemáte hodně dat, je nepravděpodobné, že byste mohli rozlišit, že „vypadá to jako tato běžná distribuce, ale ne jako ostatní“. A pokud máte spoustu dat, pravděpodobně zjistíte, že nevypadá docela jako žádná „běžná“ distribuce vůbec! Ale v tom případě pro mnoho účelů můžete stejně dobře použít empirické CDF .

Galerie

zvonů ve tvaru “ distribucí

normální distribuce je „tvar zvonu“, na který jste zvyklí; Cauchy má ostřejší vrchol a „těžší“ (tj. obsahuje větší pravděpodobnost) ocasy; t distribuce s 5 stupni volnosti přichází někde mezi (normální je t s nekonečným df a Cauchy je t s 1 df, takže to dává smysl); Laplaceovo nebo dvojité exponenciální rozdělení má pdf vytvořené ze dvou změněných exponenciálních distribucí back-to-back, což má za následek ostřejší vrchol než normální distribuce; distribuce beta je zcela odlišná – není mít ocasy, které směřují k infini Například místo toho má ostré výřezy – ale stále může mít uprostřed tvar „hrb“. Ve skutečnosti tím, že si pohrajete s parametry, můžete také získat jakýsi „šikmý hrb“, nebo dokonce tvar „U“ – galerie na propojené stránce Wikipedie je docela poučná o flexibilitě této distribuce. Nakonec trojúhelníková distribuce je další jednoduchá distribuce s konečnou podporou, často používaná při modelování rizik.

Je pravděpodobné, že žádná z těchto distribucí přesně nepopisuje vaši data a existuje velmi mnoho dalších distribucí podobných tvarů, ale chtěl jsem se vypořádat s mylnou představou, že „hrbolatá uprostřed a zhruba symetrická znamená normální“. Vzhledem k tomu, že existují věkové limity pro věková data, jsou-li vaše věková data „hrbatá“ uprostřed, je stále možné, že distribuce s konečnou podporou jako Beta nebo dokonce trojúhelníkové rozdělení se může ukázat jako lepší model než ta s nekonečnými ocasy jako normální. Všimněte si, že i když byla vaše data skutečně normálně distribuována, je nepravděpodobné, že by váš histogram připomínal klasický „zvon“, pokud není váš vzorek dostatečně velký. Dokonce i vzorek z distribuce, jako je Laplace, jehož pdf je jasně odlišitelné od toho normálu díky svému hrotu, může vytvořit histogram, který se vizuálně jeví jako přibližně podobný zvonku, jako by to byl skutečně normální vzorek.

Normální a Laplaceovy vzorky různých vzorků velikosti

R kód

 par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)  

odpověď

Věk nemůže být normální distribuce. Mysli na log icky: nemůžete mít záporný věk, přesto normální rozdělení umožňuje záporná čísla.

Existuje mnoho rozložení ve tvaru zvonu. Pokud něco vypadá ve tvaru zvonu, neznamená to, že to musí být normální.

Ve statistikách neexistuje žádný způsob, jak s jistotou vědět, včetně toho, z jaké distribuce data pocházejí. Tvar je záchytný bod: tvar zvonu je jedním z argumentů pro normální rozdělení. Pochopení vašich údajů je také velmi důležité. Proměnná jako věk je často zkreslená, což by vyloučilo normálnost. Jak již bylo zmíněno, normální rozdělení nemá hranice, ale někdy se používá pro omezené proměnné. Pokud je například průměrný věk 20 let a standardní odchylka 1, pak je pravděpodobnost věku < 17 nebo> 23 menší než 0,3%. Takže , je možné, než by normální rozdělení mohlo být dobrá aproximace .

Můžete zkusit spustit statistický test normality, jako je Jarque-Bera, který bere v úvahu šikmost a špičatost vzorek. V některých případech může být důležitá kurtosa.Ve financích je to velmi důležité, protože pokud modelujete data s normální distribucí, ale data pocházejí ve skutečnosti z tučného rozdělení, můžete nakonec podcenit rizika a ceny aktiv.

Pomohlo by vám nahlásit některé popisné statistiky nebo histogram údajů o vašem věku a výšce, například průměr, odchylku, šikmost, špičatost.

Komentáře

  • Děkuji za vaši pomoc, můžete mi říct, jak vědět, že určitá data pocházejí z normálního rozdělení, například ve vaší odpovědi bylo uvedeno, že věk nemůže být z normálního rozdělení, co ostatní data, jako je výška. Jaká jsou kritéria, která Musím to vědět. Chci se o tom dozvědět více, protože se zdá, že jsem tento koncept nepochopil, protože jsem v tom nový. Ještě jednou.
  • Normální distribuce přesto je používá se jako aproximace pro takové proměnné, jako je věk. A není to opravdu problém, protože age_centred můžete definovat jako a máte proměnnou se střední hodnotou 0, s určitou směrodatnou odchylkou, kladnými a zápornými hodnotami. Takže bych na to nebyl ‚ tak přísný.
  • Ani pro lidi nemůžete mít zápornou výšku, ale to by ‚ Nebude mi bránit v popisu výšky jako normálně rozložené, pokud by to byla dobrá aproximace. Proč tedy použít jakoukoli distribuci s nekonečnými hranicemi pro měření, která mohou být pouze konečná? Jak říká @Tim, jde o aproximace přijatelné vzhledem k datům a vzhledem k účelu.
  • Souhlasím s tím, že normální rozdělení může být někdy dobrou aproximací pro ohraničená data, ale otázka byla o tom, zda jsou data z normálu nebo ne.
  • Věk maturujících seniorů ze střední školy by mohl být potenciálně normálně distribuován a také převzít záporné hodnoty, pokud by byl střed vycentrován jako @Tim zmínil.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *