Ha a hisztogramom harang alakú görbét mutat, mondhatom, hogy az adataim rendesen el vannak osztva?

Létrehoztam egy hisztogramot a válaszadó korosztály számára, és sikerült egy nagyon szép harang alakú görbét kapnom, amelyből arra következtettem, hogy az eloszlás normális.

Ezután a normálistesztet SPSS-ben futtattam, n = 169-tel. A Kolmogorov-Smirnov-teszt p értéke (Sig.) kevesebb, mint 0,05 és így az adatok megsértették a normalitás feltételezését.

Miért jelzi a teszt, hogy az életkor megoszlása nem normális, de a hisztogram harang alakú görbét mutatott, ami megértésem szerint normális? Melyik eredményt kell követnem?

Megjegyzések

  • Miért teszteled a normalitást?
  • A @Glen_b ‘ kiváló megjegyzés és Aksakal ‘ ugyanolyan kiváló válasza , vegye figyelembe, hogy a KS még folyamatos eloszlások esetén is megköveteli, hogy az átlagot és az sd-t előre ismerjék , és ne becsüljék meg az adatokból. Ez lényegében használhatatlanná teszi a K-S tesztet. ” A Kolmogorov-Smirnov-teszt csak történelmi érdekesség. Soha nem szabad használni. ” (D ‘ Agostino in d ‘ Agostino & Stephens, szerk., 1986). Ha egyáltalán használja Shapiro-Wilks-t.
  • @Stephan Kolassa Jó tanács, de Shapiro-Wilkra gondol. (MB Wilk és SS Wilks javaslatait gyakran összekeverik vagy összetévesztik; az ‘ s furcsa használata angolul birtokosként itt is hozzájárulhat a zavartsághoz, még azoknak is, akiknek van angolul első nyelvükként.)
  • A @StephanKolassa megjegyzéséhez kapcsolódva lásd: Shapiro-Wilk a legjobb normalitási teszt? … a válasz az, hogy ez nem ‘ nem feltétlenül, attól függően, hogy melyik alternatíva érdekel ‘, de nagyon gyakran jó választás .

Válasz

Általában tudjuk lehetetlen, hogy egy változó pontosan normálisan legyen elosztva …

A normál eloszlásnak végtelenül hosszú farka van, amelyek mindkét irányba kinyúlnak – nem valószínű, hogy az adatok messze fekszenek ezekben a szélsőségekben, de egy true normális eloszláshoz fizikailag lehetségesnek kell lennie. Életkorok esetén egy normálisan elosztott modell azt jósolja, hogy az adatok nem nulla valószínűséggel 5 standard eltérést tartalmaznak az átlag felett vagy alatt – ami megfelelne a fizikailag lehetetlen életkoroknak, például 0 vagy 150 felett. (Bár ha megnézzük, egy populációs piramis , nem világos, miért várhatnánk eleve azt, hogy az életkor megközelítőleg normálisan oszlik meg.) Hasonlóképpen, ha rendelkeznének magassági adatokkal, amelyek intuitív módon követhet egy “normálisabb” eloszlást, csak valóban normális lehet, ha van esély valamilyen 0 cm alatti vagy 300 cm feletti magasságra.

Én “ve” időnként azt sugallta, hogy elkerülhetjük ezt a problémát azáltal, hogy az adatokat középre nullázzuk. Így pozitív és negatív “központú életkor” egyaránt lehetséges. De bár ez mind a negatív értékeket fizikailag elfogadhatóvá és értelmezhetővé teszi (a negatív középre igazított értékek megfelelnek az átlag alatt fekvő tényleges értékeknek), nem kerüli meg azt a kérdést, hogy a normál modell fizikailag lehetetlen előrejelzéseket állít elő nulla valószínűséggel, ha egyszer dekódolja a modellezett “központosított kort” vissza egy “tényleges életkorra”.

… miért veszi a fáradságot a tesztelés? Még akkor is, ha nem pontos, a normalitás még mindig képes hasznos modell legyen

A fontos kérdés nem igazán az, hogy az adatok pontosan normálisak-e – tudjuk a priori “Ez nem így van a legtöbb helyzetben, még hipotézis teszt elvégzése nélkül sem – de vajon a közelítés elég közel van-e az Ön igényeihez. Lásd a kérdést a normalitás tesztelése lényegében haszontalan? A normális eloszlás kényelmes közelítés sokféle célra. Ritkán “helyes” – de általában nem kell pontosnak lennie helyes, hogy hasznos legyen. Arra számítanék, hogy a normális eloszlás általában ésszerű modell lesz az emberek magassága szempontjából, de szokatlanabb kontextusra lenne szükség ahhoz, hogy a normális eloszlás értelmet nyerjen az emberek korának modelljeként.

Ha valóban szükségesnek érzi a normalitási teszt elvégzését, akkor Kolmogorov-Smirnov valószínűleg nem a legjobb megoldás: amint a megjegyzésekben megjegyeztük, erősebb tesztek állnak rendelkezésre. Shapiro-Wilk jó erõvel bír a lehetséges alternatívák sorával szemben, és megvan az az elõnye, hogy nem kell elõzetesen ismernie a valódi átlagot és szórást .De vigyázzon, hogy kis mintákban a normálistól való meglehetősen nagy eltérések még mindig észrevétlenek maradhatnak, míg nagy mintákban a normálistól való nagyon kicsi (és gyakorlati szempontból lényegtelen) eltérések valószínűleg “nagyon jelentősnek” (alacsony p -érték).

A “harang alakú” nem feltétlenül normális

Úgy tűnik, azt mondták, hogy “harang alakú” adatokat – szimmetrikus adatokat, amelyek középen csúcsosodnak ki, és amelyeknek a faroknál kisebb a valószínűsége – “normálisnak” kell gondolni. De a normális eloszlás Csúcsához és farkaihoz speciális alakzatot igényel. Vannak más első látásra hasonló alakú eloszlások, amelyeket Ön is “harang alakúaknak” jellemezhet, de amelyek nem normálisak. Hacsak nem rendelkezik sok adattal, valószínűtlen, hogy meg tudja különböztetni, hogy “úgy néz ki, mint ez a polcon kívüli terjesztés, de nem úgy, mint a többi”. És ha sok adata van, akkor valószínűleg úgy fogja találni, hogy nem úgy néz ki egészen , mint bármelyik “polcon kívüli” disztribúció! De ebben az esetben sokféle célra ugyanúgy használhatja az empirikus CDF-t .

Gallery of "bell shaped" distributions

harang alakú ” terjesztések galériája

A normál eloszlás a szokásos “harang alak”; a Cauchy csúcsa élesebb és “nehezebb” (azaz tartalmaz nagyobb valószínűséggel) farok; az t eloszlás 5 fokos szabadsággal valahol a kettő közé esik (a normális t végtelen df-vel és a Cauchy t 1 df-vel, tehát ennek van értelme); az Laplace vagy kettős exponenciális eloszlás A két új skálájú, exponenciális eloszlásból összeállított pdf back-to-back, ami a normál eloszlásnál élesebb csúcsot eredményez; a béta eloszlás egészen más – nem “t” vannak olyan farkai, amelyek egészen a végéig tartanak például, ahelyett, hogy éles elválasztásokkal rendelkezne – de ennek ellenére középen “púpos” alakja lehet. Valójában a paraméterek kijátszásával megszerezhet egyfajta “ferde púpot”, vagy akár “U” alakot is – a linkelt Wikipedia oldalon található galéria meglehetősen tanulságos az elosztás rugalmasságával kapcsolatban. Végül a háromszög eloszlás egy másik egyszerű elosztás egy véges támogatáson, amelyet gyakran használnak a kockázati modellezésben.

Valószínűleg egyik eloszlás sem írja le pontosan az Ön adatok, és nagyon sok más hasonló formájú disztribúció létezik, de szerettem volna foglalkozni azzal a tévképzettel, amely “középen púpos és nagyjából szimmetrikus azt jelenti, hogy normális”. Mivel az életkori adatoknak vannak fizikai korlátai, ha az életkoradatok középen vannak “púposodva”, akkor még mindig lehetséges, hogy egy olyan véges támogatású elosztás, mint a Beta, vagy akár a háromszög eloszlás is jobb modellt bizonyíthat, mint egy olyan végtelen farokkal, mint a normális. Vegye figyelembe, hogy még akkor is, ha az adatai valóban normálisan voltak elosztva, a hisztogramja valószínűleg mégsem hasonlít a klasszikus “harangra”, kivéve, ha a mintamérete meglehetősen nagy. Még egy olyan terjesztésből származó minta is, mint a Laplace, amelynek pdf-je egyértelműen megkülönböztethető csúcsa miatt a normál értéke hisztogramot hozhat létre, amely vizuálisan körülbelül ugyanolyan megjelenik egy haranghoz, mint egy valóban normális minta.

Különböző minták normál és Laplace mintái méretek

R kód

 par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)  

Válasz

Az életkor nem lehet normális gondolkodás log Nyilvánvalóan: nem lehet negatív életkorod, mégis a normális eloszlás megengedi a negatív számokat.

Sok harang alakú eloszlás létezik. Ha valami harang alakúnak tűnik, ez nem azt jelenti, hogy normálisnak kell lennie.

A statisztikákban semmit sem lehet biztosan tudni, beleértve azt is, hogy melyik terjesztésből származnak az adatok. A forma egy nyom: a harang alakja a normális eloszlás egyik érve. Az adatok megértése is nagyon fontos. A változó, például az életkor gyakran torz, ami kizárná a normalitást. Mint említettük, a normális eloszlásnak nincsenek határai, de néha használják Például, ha az átlagéletkor 20 év, a szórás pedig 1, akkor a < 17 vagy> 23 éves életkor valószínűsége kisebb, mint 0,3%. , lehetséges, hogy a normális eloszlás jó közelítés lehet.

Kipróbálhat egy statisztikai tesztet a normalitásra, mint például Jarque-Bera, amely figyelembe veszi a A kurtosis bizonyos esetekben fontos lehet.Nagyon fontos a pénzügyek terén, mert ha normál eloszlással modellezi az adatokat, de az adatok valójában zsíros elosztásból származnak, akkor alulbecsülheti az eszközök kockázatát és árát.

Segítene, ha néhány leíró statisztikát vagy egy életkorra és magasságra vonatkozó hisztogramot jelentene, például átlag, szórás, ferdeség, kurtosis.

Megjegyzések

  • Köszönöm a segítséget, meg tudná mondani, hogyan lehet tudni, hogy bizonyos adatok normális eloszlásból származnak, például a válaszában kijelentette, hogy az életkor nem lehet normális eloszlásból, mi a helyzet más adatokkal, például a magassággal. tudnom kell. Szeretnék többet megtudni erről, mert úgy tűnik, hogy félreértettem a koncepciót, mivel új vagyok ebben. Ismét köszönöm.
  • A normális eloszlás azonban gyakran az közelítésként használják az olyan változókhoz, mint az életkor. És ez valójában nem is probléma, mivel a age_centred -et és van egy változó, amelynek középértéke 0, némi szórással, pozitív és negatív értékekkel. Tehát nem lennék ennyire szigorú ‘.
  • Az emberek számára sem lehet negatív magasság, de ez nem lenne ‘ t nem jelenthet számomra akadályt a magasság normális eloszlású leírásában, ha ez jó közelítés. Miért érdemes végtelen határokkal rendelkező elosztást használni olyan mérésekhez, amelyek csak végesek lehetnek? Ahogy a @Tim mondja, mindez az adatokra és a célra tekintettel elfogadható közelítések kérdése.
  • Egyetértek azzal, hogy a normális eloszlás néha jó közelítés lehet a korlátozott adatokra, de a kérdés arra vonatkozott, hogy az adatok normálisak-e vagy sem.
  • A középiskolát végző idősek életkora potenciálisan normálisan megosztható, és negatív értékeket is felvehet, ha az átlag középpontjában áll, ahogy @Tim említi.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük