Jeg opprettet et histogram for respondentens alder og klarte å få en veldig fin klokkeformet kurve, som jeg konkluderte med at fordelingen var normal.
Så kjørte jeg normalitetstesten i SPSS, med n = 169. p -verdien (Sig.) av Kolmogorov-Smirnov-testen er mindre enn 0,05 og slik at dataene har brutt antagelsen om normalitet.
Hvorfor indikerer testen at aldersfordelingen ikke er normal, men histogrammet viste klokkeformet kurve, som etter min forståelse er normal? Hvilket resultat skal jeg følge?
Kommentarer
- Hvorfor tester du normalitet?
- I tillegg til @Glen_b ‘ s utmerkede kommentar og Aksakal ‘ s like gode svar , merk at selv for kontinuerlige distribusjoner krever KS at gjennomsnittet og sd skal være kjent på forhånd , ikke estimert fra dataene. Dette gjør K-S-testen ubrukelig. » Kolmogorov-Smirnov-testen er bare en historisk nysgjerrighet. Den skal aldri brukes. » (D ‘ Agostino i d ‘ Agostino & Stephens, red., 1986). Bruk i det hele tatt Shapiro-Wilks.
- @Stephan Kolassa Gode råd, men du mener Shapiro-Wilk. (Forslagene til MB Wilk og SS Wilks er ofte forvirrede eller sammenslåtte; den rare bruken av ‘ som besatt på engelsk her kan også bidra til forvirringen, selv for mange som har engelsk som førstespråk.)
- Relatert til kommentaren til @StephanKolassa, se Er Shapiro-Wilk den beste normalitetstesten? … svaret er at det ikke er ‘ t nødvendig, avhengig av hvilket alternativ du ‘ er interessert i, men det er ofte et godt valg .
Svar
Vi vet vanligvis at det er umulig for en variabel å være nøyaktig normalt distribuert …
Normalfordelingen har uendelig lange haler som strekker seg ut i begge retninger – det er usannsynlig at data ligger langt ute i disse ytterpunktene, men for en ekte normalfordeling må det være fysisk mulig. For aldre vil en normalt distribuert modell forutsi at det er en ikke-sannsynlighet for data som ligger 5 standardavvik over eller under gjennomsnittet – noe som vil svare til fysisk umulige aldre, for eksempel under 0 eller over 150. (Selv om du ser på a befolkningspyramide , er det ikke klart hvorfor du forventer at alderen til og med vil være omtrent normalt fordelt i utgangspunktet.) Tilsvarende hvis du hadde høydedata, som intuitivt kan følge en mer «normallignende» fordeling, det kan bare være virkelig normalt hvis det er noen sjanse for høyder under 0 cm eller over 300 cm.
Jeg har noen ganger sett antydet det at vi kan unngå dette problemet ved å sentrere dataene for å ha middel null. På den måten er både positive og negative «sentrerte aldre» mulig. Men selv om dette gjør både negative verdier fysisk plausible og tolkerbare (negative sentrerte verdier tilsvarer faktiske verdier som ligger under gjennomsnittet), kommer det ikke rundt problemet at den normale modellen vil produsere fysisk umulige spådommer med ikke-null sannsynlighet, når du dekode den modellerte «sentrerte alderen» tilbake til en «faktisk alder».
… så hvorfor bry seg om å teste? Selv om det ikke er nøyaktig, kan normalitet fortsatt være en nyttig modell
Det viktige spørsmålet er egentlig ikke om dataene er helt normale – vi vet a priori som kan «t være tilfelle, i de fleste situasjoner, selv uten å kjøre en hypotesetest – men om tilnærmingen er tilstrekkelig nær for dine behov. Se spørsmålet er normalitetstesting i det vesentlige ubrukelig? Normalfordelingen er en praktisk tilnærming til mange formål. Den er sjelden «riktig» – men generelt trenger den ikke å være nøyaktig riktig å være nyttig. Jeg forventer at normalfordelingen vanligvis er en rimelig modell for folks høyder, men det vil kreve en mer uvanlig kontekst for at normalfordelingen skal være fornuftig som en modell for folks aldre.
Hvis du virkelig føler behov for å utføre en normalitetstest, så er sannsynligvis ikke Kolmogorov-Smirnov det beste alternativet: som nevnt i kommentarene, er kraftigere tester tilgjengelige. Shapiro-Wilk har god kraft mot en rekke mulige alternativer, og har fordelen at du ikke trenger å vite det sanne gjennomsnittet og variansen på forhånd .Men vær oppmerksom på at i små prøver kan potensielt ganske store avvik fra normalitet fremdeles ikke oppdages, mens i store prøver, til og med veldig små (og for praktiske formål, irrelevante) avvik fra normalitet sannsynligvis vil vises som «svært signifikante» (lave p -verdi).
«Klokkeformet» er ikke nødvendigvis normal
Det ser ut til at du har blitt fortalt å tenke på «klokkeformede» data – symmetriske data som topper i midten og som har lavere sannsynlighet i halene – som «normale». krever en bestemt form til toppen og haler. Det er andre distribusjoner med lignende form ved første øyekast, som du kanskje også har karakterisert som «klokkeformet», men som ikke er normale. Med mindre du har « mye data, er det lite sannsynlig at du vil kunne skille mellom at» det ser ut som denne hylledistribusjonen, men ikke som de andre «. Og hvis du har mye data, vil du sannsynligvis finne ut at den ikke ser ut ganske som enhver «hylle» -fordeling i det hele tatt! Men i så fall for mange formål vil du like godt bruke empirisk CDF .
bjelleformet » distribusjoner
normalfordeling er «bjelleformen» du er vant til; Cauchy har en skarpere topp og «tyngre» (dvs. inneholder mer sannsynlighet) haler; t fordelingen med 5 frihetsgrader kommer et sted imellom (det normale er t med uendelig df og Cauchy er t med 1 df, så det er fornuftig); Laplace eller dobbelt eksponentiell fordeling har pdf dannet av to rescaled eksponensielle distribusjoner rygg mot rygg, noe som resulterer i en skarpere topp enn normalfordelingen. Betadistribusjon er ganske annerledes – det gjør ikke har haler som går til infini for eksempel, i stedet for å ha skarpe avskjæringer – men det kan fortsatt ha «pukkel» -formen i midten. Egentlig ved å leke med parametrene, kan du også få en slags «skjev pukkel», eller til og med en «U» -form – galleriet på den koblede Wikipedia-siden er ganske lærerikt om fordelingsfleksibiliteten. Til slutt, trekantdistribusjon er en annen enkel distribusjon på en begrenset støtte, ofte brukt i risikomodellering.
Det er sannsynlig at ingen av disse distribusjonene nøyaktig beskriver din data, og veldig mange andre distribusjoner med lignende former eksisterer, men jeg ønsket å ta opp den misforståelsen at «pukket i midten og grovt symmetrisk betyr normalt». Siden det er fysiske begrensninger på aldersdata, er aldersdataene dine «pukket» i midten, men det er fortsatt mulig en distribusjon med endelig støtte som Beta eller til og med trekantet fordeling kan vise seg å være en bedre modell enn en med uendelige haler som Vær oppmerksom på at selv om dataene dine virkelig ble distribuert normalt, er det fortsatt lite sannsynlig at histogrammet ditt ligner på den klassiske «bjellen» med mindre prøvestørrelsen er ganske stor. Selv et utvalg fra en distribusjon som Laplace, hvis pdf tydelig kan skilles fra den av det normale på grunn av sin cusp, kan produsere et histogram som visuelt virker omtrent like likt en bjelle som en virkelig normal prøve ville gjort.
R-kode
par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)
Svar
Alder kan ikke være fra normal distribusjon. Tenk logg ically: du kan ikke ha negativ alder, men normalfordeling tillater negative tall.
Det er mange klokkeformede distribusjoner der ute. Hvis noe ser klokkeformet ut, betyr det ikke at det må være normalt.
Det er ingen måte å vite sikkert om noe i statistikken, inkludert fra hvilken distribusjon dataene kommer fra. Formen er en ledetråd: klokkeform er ett argument for normalfordeling. Det er også veldig viktig å forstå dataene dine. Variabelen som alder er ofte skjev, noe som vil utelukke normalitet. Som nevnt har normalfordelingen ingen grenser, men den brukes noen ganger for avgrensede variabler. For eksempel, hvis gjennomsnittsalderen er 20 år, og standardavviket er 1, er sannsynligheten for alder < 17 eller> 23 mindre enn 0,3%. , er det mulig enn normalfordeling kan være en god tilnærming .
Du kan prøve å kjøre en statistisk test for normalitet som Jarque-Bera, som tar hensyn til skjevhet og kurtose av Kurtosis kan i noen tilfeller være viktig.Det er veldig viktig i økonomi, for hvis du modellerer dataene med normalfordeling, men dataene faktisk er fra en fettdistribusjon, kan du ende opp med å undervurdere risikoen og prisene på eiendeler.
Det vil hjelpe deg med å rapportere beskrivende statistikk eller et histogram over alders- og høydedataene dine, for eksempel gjennomsnitt, varians, skjevhet, kurtose.
Kommentarer
- Takk for hjelpen, kan du fortelle meg hvordan jeg vet at visse data kommer fra normalfordeling, for eksempel i svaret ditt sa at alder ikke kan være fra normalfordeling, hva med andre data som høyde. Hva er kriteriene som Jeg må vite. jeg vil lære mer om dette fordi det ser ut til at jeg har misforstått konseptet siden jeg er ny på dette. Takk igjen.
- Likevel er normalfordeling ofte brukt som en tilnærming for slike variabler som alder. Og det er egentlig ikke et problem siden du kan definere
age_centred
som og du har en variabel med gjennomsnitt 0, med noen standardavvik, positive og negative verdier. Så jeg ville ikke ‘ ikke være så streng om det. - Du kan ikke ha negativ høyde for mennesker heller, men det ville ikke ‘ t være en barriere for meg å beskrive høyden som normalt fordelt hvis det var en god tilnærming. For den saks skyld, hvorfor bruke en fordeling med uendelige grenser for målinger som bare kan være endelige? Som @Tim sier, handler det hele om tilnærminger som er akseptable gitt dataene og gitt formålet.
- Jeg er enig i at normalfordeling noen ganger kan være en god tilnærming for avgrensede data, men spørsmålet var om dataene er fra normale eller ikke.
- Alderen på uteksaminert seniorer fra videregående skole kan potensielt være normalfordelt og også ta på seg negative verdier hvis middel sentrert som @Tim nevnt.