Jeg oprettede et histogram for respondentens alder og formåede at få en meget flot klokkeformet kurve, hvorfra jeg konkluderede, at fordelingen er normal.
Så kørte jeg normalitetstesten i SPSS med n = 169. p -værdien (Sig.) af Kolmogorov-Smirnov-testen er mindre end 0,05 og derfor har dataene krænket antagelsen om normalitet.
Hvorfor indikerer testen, at aldersfordelingen ikke er normal, men histogrammet viste klokkeformet kurve, som efter min forståelse er normal? Hvilket resultat skal jeg følge?
Kommentarer
- Hvorfor tester du normalitet?
- Ud over @Glen_b ‘ er fremragende kommentar og Aksakal ‘ s lige så fremragende svar , bemærk, at selv for kontinuerlige distributioner kræver KS, at middelværdien og sd skal være kendt på forhånd , ikke estimeret ud fra dataene. Dette gør K-S-testen i det væsentlige ubrugelig. ” Kolmogorov-Smirnov-testen er kun en historisk nysgerrighed. Det bør aldrig bruges. ” (D ‘ Agostino i d ‘ Agostino & Stephens, red., 1986). Brug overhovedet Shapiro-Wilks i stedet.
- @Stephan Kolassa Gode råd, men du mener Shapiro-Wilk. (Forslagene fra MB Wilk og SS Wilks er ofte forvirrede eller sammenflettede. Den mærkelige brug af ‘ som besiddende på engelsk her kan også bidrage til forvirringen, selv for mange, der har engelsk som deres første sprog.)
- Relateret til kommentaren fra @StephanKolassa, se Er Shapiro-Wilk den bedste normalitetstest? … svaret er, at det ikke ‘ t nødvendigvis afhængigt af hvilket alternativ du ‘ er interesseret i, men det er meget ofte et godt valg .
Svar
Vi ved normalt, at det er umuligt for en variabel at være nøjagtigt normalt fordelt …
Normalfordelingen har uendeligt lange haler, der strækker sig ud i begge retninger – det er usandsynligt, at data ligger langt ude i disse ekstremer, men for en sand normalfordeling skal det være fysisk muligt. I aldre vil en normalt distribueret model forudsige, at der er en ikke-nul sandsynlighed for, at data ligger 5 standardafvigelser over eller under gennemsnittet – hvilket svarer til fysisk umulige aldre, såsom under 0 eller over 150. (Skønt hvis man ser en befolkningspyramide , er det ikke klart, hvorfor du ville forvente, at alderen i det hele taget var normalfordelt.) Tilsvarende hvis du havde højdedata, som intuitivt kan følge en mere “normal-lignende” fordeling, det kunne kun være virkelig normalt, hvis der var en chance for højder under 0 cm eller over 300 cm.
Jeg har lejlighedsvis set foreslog det, at vi kan undgå dette problem ved at centrere dataene til at have middelværdi nul. På den måde er både positive og negative “centrerede aldre” mulige. Men selvom dette gør både negative værdier fysisk plausible og fortolkelige (negative centrerede værdier svarer til faktiske værdier, der ligger under gennemsnittet), kommer det ikke rundt om problemet, at den normale model vil give fysisk umulige forudsigelser med ikke-nul sandsynlighed, når afkode den modellerede “centrerede alder” tilbage til en “faktisk alder”.
… så hvorfor gider man teste? Selvom det ikke er nøjagtigt, kan normalitet stadig være en nyttig model
Det vigtige spørgsmål er ikke rigtig, om dataene er nøjagtige normale – vi kender a priori der kan “t være tilfældet, i de fleste situationer, selv uden at køre en hypotesetest – men om tilnærmelsen er tilstrækkelig tæt til dine behov. Se spørgsmålet er normalitetstest i det væsentlige ubrugelig? Normalfordelingen er en praktisk tilnærmelse til mange formål. Den er sjældent “korrekt” – men generelt behøver den ikke at være nøjagtig meget korrekt for at være nyttigt. Jeg forventer, at normalfordelingen normalt er en rimelig model for folks højder, men det ville kræve en mere usædvanlig sammenhæng for, at normalfordelingen giver mening som en model for folks aldre.
Hvis du virkelig føler behov for at udføre en normalitetstest, så er Kolmogorov-Smirnov sandsynligvis ikke den bedste mulighed: Som bemærket i kommentarerne er der mere kraftfulde tests tilgængelige. Shapiro-Wilk har god styrke mod en række mulige alternativer og har den fordel, at du ikke behøver at kende det sande middel og varians på forhånd .Men pas på, at i små prøver muligvis ganske store afvigelser fra normalitet stadig ikke kan opdages, mens i store prøver, selv meget små (og til praktiske formål irrelevante) afvigelser fra normalitet sandsynligvis vises som “meget signifikant” (lav em> p -værdi).
“Klokkeformet” er ikke nødvendigvis normal
Det ser ud til, at du er blevet fortalt at tænke på “klokkeformede” data – symmetriske data, der topper i midten, og som har lavere sandsynlighed i halerne – som “normale”. kræver en bestemt form til sit højdepunkt og haler. Der er andre fordelinger med en lignende form ved første øjekast, som du måske også har karakteriseret som “klokkeformet”, men som ikke er normale. Medmindre du “har fået en masse data, er du sandsynligvis ikke i stand til at skelne mellem, at” det ligner denne distribution uden for hylden, men ikke som de andre “. Og hvis du har en masse data, vil du sandsynligvis finde ud af, at den ikke ser helt ud som enhver “off-the-shelf” distribution overhovedet! Men i så fald til mange formål ville du lige så godt bruge empirisk CDF .
klokkeformet ” distributioner
normalfordeling er den “klokkeform”, du er vant til; Cauchy har en skarpere top og “tungere” (dvs. mere sandsynlighed) haler; t fordeling med 5 frihedsgrader kommer et sted imellem (det normale er t med uendelig df og Cauchy er t med 1 df, så det giver mening); Laplace eller dobbelt eksponentiel fordeling har pdf dannet af to omskalede eksponentielle fordelinger back-to-back, hvilket resulterer i en skarpere top end normalfordelingen. Betadistribution er helt anderledes – det gør det ikke har haler, der går ud til uendelig for eksempel i stedet for at have skarpe afskæringer – men det kan stadig have “pukkel” -formen i midten. Faktisk ved at lege med parametrene kan du også få en slags “skæv pukkel” eller endda en “U” -form – galleriet på den linkede Wikipedia-side er ret lærerigt om fordelingsfleksibiliteten. Endelig er trekantet distribution er en anden simpel distribution på en endelig understøttelse, der ofte bruges i risikomodellering.
Det er sandsynligt, at ingen af disse distributioner nøjagtigt beskriver din data og meget mange andre distributioner med lignende former findes, men jeg ville tage fat på den misforståelse, at “pukket i midten og groft symmetrisk betyder normalt”. Da der er fysiske grænser for aldersdata, hvis dine aldersdata er “pukket” i midten, er det stadig muligt en distribution med endelig understøttelse som Beta eller endda trekantet fordeling kan vise sig at være en bedre model end en med uendelige haler som normal. Bemærk, at selvom dine data virkelig var normalt distribueret, er dit histogram stadig usandsynligt, at det ligner den klassiske “klokke”, medmindre din stikprøvestørrelse er ret stor. Selv en prøve fra en distribution som Laplace, hvis pdf klart kan skelnes fra af det normale på grund af dets cusp, kan producere et histogram, der visuelt ser ud til at være ligesom en klokke, som en ægte normal prøve ville. størrelser
R kode
par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)
Svar
Alder kan ikke være fra normal distribution. Tænk log ically: du kan ikke have negativ alder, men alligevel giver normal fordeling mulighed for negative tal.
Der er mange klokkeformede distributioner derude. Hvis noget ser klokkeformet ud, betyder det ikke, at det skal være normalt.
Der er ingen måde at vide med sikkerhed noget i statistikken, herunder fra hvilken distribution dataene kommer fra. Formen er en ledetråd: klokkeform er et argument for normalfordeling. Det er også meget vigtigt at forstå dine data. Variablen som alder er ofte skæv, hvilket udelukker normalitet. Som nævnt har normalfordelingen ingen grænser, men det bruges undertiden for afgrænsede variabler. Hvis f.eks. gennemsnitsalderen er 20 år, og standardafvigelsen er 1, er sandsynligheden for alder < 17 eller> 23 mindre end 0,3%. , er det muligt, end normalfordeling kan være en god tilnærmelse .
Du kan prøve at køre en statistisk test for normalitet som Jarque-Bera, der tager højde for skævhed og kurtose af Kurtosis kan være vigtig i nogle tilfælde.Det er meget vigtigt i økonomi, for hvis du modellerer dataene med normalfordeling, men dataene faktisk er fra en fedt-tailed distribution, kan du ende med at undervurdere risikoen og priserne på aktiver.
Det ville hjælpe dig med at rapportere nogle beskrivende statistikker eller et histogram over dine alders- og højdedata, såsom gennemsnit, varians, skævhed, kurtose.
Kommentarer
- Tak for din hjælp, kan du fortælle mig, hvordan jeg ved, at de bestemte data kommer fra normalfordeling, for eksempel i dit svar sagde, at alder ikke kan være fra normalfordeling, hvad med andre data som højde. Hvad er kriterierne, som Jeg må vide. jeg vil lære mere om dette, fordi det ser ud til at jeg har misforstået konceptet, da jeg er ny på dette. Tak igen.
- Alligevel er normalfordeling ofte brugt som en tilnærmelse for sådanne variabler som alder. Og det er ikke rigtig et problem, da du kan definere
age_centred
som og du har en variabel med gennemsnit 0 med nogle standardafvigelser, positive og negative værdier. Så jeg ville ikke ‘ ikke være så streng over det. - Du kan heller ikke have negativ højde for mennesker, men det ville ikke ‘ t være en barriere for mig at beskrive højden som normalt fordelt, hvis det var en god tilnærmelse. For den sags skyld, hvorfor bruge en distribution med uendelige grænser til målinger, der kun kan være endelige? Som @Tim siger, det hele handler om tilnærmelser, der er acceptable, givet dataene og givet formålet.
- Jeg er enig i, at normalfordeling undertiden kan være en god tilnærmelse for afgrænsede data, men spørgsmålet drejede sig om, hvorvidt dataene er fra normale eller ej.
- Alderen på seniorer fra gymnasiet kunne potentielt være normalfordelt og også tage negative værdier, hvis gennemsnit centreret som @Tim nævnt.