Hvis mit histogram viser en klokkeformet kurve, kan jeg så sige, at mine data normalt distribueres?

Question

Jeg oprettede et histogram for respondentens alder og formåede at få en meget flot klokkeformet kurve, hvorfra jeg konkluderede, at fordelingen er normal.

Så kørte jeg normalitetstesten i SPSS med n = 169. p -værdien (Sig.) af Kolmogorov-Smirnov-testen er mindre end 0,05 og derfor har dataene krænket antagelsen om normalitet.

Hvorfor indikerer testen, at aldersfordelingen ikke er normal, men histogrammet viste klokkeformet kurve, som efter min forståelse er normal? Hvilket resultat skal jeg følge?

Kommentarer

Hvorfor tester du normalitet?
Ud over @Glen_b ‘ er fremragende kommentar og Aksakal ‘ s lige så fremragende svar , bemærk, at selv for kontinuerlige distributioner kræver KS, at middelværdien og sd skal være kendt på forhånd , ikke estimeret ud fra dataene. Dette gør K-S-testen i det væsentlige ubrugelig. ” Kolmogorov-Smirnov-testen er kun en historisk nysgerrighed. Det bør aldrig bruges. ” (D ‘ Agostino i d ‘ Agostino & Stephens, red., 1986). Brug overhovedet Shapiro-Wilks i stedet.
@Stephan Kolassa Gode råd, men du mener Shapiro-Wilk. (Forslagene fra MB Wilk og SS Wilks er ofte forvirrede eller sammenflettede. Den mærkelige brug af ‘ som besiddende på engelsk her kan også bidrage til forvirringen, selv for mange, der har engelsk som deres første sprog.)
Relateret til kommentaren fra @StephanKolassa, se Er Shapiro-Wilk den bedste normalitetstest? … svaret er, at det ikke ‘ t nødvendigvis afhængigt af hvilket alternativ du ‘ er interesseret i, men det er meget ofte et godt valg .

Answer 1

Vi ved normalt, at det er umuligt for en variabel at være nøjagtigt normalt fordelt …

Normalfordelingen har uendeligt lange haler, der strækker sig ud i begge retninger – det er usandsynligt, at data ligger langt ude i disse ekstremer, men for en sand normalfordeling skal det være fysisk muligt. I aldre vil en normalt distribueret model forudsige, at der er en ikke-nul sandsynlighed for, at data ligger 5 standardafvigelser over eller under gennemsnittet – hvilket svarer til fysisk umulige aldre, såsom under 0 eller over 150. (Skønt hvis man ser en befolkningspyramide , er det ikke klart, hvorfor du ville forvente, at alderen i det hele taget var normalfordelt.) Tilsvarende hvis du havde højdedata, som intuitivt kan følge en mere “normal-lignende” fordeling, det kunne kun være virkelig normalt, hvis der var en chance for højder under 0 cm eller over 300 cm.

Jeg har lejlighedsvis set foreslog det, at vi kan undgå dette problem ved at centrere dataene til at have middelværdi nul. På den måde er både positive og negative “centrerede aldre” mulige. Men selvom dette gør både negative værdier fysisk plausible og fortolkelige (negative centrerede værdier svarer til faktiske værdier, der ligger under gennemsnittet), kommer det ikke rundt om problemet, at den normale model vil give fysisk umulige forudsigelser med ikke-nul sandsynlighed, når afkode den modellerede “centrerede alder” tilbage til en “faktisk alder”.

… så hvorfor gider man teste? Selvom det ikke er nøjagtigt, kan normalitet stadig være en nyttig model

Det vigtige spørgsmål er ikke rigtig, om dataene er nøjagtige normale – vi kender a priori der kan “t være tilfældet, i de fleste situationer, selv uden at køre en hypotesetest – men om tilnærmelsen er tilstrækkelig tæt til dine behov. Se spørgsmålet er normalitetstest i det væsentlige ubrugelig? Normalfordelingen er en praktisk tilnærmelse til mange formål. Den er sjældent “korrekt” – men generelt behøver den ikke at være nøjagtig meget korrekt for at være nyttigt. Jeg forventer, at normalfordelingen normalt er en rimelig model for folks højder, men det ville kræve en mere usædvanlig sammenhæng for, at normalfordelingen giver mening som en model for folks aldre.

Hvis du virkelig føler behov for at udføre en normalitetstest, så er Kolmogorov-Smirnov sandsynligvis ikke den bedste mulighed: Som bemærket i kommentarerne er der mere kraftfulde tests tilgængelige. Shapiro-Wilk har god styrke mod en række mulige alternativer og har den fordel, at du ikke behøver at kende det sande middel og varians på forhånd .Men pas på, at i små prøver muligvis ganske store afvigelser fra normalitet stadig ikke kan opdages, mens i store prøver, selv meget små (og til praktiske formål irrelevante) afvigelser fra normalitet sandsynligvis vises som “meget signifikant” (lav em> p -værdi).

“Klokkeformet” er ikke nødvendigvis normal

Det ser ud til, at du er blevet fortalt at tænke på “klokkeformede” data – symmetriske data, der topper i midten, og som har lavere sandsynlighed i halerne – som “normale”. kræver en bestemt form til sit højdepunkt og haler. Der er andre fordelinger med en lignende form ved første øjekast, som du måske også har karakteriseret som “klokkeformet”, men som ikke er normale. Medmindre du “har fået en masse data, er du sandsynligvis ikke i stand til at skelne mellem, at” det ligner denne distribution uden for hylden, men ikke som de andre “. Og hvis du har en masse data, vil du sandsynligvis finde ud af, at den ikke ser helt ud som enhver “off-the-shelf” distribution overhovedet! Men i så fald til mange formål ville du lige så godt bruge empirisk CDF .

Galleri med

Answer 2

Alder kan ikke være fra normal distribution. Tænk log ically: du kan ikke have negativ alder, men alligevel giver normal fordeling mulighed for negative tal.

Der er mange klokkeformede distributioner derude. Hvis noget ser klokkeformet ud, betyder det ikke, at det skal være normalt.

Der er ingen måde at vide med sikkerhed noget i statistikken, herunder fra hvilken distribution dataene kommer fra. Formen er en ledetråd: klokkeform er et argument for normalfordeling. Det er også meget vigtigt at forstå dine data. Variablen som alder er ofte skæv, hvilket udelukker normalitet. Som nævnt har normalfordelingen ingen grænser, men det bruges undertiden for afgrænsede variabler. Hvis f.eks. gennemsnitsalderen er 20 år, og standardafvigelsen er 1, er sandsynligheden for alder < 17 eller> 23 mindre end 0,3%. , er det muligt, end normalfordeling kan være en god tilnærmelse .

Du kan prøve at køre en statistisk test for normalitet som Jarque-Bera, der tager højde for skævhed og kurtose af Kurtosis kan være vigtig i nogle tilfælde.Det er meget vigtigt i økonomi, for hvis du modellerer dataene med normalfordeling, men dataene faktisk er fra en fedt-tailed distribution, kan du ende med at undervurdere risikoen og priserne på aktiver.

Det ville hjælpe dig med at rapportere nogle beskrivende statistikker eller et histogram over dine alders- og højdedata, såsom gennemsnit, varians, skævhed, kurtose.

Kommentarer

Tak for din hjælp, kan du fortælle mig, hvordan jeg ved, at de bestemte data kommer fra normalfordeling, for eksempel i dit svar sagde, at alder ikke kan være fra normalfordeling, hvad med andre data som højde. Hvad er kriterierne, som Jeg må vide. jeg vil lære mere om dette, fordi det ser ud til at jeg har misforstået konceptet, da jeg er ny på dette. Tak igen.
Alligevel er normalfordeling ofte brugt som en tilnærmelse for sådanne variabler som alder. Og det er ikke rigtig et problem, da du kan definere age_centred som og du har en variabel med gennemsnit 0 med nogle standardafvigelser, positive og negative værdier. Så jeg ville ikke ‘ ikke være så streng over det.
Du kan heller ikke have negativ højde for mennesker, men det ville ikke ‘ t være en barriere for mig at beskrive højden som normalt fordelt, hvis det var en god tilnærmelse. For den sags skyld, hvorfor bruge en distribution med uendelige grænser til målinger, der kun kan være endelige? Som @Tim siger, det hele handler om tilnærmelser, der er acceptable, givet dataene og givet formålet.
Jeg er enig i, at normalfordeling undertiden kan være en god tilnærmelse for afgrænsede data, men spørgsmålet drejede sig om, hvorvidt dataene er fra normale eller ej.
Alderen på seniorer fra gymnasiet kunne potentielt være normalfordelt og også tage negative værdier, hvis gennemsnit centreret som @Tim nævnt.

Hvis mit histogram viser en klokkeformet kurve, kan jeg så sige, at mine data normalt distribueres?

Kommentarer

Svar

Svar

Kommentarer

Skriv et svar Annuller svar