Jag skapade ett histogram för respondentens ålder och lyckades få en mycket fin klockformad kurva, varifrån jag drog slutsatsen att fördelningen är normal.
Sedan körde jag normalitetstestet i SPSS, med n = 169. p -värdet (Sig.) för Kolmogorov-Smirnov-testet är mindre än 0,05 och så har uppgifterna brutit mot antagandet om normalitet.
Varför indikerar testet att åldersfördelningen inte är normal, men histogrammet visade en klockformad kurva, som enligt min förståelse är normal? Vilket resultat ska jag följa?
Kommentarer
- Varför testar du normalitet?
- Förutom @Glen_b ’ s utmärkta kommentar och Aksakal ’ s lika utmärkta svar , notera att även för kontinuerliga distributioner kräver KS att medelvärdet och sd är kända i förväg , inte uppskattat från data. Detta gör i princip K-S-testet värdelöst. ” Kolmogorov-Smirnov-testet är bara en historisk nyfikenhet. Den ska aldrig användas. ” (D ’ Agostino i d ’ Agostino & Stephens, red., 1986). Om alls, använd Shapiro-Wilks istället.
- @Stephan Kolassa Bra råd, men du menar Shapiro-Wilk. (Förslagen från MB Wilk och SS Wilks är ofta förvirrade eller sammanslagna. Den konstiga användningen av ’ som besatt på engelska här kan också bidra till förvirringen, även för många som har engelska som sitt första språk.)
- Relaterat till kommentaren från @StephanKolassa, se Är Shapiro-Wilk det bästa normalitetstestet? … svaret är att det inte ’ t nödvändigtvis, beroende på vilket alternativ du ’ är intresserad av, men det är mycket ofta ett bra val .
Svar
Vi vet vanligtvis att det är omöjligt för en variabel att vara exakt normalt distribuerad …
Normalfördelningen har oändligt långa svansar som sträcker sig ut i vardera riktningen – det är osannolikt att data ligger långt ute i dessa ytterligheter, men för en sann normalfördelning måste det vara fysiskt möjligt. I åldrar kommer en normalt distribuerad modell att förutsäga att det finns en sannolikhet som inte är noll att data ligger 5 standardavvikelser över eller under medelvärdet – vilket skulle motsvara fysiskt omöjliga åldrar, till exempel under 0 eller över 150. (Men om du tittar på en befolkningspyramid , det är inte klart varför du skulle förvänta dig att åldern till och med skulle vara ungefär normalt fördelad i första hand.) På samma sätt om du hade höjddata, vilket intuitivt kan följa en mer ”normalliknande” fördelning, det kan bara vara verkligen normalt om det finns en viss chans för höjder under 0 cm eller över 300 cm.
Jag har ibland sett föreslog det att vi kan undvika detta problem genom att centrera data så att de betyder medelvärde. På så sätt är både positiva och negativa ”centrerade åldrar” möjliga. Men även om detta gör både negativa värden fysiskt trovärdiga och tolkbara (negativa centrerade värden motsvarar faktiska värden som ligger under medelvärdet), kommer det inte att komma runt problemet att den normala modellen kommer att ge fysiskt omöjliga förutsägelser med icke-noll sannolikhet, när du avkoda den modellerade ”centrerade åldern” tillbaka till en ”verklig ålder”.
… så varför bry sig om att testa? Även om det inte är exakt, kan det fortfarande vara normalt vara en användbar modell
Den viktiga frågan är inte riktigt om uppgifterna är exakt normala – vi vet a priori som kan ”t är fallet, i de flesta situationer, även utan att köra ett hypotesprov – men huruvida approximationen är tillräckligt nära för dina behov. Se frågan är normalitetstest i huvudsak värdelös? Normalfördelningen är en bekväm approximation för många ändamål. Det är sällan ”korrekt” – men det behöver i allmänhet inte vara exakt rätt att vara användbar. Jag förväntar mig att normalfördelningen vanligtvis är en rimlig modell för människors höjder, men det skulle kräva ett mer ovanligt sammanhang för att normalfördelningen skulle vara meningsfull som en modell för människors åldrar.
Om du verkligen känner ett behov av att utföra ett normalitetstest, är Kolmogorov-Smirnov förmodligen inte det bästa alternativet: som nämnts i kommentarerna finns mer kraftfulla tester tillgängliga. Shapiro-Wilk har god kraft mot en rad möjliga alternativ och har fördelen att du inte behöver veta det verkliga medelvärdet och variansen i förväg .Men var uppmärksam på att i små prover kan potentiellt ganska stora avvikelser från normalitet fortfarande inte upptäckas, medan i stora prover, till och med mycket små (och för praktiska ändamål, irrelevanta) avvikelser från normalitet sannolikt kommer att visas som ”mycket signifikanta” (låg p -värde).
”Klockformad” är inte nödvändigtvis normal
Det verkar som om du har fått höra att du tänker på ”klockformade” data – symmetriska data som toppar i mitten och som har lägre sannolikhet i svansarna – som ”normala”. kräver en specifik form till sin topp och svansar. Det finns andra distributioner med en liknande form vid första anblicken, som du kanske också har karakteriserat som ”klockformad”, men som inte är normala. Om du inte har mycket data, är det osannolikt att du kan skilja på att ”det ser ut som den här hyllan-distributionen men inte som de andra”. Och om du har mycket data kommer du troligen att det inte ser ut ganska som någon ”hylla” -distribution alls! Men i så fall skulle du lika gärna kunna använda empirisk CDF .
klockformad ” distributioner
normalfördelning är den ”klockform” du är van vid; Cauchy har en skarpare topp och ”tyngre” (dvs. innehåller mer sannolikhet) svansar; t fördelningen med 5 frihetsgrader kommer någonstans däremellan (det normala är t med oändlig df och Cauchy är t med 1 df, så det är vettigt); Laplace eller dubbel exponentiell distribution har pdf bildad av två omskalade exponentiella distributioner rygg mot rygg, vilket resulterar i en skarpare topp än normalfördelningen. Betadistribution är helt annorlunda – det gör inte har svansar som går till infini till exempel istället med skarpa avskärningar – men det kan fortfarande ha ”puckel” -formen i mitten. Egentligen genom att leka med parametrarna kan du också få en slags ”skev puckel” eller till och med en ”U” -form – galleriet på den länkade Wikipedia-sidan är ganska lärorikt om distributionens flexibilitet. Slutligen är triangelfördelning är en annan enkel distribution på ett ändligt stöd som ofta används vid riskmodellering.
Det är troligt att ingen av dessa distributioner exakt beskriver din Det finns data och många andra distributioner med liknande former, men jag ville ta itu med missuppfattningen att ”puckade i mitten och grovt symmetriskt betyder normalt”. Eftersom det finns fysiska gränser för åldersdata, om dina åldersuppgifter ”humpas” i mitten är det fortfarande möjligt att en distribution med ändligt stöd som Beta eller till och med triangelfördelning kan visa sig vara en bättre modell än en med oändliga svansar som normalt. Observera att även om dina data verkligen distribuerades normalt är det fortfarande osannolikt att ditt histogram liknar den klassiska ”klockan” om inte din provstorlek är ganska stor. Även ett prov från en distribution som Laplace, vars pdf tydligt kan särskiljas från den av det normala på grund av dess kusp, kan producera ett histogram som visuellt verkar ungefär lika en klocka som ett verkligt normalt prov skulle göra.
R-kod
par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)
Svar
Ålder kan inte vara från normal distribution. Tänk logg ically: du kan inte ha negativ ålder, men normalfördelning möjliggör negativa siffror.
Det finns många klockformade fördelningar där ute. Om något ser klockformat ut betyder det inte att det måste vara normalt.
Det finns inget sätt att veta säkert någonting i statistiken, inklusive från vilken distribution data kommer från. Formen är en ledtråd: klockform är ett argument för normalfördelning. Att förstå dina data är också mycket viktigt. Variabeln som ålder är ofta sned, vilket skulle utesluta normalitet. Som nämnts har normalfördelningen inga gränser, men den används ibland Om till exempel medelåldern är 20 år och standardavvikelsen är 1, är sannolikheten för ålder < 17 eller> 23 mindre än 0,3%. , det är möjligt än normalfördelning kan vara en bra approximation .
Du kan prova att köra ett statistiskt test för normalitet som Jarque-Bera, som tar hänsyn till snedhet och kurtos av Kurtosis kan vara viktigt i vissa fall.Det är väldigt viktigt i ekonomin, för om du modellerar data med normal distribution, men informationen faktiskt kommer från en fettsvansad distribution, kan du sluta underskatta riskerna och priserna på tillgångar.
Det skulle hjälpa dig att rapportera beskrivande statistik eller ett histogram över dina ålders- och höjddata, som medelvärde, varians, snedhet, kurtos.
Kommentarer
- Tack för din hjälp, kan du berätta för mig hur man vet att vissa uppgifter kommer från normalfördelning, till exempel i ditt svar uppgav att ålder inte kan vara från normalfördelning, vad sägs om andra uppgifter som höjd. Vad är kriterierna som Jag måste veta. jag vill lära mig mer om detta eftersom det verkar som att jag har missförstått konceptet eftersom jag är ny på detta. Tack igen.
- Ändå är normalfördelning ofta används som en approximation för sådana variabler som ålder. Och det är egentligen inte ett problem eftersom du kan definiera
age_centred
som och du har en variabel med medelvärde 0, med viss standardavvikelse, positiva och negativa värden. Så jag skulle inte ’ inte vara så strikt om det. - Du kan inte ha negativ höjd för människor heller, men det skulle inte ’ t vara ett hinder för mig att beskriva höjd som normalt fördelad om det var en bra approximation. För den delen, varför använda någon distribution med oändliga gränser för mätningar som bara kan vara ändliga? Som @Tim säger, det handlar allt om approximationer som är acceptabla med tanke på uppgifterna och med tanke på syftet.
- Jag håller med om att normal distribution ibland kan vara en bra approximation för begränsade data, men frågan handlade om huruvida uppgifterna är från normala eller inte.
- Åldern på examenande seniorer från gymnasiet kan potentiellt vara normalfördelad och också ta negativa värden om medelvärdet är centrerat som @Tim nämnts. li>