Dacă histograma mea prezintă o curbă în formă de clopot, pot spune că datele mele sunt distribuite în mod normal?

Am creat o histogramă pentru Respondent Age și am reușit să obțin o curbă foarte frumoasă în formă de clopot, din care am ajuns la concluzia că distribuția este normală.

Apoi am efectuat testul de normalitate în SPSS, cu n = 169. Valoarea p (Sig.) a testului Kolmogorov-Smirnov este mai mică de 0,05 și astfel datele au încălcat ipoteza normalității.

De ce testul indică faptul că distribuția vârstei nu este normală, dar histograma a arătat o curbă în formă de clopot, ceea ce din înțelegerea mea este normal? Ce rezultat ar trebui să urmez?

Comentarii

  • De ce testați normalitatea?
  • În plus față de @Glen_b ‘ excelent comentariu și Aksakal ‘ răspuns la fel de excelent , rețineți că, chiar și pentru distribuții continue, KS necesită ca media și sd să fie cunoscute în prealabil , nu să fie estimate din date. Acest lucru face în esență testul K-S inutil. ” Testul Kolmogorov-Smirnov este doar o curiozitate istorică. Nu trebuie folosit niciodată. ” (D ‘ Agostino în d ‘ Agostino & Stephens, eds., 1986). Dacă este deloc, folosiți în schimb Shapiro-Wilks.
  • @Stephan Kolassa Sfat bun, dar vă referiți la Shapiro-Wilk. (Sugestiile lui MB Wilk și SS Wilks sunt adesea confundate sau confundate; utilizarea ciudată a ‘ s ca posesiv în engleză aici poate contribui, de asemenea, la confuzie, chiar și pentru mulți care ca prima lor limbă.)
  • Legat de comentariul lui @StephanKolassa, consultați Este Shapiro-Wilk cel mai bun test de normalitate? … răspunsul este că nu este ‘ în mod necesar, în funcție de alternativa care vă interesează ‘, dar este foarte des o alegere bună .

Răspuns

De obicei îl știm imposibil ca o variabilă să fie exact distribuită în mod normal …

Distribuția normală are cozi infinit de lungi care se extind în ambele direcții – este puțin probabil ca datele să se afle departe în aceste extreme, dar pentru o distribuție normală adevărată trebuie să fie posibil din punct de vedere fizic. Pentru vârste, un model distribuit în mod normal va prezice că există o probabilitate diferită de zero ca datele să depășească 5 deviații standard peste sau sub medie – ceea ce ar corespunde vârstelor imposibile fizic, cum ar fi sub 0 sau peste 150. (Deși dacă te uiți la o piramidă a populației , nu este clar de ce v-ați aștepta ca vârsta să fie distribuită aproximativ în mod normal în primul rând.) În mod similar, dacă ați avea date de înălțime, care intuitiv ar putea urma o distribuție mai „normală”, ar putea fi cu adevărat normală numai dacă ar exista unele șanse de înălțimi sub 0 cm sau peste 300 cm.

Eu văzut ocazional, a sugerat că putem sustrage această problemă centrând datele la valoarea zero. În acest fel sunt posibile atât „vârstele centrate” pozitive, cât și cele negative. Dar, deși acest lucru face ca valorile negative să fie plauzibile și interpretabile din punct de vedere fizic (valorile negative centrate corespund valorilor reale situate sub medie), nu se rezolvă problema că modelul normal va produce predicții imposibil din punct de vedere fizic cu probabilitate diferită de zero decodificați „vârsta centrată” modelată înapoi la o „vârstă reală”.

… deci de ce să vă deranjați testarea? Chiar dacă nu este exactă, normalitatea poate continua fi un model util

Întrebarea importantă nu este chiar dacă datele sunt exact normale – știm a priori că poate „Nu este cazul, în majoritatea situațiilor, chiar și fără a efectua un test de ipoteză – dar dacă aproximarea este suficient de apropiată pentru nevoile dvs. Vedeți întrebarea testarea normalității este în esență inutilă? Distribuția normală este o aproximare convenabilă în multe scopuri. Este rareori „corectă” – dar, în general, nu trebuie să fie exactă Corect pentru a fi util. M-aș aștepta ca distribuția normală să fie de obicei un model rezonabil pentru înălțimile oamenilor, dar ar necesita un context mai neobișnuit pentru ca distribuția normală să aibă sens ca model al vârstelor oamenilor.

Dacă într-adevăr simțiți nevoia de a efectua un test de normalitate, atunci Kolmogorov-Smirnov probabil nu este cea mai bună opțiune: așa cum sa menționat în comentarii, sunt disponibile teste mai puternice. Shapiro-Wilk are o putere bună împotriva unei game de alternative posibile și are avantajul că nu este nevoie să cunoașteți în prealabil adevărata medie și varianță .Dar aveți grijă că în eșantioanele mici, abaterile potențial destul de mari de la normalitate pot rămâne nedetectate, în timp ce în eșantioanele mari, chiar și abaterile foarte mici (și în scopuri practice, irelevante) de la normalitate pot apărea ca „foarte semnificative” (scăzut p -value).

„în formă de clopot” nu este neapărat normal

Se pare că vi s-a spus să vă gândiți la date „în formă de clopot” – date simetrice care au vârfurile la mijloc și care au o probabilitate mai mică în cozi – ca „normale”. Dar distribuția normală necesită o formă specifică vârfului și cozilor sale. Există și alte distribuții cu o formă similară la prima vedere, pe care este posibil să le fi caracterizat și ca „în formă de clopot”, dar care nu sunt normale. Cu excepția cazului în care „veți obține o mulțime de date , este puțin probabil să fiți capabil să distingeți că„ seamănă cu această distribuție disponibilă, dar nu cu celelalte ”. Și dacă aveți o mulțime de date, probabil că veți găsi că nu arata destul de ca orice distribuție „disponibilă” deloc! Dar în acest caz, în multe scopuri, ar fi la fel de bine să utilizați CDF empiric .

Galerie de

în formă de clopot ” distribuții

distribuția normală este „forma clopotului” cu care sunteți obișnuit; Cauchy are un vârf mai ascuțit și „mai greu” (adică conține mai multe probabilități) cozi; distribuția t cu 5 grade de libertate apare undeva între ele (normalul este t cu infinit df și Cauchy este t cu 1 df, deci are sens); Laplace sau distribuție dublă exponențială are pdf format din două distribuții exponențiale redimensionate spate-în-spate, rezultând un vârf mai ascuțit decât distribuția normală; Distribuția beta este destul de diferită – nu este au cozi care se îndreaptă spre Infini de exemplu, având în schimb tăieturi ascuțite – dar poate avea în continuare forma „cocoașă” în mijloc. De fapt, jucând cu parametrii, puteți obține, de asemenea, un fel de „cocoașă înclinată” sau chiar o formă „U” – galeria de pe pagina Wikipedia legată este destul de instructivă despre flexibilitatea acelei distribuții. În cele din urmă, distribuție triunghiulară este o altă distribuție simplă pe un suport finit, adesea utilizată în modelarea riscurilor.

Este probabil ca niciuna dintre aceste distribuții să nu vă descrie exact date, și foarte multe alte distribuții cu forme similare există, dar am vrut să abordez concepția greșită conform căreia „cocoșat în mijloc și aproximativ simetric înseamnă normal”. Deoarece există limite fizice în ceea ce privește datele de vârstă, dacă datele dvs. de vârstă sunt „curbate” la mijloc, este încă posibilă o distribuție cu suport finit, cum ar fi beta sau chiar distribuție triunghiulară, care se poate dovedi un model mai bun decât unul cu cozi infinite, cum ar fi Rețineți că, chiar dacă datele dvs. au fost într-adevăr distribuite în mod normal, histograma dvs. este puțin probabil să semene cu „clopotul” clasic, cu excepția cazului în care dimensiunea eșantionului dvs. este destul de mare. din normal datorită vârfului său, poate produce o histogramă care apare vizual la fel de asemănătoare cu un clopoțel ca o probă cu adevărat normală.

Probele normale și Laplace din diferite probe dimensiuni

Cod R

 par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)  

Răspuns

Vârsta nu poate fi normală distribuție. Gândiți-vă la jurnal În mod normal: nu puteți avea vârsta negativă, totuși distribuția normală permite numere negative.

Există multe distribuții în formă de clopot acolo. Dacă ceva arată în formă de clopot, nu înseamnă că trebuie să fie normal.

Nu există nicio modalitate de a ști cu siguranță nimic în statistici, inclusiv din ce distribuție provin datele. Forma este o indiciu: forma clopotului este un argument pentru distribuția normală. De asemenea, înțelegerea datelor dvs. este foarte importantă. Variabila, cum ar fi vârsta, este adesea înclinată, ceea ce ar exclude normalitatea. După cum sa menționat, distribuția normală nu are limite, dar este uneori folosită pentru variabilele mărginite. De exemplu, dacă vârsta medie este de 20 de ani și abaterea standard este 1, atunci probabilitatea vârstei < 17 sau> 23 este mai mică de 0,3%. , este posibil ca distribuția normală să fie o bună aproximare .

Puteți încerca să efectuați un test statistic pentru normalitate, cum ar fi Jarque-Bera, care ia în considerare asimetria și curtoza proba.Kurtosis poate fi importantă în unele cazuri.Este foarte important în domeniul finanțelor, deoarece dacă modelați datele cu distribuție normală, dar datele provin de fapt dintr-o distribuție cu coadă grasă, puteți ajunge să subestimați riscurile și prețurile activelor.

Te-ar ajuta să raportezi câteva statistici descriptive sau o histogramă a datelor de vârstă și înălțime, precum media, varianța, asimetria, kurtosis.

Comentarii

  • Îți mulțumesc pentru ajutor, îmi poți spune cum să știu că anumite date provin din distribuția normală, de exemplu, în răspunsul tău se spune că vârsta nu poate fi din distribuția normală, ce zici de alte date cum ar fi înălțimea. Care sunt criteriile care Trebuie să știu. Vreau să aflu mai multe despre acest lucru, deoarece se pare că am înțeles greșit conceptul, deoarece sunt nou în acest sens. Mulțumesc din nou.
  • Cu toate acestea, distribuția normală este folosit ca aproximare pentru variabile precum vârsta. Și nu este într-adevăr o problemă, deoarece puteți defini age_centred ca și aveți o variabilă cu media 0, cu unele deviații standard, valori pozitive și negative. Așadar, nu aș fi ‘ aș fi atât de strict în privința asta.
  • Nici nu poți avea înălțime negativă pentru oameni, dar asta nu ar ‘ nu ar fi o barieră pentru mine în ceea ce privește descrierea înălțimii distribuite în mod normal, dacă aceasta ar fi o aproximare bună. De altfel, de ce să folosim orice distribuție cu limite infinite pentru măsurători care nu pot fi decât finite? După cum spune @Tim, totul este o chestiune de aproximări acceptabile având în vedere datele și având în vedere scopul.
  • Sunt de acord că distribuția normală ar putea fi o aproximare bună uneori pentru datele delimitate, dar întrebarea se referea la faptul dacă datele sunt normale sau nu.
  • Vârsta absolvenților de liceu ar putea fi distribuită în mod normal și, de asemenea, să ia valori negative, dacă media este centrată, așa cum a menționat @Tim.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *