Als mijn histogram een klokvormige curve laat zien, kan ik dan zeggen dat mijn gegevens normaal verdeeld zijn?

Ik heb een histogram gemaakt voor Respondent Age en heb een heel mooie klokvormige curve gekregen, waaruit ik concludeerde dat de verdeling normaal is.

Vervolgens heb ik de normaliteitstest in SPSS uitgevoerd, met n = 169. De p -waarde (Sig.) van de Kolmogorov-Smirnov-test is minder dan 0,05 en dus hebben de gegevens de aanname van normaliteit geschonden.

Waarom geeft de test aan dat de leeftijdsverdeling niet normaal is, maar het histogram toonde een klokvormige curve, die naar mijn mening normaal is? Welk resultaat moet ik volgen?

Opmerkingen

  • Waarom test u de normaliteit?
  • Naast @Glen_b ‘ s uitstekende opmerking en Aksakal ‘ s even uitstekende antwoord , merk op dat zelfs voor continue distributies, KS vereist dat het gemiddelde en sd vooraf bekend zijn , niet geschat op basis van de gegevens. Dit maakt de K-S-test in wezen nutteloos. ” De Kolmogorov-Smirnov-test is slechts een historische curiositeit. Het mag nooit worden gebruikt. ” (D ‘ Agostino in d ‘ Agostino & Stephens, eds., 1986). Gebruik in plaats daarvan Shapiro-Wilks.
  • @Stephan Kolassa Goed advies, maar je bedoelt Shapiro-Wilk. (De suggesties van MB Wilk en SS Wilks zijn vaak verward of verward; het vreemde gebruik van ‘ s als bezitterig in het Engels kan hier ook bijdragen aan de verwarring, zelfs voor velen die Engels hebben als hun eerste taal.)
  • Gerelateerd aan de opmerking van @StephanKolassa, zie Is Shapiro-Wilk de beste normaliteitstest? … het antwoord is dat het niet ‘ t noodzakelijk is, afhankelijk van in welk alternatief je ‘ geïnteresseerd bent, maar het is vaak een goede keuze .

Antwoord

We weten meestal dat het onmogelijk voor een variabele om exact normaal verdeeld te zijn …

De normale verdeling heeft oneindig lange staarten die zich in beide richtingen uitstrekken – het is onwaarschijnlijk dat gegevens ver in deze uitersten liggen, maar voor een echte normale verdeling moet het fysiek mogelijk zijn. Voor leeftijden zal een normaal verdeeld model voorspellen dat er een niet-nulkans is dat gegevens 5 standaarddeviaties boven of onder het gemiddelde liggen – wat overeenkomt met fysiek onmogelijke leeftijden, zoals onder 0 of boven 150. (hoewel als je kijkt naar a bevolkingspiramide , is het niet duidelijk waarom u in de eerste plaats zou verwachten dat leeftijd zelfs ongeveer normaal verdeeld zou zijn.) Evenzo als u gegevens over de hoogte had, die zou intuïtief een meer “normaal-achtige” verdeling kunnen volgen, het zou alleen echt normaal kunnen zijn als er enige kans was op hoogtes onder 0 cm of boven 300 cm.

I “ve zo nu en dan suggereerde het dat we dit probleem kunnen omzeilen door de gegevens zo te centreren dat ze een gemiddelde nul hebben. Op die manier zijn zowel positieve als negatieve ‘gecentreerde leeftijden’ mogelijk. Maar hoewel dit beide negatieve waarden fysiek aannemelijk en interpreteerbaar maakt (negatieve gecentreerde waarden komen overeen met werkelijke waarden die onder het gemiddelde liggen), kan het probleem niet worden omzeild dat het normale model fysiek onmogelijke voorspellingen zal produceren met een waarschijnlijkheid die niet gelijk is aan nul. decodeer de gemodelleerde “gecentreerde leeftijd” terug naar een “werkelijke leeftijd”.

… dus waarom zou je testen doen? Zelfs als het niet exact is, kan normaliteit nog steeds een handig model zijn

De belangrijke vraag is niet echt of de gegevens precies normaal zijn – we weten a priori dat “is in de meeste situaties niet het geval, zelfs zonder een hypothesetest uit te voeren, maar of de benadering voldoende overeenkomt voor uw behoeften. Zie de vraag is normaliteitstesten in wezen nutteloos? De normale verdeling is voor veel doeleinden een handige benadering. Het is zelden correct, maar hoeft over het algemeen niet exact te zijn ly correct om nuttig te zijn. Ik had verwacht dat de normale verdeling meestal een redelijk model zou zijn voor de lengte van mensen, maar het zou een meer ongebruikelijke context nodig hebben om de normale verdeling zinvol te laten zijn als een model van de leeftijden van mensen.

Als je echt de behoefte voelt om een normaliteitstest uit te voeren, dan is Kolmogorov-Smirnov waarschijnlijk niet de beste optie: zoals opgemerkt in de commentaren, zijn er krachtigere tests beschikbaar. Shapiro-Wilk heeft een goede kracht tegen een reeks mogelijke alternatieven, en heeft het voordeel dat u niet van tevoren het ware gemiddelde en de ware variantie hoeft te weten .Maar pas op dat in kleine steekproeven potentieel vrij grote afwijkingen van normaliteit nog steeds onopgemerkt kunnen blijven, terwijl in grote steekproeven zelfs zeer kleine (en voor praktische doeleinden irrelevante) afwijkingen van normaliteit waarschijnlijk als “zeer significant” (laag p -waarde).

“Klokvormig” is niet “niet per se normaal

Het lijkt erop dat u is verteld om “klokvormige” gegevens – symmetrische gegevens die in het midden pieken en die een lagere kans hebben in de staarten – als “normaal” te beschouwen. Maar de normale verdeling vereist een specifieke vorm voor zijn top en staart. Er zijn andere verdelingen met een vergelijkbare vorm op het eerste gezicht, die je misschien ook als “klokvormig” hebt gekenmerkt, maar die niet normaal zijn. Tenzij je “veel veel gegevens hebt”, is het onwaarschijnlijk dat je kunt onderscheiden dat “het eruit ziet als deze standaarddistributie, maar niet zoals de andere”. En als u veel data heeft, zult u waarschijnlijk merken dat het er niet helemaal uitziet als een “standaard” distributie! Maar in dat geval zou je voor veel doeleinden “net zo goed de empirische CDF kunnen gebruiken.

Galerij met

klokvormige ” distributies

De normale verdeling is de “belvorm” die u gewend bent; de Cauchy heeft een scherpere piek en “zwaarder” (dwz met meer kans) staarten; de t verdeling met 5 vrijheidsgraden komt ergens tussenin (de normaal is t met oneindige df en de Cauchy is t met 1 df, dus dat is logisch); de Laplace of dubbele exponentiële verdeling heeft pdf gevormd uit twee herschaalde exponentiële verdelingen back-to-back, resulterend in een scherpere piek dan de normale verdeling; de Beta-verdeling is heel anders – het is niet hebben staarten die naar het infini gaan ty bijvoorbeeld, in plaats daarvan met scherpe afsnijdingen – maar het kan nog steeds de “bult” -vorm in het midden hebben. Door met de parameters te spelen, kun je eigenlijk ook een soort “scheve bult” of zelfs een “U” -vorm krijgen – de galerij op de gelinkte Wikipedia-pagina is behoorlijk leerzaam over de flexibiliteit van die distributie. Ten slotte is de driehoekige distributie is een andere eenvoudige distributie op een eindige ondersteuning, vaak gebruikt bij risicomodellering.

Het is waarschijnlijk dat geen van deze distributies precies uw data, en er zijn heel veel andere distributies met vergelijkbare vormen, maar ik wilde de misvatting aanpakken dat “in het midden gehurkt en ruwweg symmetrisch normaal betekent”. Aangezien er fysieke limieten zijn voor leeftijdsgegevens, is het nog steeds mogelijk dat een distributie met eindige ondersteuning zoals de bèta of zelfs een driehoekige verdeling een beter model blijkt te zijn dan een met oneindige staarten zoals de normaal. Houd er rekening mee dat, zelfs als uw gegevens echt normaal zijn verdeeld, uw histogram waarschijnlijk nog steeds niet lijkt op de klassieke bel, tenzij uw steekproefomvang vrij groot is. Zelfs een steekproef uit een distributie als de Laplace, waarvan de pdf duidelijk van die van het normale vanwege zijn cusp, kan een histogram produceren dat visueel ongeveer net zo lijkt op een bel als een echt normaal monster.

Normale en Laplace-monsters van verschillende monsters maten

R-code

 par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)  

Antwoord

Leeftijd kan niet afwijken van normaal distributie. Denk log ically: je kunt geen negatieve leeftijd hebben, maar normale verdeling staat negatieve getallen toe.

Er zijn veel klokvormige verdelingen die er zijn. Als iets er klokvormig uitziet, betekent dit niet dat het normaal moet zijn.

Er is geen manier om iets zeker te weten in de statistieken, inclusief uit welke distributie de gegevens afkomstig zijn. De vorm is een aanwijzing: klokvorm is een argument voor een normale verdeling. Ook is het begrijpen van uw gegevens erg belangrijk. De variabele zoals leeftijd is vaak scheef, wat normaliteit zou uitsluiten. Zoals vermeld heeft de normale verdeling geen grenzen, maar wordt deze soms gebruikt voor begrensde variabelen. Als de gemiddelde leeftijd bijvoorbeeld 20 jaar is en de standaarddeviatie 1, dan is de kans op < 17 of> 23 minder dan 0,3%. Dus , is het mogelijk dat normale verdeling een goede benadering zou kunnen zijn.

U kunt proberen een statistische test uit te voeren voor normaliteit, zoals Jarque-Bera, die rekening houdt met scheefheid en kurtosis van de steekproef Kurtosis kan in sommige gevallen belangrijk zijn.Het is erg belangrijk in de financiële wereld, want als u de gegevens modelleert met een normale verdeling, maar de gegevens zijn in feite afkomstig van een dikke staartverdeling, kunt u de risicos en prijzen van activa onderschatten.

Het zou je helpen om wat beschrijvende statistieken of een histogram van je leeftijds- en lengtegegevens te rapporteren, zoals gemiddelde, variantie, scheefheid, kurtosis.

Opmerkingen

  • Bedankt voor je hulp, kun je me vertellen hoe ik weet dat de bepaalde gegevens afkomstig zijn van normale verdeling, bijvoorbeeld in je antwoord dat leeftijd niet uit de normale verdeling kan komen, hoe zit het met andere gegevens zoals lengte. ik moet het weten. ik wil hier meer over weten omdat het lijkt alsof ik het concept verkeerd heb begrepen, aangezien ik nieuw ben. Nogmaals bedankt.
  • Toch is normale distributie vaak is gebruikt als een benadering voor variabelen zoals leeftijd. En het is niet echt een probleem aangezien je age_centred kunt definiëren als en je hebt een variabele met een gemiddelde 0, met wat standaarddeviatie, positieve en negatieve waarden. Dus ik zou ‘ er niet zo streng over zijn.
  • Je kunt ook geen negatieve hoogte hebben voor mensen, maar dat zou niet ‘ t vormt voor mij een belemmering om de hoogte te omschrijven als normaal verdeeld als dat een goede benadering was. Waarom zou je trouwens een verdeling met oneindige grenzen gebruiken voor metingen die alleen eindig kunnen zijn? Zoals @Tim zegt, is het allemaal een kwestie van benaderingen die aanvaardbaar zijn gezien de gegevens en het doel.
  • Ik ben het ermee eens dat normale distributie soms een goede benadering kan zijn voor gebonden gegevens, maar de vraag was of de gegevens van normaal zijn of niet.
  • De leeftijd van afstuderende senioren van de middelbare school kan mogelijk normaal worden verdeeld en ook negatieve waarden aannemen als het gemiddelde wordt gecentreerd zoals @Tim vermeldt.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *