Loin histogrammin vastaajan ikälle ja onnistuin saamaan erittäin mukavan kellonmuotoisen käyrän, josta päädyin siihen, että jakauma on normaalia.
Sitten suoritin normaalitestin SPSS: ssä, n = 169. Kolmogorov-Smirnov-testin p -arvo (Sig.) on alle 0,05 ja niin data on rikkonut oletusta normaaluudesta.
Miksi testi osoittaa, että ikäjakauma ei ole normaalia, mutta histogrammi osoitti kellomaisen käyrän, mikä ymmärrykseni mukaan on normaalia? Mitä tulosta minun pitäisi noudattaa?
Kommentit
- Miksi testaat normaalisuutta?
- @Glen_b ’ erinomainen kommentti ja Aksakal ’ yhtä hyvä vastaus , huomaa, että jopa jatkuvien jakaumien kohdalla KS vaatii, että keskiarvo ja sd ovat tiedossa etukäteen , ei arvioida tiedoista. Tämä tekee K-S-testistä olennaisesti hyödytön. ” Kolmogorov-Smirnov-testi on vain historiallinen uteliaisuus. Sitä ei tule koskaan käyttää. ” (D ’ Agostino d ’ Agostino & Stephens, toim., 1986). Jos on, käytä Shapiro-Wilksia sen sijaan.
- @Stephan Kolassa Hyviä neuvoja, mutta tarkoitat Shapiro-Wilkiä. (MB Wilkin ja SS Wilksin ehdotukset ovat usein hämmentyneitä tai sekoitettuja; myös ’ -merkkien outo käyttö englannin omistavana englanniksi voi lisätä sekaannusta jopa monille, joilla on englanti heidän äidinkielenään.)
- Liittyy @StephanKolassan kommenttiin Onko Shapiro-Wilk paras normaalitesti? … vastaus on, että se ei ole ’ t välttämättä, riippuen siitä, mikä vaihtoehto ’ sinua kiinnostaa, mutta se on usein hyvä valinta .
vastaus
Tiedämme sen yleensä mahdotonta, että muuttuja täsmälleen normaalisti jakautuu …
Normaalijakaumalla on äärettömän pitkät hännät, jotka ulottuvat kumpaankin suuntaan – on epätodennäköistä, että data on kaukana näistä ääripäistä, mutta tosi normaalijakauman saavuttamiseksi sen on oltava fyysisesti mahdollista. Ikärajoille normaalisti jakautunut malli ennustaa, että datan todennäköisyys on nollasta poikkeava 5 keskihajonnasta keskiarvon ylä- tai alapuolella – mikä vastaisi fyysisesti mahdotonta ikää, kuten alle 0 tai yli 150. (Vaikka katsotkin populaatiopyramidi , ei ole selvää, miksi luulisi ikäsi olevan edes suunnilleen normaalisti jakautunut.) Vastaavasti, jos sinulla olisi korkeustietoja, saattaa intuitiivisesti seurata ”normaalimaisen” jakaumaa, se voi olla todella normaali vain, jos on olemassa mahdollisuus korkeuksiin alle 0 cm tai yli 300 cm.
Olen ”ve” toisinaan nähty ehdotti, että voimme välttää tämän ongelman keskittämällä datan keskiarvoon nolla. Näin sekä positiiviset että negatiiviset ”keskitetyt ikät” ovat mahdollisia. Mutta vaikka tämä tekee molemmat negatiiviset arvot fyysisesti uskottaviksi ja tulkittaviksi (negatiiviset keskitetyt arvot vastaavat todellisia arvoja, jotka ovat keskiarvon alapuolella), se ei kiertele ongelmaa, että normaali malli tuottaa fyysisesti mahdottomia ennusteita nollan ulkopuolisella todennäköisyydellä, kun olet purkaa mallinnettu ”keskitetty ikä” takaisin ”todelliseksi ikäksi”.
… joten miksi vaivautua testaukseen? Normaalisuus voi silti olla jopa epätarkka olla hyödyllinen malli
Tärkeä kysymys ei ole oikeastaan, ovatko tiedot täysin normaalia – tiedämme a priori , joka voi ”Ei ole, useimmissa tilanteissa, jopa ilman hypoteesitestin suorittamista – mutta onko likiarvo riittävän lähellä tarpeitasi. Katso kysymys Onko normaalitestaus oleellisesti hyödytön? Normaalijakauma on kätevä likiarvo moniin tarkoituksiin. Se on harvoin ”oikea” – mutta sen ei yleensä tarvitse olla tarkka Oikea olla hyödyllinen. Odotan normaalijakauman olevan yleensä kohtuullinen malli ihmisten korkeuksille, mutta se vaatii epätavallisemman kontekstin, jotta normaalijakaumalla olisi merkitystä ihmisten ikäisenä mallina.
Jos todella tunnet tarvetta suorittaa normaalitesti, Kolmogorov-Smirnov ei todennäköisesti ole paras vaihtoehto: kuten kommenteissa todetaan, tehokkaampia testejä on saatavana. Shapiro-Wilkillä on hyvä valta joukkoa mahdollisia vaihtoehtoja vastaan, ja sillä on se etu, että sinun ei tarvitse tietää etukäteen todellista keskiarvoa ja varianssia .Mutta varo, että pienissä otoksissa potentiaalisesti melko suuria poikkeamia normaaluudesta voi silti havaita, kun taas suurissa näytteissä jopa hyvin pienet (ja käytännön tarkoituksiin merkityksettömät) poikkeamat normaalista ovat todennäköisesti ”erittäin merkittäviä” (alhaisia p -arvo).
”Kellonmuotoinen” ei ole välttämättä normaali
Näyttää siltä, että sinua on käsketty ajattelemaan ”kellonmuotoista” dataa – symmetristä dataa, joka huipentuu keskelle ja jonka hännillä on pienempi todennäköisyys – ”normaaliksi”. Mutta normaali jakauma vaatii tietyn muodon huipulleen ja hännilleen. On myös muita jakautumia, joilla on samanlainen muoto ensi silmäyksellä, jotka saatat myös luonnehtia ”kellon muotoisiksi”, mutta jotka eivät ole normaalit. Ellei sinulla ole paljon tietoja, et todennäköisesti pysty erottamaan, että ”se näyttää tältä hyllyltä, mutta ei kuten muut”. Ja jos sinulla on paljon dataa, huomaat todennäköisesti, että se ei näytä aivan miltä tahansa ”hyllyltä” -jakelulta! Mutta siinä tapauksessa moniin tarkoituksiin sinun on yhtä hyvä käyttää empiiristä CDF: ää .
kellonmuotoisista ” jakeluista
normaalijakauma on ”kellon muoto”, johon olet tottunut; Cauchyllä on terävämpi huippu ja ”painavampi” (ts. enemmän todennäköisyyttä) hännät; t jakelu , jossa on 5 vapausastetta, tulee jonnekin niiden väliin (normaali on t äärettömällä df: llä ja Cauchy on t 1 df: llä, joten on järkevää); Laplace tai kaksinkertainen eksponentiaalijakauma on pdf, joka on muodostettu kahdesta uudelleen skaalatusta eksponentiaalijakaumasta takaisin, mikä johtaa normaalia jakaumaa terävämpään huippuun; beetajakauma on melko erilainen – se ei ”t on hännät, jotka menevät ääretön Esimerkiksi ty: llä on sen sijaan jyrkät katkaisut – mutta keskellä voi silti olla ”hump” -muoto. Oikeastaan pelaamalla parametreilla, voit myös saada eräänlaisen ”vinon kuhun” tai jopa ”U” -muodon – linkitetyn Wikipedia-sivun galleria on varsin opettavainen jakelun joustavuudesta. Lopuksi, kolmiomainen jakauma on toinen yksinkertainen jakelu rajallisella tuella, jota käytetään usein riskimallinnuksessa.
On todennäköistä, että mikään näistä jakaumista ei kuvaa tarkalleen dataa, ja on olemassa hyvin monia muita samanlaisen muodon jakaumia, mutta halusin puuttua väärinkäsitykseen, joka ”keskellä oleva ja karkeasti symmetrinen tarkoittaa normaalia”. Koska ikätiedoilla on fyysisiä rajoituksia, jos ikätiedot ovat ”ryhmitelty” keskelle, on silti mahdollista, että rajallisella tuella, kuten beetalla, tai jopa kolmion jakaumalla varustettu jakauma voi osoittautua paremmaksi malliksi kuin sellainen, jolla on äärettömät hännät, kuten Normaali. Huomaa, että vaikka tietosi todella jakautuisivatkin normaalisti, histogrammisi ei todennäköisesti muistuta klassista ”kelloa”, ellei näytekoko ole melko suuri. Jopa näyte jakelusta, kuten Laplace, jonka pdf on selvästi erotettavissa kärjen vuoksi normaalista voi tuottaa histogrammin, joka näyttää visuaalisesti suunnilleen samanlaiselta kuin kello kuin aidosti normaali näyte.
R-koodi
par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)
vastaus
Ikä ei voi olla normaalia Ajattele lokia Ikä: Sinulla ei voi olla negatiivista ikää, mutta normaali jakauma sallii negatiiviset luvut.
Siellä on monia kellonmuotoisia jakaumia. Jos jokin näyttää kellomaiselta, se ei tarkoita, että sen on oltava normaalia.
Tilastoissa ei ole mitään keinoa tietää varmasti, mukaan lukien mistä jakaumasta tiedot ovat peräisin. Muoto on vihje: kellon muoto on yksi argumentti normaalille jakautumiselle. Tietojesi ymmärtäminen on myös erittäin tärkeää. Muuttuja, kuten ikä, on usein vääristynyt, mikä sulkisi pois normaalisuuden. Kuten mainittiin, normaalijakaumalla ei ole rajoja, mutta sitä käytetään joskus esimerkiksi jos keskimääräinen ikä on 20 vuotta ja keskihajonta on 1, niin ikän < 17 tai> 23 todennäköisyys on alle 0,3%. , on mahdollista kuin normaali jakauma voisi olla hyvä approksimaatio .
Voit yrittää suorittaa normaaliteollisuuden tilastollisen testin, kuten Jarque-Bera, jossa otetaan huomioon epäselvyys ja kurtosis Kurtoosi voi olla tärkeä joissakin tapauksissa.Se on erittäin tärkeää finanssialalla, koska jos mallinnat tiedot normaalijakaumalla, mutta tiedot ovat itse asiassa rasvajakautuneita, voit aliarvioida omaisuuden riskit ja hinnat.
Se auttaisi sinua ilmoittamaan joitain kuvaavia tilastoja tai histogrammin ikäsi ja pituudestasi, kuten keskiarvo, varianssi, vinous, kurtosis.
Kommentit
- Kiitos avustasi, voitko kertoa minulle, kuinka tietää, että tietyt tiedot ovat peräisin normaalijakaumasta, esimerkiksi vastauksessasi totesi, että ikä ei voi olla normaalijakaumasta, entä muut tiedot, kuten korkeus. minun on tiedettävä. haluan oppia lisää tästä, koska näyttää siltä, että olen ymmärtänyt käsitteen väärin, koska olen uusi asia. Kiitos vielä kerran.
- Normaali jakelu kuitenkin on käytetään likiarvona sellaisille muuttujille kuin ikä. Ja se ei todellakaan ole ongelma, koska voit määrittää
age_centred
nimellä ja sinulla on muuttuja, jonka keskiarvo on 0, keskihajonnalla, positiivisilla ja negatiivisilla arvoilla. Joten en olisi ’ niin tiukka. - Sinulla ei voi olla negatiivista korkeutta myöskään ihmisille, mutta se ei ’ t on minulle este kuvata korkeutta normaalijakaumana, jos se oli hyvä likiarvo. Miksi sitten käyttää mitä tahansa jakaumaa, jolla on äärettömät rajat, mittauksiin, jotka voivat olla vain äärellisiä? Kuten @Tim sanoo, kyse on lähentämisestä, kun otetaan huomioon tiedot ja tarkoitus.
- Olen samaa mieltä siitä, että normaali jakelu voi joskus olla hyvä likiarvo rajatulle tiedolle, mutta kysymys koski sitä, ovatko tiedot normaalista vai ei.
- Lukion valmistuvien ikääntyvien ikä voisi mahdollisesti jakautua normaalisti ja ottaa myös negatiiviset arvot, jos keskiarvo keskitetään kuten @Tim mainitsi.