Ich habe ein Histogramm für das Alter der Befragten erstellt und es geschafft, eine sehr schöne glockenförmige Kurve zu erhalten, aus der ich den Schluss gezogen habe, dass die Verteilung normal ist.
Dann habe ich den Normalitätstest in SPSS mit n = 169 durchgeführt. Der p -Wert (Sig.) des Kolmogorov-Smirnov-Tests beträgt weniger als 0,05 und so haben die Daten die Annahme der Normalität verletzt.
Warum zeigt der Test an, dass die Altersverteilung nicht normal ist, aber das Histogramm eine glockenförmige Kurve zeigt, die nach meinem Verständnis normal ist? Welches Ergebnis soll ich verfolgen?
Kommentare
- Warum testen Sie die Normalität?
- Zusätzlich zu @Glen_b ‚ s ausgezeichneter Kommentar und Aksakal ‚ s ebenso ausgezeichnete Antwort , beachten Sie, dass KS selbst für kontinuierliche Verteilungen erfordert, dass der Mittelwert und sd vorher bekannt sind , nicht aus den Daten geschätzt. Dies macht den K-S-Test im Wesentlichen unbrauchbar. “ Der Kolmogorov-Smirnov-Test ist nur eine historische Kuriosität. Es sollte niemals verwendet werden. “ (D ‚ Agostino in d ‚ Agostino & Stephens, Hrsg., 1986). Wenn überhaupt, verwenden Sie stattdessen Shapiro-Wilks.
- @Stephan Kolassa Guter Rat, aber Sie meinen Shapiro-Wilk. (Die Vorschläge von MB Wilk und SS Wilks sind oft verwirrt oder verschmolzen. Die seltsame Verwendung von ‚ als besitzergreifend in Englisch kann auch zur Verwirrung beitragen, selbst für viele, die Englisch sprechen als ihre erste Sprache.)
- Bezogen auf den Kommentar von @StephanKolassa siehe Ist Shapiro-Wilk der beste Normalitätstest? … Die Antwort ist, dass es nicht unbedingt ‚ ist, je nachdem, an welcher Alternative Sie ‚ interessiert sind, aber es ist sehr oft eine gute Wahl .
Antwort
Wir wissen es normalerweise Es ist unmöglich, dass eine Variable genau normalverteilt ist …
Die Normalverteilung hat unendlich lange Schwänze, die sich in beide Richtungen erstrecken – Es ist unwahrscheinlich, dass Daten in diesen Extremen weit entfernt liegen, aber für eine echte Normalverteilung muss dies physikalisch möglich sein. Für ein Alter wird ein normalverteiltes Modell vorhersagen, dass es eine Wahrscheinlichkeit ungleich Null gibt, dass Daten 5 Standardabweichungen über oder unter dem Mittelwert liegen – was physikalisch unmöglichen Altersgruppen entsprechen würde, z. B. unter 0 oder über 150. (Wenn Sie sich das ansehen Bei einer Bevölkerungspyramide ist nicht klar, warum Sie erwarten würden, dass das Alter überhaupt annähernd normal verteilt ist.) Ebenso, wenn Sie Höhendaten hätten, welche könnte intuitiv einer „normaleren“ Verteilung folgen, es könnte nur wirklich normal sein, wenn eine gewisse Wahrscheinlichkeit von Höhen unter 0 cm oder über 300 cm besteht.
Ich habe gelegentlich wurde darauf hingewiesen, dass wir diesem Problem ausweichen können, indem wir die Daten so zentrieren, dass sie den Mittelwert Null haben. Auf diese Weise sind sowohl positive als auch negative „zentrierte Alter“ möglich. Obwohl dies sowohl negative Werte physikalisch plausibel als auch interpretierbar macht (negative zentrierte Werte entsprechen tatsächlichen Werten, die unter dem Mittelwert liegen), kommt es nicht um das Problem herum, dass das normale Modell physikalisch unmögliche Vorhersagen mit einer Wahrscheinlichkeit ungleich Null erzeugt, sobald Sie Dekodieren Sie das modellierte „zentrierte Alter“ zurück in ein „tatsächliches Alter“.
… warum also testen? Auch wenn es nicht genau ist, kann die Normalität immer noch bestehen ein nützliches Modell sein
Die wichtige Frage ist nicht wirklich, ob die Daten genau normal sind – wir wissen a priori , dass dies möglich ist „Dies ist in den meisten Situationen nicht der Fall, auch ohne einen Hypothesentest durchzuführen – aber ob die -Näherung für Ihre Anforderungen ausreichend nah ist. Siehe die Frage Ist Normalitätstests im Wesentlichen nutzlos? Die Normalverteilung ist für viele Zwecke eine bequeme Annäherung. Sie ist selten „korrekt“ – muss aber im Allgemeinen nicht genau sein richtig, um nützlich zu sein. Ich würde erwarten, dass die Normalverteilung normalerweise ein vernünftiges Modell für die Körpergröße von Menschen ist, aber es würde einen ungewöhnlicheren Kontext erfordern, damit die Normalverteilung als Modell für das Alter von Menschen Sinn macht.
Wenn Sie wirklich das Bedürfnis haben, einen Normalitätstest durchzuführen, ist Kolmogorov-Smirnov wahrscheinlich nicht die beste Option: Wie in den Kommentaren erwähnt, stehen leistungsfähigere Tests zur Verfügung. Shapiro-Wilk hat eine gute Leistung gegen eine Reihe möglicher Alternativen und den Vorteil, dass Sie den wahren Mittelwert und die Varianz nicht vorher kennen müssen .Beachten Sie jedoch, dass bei kleinen Stichproben möglicherweise recht große Abweichungen von der Normalität immer noch unentdeckt bleiben, während bei großen Stichproben selbst sehr kleine (und aus praktischen Gründen irrelevante) Abweichungen von der Normalität wahrscheinlich als „hoch signifikant“ (niedrig p -Wert).
„Glockenförmig“ ist nicht unbedingt normal
Es scheint, dass Ihnen gesagt wurde, Sie sollten sich „glockenförmige“ Daten – symmetrische Daten, die in der Mitte ihren Höhepunkt erreichen und in den Schwänzen eine geringere Wahrscheinlichkeit haben – als „normal“ vorstellen. Aber die Normalverteilung erfordert eine bestimmte Form für die Spitze und die Schwänze. Es gibt andere Verteilungen mit einer ähnlichen Form auf den ersten Blick, die Sie möglicherweise auch als „glockenförmig“ charakterisiert haben, die aber nicht „normal“ sind. Wenn Sie nicht „viele Daten“ haben, ist es unwahrscheinlich, dass Sie unterscheiden können, dass „es wie diese Standarddistribution aussieht, aber nicht wie die anderen“. Und wenn Sie viele Daten haben, werden Sie wahrscheinlich feststellen, dass sie nicht ganz wie eine „Standard“ -Distribution aussehen! In diesem Fall sollten Sie jedoch für viele Zwecke die empirische CDF verwenden.
glockenförmigen “ -Verteilungen
Die Normalverteilung ist die „Glockenform“, an die Sie gewöhnt sind; die Cauchy hat eine schärfere Spitze und „schwerer“ (dh enthält) mehr Wahrscheinlichkeit) Schwänze; die t -Verteilung mit 5 Freiheitsgraden liegt irgendwo dazwischen (die Normalität ist t mit unendlich df und der Cauchy ist t mit 1 df, was Sinn macht); die Laplace- oder doppelte Exponentialverteilung hat PDF, das aus zwei neu skalierten Exponentialverteilungen hintereinander gebildet wird, was zu einem schärferen Peak als die Normalverteilung führt; die Beta-Verteilung ist ganz anders – es ist nicht so habe Schwänze, die zu Infini gehen Zum Beispiel mit scharfen Ausschnitten – aber es kann immer noch die „Buckel“ -Form in der Mitte haben. Wenn Sie mit den Parametern herumspielen, können Sie auch eine Art „Schrägbuckel“ oder sogar eine „U“ -Form erhalten – die Galerie auf der verlinkten Wikipedia-Seite ist sehr lehrreich über die Flexibilität dieser Verteilung. Schließlich ist die Dreiecksverteilung ist eine weitere einfache Verteilung auf einer endlichen Unterstützung, die häufig bei der Risikomodellierung verwendet wird.
Es ist wahrscheinlich, dass keine dieser Verteilungen Ihre genau beschreibt Daten und sehr viele andere Verteilungen mit ähnlichen Formen existieren, aber ich wollte das Missverständnis ansprechen, dass „in der Mitte buckelig und ungefähr symmetrisch normal bedeutet“. Da es Altersgrenzen für Altersdaten gibt, ist es immer noch möglich, dass sich eine Verteilung mit endlicher Unterstützung wie die Beta oder sogar eine Dreiecksverteilung als besseres Modell als eine mit unendlichen Schwänzen wie der herausstellt, wenn Ihre Altersdaten in der Mitte „buckelig“ sind Beachten Sie, dass Ihr Histogramm selbst dann, wenn Ihre Daten tatsächlich normal verteilt waren, wahrscheinlich nicht der klassischen „Glocke“ ähnelt, es sei denn, Ihre Stichprobe ist ziemlich groß. Selbst eine Stichprobe aus einer Verteilung wie dem Laplace, deren PDF deutlich davon zu unterscheiden ist kann aufgrund seiner Spitze ein Histogramm erzeugen, das einer Glocke optisch ungefähr so ähnlich erscheint wie eine wirklich normale Probe.
R-Code
par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)
Antwort
Das Alter kann nicht normal sein Verteilung. Denken Sie Protokoll ically: Sie können kein negatives Alter haben, aber die Normalverteilung lässt negative Zahlen zu.
Es gibt viele glockenförmige Verteilungen. Wenn etwas glockenförmig aussieht, bedeutet dies nicht, dass es normal sein muss.
In Statistiken gibt es keine Möglichkeit, sicher zu wissen, aus welcher Verteilung die Daten stammen. Die Form ist a Hinweis: Die Glockenform ist ein Argument für die Normalverteilung. Außerdem ist es sehr wichtig, Ihre Daten zu verstehen. Die Variable wie das Alter ist häufig verzerrt, was die Normalität ausschließt. Wie bereits erwähnt, hat die Normalverteilung keine Grenzen, wird aber manchmal verwendet Wenn beispielsweise das Durchschnittsalter 20 Jahre und die Standardabweichung 1 beträgt, beträgt die Wahrscheinlichkeit des Alters < 17 oder> 23 weniger als 0,3% Es ist möglich, dass die Normalverteilung eine gute Annäherung darstellt.
Sie können versuchen, einen statistischen Normalitätstest wie Jarque-Bera durchzuführen, der die Schiefe und Kurtosis von berücksichtigt die Probe. Kurtosis kann in einigen Fällen wichtig sein.Dies ist im Finanzbereich sehr wichtig, da Sie möglicherweise die Risiken und Preise von Vermögenswerten unterschätzen, wenn Sie die Daten mit normaler Verteilung modellieren, die Daten jedoch tatsächlich aus einer Fettverteilung stammen.
Es würde Ihnen helfen, einige deskriptive Statistiken oder ein Histogramm Ihrer Alters- und Höhendaten wie Mittelwert, Varianz, Schiefe, Kurtosis zu melden.
Kommentare
- Vielen Dank für Ihre Hilfe. Können Sie mir sagen, wie Sie wissen können, dass bestimmte Daten aus der Normalverteilung stammen? In Ihrer Antwort wurde beispielsweise angegeben, dass das Alter nicht aus der Normalverteilung stammen kann. Was ist mit anderen Daten wie der Körpergröße? Was sind die Kriterien dafür? Ich muss es wissen. Ich möchte mehr darüber erfahren, weil es so aussieht, als hätte ich das Konzept falsch verstanden, da ich neu in diesem Bereich bin. Nochmals vielen Dank.
- Dennoch ist Normalverteilung oft Wird als Annäherung für Variablen wie das Alter verwendet. Dies ist kein wirkliches Problem, da Sie
age_centred
als und Sie haben eine Variable mit dem Mittelwert 0, mit einigen Standardabweichungen, positiven und negativen Werten. Also würde ich ‚ nicht so streng sein. - Sie können auch keine negative Körpergröße für Menschen haben, aber das wäre nicht ‚
- Ich stimme zu, dass die Normalverteilung manchmal eine gute Annäherung für begrenzte Daten sein kann. Die Frage war jedoch, ob die Daten normal sind oder nicht.
- Das Alter der Abiturienten könnte möglicherweise normal verteilt sein und auch negative Werte annehmen, wenn der Mittelwert wie bei @Tim angegeben zentriert ist.