Es scheint, dass diese Verteilung recht schief und bimodal ist. Oder ist es nur richtig verzerrt?
Kommentare
- Schauen Sie sich zunächst diese Antwort an.
- Haben Sie nur das Histogramm?
Antwort
Wenn das Histogramm tatsächlich wäre Bei der Verteilung, aus der die Daten stammen (es wäre dann eindeutig eine stückweise einheitliche), könnte man sagen, dass es sich um einen richtigen Versatz (nach so ziemlich jedem vernünftigen Maß) und um einen multimodalen Wert handelt, da es eindeutig mehr als zwei Modi gibt / p>
Aber vermutlich versuchen wir, das Histogramm zu verwenden, um etwas über die Bevölkerungsverteilung abzuleiten.
Hier haben wir zwei Probleme.
-
Die übliche Methode, um zu sagen, was wir in einer Stichprobe anhand von Stichprobenvariationen („Rauschen“) sehen. Die Stichprobe einer Population, die nicht schief ist, kann zu einer Stichprobe führen, die mit Sicherheit schief erscheint, und die Stichprobe einer Population, die unimodal ist, kann zu einer Stichprobe führen, die möglicherweise mehr als einen Modus aufweist.
-
Das Erscheinungsbild des Histogramms kann manchmal stark von der Wahl der Behälterbreite und sogar des Behälterursprungs beeinflusst werden . Die Tatsache, dass das Histogramm in der Frage viele Fächer enthält, hilft dabei, sowohl das Ausmaß als auch die Häufigkeit dieser Art von Problemen zu verringern. Es kann jedoch dennoch auftreten.
Wenn Sie das haben Originalprobe Sie können das zweite Problem in größerem Maße vermeiden, indem Sie mehr als eine Anzeige berücksichtigen. Histogramme können nicht nur für einige verschiedene Behälterbreiten und Behälterursprünge erstellt werden, sondern es können auch andere Anzeigen verwendet werden – QQ-Diagramme, empirisch cdfs und so weiter. (Es ist „etwas schwieriger zu lernen, aus den Informationen zu extrahieren, aber sie sind bei weitem nicht so stark von solchen Problemen betroffen.)
Das heißt, angesichts Ihrer großen Stichprobengröße und der Annahme Ihrer Stichprobe Da es sich um eine Zufallsstichprobe einer bestimmten Population handelt, können wir mit ziemlicher Sicherheit zu dem Schluss kommen, dass die Verteilung, aus der eine solche Stichprobe gezogen wurde, rechtwinklig ist. Der Eindruck von Bimodalität ist relativ schwächer (in dem Sinne, dass wir dies vernünftigerweise bei einer Population sehen könnten, die zumindest in einer kleineren Stichprobe nicht wirklich bimodal ist), aber ich würde immer noch das Auftreten von Bimodalität in der Anzeige erwähnen.
Wenn wir das Problem in 2. im Moment vollständig ignorieren, können wir ein Gefühl dafür bekommen, ob dieses Histogramm bei einer unimodalen Population auftreten könnte, indem wir eine nur unimodale Verteilung betrachten, die nahe an dem liegt, was beobachtet und gesehen wird Wenn dies zu etwas führen kann, das nicht unimodal ist, wie Sie es in der Stichprobe beobachten.
Um die Situation zu vereinfachen, betrachten Sie den Bereich zwischen etwa 67 und 133 * (in den ich meine Schätzungen der Bin-Anzahl aufgenommen habe die relevanten Bins in dieser Region):
Auf beiden Seiten nimmt in mehreren Behältern vor und nach diesem Segment die Dichte ziemlich deutlich ab, die Frage ist, können wir vernünftigerweise nachprüfen d Dieses Stück als Zufallsstichprobe aus einem nicht wachsenden Segment einer Verteilung?
* Beachten Sie, dass die Auswirkung der Auswahl eines bestimmten Teils und der Konzentration auf diesen Teil hier ignoriert wird, dies jedoch nicht etwas, das wirklich ignoriert werden sollte (dies birgt definitiv das Problem des „Betrachtens der Daten“ – hätten wir zum Beispiel wirklich den nächsten Behälter nach dem letzten einschließen sollen, den wir aufgenommen haben?). Ich werde jedoch trotzdem eine Gebühr erheben, um den Sinn einer einfachen Analyse zu vermitteln, die eine Vorstellung davon vermitteln würde, ob eine nicht zunehmende Dichte mit den Daten kompatibel ist (abhängig von der Platzierung des Behälters). Beachten Sie, dass dieses „Heraussuchen des seltsamen Teils zum Anschauen“ im Allgemeinen die Wahrscheinlichkeit erhöht, etwas „Bedeutendes“ zu finden. Wenn wir also „nichts finden, gibt es wirklich wenig Grund zu sagen, dass es nicht möglich ist“. t unimodal sein.
Um zu sehen, ob dies mit einer Stichprobe aus einer nicht zunehmenden Verteilung übereinstimmt, benötigen wir ein Maß für die Zunahme. Ich schlage vor, einfach die Unterschiede in den Bin-Zählungen ($ b_i-b_ {i) hinzuzufügen -1} $), wann immer sie zunehmen (und ansonsten 0 zählen), dh $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Also für Bin-Zählungen von 369, 373, 413, 375, 382 , 375 ist die Summe der Aufwärtssprünge U = 4 + 40 + 0 + 7 + 0 = 51.
Der „beste“ nicht zunehmende Fall, um unsere Anzeige zu erzeugen, ist die Uniform.
Die Gesamtzahl in dieser Region beträgt 2287 und es gibt 6 Fächer.
Wie groß ist die Wahrscheinlichkeit, dass eine Stichprobe der Größe 2287 aus sechs gleich wahrscheinlichen Kategorien eine Gesamtzahl ergibt? springen, $ U $ von mindestens 51? Das ist etwas, das durch Simulation leicht zu finden ist.
Versuchen Sie dies in R:
res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349
Dies deutet darauf hin, dass Sie in einem einheitlichen Abschnitt einer Dichte diesen Anstieg leicht erkennen können von dieser Stichprobengröße – ungefähr die Hälfte der Zeit würde sie mindestens so stark zunehmen, wenn sie einheitlich wäre.
Natürlich hätten wir vielleicht eine andere Maßnahme gewählt, aber das reicht mir. Ich betrachte Dies steht im Einklang mit der Einheitlichkeit in diesem Abschnitt, und daher ist das Histogramm nicht mit einer Zufallsstichprobe aus einer unimodalen Gesamtverteilung unvereinbar.
[Bearbeiten: Der Vollständigkeit halber ging ich später zurück und sah mir einige andere vernünftige an Testen Sie Statistiken, um zu sehen, ob es einen großen Unterschied machen würde, aber sie haben auch nichts angezeigt.]
Das reicht natürlich nicht aus, um es für unimodal zu erklären. Wir können es einfach nicht sagen „ist nicht unimodal.
Also würde ich es als rechtwinklig beschreiben. Wenn Sie darüber sprechen müssen, ob die Bevölkerung mehr als einen Modus hat oder nicht, würde ich nur so weit gehen zu sagen, dass es eine Möglichkeit für einen zweiten Modus in der Nähe von 100 gibt, aber es ist schwierig, daraus etwas zu schließen Anzeige.
Kommentare
- Wow – großartig. Das macht die Dinge so viel klarer! Danke!
- " Das ' reicht natürlich nicht aus, um es als X zu deklarieren. Wir können nur ' Sagen Sie nicht, dass es ' nicht Y ist. " – Statistik auf den Punkt gebracht.