Ich habe gerade vor ein paar Wochen angefangen, Statistiken zu lernen. Meine Frage ist, dass wir wissen, dass der Mittelwert, der Median und der Modus sind Die zentrale Tendenz der Daten und ihre Vermutung, dass wir nicht nur eine dieser Maßnahmen anwenden sollten, da nur wenige Umstände sie gut beeinflussen können. Wir sollten die zentrale Tendenz der Daten berücksichtigen, wenn ihr Mittelwert, ihr Median und ihr Modus eine völlig andere Geschichte erzählen zu den Daten
Beispiel
mean = 43.26 median = 14 and mode = 9
und meine Frage ist, was wir aus diesen Maßnahmen interpretieren sollten, was die bessere Schätzung für die Zentrale wäre Tendenz
Kommentare
- Es scheint sehr seltsam, den Rat zu zitieren und dann " welches " Sie verwenden sollten. Welcher Teil des Hinweises " nicht ' nicht mit nur einem von ihnen gehen " ist verwirrend ?. Wenn es
ist nicht verwirrend. Warum sollten Sie dann " wählen und " nur eine verwenden?
Antwort
Unterschiedliche Situationen erfordern unterschiedliche Antworten. Angewandte Statistiker sollten das Maß finden, das die zugrunde liegende Frage am besten beantwortet.
Betrachten Sie den folgenden Satz:
Die meisten Menschen haben eine überdurchschnittliche Anzahl Anzahl der Beine
Die meisten Menschen haben zwei Beine, einige haben nur eines oder keines. Der Mittelwert liegt also wahrscheinlich bei 1,9 …
Wenn jemand auf der Straße Sie fragte: „Wie viele Beine haben die Leute?“ Normalerweise erwarten sie die Antwort „zwei Beine“, dh den -Modus . Der Modus ist oft „das Normale“. Wenn Sie jedoch in der Lage wären, einen Vorrat an Prothesen für die unteren Extremitäten für ein weit entferntes Land zu planen, möchten Sie den Mittelwert mit der Bevölkerungsgröße. In vielen Fällen, in denen Sie einen Mittelwert aus einer kleinen Stichprobe ermitteln möchten, aber Angst vor Ausreißern haben, ist der Median a besserer Schätzer.
Die Frage nach dem besten Maß ist also keine universelle mathematische Frage und hängt auch nicht unbedingt davon ab, was Sie messen, sondern davon, welches Problem der realen Welt Sie angehen möchten.
Antwort
Meiner Meinung nach sollte die Antwort von Ihrer Verteilungsform abhängen. Wenn Sie beispielsweise eine glockenförmige Dichte haben, können Sie den Mittelwert als informativen Schätzer verwenden. Wenn Sie ein paar Ausreißer haben oder eine verzerrte Verteilung haben oder Ihre Verteilung keinen genau definierten Mittelwert hat, können Sie den Median verwenden. Wenn Sie über eine multimodale Verteilung verfügen, können Sie den Modus verwenden.
Alle diese Schätzer unterscheiden sich im Wesentlichen und liefern unterschiedliche Informationen zu Ihrer zugrunde liegenden Zufallsvariablen.
Eine weitere Sache, die es wert ist, diskutiert zu werden ( mit Ausnahme der tiefgreifenden Unterschiede in der Bedeutung dieser Schätzer ist die Effizienz der Schätzung und der Aufschlüsselungspunkt. Der Mittelwert ist der effizienteste Schätzer (Ihre Schätzung liegt unter Verwendung der von Ihnen verwendeten Stichprobengröße so nahe am wahren Wert). Der Median ist viel robuster (hat einen Ausfallpunkt von fast 50%), aber viel weniger effektiv. Der Lehman-Hodges-Schätzer liegt irgendwo dazwischen. Der Modus, der häufig über die Kernel-Dichteschätzung erhalten wird, ist überhaupt nicht effizient und es ist sinnvoll, ihn nur zu verwenden, wenn Sie> 50% der „Ausreißer“ haben – auch in diesem Fall müssen Sie mit dem Kernel sehr vorsichtig sein Wenn Sie beispielsweise den Standardkernel in R verwenden, wird dieser aus historischen Gründen dort beibehalten und sollte nicht verwendet werden.
Dies ist meine Meinung und kann falsch sein.
Bildnachweis: https://www.tutor2u.net/geography/reference/mean-median-and-mode