Ich habe eine Statistik, die Kategorien von Produkten Werte zuweist. Diese Statistik zeigt eine starke Bimodalität (siehe Grafik). Zur Analyse versuche ich, jedem Produkt einen Wert dieser Statistik zuzuweisen (bearbeiten: um eine Regressionsanalyse durchzuführen, bei der Produkte Beobachtungen sind). Dies ist unkompliziert, wenn sich Produkte nur in einer Kategorie befinden. Es wird jedoch schwierig, wenn Produkte mehr als einer Kategorie zugeordnet werden. Da die Statistik bimodal ist, ist es bedeutungslos, den Durchschnitt der Werte für alle Kategorien eines Produkts zu ermitteln. Ich bin gespannt, ob es eine Möglichkeit gibt, diese Art von zusammenfassenden Statistiken zu erhalten.
Meine Frage besteht aus zwei verwandten Teilen :
a) Eine schnelle Suche brachte mich auf die Idee, dass es einige Möglichkeiten gibt, die Multimodalität (Ashmans D, Bimodalitätsindex) zu bewerten , Bimodalitätskoeffizient), aber keine einfache Möglichkeit, eine Reihe von Werten aus einer bimodalen Verteilung zusammenzufassen. Aber ich bin neugierig, ob ich etwas verpasst habe? Für das vorliegende Problem denke ich, dass ich den in b beschriebenen Ansatz anwenden werde, aber für die In Zukunft würde ich mich freuen zu wissen, was in einem solchen Fall möglich ist, um diese Art von Daten zusammenzufassen.
b) Der Ansatz, den ich derzeit in Betracht ziehe, besteht darin, meine Statistik in drei Kategorien zu unterteilen Einsen: Eins für die Werte nahe Null, Eins für die Werte um 10 und schließlich Eins für die Werte um 5. Dann würde ich für jedes Produkt zählen, wie oft die Kategorien, zu denen es gehört, in jedem Bereich aufgelistet sind s macht theoretisch Sinn für mich, aber ich frage mich, ob es eine statistische Falle gibt, die mir fehlt? (Dieser Ansatz scheint (sehr) lose mit dem hier angenommenen verbunden zu sein, der die Aufteilung der Verteilung in zwei Populationen untersucht.)
Kommentare
- Es hängt von Ihrem Ziel ab, aber ich würde sicherlich empfehlen, ein Mischungsmodell zu verwenden, um die beiden Verteilungen zu finden, die den beiden Modi entsprechen. Ich ' bin mir nicht sicher, was Sie unter " verstehen, wenn ich versuche, jedem Produkt iv id = einen Wert für diese Statistik zuzuweisen " ?
- Sie haben anscheinend vergessen, ein Diagramm Ihrer Daten darzustellen.
- @AdamO Welche Art von Diagramm der Daten würden Sie verwenden? gerne sehen? Ein Streudiagramm? Wenn nicht, sagen Sie mir, was hilfreich wäre, und ich werde es hinzufügen.
- @jerad Was ich unter " verstehe, weisen Sie jedem Produkt einen Wert dieser Statistik zu " (ich habe auch den Text des Beitrags korrigiert) ist, dass ich ihn als Variable in einem Regressionsmodell verwenden möchte, in dem die Produkte die Beobachtungen sind. Aus diesem Grund möchte ich einen zusammenfassenden Wert für Produkte mit mehreren Kategorien finden.
- Leider wurde das Dichtediagramm ' beim Anzeigen nicht geladen in meinem vorherigen Browser.
Antwort
Seit dem Die Statistik ist bimodal, der Durchschnitt der Werte für alle Kategorien eines Produkts ist bedeutungslos.
Ich glaube nicht, dass dies unbedingt der Fall ist. Zum Beispiel Das Brustkrebsrisiko wird basierend auf genetischen Markern stark in ein hohes oder ein niedriges Risiko unterteilt. Wenn Sie nicht wissen, wie Ihr genetischer Code lautet, ist es dennoch sinnvoll, den Durchschnitt anzugeben.
Erstellen von Schnitten der Variablen hat das damit verbundene Problem mit der willkürlichen Wahl der Grenzwerte. Dies führt zu einer gewissen Verzerrung bei der Schätzung der Moden, die aus Gemischnormalverteilungen stammen. Ein alternativer Ansatz ist der des EM-Algorithmus, bei dem Sie gleichzeitig die Gruppenzuordnung „hoch“ gegenüber „niedrig“ in der Mischungsverteilung schätzen und die CIs für den Mittelwert und den Standardfehler für jede Gruppe berechnen können R befinden sich in dieses Dokuments .
Kommentare
- Wenn ich Sie richtig verstehe Mit dem EM-Algorithmus kann ich feststellen, ob und mit welcher Wahrscheinlichkeit ein Wert zur ersten oder zur zweiten unimodalen Verteilung gehört.
- Ja, EM funktioniert durch iteratives Schätzen des Gruppenmitgliedschaftsindikators und der Mittelwert zwischen jeder Gruppe.