Budowanie podsumowania wartości wyciągniętych z rozkładu bimodalnego

Mam statystykę przypisującą wartości do kategorii produktów. Ta statystyka pokazuje silną bimodalność (patrz wykres). Do analizy próbuję przypisać wartość tej statystyki każdemu produktowi (edytuj: aby przeprowadzić analizę regresji, w której produkty są obserwacjami). Jest to proste, gdy produkt jest tylko w jednej kategorii. Ale staje się to trudne, gdy produkty są przypisane do więcej niż jednej kategorii. Ponieważ statystyka jest bimodalna, przyjmowanie średniej wartości dla wszystkich kategorii produktu jest bez znaczenia. Ciekawe, czy istnieje sposób na uzyskanie tego rodzaju statystyk podsumowujących?

wykres gęstości

Moje pytanie składa się z dwóch powiązanych części :

a) Szybkie wyszukiwanie dało mi do zrozumienia, że istnieje kilka sposobów oceny multimodalności (D Ashmana, indeks bimodalności , współczynnik bimodalności), ale nie ma prostego sposobu na podsumowanie liczby wartości wyciągniętych z rozkładu bimodalnego. Jestem jednak ciekawy, czy coś przeoczyłem? W omawianym problemie myślę, że przyjmie podejście opisane w b, ale dla w przyszłości byłbym szczęśliwy, mogąc wiedzieć, co można zrobić w takim przypadku, aby podsumować tego typu dane?

b) Podejście, które rozważam obecnie, polega na przekształceniu moich statystyk w trzy kategorie jedynki: jeden dla wartości bliskich zeru, jeden dla wartości około 10 i wreszcie jeden dla wartości około 5. Następnie dla każdego produktu policzyłbym, ile razy kategorie, do których on należy, są wymienione w każdym zakresie. s ma dla mnie sens teoretycznie, ale zastanawiam się, czy brakuje mi jakiejś statystycznej pułapki? (To podejście wydaje się (bardzo) luźno powiązane z podejściem przyjętym tutaj , które polega na podzieleniu dystrybucji na dwie populacje).

Komentarze

  • To zależy od tego, jaki jest twój cel, ale z pewnością sugerowałbym użycie modelu mieszanego, aby znaleźć dwie dystrybucje, które odpowiadają dwóm trybom. ' Nie wiem, co masz na myśli, mówiąc ", próbując przypisać wartość tej statystyki do każdego produktu " ?
  • Wygląda na to, że zapomniałeś przedstawić wykres swoich danych.
  • @AdamO Jaki typ wykresu danych wybrałbyś chciałbym zobaczyć? Wykres rozrzutu? Jeśli nie, powiedz mi, co byłoby pomocne, a dodam to.
  • @jerad Co mam na myśli, mówiąc ", przypisz wartość tej statystyki do każdego produktu " (poprawiłem też tekst postu) jest to, że chcę go użyć jako zmiennej w modelu regresji, w którym iloczynami są obserwacje. Dlatego chcę znaleźć wartość podsumowującą dla produktów, które mają wiele kategorii.
  • Przepraszamy, wykres gęstości nie ' nie został załadowany, gdy go przeglądałem w mojej poprzedniej przeglądarce.

Odpowiedź

Ponieważ statystyka jest bimodalna, przyjmowanie średniej wartości dla wszystkich kategorii produktu jest bez znaczenia.

Nie sądzę, żeby to było prawdą. Na przykład , ryzyko raka piersi jest bardzo rozwarstwione na wysokie i niskie ryzyko na podstawie markerów genetycznych. Jeśli nie wiesz, jaki jest twój kod genetyczny, nadal warto podawać średnią.

Tworzenie cięć zmiennej ma związany problem z arbitralnym wyborem wartości odcięcia. Spowoduje to pewne odchylenie w szacowaniu postaci pochodzących z rozkładów normalnych mieszaniny. Alternatywnym podejściem jest algorytm EM, w którym można jednocześnie oszacować przypisanie grup „wysokie” do „niskich” w rozkładzie mieszaniny i obliczyć CI dla średniej i jest to błąd standardowy dla każdej grupy. R znajdują się w tym dokumencie .

Komentarze

  • Jeśli dobrze Cię rozumiem , co algorytm EM pozwoliłby mi zrobić, to być w stanie stwierdzić, czy wartość należy do pierwszego czy drugiego unimodalnego rozkładu iz jakim prawdopodobieństwem?
  • Tak EM działa poprzez iteracyjne szacowanie wskaźnika przynależności do grupy i średnią między każdą grupą.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *