Najlepsza miara centralnej tendencji

Właśnie zacząłem uczyć się statystyk kilka tygodni temu. Moje pytanie jest takie, jak wiemy, że średnia, mediana i tryb to centralna tendencja danych i sugeruje, że nie powinniśmy stosować tylko jednego z tych mierników, ponieważ niewiele okoliczności może na nie dobrze wpłynąć co powinniśmy wziąć pod uwagę centralną tendencję danych, jeśli ich średnia, mediana i tryb opowiadają zupełnie inną historię o danych

przykład

mean = 43.26 median = 14 and mode = 9 

i moje pytanie brzmi, co powinniśmy zinterpretować na podstawie tych miar, jakie byłoby lepsze oszacowanie dla centralnego tendencja

Komentarze

  • Zacytowanie rady, a następnie zapytanie " bardzo dziwne

którego " należy użyć. Która część porady " nie ' czy tylko z jednym z nich " jest mylące?. Jeśli

nie jest mylące, dlaczego więc wybrać " " tylko jeden?

  • przepraszam, nie rozumiem o czym mówisz
  • Dosłownie zacytowałeś radę, aby nie używać tylko jednej miary, a teraz prosisz nas o podanie tylko jednej miary. Nie ' nie zauważyłeś w tym żadnych sprzeczności?
  • Odpowiedź

    Różne sytuacje wymagają różnych odpowiedzi. Zastosowani statystycy powinni znaleźć miarę, która najlepiej odpowiada na podstawowe pytanie.

    Rozważ następujące zdanie:

    Większość ludzi ma ponadprzeciętną liczbę nóg

    Większość ludzi ma 2 nogi, niektórzy mają tylko jedną lub żadnych. Więc średnia wynosi prawdopodobnie 1,9 …

    Gdyby ktoś na ulicy zapytał Cię „Ile nóg ma ludzie?” zazwyczaj oczekują odpowiedzi „dwie nogi”, czyli trybu . Tryb jest często „normalną rzeczą”. Jeśli jednak byłbyś w sytuacji, w której musiałbyś zaplanować zapasy protezy kończyny dolnej dla odległego kraju, chciałbyś pomnożyć średnią z wielkością populacji. W wielu przypadkach, gdy chcesz ocenić średnią z małej próby, ale obawiasz się wartości odstających, mediana będzie lepszy estymator.

    Zatem pytanie o najlepszą miarę nie jest uniwersalnym pytaniem matematycznym ani nie musi koniecznie zależeć od tego, co mierzysz, ale zależy od tego, jaki problem w świecie rzeczywistym próbujesz rozwiązać.

    Odpowiedź

    wprowadź opis obrazu tutaj Moim zdaniem odpowiedź powinna zależeć od kształtu dystrybucji. Na przykład, jeśli masz gęstość w kształcie dzwonu, możesz rozważyć użycie średniej jako estymatora informacyjnego. Jeśli masz trochę wartości odstających lub masz wypaczony rozkład lub jeśli rozkład nie ma dobrze zdefiniowanej średniej – możesz użyć mediany. Jeśli masz dystrybucję multimodalną, możesz użyć trybu.

    Wszystkie te estymatory są zasadniczo różne i dostarczają różnych informacji na temat podstawowej zmiennej losowej.

    Kolejna rzecz warta omówienia ( z wyjątkiem głębokich różnic leżących u podstaw znaczenia tych estymatorów) jest sprawnością estymacji i punktem załamania. Średnia jest najskuteczniejszym estymatorem (oszacowanie będzie zbliżone do rzeczywistej wartości przy użyciu próbki o wielkości, którą posiadasz). Mediana jest znacznie bardziej niezawodna (ma prawie 50% punkt załamania), ale znacznie mniej skuteczna. Estymator Lehmana-Hodgesa jest gdzieś pośrodku. Tryb, który jest często uzyskiwany przez Kernel Density Estimation, nie jest w ogóle efektywny i warto go używać tylko wtedy, gdy masz> 50% „wartości odstających” – nawet w tym przypadku musisz bardzo uważać na jądro, które używasz np. domyślne jądro w R jest tam przechowywane ze względów historycznych i nie powinno być używane.

    To jest moja opinia i może się mylić.

    Kredyt obrazu: https://www.tutor2u.net/geography/reference/mean-median-and-mode

    Dodaj komentarz

    Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *