Nejlepší měřítko centrální tendence

Právě jsem se začal učit statistiky před několika týdny, moje otázka je, že jak víme, průměr, medián a režim jsou centrální tendence dat a její naznačení, že bychom neměli jít pouze s jedním z těchto opatření, protože jen málo okolností je může dobře ovlivnit, co bychom měli považovat za centrální tendenci dat, pokud jejich průměr, medián a způsob vyprávějí úplně jiný příběh o datech

příklad

mean = 43.26 median = 14 and mode = 9 

a moje otázka je, co bychom měli z těchto opatření interpretovat, jaký by byl lepší odhad pro centrální tendence

Komentáře

  • Zdá se velmi zvláštní citovat rady a poté se zeptat " který z nich " byste měli použít. Která část rady " don ' t jít jen s jedním z nich " je matoucí?. Pokud

to není matoucí, proč si vybrat " jít s " pouze jedním?

  • omlouvám se, nerozumím tomu, o čem to mluvíš,
  • doslova jsi citoval radu, abychom nepoužívali jen jedno opatření, a teď žádáš, abychom ti řekli jen jedno opatření Nevšimnete si ' jakéhokoli rozporu?
  • Odpovědět

    Různé situace vyžadují různé odpovědi. Aplikovaní statistici by měli najít míru, která nejlépe odpovídá na základní otázku.

    Zvažte následující větu:

    Většina lidí má nadprůměrný počet nohou

    Většina lidí má 2 nohy, některé pouze jednu nebo žádnou. Průměr je tedy pravděpodobně 1,9 …

    Pokud se vás někdo na ulici zeptá: „Kolik nohou mají lidé?“ obvykle očekávají odpověď „dvě nohy“, což je režim . Režim je často „normální věc“. Pokud byste však byli v pozici, kdy byste museli naplánovat zásobu protézy dolních končetin pro zemi daleko, chtěli byste znásobit průměr s velikostí populace. V mnoha případech, kdy byste chtěli posoudit průměr z malého vzorku, ale bojíte se odlehlých hodnot, bude medián lepší odhad.

    Takže otázka nejlepší míry není univerzální matematická otázka ani nemusí nutně záviset na tom, co měříte, ale záleží na jakémkoli problému ve skutečném světě, který se pokusíte vyřešit.

    Odpověď

    zde zadejte popis obrázku Podle mého názoru by odpověď měla záviset na vašem tvaru distribuce. Například pokud máte hustotu ve tvaru zvonu, můžete zvážit použití střední hodnoty jako informativní odhad. Pokud máte trochu odlehlé hodnoty nebo máte zkosenou distribuci nebo vaše distribuce nemá přesně definovaný průměr – můžete použít medián. Pokud máte multimodální distribuci, můžete použít režim.

    Všechny tyto odhady se zásadně liší a poskytují různé informace o vaší základní náhodné proměnné.

    Další věc, kterou stojí za to projednat ( kromě hlubokých základních rozdílů v tom, co tyto odhady znamenají), je účinnost odhadu a bod poruchy. Průměr je nejúčinnějším odhadcem (váš odhad se bude co nejvíce blížit skutečné hodnotě pomocí vzorku velikosti, který máte). Medián je mnohem robustnější (má téměř 50% bod poruchy), ale mnohem méně efektivní. Lehman-Hodgesův odhad je někde mezi tím. Režim, který se často získává pomocí odhadu hustoty jádra, není vůbec efektivní a má smysl jej používat pouze v případě, že máte> 50% „odlehlých hodnot“ – i v tomto případě musíte být s jádrem velmi opatrní, že používáte např. výchozí jádro v R je zde uchováno z historických důvodů a nemělo by se používat.

    Toto je můj názor a může se mýlit.

    Obrázkový kredit: https://www.tutor2u.net/geography/reference/mean-median-and-mode

    Napsat komentář

    Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *