Cea mai bună măsură a centrului tendinței

Tocmai am început să învăț statistici acum câteva săptămâni. Întrebarea mea este că, așa cum știm că media, mediana și modul sunt tendința centrală a datelor și a sugerat că nu ar trebui să mergem doar cu una dintre aceste măsuri, deoarece puține circumstanțe le pot afecta bine ceea ce ar trebui să considerăm tendința centrală a datelor dacă media, mediana și modul lor spun o poveste complet diferită despre date

exemplu

mean = 43.26 median = 14 and mode = 9 

și întrebarea mea este ce ar trebui să interpretăm din aceste măsuri care ar fi cea mai bună estimare pentru central tendință

Comentarii

  • Pare foarte ciudat să citești sfatul și apoi să întrebi " care " ar trebui să utilizați. Ce parte din sfat " nu ' t go with just one of them " este confuz?. Dacă

nu este confuz, de ce atunci alegeți să " mergeți cu " doar unul?

  • îmi pare rău, nu înțeleg despre ce vorbiți
  • Ați citat literalmente sfaturi pentru a nu folosi doar o măsură, iar acum ne cereți să vă spunem o singură măsură. Nu ' observați vreo contradicție acolo?
  • Răspundeți

    Diferite situații necesită răspunsuri diferite. Statisticienii aplicați ar trebui să găsească cel mai bine măsura care răspunde la întrebarea de bază.

    Luați în considerare următoarea propoziție:

    Majoritatea oamenilor au un număr peste medie de picioare

    Majoritatea oamenilor au 2 picioare, unii au doar unul sau nici unul. Deci, media este probabil 1,9 …

    Dacă cineva din stradă te-ar întreba „Câte picioare au oamenii?” se vor aștepta de obicei la răspunsul „două picioare”, care este modul . Modul este adesea „lucru normal”. Dacă totuși ați fi într-o poziție în care ar trebui să planificați un stoc de proteză a membrelor inferioare pentru o țară îndepărtată, ați dori să înmulțiți înseamnă cu dimensiunea populației. În multe cazuri în care doriți să evaluați o medie dintr-un eșantion mic, dar vă este frică de valori anormale, mediana va fi o un estimator mai bun.

    Deci, întrebarea pentru cea mai bună măsură nu este o întrebare matematică universală și nici nu depinde în mod necesar de ceea ce măsurați, ci depinde de orice problemă din lumea reală pe care încercați să o abordați.

    Răspuns

    introduceți descrierea imaginii aici În opinia mea, răspunsul ar trebui să depindă de forma distribuției dvs. De exemplu, dacă aveți o densitate în formă de clopot, puteți lua în considerare utilizarea medie ca estimator informativ. Dacă aveți un pic de valori aberante sau aveți o distribuție înclinată sau distribuția dvs. nu are o medie bine definită – puteți utiliza mediana. Dacă aveți distribuție multimodală, puteți utiliza modul.

    Toți acești estimatori sunt esențial diferiți și oferă informații diferite despre variabila aleatoare care stau la baza lor.

    Un alt lucru care merită discutat ( cu excepția diferențelor profunde subiacente în ceea ce înseamnă acești estimatori) este eficiența estimării și punctul de defalcare. Media este cel mai eficient estimator (estimarea dvs. va fi la fel de apropiată de valoarea reală folosind eșantionul de mărime pe care îl aveți). Mediana este mult mai robustă (are aproape 50% punct de defalcare), dar mult mai puțin eficientă. Estimatorul Lehman-Hodges este undeva la mijloc. Modul, care este obținut adesea prin estimarea densității kernelului, nu este deloc eficient și are sens să-l folosiți numai dacă aveți> 50% din „outliers” – chiar și în acest caz trebuie să fiți foarte atenți cu kernel-ul care utilizați, de exemplu, nucleul implicit din R este păstrat acolo din motive istorice și nu ar trebui să fie folosit.

    Acestea sunt părerea mea și pot fi greșite.

    Credit imagine: https://www.tutor2u.net/geography/reference/mean-median-and-mode

    Lasă un răspuns

    Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *