Tocmai am început să învăț statistici acum câteva săptămâni. Întrebarea mea este că, așa cum știm că media, mediana și modul sunt tendința centrală a datelor și a sugerat că nu ar trebui să mergem doar cu una dintre aceste măsuri, deoarece puține circumstanțe le pot afecta bine ceea ce ar trebui să considerăm tendința centrală a datelor dacă media, mediana și modul lor spun o poveste complet diferită despre date
exemplu
mean = 43.26 median = 14 and mode = 9
și întrebarea mea este ce ar trebui să interpretăm din aceste măsuri care ar fi cea mai bună estimare pentru central tendință
Comentarii
- Pare foarte ciudat să citești sfatul și apoi să întrebi " care " ar trebui să utilizați. Ce parte din sfat " nu ' t go with just one of them " este confuz?. Dacă
nu este confuz, de ce atunci alegeți să " mergeți cu " doar unul?
Răspundeți
Diferite situații necesită răspunsuri diferite. Statisticienii aplicați ar trebui să găsească cel mai bine măsura care răspunde la întrebarea de bază.
Luați în considerare următoarea propoziție:
Majoritatea oamenilor au un număr peste medie de picioare
Majoritatea oamenilor au 2 picioare, unii au doar unul sau nici unul. Deci, media este probabil 1,9 …
Dacă cineva din stradă te-ar întreba „Câte picioare au oamenii?” se vor aștepta de obicei la răspunsul „două picioare”, care este modul . Modul este adesea „lucru normal”. Dacă totuși ați fi într-o poziție în care ar trebui să planificați un stoc de proteză a membrelor inferioare pentru o țară îndepărtată, ați dori să înmulțiți înseamnă cu dimensiunea populației. În multe cazuri în care doriți să evaluați o medie dintr-un eșantion mic, dar vă este frică de valori anormale, mediana va fi o un estimator mai bun.
Deci, întrebarea pentru cea mai bună măsură nu este o întrebare matematică universală și nici nu depinde în mod necesar de ceea ce măsurați, ci depinde de orice problemă din lumea reală pe care încercați să o abordați.
Răspuns
În opinia mea, răspunsul ar trebui să depindă de forma distribuției dvs. De exemplu, dacă aveți o densitate în formă de clopot, puteți lua în considerare utilizarea medie ca estimator informativ. Dacă aveți un pic de valori aberante sau aveți o distribuție înclinată sau distribuția dvs. nu are o medie bine definită – puteți utiliza mediana. Dacă aveți distribuție multimodală, puteți utiliza modul.
Toți acești estimatori sunt esențial diferiți și oferă informații diferite despre variabila aleatoare care stau la baza lor.
Un alt lucru care merită discutat ( cu excepția diferențelor profunde subiacente în ceea ce înseamnă acești estimatori) este eficiența estimării și punctul de defalcare. Media este cel mai eficient estimator (estimarea dvs. va fi la fel de apropiată de valoarea reală folosind eșantionul de mărime pe care îl aveți). Mediana este mult mai robustă (are aproape 50% punct de defalcare), dar mult mai puțin eficientă. Estimatorul Lehman-Hodges este undeva la mijloc. Modul, care este obținut adesea prin estimarea densității kernelului, nu este deloc eficient și are sens să-l folosiți numai dacă aveți> 50% din „outliers” – chiar și în acest caz trebuie să fiți foarte atenți cu kernel-ul care utilizați, de exemplu, nucleul implicit din R este păstrat acolo din motive istorice și nu ar trebui să fie folosit.
Acestea sunt părerea mea și pot fi greșite.
Credit imagine: https://www.tutor2u.net/geography/reference/mean-median-and-mode