Ho appena iniziato ad apprendere le statistiche poche settimane fa, la mia domanda è che, poiché sappiamo che la media, la mediana e la modalità sono la tendenza centrale dei dati e il suo suggerimento che non dovremmo accettare solo una di queste misure poiché poche circostanze possono influenzarle bene ciò che dovremmo considerare la tendenza centrale dei dati se la loro media, mediana e modalità raccontano una storia completamente diversa sui dati
esempio
mean = 43.26 median = 14 and mode = 9
e la mia domanda è cosa dovremmo interpretare da queste misure quale sarebbe la stima migliore per la centrale tendenza
Commenti
- Sembra molto strano citare il consiglio e poi chiedere " quale " dovresti utilizzare. Quale parte del consiglio " don ' t andare con uno solo di essi " è fonte di confusione?. Se
non crea confusione, perché allora scegliere di " utilizzare " solo uno?
Rispondi
Situazioni diverse richiedono risposte diverse. Gli statistici applicati dovrebbero trovare la misura che risponde meglio alla domanda sottostante.
Considera la seguente frase:
La maggior parte delle persone ha un numero superiore alla media di gambe
La maggior parte delle persone ha 2 gambe, alcune ne hanno solo una o nessuna. Quindi la media è probabilmente 1,9 …
Se qualcuno per strada ti chiedesse “Quante gambe ha la gente?” di solito si aspettano la risposta “due gambe”, che è la modalità . La modalità è spesso “la cosa normale”. Se, tuttavia, ti trovassi in una posizione in cui dovresti pianificare uno stock di protesi di arto inferiore per un paese lontano, dovresti moltiplicare la media con la dimensione della popolazione. In molti casi in cui desideri valutare una media da un piccolo campione ma hai paura dei valori anomali, la mediana sarà una stimatore migliore.
Quindi la domanda per la misura migliore non è una domanda matematica universale né dipende necessariamente da ciò che si misura, ma dipende da qualunque problema del mondo reale si tenta di affrontare.
Risposta
Secondo me, la risposta dovrebbe dipendere dalla tua forma di distribuzione. Ad esempio, se hai una densità a campana, potresti considerare di usare la media come stimatore informativo. Se hai un po di valori anomali o hai una distribuzione distorta o la tua distribuzione non ha una media ben definita, puoi usare la mediana. Se hai una distribuzione multimodale, puoi usare la modalità.
Tutti questi stimatori sono essenzialmente diversi e forniscono informazioni diverse sulla tua variabile casuale sottostante.
Unaltra cosa che vale la pena discutere ( tranne le profonde differenze sottostanti nel significato di questi stimatori) è lefficienza della stima e il punto di rottura. La media è lo stimatore più efficiente (la stima sarà il più vicino al valore reale utilizzando il campione di dimensione che hai). La mediana è molto più robusta (ha quasi il 50% di punto di rottura), ma molto meno efficace. Lo stimatore di Lehman-Hodges è una via di mezzo. La modalità, che spesso si ottiene tramite Kernel Density Estimation, non è affatto efficiente ed ha senso usarla solo se si ha> 50% di “outlier” – anche in questo caso bisogna stare molto attenti con il kernel che si usa, ad esempio, il kernel predefinito in R è mantenuto lì per ragioni storiche e non dovrebbe essere usato.
Queste sono le mie opinioni e potrebbero essere sbagliate.
Credito immagine: https://www.tutor2u.net/geography/reference/mean-median-and-mode