Acabei de começar a aprender as estatísticas há algumas semanas, bem, minha pergunta é que, como sabemos que a média, a mediana e o modo são a tendência central dos dados e sua sugestão de que não devemos ir com apenas uma dessas medidas, uma vez que poucas circunstâncias podem afetá-los bem o que devemos considerar a tendência central dos dados se sua média, mediana e modo estiverem contando uma história completamente diferente sobre os dados
exemplo
mean = 43.26 median = 14 and mode = 9
e minha pergunta é o que devemos interpretar a partir dessas medidas qual seria a melhor estimativa para a central tendência
Comentários
- Parece muito estranho citar o conselho e perguntar " qual " você deve usar. Qual parte do conselho " don ' t ir com apenas um deles " é confuso?. Se
s não é confuso, por que então escolher " ir com " apenas um?
Resposta
Situações diferentes exigem respostas diferentes. Os estatísticos aplicados devem encontrar a medida que melhor responde à pergunta subjacente.
Considere a seguinte frase:
A maioria das pessoas tem um número acima da média de pernas
A maioria das pessoas tem 2 pernas, algumas têm apenas uma ou nenhuma. Portanto, a média é provavelmente 1,9 …
Se alguém na rua lhe perguntasse “Quantas pernas as pessoas têm?” eles geralmente esperam a resposta “duas pernas”, que é o modo . O modo geralmente é “a coisa normal”. Se, no entanto, você estivesse em uma posição em que teria que planejar um estoque de próteses de membro inferior para um país distante, você desejaria multiplicar a média com o tamanho da população. Em muitos casos em que você gostaria de avaliar uma média de uma pequena amostra, mas tem medo de outliers, a mediana será uma melhor estimador.
Portanto, a questão da melhor medida não é uma questão matemática universal nem depende necessariamente do que você mede, mas depende de qualquer problema do mundo real que você tente resolver.
Resposta
Na minha opinião, a resposta deve depender de sua forma de distribuição. Por exemplo, se você tiver uma densidade em forma de sino, pode considerar o uso da média como um estimador informativo. Se você tem um pouco de outliers ou tem uma distribuição distorcida ou sua distribuição não tem uma média bem definida – você pode usar a mediana. Se você tiver distribuição multimodal, pode usar o modo.
Todos esses estimadores são essencialmente diferentes e fornecem informações diferentes sobre sua variável aleatória subjacente.
Outra coisa que vale a pena ser discutida ( exceto as profundas diferenças subjacentes no que esses estimadores significam) é a eficiência da estimativa e o ponto de ruptura. A média é o estimador mais eficiente (sua estimativa será o mais próximo do valor verdadeiro usando a amostra de tamanho que você tem). A mediana é muito mais robusta (tem quase 50% do ponto de decomposição), mas muito menos eficaz. O estimador Lehman-Hodges está em algum lugar no meio. O modo, que muitas vezes é obtido através da estimativa de densidade do kernel, não é eficiente e faz sentido usá-lo apenas se você tiver> 50% de “outliers” – mesmo neste caso, você precisa ter muito cuidado com o kernel que você usa, por exemplo, o kernel padrão em R é mantido lá por razões históricas e não deve ser usado.
Essas são minha opinião e podem estar erradas.
Crédito da imagem: https://www.tutor2u.net/geography/reference/mean-median-and-mode