Se meu histograma mostrar uma curva em forma de sino, posso dizer que meus dados estão normalmente distribuídos?

Criei um histograma para Respondent Age e consegui uma curva em forma de sino muito boa, da qual concluí que a distribuição é normal.

Então eu executei o teste de normalidade no SPSS, com n = 169. O valor p (Sig.) do teste de Kolmogorov-Smirnov é menor que 0,05 e, portanto, os dados violaram o pressuposto de normalidade.

Por que o teste indica que a distribuição de idades não é normal, mas o histograma mostrou uma curva em forma de sino, que pelo meu conhecimento é normal? Qual resultado devo seguir?

Comentários

  • Por que você está testando a normalidade?
  • Além de @Glen_b ‘ s excelente comentário e Aksakal ‘ s igualmente excelente resposta , note que mesmo para distribuições contínuas, KS requer que a média e o dp sejam conhecidos de antemão , não estimados a partir dos dados. Isso essencialmente torna o teste K-S inútil. ” O teste de Kolmogorov-Smirnov é apenas uma curiosidade histórica. Nunca deve ser usado. ” (D ‘ Agostino in d ‘ Agostino & Stephens, eds., 1986). Em vez disso, use Shapiro-Wilks.
  • @Stephan Kolassa Bom conselho, mas você quer dizer Shapiro-Wilk. (As sugestões de MB Wilk e SS Wilks são frequentemente confundidas ou combinadas; o estranho uso de ‘ s como possessivo em inglês aqui também pode contribuir para a confusão, mesmo para muitos que têm inglês como seu primeiro idioma.)
  • Relacionado ao comentário de @StephanKolassa, consulte Shapiro-Wilk é o melhor teste de normalidade? … a resposta é que não ‘ necessariamente, dependendo de qual alternativa você ‘ está interessado, mas muitas vezes é uma boa escolha .

Resposta

Geralmente sabemos que é impossível para uma variável ser exatamente distribuída normalmente …

A distribuição normal tem caudas infinitamente longas estendendo-se em qualquer direção – é improvável que os dados estejam muito longe nesses extremos, mas para uma distribuição normal verdadeira , isso deve ser fisicamente possível. Para idades, um modelo normalmente distribuído irá prever que há uma probabilidade diferente de zero de dados situando-se 5 desvios-padrão acima ou abaixo da média – o que corresponderia a idades fisicamente impossíveis, como abaixo de 0 ou acima de 150. (Embora se você olhar para a pirâmide populacional , não está claro por que você esperaria que a idade fosse distribuída de forma aproximadamente normal. Da mesma forma, se você tivesse dados de altura, que pode seguir intuitivamente uma distribuição mais “normal”, só poderia ser verdadeiramente normal se houvesse alguma chance de alturas abaixo de 0 cm ou acima de 300 cm.

Eu ocasionalmente visto que sugeriu que podemos evitar esse problema centralizando os dados para ter média zero. Dessa forma, tanto “idades centradas” positivas quanto negativas são possíveis. Mas embora isso torne os valores negativos fisicamente plausíveis e interpretáveis (os valores centrados negativos correspondem aos valores reais abaixo da média), não contorna o problema de que o modelo normal produzirá previsões fisicamente impossíveis com probabilidade diferente de zero, uma vez que você decodifique a “idade centrada” modelada de volta para uma “idade real”.

… então, por que se preocupar em testar? Mesmo que não seja exata, a normalidade ainda pode ser um modelo útil

A questão importante não é realmente se os dados são exatamente normais – sabemos a priori que podem “t seja o caso, na maioria das situações, mesmo sem executar um teste de hipótese – mas se a aproximação é suficientemente próxima para suas necessidades. Veja a pergunta o teste de normalidade é essencialmente inútil? A distribuição normal é uma aproximação conveniente para muitos propósitos. Raramente é “correta” – mas geralmente não precisa ser exata corretamente para ser útil. Eu esperava que a distribuição normal normalmente fosse um modelo razoável para a altura das pessoas, mas exigiria um contexto mais incomum para que a distribuição normal fizesse sentido como um modelo da idade das pessoas.

Se você realmente sente a necessidade de realizar um teste de normalidade, Kolmogorov-Smirnov provavelmente não é a melhor opção: conforme observado nos comentários, testes mais poderosos estão disponíveis. Shapiro-Wilk tem boa potência contra uma variedade de alternativas possíveis e tem a vantagem de não precisar saber a verdadeira média e variância de antemão .Mas tome cuidado, pois em amostras pequenas, desvios potencialmente muito grandes da normalidade ainda podem passar despercebidos, enquanto em amostras grandes, mesmo desvios muito pequenos (e para fins práticos, irrelevantes) da normalidade podem aparecer como “altamente significativos” (baixo p -value).

“Em forma de sino” não “é necessariamente normal

Parece que você foi instruído a pensar em dados “em forma de sino” – dados simétricos com picos no meio e que têm probabilidade menor na cauda – como “normais”. Mas a distribuição normal requer uma forma específica para seu pico e caudas. Existem outras distribuições com uma forma semelhante à primeira vista, que você também pode ter caracterizado como “em forma de sino”, mas que não são normais. A menos que você tenha muitos dados, é improvável que você consiga distinguir que “se parece com esta distribuição de prateleira, mas não com as outras”. E se você tiver muitos dados, provavelmente descobrirá que eles não se parecem exatamente com nenhuma distribuição “disponível no mercado”! Mas, nesse caso, para muitos propósitos, “seria bom usar o CDF empírico .

Galeria de

em forma de sino ” distribuições

As distribuição normal é a “forma de sino” com a qual você está acostumado; o Cauchy tem um pico mais nítido e “mais pesado” (ou seja, contendo mais probabilidade) cairá; a distribuição t com 5 graus de liberdade vem em algum lugar no meio (o normal é t com df infinito e o Cauchy é t com 1 df, de modo que faz sentido); o Laplace ou distribuição exponencial dupla tem pdf formado a partir de duas distribuições exponenciais reescalonadas consecutivamente, resultando em um pico mais nítido do que a distribuição normal; a distribuição Beta é bastante diferente – não tem caudas que vão para o infinito ty por exemplo, em vez de ter cortes acentuados – mas ainda pode ter a forma de “corcunda” no meio. Na verdade, ao brincar com os parâmetros, você também pode obter uma espécie de “corcunda inclinada”, ou mesmo uma forma de “U” – a galeria na página da Wikipedia vinculada é bastante instrutiva sobre a flexibilidade dessa distribuição. Finalmente, o distribuição triangular é outra distribuição simples em um suporte finito, frequentemente usada na modelagem de risco.

É provável que nenhuma dessas distribuições descreva exatamente o seu dados, e muitas outras distribuições com formas semelhantes existem, mas eu queria resolver o equívoco de que “corcovada no meio e aproximadamente simétrica significa normal”. Uma vez que existem limites físicos nos dados de idade, se os dados de sua idade estiverem “curvados” no meio, então ainda é possível uma distribuição com suporte finito como o Beta ou mesmo uma distribuição triangular pode se provar um modelo melhor do que um com caudas infinitas como o normal. Observe que, mesmo que seus dados fossem realmente distribuídos normalmente, é improvável que seu histograma se pareça com o “sino” clássico, a menos que o tamanho da sua amostra seja bastante grande. Mesmo uma amostra de uma distribuição como o Laplace, cujo pdf é claramente distinguível daquele do normal devido à sua cúspide, pode produzir um histograma que parece visualmente tão semelhante a um sino quanto uma amostra genuinamente normal faria.

Amostras normais e Laplace de várias amostras tamanhos

Código R

 par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)  

Resposta

A idade não pode ser normal distribuição. Pense em log icamente: você não pode ter idade negativa, mas a distribuição normal permite números negativos.

Existem muitas distribuições em forma de sino por aí. Se algo parece em forma de sino, não significa que deva ser normal.

Não há como saber com certeza algo nas estatísticas, incluindo de qual distribuição os dados vêm. A forma é um dica: o formato de sino é um argumento para a distribuição normal. Além disso, compreender seus dados é muito importante. A variável como a idade costuma ser distorcida, o que excluiria a normalidade. Como mencionado, a distribuição normal não tem limites, mas às vezes é usada para variáveis limitadas. Por exemplo, se a idade média for 20 anos e o desvio padrão for 1, a probabilidade de idade < 17 ou> 23 é menor que 0,3%. , é possível que a distribuição normal seja uma boa aproximação .

Você pode tentar executar um teste estatístico de normalidade, como Jarque-Bera, que leva em consideração a assimetria e curtose de amostra. A curtose pode ser importante em alguns casos.É muito importante em finanças, porque se você modelar os dados com distribuição normal, mas os dados são na verdade de uma distribuição compacta, você pode acabar subestimando os riscos e preços dos ativos.

Seria útil se você relatasse algumas estatísticas descritivas ou um histograma de seus dados de idade e altura, como média, variação, assimetria, curtose.

Comentários

  • Obrigado pela sua ajuda, você pode me dizer como saber que certos dados vêm da distribuição normal por exemplo em sua resposta afirmou que a idade não pode ser da distribuição normal, e outros dados como altura. Quais são os critérios que eu preciso saber.Eu quero aprender mais sobre isso porque parece que não entendi o conceito, já que sou novo nisso. Obrigado novamente.
  • Ainda assim, a distribuição normal geralmente é usado como uma aproximação para variáveis como idade. E não é realmente um problema, pois você pode definir age_centred como e você tem uma variável com média 0, com algum desvio padrão, valores positivos e negativos. Então, eu não ‘ não seria tão rígido quanto a isso.
  • Você também não pode ter altura negativa para as pessoas, mas isso não ‘ t ser uma barreira para mim para descrever a altura como normalmente distribuída se essa for uma boa aproximação. Por falar nisso, por que usar qualquer distribuição com limites infinitos para medições que só podem ser finitas? Como @Tim diz, é tudo uma questão de aproximações aceitáveis dados os dados e o propósito.
  • Concordo que a distribuição normal pode ser uma boa aproximação para dados limitados às vezes, mas a questão era se os dados eram normais ou não.
  • A idade dos formandos do ensino médio poderia ter distribuição normal e também assumir valores negativos se a média centrada como @Tim mencionado.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *