O que significa quando, a três desvios padrão da média, eu caio fora do valor mínimo ou máximo?

Tenho um conjunto de dados com as seguintes características e não consigo entender isso. “Três st.dev.s incluem 99,7% dos dados” é o que eu digo a mim mesmo, mas parece que a redação está incorreta.

Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48 

Isso me diz que 99,7% dos dados estão entre 30 e 48, mas 100% dos dados estão entre 34 e 46 e isso não faz sentido. Significa apenas que minha amostra não é representativa da população total? Quero dizer, obviamente, não é, mas vamos supor que eu não saiba que existem humanos com menos de 34 e mais de 46 anos. A propósito, isso é da variável age do conjunto de dados de amostra Stata nlsw88.dta.

Eu olhei esta questão , mas também não me ajuda a desatar o nó do meu cérebro. ht lugar para perguntar.

EDITAR: Acabei de perceber que essas são muitas perguntas. Considere a pergunta do cabeçalho como aquela que precisa de uma resposta. O resto é praticamente apenas o meu desordenado processo de pensamento se desenrolando.

Comentários

  • O mínimo e o máximo são os mínimos e máximos da população que você observou . O desvio padrão é calculado a partir da população de amostra. Supondo então uma população infinitamente grande com as mesmas características da amostra observada e uma distribuição normal, 99,7% das pessoas estariam entre 30 e 48. O corolário é que sua amostra inicial teria que ser maior para ter observado alguém com menos de 34 ou maior que 46.

Resposta

“ Três st.dev.s incluem 99,7% dos dados ”

Você precisa adicionar algumas ressalvas a tal declaração.

A coisa de 99,7% é um fato sobre distribuições normais – 99,7% dos valores da população estarão dentro de três desvios padrão da população da média da população.

densidade normal

Em grandes amostras * de um distribuição normal, geralmente será aproximadamente o caso – cerca de 99,7% dos dados estariam dentro de três desvios padrão da amostra da média da amostra (se você estivesse amostrando a partir de uma distribuição normal, sua amostra deveria ser grande o suficiente para que seja aproximadamente verdadeiro – parece que há cerca de 73% de chance de ganhar $ 0,9973 \ pm 0,0010 $ com uma amostra desse tamanho).

* assumindo uma amostra aleatória

Mas você não tem uma amostra de uma distribuição normal.

Se você não colocar algumas restrições na forma de distribuição, a proporção real dentro de 3 desvios padrão da média pode ser alta ou inferior.

densidade uniforme padronizada $ \ qquad \ qquad ^ \ text { Exemplo de uma distribuição com 100% da distribuição dentro de 2 sds da média} $

A proporção de uma distribuição dentro de 3 stan os desvios padrão da média podem ser tão baixos quanto 88,9%. Você pode exigir mais de 18 desvios padrão para obter 99,7%. Por outro lado, você pode obter mais de 99,7% com muito menos de um desvio padrão. Portanto, a regra prática de 99,7% não é necessariamente de muita ajuda, a menos que você defina um pouco o formato da distribuição.

Se você relaxar um pouco sua expectativa (ser apenas “aproximadamente” 99,7%), então a regra às vezes é útil sem exigir normalidade, contanto que tenhamos em mente que nem sempre vai funcionar em todas as situações – mesmo aproximadamente.

Comentários

Resposta

A resposta curta é que sua amostra não seguiu precisamente uma distribuição normal, então sugere que talvez você precise reexaminar suas suposições básicas, especificamente uma de que você pode aplicar ferramentas projetadas para trabalhar com uma população normalmente distribuída.

Apenas vire sua pergunta ao contrário para obter esclarecimento. Se a sua amostra foi distribuída normalmente, então seria de se esperar que um tamanho de amostra de ~ 2.000 produzisse 6 pontos de dados fora do intervalo 30-48, em média. O seu não, o que sinaliza uma questão “Qual é o significado desse desvio do normal para quaisquer previsões que você fizer ao assumir que a sua população mais ampla segue uma distribuição normal?”

Portanto, a implicação mais ampla desta pequena anomalia é que, embora sua amostra possa não diferir muito de uma distribuição normal, algumas previsões feitas assumindo que ela representa uma população normalmente distribuída maior podem ser inerentemente falhos e podem justifica alguma qualificação ou investigação adicional. No entanto, estimar a probabilidade desse desvio do normal e as margens de erro implícitas e a confiabilidade das previsões resultantes está muito além do meu nível de habilidade, embora felizmente explorado em muitas outras respostas aqui!

Mas você claramente tem o hábito de examinar seus resultados por completo, de questionar o que seus resultados realmente significam e se eles provam sua hipótese original ou não. Procure outras anormalidades reveladas nos dados, como curtose e inclinação para ver quais pistas eles revelam ou talvez considerem outras distribuições como representando melhor sua população.

Comentários

  • Isso ou apenas por pura aleatoriedade, aí não havia pontos de dados no intervalo.

Resposta

“Três st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) inclui 99,7% dos dados ”refere-se a distribuições gaussianas. Para distribuições em geral, a desigualdade de Chebyshev coloca um limite inferior na quantidade de massa de probabilidade dentro de $ k $ da média. Mas existe um limite superior?

Com uma distribuição de Bernoulli com $ p $ = .5, o $ \ sigma $ é .5. A média $ \ mu $ também é .5, o que significa que 100% da distribuição está dentro de $ 1 \ sigma $ ou $ \ mu $. E quanto a números menores de desvios padrão ?

Nota: o seguinte, para simplificar, é um argumento referente a distribuições com $ \ mu = 0 $. Sua extensão para distribuição com $ \ mu $ arbitrário é razoavelmente trivial.

Dado qualquer $ \ varejpsilon $ e $ M $ positivos, há uma distribuição tal que você tem $ \ varejpsilon / 2 $ massa de probabilidade $ \ leftarrow M $ e $ \ varejpsilon / 2 $ massa de probabilidade $ \ gt M $. Ou seja,

$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $

Todo o resto sendo igual, como $ M \ to \ infty $, então $ \ sigma \ to \ infty $. No entanto, para qualquer $ N $ positivo fixo, uma vez que $ M $ exceda $ N $, a massa de probabilidade dentro de $ N $ de zero é sempre $ 1- \ varejpsilon $, re independentemente de $ M $. Assim, se olharmos para a distância relativa de zero (ou seja, o número de desvios padrão, o valor é $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), então como $ M \ to \ infty $, temos $ n \ a \ infty $, onde $ n $ é o maior inteiro tal que “$ 1- \ varejpsilon $ da probabilidade está dentro de $ n \ sigma $ de $ \ mu $” é verdadeiro.

Isso mostra que, para quaisquer números positivos $ \ varepsilon $ e $ n $, há alguma distribuição tal que a probabilidade de ser maior que $ n \ sigma $ de zero é menor que $ \ varepsilon $. Então, por exemplo, se você quiser uma probabilidade de 99,999% de ser inferior a 0,000001 $ \ sigma $ de zero, há uma distribuição que satisfaz isso.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *