O desvio padrão de um conjunto de dados binomial é informativo?

Estou trabalhando em um conjunto de dados de dados de presença / ausência, com minha variável de resposta sendo “proporção de sites onde X está presente”. Pediram-me para fornecer desvios-padrão ao lado das proporções médias. No entanto, parece-me que o desvio padrão de um conjunto de dados binomial é uma função polinomial da própria proporção e não fornece informações adicionais sobre a variabilidade dos dados subjacentes. Por exemplo, se uma proporção dos dados for 0,3, não deve importar se essa proporção foi derivada de dados de presença / ausência de 10, 100 ou 100.000 sites, o desenvolvimento padrão deve ser o mesmo.

Quando Eu faço um conjunto de dados de amostra e gráfico de proporção média vs st dev, posso modelá-lo com uma função polinomial de 6ª ordem com um R ao quadrado de 1,00.

Então, alguém pode confirmar minha suspeita – Que os desvios padrão propriedade inerente da proporção em um conjunto de dados binomial e, portanto, não produz informações adicionais sobre o conjunto de dados de onde veio essa proporção?

Comentários

  • Você deve ser capaz de modelar o SD ainda melhor como a raiz quadrada de uma função quadrática, porque para uma proporção $ p $ em um conjunto de dados de tamanho $ n $ o SD do total é $ \ sqrt {np (1-p)} $ .
  • @whuber: Eu acho que para a variável Binomial (então para a contagem de sucessos), o desvio padrão é $ \ sqrt {np (1-p)} $ , mas para a proporção de sucessos, a equipe o desvio padrão é $ \ sqrt {\ frac {p (1-p)} {n}} $, veja minha resposta a esta pergunta.
  • @fcoppens Correto, é por isso que tomei o cuidado de descreva isso como o SD do total.
  • @whuber: ok então :-), você deu uma olhada na minha resposta?
  • Se o revisor de um manuscrito perguntou por isso , então talvez o revisor quisesse dizer alguma medida de precisão para a proporção estimada, como um erro padrão. Não ' t temos uma lei que diz " Você sempre fornecerá uma medida de precisão para cada estimativa? " Se o revisor realmente quisesse um desvio padrão, uma resposta diplomática sobre por que os erros padrão são melhores pode funcionar.

Resposta

Se você tem uma variável aleatória binomial $ X $, de tamanho $ N $, e com probabilidade de sucesso $ p $, ou seja, $ X \ sim Bin (N; p) $, então a média de X é $ Np $ e sua variância é $ Np (1-p) $, então, como você diz, a variância é um polinômio de segundo grau em $ p $. Observe, entretanto, que a variação também depende de $ N $! Este último é importante para estimar $ p $:

Se você observar 30 sucessos em 100, a fração de sucessos é 30/100, que é o número de sucessos dividido pelo tamanho do Binomial, ou seja, $ \ frac {X} {N} $.

Mas se $ X $ tem $ Np $ médio, então $ \ frac {X} {N} $ tem uma média igual à média de $ X $ dividido por $ N $ porque $ N $ é uma constante. Em outras palavras, $ \ frac {X} {N} $ tem média $ \ frac {Np} {N} = p $. Isso implica que a fração de sucessos observada é um estimador imparcial da probabilidade $ p $.

Para calcular a variância do estimador $ \ frac {X} {N} $, temos que dividir a variância de $ X $ por $ N ^ 2 $ (variância de a (variável dividida por um constante) é a (variância da variável) dividida pelo quadrado da constante), então a variância do estimador é $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. O desvio padrão do estimador é a raiz quadrada da variância, portanto $ \ sqrt {\ frac {p (1-p)} {N}} $.

Então, se você jogar uma moeda 100 vezes e observar 49 caras, $ \ frac {49} {100} $ é um estimador de para a probabilidade de jogar cara com aquela moeda e o desvio padrão desta estimativa é $ \ sqrt {\ frac {0,49 \ times (1-0,49)} {100}} $.

Se você jogar a moeda 1000 vezes e observar 490 caras, então você estima a probabilidade de jogar a cabeça novamente em $ 0,49 $ e o desvio padrão em $ \ sqrt {\ frac {0,49 \ vezes (1-0,49)} {1000}} $.

Obviamente, no segundo caso, o desvio padrão é menor e, portanto, o estimador é mais preciso quando você aumenta o número de lançamentos.

Você pode concluir que, para uma variável aleatória Binomial, a variância é um polinômio quadrático em p, mas depende também de N e acho que esse padrão desvio contém informações adicionais sobre a probabilidade de sucesso.

Na verdade, a distribuição binomial tem dois parâmetros e você sempre precisará de pelo menos dois momentos (neste caso a média (= primeiro momento) e o desvio padrão (raiz quadrada do segundo momento)) para identificá-lo completamente.

P.S. Um desenvolvimento um pouco mais geral, também para o binômio de Poisson, pode ser encontrado em minha resposta a Estimar a precisão de uma estimativa na distribuição do binômio de Poisson .

Resposta

A família de distribuições de Bernouli é completamente parametrizada por um número, normalmente denominado $ p $. Portanto, qualquer estatística populacional de uma distribuição de Bernouli deve ser alguma função do parâmetro $ p $. Isso não significa que essas estatísticas sejam descritivamente inúteis!

Por exemplo, posso descrever completamente uma caixa dando seu comprimento, largura e altura, mas o volume ainda é uma estatística útil!

Comentários

  • Espere, está certo? Não ' Não me refiro à distribuição de Bernoulli? Acho que deveria mudá-lo, mas tem alguns votos positivos …
  • Você, que ' um erro bastante compreensível, já que Bernouli e binômios estão tão intimamente ligados. Eu editei para você.

Resposta

Você pode pensar que tem razão if você já sabia o valor verdadeiro do parâmetro binomial $ p $ e que realmente estava lidando com um experimento binomial (tentativas de Bernoulli independentes a $ p $ constante). Com $ N $ casos, a variação do número de sucessos em um experimento binomial é $ N p (1-p) $, e (ingenuamente) dividir por $ N $ para obter a variação na proporção de sucessos daria um valor independente de $ N $. Mas existem dois problemas com isso. Em primeiro lugar, se você soubesse o valor de $ p $, não precisaria fazer essa análise. Em segundo lugar, como @ f-coppens aponta, essa abordagem ingênua para determinar a variação na proporção de sucesso observada está incorreta.

O que você tem é uma estimativa de $ p $ baseada em uma amostra de $ N $ casos. Os intervalos de confiança em torno de sua estimativa de $ p $ dependem do valor de $ N $, melhorando aproximadamente com a raiz quadrada de $ N $. Suspeito que esse é o ponto que seu inquisidor está tentando fazer. Veja a página da Wikipedia sobre a distribuição binomial para fórmulas para intervalos de confiança. nem mesmo questiona se todas as suas amostras são modeladas por um único parâmetro $ p $.

Comentários

  • se você dividir uma variável por uma constante N, terá que dividir a variância por $ N ^ 2 $! Veja minha resposta a esta pergunta.
  • @ f-coppens Fui corrigido e editei minha resposta de acordo. Obrigado.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *