Lécart type dun ensemble de données binomiales est-il informatif?

Je travaille sur un ensemble de données de présence / absence, ma variable de réponse étant « proportion de sites où X est présent ». On ma demandé de fournir les écarts types à côté des proportions moyennes. Cependant, il me semble que lécart type dun jeu de données binomial est une fonction polynomiale de la proportion elle-même et naccorde pas dinformations supplémentaires sur la variabilité des données sous-jacentes. Par exemple, si une proportion des données est de 0,3, peu importe si cette proportion est dérivée des données de présence / absence de 10, 100 ou 100 000 sites, lécart standard doit être le même.

Quand Je crée un exemple de jeu de données et graphe la proportion moyenne par rapport à st dev, je peux le modéliser avec une fonction polynomiale du 6ème ordre avec un R au carré de 1,00.

Alors, quelquun peut-il confirmer mes soupçons – Que les écarts types sont un propriété inhérente de la proportion dans un jeu de données binomial, et donc ne donner aucune information supplémentaire sur le jeu de données doù provient cette proportion?

Commentaires

  • Vous devriez être capable de modéliser encore mieux la SD comme la racine carrée dune fonction quadratique, car pour une proportion $ p $ dans un ensemble de données de taille $ n $ la SD du total est $ \ sqrt {np (1-p)} $ .
  • @whuber: Je pense que pour la variable Binomiale (donc pour le nombre de succès), lécart type est $ \ sqrt {np (1-p)} $ , mais pour la proportion de succès, le personnel Lécart ndard est $ \ sqrt {\ frac {p (1-p)} {n}} $, voyez ma réponse à cette question.
  • @fcoppens Cest correct, cest pourquoi jai pris soin de décrivez ceci comme le SD du total.
  • @whuber: ok alors :-), avez-vous jeté un œil à ma réponse?
  • Si le réviseur dun manuscrit la demandé , alors peut-être que lexaminateur voulait dire une mesure de précision pour la proportion estimée comme une erreur standard. ' t nous avons une loi qui dit " Vous fournirez toujours une mesure de précision pour chaque estimation? " Si le réviseur voulait vraiment dire un écart type, alors une réponse diplomatique sur les raisons pour lesquelles les erreurs standard sont meilleures pourrait fonctionner.

Réponse

Si vous avez une variable aléatoire binomiale $ X $, de taille $ N $, et avec une probabilité de succès $ p $, soit $ X \ sim Bin (N; p) $, alors la moyenne de X est $ Np $ et sa variance est $ Np (1-p) $, donc comme vous dites que la variance est un polynôme du second degré dans $ p $. Notez cependant que la variance dépend également de $ N $! Ce dernier est important pour estimer $ p $:

Si vous observez 30 succès sur 100 alors la fraction de succès est de 30/100 qui est le nombre de succès divisé par la taille du binôme, soit $ \ frac {X} {N} $.

Mais si $ X $ vaut $ Np $, alors $ \ frac {X} {N} $ a une moyenne égale à la moyenne de $ X $ divisée par $ N $ car $ N $ est une constante. En dautres termes, $ \ frac {X} {N} $ signifie $ \ frac {Np} {N} = p $. Cela implique que la fraction de succès observée est un estimateur sans biais de la probabilité $ p $.

Pour calculer la variance de lestimateur $ \ frac {X} {N} $, nous devons diviser la variance de $ X $ par $ N ^ 2 $ (variance de a (variable divisée par a constante) est la (variance de la variable) divisée par le carré de la constante), donc la variance de lestimateur est $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. Lécart type de lestimateur est la racine carrée de la variance donc cest $ \ sqrt {\ frac {p (1-p)} {N}} $.

Donc, si vous lancez une pièce 100 fois et que vous observez 49 têtes, alors $ \ frac {49} {100} $ est un estimateur de la probabilité de lancer la tête avec cette pièce et lécart type de cette estimation est $ \ sqrt {\ frac {0,49 \ fois (1-0,49)} {100}} $.

Si vous lancez la pièce 1000 fois et que vous observez 490 têtes, vous estimez la probabilité de lancer à nouveau la tête à 0,49 $ et lécart standard à $ \ sqrt {\ frac {0,49 \ times (1-0,49)} {1000}} $.

Evidemment, dans le second cas, lécart type est plus petit et donc lestimateur est plus précis lorsque vous augmentez le nombre de lancers.

Vous pouvez conclure que, pour une variable aléatoire binomiale, la variance est un polynôme quadratique en p, mais cela dépend aussi de N et je pense que la norme lécart contient des informations supplémentaires sur la probabilité de succès.

En fait, la distribution binomiale a deux paramètres et vous aurez toujours besoin dau moins deux moments (dans ce cas la moyenne (= premier moment) et lécart type (racine carrée du deuxième moment)) pour lidentifier complètement.

P.S. Un développement un peu plus général, également pour poisson-binomial, peut être trouvé dans ma réponse à Estimer la précision dune estimation sur la distribution binomiale de Poisson .

Réponse

La famille des distributions de Bernouli est complètement paramétrée par un nombre, généralement appelé $ p $. Ainsi, toute statistique de population dune distribution de Bernouli doit être une fonction du paramètre $ p $. Cela ne veut pas dire que ces statistiques sont inutiles du point de vue descriptif!

Par exemple, je peux décrire complètement une boîte en donnant sa longueur, sa largeur et sa hauteur, mais le volume est toujours une statistique utile!

Commentaires

  • Attendez, est-ce exact? Ne ' que je veux dire la distribution de Bernoulli? Je pense que je devrais le changer, mais il y a quelques votes positifs …
  • Cest vrai, ' est une erreur assez compréhensible, puisque Bernouli et binomial sont si étroitement liés. Je lai modifié pour vous.

Réponse

Vous pourriez penser que vous avez un point si vous connaissiez déjà la vraie valeur du paramètre binomial $ p $ et que vous avez vraiment affaire à une expérience binomiale (essais de Bernoulli indépendants à $ p $ constant). Avec $ N $ cas, la variance du nombre de succès dans une expérience binomiale est $ N p (1-p) $, et (naïvement) diviser par $ N $ pour obtenir la variance de la proportion de succès donnerait une valeur indépendant de $ N $. Mais cela pose deux problèmes. Premièrement, si vous connaissiez la valeur de $ p $, vous n’auriez pas besoin de faire cette analyse. Deuxièmement, comme le souligne @ f-coppens, cette approche naïve pour déterminer la variance de la proportion de succès observée est incorrecte.

Ce que vous avez est une estimation de $ p $ basée sur un échantillon de $ N $ cas. Les intervalles de confiance autour de votre estimation de $ p $ dépendent de la valeur de $ N $, saméliorant approximativement avec la racine carrée de $ N $. Je soupçonne que cest le point que votre inquisiteur essaie de faire valoir. Consultez la page Wikipédia sur la distribution binomiale pour les formules dintervalles de confiance. nindique même pas si tous vos échantillons sont modélisés par un seul paramètre $ p $.

Commentaires

  • si vous divisez une variable par une constante N, alors vous devez diviser la variance par $ N ^ 2 $! Voir ma réponse à cette question.
  • @ f-coppens Je suis corrigé et jai modifié ma réponse en conséquence. Merci.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *