Lucrez la un set de date cu date de prezență / absență, variabila mea de răspuns fiind „proporția de site-uri unde X este prezent”. Mi s-a cerut să furnizez abateri standard alături de proporțiile medii. Cu toate acestea, mi se pare că abaterea standard a unui set de date binom este o funcție polinomială a proporției în sine și nu oferă informații suplimentare despre variabilitatea datelor subiacente. De exemplu, dacă o proporție din date este 0,3, nu ar trebui să conteze dacă această proporție a fost derivată din date de prezență / absență de la 10, 100 sau 100.000 de site-uri, devul standard ar trebui să fie același.
Realizez un eșantion de date și grafic proporția medie față de st dev, îl pot modela cu o funcție polinomială de ordinul 6 cu un R pătrat de 1,00.
Deci, poate cineva să-mi confirme suspiciunea – Că abaterile standard sunt o proprietate inerentă a proporției într-un set de date binomial și, astfel, nu oferă informații suplimentare despre setul de date din care provine acea proporție?
Comentarii
- Ar trebui să să puteți modela SD chiar mai bine ca rădăcină pătrată a unei funcții pătratice, deoarece pentru o proporție $ p $ într-un set de date cu dimensiunea $ n $ SD din total este $ \ sqrt {np (1-p)} $ .
- @whuber: cred că pentru variabila Binomial (deci pentru numărul de succese), abaterea standard este $ \ sqrt {np (1-p)} $ , dar pentru proporția de succese sta deviația ndard este $ \ sqrt {\ frac {p (1-p)} {n}} $, vezi răspunsul meu la această întrebare.
- @fcoppens Este corect, motiv pentru care am avut grijă să descrieți acest lucru ca SD al totalului.
- @whuber: ok atunci :-), ați aruncat o privire asupra răspunsului meu?
- Dacă recenzorul unui manuscris a cerut acest lucru , atunci poate că recenzorul a însemnat o anumită măsură de precizie pentru proporția estimată ca o eroare standard. Nu ' nu avem o lege care spune " Veți oferi întotdeauna o măsură de precizie pentru fiecare estimare? " Dacă evaluatorul a însemnat într-adevăr o abatere standard, atunci ar putea funcționa un răspuns diplomatic cu privire la motivele pentru care sunt mai bune erorile standard.
Răspuns
Dacă aveți o variabilă aleatoare binomială $ X $, de dimensiunea $ N $ și cu probabilitate de succes $ p $, adică $ X \ sim Bin (N; p) $, atunci media al lui X este $ Np $ și varianța sa este $ Np (1-p) $, deci, așa cum spuneți, varianța este un polinom de gradul doi în $ p $. Rețineți totuși că varianța depinde și de $ N $! Acesta din urmă este important pentru estimarea $ p $:
Dacă observați 30 de succese în 100, atunci fracția de succese este 30/100, care este numărul de succese împărțit la dimensiunea binomului, adică $ \ frac {X} {N} $.
Dar dacă $ X $ are $ Np $, atunci $ \ frac {X} {N} $ are o medie egală cu media $ X $ împărțit la $ N $ deoarece $ N $ este o constantă. Cu alte cuvinte $ \ frac {X} {N} $ înseamnă $ \ frac {Np} {N} = p $. Aceasta implică faptul că fracțiunea de succese observate este un estimator imparțial al probabilității $ p $.
Pentru a calcula varianța estimatorului $ \ frac {X} {N} $, trebuie să împărțim varianța $ X $ la $ N ^ 2 $ (varianța a (variabilă împărțită la o constantă) este (varianța variabilei) împărțit la pătrat al constantei), deci varianța estimatorului este $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. Abaterea standard a estimatorului este rădăcina pătrată a varianței, deci este $ \ sqrt {\ frac {p (1-p)} {N}} $.
Deci, dacă arunci o monedă de 100 de ori și observi 49 de capete, atunci $ \ frac {49} {100} $ este un estimator al probabilității de a arunca capul cu moneda respectivă și abaterea standard din această estimare este $ \ sqrt {\ frac {0,49 \ ori (1-0,49)} {100}} $.
Dacă arunci moneda de 1000 de ori și observi 490 de capete, atunci estimezi probabilitatea de a arunca din nou capul la $ 0,49 $ și devtația standard la $ \ sqrt {\ frac {0,49 \ ori (1-0,49)} {1000}} $.
Evident, în al doilea caz, abaterea standard este mai mică și astfel estimatorul este mai precis atunci când creșteți numărul de aruncări.
Puteți concluziona că, pentru o variabilă aleatoare binomială, varianța este un polinom pătratic în p, dar depinde și de N și cred că standardul abaterea conține informații suplimentare probabilității de succes.
De fapt, distribuția binomială are doi parametri și veți avea întotdeauna nevoie de cel puțin două momente (în acest cazul medie (= primul moment) și abaterea standard (rădăcina pătrată a celui de-al doilea moment)) pentru a o identifica pe deplin.
P.S. O dezvoltare oarecum mai generală, de asemenea, pentru poisson-binom, se găsește în răspunsul meu la Acuratețea estimării unei estimări privind distribuția binomială Poisson .
Răspuns
Familia distribuțiilor Bernouli este complet parametrizată cu un număr, numit de obicei $ p $. Deci, orice statistică a populației unei distribuții Bernouli trebuie să fie o funcție a parametrului $ p $. Acest lucru nu înseamnă că aceste statistici sunt descriptiv inutile!
De exemplu, pot descrie complet o casetă dându-i lungimea, lățimea și înălțimea, dar volumul este încă o statistică utilă!
Comentarii
- Așteptați, nu-i așa? Nu ' t mă refer la distribuția Bernoulli? Simt că ar trebui să-l schimb, dar are câteva voturi pozitive …
- Da, acea ' este o greșeală destul de ușor de înțeles, din moment ce Bernouli și binomul este atât de strâns legat. L-am editat pentru dvs.
Răspuns
S-ar putea să credeți că aveți un punct dacă știați deja adevărata valoare a parametrului binomial $ p $ și că aveți cu adevărat de-a face cu un experiment binomial (încercări independente Bernoulli la constant $ p $). Cu cazuri de $ N $, varianța numărului de succese dintr-un experiment binomial este de $ N p (1-p) $ și (naiv) împărțirea la $ N $ pentru a obține varianța în proporția de succese ar da o valoare independent de $ N $. Dar există două probleme în acest sens. În primul rând, dacă ați ști valoarea $ p $, nu ar fi nevoie să faceți această analiză. În al doilea rând, așa cum subliniază @ f-coppens, această abordare naivă de determinare a varianței în proporția de succes observată este incorectă.
Ceea ce aveți este o estimare de $ p $ pe baza unui eșantion de $ N $ cazuri. Intervalele de încredere din jurul estimării dvs. de $ p $ depind de valoarea de $ N $, îmbunătățindu-se aproximativ cu rădăcina pătrată de $ N $. Bănuiesc că acesta este punctul pe care încerci să-l faci cercetătorul. Vezi pagina Wikipedia din distribuirea binomială pentru formule pentru intervale de încredere. nici măcar nu se verifică dacă toate eșantioanele dvs. sunt modelate de un singur parametru $ p $.
Comentarii
- dacă împărțiți o variabilă la o constantă N, atunci trebuie să împărțiți varianța cu $ N ^ 2 $! Vedeți răspunsul meu la această întrebare.
- @ f-coppens Sunt corectat și mi-am editat răspunsul în consecință. Mulțumesc.