A jelenlét / hiány hiány adatainak kidolgozásán dolgozom, válaszváltozóm “azon helyek aránya, ahol X jelen van”. Megkértek, hogy adjak meg standard eltéréseket az átlagos arányok mellett. Számomra azonban úgy tűnik, hogy a binomiális adatkészlet szórása maga az arány polinomfüggvénye, és nem ad további információt az alapul szolgáló adatok változékonyságáról. Például, ha az adatok aránya 0,3, akkor nem számít, hogy ez az arány 10, 100 vagy 100 000 hely jelenlétének / hiányának adataiból származik-e, a standard devnak meg kell egyeznie.
Amikor Készítek egy mintadatkészletet és grafikon átlagarányt vs st dev, modellezhetem egy 6. rendű polinomfüggvénnyel, amelynek R négyzete 1,00.
Tehát meg tudja erősíteni valaki a gyanúmat – A szórások a binomális adatkészlet arányának velejárója, és így nem ad további információt arról az adatkészletről, amelyből ez az arány származott?
Megjegyzések
- képes legyen még jobban modellezni az SD-t kvadratikus függvény négyzetgyökeként, mert a $ p $ arányban egy $ n $ méretű adatkészletben a teljes SD értéke $ \ sqrt {np (1-p)} $ .
- @whuber: Úgy gondolom, hogy a Binomial változónál (tehát a sikerek számához ) a szórás $ \ sqrt {np (1-p)} $ , de a sikerek arányáért a szt Az ndard-eltérés $ \ sqrt {\ frac {p (1-p)} {n}} $, lásd a válaszomat erre a kérdésre.
- @fcoppens Ez helyes, ezért gondoltam írja le ezt a teljes összeg SD-ként.
- @whuber: rendben :-), megnézte a válaszomat?
- Ha egy kézirat bírálója ezt kérte , akkor talán a recenzens valamilyen pontosságot jelentett a becsült arányra, mint egy standard hiba. Ne ‘ nincs törvényünk, amely azt mondja, hogy ” Minden becslésnél mindig meg kell adni a pontosság mértékét? ” Ha a recenzens valóban szórást értett, akkor diplomáciai válasz működhet arról, hogy miért jobbak a szokásos hibák.
Válasz
Ha binomiális véletlen változója van, $ X $, $ N $ méretű, és valószínűséggel $ p $, azaz $ X \ sim Bin (N; p) $, akkor az átlag az X értéke $ Np $, szórása pedig $ Np (1-p) $, tehát ahogy azt mondod, a variancia másodfokú polinom a $ p $ -ban. Ne feledje azonban, hogy a variancia $ N $ -tól is függ! Ez utóbbi fontos a $ p $ becsléséhez:
Ha 100 sikert 30 sikerrel figyel meg, akkor a sikerek töredéke 30/100, amely a sikerek száma elosztva a binomiál méretével, azaz $ \ frac {X} {N} $.
De ha a $ X $ jelentése $ Np $, akkor a $ \ frac {X} {N} $ értéke átlagosan megegyezik $ X $ átlagának osztva $ N $ -val, mert $ N $ egy állandó. Más szavakkal: $ \ frac {X} {N} $ jelentése $ \ frac {Np} {N} = p $. Ez azt jelenti, hogy a megfigyelt sikerek töredéke a $ p $ valószínűség elfogulatlan becslője.
Az $ \ frac {X} {N} $ becslő varianciájának kiszámításához el kell osztanunk a $ X $ varianciáját $ N ^ 2 $ -val (a (változó osztva egy konstans) a (a változó varianciája) elosztva az konstans négyzetével [div id = “f7378b8d37”>
), tehát a becslő varianciája $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. A becslő szórása a variancia négyzetgyöke, tehát $ \ sqrt {\ frac {p (1-p)} {N}} $.
Tehát, ha 100-szor dobsz egy érmét, és 49 fejet figyelsz meg, akkor a $ \ frac {49} {100} $ megbecsüli annak valószínűségét, hogy feldobja a fejet az érmével, és a szórás ennek a becslésnek a értéke $ \ sqrt {\ frac {0,49 \ szer (1-0,49)} {100}} $.
Ha 1000-szer dobja fel az érmét, és 490 fejet figyel meg, akkor megbecsüli annak valószínűségét ismét feldobja a fejét 0,49 dollárra, a szokásos eltérés pedig $ \ sqrt {\ frac {0,49 \ -szeresére (1-0,49)} {1000}} $.
Nyilvánvaló, hogy a második esetben a szórás kisebb, így a becslő pontosabb, ha növeli a dobások számát.
az eltérés a siker valószínűségén túl tartalmaz információkat.
Valójában a binomiális eloszlásnak két paramétere van, és mindig legalább két pillanatra lesz szüksége (ebben eset az átlag (= első pillanat) és a szórás (a második pillanat négyzetgyöke)) annak teljes azonosításához.
P.S. Valamivel általánosabb fejlemény, a poisson-binomiál esetében is, megtalálható a Poisson binomiális eloszlás becslésének pontossága -ra adott válaszomban.
Válasz
A Bernouli-disztribúciók családját teljesen paraméterezi egy szám, általában $ p $ néven. Tehát a Bernouli-eloszlás bármely populációs statisztikájának kell a $ p $ paraméter valamilyen függvényének lennie. Ez nem azt jelenti, hogy ezek a statisztikák leíró jelleggel haszontalanok!
Például egy mezőt leírhatok teljes mértékben, megadva annak hosszát, szélességét és magasságát, de a kötet még mindig hasznos statisztika!
Megjegyzések
- Várj, igaz? Don ‘ t Bernoulli-eloszlásra gondolok? Úgy érzem, meg kellene változtatnom, de van néhány fel szavazása …
- Teszed, ez a ‘ elég érthető hiba, mivel Bernouli és binomiális olyan szorosan kapcsolódnak egymáshoz. Önnek szerkesztettem.
Válasz
Gondolhatja, hogy van pontja ha már tudta a $ p $ binomiális paraméter valódi értékét, és hogy valóban binomiális kísérlettel volt dolga (független Bernoulli-kísérletek állandó $ p $ -on). $ N $ esetek esetén a binomiális kísérletben a sikerek számának szórása $ N p (1-p) $, és (naiv módon) elosztva $ N $ -kal, hogy a sikerek arányának szórása megkapja az értéket független a $ N $ -tól. De ezzel két probléma van. Először is, ha tudta a $ p $ értékét, akkor nem kell elvégeznie ezt az elemzést. Másodszor, amint arra @ f-coppens rámutat, ez a naiv megközelítés a megfigyelt sikerarány szórásának meghatározásához helytelen.
Amivel rendelkezel, az a $ p $ becslése a $ N $ esetek mintája alapján. A $ p $ becslés körüli konfidencia intervallumok a $ N $ értékétől függenek, és a négyzetgyökkel hozzávetőlegesen javulnak $ N $. Gyanítom, hogy pont ezt próbálja megtenni. Lásd a Wikipedia oldalt a binomiális disztribúción a megbízhatósági intervallumok képleteiről. És ez nem is veszi figyelembe, hogy az összes mintáját egyetlen $ p $ paraméterrel modellezik-e.
Megjegyzések
- ha egy változót állandó N-vel osztasz, akkor a varianciát el kell osztanod $ N ^ 2 $ -val! Lásd erre a kérdésre adott válaszomat.
- @ f-coppens Javítva vagyok, és ennek megfelelően szerkesztettem a válaszomat. Köszönöm.