Je směrodatná odchylka binomické datové sady informativní?

Pracuji na datové sadě údajů o přítomnosti / nepřítomnosti, přičemž moje proměnná odezvy je „podíl webů, kde je X“. Byl jsem požádán, abych poskytl standardní odchylky spolu se středními proporcemi. Zdá se mi však, že směrodatná odchylka binomického datového souboru je polynomiální funkcí samotného poměru a neposkytuje další informace o variabilitě podkladových údajů. Například pokud je podíl z dat 0,3, nemělo by záležet na tom, zda byl tento podíl odvozen z údajů o přítomnosti / nepřítomnosti 10, 100 nebo 100 000 webů, standardní dev by měl být stejný.

Když Vytvářím ukázkovou datovou sadu a graf střední proporce vs st dev, mohu ji modelovat pomocí polynomické funkce 6. řádu s R na druhou 1,00.

Takže, může někdo potvrdit moje podezření – že standardní odchylky jsou inherentní vlastnost podílu v binomickém datovém souboru, a tedy nepřináší žádné další informace o datovém souboru, ze kterého tento poměr pochází?

Komentáře

  • Měli byste umět modelovat SD ještě lépe jako druhou odmocninu kvadratické funkce, protože pro podíl $ p $ v datové sadě o velikosti $ n $ je SD z celkového součtu $ \ sqrt {np (1-p)} $ .
  • @whuber: Myslím, že pro binomickou proměnnou (tedy pro počet úspěchů) je standardní odchylka $ \ sqrt {np (1-p)} $ , ale pro podíl úspěchů sta ndard odchylka je $ \ sqrt {\ frac {p (1-p)} {n}} $, viz moje odpověď na tuto otázku.
  • @fcoppens To je pravda, proto jsem se postaral o popsat to jako SD součtu.
  • @ whuber: ok :-): podívali jste se na mou odpověď?
  • Pokud o to požádal recenzent rukopisu , pak možná recenzent myslel určitou míru přesnosti pro odhadovaný podíl jako standardní chyba. Nepoužívejte ' zákon, který říká " Vždy poskytnete míru přesnosti pro každý odhad? " Pokud recenzent skutečně myslel standardní odchylku, pak by mohla fungovat diplomatická odpověď na otázku, proč jsou standardní chyby lepší.

Odpovědět

Pokud máte binomickou náhodnou proměnnou $ X $ o velikosti $ N $ as pravděpodobností úspěchu $ p $, tj. $ X \ sim Bin (N; p) $, pak průměr of X is $ Np $ and its variance is $ Np (1-p) $, so how you say the variance is a second degree polynomial in $ p $. Pamatujte však, že odchylka závisí také na $ N $! Ten je důležitý pro odhad $ p $:

Pokud pozorujete 30 úspěchů ze 100, pak je podíl úspěchů 30/100, což je počet úspěchů dělený velikostí Binomia, tj. $ \ frac {X} {N} $.

Pokud ale $ X $ má průměr $ Np $, pak $ \ frac {X} {N} $ má průměr rovný průměru $ X $ vydělený $ N $, protože $ N $ je konstanta. Jinými slovy $ \ frac {X} {N} $ znamená $ \ frac {Np} {N} = p $. To znamená, že zlomek pozorovaných úspěchů je nezaujatým odhadcem pravděpodobnosti $ p $.

Abychom mohli vypočítat rozptyl odhadu $ \ frac {X} {N} $, musíme rozptyl rozptylu $ X $ vydělit $ N ^ 2 $ (rozptyl a (proměnná dělená a konstanta) je (rozptyl proměnné) děleno čtvercem konstanty), takže rozptyl odhadce je $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. Směrodatná odchylka odhadce je druhá odmocnina rozptylu, takže je $ \ sqrt {\ frac {p (1-p)} {N}} $.

Takže pokud hodíte minci stokrát a pozorujete 49 hlav, pak $ \ frac {49} {100} $ je odhadem pravděpodobnosti, že hodíte hlavou s touto mincí a směrodatnou odchylkou tohoto odhadu je $ \ sqrt {\ frac {0,49 \ krát (1-0,49)} {100}} $.

Pokud hodíte minci 1000krát a pozorujete 490 hlav, odhadnete pravděpodobnost opět hodit hlavou na $ 0,49 $ a standardní devtaion na $ \ sqrt {\ frac {0,49 \ krát (1-0,49)} {1000}} $.

Je zřejmé, že ve druhém případě je směrodatná odchylka menší, takže odhad je přesnější, když zvýšíte počet losování.

Můžete dojít k závěru, že pro binomickou náhodnou proměnnou je odchylka kvadratickým polynomem v p, ale záleží také na N a myslím, že tento standard odchylka obsahuje další informace k pravděpodobnosti úspěchu.

Ve skutečnosti má binomická distribuce dva parametry a vždy budete potřebovat alespoň dva momenty (v tomto průměr (= první okamžik) a směrodatná odchylka (druhá odmocnina druhého okamžiku)) k jeho úplné identifikaci.

P.S. Trochu obecnější vývoj, také pro poissonovo-binomické, lze najít v mé odpovědi na Odhadnout přesnost odhadu na Poissonově binomické rozdělení .

Odpověď

Rodina Bernouliho distribucí je zcela parametrizována jedním číslem, obvykle nazývaným $ p $. Takže jakákoli statistika populace Bernouliho distribuce musí být nějakou funkcí parametru $ p $. To neznamená, že tyto statistiky jsou popisně k ničemu!

Například mohu úplně popsat pole zadáním jeho délky, šířky a výšky, ale objem je stále užitečná statistika!

Komentáře

  • Počkat, je to tak? Nemyslím ' t Bernoulliho distribuci? Mám pocit, že bych to měl změnit, ale má to pár hlasů …
  • Vy ano, ta ' je docela pochopitelná chyba, protože Bernouli a binomické jsou tak úzce spjaty. Upravil jsem to pro vás.

Odpověď

Možná si myslíte, že máte bod if Už jste věděli skutečnou hodnotu binomického parametru $ p $ a že jste se skutečně zabývali binomickým experimentem (nezávislé Bernoulliho pokusy při konstantní hodnotě $ p $). U případů $ N $ je rozptyl počtu úspěchů v binomickém experimentu $ N p (1-p) $ a (naivně) dělení $ N $ k získání rozptylu v poměru úspěchů by dalo hodnotu nezávislé na $ N $. Ale s tím jsou dva problémy. Zaprvé, pokud jste znali hodnotu $ p $, nebudete muset tuto analýzu provádět. Zadruhé, jak zdůrazňuje @ f-coppens, je tento naivní přístup k určení rozptylu ve sledovaném poměru úspěchu nesprávný.

Máte odhad $ p $ na základě vzorku případů $ N $. Intervaly spolehlivosti kolem vašeho odhadu $ p $ závisí na hodnotě $ N $ a zlepšují se přibližně s druhou odmocninou z $ N $. Mám podezření, že se o to snaží váš inkvizitor. Na stránce Wikipedie v binomické distribuci najdete vzorce pro intervaly spolehlivosti. A toto Nedostane se ani k tomu, zda jsou všechny vaše vzorky modelovány pomocí jediného parametru $ p $.

Komentáře

  • pokud vydělíte proměnnou konstantou N, musíte rozptyl vydělit $ N ^ 2 $! Viz moje odpověď na tuto otázku.
  • @ f-coppens Jsem opraven a odpovídajícím způsobem upravil svoji odpověď. Díky.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *