Onko binomisen tietojoukon keskihajonta informatiivinen?

Työskentelen läsnäolo- / poissaolotietojen tietojoukon kanssa. Vastamuuttujani on ”niiden sivustojen osuus, joissa X on läsnä”. Minua on pyydetty toimittamaan keskihajonnat keskimääräisten mittasuhteiden ohella. Minusta näyttää kuitenkin siltä, että binomisen tietojoukon keskihajonta on itse osuuden polynomifunktio eikä anna lisätietoja perustietojen vaihtelusta. Esimerkiksi, jos tiedoista saatu osuus on 0,3, ei ole väliä, onko kyseinen osuus johdettu läsnäolo- / poissaolotiedoista 10, 100 tai 100 000 sivustolta, vakiokehityksen tulisi olla sama.

Kun Teen näytetiedostojen ja kuvaajien keskimääräisen suhteen suhteessa st dev: iin, voin mallintaa sen kuudennen kertaluvun polynomifunktiolla, jonka R-neliö on 1,00.

Voiko siis joku vahvistaa epäilyni – että keskihajonnat ovat osuuden luontainen ominaisuus binomisessa tietojoukossa, joten ei tuota mitään lisätietoja tietojoukosta, josta kyseinen osuus tuli?

Kommentit

  • Sinun tulisi osaa mallintaa SD: tä vieläkin paremmin neliöllisen funktion neliöjuurena, koska osalle $ p $ tietojoukossa, jonka koko on $ n $, SD: n kokonaismäärä on $ \ sqrt {np (1-p)} $ .
  • @whuber: Luulen, että Binomial-muuttujan (eli onnistumisten määrän osalta keskihajonta on $ \ sqrt {np (1-p)} $ , mutta menestysten osuudesta sta ndard-poikkeama on $ \ sqrt {\ frac {p (1-p)} {n}} $, katso vastaukseni tähän kysymykseen.
  • @fcoppens Se on oikein, minkä vuoksi hoidin kuvaile tätä kokonaismäärän SD: ksi.
  • @whuber: ok sitten :-), katsoitko vastaustani?
  • Jos käsikirjoituksen arvostelija pyysi tätä , sitten ehkä tarkistaja tarkoitti arvioidun osuuden tarkkuutta, kuten tavallinen virhe. Älä ' t, jos meillä on laki, jonka mukaan " Onko aina annettava tarkkuus jokaiselle arvioille? " Jos arvostelija tarkoitti todella keskihajontaa, diplomaattinen vastaus siihen, miksi tavalliset virheet ovat parempia, saattaa toimia.

Vastaa

Jos sinulla on binominen satunnaismuuttuja $ X $, koko $ N $, ja onnistumisen todennäköisyys on $ p $, ts. $ X \ sim Bin (N; p) $, niin keskiarvo X: stä on $ Np $ ja sen varianssi on $ Np (1-p) $, joten kuten sanot, että varianssi on toisen asteen polynomi luvussa $ p $. Huomaa kuitenkin, että varianssi riippuu myös $ N $: sta! Jälkimmäinen on tärkeä $ p $: n arvioimiseksi:

Jos havaitset 30 menestystä 100: ssa, onnistumisten murto-osa on 30/100, joka on onnistumisten määrä jaettuna binomiaalin koolla, eli $ \ frac {X} {N} $.

Mutta jos $ X $ on tarkoittanut $ Np $, niin $ \ frac {X} {N} $: n keskiarvo on yhtä suuri kuin $ X $: n keskiarvo jaettuna $ N $: lla, koska $ N $ on vakio. Toisin sanoen $ \ frac {X} {N} $ tarkoittaa $ \ frac {Np} {N} = p $. Tämä tarkoittaa, että havaittujen onnistumisten osuus on puolueeton arvio todennäköisyydelle $ p $.

Estimaattorin $ \ frac {X} {N} $ varianssin laskemiseksi meidän on jaettava $ X $ -varianssi $ N ^ 2 $: lla (muuttujan varianssi jaettuna vakio) on (muuttujan varianssi) jaettuna neliöllä vakiosta), joten estimaattorin varianssi on $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. Estimaattorin keskihajonta on varianssin neliöjuuri, joten se on $ \ sqrt {\ frac {p (1-p)} {N}} $.

Jos siis heität kolikon 100 kertaa ja havaitset 49 päätä, $ \ frac {49} {100} $ on arvio siitä, kuinka todennäköistä heittää pää kolikolla ja keskihajonta tämän arvion arvo on $ \ sqrt {\ frac {0.49 \ kertaa (1-0.49)} {100}} $.

Jos heität kolikkoa 1000 kertaa ja havaitset 490 päätä, arvioit todennäköisyyden pään heittämisestä jälleen 0,49 dollariin ja vakiopoikkeamaan $ \ sqrt {\ frac {0,49 \ kertaa (1-0,49)} {1000}} $.

Toisessa tapauksessa on selvää, että keskihajonta on pienempi, joten estimaattori on tarkempi, kun lisäät heittojen määrää.

Voit päätellä, että binomisen satunnaismuuttujan varianssi on asteen polynomi p: ssä, mutta se riippuu myös N: stä ja luulen, että standardi poikkeama sisältää tietoja onnistumisen todennäköisyyden lisäksi.

Binomiaalijakaumalla on itse asiassa kaksi parametria ja tarvitset aina ainakin kaksi hetkeä (tässä keskiarvo (= ensimmäinen hetki) ja keskihajonta (toisen hetken neliöjuuri)) sen tunnistamiseksi kokonaan.

P.S. Hieman yleisempi kehitys, myös poisson-binomialle, löytyy vastauksestani kysymykseen Poisson-binomijakauman estimaatin tarkkuus .

Vastaus

Bernouli-jakeluperheen parametrointi on kokonaan yksi luku, jota yleensä kutsutaan nimellä $ p $. Joten minkä tahansa Bernouli-jakauman populaatiotilaston täytyy olla jonkin parametrin $ p $ funktio. Tämä ei tarkoita, että nämä tilastot ovat kuvailevasti hyödyttömiä!

Esimerkiksi voin kuvata laatikon kokonaan antamalla sen pituuden, leveyden ja korkeuden, mutta äänenvoimakkuus on silti hyödyllinen tilasto!

Kommentit

  • Odota, onko tämä oikein? Älä ' t tarkoitan Bernoullin jakaumaa? Minusta tuntuu siltä, että minun pitäisi muuttaa sitä, mutta sillä on muutama ylimääräinen ääni …
  • Teet, että ' on melko ymmärrettävä virhe, koska Bernouli ja binomi ovat niin läheisesti yhteydessä toisiinsa. Muokkasin sitä puolestasi.

Vastaa

Saatat ajatella, että sinulla on asia jos tiesit jo binomiparametrin $ p $ todellisen arvon ja että olet todella tekemisissä binomikokeilun kanssa (riippumattomat Bernoullin tutkimukset vakiolla $ p $). $ N $ -tapauksissa binomikokeen onnistumisten lukumäärän varianssi on $ N p (1-p) $, ja (naiivisti) jakamalla $ N $: lla, jotta saavutetaan varianssi onnistumisten osuudessa, saataisiin arvo riippumaton $ N $: sta. Mutta tässä on kaksi ongelmaa. Ensinnäkin, jos tiesit $ p $: n arvon, sinun ei tarvitse tehdä tätä analyysiä. Toiseksi, kuten @ f-coppens huomauttaa, tämä naiivi lähestymistapa havaitun onnistumisosuuden varianssin määrittämiseen on väärä.

Sinulla on $ p $ -arvio, joka perustuu $ N $ -tapausten otokseen. $ p $ -arviosi ympärillä olevat luottamusvälit riippuvat $ N $ -arvosta ja parantuvat suunnilleen neliöjuurella $ N $. Epäilen, että juuri tämä asia, jonka inkvisiittori yrittää tehdä. Katso luottamusvälien kaavat Wikipedia-sivulta binomijakaumasta . Ja tämä ei edes selvitä, mallinnetaanko kaikki näytteesi yhdellä parametrilla $ p $.

Kommentit

  • jos jaat muuttujan vakiolla N, sinun on jaettava varianssi arvolla $ N ^ 2 $! Katso vastaukseni tähän kysymykseen.
  • @ f-coppens Minua on korjattu ja muokattu vastaukseni vastaavasti. Kiitos.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *