Er standardavviket til et binomial datasett informativt?

Jeg jobber med et datasett med tilstedeværelses- / fraværsdata, hvor svarvariabelen min er «andel av nettsteder der X er til stede». Jeg er blitt bedt om å oppgi standardavvik sammen med gjennomsnittlige proporsjoner. Imidlertid ser det ut til at standardavviket til et binomial datasett er en polynomfunksjon av selve proporsjonen og ikke gir ytterligere informasjon om variabiliteten til de underliggende dataene. For eksempel, hvis en andel fra data er 0,3, bør det ikke ha noe å si om denne andelen ble hentet fra tilstedeværelses- / fraværsdata fra 10, 100 eller 100 000 nettsteder, bør standardutviklingen være den samme. Jeg lager et prøvedatasett og en graf som betyr andel mot st dev, jeg kan modellere det med en 6. ordens polynomfunksjon med en R i kvadrat på 1,00.

Så, kan noen bekrefte min mistanke- At standardavvik er en iboende egenskap til andelen i et binomial datasett, og gir dermed ingen tilleggsinformasjon om datasettet som andelen kom fra?

Kommentarer

  • Du bør være i stand til å modellere SD enda bedre som kvadratroten til en kvadratisk funksjon, fordi for en andel $ p $ i et datasett med størrelse $ n $ er SD av totalt $ \ sqrt {np (1-p)} $ .
  • @whuber: Jeg tror at for Binomial-variabelen (så for antall suksesser), er standardavviket $ \ sqrt {np (1-p)} $ , men for andelen av suksesser sta ndard avvik er $ \ sqrt {\ frac {p (1-p)} {n}} $, se svaret mitt på dette spørsmålet.
  • @fcoppens Det er riktig, det er derfor jeg passet på å beskriv dette som SD-en for totalen.
  • @whuber: ok da :-), så du på svaret mitt?
  • Hvis anmelderen av et manuskript ba om dette , da mente kanskje korrekturleseren noe presisjon for den estimerte andelen som en standardfeil. Don ' t har vi en lov som sier " Du skal alltid gi et mål for presisjon for hvert estimat? " Hvis korrekturleseren virkelig mente et standardavvik, kan et diplomatisk svar på hvorfor standardfeil er bedre, fungere.

Svar

Hvis du har en tilfeldig variabel i binomial $ X $, av størrelse $ N $, og med suksess sannsynlighet $ p $, dvs. $ X \ sim Bin (N; p) $, så er gjennomsnittet av X er $ Np $ og dens varians er $ Np (1-p) $, så som du sier, er variansen et andregrads polynom i $ p $. Merk imidlertid at variansen også er avhengig av $ N $! Sistnevnte er viktig for å estimere $ p $:

Hvis du observerer 30 suksesser i 100, er andelen suksesser 30/100 som er antall suksesser delt på størrelsen på Binomial, dvs. $ \ frac {X} {N} $.

Men hvis $ X $ har gjennomsnitt $ Np $, så har $ \ frac {X} {N} $ et gjennomsnitt som tilsvarer gjennomsnittet av $ X $ delt med $ N $ fordi $ N $ er en konstant. Med andre ord $ \ frac {X} {N} $ har middel $ \ frac {Np} {N} = p $. Dette innebærer at brøkdelen av suksessene som er observert er en upartisk estimator av sannsynligheten $ p $.

For å beregne variansen til estimatoren $ \ frac {X} {N} $, må vi dele variansen på $ X $ med $ N ^ 2 $ (varians av a (variabel delt på en konstant) er (variansen til variabelen) delt på kvadrat for konstanten), så varianten til estimatoren er $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. Standardavviket til estimatoren er kvadratroten til variansen, så det er $ \ sqrt {\ frac {p (1-p)} {N}} $.

Så hvis du kaster en mynt 100 ganger og observerer 49 hoder, er $ \ frac {49} {100} $ en estimator for sannsynligheten for å kaste hodet med den mynten og standardavviket av dette anslaget er $ \ sqrt {\ frac {0.49 \ times (1-0.49)} {100}} $.

Hvis du kaster mynten 1000 ganger og observerer 490 hoder, estimerer du sannsynligheten med å kaste hodet igjen til $ 0,49 $ og standardavvikelsen på $ \ sqrt {\ frac {0,49 \ ganger (1-0,49)} {1000}} $.

Selvfølgelig er standardavviket i det andre tilfellet mindre, og estimatoren er derfor mer presis når du øker antall kast.

Du kan konkludere med at for en binomial tilfeldig variabel er variansen et kvadratisk polynom i p, men det avhenger også av N og jeg tror den standarden avvik inneholder informasjon i tillegg til sannsynligheten for suksess.

Binomialfordelingen har faktisk to parametere, og du vil alltid trenge minst to øyeblikk (i dette tilfelle gjennomsnittet (= første øyeblikk) og standardavviket (kvadratroten til det andre øyeblikket)) for å identifisere det fullt ut.

P.S. En noe mer generell utvikling, også for poisson-binomial, finner du i mitt svar på Anslå nøyaktigheten av en estimering av Poisson binomialfordeling .

Svar

Familien til Bernouli-distribusjoner er helt parameterisert med ett tall, vanligvis kalt $ p $. Så enhver populasjonsstatistikk for en Bernouli-fordeling være en eller annen funksjon av parameteren $ p $. Dette betyr ikke at denne statistikken er deskriptivt ubrukelig!

For eksempel kan jeg fullstendig beskrive en boks ved å gi lengden, bredden og høyden, men volumet er fortsatt en nyttig statistikk!

Kommentarer

  • Vent, er dette riktig? Don ' t Jeg mener Bernoulli-distribusjon? Jeg føler at jeg burde endre det, men det har noen få stemmer opp …
  • Du gjør det, at ' er en ganske forståelig feil, siden Bernouli og binomial er så nært knyttet. Jeg redigerte det for deg.

Svar

Du tror kanskje du har et poeng hvis du visste allerede den sanne verdien av binomialparameteren $ p $ og at du virkelig hadde å gjøre med et binomialeksperiment (uavhengige Bernoulli-forsøk med konstant $ p $). Med $ N $ tilfeller er variansen av antall suksesser i et binomialeksperiment $ N p (1-p) $, og (naivt) å dele med $ N $ for å få variansen i andelen suksesser vil gi en verdi uavhengig av $ N $. Men det er to problemer med dette. For det første, hvis du visste verdien av $ p $, ville du ikke trengt å gjøre denne analysen. For det andre, som @ f-coppens påpeker, er denne naive tilnærmingen til å bestemme variansen i den observerte suksessandelen feil.

Det du har er et estimat på $ p $ basert på et utvalg på $ N $ tilfeller. Konfidensintervallene rundt estimatet ditt på $ p $ avhenger av verdien på $ N $, og forbedres omtrent med kvadratroten på $ N $. Jeg mistenker at det er poenget du inkvisitor prøver å gjøre. Se Wikipedia-siden på binomial distribusjon for formler for konfidensintervaller. Og dette kommer ikke engang inn på om alle prøvene dine er modellert av en enkelt parameter $ p $.

Kommentarer

  • Hvis du deler en variabel med en konstant N, må du dele variansen med $ N ^ 2 $! Se svaret mitt på dette spørsmålet.
  • @ f-coppens Jeg er korrigert, og redigerte svaret mitt deretter. Takk.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *