Jeg arbejder på et datasæt med tilstedeværelses- / fraværsdata, hvor min responsvariabel er “andel af websteder, hvor X er til stede”. Jeg er blevet bedt om at angive standardafvigelser ved siden af de gennemsnitlige proportioner. Imidlertid ser det ud til, at standardafvigelsen for et binomial datasæt er en polynomfunktion af selve proportionen og ikke giver yderligere information om variabiliteten af de underliggende data. For eksempel, hvis en andel fra data er 0,3, skal det ikke være ligegyldigt, om denne andel stammer fra tilstedeværelses- / fraværsdata fra 10, 100 eller 100.000 steder, skal standardudviklingen være den samme.
Når Jeg laver et eksempeldatasæt og en graf, der betyder forholdet mellem st dev, jeg kan modellere det med en 6. ordens polynomfunktion med en R i kvadratet på 1,00.
Så kan nogen bekræfte min mistanke- At standardafvigelser er en iboende egenskab af proportionen i et binomial datasæt og giver således ingen yderligere oplysninger om datasættet, hvorfra denne andel kom?
Kommentarer
- Du skal være i stand til at modellere SD endnu bedre som kvadratroden af en kvadratisk funktion, for for en andel $ p $ i et datasæt med størrelsen $ n $ er SDet af det samlede $ $ \ sqrt {np (1-p)} $ .
- @whuber: Jeg tror, at for Binomial-variablen (så for antallet af succeser) er standardafvigelsen $ \ sqrt {np (1-p)} $ , men for andelen af succeser står sta ndard afvigelse er $ \ sqrt {\ frac {p (1-p)} {n}} $, se mit svar på dette spørgsmål.
- @fcoppens Det er korrekt, hvorfor jeg passede på at beskriv dette som SD for totalen.
- @whuber: ok så :-), kiggede du på mit svar?
- Hvis korrekturlæseren af et manuskript bad om dette , måske mente korrekturlæseren noget mål for præcision for den anslåede andel som en standardfejl. Don ' t har vi en lov, der siger " Du skal altid give et mål for præcision for hvert skøn? " Hvis korrekturlæseren virkelig mente en standardafvigelse, fungerer et diplomatisk svar på, hvorfor standardfejl er bedre, muligvis.
Svar
Hvis du har en binomial tilfældig variabel $ X $, af størrelse $ N $ og med succes sandsynlighed $ p $, dvs. $ X \ sim Bin (N; p) $, så er gennemsnittet af X er $ Np $, og dens varians er $ Np (1-p) $, så som du siger, er variansen en andengrads polynom i $ p $. Bemærk dog, at variansen også afhænger af $ N $! Sidstnævnte er vigtig for at estimere $ p $:
Hvis du observerer 30 succeser i 100, er brøkdelen af succeser 30/100, hvilket er antallet af succeser divideret med størrelsen på Binomial, dvs. $ \ frac {X} {N} $.
Men hvis $ X $ har gennemsnit $ Np $, så har $ \ frac {X} {N} $ et gennemsnit lig med gennemsnittet af $ X $ divideret med $ N $ fordi $ N $ er en konstant. Med andre ord har $ \ frac {X} {N} $ middel $ \ frac {Np} {N} = p $. Dette indebærer, at den observerede brøkdel af succeser er en upartisk estimator af sandsynligheden $ p $.
For at beregne variansen af estimatoren $ \ frac {X} {N} $, er vi nødt til at dividere variansen på $ X $ med $ N ^ 2 $ (varians af a (variabel divideret med en konstant) er (varians af variablen) divideret med kvadrat for konstanten), så estimatorens varians er $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. Estimatorens standardafvigelse er kvadratroden af variansen, så den er $ \ sqrt {\ frac {p (1-p)} {N}} $.
Så hvis du kaster en mønt 100 gange og observerer 49 hoveder, er $ \ frac {49} {100} $ en estimator for sandsynligheden for at kaste hovedet med den mønt og standardafvigelsen af dette skøn er $ \ sqrt {\ frac {0.49 \ times (1-0.49)} {100}} $.
Hvis du kaster mønten 1000 gange og observerer 490 hoveder, estimerer du sandsynligheden af kastehoved igen til $ 0,49 $ og standardafvigelsen ved $ \ sqrt {\ frac {0,49 \ gange (1-0,49)} {1000}} $.
Det er klart, at i det andet tilfælde er standardafvigelsen mindre, og estimatoren er derfor mere præcis, når du øger antallet af kast.
Du kan konkludere, at for en binomial tilfældig variabel er variansen et kvadratisk polynom i p, men det afhænger også af N, og jeg tror, at standarden afvigelse indeholder oplysninger ud over succes sandsynligheden.
Faktisk har binomialfordelingen to parametre, og du har altid brug for mindst to øjeblikke (i dette tilfælde middelværdien (= første øjeblik) og standardafvigelsen (kvadratroden af det andet øjeblik)) for at identificere det fuldt ud.
P.S. En noget mere generel udvikling, også for poisson-binomial, kan findes i mit svar til Estimat nøjagtigheden af et estimat på Poisson binomialfordeling .
Svar
Familien af Bernouli-distributioner parametriseres fuldstændigt med et nummer, normalt kaldet $ p $. Så enhver befolkningsstatistik for en Bernouli-distribution skal være en funktion af parameteren $ p $. Dette betyder ikke, at disse statistikker er deskriptivt ubrugelige!
For eksempel kan jeg fuldstændigt beskrive et felt ved at give dets længde, bredde og højde, men lydstyrken er stadig en nyttig statistik!
Kommentarer
- Vent, er det rigtigt? Don ' t Jeg mener Bernoulli distribution? Jeg har lyst til at ændre det, men det har et par op-stemmer …
- Det gør du, at ' er en temmelig forståelig fejl, da Bernouli og binomial er så tæt forbundet. Jeg redigerede det for dig.
Svar
Du tror måske, du har et punkt hvis du vidste allerede den sande værdi af binomialparameteren $ p $, og at du virkelig havde at gøre med et binomialeksperiment (uafhængige Bernoulli-forsøg med konstant $ p $). Med $ N $ tilfælde er variansen af antallet af succeser i et binomialeksperiment $ N p (1-p) $, og (naivt) dividerer med $ N $ for at få variansen i andelen af succeser vil give en værdi uafhængig af $ N $. Men der er to problemer med dette. For det første, hvis du vidste værdien af $ p $, behøver du ikke foretage denne analyse. For det andet, som @ f-coppens påpeger, er denne naive tilgang til bestemmelse af variansen i den observerede succesproportion forkert.
Hvad du har er et skøn på $ p $ baseret på en prøve på $ N $ tilfælde. Konfidensintervallerne omkring dit skøn på $ p $ afhænger af værdien af $ N $, hvilket forbedres omtrent med kvadratroden på $ N $. Jeg formoder, at det er det punkt, som din inkvisitor forsøger at gøre. Se Wikipedia-siden på binomial distribution for formler for konfidensintervaller. Og dette kommer ikke engang ind på, om alle dine prøver er modelleret af en enkelt parameter $ p $.
Kommentarer
- Hvis du deler en variabel med en konstant N, er du nødt til at dele variansen med $ N ^ 2 $! Se mit svar på dette spørgsmål.
- @ f-coppens Jeg er rettet og redigerede mit svar i overensstemmelse hermed. Tak.