Ik werk aan een dataset van aanwezigheid / afwezigheidsgegevens, met als responsvariabele “proportie van sites waar X aanwezig is”. Er is mij gevraagd om naast de gemiddelde verhoudingen standaarddeviaties op te geven. Het lijkt mij echter dat de standaarddeviatie van een binominale dataset een polynoomfunctie is van de proportie zelf en geen aanvullende informatie geeft over de variabiliteit van de onderliggende data. Als een deel van de gegevens bijvoorbeeld 0,3 is, maakt het niet uit of dat deel is afgeleid van de aanwezigheids- / afwezigheidsgegevens van 10, 100 of 100.000 sites, de standaardontwikkelaar moet hetzelfde zijn.
Wanneer Ik maak een voorbeelddataset en grafiek de gemiddelde proportie versus st dev, ik kan het modelleren met een polynoomfunctie van de 6e orde met een R-kwadraat van 1,00.
Dus, kan iemand mijn vermoeden bevestigen – Dat standaarddeviaties een inherente eigenschap van de proportie in een binominale dataset, en dus geen aanvullende informatie opleveren over de dataset waaruit die proportie afkomstig is?
Opmerkingen
- Je zou de SD nog beter kunnen modelleren als de vierkantswortel van een kwadratische functie, want voor een deel $ p $ in een dataset van grootte $ n $ is de SD van het totaal $ \ sqrt {np (1-p)} $ .
- @whuber: ik denk dat voor de binominale variabele (dus voor het aantal successen) de standaarddeviatie $ \ sqrt {np (1-p)} $ is , maar voor het aandeel van successen de sta ndard deviatie is $ \ sqrt {\ frac {p (1-p)} {n}} $, zie mijn antwoord op deze vraag.
- @fcoppens Dat is correct, daarom heb ik ervoor gezorgd dat beschrijf dit als de SD van het totaal.
- @whuber: ok dan :-), heb je mijn antwoord bekeken?
- Als de recensent van een manuscript hierom heeft gevraagd , dan bedoelde de recensent misschien een zekere mate van precisie voor de geschatte proportie, zoals een standaardfout. Don ' Als we een wet hebben die zegt " Moet je altijd een maat voor precisie geven voor elke schatting? " Als de recensent echt een standaarddeviatie bedoelde, dan zou een diplomatiek antwoord over waarom standaardfouten beter zijn, kunnen werken.
Antwoord
Als je een binominale willekeurige variabele $ X $ hebt, van grootte $ N $, en met succeskans $ p $, dwz $ X \ sim Bin (N; p) $, dan is het gemiddelde van X is $ Np $ en zijn variantie is $ Np (1-p) $, dus zoals je zegt is de variantie een tweedegraads polynoom in $ p $. Merk echter op dat de variantie ook afhankelijk is van $ N $! Dit laatste is belangrijk voor het schatten van $ p $:
Als je 30 successen op 100 waarneemt, dan is de fractie van successen 30/100, wat het aantal successen is gedeeld door de grootte van de binominale, dwz $ \ frac {X} {N} $.
Maar als $ X $ gemiddelde $ Np $ heeft, dan heeft $ \ frac {X} {N} $ een gemiddelde gelijk aan het gemiddelde van $ X $ gedeeld door $ N $ omdat $ N $ is Een constante. Met andere woorden: $ \ frac {X} {N} $ betekent $ \ frac {Np} {N} = p $. Dit impliceert dat de fractie van de waargenomen successen een zuivere schatter is van de waarschijnlijkheid $ p $.
Om de variantie van de schatter $ \ frac {X} {N} $ te berekenen, moeten we de variantie van $ X $ delen door $ N ^ 2 $ (variantie van a (variabele gedeeld door een constante) is de (variantie van de variabele) gedeeld door het kwadraat van de constante), dus de variantie van de schatter is $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. De standaarddeviatie van de schatter is de vierkantswortel van de variantie, dus $ \ sqrt {\ frac {p (1-p)} {N}} $.
Dus als je 100 keer een munt gooit en je observeert 49 koppen, dan is $ \ frac {49} {100} $ een schatting van de kans om met die munt naar het hoofd te gooien en de standaarddeviatie van deze schatting is $ \ sqrt {\ frac {0,49 \ keer (1-0,49)} {100}} $.
Als je de munt 1000 keer opgooit en 490 koppen observeert, schat je de kans van opnieuw hoofd gooien op $ 0,49 $ en de standaarddevtaion op $ \ sqrt {\ frac {0,49 \ keer (1-0,49)} {1000}} $.
Het is duidelijk dat in het tweede geval de standaarddeviatie kleiner is en dus is de schatter nauwkeuriger als je het aantal worpen verhoogt.
Je kunt concluderen dat, voor een binomiale willekeurige variabele, de variantie een kwadratische polynoom is in p, maar het hangt ook af van N en ik denk dat die standaard deviatie bevat aanvullende informatie naast de succeskans.
In feite heeft de binominale verdeling twee parameters en heb je altijd minstens twee momenten nodig (in deze case het gemiddelde (= eerste moment) en de standaarddeviatie (vierkantswortel van het tweede moment)) om het volledig te identificeren.
P.S. Een wat algemenere ontwikkeling, ook voor poisson-binominaal, is te vinden in mijn antwoord op Nauwkeurigheid schatten van een schatting van Poisson binominale verdeling .
Antwoord
De familie van Bernouli-distributies is volledig geparametriseerd door één nummer, gewoonlijk $ p $ genoemd. Dus elke populatie-statistiek van een Bernouli-distributie moet een functie zijn van de parameter $ p $. Dit betekent niet dat die statistieken beschrijvend nutteloos zijn!
Ik kan bijvoorbeeld een kader volledig beschrijven door de lengte, breedte en hoogte op te geven, maar het volume is nog steeds een bruikbare statistiek!
Reacties
- Wacht, klopt dit? Don ' bedoel ik Bernoulli-distributie? Ik heb het gevoel dat ik het moet veranderen, maar het heeft een paar tegenstemmen …
- Dat doet u, ' is een redelijk begrijpelijke fout, aangezien Bernouli en binominaal zijn zo nauw met elkaar verbonden. Ik heb het voor je bewerkt.
Answer
Misschien denk je dat je een punt hebt als je kende de echte waarde van de binominale parameter $ p $ al en dat je echt te maken had met een binominaal experiment (onafhankelijke Bernoulli-proeven met constante $ p $). Met $ N $ gevallen is de variantie van het aantal successen in een binominaal experiment $ N p (1-p) $, en (naïef) delen door $ N $ om de variantie in de proportie van successen te krijgen, zou een waarde opleveren onafhankelijk van $ N $. Maar hier zijn twee problemen mee. Ten eerste, als je de waarde van $ p $ kende, zou je deze analyse niet hoeven uit te voeren. Ten tweede, zoals @ f-coppens opmerkt, is deze naïeve benadering om de variantie in de waargenomen succesverhouding te bepalen onjuist.
Wat u heeft is een schatting van $ p $ op basis van een steekproef van $ N $ gevallen. De betrouwbaarheidsintervallen rond uw schatting van $ p $ zijn afhankelijk van de waarde van $ N $ en verbeteren ongeveer met de vierkantswortel van $ N $. Ik vermoed dat dit het punt is dat u inquisiteur probeert te maken. Zie de Wikipedia-pagina op de binominale verdeling voor formules voor betrouwbaarheidsintervallen. En dit weet niet eens of al uw samples gemodelleerd zijn door een enkele parameter $ p $.
Opmerkingen
- als je een variabele deelt door een constante N, dan moet je de variantie delen door $ N ^ 2 $! Zie mijn antwoord op deze vraag.
- @ f-coppens Ik ben gecorrigeerd en heb mijn antwoord dienovereenkomstig aangepast. Bedankt.