Är standardavvikelsen för en binomial dataset informativ?

Jag arbetar med en dataset med närvaro / frånvarodata, med min svarsvariabel ”andel av platser där X finns”. Jag har blivit ombedd att tillhandahålla standardavvikelser vid sidan av medelproportionerna. Det verkar dock för mig att standardavvikelsen för en binomial dataset är en polynomfunktion av själva proportionen och inte ger ytterligare information om variabiliteten hos de underliggande data. Till exempel, om en andel från data är 0,3, bör det inte spela någon roll om den andelen härrör från närvaro / frånvarodata från 10, 100 eller 100 000 platser, bör standardutvecklingen vara densamma.

När Jag skapar ett exempel på en datauppsättning och visar en genomsnittlig proportion mot st dev, jag kan modellera den med en 6: e ordningens polynomfunktion med en R i kvadrat på 1,00. inneboende egenskap hos andelen i en binomial dataset och ger därmed ingen ytterligare information om den dataset som den andelen kom från?

Kommentarer

  • kunna modellera SD: n ännu bättre som kvadratroten av en kvadratisk funktion, för för en andel $ p $ i en dataset med storleken $ n $ är SD: n för totalt $ \ sqrt {np (1-p)} $ .
  • @whuber: Jag tror att för binomialvariabeln (så för antalet framgångar) är standardavvikelsen $ \ sqrt {np (1-p)} $ , men för andelen av framgångar står sta ndardavvikelse är $ \ sqrt {\ frac {p (1-p)} {n}} $, se mitt svar på den här frågan.
  • @fcoppens Det är korrekt, varför jag tog hand om att beskriv detta som SD för totalen.
  • @whuber: ok då :-), tittade du på mitt svar?
  • Om granskaren av ett manuskript bad om detta , då kanske granskaren menade ett visst mått av precision för den uppskattade andelen som ett standardfel. Har vi ' t vi har en lag som säger " Du ska alltid ge ett mått på precision för varje uppskattning? " Om granskaren verkligen menade en standardavvikelse kan ett diplomatiskt svar på varför standardfel är bättre fungera.

Svar

Om du har en binomial slumpmässig variabel $ X $, av storleken $ N $ och med framgångssannolikhet $ p $, dvs $ X \ sim Bin (N; p) $, då är medelvärdet av X är $ Np $ och dess varians är $ Np (1-p) $, så som du säger variansen är en andra grads polynom i $ p $. Observera dock att variansen också är beroende av $ N $! Det senare är viktigt för att uppskatta $ p $:

Om du observerar 30 framgångar i 100 är andelen framgångar 30/100 vilket är antalet framgångar dividerat med storleken på Binomial, dvs $ \ frac {X} {N} $.

Men om $ X $ har medelvärde $ Np $, så har $ \ frac {X} {N} $ ett medelvärde som är lika med medelvärdet av $ X $ dividerat med $ N $ eftersom $ N $ är en konstant. Med andra ord $ \ frac {X} {N} $ har betyder $ \ frac {Np} {N} = p $. Detta innebär att den observerade andelen framgångar är en opartisk uppskattning av sannolikheten $ p $.

För att beräkna variansen för estimatorn $ \ frac {X} {N} $ måste vi dela variansen på $ X $ med $ N ^ 2 $ (variansen av a (variabel dividerad med en konstant) är (varians för variabeln) dividerad med kvadrat för konstanten), så beräknarens varians är $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. Standardavvikelsen för uppskattaren är kvadratroten av variansen så den är $ \ sqrt {\ frac {p (1-p)} {N}} $.

Så om du kastar ett mynt 100 gånger och observerar 49 huvuden är $ \ frac {49} {100} $ en uppskattning av sannolikheten för att kasta huvudet med det myntet och standardavvikelsen av denna uppskattning är $ \ sqrt {\ frac {0.49 \ times (1-0.49)} {100}} $.

Om du slänger myntet 1000 gånger och observerar 490 huvuden uppskattar du sannolikheten kasta huvudet igen till $ 0,49 $ och standardavvikelsen på $ \ sqrt {\ frac {0,49 \ gånger (1-0,49)} {1000}} $.

Uppenbarligen är det i det andra fallet standardavvikelsen mindre och därför är uppskattaren mer exakt när du ökar antalet kast.

Du kan dra slutsatsen att för en binomial slumpmässig variabel är variansen en kvadratisk polynom i p, men det beror också på N och jag tror att den standarden avvikelse innehåller information utöver sannolikheten för framgång.

Faktum är att binomialfördelningen har två parametrar och du behöver alltid minst två ögonblick (i detta fall medelvärdet (= första ögonblicket) och standardavvikelsen (kvadratroten av det andra ögonblicket)) för att fullständigt identifiera det.

P.S. En något mer allmän utveckling, även för poisson-binomial, finns i mitt svar på Uppskattning av en uppskattning av Poisson binomialfördelning .

Svar

Familjen av Bernouli-distributioner är helt parametrerade med ett nummer, vanligtvis kallat $ p $. Så all befolkningsstatistik för en Bernouli-distribution måste vara någon funktion av parametern $ p $. Detta betyder inte att denna statistik är deskriptivt värdelös!

Till exempel kan jag fullständigt beskriva en ruta genom att ge dess längd, bredd och höjd, men volymen är fortfarande en användbar statistik!

Kommentarer

  • Vänta, stämmer det? Don ' t Jag menar Bernoulli-distribution? Jag känner att jag borde ändra det, men det har några röster …
  • Du gör det, att ' är ett ganska förståeligt misstag, eftersom Bernouli och binomial är så nära kopplade. Jag redigerade det åt dig.

Svar

Du kanske tror att du har en punkt om du visste redan det verkliga värdet på binomialparametern $ p $ och att du verkligen hade att göra med ett binomialt experiment (oberoende Bernoulli-försök till konstant $ p $). Med $ N $ fall är variansen för antalet framgångar i ett binomialt experiment $ N p (1-p) $, och (naivt) dividerar med $ N $ för att få variansen i andelen framgångar skulle ge ett värde oberoende av $ N $. Men det finns två problem med detta. Först, om du visste värdet på $ p $, skulle du inte behöva göra denna analys. För det andra, som @ f-coppens påpekar, är denna naiva metod för att bestämma variansen i den observerade framgångsandelen felaktig.

Vad du har är en uppskattning av $ p $ baserat på ett urval av $ N $ fall. Konfidensintervallen runt din uppskattning av $ p $ beror på värdet på $ N $, vilket förbättras ungefär med kvadratroten på $ N $. Jag misstänker att det är den punkt som din inkvisitor försöker göra. Se Wikipedia-sidan på binomial fördelning för formler för konfidensintervall. Och detta går inte ens in på huruvida alla dina prover modelleras av en enda parameter $ p $.

Kommentarer

  • om du delar en variabel med en konstant N, måste du dela variansen med $ N ^ 2 $! Se mitt svar på den här frågan.
  • @ f-coppens Jag har rättats och redigerat mitt svar därefter. Tack.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *