La deviazione standard di un set di dati binomiale è informativa?

Sto lavorando su un set di dati di dati di presenza / assenza, con la mia variabile di risposta “proporzione di siti in cui X è presente”. Mi è stato chiesto di fornire deviazioni standard insieme alle proporzioni medie. Tuttavia, mi sembra che la deviazione standard di un insieme di dati binomiale sia una funzione polinomiale della proporzione stessa e non fornisca informazioni aggiuntive sulla variabilità dei dati sottostanti. Ad esempio, se una proporzione dei dati è 0,3, non dovrebbe importare se quella proporzione è stata derivata dai dati di presenza / assenza da 10, 100 o 100.000 siti, lo sviluppo standard dovrebbe essere lo stesso.

Quando Creo un set di dati campione e la proporzione media del grafico rispetto a dev st, posso modellarla con una funzione polinomiale del 6 ° ordine con una R quadrato di 1,00.

Quindi, qualcuno può confermare il mio sospetto: le deviazioni standard sono proprietà intrinseca della proporzione in un set di dati binomiale, e quindi non fornire ulteriori informazioni sul set di dati da cui proviene quella proporzione?

Commenti

  • Dovresti essere in grado di modellare la SD ancora meglio come radice quadrata di una funzione quadratica, perché per una proporzione $ p $ in un set di dati di dimensione $ n $ la SD del totale è $ \ sqrt {np (1-p)} $ .
  • @whuber: Penso che per la variabile binomiale (quindi per il conteggio dei successi), la deviazione standard è $ \ sqrt {np (1-p)} $ , ma per la proporzione di successi lo sta La deviazione ndard è $ \ sqrt {\ frac {p (1-p)} {n}} $, guarda la mia risposta a questa domanda.
  • @fcoppens È corretto, ecco perché mi sono preso cura di descrivilo come SD del totale.
  • @whuber: ok allora :-), hai dato unocchiata alla mia risposta?
  • Se il revisore di un manoscritto lo chiedesse , allora forse il revisore intendeva una certa misura di precisione per la proporzione stimata come un errore standard. Non ' abbiamo una legge che dice " Fornisci sempre una misura di precisione per ogni stima? " Se il revisore intendeva davvero una deviazione standard, potrebbe funzionare una risposta diplomatica sul motivo per cui gli errori standard sono migliori.

Risposta

Se hai una variabile casuale binomiale $ X $, di dimensione $ N $, e con probabilità di successo $ p $, cioè $ X \ sim Bin (N; p) $, allora la media di X è $ Np $ e la sua varianza è $ Np (1-p) $, quindi come dici tu la varianza è un polinomio di secondo grado in $ p $. Tieni presente tuttavia che la varianza dipende anche da $ N $! Questultimo è importante per la stima di $ p $:

Se osservi 30 successi su 100, la frazione di successi è 30/100 che è il numero di successi diviso per la dimensione del binomiale, cioè $ \ frac {X} {N} $.

Ma se $ X $ ha una media $ Np $, allora $ \ frac {X} {N} $ ha una media uguale alla media di $ X $ divisa per $ N $ perché $ N $ è una costante. In altre parole $ \ frac {X} {N} $ significa $ \ frac {Np} {N} = p $. Ciò implica che la frazione dei successi osservati è uno stimatore imparziale della probabilità $ p $.

Per calcolare la varianza dello stimatore $ \ frac {X} {N} $, dobbiamo dividere la varianza di $ X $ per $ N ^ 2 $ (varianza di a (variabile divisa per a costante) è la (varianza della variabile) divisa per il quadrato della costante), quindi la varianza dello stimatore è $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. La deviazione standard dello stimatore è la radice quadrata della varianza quindi è $ \ sqrt {\ frac {p (1-p)} {N}} $.

Quindi, se lanci una moneta 100 volte e osservi 49 teste, $ \ frac {49} {100} $ è uno stimatore della probabilità di lanciare la testa con quella moneta e della deviazione standard di questa stima è $ \ sqrt {\ frac {0.49 \ times (1-0.49)} {100}} $.

Se lanci la moneta 1000 volte e osservi 490 teste, allora stimerai la probabilità di lanciare di nuovo la testa a $ 0,49 $ e la deviazione standard a $ \ sqrt {\ frac {0,49 \ times (1-0,49)} {1000}} $.

Ovviamente nel secondo caso la deviazione standard è minore e quindi lo stimatore è più preciso quando si aumenta il numero di lanci.

Puoi concludere che, per una variabile casuale binomiale, la varianza è un polinomio quadratico in p, ma dipende anche da N e penso che lo standard la deviazione contiene informazioni aggiuntive alla probabilità di successo.

In effetti, la distribuzione binomiale ha due parametri e avrai sempre bisogno di almeno due momenti (in questo caso la media (= primo momento) e la deviazione standard (radice quadrata del secondo momento)) per identificarla completamente.

P.S. Uno sviluppo un po più generale, anche per poisson-binomiale, può essere trovato nella mia risposta a Stima dellaccuratezza di una stima sulla distribuzione binomiale di Poisson .

Risposta

La famiglia delle distribuzioni Bernouli è completamente parametrizzata da un numero, solitamente chiamato $ p $. Quindi qualsiasi statistica sulla popolazione di una distribuzione di Bernouli deve essere una funzione del parametro $ p $. Ciò non significa che quelle statistiche siano inutili in modo descrittivo!

Ad esempio, posso descrivere completamente una scatola fornendo la sua lunghezza, larghezza e altezza, ma il volume è comunque una statistica utile!

Commenti

  • Aspetta, è giusto? Non ' intendo la distribuzione di Bernoulli? Mi sento come se dovessi cambiarlo, ma ha alcuni voti positivi …
  • Sì, ' è un errore abbastanza comprensibile, dal momento che Bernouli e binomiale sono così strettamente collegati. Lho modificato per te.

Risposta

Potresti pensare di avere un punto se conoscevi già il vero valore del parametro binomiale $ p $ e che avevi davvero a che fare con un esperimento binomiale (prove di Bernoulli indipendenti alla costante $ p $). Con $ N $ casi, la varianza del numero di successi in un esperimento binomiale è $ N p (1-p) $ e (ingenuamente) dividere per $ N $ per ottenere la varianza nella proporzione di successi darebbe un valore indipendente da $ N $. Ma ci sono due problemi con questo. Primo, se conoscessi il valore di $ p $, non avresti bisogno di fare questa analisi. Secondo, come fa notare @ f-coppens, questo approccio ingenuo per determinare la varianza nella proporzione di successo osservata non è corretto.

Quello che hai è una stima di $ p $ basata su un campione di casi $ N $. Gli intervalli di confidenza intorno alla tua stima di $ p $ dipendono dal valore di $ N $, migliorando approssimativamente con la radice quadrata di $ N $. Sospetto che questo sia il punto che il tuo inquisitore sta cercando di fare. Consulta la pagina di Wikipedia sulla distribuzione binomiale per le formule per gli intervalli di confidenza. E questo non arriva nemmeno a capire se tutti i tuoi campioni sono modellati da un singolo parametro $ p $.

Commenti

  • se dividi una variabile per una costante N, allora devi dividere la varianza per $ N ^ 2 $! Vedi la mia risposta a questa domanda.
  • @ f-coppens Sono stato corretto e ho modificato la mia risposta di conseguenza. Grazie.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *