Jeg lurer på om jeg kan beregne standardavvik fra gjennomsnitt, utvalgsstørrelse og konfidensintervall.
For eksempel: middelalder = 40,2; prøve størrelse = 427; og 95% konfidensintervall = (38.9-41.5)
Og i så fall, kan det gjelde prosentmål, for eksempel: prosent er mann = 64,2%; prøve størrelse = 427; og 95% konfidensintervall = (59.4-68.7).
Kommentarer
- Hvis du antar en normalfordeling, er formelen for sluttpunktene til konfidensintervall er strengt tatt en funksjon av prøven standardavvik. De andre variablene betyr og utvalgsstørrelse er gitt. Jeg vet ikke ' hva du mener med " prosentmål ". Så jeg kan ' ikke hjelpe deg med det.
- Med prosentmål mente jeg ganske enkelt at 64,2% av prøven var mann.
Svar
-
Standardavviket for prosent / andel er:
\ begynn {align} \ sigma & = \ sqrt {p (1-p)} \\ [5pt] & = \ sqrt {0.642 (1-0.642)} \\ [5pt] & = 0.4792 \ end {align} Dermed når du får en prosentandel, kan du direkte finne std avvik. -
For back tracking , vet vi, $ CI = p \ pm z \ frac {\ sigma} {\ sqrt {N}} $
For 95%, $ z = 1,96 $ , N = 427, $ p = 0.642 $
$ \ sigma =? $
Bruk altså formelen ovenfor og erstatning for ryggen.
- Hvis din prøvestørrelsen er mindre enn 30 (N < 30) , du må bruke en t-verdi i stedet for Z-verdi ( t-verdi kalkulator ). T-verdien har frihetsgrader $ df = N-1 $ og $ {\ rm prob} = (1- \ alpha) / 2 $ .
Dermed er formelen: $ CI = p \ pm t _ {(N-1) } \ frac {\ sigma} {\ sqrt {N}} $
Kommentarer
- Denne metoden bruker sentralt setning og så er bare nøyaktig i grensen på store $ N $.
- Du har rett, jeg ga formelen siden spørsmålet hadde stor utvalgsstørrelse > 30. Så CLT er allerede i kraft. For mindre utvalgstørrelse kan vi bruke T-fordelingen i stedet for Z-fordelingen med passende frihetsgrad.
- $ \ sigma = \ sqrt (p ∗ (1 − p)) $ gjelder for Bernoulli-distribusjon bare, ikke aktuelt for andre distribusjoner.
Svar
Litt sent til festen, men jeg la merke til at den andre delen av spørsmålet ble ikke fullstendig behandlet – «kan det gjelde for prosentmål»?
Etter OPs-kommentaren antar jeg at vi med «prosentmål» refererer til noe binært utfall ( Mann / Kvinne, Høyrehendt / Venstrehendt osv.).
I så fall er variablene beskrevet av en diskret sannsynlighetsfordeling, mens alderen er en kontinuerlig variabel og er beskrevet av en kontinuerlig sannsynlighetsfordeling. Et vanlig valg for distribusjon av binære variabler er binomialfordeling. Tillitsintervaller for binomialet kan konstrueres på forskjellige måter ( wiki ). Den opprinnelige studien burde ha beskrevet hvordan de avledet disse konfidensintervallene.
Merk at du fremdeles kan bruke formelen gitt av bruker3808268 for å få «standardavviket», men det ville være vanskelig å meningsfullt tolke det.
Svar
Fra beskrivelsen du ga, handler ditt første spørsmål om fordeling av folks alder. Normal (dvs. gaussisk ) fordelingen gjelder slike applikasjoner.
Det vil være nyttig hvis du vet hvordan konfidensintervallet (CI) ble beregnet, fordi det er mange forskjellige mulige måter CI ble beregnet på. For eksempel hvis fordelingen er av normalfordeling, og CI ble beregnet ved hjelp av t-test, så kan SD estimeres med følgende ligning:
SD = sqrt (n) * (ci_upper – ci_lower) / (2 * tinv ((1-CL) / 2; n-1)),
hvor CL er konfidensnivået, er «ci_upper» og «ci_lower» henholdsvis øvre og nedre grense for CI, og «tinv () «er omvendt av Studentens T cdf.
Hvis ikke, hvis den har normalfordeling, men en kjent SD ble brukt til å beregne CI, kan SD beregnes med følgende ligning:
SD = sqrt (n) * (ci_upper – ci_lower) / (sqrt (8) * erfinv (CL)),
wh ere «erfinv ()» er den inverse feilfunksjonen.
Ditt andre spørsmål handler om fordelingen av menneskers kjønn (dvs.mann eller kvinne). Fra dataene du ga, høres det ut at det er k = 274 menn blant n = 427 hele prøver. Bernoulli-distribusjon gjelder denne applikasjonen. I dette tilfellet er variansen (av mannens populasjon) = p * (1-p) = 0.2299, og SD = sqrt (0.2299) = 0.4795, hvor p er gjennomsnittsverdien. Merk at " valiance = mean * (1-mean) " gjelder bare for Bernoulli-distribusjon.