Jeg spekulerer på, om jeg kan beregne standardafvigelse fra middelværdi, stikprøvestørrelse og konfidensinterval.
For eksempel: middelalder = 40,2; prøve størrelse = 427; og 95% konfidensinterval = (38.9-41.5)
Og i så fald kan det anvendes på procentmål, for eksempel: procent er mand = 64,2%; prøve størrelse = 427; og 95% konfidensinterval = (59.4-68.7).
Kommentarer
- Hvis du antager en normalfordeling, så er formlen for slutpunkterne for konfidensinterval er strengt taget en funktion af prøveens standardafvigelse. De øvrige variabler betyder og stikprøvestørrelse er angivet. Jeg ved ikke ' hvad du mener med " procentmål ". Så jeg kan ' ikke hjælpe dig med det.
- Med procentmål mente jeg simpelthen, at 64,2% af prøven var mand.
Svar
-
Standardafvigelsen for procentdel / andel er:
\ begin {align} \ sigma & = \ sqrt {p (1-p)} \\ [5pt] & = \ sqrt {0.642 (1-0.642)} \\ [5pt] & = 0.4792 \ end {align} Så når du får en procentdel, kan du direkte finde std afvigelse. -
For back tracking ved vi, $ CI = p \ pm z \ frac {\ sigma} {\ sqrt {N}} $
For 95%, $ z = 1,96 $ , N = 427, $ p = 0.642 $
$ \ sigma =? $
Brug således ovenstående formel og erstatning tilbage.
- Hvis din eksempelstørrelse er mindre end 30 (N < 30) , skal du bruge en t-værdi i stedet for Z-værdi ( t-værdi-regnemaskine ). T-værdien har frihedsgrader $ df = N-1 $ og $ {\ rm prob} = (1- \ alpha) / 2 $ .
Formlen er således: $ CI = p \ pm t _ {(N-1) } \ frac {\ sigma} {\ sqrt {N}} $
Kommentarer
- Denne metode bruger den centrale grænsesætning og så er det kun nøjagtigt i grænsen for store $ N $.
- Du har ret, jeg gav formlen, da spørgsmålet havde stor stikprøvestørrelse > 30. Så CLT er allerede trådt i kraft. For mindre stikprøvestørrelse kan vi bruge T-fordelingen i stedet for Z-fordelingen med passende frihedsgrad.
- $ \ sigma = \ sqrt (p ∗ (1-p)) $ gælder for Bernoulli-distribution kun ikke gældende for andre distributioner.
Svar
Lidt sent til festen, men jeg bemærkede, at anden del af spørgsmålet blev ikke behandlet fuldt ud – “kan det gælde for procentmål”?
Efter OPs kommentar antager jeg, at vi med “procentmål” henviser til noget binært resultat ( Mand / Kvinde, Højrehåndet / Venstrehåndet osv.).
I så fald er variablerne beskrevet af en diskret sandsynlighedsfordeling, mens alderen er en kontinuerlig variabel og er beskrevet af en kontinuerlig sandsynlighedsfordeling. Et almindeligt valg for distribution af binære variabler er binomialfordelingen. Tillidsintervaller for binomialet kan konstrueres på forskellige måder ( wiki ). Den oprindelige undersøgelse skulle have beskrevet, hvordan de afledte disse konfidensintervaller.
Bemærk, at du stadig kan bruge formlen fra user3808268 til at få “standardafvigelsen”, men det ville være vanskeligt at fortolke det meningsfuldt.
Svar
Fra den beskrivelse, du har angivet, handler dit første spørgsmål om fordelingen af menneskers alder. Normal (dvs. gaussisk ) distribution gælder for sådanne applikationer.
Det vil være nyttigt, hvis du ved, hvordan konfidensintervallet (CI) blev beregnet, fordi der er mange forskellige mulige måder, som CI blev beregnet på. F.eks. hvis fordelingen er af normalfordeling, og CI blev beregnet ved hjælp af t-test, så kan SD estimeres med følgende ligning:
SD = sqrt (n) * (ci_upper – ci_lower) / (2 * tinv ((1-CL) / 2; n-1)),
hvor CL er konfidensniveauet, ci_upper og ci_lower er henholdsvis de øvre og nedre grænser for CI og “tinv () “er den omvendte af Students T cdf.
Hvis det ellers er normalfordeling, men en kendt SD blev brugt til beregning af CI, kan SD beregnes med følgende ligning:
SD = sqrt (n) * (ci_upper – ci_lower) / (sqrt (8) * erfinv (CL)),
wh inden “erfinv ()” er den inverse fejlfunktion.
Dit andet spørgsmål handler om fordelingen af folks køn (dvs.mand eller kvinde). Fra de data, du har angivet, lyder det, at der er k = 274 mænd blandt n = 427 af hele prøver. Bernoulli-distribution gælder for denne applikation. I dette tilfælde er variansen (af den mandlige befolkning) = p * (1-p) = 0,2299 og SD = sqrt (0,2299) = 0,4795, hvor p er middelværdien. Bemærk at " valiance = middel * (1-middelværdi) " gælder kun for Bernoulli-distribution.