Jag undrar om jag kan beräkna standardavvikelsen från medelvärde, provstorlek och konfidensintervall.
Till exempel: medelålder = 40,2; provstorlek = 427; och 95% konfidensintervall = (38.9-41.5)
Och i så fall kan det tillämpas på procentmått, till exempel: procent är man = 64,2%; provstorlek = 427; och 95% konfidensintervall = (59.4-68.7).
Kommentarer
- Om du antar en normalfördelning är formeln för slutpunkterna för konfidensintervall är strikt en funktion av provets standardavvikelse. De andra variablernas medelvärde och provstorlek anges. Jag vet inte ' vad du menar med " procentmått ". Så jag kan ' inte hjälpa dig med det.
- Med procentmått menade jag helt enkelt att 64,2% av provet var manligt.
Svar
-
Standardavvikelsen för procent / proportion är:
\ börja {align} \ sigma & = \ sqrt {p (1-p)} \\ [5pt] & = \ sqrt {0.642 (1-0.642)} \\ [5pt] & = 0.4792 \ end {align} Således, när du får en procentsats kan du direkt hitta std avvikelse. -
För back tracking vet vi, $ CI = p \ pm z \ frac {\ sigma} {\ sqrt {N}} $
För 95%, $ z = 1,96 $ , N = 427, $ p = 0,642 $
$ \ sigma =? $
Således använder du formeln ovan och ersätter tillbaka.
- Om din provstorleken är mindre än 30 (N < 30) , du måste använda ett t-värde istället för Z-värde ( t-värde-kalkylator ). T-värdet har frihetsgrader $ df = N-1 $ och $ {\ rm prob} = (1- \ alpha) / 2 $ .
Således är formeln: $ CI = p \ pm t _ {(N-1) } \ frac {\ sigma} {\ sqrt {N}} $
Kommentarer
- Denna metod använder den centrala gränssatsen och så är det bara korrekt i gränsen för stora $ N $.
- Du har rätt, jag gav formeln eftersom frågan hade stor provstorlek > 30. Så CLT är redan i kraft. För mindre provstorlek kan vi använda T-fördelningen istället för Z-fördelningen med lämplig frihetsgrad.
- $ \ sigma = \ sqrt (p ∗ (1 − p)) $ gäller för Bernoulli-distribution bara, inte tillämpligt på andra distributioner.
Svar
Lite sent till festen, men jag märkte att den andra delen av frågan behandlades inte fullständigt – ”kan den tillämpas på procentmått”?
Efter OP: s kommentar antar jag att med ”procentmått” hänvisar vi till något binärt resultat ( Man / Kvinna, Högerhänt / Vänsterhänt etc.).
I så fall beskrivs variablerna av en diskret sannolikhetsfördelning, medan åldern är en kontinuerlig variabel och beskrivs av en kontinuerlig sannolikhetsfördelning. Ett vanligt val för distribution av binära variabler är binomialfördelningen. Konfidensintervall för binomialet kan konstrueras på olika sätt ( wiki ). Den ursprungliga studien borde ha beskrivit hur de härledde dessa konfidensintervall.
Observera att du fortfarande kan använda formeln från user3808268 för att få ”standardavvikelsen”, men det skulle vara svårt att meningsfullt tolka det.
Svar
Från den beskrivning du angav är din första fråga om fördelningen av människors ålder. Normal (dvs. Gaussisk ) distribution gäller för sådana typer av applikationer.
Det kommer att vara till hjälp om du vet hur konfidensintervallet (CI) beräknades, eftersom det finns många olika möjliga sätt att CI beräknades på. fördelningen är av normalfördelning och CI beräknades med t-test, då kan SD uppskattas med följande ekvation:
SD = sqrt (n) * (ci_upper – ci_lower) / (2 * tinv ((1-CL) / 2; n-1)),
där CL är konfidensnivån, är ”ci_upper” och ”ci_lower” de övre respektive nedre gränserna för CI respektive ”tinv () ”är inversen av studentens T cdf.
Annars, om den har normalfördelning, men en känd SD användes vid beräkning av CI, kan SD beräknas med följande ekvation:
SD = sqrt (n) * (ci_upper – ci_lower) / (sqrt (8) * erfinv (CL)),
wh innan ”erfinv ()” är den inversa felfunktionen.
Din andra fråga handlar om fördelningen av människors kön (dvs.man eller kvinna). Från de uppgifter du angav låter det att det finns k = 274 män bland n = 427 hela prover. Bernoullis distribution gäller för denna ansökan. I det här fallet är variansen (för den manliga befolkningen) = p * (1-p) = 0,2299 och SD = sqrt (0,2299) = 0,4795, där p är medelvärdet. Observera att " valiance = mean * (1-mean) " är endast tillämplig på Bernoulli-distribution.