Zajímalo by mě, jestli mohu zpětně vypočítat standardní odchylku od střední hodnoty, velikosti vzorku a intervalu spolehlivosti.
Například: střední věk = 40,2; velikost vzorku = 427; a 95% interval spolehlivosti = (38,9-41,5)
A pokud ano, lze to použít na procentuální míru, například: procento je muž = 64,2%; velikost vzorku = 427; a 95% interval spolehlivosti = (59,4-68,7).
Komentáře
- Pokud předpokládáte normální rozdělení, pak vzorec pro koncové body interval spolehlivosti je striktně funkcí směrodatné odchylky vzorku. Je uveden průměr ostatních proměnných a velikost vzorku. Nevím ' nevím, co myslíte tím " procentním měřítkem ". Nemohu vám s tím ' pomoci.
- Procentním měřítkem jsem jednoduše myslel, že 64,2% vzorku tvoří muži.
Odpověď
-
Standardní odchylka pro procento / podíl je:
\ begin {align} \ sigma & = \ sqrt {p (1-p)} \\ [5pt] & = \ sqrt {0,642 (1-0,642)} \\ [5pt] & = 0,4792 \ end {align} Po zadání procenta tedy můžete přímo najít standardní odchylka. -
Pro zpětné sledování víme, $ CI = p \ pm z \ frac {\ sigma} {\ sqrt {N}} $
Na 95%, $ z = 1,96 $ , N = 427, $ p = 0,642 $
$ \ sigma =? $
Použijte tedy výše uvedený vzorec a dosaďte zpět.
- Pokud vaše velikost vzorku je menší než 30 (N < 30) , musíte použít hodnotu t místo hodnoty Z ( kalkulačka hodnoty t ). Hodnota t má stupně volnosti $ df = N-1 $ a $ {\ rm prob} = (1 \ alpha) / 2 $ .
Tedy vzorec je: $ CI = p \ pm t _ {(N-1) } \ frac {\ sigma} {\ sqrt {N}} $
Komentáře
- Tato metoda využívá centrální limitní větu a takže je přesný pouze v limitu velkých $ N $.
- Máte pravdu, dal jsem vzorec, protože otázka měla velkou velikost vzorku > 30. Takže CLT již platí. Pro menší velikost vzorku můžeme použít distribuci T namísto distribuce Z s příslušným stupněm volnosti.
- $ \ sigma = \ sqrt (p ∗ (1 − p)) $ je použitelné pro Bernoulliho distribuci pouze, neplatí pro jiné distribuce.
Odpověď
Trochu pozdě na večírek, ale všiml jsem si, že druhá část otázky nebyla plně řešena – „lze ji použít na procentní míru“?
Po komentáři operačních programů předpokládám, že „procentní mírou“ odkazujeme na nějaký binární výsledek ( Muž / Žena, Pravák / Levák atd.).
V takovém případě jsou proměnné popsány diskrétním rozdělením pravděpodobnosti, zatímco věk je spojitou proměnnou a je popsán spojitým rozdělením pravděpodobnosti. Běžnou volbou pro distribuci binárních proměnných je binomické rozdělení. Intervaly spolehlivosti pro binomii lze sestavit různými způsoby ( wiki ). Původní studie měla popsat, jak odvodily tyto intervaly spolehlivosti.
Všimněte si, že k získání „standardní odchylky“ můžete stále použít vzorec poskytnutý uživatelem3808268, ale bylo by to je těžké to smysluplně interpretovat.
Odpověď
Z popisu, který jste uvedli, se vaše první otázka týká rozdělení věku lidí. Normální (tj. Gaussian ) distribuce se vztahuje na tento druh aplikací.
Bude užitečné, pokud víte, jak byl vypočítán interval spolehlivosti (CI), protože existuje mnoho různých možných způsobů, jak se CI vypočítalo. Například pokud distribuce je normální distribuce a CI byla vypočtena pomocí t-testu, pak lze SD odhadnout pomocí následující rovnice:
SD = sqrt (n) * (ci_upper – ci_lower) / (2 * tinv ((1-CL) / 2; n-1)),
kde CL je úroveň spolehlivosti, ci_upper a ci_lower jsou horní a dolní mez CI, a „tinv () „je inverzí Studentova T cdf.
Jinak, pokud je normální distribuce, ale při výpočtu CI byla použita známá SD, pak SD lze vypočítat pomocí následující rovnice:
SD = sqrt (n) * (ci_upper – ci_lower) / (sqrt (8) * erfinv (CL)),
wh ere „erfinv ()“ je funkce inverzní chyby.
Vaše druhá otázka se týká distribuce pohlaví lidí (tj.muž nebo žena). Z údajů, které jste poskytli, to zní, že mezi n = 427 celých vzorků je k = 274 mužů. Na tuto aplikaci se vztahuje distribuce Bernoulli. V tomto případě je rozptyl (mužská populace) = p * (1-p) = 0,2299 a SD = sqrt (0,2299) = 0,4795, kde p je střední hodnota. Všimněte si, že " valiance = průměr * (1-průměr) " je použitelný pouze pro Bernoulliho distribuci.