Ik vraag me af of ik de standaarddeviatie terug kan berekenen op basis van gemiddelde, steekproefomvang en betrouwbaarheidsinterval.
Bijvoorbeeld: gemiddelde leeftijd = 40,2; steekproefomvang = 427; en 95% betrouwbaarheidsinterval = (38,9-41,5)
En zo ja, kan dit van toepassing zijn op een procentuele meting, bijvoorbeeld: procent is mannelijk = 64,2%; steekproefomvang = 427; en 95% betrouwbaarheidsinterval = (59.4-68.7).
Opmerkingen
- Als u uitgaat van een normale verdeling, dan is de formule voor de eindpunten van de betrouwbaarheidsinterval is strikt een functie van de standaarddeviatie van de steekproef. De overige variabelen gemiddelde en steekproefomvang worden gegeven. Ik weet niet ' wat je bedoelt met " procentuele meting ". Dus ik kan ' je daarmee niet helpen.
- Met de percentagemeting bedoelde ik eenvoudigweg dat 64,2% van de steekproef mannelijk is.
Antwoord
-
De standaarddeviatie voor percentage / proportie is:
\ begin {align} \ sigma & = \ sqrt {p (1-p)} \\ [5pt] & = \ sqrt {0.642 (1-0.642)} \\ [5pt] & = 0.4792 \ end {align} Dus als je een percentage geeft, kun je direct de std vinden afwijking. -
Voor back tracking , we weten het, $ CI = p \ pm z \ frac {\ sigma} {\ sqrt {N}} $
Voor 95% $ z = 1,96 $ , N = 427, $ p = 0,642 $
$ \ sigma =? $
Gebruik dus de bovenstaande formule en vervanger terug.
- Als uw steekproefomvang is minder dan 30 (N < 30) , je moet een t-waarde gebruiken in plaats van Z-waarde ( rekenmachine t-waarde ). De t-waarde heeft vrijheidsgraden $ df = N-1 $ en $ {\ rm prob} = (1- \ alpha) / 2 $ .
De formule is dus: $ CI = p \ pm t _ {(N-1) } \ frac {\ sigma} {\ sqrt {N}} $
Opmerkingen
- Deze methode maakt gebruik van de centrale limietstelling en dus is alleen nauwkeurig in de limiet van grote $ N $.
- Je hebt gelijk, ik heb de formule gegeven omdat de vraag een grote steekproefomvang had > 30. Dus de CLT is reeds van kracht. Voor kleinere steekproeven kunnen we de T-verdeling gebruiken in plaats van de Z-verdeling met de juiste vrijheidsgraad.
- $ \ sigma = \ sqrt (p ∗ (1 − p)) $ is van toepassing op de Bernoulli-verdeling alleen, niet van toepassing op andere distributies.
Antwoord
Een beetje laat voor het feest, maar ik merkte dat het tweede deel van de vraag werd niet volledig beantwoord – “kan het van toepassing zijn op percentagemaatstaven”?
Naar aanleiding van de opmerking van de OPs ga ik ervan uit dat we met “percentagemeting” verwijzen naar een binair resultaat ( Man / vrouw, rechtshandig / linkshandig etc.).
In dat geval worden de variabelen beschreven door een discrete kansverdeling, terwijl de leeftijd een continue variabele is en wordt beschreven door een continue kansverdeling. Een veel voorkomende keuze voor de distributie van binaire variabelen is de binominale distributie. Betrouwbaarheidsintervallen voor de binominale versie kunnen op verschillende manieren worden geconstrueerd ( wiki ). Het oorspronkelijke onderzoek zou moeten hebben beschreven hoe ze die betrouwbaarheidsintervallen hebben afgeleid.
Merk op dat je nog steeds de formule van user3808268 kunt gebruiken om de “standaarddeviatie” te krijgen, maar dat zou zo zijn moeilijk om het zinvol te interpreteren.
Antwoord
Uit de beschrijving die je hebt gegeven, gaat je eerste vraag over de leeftijdsverdeling van mensen. Normaal (dwz Gaussiaans ) is van toepassing op dergelijke toepassingen.
Het zal handig zijn als u weet hoe het betrouwbaarheidsinterval (BI) werd berekend, omdat er veel verschillende manieren zijn waarop de BI werd berekend. de distributie is van normale distributie en de CI werd berekend met behulp van t-test, dan kan de SD worden geschat met de volgende vergelijking:
SD = sqrt (n) * (ci_upper – ci_lower) / (2 * tinv ((1-CL) / 2; n-1)),
waarbij CL het betrouwbaarheidsniveau is, ci_upper en ci_lower respectievelijk de boven- en ondergrenzen van CI, en tinv () “is de inverse van Students T cdf.
Anders, als het een normale verdeling heeft, maar een bekende SD werd gebruikt bij het berekenen van CI, dan kan de SD worden berekend met de volgende vergelijking:
SD = sqrt (n) * (ci_upper – ci_lower) / (sqrt (8) * erfinv (CL)),
wh ere “erfinv ()” is de inverse foutfunctie.
Uw tweede vraag gaat over de verdeling van het geslacht van mensen (d.w.z.mannelijk of vrouwelijk). Uit de door u verstrekte gegevens blijkt dat er k = 274 mannen zijn onder n = 427 hele monsters. Bernoulli-distributie is van toepassing op deze toepassing. In dit geval is de variantie (van de mannelijke populatie) = p * (1-p) = 0,2299 en SD = sqrt (0,2299) = 0,4795, waarbij p de gemiddelde waarde is. Houd er rekening mee dat " valiance = mean * (1-mean) " is alleen van toepassing op Bernoulli-distributie.