Ce înseamnă, când, la trei abateri standard de la medie, aterizez în afara valorii minime sau maxime?

Am un set de date cu următoarele caracteristici și nu pot să-mi înfășur capul. „Trei st.dev.s includ 99,7% din date” este ceea ce îmi spun eu, dar asta pare să fie formulat inexact.

Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48 

Acest lucru îmi spune că 99,7% din date se încadrează în 30 și 48, dar 100% din date se încadrează în 34 și 46 și asta nu are sens. Înseamnă doar că eșantionul meu nu este reprezentativ pentru populația totală? Adică, evident, nu este „t, dar să presupunem că nu știu că există oameni cu vârsta mai mică de 34 și peste 46. Apropo, aceasta provine din variabila age din eșantionul de date Stata nlsw88.dta.

Am analizat această întrebare , dar nici nu mă ajută să-mi desfac nodul creierului. locul unde trebuie întrebat.

EDIT: Tocmai mi-am dat seama că acestea sunt multe întrebări. Vă rugăm să luați în considerare întrebarea antet pe cea care are nevoie de un răspuns. Restul este doar procesul derulat al gândului meu deranjat.

Comentarii

  • Min și max sunt min și max ale populației care ai observat . Abaterea standard este calculată din populația eșantion. Presupunând atunci o populație infinit de mare, cu aceleași caracteristici ca eșantionul observat și o distribuție normală, 99,7% dintre oameni ar fi între 30 și 48. Corolarul este că eșantionul inițial ar fi trebuit să fie mai mare pentru a fi observat pe cineva mai puțin de 34 sau mai mare decât 46.

Răspuns

“ Trei st.dev.s includ 99,7% din date ”

Trebuie să adăugați câteva avertismente la o astfel de declarație.

Lucrul de 99,7% este un fapt despre distribuțiile normale – 99,7% din valorile populației se vor încadra în trei deviații standard ale populației din media populației.

densitate normală

În eșantioane mari * dintr-o distribuție normală, acesta va fi de obicei aproximativ cazul – aproximativ 99,7% din date ar fi în cadrul a trei deviații standard ale eșantionului mediei eșantionului (dacă ați fi eșantionat dintr-o distribuție normală, eșantionul dvs. ar trebui să fie suficient de mare pentru ca acest lucru să fie aproximativ adevărat – se pare că există aproximativ 73% șanse de a obține 0,9973 $ / pm 0,0010 $ cu un eșantion de acea dimensiune).

* presupunând eșantionare aleatorie

Dar nu aveți un eșantion dintr-o distribuție normală.

Dacă nu puneți unele restricții cu privire la forma distribuției, proporția reală în cadrul a 3 abateri standard ale mediei poate fi mare sau mai mică.

densitate uniformă standardizată $ \ qquad \ qquad ^ \ text { Exemplu de distribuție cu 100% din distribuția în 2 sds de medie} $

Proporția unei distribuții în 3 stanțe deviațiile medii ar putea fi de până la 88,9%. Este posibil să aveți nevoie de mai mult de 18 abateri standard pentru a obține 99,7%. Pe de altă parte, puteți obține mai mult de 99,7% într-o ofertă bună sub o abatere standard. Deci, regula de 99,7% nu este neapărat de mare ajutor, cu excepția cazului în care fixați puțin forma distribuției.

Dacă vă relaxați puțin așteptările (să fie doar foarte „aproximativ” 99,7%), atunci regula este uneori utilă fără a necesita normalitate, atâta timp cât avem în vedere că nu va funcționa întotdeauna în orice situație – chiar și aproximativ.

Comentarii

Răspuns

Răspunsul scurt este că eșantionul dvs. nu a urmat cu precizie o distribuție normală, așa că sugerează poate că va trebui să vă reexaminați ipotezele de bază, în special una pe care o puteți aplica instrumente concepute pentru a lucra cu o populație distribuită în mod normal.

Doar întoarce-ți întrebarea invers pentru iluminare. Dacă eșantionul dvs. a fost distribuit în mod normal, atunci ne-am aștepta ca o dimensiune a eșantionului de ~ 2000 să producă 6 puncte de date în afara intervalului 30-48, în medie. Al tău nu, ceea ce semnalează o întrebare „Care este semnificația acestei abateri de la normal pentru previziunile pe care le faci presupunând că populația ta mai largă urmează o distribuție normală?”

Deci, implicația mai largă a acestei mici anomalii este că, deși eșantionul dvs. poate să nu difere departe de o distribuție normală, unele previziuni făcute presupunând că reprezintă o populație mai mare distribuită în mod normal ar putea fi inerent defectuoasă și justifică o calificare sau o investigație ulterioară. Cu toate acestea, estimarea probabilității acestei abateri de la normal și marjele de eroare implicite și fiabilitatea previziunilor rezultate depășesc cu mult nivelul meu de abilitate, deși, din fericire, a fost explorat în multe alte răspunsuri aici!

Dar în mod clar aveți un obicei bun de a vă examina complet rezultatele, de a vă pune la îndoială ce înseamnă cu adevărat rezultatele dvs. și dacă vă dovedesc ipoteza inițială sau nu. Căutați alte anomalii dezvăluite în date, cum ar fi Kurtosis și Skew, pentru a vedea ce indicii dezvăluie sau poate consideră alte distribuții ca reprezentând mai bine populația dvs.

Comentarii

  • Asta sau doar din pură întâmplare, acolo nu erau puncte de date în interval.

Răspuns

„Three st.dev.s (3 $ \ sqrt {\ sigma ^ 2} $) include 99,7% din date ”se referă la distribuțiile Gaussiene. Pentru distribuții în general, inegalitatea lui Chebyshev pune o limită inferioară asupra masei probabilității cu $ k $ din medie. Dar există o limită superioară?

Cu o distribuție Bernoulli cu $ p $ = .5, $ \ sigma $ este .5. Media $ \ mu $ este, de asemenea, .5, ceea ce înseamnă că 100% din distribuție este cuprinsă în 1 $ \ sigma $ sau $ \ mu $. Ce zici de un număr mai mic de abateri standard ?

Notă: următorul, pentru simplitate, este un argument referitor la distribuțiile cu $ \ mu = 0 $. Extensia sa la distribuția cu $ \ mu $ arbitrară este în mod rezonabil banală.

Dat fiind orice pozitiv $ \ varepsilon $ și $ M $, există o distribuție astfel încât să aveți $ \ varepsilon / 2 $ masă de probabilitate $ \ leftarrow M $ și $ \ varepsilon / 2 $ masă de probabilitate $ \ gt M $. Adică,

$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $

Toate celelalte fiind egale, ca $ M \ to \ infty $, apoi $ \ sigma \ to \ infty $. Cu toate acestea, pentru orice $ N $ pozitiv fix, odată ce $ M $ depășește $ N $, masa probabilității în $ N $ de zero este întotdeauna $ 1- \ varepsilon $, re fără gardă de $ M $. Astfel, dacă privim distanța relativă de la zero (adică, numărul de abateri standard valoarea este $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), atunci ca $ M \ to \ infty $, avem $ n \ to \ infty $, unde $ n $ este cel mai mare număr întreg astfel încât „$ 1- \ varepsilon $ al probabilității se află în $ n \ sigma $ de $ \ mu $” este adevărat.

Acest lucru arată că pentru orice numere pozitive $ \ varepsilon $ și $ n $, există o anumită distribuție, astfel încât probabilitatea de a fi mai mare de $ n \ sigma $ de la zero este mai mică decât $ \ varepsilon $. Deci, de exemplu, dacă doriți o probabilitate de 99,999% de a fi mai puțin de .000001 $ \ sigma $ de la zero, există o distribuție care satisface acest lucru.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *