Pe măsură ce dimensiunea eșantionului crește (de exemplu, o strategie de tranzacționare cu o margine de 80%), de ce standardul devierea rezultatelor devine mai mică? Poate cineva să vă explice de ce deviația standard devine mai mică și rezultatele se apropie de adevărata medie … poate oferi un exemplu matematic simplu, intuitiv, laic.
Comentarii
- Posibil duplicat al Ce explicație intuitivă există pentru teorema limitei centrale?
- ” Abaterea standard a rezultatelor ” este ambiguă (ce rezultate ??) – și deci afirmația foarte generală din titlu este strict neadevărată (există contraexemple evidente; ea ‘ doar uneori este adevărată). Ar putea fi mai bine să specificați un anumit exemplu (cum ar fi distribuția de eșantionare a mijloacelor de eșantionare, care are proprietatea că abaterea standard scade odată cu creșterea dimensiunii eșantionului).
- Abaterea standard nu ‘ nu scade neapărat pe măsură ce dimensiunea eșantionului crește. Eroarea standard a mediei face totuși, poate că ‘ este ceea ce faceți referință ‘, în acest caz suntem mai siguri unde mean este atunci când dimensiunea eșantionului crește.
- Da, trebuie să am înțeles o eroare standard. De ce scade eroarea mostră a mediei? Puteți furniza câteva matematici simple, non-abstracte, pentru a arăta vizual de ce. De ce primim ‘ mai sigur ‘ unde media este pe măsură ce mărimea eșantionului crește (în cazul meu, rezultatele sunt de fapt o reprezentare mai apropiată de o rată de câștig de 80%) cum se întâmplă acest lucru?
Răspuns
Pe măsură ce dimensiunea eșantionului crește (de exemplu, o strategie de tranzacționare cu o margine de 80%), de ce deviația standard a rezultatelor devine mai mică?
Conceptul cheie aici este „rezultatele”. Care sunt aceste rezultate ? rezultatele sunt varianțele estimatorilor parametrilor populației, cum ar fi media $ \ mu $.
De exemplu, dacă măsurați varianța eșantionului $ s ^ 2_j $ de valori $ x_ {i_j} $ în eșantionul dvs. $ j $, nu devine mai mic cu dimensiunea eșantionului mai mare $ n_j $: $$ s ^ 2_j = \ frac 1 {n_j-1} \ sum_ {i_j} (x_ { i_j} – \ bar x_j) ^ 2 $$ unde $ \ bar x_j = \ frac 1 n_j \ sum_ {i_j} x_ {i_j} $ este un eșantion mediu.
Cu toate acestea, estimatorul varianței $ s ^ 2_ \ mu $ dintr-un eșantion înseamnă $ \ bar x_j $ va scădea odată cu dimensiunea eșantionului: $$ \ frac 1 n_js ^ 2_j $$
Explicația profană este așa. Să presupunem că întreaga populație este de $ n $. Dacă am analiza fiecare valoare $ x_ {j = 1 \ dots n} $, eșantionul nostru mediu ar fi fost egal cu media adevărată: $ \ bar x_j = \ mu $. Cu alte cuvinte, incertitudinea ar fi zero, iar varianța estimatorului ar fi și ea zero: $ s ^ 2_j = 0 $
Cu toate acestea, când vă uitați doar la eșantionul de dimensiune $ n_j $ . Calculați eșantionul estimator mediu $ \ bar x_j $ cu incertitudine $ s ^ 2_j > 0 $. Deci, undeva între dimensiunea eșantionului $ n_j $ și $ n $ incertitudinea (varianță ) din eșantionul mediu $ \ bar x_j $ a scăzut de la non-zero la zero. Aceasta este cea mai simplă explicație pe care o pot veni.
Răspuns
Poate că cel mai simplu mod de a te gândi la asta este în ceea ce privește diferența dintre o populație și un eșantion. Dacă vă întreb care este media în eșantionul dvs. , nu-mi dați o estimare, nu-i așa? Calculați-o și spuneți-mi, deoarece, prin definiție, aveți toate datele care cuprind eșantionul și, prin urmare, pot observa direct statistica de interes. Coeficienții de corelație nu sunt diferiți în acest sens: dacă vă întreb care este corelația dintre X și Y în eșantionul dvs. și I în mod clar nu vă pasă de ceea ce este în afara eșantionului și a populației mai mari (reale sau metafizice) din care este extrasă, atunci doar strângeți numerele și spuneți-mi, nu este implicată nicio teorie a probabilității.
Acum, ce se întâmplă dacă ne pasă de corelația dintre aceste două variabile în afara eșantionului, adică fie într-o populație neobservată, fie în dinamica cauzală a realității neobservabilă și, într-un anumit sens, constantă? (Dacă o concepem ca aceasta din urmă atunci populația este o „superpopulație”; vezi de exemplu https://www.jstor.org/stable/2529429 .) Apoi, desigur, facem teste de semnificație și folosim altfel ceea ce știm, în eșantion, pentru a estima ceea ce nu avem în populație, inclusiv abaterea standard a populației, care începe să ajungă la întrebarea dvs.
Dar mai întâi să ne gândim la asta din cealaltă extremă, unde adunăm un eșantion care este atât de mare, încât pur și simplu devine populația.Imaginați-vă datele recensământului dacă întrebarea de cercetare se referă la întreaga populație reală a țării sau poate este o teorie științifică generală și avem un „eșantion” infinit: atunci, din nou, dacă vreau să știu cum funcționează lumea, folosesc atotputernicia mea și calculează, mai degrabă decât doar estimează, statisticile mele de interes. Ce se întâmplă dacă atunci am un brainfart și nu mai sunt atotputernic, dar sunt încă aproape de el, așa că îmi lipsește o observație, iar eșantionul meu este acum o observație care nu poate captura întreaga populație? Acum trebuie să fac din nou estimări, cu o gamă de valori pe care ar putea să le ia cu probabilități variate – nu mai pot să o identific – dar lucrul pe care îl estimez este încă, în realitate, un singur număr – un punct asupra numărului linie, nu un interval – și încă mai am o mulțime de date, așa că pot spune cu încredere de 95% că adevărata statistică de interes se află undeva într-un interval foarte mic. Totul depinde, desigur, de valoarea acestora. Ultima observație se întâmplă, dar este o singură observație, așa că ar trebui să fie nebunește din obișnuit pentru a-mi schimba mult statisticile de interes, ceea ce, desigur, este puțin probabil și se reflectă în intervalul meu restrâns de încredere.
Cealaltă față a acestei monede spune aceeași poveste: muntele de date pe care le am ar putea, prin pură coincidență, să mă conducă să calculez statistici eșantionare care sunt foarte diferite de ceea ce aș calcula dacă ar putea mări doar datele cu observația (observațiile) care îmi lipsesc, dar șansele de a avea un eșantion atât de înșelător, părtinitor, pur întâmplător, este foarte, foarte scăzut. Aceasta este practic ceea ce contabilizez și comunic atunci când raportez intervalul meu de încredere foarte restrâns pentru locul în care se află statisticile de interes ale populației.
Acum, dacă mergem înapoi de acolo, desigur, încrederea începe să scadă și, astfel, intervalul valorilor plauzibile ale populației – indiferent unde se află acel interval pe linia numerică – începe să se lărgească. Eșantionul meu este încă determinist ca întotdeauna și pot calcula mediile și corelațiile eșantionului și pot trata aceste statistici ca și cum ar fi afirmații cu privire la ceea ce aș calcula dacă aș avea date complete despre populație, dar cu cât eșantionul este mai mic, cu atât trebuie să fiu mai sceptic cu privire la acele afirmații și cu atât mai mult trebuie să acord posibilitatea că ceea ce Aș vedea cu adevărat că datele despre populație ar fi departe de ceea ce văd în acest eșantion. Deci, toate acestea sunt pentru a răspunde la întrebarea dvs. invers: estimările noastre privind statisticile din afara eșantionului devin mai sigure și converg într-un singur punct. , reprezentant resentimentând anumite cunoștințe cu date complete, din același motiv pentru care devin mai puțin sigure și variază mai mult cu cât avem mai puține date.
De asemenea, este important să înțelegem că abaterea standard a unei statistici se referă în mod specific și cuantifică probabilitățile de a obține statistici de eșantionare diferite în eșantioane diferite, toate extrase în mod aleatoriu din aceeași populație, care, din nou, ea însăși are doar o valoare adevărată pentru acea statistică de interes. Nu există deloc o abatere standard a acestei statistici în populația însăși – este un număr constant și nu variază. O variabilă, pe de altă parte, are o abatere standard proprie, atât în populație, cât și în orice eșantion dat, apoi există estimarea a acelei deviații standard a populației pe care o puteți face dată abaterea standard cunoscută a acelei variabile într-un eșantion dat dintr-o dimensiune dată. Deci, este important să păstrați toate referințele drepte, atunci când puteți avea o abatere standard (sau mai bine zis, o eroare standard) în jurul unei estimări punctuale a unei populații abaterea standard a variabilei, bazată pe abaterea standard a variabilei din eșantionul dvs. Nu există nici o modalitate mai simplă de a vorbi despre ea.
Și, în sfârșit, rețineți că, da, este cu siguranță posibil pentru un eșantion care să vă ofere o reprezentare părtinitoare a variațiilor în populație, deci, deși este relativ puțin probabil, este întotdeauna posibil ca un eșantion mai mic să nu vă mintă doar cu privire la statisticile de interes ale populației, ci și să vă mintă cât de mult ar trebui să vă așteptați ca statistica de interes să varieze de la samp le to sample. Nu există nicio cale de a evita acest lucru. Gândește-te la asta ca și cum cineva ar face o reclamație și apoi îi vei întreba dacă minte. Poate spun că da, caz în care puteți fi sigur că „nu vă spun nimic demn de luat în seamă. Dar dacă spun că nu, vă„ întoarceți cam la pătrat. Fie „mint sau nu” și, dacă nu mai ai pe cineva de întrebat, trebuie doar să alegi dacă le crezi sau nu. (Bayezienii par să creadă că au o modalitate mai bună de a lua acea decizie, dar eu sunt în mod umil de acord.)