När provstorleken ökar, varför blir standardavvikelsen för resultaten mindre? Kan någon snälla ge ett lekmänsexempel och förklara varför

När provstorleken ökar (till exempel en handelsstrategi med 80% kant), varför ökar standarden resultatavvikelse blir mindre? Kan någon förklara varför standardavvikelsen blir mindre och resultaten närmar sig det verkliga medelvärdet … kanske ger ett enkelt, intuitivt matematiskt exempel.

Kommentarer

  • Möjlig duplikat av Vilken intuitiv förklaring finns för den centrala gränssatsen?
  • ” Standardavvikelsen för resultat ” är tvetydig (vilka resultat ??) – och så det mycket allmänna uttalandet i titeln är strikt osant (uppenbara motexempel finns; det ’ är bara ibland sant). Det kan vara bättre att ange ett visst exempel (som exempelvis samplingsfördelning av provmedel, som har den egenskapen att standardavvikelsen minskar när provstorleken ökar).
  • Standardavvikelsen betyder inte ’ t minskar nödvändigtvis när provstorleken blir större. Medelfelens standardfel gör dock kanske att ’ är vad du ’ refererar till, i så fall är vi mer säkra på var medelvärdet är när provstorleken ökar.
  • Ja, jag måste ha menat standardfel istället. Varför minskar provfelet för medelvärdet? Kan du snälla ge lite enkel, icke-abstrakt matematik för att visuellt visa varför. Varför får vi ’ säkrare ’ där medelvärdet är när provstorleken ökar (i mitt fall blir resultaten faktiskt en närmare representation av en vinstprocent på 80%) hur sker detta?

Svar

När provstorleken ökar (till exempel en handelsstrategi med 80% kant), varför blir standardavvikelsen för resultat mindre?

Nyckelbegreppet här är ”resultat”. Vilka är dessa resultat ? Resultaten är avvikelserna mellan beräkningar av populationsparametrar som medelvärde $ \ mu $.

Till exempel om du mäter provvariansen $ s ^ 2_j $ av värden $ x_ {i_j} $ i ditt exempel $ j $, det blir inte mindre med större provstorlek $ n_j $: $$ s ^ 2_j = \ frac 1 {n_j-1} \ sum_ {i_j} (x_ { i_j} – \ bar x_j) ^ 2 $$ där $ \ bar x_j = \ frac 1 n_j \ sum_ {i_j} x_ {i_j} $ är ett exempelvärde.

Emellertid är beräkningen av variansen $ s ^ 2_ \ mu $ av ett prov betyder $ \ bar x_j $ kommer att minska med provstorleken: $$ \ frac 1 n_js ^ 2_j $$

Förklaringen på lekman går så här. Antag att hela befolkningsstorleken är $ n $. Om vi tittade på varje värde $ x_ {j = 1 \ dots n} $, skulle vårt medelvärde ha varit lika med det sanna medelvärdet: $ \ bar x_j = \ mu $. Osäkerheten skulle med andra ord vara noll och uppskattarens avvikelse skulle vara noll också: $ s ^ 2_j = 0 $

Men när du bara tittar på urvalet av storlek $ n_j $ Du beräknar medelvärdesuppskattaren $ \ bar x_j $ med osäkerhet $ s ^ 2_j > 0 $. Så, någonstans mellan provstorlek $ n_j $ och $ n $ osäkerheten ) av provet betyder $ \ bar x_j $ från icke-noll till noll. Det är den enklaste förklaringen jag kan komma med.

Svar

Det enklaste sättet att tänka på är kanske med avseende på skillnaden mellan en population och ett urval. Om jag frågar vad medelvärdet av en variabel är i ditt prov , ger du mig inte en uppskattning, eller hur? Beräknar du det bara och berättar för att du per definition har alla data som omfattar urvalet och kan därför direkt observera statistiken av intresse. Korrelationskoefficienter skiljer sig inte åt i den här meningen: om jag frågar dig vad korrelationen är mellan X och Y i ditt urval och jag tydligt bryr sig inte om vad det är utanför urvalet och i den större populationen (verklig eller metafysisk) som den dras från, så sätter du bara ihop siffrorna och berättar mig, ingen sannolikhetsteori är inblandad.

Vad händer om vi bryr oss om korrelationen mellan dessa två variabler utanför urvalet, dvs i antingen någon obemärkt population eller i den obemärkbara och i någon mening konstanta kausala dynamiken i verkligheten? (Om vi tänker på den som den senare då är befolkningen en ”superpopulation”; se till exempel https://www.jstor.org/stable/2529429 .) Sedan gör vi naturligtvis betydelsestester och använder i övrigt det vi vet, i urvalet, för att uppskatta vad vi inte gör i befolkningen, inklusive befolkningens standardavvikelse som börjar komma till din fråga.

Men låt oss först tänka på det från den andra ytterligheten, där vi samlar ett urval som är så stort att det helt enkelt blir befolkningen.Föreställ dig folkräkningsdata om forskningsfrågan handlar om landets hela verkliga befolkning, eller kanske är det en allmän vetenskaplig teori och vi har ett oändligt ”urval”: då, om jag vill veta hur världen fungerar, utnyttjar jag min allmakt och bara beräkna, snarare än bara uppskatta, min statistik över intresse. Vad händer om jag då har en hjärnavdelning och inte längre är allsmäktig, men fortfarande är nära den, så att jag saknar en observation, och mitt urval är nu en observation för att fånga hela befolkningen? Nu måste jag göra uppskattningar igen, med en rad värden som det kan ta med olika sannolikheter – jag kan inte längre hitta det – men det jag beräknar är fortfarande, i verkligheten, ett enda tal – en punkt på siffran linje, inte ett intervall – och jag har fortfarande massor av data, så jag kan säga med 95% tillförsikt att den verkliga statistiken över intresse ligger någonstans inom ett mycket litet intervall. Det beror naturligtvis på vad värdet / värdet på det sista observationen råkar vara, men det är bara en iakttagelse, så det skulle behöva vara galet utöver det vanliga för att ändra min statistik över intresse mycket, vilket naturligtvis är osannolikt och återspeglas i mitt snäva konfidensintervall.

Den andra sidan av detta mynt berättar samma historia: berget av data som jag har kan, genom ren tillfällighet, få mig att beräkna provstatistik som är väldigt annorlunda än vad jag skulle beräkna om jag kunde bara komplettera dessa data med observationen (erna) jag saknar, men oddsen att ha dras ett sådant vilseledande, partiskt urval rent av en slump är riktigt, riktigt låga. Det är i grund och botten vad jag redovisar och kommunicerar när jag rapporterar mitt mycket snäva konfidensintervall för var befolkningsstatistiken verkligen ligger.

Nu om vi går bakåt därifrån, börjar självförtroendet självklart för att minska, och därmed börjar intervallet av troliga befolkningsvärden – oavsett var intervallet ligger på talraden – vidgas. Mitt urval är fortfarande deterministiskt som alltid, och jag kan beräkna provmedel och korrelationer, och jag kan behandla den statistiken som om de är påståenden om vad jag skulle beräkna om jag hade fullständiga uppgifter om befolkningen, men ju mindre urvalet är, desto mer skeptisk måste jag vara om dessa påståenden, och desto mer trovärdighet måste jag ge till möjligheten att vad Jag skulle verkligen se att befolkningsdata skulle vara långt borta från vad jag ser i det här urvalet. Så allt detta är för att på ett sätt svara på din fråga i omvänd ordning: våra uppskattningar av statistik utanför provet blir mer självsäkra och konvergerar på en enda punkt , rep motvilja viss kunskap med fullständig data, av samma anledning att de blir mindre säkra och sträcker sig mer ju mindre data vi har.

Det är också viktigt att förstå att standardavvikelsen för en statistik specifikt hänvisar till och kvantifierar sannolikheten för att få olika provstatistik i olika prover, alla slumpmässigt hämtade från samma population, vilket återigen i sig bara har ett verkligt värde för den statistiken av intresse. Det finns ingen standardavvikelse för denna statistik alls i själva befolkningen – det är ett konstant antal och varierar inte. En variabel har däremot en egen standardavvikelse, både i populationen och i ett visst urval, och sedan finns uppskattningen av den populationsstandardavvikelse som du kan göra givet den kända standardavvikelsen för den variabeln inom ett givet urval av en viss storlek. Så det är viktigt att hålla alla referenser raka när du kan ha en standardavvikelse (eller snarare ett standardfel) runt en poänguppskattning av en population variabelns standardavvikelse, baserad på standardavvikelsen för den variabeln i ditt urval. Det finns bara inget enklare sätt att prata om det.

Och slutligen, notera att, ja, det är verkligen möjligt för ett urval för att ge dig en partisk representation av variationerna i befolkningen, så även om det är relativt osannolikt är det alltid möjligt att ett mindre urval inte bara ljuger för dig om befolkningsstatistiken utan också ljuger för dig om hur mycket du kan förvänta dig att statistiken av intresse varierar från samp le att prova. Det finns ingen väg runt det. Tänk på det som om någon gör ett anspråk och då frågar du dem om de ljuger. Kanske säger de ja, i vilket fall kan du vara säker på att de inte säger något som är värt att tänka på. Men om de säger nej, är du lite tillbaka på första plats. Antingen ljuger de eller inte, och om du inte har någon annan att fråga, måste du bara välja om du vill tro dem eller inte. (Bayesians verkar tro att de har ett bättre sätt att fatta det beslutet men jag håller ödmjukt inte med.)

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *