Miksi tuloksen keskihajonta pienenee otoksen koon kasvaessa? Voisiko joku antaa esimerkin maallikoille ja selittää miksi

Otoksen koon kasvaessa (esimerkiksi 80-prosenttisen edun omaava kaupankäyntistrategia) miksi standardi tulosten poikkeama pienenee? Voisiko joku selittää, miksi keskihajonta pienenee ja tulokset lähestyvät todellista keskiarvoa … kenties antaa yksinkertaisen, intuitiivisen, maallikoiden matemaattisen esimerkin.

Kommentit

  • Mahdollinen kaksoiskappale Mikä intuitiivinen selitys on olemassa keskirajalauseelle?
  • ” Tulosten keskihajonta ” on epäselvä (mitä tuloksia ??) – ja joten otsikossa oleva hyvin yleinen toteamus on ehdottomasti epätosi (on olemassa ilmeisiä vasta-esimerkkejä; se ’ on vain joskus totta). Voi olla parempi määritellä tietty esimerkki (kuten otantavälineiden otosjakauma, jolla on ominaisuus, että keskihajonta pienenee otoksen koon kasvaessa).
  • Standardipoikkeama ei ole ’ ei välttämättä vähene otoksen koon kasvaessa. Keskiarvon keskivirhe saattaa kuitenkin olla, että ’ s mitä viittaat ’ uudelleen, siinä tapauksessa olemme varmempia missä keskiarvo on, kun otoksen koko kasvaa.
  • Kyllä, minun on pitänyt tarkoittaa sen sijaan vakiovirhettä. Miksi keskiarvon näytevirhe pienenee? Voitteko antaa yksinkertaisen, ei-abstraktin matematiikan, joka näyttää visuaalisesti miksi. Miksi saamme ’ varmemman ’, jossa keskiarvo on otoksen koon kasvaessa (minun tapauksessani tulokset ovat itse asiassa lähempänä kuvaa 80%: n voittoprosentti) miten tämä tapahtuu?

Vastaa

Kun otoksen koko kasvaa (esimerkiksi kaupankäyntistrategia, jonka reuna on 80%), miksi tulosten keskihajonta pienenee?

Tärkein käsite tässä on ”tulokset”. Mitkä ovat nämä tulokset ? Tulokset ovat populaatioparametrien, kuten keskiarvon $ \ mu $, estimaattoreiden varianssit.

Jos esimerkiksi mittaat arvojen varianssia $ s ^ 2_j $ $ x_ {i_j} $ näytteessäsi $ j $, se ei tule pienemmäksi suuremmalla otoskoolla $ n_j $: $$ s ^ 2_j = \ frac 1 {n_j-1} \ sum_ {i_j} (x_ { i_j} – \ bar x_j) ^ 2 $$ missä $ \ bar x_j = \ frac 1 n_j \ sum_ {i_j} x_ {i_j} $ on esimerkkikeskiarvo.

Varianssin estimaattori Näytteen $ s ^ 2_ \ mu $ keskiarvo $ \ bar x_j $ pienenee otoksen koon mukaan: $$ \ frac 1 n_js ^ 2_j $$

Maallikon selitys kuuluu tälle. Oletetaan, että koko populaatiokoko on $ n $. Jos tarkastelimme jokaista arvoa $ x_ {j = 1 \ pistettä n} $, näytekeskiarvomme olisi ollut yhtä suuri kuin todellinen keskiarvo: $ \ bar x_j = \ mu $. Toisin sanoen epävarmuus olisi nolla ja myös estimaattorin varianssi olisi nolla: $ s ^ 2_j = 0 $

Kun kuitenkin tarkastelet vain kokoista $ n_j $ otosta . Lasket otoksen keskiarvon estimaattorin $ \ bar x_j $ epävarmuudella $ s ^ 2_j > 0 $. Joten jossain näytekoon $ n_j $ ja $ n $ välissä epävarmuus ) keskiarvon $ \ bar x_j $) keskiarvo laski nollasta nollaksi. Se on yksinkertaisin selitys, jonka voin keksiä.

Vastaus

Ehkä helpoin tapa ajatella sitä on populaation ja otoksen välisen eron suhteen. Jos kysyn, mikä muuttujan keskiarvo on näytteessäsi , et anna minulle estimaattia, sinä? Laske vain se ja kerro minulle, koska määritelmän mukaan sinulla on kaikki tiedot, jotka muodostavat otoksen ja voivat siten suoraan tarkkailla kiinnostavaa tilastoa. Korrelaatiokertoimet eivät eroa tässä mielessä: jos kysyn, mikä on X: n ja Y: n välinen korrelaatio otoksessasi , ja minä älä välitä selvästi siitä, mitä se on otoksen ulkopuolella ja suuremmassa populaatiossa (todellinen tai metafyysinen), josta se on vedetty, sitten vain murskaat numeroita ja kerro minulle, ei mitään todennäköisyysteoriaa.

Entä jos välitämme näiden kahden muuttujan välisestä korrelaatiosta otoksen ulkopuolella, toisin sanoen jossakin havaitsemattomassa populaatiossa tai todellisuuden havaitsemattomassa ja jossakin mielessä jatkuvassa kausaalisessa dynamiikassa? (Jos käsittelemme sen uudelleen silloin populaatio on ”superpopulaatio”; katso esimerkiksi https://www.jstor.org/stable/2529429 .) Sitten tietysti teemme merkitsevyystestejä ja muuten käytämme sitä, mitä tiedämme otoksessa, arvioidaksemme, mitä emme populaatiossa, mukaan lukien populaation keskihajonta, joka alkaa päästä kysymyksesi.

Mutta mietitään ensin sitä toisesta ääripäästä, mistä keräämme niin suuren otoksen, että siitä yksinkertaisesti tulee väestö.Kuvittele väestönlaskentatietoja, jos tutkimuskysymys koskee maan koko todellista väestöä, tai ehkä se on yleinen tieteellinen teoria ja meillä on ääretön ”otos”: sitten taas kerran, jos haluan tietää miten maailma toimii, käytän hyväksi minun kaikkivoipa ja vain laskea mieluummin kuin vain arvioida kiinnostava tilastoni. Entä jos minulla on sitten aivoriihi ja en ole enää kaikkivaltias, mutta olen silti lähellä sitä, joten puuttuu yksi havainto, ja otokseni on nyt yksi havainto, joka ei riitä koko väestön vangitsemiseen? Nyt minun on tehtävä arviot uudelleen, arvojen vaihteluvälillä, jonka se voi tarvita vaihtelevalla todennäköisyydellä – en voi enää määrittää sitä – mutta asia, jonka arvioin, on todellisuudessa edelleen yksi numero – piste numerossa linja, ei alue – ja minulla on vielä tonnia tietoja, joten voin 95 prosentin varmuudella sanoa, että todellinen kiinnostuksen kohteena oleva tilasto on jonnekin hyvin pienellä alueella.Kaikki riippuu tietysti siitä, mikä arvo (t) Viimeinen havainto sattuu olemaan, mutta se on vain yksi havainto, joten sen pitäisi olla hullusti poikkeava, jotta voisin muuttaa kiinnostavaa tilastoni paljon, mikä on tietysti epätodennäköistä ja heijastuu kapealla luottamusvälilläni.

Tämän kolikon toinen puoli kertoo saman tarinan: Minulla oleva tietovuori voi pelkän sattuman takia johtaa minut laskemaan otostilastoja, jotka poikkeavat hyvin siitä, mitä laskisin, jos voisi vain lisätä näitä tietoja havainnoilla, jotka puuttuvat, mutta todennäköisyydet sellaisen harhaanjohtavan, puolueellisen näytteen puhtaasti sattumalta, on todella, todella vähän. Se on pohjimmiltaan sitä, mitä kirjanpidon ja kommunikoin, kun ilmoitan hyvin kapean luottamusvälini siitä, missä kiinnostava populaatiotilasto todella sijaitsee.

Jos kävelemme sieltä taaksepäin, tietysti luottamus alkaa pienenee, ja täten uskottavien populaatioarvojen väli – riippumatta siitä, mikä väli on numerolinjalla – alkaa laajentua.Otokseni on edelleen deterministinen kuten aina, ja osaan laskea otoskeskiarvot ja korrelaatiot, ja voin käsitellä näitä tilastoja ikään kuin ne olisivat väitteitä siitä, mitä laskisin, jos minulla olisi täydelliset tiedot populaatiosta, mutta mitä pienempi otos, sitä skeptisempi minun on oltava näistä väitteistä ja sitä enemmän uskottavuutta minun on annettava mahdollisuudelle, että mitä Katson todella, että väestötiedot olisivat kaukana siitä, mitä näen tässä otoksessa.Joten tämä kaikki on tavallaan vastaamaan kysymykseesi päinvastaisessa järjestyksessä: Arviomme mahdollisista otoksen ulkopuolisista tilastoista ovat varmempia ja yhdentyvät yhteen pisteeseen , edustaja vihaavat tiettyjä tietoja täydellisillä tiedoilla samasta syystä, että ne ovat vähemmän varmoja ja vaihtelevat laajemmin, mitä vähemmän tietoja meillä on.

On myös tärkeää ymmärtää, että tilastojen keskihajonta viittaa ja kvantifioi nimenomaisesti todennäköisyydet saada erilaisia otostilastoja eri otoksista, jotka kaikki on satunnaisesti otettu samasta populaatiosta, jolla taas on itsessään vain yksi todellinen arvo kyseiselle tilastolle. Itse populaatiossa ei ole lainkaan kyseisen tilaston keskihajontaa – se on vakioluku eikä vaihtele. Muuttujalla on toisaalta kaikki keskihajonta sekä populaatiossa että missä tahansa näytteessä, ja sitten siellä on arvio siitä populaation keskihajonnasta, jonka voit antaa muuttujan tunnettu keskihajonta tietyn kokoisessa otoksessa. Joten on tärkeää pitää kaikki viitteet suorana, kun sinulla voi olla keskihajonta (tai pikemminkin standardivirhe) populaation pistearvion ympärillä muuttujan vakiopoikkeama, joka perustuu kyseisen muuttujan vakiopoikkeamaan näytteessäsi. Siellä ei ole yksinkertaista tapaa puhua siitä.

Ja viimeiseksi, huomaa, että kyllä, se on varmasti mahdollista näyte antaa sinulle puolueellinen esitys populaation vaihteluista, joten vaikka se onkin melko epätodennäköistä, on aina mahdollista, että pienempi otos ei vain valehtele sinulle kiinnostavasta populaatiotilastosta, vaan valehtelee myös sinulle kuinka paljon sinun pitäisi odottaa kiinnostavan tilaston vaihtelevan sampista le näytteeksi. Sitä ei voida kiertää. Ajattele sitä, jos joku tekee vaatimuksen ja sitten kysyt heiltä, valehteleeko hän. Ehkä he sanovat kyllä, jolloin voit olla varma, että he eivät kerro sinulle mitään harkitsemisen arvoista. Mutta jos he sanovat ei, olet tavallaan takaisin neliöön. Joko he ”valehtelevat” tai ”eivät”, ja jos sinulla ei ole ketään muuta kysyttävää, sinun on vain valittava, uskotko heitä vai ei. (Bayesilaiset näyttävät ajattelevan, että heillä on parempi tapa tehdä päätös, mutta olen nöyrästi eri mieltä.)

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *