A minta méretének növekedésével miért csökken az eredmények szórása? Tudna valaki kérni egy laikus példát, és megmagyarázni, miért

A mintanagyság növekedésével (például egy 80% -os éllel rendelkező kereskedési stratégia) miért teszi a szabványt az eredmények eltérése kisebb lesz? Kérem, magyarázza el, miért magyarázza el a szórás és miért kerülnek az eredmények közelebb a valódi középértékhez … Talán egyszerű, intuitív, laikus matematikai példát kínál.

Megjegyzések

A lehetséges másolata. Milyen intuitív magyarázat van a központi határtételre?
” Az eredmények szórása ” nem egyértelmű (mi eredményezi ??) – és tehát a címben szereplő nagyon általános állítás szigorúan valótlan (nyilvánvaló ellenpéldák léteznek; ‘ s csak néha igaz). Jobb lehet egy adott példát megadni (például a minták átlagának mintavételi eloszlását, amelynek megvan az a tulajdonsága, hogy a szórás csökken a minta méretének növekedésével).
A szórás nem ‘ nem szükségszerűen csökken, mivel a minta mérete növekszik. Az átlag standard hibája azonban talán azt jelenti, hogy ‘ mire hivatkozol ‘, ebben az esetben biztosabbak vagyunk abban, hogy a átlag az, amikor a minta mérete növekszik.
Igen, bizonyára a standard hibára gondoltam. Miért csökken az átlag minta hibája? Tudna néhány egyszerű, nem elvont matematikát bemutatni, hogy vizuálisan megmutassa, miért. Miért leszünk ‘ biztosabbak ‘ ahol az átlag a minta méretének növekedésével áll meg (esetemben az eredmények valójában közelebb vannak a 80% -os nyereség) hogyan fordul elő ez?

Válasz

A minta méretének növekedésével (például 80% -os éllel rendelkező kereskedési stratégia) miért csökken az eredmények szórása?

A kulcsfogalom itt az „eredmények”. Mik ezek az eredmények ? Az eredmények a populációs paraméterek becslőinek eltérései, például az $ $ $ mu $.

Például, ha az értékek $ s ^ 2_j $ értékének szórását méri $ x_ {i_j} $ a $ j $ mintában, nem lesz kisebb nagyobb nagyobb mintanagysággal $ n_j $: $$ s ^ 2_j = \ frac 1 {n_j-1} \ sum_ {i_j} (x_ { i_j} – \ bar x_j) ^ 2 $$ ahol $ \ bar x_j = \ frac 1 n_j \ sum_ {i_j} x_ {i_j} $ egy minta átlag.

A variancia becslője azonban A minta $ s ^ 2_ \ mu $ értéke azt jelenti, hogy a $ \ bar x_j $ értéke csökken a minta méretével: $$ \ frac 1 n_js ^ 2_j $$

A laikus magyarázat így hangzik. Tegyük fel, hogy a teljes népességméret $ n $. Ha minden $ x_ {j = 1 \ dots n} $ értéket megnéznénk, a minta átlagunk megegyezett volna a valódi átlaggal: $ \ bar x_j = \ mu $. Más szavakkal, a bizonytalanság nulla lenne, és a becslő szórása is nulla lenne: $ s ^ 2_j = 0 $

Ha azonban csak a $ n_j $ méretű mintát nézi . A minta átlagbecslőjét $ \ bar x_j $ kiszámítja bizonytalansággal $ s ^ 2_j > 0 $. Tehát valahol a $ n_j $ és $ n $ minta mérete között a ) a minta $ \ bar x_j $ átlagának értéke nulla értékről nullára csökkent. Ez a legegyszerűbb magyarázat, amivel elő tudok állni.

Válasz

Talán a legegyszerűbb a gondolkodás a populáció és a minta közötti különbség tekintetében. Ha azt kérdezem tőled, hogy mi a változó jelentése a mintádban , akkor nem adsz meg becslést, igaz? Csak kiszámolod és elmondod, mert értelemszerűen minden megvan a mintát tartalmazó adatok, amelyek ezért közvetlenül megfigyelhetik az érdekes statisztikát .. A korrelációs együtthatók ebben az értelemben nem különböznek egymástól: ha megkérdezem, mi a korreláció X és Y között a mintában , és I egyértelműen nem érdekli, hogy mi van a mintán kívül, és a nagyobb (valós vagy metafizikai) populációban, amelyből levonják, akkor csak összezúzza a számokat, és mondja el, nincs benne valószínűségelmélet.

És mi van akkor, ha törődünk a két, a mintán kívüli változó közötti korrelációval, vagyis valamilyen megfigyeletlen populációban, vagy a valóság megfigyelhetetlen és bizonyos értelemben állandó kauzális dinamikájában? (Ha ezt utóbbinak fogjuk fel akkor a populáció “szuperpopuláció”; lásd például: https://www.jstor.org/stable/2529429 .) Ezután természetesen szignifikancia teszteket hajtunk végre, és más módon felhasználjuk a mintában ismert tudnivalókat annak becslésére, hogy mi nem szerepel a populációban, beleértve a populáció szórását is, amely kezd elérni A kérdésed.

De először gondolkozzunk el rajta a másik végletből, ahol összegyűjtünk egy akkora mintát, amely egyszerűen a népességgé válik.Képzeljük el a népszámlálási adatokat, ha a kutatási kérdés az ország teljes valós népességére vonatkozik, esetleg általános tudományos elméletre vonatkozik, és végtelen „mintánk” van: akkor megint, ha meg akarom tudni, hogyan működik a világ, akkor kihasználom mindenhatóságomat, és csak kiszámolja, és nem csupán becsüli meg az érdeklődési statisztikámat. Mi van, ha akkor eszmefuttatásom van, és már nem vagyok mindenható, de még mindig közel állok hozzá, így hiányzik egy megfigyelés, és a mintám egy megfigyelés alatt áll, és nem képes megragadni az egész populációt? Most újra becsléseket kell készítenem, olyan értéktartományokkal, amelyek változó valószínűséggel elvehetik – már nem tudom pontosan meghatározni -, de amit becsülök, a valóságban még mindig egyetlen szám – a szám pontja vonal, nem tartomány – és még mindig rengeteg adatom van, ezért 95% -os magabiztossággal mondhatom, hogy a valódi érdeklődési statisztika valahol egy nagyon apró tartományban található. Természetesen minden attól függ, hogy ennek értéke (i) az utolsó megfigyelés történhet, de ez csak egy megfigyelés, ezért őrülten kívül kell lennie ahhoz, hogy az érdeklődési statisztikámat nagyban megváltoztassam, ami természetesen nem valószínű és tükröződik szűk bizalmi intervallumomban.

Ennek az éremnek a másik oldala ugyanazt a történetet meséli el: a rendelkezésemre álló adatok hegye puszta véletlenszerűség alapján arra vezethetne, hogy olyan statisztikai mintákat számoljak ki, amelyek nagyon eltérnek attól, amit kiszámítanék, ha csak kiegészítheti ezeket az adatokat azokkal a megfigyelésekkel, amelyek hiányoznak, de annak esélye ilyen félrevezető, elfogult mintát készíteni, véletlenül nagyon, nagyon alacsony. Alapvetően ezt számon tartom és kommunikálom, amikor beszámolok a nagyon szűk megbízhatósági intervallumról, ahol a tényleges népesedési statisztika valóban fekszik.

Ha onnan hátrafelé haladunk, akkor természetesen a bizalom kezdődik csökken, és ezáltal az elfogadható populációs értékek intervalluma – függetlenül attól, hogy ez az intervallum hol helyezkedik el a számegyenesen – szélesedni kezd. A mintám továbbra is determinista, mint mindig, és kiszámolhatom a mintaátlagokat és összefüggéseket, és kezelhetem ezeket a statisztikákat mintha állítások lennének azzal kapcsolatban, hogy mit számolnék, ha teljes adataim lennének a populációról, de minél kisebb a minta, annál szkeptikusabbnak kell lennem az állításokkal kapcsolatban, és annál nagyobb hitelt kell adnom annak a lehetőségének, hogy mi Valójában azt látnám, hogy a népesség adatai messze eltérnek attól, amit ebben a mintában látok. Tehát mindez arra irányul, hogy fordítva válaszoljon a kérdésére: a mintán kívüli statisztikákra vonatkozó becsléseink magabiztosabbak és egyetlen ponton összeforrnak , ismétlés bizonyos ismeretek teljes adatokkal neheztelnek, ugyanazon okból kifolyólag, hogy kevésbé lesznek biztosak, és annál kevesebb adattal rendelkezünk.

Fontos megérteni, hogy a statisztika szórása A ban kifejezetten hivatkozunk és számszerűsítjük annak valószínűségét, hogy különböző minták statisztikái különféle mintákban véletlenszerűen ugyanabból a populációból származnak, amelynek megint csak egy igazi értéke van az adott statisztikához. Magában a populációban egyáltalán nincs ennek a statisztikának a szórása – ez állandó szám, és nem változik. Egy változónak viszont saját maga a szórása, mind a populációban, mind pedig az adott mintában, és akkor ott van a populáció szórásának becsült értéke, amelyet megadhat a változó ismert szórása egy adott méretű, adott méretű mintán belül. Ezért fontos, hogy az összes referenciát egyenesen tartsuk, amikor a szórás (vagy inkább egy standard hiba) a populáció pontbecslése körül lehet. A változó standard deviációja, a mintában szereplő változó szórása alapján. Nincs egyszerűbb módja annak, hogy erről beszéljünk.

És végül vegye figyelembe, hogy igen, ez biztosan lehetséges egy minta, amely elfogult módon jeleníti meg a populáció eltéréseit, így bár ez viszonylag valószínűtlen, mindig lehetséges, hogy egy kisebb minta nem csak hazudik neked az érdeklődésre számot tartó populáció statisztikájáról, hanem hazudik is mennyire számíthat arra, hogy az érdekes statisztika samponként változik le a mintához. Ez nincs megkerülve. Gondoljon erre úgy, mintha valaki követelne, és akkor megkérdezné tőle, hogy hazudnak-e. Talán igent mondanak, ebben az esetben biztos lehetsz abban, hogy nem mondanak neked semmit, amit érdemes megfontolni. De ha nemet mondanak, akkor visszatérsz az első helyre. Vagy “hazudnak, vagy nem”, és ha nincs senki más, akitől megkérdezhetné, akkor csak ki kell választania, hogy hisz-e nekik. (Úgy tűnik, a bayesiek úgy gondolják, hogy van valamilyen jobb módjuk a döntés meghozatalára, de én alázatosan nem értek egyet.)

Megjegyzések

Válasz

Válasz

Vélemény, hozzászólás? Kilépés a válaszból