Jak se zvětšuje velikost vzorku, proč se zmenšuje standardní odchylka výsledků? Může někdo poskytnout laický příklad a vysvětlit, proč

Jak se zvyšuje velikost vzorku (například obchodní strategie s 80% hranou), proč standard odchylka výsledků se zmenšuje? Může někdo prosím vysvětlit, proč se směrodatná odchylka zmenšuje a výsledky se blíží skutečnému průměru … možná poskytnou jednoduchý, intuitivní, laický matematický příklad.

Komentáře

  • Možný duplikát Jaké intuitivní vysvětlení existuje pro centrální limitní větu?
  • “ Standardní odchylka výsledků “ je nejednoznačná (jaké výsledky ??) – a velmi obecný výrok v názvu je tedy přísně nepravdivý (existují zjevné protiklady; je ‚ pouze občas pravdivý). Může být lepší specifikovat konkrétní příklad (například distribuce vzorkování průměrů vzorků, které mají tu vlastnost, že se směrodatná odchylka zmenšuje s rostoucí velikostí vzorku).
  • Směrodatná odchylka nemá „d9855abe4f“>

s zvětšováním velikosti vzorku se nutně snižuje. Standardní chyba průměru však dělá, možná že ‚ je to, na co ‚ znovu odkazujete, v takovém případě jsme si jistější, kde průměr je, když se zvětší velikost vzorku.

  • Ano, musel jsem místo toho myslet standardní chybu. Proč se průměrná chyba vzorku zmenšuje? Můžete prosím uvést nějakou jednoduchou neabstrahující matematiku, která vizuálně ukáže proč. Proč získáváme ‚ jistější ‚ kde průměr je, jak se zvětšuje velikost vzorku (v mém případě jsou výsledky ve skutečnosti bližší reprezentací 80% míra výhry) jak k tomu dojde?
  • odpověď

    Proč se zmenšuje standardní odchylka s rostoucí velikostí vzorku (například obchodní strategie s 80% hranou)?

    Klíčovým konceptem jsou zde „výsledky“. Jaké jsou tyto výsledky ? Výsledky jsou odchylky odhadů parametrů populace, jako je průměr $ \ mu $.

    Pokud například měříte rozptyl vzorku $ s ^ 2_j $ hodnot $ x_ {i_j} $ ve vašem vzorku $ j $, s větší velikostí vzorku se nezmenší $ n_j $: $$ s ^ 2_j = \ frac 1 {n_j-1} \ sum_ {i_j} (x_ { i_j} – \ bar x_j) ^ 2 $$, kde $ \ bar x_j = \ frac 1 n_j \ sum_ {i_j} x_ {i_j} $ je ukázkový průměr.

    Odhad rozptylu však $ s ^ 2_ \ mu $ ze vzorku znamená $ \ bar x_j $ se zmenší s velikostí vzorku: $$ \ frac 1 n_js ^ 2_j $$

    Laické vysvětlení zní takto. Předpokládejme, že velikost celé populace je $ n $. Pokud bychom se podívali na každou hodnotu $ x_ {j = 1 \ tečky n} $, náš průměr vzorku by se rovnal skutečnému průměru: $ \ bar x_j = \ mu $. Jinými slovy by nejistota byla nulová a rozptyl odhadce by byl také nulový: $ s ^ 2_j = 0 $

    Když se však díváte pouze na vzorek velikosti $ n_j $ . Vypočítáte střední odhad vzorku $ \ bar x_j $ s nejistotou $ s ^ 2_j > 0 $. Takže někde mezi velikostí vzorku $ n_j $ a $ n $ nejistota (odchylka ) průměrné hodnoty vzorku $ \ bar x_j $ se snížilo z nenulové na nulu. To je nejjednodušší vysvětlení, jaké mohu přijít.

    Odpověď

    Možná nejjednodušší způsob, jak o tom přemýšlet, je rozdíl mezi populací a vzorkem. Pokud se vás zeptám, jaký je průměr proměnné ve vašem vzorku , nedáte mi odhad, že? Prostě to spočítáte a řeknete mi to, protože podle definice máte všechny data, která obsahují vzorek, a proto mohou přímo sledovat statistiku zájmu. Korelační koeficienty se v tomto smyslu neliší: pokud se vás zeptám, jaká je korelace mezi X a Y ve vašem vzorku a já zjevně se nestarejte o to, co je mimo vzorek a ve větší populaci (skutečné nebo metafyzické), ze které je čerpáno, pak jen zkreslete čísla a řekněte mi, žádná teorie pravděpodobnosti není zahrnuta.

    Nyní, co když se budeme starat o korelaci mezi těmito dvěma proměnnými mimo vzorek, tj. Buď v nějaké nepozorované populaci, nebo v nepozorovatelné a v jistém smyslu neustálé kauzální dynamice reality? (Pokud ji chápeme jako druhou populace je pak „superpopulací“; viz například https://www.jstor.org/stable/2529429 .) Pak samozřejmě provedeme testy významnosti a jinak použijeme to, co víme, ve vzorku k odhadu toho, co v populaci nemáme, včetně standardní odchylky populace, která se začíná dostávat tvá otázka.

    Ale nejdřív o tom přemýšlejme z druhého extrému, kde shromáždíme vzorek, který je tak velký, že se z něj jednoduše stane populace.Představte si údaje ze sčítání, pokud se výzkumná otázka týká celé skutečné populace země, nebo je to možná obecná vědecká teorie a máme nekonečný „vzorek“: pak znovu, pokud chci vědět, jak svět funguje, využívám mou všemohoucnost a jen vypočítat, spíše než jen odhadnout, mou statistiku zájmu. Co když pak budu mít mozek a už nejsem všemocný, ale jsem mu stále blízko, takže mi chybí jedno pozorování a můj vzorek nyní postrádá jedno pozorování k zachycení celé populace? Teď musím znovu udělat odhady s řadou hodnot, které by to mohlo mít s různou pravděpodobností – už to nemohu přesně určit – ale věc, kterou odhaduji, je ve skutečnosti stále jediné číslo – bod na čísle řádek, ne rozsah – a stále mám spoustu dat, takže mohu s 95% jistotou říci, že skutečná statistika zájmu leží někde v nějakém velmi malém rozsahu. Všechno samozřejmě záleží na tom, jakou hodnotu má stalo se poslední pozorování, ale je to jen jedno pozorování, takže by muselo být šíleně neobvyklé, aby se mohla hodně změnit moje statistika zájmu, což je samozřejmě nepravděpodobné a odráží se v mém úzkém intervalu spolehlivosti.

    Druhá strana této mince vypráví stejný příběh: hora dat, která mám, by mě mohla náhodou shodit k tomu, že bych vypočítal statistiku vzorku, která se velmi liší od toho, co bych vypočítal, kdyby mohl by jen rozšířit tato data pozorováním, které mi chybí, ale šance mít odebraný takový zavádějící, zkreslený vzorek čistě náhodou je opravdu, opravdu nízký. To je v zásadě to, o čem účtuji a komunikuji, když hlásím svůj velmi úzký interval spolehlivosti pro to, kde skutečně leží statistika zájmu, která nás zajímá.

    Teď, když odtamtud samozřejmě půjdeme pozpátku, důvěra začíná zmenšovat, a tak se interval věrohodných hodnot populace – bez ohledu na to, kde tento interval leží na číselné ose – začíná rozšiřovat. Můj vzorek je stále deterministický jako vždy, mohu vypočítat průměrné výběry a korelace a mohu zpracovat tyto statistiky jako by to byla tvrzení o tom, co bych počítal, kdybych měl úplné údaje o populaci, ale čím menší je vzorek, tím skeptičtější musím být k těmto tvrzením a tím více důvěryhodnosti musím dát možnosti, že co Opravdu bych viděl v populačních datech daleko od toho, co vidím v tomto vzorku. Takže to vše je jen tak, abychom na vaši otázku odpověděli obráceně: naše odhady statistik mimo vzorek jsou spolehlivější a konvergují v jednom bodě , rep nesnáší určité znalosti s úplnými údaji, a to ze stejného důvodu, že se stávají méně jistými a šíří se čím dál tím méně údajů.

    Je také důležité si uvědomit, že standardní odchylka statistiky konkrétně odkazuje a kvantifikuje pravděpodobnost získání různých statistik vzorků v různých vzorcích, které jsou náhodně čerpány ze stejné populace, což má opět jen jednu skutečnou hodnotu pro tuto statistiku zájmu. V samotné populaci neexistuje žádná standardní odchylka této statistiky – je to konstantní počet a nemění se. Proměnná má na druhou stranu vlastní směrodatnou odchylku, a to jak v populaci, tak v jakémkoli daném vzorku, a potom existuje odhad z standardní směrodatné odchylky, kterou můžete provést známá směrodatná odchylka dané proměnné v daném vzorku dané velikosti. Je tedy důležité udržovat všechny odkazy rovné, když můžete mít směrodatnou odchylku (nebo spíše standardní chybu) kolem bodového odhadu populace směrodatná odchylka proměnné, založená na směrodatné odchylce dané proměnné ve vašem vzorku. Neexistuje žádný jednodušší způsob, jak o tom mluvit.

    A na závěr si všimněte, že ano, určitě je možné vzorek, který vám poskytne zkreslené znázornění odchylek v populaci, takže i když je to relativně nepravděpodobné, je vždy možné, že vám menší vzorek nebude lhát jen o populační statistice zájmu, ale také o vás kolik byste měli očekávat, že se statistika zájmu bude lišit od samp le na vzorek. Neexistuje žádný způsob, jak to obejít. Přemýšlejte o tom, jako kdyby někdo uplatnil nárok, a pak se ho zeptejte, jestli klame. Možná říkají ano, a v takovém případě si můžete být jisti, že „vám neřeknou nic, co by stálo za zvážení. Ale pokud řeknou ne, jste docela zpátky na prvním místě. Buď „lžou, nebo ne“, a pokud se nemáte nikoho jiného zeptat, musíte si vybrat, zda jim chcete věřit. (Zdá se, že Bayesané si myslí, že mají lepší způsob, jak učinit toto rozhodnutí, ale já pokorně nesouhlasím.)

    Napsat komentář

    Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *