Jsem student, který se zajímá o statistiku. Materiál se mi líbí celkově, ale někdy těžko přemýšlím o aplikacích v reálném životě. Moje otázka se konkrétně týká běžně používaných statistických distribucí (normální – beta-gama atd.). Myslím, že v některých případech dostanu konkrétní vlastnosti, díky nimž je distribuce docela hezká – například paměťová vlastnost exponenciálu. Ale v mnoha jiných případech nemám intuici o důležitosti a aplikačních oblastech běžných distribucí, které vidíme v učebnicích.
Pravděpodobně existuje mnoho dobrých zdrojů, které se zabývají mými obavami, Byl bych rád, kdybys je mohl sdílet. Byl bych mnohem více motivován k materiálu, kdybych jej mohl spojit s příklady z reálného života.
Komentáře
Odpověď
Wikipedia má stránku, která uvádí mnoho distribucí pravděpodobnosti s odkazy na více podrobností o každé distribuci. Můžete si prohlédnout seznam a sledovat odkazy, abyste získali lepší přehled o typech f aplikace, pro které se běžně používají různé distribuce.
Nezapomeňte, že tyto distribuce se používají k modelování reality a jak řekl Box: „všechny modely se mýlí, některé modely jsou užitečné“.
Zde je několik běžných distribucí a některé z důvodů, proč jsou užitečné:
Normální: To je užitečné pro prohlížení prostředků a dalších lineárních kombinací (např. regresní koeficienty) kvůli CLT. Souvisí to s tím, pokud je známo, že něco vzniká v důsledku aditivních účinků mnoha různých malých příčin, pak může být normální rozumná distribuce: například mnoho biologických opatření je výsledkem více genů a mnoha faktorů prostředí a proto jsou často přibližně normální .
Gamma: Šikmo vpravo a užitečné pro věci s přirozeným minimem na 0. Běžně se používá pro uplynulé časy a některé finanční proměnné.
Exponenciální: speciální případ gama. Je bez paměti a snadno se mění.
Chi-kvadrát ($ \ chi ^ 2 $): speciální případ gama. Vzniká jako součet čtverců normálních proměnných (používá se pro odchylky).
Beta: Definováno mezi 0 a 1 (ale může být transformováno tak, aby bylo mezi jinými hodnotami), užitečné pro proporce nebo jiné veličiny, které musí být mezi 0 a 1.
Binomické: Kolik „úspěchů“ z daného počtu nezávislých pokusů se stejnou pravděpodobností „úspěchu“.
Poisson: Společné pro počty. Pěkné vlastnosti, že pokud počet událostí v časovém období nebo oblasti následuje Poissona, pak počet v dvojnásobném čase nebo oblasti následuje Poissona (s dvojnásobným průměrem): toto funguje pro přidání Poissons nebo změnu měřítka s jinými hodnotami než 2.
Všimněte si, že pokud k událostem dojde v průběhu času a čas mezi výskyty následuje exponenciální, pak počet, který se vyskytne v časovém období, následuje Poissona.
Negativní dvojčlen: Počítá s minimem 0 (nebo jiná hodnota v závislosti na verzi) a žádná horní hranice. Koncepčně je to počet „selhání“ před „úspěchem“. Negativní dvojčlen je také směsí Poissonových proměnných, jejichž prostředky pocházejí z rozdělení gama.
Geometrický: speciální případ pro záporný dvojčlen, kde se jedná o počet „poruch“ před 1. „úspěchem“. Pokud zkrátíte (zaokrouhlíte dolů) exponenciální proměnnou, aby byla diskrétní, bude výsledek geometrický.
Komentáře
- Děkuji za odpověď. Wikipedia však poskytuje obecnější popis, který se mi ‚ líbí. Moje otázka je v podstatě důvod, proč jsou některé distribuce hezké? Chcete-li dát možnou odpověď v případě normálního rozdělení, může to souviset s centrální omezenou větou – která říká, že pokud vzorkujete nekonečné množství pozorování, můžete ve skutečnosti v asympotice vidět, že dostatečná statistika těchto pozorování, vzhledem k nezávislosti, má normální rozdělení . Hledám další takové příklady.
- Není to úplně skutečné rozdělení, ale co bimodální? ‚ Nemůžu myslet na žádné běžně viděné příklady ze skutečného života, když jsem zjistil, že mnoho genderových rozdílů u člověka není bimodálních.
- Přidat multinomiální / li>
Odpověď
Kupte a přečtěte si alespoň prvních 6 kapitol (prvních 218 stránek) Williama J. Fellera. “ Úvod do teorie pravděpodobnosti a jejích aplikací, svazek 2 „ http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb .Alespoň si přečtěte Všechny problémy k řešení a nejlépe zkuste vyřešit co nejvíce. Nemusíte číst svazek 1, což podle mého názoru není nijak zvlášť záslužné.
Navzdory tomu, že autor zemřel před 45 1/2 lety, ještě než byla kniha dokonce hotová, je to prostě Nejlepší kniha pro rozvoj intuice v pravděpodobnosti a stochastických procesech a porozumění a rozvoj citů pro různé distribuce, jak souvisí s jevy reálného světa, a různé stochastické jevy, které se mohou a mohou vyskytovat. základ, který z něj postavíte, vám bude dobře sloužit ve statistikách.
Pokud to zvládnete v následujících kapitolách, které se poněkud zkomplikují, budete o světelné roky před téměř všemi. Jednoduše řečeno, pokud znáte Feller Vol 2, znáte pravděpodobnost (a stochastické procesy); to znamená, že cokoli, co nevíte, například nový vývoj, budete moci rychle vyzvednout a zvládnout stavbou na tomto pevném základu.
Téměř vše, co bylo dříve uvedeno v tomto vlákně, je uvnitř Feller Vol 2 (ne všechny materiály z Kendall Advanced Theory of Statistics, ale přečtení této knihy bude hračkou po Feller Vol 2), a ještě mnohem víc, to vše způsobem, který by měl rozvíjet vaše stochastické myšlení a intuici. Johnson a Kotz jsou dobré pro markant na různých distribucích pravděpodobnosti, Feller Vol 2 je užitečný pro učení se, jak uvažovat pravděpodobnostně, a vědět, co z Johnsona a Kotze získat a jak to použít.
Odpověď
Asymptotická teorie vede k normálnímu rozdělení, extrémním hodnotovým typům, stabilním zákonům a Poissonu. Exponenciální a Weibullovo tendenci přicházet jako parametrické rozdělení času na událost. V případě Weibulla se jedná o typ extrémní hodnoty pro minimum vzorku. V souvislosti s parametrickými modely pro normálně distribuovaná pozorování vznikají distribuce chí kvadrát, t a F při testování hypotéz a odhadu intervalu spolehlivosti. Chi kvadrát také přichází v analýze kontingenční tabulky a testech dobré shody. Pro studium síly testů máme necentrální t a F distribuce. Hypergeometrická distribuce vzniká v Fisherově přesném testu pro kontingenční tabulky. Binomické rozdělení je důležité při provádění experimentů k odhadu proporcí. Negativní binomie je důležité rozdělení pro modelování overdisperze v bodovém procesu. To by vám mělo dát dobrý start na praktické parametrické rozdělení. U nezáporných náhodných proměnných na (0, ∞) je rozdělení gama flexibilní pro zajištění různých tvarů a běžně se také používá log normální. Na [0,1] rodina beta poskytuje symetrická rozdělení včetně stejnoměrných protože distribuce jsou zkosené doleva nebo zkosené doprava.
Měl bych také zmínit, že pokud chcete znát všechny hloupé podrobnosti o distribucích ve statistikách, existuje klasická řada knih od Johnsona a Kotze, které obsahují diskrétní distribuce, spojité univariační distribuce a spojité multivariační distribuce a také svazek 1 Pokročilé teorie statistiky od Kendalla a Stuarta.
Komentáře
- Děkuji moc za odpověď, to je nesmírně užitečné. Ještě jednou vám děkuji, opravdu mi to pomohlo.
Odpověď
Stačí přidat další vynikající odpovědi.
Poissonovo rozdělení je užitečné, kdykoli máme počítání proměnných, jak již zmínili ostatní. Je však třeba říci mnohem více! Poisson vzniká asymptoticky z binomicky distribuované proměnné, když $ n $ (počet Bernoulliho experimentů) roste bez omezení a $ p $ (pravděpodobnost úspěchu každého jednotlivého experimentu () jde na nulu, a to tak, že $ \ lambda = np $ zůstává konstantní, ohraničené od nuly a nekonečna. To nám říká, že je to užitečné, kdykoli máme velké množství individuálně velmi nepravděpodobných událostí. Některé dobré příklady jsou: nehody, například počet autonehod v New Yorku v za den, protože pokaždé, když projdou / setkají se dvě auta, existuje velmi nízká pravděpodobnost havárie a počet takových příležitostí je skutečně astronomický! Nyní můžete sami přemýšlet o dalších příkladech, jako je celkový počet leteckých havárií na světě za rok. Klasický příklad, kdy počet úmrtí jezdeckých koní v preuské kavalérii!
Když se Poisson používá v epidemiologii, pro modelování počtu případů nějaké nemoci se často zjistí, že se nehodí dobře: Rozptyl je taky velký! Poisson má rozptyl = průměr, který lze snadno vidět z limitu binomického: V binomickém je rozptyl $ np (1-p) $, a když $ p $ jde na nulu, nutně $ 1-p $ jde na jednu, takže varianta jde na $ np $, což je očekávání, a oba jdou na $ \ lambda $.Jedním ze způsobů je hledat alternativu k Poissonu s většími rozptyly, které nejsou podmíněny tak, aby se rovnaly střední hodnotě, například negativní binomický. ¿Ale proč dochází k tomuto jevu většího rozptylu? Jednou z možností je, že individuální pravděpodobnosti nemoci $ p $ pro jednu osobu nejsou konstantní a nezávisí ani na nějaké pozorované proměnné (řekněme věk, povolání, stav kouření, …) Tomu se říká nepozorovaná heterogenita a někdy se používají modely protože se nazývá křehké modely nebo smíšené modely. Jedním ze způsobů, jak toho dosáhnout, je předpokládat, že $ p $ v populaci pochází z nějaké distribuce, a za předpokladu, že jde například o distribuci gama (což usnadňuje matematiku …), dostaneme distribuci gama-poisson – – který obnoví záporný dvojčlen!
Odpověď
Nedávno nedávno publikovaný výzkum naznačuje, že lidský výkon NENÍ normálně distribuován, na rozdíl od běžného myšlení. Data ze čtyř oborů byla analyzována: (1) Akademici v 50 oborech, založené na frekvenci publikování v nejvýznamnějších oborových časopisech. (2 ) Baviči, jako jsou herci, hudebníci a spisovatelé, a počet obdržených prestižních ocenění, nominací nebo vyznamenání. (3) Politici v 10 zemích a výsledky voleb / znovuzvolení. (4) Kolegiátní a profesionální sportovci, kteří se dívají na nej individualizovanější dostupná opatření, jako je počet oběhů, recepce v týmových sportech a celkové výhry v jednotlivých s porty. Autor píše: „V každé studii jsme viděli jasné a konzistentní rozdělení zákonů moci bez ohledu na to, jak úzce nebo široce jsme data analyzovali …“
Komentáře
- Kdo navrhl, že lidská výkonnost je obvykle distribuována ?! Princip 80-20 navrhl Pareto (1906!).
Odpověď
Často se používá Cauchyova distribuce ve financování modelovat výnosy aktiv. Pozoruhodné jsou také Johnsonovy ohraničené a neohraničené distribuce díky jejich flexibilitě (použil jsem je při modelování cen aktiv, výrobě elektřiny a hydrologii).
Odpověď
Některé běžné rozdělení pravděpodobnosti; Z zde
Jednotné rozdělení (diskrétní) – Hodili jste 1 kostkou a pravděpodobnost pádu kterékoli z 1, 2, 3, 4, 5 a 6 je stejná.
(z zde )
Rovnoměrné rozdělení (kontinuální) – Nastříkali jste na zeď velmi jemný prášek. U malé plochy na zdi je šance na prach na místě na zdi stejnoměrná.
Máte velkou láhev s plynem. Pro každou jednotkovou plochu je počet molekul plynu narážejících na čtvereční cm na vnitřní stěnu za sekundu zdánlivě jednotný.
z zde
Bernoulliho distribuce – Bernoulliho pokus je (nebo binomický pokus) je náhodný experiment s přesně dvěma možnými výsledky, “ success “ a “ selhání „. V takovém pokusu je pravděpodobnost úspěchu p, pravděpodobnost neúspěchu q = 1-p.
Například při losování mincí můžeme mít 2 výsledek – hlavu nebo ocas. U spravedlivé mince je pravděpodobnost hlavy 1/2; pravděpodobnost ocasu je 1/2 je to jeden druh Bernoulliho distribuce, který je také jednotný.
Při losování mincí, pokud je mince neférová, jako je pravděpodobnost získání hlavy, je 0,9, pak pravděpodobnost pádu ocasu bude 0,1.
Bernauli Distribuce s pravděpodobnostmi 0,6 a 0,4; z zde
Binomická distribuce – Pokud je Bernoulliho pokus (s 2 výsledky, respektive s pravděpodobností p a q = 1-p) spuštěn nkrát; (jako když je mince hodena nkrát); bude malá pravděpodobnost, že dostanete celou hlavu, a bude malá pravděpodobnost, že dostanete všechny ocasy. Určitá hodnota hlavy a určitá hodnota ocasu by byla maximální. Tato distribuce se nazývá binomická distribuce.
Binomická distribuce se šachovnicí.obrázek upraven z WP
distribuce společnosti Poisson – příklad z Wikipedie: jednotlivec sledující množství e-mailů, které dostávají každý den, si může všimnout, že dostává průměrný počet 4 dopisů za den. Pokud e-maily pocházejí z nezávislého zdroje , poté se počet kusů pošty přijatých za den řídí Poissonovou distribucí. tj. bude jen zanedbatelná šance na získání nulové nebo 100 pošty denně, ale maximálně určitého počtu (zde 4) pošty denně.
Podobně; předpokládejme, že na imaginární louce dostaneme kolem 10 oblázků na 1 km ^ 2. S úměrně větší plochou dostaneme úměrně více oblázků. Ale pro určitý vzorek 1 km ^ 2 je velmi nepravděpodobné, že získá 0 nebo 100 oblázků. pravděpodobně následuje Poissonovo rozdělení.
Podle Wikipedie počet událostí rozpadu za sekundu z radioaktivního zdroje sleduje Poissonovo rozdělení.
Poissonova distribuce z Wikipedie
Normální rozdělení nebo gaussovské rozdělení – pokud se současně valí n počet matric a vzhledem k tomu, že n je velmi velký; součet výsledku každého umírání by měl tendenci být seskupen kolem centrální hodnoty. Ani příliš velký, ani příliš malý. Toto rozdělení se nazývá normální rozdělení nebo křivka ve tvaru zvonu.
součet ze 2 matric, z zde
S rostoucím počtem simultánních umírání se distribuce přibližuje ke Gaussian. Z centrální limitní věty
Podobně, pokud by bylo současně hodeno n počet mincí a n je velmi velké, byla by malá šance, že se dostane k mnoha hlavám nebo příliš mnoha ocasům. Počet hlav se soustředí kolem určité hodnoty. Je to podobné jako u binomické distribuce, ale počet mincí je ještě větší.
Komentáře
- Uveďte, zda v mém výše uvedeném úsilí existuje mylná představa, protože Obávám se složitosti statistik.
EstimatedDistribution
funkce .