Jag är en student som utvecklar ett intresse för statistik. Jag gillar materialet överlag, men jag har ibland svårt att tänka på applikationer till verkliga livet. Specifikt handlar min fråga om vanligt förekommande statistiska fördelningar (normal – beta-gamma etc.). Jag antar att i vissa fall får jag de specifika egenskaperna som gör distributionen ganska trevlig – minnesfri egenskap av exponentiellt till exempel. Men i många andra fall har jag inte en intuition om både vikten och tillämpningsområdena för de vanliga distributionerna som vi ser i läroböcker.
Det finns förmodligen många bra källor som tar upp mina bekymmer, jag skulle vara glad om du kunde dela dem. Jag skulle vara mycket mer motiverad i materialet om jag kunde associera det med exempel från verkliga livet.
Kommentarer
Svar
Wikipedia har en sida som listar många sannolikhetsfördelningar med länkar för mer information om varje distribution. Du kan titta igenom listan och följa länkarna för att få en bättre känsla för typerna o f applikationer som de olika distributionerna vanligtvis används för.
Kom bara ihåg att dessa distributioner används för att modellera verkligheten och som Box sa: ”alla modeller är felaktiga, vissa modeller är användbara”.
Här är några av de vanliga fördelningarna och några av anledningarna till att de är användbara:
Normal: Detta är användbart för att titta på medel och andra linjära kombinationer (t.ex. regressionskoefficienter) på grund av CLT. Relaterat till det är om något är känt att uppstå på grund av additiva effekter av många olika små orsaker kan det normala vara en rimlig fördelning: till exempel, många biologiska mått är resultatet av flera gener och flera miljöfaktorer och därför är det ofta ungefär normalt .
Gamma: Höger skevt och användbart för saker med ett naturligt minimum vid 0. Vanligtvis används för förflutna tider och vissa ekonomiska variabler.
Exponential: specialfall för Gamma. Det är minneslöst och skalas lätt.
Chi-kvadrat ($ \ chi ^ 2 $): Gamma-specialfall. Uppstår som summan av kvadratiska normala variabler (används så för avvikelser).
Beta: Definierad mellan 0 och 1 (men kan omvandlas till att vara mellan andra värden), användbar för proportioner eller andra kvantiteter som måste vara mellan 0 och 1.
Binomial: Hur många ”framgångar” av ett givet antal oberoende försök med samma sannolikhet för ”framgång”.
Poisson: Gemensamt för räkningar. Trevliga egenskaper att om antalet händelser under en tidsperiod eller område följer en Poisson, så kommer antalet i två gånger tiden eller området fortfarande att följa Poisson (med två gånger medelvärdet): detta fungerar för att lägga till gifter eller skalning med andra värden än 2.
Observera att om händelser inträffar över tiden och tiden mellan händelser följer en exponentiell så kommer antalet som inträffar under en tidsperiod efter en Poisson.
Negativ binomial: Räknar med minsta 0 (eller annat värde beroende på vilken version) och ingen övre gräns. Konceptuellt är det antalet ”misslyckanden” före k ”framgångar”. Det negativa binomialet är också en blandning av Poisson-variabler vars medel kommer från en gammafördelning.
Geometrisk: speciellt fall för negativ binomial där det är antalet ”misslyckanden” före den första ”framgången”. Om du trunkerar (avrundar) en exponentiell variabel för att göra den diskret är resultatet geometriskt.
Kommentarer
- Tack för ditt svar. Wikipedia ger dock en mer allmän beskrivning som jag ’ gillar. I grund och botten är min fråga varför vissa distributioner är trevliga? För att ge ett möjligt svar i händelse av normalfördelning kan det vara relaterat till central begränsad sats – som säger att om du provar en oändlig mängd observationer kan du faktiskt i asympotics se att en tillräcklig statistik för dessa observationer, givet oberoende har en normalfördelning . Jag letar efter fler sådana exempel ..
- Inte precis en verklig distribution, men hur är det med bimodal? Jag kan ’ tänka på några vanliga exempel från verkliga livet efter att jag upptäckte att de många könsskillnaderna hos människor inte är bimodala.
- Lägg till multinomial
Svar
Köp och läs minst de första 6 kapitlen (första 218 sidorna) av William J. Feller ” En introduktion till sannolikhetsteori och dess tillämpningar, Vol. 2 ” http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb .Läs åtminstone alla problem för lösning, och försök helst lösa så många du kan. Du behöver inte ha läst Vol 1, vilket enligt min mening inte är särskilt förtjänstfullt.
Trots att författaren dog för 45 1/2 år sedan, innan boken ens var klar, är detta helt enkelt finaste boken finns, bar none, för att utveckla en intuition i sannolikhet och stokastiska processer, och förstå och utveckla en känsla för olika distributioner, hur de relaterar till verkliga världsfenomen och olika stokastiska fenomen som kan och kan inträffa. Och med det fasta grunden du kommer att bygga utifrån, kommer du att få bra betjänad statistik.
Om du kan göra det genom efterföljande kapitel, som blir något svårare, kommer du att vara ljusår framför nästan alla. om du känner till Feller Vol 2 vet du sannolikhet (och stokastiska processer), vilket betyder att allt du inte vet, till exempel ny utveckling, kommer du att kunna plocka upp och behärska genom att bygga på den solida grunden. p>
Nästan allt som tidigare nämnts i den här tråden finns i Feller Vol 2 (inte allt material i Kendall Advanced Theory of Statistics, men att läsa den boken kommer att bli en bit tårta efter Feller Vol 2), och mer, mycket mer, allt på ett sätt som bör utveckla ditt stokastiska tänkande och intuition. Johnson och Kotz är bra för detaljer om olika sannolikhetsfördelningar, Feller Vol 2 är användbart för att lära sig att tänka probabilistiskt och veta vad man ska extrahera från Johnson och Kotz och hur man använder det.
Svar
Asymptotisk teori leder till normalfördelningen, de extrema värdetyperna, de stabila lagarna och Poisson. Det exponentiella och Weibull tenderar att komma upp som parametrisk tid för händelsedistributioner. I fallet med Weibull är det en extremt värdetyp för ett minimum av ett prov. Relaterade till parametriska modeller för normalt distribuerade observationer uppstår chi kvadrat, t och F fördelningar vid hypotes testning och konfidensintervall uppskattning. Chi kvadrat kommer också upp i beredskapstabellanalys och godhet av passningstest. För att studera testernas kraft har vi de icke-centrala t- och F-fördelningarna. Den hypergeometriska fördelningen uppstår i Fishers exakta test för beredskapstabeller. Binomialfördelningen är viktig när man gör experiment för att uppskatta proportioner. Den negativa binomialen är en viktig fördelning för att modellera överdispersion i en punktprocess. Det borde ge dig en bra start på pratisk parametriska störningar. För icke-negativa slumpmässiga variabler på (0, ∞) är gammafördelningen flexibel för att ge en mängd olika former och lognormalen används också ofta. På [0,1] ger beta-familjen symmetriska störningar inklusive uniformen också som fördelningar skev åt vänster eller skev höger.
Jag bör också nämna att om du vill veta alla de snygga detaljerna om distributioner i statistik så finns det klassiska böcker av Johnson och Kotz som inkluderar diskreta distributioner, kontinuerliga univariata distributioner och kontinuerliga multivariata distributioner och även volym 1 i Advanced Theory of Statistics av Kendall och Stuart.
Kommentarer
- Tack så mycket för svaret, det här är extremt användbart. Tack igen, det hjälpte mig verkligen.
Svar
Bara för att lägga till de andra utmärkta svaren.
Poisson-fördelningen är användbar när vi räknar variabler, som andra har nämnt. Men mycket mer bör sägas! Poisson uppstår asymptotiskt från en binomiellt distribuerad variabel, när $ n $ (antalet Bernoulli-experiment) ökar utan gränser, och $ p $ (framgångssannolikheten för varje enskilt experiment () går till noll, på ett sådant sätt att $ \ lambda = np $ förblir konstant, begränsad från noll och oändlighet. Detta säger oss att det är användbart när vi har ett stort antal individuellt mycket osannolika händelser. Några bra exempel är: olyckor, till exempel antalet bilkrascher i New York i en dag, eftersom varje gång två bilar passerar / möts finns det en mycket låg sannolikhet för en krasch, och antalet sådana möjligheter är verkligen astronomiskt! Nu kan du själv tänka på andra exempel, till exempel totalt antal flygkrascher i världen på ett år. Det klassiska exemplet där antalet dödsfall av hästar i det preussiska kavalleriet!
När Poisson används i epidemiologi, för att modellera antalet fall av någon sjukdom, tycker man ofta att den inte passar ja: avvikelsen är också stora! Poisson har varians = medelvärde, vilket lätt kan ses från gränsen för binomial: I binomialet är variansen $ np (1-p) $, och när $ p $ går till noll nödvändigtvis går $ 1-p $ till en, så variansen går till $ np $, vilket är förväntningen, och de går båda till $ \ lambda $.Ett sätt är att söka efter ett alternativ till Poisson med större varians, inte konditionerat för att vara lika med medelvärdet, såsom den negativa binomialen. ¿Men varför inträffar detta fenomen med större varians? En möjlighet är att de individuella sannolikheterna för sjukdom $ p $ för en person inte är konstanta och inte heller beror på någon observerad kovariat (säg ålder, yrke, rökstatus, …) Det kallas obemärkt heterogenitet, och ibland modeller som används för är kallas svaga modeller, eller blandade modeller. Ett sätt att göra detta är att anta att $ p $ ”s i befolkningen kommer från en viss fördelning, och förutsatt att det är en gammafördelning, till exempel (vilket ger enklare matematik …), får vi gamma-poissonfördelningen – – som återställer det negativa binomialet!
Svar
Nyligen publicerad forskning föreslår att mänsklig prestanda INTE normalt distribueras, i motsats till vanlig tanke. Data från fyra fält analyserades: (1) Akademiker i 50 discipliner, baserat på publiceringsfrekvens i de mest framstående disciplinspecifika tidskrifterna. (2 . tillgängliga åtgärder, till exempel antalet hemmakörningar, mottagningar i lagsport och totala vinster i individ hamnar. Författaren skriver, ”Vi såg en tydlig och konsekvent fördelning av maktlagar utvecklas i varje studie, oavsett hur smalt eller brett vi analyserade data …”
Kommentarer
- Vem föreslog att mänsklig prestanda normalt fördelas ?! 80-20-principen föreslogs av Pareto (1906!).
Svar
Cauchy-distribution används ofta i ekonomi för att modellera tillgångsavkastning. Också anmärkningsvärt är Johnsons avgränsade och obegränsade distributioner på grund av deras flexibilitet (jag har använt dem för modellering av tillgångspriser, elproduktion och hydrologi).
Svar
Några vanliga sannolikhetsfördelningar; Från här
Uniform distribution (diskret) – Du rullade en dör och sannolikheten att falla någon av 1, 2, 3, 4, 5 och 6 är lika.
(från här )
Uniform distribution (kontinuerlig) – Du sprutade lite fint pulver mot en vägg. För ett litet område på väggen är chanserna för att falla damm på en plats på väggen enhetliga.
Du har en stor gasflaska. För varje enhetsarea är antalet gasmolekyler som slår per kvadrat cm på innerväggen per sekund till synes enhetligt.
från här
Bernoulli-distribution – Bernoulli-försöket är (eller binomialtest) är ett slumpmässigt experiment med exakt två möjliga resultat, ” framgång ” och ” fel ”. I en sådan prövning är sannolikheten för framgång p, sannolikheten för misslyckande är q = 1-p.
Till exempel, i ett myntkast kan vi ha 2 utfallshuvud eller svans. För ett rättvist mynt är sannolikheten för huvudet 1/2; sannolikheten för svans är 1/2 det är en typ av Bernoulli-fördelning som också är enhetlig.
I ett myntkast om myntet är orättvist, t.ex. att sannolikheten för att få huvudet är 0,9 är sannolikheten för att falla en svans kommer att vara 0,1.
Bernauli Fördelning med sannolikheter 0,6 och 0,4; från här
Binomial fördelning – Om ett Bernoulli-försök (med 2 utfall, respektive med sannolikheter p och q = 1-p) körs n gånger; (som om ett mynt kastas n gånger); det kommer att finnas en liten sannolikhet för att få allt huvud, och det skulle vara en liten sannolikhet för att få alla svansar. Ett visst värde på huvudet och ett visst värde på svansen skulle vara maximalt. Denna distribution kallas en binomial distribution.
Binomial distribution med schackrutan.bild modifierad från WP
Poissons distribution – exempel från Wikipedia: en person som håller reda på mängden e-post de får varje dag kanske märker att de får ett genomsnittligt antal 4 brev per dag. Om e-postmeddelanden kommer från oberoende källa , då antalet brev som mottas på en dag följer en Poisson-distribution, det vill säga det finns en försumbar chans att få noll eller 100 post per dag men högst ett visst antal (här 4) post per dag.
På samma sätt, antar att vi på en imaginär äng får omkring 10 småsten på 1 km ^ 2. Med proportionellt mer area får vi proportionellt fler småsten. Men för ett visst 1 km ^ 2-prov är det mycket osannolikt att få 0 eller 100 småsten. förmodligen följer det en Poissons distribution.
Enligt Wikipedia följer antalet förfallshändelser per sekund från en radioaktiv källa en Poissons distribution.
Poissons distribution från Wikipedia
Normalfördelning eller Gaussisk fördelning – om n antal matriser rullade samtidigt, och med tanke på att n är mycket stort; summan av utfallet för varje dör skulle tendera att grupperas kring ett centralt värde. Inte för stort, inte för litet. Denna fördelning kallas en normalfördelning eller klockformad kurva.
Sum av 2 dör, från här
Med ökande antal samtidiga dör närmar sig distributionen Gauss. Från centralgränssats
På samma sätt, om ett antal mynt kastas samtidigt, och n är mycket stort, skulle det vara en liten chans att vi kommer till många huvuden eller för många svansar. Antalet huvuden kommer att centrera kring ett visst värde. Det liknar binomialfördelningen men antalet mynt är ännu större.
Kommentarer
- Vänligen ange om det finns någon missuppfattning i mitt arbete ovan Jag är rädd för statistikens komplexitet.
EstimatedDistribution
-funktion .