Virkelige eksempler på almindelige fordelinger

Jeg er en studerende, der udvikler en interesse for statistik. Jeg kan godt lide materialet, men jeg har nogle gange svært ved at tænke over applikationer til det virkelige liv. Specifikt handler mit spørgsmål om almindeligt anvendte statistiske distributioner (normal – beta-gamma osv.). Jeg antager, at jeg i nogle tilfælde får de særlige egenskaber, der gør fordelingen ganske flot – hukommelsesløs egenskab af eksponentiel f.eks. Men i mange andre tilfælde har jeg ikke en intuition om både vigtigheden og anvendelsesområderne for de almindelige distributioner, som vi ser i lærebøger.

Der er sandsynligvis mange gode kilder, der tager fat på mine bekymringer, jeg ville være glad for, hvis du kunne dele dem. Jeg ville være meget mere motiveret i materialet, hvis jeg kunne forbinde det med virkelige eksempler.

Kommentarer

Svar

Wikipedia har en side, der viser mange sandsynlighedsfordelinger med links til flere detaljer om hver distribution. Du kan kigge igennem listen og følge linkene for at få en bedre fornemmelse af typerne o f applikationer, som de forskellige distributioner ofte bruges til.

Husk bare, at disse distributioner bruges til at modellere virkeligheden, og som Box sagde: “alle modeller er forkerte, nogle modeller er nyttige”.

Her er nogle af de almindelige fordelinger og nogle af grundene til, at de er nyttige:

Normal: Dette er nyttigt til at se på midler og andre lineære kombinationer (f.eks. regressionskoefficienter) på grund af CLT. Relateret til det er, hvis noget vides at opstå på grund af additive virkninger af mange forskellige små årsager, så kan det normale være en rimelig fordeling: for eksempel er mange biologiske mål resultatet af flere gener og flere miljøfaktorer, og derfor er de ofte omtrent normale .

Gamma: Højre skæv og nyttig til ting med et naturligt minimum på 0. Almindeligt brugt i forløbne tider og nogle økonomiske variabler.

Eksponentiel: Gamma-specialtilfælde. Det er hukommelsesløst og skaleres let.

Chi-kvadrat ($ \ chi ^ 2 $): specielt tilfælde af Gamma. Opstår som sum af kvadratiske normale variabler (så brugt til afvigelser).

Beta: Defineret mellem 0 og 1 (men kunne omdannes til at være mellem andre værdier), nyttigt til proportioner eller andre størrelser, der skal være mellem 0 og 1.

Binomial: Hvor mange “succeser” ud af et givet antal uafhængige forsøg med samme sandsynlighed for “succes”.

Poisson: Fælles for optællinger. Dejlige egenskaber, at hvis antallet af begivenheder i en tidsperiode eller et område følger en Poisson, så følger antallet i det dobbelte af tiden eller området stadig Poisson (med to gange gennemsnittet): dette fungerer for at tilføje Poissons eller skalering med andre værdier end 2.

Bemærk, at hvis begivenheder opstår over tid, og tiden mellem forekomster følger en eksponentiel, så følger antallet, der opstår i en tidsperiode, en Poisson.

Negativ binomial: Tæller med minimum 0 (eller en anden værdi afhængigt af hvilken version) og ingen øvre grænse. Konceptuelt er det antallet af “fiaskoer” før k “succeser”. Den negative binomial er også en blanding af Poisson-variabler, hvis middel kommer fra en gammafordeling.

Geometrisk: specielt tilfælde for negativ binomial, hvor det er antallet af “fiaskoer” før 1. “succes”. Hvis du trunker (afrunder) en eksponentiel variabel for at gøre den diskret, er resultatet geometrisk.

Kommentarer

  • Nå tak for dit svar. Imidlertid giver wikipedia en mere generel beskrivelse, som jeg ‘ gerne. Dybest set er mit spørgsmål, hvorfor nogle distributioner er gode? At give et muligt svar i tilfælde af normalfordeling kan være relateret til central begrænset sætning – som siger, at hvis du prøver en uendelig mængde observationer, kan du faktisk i asympotics se, at en tilstrækkelig statistik af disse observationer, givet uafhængighed, har en normalfordeling . Jeg leder efter flere eksempler sådan ..
  • Ikke ligefrem en reel fordeling, men hvad med bimodal? Jeg kan ‘ ikke tænke på almindeligt sette virkelige eksempler, efter at jeg fandt ud af, at de mange kønsforskelle hos mennesker ikke er bimodale.
  • Tilføj multinomial

Svar

Køb og læs mindst de første 6 kapitler (første 218 sider) af William J. Feller ” En introduktion til sandsynlighedsteori og dens anvendelser, bind 2 “ http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb .Læs i det mindste alle problemer til løsning, og prøv helst at løse så mange som muligt. Du behøver ikke at have læst bind 1, som efter min mening ikke er særlig fortjenstfuldt.

På trods af at forfatteren døde for 45 1/2 år siden, før bogen endda blev færdig, er dette simpelthen fineste bog findes der, bar ingen, til at udvikle en intuition i sandsynlighed og stokastiske processer, og forstå og udvikle en fornemmelse for forskellige fordelinger, hvordan de relaterer sig til virkelige verdensfænomener og forskellige stokastiske fænomener, som kan og kan forekomme. Og med det faste fundament, du vil bygge ud fra det, vil du blive godt tjent med statistikker.

Hvis du kan klare det gennem efterfølgende kapitler, som bliver noget sværere, vil du være lysår foran næsten alle. hvis du kender Feller Vol 2, kender du sandsynlighed (og stokastiske processer), hvilket betyder at alt hvad du ikke ved, såsom nye udviklinger, vil du være i stand til hurtigt at opfange og mestre ved at bygge videre på det solide fundament. p>

Næsten alt, hvad der tidligere er nævnt i denne tråd, er inde Feller Vol 2 (ikke alt materialet i Kendall Advanced Theory of Statistics, men at læse den bog vil være et stykke kage efter Feller Vol 2) og mere, meget mere, alt sammen på en måde, der skal udvikle din stokastiske tænkning og intuition. Johnson og Kotz er gode til detaljer i forskellige sandsynlighedsfordelinger, Feller Vol 2 er nyttig til at lære at tænke sandsynligt og vide, hvad man skal udtrække af Johnson og Kotz, og hvordan man bruger det.

Svar

Asymptotisk teori fører til normalfordeling, ekstreme værdityper, stabile love og Poisson. Det eksponentielle og Weibull har tendens til at komme op som parametrisk tid til begivenhedsfordelinger. For Weibull er det en ekstrem værditype for minimumet af en prøve. Relateret til de parametriske modeller for normalt distribuerede observationer opstår chi kvadrat, t og F fordeling i hypotesetestning og konfidensinterval estimering. For at studere styrken af test har vi de ikke-centrale t- og F-distributioner. Den hypergeometriske fordeling opstår i Fishers nøjagtige test for beredskabstabeller. Binomialfordelingen er vigtig, når man udfører eksperimenter for at estimere proportioner. Den negative binomiale er en vigtig fordeling for at modellere overdispersion i en punktproces. Det skulle give dig en god start på det praktiske parametriske distrbutioner. For ikke-negative tilfældige variabler på (0, ∞) er gammafordelingen fleksibel til at give en række forskellige former, og lognormal bruges også ofte. På [0,1] giver beta-familien symmetriske forstyrrelser inklusive uniform såvel som fordelinger skævt til venstre eller skævt til højre.

Jeg skal også nævne, at hvis du vil vide alle de skøre detaljer om distributioner i statistikker, er der den klassiske serie af bøger af Johnson og Kotz, der inkluderer diskrete distributioner, kontinuerlige univariate distributioner og kontinuerlige multivariate distributioner og også bind 1 i Advanced Theory of Statistics af Kendall og Stuart.

Kommentarer

  • Mange tak for svaret, det er yderst nyttigt. Tak igen, det hjalp mig virkelig.

Svar

Bare for at føje til de andre fremragende svar.

Poisson-fordelingen er nyttig, når vi har tællende variabler, som andre har nævnt. Men meget mere skal siges! Poissonen opstår asymptotisk fra en binomialfordelt variabel, når $ n $ (antallet af Bernoulli-eksperimenter) stiger uden grænser, og $ p $ (sandsynligheden for hvert enkelt eksperiment () går til nul på en sådan måde, at $ \ lambda = np $ forbliver konstant, afgrænset væk fra nul og uendelig. Dette fortæller os, at det er nyttigt, når vi har et stort antal individuelt meget usandsynlige begivenheder. Nogle gode eksempler er: ulykker, såsom antallet af bilulykker i New York i en dag, da hver gang to biler passerer / mødes, er der meget lav sandsynlighed for et styrt, og antallet af sådanne muligheder er faktisk astronomisk! Nu kan du selv tænke på andre eksempler, såsom det samlede antal flyulykker i verden om et år. Det klassiske eksempel, hvor antallet af dødsfald ved hestekik i det preussiske kavaleri!

Når Poisson bruges i epidemiologi, til modellering af antallet af tilfælde af sygdom, finder man ofte, at det ikke passer godt: Variansen er også stor! Poisson har varians = middel, som let kan ses fra grænsen for binomial: I binomialet er variansen $ np (1-p) $, og når $ p $ går til nul nødvendigvis $ 1-p $ går til en, så variansen går til $ np $, hvilket er forventningen, og de begge går til $ \ lambda $.En måde er at søge efter et alternativ til Poisson med større varians, ikke betinget til at være lig med gennemsnittet, såsom den negative binomial. ¿Men hvorfor forekommer dette fænomen med større varians? En mulighed er, at de individuelle sandsynligheder for sygdom $ p $ for en person ikke er konstante og heller ikke afhænger af noget observeret kovariat (f.eks. Alder, beskæftigelse, rygestatus, …) Det kaldes ikke observeret heterogenitet, og nogle gange modeller, der anvendes for kaldes skrøbelige modeller eller blandede modeller. En måde at gøre dette på er at antage, at $ p $ “s i befolkningen kommer fra en vis fordeling, og forudsat at det f.eks. Er en gammafordeling (hvilket giver enklere matematik …), får vi gamma-poissonfordelingen – – som gendanner det negative binomiale!

Svar

For nylig offentliggjort forskning antyder, at menneskelig præstation IKKE normalt distribueres, i modsætning til almindelig tanke. Data fra fire felter blev analyseret: (1) Akademikere i 50 discipliner baseret på udgivelsesfrekvens i de mest fremtrædende fagspecifikke tidsskrifter. (2 ) Underholdere, såsom skuespillere, musikere og forfattere og antallet af prestigefyldte priser, nomineringer eller udmærkelser, der er modtaget. (3) Politikere i 10 nationer og valg / genvalgsresultater. (4) Kollegiale og professionelle atleter, der ser på de mest individualiserede tilgængelige mål, såsom antallet af hjemmeløb, receptioner i holdsport og samlede sejre i individuelle s porte. Forfatteren skriver, “Vi så en klar og konsekvent fordeling af magt-lovgivning udfolde sig i hver undersøgelse, uanset hvor snævert eller bredt vi analyserede dataene …”

Kommentarer

  • Hvem foreslog, at menneskelig ydeevne normalt distribueres ?! 80-20-princippet blev foreslået af Pareto (1906!).

Svar

Cauchy-distribution bruges ofte inden for finansiering til modellering af aktivafkast. Også bemærkelsesværdigt er Johnsons afgrænsede og ubegrænsede distributioner på grund af deres fleksibilitet (jeg har anvendt dem i modellering af aktivpriser, elproduktion og hydrologi).

Svar

Nogle almindelige sandsynlighedsfordelinger

Nogle almindelige sandsynlighedsfordelinger; Fra her

Ensartet fordeling (diskret) – Du rullede 1 dør, og sandsynligheden for at falde nogen af 1, 2, 3, 4, 5 og 6 er lig.

Ensartet diskret (fra her )

Ensartet fordeling (kontinuerlig) – Du sprøjtede noget meget fint pulver mod en væg. For et lille område på væggen er chancerne for at falde støv et sted på væggen ensartede.

Du har en stor gasflaske. For ethvert enhedsareal er antallet af gasmolekyler, der rammer pr. Kvadrat cm på den indvendige væg pr. Sekund, tilsyneladende ensartet.

Wikipedia-gas kollision fra her

Bernoulli distribution – Bernoulli forsøg er (eller binomial forsøg) er et tilfældigt eksperiment med nøjagtigt to mulige resultater, ” succes ” og ” fiasko “. I en sådan prøve er sandsynligheden for succes p, sandsynligheden for fiasko q = 1-p.

For eksempel kan vi i en møntkast have 2 udfaldshoved eller hale. For en fair mønt er sandsynligheden for hovedet 1/2; sandsynligheden for hale er 1/2, det er en slags Bernoulli-distribution, som også er ensartet.

I en møntkast, hvis mønten er uretfærdig, såsom sandsynligheden for at få hoved er 0,9, er sandsynligheden for at falde en hale vil være 0,1.

Bernauli Bernauli Distribution med sandsynligheder 0,6 og 0,4; fra her

Binomial fordeling – Hvis et Bernoulli-forsøg (med 2 udfald henholdsvis med sandsynligheder p og q = 1-p) køres i n gange; (f.eks. hvis en mønt kastes n gange); der vil være en lille sandsynlighed for at få hele hovedet, og der ville være en lille sandsynlighed for at få alle haler. En bestemt værdi af hovedet og en bestemt værdi af halen ville være maksimal. Denne distribution kaldes en binomial distribution.

BINOMIAL Binomial distribution med skakbræt.billede ændret fra WP

Poissons distribution eksempel fra Wikipedia: En person, der holder styr på mængden af mail, de modtager hver dag, bemærker muligvis, at de modtager et gennemsnitligt antal på 4 breve om dagen. Hvis mails er fra uafhængig kilde , så adskiller antallet af poststykker, der modtages på en dag, en Poisson-distribution, dvs. der vil være ubetydelig chance for at få nul eller 100 mail pr. dag, men maksimalt et bestemt antal (her 4) mail pr. dag.

Tilsvarende; antag, at i en imaginær eng får vi omkring 10 småsten i 1 km ^ 2. Med forholdsmæssigt større areal får vi forholdsmæssigt flere småsten. Men for en bestemt prøve på 1 km ^ 2 er det meget usandsynligt, at der fås 0 eller 100 småsten. sandsynligvis følger den en Poissons distribution.

Ifølge Wikipedia følger antallet af henfaldshændelser pr. sekund fra en radioaktiv kilde en Poissons distribution.

Poisson Poissons distribution fra Wikipedia

Normalfordeling eller Gaussisk fordeling – hvis n antal matricer rulles samtidigt, og givet at n er meget stort; summen af udfaldet af hver dør ville have tendens til at være grupperet omkring en central værdi. Ikke for stort, ikke for lille. Denne fordeling kaldes en normalfordeling eller klokkeformet kurve.

trekantet Sum af 2 dør, fra her

CLT
Med stigende antal samtidige dør nærmer fordelingen sig gaussisk. Fra central grænsesætning

Ligeledes, hvis n antal mønter kastet samtidigt, og n er meget stort, ville der være en lille chance for, at vi vil komme til mange hoveder eller for mange haler. Antallet af hoveder vil centrere omkring en bestemt værdi. Det svarer til binomialfordeling, men antallet af mønter er endnu større.

Kommentarer

  • Angiv venligst, hvis der er nogen misforståelse i min ovenstående indsats, fordi Jeg er bange for kompleksiteten af statistikker.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *