Virkelige eksempler på vanlige distribusjoner

Jeg er en student som utvikler en interesse for statistikk. Jeg liker alt i alt materialet, men noen ganger har jeg vanskelig for å tenke på applikasjoner til det virkelige liv. Spesielt handler spørsmålet mitt om ofte brukte statistiske fordelinger (normal – beta-gamma osv.). Jeg antar at jeg i noen tilfeller får de spesielle egenskapene som gjør distribusjonen ganske fin – minneløs egenskap av eksponentiell for eksempel. Men i mange andre tilfeller har jeg ikke en intuisjon om både viktigheten og bruksområdene til de vanlige distribusjonene som vi ser i lærebøker.

Det er sannsynligvis mange gode kilder som tar opp mine bekymringer, jeg ville være glad hvis du kunne dele dem. Jeg ville være mye mer motivert i materialet hvis jeg kunne knytte det til virkelige eksempler.

Kommentarer

Svar

Wikipedia har en side som viser mange sannsynlighetsfordelinger med lenker til mer detaljer om hver distribusjon. Du kan se gjennom listen og følge lenkene for å få en bedre følelse for typene o f applikasjoner som de forskjellige distribusjonene ofte brukes til.

Bare husk at disse distribusjonene brukes til å modellere virkeligheten, og som Box sa: «alle modeller er feil, noen modeller er nyttige».

Her er noen av de vanlige distribusjonene og noen av årsakene til at de er nyttige:

Normal: Dette er nyttig for å se på midler og andre lineære kombinasjoner (f.eks. regresjonskoeffisienter) på grunn av CLT. Relatert til det, er hvis noe er kjent for å oppstå på grunn av additive effekter av mange forskjellige små årsaker, kan det normale være en rimelig fordeling: for eksempel er mange biologiske tiltak resultatet av flere gener og flere miljøfaktorer, og derfor er de ofte omtrent normale .

Gamma: Høyre skjev og nyttig for ting med et naturlig minimum på 0. Vanligvis brukt i forløpne tider og noen økonomiske variabler.

Eksponentiell: Gamma-spesielle tilfelle. Det er minneløst og skalerer lett.

Chi-kvadrat ($ \ chi ^ 2 $): spesiell tilfelle av Gamma. Oppstår som sum av kvadratiske normale variabler (så brukt for avvik).

Beta: Defineres mellom 0 og 1 (men kan omdannes til å være mellom andre verdier), nyttig for proporsjoner eller andre størrelser som må være mellom 0 og 1.

Binomial: Hvor mange «suksesser» av et gitt antall uavhengige studier med samme sannsynlighet for «suksess».

Poisson: Felles for tellinger. Fine egenskaper at hvis antall hendelser i en tidsperiode eller et område følger en Poisson, så vil tallet på det dobbelte av tiden eller området fremdeles følge Poisson (med to ganger gjennomsnittet): dette fungerer for å legge til Poissons eller skalering med andre verdier enn 2.

Merk at hvis hendelser skjer over tid og tiden mellom forekomster følger en eksponentiell, så vil tallet som oppstår i en tidsperiode følge en Poisson.

Negativ binomial: Teller med minimum 0 (eller annen verdi avhengig av hvilken versjon) og ingen øvre grense. Konseptuelt er det antall «fiaskoer» før k «suksesser». Det negative binomialet er også en blanding av Poisson-variabler hvis middel kommer fra en gammadistribusjon.

Geometrisk: spesiell sak for negativ binomial der det er antall «feil» før 1. «suksess». Hvis du avkorter (avrunder) en eksponentiell variabel for å gjøre den diskret, er resultatet geometrisk.

Kommentarer

  • Vel, takk for svaret. Imidlertid gir wikipedia en mer generell beskrivelse som jeg ‘ liker. I utgangspunktet er spørsmålet mitt hvorfor noen distribusjoner er fine? For å gi et mulig svar i tilfelle normalfordeling, kan det være relatert til sentral begrenset setning – som sier at hvis du prøver en uendelig mengde observasjoner, kan du faktisk i asympotics se at en tilstrekkelig statistikk for disse observasjonene, gitt uavhengighet, har en normalfordeling . Jeg søker etter flere eksempler som dette.
  • Ikke akkurat en reell fordeling, men hva med bimodal? Jeg kan ‘ ikke tenke på noen ofte sett virkelige eksempler etter at jeg fant ut at de mange kjønnsforskjellene hos mennesker ikke er bimodale.
  • Legg til multinomial

Svar

Kjøp og les minst de 6 første kapitlene (første 218 sider) av William J. Feller » En introduksjon til sannsynlighetsteori og dens applikasjoner, bind 2 « http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb .Les i det minste alle problemene for løsning, og prøv helst å løse så mange du kan. Du trenger ikke å ha lest Vol 1, som etter min mening ikke er særlig meritterende.

Til tross for at forfatteren døde for 45 1/2 år siden, før boka til og med ble ferdig, er dette fineste boken finnes, uten noen, for å utvikle en intuisjon i sannsynlighet og stokastiske prosesser, og forstå og utvikle en følelse for forskjellige distribusjoner, hvordan de forholder seg til virkelige verdensfenomener, og forskjellige stokastiske fenomener som kan og kan forekomme. Og med det faste grunnlaget du vil bygge ut av det, vil du bli godt tjent med statistikk.

Hvis du kan klare det gjennom påfølgende kapitler, som blir noe vanskeligere, vil du være lysår foran nesten alle. hvis du kjenner Feller Vol 2, vet du sannsynlighet (og stokastiske prosesser), noe som betyr at alt du ikke vet, slik som ny utvikling, vil du være i stand til å raskt plukke opp og mestre ved å bygge på det solide fundamentet. p>

Nesten alt tidligere nevnt i denne tråden er inne Feller Vol 2 (ikke alt av materialet i Kendall Advanced Theory of Statistics, men å lese den boka vil være et stykke kake etter Feller Vol 2), og mer, mye mer, alt sammen på en måte som skal utvikle din stokastiske tenkning og intuisjon. Johnson og Kotz er bra for detaljer om forskjellige sannsynlighetsfordelinger, Feller Vol 2 er nyttig for å lære å tenke sannsynlig, og vite hva man skal hente ut fra Johnson og Kotz og hvordan man bruker det.

Svar

Asymptotisk teori fører til normalfordeling, ekstreme verdityper, stabile lover og Poisson. Det eksponentielle og Weibull har en tendens til å komme opp som parametrisk tid til hendelsesfordelinger. Når det gjelder Weibull er det en ekstrem verditype for minimum et utvalg. Relatert til parametriske modeller for normalt distribuerte observasjoner oppstår chi kvadrat, t og F distribusjoner i hypotesetesting og konfidensintervall estimering. Chi kvadrat kommer også opp i beredskapstabellanalyse og godhet av tilpasningstester. For å studere testkraft har vi ikke-sentrale t- og F-fordelinger. Den hypergeometriske fordelingen oppstår i Fishers eksakte test for beredskapstabeller. Binomialfordelingen er viktig når du gjør eksperimenter for å estimere proporsjoner. Den negative binomialen er en viktig fordeling for å modellere overdispersjon i en punktprosess. Det burde gi deg en god start på pratisk parametriske forstyrrelser. For ikke-negative tilfeldige variabler på (0, ∞) er gammafordelingen fleksibel for å gi en rekke former, og lognormalen brukes også ofte. På [0,1] gir beta-familien symmetriske forstyrrelser inkludert uniformen også som distribusjoner skjevt til venstre eller skjevt til høyre.

Jeg bør også nevne at hvis du vil vite alle de små grusete detaljene om distribusjoner i statistikk, er det den klassiske serien med bøker av Johnson og Kotz som inkluderer diskrete distribusjoner kontinuerlige univariate distribusjoner og kontinuerlige multivariate distribusjoner og også volum 1 av Advanced Theory of Statistics av Kendall og Stuart.

Kommentarer

  • Tusen takk for svaret, dette er ekstremt nyttig. Takk igjen, det hjalp meg virkelig.

Svar

Bare for å legge til de andre gode svarene.

Poisson-fordelingen er nyttig når vi har tellevariabler, som andre har nevnt. Men mye mer skal sies! Poissonen oppstår asymptotisk fra en binomielt distribuert variabel, når $ n $ (antall Bernoulli-eksperimenter) øker uten grenser, og $ p $ (suksess sannsynligheten for hvert enkelt eksperiment () går til null, på en slik måte at $ \ lambda = np $ holder seg konstant, avgrenset fra null og uendelig. Dette forteller oss at det er nyttig når vi har et stort antall individuelt veldig usannsynlige hendelser. Noen gode eksempler er: ulykker, for eksempel antall bilulykker i New York i en dag, siden hver gang to biler passerer / møtes, er det svært lav sannsynlighet for krasj, og antall slike muligheter er virkelig astronomisk! Nå kan du selv tenke på andre eksempler, for eksempel totalt antall flyulykker i verden om et år. Det klassiske eksemplet hvor antall dødsfall av hestekokker i det preussiske kavaleriet!

Når Poisson brukes i epidemiologi, for modellering av antall tilfeller av sykdom, opplever man ofte at den ikke passer vel: Avviket er også stor! Poisson har varians = gjennomsnitt, som lett kan sees fra grensen for binomial: I binomialet er variansen $ np (1-p) $, og når $ p $ går til null nødvendigvis $ 1-p $ går til en, så avviket går til $ np $, som er forventningen, og de begge går til $ \ lambda $.En måte er å søke etter et alternativ til Poisson med større varians, ikke betinget til å være lik gjennomsnittet, for eksempel negativ binomial. ¿Men hvorfor forekommer dette fenomenet med større avvik? En mulighet er at de individuelle sannsynlighetene for sykdom $ p $ for en person ikke er konstante, og ingen avhenger av noe observert kovariat (si alder, yrke, røykestatus, …) Det kalles uobservert heterogenitet, og noen ganger modeller som brukes for kalles skrøpelige modeller, eller blandede modeller. En måte å gjøre dette på er å anta at $ p $ «s i befolkningen kommer fra noen fordeling, og forutsatt at det er en gammafordeling, for eksempel (som gir enklere matematikk …), får vi gamma-poissonfordelingen – – som gjenoppretter den negative binomien!

Svar

Nylig publisert forskning antyder at menneskelig ytelse IKKE er normalt distribuert, i motsetning til vanlig tanke. Data fra fire felt ble analysert: (1) Akademikere i 50 fagområder, basert på publiseringsfrekvens i de mest fremtredende fagspesifikke tidsskriftene. (2 . tilgjengelige tiltak, for eksempel antall hjemmeløp, mottakelser i lagidretter og total seier i individuelle s porter. Forfatteren skriver: «Vi så en klar og konsekvent maktlovsfordeling utfolde seg i hver studie, uansett hvor smalt eller bredt vi analyserte dataene …»

Kommentarer

  • Hvem foreslo at menneskelig ytelse normalt blir distribuert ?! 80-20-prinsippet ble foreslått av Pareto (1906!).

Svar

Cauchy-fordeling brukes ofte i økonomi for å modellere avkastning på eiendeler. Også bemerkelsesverdig er Johnsons avgrensede og ubegrensede distribusjoner på grunn av deres fleksibilitet (jeg har brukt dem i modellering av aktiva priser, elektrisitetsproduksjon og hydrologi).

Svar

Noen vanlige sannsynlighetsfordelinger

Noen vanlige sannsynlighetsfordelinger; Fra her

Uniform fordeling (diskret) – Du rullet 1 dør og sannsynligheten for å falle noe av 1, 2, 3, 4, 5 og 6 er lik.

Uniform diskret (fra her )

Uniformfordeling (kontinuerlig) – Du sprayet noe veldig fint pulver mot en vegg. For et lite område på veggen er sjansen for å falle støv på et sted på veggen ensartet.

Du har en stor gassflaske. For ethvert enhetsareal er antall gassmolekyler som treffer per kvadrat cm på innerveggen per sekund tilsynelatende å være ensartet.

Wikipedia-gasskollisjon fra her

Bernoulli-distribusjon – Bernoulli-prøve er (eller binomial prøve) er et tilfeldig eksperiment med nøyaktig to mulige resultater, » suksess » og » feil «. I en slik prøve er sannsynligheten for suksess p, sannsynligheten for feil er q = 1-p.

For eksempel, i en myntkast, kan vi ha 2 utfallshode eller hale. For en rettferdig mynt er sannsynligheten for hodet 1/2; sannsynligheten for halen er 1/2, det er en slags Bernoulli-fordeling som også er ensartet.

I en myntkast hvis mynten er urettferdig, for eksempel er sannsynligheten for å få hodet 0,9, så sannsynligheten for å falle en hale vil være 0,1.

Bernauli Bernauli Distribusjon med sannsynligheter 0,6 og 0,4; fra her

Binomial fordeling – Hvis en Bernoulli-prøve (med 2 utfall, henholdsvis med sannsynlighet p og q = 1-p) kjøres i n ganger; (for eksempel hvis en mynt kastes i n ganger); det vil være litt sannsynlighet for å få alt hodet, og det vil være litt sannsynlighet for å få alle haler. En viss verdi av hodet og en viss verdi av halen ville være maksimal. Denne distribusjonen kalles en binomialfordeling.

BINOMIAL Binomial distribusjon med sjakkbrett.bilde endret fra WP

Poissons distribusjon eksempel fra Wikipedia: En person som holder styr på mengden post de mottar hver dag, kan legge merke til at de får et gjennomsnittlig antall på 4 brev per dag. Hvis e-post er fra uavhengig kilde , så overfører antall brev mottatt på en dag en Poisson-distribusjon. dvs. det vil være ubetydelig sjanse for å få null eller 100 post per dag, men maksimalt et visst antall (her 4) post per dag.

Tilsvarende; anta at i en imaginær eng får vi rundt 10 småstein på 1 km ^ 2. Med proporsjonalt større areal får vi proporsjonalt flere småstein. Men for en bestemt prøve på 1 km ^ 2 er det svært lite sannsynlig å få 0 eller 100 småstein. sannsynligvis følger den en Poissons distribusjon.

Ifølge Wikipedia følger antall forfallshendelser per sekund fra en radioaktiv kilde en Poissons fordeling.

Poisson Poissons distribusjon fra Wikipedia

Normalfordeling eller Gaussisk fordeling – hvis n antall matriser rullet samtidig, og gitt at n er veldig stort; Summen av utfallet av hvert dødsfall vil ha en tendens til å være gruppert rundt en sentral verdi. Ikke for stort, ikke for lite. Denne fordelingen kalles en normalfordeling eller klokkeformet kurve.

trekantet Sum av 2 dør, fra her

CLT
Med økende antall samtidige dør, nærmer fordelingen seg gaussisk. Fra sentralbegrensningssetning

Tilsvarende, hvis n antall mynter kastet samtidig, og n er veldig stort, ville det være en liten sjanse for at vi vil komme til mange hoder eller for mange haler. Antall hoder vil sentrere rundt en viss verdi. Det ligner på binomialfordeling, men antallet mynter er enda større.

Kommentarer

  • Vennligst nevn om det er noen misforståelse i mitt arbeid ovenfor fordi Jeg er redd for kompleksiteten i statistikken.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *