Praktische voorbeelden van veelvoorkomende distributies

Ik ben een afgestudeerde student en ontwikkelt interesse voor statistiek. Ik vind het materiaal over het algemeen leuk, maar ik vind het soms moeilijk om na te denken over toepassingen in het echte leven. Concreet gaat mijn vraag over veelgebruikte statistische verdelingen (normaal – bèta-gamma enz.). Ik denk dat ik in sommige gevallen de specifieke eigenschappen krijg die de distributie best aardig maken – geheugenloze eigenschap van exponentieel bijvoorbeeld. Maar voor veel andere gevallen heb ik geen intuïtie over zowel het belang als de toepassingsgebieden van de gebruikelijke distributies die we in leerboeken zien.

Er zijn waarschijnlijk veel goede bronnen die mijn zorgen aanpakken, ik zou blij zijn als je die zou kunnen delen. Ik zou veel gemotiveerder in het materiaal zijn als ik het zou kunnen associëren met praktijkvoorbeelden.

Opmerkingen

Antwoord

Wikipedia heeft een pagina waarop veel kansverdelingen vermeldt met links naar meer details over elke distributie. U kunt door de lijst bladeren en de links volgen om een beter idee te krijgen van de typen o f toepassingen waarvoor de verschillende distributies vaak worden gebruikt.

Onthoud gewoon dat deze distributies worden gebruikt om de werkelijkheid te modelleren en zoals Box zei: “alle modellen zijn fout, sommige modellen zijn nuttig”.

Hier zijn enkele van de algemene distributies en enkele van de redenen waarom ze nuttig zijn:

Normaal: dit is handig om te kijken naar gemiddelden en andere lineaire combinaties (bijv. regressiecoëfficiënten) vanwege de CLT. Daaraan gerelateerd is dat als bekend is dat er iets ontstaat als gevolg van additieve effecten van veel verschillende kleine oorzaken, dan kan de normaal een redelijke verdeling zijn: veel biologische maatregelen zijn bijvoorbeeld het resultaat van meerdere genen en meerdere omgevingsfactoren en zijn daarom vaak ongeveer normaal .

Gamma: recht scheef en nuttig voor dingen met een natuurlijk minimum op 0. Vaak gebruikt voor verstreken tijden en enkele financiële variabelen.

Exponentieel: speciaal geval van de Gamma. Het is geheugenloos en schaalbaar.

Chi-kwadraat ($ \ chi ^ 2 $): speciaal geval van de Gamma. Ontstaat als som van gekwadrateerde normale variabelen (dus gebruikt voor varianties).

Beta: gedefinieerd tussen 0 en 1 (maar kan worden omgezet om tussen andere waarden te staan), handig voor verhoudingen of andere grootheden die tussen 0 en 1.

Binominaal: hoeveel “successen” uit een bepaald aantal onafhankelijke proeven met dezelfde kans op “succes”.

Poisson: gemeenschappelijk voor tellingen. Leuke eigenschappen die als het aantal gebeurtenissen in een tijd of gebied een Poisson volgt, dan het aantal in tweemaal de tijd of gebied nog steeds de Poisson volgt (met tweemaal het gemiddelde): dit werkt voor het optellen van Poissons of schalen met andere waarden dan 2.

Merk op dat als gebeurtenissen zich in de tijd voordoen en de tijd tussen gebeurtenissen exponentieel volgt, het getal dat in een tijdsperiode voorkomt een Poisson volgt.

Negatieve binominale: telt met minimum 0 (of een andere waarde, afhankelijk van welke versie) en geen bovengrens. Conceptueel is het het aantal “mislukkingen” vóór k “successen”. De negatieve binominale waarde is ook een mengsel van Poisson-variabelen waarvan de gemiddelden afkomstig zijn van een gammadistributie.

Geometrisch: speciaal geval voor negatieve binominale waar het het aantal “mislukkingen” is voor het eerste “succes”. Als je een exponentiële variabele afkapt (naar beneden afrondt) om deze discreet te maken, is het resultaat meetkundig.

Opmerkingen

  • Bedankt voor je antwoord. Wikipedia biedt echter een meer algemene beschrijving die ik ‘ leuk vind. Kortom, mijn vraag is waarom sommige distributies leuk zijn? Om een mogelijk antwoord te geven in het geval van een normale verdeling, kan het verband houden met de centrale beperkte stelling – die zegt dat als je een oneindig aantal waarnemingen bemonstert, je in asympotiek kunt zien dat de voldoende statistiek van die waarnemingen, gegeven onafhankelijkheid, een normale verdeling hebben . Ik ben op zoek naar meer van dat soort voorbeelden.
  • Niet bepaald een echte distributie, maar hoe zit het met bimodaal? Ik kan ‘ geen algemeen voorkomende voorbeelden uit het echte leven bedenken nadat ik ontdekte dat de vele genderverschillen bij mensen niet bimodaal zijn.
  • Multinominaal toevoegen

Answer

Koop en lees tenminste de eerste 6 hoofdstukken (eerste 218 paginas) van William J. Feller ” An Introduction to Probability Theory and its Applications, Vol. 2 “ http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb .Lees in ieder geval alle problemen voor oplossing en probeer er bij voorkeur zoveel mogelijk op te lossen. U hoeft Deel 1 niet te hebben gelezen, wat naar mijn mening niet bijzonder verdienstelijk is.

Ondanks dat de auteur 45 1/2 jaar geleden is overleden, voordat het boek af was, is dit gewoon de beste boek dat er is, op geen enkele na, voor het ontwikkelen van een intuïtie in waarschijnlijkheid en stochastische processen, en het begrijpen en ontwikkelen van een gevoel voor verschillende distributies, hoe ze zich verhouden tot fenomenen in de echte wereld, en verschillende stochastische verschijnselen die kunnen en zullen voorkomen. basis die je ervan bouwt, zul je goed gediend zijn in statistieken.

Als je de volgende hoofdstukken kunt doorlopen, die wat moeilijker worden, zul je bijna iedereen lichtjaren voor zijn. Simpel gezegd, als je Feller Vol 2 kent, ken je waarschijnlijkheid (en stochastische processen); wat betekent dat alles wat je niet weet, zoals nieuwe ontwikkelingen, je snel kunt oppikken en onder de knie kunt krijgen door voort te bouwen op die solide basis.

Bijna alles dat eerder in deze thread is genoemd, is in Feller Vol 2 (niet al het materiaal in Kendall Advanced Theory of Statistics, maar het lezen van dat boek wordt een fluitje van een cent na Feller Vol 2), en meer, veel meer, alles op een manier die je stochastische denken zou moeten ontwikkelen en intuïtie. Johnson en Kotz zijn goed voor details over verschillende kansverdelingen, Feller Vol 2 is handig om te leren hoe probabilistisch te denken, en om te weten wat je uit Johnson en Kotz moet halen en hoe je het moet gebruiken.

Antwoord

Asymptotische theorie leidt tot de normale verdeling, de extreme waardetypen, de stabiele wetten en de Poisson. De exponentiële en de Weibull hebben de neiging om naar voren te komen als parametrische tijd tot gebeurtenisverdelingen. In het geval van de Weibull is het een extreme waardetype voor het minimum van een sample. Gerelateerd aan de parametrische modellen voor normaal verdeelde waarnemingen komen de chi-kwadraat-, t- en F-verdelingen voor bij het testen van hypothesen en het schatten van betrouwbaarheidsintervallen. De chikwadraat komt ook voor in kruistabelanalyse en de goedheid van fit-tests. Voor het bestuderen van de kracht van tests hebben we de niet-centrale t- en F-verdelingen. De hypergeometrische verdeling ontstaat in Fishers exact test voor kruistabellen. De binominale verdeling is belangrijk bij het doen van experimenten om verhoudingen te schatten. De negatieve binominale verdeling is een belangrijke verdeling om overdispersie in een puntproces te modelleren. Dat zou je een goed begin moeten geven met parametrische distrbutions. Voor niet-negatieve willekeurige variabelen op (0, ∞) is de gammadistributie flexibel voor het leveren van een verscheidenheid aan vormen en de lognormaal wordt ook vaak gebruikt. Op [0,1] biedt de bètafamilie symmetrische distirbutions inclusief het uniform als distributies die naar links of naar rechts scheef staan.

Ik moet ook vermelden dat als je alle essentiële details over distributies in statistieken wilt weten, er de klassieke reeks boeken van Johnson en Kotz is die discrete distributies bevatten, continue univariate distributies en continue multivariate distributies en ook deel 1 van de Advanced Theory of Statistics door Kendall en Stuart.

Reacties

  • Heel erg bedankt voor het antwoord, dit is buitengewoon nuttig. Nogmaals bedankt, het heeft me echt geholpen.

Antwoord

Gewoon om toe te voegen aan de andere uitstekende antwoorden.

De Poisson-verdeling is handig wanneer we telvariabelen hebben, zoals anderen al hebben vermeld. Maar er moet nog veel meer gezegd worden! Het poisson ontstaat asymptotisch uit een binomiaal verdeelde variabele, wanneer $ n $ (het aantal Bernoulli-experimenten) onbeperkt toeneemt, en $ p $ (de succeskans van elk individueel experiment () naar nul gaat, zodanig dat $ \ lambda = np $ blijft constant, begrensd van nul en oneindig. Dit vertelt ons dat het handig is wanneer we een groot aantal individueel zeer onwaarschijnlijke gebeurtenissen hebben. Enkele goede voorbeelden zijn: ongevallen, zoals het aantal auto-ongelukken in New York in per dag, aangezien elke keer dat twee autos passeren / elkaar ontmoeten, is de kans op een crash erg klein en het aantal van dergelijke kansen is inderdaad astronomisch! Nu kun je zelf nadenken over andere voorbeelden, zoals het totale aantal vliegtuigcrashes in de wereld in een jaar. Het klassieke voorbeeld waar het aantal doden door paarden in de Preussische cavalerie!

Wanneer de Poisson wordt gebruikt in de epidemiologie, voor het modelleren van het aantal gevallen van enige ziekte, vindt men vaak dat het niet past nou: de variantie is dat ook groot! De Poisson heeft variantie = gemiddelde, wat gemakkelijk kan worden gezien vanaf de binominale limiet: in de binominale waarde is de variantie $ np (1-p) $, en wanneer $ p $ naar nul gaat, gaat noodzakelijkerwijs $ 1-p $ naar één, dus de variantie gaat naar $ np $, wat de verwachting is, en die gaan allebei naar $ \ lambda $.Een manier is om te zoeken naar een alternatief voor de Poisson met grotere variantie, niet geconditioneerd om gelijk te zijn aan het gemiddelde, zoals de negatieve binominale waarde. ¿Maar waarom treedt dit fenomeen van grotere variantie op? Een mogelijkheid is dat de individuele ziektekansen $ p $ voor één persoon niet constant zijn, en ook niet afhankelijk zijn van een geobserveerde covariaat (zeg maar leeftijd, beroep, rookstatus, …) Dat wordt niet-waargenomen heterogeniteit genoemd, en soms worden modellen gebruikt want dit wordt kwetsbare modellen of gemengde modellen genoemd. Een manier om dit te doen is aannemen dat de $ p $ “s in de populatie afkomstig zijn van een bepaalde verdeling, en aannemen dat dat bijvoorbeeld een gammadistributie is (wat zorgt voor eenvoudigere wiskunde …), krijgen we de gamma-poisson-verdeling – – die de negatieve binominale waarde herstelt!

Antwoord

Recent gepubliceerd onderzoek suggereert dat menselijke prestaties NIET normaal verdeeld zijn, in tegenstelling tot wat algemeen wordt gedacht. Gegevens uit vier velden werden geanalyseerd: (1) Academici in 50 disciplines, gebaseerd op publicatiefrequentie in de meest vooraanstaande discipline-specifieke tijdschriften. (2) ) Entertainers, zoals acteurs, musici en schrijvers, en het aantal ontvangen prestigieuze prijzen, nominaties of onderscheidingen. (3) Politici in 10 landen en verkiezings- / herverkiezingsresultaten. (4) Collegiale en professionele atleten kijken naar de meest geïndividualiseerde beschikbare maatregelen, zoals het aantal homeruns, recepties in teamsporten en totale overwinningen in individuele wedstrijden poorten. De auteur schrijft: “We zagen een duidelijke en consistente machtswetverdeling ontvouwen in elk onderzoek, ongeacht hoe nauw of breed we de gegevens analyseerden …”

Opmerkingen

  • Wie suggereerde dat menselijke prestaties normaal verdeeld zijn ?! Het 80-20-principe werd voorgesteld door Pareto (1906!).

Answer

Cauchy-distributie wordt vaak gebruikt in financiën om het rendement van activa te modelleren Ook opmerkelijk zijn Johnsons Bounded en Unbounded distributies vanwege hun flexibiliteit (ik heb ze toegepast bij het modelleren van activaprijzen, elektriciteitsopwekking en hydrologie).

Antwoord

Enkele veel voorkomende kansverdelingen

Enkele veel voorkomende kansverdelingen; Van hier

Uniforme distributie (discreet) – Je hebt 1 dobbelsteen gegooid en de kans op een val van 1, 2, 3, 4, 5 en 6 is gelijk.

Uniform discreet (van hier )

Uniforme distributie (continu) – Je hebt een heel fijn poeder tegen een muur gespoten. Voor een klein gedeelte aan de muur is de kans dat er stof op een plek op de muur valt gelijk.

Je hebt een grote gasfles. Voor elke oppervlakte-eenheid lijkt het aantal gasmoleculen dat per vierkante cm de binnenwand per seconde raakt, uniform te zijn.

afbeelding gasbotsing Wikipedia van hier

Bernoulli-distributie – Bernoulli-proef is (of binominale proef) is een willekeurig experiment met precies twee mogelijke uitkomsten, ” succes ” en ” fout “. In zon proef is de kans op succes p, de faalkans is q = 1-p.

Bij een toss kunnen we bijvoorbeeld twee uitkomsten hebben: kop of staart. Voor een eerlijke munt is de kans op kop 1/2; kans op staart is 1/2, het is een soort Bernoulli-verdeling die ook uniform is.

Als de munt oneerlijk is als de munt oneerlijk is, zoals de kans om een kop te krijgen, is de kans om een staart te vallen 0,9 zal 0,1 zijn.

Bernauli Bernauli Verdeling met kansen 0,6 en 0,4; van hier

Binominale distributie – Als een Bernoulli-studie (met 2 uitkomsten, respectievelijk met kansen p en q = 1-p) n keer wordt uitgevoerd; (zoals wanneer een munt n keer wordt gegooid); er zal een kleine kans zijn om alle kop te krijgen, en er zou een kleine kans zijn om alle staarten te krijgen. Een bepaalde waarde van het hoofd en een bepaalde waarde van de staart zouden maximaal zijn. Deze distributie wordt een binominale distributie genoemd.

BINOMIAAL Binominale distributie met schaakbord.afbeelding gewijzigd van WP

Poisson “s distributie voorbeeld van Wikipedia: een persoon die de hoeveelheid e-mail bijhoudt die hij elke dag ontvangt, kan opmerken dat hij gemiddeld 4 brieven per dag ontvangt. Als e-mails afkomstig zijn van een onafhankelijke bron , dan gehoorzaamt het aantal poststukken dat op een dag wordt ontvangen een Poisson-distributie. dwz er is een verwaarloosbare kans om nul of 100 post per dag te ontvangen, maar een maximum van een bepaald aantal (hier 4) post per dag.

Evenzo: stel dat we in een denkbeeldige weide ongeveer 10 kiezelstenen krijgen in 1 km ^ 2. Met proportioneel meer oppervlakte krijgen we proportioneel meer kiezelstenen. Maar voor een bepaald monster van 1 km ^ 2 is het zeer onwaarschijnlijk dat we 0 of 100 kiezelstenen krijgen. waarschijnlijk volgt het een Poisson-verdeling.

Volgens Wikipedia volgt het aantal vervalgebeurtenissen per seconde van een radioactieve bron een Poisson-verdeling.

Poisson Poisson “s distributie van Wikipedia

Normale distributie of Gaussiaanse distributie – als n aantal stempels tegelijkertijd wordt gegooid, en gezien het feit dat n erg groot is; de som van de uitkomst van elke sterft zou neigen te worden geclusterd rond een centrale waarde. Niet te groot, niet te klein. Deze verdeling wordt een normale verdeling of klokvormige curve genoemd.

driehoekig Som van 2 sterft, van hier

CLT
Met een toenemend aantal gelijktijdige sterft, benadert de distributie Gaussiaans. Van centrale limietstelling

Evenzo, als n aantal munten dat gelijktijdig wordt gegooid, en n erg groot is, is er een kleine kans dat we krijgt te veel koppen of te veel staarten. Het aantal heads zal gecentreerd zijn rond een bepaalde waarde. Dat is vergelijkbaar met binominale distributie, maar het aantal munten is zelfs nog groter.

Opmerkingen

  • Geef aan of er een misvatting is in mijn bovenstaande poging, want Ik ben bang voor de complexiteit van statistieken.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *