Exemple din viața reală de distribuții obișnuite

Sunt un student care dezvoltă un interes pentru statistici. Îmi place materialul, dar uneori îmi este greu să mă gândesc la aplicațiile din viața reală. În mod specific, întrebarea mea se referă la distribuțiile statistice utilizate în mod obișnuit (normal – beta-gamma etc.). Presupun că în unele cazuri obțin proprietățile particulare care fac distribuția destul de plăcută – proprietatea fără memorie a exponențialului, de exemplu. Dar pentru multe alte cazuri, nu am o intuiție despre importanța și domeniile de aplicare ale distribuțiilor comune pe care le vedem în manuale.

Probabil că există o mulțime de surse bune care îmi abordează preocupările, eu Aș fi bucuros dacă ați putea să le împărtășiți. Aș fi mult mai motivat pentru material dacă aș putea să-l asociați cu exemple din viața reală.

Comentarii

Răspuns

Wikipedia are o pagină care listează multe distribuții de probabilitate cu link-uri pentru mai multe detalii despre fiecare distribuție. Puteți căuta prin listă și urmați link-urile pentru a vă simți mai bine tipurile o f aplicații pentru care sunt utilizate în mod obișnuit diferitele distribuții.

Amintiți-vă doar că aceste distribuții sunt utilizate pentru a modela realitatea și, după cum a spus Box: „toate modelele sunt greșite, unele modele sunt utile”.

Iată câteva dintre distribuțiile obișnuite și câteva dintre motivele pentru care sunt utile:

Normal: Acest lucru este util pentru a privi mijloacele și alte combinații liniare (de ex. coeficienți de regresie) din cauza CLT. În legătură cu aceasta, dacă se știe că apare ceva din cauza efectelor aditive ale multor cauze mici, atunci normalul poate fi o distribuție rezonabilă: de exemplu, multe măsuri biologice sunt rezultatul mai multor gene și factori de mediu multipli și, prin urmare, sunt adesea aproximativ normale .

Gamma: dreaptă înclinată și utilă pentru lucruri cu un minim natural la 0. Utilizat în mod obișnuit pentru perioadele trecute și unele variabile financiare.

Exponențial: caz special al Gamma. Este fără memorie și se potrivește ușor.

Chi-pătrat ($ \ chi ^ 2 $): caz special al gamei Gamma. Apare ca suma variabilelor normale pătrate (utilizate astfel pentru varianțe).

Beta: Definită între 0 și 1 (dar poate fi transformată pentru a fi între alte valori), utilă pentru proporții sau alte mărimi care trebuie să fie între 0 și 1.

Binom: Câte „succese” dintr-un număr dat de studii independente cu aceeași probabilitate de „succes”.

Poisson: frecvent pentru numărări. Proprietăți frumoase care, dacă numărul de evenimente dintr-o perioadă de timp sau zonă urmează un Poisson, atunci numărul din două ori timp sau zonă urmează în continuare Poisson (cu de două ori media): acest lucru funcționează pentru adăugarea Poissons sau scalarea cu alte valori decât 2.

Rețineți că dacă evenimentele apar în timp și timpul dintre apariții urmează o exponențială, atunci numărul care apare într-o perioadă de timp urmează un Poisson.

Binom negativ: Numără cu minim 0 (sau altă valoare în funcție de versiunea respectivă) și fără limită superioară. Conceptual este numărul de „eșecuri” înainte de k „succese”. Binomul negativ este, de asemenea, un amestec de variabile Poisson ale căror medii provin dintr-o distribuție gamma.

Geometrică: caz special pentru binomul negativ în care este numărul de „eșecuri” înainte de primul „succes”. Dacă trunchiați (rotunjiți în jos) o variabilă exponențială pentru ao face discretă, rezultatul este geometric.

Comentarii

  • Ei bine, vă mulțumim pentru răspuns. Cu toate acestea, Wikipedia oferă o descriere mai generală care îmi place ‘. Practic, întrebarea mea este de ce unele distribuții sunt frumoase? Pentru a da un posibil răspuns în caz de distribuție normală, poate fi legat de teorema centrală limitată – care spune că, dacă eșantionați o cantitate infinită de observații, puteți vedea, de fapt, în asimpotici că o statistică suficientă a acestor observații, având în vedere independența, are o distribuție normală . Caut mai multe exemple de genul acesta.
  • Nu tocmai o distribuție reală, dar ce zici de bimodal? Nu pot ‘ să mă gândesc la orice exemple din viața reală frecvent întâlnite după ce am constatat că multe dintre diferențele de gen la om nu sunt bimodale.
  • Adăugați multinomial

Răspuns

Cumpărați și citiți cel puțin primele 6 capitole (primele 218 de pagini) ale lui William J. Feller ” An Introduction to Probability Theory and its Applications, Vol. 2 „ http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb .Cel puțin citiți toate problemele pentru soluționare și, de preferință, încercați să rezolvați cât mai multe. Nu trebuie să fi citit Vol. 1, ceea ce în opinia mea nu este deosebit de meritoriu.

În ciuda faptului că autorul a murit acum 45 ani și jumătate, înainte ca cartea să fie terminată, acesta este pur și simplu cea mai bună carte există, fără niciunul, pentru a dezvolta o intuiție în probabilitate și procese stochastice și înțelegerea și dezvoltarea unui sentiment pentru diferite distribuții, modul în care acestea se leagă de fenomenele lumii reale și diverse fenomene stochastice care pot și se pot produce. fundație pe care o vei construi din ea, vei fi bine deservit în statistici.

Dacă o poți face în capitolele ulterioare, ceea ce devine ceva mai dificil, vei fi cu ani lumină înaintea aproape tuturor. Simplu, dacă cunoașteți Feller Vol 2, cunoașteți probabilitatea (și procesele stochastice); ceea ce înseamnă că orice nu știți, cum ar fi noile dezvoltări, veți putea să vă ridicați rapid și să stăpâniți, bazându-vă pe acea bază solidă.

Aproape tot ceea ce am menționat anterior în acest fir este în Feller Vol 2 (nu tot materialul din Kendall Advanced Theory of Statistics, dar citirea acelei cărți va fi o bucată de tort după Feller Vol 2) și mai mult, mult mai mult, totul într-un mod care ar trebui să vă dezvolte gândirea stocastică și intuiție. Johnson și Kotz sunt bune pentru detalii despre diferite distribuții de probabilitate, Feller Vol 2 este util pentru a învăța cum să gândiți probabilistic și pentru a ști ce să extrageți din Johnson și Kotz și cum să îl utilizați.

Răspuns

Teoria asimptotică duce la distribuția normală, tipurile de valori extreme, legile stabile și Poisson. Exponențialul și Weibull tind să apară ca timp parametric pentru distribuțiile de evenimente. În cazul Weibull este un tip de valoare extremă pentru minimul unui eșantion. În legătură cu modelele parametrice pentru observații distribuite în mod normal, distribuțiile chi pătrat, t și F apar în testarea ipotezelor și estimarea intervalului de încredere. Pătratul chi apare, de asemenea, în analiza tabelului de contingență și testele de bunătate a potrivirii. Pentru studierea puterii testelor avem distribuții t și F necentrale. Distribuția hipergeometrică apare în testul exact al lui Fisher pentru tabelele de contingență. Distribuția binomială este importantă atunci când se fac experimente pentru estimarea proporțiilor. Binomul negativ este o distribuție importantă pentru modelarea supra-dispersiei într-un proces punctual. Acest lucru ar trebui să vă ofere un bun început în practică distrbuții parametrice. Pentru variabilele aleatorii nenegative de pe (0, ∞) distribuția Gamma este flexibilă pentru a oferi o varietate de forme și logul normal este, de asemenea, utilizat în mod obișnuit. Pe [0,1] familia beta oferă distirbutii simetrice, inclusiv uniforma ca distribuții înclinate la stânga sau înclinate la dreapta.

De asemenea, ar trebui să menționez că, dacă doriți să cunoașteți toate detaliile curioase despre distribuțiile în statistici, există clasica serie de cărți de Johnson și Kotz care includ distribuții discrete, distribuții univariate continue și distribuții multivariate continue și, de asemenea, volumul 1 din Teoria avansată a statisticii de Kendall și Stuart.

Comentarii

  • Vă mulțumim foarte mult pentru răspuns, acest lucru este extrem de util. Vă mulțumesc din nou, chiar m-a ajutat.

Răspundeți

Doar pentru a adăuga la celelalte răspunsuri excelente.

Distribuția Poisson este utilă ori de câte ori avem variabile de numărare, așa cum au menționat alții. Dar ar trebui spus multe altele! Poisson apare asimptotic dintr-o variabilă distribuită binomial, când $ n $ (numărul experimentelor Bernoulli) crește fără limite și $ p $ (probabilitatea de succes a fiecărui experiment individual () merge la zero, în așa fel încât $ \ lambda = np $ rămâne constant, delimitat de zero și infinit. Acest lucru ne spune că este util ori de câte ori avem un număr mare de evenimente individuale foarte improbabile. Câteva exemple bune sunt: accidente, cum ar fi numărul de accidente auto în New York în pe zi, deoarece de fiecare dată când trece / întâlnește două mașini există o probabilitate foarte mică de accident, iar numărul de astfel de oportunități este într-adevăr astronomic! Acum vă puteți gândi la alte exemple, cum ar fi numărul total de accidente de avion din lume într-un an. Exemplul clasic în care numărul de decese cauzate de calci în cavaleria preusiană!

Când Poisson este utilizat în epidemiologie, pentru modelarea numărului de cazuri de unele boli, se constată adesea că nu se potrivește bine: Varianța este prea mare! Poisson are varianță = medie, care poate fi văzută cu ușurință de la limita binomului: în binom, varianța este $ np (1-p) $, iar când $ p $ merge la zero în mod necesar $ 1-p $ merge la unul, deci varianța merge la $ np $, care este așteptarea, iar ambele merg la $ \ lambda $.O modalitate este de a căuta o alternativă la Poisson cu varianță mai mare, care nu este condiționată să fie egală cu media, cum ar fi binomul negativ. ¿Dar de ce apare acest fenomen de varianță mai mare? O posibilitate este că probabilitățile individuale de boală $ p $ pentru o persoană, nu sunt constante și nici nu depinde de unele covariate observate (să zicem vârsta, ocupația, starea de fumat, …) Aceasta se numește eterogenitate neobservată și, uneori, modele utilizate căci se numește modele de fragilitate sau modele mixte. O modalitate de a face acest lucru este presupunând că $ p $ „s din populație provine dintr-o anumită distribuție și presupunând că este o distribuție gamma, de exemplu (ceea ce face o matematică mai simplă …), obținem distribuția gamma-poisson – – care recuperează binomul negativ!

Răspuns

Cercetări publicate recent sugerează că performanța umană NU este distribuită în mod normal, contrar gândirii obișnuite. Au fost analizate date din patru domenii: (1) Academici în 50 de discipline, pe baza frecvenței publicării în cele mai preeminente reviste specifice disciplinei. (2 ) Animatori, cum ar fi actori, muzicieni și scriitori, și numărul de premii, nominalizări sau distincții prestigioase primite. (3) Politicieni din 10 națiuni și rezultate ale alegerilor / re-alegerilor. (4) Sportivi colegi și profesioniști care se uită la cei mai individualizați măsuri disponibile, cum ar fi numărul de alergări la domiciliu, recepții în sporturile de echipă și câștiguri totale în individual porturi. Autorul scrie: „Am văzut o distribuție clară și consecventă a legii puterii în fiecare studiu, indiferent de cât de îngust sau larg am analizat datele …”

Comentarii

  • Cine a sugerat că performanța umană este distribuită în mod normal ?! Principiul 80-20 a fost sugerat de Pareto (1906!).

Răspuns

Distribuția cauchy este adesea utilizată în finanțe pentru a modela rentabilitatea activelor. De asemenea, sunt demne de remarcat distribuțiile Johnson Bounded și Unlimited datorită flexibilității lor (le-am aplicat în modelarea prețurilor activelor, producerea energiei electrice și hidrologie).

Răspuns

Unele distribuții de probabilitate comune

Unele distribuții de probabilitate comune; De la aici

Distribuție uniformă (discretă) – Ați aruncat 1 mat și probabilitatea de a cădea oricare dintre 1, 2, 3, 4, 5 și 6 este egală.

Uniformă discretă (de la aici )

Distribuție uniformă (continuă) – Ați pulverizat niște pulbere foarte fină către un perete. Pentru o zonă mică de pe perete, șansele de a cădea praf pe un loc de pe perete sunt uniforme.

Aveți un cilindru mare de gaz. Pentru orice unitate de suprafață, numărul de molecule de gaz care se lovesc pe cm pătrat pe peretele interior pe secundă pare să fie uniform.

imagine coliziune de gaz Wikipedia din aici

Distribuția Bernoulli – Procesul Bernoulli este (sau procesul binomial) este un experiment aleatoriu cu exact două rezultate posibile, ” succes ” și ” eșec „. Într-un astfel de proces, probabilitatea de succes este p, probabilitatea de eșec este q = 1-p.

De exemplu, într-o aruncare de monede, putem avea 2 rezultate – cap sau coadă. Pentru o monedă echitabilă, probabilitatea capului este 1/2; probabilitatea cozii este 1/2, este un fel de distribuție Bernoulli, care este, de asemenea, uniformă. va fi 0,1.

Bernauli Distribuția Bernauli cu probabilități 0.6 și 0.4; din aici

Distribuție binomială – Dacă un proces Bernoulli (cu 2 rezultate, respectiv cu probabilități p și q = 1-p) se desfășoară de n ori; (cum ar fi dacă o monedă este aruncată de n ori); va exista o mică probabilitate de a obține tot capul și ar exista o mică probabilitate de a obține toate cozile. O anumită valoare a capului și o anumită valoare a cozii ar fi maxime. Această distribuție este numită distribuție binomială.

BINOMIAL Distribuție binomială cu tablă de șah.imagine modificată din WP

Distribuția lui Poisson exemplu din Wikipedia: o persoană care ține evidența cantității de e-mail pe care o primește în fiecare zi poate observa că primește un număr mediu de 4 scrisori pe zi. Dacă e-mailurile provin din surse independente , atunci numărul de corespondențe primite într-o zi respectă o distribuție Poisson. Adică va fi o șansă neglijabilă de a primi zero sau 100 de corespondență pe zi, dar maximum un anumit număr (aici 4) de corespondență pe zi.

În mod similar; să presupunem că într-o pajiște imaginară obținem în jur de 10 pietricele în 1 km ^ 2. Cu proporțional mai multă suprafață obținem proporțional mai multe pietricele. Dar pentru un anumit eșantion de 1 km ^ 2 este foarte puțin probabil să obținem 0 sau 100 pietricele. probabil urmează o distribuție a lui Poisson.

Conform Wikipedia, numărul de evenimente de descompunere pe secundă dintr-o sursă radioactivă, urmează o distribuție a lui Poisson.

Poisson Distribuția Poisson din Wikipedia

Distribuție normală sau Distribuție gaussiană – dacă n numărul de matrițe rulate simultan și având în vedere că n este foarte mare; suma rezultatului fiecărei matrițe ar tinde să fie grupată în jurul valorii centrale. Nu prea mare, nici prea mic. Această distribuție se numește o distribuție normală sau o curbă în formă de clopot.

triunghiular Sumă din 2 decese, de la aici

CLT
Odată cu creșterea numărului de matrițe simultane, distribuția se apropie de Gaussian. Din teorema limitei centrale

În mod similar, dacă n număr de monede aruncate simultan și n este foarte mare, ar fi puține șanse să va ajunge la multe capete sau la prea multe cozi. Numărul de capete se va concentra în jurul unei anumite valori. Aceasta este similară cu distribuția binomială, dar numărul monedei este chiar mai mare.

Comentarii

  • Vă rugăm să menționați dacă există vreo concepție greșită în efortul meu de mai sus, deoarece Mă tem de complexitatea statisticilor.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *