Je suis un étudiant diplômé développant un intérêt pour les statistiques. Jaime le matériel dans lensemble, mais jai parfois du mal à réfléchir aux applications dans la vie réelle. Plus précisément, ma question porte sur les distributions statistiques couramment utilisées (normal – bêta-gamma, etc.). Je suppose que dans certains cas, jobtiens les propriétés particulières qui rendent la distribution assez agréable – propriété sans mémoire dexponentielle par exemple. Mais pour de nombreux autres cas, je nai pas une intuition à la fois sur limportance et les domaines dapplication des distributions courantes que nous voyons dans les manuels.
Il existe probablement beaucoup de bonnes sources répondant à mes préoccupations, je Je serais heureux si vous pouviez les partager. Je serais beaucoup plus motivé par le matériel si je pouvais lassocier à des exemples réels.
Commentaires
Réponse
Wikipédia a une page qui répertorie de nombreuses distributions de probabilité avec des liens vers plus de détails sur chaque distribution. Vous pouvez parcourir la liste et suivre les liens pour avoir une meilleure idée des types o f applications pour lesquelles les différentes distributions sont couramment utilisées.
Rappelez-vous simplement que ces distributions sont utilisées pour modéliser la réalité et comme Box la dit: « tous les modèles sont faux, certains modèles sont utiles ».
Voici quelques-unes des distributions courantes et certaines des raisons pour lesquelles elles sont utiles:
Normal: Ceci est utile pour examiner les moyennes et autres combinaisons linéaires (par exemple coefficients de régression) en raison du CLT. En lien avec cela, si quelque chose est connu pour se produire en raison des effets additifs de nombreuses petites causes différentes, la normale peut être une distribution raisonnable: par exemple, de nombreuses mesures biologiques sont le résultat de plusieurs gènes et de plusieurs facteurs environnementaux et sont donc souvent à peu près normales. .
Gamma: asymétrique à droite et utile pour les choses avec un minimum naturel à 0. Couramment utilisé pour les temps écoulés et certaines variables financières.
Exponentiel: cas particulier du gamma. Il est sans mémoire et évolue facilement.
Chi-carré ($ \ chi ^ 2 $): cas particulier du Gamma. Se présente comme une somme de variables normales au carré (donc utilisées pour les variances).
Bêta: Défini entre 0 et 1 (mais pourrait être transformé pour être entre dautres valeurs), utile pour les proportions ou dautres quantités qui doivent être entre 0 et 1.
Binomial: Combien de « succès » sur un nombre donné dessais indépendants avec la même probabilité de « succès ».
Poisson: Commun pour les dénombrements. Belles propriétés que si le nombre dévénements dans une période de temps ou une zone suit un Poisson, alors le nombre dans deux fois le temps ou la zone suit toujours le Poisson (avec deux fois la moyenne): cela fonctionne pour ajouter des Poissons ou mettre à léchelle avec des valeurs autres que 2.
Notez que si les événements se produisent au fil du temps et que le temps entre les occurrences suit une exponentielle, alors le nombre qui se produit dans une période de temps suit un Poisson.
Binomial négatif: compte avec un minimum 0 (ou autre valeur selon la version) et pas de limite supérieure. Conceptuellement, cest le nombre d « échecs » avant k « succès ». Le binôme négatif est aussi un mélange de variables de Poisson dont les moyennes proviennent dune distribution gamma.
Géométrique: cas particulier du binôme négatif où cest le nombre de « ratés » avant le 1er « succès ». Si vous tronquez (arrondissez vers le bas) une variable exponentielle pour la rendre discrète, le résultat est géométrique.
Commentaires
- Et bien merci pour votre réponse. Cependant, wikipedia fournit une description plus générale que japprécie ‘. En gros, ma question est de savoir pourquoi certaines distributions sont sympas? Pour donner une réponse possible en cas de distribution normale, peut être lié au théorème central limité – qui dit que si vous échantillonnez une quantité infinie dobservations, vous pouvez en fait en asympotique voir quune statistique suffisante de ces observations, étant donné lindépendance, a une distribution normale . Je cherche dautres exemples comme celui-là ..
- Pas exactement une vraie distribution, mais quen est-il du bimodal? Je ne peux ‘ penser à aucun exemple réel de la vie courante après avoir constaté que les nombreuses différences entre les sexes chez les humains ne sont pas bimodales.
- Ajouter multinomial
Réponse
Achetez et lisez au moins les 6 premiers chapitres (218 premières pages) de William J. Feller » Une introduction à la théorie des probabilités et à ses applications, vol. 2 « http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb .Lisez au moins tous les problèmes à résoudre, et essayez de préférence den résoudre autant que vous le pouvez. Vous n’avez pas besoin d’avoir lu le Vol 1, qui à mon avis n’est pas particulièrement méritoire.
Bien que l’auteur soit décédé il y a 45 ans et demi, avant même que le livre ne soit terminé, c’est simplement le le meilleur livre qui soit, sans aucun doute, pour développer une intuition des probabilités et des processus stochastiques, et comprendre et développer une sensation pour diverses distributions, comment elles se rapportent aux phénomènes du monde réel et aux divers phénomènes stochastiques qui peuvent se produire et se produisent. Et avec le solide vous en construirez, vous serez bien servi dans les statistiques.
Si vous pouvez passer par les chapitres suivants, ce qui devient un peu plus difficile, vous aurez des années-lumière davance sur presque tout le monde. si vous connaissez Feller Vol 2, vous connaissez les probabilités (et les processus stochastiques), ce qui signifie que, tout ce que vous ne savez pas, comme les nouveaux développements, vous serez en mesure de saisir et de maîtriser rapidement en vous appuyant sur cette base solide.
Presque tout ce qui a été mentionné précédemment dans ce fil se trouve dans Feller Vol 2 (pas tout le matériel de Kendall Advanced Theory of Statistics, mais la lecture de ce livre sera un jeu denfant après Feller Vol 2), et bien plus encore, tout cela dune manière qui devrait développer votre pensée stochastique et lintuition. Johnson and Kotz est bon pour les minuties sur diverses distributions de probabilités, Feller Vol 2 est utile pour apprendre à penser de manière probabiliste, et savoir quoi extraire de Johnson et Kotz et comment lutiliser.
Réponse
La théorie asymptotique conduit à la distribution normale, aux types de valeurs extrêmes, aux lois stables et au Poisson. Lexponentiel et le Weibull ont tendance à apparaître comme des distributions temporelles paramétriques dévénements. Dans le cas du Weibull, il sagit dun type de valeur extrême pour le minimum dun échantillon. En relation avec les modèles paramétriques pour les observations normalement distribuées, les distributions du chi carré, t et F apparaissent dans les tests dhypothèse et dans lestimation de lintervalle de confiance. Le chi carré apparaît également dans lanalyse des tableaux de contingence et la qualité des tests dajustement. Pour étudier la puissance des tests, nous avons les distributions t et F non centrales. La distribution hypergéométrique se produit dans le test exact de Fisher pour les tableaux de contingence. La distribution binomiale est importante lorsque vous faites des expériences pour estimer les proportions. Le binôme négatif est une distribution importante pour modéliser la surdispersion dans un processus ponctuel. Cela devrait vous donner un bon départ en pratique distributions paramétriques. Pour les variables aléatoires non négatives sur (0, ∞), la distribution Gamma est flexible pour fournir une variété de formes et le log normal est également couramment utilisé. Sur [0,1], la famille bêta fournit des distirbutions symétriques comprenant également luniforme comme les distributions inclinées à gauche ou à droite.
Je dois également mentionner que si vous voulez connaître tous les détails sur les distributions dans les statistiques, il existe la série classique de livres de Johnson et Kotz qui incluent des distributions discrètes, distributions continues univariées et distributions multivariées continues ainsi que le volume 1 de la théorie avancée des statistiques de Kendall et Stuart.
Commentaires
- Merci beaucoup pour la réponse, cest extrêmement utile. Merci encore, cela ma vraiment aidé.
Réponse
Juste pour ajouter aux autres excellentes réponses.
La distribution de Poisson est utile chaque fois que nous avons des variables de comptage, comme dautres lont mentionné. Mais il faut en dire beaucoup plus! Le poisson provient asymptotiquement dune variable distribuée binomialement, lorsque $ n $ (le nombre dexpériences de Bernoulli) augmente sans limites, et $ p $ (la probabilité de succès de chaque expérience individuelle () passe à zéro, de telle manière que $ \ lambda = np $ reste constant, délimité de zéro et de linfini. Cela nous indique quil est utile chaque fois que nous avons un grand nombre dévénements individuellement très improbables. Quelques bons exemples sont: les accidents, tels que le nombre daccidents de voiture à New York en un jour, puisque chaque fois que deux voitures passent / se rencontrent, il y a une très faible probabilité daccident, et le nombre de telles opportunités est en effet astronomique! Maintenant, vous pouvez vous-même penser à dautres exemples, tels que le nombre total de crashs davion dans le monde en un an. Lexemple classique où le nombre de morts par coups de pied dans la cavalerie preussienne!
Lorsque le Poisson est utilisé en épidémiologie, pour modéliser le nombre de cas de certaines maladies, on trouve souvent quil ne rentre pas bien: la variance est trop grande! Le Poisson a une variance = moyenne, qui peut être facilement vue à partir de la limite du binôme: Dans le binôme la variance est $ np (1-p) $, et quand $ p $ va à zéro nécessairement $ 1-p $ va à un, donc la variance va à $ np $, qui est lespérance, et les deux vont à $ \ lambda $.Une façon est de rechercher une alternative au Poisson avec une variance plus grande, non conditionnée pour égaler la moyenne, comme le binôme négatif. ¿Mais pourquoi ce phénomène de plus grande variance se produit-il? Une possibilité est que les probabilités individuelles de maladie $ p $ pour une personne ne soient pas constantes et ne dépendent pas non plus dune covariable observée (par exemple, lâge, la profession, le tabagisme, …) Cest ce quon appelle lhétérogénéité non observée, et parfois les modèles utilisés car cela sappelle des modèles de fragilité ou des modèles mixtes. Une façon de faire cela est de supposer que les $ p $ « s dans la population proviennent dune distribution, et en supposant quil sagit dune distribution gamma, par exemple (ce qui rend les mathématiques plus simples …), nous obtenons la distribution gamma-poisson – – qui récupère le binôme négatif!
Réponse
Récemment recherche publiée suggère que la performance humaine nest PAS normalement distribuée, contrairement à ce que lon pense généralement. Les données de quatre domaines ont été analysées: (1) Des universitaires dans 50 disciplines, sur la base de la fréquence de publication dans les revues les plus importantes de la discipline. (2 ) Les artistes, tels que les acteurs, les musiciens et les écrivains, et le nombre de récompenses, nominations ou distinctions prestigieuses reçues. (3) Politiciens dans 10 pays et résultats des élections / réélections. (4) Athlètes collégiaux et professionnels examinant les plus individualisés mesures disponibles, telles que le nombre de circuits, de réceptions dans les sports déquipe et le nombre total de victoires en individuel les ports. Lauteur écrit: « Nous avons vu une répartition claire et cohérente de la loi de puissance se dérouler dans chaque étude, quelle que soit la mesure dans laquelle nous avons analysé les données de manière étroite ou large … »
Commentaires
- Qui a suggéré que la performance humaine est normalement distribuée?! Le principe 80-20 a été suggéré par Pareto (1906!).
Answer
La distribution de Cauchy est souvent utilisée en finance pour modéliser les rendements des actifs. Il convient également de noter les distributions limitées et illimitées de Johnson en raison de leur flexibilité (je les ai appliquées à la modélisation des prix des actifs, de la production délectricité et de lhydrologie).
Réponse
Quelques distributions de probabilités courantes; De ici
Distribution uniforme (discrète) – Vous avez lancé 1 dé et la probabilité de tomber sur 1, 2, 3, 4, 5 et 6 est égale.
(de ici )
Distribution uniforme (continue) – Vous avez pulvérisé une poudre très fine vers un mur. Pour une petite zone sur le mur, les chances de tomber de la poussière sur un point du mur sont uniformes.
Vous avez une grosse bouteille de gaz. Pour toute unité de surface, le nombre de molécules de gaz frappant par cm carré sur la paroi intérieure par seconde est apparemment uniforme.
de ici
Distribution de Bernoulli – Lessai de Bernoulli est (ou essai binomial) est une expérience aléatoire avec exactement deux résultats possibles, » succès » et » échec « . Dans un tel essai, la probabilité de succès est p, la probabilité déchec est q = 1-p.
Par exemple, dans un tirage au sort, nous pouvons avoir 2 résultats – tête ou queue. Pour une pièce juste, la probabilité de tête est de 1/2; la probabilité de queue est de 1/2, cest un type de distribution de Bernoulli qui est également uniforme.
Dans un tirage au sort, si la pièce est injuste, comme la probabilité dobtenir la tête est de 0,9, alors la probabilité de tomber une queue sera 0,1.
Bernauli Distribution avec probabilités 0,6 et 0,4; de ici
Distribution binomiale – Si un essai de Bernoulli (avec 2 résultats, respectivement avec des probabilités p et q = 1-p) est exécuté pendant n fois; (par exemple si une pièce est lancée n fois); il y aura une petite probabilité dobtenir toute la tête, et il y aurait une petite probabilité dobtenir toutes les queues. Une certaine valeur de tête et une certaine valeur de queue seraient maximales. Cette distribution est appelée distribution binomiale.
Distribution binomiale avec damier.image modifiée à partir de la distribution de WP
Poisson « – exemple de Wikipédia: une personne qui suit la quantité de courrier quelle reçoit chaque jour peut remarquer quelle reçoit en moyenne 4 lettres par jour. Si les courriers proviennent dune source indépendante , alors le nombre de courriers reçus dans une journée obéit à une distribution de Poisson. cest-à-dire quil y aura une chance négligeable de recevoir zéro ou 100 courriers par jour mais un maximum dun certain nombre (ici 4) de courriers par jour.
De même, supposons que dans une prairie imaginaire e reçoive environ 10 cailloux sur 1 km ^ 2. Avec proportionnellement plus de surface, nous obtenons proportionnellement plus de cailloux. Mais pour un certain échantillon de 1 km ^ 2, il est très peu probable dobtenir 0 ou 100 cailloux. il suit probablement une distribution de Poisson.
Selon Wikipedia, le nombre dévénements de désintégration par seconde à partir dune source radioactive, suit une distribution de Poisson.
Distribution de Poisson « de Wikipédia
Distribution normale ou Distribution gaussienne – si n nombre de matrices sont lancés simultanément, et étant donné que n est très grand; la somme des résultats de chacun des matrices aurait tendance à être regroupée autour dune valeur centrale. Ni trop grand, ni trop petit. Cette distribution est appelée une distribution normale ou une courbe en forme de cloche.
Somme sur 2 meurt, de ici
Avec un nombre croissant de matrices simultanées, la distribution se rapproche de la Gaussienne. De théorème de limite centrale
De même, si n nombre de pièces lancées simultanément, et n est très grand, il y aurait peu de chance que nous atteindra plusieurs têtes ou trop de queues. Le nombre de têtes sera centré autour dune certaine valeur. Cest similaire à la distribution binomiale, mais le nombre de pièces est encore plus grand.
Commentaires
- Veuillez mentionner sil y a une idée fausse dans mon effort ci-dessus car Jai peur de la complexité des statistiques.
EstimatedDistribution
.