Exemplos da vida real de distribuições comuns

Sou um estudante de graduação desenvolvendo interesse por estatística. Gosto do material como um todo, mas às vezes tenho dificuldade em pensar em aplicações na vida real. Especificamente, minha pergunta é sobre as distribuições estatísticas comumente usadas (normal – beta-gama etc.). Eu acho que para alguns casos eu obtenho as propriedades particulares que tornam a distribuição muito boa – propriedade sem memória do exponencial, por exemplo. Mas, para muitos outros casos, não tenho uma intuição sobre a importância e as áreas de aplicação das distribuições comuns que vemos nos livros didáticos.

Provavelmente, há muitas fontes boas abordando minhas preocupações, eu ficaria feliz se você pudesse compartilhá-los. Eu ficaria muito mais motivado para o material se pudesse associá-lo a exemplos da vida real.

Comentários

Resposta

A Wikipedia tem uma página que lista muitas distribuições de probabilidade com links para mais detalhes sobre cada distribuição. Você pode examinar a lista e seguir os links para ter uma ideia melhor dos tipos de f aplicações para as quais as diferentes distribuições são comumente usadas.

Basta lembrar que essas distribuições são usadas para modelar a realidade e como Box disse: “todos os modelos estão errados, alguns modelos são úteis”.

Aqui estão algumas das distribuições comuns e algumas das razões pelas quais são úteis:

Normal: Isso é útil para olhar para médias e outras combinações lineares (por exemplo coeficientes de regressão) devido ao CLT. Relacionado a isso é se algo é conhecido por surgir devido a efeitos aditivos de muitas pequenas causas diferentes, então o normal pode ser uma distribuição razoável: por exemplo, muitas medidas biológicas são o resultado de vários genes e vários fatores ambientais e, portanto, são frequentemente aproximadamente normais .

Gama: inclinado para a direita e útil para coisas com um mínimo natural em 0. Normalmente usado para tempos decorridos e algumas variáveis financeiras.

Exponencial: caso especial de Gama. Não tem memória e escala facilmente.

Qui-quadrado ($ \ chi ^ 2 $): caso especial do Gama. Surge como a soma das variáveis normais ao quadrado (assim usado para variâncias).

Beta: Definido entre 0 e 1 (mas pode ser transformado para estar entre outros valores), útil para proporções ou outras quantidades que devem estar entre 0 e 1.

Binomial: Quantos “sucessos” em um determinado número de tentativas independentes com a mesma probabilidade de “sucesso”.

Poisson: Comum para contagens. Boas propriedades que se o número de eventos em um período de tempo ou área segue um Poisson, então o número no dobro do tempo ou área ainda segue o Poisson (com duas vezes a média): isso funciona para adicionar Poissons ou escalar com valores diferentes 2.

Observe que se os eventos ocorrem ao longo do tempo e o tempo entre as ocorrências segue um exponencial, então o número que ocorre em um período de tempo segue um Poisson.

Binomial negativo: conta com o mínimo 0 (ou outro valor dependendo de qual versão) e sem limite superior. Conceitualmente, é o número de “falhas” antes de k “sucessos”. O binômio negativo também é uma mistura de variáveis de Poisson cujas médias vêm de uma distribuição gama.

Geométrico: caso especial para o binômio negativo onde é o número de “falhas” antes do primeiro “sucesso”. Se você truncar (arredondar para baixo) uma variável exponencial para torná-la discreta, o resultado é geométrico.

Comentários

  • Obrigado por sua resposta. No entanto, a Wikipedia fornece uma descrição mais geral que eu ‘ gostaria. Basicamente, minha pergunta é por que algumas distribuições são boas? Para dar uma resposta possível em caso de distribuição normal, pode estar relacionado ao teorema central limitado – que diz que se você amostrar uma quantidade infinita de observações, você pode, na verdade, em assintáticos ver que a estatística suficiente dessas observações, dada a independência, tem uma distribuição normal . Estou procurando mais exemplos como esse ..
  • Não é exatamente uma distribuição real, mas e quanto ao bimodal? Não consigo ‘ não pensar em nenhum exemplo comum da vida real depois de descobrir que muitas das diferenças de gênero em humanos não são bimodais.
  • Adicione multinomial

Resposta

Compre e leia pelo menos os 6 primeiros capítulos (primeiras 218 páginas) de William J. Feller ” Uma introdução à teoria da probabilidade e suas aplicações, Vol. 2 “ http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb .Pelo menos leia todos os Problemas para Solução e, de preferência, tente resolver o máximo que puder. Você não precisa ter lido o Vol 1, que na minha opinião não é particularmente meritório.

Apesar de o autor ter morrido há 45 anos e meio, antes mesmo de o livro ser concluído, este é simplesmente melhor livro que existe, sem exceção, para desenvolver uma intuição em probabilidade e processos estocásticos e compreender e desenvolver uma sensação para várias distribuições, como eles se relacionam com fenômenos do mundo real e vários fenômenos estocásticos que podem e ocorrem. E com o sólido base que você construirá a partir dela, você terá um bom serviço em estatísticas.

Se você conseguir passar pelos capítulos subsequentes, o que fica um pouco mais difícil, você estará anos-luz à frente de quase todos. se você conhece Feller Vol 2, conhece a probabilidade (e os processos estocásticos); o que significa que, qualquer coisa que você não sabe, como novos desenvolvimentos, você será capaz de aprender e dominar rapidamente, construindo sobre essa base sólida.

Quase tudo o que foi mencionado anteriormente neste tópico está em Feller Vol 2 (não todo o material da Teoria Avançada de Estatística de Kendall, mas ler esse livro será moleza depois de Feller Vol 2), e mais, muito mais, tudo de uma forma que deve desenvolver seu pensamento estocástico e intuição. Johnson e Kotz é bom para minúcias em várias distribuições de probabilidade, Feller Vol 2 é útil para aprender a pensar probabilisticamente e saber o que extrair de Johnson e Kotz e como usá-lo.

Resposta

A teoria assintótica leva à distribuição normal, aos tipos de valores extremos, às leis estáveis e ao Poisson. O exponencial e o Weibull tendem a surgir como tempo paramétrico para distribuições de eventos. No caso do Weibull, é um tipo de valor extremo para o mínimo de uma amostra. Em relação aos modelos paramétricos para observações normalmente distribuídas, as distribuições qui quadrado, t e F surgem no teste de hipótese e estimativa do intervalo de confiança. O qui quadrado também aparece na análise da tabela de contingência e nos testes de adequação. Para estudar o poder dos testes, temos as distribuições t e F não centrais. A distribuição hipergeométrica surge no teste exato de Fisher para tabelas de contingência. A distribuição binomial é importante ao fazer experimentos para estimar proporções. O binomial negativo é uma distribuição importante para modelar a superdispersão em um processo de pontos. Isso deve lhe dar um bom começo na prática distribuições paramétricas. Para variáveis aleatórias não negativas em (0, ∞), a distribuição Gama é flexível para fornecer uma variedade de formas e o log normal também é comumente usado. Em [0,1] a família beta fornece distribuições simétricas, incluindo o uniforme também como distribuições inclinadas para a esquerda ou para a direita.

Também devo mencionar que se você quiser saber todos os detalhes essenciais sobre distribuições em estatísticas, há a série clássica de livros de Johnson e Kotz que incluem distribuições discretas, distribuições univariadas contínuas e distribuições multivariadas contínuas e também o volume 1 da Teoria Avançada de Estatística de Kendall e Stuart.

Comentários

  • Muito obrigado pela resposta, isso é extremamente útil. Obrigado novamente, isso realmente me ajudou.

Resposta

Apenas para adicionar às outras respostas excelentes.

A distribuição de Poisson é útil sempre que temos variáveis de contagem, como outros mencionaram. Mas muito mais deve ser dito! O poisson surge assintoticamente de uma variável distribuída binomialmente, quando $ n $ (o número de experimentos de Bernoulli) aumenta sem limites, e $ p $ (a probabilidade de sucesso de cada experimento individual () vai para zero, de forma que $ \ lambda = np $ permanece constante, afastado de zero e infinito. Isso nos diz que é útil sempre que temos um grande número de eventos individualmente muito improváveis. Alguns bons exemplos são: acidentes, como o número de acidentes de carro em Nova York em um dia, já que cada vez que dois carros passam / se encontram, há uma probabilidade muito baixa de um acidente, e o número de tais oportunidades é realmente astronômico! Agora você mesmo pode pensar em outros exemplos, como o número total de acidentes de avião no mundo em um ano. O exemplo clássico onde o número de mortes por chutes a cavalo na cavalaria preussiana!

Quando o Poisson é usado em epidemiologia, para modelar o número de casos de alguma doença, muitas vezes descobre-se que ele não se encaixa bem: a variação é muito ampla! O Poisson tem variância = média, o que pode ser visto facilmente a partir do limite do binômio: No binômio a variância é $ np (1-p) $, e quando $ p $ vai para zero, necessariamente $ 1-p $ vai para um, então a variação vai para $ np $, que é a expectativa, e ambas vão para $ \ lambda $.Uma maneira é buscar uma alternativa ao Poisson com maior variância, não condicionada a se igualar à média, como o binomial negativo. ¿Mas por que ocorre esse fenômeno de maior variância? Uma possibilidade é que as probabilidades individuais de doença $ p $ para uma pessoa não são constantes e nem dependem de alguma covariável observada (digamos, idade, ocupação, tabagismo, …) Isso é chamado de heterogeneidade não observada e, às vezes, modelos usados pois é chamado de modelos de fragilidade, ou modelos mistos. Uma maneira de fazer isso é assumir que $ p $ “s na população vem de alguma distribuição, e assumir que é uma distribuição gama, por exemplo (o que torna a matemática mais simples …), obtemos a distribuição gama-poisson – – que recupera o binômio negativo!

Resposta

Pesquisa publicada recentemente sugere que o desempenho humano NÃO é distribuído normalmente, ao contrário do que se pensa. Dados de quatro campos foram analisados: (1) Acadêmicos em 50 disciplinas, com base na frequência de publicação nos periódicos mais proeminentes de disciplinas específicas. (2 ) Artistas, como atores, músicos e escritores, e o número de prêmios, indicações ou distinções de prestígio recebidos. (3) Políticos em 10 países e resultados de eleições / reeleições. (4) Atletas universitários e profissionais olhando para os mais individualizados medidas disponíveis, como o número de home runs, recepções em esportes coletivos e total de vitórias em s individuais portas. O autor escreve: “Vimos uma distribuição clara e consistente da lei de potência se desdobrar em cada estudo, independentemente de quão restrita ou amplamente analisamos os dados …”

Comentários

  • Quem sugeriu que a performance humana é normalmente distribuída ?! O princípio 80-20 foi sugerido por Pareto (1906!).

Resposta

A distribuição de Cauchy é freqüentemente usada em finanças para modelar retornos de ativos. Também dignas de nota são as distribuições limitadas e ilimitadas de Johnson devido à sua flexibilidade (eu as apliquei na modelagem de preços de ativos, geração de eletricidade e hidrologia).

Resposta

Algumas distribuições de probabilidade comuns

Algumas distribuições de probabilidade comuns; De aqui

Distribuição uniforme (discreta) – Você jogou 1 dado e a probabilidade de cair 1, 2, 3, 4, 5 e 6 é igual.

Discreto uniforme ( aqui )

Distribuição uniforme (contínua) – Você pulverizou um pó muito fino em direção a uma parede. Para uma pequena área na parede, as chances de poeira cair em um ponto da parede são uniformes.

Você tem um grande cilindro de gás. Para qualquer unidade de área, o número de moléculas de gás atingindo por cm quadrado na parede interna por segundo, é aparentemente uniforme.

imagem da Wikipedia sobre colisão de gás aqui

Distribuição de Bernoulli – O ensaio de Bernoulli é (ou ensaio binomial) é um experimento aleatório com exatamente dois resultados possíveis, ” sucesso ” e ” falha “. Em tal tentativa, a probabilidade de sucesso é p, a probabilidade de fracasso é q = 1-p.

Por exemplo, em um lançamento de moeda, podemos ter 2 resultados – cara ou cauda. Para uma moeda justa, a probabilidade de cara é 1/2; a probabilidade de cauda é 1/2, é um tipo de distribuição de Bernoulli que também é uniforme.

Em um lançamento de moeda, se a moeda for injusta, como a probabilidade de obter cara é 0,9, então a probabilidade de cair uma cauda será 0,1.

Bernauli Distribuição Bernauli com probabilidades 0,6 e 0,4; de aqui

Distribuição binomial – Se um ensaio de Bernoulli (com 2 resultados, respectivamente com probabilidades peq = 1-p) for executado por n vezes; (como se uma moeda fosse lançada n vezes); haverá uma pequena probabilidade de obter todas as cabeças e haverá uma pequena probabilidade de obter todas as cabeças. Um certo valor de cabeça e um certo valor de cauda seriam máximos. Esta distribuição está sendo chamada de distribuição binomial.

BINOMIAL Distribuição binomial com tabuleiro de damas.imagem modificada do WP

distribuição de Poisson “ exemplo da Wikipedia: um indivíduo que mantém o controle da quantidade de correspondência que recebe a cada dia pode notar que recebe um número médio de 4 cartas por dia. Se as mensagens forem de fontes independentes , então o número de correspondências recebidas em um dia obedece a uma distribuição de Poisson, ou seja, haverá uma chance insignificante de obter zero ou 100 correspondências por dia, mas um máximo de certo número (aqui 4) correspondências por dia.

Da mesma forma; suponha que em um prado imaginário e obtenha cerca de 10 seixos em 1 km ^ 2. Com proporcionalmente mais área, obtemos proporcionalmente mais seixos. Mas, para uma determinada amostra de 1 km ^ 2, é muito improvável obter 0 ou 100 seixos. provavelmente segue uma distribuição de Poisson.

De acordo com a Wikipedia, o número de eventos de decaimento por segundo de uma fonte radioativa, segue uma distribuição de Poisson.

Poisson Distribuição de Poisson da Wikipedia

Distribuição normal ou Distribuição gaussiana – se n número de matrizes roladas simultaneamente, e dado que n é muito grande; a soma do resultado de cada morre tenderia a se agrupar em torno de um valor central. Nem muito grande, nem muito pequeno. Essa distribuição é chamada de distribuição normal ou curva em forma de sino.

triangular Soma de 2 matrizes, aqui

CLT
Com o aumento do número de matrizes simultâneas, a distribuição se aproxima de Gauss. Do teorema do limite central

Da mesma forma, se n número de moedas lançadas simultaneamente, en for muito grande, haveria uma pequena chance de que terá muitas caras ou muitas caudas. O número de cabeças será centralizado em torno de um determinado valor. Isso é semelhante à distribuição binomial, mas o número de moedas é ainda maior.

Comentários

  • Mencione se há algum equívoco em meu esforço acima porque Tenho medo da complexidade das estatísticas.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *