É uma distribuição distorcida ou bimodal?

Parece que esta distribuição pode ser distorcida para a direita e bimodal. Ou está inclinado apenas para a direita?

Comentários

Em primeiro lugar, dê uma olhada esta resposta .
Você só tem o histograma para seguir?

Resposta

Se o histograma fosse realmente a distribuição a partir da qual os dados foram retirados (seria então uniforme por partes, claramente), você poderia dizer que foi distorcida (por praticamente qualquer medida razoável) e multimodal, uma vez que há claramente mais de dois modos.

Mas presumivelmente estamos tentando usar o histograma para inferir algo sobre a distribuição da população.

Aqui, temos dois problemas.

O usual de contar o que vemos em uma amostra da variação de amostragem (“ruído”). A amostragem de uma população que não é assimétrica pode resultar em uma amostra que certamente parece enviesada, e a amostragem de uma população que é unimodal pode resultar em uma amostra que pode parecer ter mais de um modo.
A aparência do histograma às vezes pode ser fortemente afetada pela escolha da largura do compartimento e até mesmo da origem do compartimento . O fato de o histograma na questão ter muitos bins ajuda a mitigar a extensão e a frequência desse tipo de problema, mas ele ainda pode ocorrer.

Se você tiver o amostra original, você pode evitar o segundo problema em maior medida, considerando mais de uma exibição – não apenas os histogramas podem ser feitos para algumas larguras e origens de bandeja diferentes, mas outras exibições podem ser usadas – gráficos QQ, empíricos cdfs e assim por diante. (Eles são um pouco mais difíceis de aprender a extrair as informações, mas não estão tão sujeitos a esses tipos de problemas.)

Dito isso, dado o seu grande tamanho de amostra e assumindo sua amostra for uma amostra aleatória de alguma população, estaríamos bastante seguros em concluir que a distribuição da qual essa amostra foi retirada seria distorcida. A impressão de bimodalidade é relativamente mais fraca (no sentido de que podemos razoavelmente ver isso acontecer com uma população que não é realmente bimodal, pelo menos em uma amostra menor), mas eu ainda mencionaria a aparência de bimodalidade na tela.

Ignorando completamente o problema em 2. por enquanto, podemos ter uma ideia se esse histograma poderia ocorrer com uma população unimodal, considerando uma distribuição apenas unimodal que está próxima do que é observado e visto se pode produzir algo tão longe de unimodal quanto o que você observa na amostra.

Para simplificar a situação, considere a região entre cerca de 67 e 133 * (onde incluí minhas estimativas das contagens de bin para os bins relevantes nessa região):

De qualquer lado disso, em várias caixas antes e depois deste segmento, a densidade está claramente diminuindo; a questão é: podemos razoavelmente avaliar d esta peça como uma amostra aleatória de um segmento não crescente de uma distribuição?

* Observe que o impacto de escolher uma parte específica e focar nesta parte em particular está sendo ignorado aqui, mas isso não é algo que realmente deveria ser ignorado (isso definitivamente traz o problema de “olhar os dados” – por exemplo, deveríamos realmente ter incluído o próximo compartimento após o último que incluímos?). No entanto, vou avançar de qualquer maneira para dar a sensação de uma análise simples que daria uma ideia aproximada de se uma densidade não crescente é compatível com os dados (condicional ao posicionamento do compartimento). Observe que “escolher a parte estranha para olhar” assim geralmente aumentará a chance de encontrar algo “significativo”, então, se não encontrarmos nada, há realmente pouca razão para dizer que não poderia ” t ser unimodal.

Primeiro, para ver se isso é consistente com uma amostra de uma distribuição não crescente, precisamos de uma medida de aumento. Proponho simplesmente adicionar as diferenças nas contagens de bin ($ b_i-b_ {i -1} $) sempre que aumentam (e contam 0 caso contrário), ou seja, $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Portanto, para contagens de bin de 369, 373, 413, 375, 382 , 375 o total dos saltos para cima é U = 4 + 40 + 0 + 7 + 0 = 51.

O “melhor” caso não crescente para produzir nosso display será o uniforme.

A contagem total nesta região é 2287 e há 6 caixas.

Qual é a chance de que uma amostra de tamanho 2287 de seis categorias igualmente prováveis pudesse produzir um total salto, $ U $ de pelo menos 51? Isso é algo facilmente encontrado por simulação.

Tentar isso em R:

 res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349

Isso sugere que, em uma seção uniforme de uma densidade, você poderia facilmente ver essa quantidade de aumento desse tamanho de amostra – cerca de metade das vezes aumentaria pelo menos tanto se fosse uniforme.

É claro que poderíamos ter escolhido alguma outra medida, mas isso é suficiente para mim. Eu considero que é consistente com a uniformidade naquela seção e, portanto, o histograma não é inconsistente com uma amostra aleatória de uma distribuição unimodal geral.

[Editar: para integridade, mais tarde voltei e olhei alguns outros teste as estatísticas para ver se faria muita diferença, mas eles também não indicaram nada]

Isso não é suficiente para declarar que é unimodal, é claro. Não podemos dizer que “não é unimodal.

Portanto, eu o descreveria como aparentando ser assimétrico. Se você deve falar sobre se a população tem ou não mais de um modo, eu só iria mais longe a ponto de dizer que há alguma possibilidade de um segundo modo em algum lugar perto de 100, mas é difícil concluir qualquer coisa a partir disso display.

Comentários

Uau – incrível. Isso torna as coisas muito mais claras! Obrigado!
" Isso ' não é suficiente para declarar que é X, é claro. Podemos apenas ' diga que ' não é Y. " – Estatísticas resumidas.

Comentários

Resposta

Comentários

Deixe uma resposta Cancelar resposta