Eu tenho uma estatística que atribui valores a categorias de produtos. Esta estatística mostra uma forte bimodalidade (ver gráfico). Para análise, estou tentando atribuir um valor dessa estatística a cada produto (editar: para realizar uma análise de regressão na qual os produtos são observações). Isso é simples quando o produto está em apenas uma categoria. Mas fica difícil quando os produtos são atribuídos a mais de uma categoria. Como a estatística é bimodal, tirar a média dos valores para todas as categorias de um produto não faz sentido. Estou curioso para saber se existe uma maneira de obter esse tipo de estatística de resumo?
Minha pergunta tem duas partes relacionadas :
a) Uma pesquisa rápida me deu a ideia de que existem algumas maneiras de avaliar a multimodalidade (Ashman “s D, índice de bimodalidade , coeficiente de bimodalidade), mas nenhuma maneira direta de resumir uma série de valores extraídos de uma distribuição bimodal. Mas estou curioso se perdi algo? Para o problema em questão, acho que adotarei a abordagem descrita em b, mas futuro, eu ficaria feliz em saber o que é possível fazer nesse caso para resumir esse tipo de dados?
b) A abordagem que estou considerando adotar no momento é transformar minha estatística em três categorias uns: um para os valores próximos de zero, um para os valores em torno de 10 e, finalmente, um para os valores em torno de 5. Então, para cada produto, eu contaria o número de vezes que as categorias a que ele pertence são listadas em cada intervalo. s faz sentido para mim teoricamente, mas estou me perguntando se há alguma armadilha estatística que estou perdendo. (Esta abordagem parece (muito) vagamente ligada àquela adotada aqui , que busca dividir a distribuição em duas populações).
Comentários
- Depende de qual é o seu objetivo, mas eu certamente sugeriria usar um modelo de mistura para encontrar as duas distribuições que correspondem aos dois modos. Eu ' não tenho certeza do que você quer dizer com " tentando atribuir um valor para essa estatística a cada produto " ?
- Parece que você esqueceu de apresentar um gráfico de seus dados.
- @AdamO Que tipo de gráfico de dados você usaria Gosto de ver? Um gráfico de dispersão? Se não, diga-me o que seria útil e eu adicionarei.
- @jerad O que quero dizer com " atribua um valor dessa estatística a cada produto " (eu também corrigi o texto do post) é que eu quero usá-lo como uma variável em um modelo de regressão no qual os produtos são as observações. É por isso que quero encontrar um valor de resumo para os produtos que têm várias categorias.
- Desculpe, o gráfico de densidade não ' carregou quando eu o estava visualizando no meu navegador anterior.
Resposta
Visto que o a estatística é bimodal, calcular a média dos valores de todas as categorias de um produto não faz sentido.
Não acho que isso seja necessariamente verdade. Por exemplo , o risco de câncer de mama é altamente estratificado em alto ou baixo risco com base em marcadores genéticos. Quando você não sabe qual é o seu código genético, ainda faz sentido relatar a média.
Criação de cortes da variável tem o problema associado à escolha arbitrária de pontos de corte. Isso causará algum viés na estimativa dos modos como provenientes de distribuições normais de mistura. Uma abordagem alternativa é a do algoritmo EM, onde você pode estimar simultaneamente a atribuição de grupo “alto” versus “baixo” na distribuição da mistura e calcular os ICs para a média e seu erro padrão para cada grupo. Os detalhes de fazer isso em R estão neste documento .
Comentários
- Se bem entendi , o que o algoritmo EM me permitiria fazer é ser capaz de dizer se um valor pertence à primeira ou à segunda distribuição unimodal e com qual probabilidade?
- Sim EM funciona pela estimativa iterativa do indicador de associação ao grupo e a média entre cada grupo.