É incorreto calcular a média e o desvio padrão das porcentagens?

Meus dados são algumas porcentagens de quantas transações de um todo são perdidas a cada mês. Os percentuais são para 13 meses e variam de 97 a 99 por cento. Pediram-me para calcular a média e o desvio padrão, mas não tenho certeza se o resultado seria significativo e se a média poderia ser calculada para porcentagens no sentido tradicional (por exemplo, no Excel fazendo AVERAGE (matriz de porcentagem)) vs. algum outro método (média ponderada), pois não tenho nenhuma outra informação além das porcentagens.

Por favor, me ajude a entender

  1. Se a média e o desvio padrão para as porcentagens podem ser calculado,
  2. Quais são as condições necessárias para calcular a média e o desvio padrão das percentagens,
  3. Alternativas que determinam o spread e a tendência central das percentagens ao longo de um período de tempo.

Por exemplo, seria incorreto fazer o seguinte presumindo que as porcentagens representam # transações perdidas / # transações totais para cada mês diferente, com o mesmo cálculo sendo usado para cada mês:

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

De esta postagem parece que sim deve ser feito com médias ponderadas, uma vez que os totais são diferentes, e que o cálculo da média e do desvio padrão é possível para porcentagens apenas se vierem do mesmo total, o que significa que o acima seria incorreto e que eu precisaria de informações adicionais para determinar o peso para multiplicar as porcentagens por, se isso estiver correto.

Comentários

  • Claro você pode calcular a média e o SD de percentagens: basta inseri-los na fórmula. O que deve ser motivo de preocupação é como os valores resultantes serão interpretados. Você poderia explicar por que foi solicitado a fazer esse cálculo e o que será feito com os resultados?
  • @whuber está bem aqui. Afinal, uma porcentagem é apenas uma média de 0 ‘ se 1 ‘ s. O mais importante não é se uma média e um desvio padrão podem ser calculados, mas o que você deseja fazer com eles e se faz sentido nesse contexto.
  • Foi uma solicitação geral para calcular a média e desvio padrão de um conjunto de métricas para definir limites para eles. Portanto, neste exemplo, a média de 98,4% seria usada para medir o mês atual contra, com a suposição de que quanto mais desvios padrão estiver da média, mais preocupante seria.
  • Como você pode ver, dois desvios padrão da média já estão em um território de mais de 100%. Se sua tarefa é ver o quão extrema é uma nova observação em comparação com os dados históricos, você pode considerar o uso de alguma estatística de classificação. Por exemplo. veja apenas quantos meses do número total de meses foram piores ou melhores do que o mês atual. Você obterá pontuações como 2/13 ou 1/13, ou mesmo 0/13.
  • @RichardHardy Claro, com classificações, alguns valores são sempre os mais altos e outros os menores, por isso não é imediatamente aparente como as classificações ou estatísticas de classificação fornecerão uma solução para ” esse valor é diferente o suficiente para ser motivo de preocupação? ”

Resposta

Como afirma o artigo vinculado à pergunta, você não deve calcular a média das porcentagens usando o mesmo método para números inteiros .

Você deve usar uma média ponderada.

Veja este artigo recente tem mais detalhes https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage , mas explica o mesmo método que o artigo vinculado na pergunta.

Resposta

Como outros apontaram, se é correto calcular a média e o desvio padrão das porcentagens depende de você uso tendido. Para você usar, pelo menos como eu entendo, parece estar incorreto.

Pelo que entendi de sua pergunta e comentário, você está tentando fazer detecção de anomalias . Você está perguntando basicamente:

É o número de transações perdidas dentro do que poderia ser considerado ” normal “, ou se desvia tanto para ser considerado anômalo?

Não há uma resposta clara para isso pergunta. O melhor que você pode fazer é calcular a probabilidade :

Supondo que uma probabilidade conhecida de uma transação seja um ” mis “, qual é a probabilidade de ocorrer o determinado número de erros em um mês?

Se for muito improvável (digamos, probabilidade abaixo de 0,05), você pode considerá-lo anômalo. Portanto, a questão permanece como calcular essa probabilidade.Se suas porcentagens fossem distribuídas normalmente, você poderia facilmente derivá-las da média e do desvio padrão: valores que estão a mais de 2 DPs da média aparecem com probabilidade abaixo de 0,05. Essa é provavelmente a razão pela qual você foi solicitado a calcular esses valores.

No entanto, suas porcentagens não são normalmente distribuídas! Como Richard Hardy apontou em seu comentário, dois SDs acima da média já são impossíveis de atingir, pois seria acima de 100%. Você precisa usar uma distribuição de probabilidade diferente e mais apropriada. Sem ter mais conhecimento do domínio de seus dados, o melhor que você pode fazer é usar a distribuição binomial:

$$ P (k) = {n \ escolha k} p ^ k ( 1-p) ^ {nk} $$

sendo $ n $ o número de transações e $ k $ o número de perdas no mês em questão. Você pode estimar $ p $ a partir de dados históricos, como a fração de o número total de perdas e o número total de transações nos últimos meses.

Tendo tudo isso, você pode calcular o ive probabilidade de observar pelo menos tantas perdas quanto você realmente teve no mês em questão. Se essa probabilidade estiver abaixo de algum nível predefinido (por exemplo, o 0,05 mencionado acima), você “consideraria uma anomalia.

Para integridade: div id = “737b4700c5”>

Se você quiser ser ainda mais preciso (o que eu duvido, considerando que você recebeu uma tarefa errada em primeiro lugar), você pode obter um intervalo de confiança de $ p $ modelando-o pela distribuição beta e use o extremo, mas ainda plausível $ p $ na distribuição binomial acima . Os parâmetros da distribuição beta seriam, por exemplo, $ \ alpha = $ (o número de erros) e $ \ beta = $ (número total de transações $ – $ o número de perdas).

Resposta

Não gosto de fazer cálculos com porcentagens. A primeira opção é trabalhar com numeradores e denominadores, e pt fazer alguma manipulação. A segunda opção é converter as porcentagens em valores de registro, o que forçará os resultados na faixa de 0 a 100 por cento.

Comentários

  • Isso não aparece para responder à pergunta.
  • A segunda opção não faz sentido. Se você tiver porcentagens entre 0 e 100, então obter os registros ‘ t funcionará se você tiver 0 valores e forçar porcentagens abaixo de 1 a abaixo de 0. Ocasionalmente, há algum ponto em obter logaritmos de percentagens, mas normalmente como uma aproximação para trabalhar em escala logit.
  • Estou acostumado a trabalhar com probabilidades, e quase exclusivamente logaritmos naturais (a escala logit). Funciona nesse domínio, com certas suposições. Eu deveria ter qualificado meu comentário. Inicialmente, pensei que poderia ser aplicado de forma mais geral, mas você está certo, não pode.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *