¿Es incorrecto calcular la media y la desviación estándar de los porcentajes?

Mis datos son algunos porcentajes sobre cuántas transacciones de un total se pierden cada mes. Los porcentajes son para 13 meses y oscilan entre el 97 y el 99 por ciento. Se me pidió que calculara la media y la desviación estándar, pero no estoy seguro de si el resultado sería significativo y si la media podría calcularse para porcentajes en el sentido tradicional (por ejemplo, en Excel haciendo PROMEDIO (matriz de porcentaje)) frente a algún otro método (promediado ponderado) ya que no tengo más información que los porcentajes.

Por favor, ayúdeme a comprender

  1. Si la desviación estándar y media de los porcentajes puede ser calculado,
  2. Qué condiciones se necesitan para calcular la media y la desviación estándar de los porcentajes,
  3. Alternativas que determinan la dispersión y la tendencia central de los porcentajes durante un período de tiempo.

Por ejemplo, ¿sería incorrecto hacer lo siguiente asumiendo que los porcentajes representan # transacciones perdidas / # transacciones totales para cada mes diferente con el mismo cálculo que se utiliza para cada mes:

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

De esta publicación parece debe hacerse con promedios ponderados ya que los totales son diferentes, y que calcular la media y la desviación estándar es posible para los porcentajes solo si provienen del mismo total, lo que significa que lo anterior sería incorrecto y que necesitaría información adicional para determinar el peso para multiplicar los porcentajes por, si eso es correcto.

Comentarios

  • Por supuesto puede calcular la media y la DE de porcentajes: simplemente introdúzcalos en la fórmula. Lo que debería ser motivo de preocupación es cómo se interpretarán los valores resultantes. ¿Podría explicar por qué se le pidió que realizara este cálculo y qué se hará con los resultados?
  • @whuber está aquí. Después de todo, un porcentaje es solo una media de 0 ‘ sy 1 ‘ s. Lo más importante no es si se puede calcular una desviación estándar y media, sino lo que quiere hacer con ellas y si tiene sentido en ese contexto.
  • Fue una solicitud general para calcular la media y desviación estándar de un conjunto de métricas para establecer umbrales para ellos. Entonces, en este ejemplo, el promedio del 98.4% se usaría para comparar el mes actual con el supuesto de que cuantas más desviaciones estándar se alejen de la media, mayor será la preocupación.
  • Como puede ver, dos desviaciones estándar de la media ya se encuentran en un territorio de más del 100%. Si su tarea es ver qué tan extrema es una nueva observación en comparación con los datos históricos, podría considerar usar alguna estadística de clasificación. P.ej. sólo vea cuántos meses del número total de meses han sido mejores o peores que el mes actual. Obtendrá puntuaciones como 2/13 o 1/13, o incluso 0/13.
  • @RichardHardy Por supuesto, con rangos, algún valor es siempre el más alto y algunos el más pequeño, por lo que no es inmediatamente Es evidente cómo los rangos o las estadísticas de rango proporcionarán una solución a » ¿Es este valor lo suficientemente diferente como para ser motivo de preocupación? »

Respuesta

Como dice el artículo vinculado en la pregunta, no debe calcular el promedio de porcentajes usando el mismo método para números enteros .

Debe utilizar un promedio ponderado.

Consulte este artículo reciente tiene más detalles https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage pero explica el mismo método que el artículo vinculado en la pregunta.

Respuesta

Como han señalado otros, si es correcto calcular la media y la desviación estándar de los porcentajes depende de su uso tendido. Para su uso, al menos según yo lo entiendo, parece ser incorrecto.

Según entiendo por su pregunta y comentario, está tratando de hacer una detección de anomalías . Básicamente estás preguntando:

¿Es el número de transacciones perdidas dentro de lo que podría considerarse » normal «, ¿o se desvía tanto para ser considerado anómalo?

No hay una respuesta clara a eso pregunta. Lo mejor que puede hacer es calcular la probabilidad :

Suponiendo que una probabilidad conocida de una transacción sea un » mis «, ¿qué tan probable es tener el número dado de fallos en un mes?

Si es muy improbable (digamos, probabilidad por debajo de 0.05), puede considerarlo anómalo. Entonces la pregunta sigue siendo cómo calcular esta probabilidad.Si sus porcentajes estuvieran distribuidos normalmente, podría derivarlos fácilmente de la media y la desviación estándar: los valores que están a más de 2 DE de la media aparecen con una probabilidad inferior a 0.05. Esa es probablemente la razón por la que se le pidió que calculara estos valores.

Sin embargo, sus porcentajes no se distribuyen normalmente. Como señaló Richard Hardy en su comentario, dos DE por encima de la media ya son imposibles de lograr, ya que estaría por encima del 100%. Es necesario utilizar una distribución de probabilidad diferente y más apropiada. Sin tener más conocimientos de dominio de sus datos, lo mejor que puede hacer es usar la distribución binomial:

$$ P (k) = {n \ choose k} p ^ k ( 1-p) ^ {nk} $$

siendo $ n $ el número de transacciones y $ k $ la cantidad de errores en el mes en cuestión. Puede estimar $ p $ a partir de datos históricos, como la fracción de el número total de errores y el número total de transacciones en los últimos meses.

Teniendo todo esto, puede calcular el acumulado iva probabilidad de observar al menos tantos fallos como los que tuvo en el mes en cuestión. Si esa probabilidad está por debajo de algún nivel predefinido (por ejemplo, el 0.05 mencionado anteriormente), lo consideraría una anomalía.

Para completar: Si desea ser aún más preciso (lo cual dudo, considerando que se le asignó una tarea incorrecta en primer lugar), puede obtener un intervalo de confianza de $ p $ modelándolo por la distribución beta, y use el extremo, pero aún plausible $ p $ en la distribución binomial anterior . Los parámetros de la distribución beta serían, por ejemplo, $ \ alpha = $ (el número de fallos) y $ \ beta = $ (número total de transacciones $ – $ el número de errores).

Respuesta

No me gusta hacer esos cálculos con porcentajes. La primera opción es trabajar con los numeradores y denominadores, y th en hacer alguna manipulación. La segunda opción es convertir los porcentajes en valores de registro, lo que forzará los resultados en el rango de 0 a 100 por ciento.

Comentarios

  • Esto no aparece para estar respondiendo a la pregunta.
  • La segunda opción no tiene sentido. Si tiene porcentajes entre 0 y 100, entonces tomar registros ‘ t no funcionará si tiene 0 valores y obliga a los porcentajes por debajo de 1 a menos de 0. De vez en cuando, es útil tomar logaritmos de porcentajes, pero típicamente como una aproximación al trabajo en escala logit.
  • Estoy acostumbrado a trabajar con probabilidades y casi exclusivamente logaritmos naturales (la escala logit). Funciona en ese dominio, con ciertos supuestos. Debería haber matizado mi comentario. Inicialmente, pensé que podría aplicarse de manera más general, pero tiene razón, no puede.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *