Non è corretto calcolare la media e la deviazione standard delle percentuali?

I miei dati sono alcune percentuali su quante transazioni di un intero vengono perse ogni mese. Le percentuali sono per 13 mesi e vanno dal 97 al 99 percento. Mi è stato chiesto di calcolare la media e la deviazione standard, ma non sono sicuro che il risultato sarebbe significativo e se la media potesse essere calcolata per le percentuali nel senso tradizionale (ad esempio, in Excel facendo MEDIA (matrice percentuale)) rispetto a qualche altro metodo (media ponderata) poiché non ho altre informazioni oltre alle percentuali.

Aiutami a capire

  1. Se la media e la deviazione standard per le percentuali possono essere calcolato,
  2. Quali condizioni sono necessarie per calcolare la media e la deviazione standard per le percentuali,
  3. Alternative che determinano la diffusione e la tendenza centrale per le percentuali in un periodo di tempo.

Ad esempio, sarebbe sbagliato fare quanto segue supponendo che le percentuali rappresentino # transazioni perse / # transazioni totali per ogni mese diverso con lo stesso calcolo utilizzato per ogni mese:

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

Da questo post sembra dovrebbe essere fatto con medie ponderate poiché i totali sono diversi e che il calcolo della media e della deviazione standard è possibile per le percentuali solo se provengono dallo stesso totale, il che significa che quanto sopra sarebbe errato e che avrei bisogno di informazioni aggiuntive per determinare il peso per moltiplicare le percentuali per, se è corretto.

Commenti

  • Ovviamente puoi calcolare media e SD di percentuali: basta inserirle nella formula. Ciò che dovrebbe essere preoccupante è come verranno interpretati i valori risultanti. Potresti spiegare perché ti è stato chiesto di eseguire questo calcolo e cosa verrà fatto con i risultati?
  • @whuber è proprio qui. Dopo tutto, una percentuale è solo una media di 0 ‘ se 1 ‘ s. Ciò che è più importante non è se è possibile calcolare una media e una deviazione standard, ma cosa vuoi fare con esse e se ha senso in quel contesto.
  • Era una richiesta generale per calcolare la media e deviazione standard di un insieme di metriche per impostare le soglie per loro. Quindi, in questo esempio, la media del 98,4% verrebbe utilizzata per misurare il mese corrente rispetto al mese corrente, con lipotesi che maggiore è la deviazione standard dalla media, maggiore sarà la preoccupazione.
  • Come puoi vedere, due deviazioni standard dalla media sono già in un territorio di oltre il 100%. Se il tuo compito è vedere quanto è estrema una nuova osservazione rispetto ai dati storici, potresti prendere in considerazione lutilizzo di alcune statistiche di rango. Per esempio. basta vedere quanti mesi sul numero totale di mesi sono stati peggiori o migliori del mese corrente. Otterrai punteggi come 2/13 o 1/13, o anche 0/13.
  • @RichardHardy Ovviamente, con i ranghi un valore è sempre il più alto e altri il più piccolo, quindi non è immediatamente evidente come i ranghi o le statistiche sui ranghi forniranno una soluzione a ” questo valore è abbastanza diverso da essere motivo di preoccupazione? ”

Risposta

Come afferma larticolo collegato nella domanda, non dovresti calcolare la media delle percentuali usando lo stesso metodo per i numeri interi .

Devi utilizzare una media ponderata.

Consulta questo articolo recente contiene maggiori dettagli https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage ma spiega lo stesso metodo dellarticolo collegato alla domanda.

Risposta

Come altri hanno sottolineato, se sia corretto calcolare la media e la deviazione standard delle percentuali dipende dal tuo uso mirato. Per te, almeno a quanto ho capito, sembra non essere corretto.

Come ho capito dalla tua domanda e commento, stai cercando di eseguire il rilevamento delle anomalie . In pratica stai chiedendo:

è il numero di transazioni perse allinterno di ciò che potrebbe essere considerato ” normale ” o devia così tanto da essere considerato anomalo?

Non esiste una risposta chiara a questo domanda. Il meglio che puoi fare è calcolare la probabilità :

Supponendo che una probabilità nota di una transazione sia un ” mis “, quanto è probabile che si verifichi il numero di errori specificato in un mese?

Se è molto improbabile (diciamo, probabilità inferiore a 0,05), potresti considerarlo anomalo. Quindi la domanda rimane come calcolare questa probabilità.Se le tue percentuali fossero distribuite normalmente, potresti facilmente ricavarle dalla media e dalla deviazione standard: i valori che sono più di 2 DS di distanza dalla media appaiono con probabilità inferiore a 0,05. Questo è presumibilmente il motivo per cui ti è stato chiesto di calcolare questi valori.

Tuttavia, le tue percentuali non sono normalmente distribuite! Come ha sottolineato Richard Hardy nel suo commento, due DS al di sopra della media sono già impossibili da ottenere, in quanto sarebbero superiori al 100%. È necessario utilizzare una distribuzione di probabilità diversa e più appropriata. Senza ulteriori conoscenze di dominio dei tuoi dati, il meglio che puoi fare è usare la distribuzione binomiale:

$$ P (k) = {n \ choose k} p ^ k ( 1-p) ^ {nk} $$

dove $ n $ è il numero di transazioni e $ k $ il numero di errori nel mese in questione. Puoi stimare $ p $ dai dati storici, come frazione di il numero totale di mancati e il numero totale di transazioni negli ultimi mesi.

Avendo tutto questo, puoi calcolare il cumulo Cinque probabilità di osservare almeno tanti errori quanti ne hai effettivamente avuti nel mese in questione. Se tale probabilità è inferiore a un livello predefinito (ad esempio il summenzionato 0,05), “la consideri unanomalia.

Per completezza: Se vuoi essere ancora più preciso (cosa che dubito, considerando che ti è stato assegnato un compito sbagliato in primo luogo), puoi ottenere un intervallo di confidenza di $ p $ modellandolo con la distribuzione beta e utilizzando lestremo, ma ancora plausibile $ p $ nella distribuzione binomiale sopra I parametri della distribuzione beta sarebbero ad es. $ \ alpha = $ (il numero di errori) e $ \ beta = $ (numero totale di transazioni $ – $ il numero di errori).

Risposta

Non mi piace fare quei calcoli con le percentuali. La prima opzione è lavorare con numeratori e denominatori, e poi it fare qualche manipolazione. La seconda opzione è convertire le percentuali in valori di registro, il che forzerà i risultati nellintervallo da 0 a 100 percento.

Commenti

  • Questo non viene visualizzato per rispondere alla domanda.
  • La seconda opzione non ha senso. Se hai percentuali comprese tra 0 e 100, la raccolta di log non ‘ funziona se hai valori 0 e forza le percentuali inferiori a 1 a inferiori a 0. Occasionalmente è utile prendere logaritmi di percentuali, ma tipicamente come unapprossimazione del lavoro su scala logit.
  • Sono abituato a lavorare con probabilità e quasi esclusivamente logaritmi naturali (la scala logit). Funziona in quel dominio, con alcuni presupposti. Avrei dovuto qualificare il mio commento. Inizialmente, pensavo che potesse essere applicato in modo più generale, ma hai ragione, non può.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *