Är det fel att beräkna procentsatsernas genomsnittliga och standardavvikelse?

Mina data är några procentsatser för hur många transaktioner från en helhet som missas varje månad. Procentandelen är i 13 månader och sträcker sig från 97 till 99 procent. Jag blev ombedd att beräkna medelvärdet och standardavvikelsen, men jag är osäker på om resultatet skulle vara meningsfullt och om medelvärdet skulle kunna beräknas för procent i traditionell mening (t.ex. i Excel gör MEDEL (procentmatris)) jämfört med något annat metod (vägt medelvärde) eftersom jag inte har någon annan information än procentsatserna.

Snälla hjälp mig att förstå

  1. Om medelvärdet och standardavvikelsen för procent kan vara beräknat,
  2. Vilka förhållanden behövs för att beräkna medelvärdet och standardavvikelsen för procent,
  3. Alternativ som bestämmer spridning och central tendens för procentsatser över en tidsperiod.

Till exempel skulle det vara felaktigt att göra om man antar att procentsatserna representerar # missade transaktioner / # totalt antal transaktioner för varje månad, med samma beräkning som används för varje månad:

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

Från detta inlägg verkar som det bör göras med viktade medelvärden eftersom totalen är olika, och att beräkna medelvärdet och standardavvikelsen är endast möjligt för procentsatser om de kommer från samma summa, vilket innebär att ovanstående skulle vara felaktigt och att jag skulle behöva ytterligare information för att bestämma vikten att multiplicera procentsatserna med, om det är korrekt.

Kommentarer

  • Naturligtvis kan du beräkna medelvärde och SD för procentsatser: anslut dem bara till formeln. Vad som bör vara bekymmer är hur de resulterande värdena ska tolkas. Kan du förklara varför du har blivit ombedd att utföra denna beräkning och vad kommer att göras med resultaten?
  • @whuber finns här. När allt kommer omkring är en procentsats bara ett medelvärde av 0 ’ s och 1 ’ s. Det viktigaste är inte om ett medelvärde och standardavvikelse kan beräknas, utan vad du vill göra med dem och om det är vettigt i det sammanhanget.
  • Det var en blankettbegäran att beräkna medelvärdet och standardavvikelse för en uppsättning mätvärden för att ställa in trösklar för dem. Så i det här exemplet skulle genomsnittet 98,4% användas för att mäta den aktuella månaden mot, med antagandet att ju mer standardavvikelser det är från medelvärdet, desto mer oroande skulle det vara.
  • Som du kan se finns två standardavvikelser från medelvärdet redan i ett territorium på över 100%. Om din uppgift är att se hur extrem en ny observation är jämfört med historiska data, kan du överväga att använda någon rangstatistik. T.ex. se bara hur många månader av det totala antalet månader som har varit sämre eller bättre än den aktuella månaden. Du får poäng som 2/13 eller 1/13, eller till och med 0/13.
  • @RichardHardy Naturligtvis, med rankningar är något värde alltid det högsta, och andra det minsta, så det är inte direkt tydligt hur rangordningar eller rangstatistik kommer att ge en lösning på ” är detta värde tillräckligt annorlunda för att vara bekymmersamt? ”

Svar

Som artikeln som länkas i frågan anger ska du inte beräkna genomsnittet av procenttal med samma metod för heltal .

Du måste använda ett viktat genomsnitt.

Se den senaste artikeln har mer information https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage men det förklarar samma metod som artikeln länkad i frågan.

Svar

Som andra har påpekat beror det på om det är korrekt att beräkna medelvärdet och standardavvikelsen för procentsatser användning. För att du använder det, åtminstone som jag förstår det, verkar det vara felaktigt.

Som jag förstår av din fråga och kommentar försöker du göra detektering av avvikelser . Du frågar i princip:

Är antalet missade transaktioner inom vad som kan betraktas som ” normalt ”, eller avviker det så mycket att betraktas som avvikande?

Det finns inget tydligt svar på det fråga. Det bästa du kan göra är att beräkna sannolikheten :

förutsatt att en känd sannolikhet för att en transaktion är en ” mis ”, hur troligt är det att ha ett givet antal missningar på en månad?

Om det är mycket osannolikt (säg sannolikhet under 0,05), kan du anse att det är avvikande. Så frågan återstår hur man beräknar denna sannolikhet.Om dina procentsatser normalt fördelades kan du enkelt härleda det från medelvärdet och standardavvikelsen: värden som är mer än 2 SD bort från medelvärdet visas med sannolikhet under 0,05. Det är förmodligen anledningen till att du blev ombedd att beräkna dessa värden.

Dina procentsatser är dock normalt inte fördelade! Som Richard Hardy påpekade i sin kommentar är det redan omöjligt att uppnå två SD över genomsnittet, eftersom det skulle vara över 100%. Du måste använda en annan, mer lämplig sannolikhetsfördelning. Utan att ha ytterligare domänkunskap av dina data är det bästa du kan göra att använda binomialfördelningen:

$$ P (k) = {n \ välj k} p ^ k ( 1-p) ^ {nk} $$

med $ n $ är antalet transaktioner och $ k $ antalet missningar i månaden i fråga. Du kan uppskatta $ p $ från historiska data, som bråkdelen av det totala antalet missningar och det totala antalet transaktioner under de senaste månaderna.

Med allt detta kan du beräkna kumulatet Jag har sannolikhet att observera minst lika många missar som du faktiskt hade under den aktuella månaden. Om denna sannolikhet ligger under någon fördefinierad nivå (till exempel ovan nämnda 0,05) skulle du ”anse det som en anomali.

För fullständighet: Om du vill vara ännu mer exakt (vilket jag tvivlar på, med tanke på att du fick en fel uppgift i första hand) kan du få ett konfidensintervall på $ p $ genom att modellera det med betadistributionen och använda den extrema men ändå troliga $ p $ i ovanstående binomialfördelning Parametrarna för betafördelningen är t.ex. $ \ alpha = $ (antalet missningar) och $ \ beta = $ (totalt antal transaktioner $ – $ antalet missningar).

Svar

Jag gillar inte att göra dessa beräkningar med procentsatser. Det första alternativet är att arbeta med täljare och nämnare, och th sv göra lite manipulation. Det andra alternativet är att konvertera procentsatserna till loggvärden, vilket kommer att tvinga resultaten till 0 till 100 procents intervall.

Kommentarer

  • Detta visas inte att svara på frågan.
  • Det andra alternativet är ingen mening. Om du har procentsatser mellan 0 och 100 så tar du inte loggar ’ om du har 0 värden och det tvingar procentsatser under 1 till under 0. Ibland finns det någon punkt att ta logaritmer av procent, men vanligtvis som en approximation till att arbeta på logit-skala.
  • Jag är van att arbeta med sannolikheter och nästan uteslutande naturliga logaritmer (logit-skalan). Det fungerar inom den domänen, med vissa antaganden. Jag borde ha kvalificerat min kommentar. Inledningsvis trodde jag att det kunde tillämpas mer generellt, men du har rätt, det kan det inte.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *