Is het onjuist om de gemiddelde en standaarddeviatie van percentages te berekenen?

Mijn gegevens zijn enkele percentages van het aantal transacties van een geheel dat elke maand wordt gemist. De percentages zijn voor 13 maanden en variëren van 97 tot 99 procent. Ik werd gevraagd om het gemiddelde en de standaarddeviatie te berekenen, maar ik weet niet zeker of het resultaat zinvol zou zijn en of het gemiddelde zou kunnen worden berekend voor percentages in de traditionele zin (bijv. In Excel GEMIDDELDE (percentage-array)) versus een ander methode (gewogen gemiddelde) aangezien ik geen andere informatie heb dan de percentages.

Help me alstublieft te begrijpen

  1. Of het gemiddelde en de standaarddeviatie voor percentages kunnen zijn berekend,
  2. Welke voorwaarden zijn nodig om het gemiddelde en de standaarddeviatie voor percentages te berekenen,
  3. Alternatieven die de spreiding en centrale tendens voor percentages over een bepaalde periode bepalen.

Zou het volgende bijvoorbeeld onjuist zijn om aan te nemen dat de percentages # gemiste transacties / # totale transacties voor elke verschillende maand vertegenwoordigen, waarbij voor elke maand dezelfde berekening wordt gebruikt:

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

Van lijkt dit bericht erop moet worden gedaan met gewogen gemiddelden aangezien de totalen verschillend zijn, en dat het berekenen van de gemiddelde en de standaarddeviatie alleen mogelijk is voor percentages als ze uit hetzelfde totaal komen, wat betekent dat het bovenstaande onjuist zou zijn en dat ik aanvullende informatie nodig heb om het gewicht te bepalen om de percentages te vermenigvuldigen met, als dat klopt.

Opmerkingen

  • Natuurlijk kun je het gemiddelde en de SD van percentages: plug ze gewoon in de formule. Waar het om gaat, is hoe de resulterende waarden worden geïnterpreteerd. Kunt u uitleggen waarom u werd gevraagd om deze berekening uit te voeren en wat er met de resultaten zal worden gedaan?
  • @whuber staat hier. Een percentage is tenslotte slechts een gemiddelde van 0 ‘ s en 1 ‘ s. Het belangrijkste is niet of een gemiddelde en standaarddeviatie kan worden berekend, maar wat u ermee wilt doen en of het zin heeft in die context.
  • Het was een algemeen verzoek om het gemiddelde en standaarddeviatie van een set metrische gegevens om er drempels voor in te stellen. Dus in dit voorbeeld zou het gemiddelde van 98,4% worden gebruikt om de huidige maand tegen te meten, met de aanname dat hoe meer standaarddeviaties van het gemiddelde verwijderd zijn, des te zorgwekkender het zou zijn.
  • Zoals u kunt zien, bevinden twee standaarddeviaties verwijderd van het gemiddelde zich al in een gebied van meer dan 100%. Als het uw taak is om te zien hoe extreem een nieuwe waarneming is in vergelijking met de historische gegevens, kunt u overwegen om wat rangstatistieken te gebruiken. Bijv. kijk maar hoeveel maanden van het totale aantal maanden slechter of beter zijn geweest dan de huidige maand. Je krijgt scores als 2/13 of 1/13, of zelfs 0/13.
  • @RichardHardy Natuurlijk is een bepaalde waarde altijd de hoogste en een andere de kleinste, dus het is niet meteen duidelijk hoe rangen of rangstatistieken een oplossing zullen bieden voor ” is deze waarde verschillend genoeg om van belang te zijn? ”

Answer

Zoals het artikel in de vraag vermeldt, moet je niet het gemiddelde van de percentages berekenen met dezelfde methode voor hele getallen .

Je moet een gewogen gemiddelde gebruiken.

Zie dit recente artikel heeft meer details https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage , maar het legt dezelfde methode uit als het artikel waarnaar in de vraag wordt verwezen.

Answer

Zoals anderen hebben opgemerkt, of het correct is om het gemiddelde en de standaarddeviatie van percentages te berekenen, hangt af van uw in normaal gebruik. Voor u, althans voor zover ik het begrijp, lijkt het onjuist te zijn.

Zoals ik uit uw vraag en opmerking begrijp, probeert u anomaliedetectie uit te voeren. U vraagt in feite:

Is het aantal gemiste transacties binnen wat kan worden beschouwd als ” normaal “, of wijkt het zo sterk af om als abnormaal te worden beschouwd?

Daar is geen eenduidig antwoord op vraag. Het beste wat u kunt doen, is de kans berekenen:

Ervan uitgaande dat een bekende kans dat een transactie een ” mis “, hoe waarschijnlijk is het om het opgegeven aantal missers in een maand te hebben?

Als het erg onwaarschijnlijk is (bijvoorbeeld een waarschijnlijkheid lager dan 0,05), zou je het als abnormaal kunnen beschouwen. De vraag blijft dus hoe deze kans moet worden berekend.Als uw percentages normaal verdeeld waren, zou u dit gemakkelijk kunnen afleiden uit het gemiddelde en de standaarddeviatie: waarden die meer dan 2 SDs verwijderd zijn van het gemiddelde verschijnen met een waarschijnlijkheid lager dan 0,05. Dat is waarschijnlijk de reden waarom u werd gevraagd deze waarden te berekenen.

Uw percentages worden echter niet normaal verdeeld! Zoals Richard Hardy in zijn commentaar opmerkte, zijn twee SDs boven het gemiddelde al onmogelijk te behalen, omdat het hoger is dan 100%. Je moet een andere, geschiktere kansverdeling gebruiken. Zonder verdere domeinkennis te hebben van uw gegevens, kunt u het beste de binominale verdeling gebruiken:

$$ P (k) = {n \ choose k} p ^ k ( 1-p) ^ {nk} $$

waarbij $ n $ het aantal transacties is en $ k $ het aantal missers in de betreffende maand. U kunt $ p $ schatten op basis van historische gegevens, als de fractie van het totale aantal missers en het totale aantal transacties in de afgelopen maanden.

Met dit alles kunt u het cumulatieve De kans dat u minstens evenveel missers ziet als u in de betreffende maand heeft gehad. Als die kans lager is dan een vooraf gedefinieerd niveau (bijvoorbeeld de bovengenoemde 0,05), “zou je het als een anomalie beschouwen.

Voor de volledigheid: Als je nog nauwkeuriger wilt zijn (wat ik betwijfel, aangezien je in de eerste plaats een verkeerde taak hebt gekregen), kun je een betrouwbaarheidsinterval krijgen van $ p $ door het te modelleren door de bètadistributie en de extreme, maar nog steeds plausibele $ p $ te gebruiken in de bovenstaande binominale distributie . De parameters van de bètadistributie zijn bijvoorbeeld $ \ alpha = $ (het aantal missers) en $ \ beta = $ (totaal aantal transacties $ – $ het aantal missers).

Antwoord

Ik hou er niet van om die berekeningen met percentages uit te voeren. De eerste optie is om te werken met de tellers en noemers, en de en doe wat manipulatie. De tweede optie is om de percentages om te zetten in logwaarden, waardoor de resultaten in het bereik van 0 tot 100 procent worden gebracht.

Opmerkingen

  • Dit verschijnt niet om de vraag te beantwoorden.
  • De tweede optie heeft geen zin. Als je percentages hebt tussen 0 en 100, dan zal het nemen van logboeken niet werken ‘ als je 0 waarden hebt en het percentages onder 1 tot onder 0 dwingt. Soms heeft het een zin om logaritmen te nemen van percentages, maar meestal als benadering van het werken op logit-schaal.
  • Ik ben gewend om met waarschijnlijkheden te werken, en bijna uitsluitend natuurlijke logaritmen (de logit-schaal). Het werkt in dat domein, met bepaalde aannames. Ik had mijn opmerking moeten kwalificeren. Aanvankelijk dacht ik dat het algemener zou kunnen worden toegepast, maar je hebt gelijk, het kan niet.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *