Ist es falsch, den Mittelwert und die Standardabweichung der Prozentsätze zu berechnen?

Meine Daten geben einige Prozentsätze an, wie viele Transaktionen eines Ganzen jeden Monat übersehen werden. Die Prozentsätze sind für 13 Monate und reichen von 97 bis 99 Prozent. Ich wurde gebeten, den Mittelwert und die Standardabweichung zu berechnen, bin mir jedoch nicht sicher, ob das Ergebnis aussagekräftig wäre und ob der Mittelwert für Prozentsätze im herkömmlichen Sinne (z. B. in Excel mit AVERAGE (Prozentarray)) im Vergleich zu anderen berechnet werden könnte Methode (gewichtet gemittelt), da ich keine anderen Informationen als die Prozentsätze habe.

Bitte helfen Sie mir zu verstehen,

  1. ob der Mittelwert und die Standardabweichung für Prozentsätze sein können berechnet,
  2. Welche Bedingungen sind erforderlich, um den Mittelwert und die Standardabweichung für Prozentsätze zu berechnen?
  3. Alternativen zur Bestimmung der Streuung und der zentralen Tendenz für Prozentsätze über einen bestimmten Zeitraum.

Wäre beispielsweise Folgendes falsch, wenn angenommen wird, dass die Prozentsätze # verpasste Transaktionen / # Gesamttransaktionen für jeden Monat darstellen, wobei für jeden Monat dieselbe Berechnung verwendet wird:

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

Von scheint dieser Beitrag so zu sein sollte mit gewichteten Durchschnittswerten durchgeführt werden, da die Summen unterschiedlich sind und die Berechnung des Mittelwerts und der Standardabweichung für Prozentsätze nur möglich ist, wenn sie aus derselben Summe stammen. Dies bedeutet, dass die obigen Angaben falsch sind und ich zusätzliche Informationen zur Bestimmung des Gewichts benötige um die Prozentsätze mit zu multiplizieren, wenn dies korrekt ist.

Kommentare

  • Natürlich können Sie den Mittelwert und die SD von berechnen Prozentsätze: Stecken Sie sie einfach in die Formel. Es sollte bedenklich sein, wie die resultierenden Werte interpretiert werden. Können Sie erklären, warum Sie aufgefordert wurden, diese Berechnung durchzuführen, und was mit den Ergebnissen geschehen soll?
  • @whuber ist hier richtig. Immerhin ist ein Prozentsatz nur ein Mittelwert aus 0 ‚ s und 1 ‚ s. Am wichtigsten ist nicht, ob ein Mittelwert und eine Standardabweichung berechnet werden können, sondern was Sie damit machen möchten und ob dies in diesem Zusammenhang sinnvoll ist.
  • Es war eine pauschale Anfrage, den Mittelwert und zu berechnen Standardabweichung einer Reihe von Metriken, um Schwellenwerte für diese festzulegen. In diesem Beispiel würde der Durchschnitt von 98,4% verwendet, um den aktuellen Monat zu messen, mit der Annahme, dass je mehr Standardabweichungen vom Mittelwert entfernt sind, desto besorgniserregender wäre dies.
  • Wie Sie sehen, liegen zwei Standardabweichungen vom Mittelwert bereits in einem Gebiet von über 100%. Wenn Sie sehen möchten, wie extrem eine neue Beobachtung im Vergleich zu den historischen Daten ist, können Sie eine Rangstatistik verwenden. Z.B. Sehen Sie nur, wie viele Monate der Gesamtzahl der Monate schlechter oder besser waren als der aktuelle Monat. Sie erhalten Punkte wie 2/13 oder 1/13 oder sogar 0/13.
  • @RichardHardy Natürlich ist bei Rängen ein Wert immer der höchste und ein anderer der kleinste, daher ist er nicht sofort Es ist offensichtlich, wie Ränge oder Rangstatistiken eine Lösung für “ bieten. Ist dieser Wert unterschiedlich genug, um Anlass zur Sorge zu geben? “

Antwort

Wie in dem in der Frage verlinkten Artikel angegeben, sollten Sie den Durchschnitt der Prozentsätze nicht mit derselben Methode für ganze Zahlen berechnen

Sie müssen einen gewichteten Durchschnitt verwenden.

Siehe diesen aktuellen Artikel enthält weitere Details https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage , erklärt jedoch dieselbe Methode wie der in der Frage verlinkte Artikel.

Antwort

Wie andere bereits betont haben, hängt es von Ihrem Eingang ab, ob der Mittelwert und die Standardabweichung der Prozentsätze korrekt sind tendenziell verwendet. Zumindest so, wie ich es verstehe, scheint es für Sie falsch zu sein.

Wie ich aus Ihrer Frage und Ihrem Kommentar verstehe, versuchen Sie, eine Anomalieerkennung durchzuführen. Sie fragen im Grunde:

Ist die Anzahl der fehlenden Transaktionen innerhalb dessen, was als “ normal “ oder weicht es so stark ab, als anomal angesehen zu werden?

Darauf gibt es keine eindeutige Antwort Frage. Das Beste, was Sie tun können, ist die Berechnung der Wahrscheinlichkeit :

Angenommen, eine bekannte Wahrscheinlichkeit einer Transaktion ist eine “ mis „, wie wahrscheinlich ist es, dass die angegebene Anzahl von Fehlern in einem Monat auftritt?

Wenn es sehr unwahrscheinlich ist (z. B. Wahrscheinlichkeit unter 0,05), können Sie es als anomal betrachten. Es bleibt also die Frage, wie diese Wahrscheinlichkeit berechnet werden kann.Wenn Ihre Prozentsätze normal verteilt wären, könnten Sie sie leicht aus dem Mittelwert und der Standardabweichung ableiten: Werte, die mehr als 2 SDs vom Mittelwert entfernt sind, werden mit einer Wahrscheinlichkeit unter 0,05 angezeigt. Dies ist vermutlich der Grund, warum Sie aufgefordert wurden, diese Werte zu berechnen.

Ihre Prozentsätze sind jedoch nicht normal verteilt! Wie Richard Hardy in seinem Kommentar hervorhob, sind zwei SDs über dem Mittelwert bereits unmöglich zu erreichen, da sie über 100% liegen würden. Sie müssen eine andere, angemessenere Wahrscheinlichkeitsverteilung verwenden. Ohne weitere Domänenkenntnisse Von Ihren Daten können Sie am besten die Binomialverteilung verwenden:

$$ P (k) = {n \ wähle k} p ^ k ( 1-p) ^ {nk} $$

mit $ n $ als Anzahl der Transaktionen und $ k $ Die Anzahl der Fehler im betreffenden Monat. Sie können $ p $ aus historischen Daten als Bruchteil von schätzen die Gesamtzahl der Fehlschläge und die Gesamtzahl der Transaktionen in den letzten Monaten.

Mit all dem können Sie den Kumulat berechnen Es ist wahrscheinlich, dass Sie mindestens so viele Fehler beobachten, wie Sie tatsächlich in dem betreffenden Monat hatten. Wenn diese Wahrscheinlichkeit unter einem vordefinierten Wert liegt (z. B. dem oben genannten Wert von 0,05), würden Sie dies als Anomalie betrachten.

Der Vollständigkeit halber: Wenn Sie noch genauer sein möchten (was ich bezweifle, wenn man bedenkt, dass Sie überhaupt eine falsche Aufgabe erhalten haben), können Sie ein Konfidenzintervall von $ p $ durch Modellierung anhand der Beta-Verteilung und Verwendung des extremen, aber dennoch plausiblen $ p $ in der obigen Binomialverteilung Die Parameter der Beta-Verteilung wären z. B. $ \ alpha = $ (die Anzahl der Fehler) und $ \ beta = $ (Gesamtzahl der Transaktionen $ – $ die Anzahl der Fehler).

Antwort

Ich mag es nicht, diese Berechnungen mit Prozentsätzen durchzuführen. Die erste Option besteht darin, mit den Zählern und Nennern zu arbeiten, und th en etwas manipulieren. Die zweite Option besteht darin, die Prozentsätze in Protokollwerte umzuwandeln, wodurch die Ergebnisse in den Bereich von 0 bis 100 Prozent gezwungen werden.

Kommentare

  • Dies wird nicht angezeigt um die Frage zu beantworten.
  • Die zweite Option macht keinen Sinn. Wenn Sie Prozentsätze zwischen 0 und 100 haben, funktioniert das Aufnehmen von Protokollen ‚ nicht, wenn Sie 0 Werte haben und Prozentsätze unter 1 bis unter 0 erzwingen. Gelegentlich ist es sinnvoll, Logarithmen von zu erstellen Prozentsätze, aber normalerweise als Annäherung an die Arbeit auf der Logit-Skala.
  • Ich bin es gewohnt, mit Wahrscheinlichkeiten und fast ausschließlich natürlichen Logarithmen (der Logit-Skala) zu arbeiten. Es funktioniert in diesem Bereich mit bestimmten Annahmen. Ich hätte meinen Kommentar qualifizieren sollen. Anfangs dachte ich, es könnte allgemeiner angewendet werden, aber Sie haben Recht, es kann nicht.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.