Er det feil å beregne gjennomsnitt og standardavvik for prosenter?

Mine data er noen prosentandel av hvor mange transaksjoner fra en helhet som blir savnet hver måned. Prosentandelen er i 13 måneder og varierer fra 97 til 99 prosent. Jeg ble bedt om å beregne gjennomsnittet og standardavviket, men jeg er usikker på om resultatet vil være meningsfullt og om gjennomsnittet kan beregnes for prosentandeler i tradisjonell forstand (for eksempel i Excel som gjør GJENNOMSNITT (prosentmatrise)) mot noen andre metode (vektet gjennomsnitt) siden jeg ikke har annen informasjon enn prosentandelen.

Hjelp meg å forstå

  1. Hvis gjennomsnittet og standardavviket for prosenter kan være beregnet,
  2. Hvilke forhold er nødvendige for å beregne gjennomsnitt og standardavvik for prosent,
  3. Alternativer som bestemmer spredning og sentral tendens for prosent over en periode.

For eksempel, ville det være feil å gjøre forutsatt at prosentandelen representerer # ubesvarte transaksjoner / # totale transaksjoner for hver forskjellige måned med samme beregning som brukes for hver måned:

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

Fra dette innlegget ser ut som det bør gjøres med vektede gjennomsnitt siden totalene er forskjellige, og at beregning av gjennomsnitt og standardavvik bare er mulig for prosentandeler hvis de kommer fra samme total, noe som betyr at ovenstående ville være feil, og at jeg ville trenge ytterligere informasjon for å bestemme vekten å multiplisere prosentandelen med, hvis det er riktig.

Kommentarer

  • Selvfølgelig kan du beregne gjennomsnitt og SD på prosenter: bare koble dem til formelen. Det som bør være bekymringsfullt er hvordan de resulterende verdiene skal tolkes. Kan du forklare hvorfor du har blitt bedt om å utføre denne beregningen, og hva som vil bli gjort med resultatene?
  • @whuber er akkurat her. Tross alt er en prosentandel bare et gjennomsnitt på 0 ‘ s og 1 ‘ s. Det som er viktigst er ikke om et gjennomsnitt og standardavvik kan beregnes, men hva du vil gjøre med dem, og om det er fornuftig i den sammenhengen.
  • Det var en teppeforespørsel om å beregne gjennomsnittet og standardavvik for et sett med beregninger for å sette terskler for dem. Så i dette eksemplet vil gjennomsnittet på 98,4% brukes til å måle den nåværende måneden mot, med antagelsen at jo flere standardavvik det er fra gjennomsnittet, jo mer bekymring vil det være.
  • Som du kan se, ligger to standardavvik fra gjennomsnittet allerede i et territorium på over 100%. Hvis oppgaven din er å se hvor ekstrem en ny observasjon er sammenlignet med historiske data, kan du vurdere å bruke litt rangstatistikk. F.eks. Bare se hvor mange måneder av det totale antall måneder som har vært dårligere eller bedre enn den nåværende måneden. Du får poeng som 2/13 eller 1/13, eller til og med 0/13.
  • @RichardHardy Selvfølgelig, med rangeringer, er en verdi alltid den høyeste, og noen den minste, så det er ikke umiddelbart tydelig hvordan rangering eller rangstatistikk vil gi en løsning på » er denne verdien forskjellig nok til å være bekymringsfull? »

Svar

Som artikkelen som er koblet til i spørsmålet, bør du ikke beregne gjennomsnittet av prosentandeler ved å bruke samme metode for hele tall .

Du må bruke et vektet gjennomsnitt.

Se denne siste artikkelen har flere detaljer https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage men det forklarer den samme metoden som artikkelen som er koblet til i spørsmålet.

Svar

Som andre har påpekt, avhenger det av om det er riktig å beregne gjennomsnittet og standardavviket i prosent pleiet bruk. For du bruker, i det minste slik jeg forstår det, ser det ut til å være feil.

Som jeg forstår fra spørsmålet og kommentaren din, prøver du å gjøre deteksjon av avvik . Du spør i utgangspunktet:

Er antallet tapte transaksjoner innenfor det som kan betraktes som » normalt «, eller avviker det så mye for å bli betraktet som unormalt?

Det er ikke noe klart svar på det spørsmål. Det beste du kan gjøre er å beregne sannsynligheten :

Forutsatt at en kjent sannsynlighet for at en transaksjon er en » mis «, hvor sannsynlig er det å ha gitt et gitt antall glipp i løpet av en måned?

Hvis det er veldig usannsynlig (si sannsynlighet under 0,05), kan du anse det som unormalt. Så spørsmålet er fortsatt hvordan man skal beregne denne sannsynligheten.Hvis prosentene dine var normalt fordelt, kan du enkelt utlede det av gjennomsnittet og standardavviket: verdier som er mer enn 2 SD-er unna gjennomsnittet vises med sannsynlighet under 0,05. Det er antagelig grunnen til at du ble bedt om å beregne disse verdiene.

Prosentandelene dine er imidlertid ikke normalt fordelt! Som Richard Hardy påpekte i sin kommentar, er to SDer over gjennomsnittet allerede umulig å oppnå, da det ville være over 100%. Du må bruke en annen, mer passende sannsynlighetsfordeling. Uten å ha ytterligere domenekunnskap av dataene dine, er det beste du kan gjøre å bruke binomialfordelingen:

$$ P (k) = {n \ select k} p ^ k ( 1-p) ^ {nk} $$

med $ n $ som antall transaksjoner og $ k $ antall ubesvarelser i den aktuelle måneden. Du kan estimere $ p $ fra historiske data, som brøkdelen av det totale antallet savner og det totale antallet transaksjoner de siste månedene.

Når du har alt dette, kan du beregne kumulat ive sannsynlighet for å observere minst like mange savner som du faktisk hadde i den aktuelle måneden. Hvis denne sannsynligheten er under et forhåndsdefinert nivå (for eksempel ovennevnte 0,05), vil du anse det som en anomali.

For fullstendighet: Hvis du vil være enda mer presis (som jeg tviler på, med tanke på at du i utgangspunktet fikk en feil oppgave), kan du få et konfidensintervall på $ p $ ved å modellere den etter beta-distribusjonen, og bruk den ekstreme, men likevel plausible $ p $ i ovennevnte binomefordeling Parametrene til beta-distribusjonen vil være f.eks. $ \ alpha = $ (antall glipp) og $ \ beta = $ (totalt antall transaksjoner $ – $ antall glipp).

Svar

Jeg liker ikke å gjøre disse beregningene med prosent. Det første alternativet er å jobbe med tellerne og nevnerne, og no gjøre litt manipulasjon. Det andre alternativet er å konvertere prosentandelene til loggverdier, som vil tvinge resultatene til området 0 til 100 prosent.

Kommentarer

  • Dette ser ikke ut å svare på spørsmålet.
  • Det andre alternativet gir ingen mening. Hvis du har prosenter mellom 0 og 100, vil ikke logger vinne ‘ t fungerer hvis du har 0 verdier og det tvinger prosenter under 1 til under 0. Noen ganger er det noen poeng å ta logaritmer av prosenter, men vanligvis som en tilnærming til å jobbe på logit-skala.
  • Jeg er vant til å jobbe med sannsynligheter, og nesten utelukkende naturlige logaritmer (logit-skalaen). Det fungerer i det domenet, med visse forutsetninger. Jeg burde ha kvalifisert kommentaren min. Opprinnelig trodde jeg at den kunne brukes mer generelt, men du har rett, det kan ikke.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *