Er det forkert at beregne gennemsnit og standardafvigelse for procenter?

Mine data er nogle procentdele af, hvor mange transaktioner fra en helhed, der går glip af hver måned. Procentdelene er i 13 måneder og spænder fra 97 til 99 procent. Jeg blev bedt om at beregne middelværdien og standardafvigelsen, men jeg er usikker på, om resultatet ville være meningsfuldt, og om gennemsnittet kunne beregnes for procenter i traditionel forstand (f.eks. I Excel, der gør AVERAGE (procent array)) vs. metode (vægtet gennemsnit), da jeg ikke har andre oplysninger end procenterne.

Hjælp mig med at forstå

  1. Hvis gennemsnittet og standardafvigelsen for procenter kan være beregnet,
  2. Hvilke betingelser er nødvendige for at beregne gennemsnit og standardafvigelse for procenter,
  3. Alternativer, der bestemmer spredning og central tendens til procenter over en periode.

F.eks. ville følgende være forkert at antage, at procenterne repræsenterer # transaktioner, der er gået glip af / # samlede transaktioner for hver forskellige måned, hvor den samme beregning bruges til hver måned:

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

Fra dette indlæg ser ud som det skal udføres med vejede gennemsnit, da totalerne er forskellige, og at beregning af middel- og standardafvigelse kun er mulig for procenter, hvis de kommer fra samme total, hvilket betyder, at ovenstående ville være forkert, og at jeg ville have brug for yderligere oplysninger for at bestemme vægten at multiplicere procenterne med, hvis det er korrekt.

Kommentarer

  • Selvfølgelig kan du beregne middelværdi og SD for procenter: bare sæt dem i formlen. Hvad der skal være bekymrende er, hvordan de resulterende værdier vil blive fortolket. Kan du forklare, hvorfor du er blevet bedt om at udføre denne beregning, og hvad der skal gøres med resultaterne?
  • @whuber er lige her. Når alt kommer til alt er en procentdel kun et gennemsnit på 0 ‘ s og 1 ‘ s. Hvad der er vigtigst er ikke, om en gennemsnitlig og standardafvigelse kan beregnes, men hvad du vil gøre med dem, og om det giver mening i den sammenhæng.
  • Det var en blanketanmodning om at beregne middelværdien og standardafvigelse for et sæt målinger for at indstille tærskler for dem. Så i dette eksempel vil gennemsnittet på 98,4% blive brugt til at måle den aktuelle måned med den antagelse, at jo flere standardafvigelser det er fra gennemsnittet, jo mere bekymrende ville det være.
  • Som du kan se, er to standardafvigelser væk fra gennemsnittet allerede i et område på over 100%. Hvis din opgave er at se, hvor ekstrem en ny observation er sammenlignet med de historiske data, kan du overveje at bruge en eller anden rangstatistik. For eksempel. se bare hvor mange måneder ud af det samlede antal måneder, der har været dårligere eller bedre end den aktuelle måned. Du får scoringer som 2/13 eller 1/13 eller endda 0/13.
  • @RichardHardy Selvfølgelig er en værdi med ranger altid den højeste og nogle den mindste, så det er ikke med det samme tydeligt, hvordan rang eller rangstatistik vil give en løsning på ” er denne værdi forskellig nok til at være bekymrende? ”

Svar

Som artiklen linket i spørgsmålet siger, skal du ikke beregne gennemsnittet af procentdele ved hjælp af den samme metode for hele tal .

Du skal bruge et vægtet gennemsnit.

Se denne seneste artikel har flere detaljer https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage men det forklarer den samme metode som artiklen, der er knyttet til spørgsmålet.

Svar

Som andre har påpeget, afhænger det af, om det er korrekt at beregne middelværdien og standardafvigelsen for procentdele anvendt. For dig bruger det, i det mindste som jeg forstår det, det er forkert.

Som jeg forstår fra dit spørgsmål og din kommentar, forsøger du at foretage afvigelsesdetektering . Du spørger dybest set:

Er antallet af ubesvarede transaktioner inden for det, der kan betragtes som ” normalt “, eller afviger det så meget for at blive betragtet som unormal?

Der er ikke noget klart svar på det spørgsmål. Det bedste du kan gøre er at beregne sandsynligheden :

Under forudsætning af, at en kendt sandsynlighed for, at en transaktion er en ” mis “, hvor sandsynligt er det at have det givne antal miss i løbet af en måned?

Hvis det er meget usandsynligt (for eksempel sandsynlighed under 0,05), kan du betragte det som unormalt. Så spørgsmålet er stadig, hvordan man beregner denne sandsynlighed.Hvis dine procentsatser var normalt fordelt, kunne du nemt udlede det af middelværdien og standardafvigelsen: værdier, der er mere end 2 SDer væk fra gennemsnittet, vises med sandsynlighed under 0,05. Det er formodentlig grunden til, at du blev bedt om at beregne disse værdier.

Dog er dine procentsatser ikke normalt fordelt! Som Richard Hardy påpegede i sin kommentar, er to SDer over gennemsnittet allerede umulige at opnå, da det ville være over 100%. Du skal bruge en anden, mere passende sandsynlighedsfordeling uden at have yderligere domæne viden af dine data, er det bedste, du kan gøre, at bruge binomialfordelingen:

$$ P (k) = {n \ vælg k} p ^ k ( 1-p) ^ {nk} $$

hvor $ n $ er antallet af transaktioner og $ k $ antallet af glip i den pågældende måned. Du kan estimere $ p $ ud fra historiske data, som brøkdelen af det samlede antal ulykker og det samlede antal transaktioner i de sidste måneder.

Når du har alt dette, kan du beregne kumulatet ive sandsynlighed for at observere mindst så mange uheld som du faktisk havde i den pågældende måned. Hvis denne sandsynlighed er under et foruddefineret niveau (for eksempel ovennævnte 0,05), vil du “betragte det som en anomali.

For fuldstændighed: Hvis du vil være endnu mere præcis (hvilket jeg tvivler på, i betragtning af at du i første omgang fik en forkert opgave), kan du få et konfidensinterval på $ p $ ved at modellere det efter beta-distributionen og bruge den ekstreme, men stadig plausible $ p $ i ovenstående binomialfordeling Parametrene for beta-fordelingen vil være f.eks. $ \ alpha = $ (antallet af misser) og $ \ beta = $ (samlet antal transaktioner $ – $ antallet af ubesvarede).

Svar

Jeg kan ikke lide at lave disse beregninger med procenter. Den første mulighed er at arbejde med tællere og nævnere og da gør noget manipulation. Anden mulighed er at konvertere procentsatserne til logværdier, som vil tvinge resultaterne til 0 til 100 procents interval.

Kommentarer

  • Dette vises ikke at besvare spørgsmålet.
  • Den anden mulighed giver ingen mening. Hvis du har procentdele mellem 0 og 100, så vil logfunktioner, der vindes ‘, ikke fungere, hvis du har 0-værdier, og det tvinger procenter under 1 til under 0. Lejlighedsvis er der noget punkt til at tage logaritmer af procenter, men typisk som en tilnærmelse til at arbejde på logit-skala.
  • Jeg er vant til at arbejde med sandsynligheder og næsten udelukkende naturlige logaritmer (logit-skalaen). Det fungerer i det domæne med visse antagelser. Jeg skulle have kvalificeret min kommentar. Oprindeligt troede jeg, at det kunne anvendes mere generelt, men du har ret, det kan det ikke.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *