Este incorect să calculați media și deviația standard a procentajelor?

Datele mele sunt câteva procente privind câte tranzacții dintr-un întreg sunt ratate în fiecare lună. Procentele sunt pentru 13 luni și variază de la 97 la 99 la sută. Mi s-a cerut să calculez media și abaterea standard, dar nu sunt sigur dacă rezultatul ar fi semnificativ și dacă media ar putea fi calculată pentru procentaje în sens tradițional (de exemplu, în Excel făcând MEDIE (procentaj)) vs. metodă (medie ponderată), deoarece nu am alte informații decât procentele.

Vă rog să mă ajutați să înțeleg

  1. Dacă media și abaterea standard pentru procente pot fi calculat,
  2. Ce condiții sunt necesare pentru a calcula media și abaterea standard pentru procente,
  3. Alternative care determină răspândirea și tendința centrală pentru procentaje pe o perioadă de timp.

De exemplu, ar fi incorect să presupunem că procentele reprezintă # tranzacții ratate / # tranzacții totale pentru fiecare lună diferită, cu același calcul utilizat pentru fiecare lună:

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

Din această postare pare ar trebui să se facă cu medii ponderate, deoarece totalurile sunt diferite și că calcularea abaterii medii și standard este posibilă doar pentru procente dacă provin din același total, ceea ce înseamnă că cele de mai sus ar fi incorecte și că aș avea nevoie de informații suplimentare pentru a determina greutatea să multiplicați procentele cu, dacă este corect.

Comentarii

  • Desigur puteți calcula media și SD a procente: conectați-le la formulă. Ceea ce ar trebui să fie de îngrijorare este modul în care valorile rezultate vor fi interpretate. Ați putea explica de ce vi s-a cerut să efectuați acest calcul și ce se va face cu rezultatele?
  • @whuber este chiar aici. La urma urmei, un procent este doar o medie de 0 ‘ s și 1 ‘ s. Ceea ce este cel mai important nu este dacă media și abaterea standard pot fi calculate, ci ce doriți să faceți cu ele și dacă are sens în acel context.
  • A fost o cerere generală pentru a calcula media și deviația standard a unui set de valori pentru a seta praguri pentru acestea. Deci, în acest exemplu, media de 98,4% ar fi utilizată pentru a măsura luna curentă, cu presupunerea că cu cât sunt mai multe abateri standard de la medie, cu atât ar fi mai îngrijorătoare.
  • După cum puteți vedea, două abateri standard departe de medie se află deja pe un teritoriu de peste 100%. Dacă sarcina dvs. este de a vedea cât de extremă este o nouă observație în comparație cu datele istorice, ați putea lua în considerare utilizarea unor statistici de rang. De exemplu. vezi doar câte luni din numărul total de luni au fost mai rele sau mai bune decât luna curentă. Veți obține scoruri ca 2/13 sau 1/13, sau chiar 0/13.
  • @RichardHardy Desigur, cu ranguri o anumită valoare este întotdeauna cea mai mare, iar altele cea mai mică, deci nu este imediat se pare că gradele sau statisticile de rang vor oferi o soluție la ” este această valoare suficient de diferită pentru a fi de interes? ”

Răspuns

După cum afirmă articolul legat în întrebare, nu trebuie să calculați media procentelor folosind aceeași metodă pentru numerele întregi .

Trebuie să utilizați o medie ponderată.

Consultați acest articol recent are mai multe detalii https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage , dar explică aceeași metodă ca și articolul legat în întrebare.

Răspuns

După cum au subliniat alții, dacă este corect să calculați media și abaterea standard a procentelor depinde de utilizare îngrijită. Pentru dvs. utilizați, cel puțin așa cum înțeleg eu, pare a fi incorect.

După cum înțeleg din întrebarea și comentariul dvs., încercați să faceți detectarea anomaliilor . Întrebați practic:

Este numărul de tranzacții ratate în ceea ce ar putea fi considerat ” normal „, sau se abate atât de mult pentru a fi considerat anormal?

Nu există un răspuns clar la asta întrebare. Cel mai bun lucru pe care îl puteți face este să calculați probabilitatea :

Presupunând că o probabilitate cunoscută a unei tranzacții este ” mis „, cât de probabil este să aveți numărul dat de ratări într-o lună?

Dacă este foarte improbabil (să spunem, probabilitate sub 0,05), ați putea considera că este anomal. Deci rămâne întrebarea cum să calculăm această probabilitate.Dacă procentele dvs. ar fi distribuite în mod normal, le-ați putea obține cu ușurință din medie și abaterea standard: valorile care sunt la mai mult de 2 SD distanță de medie apar cu probabilitate sub 0,05. Acesta este probabil motivul pentru care vi s-a cerut să calculați aceste valori.

Cu toate acestea, procentele dvs. nu sunt distribuite în mod normal! După cum a subliniat Richard Hardy în comentariul său, două SD-uri peste medie sunt deja imposibil de realizat, deoarece ar fi peste 100%. Trebuie să utilizați o distribuție de probabilitate diferită și mai adecvată. Fără a avea cunoștințe suplimentare despre domeniu din datele dvs., cel mai bun lucru pe care îl puteți face este să utilizați distribuția binomială:

$$ P (k) = {n \ alege k} p ^ k ( 1-p) ^ {nk} $$

cu $ n $ fiind numărul de tranzacții și $ k $ numărul de rateuri din luna în cauză. Puteți estima $ p $ din datele istorice, ca fracție de numărul total de rateuri și numărul total de tranzacții din ultimele luni.

Având toate acestea, puteți calcula cumulatul Probabilitatea de a observa cel puțin atâtea ratări pe cât le-ați avut în luna în cauză. Dacă această probabilitate este sub un anumit nivel predefinit (de exemplu 0,05 menționat mai sus), l-ați considera o anomalie.

Pentru completitudine: Dacă doriți să fiți și mai preciși (ceea ce mă îndoiesc, având în vedere că vi s-a dat o sarcină greșită în primul rând), puteți obține un interval de încredere de $ p $ modelându-l după distribuția beta și utilizând $ p $ extrem, dar totuși plauzibil în distribuția binomială de mai sus . Parametrii distribuției beta ar fi, de exemplu, $ \ alpha = $ (numărul de rateuri) și $ \ beta = $ (numărul total de tranzacții $ – $ numărul de rateuri).

Răspuns

Nu-mi place să fac acele calcule cu procente. Prima opțiune este să lucrezi cu numeratorii și numitorii și ro face unele manipulări. A doua opțiune este de a converti procentele în valori jurnal, ceea ce va forța rezultatele în intervalul 0-100%.

Comentarii

  • Acest lucru nu apare pentru a răspunde la întrebare.
  • A doua opțiune nu are sens. Dacă aveți procente între 0 și 100, atunci luarea jurnalelor nu va funcționa ‘ funcționează dacă aveți 0 valori și forțează procentele sub 1 până sub 0. Ocazional există un punct la luarea logaritmilor de procente, dar de obicei ca o aproximare la lucrul pe scara logit.
  • Sunt obișnuit să lucrez cu probabilități și aproape exclusiv logaritmi naturali (scara logit). Funcționează în acest domeniu, cu anumite ipoteze. Ar fi trebuit să-mi calific comentariul. Inițial, am crezut că se poate aplica mai general, dar aveți dreptate, nu se poate.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *