Helytelen a százalékok átlagának és szórásának kiszámítása?

Az adataim százalékos arányok arra vonatkoznak, hogy az egészből hány tranzakció marad el egy hónapban. A százalékos arány 13 hónapra szól, és 97 és 99 százalék között mozog. Megkértek, hogy számítsam ki az átlagot és a szórást, de nem vagyok biztos benne, hogy az eredmény értelmes lenne-e, és hogy az átlag kiszámítható-e a hagyományos értelemben vett százalékokra (pl. Az ÁTLAGTÉRT (Excel tömb) végrehajtó Excelben) más adatokhoz képest módszer (súlyozott átlag), mivel a százalékokon kívül nincs más információm.

Segítsen megérteni

  1. Ha a százalékok átlaga és szórása megadható számított,
  2. Milyen feltételekre van szükség a százalékok átlagának és szórásának kiszámításához,
  3. alternatívák, amelyek meghatározzák a százalékos szórást és a központi tendenciát egy bizonyos időtartamra.

Például helytelen lenne-e megtenni azt feltételezve, hogy a százalékok # elmulasztott tranzakciót / # tranzakciót jelentenek az egyes hónapokban, ugyanazon számítással minden hónapban:

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

Úgy tűnik, hogy ez a bejegyzés súlyozott átlagokkal kell elvégezni, mivel az összegek különböznek, és hogy az átlag és a szórás kiszámítása csak akkor lehetséges a százalékok esetében, ha azok ugyanabból az összegből származnak, vagyis a fentiek helytelenek, és hogy további információkra lenne szükségem a súly meghatározásához a százalékok szorzatával, ha ez helyes.

Megjegyzések

  • Természetesen kiszámíthatja az átlagot és az SD-t százalékok: csak csatlakoztassa őket a képlethez. Az aggodalomra ad okot, hogy a kapott értékeket hogyan értelmezik. Meg tudná magyarázni, miért kérték fel Önt ennek a számításnak az elvégzésére, és mi fog történni az eredményekkel?
  • @whuber itt van. Végül is a százalék csak 0 ‘ s és 1 ‘ s átlaga. A legfontosabb nem az, hogy kiszámítható-e az átlag és a szórás, hanem az, hogy mit akarsz velük kezdeni, és van-e értelme ebben az összefüggésben.
  • Átfogó kérés volt az átlag kiszámítása és a metrikák halmazának szórása a küszöbértékek meghatározásához. Tehát ebben a példában a 98,4% -os átlagot használnák az aktuális hónap összehasonlítására, azzal a feltételezéssel, hogy minél nagyobb a szórás az átlagtól, annál nagyobb aggodalomra ad okot.
  • Mint látható, az átlagtól két standard eltérés már 100% feletti területen van. Ha az a feladata, hogy lássa, mennyire szélsőséges egy új megfigyelés a történelmi adatokhoz képest, fontolóra veheti valamilyen rangstatisztika használatát. Például. csak nézd meg, hogy a teljes hónapok közül hány hónap volt rosszabb vagy jobb, mint az aktuális hónap. Olyan pontszámokat fog kapni, mint 2/13 vagy 1/13, vagy akár 0/13.
  • @RichardHardy Természetesen a rangsorokkal valamilyen érték mindig a legmagasabb, és némelyik a legkisebb, tehát nem azonnal nyilvánvaló, hogy a rangok vagy a rangsor szerinti statisztikák hogyan fognak megoldást nyújtani arra, hogy ” vajon ez az érték eléggé különbözik-e attól, hogy aggodalomra ad okot? / ul>

Válasz

Amint a kérdésben linkelt cikk kimondja, nem szabad kiszámítani a százalékok átlagát ugyanazon módszerrel egész számokra .

Súlyozott átlagot kell használnia.

Tekintse meg ezt a legújabb cikket további részletek vannak https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage , de ugyanazt a módszert ismerteti, mint a kérdésben linkelt cikket.

Válasz

Amint mások rámutattak, helyes-e a százalékok átlagának és szórásának kiszámítása, rendeltetésszerű használat. Számodra – legalábbis ahogy értem – helytelennek tűnik.

Ahogy a kérdésedből és megjegyzésedből megértettem, rendellenességek felderítését próbálod végrehajtani . Alapvetően azt kérdezi:

A nem fogadott tranzakciók száma a ” normális “, vagy annyira eltér, hogy rendellenesnek tekinthető?

Erre nincs egyértelmű válasz kérdés. A legjobb, amit tehet, ha kiszámítja a valószínűséget :

Feltételezve, hogy a tranzakció ismert valószínűsége ” mis “, mennyire valószínű, hogy egy hónapban a megadott számú kihagyás lesz?

Ha nagyon valószínűtlen (mondjuk, valószínűsége 0,05 alatt van), akkor rendellenesnek tekintheti. Tehát az a kérdés marad, hogyan lehet kiszámítani ezt a valószínűséget.Ha a százalékaid normálisan oszlanak el, akkor könnyen levezetheted az átlagból és a szórásból: az átlagtól 2 SD-nél nagyobb távolságra lévő értékek 0,05 alatti valószínűséggel jelennek meg. Feltehetően ez az oka annak, hogy felkérték Önt ezeknek az értékeknek a kiszámítására.

Az Ön százalékos aránya azonban nem szokásosan oszlik el! Ahogy Richard Hardy kommentárjában rámutatott, két átlagon felüli SD-t már lehetetlen elérni, mivel ez meghaladja a 100% -ot. Más, megfelelőbb valószínűség-elosztást kell használnia. További tartományismeretek nélkül az adatai közül a legjobb, ha a binomiális elosztást használja:

$$ P (k) = {n \ Choose k} p ^ k ( 1-p) ^ {nk} $$

$ n $ a tranzakciók száma és $ k $ a hiányzások száma a kérdéses hónapban. A $ p $ értéket becsülheti a történelmi adatok alapján, a az elmulasztások teljes száma és a tranzakciók teljes száma az elmúlt hónapokban.

Mindezek birtokában kiszámíthatja a kumulátumot legalább annyi hiányosság megfigyelésének valószínűsége, mint amennyit a kérdéses hónapban ténylegesen megéltél. Ha ez a valószínűség valamilyen előre meghatározott szint alatt van (például a fent említett 0,05), akkor rendellenességnek tekintené.

A teljesség érdekében: Ha még pontosabb akar lenni (amiben kétlem, hogy eleve rossz feladatot kaptam), akkor $ p $ a béta terjesztés alapján történő modellezéssel, és a fenti binomiális elosztásban használja a szélsőséges, de még mindig elfogadható $ p $ . A béta eloszlás paraméterei pl. $ \ alpha = $ (a kihagyások száma) és $ \ beta = $ (a tranzakciók teljes száma $ – $ a kihagyások száma).

Válasz

Nem szeretem ezeket a számításokat százalékos arányban elvégezni. Az első lehetőség a számlálókkal és a nevezőkkel való munka, hu végezzen némi manipulációt. A második lehetőség az, hogy a százalékokat log értékekké alakítja, ami az eredményeket 0 és 100 százalék közötti tartományba kényszeríti.

Megjegyzések

  • Ez nem jelenik meg hogy válaszoljak a kérdésre.
  • A második lehetőségnek nincs értelme. Ha százalékos aránya 0 és 100 között van, akkor a naplók felvétele nem fog működni, ha 0 értéke van, és az 1 alatti százalékokat 0 alá kényszeríti. Időnként van némi pont logaritmusok százalékokat, de jellemzően a logit skálán végzett munkához való közelítésként.
  • Szoktam dolgozni valószínűségekkel és szinte kizárólag természetes logaritmusokkal (a logit skála). Ezen a területen működik, bizonyos feltételezésekkel. Minősítenem kellett volna a megjegyzésemet. Kezdetben azt gondoltam, hogy általánosabban is alkalmazható, de igazad van, nem.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük