Je nesprávné vypočítat střední a standardní odchylku procent?

Moje data představují procenta z toho, kolik transakcí z jednoho celku je každý měsíc ztraceno. Procenta jsou po dobu 13 měsíců a pohybují se od 97 do 99 procent. Byl jsem požádán, abych vypočítal průměr a směrodatnou odchylku, ale nejsem si jistý, zda bude výsledek smysluplný a zda bude možné průměr vypočítat pro procenta v tradičním smyslu (např. V aplikaci Excel dělá PRŮMĚR (pole procent)) vs. některé jiné metoda (vážený průměr), protože nemám žádné jiné informace než procenta.

Pomozte mi pochopit

  1. Pokud lze průměr a standardní odchylku pro procenta vypočítané,
  2. Jaké podmínky jsou potřebné k výpočtu střední a standardní odchylky pro procenta,
  3. alternativy určující rozpětí a centrální tendenci pro procenta za určité období.

Bylo by například následující nesprávné dělat za předpokladu, že procenta představují # zmeškaných transakcí / # celkových transakcí pro jednotlivé měsíce se stejným výpočtem použitým pro každý měsíc:

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

Z tohoto příspěvku se zdá, že to vypadá by mělo být provedeno s váženými průměry, protože součty jsou různé, a že výpočet střední a standardní odchylky je možný pro procenta, pouze pokud pocházejí ze stejného součtu, což znamená, že výše uvedené by bylo nesprávné a že bych potřeboval další informace k určení hmotnosti vynásobit procenta, pokud je to správné.

Komentáře

  • Samozřejmě můžete vypočítat průměr a SD z procenta: stačí je zapojit do vzorce. Mělo by se zajímat, jak budou výsledné hodnoty interpretovány. Mohl byste vysvětlit, proč jste byli požádáni, abyste provedli tento výpočet, a co bude s výsledky provedeno?
  • @whuber je tady. Koneckonců, procento je pouze průměrem 0 ‚ sa 1 ‚ s. Nejdůležitější není to, zda lze vypočítat střední a směrodatnou odchylku, ale to, co s nimi chcete dělat a zda to má v tomto kontextu smysl.
  • Byl to všeobecný požadavek na výpočet střední a směrodatná odchylka sady metrik pro jejich stanovení prahových hodnot. V tomto příkladu by se tedy průměr 98,4% použil k měření aktuálního měsíce proti, s předpokladem, že čím více standardních odchylek je od průměru, tím větší by to bylo znepokojení.
  • Jak vidíte, dvě standardní odchylky od průměru jsou již na území přes 100%. Pokud je vaším úkolem zjistit, jak extrémní je nové pozorování ve srovnání s historickými daty, můžete zvážit použití nějaké statistické statistiky. Např. podívejte se, kolik měsíců z celkového počtu měsíců bylo horších nebo lepších než aktuální měsíc. Získáte skóre jako 2/13 nebo 1/13, nebo dokonce 0/13.
  • @RichardHardy Samozřejmě, s hodnotami je určitá hodnota vždy nejvyšší a některá nejmenší, takže to není hned je zřejmé, jak statistiky o hodnostech nebo hodnostech poskytnou řešení “ je tato hodnota natolik odlišná, aby vzbuzovala obavy? “

Odpověď

Jak uvádí článek, na který je odkazováno v otázce, neměli byste vypočítávat průměr procent pomocí stejné metody pro celá čísla .

Musíte použít vážený průměr.

Zobrazit tento poslední článek má více podrobností https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage , ale vysvětluje stejnou metodu jako článek uvedený v otázce.

Odpověď

Jak již uvedli jiní, zda je správné vypočítat průměr a směrodatná odchylka procenta závisí na vašem tendenční použití. Pro vaše použití, alespoň pokud tomu rozumím, se to zdá být nesprávné.

Jak vím z vaší otázky a komentáře, pokoušíte se provést detekci anomálií . V zásadě se ptáte:

Je počet zmeškaných transakcí v rámci toho, co lze považovat za “ normální “ nebo se to odchyluje natolik, že je považováno za neobvyklé?

Na to neexistuje jednoznačná odpověď otázka. Nejlepší, co můžete udělat, je vypočítat pravděpodobnost :

Za předpokladu, že známá pravděpodobnost transakce bude “ mis „, jak je pravděpodobné, že bude daný počet zmeškaných za měsíc?

Pokud je to velmi nepravděpodobné (řekněme pravděpodobnost pod 0,05), můžete to považovat za neobvyklé. Otázkou tedy zůstává, jak tuto pravděpodobnost vypočítat.Pokud byly vaše procenta normálně distribuována, můžete je snadno odvodit ze střední hodnoty a směrodatné odchylky: hodnoty, které jsou více než 2 SD od průměru, se objevují s pravděpodobností pod 0,05. To je pravděpodobně důvod, proč jste byli požádáni o výpočet těchto hodnot.

Vaše procenta však obvykle nejsou distribuována! Jak uvedl Richard Hardy ve svém komentáři, dvou SD nad průměrem je již nemožné dosáhnout, protože by to bylo nad 100%. Musíte použít jiné, vhodnější rozdělení pravděpodobnosti. Bez dalších znalostí o doméně z vašich dat je nejlepší použít binomickou distribuci:

$$ P (k) = {n \ choose k} p ^ k ( 1-p) ^ {nk} $$

, přičemž $ n $ je počet transakcí a $ k $ počet zmeškaných v daném měsíci. Z historických údajů můžete odhadnout $ p $ jako zlomek celkový počet zmeškaných a celkový počet transakcí v minulých měsících.

Po tomto všem můžete vypočítat kumulativní Pravděpodobnost, že zaznamenáte alespoň tolik zmeškaných, kolik jste v daném měsíci skutečně měli. Pokud je tato pravděpodobnost pod určitou předdefinovanou úrovní (například výše zmíněnou 0,05), považujete ji za anomálii.

Pro úplnost: Pokud chcete být ještě přesnější (o čemž pochybuji, vzhledem k tomu, že vám byl zadán špatný úkol), můžete získat interval spolehlivosti $ p $ modelováním podle distribuce beta a ve výše uvedené binomické distribuci použijte extrémní, ale přesto přijatelné $ p $ . Parametry distribuce beta by byly např. $ \ alpha = $ (počet zmeškaných) a $ \ beta = $ (celkový počet transakcí $ – $ počet zmeškaných).

Odpovědět

Nerad dělám tyto výpočty s procenty. První možností je pracovat s čitateli a jmenovateli a th cs udělat nějakou manipulaci. Druhou možností je převést procenta na hodnoty protokolu, což vynutí výsledky do rozsahu 0 až 100 procent.

Komentáře

  • Toto se nezobrazí odpovědět na otázku.
  • Druhá možnost nedává smysl. Pokud máte procenta mezi 0 a 100, pak logování nebude fungovat ‚ t, pokud máte 0 hodnot a vynutí to procenta pod 1 až pod 0. Občas má nějaký smysl brát logaritmy procenta, ale obvykle jako přibližná hodnota pro práci na logitové stupnici.
  • Jsem zvyklý pracovat s pravděpodobnostmi a téměř výlučně s přirozenými logaritmy (logitová stupnice). V této doméně to funguje, s určitými předpoklady. Měl jsem svůj komentář kvalifikovat. Zpočátku jsem si myslel, že by to mohlo být použito obecněji, ale máte pravdu, že to nejde.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *