Moje dane to pewne wartości procentowe dotyczące liczby transakcji z całości pominiętych każdego miesiąca. Odsetki dotyczą 13 miesięcy i wahają się od 97 do 99 procent. Poproszono mnie o obliczenie średniej i odchylenia standardowego, ale nie jestem pewien, czy wynik byłby miarodajny i czy można obliczyć średnią dla wartości procentowych w tradycyjnym sensie (np. W programie Excel wykonując ŚREDNIA (tablica procentowa)) w porównaniu z innymi metoda (uśredniona ważona), ponieważ nie posiadam żadnych innych informacji poza wartościami procentowymi.
Proszę o pomoc w zrozumieniu
- Jeśli średnia i odchylenie standardowe dla procentów może być obliczone,
- jakie warunki są potrzebne, aby obliczyć średnią i odchylenie standardowe dla procentów,
- alternatywne metody określania spreadu i centralnej tendencji dla procentów w danym okresie.
Na przykład, czy poniższe dane byłyby niepoprawne, zakładając, że wartości procentowe reprezentują # pominięte transakcje / # łączną liczbę transakcji dla każdego miesiąca z tymi samymi obliczeniami dla każdego miesiąca:
Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90%
Od tego posta wygląda na to należy zrobić ze średnimi ważonymi, ponieważ sumy są różne, a obliczenie średniej i odchylenia standardowego jest możliwe dla procentów tylko wtedy, gdy pochodzą one z tej samej sumy, co oznacza, że powyższe byłoby nieprawidłowe i potrzebowałbym dodatkowych informacji, aby określić wagę aby pomnożyć wartości procentowe, jeśli to prawda.
Komentarze
- Oczywiście można obliczyć średnią i SD procenty: po prostu podłącz je do wzoru. Należy zwrócić uwagę na to, jak będą interpretowane otrzymane wartości. Czy możesz wyjaśnić, dlaczego poproszono Cię o wykonanie tych obliczeń i co zostanie zrobione z wynikami?
- @whuber jest tutaj. W końcu procent to po prostu średnia z 0 ' si 1 ' s. Najważniejsze jest nie to, czy można obliczyć średnią i odchylenie standardowe, ale co chcesz z nimi zrobić i czy ma to sens w tym kontekście.
- To była ogólna prośba o obliczenie średniej i odchylenie standardowe zestawu wskaźników w celu ustalenia dla nich progów. W tym przykładzie średnia 98,4% zostanie użyta do zmierzenia bieżącego miesiąca, przy założeniu, że im więcej odchyleń standardowych od średniej, tym większe będzie to obawy.
- Jak widać, dwa odchylenia standardowe od średniej są już na terytorium przekraczającym 100%. Jeśli Twoim zadaniem jest sprawdzenie, jak ekstremalna jest nowa obserwacja w porównaniu z danymi historycznymi, możesz rozważyć użycie statystyk rangi. Na przykład. po prostu zobacz, ile miesięcy z łącznej liczby miesięcy było gorszych lub lepszych niż bieżący. Otrzymasz wyniki takie jak 2/13 lub 1/13, a nawet 0/13.
- @RichardHardy Oczywiście w przypadku rang pewna wartość jest zawsze najwyższa, a część najmniejsza, więc nie jest to od razu widać, w jaki sposób rangi lub statystyki rang zapewnią rozwiązanie problemu ” czy ta wartość różni się na tyle, aby wzbudzić niepokój? / ul>
Odpowiedź
Zgodnie z artykułem, do którego prowadzi link w pytaniu, nie należy obliczać średniej wartości procentowej przy użyciu tej samej metody dla liczb całkowitych .
Musisz użyć średniej ważonej.
Zobacz ten najnowszy artykuł zawiera więcej szczegółów https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage , ale wyjaśnia tę samą metodę, co artykuł powiązany w pytaniu.
Odpowiedź
Jak zauważyli inni, to, czy obliczanie średniej i odchylenia standardowego procentów jest prawidłowe, zależy od zgodne z przeznaczeniem. Używasz, przynajmniej w moim rozumieniu, wydaje się to niepoprawne.
Jak rozumiem z Twojego pytania i komentarza, próbujesz wykonać wykrywanie anomalii . Zasadniczo pytasz:
Czy liczba pominiętych transakcji mieści się w ramach tego, co można uznać za ” normalne „, czy może odbiegają one tak bardzo, by zostać uznane za anomalne?
Nie ma na to jednoznacznej odpowiedzi pytanie. Najlepsze, co możesz zrobić, to obliczyć prawdopodobieństwo :
Zakładając znane prawdopodobieństwo, że transakcja będzie ” mis „, jakie jest prawdopodobieństwo wystąpienia określonej liczby chybień w miesiącu?
Jeśli jest to bardzo nieprawdopodobne (powiedzmy, prawdopodobieństwo poniżej 0,05), możesz uznać, że jest to anomalne. Pozostaje więc pytanie, jak obliczyć to prawdopodobieństwo.Gdyby twoje procenty miały rozkład normalny, można by było łatwo wyprowadzić to ze średniej i odchylenia standardowego: wartości, które są dalej niż 2 SD od średniej pojawiają się z prawdopodobieństwem poniżej 0,05. To prawdopodobnie powód, dla którego poproszono Cię o obliczenie tych wartości.
Jednak Twoje wartości procentowe nie mają rozkładu normalnego! Jak zauważył Richard Hardy w swoim komentarzu, dwa SD powyżej średniej są już niemożliwe do osiągnięcia, ponieważ byłyby powyżej 100%. Musisz użyć innego, bardziej odpowiedniego rozkładu prawdopodobieństwa. Bez dodatkowej wiedzy w tej dziedzinie Twoich danych, najlepiej, co możesz zrobić, to użyć rozkładu dwumianowego:
$$ P (k) = {n \ choose k} p ^ k ( 1-p) ^ {nk} $$
gdzie $ n $ to liczba transakcji, a $ k $ liczbę braków w danym miesiącu. Możesz oszacować $ p $ na podstawie danych historycznych, jako ułamek całkowitą liczbę chybień i całkowitą liczbę transakcji w ostatnich miesiącach.
Mając to wszystko, możesz obliczyć łączną pięć razy prawdopodobieństwo zaobserwowania co najmniej tylu braków, ile faktycznie miało miejsce w danym miesiącu. Jeśli prawdopodobieństwo to jest poniżej pewnego z góry określonego poziomu (na przykład wspomnianego powyżej 0,05), należy uznać to za anomalię.
Aby uzyskać kompletność: Jeśli chcesz być jeszcze bardziej precyzyjny (w co wątpię, biorąc pod uwagę, że przede wszystkim otrzymałeś niewłaściwe zadanie), możesz uzyskać przedział ufności $ p $ , modelując go na podstawie dystrybucji beta i wykorzystując skrajny, ale wciąż prawdopodobny $ p $ w powyższym rozkładzie dwumianowym . Parametry dystrybucji beta to np. $ \ alpha = $ (liczba błędów) i $ \ beta = $ (łączna liczba transakcji $ – $ liczba braków).
Odpowiedź
Nie lubię wykonywać tych obliczeń z procentami. Pierwsza opcja to praca z licznikami i mianownikami, a th pl zrób trochę manipulacji. Drugą opcją jest przekonwertowanie wartości procentowych na wartości dziennika, co spowoduje wymuszenie wyników w zakresie od 0 do 100 procent.
Komentarze
- To się nie pojawia aby odpowiedzieć na pytanie.
- Druga opcja nie ma sensu. Jeśli masz wartości procentowe od 0 do 100, rejestrowanie logów wygrywa ' nie działa, jeśli masz 0 wartości i wymusza wartości poniżej 1 do poniżej 0. Czasami warto wziąć logarytmy procenty, ale zwykle jako przybliżenie do pracy na skali logitowej.
- Jestem przyzwyczajony do pracy z prawdopodobieństwami i prawie wyłącznie logarytmami naturalnymi (skala logitowa). Działa w tej dziedzinie, przy pewnych założeniach. Powinienem był zastrzec mój komentarz. Początkowo myślałem, że można to zastosować bardziej ogólnie, ale masz rację, nie można.