백분율의 평균과 표준 편차를 계산하는 것이 올바르지 않습니까?

내 데이터는 매달 누락 된 전체 트랜잭션 수에 대한 백분율입니다. 백분율은 13 개월 동안이며 범위는 97 ~ 99 %입니다. 평균과 표준 편차를 계산하라는 요청을 받았지만 결과가 의미가 있는지 그리고 평균이 전통적인 의미 (예 : AVERAGE (백분율 배열)를 수행하는 Excel에서)에 대한 백분율에 대해 계산 될 수 있는지 확실하지 않습니다. 백분율 이외의 다른 정보가 없기 때문에 방법 (가중 평균).

이해할 수 있도록 도와주세요.

  1. 백분율에 대한 평균 및 표준 편차가 계산 됨,
  2. 백분율에 대한 평균 및 표준 편차를 계산하기 위해 필요한 조건,
  3. 기간 동안 백분율에 대한 스프레드 및 중심 경향을 결정하는 대안

예를 들어, 비율이 매월 동일한 계산이 사용되는 경우 누락 된 거래 # 건 / 각기 다른 월의 총 거래 #을 나타낸다고 가정하면 다음과 같은 잘못된 행동을 할 수 있습니다.

Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90% 

From 이 게시물 은 다음과 같습니다. 합계가 다르기 때문에 가중 평균으로 수행해야하며, 백분율에 대해 평균과 표준 편차를 계산하는 것은 동일한 합계에서 나온 경우에만 가능합니다. 즉, 위의 내용이 올바르지 않으며 가중치를 결정하기 위해 추가 정보가 필요합니다. 백분율을 곱할 수 있습니다.

댓글

  • 물론 의 평균과 SD를 계산할 수 있습니다. 백분율 : 수식에 연결하기 만하면됩니다. 우려해야 할 것은 결과 값이 해석되는 방식입니다. 이 계산을 수행하도록 요청받은 이유와 결과로 무엇을 할 것인지 설명해 주시겠습니까?
  • @whuber가 바로 여기에 있습니다. 결국 백분율은 0 ' 및 1 '의 평균 일뿐입니다. 가장 중요한 것은 평균과 표준 편차를 계산할 수 있는지 여부가 아니라이 값으로 무엇을하고 싶은지, 그 맥락에서 의미가 있는지 여부입니다.
  • 평균과 표준 편차를 계산하기위한 포괄적 인 요청이었습니다. 임계 값을 설정하기위한 메트릭 세트의 표준 편차. 따라서이 예에서 98.4 % 평균은 현재 월을 측정하는 데 사용되며, 평균에서 표준 편차가 더 많이 멀어 질수록 더 큰 문제가 될 것입니다.
  • 보시다시피 평균에서 두 표준 편차가 이미 100 %가 넘는 영역에 있습니다. 새로운 관측치가 과거 데이터와 비교하여 얼마나 극단적인지 확인하는 것이 작업이라면 일부 순위 통계 사용을 고려할 수 있습니다. 예 : 총 개월 수 중 몇 개월이 이번 달보다 더 나쁘거나 나아 졌는지 확인하십시오. 2/13 또는 1/13 또는 0/13과 같은 점수를 받게됩니다.
  • @RichardHardy 물론, 순위에 따라 어떤 값은 항상 가장 높고 어떤 값은 가장 작기 때문에 즉시 발생하지는 않습니다. 순위 또는 순위 통계가 "이 값이 우려 할만큼 충분히 다른가? "

답변

질문에 링크 된 기사에 나와 있듯이 정수에 대해 동일한 방법을 사용하여 백분율의 평균을 계산해서는 안됩니다. .

가중 평균을 사용해야합니다.

이 최근 기사보기 자세한 내용은 https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage 이지만 질문에 링크 된 문서와 동일한 방법을 설명합니다.

답변

다른 사람들이 지적했듯이 평균과 백분율의 표준 편차를 계산하는 것이 올바른지 여부는 사용 경향. 적어도 내가 이해하는 한 잘못된 것 같습니다.

귀하의 질문과 의견을 통해 이해했듯이 이상 감지 를 시도하고 있습니다. 기본적으로 다음과 같이 질문합니다.

" 정상으로 간주 될 수있는 항목 내에서 누락 된 거래 수 " 아니면 비정상적인 것으로 간주되기 위해 너무 많이 벗어 납니까?

그에 대한 명확한 대답은 없습니다. 질문. 가장 좋은 방법은 확률 을 계산하는 것입니다.

거래가

mis ", 한 달에 주어진 누락 횟수를 가질 가능성은 얼마나됩니까?

매우 불가능한 경우 (예 : 0.05 미만의 확률) 비정상적인 것으로 간주 할 수 있습니다. 따라서이 확률을 계산하는 방법에 대한 질문이 남아 있습니다.백분율이 정규 분포를 따르는 경우 평균과 표준 편차에서 쉽게 유도 할 수 있습니다. 평균에서 SD가 2 개 이상 떨어진 값은 0.05 미만의 확률로 나타납니다. 이것이 아마도이 값을 계산하라는 요청을받은 이유 일 것입니다.

그러나 백분율 은 정규 분포가 아닙니다! Richard Hardy가 자신의 의견에서 지적했듯이 평균 이상의 두 SD는 100 % 이상이므로 이미 달성 할 수 없습니다. 더 적절한 다른 확률 분포를 사용해야합니다. 추가 도메인 지식없이 데이터 중 가장 좋은 방법은 이항 분포를 사용하는 것입니다.

$$ P (k) = {n \ choose k} p ^ k ( 1-p) ^ {nk} $$

$ n $ 는 트랜잭션 수이고 $ k $ 해당 월의 누락 횟수입니다. 이전 데이터에서 $ p $ 를 지난 몇 달 동안 발생한 총 누락 수와 총 거래 수입니다.

이 모든 것을 가지고 누적을 계산할 수 있습니다. 문제의 달에 실제로 가졌던만큼의 실수를 최소한 관찰 할 확률이 높습니다. 해당 확률이 사전 정의 된 수준 (예 : 위에서 언급 한 0.05)보다 낮 으면 이상이라고 간주합니다.

완전성을 위해 : 더 정확하고 싶은 경우 (처음에 잘못된 작업을 받았음을 고려할 때 의심 스럽습니다) $ p $ 를 베타 분포로 모델링하고 위의 이항 분포에서 극한이지만 여전히 그럴듯한 $ p $ 을 사용합니다. . 베타 배포의 매개 변수는 예를 들어 $ \ alpha = $ (누락 횟수) 및 $ \ beta =입니다. $ (총 트랜잭션 수 $-$ 실패 수)

답변

백분율로 계산하는 것을 좋아하지 않습니다. 첫 번째 옵션은 분자와 분모를 사용하는 것입니다. ko 약간의 조작을하십시오. 두 번째 옵션은 백분율을 로그 값으로 변환하여 결과를 0-100 % 범위로 만드는 것입니다.

댓글

  • 표시되지 않습니다. 질문에 답할 수 있습니다.
  • 두 번째 옵션은 의미가 없습니다. 0에서 100 사이의 백분율이있는 경우 ' 값이 0이고 백분율을 0 미만으로 설정하면 로그를 가져 오지 못합니다. 때때로 다음과 같은 로그를 취해야 할 시점이 있습니다. 백분율, 그러나 일반적으로 로짓 척도 작업에 대한 근사치입니다.
  • 나는 확률과 거의 독점적으로 자연 로그 (로짓 척도) 작업에 익숙합니다. 특정 가정하에 해당 영역에서 작동합니다. 내 의견에 자격을 부여 했어야했습니다. 처음에는 더 일반적으로 적용될 수 있다고 생각했지만 맞습니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다