2010 년 5 월 Wikipedia 사용자 Mcorazao는 왜곡 기사 에 “A 값이 0이면 값이 평균의 양쪽에 상대적으로 균등하게 분포되어 있지만 일반적으로 반드시 대칭 분포를 의미하지는 않습니다. ” 그러나 위키 페이지에는이 규칙을 위반하는 실제 배포 사례가 없습니다. “왜도가 0 인 비대칭 분포 예”를 검색하면 적어도 처음 20 개의 결과에서 실제 예가 제공되지 않습니다.
왜곡이 $ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \에 의해 계산된다는 정의 사용 , \ Big] $ 및 R 수식
sum((x-mean(x))^3)/(length(x) * sd(x)^3)
작은 , 임의의 분포를 사용하여 왜도를 낮게 만듭니다. 예를 들어 배포
x = c(1, 3.122, 5, 4, 1.1)
는 $ -5.64947 \ cdot10 ^ {-5} $의 왜곡을 발생시킵니다. 그러나 이것은 작은 샘플이며 대칭으로부터의 편차는 크지 않습니다. 그렇다면 고도로 비대칭이지만 여전히 왜곡도가 거의 0 인 하나의 피크로 더 큰 분포를 구성 할 수 있습니까?
댓글
- 배포를 단일 모드로 원하십니까? 제목은 그렇게 말하고 있지만 텍스트는이 점을 거의 언급하지 않습니다.
- @Dilip 예, 저는 ‘ 왜곡 성이 있기 때문에 분포가 단일 모드라면 더 흥미로울 것입니다. , 중심적인 순간으로 ‘ 그렇지 않으면 실제로 의미가 없습니다.
답변
이산 배포를 고려합니다. $에서 지원되는 배포판 k $ 값 $ x_1, x_2, \ ldots, x_k $ 는 음이 아닌 확률로 결정됩니다. $ p_1 , p_2, \ ldots, p_k $ 는 (a) 합계가 1이고 (b) 왜도 계수가 0 (세 번째 중심 모멘트가 0 인 것과 동일)과 같은 조건에 따라 달라집니다. 이는 $ k-2 $ 의 자유도를 남깁니다 (통계적인 것이 아니라 방정식 풀이의 의미에서!). 우리는 단일 모드 솔루션을 찾을 수 있기를 바랍니다.
예제 검색을 더 쉽게하기 위해 저는 작은 대칭 벡터 $ \ mathbf {x}에서 지원되는 솔루션을 찾았습니다. = (-3, -2, -1,0,1,2,3) $ , $ 0 $ , 제로 평균 및 제로 왜곡도. 이러한 솔루션 중 하나는 $ (p_1, \ ldots, p_7) = (1396, 3286, 9586, 47386, 8781, 3930, 1235) / 75600 $ 입니다.
비대칭임을 알 수 있습니다.
여기에 $ \ mathbf {x} = (-3, -1,0,1,2) $ (비대칭) 및 $ p = (1,18, 72, 13, 4) / 108 $ :
이제 무슨 일이 일어나고 있는지 분명합니다. 평균이 $ 0 $와 같기 때문입니다. , 음수 값은 $ (-3) ^ 3 = -27 $ 및 $ 18 \ times (- 1) ^ 3 = -18 $ 세 번째 순간에 양수 값은 $ 4 \ times 2 ^ 3 = 32 $ 및 $ 13 \ times 1 ^ 3 = 13 $ , 정확히 음수 균형 기여. $ \ mathbf {x} = (-1,0,1과 같이 $ 0 $ 에 대한 대칭 분포를 취할 수 있습니다. ) $ 와 $ \ mathbf {p} = (1,4,1) / 6 $ , $ + 1 $ 에서 $ + 2 $ 까지, $ + 1에서 약간의 질량 $ 는 $-1 $ 로, 약간의 질량은 $-3 $ 까지 감소합니다. span>, 평균은 $ 0 $ 로 유지하고 왜도는 $ 0 $ 로 유지하면서 비대칭을 만듭니다. . 동일한 접근 방식을 사용하여 연속 분포의 평균 0과 왜도를 0으로 유지하면서 비대칭으로 만듭니다. 대량 이동에 너무 공격적이지 않으면 단일 모드로 유지됩니다.
Edit : Continuous Distributions
문제가 계속 발생하기 때문에 연속 분포가있는 명시적인 예. Peter Flom은 좋은 생각을 가지고있었습니다. 법선의 혼합을보세요. 두 법선의 혼합은하지 않습니다. 왜도가 사라지면 대칭이됩니다. 다음으로 간단한 경우는 세 법선의 혼합입니다.
적절한 위치와 배율을 선택한 후 세 가지 법선의 혼합은 6 실제 매개 변수에 따라 달라 지므로 비대칭, 제로 왜도 솔루션을 생성 할 수있는 충분한 유연성을 가져야합니다. . 일부를 찾으려면 정규 혼합의 왜도를 계산하는 방법을 알아야합니다. 이 중에서 단봉 형 (아무것도 없을 수 있음)을 검색합니다.
이제 일반적으로 $ r ^ \ text {th $ r $ 이 홀수이고 그렇지 않으면 pan class = “math-container와 같을 때} $ (비 중심) 표준 정규 분포 모멘트가 0입니다. “> $ 2 ^ {r / 2} \ Gamma \ left (\ frac {1-r} {2} \ right) / \ sqrt {\ pi} $ . 표준 편차가 $ \ sigma $ 가되도록 표준 정규 분포를 다시 조정하면 $ r ^ \ text {th } $ 모멘트에 $ \ sigma ^ r $ 를 곱합니다. 배포를 $ \ mu $ 만큼 이동하면 새로운 $ r ^ \ text {th} $ moment는 $ r $ 까지의 순간으로 표현할 수 있습니다. 분포 혼합 모멘트 (즉, 가중 평균)는 개별 모멘트의 동일한 가중 평균입니다. 마지막으로, 왜도는 세 번째 중심 모멘트가 0 일 때 정확히 0이며, 이는 처음 세 모멘트로 쉽게 계산됩니다.
이는 문제에 대한 대수적 공격을 제공합니다. 내가 찾은 한 가지 해결책은 $ (\ mu, \ sigma) $ 매개 변수가 $ ( 0,1) $ , $ (1 / 2,1) $ 및 $ (0, \ sqrt {127/18}) \ approx (0, 2.65623) $ . 평균은 $ (0 + 1/2 + 0) / 3 = 1/6 $ 과 같습니다. 이 이미지는 pdf를 파란색으로 표시하고 분포의 pdf를 빨간색으로 평균을 기준으로 표시합니다. 그들이 다르다는 것은 둘 다 비대칭임을 보여줍니다. (모드는 약 $ 0.0519216 $ 이며 $ 1/6 $ 의 평균과 다릅니다.) 둘 다 구성에 따른 왜곡이 전혀 없습니다 .
플롯은 이것이 단일 모드임을 나타냅니다. (미적분을 사용하여 극댓값을 찾을 수 있습니다.)
댓글
- (+ 1) 매우 매끄러운 답변입니다. 그래도 연속 배포에서 작동합니까? ‘ 이동이 잠재적으로 작은 모드를 생성하지 않을까요? 내가 똑바로 생각하지 않을 수도 있습니다 …
- 당신 ‘ 생각이 꽤 좋습니다. 매크로 : 우리 모두는 회의적이어야합니다. 트릭은 작은 양을 넓은 범위에 분산시키는 것입니다. 첫 번째 파생 테스트를 통해 가능한 모드를 확인할 수 있으며이 형식의 작은 변화가 새 모드를 생성하지 않을 충분히 있다는 증거의 기초를 제공합니다. li>
- 답변 해 주셔서 감사합니다! 이것은 내가 직관적으로 생각했던 것과 비슷하지만 ‘ 말로 잘 표현할 수는 없지만 ” 균형을 맞춰야합니다. ” 분포의 각 측면에있는 질량입니다. 이 균형을 잡을 수있는 고정 관념이 있는지 궁금합니다.
- 앤디, 한 가지 방법은 이산 솔루션으로 시작한 다음 정규 분포와 컨볼 루션하는 것입니다. 이 경우 단 봉성 요구 사항은 정규 분포가 큰 표준 편차를 갖도록 강제합니다. 그럼에도 불구하고 컨볼 루션이 필수 속성 (예 : 왜도 0)을 눈에 띄게 변경하지 않거나 예측 가능한 방식으로 변경하는 경우 문제에 대한 수학적 처리가 있습니다. 어떤 의미에서 내 최근 편집은 이러한 공격으로 볼 수 있지만 ‘ 엄격한 컨볼 루션은 아닙니다 (3 개의 법선이 다른 표준 편차를 갖기 때문).
- 나는 확인했다, Andy : 이산 솔루션을 정규 분포로 컨볼 루션해도 왜도는 변경되지 않습니다. 정규 분포에 0.57 이상의 표준 편차를 주면 결과는 단봉입니다. 기본 이산 분포와 마찬가지로 평균이 0이고 왜도가 0이며 비대칭입니다. 이것을 표준 정규 분포와 혼합하면 표준 정규 분포와 불연속 분포 사이의 질량 이동이 제어됩니다. 이는 ” stereotyped 방법.
답변
다음은 https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html # R에서 멋지게 재현했습니다 : 모양 매개 변수 $ k = 0.0629 $ 및 $ c를 사용하는 역 Burr 또는 Dagum 분포 = 18.1484 $ :
$$ g (x) = ckx ^ {-(c + 1)} [1 + x ^ {-c}] ^ {-(k + 1)} $$
평균 0입니다.5387, 표준 편차 0.2907, 왜도 0.0000, 첨도 2.0000. 출처에서는 코끼리 분포라고도합니다.
R에서 내 복제는
library(actuar) library(knotR) # a nonsymmetric distribution with zero skewness # see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html# c <- 18.1484 k <- 0.0629 x <- seq(0,1.5,by=.0001) elephant.density <- dinvburr(x, k, c) plot(x,elephant.density, type="l") polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey") points(0.8,0.8, pch=19, cex=2) # "ears" created via https://www.desmos.com/calculator/cahqdxeshd ear.x <- c(0.686, 0.501, 0.42, 0.68) ear.y <- c(0.698, 0.315, 1.095, 0.983) myseg(bezier(cbind(ear.x, ear.y)), type="l") EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k) EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k) (skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196
이 출력에서 알 수 있듯이 왜곡도는 이러한 매개 변수 값의 경우 0-4 자리가 아닙니다. 다음은 $ k $ 및 $ c $에 대한 작은 최적화 프로그램입니다.
# optimize skewness a bit further skewval <- 1 while (skewval > 10^(-10)){ optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c) skewval <- optskew.k$f.root k <- optskew.k$root optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k) skewval <- optskew.c$f.root c <- optskew.c$root }
수익
> print(c) [1] 18.89306 > print(k) [1] 0.05975542 > print(skewval) [1] -1.131464e-15
댓글
- 수정 해 주셔서 감사합니다. 즉, 0.0000에서 4 자리의 왜곡도를 재현 할 수 없었고 대신 0.0001245138을 얻었습니다 (R 코드의 다음 편집 참조).
- $ c $ 및 $를 찾기 위해 간단한 최적화 프로그램을 실행할 수 있습니다. 왜도를 가능한 한 0에 가깝게하는 k $ 값. 몇 개의 추가 줄이거 나 아마도 한 줄이어야합니다. 이미 마지막 줄에 분석적으로 계산 된 손실 함수가 있습니다. R에 적합한 일반 최적화 프로그램이 있습니까?
- 실제로 0.0003756196입니다. 0.0001245138은 실수로 여기에 주어진 초기 최적화를 이미 수행했습니다. 한 번 살펴 보겠습니다.
- @amoeba, 약간 최적화를 시도했지만 영리한 방법으로 수행했다고 주장하지 않으며 최적화 경험이 거의 없습니다.
- ‘ 0 ~ 3 자리 숫자 (거의 4 자리)가 마음에 들었습니다. ‘보다 정확한 값이 아니라면 다르게 보일 것입니다. 왜곡도가 해당 부근에서 0을 교차하고 ‘ 정확도가 더 필요한 경우 값을 조정할 방향이 명확하다면 ‘ 충분합니다. 그러나 추가 노력에 대한 찬사. (그런데 ‘ 멋진 예입니다.)
답변
0에서 최빈값까지 선형 적으로 증가한 다음 최빈값의 오른쪽으로 기하 급수적으로 증가하지만 최빈값에서는 연속적인 실제 선의 양의 절반에 대한 분포를 고려하십시오.
이렇게 할 수 있습니다. 삼각 지수 분포라고합니다 (상어 지느러미처럼 보이지만).
$ \ theta $는 모드의 위치이고 $ \ lambda $는 기하 급수적.
$ \ lambda \ theta $가 증가함에 따라 분포는 점차적으로 덜 왜곡됩니다. $ \ lambda \ theta $가 $ \ 약 6.15 $를지나 증가함에 따라 세 번째 순간이 양수에서 음수로 교차합니다.
Brizzi (2006) $ ^ {[1]} $는이 분포 군을 “양면”분포라고하며 다음을 논의합니다. 세 번째 순간 왜곡이 0 인이 교차점입니다. von Hippel (2005) $ ^ {[2]} $는 “거의 교차점에있는 예를 여기
실 왜도가 0이고 초과 첨도가 0 인 비정규 분포? 에는 작은 이산 예와 다른 연속 단봉 예를 포함하여 몇 가지 비대칭 예가 있습니다.
이산 단봉 분포-또는 이에 상응하는 샘플 -왜곡도가 0이면 크거나 작은 크기로 구성하기가 매우 쉽습니다.
여기에 샘플로 처리하거나 (원시 주파수를 3000으로 나누어) pmf ( “x”값은 가져온 값이고 “n”은 값이 샘플에서 발생하는 횟수) :
x: -2 -1 0 1 2 3 4 5 6 7 8 9 10 n: 496 498 562 1434 2 1 1 1 1 1 1 1 1
이 예제는 f로 구성됩니다. 3 점 분포 :
x: -2 1 c n: c(c-1)(c+1)/6 c(c-1)(c+1)/3 - c 1
3에서 10 사이의 다양한 $ c $ 값에 걸쳐. 이것은 ($ c $에 의해) 3 점 “원자 “는 $ \ sum_i n_ix_i = 0 $ 및 $ \ sum_i n_ix_i ^ 3 = 0 $를 가지며, 이는 차례로 다양한 $ c $ 선택에 걸친 혼합물의 왜곡도가 0임을 의미합니다. (비대칭과 세 번째 중심 모멘트가 0 인 세 점에 걸친 분포보다 작은 것은 만들 수 없습니다. 이러한 것들은 더 큰 구조를 만들 수있는 깔끔한 빌딩 블록을 만드는 것과 같이 단지 몇 점에 걸친 단순한 조각 모음입니다.)
다른 “원자”는 구성 할 수 있지만이 예제에서는이 한 종류 만 사용합니다. 이러한 원자 조합에는 나머지 구멍을 채우기 위해 대칭 적으로 배치 된 값이 추가됩니다. 평균과 세 번째 순간의 구조를 파괴하지 않고 단일성을 보장합니다.
$ [1] $ Brizzi, M.(2006),
“삼각형과 지수 특성을 결합한 비뚤어진 모델 : 양면 분포 및 통계적 속성”
Austrian Journal of Statistics , 35 : 4, p455–462
http://www.stat.tugraz.at/AJS/ausg064/
$ [2] $ von Hippel, PT (2005),
“Mean, Median, and Skew : Correcting a Textbook Rule”
Journal of Statistics Education Volume 13, 번호 2,
http://ww2.amstat.org/publications/jse/v13n2/vonhippel.html
댓글
- ” 상어 지느러미 “라고 부를 수 있을까요?
- @Glen_b 완전히 상어 지느러미입니다.
답변
왜도를 없애려면 $$ \ operatorname {E}이 필요합니다. \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = 0 $$ 또는 이에 상응하는 $$ \ operatorname {E} \ Big [ \ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ leq \ mu \ Big] + \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ gt \ mu \ Big] = 0. $$
이제 주어진 평균과 분산에 대해 $ \ mu의 오른쪽에 질량이 0 인 $ Y $ 및 $ Z $ 두 분포를 선택합니다. $ 및 $$ \ operatorname {E} \ Big [\ big (\ tfrac {Y- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = \ operatorname {E} \ Big [ \ big (\ tfrac {Z- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] $$ 그리고 $ \ mu $ 및 $가 남아있는 경우 $ Y $와 일치하도록 $ X $ 정의 (\ mu-Z) $ 그렇지 않으면. (정확한 표기법을 모르시겠습니까?)
$ Y $ 및 $ Z $의 PDF가 $ \ mu 왼쪽에서 증가하는 경우 결과 배포는 단일 모드가됩니다. $ ($ \ mu $의 오른쪽에 0이되는 것 외에도).
댓글
- 배포가 단일 모드임을 어떻게 보장합니까?
- 이 점을 지적 해 주셔서 감사합니다. $ Y $ 및 $ Z $의 PDF는 $ \ mu $까지 엄격하게 증가한 다음 0으로 떨어 뜨려야합니다.
- 이것은 옳은 아이디어지만 여전히 약간의 작업이 필요합니다. $ \ sigma $는 $ Y $와 $ Z $를 결합 할 때 바뀔 수 있기 때문입니다.
- @whuber : 젠장. 나는 거기에 있는 함정 … 🙂
답변
다음 이산 분포는 비대칭이며 null이 있습니다. 왜도 : Prob (-4) = 1 / 3, Prob (1) = 1 / 2, Prob (5) = 1 / 6. Doric et al., Qual Quant (2009) 43 : 481의 논문에서 찾았습니다. -493; DOI 10.1007 / s11135-007-9128-9
댓글
- +1 체크 아웃하고 그것은 ‘ 단봉입니다. 이것이 ‘ 가장 간단한 예입니다.
답변
확실한. 시도해보세요 :
skew= function (x, na.rm = FALSE) { if (na.rm) x <- x[!is.na(x)] #remove missing values sum((x - mean(x))^3)/(length(x) * sd(x)^3) #calculate skew } set.seed(12929883) x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1)) skew(x) plot(density(x))
(이미 어려운 일을했습니다!)
댓글
- 좋습니다. 좋아요. +1
- ‘은 바이 모달이 아닙니다 … 그것은 ‘ 끔찍한 멀티 -모달. 밀도를 그려보십시오.
curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
- 이러한 방식으로 생성 된 데이터는 확실히 단일 모드가 아닙니다. 코드를 잘라내어 붙여 넣기 만하면됩니다. 실제로, 정규 분포 변수의 혼합은 절대 단봉이 될 수 없습니다 (물론 혼합 비율 중 하나가 1 인 경우 제외).
- @Macro, that ‘ s 정확하지 않습니다. 예를 들어, ” 두 혼합 법선의 밀도는 평균이 최소 2로 분리되지 않는 한 바이 모달이 아니라는 잘 알려진 결과에 대해서는 Roeder 1994 (JASA)의 초록을 참조하십시오. 표준 편차 “. 이보다 작게 구분 된 경우 혼합은 단일 모드입니다.
- 당신 ‘ @guest 맞습니다. ‘ 내 게시물을 만들 때 그 가능성을 잊었습니다.