2010年5月、ウィキペディアのユーザーMcorazaoは、歪度の記事に「Aゼロ値は、値が平均の両側に比較的均等に分布していることを示します。通常、必ずしも対称的な分布を意味するわけではありません。」ただし、wikiページには、このルールに違反するディストリビューションの実際の例はありません。 「歪度がゼロの非対称分布の例」をグーグルで検索しても、少なくとも最初の20の結果では、実際の例は得られません。
スキューが$ \ operatorname {E} \ Big [\ big(\ tfrac {X- \ mu} {\ sigma} \ big)^ {\!3} \によって計算されるという定義を使用する、\ Big] $、および R式
sum((x-mean(x))^3)/(length(x) * sd(x)^3)
小さいものを作成できます、歪度を低くするための任意の分布。たとえば、分布
x = c(1, 3.122, 5, 4, 1.1)
は、$-5.64947 \ cdot10 ^ {-5} $のスキューを生成します。しかし、これは小さなサンプルであり、さらに対称性からの偏差は大きくありません。それで、非常に非対称であるが、それでも歪度がほぼゼロである1つのピークでより大きな分布を構築することは可能ですか?
コメント
- ディストリビューションをユニモーダルにしますか?タイトルにはそのように書かれていますが、テキストではこの点についてほとんど言及されていません。
- @Dilipはい、歪度があるため、分布が単峰性である場合は、より興味深いと思います。 、中心モーメントとして、’それ以外の場合は実際には意味がありません。
回答
個別の分布を検討してください。 $でサポートされている分布k $ の値
例の検索を容易にするために、小さな対称ベクトル $ \ mathbf {x}でサポートされる解を探しました。 =(-3、-2、-1,0,1,2,3)$ 、 $ 0 $ 、平均ゼロ、および歪度ゼロ。そのような解決策の1つは、 $(p_1、\ ldots、p_7)=(1396、3286、9586、47386、8781、3930、1235)/ 75600 $ です。
非対称であることがわかります。
ここでは、 $ \ mathbf {x} =(-3、-1,0,1,2)$ (非対称)および $ p =(1,18、72、13、4)/ 108 $ :
これで、何が起こっているのかがわかります:平均は
編集:連続分布
問題が引き続き発生するため、連続分布の明示的な例。ピーターフロムは良い考えを持っていました:法線の混合物を見てください。 2つの法線の混合は機能しません。歪度がなくなると、対称になります。次の最も単純なケースは、3つの法線の混合です。
3つの法線の混合は、場所とスケールを適切に選択した後、 6つの実際のパラメータに依存するため、非対称の歪度ゼロのソリューションを生成するのに十分な柔軟性が必要です。 。いくつかを見つけるには、法線の混合の歪度を計算する方法を知る必要があります。これらの中から、単峰性のものを検索します(存在しない可能性があります)。
これで、一般的に、 $ r ^ \ text {th $ r $ が奇数の場合、標準正規分布の} $ (非中心)モーメントはゼロであり、それ以外の場合は $ 2 ^ {r / 2} \ Gamma \ left(\ frac {1-r} {2} \ right)/ \ sqrt {\ pi} $ 。その標準正規分布を再スケーリングして、標準偏差が $ \ sigma $ になると、 $ r ^ \ text {th } $ モーメントに
これにより、問題に対する代数的攻撃が得られます。私が見つけた解決策の1つは、パラメーター $(\ mu、\ sigma)$ が
プロットは、これらが単峰性であることを示しています。 (微積分を使用して極大値を見つけることができます。)
コメント
- (+ 1)非常に巧妙な答え。しかし、これは継続的な配布で機能しますか? ‘シフトによって小さなモードが作成される可能性はありませんか?私はまっすぐに考えていないかもしれません…
- あなたは’よく考えています、マクロ:私たちは皆とても懐疑的でなければなりません。秘訣は、広範囲に広がる少量をシフトすることです。一次微分テストを使用すると、可能なモードを確認できます。また、この形式の小さなシフトが十分に新しいモードを生成しないという証拠の基礎を提供します。 li>
- 回答ありがとうございます!これは私が直感的に考えていたものと似ていますが、’言葉でうまく表現できませんでした。つまり、”のバランスを取る必要があります。 “分布の両側の質量。このバランスをとる行為を実行できるステレオタイプの方法があるかどうか疑問に思います。
- 1つの方法、Andyは、離散解から始めて、それを正規分布で畳み込むことです。この場合、単峰性の要件により、その正規分布に大きな標準偏差が強制されます。それでも、畳み込みが必要なプロパティ(歪度ゼロなど)をそれほど変更しない場合、または予測可能な方法で変更する場合は、問題を数学的に処理できます。 ‘は厳密には畳み込みではありませんが(3つの法線の標準偏差が異なるため)、ある意味で最近の編集はそのような攻撃と見なすことができます。
- 私はチェックしました、アンディ:正規分布で離散解を畳み込むことは歪度を変えません。その正規分布に約0.57以上の標準偏差を与えると、結果は単峰性になります。基礎となる離散分布と同様に、平均も歪度もゼロであり、非対称であり続けます。これを標準正規分布と混合すると、標準正規分布と離散分布の間で質量の移動が制御されます。これにより、”ステレオタイプメソッド。
回答
これが https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html#これはRで再現されています。形状パラメーターが$ k = 0.0629 $および$ cの逆バリ分布またはダガム分布です。 = 18.1484 $:
$$ g(x)= ckx ^ {-(c + 1)} [1 + x ^ {-c}] ^ {-(k + 1)} $$
平均0です。5387、標準偏差0.2907、歪度0.0000、尖度2.0000。ソースはそれを「象の分布」とも呼んでいます:
Rでの私の複製は、
library(actuar) library(knotR) # a nonsymmetric distribution with zero skewness # see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html# c <- 18.1484 k <- 0.0629 x <- seq(0,1.5,by=.0001) elephant.density <- dinvburr(x, k, c) plot(x,elephant.density, type="l") polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey") points(0.8,0.8, pch=19, cex=2) # "ears" created via https://www.desmos.com/calculator/cahqdxeshd ear.x <- c(0.686, 0.501, 0.42, 0.68) ear.y <- c(0.698, 0.315, 1.095, 0.983) myseg(bezier(cbind(ear.x, ear.y)), type="l") EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k) EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k) (skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196
で作成されました。この出力が示すように、歪度はこれらのパラメーター値は、0から4桁ではありません。 $ k $と$ c $の小さなオプティマイザーは次のとおりです。
# optimize skewness a bit further skewval <- 1 while (skewval > 10^(-10)){ optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c) skewval <- optskew.k$f.root k <- optskew.k$root optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k) skewval <- optskew.c$f.root c <- optskew.c$root }
歩留まり
> print(c) [1] 18.89306 > print(k) [1] 0.05975542 > print(skewval) [1] -1.131464e-15
コメント
- 編集していただきありがとうございます。とはいえ、0.0000から4桁の歪度を再現できず、代わりに0.0001245138を取得しました(Rコードの次の編集を参照)。
- 単純なオプティマイザーを実行して$ c $と$を見つけることができます。歪度が可能な限りゼロに近くなるようなk $値。それは、2、3行、またはおそらく1行である必要があります。最後の行ですでに損失関数が分析的に計算されていますが、Rに適切な汎用オプティマイザーはありますか?
- 実際には、0.0003756196です。 0.0001245138はすでにいくつかの初期最適化の後であり、ここで誤って与えられました。見ていきます。
- @amoeba、少し最適化を試みましたが、巧妙な方法でそれを行ったとは主張していません。最適化の経験はほとんどありません。
- ‘の0から3桁(ほぼ4桁)の歪度は私の心に十分でした。 ‘は、より正確な値とは異なり、見た目が異なります。その付近で歪度がゼロを超え、’より正確さが必要な場合に値を微調整する方向が明確になる場合は、’で十分です。しかし、追加の努力に対する称賛。 (ちなみに、’素敵な例です。)
回答
実数直線の正の半分で、0からモードまで直線的に増加し、モードの右側で指数関数的になりますが、モードでは連続である分布を考えます。
これは可能性があります。三角指数分布と呼ばれます(ただし、フカヒレのように見えることがよくあります)。
$ \ theta $をモードの位置とし、$ \ lambda $をレートパラメーターとします。指数関数的です。
$ \ lambda \ theta $が増加すると、分布のスキューは次第に少なくなります。 $ \ lambda \ theta $が$ \ upperx 6.15 $を超えて増加すると、3次モーメントが正から負に交差します:
Brizzi(2006)$ ^ {[1]} $は、この分布のファミリーを「2面」分布と呼び、説明します。 3次モーメントの歪度がゼロであるこのクロスオーバーポイント。 von Hippel(2005)$ ^ {[2]} $は、ほぼそのクロスオーバーポイントにある例を示していますここ
スレッド歪度がゼロで過剰尖度がゼロの非正規分布?には、小さな離散例や別の連続単峰性例など、非対称の例がいくつかあります。
離散単峰性分布-または同等に、サンプル-歪度がゼロの場合、サイズが大きい場合も小さい場合も、非常に簡単に作成できます。
これは、サンプルとして、または(生の周波数を3000で除算することにより)pmf( 「x」の値は取得された値であり、「n」はその値がサンプルで発生する回数です):
x: -2 -1 0 1 2 3 4 5 6 7 8 9 10 n: 496 498 562 1434 2 1 1 1 1 1 1 1 1
この例はfで構成されていますrom 3点分布:
x: -2 1 c n: c(c-1)(c+1)/6 c(c-1)(c+1)/3 - c 1
3から10までの$ c $のさまざまな値全体。これは($ c $によって)パラメーター化された3点 “原子”には$ \ sum_i n_ix_i = 0 $と$ \ sum_i n_ix_i ^ 3 = 0 $があります。これは、$ c $のさまざまな選択肢にわたる混合のスキューがゼロであることを意味します。 (非対称性と3番目の中心モーメントがゼロである3点にわたる分布よりも小さいものを作成することはできません。これらのような、ほんの数点にわたる単純なピースのコレクションは、より大きな構造を作成できるきちんとしたビルディングブロックを作成します。)
構築できるこのような「原子」は他にもいろいろありますが、この例ではこの1種類のみを使用しています。このような原子の組み合わせに、対称的に配置されたいくつかの値を追加して、残りの穴を埋めます。平均および三次モーメントの構造を破壊することなく、単峰性を保証します。
$ [1] $ Brizzi、M。(2006)、
「三角形と指数関数を組み合わせた歪んだモデル:両面分布とその統計的特性」
Australia Journal of Statistics 、 35 :4、p455–462
http://www.stat.tugraz.at/AJS/ausg064/
$ [2] $ von Hippel、PT(2005)、
“Mean、Median、and Skew:Correcting a Textbook Rule”
Journal of Statistics Education Volume 13番号2、
http://ww2.amstat.org/publications/jse/v13n2/vonhippel.html
コメント
- 多分それを”シャークフィン”と呼ぶことができますか?
- @Glen_b確かに完全にシャークフィンです。
回答
歪度をゼロにするには、$$ \ operatorname {E}が必要です。 \ Big [\ big(\ tfrac {X- \ mu} {\ sigma} \ big)^ {\!3} \、\ Big] = 0 $$または、同等に、$$ \ operatorname {E} \ Big [ \ big(\ tfrac {X- \ mu} {\ sigma} \ big)^ {\!3} \、\ Big | X \ leq \ mu \ Big] + \ operatorname {E} \ Big [\ big(\ tfrac {X- \ mu} {\ sigma} \ big)^ {\!3} \、\ Big | X \ gt \ mu \ Big] = 0。$$
ここで、与えられた平均と分散について、$ \ muの右側に質量がゼロの任意の2つの分布$ Y $と$ Z $を選択します。 $および$$ \ operatorname {E} \ Big [\ big(\ tfrac {Y- \ mu} {\ sigma} \ big)^ {\!3} \、\ Big] = \ operatorname {E} \ Big [ \ big(\ tfrac {Z- \ mu} {\ sigma} \ big)^ {\!3} \、\ Big] $$そして、$ \ mu $と$の左側にある場合は$ Y $と一致するように$ X $を定義します(\ mu-Z)$それ以外の場合。 (これの正確な表記法がわからない、誰か助けてくれませんか?)
$ Y $と$ Z $のPDFが$ \ muの左側で増加している場合、結果の分布は単峰性になります$($ \ mu $の右側がゼロであることに加えて)。
コメント
- 分布が単峰性であることをどのように保証しますか?
- これを指摘していただきありがとうございます。$ Y $と$ Z $のPDFは$ \ mu $まで厳密に増加し、その後ゼロに低下する必要があります。
- これは正しいアイデアですが、$ Y $と$ Z $を組み合わせると$ \ sigma $が変わる可能性があるため、まだ作業が必要です。
- @whuber:くそー。あったいくつかの落とし穴になります… 🙂
回答
次の離散分布は非対称であり、nullがあります歪度:Prob(-4)= 1/3、Prob(1)= 1/2、Prob(5)= 1 /6。Doricetal。、Qual Quant(2009)43:481の論文で見つけました。 -493; DOI 10.1007 / s11135-007-9128-9
コメント
- +1チェックアウトして’は単峰性です。これは、’最も単純な例です。
回答
承知しました。これを試してください:
skew= function (x, na.rm = FALSE) { if (na.rm) x <- x[!is.na(x)] #remove missing values sum((x - mean(x))^3)/(length(x) * sd(x)^3) #calculate skew } set.seed(12929883) x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1)) skew(x) plot(density(x))
(あなたはすでに難しいことをしました!)
コメント
- いいですね、気に入っています。 +1
- ‘はバイモーダルではありません… ‘恐ろしくマルチ-モーダル。密度をプロットしてみてください。
curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
- この方法で生成されたデータは、確かに単峰性ではありません。それを確認するために必要なことは、コードを逐語的にカットアンドペーストすることだけです。実際、正規分布変数の混合が単峰性になることはありません(もちろん、混合比率の1つが1でない限り)。
- @ Macro、that ‘ s正しくありません。たとえば、” 2つの混合法線の密度は、平均が少なくとも2離れていない限り、二峰性ではないというよく知られた結果については、Roeder 1994(JASA)の要約を参照してください。標準偏差”。これらの間隔がこれより少ない場合、混合は単峰性です。
- あなたは’正しい@guestです。 ‘投稿したときに、その可能性を忘れていました