V květnu 2010 přidal uživatel Wikipedie Mcorazao větu do článku skewness , který „A nulová hodnota znamená, že hodnoty jsou relativně rovnoměrně rozloženy na obou stranách průměru, obvykle, ale ne nutně, znamenají symetrické rozdělení. “ Wiki stránka však nemá žádné skutečné příklady distribucí, které toto pravidlo porušují. Googlování „příkladu asymetrických distribucí s nulovou šikmostí“ také neposkytuje žádné skutečné příklady, alespoň v prvních 20 výsledcích.
Pomocí definice, že zkosení se vypočítá pomocí $ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \ , \ Big] $ a R vzorec
sum((x-mean(x))^3)/(length(x) * sd(x)^3)
Mohu sestavit malý , libovolné rozdělení, aby byla šikmost nízká. Například distribuce
x = c(1, 3.122, 5, 4, 1.1)
vede ke zkosení $ -5,64947 \ cdot10 ^ {- 5} $. Ale toto je malý vzorek a navíc odchylka od symetrie není velká. Je tedy možné sestrojit větší distribuci s jedním vrcholem, který je vysoce asymetrický, ale stále má téměř nulovou šikmost?
Komentáře
- Chcete, aby distribuce byla unimodální nebo ne? Název to říká, ale text tento bod stěží zmiňuje.
- @Dilip Ano, připadá mi to zajímavější, pokud by distribuce byla unimodální, protože šikmost , jako ústřední moment, nemá ‚ opravdu smysl jinak.
Odpovědět
Zvažte diskrétní distribuce. Ten, který je podporován v $ k $ hodnoty $ x_1, x_2, \ ldots, x_k $ jsou určeny nezápornými pravděpodobnostmi $ p_1 , p_2, \ ldots, p_k $ za podmínek, že (a) se sečtou k 1 a (b) koeficient šikmosti se rovná 0 (což odpovídá třetímu nulovému centrálnímu momentu). To ponechává $ k-2 $ stupně volnosti (ve smyslu řešení rovnic, nikoli statistického!). Můžeme doufat, že najdeme řešení, která jsou unimodální.
Abych usnadnil hledání příkladů, hledal jsem řešení podporovaná na malém symetrickém vektoru $ \ mathbf {x} = (- 3, -2, -1,0,1,2,3) $ s jedinečným režimem na $ 0 $ , nulový průměr a nulová šikmost. Jedním z takových řešení je $ (p_1, \ ldots, p_7) = (1396, 3286, 9586, 47386, 8781, 3930, 1235) / 75600 $ .
Vidíte, že je asymetrická.
Zde je zjevně asymetrické řešení s třídou $ \ mathbf {x} = (-3, -1,0,1,2) $ (což je asymetrické) a $ p = (1,18, 72, 13, 4) / 108 $ :
Nyní je zřejmé, o co jde: protože průměr se rovná $ 0 $ , záporné hodnoty přispívají $ (- 3) ^ 3 = -27 $ a $ 18 \ krát (- 1) ^ 3 = -18 $ do třetího okamžiku, zatímco kladné hodnoty přispívají $ 4 \ krát 2 ^ 3 = 32 $ a $ 13 \ krát 1 ^ 3 = 13 $ , přesné vyvážení záporného čísla příspěvky. Můžeme použít symetrickou distribuci kolem $ 0 $ , například $ \ mathbf {x} = (- 1,0,1 ) $ s $ \ mathbf {p} = (1,4,1) / 6 $ a posunout trochu hmoty z $ + 1 $ do $ + 2 $ , malá hmotnost z $ + 1 $ až do $ – 1 $ a mírné množství hmoty až do $ – 3 $ , přičemž se zachová průměr na $ 0 $ a šikmost na $ 0 $ , přičemž se vytvoří asymetrie . Stejný přístup bude fungovat k udržení nulové střední hodnoty a nulové šikmosti spojitého rozdělení při jeho asymetrii; pokud nejsme příliš agresivní s hromadným řazením, zůstane unimodální.
Upravit: Kontinuální distribuce
Protože problém stále přichází, pojďme dát explicitní příklad s kontinuální distribucí. Peter Flom měl dobrý nápad: podívejte se na směsi normálů. Směs dvou normálů nebude fungovat: když její šikmost zmizí, bude symetrická. Dalším nejjednodušším případem je směs tří normálů.
Směsi tří normálů po vhodné volbě umístění a měřítka závisí na šesti skutečných parametrech, a proto by měla mít více než dostatečnou flexibilitu k vytvoření asymetrického řešení s nulovou šikmostí . Abychom nějaké našli, musíme vědět, jak vypočítat šikmost směsí normálů. Mezi nimi budeme hledat všechny, které jsou unimodální (je možné, že žádné nejsou).
Nyní obecně platí $ r ^ \ text {th } $ (necentrální) moment standardního normálního rozdělení je nula, když $ r $ je lichý a jinak se rovná $ 2 ^ {r / 2} \ Gamma \ left (\ frac {1-r} {2} \ right) / \ sqrt {\ pi} $ . Když změníme měřítko standardního normálního rozdělení tak, aby mělo standardní odchylku $ \ sigma $ , $ r ^ \ text {th } $ moment se vynásobí $ \ sigma ^ r $ . Když přesuneme jakoukoli distribuci o $ \ mu $ , nový $ r ^ \ text {th} $ moment lze vyjádřit pomocí okamžiků do $ r $ včetně. Okamžik směsi distribucí (tj. Jejich vážený průměr) je stejný vážený průměr jednotlivých momentů. Nakonec je šikmost nula přesně, když je třetí centrální moment nula, a to lze snadno vypočítat z hlediska prvních tří momentů.
To nám dává algebraický útok na problém. Jedno řešení, které jsem našel, je stejná směs tří normálů s parametry $ (\ mu, \ sigma) $ rovnými $ ( 0,1) $ , $ (1 / 2,1) $ a $ (0, \ sqrt {127/18}) \ přibližně (0, 2,65623) $ . Jeho průměr se rovná $ (0 + 1/2 + 0) / 3 = 1/6 $ . Tento obrázek zobrazuje pdf modře a pdf distribuce převrácené kolem své střední hodnoty červeně. Že se liší, ukazuje, že jsou oba asymetrické. (Režim je přibližně $ 0,0519216 $ , nerovný se průměru $ 1/6 $ .) Oba mají konstrukci nulovou šikmost .
Grafy označují, že jsou unimodální. (Lokální maxima můžete vyhledat pomocí programu Calculus.)
Komentáře
- (+1) Velmi úhledná odpověď. Bude to fungovat s kontinuální distribucí? Nebylo by ‚ t přeřazení potenciálně vytvořit malé malé režimy? Možná nemyslím přímo …
- Myslíte si celkem dobře, Makro: všichni bychom měli být tak skeptičtí. Trik spočívá v přesunutí malého množství rozloženého do širokého rozmezí. Test první derivace vám umožní zkontrolovat možné režimy a poskytne také základ pro důkaz, že dostatečně drobné posuny této formy nebudou vytvářet nové režimy.
- Děkujeme za odpověď! To je podobné tomu, co jsem si intuitivně myslel, i když jsem to nemohl dobře vyjádřit slovy – musíte “ vyvážit “ hmotnost na každé straně distribuce. Zajímalo by mě, jestli existují stereotypní způsoby, jak lze provést tento vyvažovací čin.
- Jedním ze způsobů, Andy, je začít s diskrétním řešením a poté jej spojit s normálním rozdělením. V tomto případě požadavek unimodality vynutí, aby toto normální rozdělení mělo velkou směrodatnou odchylku. I přesto, pokud konvoluce znatelně nezmění požadované vlastnosti (například nulovou šikmost) nebo ji změní předvídatelným způsobem, máte matematický popis problému. V určitém smyslu lze moji nedávnou úpravu považovat za takový útok, i když nejde ‚ o striktní konvoluci (protože tři normály mají různé standardní odchylky).
- Zkontroloval jsem, Andy: konvoluce diskrétního řešení s normálním rozdělením nezmění šikmost. Když tomuto normálnímu rozdělení dáte standardní odchylku kolem 0,57 nebo vyšší, bude výsledek unimodální. Stejně jako základní diskrétní rozdělení má i nadále nulovou střední hodnotu, nulovou šikmost a je asymetrický. Smícháním tohoto se standardním normálním rozdělením se dosáhne řízeného pohybu hmoty mezi standardním normálním a diskrétním rozdělením: to by mohlo splnit váš požadavek na “ stereotypní “ metoda.
Odpověď
Zde je jedna, kterou jsem našel na https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html # , které považuji za pěkné a reprodukované v R: inverzní Burr nebo Dagumovo rozdělení s tvarovými parametry $ k = 0,0629 $ a $ c = 18,1484 $:
$$ g (x) = ckx ^ {- (c + 1)} [1 + x ^ {- c}] ^ {- (k + 1)} $$
Má průměr 0.5387, směrodatná odchylka 0,2907, šikmost 0,0000 a špičatost 2,0000. Zdroj jej také nazývá „distribuce slonů“:
Moje reprodukce v R byla vytvořena pomocí
library(actuar) library(knotR) # a nonsymmetric distribution with zero skewness # see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html# c <- 18.1484 k <- 0.0629 x <- seq(0,1.5,by=.0001) elephant.density <- dinvburr(x, k, c) plot(x,elephant.density, type="l") polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey") points(0.8,0.8, pch=19, cex=2) # "ears" created via https://www.desmos.com/calculator/cahqdxeshd ear.x <- c(0.686, 0.501, 0.42, 0.68) ear.y <- c(0.698, 0.315, 1.095, 0.983) myseg(bezier(cbind(ear.x, ear.y)), type="l") EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k) EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k) (skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196
Jak ukazuje tento výstup, šikmost je ne zcela nula až čtyři číslice pro tyto hodnoty parametrů. Zde je malý optimalizátor pro $ k $ a $ c $:
# optimize skewness a bit further skewval <- 1 while (skewval > 10^(-10)){ optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c) skewval <- optskew.k$f.root k <- optskew.k$root optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k) skewval <- optskew.c$f.root c <- optskew.c$root }
výtěžek
> print(c) [1] 18.89306 > print(k) [1] 0.05975542 > print(skewval) [1] -1.131464e-15
Komentáře
- Děkujeme za úpravy. To znamená, že jsem nemohl reprodukovat šikmost 0,0000 až čtyři číslice, místo toho jsem získal 0,0001245138 (viz další úprava v kódu R).
- Pravděpodobně lze spustit jednoduchý optimalizátor, který najde $ c $ a $ Hodnoty k $ tak, aby se šikmost co nejvíce blížila nule. Mělo by to být pár dalších řádků nebo snad dokonce jeden. Ve svém posledním řádku již máte analyticky spočítanou funkci ztráty, existuje v R vhodný generický optimalizátor?
- Ve skutečnosti 0,0003756196. 0,0001245138 již bylo po nějaké počáteční optimalizaci, která byla zde uvedena omylem. Podívám se.
- @amoeba, trochu jsem se pokusil optimalizovat, ale nedělám žádné tvrzení, že jsem to udělal chytře, s optimalizací mám jen málo zkušeností.
- Myslel jsem, že ‚ s nula až tři číslice (téměř čtyři); ‚ není to jako přesnější hodnota, bude to vypadat jinak. Pokud v této blízkosti překročí šikmost a je ‚ jasné, jakými směry vyladit hodnoty, pokud je potřeba větší přesnost, domnívám se, že ‚ s dostatečné. Ale sláva pro další úsilí. (Mimochodem, ‚ je to krásný příklad.)
Odpověď
Zvažte rozdělení na kladnou polovinu reálné čáry, které se lineárně zvyšuje od 0 do režimu a poté je exponenciální vpravo od režimu, ale je v režimu spojité.
To by mohlo být nazýván trojúhelníkovou exponenciální distribucí (i když často vypadá trochu jako žraločí ploutev).
Nechť $ \ theta $ je umístění režimu a $ \ lambda $ je parametr rychlosti exponenciální.
S nárůstem $ \ lambda \ theta $ se distribuce postupně zmenšuje. Jak se $ \ lambda \ theta $ zvyšuje kolem $ \ přibližně 6,15 $, třetí okamžik přechází z kladného na záporný:
Brizzi (2006) $ ^ {[1]} $ označuje tuto rodinu distribucí jako distribuci „dvou tváří“ a diskutuje tento bod přechodu, kde je šikmost třetího momentu nulová. von Hippel (2005) $ ^ {[2]} $ představuje příklad, který je téměř v tomto bodě přechodu zde
Vlákno Neobvyklá distribuce s nulovou šikmostí a nulovou nadměrnou špičatostí? má několik asymetrických příkladů, včetně malého samostatného příkladu a dalšího spojitého unimodálního:
Diskrétní unimodální distribuce – nebo ekvivalentně, vzorky – s nulovou šikmostí je poměrně snadné vytvořit, velké nebo malé velikosti.
Zde je příklad, se kterým můžete zacházet jako se vzorkem nebo (dělením hrubých frekvencí o 3000) jako pmf ( hodnoty „x“ jsou převzaté hodnoty, „n“ je počet výskytů hodnoty ve vzorku):
x: -2 -1 0 1 2 3 4 5 6 7 8 9 10 n: 496 498 562 1434 2 1 1 1 1 1 1 1 1
Tento příklad je sestaven tříbodové distribuce:
x: -2 1 c n: c(c-1)(c+1)/6 c(c-1)(c+1)/3 - c 1
napříč různými hodnotami $ c $ mezi 3 a 10. Tento parametr (o $ c $) 3-bodový „atom“ „má $ \ sum_i n_ix_i = 0 $ a $ \ sum_i n_ix_i ^ 3 = 0 $, což zase znamená, že směsi napříč různými možnostmi $ c $ mají nulovou šikmost. (Nemůžete „udělat nic menšího než rozdělení ve třech bodech, které má asymetrii a třetí centrální moment nula. Sbírka jednoduchých kousků pouze za několik bodů, jako jsou tyto, tvoří úhledné stavební bloky, ze kterých lze vytvářet větší struktury.)
Existuje celá řada dalších takových „atomů“, které lze zkonstruovat, ale tento příklad používá pouze tento jeden druh. K nějaké kombinaci atomů, jako jsou tyto, se přidá několik symetricky umístěných hodnot k vyplnění zbývajících děr a zaručit unimodalitu bez zničení struktury střední a třetí chvíle.
$ [1] $ Brizzi, M.(2006),
„Šikmý model kombinující trojúhelníkové a exponenciální rysy: rozdělení dvou tváří a jeho statistické vlastnosti“
Rakouský statistický věstník , 35 : 4, p455–462
http://www.stat.tugraz.at/AJS/ausg064/
$ [2] $ von Hippel, PT (2005),
„Mean, Median a Skew: Oprava pravidla učebnice“
Journal of Statistics Education Volume 13, Číslo 2,
http://ww2.amstat.org/publications/jse/v13n2/vonhippel.html
Komentáře
- Dalo by se to snad nazvat “ Shark-fin „?
- @Glen_b Totálně Shark-fin.
Odpověď
Pro nulovou šikmost potřebujeme $$ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = 0 $$ nebo ekvivalentně $$ \ operatorname {E} \ Big [ \ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ leq \ mu \ Big] + \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ gt \ mu \ Big] = 0. $$
Nyní pro daný průměr a rozptyl vyberte libovolné dvě distribuce $ Y $ a $ Z $ s nulovou hmotností na pravé straně $ \ mu $ a $$ \ operatorname {E} \ Big [\ big (\ tfrac {Y- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = \ operatorname {E} \ Big [ \ big (\ tfrac {Z- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] $$ a definovat $ X $ tak, aby odpovídalo $ Y $, pokud zbylo z $ \ mu $ a $ (\ mu – Z) $ jinak. (Neznáte přesnou notaci, kdokoli vám pomůže?)
Výsledná distribuce bude unimodální, pokud se PDF $ Y $ a $ Z $ zvětší nalevo od $ \ mu $ (kromě toho, že je nula napravo od $ \ mu $).
Komentáře
- Jak zaručujete unimodální distribuci?
- Děkujeme, že jste na to upozornili. Soubory PDF $ Y $ a $ Z $ se budou muset přísně zvyšovat až do $ \ mu $ a poté klesnout na nulu.
- Toto je správný nápad, ale stále to vyžaduje nějakou práci, protože $ \ sigma $ se může změnit při kombinaci $ Y $ a $ Z $.
- @whuber: Sakra. Věděl jsem, že měl být nějakým úskalím … 🙂
Odpověď
Následující diskrétní distribuce je asymetrická a null šikmost: Prob (-4) = 1/3, Prob (1) = 1/2, Prob (5) = 1/6. Našel jsem ji v článku Doric et al., Qual Quant (2009) 43: 481 -493; DOI 10.1007 / s11135-007-9128-9
Komentáře
- +1 Zkontroluje a je ‚ unimodální. To je ‚ nejjednodušší možný příklad.
Odpověď
Tak určitě. Vyzkoušejte toto:
skew= function (x, na.rm = FALSE) { if (na.rm) x <- x[!is.na(x)] #remove missing values sum((x - mean(x))^3)/(length(x) * sd(x)^3) #calculate skew } set.seed(12929883) x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1)) skew(x) plot(density(x))
(Tvrdé věci jste již provedli!)
Komentáře
- hezké, líbí se mi to. +1
- To ‚ to není bimodální … to ‚ s příšerně multi -modální. Zkuste vykreslit hustotu;
curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
- Takto generovaná data rozhodně nejsou unimodální. Vše, co musíte udělat, abyste viděli, že je vyjmutí a vložení kódu, doslovně. Směs normálně distribuovaných proměnných nikdy nebude unimodální (pokud samozřejmě jeden z proporcí směsi není 1).
- @Macro, že ‚ s nesprávné. Viz například abstrakt Roedera 1994 (JASA) o známém výsledku, že “ hustota dvou smíšených normálů není bimodální, pokud nejsou prostředky odděleny alespoň 2 standardní odchylky „. Pokud jsou od sebe odděleny menší než toto, směs je unimodální.
- Máte ‚ pravdu @ host. Když jsem zveřejnil svůj příspěvek, ‚ jsem na tuto možnost zapomněl