Czy ktoś może podać przykład unimodalnego rozkładu, który ma zerową skośność, ale nie jest symetryczny?

W maju 2010 r. użytkownik Wikipedii, Mcorazao, dodał zdanie do artykułu o skośności , że „A wartość zerowa wskazuje, że wartości są stosunkowo równomiernie rozłożone po obu stronach średniej, zazwyczaj, ale niekoniecznie, implikuje symetryczny rozkład. ” Jednak strona wiki nie zawiera rzeczywistych przykładów dystrybucji, które łamią tę zasadę. Wyszukiwanie w Google „przykładowe asymetryczne rozkłady z zerową skośnością” również nie daje żadnych rzeczywistych przykładów, przynajmniej w pierwszych 20 wynikach.

Używając definicji, że pochylenie jest obliczane przez $ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \ , \ Big] $ i formuła R

sum((x-mean(x))^3)/(length(x) * sd(x)^3) 

Potrafię utworzyć małą , arbitralny rozkład, aby zmniejszyć skośność. Na przykład rozkład

x = c(1, 3.122, 5, 4, 1.1) 

daje pochylenie -5,64947 $ \ cdot10 ^ {- 5} $. Ale to mała próbka, a ponadto odchylenie od symetrii nie jest duże. Czy można więc skonstruować większy rozkład z jednym pikiem, który jest wysoce asymetryczny, ale nadal ma skośność prawie zerową?

Komentarze

  • Czy chcesz, aby dystrybucja była unimodalna, czy nie? Tytuł tak mówi, ale tekst prawie nie wspomina o tym punkcie.
  • @Dilip Tak, ' uznałbym to za bardziej interesujące, gdyby dystrybucja była jednomodalna, ponieważ skośność w centralnym momencie nie ' nie ma to sensu inaczej.

Odpowiedz

Weź pod uwagę dystrybucje dyskretne. Jeden obsługiwany w $ wartości k $ $ x_1, x_2, \ ldots, x_k $ jest określane przez nieujemne prawdopodobieństwa $ p_1 , p_2, \ ldots, p_k $ pod warunkiem, że (a) sumują się do 1 i (b) współczynnik skośności jest równy 0 (co odpowiada trzeciemu środkowemu momentowi równemu zero). To pozostawia $ k-2 $ stopni swobody (w sensie rozwiązywania równań, a nie statystycznym!). Możemy mieć nadzieję na znalezienie rozwiązań, które są unimodalne.

Aby ułatwić wyszukiwanie przykładów, szukałem rozwiązań obsługiwanych na małym symetrycznym wektorze $ \ mathbf {x} = (- 3, -2, -1,0,1,2,3) $ z unikalnym trybem przy 0 $ $ , zerowej średniej i zero skośności. Jednym z takich rozwiązań jest $ (p_1, \ ldots, p_7) = (1396, 3286, 9586, 47386, 8781, 3930, 1235) / 75600 $ .

Funkcja prawdopodobieństwa

Możesz zobaczyć, że jest asymetryczna.

Oto bardziej oczywiste rozwiązanie asymetryczne z klasą $ \ mathbf {x} = (-3, -1,0,1,2) $ (asymetryczny) i $ p = (1,18, 72, 13, 4) / 108 $ :

Funkcja prawdopodobieństwa 2

Teraz jest oczywiste, co się dzieje: , ponieważ średnia wynosi 0 $ , wartości ujemne składają się na $ (- 3) ^ 3 = -27 $ i 18 $ \ times (- 1) ^ 3 = -18 $ do trzeciego momentu, podczas gdy wartości dodatnie przyczyniają się do $ 4 \ times 2 ^ 3 = 32 $ i 13 $ \ times 1 ^ 3 = 13 $ , dokładnie równoważąc minus składki. Możemy przyjąć dystrybucję symetryczną około $ 0 $ , na przykład $ \ mathbf {x} = (- 1,0,1 ) $ z $ \ mathbf {p} = (1,4,1) / 6 $ i przesuń trochę masę z $ + 1 $ do $ + 2 $ , trochę masy z $ + 1 aż do $ – 1 $ i niewielka ilość do $ – 3 $ , utrzymując średnią na poziomie 0 $ i skośność na 0 $ , jednocześnie tworząc asymetrię . To samo podejście będzie działać w celu utrzymania zerowej średniej i zerowej skośności ciągłego rozkładu, jednocześnie czyniąc go asymetrycznym; jeśli „nie będziemy zbyt agresywni w przenoszeniu masy, pozostanie ono unimodalne.


Edycja: ciągłe dystrybucje

Ponieważ problem wciąż się pojawia, dajmy wyraźny przykład z ciągłymi dystrybucjami. Peter Flom miał dobry pomysł: spójrz na mieszaninę normalnych. Mieszanka dwóch normalnych nie da rady: kiedy zniknie jej skośność, będzie symetryczna. Następny najprostszy przypadek to mieszanka trzech normalnych.

Mieszaniny trzech normalnych, po odpowiednim wyborze lokalizacji i skali, zależą od sześciu rzeczywistych parametrów i dlatego powinny mieć więcej niż wystarczającą elastyczność, aby uzyskać asymetryczne rozwiązanie o zerowej skośności . Aby je znaleźć, musimy wiedzieć, jak obliczyć skośności mieszanin normalnych. Wśród nich będziemy szukać tych, które są unimodalne (możliwe, że ich nie ma).

Ogólnie rzecz biorąc, $ r ^ \ text {th } $ (niecentralny) moment standardowego rozkładu normalnego wynosi zero, gdy $ r $ jest nieparzysty, a poza tym jest równy $ 2 ^ {r / 2} \ Gamma \ left (\ frac {1-r} {2} \ right) / \ sqrt {\ pi} $ . Kiedy przeskalujemy tę standardową dystrybucję normalną, aby miała odchylenie standardowe $ \ sigma $ , $ r ^ \ text {th } $ moment jest mnożony przez $ \ sigma ^ r $ . Kiedy przesuwamy jakąkolwiek dystrybucję o $ \ mu $ , nowy $ r ^ \ text {th} $ moment można wyrazić w kategoriach momentów do $ r $ włącznie. Moment mieszaniny rozkładów (czyli średniej ważonej z nich) jest tą samą średnią ważoną z poszczególnych momentów. Wreszcie, skośność wynosi zero dokładnie wtedy, gdy trzeci centralny moment jest równy zero i można to łatwo obliczyć w kategoriach pierwszych trzech momentów.

To daje nam algebraiczny atak na problem. Jednym z rozwiązań, które znalazłem, jest równa mieszanina trzech normalnych z parametrami $ (\ mu, \ sigma) $ równymi $ ( 0,1) $ , $ (1 / 2,1) $ i $ (0, \ sqrt {127/18}) \ approx (0, 2,65623) $ . Jego średnia wynosi $ (0 + 1/2 + 0) / 3 = 1/6 $ . Ten obraz przedstawia plik PDF w kolorze niebieskim, a plik PDF dystrybucji odwrócony wokół średniej na czerwono. To, że się różnią, pokazuje, że oba są asymetryczne. (Tryb to w przybliżeniu 0,0519216 $ , nierówny średniej wartości $ 1/6 $ ). Oba mają zerową skośność konstrukcyjną .

Przykłady ciągłe

Wykresy wskazują, że są one unimodalne. (Możesz sprawdzić używając Calculusa, aby znaleźć lokalne maksima.)

Komentarze

  • (+1) Bardzo zręczna odpowiedź. Czy to jednak zadziała z ciągłymi dystrybucjami? Czy nie ' czy zmiana biegów nie stworzyłaby potencjalnie małych trybów? Być może nie myślę jasno …
  • Ty ' myślisz całkiem dobrze, Makro: wszyscy powinniśmy być tak sceptyczni. Sztuczka polega na przesunięciu niewielkich ilości w szerokich zakresach. Test pierwszej pochodnej umożliwi sprawdzenie możliwych trybów, a także stanowi podstawę dowodu, że dostatecznie niewielkie przesunięcia w tym formularzu nie wytworzą nowych modów.
  • Dzięki za odpowiedź! Jest to podobne do tego, o czym myślałem intuicyjnie, chociaż nie mogłem ' dobrze ująć tego słowami – że musisz ” zrównoważyć ” masa po każdej stronie rozkładu. Sprawia, że zastanawiam się, czy istnieją stereotypowe sposoby wykonywania tego równoważenia.
  • Jednym ze sposobów, Andy, jest rozpoczęcie od dyskretnego rozwiązania, a następnie połączenie go z rozkładem normalnym. W takim przypadku wymóg jednomodalności wymusi na rozkładzie normalnym duże odchylenie standardowe. Mimo to, jeśli splot nie zmienia w znaczący sposób wymaganych właściwości (takich jak zerowa skośność) lub zmienia je w przewidywalny sposób, masz matematyczne podejście do problemu. W pewnym sensie moja ostatnia edycja może być postrzegana jako taki atak, chociaż ' nie jest ściśle splotem (ponieważ te trzy normalne mają różne odchylenia standardowe).
  • Sprawdziłem, Andy: splot rozwiązania dyskretnego z rozkładem normalnym nie zmienia skośności. Kiedy dasz temu rozkładowi normalnemu odchylenie standardowe około 0,57 lub większe, wynik jest jednomodalny. Podobnie jak podstawowy rozkład dyskretny, nadal ma zerową średnią, zerową skośność i jest asymetryczny. Wymieszanie tego ze standardowym rozkładem normalnym daje kontrolowany ruch masy między standardowym rozkładem normalnym a rozkładem dyskretnym: to może spełnić twoją prośbę o ” stereotypowy „.

Odpowiedź

Oto jedna, którą znalazłem w https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html # , które uważam za ładne i odtworzone w R: odwrotny rozkład Burra lub Daguma z parametrami kształtu $ k = 0,0629 $ i $ c = 18,1484 $:

$$ g (x) = ckx ^ {- (c + 1)} [1 + x ^ {- c}] ^ {- (k + 1)} $$

To oznacza 0.5387, odchylenie standardowe 0,2907, skośność 0,0000 i kurtooza 2,0000. Źródło nazywa to również „dystrybucją słoni”: tutaj wprowadź opis obrazu

Moja reprodukcja w R została utworzona za pomocą

 library(actuar) library(knotR) # a nonsymmetric distribution with zero skewness # see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html# c <- 18.1484 k <- 0.0629 x <- seq(0,1.5,by=.0001) elephant.density <- dinvburr(x, k, c) plot(x,elephant.density, type="l") polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey") points(0.8,0.8, pch=19, cex=2) # "ears" created via https://www.desmos.com/calculator/cahqdxeshd ear.x <- c(0.686, 0.501, 0.42, 0.68) ear.y <- c(0.698, 0.315, 1.095, 0.983) myseg(bezier(cbind(ear.x, ear.y)), type="l") EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k) EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k) (skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196  

Jak widać na tym wyjściu, skośność jest niezupełnie od zera do czterech cyfr dla tych wartości parametrów. Oto mały optymalizator dla $ k $ i $ c $:

 # optimize skewness a bit further skewval <- 1 while (skewval > 10^(-10)){ optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c) skewval <- optskew.k$f.root k <- optskew.k$root optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k) skewval <- optskew.c$f.root c <- optskew.c$root } 

yielding

> print(c) [1] 18.89306 > print(k) [1] 0.05975542 > print(skewval) [1] -1.131464e-15 

Komentarze

  • Dziękujemy za zmianę. To powiedziawszy, nie mogłem odtworzyć skośności od 0,0000 do czterech cyfr, otrzymując zamiast tego 0,0001245138 (patrz następna edycja w kodzie R).
  • Prawdopodobnie można uruchomić prosty optymalizator, aby znaleźć $ c $ i $ wartości k $ takie, aby skośność była jak najbliższa zeru. Powinno to być kilka dodatkowych linii, a może nawet jedna. Masz już obliczoną analitycznie funkcję straty w ostatniej linii. Czy w R jest odpowiedni ogólny optymalizator?
  • Właściwie 0,0003756196. 0,0001245138 było już po początkowej optymalizacji, podanej tutaj przez pomyłkę. Popatrzę.
  • @amoeba, próbowałem trochę zoptymalizować, ale nie twierdzę, że zrobiłem to w sprytny sposób, mam niewielkie doświadczenie w optymalizacji.
  • Skośność, że ' od zera do trzech cyfr (prawie czterech) była dla mnie wystarczająca; ' nie jest tak, że dokładniejsza wartość sprawi, że będzie wyglądać inaczej. Jeśli skośność przekroczy zero w tym sąsiedztwie i ' będzie jasne, w jakich kierunkach należy dostosować wartości, jeśli potrzebna jest większa dokładność, sądzę, że ' s wystarczające. Ale chwała za dodatkowy wysiłek. (Nawiasem mówiąc, to ' piękny przykład).

Odpowiedź

Rozważ rozkład na dodatniej połowie prostej rzeczywistej, który rośnie liniowo od 0 do modu, a następnie jest wykładniczy na prawo od modu, ale jest ciągły w trybie.

Może to można nazwać rozkładem trójkątno-wykładniczym (choć często wygląda trochę jak płetwa rekina).

Niech $ \ theta $ będzie lokalizacją modu, a $ \ lambda $ będzie parametrem szybkości wykładniczy.

W miarę jak $ \ lambda \ theta $ rośnie, rozkład staje się stopniowo mniej pochylony. Gdy $ \ lambda \ theta $ rośnie powyżej $ \ około 6,15 $, trzeci moment przechodzi z dodatniej na ujemną:

Trójkątny-wykładniczy z zerową skośnością

Brizzi (2006) $ ^ {[1]} $ określa tę rodzinę dystrybucji jako rozkład „dwustronny” i omawia ten punkt przecięcia, w którym skośność trzeciego momentu wynosi zero. von Hippel (2005) $ ^ {[2]} $ przedstawia przykład, który „jest prawie w tym punkcie przecięcia tutaj

Wątek Rozkłady nienormalne z zerową skośnością i zerową kurtoozą? zawiera kilka asymetrycznych przykładów, w tym mały dyskretny przykład i kolejny ciągły unimodalny:

Unimodalna mieszanina Gaussa z zerową skośnością

Dyskretne rozkłady jednomodalne – lub równoważnie próbki – z zerową skośnością są dość łatwe do skonstruowania, duże lub małe.

Oto przykład, który możesz potraktować jako próbkę lub (dzieląc nieprzetworzone częstotliwości przez 3000) jako pmf ( wartości „x” to wartości pobrane, „n” to liczba przypadków wystąpienia tej wartości w próbce):

x: -2 -1 0 1 2 3 4 5 6 7 8 9 10 n: 496 498 562 1434 2 1 1 1 1 1 1 1 1 

Wykres funkcji masy prawdopodobieństwa skonstruowany na podstawie powyższego

Ten przykład jest zbudowany f z 3-punktowych rozkładów:

x: -2 1 c n: c(c-1)(c+1)/6 c(c-1)(c+1)/3 - c 1 

w różnych wartościach $ c $ od 3 do 10. Ten sparametryzowany (przez $ c $) atom 3-punktowy „ma $ \ sum_i n_ix_i = 0 $ i $ \ sum_i n_ix_i ^ 3 = 0 $, co z kolei oznacza, że mieszanki różnych opcji $ c $ mają zerową skośność. (Nie można zrobić niczego mniejszego niż rozkład między trzema punktami, który ma asymetrię i trzeci centralny moment zero. Zbiór prostych elementów obejmujących tylko kilka punktów, takich jak te tworzą zgrabne bloki, z których można wykonać większe struktury).

Istnieje wiele innych takich „atomów”, które można skonstruować, ale ten przykład używa tylko jednego rodzaju. Do niektórych kombinacji atomów, takich jak te, dodaje się kilka symetrycznie umieszczonych wartości, aby wypełnić pozostałe dziury i zagwarantować jednomodalność bez niszczenia struktury średniej i trzeciej chwili.

$ [1] $ Brizzi, M.(2006),
„Skośny model łączący cechy trójkątne i wykładnicze: rozkład dwustronny i jego właściwości statystyczne”
Austrian Journal of Statistics , 35 : 4, p455–462
http://www.stat.tugraz.at/AJS/ausg064/

$ [2] $ von Hippel, PT (2005),
„Średnia, mediana i pochylenie: korygowanie reguły podręcznika”
Journal of Statistics Education Tom 13, Numer 2,
http://ww2.amstat.org/publications/jse/v13n2/vonhippel.html

Komentarze

  • Czy można to nazwać ” Shark-fin ” być może?
  • @Glen_b Całkowicie płetwa rekina.

Odpowiedź

Aby uzyskać zerową skośność, potrzebujemy $$ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = 0 $$ lub równoważnie $$ \ operatorname {E} \ Big [ \ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ leq \ mu \ Big] + \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ gt \ mu \ Big] = 0. $$

Teraz, dla danej średniej i wariancji, wybierz dowolne dwa rozkłady $ Y $ i $ Z $ z zerową masą po prawej stronie $ \ mu $ and $$ \ operatorname {E} \ Big [\ big (\ tfrac {Y- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = \ operatorname {E} \ Big [ \ big (\ tfrac {Z- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] $$ i zdefiniuj $ X $, aby dopasować $ Y $, jeśli na lewo od $ \ mu $ i $ (\ mu – Z) $ w przeciwnym razie. (Nie znasz dokładnego oznaczenia tego, czy ktoś chciałby pomóc?)

Wynikowa dystrybucja będzie unimodalna, jeśli pliki PDF o wartości $ Y $ i $ Z $ zwiększą się po lewej stronie $ \ mu $ (oprócz zera po prawej stronie $ \ mu $).

Komentarze

  • Jak możesz zagwarantować, że dystrybucja jest unimodalna?
  • Dziękujemy za zwrócenie uwagi. Pliki PDF o wartości $ Y $ i $ Z $ będą musiały rosnąć aż do $ \ mu $, a następnie spadać do zera.
  • To jest dobry pomysł, ale nadal wymaga trochę pracy, ponieważ $ \ sigma $ może się zmienić po połączeniu $ Y $ i $ Z $.
  • @whuber: Cholera. Wiedziałem, że miał być jakąś pułapką … 🙂

Odpowiedź

Poniższy dyskretny rozkład jest asymetryczny i ma wartość null skośność: Prob (-4) = 1/3, Prob (1) = 1/2, Prob (5) = 1/6. Znalazłem to w pracy Doric et al., Qual Quant (2009) 43: 481 -493; DOI 10.1007 / s11135-007-9128-9

Komentarze

  • +1 Sprawdza i jest ' jest unimodalny. To ' to najprostszy możliwy przykład.

Odpowiedź

Pewnie. Spróbuj tego:

skew= function (x, na.rm = FALSE) { if (na.rm) x <- x[!is.na(x)] #remove missing values sum((x - mean(x))^3)/(length(x) * sd(x)^3) #calculate skew } set.seed(12929883) x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1)) skew(x) plot(density(x)) 

(Wykonałeś już trudne zadanie!)

Komentarze

  • fajnie, podoba mi się. +1
  • To ' nie jest bimodalne … ' jest okropnie multi -modalne. Spróbuj wykreślić gęstość; curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
  • Dane wygenerowane w ten sposób z pewnością nie są jednomodalne. Wszystko, co musisz zrobić, to wyciąć i wkleić kod dosłownie. Rzeczywiście, mieszanina zmiennych o rozkładzie normalnym nigdy nie będzie unimodalna (chyba że jeden z proporcji mieszaniny to 1).
  • @Macro, że ' s niepoprawne. Zobacz na przykład streszczenie Roedera 1994 (JASA), aby uzyskać dobrze znany wynik, że ” gęstość dwóch mieszanych normalnych nie jest bimodalna, chyba że średnie są oddzielone co najmniej 2 odchylenia standardowe „. Jeśli są oddzielone mniejszą liczbą, mieszanka jest jednomodalna.
  • Masz ' masz rację @guest. ' Zapomniałem o tej możliwości, kiedy tworzyłem post

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *