Kan noen tilby et eksempel på en unimodal fordeling som har en skjevhet på null, men som ikke er symmetrisk?

I mai 2010 la Wikipedia-bruker Mcorazao til en setning i skjevhetsartikkel om at «A nullverdi indikerer at verdiene er relativt jevnt fordelt på begge sider av gjennomsnittet, vanligvis men ikke nødvendigvis en symmetrisk fordeling. » Imidlertid har wiki-siden ingen faktiske eksempler på distribusjoner som bryter denne regelen. Googling «eksempel på asymmetriske fordelinger med null skjevhet» gir heller ingen reelle eksempler, i det minste i de 20 første resultatene.

Ved å bruke definisjonen at skjevheten beregnes av $ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \ , \ Big] $, og R-formelen

sum((x-mean(x))^3)/(length(x) * sd(x)^3) 

Jeg kan konstruere en liten , vilkårlig fordeling for å gjøre skjevheten lav. Distribusjonen

x = c(1, 3.122, 5, 4, 1.1) 

gir for eksempel en skjevhet på $ -5,64947 \ cdot10 ^ {- 5} $. Men dette er et lite utvalg, og dessuten er avviket fra symmetri ikke stort. Så er det mulig å konstruere en større fordeling med en topp som er svært asymmetrisk, men som fremdeles har en skjevhet på nesten null?

Kommentarer

  • Vil du at distribusjonen skal være unimodal eller ikke? Tittelen sier det, men teksten nevner knapt dette poenget.
  • @Dilip Ja, jeg ‘ Jeg synes det er mer interessant hvis fordelingen var unimodal, siden skjevhet , som et sentralt øyeblikk, gir ikke ‘ virkelig mening ellers.

Svar

Vurder diskrete distribusjoner. En som støttes på $ k $ verdier $ x_1, x_2, \ ldots, x_k $ bestemmes av ikke-negative sannsynligheter $ p_1 , p_2, \ ldots, p_k $ underlagt betingelsene at (a) de summerer til 1 og (b) skjevhetskoeffisienten er lik 0 (som tilsvarer at det tredje sentrale øyeblikket er null). Det etterlater $ k-2 $ frihetsgrader (i ligningsløsende forstand, ikke den statistiske!). Vi kan håpe å finne løsninger som er unimodale.

For å gjøre letingen etter eksempler enklere, søkte jeg løsninger støttet på en liten symmetrisk vektor $ \ mathbf {x} = (- 3, -2, -1,0,1,2,3) $ med en unik modus på $ 0 $ , null gjennomsnitt og null skjevhet. En slik løsning er $ (p_1, \ ldots, p_7) = (1396, 3286, 9586, 47386, 8781, 3930, 1235) / 75600 $ .

Sannsynlighetsfunksjon

Du kan se at den er asymmetrisk.

Her «er en tydeligere asymmetrisk løsning med $ \ mathbf {x} = (-3, -1,0,1,2) $ (som er asymmetrisk) og $ p = (1,18, 72, 13, 4) / 108 $ :

Sannsynlighetsfunksjon 2

Nå er det åpenbart hva som skjer: fordi gjennomsnittet tilsvarer $ 0 $ , de negative verdiene bidrar til $ (- 3) ^ 3 = -27 $ og $ 18 \ ganger (- 1) ^ 3 = -18 $ til tredje øyeblikk mens de positive verdiene bidrar til $ 4 \ ganger 2 ^ 3 = 32 $ og $ 13 \ ganger 1 ^ 3 = 13 $ , og balanserer nøyaktig det negative bidragene. Vi kan ta en symmetrisk fordeling på $ 0 $ , for eksempel $ \ mathbf {x} = (- 1,0,1 ) $ med $ \ mathbf {p} = (1,4,1) / 6 $ , og skift litt masse fra $ + 1 $ til $ + 2 $ , en liten masse fra $ + 1 $ ned til $ – 1 $ , og en liten mengde masse ned til $ – 3 $ , mens gjennomsnittet holdes på $ 0 $ og skjevheten i $ 0 $ , samtidig som du oppretter en asymmetri . Den samme tilnærmingen vil fungere for å opprettholde null gjennomsnitt og null skjevhet av en kontinuerlig fordeling mens den blir asymmetrisk; hvis vi ikke er for aggressive med masseforskyvning, vil det forbli unimodal.


Edit: Kontinuerlig distribusjon

Fordi problemet fortsetter å komme opp, la oss gi et eksplisitt eksempel med kontinuerlige distribusjoner. Peter Flom hadde en god ide: se på blandinger av normaler. En blanding av to normaler vil ikke gjøre: når skjevheten forsvinner, vil den være symmetrisk. Det neste enkleste tilfellet er en blanding av tre normaler.

Blandinger av tre normaler, etter et passende valg av plassering og skala, avhenger av seks virkelige parametere og bør derfor ha mer enn nok fleksibilitet til å produsere en asymmetrisk, null-skjevhet løsning . For å finne noen, må vi vite hvordan vi kan beregne skjevheter av blandinger av normaler. Blant disse vil vi søke etter alle som er unimodale (det er mulig det er ingen).

Nå, generelt, $ r ^ \ text {th } $ (ikke-sentralt) øyeblikk for en normal normalfordeling er null når $ r $ er merkelig og ellers tilsvarer $ 2 ^ {r / 2} \ Gamma \ left (\ frac {1-r} {2} \ right) / \ sqrt {\ pi} $ . Når vi skalerer den standard normalfordelingen for å ha et standardavvik på $ \ sigma $ , vil $ r ^ \ text {th } $ øyeblikk multipliseres med $ \ sigma ^ r $ . Når vi skifter distribusjon med $ \ mu $ , blir den nye $ r ^ \ text {th} $ moment kan uttrykkes i form av øyeblikk til og med $ r $ . Øyeblikket for en blanding av fordelinger (det vil si et vektet gjennomsnitt av dem) er det samme vektede gjennomsnittet av de enkelte øyeblikkene. Til slutt er skjevheten null nøyaktig når det tredje sentrale øyeblikket er null, og dette beregnes lett i forhold til de tre første øyeblikkene.

Dette gir oss et algebraisk angrep på problemet. En løsning jeg fant er en lik blanding av tre normaler med parametere $ (\ mu, \ sigma) $ lik $ ( 0,1) $ , $ (1 / 2,1) $ , og $ (0, \ sqrt {127/18}) \ approx (0, 2.65623) $ . Dens gjennomsnitt tilsvarer $ (0 + 1/2 + 0) / 3 = 1/6 $ . Dette bildet viser pdf-en i blått og pdf-en for distribusjonen vendt om gjennomsnittet i rødt. At de skiller seg viser at de begge er asymmetriske. (Modusen er tilnærmet $ 0,0519216 $ , ulik gjennomsnittet av $ 1/6 $ .) Begge har null skjevhet ved konstruksjon .

Kontinuerlige eksempler

Plottene indikerer at disse er unimodale. (Du kan sjekke ved hjelp av Calculus for å finne lokale maksima.)

Kommentarer

  • (+1) Veldig glatt svar. Vil dette fungere med kontinuerlige distribusjoner skjønt? Ville ikke ‘ t skiftingen potensielt skape små små moduser? Jeg tenker kanskje ikke rett …
  • Du ‘ tenker ganske bra, makro: vi burde alle være så skeptiske. Trikset er å flytte små mengder spredt over store områder. En første-derivat test vil gjøre det mulig å sjekke om mulige moduser og gir også grunnlaget for et bevis på at tilstrekkelig små skift av dette skjemaet ikke gir nye moduser.
  • Takk for svaret! Dette ligner på det jeg tenkte intuitivt, selv om jeg ikke kunne ‘ ikke sette ord på det godt – at du må » » massen på hver side av fordelingen. Får meg til å lure på om det er stereotype måter man kan utføre denne balansegangen på.
  • En måte, Andy, er å starte med en diskret løsning og deretter samle den med en normalfordeling. I dette tilfellet vil unimodalitetskravet tvinge den normalfordelingen til å ha et stort standardavvik. Allikevel, hvis konvolusjonen ikke vesentlig endrer de nødvendige egenskapene (for eksempel null skjevhet), eller den endrer den på forutsigbare måter, har du et matematisk grep om problemet. På en eller annen måte kan min nylige redigering sees på som et slikt angrep, selv om det ‘ ikke er strengt en konvolusjon (fordi de tre normaler har forskjellige standardavvik).
  • Jeg har sjekket, Andy: å forene den diskrete løsningen med en normalfordeling endrer ikke skjevheten. Når du gir den normale fordelingen et standardavvik rundt 0,57 eller større, er resultatet unimodalt. I likhet med den underliggende diskrete fordelingen fortsetter den å ha null gjennomsnitt, null skjevhet og å være asymmetrisk. Å blande dette inn med en standard normalfordeling utgjør en kontrollert massebevegelse mellom standard normal og den diskrete fordelingen: som kan oppfylle din forespørsel om en » stereotyp » metode.

Svar

Her er en jeg fant på https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html # som jeg synes er fin og gjengitt i R: en invers Burr- eller Dagum-fordeling med formparametere $ k = 0,0629 $ og $ c = 18.1484 $:

$$ g (x) = ckx ^ {- (c + 1)} [1 + x ^ {- c}] ^ {- (k + 1)} $$

Det har gjennomsnittet 0.5387, standardavvik 0,2907, skjevhet 0,0000 og kurtose 2,0000. Kilden kaller det også «elefantfordelingen»: skriv inn bildebeskrivelse her

Gjengivelsen min i R ble opprettet med

 library(actuar) library(knotR) # a nonsymmetric distribution with zero skewness # see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html# c <- 18.1484 k <- 0.0629 x <- seq(0,1.5,by=.0001) elephant.density <- dinvburr(x, k, c) plot(x,elephant.density, type="l") polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey") points(0.8,0.8, pch=19, cex=2) # "ears" created via https://www.desmos.com/calculator/cahqdxeshd ear.x <- c(0.686, 0.501, 0.42, 0.68) ear.y <- c(0.698, 0.315, 1.095, 0.983) myseg(bezier(cbind(ear.x, ear.y)), type="l") EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k) EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k) (skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196  

Som denne utgangen viser, er skjevhet ikke helt null til fire sifre for disse parameterverdiene. Her er en liten optimizer for $ k $ og $ c $:

 # optimize skewness a bit further skewval <- 1 while (skewval > 10^(-10)){ optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c) skewval <- optskew.k$f.root k <- optskew.k$root optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k) skewval <- optskew.c$f.root c <- optskew.c$root } 

gir

> print(c) [1] 18.89306 > print(k) [1] 0.05975542 > print(skewval) [1] -1.131464e-15 

Kommentarer

  • Takk for redigeringen. Når det er sagt, kunne jeg ikke reprodusere skjevheten på 0,0000 til fire sifre, og oppnådde 0,0001245138 i stedet (se neste redigering, i R-koden).
  • Man kan sannsynligvis kjøre en enkel optimizer for å finne $ c $ og $ k $ verdier slik at skjevheten er så nær null som mulig. Det bør være et par ekstra linjer eller til og med en. Du har allerede tapsfunksjonen beregnet på den siste linjen, er det en passende generisk optimaliseringsenhet i R?
  • Egentlig 0,0003756196. 0.0001245138 var allerede etter noen innledende optimalisering, gitt her ved en feiltakelse. Jeg får se.
  • @amoeba, jeg prøvde å optimalisere litt, men jeg fremsetter ingen påstander om å ha gjort det på en smart måte, jeg har liten erfaring med optimalisering.
  • Skjevhet at ‘ s null til tre sifre (nesten fire) var mye for meg. det ‘ ikke liker en mer presis verdi, vil få det til å se annerledes ut. Hvis skjevhet vil krysse null i den nærheten og det ‘ er klart hvilke retninger du skal justere verdiene i hvis mer nøyaktighet er nødvendig, regner jeg med at ‘ er tilstrekkelig. Men kudos for den ekstra innsatsen. (Det ‘ er forresten et deilig eksempel.)

Svar

Tenk på en fordeling på den positive halvdelen av den virkelige linjen som øker lineært fra 0 til modusen og deretter er eksponentiell til høyre for modusen, men er kontinuerlig i modusen.

Dette kan kalles en trekant-eksponentiell fordeling (selv om det ofte ser litt ut som en haifinne).

La $ \ theta $ være plasseringen av modusen og $ \ lambda $ være hastighetsparameteren til eksponentiell.

Når $ \ lambda \ theta $ øker, blir fordelingen gradvis mindre skjev. Når $ \ lambda \ theta $ øker forbi $ \ ca 6,15 $, går det tredje øyeblikket fra positivt til negativt:

Trekant-eksponentiell med null skjevhet

Brizzi (2006) $ ^ {[1]} $ refererer til denne distribusjonsfamilien som «to-ansikts» distribusjon, og diskuterer dette krysspunktet hvor skjevheten i tredje øyeblikk er null. von Hippel (2005) $ ^ {[2]} $ presenterer et eksempel som «er nesten på det krysspunktet her

Tråden Ikke-normale fordelinger med null skjevhet og null overflødig kurtose? har noen asymmetriske eksempler, inkludert et lite diskret eksempel og en annen kontinuerlig unimodal:

Unimodal Gaussisk blanding med null skjevhet

Diskrete unimodale fordelinger – eller tilsvarende, prøver – med null skjevhet er ganske enkle å konstruere, av stor eller liten størrelse.

Her er et eksempel som du kan behandle som en prøve eller (ved å dele råfrekvensene med 3000) som en pmf ( «x» -verdiene er verdiene som er tatt, «n» er antall ganger verdien forekommer i prøven):

x: -2 -1 0 1 2 3 4 5 6 7 8 9 10 n: 496 498 562 1434 2 1 1 1 1 1 1 1 1 

Et plot av sannsynlighetsmassefunksjonen konstruert fra ovenstående

Dette eksemplet er bygd opp f rom 3-punkts fordelinger:

x: -2 1 c n: c(c-1)(c+1)/6 c(c-1)(c+1)/3 - c 1 

på tvers av forskjellige verdier på $ c $ mellom 3 og 10. Dette parametrerte (med $ c $) 3-punkts «atom «har $ \ sum_i n_ix_i = 0 $ og $ \ sum_i n_ix_i ^ 3 = 0 $, som igjen betyr at blandinger på tvers av forskjellige valg på $ c $ har null skjevhet. (Du kan ikke lage noe mindre enn en fordeling over tre punkter som har asymmetri og tredje sentrale moment null. En samling enkle brikker over bare noen få punkter, som disse, gjør pene byggesteiner som større strukturer kan lages fra.)

Det finnes alle andre slike «atomer» man kan konstruere, men dette eksemplet bruker bare denne typen. Til en kombinasjon av atomer som disse er det lagt til noen få symmetrisk plasserte verdier for å fylle ut gjenværende hull og garantere unimodalitet uten å ødelegge strukturen til gjennomsnitt og tredje øyeblikk.

$ [1] $ Brizzi, M.(2006),
«En skjev modell som kombinerer trekantede og eksponentielle funksjoner: Den tosidede distribusjonen og dens statistiske egenskaper»
Austrian Journal of Statistics , 35 : 4, p455–462
http://www.stat.tugraz.at/AJS/ausg064/

$ [2] $ von Hippel, PT (2005),
«Mean, Median, and Skew: Correcting a Textbook Rule»
Journal of Statistics Education Volume 13, Nummer 2,
http://ww2.amstat.org/publications/jse/v13n2/vonhippel.html

Kommentarer

  • Kan kanskje kalle det » Shark-fin » kanskje?
  • @Glen_b Helt haifinne.

Svar

For null skjevhet trenger vi $$ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = 0 $$ eller, ekvivalent, $$ \ operatornavn {E} \ Big [ \ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ leq \ mu \ Big] + \ operatornavn {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ gt \ mu \ Big] = 0. $$

Nå, for gitt gjennomsnitt og varians, velg to fordeler $ Y $ og $ Z $ med null masse på høyre side av $ \ mu $ og $$ \ operatorname {E} \ Big [\ big (\ tfrac {Y- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = \ operatorname {E} \ Big [ \ big (\ tfrac {Z- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] $$ og definer $ X $ for å matche $ Y $ hvis igjen av $ \ mu $ og $ (\ mu – Z) $ ellers. (Vet ikke den nøyaktige notasjonen for dette, er det noen som bryr seg om å hjelpe?)

Den resulterende distribusjonen vil være unimodal hvis PDF-filene på $ Y $ og $ Z $ øker til venstre for $ \ mu $ (i tillegg til å være null til høyre for $ \ mu $).

Kommentarer

  • Hvordan garanterer du at distribusjonen er unimodal?
  • Takk for at du påpekte dette. PDF-filene på $ Y $ og $ Z $ må øke strengt til $ \ mu $, og deretter synke til null.
  • Dette er den rette ideen, men den trenger fortsatt litt arbeid, fordi $ \ sigma $ kan endres når du kombinerer $ Y $ og $ Z $.
  • @whuber: Damn. Jeg visste at hadde å være noen fallgruve … 🙂

Svar

Følgende diskrete distribusjon er asymmetrisk og har null skjevhet: Prob (-4) = 1/3, Prob (1) = 1/2, Prob (5) = 1/6. Jeg fant det i papiret til Doric et al., Qual Quant (2009) 43: 481 -493; DOI 10.1007 / s11135-007-9128-9

Kommentarer

  • +1 Det sjekker ut og det ‘ er unimodal. At ‘ er det enkleste mulige eksemplet.

Svar

Sikker. Prøv dette:

skew= function (x, na.rm = FALSE) { if (na.rm) x <- x[!is.na(x)] #remove missing values sum((x - mean(x))^3)/(length(x) * sd(x)^3) #calculate skew } set.seed(12929883) x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1)) skew(x) plot(density(x)) 

(Du har allerede gjort de tunge tingene!)

Kommentarer

  • hyggelig, jeg liker det. +1
  • Det ‘ er ikke bimodalt … det ‘ er fryktelig multi -modell. Prøv å tegne tettheten; curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
  • Data generert på denne måten er absolutt ikke unimodal. Alt du trenger å gjøre for å se det er klippet og lim inn koden, ordrett. Faktisk vil en blanding av normalt distribuerte variabler aldri være unimodal (med mindre selvfølgelig en av blandingsforholdene er 1).
  • @Macro, at ‘ s Ikke korrekt. Se for eksempel abstraktet fra Roeder 1994 (JASA) for det velkjente resultatet at » tettheten til to blandede normaler ikke er bimodal med mindre midlene er atskilt med minst 2 standardavvik «. Hvis de er atskilt med mindre enn dette, er blandingen unimodal.
  • Du ‘ har rett @guest. Jeg ‘ glemte den muligheten da jeg skrev innlegget mitt

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *