Kan nogen tilbyde et eksempel på en unimodal fordeling, der har en skævhed på nul, men som ikke er symmetrisk?

I maj 2010 tilføjede Wikipedia-bruger Mcorazao en sætning til skævhedsartikel om, at “A nulværdi angiver, at værdierne er relativt jævnt fordelt på begge sider af middelværdien, typisk men ikke nødvendigvis en symmetrisk fordeling. ” Wiki-siden har dog ingen egentlige eksempler på distributioner, der bryder denne regel. Googling “eksempel på asymmetriske fordelinger med nul skævhed” giver heller ingen reelle eksempler, i det mindste i de første 20 resultater.

Brug af definitionen, at skævheden beregnes af $ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \ , \ Big] $ og R-formlen

sum((x-mean(x))^3)/(length(x) * sd(x)^3) 

Jeg kan konstruere en lille , vilkårlig fordeling for at gøre skævheden lav. Fordelingen

x = c(1, 3.122, 5, 4, 1.1) 

giver for eksempel en skævhed på $ -5.64947 \ cdot10 ^ {- 5} $. Men dette er en lille prøve, og desuden er afvigelsen fra symmetri ikke stor. Så er det muligt at konstruere en større fordeling med en top, der er meget asymmetrisk, men stadig har en skævhed på næsten nul?

Kommentarer

  • Vil du have distributionen unimodal eller ej? Titlen siger det, men teksten nævner næppe dette punkt.
  • @Dilip Ja, jeg ‘ Jeg finder det mere interessant, hvis fordelingen var ujævn, da skævhed , som et centralt øjeblik, giver ‘ ikke virkelig mening ellers.

Svar

Overvej diskrete distributioner. En, der understøttes på $ k $ værdier $ x_1, x_2, \ ldots, x_k $ bestemmes af ikke-negative sandsynligheder $ p_1 , p_2, \ ldots, p_k $ under forudsætning af, at (a) de summerer til 1 og (b) skævhedskoefficienten er lig med 0 (hvilket svarer til, at det tredje centrale øjeblik er nul). Det efterlader $ k-2 $ frihedsgrader (i ligningsløsning, ikke den statistiske!). Vi kan håbe på at finde løsninger, der er unimodale.

For at gøre søgningen efter eksempler lettere søgte jeg løsninger understøttet på en lille symmetrisk vektor $ \ mathbf {x} = (- 3, -2, -1,0,1,2,3) $ med en unik tilstand i $ 0 $ , nul middelværdi, og nul skævhed. En sådan løsning er $ (p_1, \ ldots, p_7) = (1396, 3286, 9586, 47386, 8781, 3930, 1235) / 75600 $ .

Sandsynlighedsfunktion

Du kan se, at den er asymmetrisk.

Her “er en mere åbenlyst asymmetrisk løsning med $ \ mathbf {x} = (-3, -1,0,1,2) $ (som er asymmetrisk) og $ p = (1,18, 72, 13, 4) / 108 $ :

Sandsynlighedsfunktion 2

Nu er det tydeligt, hvad der foregår: fordi gennemsnittet er lig med $ 0 $ , de negative værdier bidrager $ (- 3) ^ 3 = -27 $ og $ 18 \ gange (- 1) ^ 3 = -18 $ til tredje øjeblik, mens de positive værdier bidrager $ 4 \ gange 2 ^ 3 = 32 $ og $ 13 \ gange 1 ^ 3 = 13 $ , nøjagtigt afbalancerer det negative bidrag. Vi kan tage en symmetrisk fordeling omkring $ 0 $ , såsom $ \ mathbf {x} = (- 1,0,1 ) $ med $ \ mathbf {p} = (1,4,1) / 6 $ , og skift en lille masse fra $ + 1 $ til $ + 2 $ , en lille masse fra $ + 1 $ ned til $ – 1 $ , og en lille mængde masse ned til $ – 3 $ , mens gennemsnittet holdes på $ 0 $ og skævheden ved $ 0 $ , samtidig med at der oprettes en asymmetri . Den samme tilgang vil arbejde for at opretholde nul gennemsnit og nul skævhed af en kontinuerlig fordeling, samtidig med at den bliver asymmetrisk; hvis vi “ikke er for aggressive med masseforskydningen, forbliver den unimodal.


Edit: Continuous Distributions

Fordi problemet fortsætter med at komme op, lad os give et eksplicit eksempel med kontinuerlige distributioner. Peter Flom havde en god idé: se på blandinger af normaler. En blanding af to normaler vil ikke gøre: når dens skævhed forsvinder, vil den være symmetrisk. Det næste enkleste tilfælde er en blanding af tre normaler.

Blandinger af tre normaler, efter et passende valg af placering og skala, afhænger af seks reelle parametre og bør derfor have mere end nok fleksibilitet til at producere en asymmetrisk, nul-skæv løsning . For at finde nogle er vi nødt til at vide, hvordan man beregner skævheder af blandinger af normaler. Blandt disse vil vi søge efter alle, der er unimodale (det er muligt, at der ikke er nogen).

Nu generelt $ r ^ \ text {th } $ (ikke-centralt) øjeblik for en normal normalfordeling er nul, når $ r $ er ulige og ellers svarer til $ 2 ^ {r / 2} \ Gamma \ left (\ frac {1-r} {2} \ right) / \ sqrt {\ pi} $ . Når vi omskalerer den normale normalfordeling til at have en standardafvigelse på $ \ sigma $ , vises $ r ^ \ text {th } $ øjeblik ganges med $ \ sigma ^ r $ . Når vi skifter en fordeling med $ \ mu $ , den nye $ r ^ \ text {th} $ moment kan udtrykkes i øjeblikke op til og med $ r $ . Momentet for en blanding af distributioner (det vil sige et vægtet gennemsnit af dem) er det samme vægtede gennemsnit af de enkelte øjeblikke. Endelig er skævheden nul nøjagtigt, når det tredje centrale øjeblik er nul, og dette beregnes let i forhold til de første tre øjeblikke.

Dette giver os et algebraisk angreb på problemet. En løsning, jeg fandt, er en lige blanding af tre normaler med parametre $ (\ mu, \ sigma) $ lig med $ ( 0,1) $ , $ (1 / 2,1) $ og $ (0, \ sqrt {127/18}) \ approx (0, 2.65623) $ . Dens gennemsnit svarer til $ (0 + 1/2 + 0) / 3 = 1/6 $ . Dette billede viser pdfen i blåt og pdfen af distributionen vendt om dens gennemsnit i rødt. At de adskiller sig viser, at de begge er asymmetriske. (Tilstanden er ca. $ 0,0519216 $ , ikke lig med gennemsnittet af $ 1/6 $ .) De har begge nul skævhed ved konstruktion .

Løbende eksempler

Plottene indikerer, at disse er unimodale. (Du kan kontrollere ved hjælp af Calculus for at finde lokale maxima.)

Kommentarer

  • (+1) Meget glat svar. Vil dette dog fungere med kontinuerlige distributioner? Ville ‘ ikke skiftningen muligvis skabe små små tilstande? Jeg tænker måske ikke lige …
  • Du ‘ tænker ret godt, makro: vi burde alle være så skeptiske. Tricket er at flytte små mængder spredt over store intervaller. En første-afledt test giver dig mulighed for at kontrollere mulige tilstande og giver også grundlag for et bevis på, at tilstrækkeligt små skift af denne form ikke producerer nye tilstande.
  • Tak for svaret! Dette svarer til det, jeg intuitivt tænkte, selvom jeg ikke kunne ‘ ikke sætte det godt i ord – at du skal ” balance ” massen på hver side af fordelingen. Får mig til at spekulere på, om der er stereotype måder, hvorpå man kan udføre denne balanceakt.
  • En måde, Andy, er at starte med en diskret løsning og derefter samle den med en normalfordeling. I dette tilfælde vil unimodalitetskravet tvinge den normale fordeling til at have en stor standardafvigelse. Alligevel, hvis sammenfaldet ikke mærkbart ændrer de krævede egenskaber (såsom nul skævhed), eller det ændrer det på forudsigelige måder, har du et matematisk greb om problemet. På en eller anden måde kan min nylige redigering ses som et sådant angreb, selvom det ‘ ikke er strengt en konvolution (fordi de tre normaler har forskellige standardafvigelser).
  • Jeg har kontrolleret, Andy: at inddrage den diskrete løsning med en normalfordeling ændrer ikke skævheden. Når du giver den normale fordeling en standardafvigelse på omkring 0,57 eller derover, er resultatet uimodalt. Ligesom den underliggende diskrete fordeling har den fortsat nul gennemsnit, nul skævhed og er asymmetrisk. At blande dette ind med en standardnormalfordeling udgør en kontrolleret massebevægelse mellem standardnormalen og den diskrete distribution: der kan muligvis opfylde din anmodning om en ” stereotyp ” metode.

Svar

Her er en, jeg fandt på https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html # som jeg finder pænt og gengivet i R: en invers Burr- eller Dagum-fordeling med formparametre $ k = 0,0629 $ og $ c = 18.1484 $:

$$ g (x) = ckx ^ {- (c + 1)} [1 + x ^ {- c}] ^ {- (k + 1)} $$

Det har gennemsnit 0.5387, standardafvigelse 0,2907, skævhed 0,0000 og kurtosis 2,0000. Kilden kalder det også “elefantfordelingen”: indtast billedbeskrivelse her

Min reproduktion i R blev oprettet med

 library(actuar) library(knotR) # a nonsymmetric distribution with zero skewness # see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html# c <- 18.1484 k <- 0.0629 x <- seq(0,1.5,by=.0001) elephant.density <- dinvburr(x, k, c) plot(x,elephant.density, type="l") polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey") points(0.8,0.8, pch=19, cex=2) # "ears" created via https://www.desmos.com/calculator/cahqdxeshd ear.x <- c(0.686, 0.501, 0.42, 0.68) ear.y <- c(0.698, 0.315, 1.095, 0.983) myseg(bezier(cbind(ear.x, ear.y)), type="l") EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k) EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k) (skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196  

Som denne output viser, er skævhed ikke helt nul til fire cifre for disse parameterværdier. Her er en lille optimizer til $ k $ og $ c $:

 # optimize skewness a bit further skewval <- 1 while (skewval > 10^(-10)){ optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c) skewval <- optskew.k$f.root k <- optskew.k$root optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k) skewval <- optskew.c$f.root c <- optskew.c$root } 

giver

> print(c) [1] 18.89306 > print(k) [1] 0.05975542 > print(skewval) [1] -1.131464e-15 

Kommentarer

  • Tak for redigeringen. Når det er sagt, kunne jeg ikke gengive skævheden på 0,0000 til fire cifre og opnå i stedet 0.0001245138 (se næste redigering i R-koden).
  • Man kan sandsynligvis køre en simpel optimering for at finde $ c $ og $ k $ -værdier, således at skævheden er så tæt på nul som muligt. Det skal være et par ekstra linjer eller måske endda en. Du har allerede tabsfunktionen beregnet analytisk i din sidste linje, er der en passende generisk optimizer i R?
  • Faktisk 0,0003756196. 0.0001245138 var allerede efter nogle indledende optimeringer, givet her ved en fejltagelse. Jeg vil se på det.
  • @amoeba, jeg forsøgte at optimere lidt, men jeg fremsætter ikke krav om at have gjort det på en smart måde, jeg har ringe erfaring med optimering.
  • Skævhed om, at ‘ s nul til tre cifre (næsten fire) var meget for mig. det ‘ s ikke som en mere præcis værdi, får det til at se anderledes ud. Hvis skævhed krydser nul i den nærhed, og det ‘ er klart, hvilke retninger der skal justeres værdierne i, hvis der er behov for mere nøjagtighed, regner jeg med at ‘ er tilstrækkelig. Men kudos for den ekstra indsats. (Det ‘ forresten et dejligt eksempel.)

Svar

Overvej en fordeling på den positive halvdel af den virkelige linje, der stiger lineært fra 0 til tilstanden og derefter er eksponentiel til højre for tilstanden, men er kontinuerlig i tilstanden.

Dette kunne kaldes en trekantet-eksponentiel fordeling (selvom det ofte ligner en hajfinne).

Lad $ \ theta $ være placeringen af tilstanden og $ \ lambda $ være hastighedsparameteren for eksponentielt.

Efterhånden som $ \ lambda \ theta $ øges, bliver fordelingen gradvis mindre skæv. Når $ \ lambda \ theta $ stiger forbi $ \ ca. 6,15 $, går det tredje øjeblik fra positivt til negativt:

Trekantet-eksponentielt med nul skævhed

Brizzi (2006) $ ^ {[1]} $ henviser til denne familie af distributioner som “to-ansigt” distribution og diskuterer dette crossover-punkt, hvor skævheden i tredje øjeblik er nul. von Hippel (2005) $ ^ {[2]} $ præsenterer et eksempel, der “næsten er ved det overkrydsningspunkt her

Tråden Ikke-normale fordelinger med nul skævhed og nul overskydende kurtosis? har nogle asymmetriske eksempler, herunder et lille diskret eksempel og en anden kontinuerlig unimodal:

Unimodal Gaussisk blanding med nul skævhed

Diskrete unimodale fordelinger – eller tilsvarende, prøver – med nul skævhed er ret nemme at konstruere, af stor eller lille størrelse.

Her er et eksempel, som du kan behandle som en prøve eller (ved at dividere de rå frekvenser med 3000) som en pmf ( “x” -værdierne er de værdier, der er taget, “n” er det antal gange, værdien forekommer i prøven):

x: -2 -1 0 1 2 3 4 5 6 7 8 9 10 n: 496 498 562 1434 2 1 1 1 1 1 1 1 1 

Et plot af sandsynlighedsmassefunktionen konstrueret ud fra ovenstående

Dette eksempel er bygget op f rom 3-punkts distributioner:

x: -2 1 c n: c(c-1)(c+1)/6 c(c-1)(c+1)/3 - c 1 

på tværs af forskellige værdier på $ c $ mellem 3 og 10. Dette parametriserede (med $ c $) 3-punkts “atom “har $ \ sum_i n_ix_i = 0 $ og $ \ sum_i n_ix_i ^ 3 = 0 $, hvilket igen betyder, at blandinger på tværs af forskellige valg af $ c $ har nul skævhed. (Du kan ikke lave noget mindre end en fordeling på tre punkter, der har asymmetri og tredje centrale moment nul. En samling af enkle stykker over kun få punkter, som disse, udgør pæne byggesten, hvorfra større strukturer kan fremstilles.)

Der er alle andre sådanne “atomer” man kan konstruere, men dette eksempel bruger kun denne ene slags. Til en kombination af atomer som disse tilføjes et par symmetrisk placerede værdier for at udfylde de resterende huller og garantere unimodalitet uden at ødelægge strukturen for middelværdien og det tredje øjeblik.

$ [1] $ Brizzi, M.(2006),
“En skæv model, der kombinerer trekantede og eksponentielle træk: Den tosidede distribution og dens statistiske egenskaber”
Austrian Journal of Statistics , 35 : 4, p455–462
http://www.stat.tugraz.at/AJS/ausg064/

$ [2] $ von Hippel, PT (2005),
“Mean, Median, and Skew: Correcting a Textbook Rule”
Journal of Statistics Education Volume 13, Nummer 2,
http://ww2.amstat.org/publications/jse/v13n2/vonhippel.html

Kommentarer

  • Måske kalde det ” Shark-fin ” måske?
  • @Glen_b Helt hajfinne.

Svar

For nul skævhed har vi brug for $$ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = 0 $$ eller, ækvivalent, $$ \ operatornavn {E} \ Big [ \ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ leq \ mu \ Big] + \ operatornavn {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ gt \ mu \ Big] = 0. $$

Vælg nu to fordelinger $ Y $ og $ Z $ med nul masse på højre side af $ \ mu for givet gennemsnit og varians $ og $$ \ operatorname {E} \ Big [\ big (\ tfrac {Y- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = \ operatorname {E} \ Big [ \ big (\ tfrac {Z- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] $$ og definer $ X $ til at matche $ Y $ hvis tilbage til $ \ mu $ og $ (\ mu – Z) $ ellers. (Ved du ikke den nøjagtige betegnelse for dette, er nogen interesseret i at hjælpe?)

Den resulterende distribution vil være unimodal, hvis PDFerne på $ Y $ og $ Z $ stiger til venstre for $ \ mu $ (ud over at være nul til højre for $ \ mu $).

Kommentarer

  • Hvordan garanterer du, at fordelingen er uimodal?
  • Tak fordi du påpegede dette. PDF-filerne på $ Y $ og $ Z $ skal strengt stige indtil $ \ mu $ og derefter falde til nul.
  • Dette er den rigtige idé, men det har stadig brug for noget arbejde, fordi $ \ sigma $ kan ændre sig, når man kombinerer $ Y $ og $ Z $.
  • @whuber: Damn. Jeg vidste, at der havde at være en faldgrube … 🙂

Svar

Følgende diskrete fordeling er asymmetrisk og har null skævhed: Prob (-4) = 1/3, Prob (1) = 1/2, Prob (5) = 1/6. Jeg fandt det i papiret fra Doric et al., Qual Quant (2009) 43: 481 -493; DOI 10.1007 / s11135-007-9128-9

Kommentarer

  • +1 Det tjekker ud og det ‘ er unimodal. At ‘ er det enklest mulige eksempel.

Svar

Jo da. Prøv dette:

skew= function (x, na.rm = FALSE) { if (na.rm) x <- x[!is.na(x)] #remove missing values sum((x - mean(x))^3)/(length(x) * sd(x)^3) #calculate skew } set.seed(12929883) x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1)) skew(x) plot(density(x)) 

(Du har allerede gjort de hårde ting!)

Kommentarer

  • dejligt, jeg kan godt lide det. +1
  • Det ‘ er ikke bimodalt … det ‘ er forfærdeligt multi -modal. Prøv at tegne densiteten; curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
  • Data genereret på denne måde er bestemt ikke uimodale. Alt hvad du skal gøre for at se, er at klippe og indsætte din kode, ordret. Faktisk vil en blanding af normalt distribuerede variabler aldrig være unimodal (medmindre en af blandingsforholdene naturligvis er 1).
  • @Macro, at ‘ s ikke korrekt. Se for eksempel abstrakten fra Roeder 1994 (JASA) for det velkendte resultat, at ” tætheden af to blandede normaler ikke er bimodal, medmindre midlerne er adskilt af mindst 2 standardafvigelser “. Hvis de adskilles med mindre end dette, er blandingen unimodal.
  • Du ‘ har ret @guest. Jeg ‘ glemte den mulighed, da jeg skrev mit indlæg

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *