Kan iemand een voorbeeld geven van een unimodale verdeling die een scheefheid van nul heeft, maar die niet symmetrisch is?

In mei 2010 voegde Wikipedia-gebruiker Mcorazao een zin toe aan het scheefheidsartikel dat “A nulwaarde geeft aan dat de waarden relatief gelijkmatig verdeeld zijn over beide zijden van het gemiddelde, wat typisch maar niet noodzakelijk een symmetrische verdeling impliceert. ” De wikipagina heeft echter geen echte voorbeelden van distributies die deze regel overtreden. Googlen “voorbeeld asymmetrische distributies zonder scheefheid” geeft ook geen echte voorbeelden, althans in de eerste 20 resultaten.

Gebruikmakend van de definitie dat de scheefheid wordt berekend door $ \ operatornaam {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \ , \ Big] $, en de R-formule

sum((x-mean(x))^3)/(length(x) * sd(x)^3) 

Ik kan een kleine , willekeurige verdeling om de scheefheid laag te maken. De distributie

x = c(1, 3.122, 5, 4, 1.1) 

levert bijvoorbeeld een scheeftrekking op van $ -5.64947 \ cdot10 ^ {- 5} $. Maar dit is een kleine steekproef en bovendien is de afwijking van symmetrie niet groot. Is het dus mogelijk om een grotere verdeling te construeren met één piek die zeer asymmetrisch is maar nog steeds een scheefheid van bijna nul heeft?

Reacties

  • Wil je dat de distributie unimodaal is of niet? De titel zegt het, maar de tekst vermeldt dit punt nauwelijks.
  • @Dilip Ja, ik ‘ zou het interessanter vinden als de distributie unimodaal was, aangezien scheefheid , als centraal moment, heeft ‘ anders geen zin.

Antwoord

Overweeg discrete distributies. Een die wordt ondersteund op $ k $ waarden $ x_1, x_2, \ ldots, x_k $ worden bepaald door niet-negatieve kansen $ p_1 , p_2, \ ldots, p_k $ onder de voorwaarde dat (a) ze optellen tot 1 en (b) de scheefheidscoëfficiënt gelijk is aan 0 (wat overeenkomt met het derde centrale moment dat nul is). Dat laat $ k-2 $ vrijheidsgraden over (in de zin van het oplossen van vergelijkingen, niet in de statistische zin!). We kunnen hopen oplossingen te vinden die unimodaal zijn.

Om het zoeken naar voorbeelden gemakkelijker te maken, zocht ik naar oplossingen die werden ondersteund op een kleine symmetrische vector $ \ mathbf {x} = (- 3, -2, -1,0,1,2,3) $ met een unieke modus op $ 0 $ , gemiddelde nul en nul scheefheid. Een van deze oplossingen is $ (p_1, \ ldots, p_7) = (1396, 3286, 9586, 47386, 8781, 3930, 1235) / 75600 $ .

Waarschijnlijkheidsfunctie

Je kunt zien dat het asymmetrisch is.

Hier is een duidelijker asymmetrische oplossing met $ \ mathbf {x} = (-3, -1,0,1,2) $ (wat asymmetrisch is) en $ p = (1,18, 72, 13, 4) / 108 $ :

Waarschijnlijkheidsfunctie 2

Nu is het duidelijk wat er aan de hand is: omdat het gemiddelde gelijk is aan $ 0 $ , de negatieve waarden dragen $ (- 3) ^ 3 = -27 $ en $ 18 \ keer (- 1) ^ 3 = -18 $ tot het derde moment terwijl de positieve waarden bijdragen $ 4 \ maal 2 ^ 3 = 32 $ en $ 13 \ times 1 ^ 3 = 13 $ , waarbij het negatieve precies in evenwicht is bijdragen. We kunnen een symmetrische verdeling nemen over $ 0 $ , zoals $ \ mathbf {x} = (- 1,0,1 ) $ met $ \ mathbf {p} = (1,4,1) / 6 $ , en verschuif een beetje massa van $ + 1 $ tot $ + 2 $ , een kleine massa van $ + 1 $ tot $ – 1 $ , en een kleine hoeveelheid massa tot $ – 3 $ , waarbij het gemiddelde op $ 0 $ en de scheefheid ook op $ 0 $ behouden blijft, terwijl er een asymmetrie ontstaat . Dezelfde aanpak zal werken om een gemiddelde nul en nul scheefheid van een continue distributie te behouden en deze tegelijkertijd asymmetrisch te maken; als we niet te agressief zijn met de massale verschuiving, zal het unimodaal blijven.


Bewerken: continue distributies

Omdat het probleem zich blijft voordoen, laten we eens kijken een expliciet voorbeeld met continue distributies. Peter Flom had een goed idee: kijk naar mengsels van normalen. Een mengeling van twee normalen zal niet doen: wanneer de scheefheid verdwijnt, zal het symmetrisch zijn. Het volgende eenvoudigste geval is een mengeling van drie normalen.

Mengsels van drie normalen, na een juiste keuze van locatie en schaal, zijn afhankelijk van zes reële parameters en zouden daarom meer dan voldoende flexibiliteit moeten hebben om een asymmetrische, zero-skewness-oplossing te produceren . Om er een paar te vinden, moeten we weten hoe we scheefstanden van mengsels van normalen kunnen berekenen. Hiervan zullen we zoeken naar unimodale (het is mogelijk dat er geen zijn).

In het algemeen is de $ r ^ \ text {th } $ (niet-centraal) moment van een standaard normale verdeling is nul wanneer $ r $ oneven is en anders gelijk is aan $ 2 ^ {r / 2} \ Gamma \ left (\ frac {1-r} {2} \ right) / \ sqrt {\ pi} $ . Wanneer we die standaard normale verdeling herschalen om een standaarddeviatie te hebben van $ \ sigma $ , de $ r ^ \ text {th } $ moment wordt vermenigvuldigd met $ \ sigma ^ r $ . Wanneer we een verdeling verschuiven met $ \ mu $ , wordt de nieuwe $ r ^ \ text {th} $ moment kan worden uitgedrukt in termen van momenten tot en met $ r $ . Het moment van een mix van verdelingen (dat wil zeggen een gewogen gemiddelde daarvan) is hetzelfde gewogen gemiddelde van de individuele momenten. Ten slotte is de scheefheid nul, precies wanneer het derde centrale moment nul is, en dit kan gemakkelijk worden berekend in termen van de eerste drie momenten.

Dit geeft ons een algebraïsche aanval op het probleem. Een oplossing die ik heb gevonden is een gelijke combinatie van drie normalen met parameters $ (\ mu, \ sigma) $ gelijk aan $ ( 0,1) $ , $ (1 / 2,1) $ , en $ (0, \ sqrt {127/18}) \ circa (0, 2,65623) $ . Het gemiddelde is gelijk aan $ (0 + 1/2 + 0) / 3 = 1/6 $ . Deze afbeelding toont de pdf in blauw en de pdf van de distributie omgedraaid om zijn gemiddelde in rood. Dat ze van elkaar verschillen, toont aan dat ze beide asymmetrisch zijn. (De modus is ongeveer $ 0,0519216 $ , ongelijk aan het gemiddelde van $ 1/6 $ .) Ze vertonen allebei geen scheefheid door constructie .

Doorlopende voorbeelden

De plots geven aan dat deze unimodaal zijn. (Je kunt Calculus controleren om lokale maxima te vinden.)

Reacties

  • (+1) Zeer gelikt antwoord. Werkt dit echter met continue distributies? Zou ‘ t de verschuiving mogelijk kleine modi creëren? Ik denk misschien niet helder …
  • Jij ‘ denkt heel goed na, Macro: we zouden allemaal zo sceptisch moeten zijn. De truc is om kleine hoeveelheden over een groot bereik te verdelen. Een eerste afgeleide test stelt u in staat om te controleren op mogelijke modi en biedt ook de basis voor een bewijs dat voldoende kleine verschuivingen van deze vorm geen nieuwe modi zullen produceren.
  • Bedankt voor het antwoord! Dit is vergelijkbaar met wat ik intuïtief dacht, hoewel ik het ‘ niet goed onder woorden kon brengen – dat je ” in evenwicht moet houden ” de massa aan elke kant van de distributie. Ik vraag me af of er stereotiepe manieren zijn waarop iemand deze evenwichtsoefening kan uitvoeren.
  • Eén manier, Andy, is om te beginnen met een discrete oplossing en deze vervolgens te convolueren met een normale verdeling. In dit geval zal de unimodaliteitsvereiste die normale verdeling dwingen een grote standaarddeviatie te hebben. Toch, als de convolutie de vereiste eigenschappen niet merkbaar verandert (zoals geen scheefheid), of het verandert het op voorspelbare manieren, dan heb je een wiskundige greep op het probleem. In zekere zin kan mijn recente bewerking als zon aanval worden gezien, hoewel het ‘ niet strikt een convolutie is (omdat de drie normalen verschillende standaarddeviaties hebben).
  • Ik heb het gecontroleerd, Andy: het convolueren van de discrete oplossing met een normale verdeling verandert de scheefheid niet. Als je die normale verdeling een standaarddeviatie geeft van ongeveer 0,57 of groter, is het resultaat unimodaal. Net als de onderliggende discrete distributie, blijft het gemiddelde nul, nul scheefheid en asymmetrisch zijn. Dit mengen met een standaard normale distributie komt neer op een gecontroleerde beweging van massa tussen de standaard normale en de discrete distributie: dat zou kunnen voldoen aan uw verzoek om een ” stereotiep ” methode.

Antwoord

Hier is er een die ik heb gevonden op https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html # die ik mooi en gereproduceerd vind in R: een omgekeerde Burr- of Dagum-verdeling met vormparameters $ k = 0.0629 $ en $ c = 18.1484 $:

$$ g (x) = ckx ^ {- (c + 1)} [1 + x ^ {- c}] ^ {- (k + 1)} $$

Het heeft een gemiddelde 0.5387, standaarddeviatie 0,2907, scheefheid 0,0000 en kurtosis 2,0000. De bron noemt het ook de “olifantendistributie”: voer de beschrijving van de afbeelding hier in

Mijn reproductie in R is gemaakt met

 library(actuar) library(knotR) # a nonsymmetric distribution with zero skewness # see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html# c <- 18.1484 k <- 0.0629 x <- seq(0,1.5,by=.0001) elephant.density <- dinvburr(x, k, c) plot(x,elephant.density, type="l") polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey") points(0.8,0.8, pch=19, cex=2) # "ears" created via https://www.desmos.com/calculator/cahqdxeshd ear.x <- c(0.686, 0.501, 0.42, 0.68) ear.y <- c(0.698, 0.315, 1.095, 0.983) myseg(bezier(cbind(ear.x, ear.y)), type="l") EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k) EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k) (skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196  

Zoals deze uitvoer laat zien, is scheefheid niet helemaal nul tot vier cijfers voor deze parameterwaarden. Hier is een kleine optimalisatie voor $ k $ en $ c $:

 # optimize skewness a bit further skewval <- 1 while (skewval > 10^(-10)){ optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c) skewval <- optskew.k$f.root k <- optskew.k$root optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k) skewval <- optskew.c$f.root c <- optskew.c$root } 

opbrengst

> print(c) [1] 18.89306 > print(k) [1] 0.05975542 > print(skewval) [1] -1.131464e-15 

Reacties

  • Bedankt voor de bewerking. Dat gezegd hebbende, ik kon de scheefheid van 0,0000 tot vier cijfers niet reproduceren, maar in plaats daarvan 0,0001245138 verkrijgen (zie volgende bewerking, in de R-code).
  • Je kunt waarschijnlijk een eenvoudige optimizer gebruiken om $ c $ en $ k $ waarden zodanig dat de scheefheid zo dicht mogelijk bij nul ligt. Het zouden een paar extra regels moeten zijn, of misschien zelfs één. Je hebt de verliesfunctie al analytisch berekend in je laatste regel, is er een geschikte generieke optimizer in R?
  • Eigenlijk 0.0003756196. 0.0001245138 werd al na enige initiële optimalisatie hier per ongeluk opgegeven. Ik zal een kijkje nemen.
  • @amoeba, ik heb geprobeerd een beetje te optimaliseren, maar ik beweer niet dat ik dat op een slimme manier heb gedaan, ik heb weinig ervaring met optimalisatie.
  • Scheefheid dat ‘ s nul tot drie cijfers (bijna vier) mij genoeg was; het ‘ is niet als een nauwkeuriger waarde, waardoor het er anders uitziet. Als scheefheid in die buurt nul overschrijdt en het ‘ s duidelijk maakt in welke richtingen de waarden moeten worden aangepast als meer nauwkeurigheid nodig is, denk ik dat ‘ s voldoende. Maar een pluim voor de extra inspanning. (Het ‘ is trouwens een mooi voorbeeld.)

Antwoord

Beschouw een verdeling op de positieve helft van de reële lijn die lineair toeneemt van 0 naar de modus en dan exponentieel rechts van de modus is, maar continu is in de modus.

Dit zou kunnen wordt een driehoek-exponentiële verdeling genoemd (hoewel het er vaak een beetje uitziet als een haaienvin).

Laat $ \ theta $ de locatie van de modus zijn en $ \ lambda $ de tariefparameter van de exponentieel.

Naarmate $ \ lambda \ theta $ toeneemt, wordt de verdeling steeds minder scheef. Als $ \ lambda \ theta $ toeneemt tot voorbij $ \ ongeveer 6,15 $, gaat het derde moment over van positief naar negatief:

Triangular-Exponential with zero skewness

Brizzi (2006) $ ^ {[1]} $ verwijst naar deze familie van distributies als de “two-face” -distributie, en bespreekt dit crossover-punt waar de scheefheid van het derde moment nul is. von Hippel (2005) $ ^ {[2]} $ presenteert een voorbeeld dat “bijna op dat crossoverpunt is hier

De thread Niet-normale distributies zonder scheefheid en nul overmatige kurtosis? heeft enkele asymmetrische voorbeelden, waaronder een klein discreet voorbeeld en een ander continu unimodaal voorbeeld:

Unimodaal Gaussiaans mengsel zonder scheefheid

Discrete unimodale distributies – of equivalent, voorbeelden – zonder scheefheid zijn vrij eenvoudig te construeren, van groot of klein formaat.

Hier is een voorbeeld, dat je kunt behandelen als een sample of (door de ruwe frequenties te delen door 3000) als een pmf ( de “x” -waarden zijn de genomen waarden, de “n” zijn het aantal keren dat de waarde voorkomt in de steekproef):

x: -2 -1 0 1 2 3 4 5 6 7 8 9 10 n: 496 498 562 1434 2 1 1 1 1 1 1 1 1 

Een grafiek van de waarschijnlijkheidsmassafunctie geconstrueerd op basis van het bovenstaande

Dit voorbeeld is opgebouwd uit rom 3-punts distributies:

x: -2 1 c n: c(c-1)(c+1)/6 c(c-1)(c+1)/3 - c 1 

over verschillende waarden van $ c $ tussen 3 en 10. Dit geparametriseerde (door $ c $) 3-punts “atoom “heeft $ \ sum_i n_ix_i = 0 $ en $ \ sum_i n_ix_i ^ 3 = 0 $, wat op zijn beurt betekent dat mengsels over verschillende keuzes van $ c $ geen scheefheid vertonen. (Je kunt niets kleiner maken dan een verdeling over drie punten met asymmetrie en het derde centrale moment nul. Een verzameling eenvoudige stukken over slechts een paar punten, zoals deze, zijn nette bouwstenen waaruit grotere constructies kunnen worden gemaakt.)

Er zijn allerlei andere van dergelijke “atomen” die men kan construeren, maar in dit voorbeeld wordt alleen deze soort gebruikt. Aan een combinatie van atomen zoals deze worden een paar symmetrisch geplaatste waarden toegevoegd om de resterende gaten op te vullen en unimodaliteit garanderen zonder de structuur van het gemiddelde en het derde moment te vernietigen.

$ [1] $ Brizzi, M.(2006),
“A Skewed Model Combining Triangular and Exponential Features: The Two-Faced Distribution and its Statistical Properties”
Austrian Journal of Statistics , 35 : 4, p455–462
http://www.stat.tugraz.at/AJS/ausg064/

$ [2] $ von Hippel, PT (2005),
“Mean, Median, and Skew: Correcting a Textbook Rule”
Journal of Statistics Education Volume 13, Nummer 2,
http://ww2.amstat.org/publications/jse/v13n2/vonhippel.html

Opmerkingen

  • Zou het misschien de ” Shark-fin ” kunnen noemen?
  • @Glen_b Helemaal haaienvin inderdaad.

Antwoord

Voor nul scheefheid hebben we $$ \ operatorname {E} nodig \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = 0 $$ of, equivalent, $$ \ operatornaam {E} \ Big [ \ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ leq \ mu \ Big] + \ operatornaam {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ gt \ mu \ Big] = 0. $$

Kies nu voor het gegeven gemiddelde en de variantie twee willekeurige verdelingen $ Y $ en $ Z $ met massa nul aan de rechterkant van $ \ mu $ en $$ \ operatornaam {E} \ Big [\ big (\ tfrac {Y- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = \ operatornaam {E} \ Big [ \ big (\ tfrac {Z- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] $$ en definieer $ X $ zodat deze overeenkomt met $ Y $ indien links van $ \ mu $ en $ (\ mu – Z) $ anders. (Weet niet de exacte notatie hiervoor, wil iemand helpen?)

De resulterende distributie zal unimodaal zijn als de pdfs van $ Y $ en $ Z $ aan de linkerkant van $ \ mu toenemen $ (behalve dat het nul is rechts van $ \ mu $).

Reacties

  • Hoe garandeer je dat de distributie unimodaal is?
  • Bedankt dat je hierop hebt gewezen. De pdfs van $ Y $ en $ Z $ zullen strikt moeten worden verhoogd tot $ \ mu $, en dan naar nul moeten worden verlaagd.
  • Dit is het juiste idee, maar er is nog wat werk voor nodig, want $ \ sigma $ kan veranderen wanneer $ Y $ en $ Z $ worden gecombineerd.
  • @whuber: Verdomme. Ik wist dat er had een valkuil te zijn … 🙂

Antwoord

De volgende discrete verdeling is asymmetrisch en heeft null scheefheid: Prob (-4) = 1/3, Prob (1) = 1/2, Prob (5) = 1/6. Ik vond het in het artikel van Doric et al., Qual Quant (2009) 43: 481 -493; DOI 10.1007 / s11135-007-9128-9

Reacties

  • +1 Het checkt uit en het ‘ is unimodaal. Dat ‘ is het eenvoudigst mogelijke voorbeeld.

Antwoord

Zeker. Probeer dit:

skew= function (x, na.rm = FALSE) { if (na.rm) x <- x[!is.na(x)] #remove missing values sum((x - mean(x))^3)/(length(x) * sd(x)^3) #calculate skew } set.seed(12929883) x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1)) skew(x) plot(density(x)) 

(Je hebt de moeilijke dingen al gedaan!)

Reacties

  • leuk, ik vind het leuk. +1
  • Het ‘ is niet bimodaal … het ‘ is vreselijk multi -modaal. Probeer de dichtheid uit te zetten; curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
  • Gegevens die op deze manier worden gegenereerd, zijn zeker niet unimodaal. Het enige dat u hoeft te doen om dat te zien, is uw code letterlijk knippen en plakken. Inderdaad, een mengsel van normaal verdeelde variabelen zal nooit unimodaal zijn (tenzij een van de mengverhoudingen natuurlijk 1 is).
  • @Macro, dat ‘ s niet correct. Zie bijvoorbeeld de samenvatting van Roeder 1994 (JASA) voor het bekende resultaat dat ” de dichtheid van twee gemengde normalen niet bimodaal is, tenzij de gemiddelden worden gescheiden door ten minste 2 standaarddeviaties “. Als ze worden gescheiden door minder dan dit, is het mengsel unimodaal.
  • U ‘ heeft gelijk @guest. Ik ‘ was die mogelijkheid vergeten toen ik mijn bericht plaatste

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *