Kan någon erbjuda ett exempel på en unimodal fördelning som har en snedhet på noll men som inte är symmetrisk?

I maj 2010 lade Wikipedia-användaren Mcorazao till en mening i skevhetsartikel om att ”A nollvärde indikerar att värdena är relativt jämnt fördelade på båda sidor av medelvärdet, vanligtvis men inte nödvändigtvis en symmetrisk fördelning. ” Wiki-sidan har dock inga faktiska exempel på distributioner som bryter mot denna regel. Googling ”exempel på asymmetriska fördelningar med noll skevhet” ger inte några verkliga exempel, åtminstone i de första 20 resultaten.

Med definitionen att skevheten beräknas med $ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \ , \ Big] $ och R-formeln

sum((x-mean(x))^3)/(length(x) * sd(x)^3) 

Jag kan konstruera en liten , godtycklig fördelning för att göra snedställningen låg. Till exempel ger distributionen

x = c(1, 3.122, 5, 4, 1.1) 

en skevhet på $ -5,64947 \ cdot10 ^ {- 5} $. Men detta är ett litet urval och dessutom är avvikelsen från symmetri inte stor. Så är det möjligt att konstruera en större fördelning med en topp som är mycket asymmetrisk men ändå har en snedhet på nästan noll?

Kommentarer

  • Vill du att distributionen ska vara unimodal eller inte? Titeln säger det, men texten nämner knappt den här punkten.
  • @Dilip Ja, jag ’ Jag tycker att det är mer intressant om distributionen var unimodal, eftersom det är snett , som ett centralt ögonblick, är det inte riktigt ’ annars.

Svar

Tänk på diskreta distributioner. En som stöds på $ k $ värden $ x_1, x_2, \ ldots, x_k $ bestäms av icke-negativa sannolikheter $ p_1 , p_2, \ ldots, p_k $ under förutsättning att (a) de summerar till 1 och (b) snedhetskoefficienten är lika med 0 (vilket motsvarar det tredje centrala ögonblicket som noll). Det lämnar $ k-2 $ frihetsgrader (i ekvationslösning, inte den statistiska!). Vi kan hoppas hitta lösningar som är unimodala.

För att göra sökningen efter exempel enklare sökte jag lösningar som stöds på en liten symmetrisk vektor $ \ mathbf {x} = (- 3, -2, -1,0,1,2,3) $ med ett unikt läge vid $ 0 $ , noll medelvärde och noll skevhet. En sådan lösning är $ (p_1, \ ldots, p_7) = (1396, 3286, 9586, 47386, 8781, 3930, 1235) / 75600 $ .

Sannolikhetsfunktion

Du kan se att den är asymmetrisk.

Här ”är en tydligare asymmetrisk lösning med $ \ mathbf {x} = (-3, -1,0,1,2) $ (vilket är asymmetriskt) och $ p = (1,18, 72, 13, 4) / 108 $ :

Sannolikhetsfunktion 2

Nu är det uppenbart vad som händer: eftersom medelvärdet är lika med $ 0 $ , de negativa värdena bidrar till $ (- 3) ^ 3 = -27 $ och $ 18 \ gånger (- 1) ^ 3 = -18 $ till tredje ögonblicket medan de positiva värdena bidrar till $ 4 \ gånger 2 ^ 3 = 32 $ och $ 13 \ gånger 1 ^ 3 = 13 $ , exakt balanserar det negativa bidrag. Vi kan ta en symmetrisk fördelning om $ 0 $ , till exempel $ \ mathbf {x} = (- 1,0,1 ) $ med $ \ mathbf {p} = (1,4,1) / 6 $ , och flytta en liten massa från $ + 1 $ till $ + 2 $ , en liten massa från $ + 1 $ ner till $ – 1 $ , och en liten mängd massa ner till $ – 3 $ , med medelvärdet på $ 0 $ och snedställningen vid $ 0 $ , samtidigt som du skapar en asymmetri . Samma tillvägagångssätt kommer att fungera för att upprätthålla noll medelvärde och noll skevhet av en kontinuerlig fördelning samtidigt som den blir asymmetrisk; om vi inte är för aggressiva med massförskjutningen kommer den att förbli unimodal. ett uttryckligt exempel med kontinuerliga distributioner. Peter Flom hade en bra idé: titta på blandningar av normaler. En blandning av två normaler kommer inte att göra: när dess snedhet försvinner kommer den att vara symmetrisk. Nästa enklaste fall är en blandning av tre normaler.

Blandningar av tre normaler, efter lämpligt val av plats och skala, beror på sex verkliga parametrar och bör därför ha mer än tillräckligt med flexibilitet för att producera en asymmetrisk, noll-snedställd lösning . För att hitta några måste vi veta hur man beräknar skevheter av blandningar av normaler. Bland dessa kommer vi att söka efter alla som är unimodala (det är möjligt att det inte finns några).

Nu, i allmänhet, $ r ^ \ text {th } $ (icke-centralt) ögonblick för en normal normalfördelning är noll när $ r $ är udda och annars lika med $ 2 ^ {r / 2} \ Gamma \ left (\ frac {1-r} {2} \ right) / \ sqrt {\ pi} $ . När vi skalar om den normala normalfördelningen för att ha en standardavvikelse på $ \ sigma $ , kommer $ r ^ \ text {th } $ moment multipliceras med $ \ sigma ^ r $ . När vi flyttar någon distribution med $ \ mu $ , kommer den nya $ r ^ \ text {th} $ moment kan uttryckas i termer av moment till och med $ r $ . Momentet för en blandning av fördelningar (det vill säga ett viktat genomsnitt av dem) är samma viktade genomsnitt för de enskilda momenten. Slutligen är snedheten noll exakt när det tredje centrala ögonblicket är noll, och detta beräknas lätt i termer av de första tre ögonblicken.

Detta ger oss en algebraisk attack på problemet. En lösning som jag hittade är en lika blandning av tre normaler med parametrar $ (\ mu, \ sigma) $ lika med $ ( 0,1) $ , $ (1 / 2,1) $ och $ (0, \ sqrt {127/18}) \ approx (0, 2.65623) $ . Dess medelvärde är lika med $ (0 + 1/2 + 0) / 3 = 1/6 $ . Denna bild visar pdf-filen i blått och pdf-filen för distributionen vändes om dess genomsnitt i rött. Att de skiljer sig åt visar att de båda är asymmetriska. (Läget är ungefär $ 0,0519216 $ , ojämnt med medelvärdet av $ 1/6 $ .) De har båda nollvis snedvridning av konstruktionen .

Kontinuerliga exempel

Plotten visar att dessa är unimodala. (Du kan kontrollera med Calculus för att hitta lokala maxima.)

Kommentarer

  • (+1) Mycket smidigt svar. Fungerar det dock med kontinuerliga distributioner? Skulle ’ inte förskjutningen kunna skapa små små lägen? Jag kanske inte tänker rakt …
  • Du ’ tänker ganska bra, makro: vi borde alla vara så skeptiska. Tricket är att flytta små mängder spridda över stora intervall. Ett första derivat-test gör det möjligt för dig att söka efter möjliga lägen och ger också grund för ett bevis på att tillräckligt små förskjutningar av detta formulär inte ger nya lägen.
  • Tack för svaret! Det här liknar det jag tänkte intuitivt, även om jag inte kunde ’ inte uttrycka det ord – att du måste ” balansera ” massan på vardera sidan av distributionen. Får mig att undra om det finns stereotypa sätt på vilka man kan utföra denna balanseringshandling.
  • Ett sätt, Andy, är att börja med en diskret lösning och sedan konvolvera den med en normalfördelning. I detta fall kommer unimodalitetskravet att tvinga den normala fördelningen att ha en stor standardavvikelse. Ändå, om fällningen inte märkbart ändrar de erforderliga egenskaperna (som noll skevhet), eller om den förändras på förutsägbara sätt, har du ett matematiskt grepp om problemet. På något sätt kan min senaste redigering ses som en sådan attack, även om den ’ inte är en strikt sammanfogning (eftersom de tre normalerna har olika standardavvikelser).
  • > Jag har kontrollerat, Andy: att konvolvera den diskreta lösningen med en normalfördelning förändrar inte snedheten. När du ger den normala fördelningen en standardavvikelse på cirka 0,57 eller högre är resultatet unimodalt. Liksom den underliggande diskreta fördelningen fortsätter den att ha noll medelvärde, noll skevhet och vara asymmetrisk. Att blanda in det med en normal normalfördelning uppgår till en kontrollerad massrörelse mellan standardnormalen och den diskreta fördelningen: som kan uppfylla din begäran om en ” stereotyp ” -metod.

Svar

Här är en jag hittade på https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html # vilket jag tycker är trevligt och återges i R: en invers Burr- eller Dagum-distribution med formparametrar $ k = 0,0629 $ och $ c = 18.1484 $:

$$ g (x) = ckx ^ {- (c + 1)} [1 + x ^ {- c}] ^ {- (k + 1)} $$

Det har medelvärde 0.5387, standardavvikelse 0,2907, skevhet 0,0000 och kurtos 2,0000. Källan kallar det också ”elefantdistributionen”: ange bildbeskrivning här

Min reproduktion i R skapades med

 library(actuar) library(knotR) # a nonsymmetric distribution with zero skewness # see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html# c <- 18.1484 k <- 0.0629 x <- seq(0,1.5,by=.0001) elephant.density <- dinvburr(x, k, c) plot(x,elephant.density, type="l") polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey") points(0.8,0.8, pch=19, cex=2) # "ears" created via https://www.desmos.com/calculator/cahqdxeshd ear.x <- c(0.686, 0.501, 0.42, 0.68) ear.y <- c(0.698, 0.315, 1.095, 0.983) myseg(bezier(cbind(ear.x, ear.y)), type="l") EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k) EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k) (skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196  

Som denna utdata visar är snedheten inte helt noll till fyra siffror för dessa parametervärden. Här är en liten optimizer för $ k $ och $ c $:

 # optimize skewness a bit further skewval <- 1 while (skewval > 10^(-10)){ optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c) skewval <- optskew.k$f.root k <- optskew.k$root optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k) skewval <- optskew.c$f.root c <- optskew.c$root } 

ger

> print(c) [1] 18.89306 > print(k) [1] 0.05975542 > print(skewval) [1] -1.131464e-15 

Kommentarer

  • Tack för redigeringen. Med det sagt kunde jag inte reproducera snedheten på 0,0000 till fyra siffror, utan att få 0,0001245138 istället (se nästa redigering, i R-koden).
  • Man kan antagligen köra en enkel optimerare för att hitta $ c $ och $ k $ -värden så att snedställningen är så nära noll som möjligt. Det borde vara ett par ytterligare rader eller kanske till och med en. Du har redan förlustfunktionen analytiskt beräknad i din sista rad. Finns det en lämplig generisk optimerare i R?
  • Egentligen 0,0003756196. 0.0001245138 var redan efter en viss initial optimering, här av misstag. Jag ska titta.
  • @amoeba, jag försökte optimera lite, men jag gör inga påståenden om att ha gjort det på ett smart sätt, jag har liten erfarenhet av optimering.
  • Skevhet att ’ s noll till tre siffror (nästan fyra) var mycket för mig. det ’ inte som ett mer exakt värde gör att det ser annorlunda ut. Om skevhet kommer att korsa noll i den närheten och det ’ är klart vilka riktningar du ska justera värdena om mer noggrannhet behövs, tror jag att ’ är tillräckliga. Men kudos för den extra ansträngningen. (Det ’ är förresten ett underbart exempel.)

Svar

Tänk på en fördelning på den positiva halvan av den verkliga linjen som ökar linjärt från 0 till läget och sedan är exponentiell till höger om läget, men är kontinuerlig i läget.

Detta kan kallas en triangulär-exponentiell fördelning (även om det ofta ser ut som en hajfena).

Låt $ \ theta $ vara läget för läget och $ \ lambda $ vara hastighetsparametern för exponential.

När $ \ lambda \ theta $ ökar blir fördelningen gradvis mindre sned. När $ \ lambda \ theta $ ökar över $ \ ca 6,15 $ går det tredje ögonblicket från positivt till negativt:

Triangular-Exponential with zero skewness

Brizzi (2006) $ ^ {[1]} $ refererar till denna familj av distributioner som ”två-ansikts” distribution och diskuterar denna delningspunkt där tredje ögonblicks skevheten är noll. von Hippel (2005) $ ^ {[2]} $ presenterar ett exempel som ”är nästan vid den delningspunkten här

Tråden Icke-normala fördelningar med noll skevhet och noll överskott av kurtos? har några asymmetriska exempel, inklusive ett litet diskret exempel och en annan kontinuerlig unimodal:

Unimodal Gaussisk blandning med noll skevhet

Diskreta unimodala fördelningar – eller motsvarande, sampel – med noll skevhet är ganska enkla att konstruera, av stor eller liten storlek.

Här är ett exempel som du kan behandla som ett prov eller (genom att dela råa frekvenser med 3000) som en pmf ( ”x” -värdena är de värden som tas, ”n” är det antal gånger som värdet uppträder i provet):

x: -2 -1 0 1 2 3 4 5 6 7 8 9 10 n: 496 498 562 1434 2 1 1 1 1 1 1 1 1 

En plot av sannolikhetsmassfunktionen konstruerad från ovanstående

Detta exempel är uppbyggt f rom 3-punktsfördelningar:

x: -2 1 c n: c(c-1)(c+1)/6 c(c-1)(c+1)/3 - c 1 

över olika värden på $ c $ mellan 3 och 10. Denna parametrerade (med $ c $) 3-punkts ”atom ”har $ \ sum_i n_ix_i = 0 $ och $ \ sum_i n_ix_i ^ 3 = 0 $, vilket i sin tur innebär att blandningar över olika val av $ c $ har ingen snedhet. (Du kan inte göra något mindre än en fördelning över tre punkter som har asymmetri och tredje centrala moment noll. En samling enkla bitar över bara några få punkter, som dessa gör snygga byggstenar från vilka större strukturer kan göras.)

Det finns alla andra sådana ”atomer” man kan konstruera, men det här exemplet använder bara den här typen. Till någon kombination av atomer som dessa läggs några symmetriskt placerade värden för att fylla i återstående hål och garantera unimodalitet utan att förstöra strukturen för medelvärdet och tredje ögonblicket.

$ [1] $ Brizzi, M.(2006).

35 : 4, p455–462
http://www.stat.tugraz.at/AJS/ausg064/

$ [2] $ von Hippel, PT (2005),
”Mean, Median, and Skew: Correcting a Textbook Rule”
Journal of Statistics Education Volume 13, Nummer 2,
http://ww2.amstat.org/publications/jse/v13n2/vonhippel.html

Kommentarer

  • Kan det kanske kallas ” Shark-fin ” kanske?
  • @Glen_b Helt Shark-fin verkligen.

Svar

För noll skevhet behöver vi $$ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = 0 $$ eller, likvärdigt, $$ \ operatornamn {E} \ Big [ \ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ leq \ mu \ Big] + \ operatornamn {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ gt \ mu \ Big] = 0. $$

Nu, för givet medelvärde och varians, välj två fördelningar $ Y $ och $ Z $ med nollmassa till höger om $ \ mu $ och $$ \ operatorname {E} \ Big [\ big (\ tfrac {Y- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = \ operatorname {E} \ Big [ \ big (\ tfrac {Z- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] $$ och definiera $ X $ för att matcha $ Y $ om kvar till $ \ mu $ och $ (\ mu – Z) $ annars. (Vet du inte den exakta beteckningen för detta, någon som vill hjälpa till?)

Den resulterande distributionen blir unimodal om PDF-filerna på $ Y $ och $ Z $ ökar till vänster om $ \ mu $ (förutom att vara noll till höger om $ \ mu $).

Kommentarer

  • Hur garanterar du att distributionen är unimodal?
  • Tack för att ni påpekade detta. PDF-filerna på $ Y $ och $ Z $ måste strikt öka tills $ \ mu $ och sedan sjunka till noll.
  • Detta är rätt idé men det behöver fortfarande lite arbete, för $ \ sigma $ kan förändras när man kombinerar $ Y $ och $ Z $.
  • @whuber: Fan. Jag visste att hade att vara lite fallgrop … 🙂

Svar

Följande diskreta fördelning är asymmetrisk och har null skevhet: Prob (-4) = 1/3, Prob (1) = 1/2, Prob (5) = 1/6. Jag hittade det i Doric et al., Qual Quant (2009) 43: 481. -493; DOI 10.1007 / s11135-007-9128-9

Kommentarer

  • +1 Det checkar ut och det ’ är unimodalt. Att ’ är det enklaste möjliga exemplet.

Svar

Säker. Testa detta:

skew= function (x, na.rm = FALSE) { if (na.rm) x <- x[!is.na(x)] #remove missing values sum((x - mean(x))^3)/(length(x) * sd(x)^3) #calculate skew } set.seed(12929883) x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1)) skew(x) plot(density(x)) 

(Du har redan gjort det hårda!)

Kommentarer

  • trevligt, jag gillar det. +1
  • Det ’ är inte bimodalt … det ’ är hemskt multi -modell. Försök att plotta densiteten; curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
  • Data som genereras på detta sätt är verkligen inte unimodal. Allt du behöver göra för att se det är att klippa och klistra in din kod, verbatim. En blandning av normalfördelade variabler kommer faktiskt aldrig att vara unimodal (såvida inte en av blandningsproportionerna naturligtvis är 1).
  • @Macro, att ’ s ej korrekt. Se till exempel abstrakt från Roeder 1994 (JASA) för det välkända resultatet att ” densiteten för två blandade normaler är inte bimodal om inte medlen är åtskilda med minst 2 standardavvikelser ”. Om de skiljs åt med mindre än detta är blandningen unimodal.
  • Du ’ har rätt @gäst. Jag ’ glömde bort den möjligheten när jag gjorde mitt inlägg

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *