Nel maggio 2010, lutente di Wikipedia Mcorazao ha aggiunto una frase all articolo sullasimmetria che “A il valore zero indica che i valori sono distribuiti in modo relativamente uniforme su entrambi i lati della media, in genere ma non necessariamente implicando una distribuzione simmetrica. ” Tuttavia, la pagina wiki non ha esempi reali di distribuzioni che infrangono questa regola. Anche cercare su Google “distribuzioni asimmetriche di esempio con asimmetria zero” non fornisce esempi reali, almeno nei primi 20 risultati.
Usando la definizione che lo skew è calcolato da $ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \ , \ Big] $ e la formula R
sum((x-mean(x))^3)/(length(x) * sd(x)^3)
posso costruire un piccolo , distribuzione arbitraria per ridurre lasimmetria. Ad esempio, la distribuzione
x = c(1, 3.122, 5, 4, 1.1)
produce uninclinazione di $ -5.64947 \ cdot10 ^ {- 5} $. Ma questo è un piccolo campione e inoltre la deviazione dalla simmetria non è grande. Quindi, è possibile costruire una distribuzione più ampia con un picco che è altamente asimmetrico ma ha ancora unasimmetria di quasi zero?
Commenti
- Vuoi che la distribuzione sia unimodale o no? Il titolo dice così, ma il testo menziona appena questo punto.
- @Dilip Sì, ‘ troverei più interessante se la distribuzione fosse unimodale, poiché lasimmetria , come momento centrale, ‘ non ha davvero senso altrimenti.
Risposta
Considera distribuzioni discrete. Una supportata su $ k $ valori $ x_1, x_2, \ ldots, x_k $ è determinato da probabilità non negative $ p_1 , p_2, \ ldots, p_k $ soggetti alle condizioni che (a) si sommano a 1 e (b) il coefficiente di asimmetria è uguale a 0 (che è equivalente al fatto che il terzo momento centrale sia zero). Ciò lascia $ k-2 $ gradi di libertà (nel senso della risoluzione di equazioni, non in quello statistico!). Possiamo sperare di trovare soluzioni unimodali.
Per rendere più semplice la ricerca di esempi, ho cercato soluzioni supportate su un piccolo vettore simmetrico $ \ mathbf {x} = (- 3, -2, -1,0,1,2,3) $ con una modalità univoca a $ 0 $ , media zero e zero asimmetria. Una di queste soluzioni è $ (p_1, \ ldots, p_7) = (1396, 3286, 9586, 47386, 8781, 3930, 1235) / 75600 $ .
Puoi vedere che è asimmetrica.
Qui “una soluzione più ovviamente asimmetrica con $ \ mathbf {x} = (-3, -1,0,1,2) $ (che è asimmetrico) e $ p = (1,18, 72, 13, 4) / 108 $ :
Ora è ovvio cosa “sta succedendo: perché la media è uguale a $ 0 $ , i valori negativi contribuiscono $ (- 3) ^ 3 = -27 $ e $ 18 \ times (- 1) ^ 3 = -18 $ al terzo momento mentre i valori positivi contribuiscono $ 4 \ times 2 ^ 3 = 32 $ e $ 13 \ times 1 ^ 3 = 13 $ , bilanciando esattamente il negativo contributi. Possiamo prendere una distribuzione simmetrica su $ 0 $ , come $ \ mathbf {x} = (- 1,0,1 ) $ con $ \ mathbf {p} = (1,4,1) / 6 $ e sposta un po di massa da $ + 1 $ a $ + 2 $ , una piccola massa da $ + 1 $ fino a $ – 1 $ e una leggera quantità di massa fino a $ – 3 $ , mantenendo la media a $ 0 $ e anche lasimmetria a $ 0 $ , creando unasimmetria . Lo stesso approccio lavorerà per mantenere zero media e zero asimmetria di una distribuzione continua rendendola asimmetrica; se non siamo troppo aggressivi con lo spostamento di massa, rimarrà unimodale.
Modifica: distribuzioni continue
Poiché il problema continua a sorgere, diamo ” un esempio esplicito con distribuzioni continue. Peter Flom ha avuto una buona idea: guarda le miscele di normali. Una miscela di due normali non funzionerà: quando la sua asimmetria svanisce, sarà simmetrica. Il prossimo caso più semplice è una miscela di tre normali.
Le miscele di tre normali, dopo una scelta appropriata di posizione e scala, dipendono da sei parametri reali e quindi dovrebbero avere una flessibilità più che sufficiente per produrre una soluzione asimmetrica e senza asimmetria . Per trovarne alcune, dobbiamo sapere come calcolare le asimmetrie delle miscele di normali. Tra questi, cercheremo quelli unimodali (è possibile che non ce ne siano).
Ora, in generale, il $ r ^ \ text {th } $ momento (non centrale) di una distribuzione normale standard è zero quando $ r $ è dispari e altrimenti è uguale a $ 2 ^ {r / 2} \ Gamma \ left (\ frac {1-r} {2} \ right) / \ sqrt {\ pi} $ . Quando ridimensioniamo quella distribuzione normale standard per avere una deviazione standard di $ \ sigma $ , il $ r ^ \ text {th Il momento} $ viene moltiplicato per $ \ sigma ^ r $ . Quando spostiamo qualsiasi distribuzione di $ \ mu $ , il nuovo $ r ^ \ text {th} $ momento può essere espresso in termini di momenti fino a $ r $ incluso. Il momento di una miscela di distribuzioni (ovvero una media ponderata di esse) è la stessa media ponderata dei singoli momenti. Infine, lasimmetria è zero esattamente quando il terzo momento centrale è zero, e questo è prontamente calcolato in termini dei primi tre momenti.
Questo ci fornisce un attacco algebrico al problema. Una soluzione che ho trovato è una miscela uguale di tre normali con parametri $ (\ mu, \ sigma) $ uguale a $ ( 0,1) $ , $ (1 / 2,1) $ e $ (0, \ sqrt {127/18}) \ circa (0, 2.65623) $ . La sua media è uguale a $ (0 + 1/2 + 0) / 3 = 1/6 $ . Questa immagine mostra il pdf in blu e il pdf della distribuzione capovolta sulla sua media in rosso. Il fatto che differiscano mostra che sono entrambi asimmetrici. (La modalità è approssimativamente $ 0,0519216 $ , diversa dalla media di $ 1/6 $ .) Entrambi hanno zero asimmetria per costruzione .
I grafici indicano che questi sono unimodali. (Puoi controllare utilizzando il calcolo per trovare i massimi locali.)
Commenti
- (+1) Risposta molto chiara. Funzionerà però con le distribuzioni continue? ‘ lo spostamento non creerebbe potenzialmente minuscole modalità? Potrei non pensare chiaramente …
- Tu ‘ stai pensando abbastanza bene, Macro: dovremmo essere tutti così scettici. Il trucco è spostare piccole quantità distribuite su ampi intervalli. Un test della derivata primaria ti consentirà di verificare le possibili modalità e fornisce anche la base per una prova che sufficientemente piccoli spostamenti di questa forma non produrrà nuovi modi.
- Grazie per la risposta! Questo è simile a quello che stavo pensando intuitivamente, anche se non potevo ‘ metterlo bene a parole: devi ” bilanciare ” la massa su ciascun lato della distribuzione. Mi chiedo se ci sono modi stereotipati in cui si può eseguire questo atto di bilanciamento.
- Un modo, Andy, è iniziare con una soluzione discreta e poi convolgerla con una distribuzione normale. In questo caso, il requisito di unimodalità costringerà quella distribuzione normale ad avere una grande deviazione standard. Anche così, se la convoluzione non cambia in modo apprezzabile le proprietà richieste (come zero asimmetria), o la modifica in modi prevedibili, hai una gestione matematica del problema. In un certo senso la mia recente modifica può essere vista come un attacco di questo tipo, sebbene ‘ non sia strettamente una convoluzione (perché le tre normali hanno deviazioni standard diverse).
- Ho controllato, Andy: convolgere la soluzione discreta con una distribuzione normale non cambia lasimmetria. Quando si assegna a quella distribuzione normale una deviazione standard intorno a 0,57 o superiore, il risultato è unimodale. Come la distribuzione discreta sottostante, continua ad avere media zero, asimmetria zero e ad essere asimmetrica. Mescolare questo con una distribuzione normale standard equivale a un movimento controllato della massa tra la distribuzione normale standard e quella discreta: ciò potrebbe soddisfare la tua richiesta di ” stereotipato ” metodo.
Risposta
Eccone uno che ho trovato in https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html # che trovo carino e riprodotto in R: una distribuzione inversa Burr o Dagum con parametri di forma $ k = 0,0629 $ e $ c = 18.1484 $:
$$ g (x) = ckx ^ {- (c + 1)} [1 + x ^ {- c}] ^ {- (k + 1)} $$
Ha media 0.5387, deviazione standard 0,2907, asimmetria 0,0000 e curtosi 2,0000. La fonte la chiama anche “distribuzione elefante”:
La mia riproduzione in R è stata creata con
library(actuar) library(knotR) # a nonsymmetric distribution with zero skewness # see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html# c <- 18.1484 k <- 0.0629 x <- seq(0,1.5,by=.0001) elephant.density <- dinvburr(x, k, c) plot(x,elephant.density, type="l") polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey") points(0.8,0.8, pch=19, cex=2) # "ears" created via https://www.desmos.com/calculator/cahqdxeshd ear.x <- c(0.686, 0.501, 0.42, 0.68) ear.y <- c(0.698, 0.315, 1.095, 0.983) myseg(bezier(cbind(ear.x, ear.y)), type="l") EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k) EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k) (skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196
Come mostra questo output, lasimmetria è non proprio da zero a quattro cifre per questi valori di parametro. Ecco un piccolo ottimizzatore per $ k $ e $ c $:
# optimize skewness a bit further skewval <- 1 while (skewval > 10^(-10)){ optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c) skewval <- optskew.k$f.root k <- optskew.k$root optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k) skewval <- optskew.c$f.root c <- optskew.c$root }
cedendo
> print(c) [1] 18.89306 > print(k) [1] 0.05975542 > print(skewval) [1] -1.131464e-15
Commenti
- Grazie per la modifica. Detto questo, non sono riuscito a riprodurre lasimmetria da 0,0000 a quattro cifre, ottenendo invece 0,0001245138 (vedi la prossima modifica, nel codice R).
- Si può probabilmente eseguire un semplice ottimizzatore per trovare $ c $ e $ k $ valori tali che lasimmetria sia il più vicino possibile a zero. Dovrebbero essere un paio di righe aggiuntive o forse anche una. Hai già la funzione di perdita calcolata analiticamente nellultima riga, esiste un ottimizzatore generico adatto in R?
- In realtà, 0.0003756196. 0.0001245138 era già dopo unottimizzazione iniziale, qui fornita per errore. Darò unocchiata.
- @amoeba, ho provato a ottimizzare un po , ma non pretendo di averlo fatto in modo intelligente, ho poca esperienza con lottimizzazione.
- Lasimmetria che ‘ da zero a tre cifre (quasi quattro) fosse sufficiente per la mia mente; se ‘ non è come se un valore più preciso, sembrerà diverso. Se lasimmetria supera lo zero in quella zona e ‘ è chiaro in quali direzioni modificare i valori se è necessaria una maggiore precisione, ritengo che ‘ è sufficiente. Ma complimenti per lo sforzo aggiuntivo. (Tra laltro è ‘ un bellesempio.)
Rispondi
Considera una distribuzione sulla metà positiva della linea reale che aumenta linearmente da 0 alla modalità e quindi è esponenziale a destra della modalità, ma è continua alla modalità.
Ciò potrebbe essere chiamata distribuzione esponenziale triangolare (sebbene spesso assomigli un po a una pinna di squalo).
Sia $ \ theta $ la posizione della modalità e $ \ lambda $ il parametro di velocità del esponenziale.
Man mano che $ \ lambda \ theta $ aumenta, la distribuzione diventa progressivamente meno inclinata. Quando $ \ lambda \ theta $ aumenta dopo $ \ circa 6,15 $, il terzo momento passa da positivo a negativo:
Brizzi (2006) $ ^ {[1]} $ si riferisce a questa famiglia di distribuzioni come distribuzione “a due facce” e discute questo punto di crossover dove lasimmetria del terzo momento è zero. von Hippel (2005) $ ^ {[2]} $ presenta un esempio che “è quasi a quel punto di crossover qui
Il thread Distribuzioni non normali con zero asimmetria e zero curtosi in eccesso? ha alcuni esempi asimmetrici, tra cui un piccolo esempio discreto e un altro unimodale continuo:
Distribuzioni unimodali discrete o, equivalentemente, campioni – con asimmetria zero sono abbastanza facili da costruire, di grandi o piccole dimensioni.
Ecco un esempio, che puoi trattare come un campione o (dividendo le frequenze grezze per 3000) come un pmf ( i valori “x” sono i valori presi, la “n” è il numero di volte in cui il valore ricorre nel campione):
x: -2 -1 0 1 2 3 4 5 6 7 8 9 10 n: 496 498 562 1434 2 1 1 1 1 1 1 1 1
Questo esempio è costruito f distribuzioni rom a 3 punti:
x: -2 1 c n: c(c-1)(c+1)/6 c(c-1)(c+1)/3 - c 1
su vari valori di $ c $ compresi tra 3 e 10. Questo “atom” a 3 punti parametrizzato (da $ c $) “ha $ \ sum_i n_ix_i = 0 $ e $ \ sum_i n_ix_i ^ 3 = 0 $, che a sua volta significa che le miscele tra varie scelte di $ c $ hanno asimmetria zero. (Non puoi fare qualcosa di più piccolo di una distribuzione su tre punti che abbia asimmetria e terzo momento centrale zero. Una raccolta di pezzi semplici solo su pochi punti, come questi, crea blocchi da costruzione ordinati da cui possono essere realizzate strutture più grandi.)
Ci sono ogni sorta di altri “atomi” simili che si possono costruire, ma questo esempio usa solo questo tipo. A una combinazione di atomi come questi vengono aggiunti alcuni valori posizionati simmetricamente per riempire i buchi rimanenti e garantire lunimodalità senza distruggere la struttura della media e del terzo momento.
$ [1] $ Brizzi, M.(2006),
“A Skewed Model Combining Triangular and Exponential Features: The Two-Face Distribution and its Statistical Properties”
Austrian Journal of Statistics , 35 : 4, p455–462
http://www.stat.tugraz.at/AJS/ausg064/
$ [2] $ von Hippel, PT (2005),
“Mean, Median, and Skew: Correcting a Textbook Rule”
Journal of Statistics Education Volume 13, Numero 2,
http://ww2.amstat.org/publications/jse/v13n2/vonhippel.html
Commenti
- Potrebbe forse chiamarlo ” Shark-fin ” forse?
- @Glen_b Totalmente pinna di squalo davvero.
Risposta
Per asimmetria zero, abbiamo bisogno di $$ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = 0 $$ o, equivalentemente, $$ \ operatorname {E} \ Big [ \ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ leq \ mu \ Big] + \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ gt \ mu \ Big] = 0. $$
Ora, per una data media e varianza, scegli due distribuzioni qualsiasi $ Y $ e $ Z $ con massa zero sul lato destro di $ \ mu $ e $$ \ operatorname {E} \ Big [\ big (\ tfrac {Y- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = \ operatorname {E} \ Big [ \ big (\ tfrac {Z- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] $$ e definire $ X $ in modo che corrisponda a $ Y $ se a sinistra di $ \ mu $ e $ (\ mu – Z) $ altrimenti. (Non conosci la notazione esatta per questo, qualcuno vuole aiutare?)
La distribuzione risultante sarà unimodale se i PDF di $ Y $ e $ Z $ aumentano a sinistra di $ \ mu $ (oltre a essere zero a destra di $ \ mu $).
Commenti
- Come garantite che la distribuzione sia unimodale?
- Grazie per averlo sottolineato. I PDF di $ Y $ e $ Z $ dovranno aumentare rigorosamente fino a $ \ mu $, quindi scendere a zero.
- Questo è lidea giusta ma ha ancora bisogno di un po di lavoro, perché $ \ sigma $ può cambiare quando si combinano $ Y $ e $ Z $.
- @whuber: Dannazione. Lo sapevo che aveva essere una trappola … 🙂
Risposta
La seguente distribuzione discreta è asimmetrica e ha null asimmetria: Prob (-4) = 1/3, Prob (1) = 1/2, Prob (5) = 1/6. Lho trovato nel documento di Doric et al., Qual Quant (2009) 43: 481 -493; DOI 10.1007 / s11135-007-9128-9
Commenti
- +1 Verifica e è ‘ unimodal. Questo ‘ è lesempio più semplice possibile.
Risposta
Sicuro. Prova questo:
skew= function (x, na.rm = FALSE) { if (na.rm) x <- x[!is.na(x)] #remove missing values sum((x - mean(x))^3)/(length(x) * sd(x)^3) #calculate skew } set.seed(12929883) x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1)) skew(x) plot(density(x))
(Hai già fatto le cose difficili!)
Commenti
- carino, mi piace. +1
- ‘ non è bimodale … è ‘ è orribilmente multi -modale. Prova a tracciare la densità;
curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
- I dati generati in questo modo non sono certamente unimodali. Tutto quello che devi fare per vedere che è tagliare e incollare il tuo codice, alla lettera. In effetti, una miscela di variabili normalmente distribuite non sarà mai unimodale (a meno che, ovviamente, una delle proporzioni della miscela sia 1).
- @Macro, che ‘ s Non corretto. Vedi, per esempio, labstract di Roeder 1994 (JASA) per il noto risultato che ” la densità di due normali miste non è bimodale a meno che le medie non siano separate da almeno 2 deviazioni standard “. Se sono separati da un valore inferiore a questo, la combinazione è unimodale.
- ‘ hai ragione @guest. ‘ mi ero dimenticato di questa possibilità quando ho scritto il mio post