Alguém pode oferecer um exemplo de distribuição unimodal com assimetria zero, mas que não é simétrica?

Em maio de 2010, o usuário da Wikipedia Mcorazao adicionou uma frase ao artigo de assimetria que “A o valor zero indica que os valores estão distribuídos de maneira relativamente uniforme em ambos os lados da média, normalmente, mas não necessariamente, implicando em uma distribuição simétrica. ” No entanto, a página wiki não tem exemplos reais de distribuições que quebrem essa regra. Googling “exemplo de distribuições assimétricas com distorção zero” também não dá exemplos reais, pelo menos nos primeiros 20 resultados.

Usando a definição de que a inclinação é calculada por $ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \ , \ Big] $ e a fórmula R

sum((x-mean(x))^3)/(length(x) * sd(x)^3) 

Posso construir um pequeno , distribuição arbitrária para diminuir a assimetria. Por exemplo, a distribuição

x = c(1, 3.122, 5, 4, 1.1) 

produz uma inclinação de $ -5,64947 \ cdot10 ^ {- 5} $. Mas esta é uma amostra pequena e, além disso, o desvio da simetria não é grande. Portanto, é possível construir uma distribuição maior com um pico que é altamente assimétrico, mas ainda tem uma assimetria de quase zero?

Comentários

  • Você deseja que a distribuição seja unimodal ou não? O título diz isso, mas o texto quase não menciona esse ponto.
  • @Dilip Sim, eu ‘ acharia mais interessante se a distribuição fosse unimodal, pois assimetria , como um momento central, não ‘ realmente faz sentido de outra forma.

Resposta

Considere distribuições discretas. Uma que seja compatível com $ k $ valores $ x_1, x_2, \ ldots, x_k $ é determinado por probabilidades não negativas $ p_1 , p_2, \ ldots, p_k $ sujeito às condições de que (a) eles somam 1 e (b) o coeficiente de assimetria é igual a 0 (que é equivalente ao terceiro momento central sendo zero). Isso deixa $ k-2 $ graus de liberdade (no sentido de solução de equação, não estatístico!). Podemos esperar encontrar soluções que sejam unimodais.

Para tornar a busca por exemplos mais fácil, busquei soluções com suporte em um pequeno vetor simétrico $ \ mathbf {x} = (- 3, -2, -1,0,1,2,3) $ com um modo exclusivo em $ 0 $ , média zero e distorção zero. Uma dessas soluções é $ (p_1, \ ldots, p_7) = (1396, 3286, 9586, 47386, 8781, 3930, 1235) / 75600 $ .

Função de probabilidade

Você pode ver que é assimétrica.

Aqui “uma solução mais obviamente assimétrica com $ \ mathbf {x} = (-3, -1,0,1,2) $ (que é assimétrico) e $ p = (1,18, 72, 13, 4) / 108 $ :

Função de probabilidade 2

Agora é óbvio o que está acontecendo: porque a média é igual a $ 0 $ , os valores negativos contribuem com $ (- 3) ^ 3 = -27 $ e $ 18 \ vezes (- 1) ^ 3 = -18 $ para o terceiro momento enquanto os valores positivos contribuem com $ 4 \ vezes 2 ^ 3 = 32 $ e $ 13 \ times 1 ^ 3 = 13 $ , equilibrando exatamente o negativo contribuições. Podemos obter uma distribuição simétrica de $ 0 $ , como $ \ mathbf {x} = (- 1,0,1 ) $ com $ \ mathbf {p} = (1,4,1) / 6 $ , e deslocar um pouco de massa de $ + 1 $ a $ + 2 $ , uma pequena massa de $ + 1 $ até $ – 1 $ , e uma pequena quantidade de massa até $ – 3 $ , mantendo a média em $ 0 $ e a assimetria em $ 0 $ também, enquanto cria uma assimetria . A mesma abordagem funcionará para manter a média zero e a assimetria zero de uma distribuição contínua enquanto a torna assimétrica; se não formos muito agressivos com a mudança em massa, ela permanecerá unimodal.


Editar: distribuições contínuas

Como o problema continua surgindo, vamos ceder um exemplo explícito com distribuições contínuas. Peter Flom teve uma boa ideia: observe as misturas de normais. Uma mistura de dois normais não funcionará: quando sua assimetria desaparecer, ele será simétrico. O próximo caso mais simples é uma mistura de três normais.

Misturas de três normais, após uma escolha apropriada de local e escala, dependem de seis parâmetros reais e, portanto, devem ter flexibilidade mais do que suficiente para produzir uma solução assimétrica e de assimetria zero . Para encontrar alguns, precisamos saber como calcular assimetrias de misturas de normais. Entre eles, procuraremos qualquer um que seja unimodal (é possível que não haja nenhum).

Agora, em geral, o $ r ^ \ text {th } $ (não central) momento de uma distribuição normal padrão é zero quando $ r $ é ímpar e é igual a $ 2 ^ {r / 2} \ Gamma \ left (\ frac {1-r} {2} \ right) / \ sqrt {\ pi} $ . Quando redimensionamos essa distribuição normal padrão para ter um desvio padrão de $ \ sigma $ , o $ r ^ \ text {th } $ momento é multiplicado por $ \ sigma ^ r $ . Quando mudamos qualquer distribuição por $ \ mu $ , o novo $ r ^ \ text {th} $ momento pode ser expresso em termos de momentos até e incluindo $ r $ . O momento de uma mistura de distribuições (ou seja, uma média ponderada delas) é a mesma média ponderada dos momentos individuais. Finalmente, a assimetria é zero exatamente quando o terceiro momento central é zero, e isso é prontamente calculado em termos dos primeiros três momentos.

Isso nos dá um ataque algébrico ao problema. Uma solução que encontrei é uma mistura igual de três normais com parâmetros $ (\ mu, \ sigma) $ igual a $ ( 0,1) $ , $ (1 / 2,1) $ e $ (0, \ sqrt {127/18}) \ approx (0, 2.65623) $ . Sua média é igual a $ (0 + 1/2 + 0) / 3 = 1/6 $ . Esta imagem mostra o pdf em azul e o pdf da distribuição invertido em torno de sua média em vermelho. O fato de serem diferentes mostra que ambos são assimétricos. (O modo é aproximadamente $ 0,0519216 $ , diferente da média de $ 1/6 $ .) Ambos têm distorção zero por construção .

Exemplos contínuos

Os gráficos indicam que são unimodais. (Você pode verificar usando Cálculo para encontrar máximos locais.)

Comentários

  • (+1) Resposta muito habilidosa. Isso funcionará com distribuições contínuas? Não ‘ a mudança criaria modos minúsculos? Posso não estar pensando direito …
  • Você ‘ está pensando muito bem, Macro: todos deveríamos ser tão céticos. O truque é deslocar pequenas quantidades espalhadas por amplas faixas. Um teste de primeira derivada permitirá que você verifique os modos possíveis e também fornecerá a base para uma prova de que pequenas mudanças suficientemente desta forma não produzirão novos modos.
  • Obrigado pela resposta! Isso é semelhante ao que eu estava pensando intuitivamente, embora eu não pudesse ‘ colocar em palavras – que você precisa ” equilibrar ” a massa em cada lado da distribuição. Faz-me perguntar se existem maneiras estereotipadas pelas quais alguém pode realizar esse ato de equilíbrio.
  • Uma maneira, Andy, é começar com uma solução discreta e então envolvê-la com uma distribuição normal. Nesse caso, o requisito de unimodalidade forçará essa distribuição normal a ter um grande desvio padrão. Mesmo assim, se a convolução não altera de forma apreciável as propriedades necessárias (como assimetria zero), ou se ela altera de maneiras previsíveis, você tem um controle matemático do problema. Em certo sentido, minha edição recente pode ser vista como um ataque, embora ‘ não seja estritamente uma convolução (porque os três normais têm desvios padrão diferentes).
  • Eu verifiquei, Andy: convolver a solução discreta com uma distribuição normal não muda a assimetria. Quando você atribui a essa distribuição normal um desvio padrão em torno de 0,57 ou mais, o resultado é unimodal. Como a distribuição discreta subjacente, continua a ter média zero, assimetria zero e assimétrica. Misturar isso com uma distribuição normal padrão resulta em um movimento controlado de massa entre a distribuição normal padrão e a discreta: isso pode atender à sua solicitação de um ” estereotipado ” método.

Resposta

Aqui está um que encontrei em https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html # que considero legal e reproduzida em R: uma distribuição Burr ou Dagum inversa com parâmetros de forma $ k = 0,0629 $ e $ c = 18,1484 $:

$$ g (x) = ckx ^ {- (c + 1)} [1 + x ^ {- c}] ^ {- (k + 1)} $$

Tem média 0.5387, desvio padrão 0,2907, assimetria 0,0000 e curtose 2,0000. A fonte também a chama de “distribuição de elefante”: insira a descrição da imagem aqui

Minha reprodução em R foi criada com

 library(actuar) library(knotR) # a nonsymmetric distribution with zero skewness # see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html# c <- 18.1484 k <- 0.0629 x <- seq(0,1.5,by=.0001) elephant.density <- dinvburr(x, k, c) plot(x,elephant.density, type="l") polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey") points(0.8,0.8, pch=19, cex=2) # "ears" created via https://www.desmos.com/calculator/cahqdxeshd ear.x <- c(0.686, 0.501, 0.42, 0.68) ear.y <- c(0.698, 0.315, 1.095, 0.983) myseg(bezier(cbind(ear.x, ear.y)), type="l") EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k) EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k) (skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196  

Como mostra esta saída, o skewness é não exatamente zero a quatro dígitos para esses valores de parâmetro. Aqui está um pequeno otimizador para $ k $ e $ c $:

 # optimize skewness a bit further skewval <- 1 while (skewval > 10^(-10)){ optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c) skewval <- optskew.k$f.root k <- optskew.k$root optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k) skewval <- optskew.c$f.root c <- optskew.c$root } 

rendendo

> print(c) [1] 18.89306 > print(k) [1] 0.05975542 > print(skewval) [1] -1.131464e-15 

Comentários

  • Obrigado pela edição. Dito isso, não consegui reproduzir a assimetria de 0,0000 a quatro dígitos, obtendo 0,0001245138 em vez disso (veja a próxima edição, no código R).
  • É possível provavelmente executar um otimizador simples para encontrar $ c $ e $ k $ valores tais que a assimetria seja o mais próximo possível de zero. Deve haver algumas linhas adicionais ou talvez até uma. Você já tem a função de perda calculada analiticamente em sua última linha. Existe um otimizador genérico adequado em R?
  • Na verdade, 0,0003756196. 0,0001245138 já estava atrás de alguma otimização inicial, dada aqui por engano. Vou dar uma olhada.
  • @amoeba, tentei otimizar um pouco, mas não alego ter feito isso de uma forma inteligente, tenho pouca experiência com otimização.
  • A distorção de que ‘ s zero a três dígitos (quase quatro) eram suficientes para minha mente; se ‘ não for um valor mais preciso, ele terá uma aparência diferente. Se a assimetria ultrapassar zero naquela vizinhança e ‘ deixar claro em quais direções ajustar os valores caso seja necessária mais precisão, eu acho que ‘ s suficiente. Mas parabéns pelo esforço adicional. (É ‘ um exemplo adorável, a propósito.)

Resposta

Considere uma distribuição na metade positiva da linha real que aumenta linearmente de 0 para a moda e então é exponencial à direita da moda, mas é contínua na moda.

Isso poderia ser chamada de distribuição triangular-exponencial (embora muitas vezes pareça um pouco com uma barbatana de tubarão).

Seja $ \ theta $ a localização do modo e $ \ lambda $ o parâmetro de taxa do exponencial.

Conforme $ \ lambda \ theta $ aumenta, a distribuição torna-se progressivamente menos inclinada. Conforme $ \ lambda \ theta $ aumenta para além de $ \ aproximadamente 6,15 $, o terceiro momento passa de positivo para negativo:

Triangular-Exponencial com assimetria zero

Brizzi (2006) $ ^ {[1]} $ refere-se a esta família de distribuições como a distribuição de “duas faces” e discute este ponto de cruzamento onde a assimetria do terceiro momento é zero. von Hippel (2005) $ ^ {[2]} $ apresenta um exemplo que “está quase naquele ponto de cruzamento aqui

O tópico Distribuições não normais com assimetria zero e curtose em excesso zero? tem alguns exemplos assimétricos, incluindo um pequeno exemplo discreto e outro unimodal contínuo:

Mistura gaussiana unimodal com assimetria zero

Distribuições unimodais discretas – ou equivalentemente, amostras – com distorção zero são muito fáceis de construir, de tamanho grande ou pequeno.

Aqui está um exemplo, que você pode tratar como uma amostra ou (dividindo as frequências brutas por 3000) como um pmf ( os valores “x” são os valores obtidos, o “n” é o número de vezes que esse valor ocorre na amostra):

x: -2 -1 0 1 2 3 4 5 6 7 8 9 10 n: 496 498 562 1434 2 1 1 1 1 1 1 1 1 

Um gráfico da função de massa de probabilidade construída a partir do item anterior

Este exemplo é construído f distribuições de 3 pontos da rom:

x: -2 1 c n: c(c-1)(c+1)/6 c(c-1)(c+1)/3 - c 1 

em vários valores de $ c $ entre 3 e 10. Isso parametrizado (por $ c $) átomo de 3 pontos ” “tem $ \ sum_i n_ix_i = 0 $ e $ \ sum_i n_ix_i ^ 3 = 0 $, o que, por sua vez, significa que as misturas entre várias opções de $ c $ têm distorção zero. (Você não pode fazer nada menor do que uma distribuição em três pontos que tenham assimetria e terceiro momento central zero. Uma coleção de peças simples em apenas alguns pontos, como essas, formam blocos de construção perfeitos a partir dos quais estruturas maiores podem ser feitas.)

Existem todos os tipos de “átomos” que se podem construir, mas este exemplo usa apenas este tipo. A alguma combinação de átomos como esses são adicionados alguns valores colocados simetricamente para preencher os buracos restantes e garantir a unimodalidade sem destruir a estrutura da média e do terceiro momento.

$ [1] $ Brizzi, M.(2006),
“A Skewed Model Combining Triangular and Exponential Features: The Two -face Distribution and its Statistical Properties”
Austrian Journal of Statistics , 35 : 4, p455–462
http://www.stat.tugraz.at/AJS/ausg064/

$ [2] $ von Hippel, PT (2005),
“Mean, Median, and Skew: Correcting a Textbook Rule”
Journal of Statistics Education Volume 13, Número 2,
http://ww2.amstat.org/publications/jse/v13n2/vonhippel.html

Comentários

  • Talvez você possa chamá-lo de ” barbatana de tubarão ” talvez?
  • @Glen_b Totalmente barbatana de tubarão.

Resposta

Para distorção zero, precisamos de $$ \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = 0 $$ ou, equivalentemente, $$ \ operatorname {E} \ Big [ \ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ leq \ mu \ Big] + \ operatorname {E} \ Big [\ big (\ tfrac {X- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big | X \ gt \ mu \ Big] = 0. $$

Agora, para dada média e variância, escolha quaisquer duas distribuições $ Y $ e $ Z $ com massa zero no lado direito de $ \ mu $ e $$ \ operatorname {E} \ Big [\ big (\ tfrac {Y- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] = \ operatorname {E} \ Big [ \ big (\ tfrac {Z- \ mu} {\ sigma} \ big) ^ {\! 3} \, \ Big] $$ e defina $ X $ para corresponder a $ Y $ se sobrar $ \ mu $ e $ (\ mu – Z) $ caso contrário. (Não sabe a notação exata para isso, alguém gostaria de ajudar?)

A distribuição resultante será unimodal se os PDFs de $ Y $ e $ Z $ estiverem aumentando à esquerda de $ \ mu $ (além de ser zero à direita de $ \ mu $).

Comentários

  • Como você garante que a distribuição é unimodal?
  • Obrigado por apontar isso. Os PDFs de $ Y $ e $ Z $ terão que aumentar estritamente até $ \ mu $ e depois cair para zero.
  • Isso é a ideia certa, mas ainda precisa de algum trabalho, porque $ \ sigma $ pode mudar ao combinar $ Y $ e $ Z $.
  • @whuber: Droga. Eu sabia que tinha para ser uma armadilha … 🙂

Resposta

A seguinte distribuição discreta é assimétrica e tem nulo assimetria: Prob (-4) = 1/3, Prob (1) = 1/2, Prob (5) = 1/6. Encontrei-o no artigo de Doric et al., Qual Quant (2009) 43: 481 -493; DOI 10.1007 / s11135-007-9128-9

Comentários

  • +1 Ele verifica e é ‘ é unimodal. Esse ‘ é o exemplo mais simples possível.

Resposta

Certo. Tente isto:

skew= function (x, na.rm = FALSE) { if (na.rm) x <- x[!is.na(x)] #remove missing values sum((x - mean(x))^3)/(length(x) * sd(x)^3) #calculate skew } set.seed(12929883) x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1)) skew(x) plot(density(x)) 

(Você já fez o trabalho difícil!)

Comentários

  • bom, eu gosto. +1
  • É ‘ não bimodal … é ‘ é horrivelmente multi -modal. Tente traçar a densidade; curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
  • Os dados gerados dessa forma certamente não são unimodais. Tudo o que você precisa fazer é recortar e colar seu código, literalmente. Na verdade, uma mistura de variáveis normalmente distribuídas nunca será unimodal (a menos, é claro, uma das proporções da mistura seja 1).
  • @Macro, que ‘ s incorreto. Veja, por exemplo, o resumo de Roeder 1994 (JASA) para o conhecido resultado de que ” a densidade de dois normais mistos não é bimodal, a menos que as médias sejam separadas por pelo menos 2 desvios padrão “. Se eles estiverem separados por menos do que isso, a mistura é unimodal.
  • Você ‘ acertou @guest. Eu ‘ tinha esquecido dessa possibilidade quando fiz minha postagem

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *