Laço bayesiano vs laço comum

Diferentes softwares de implementação estão disponíveis para lasso . Eu sei que muito foi discutido sobre abordagem bayesiana versus abordagem frequentista em diferentes fóruns. Minha pergunta é muito específica para o laço – Quais são as diferenças ou vantagens do laço baio em relação ao laço regular ?

Aqui estão dois exemplos de implementação no pacote:

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

Então, quando devo escolher um ou outro método? Ou eles são iguais?

Resposta

O laço padrão usa uma penalidade de regularização L1 para obter esparsidade na regressão. Observe que isso também é conhecido como Busca de base .

Na estrutura Bayesiana, a escolha do regularizador é análoga à escolha de priorizar os pesos. Se um prior gaussiano for usado, a solução Máximo a Posteriori (MAP) será a mesma como se uma penalidade L2 fosse usada. Embora não seja diretamente equivalente, o Laplace anterior (que tem um pico agudo em torno de zero, ao contrário do Gaussiano que é suave em torno de zero), produz o mesmo efeito de encolhimento para a penalidade L1. Este artigo descreve o Laço Bayesiano. .

Na verdade, quando você coloca um Laplace antes dos parâmetros, a solução MAP deve ser idêntica (não apenas semelhante) à regularização com a penalidade L1 e o Laplace anterior produzirá um efeito de encolhimento idêntico à penalidade L1. No entanto, devido a aproximações no procedimento de inferência bayesiana ou a outros problemas numéricos, as soluções podem não ser realmente idênticas.

Na maioria dos casos, os resultados produzidos por ambos os métodos serão muito semelhantes. Dependendo do método de otimização e se as aproximações são usadas, o laço padrão provavelmente será mais eficiente para calcular do que a versão Bayesiana. O Bayesiano produz automaticamente estimativas de intervalo para todos os parâmetros, incluindo a variância do erro, se forem necessários.

Comentários

  • ” Se um prior Gaussiano for usado, a solução Máxima Verossimilhança será a mesma …. “. A frase destacada deve ser ” Máximo A Posteriori (MAP) ” porque a estimativa de Máxima Verossimilhança apenas irá ignorar a distribuição anterior sobre os parâmetros, levando para uma solução não regularizada, enquanto a estimativa de MAP leva o primeiro em consideração.
  • Quando você coloca um Laplace antes dos parâmetros, a solução de MAP será idêntica (não apenas semelhante) à regularização com a penalidade L1 e o Laplace antes produzirá um efeito de encolhimento idêntico à penalidade L1.
  • @mefathy sim, você ‘ acertou em ambas as contagens (pode ‘ creio que escrevi ML em vez de MAP ….), embora, é claro, na prática, YMMV. Eu ‘ atualizei a resposta para incorporar os dois comentários.

Resposta

“Mínimos quadrados” significa que a solução geral minimiza a soma dos quadrados dos erros cometidos nos resultados de cada equação. A aplicação mais importante é no ajuste de dados. O melhor ajuste no sentido de mínimos quadrados minimiza a soma dos resíduos quadrados, um resíduo sendo a diferença entre um valor observado e o valor ajustado fornecido por um modelo. Problemas de mínimos quadrados caem em duas categorias: quadrados mínimos lineares ou ordinários e não mínimos quadrados lineares, dependendo se os resíduos são ou não lineares em todas as incógnitas.

A regressão linear bayesiana é uma abordagem da regressão linear em que a análise estatística é realizada dentro do contexto de inferência bayesiana. Quando o modelo de regressão tem erros que têm uma distribuição normal, e se uma forma particular de distribuição anterior é assumida, resultados explícitos estão disponíveis para as distribuições de probabilidade posteriores dos parâmetros do modelo.

Em alguns contextos a A versão regularizada da solução de mínimos quadrados pode ser preferível. A regularização de Tikhonov (ou regressão de crista) adiciona uma restrição de que $ \ | \ beta \ | ^ 2 $, a norma L2 do vetor de parâmetro, não é maior que um determinado valor. Em um contexto Bayesiano, isso é equivalente a colocar uma média zero normalmente distribuída antes do vetor de parâmetro.

Uma versão regularizada alternativa de mínimos quadrados é Lasso (menor contração absoluta e operador de seleção), que usa o restrição de que $ \ | \ beta \ | _1 $, a norma L1 do vetor de parâmetro, não é maior que um determinado valor . Em um contexto Bayesiano, isso é equivalente a colocar uma distribuição anterior de Laplace de média zero no parâmetro vetor.

Uma das principais diferenças entre Lasso e regressão de crista é que na regressão de crista, à medida que a penalidade é aumentada, todos os parâmetros são reduzidos enquanto permanecem diferentes de zero, enquanto em Lasso, aumentar a penalidade causará mais e mais dos parâmetros a serem levados a zero.

Este artigo compara o laço regular com o laço Bayesiano e a regressão do cume (consulte a figura 1 ) .

Resposta

Acho que as respostas atuais a esta pergunta não respondem realmente às perguntas, que eram “O que são diferenças ou vantagens de laço baysian (sic) vs laço regular? ” e “são iguais?”

Primeiro, não são iguais.

A principal diferença é: o laço Bayesiano tenta obter uma amostra da distribuição posterior completa dos parâmetros, sob um anterior de Laplace, enquanto o laço está tentando encontrar o modo posterior (também sob um anterior de Laplace). Na prática, a distribuição posterior completa do laço Bayesiano é geralmente resumida pela média posterior, então na prática isso se resume a isso:

O laço Bayesiano tenta encontrar a média posterior sob um Laplace anterior, enquanto o laço tenta encontrar o modo posterior em um Laplace anterior

A vantagem da média posterior vs o modo posterior é que a média posterior produzirá melhor precisão de previsão (assumindo perda quadrada média) se o Laplace prior é na verdade um verdadeiro reflexo da distribuição dos coeficientes de regressão. No entanto, esta vantagem é duvidosa na prática, uma vez que em muitas aplicações o Laplace prior não é um verdadeiro reflexo da distribuição dos coeficientes (e em geral isso é difícil de verificar!)

As vantagens do modo posterior inclui que é computacionalmente muito mais fácil de encontrar (é um problema de otimização convexa).

Você pode notar que eu não respondi “quando devo escolher um ou outro método”. Isso porque essa é uma pergunta difícil de responder em geral. Minha resposta seria que geralmente existem métodos melhores do que qualquer um desses. Mas uma discussão completa sobre isso exigiria uma postagem mais longa.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *