Lasso bayésien vs lasso ordinaire

Différents logiciels de mise en œuvre sont disponibles pour lasso . Je connais beaucoup de discussions sur lapproche bayésienne par rapport à lapproche fréquentiste dans différents forums. Ma question est très spécifique au lasso – Quelles sont les différences ou les avantages du lasso baysien par rapport au lasso régulier ?

Voici deux exemples dimplémentation dans le package:

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

Alors, quand devrais-je opter pour lune ou lautre des méthodes? Ou sont-ils les mêmes?

Réponse

Le lasso standard utilise une pénalité de régularisation L1 pour atteindre la parcimonie dans la régression. Notez que cela est également connu sous le nom de Basis Pursuit .

Dans le cadre bayésien, le choix du régulariseur est analogue au choix du prior sur les poids. Si un a priori gaussien est utilisé, alors la solution du maximum a posteriori (MAP) sera la même que si une pénalité L2 était utilisée. Bien que nétant pas directement équivalent, le prior de Laplace (qui est fortement culminé autour de zéro, contrairement au gaussien qui est lisse autour de zéro), produit le même effet de retrait à la pénalité L1. Cet article décrit le lasso bayésien. .

En fait, lorsque vous placez un a priori de Laplace sur les paramètres, la solution MAP doit être identique (pas simplement similaire) à la régularisation avec la pénalité L1 et le prior de Laplace produira un effet de retrait identique à la pénalité L1. Cependant, en raison dapproximations dans la procédure dinférence bayésienne, ou dautres problèmes numériques, les solutions peuvent ne pas être réellement identiques.

Dans la plupart des cas, les résultats produits par les deux méthodes seront très similaires. Selon la méthode doptimisation et si des approximations sont utilisées, le lasso standard sera probablement plus efficace à calculer que la version bayésienne. Le bayésien produit automatiquement des estimations dintervalle pour tous les paramètres, y compris la variance derreur, si ceux-ci sont nécessaires.

Commentaires

  •  » Si un a priori gaussien est utilisé, la solution Maximum de vraisemblance sera la même …. « . La phrase en surbrillance doit se lire  » Maximum A Posteriori (MAP)  » car lestimation du maximum de vraisemblance ignorera simplement la distribution précédente sur les paramètres, en tête à une solution non régularisée alors que lestimation MAP prend en compte le préalable.
  • Lorsque vous placez un a priori de Laplace sur les paramètres, la solution MAP sera identique (pas simplement similaire) à la régularisation avec la pénalité L1 et la Laplace prior produira un effet de rétrécissement identique à la pénalité L1.
  • @mefathy oui vous ‘ avez raison sur les deux points (pouvez ‘ t crois que jai écrit ML au lieu de MAP ….), bien que bien sûr en pratique YMMV. Jai ‘ mis à jour la réponse pour intégrer les deux commentaires.

Réponse

«Moindres carrés» signifie que la solution globale minimise la somme des carrés des erreurs commises dans les résultats de chaque équation. Lapplication la plus importante est lajustement des données. Le meilleur ajustement au sens des moindres carrés minimise la somme des résidus carrés, un résidu étant la différence entre une valeur observée et la valeur ajustée fournie par un modèle.Les problèmes des moindres carrés se divisent en deux catégories: les moindres carrés linéaires ou ordinaires et les moindres carrés non les moindres carrés linéaires, selon que les résidus sont ou non linéaires dans toutes les inconnues.

La régression linéaire bayésienne est une approche de la régression linéaire dans laquelle lanalyse statistique est entreprise dans le contexte de linférence bayésienne. Lorsque le modèle de régression contient des erreurs qui ont une distribution normale, et si une forme particulière de distribution antérieure est supposée, des résultats explicites sont disponibles pour les distributions de probabilité postérieures des paramètres du modèle.

Dans certains contextes Une version régularisée de la solution des moindres carrés peut être préférable. La régression de Tikhonov (ou régression de crête) ajoute une contrainte selon laquelle $ \ | \ beta \ | ^ 2 $, la norme L2 du vecteur de paramètres, nest pas supérieure à une valeur donnée. Dans un contexte bayésien, cela équivaut à placer une moyenne nulle a priori normalement distribuée sur le vecteur de paramètres.

Une autre version régularisée des moindres carrés est Lasso (opérateur de retrait et de sélection le moins absolu), qui utilise le contrainte que $ \ | \ beta \ | _1 $, la norme L1 du vecteur de paramètres, nest pas supérieur à une valeur donnée . Dans un contexte bayésien, cela équivaut à placer une loi a priori de Laplace à moyenne nulle sur le paramètre vecteur.

Lune des principales différences entre la régression Lasso et la régression de crête est que dans la régression de crête, lorsque la pénalité est augmentée, tous les paramètres sont réduits tout en restant différents de zéro, tandis que dans Lasso, laugmentation de la pénalité entraînera plus et dautres paramètres à ramener à zéro.

Cet article compare le lasso régulier avec le lasso bayésien et la régression des crêtes (voir figure 1 ) .

Réponse

Je pense que les réponses actuelles à cette question ne répondent pas vraiment aux questions, qui étaient « Quelles sont les différences ou les avantages du lasso baysian (sic) vs lasso régulier?  » et « sont-ils identiques? »

Premièrement, ils ne sont pas identiques.

La principale différence est: Le lasso bayésien tente déchantillonner à partir de la distribution postérieure complète des paramètres, sous un a priori de Laplace, alors que le lasso tente de trouver le mode postérieur (également sous un a priori de Laplace). En pratique, la distribution postérieure complète du lasso bayésien est généralement résumée par la moyenne postérieure, donc en pratique cela se résume à ceci:

Le lasso bayésien tente de trouver la moyenne postérieure sous un a priori de Laplace alors que le lasso tente de trouver le mode postérieur sous un a priori de Laplace

Lavantage de la moyenne postérieure par rapport au mode postérieur est que la moyenne postérieure produira une meilleure précision de prédiction (en supposant une perte quadratique moyenne) si le a priori de Laplace est en fait un reflet fidèle de la distribution des coefficients de régression. Cependant, cet avantage est douteux en pratique car dans de nombreuses applications le prior de Laplace nest pas un reflet fidèle de la distribution des coefficients (et en général cest difficile à vérifier!)

Les avantages du mode postérieur comprennent quil est beaucoup plus facile à trouver sur le plan informatique (cest un problème doptimisation convexe).

Vous remarquerez peut-être que je nai pas répondu « quand devrais-je opter pour lune ou lautre méthode ». Cest parce que cest une question difficile à répondre en général. Ma réponse serait quil existe généralement de meilleures méthodes que lune ou lautre. Mais une discussion approfondie sur ce sujet nécessiterait un article plus long.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *