Hay diferentes programas de implementación disponibles para lasso . Sé que se ha discutido mucho sobre el enfoque bayesiano frente al enfoque frecuentista en diferentes foros. Mi pregunta es muy específica sobre el lazo – ¿Cuáles son las diferencias o ventajas del lazo baysiano frente al lazo normal ?
Aquí hay dos ejemplos de implementación en el paquete:
# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y)
Entonces, ¿cuándo debería elegir uno u otros métodos? ¿O son iguales?
Respuesta
El lazo estándar usa una penalización de regularización L1 lograr escasez en regresión. Tenga en cuenta que esto también se conoce como Basis Pursuit .
En el marco bayesiano, la elección de regularizador es análoga a la elección de prior sobre los pesos. Si se usa un prior gaussiano, entonces la solución Máximo a Posteriori (MAP) será la misma que si se usara una penalización L2. Aunque no es directamente equivalente, el anterior de Laplace (que tiene un pico agudo alrededor de cero, a diferencia del gaussiano, que es suave alrededor de cero), produce el mismo efecto de contracción que la penalización L1. Este artículo describe el lazo bayesiano. .
De hecho, cuando coloca un Laplace antes de los parámetros, la solución MAP debe ser idéntica (no simplemente similar) a la regularización con la penalización L1 y la previa de Laplace producirá un efecto de contracción idéntico al de la penalización L1. Sin embargo, debido a aproximaciones en el procedimiento de inferencia bayesiano u otros problemas numéricos, las soluciones pueden no ser realmente idénticas.
En la mayoría de los casos, los resultados producidos por ambos métodos serán muy similares. Dependiendo del método de optimización y de si se utilizan aproximaciones, el lazo estándar probablemente será más eficiente de calcular que la versión bayesiana. El bayesiano produce automáticamente estimaciones de intervalo para todos los parámetros, incluida la varianza del error, si se requieren.
Comentarios
- » Si se usa un prior gaussiano, entonces la solución de Máxima probabilidad será la misma …. «. La frase resaltada debe decir » Máximo A Posteriori (MAP) » porque la estimación de Máxima Verosimilitud simplemente ignorará la distribución anterior sobre los parámetros, lo que lleva a una solución no regularizada, mientras que la estimación de MAP toma en consideración el previo.
- Cuando coloca un Laplace antes sobre los parámetros, la solución MAP será idéntica (no simplemente similar) a la regularización con la penalización L1 y el Laplace anterior producirá un efecto de contracción idéntico al de la penalización L1.
- @mefathy sí, ‘ tienes razón en ambos aspectos (can ‘ t creo que escribí ML en lugar de MAP ….), aunque por supuesto en la práctica YMMV. ‘ he actualizado la respuesta para incorporar ambos comentarios.
Respuesta
«Mínimos cuadrados» significa que la solución general minimiza la suma de los cuadrados de los errores cometidos en los resultados de cada ecuación. La aplicación más importante es el ajuste de datos. El mejor ajuste en el sentido de mínimos cuadrados minimiza la suma de los residuos cuadrados, siendo un residuo la diferencia entre un valor observado y el valor ajustado proporcionado por un modelo.Los problemas de mínimos cuadrados se dividen en dos categorías: mínimos cuadrados lineales u ordinarios y no- mínimos cuadrados lineales, dependiendo de si los residuos son lineales o no en todas las incógnitas.
La regresión lineal bayesiana es un enfoque de regresión lineal en el que el análisis estadístico se lleva a cabo dentro del contexto de la inferencia bayesiana. Cuando el modelo de regresión tiene errores que tienen una distribución normal, y si se asume una forma particular de distribución previa, los resultados explícitos están disponibles para las distribuciones de probabilidad posteriores de los parámetros del modelo.
En algunos contextos un La versión regularizada de la solución de mínimos cuadrados puede ser preferible. La regularización de Tikhonov (o regresión de cresta) agrega una restricción de que $ \ | \ beta \ | ^ 2 $, la norma L2 del vector de parámetros, no es mayor que un valor dado. En un contexto bayesiano, esto equivale a colocar una media cero normalmente distribuida antes en el vector de parámetros.
Una versión regularizada alternativa de mínimos cuadrados es Lasso (operador de selección y contracción mínima absoluta), que usa el restricción de que $ \ | \ beta \ | _1 $, la norma L1 del vector de parámetros, no es mayor que un valor dado . En un contexto bayesiano, esto equivale a colocar una distribución previa de Laplace de media cero en el parámetro vector.
Una de las principales diferencias entre Lasso y la regresión de cresta es que en la regresión de cresta, a medida que aumenta la penalización, todos los parámetros se reducen sin dejar de ser cero, mientras que en Lasso, aumentar la penalización causará más y más de los parámetros que se llevarán a cero.
Este documento compara el lazo normal con el lazo bayesiano y la regresión de cresta (consulte la figura 1 ) .
Respuesta
Creo que las respuestas actuales a esta pregunta no responden realmente a las preguntas, que eran «¿Cuáles son las diferencias o ventajas de lazo baysian (sic) vs lazo regular? » y «¿son iguales?»
Primero, no son iguales.
La diferencia clave es: el lazo bayesiano intenta tomar muestras de la distribución posterior completa de los parámetros, bajo un previo de Laplace, mientras que lazo está intentando encontrar el modo posterior (también bajo un previo de Laplace). En la práctica, la distribución posterior completa del lazo bayesiano generalmente se resume por la media posterior, por lo que en la práctica esto se reduce a esto:
El lazo bayesiano intenta encontrar la media posterior bajo un anterior de Laplace mientras que el lazo intenta encontrar el modo posterior bajo un previo de Laplace
La ventaja de la media posterior frente al modo posterior es que la media posterior producirá una mejor precisión de predicción (asumiendo la pérdida media cuadrática) si el anterior de Laplace es en realidad un fiel reflejo de la distribución de los coeficientes de regresión. Sin embargo, esta ventaja es dudosa en la práctica, ya que en muchas aplicaciones el Laplace a priori no es un fiel reflejo de la distribución de los coeficientes (¡y en general esto es difícil de comprobar!)
Las ventajas del modo posterior incluir que computacionalmente es mucho más fácil de encontrar (es un problema de optimización convexa).
Puede notar que no respondí «¿cuándo debo elegir uno u otros métodos?». Eso es porque esta es una pregunta difícil de responder en general. Mi respuesta sería que, en general, existen métodos mejores que cualquiera de estos. Pero una discusión completa de esto requeriría una publicación más extensa.