LASSO (estadística)

En Estadística y Aprendizaje Automático, Lasso (least absolute shrinkage and selection operator, por sus siglas en inglés), es un método de análisis de regresión que realiza selección de variables y regularización para mejorar la exactitud e interpretabilidad del modelo estadístico producido por este. Fue introducido por Robert Tibshirani en 1996 basado en el trabajo de Leo Breiman sobre el Garrote No-Negativo.^[1]^[2] Lasso fue formulado originalmente para el método de mínimos cuadrados y este caso simple revela una cantidad substancial acerca del comportamiento del estimador, incluyendo su relación con ridge regression y selección de subconjuntos (de variables) y la conexión entre los coeficientes estimados con lasso y el llamado 'soft thresholding'. También revela que (al igual que la Regresión Lineal estándar) los coeficientes estimados no necesariamente son únicos si las variables independientes son colineales.

Motivación

Robert Tibshirani introdujo lasso para mejorar la exactitud de la predicciones e interpretabilidad de los modelo estadísticos de regresión al alterar el proceso de construcción del modelo al seleccionar solamente un subconjunto de (y no todas) las variables provistas para usar en el modelo final.^[1] Está basado en el Garrote no negativo de Breiman, que tiene propósitos similares, pero funciona de manera un poco diferente.^[2]

Antes de lasso, el método más usado para decidir qué variables incluir en un modelo era stepwise selection, que sólo mejora la exactitud de las predicciones en ciertos casos, como cuando sólo unas pocas variables tienen una relación fuerte con la variable independiente. Sin embargo, en otros casos, puede agravar los errores de predicción. Además, en ese momento, ridge regression era la técnica más popular para mejorar la exactitud de las predicciones. Ridge regression mejora los errores de predicción al reducir en tamaño los coeficientes de regresión que sean demasiado grandes para reducir el sobreajuste (overfitting), pero no realiza selección de variables y por tanto no produce un modelo más interpretable.

Forma Básica

Considere una clúster de N casos (observaciones), cada una con p variable y una sola variable independente. Sea $y_{i}$ la variable independiente y $x_{i}:=(x_{1},x_{2},\ldots ,x_{p})^{T}$ el vector con variables para el caso $j$ . Entonces, el objetivo del Lasso es resolver

\min _{\beta _{0},\beta }\left\{{\frac {1}{N}}\sum _{i=1}^{N}(y_{i}-\beta _{0}-x_{i}^{T}\beta )^{2}\right\}{\text{ sujeto a }}\sum _{j=1}^{p}|\beta _{j}|\leq t.

^[1]

Aquí $\beta _{0}$ es el coeficiente constante, $\beta :=(\beta _{1},\beta _{2},...,\beta _{p})$ es el vector de coeficientes y $t$ es un parámetro pre especificado que determine la cantidad de regularization. Sea $X$ la matriz de variables, de manera que $X_{ij}=(x_{i})_{j}$ y $x_{i}^{T}$ es la 'i-esima fila de $X$ , podemos escribir de forma más compacta el problema como:

\min _{\beta _{0},\beta }\left\{{\frac {1}{N}}\left\|y-\beta _{0}-X\beta \right\|_{2}^{2}\right\}{\text{ sujeto a }}\|\beta \|_{1}\leq t.

donde $\|Z\|_{p}=\left(\sum _{i=1}^{N}|Z_{i}|^{p}\right)^{1/p}$ es la p-norma en dimensiones finitas ( $\ell ^{p}$ Espacios Lp).

Denotando la media escalar de los puntos $x_{i}$ como ${\bar {x}}$ y la media de las variables de salida $y_{i}$ como ${\bar {y}}$ , el estimado para $\beta _{0}$ es ${\hat {\beta }}_{0}={\bar {y}}-{\bar {x}}^{T}\beta$ , de modo que:

y_{i}-{\hat {\beta }}_{0}-x_{i}^{T}\beta =y_{i}-({\bar {y}}-{\bar {x}}^{T}\beta )-x_{i}^{T}\beta =(y_{i}-{\bar {y}})-(x_{i}-{\bar {x}})^{T}\beta ,

y así es estándar trabajar con variables centralizadas. Adicionalmente las variables son estandarizadas $\textstyle \left(\sum _{i=1}^{N}x_{ij}^{2}=1\right)$ para que la solución no sea afectada por la escala de las mediciones.

Puede ser útil rescribir el problema

\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}\right\}{\text{ sujeto a }}\|\beta \|_{1}\leq t.

en su forma Lagrangiana.

\min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{1}\right\}

donde la relación exacta entre $t$ y $\lambda$ depende de los datos.

Véase también

Referencias

↑ ^a ^b ^c Tibshirani, Robert. 1996. “Regression Shrinkage and Selection via the lasso”. Journal of the Royal Statistical Society. Series B (methodological) 58 (1). Wiley: 267–88. http://www.jstor.org/stable/2346178.
↑ ^a ^b Breiman, Leo. 1995. “Better Subset Regression Using the Nonnegative Garrote”. Technometrics 37 (4). Taylor & Francis, Ltd.: 373–84. doi:10.2307/1269730.

Datos: Q20789991

[Tibshirani_1996-1] Tibshirani, Robert. 1996. “Regression Shrinkage and Selection via the lasso”. Journal of the Royal Statistical Society. Series B (methodological) 58 (1). Wiley: 267–88. http://www.jstor.org/stable/2346178.

[Breiman_1995-2] Breiman, Leo. 1995. “Better Subset Regression Using the Nonnegative Garrote”. Technometrics 37 (4). Taylor & Francis, Ltd.: 373–84. doi:10.2307/1269730.

[1]