Sie sind auf Seite 1von 38

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL

Métodos de Regresión Lineal Simple,


Múltiple, y Logı́stica
Métodos de Analı́tica para la Industria

Andrés G. Abad, Ph.D.

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 1 / 39


Agenda

Introducción al problema de regresión


Introducción al problema de regresión
Estimación de parámetros
Regresión lineal múltiple
Selección de modelos

Regresión logı́stica
Introducción a la regresión logı́stica
Estimación de parámetros

Evaluando la precisión de la predicción


Matriz de confusión
Curva ROC (receiver operating characteristic)
Curva Lift

Referencias Bibliográficas

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 2 / 39


Introducción al problema de regresión I

I Los datos corresponden a 1436 autos


Toyota Corolla usados
I El objetivo es predecir el precio de venta
en función de las caracterı́sticas del auto

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 3 / 39


Introducción al problema de regresión II

Precio =β̂0 + β̂1 · Edad


Precio =20, 294.06 − 170.93 · Edad

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 4 / 39


Estimadores de mı́nimos cuadrados I

Se propone el siguiente modelo lineal

yi = β0 + β1 xi + εi ,
donde yi y xi son la i-esima observación de la variable de respuesta y
predictora, respectivamente; β0 es el intercepto; β1 es la pendiente; y
εi es el i-esimo error.

Considerando los estimadores βˆ0 y βˆ1 , obtenemos la estimación

ŷi = β̂0 + β̂1 xi .

¿Cómo encontramos los estimadores β̂0 y β̂1 ?

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 5 / 39


Estimadores de mı́nimos cuadrados II

Def. Residual Sum of Squares (RSS)


Definimos el Residual Sum of Squares (RSS) como
n
X
RSS = (yi − ŷi )2 ,
i=1

donde yi es la respuesta real, ŷi es la respuesta predicha por el


modelo, y ri = yi − ŷi es el i-ésimo residuo.

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 6 / 39


Estimadores de mı́nimos cuadrados III

Def. Estimadores β∗i de mı́nimos cuadrados


Usando el modelo lineal ŷi = β̂0 + β̂1 xi , encontramos los estimadores
de mı́nimos cuadrados β̂0 y β̂1 resolviendo el siguiente problema de
optimización

β∗0 , β∗1 = min RSS(β0 , β1 )


β0 ,β1

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 7 / 39


Estimadores de mı́nimos cuadrados IV

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 8 / 39


Estimadores de mı́nimos cuadrados V

Este problema puede ser resuelto considerando las condiciones de


optimalidad de primer orden
∂RSS(β0 ,β1 )
= −2 N
i=1 (yi − β0 − β1 xi ) = 0
P
I
∂β0
∂RSS(β0 ,β1 )
= −2 N
i=1 xi (yi − β0 − β1 xi ) = 0
P
I
∂β1

Lo que produce los siguientes estimadores de mı́nimos cuadrados


I β∗0 = ȳ − β∗1 x̄
PN
i=1 (xi −x̄)(yi −ȳ)
I β∗1 = PN 2
i=1 (xi −x̄)

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 9 / 39


Variabilidad de los coeficientes I

I La varianza de los estimadores de mı́nimos cuadrados es la


siguiente:  
1 x̄2
SE (β0 ) = σ  + PN
2 ∗ 2 
  ;
n i=1 (xi − x̄)
2

σ2
SE2 (β∗1 ) = PN
i=1 (xi − x̄)2
donde σ2 = VAR(ε).
I Esto puede ser utilizado para establecer intervalos de confianza
(e.g. 95%) para los estimadores

β∗1 ± 2 · SE(β∗1 )

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 10 / 39


Contraste de hipótesis sobre coeficientes I

Def. Constraste de hipótesis sobre efecto de X en Y


Considere el siguiente contraste
I H0 : No existe relación entre X y Y
I HA : Existe alguna relación entre X y Y
O, matemáticamente
I H0 : β 1 = 0
I HA : β 1 , 0
ya que esto reducirı́a al modelo a Y = β0 + ε.

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 11 / 39


Contraste de hipótesis sobre coeficientes II

Esto puede ser probado utilizando el estadı́stico

β∗1 − 0
t=
SE(β∗1 )

con una distribución t y n − 2 grados de libertad, asumiendo β1 = 0

Utilizando software estadı́stico


podemos obtener la probabilidad
de observar un valor igual o más
extremo (mayor) a |t|
I A esta probabilidad se conoce
como el valor p

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 12 / 39


Evaluando desempeño del modelo I
Para evaluar el desempeño de un modelo generalmente se utilizan
algunas de las dos siguientes medidas
I Modelo explicativo: R2 (o considerando complejidad del
modelo R2adj )
I Modelo predictivo: RSS
Para estimar el RSS necesitamos particionar los datos en: (1) datos
de entrenamiento y (2) datos de prueba

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 13 / 39


Evaluando desempeño del modelo II

Para obtener estimaciones de la distribución de los estimadores


(como por ejemplo del RSS) podemos utilizar la validación cruzada
(cross validation)

Esto nos permite tener estimaciones de intervalos (como intervalos


de confianza)

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 14 / 39


RSS y coeficiente de determinación R2 I

Total sum of squares TSS = − ȳ)2


P
i (yi
I

Explained sum of squares ESS = i (ŷi − ȳ)2


P
I

Residual sum of squares RSS = i (yi − ŷ)2


P
I

TSS = ESS + RSS

Coeficiente de
determinación
El coeficiente de
determinación del
modelo es
ESS
R2 =
TSS

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 15 / 39


Regresión lineal múltiple I

Consideramos ahora el modelo de regresión lineal múltiple

yi = β0 + β1 xi1 + · · · + βp xip + εi .

Equivalentemente
Y = Xβ + ε,
donde Y ∈ Rn ; X ∈ Rn×(p+1) ; β ∈ R(p+1) ; y ε ∈ Rn .
Andrés G. Abad, Ph.D., agabad@espol.edu.ec 16 / 39
Regresión lineal múltiple II

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 17 / 39


Estimación de los coeficientes I

El cálculo de la suma cuadrada de los residuos RSS es

RSS(β) = (y − Xβ)| (y − Xβ)

∂RSS
= − 2X| (y − Xβ) X| (y − Xβ) =0
∂β
∂2 RSS β̂ = (X| X)−1 X| y
=2X| X
∂β∂β|
Tenemos ası́ la estimación ŷ dada por

ŷ = Xβ̂
ŷ = X(X| X)−1 X| y

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 18 / 39


Coeficiente de determinación I

Total sum of squares TSS = − ȳ)2


P
i (yi
I

Explained sum of squares ESS = i (ŷi − ȳ)2


P
I

Residual sum of squares RSS = i (yi − ŷ)2


P
I

TSS = ESS + RSS

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 19 / 39


Coeficiente de determinación II

Coeficiente de determinación
El coeficiente de determinación del modelo es
ESS
R2 = .
TSS

Coeficiente de determinación ajustado


El coeficiente de determinación ajustdo del modelo es

n−1
R2adj = 1 − (1 − R2 ),
n−k−1
donde n es el tamaño de la muestra y k número de variables
independientes

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 20 / 39


Contraste de hipótesis múltiples coeficientes I

Contraste de hipótesis múltiples coeficientes


Considere el siguiente contraste
I H0 : Ningún Xi es útil para predecir Y
I HA : Al menos un Xi es útil para predecir Y
O, matemáticamente
I H0 : β 1 = · · · = β p = 0
I HA : βi , 0 para algún i.

El estadı́stico de la prueba es

(TSS − RSS)/p
F= ∼ Fp,n−p−1
RSS/(n − p − 1)

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 21 / 39


Selección de modelos I

I El acercamiento más directo corresponde a una búsqueda


exhaustiva en el espacio de modelos: ajustamos un modelo de
mı́nimos cuadrados a todas las combinaciones posibles de
variables y escogemos entre ellos según algún criterio que
equilibre error y tamaño del modelo
I Sin embargo, no podemos explorar todos los modelos para p
medianos y grandes: existen 2p modelos posibles para p
variables
I para p = 40 hay más de un billón de modelos
I Veremos dos métodos de exploración del espacio de modelos:
1. Selección hacia adelante
2. Selección hacia atrás

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 22 / 39


Selección de modelos II

Selección hacia adelante


1. Empezamos con el modelo NULL: el modelo con un intercepto
pero sin predictores
2. Ajustamos p modelos de regresión lineal simple y añadimos al
modelo NULL la variable que resulte en el menor RSS
3. Añada a ese modelo la variables que resulte en el menor RSS
entre todos los modelos de dos variables
4. Continue ası́ hasta que alguna regla de parar se cumpla: e.g.
cuando todas las variables restantes tengan un valor p superior
a cierto umbral

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 23 / 39


Selección de modelos III

Selección hacia atrás


1. Empezamos con un modelo con todas las variables
2. Retiramos la variable con el mayor valor p
3. Un nuevo modelo con (p − 1) es ajustado; retiramos la variable
con el mayor valor p
4. Continue ası́ hasta que alguna regla de parar se cumpla: e.g.
cuando todas las variables en el modelo tengan un valor p
inferior a cierto umbral

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 24 / 39


Selección de modelos utilizando regularización I

El siguiente problema de optimización

β̂ ∈ arg min kY − Xβk2 + λkβkp ,


β

es conocido en la literatura como:


I p = 1 tenemos regresión Lasso (least absolute shrinkage and
selection operator)
I p = 2 tenemos regresión Ridge
Andrés G. Abad, Ph.D., agabad@espol.edu.ec 25 / 39
Selección de modelos utilizando regularización II

Se ha introducido la pérdida elastic-net que mezcla la regresión


lasso y ridge de la siguiente manera

N
1 X h i
min wi l(yi , β0 + β| xi ) + λ (1 − α)kβk22 /2 + αkβk1 ,
β0 ,β N
i=1

donde l(yi , β0 + β| xi ) es el negativo log máxima verosimilitud.


I α = 1 tenemos regresión Lasso
I α = 0 tenemos regresión Ridge

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 26 / 39


Selección de modelos utilizando regularización III

I En el caso de la regresión ridge (p = 2) tenemos una solución de


forma cerrada
 −1
β̂ = X| X + λĨ X| y,

donde Ĩ es similar a una matriz identidad de tamaño


(p + 1) × (p + 1) pero con un cero en la primera posición.
I Para el caso de la regresión lasso (p = 1) no se tiene una forma
cerrada, y el estimador es obtenido utilizando técnicas de
optimización (e.g. método de newton).

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 27 / 39


Selección de modelos utilizando regularización IV
Considere el modelo de regresión lasso de Price sobre las variables:
Age, KM, Weight, Automatic, MetColor y α = 1.

Lambda
3000 400 55 20
Automtc1

150
Coefficients
50

MetColr1
Weight
0

KM
−100

Age
8 7 6 5 4 3
Log Lambda

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 28 / 39


Regresión logı́stica I

I Los datos contienen información de


5000 ofertas de préstamos
I La variable respuesta es si una
oferta de prestamos ha sido
aceptado en el pasado

UniversalBank Data
I Age of customer in years
I Experience: professional experience in years
I Income of customer
I Family size of customer
I CCAvg: average monthly credit card spending
I Mortgage: size of mortgage
I SecuritiesAccount: No/Yes
I CDAccount: No/Yes
I Online: No/Yes
I CreditCard: No/Yes
I Educational level: three categories (undergraduate,
Andrés G. Abad, Ph.D., agabad@espol.edu.ec
graduate, professional) 29 / 39
Regresión logı́stica II
La idea es transformar la respuesta y = β0 + β1 x1 + · · · + βp xp de la
siguiente manera

La curva o función logı́stica es

1
p(y) =
1 + exp−y
1
= .
1 + exp−β0 −β1 x1 −···−βp xp

Su inverso es conocido como


función logit y esta dada por

p
log( ) = β0 + β1 x1 + · · · + βp xp .
1−p

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 30 / 39


Regresión logı́stica III
Modelando la aceptación del prestamo PersonalLoan en función del
ingreso Income

1
P{PersonalLoan = 1|Income = x} =
1 + exp−β0 −β1 x

Ajustando coeficientes, obtenemos β0 = −6.3525, β1 = 0.0392 y

1
P{PersonalLoan = 1|Income = x} =
1+ exp6.3525−0.0392x

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 31 / 39


Estimacón de parámetros I

La estimación de parámetros es obtenida a través del proceso


iterativo máxima verosimilitud
N
Y
β∗0 , β∗1 = arg max `(β0 , β1 ) = arg max p(xi )yi (1 − p(xi ))(1−yi ) ,
β0 ,β1 β0 ,β1
i=1

lo que es equivalente a
N
X
yi log(p(xi )) + (1 − yi ) log(1 − p(xi ))

arg max
β0 ,β1
i=1

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 32 / 39


Estimacón de parámetros II

logit=-13.201-
0.045Age+0.057Experience+0.066Income+0.572Family
+0.187CCAvg+0.002Mortgage-0.855Securities+3.469CD
-0.844Online-0.964CreditCard+4.589EduGrad+4.523EducProf

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 33 / 39


Evaluando la precisión de la predicción I

I Matriz de confusión
I Curva ROC (receiver operating characteristic)
I Curva Lift

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 34 / 39


Matriz de confusión I
Definimos la precisión y el error de predicción como

Número de objetos clasificados correctamente


Precisión =
Número de objetos en los datos
y
Error = 1 − Precisión

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 35 / 39


Curva ROC (receiver operating characteristic) I

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 36 / 39


Curva Lift I

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 37 / 39


Referencias Bibliográficas I

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 38 / 39

Das könnte Ihnen auch gefallen