Administracion de La Cadena de Suministro Estrategia Planeacion y Operacion Sunil Chopra Peter Meindl

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL
Métodos de Regresión Lineal Simple,

Múltiple, y Logı́stica
Métodos de Analı́tica para la Industria
Andrés G. Abad, Ph.D.
Andrés G. Abad, Ph.D., agabad@espol.edu.ec 1 / 39

Agenda
Introducción al problema de regresión

Introducción al problema de regresión
Estimación de parámetros
Regresión lineal múltiple
Selección de modelos
Regresión logı́stica
Introducción a la regresión logı́stica
Estimación de parámetros
Evaluando la precisión de la predicción

Matriz de confusión
Curva ROC (receiver operating characteristic)
Curva Lift
Referencias Bibliográficas

Introducción al problema de regresión I
I Los datos corresponden a 1436 autos

Toyota Corolla usados
I El objetivo es predecir el precio de venta
en función de las caracterı́sticas del auto

Introducción al problema de regresión II
Precio =β̂0 + β̂1 · Edad

Precio =20, 294.06 − 170.93 · Edad

Estimadores de mı́nimos cuadrados I
Se propone el siguiente modelo lineal
yi = β0 + β1 xi + εi ,
donde yi y xi son la i-esima observación de la variable de respuesta y
predictora, respectivamente; β0 es el intercepto; β1 es la pendiente; y
εi es el i-esimo error.
Considerando los estimadores βˆ0 y βˆ1 , obtenemos la estimación
ŷi = β̂0 + β̂1 xi .
¿Cómo encontramos los estimadores β̂0 y β̂1 ?

Estimadores de mı́nimos cuadrados II
Def. Residual Sum of Squares (RSS)

Definimos el Residual Sum of Squares (RSS) como
n
X
RSS = (yi − ŷi )2 ,
i=1
donde yi es la respuesta real, ŷi es la respuesta predicha por el

modelo, y ri = yi − ŷi es el i-ésimo residuo.

Estimadores de mı́nimos cuadrados III
Def. Estimadores β∗i de mı́nimos cuadrados

Usando el modelo lineal ŷi = β̂0 + β̂1 xi , encontramos los estimadores
de mı́nimos cuadrados β̂0 y β̂1 resolviendo el siguiente problema de
optimización
β∗0 , β∗1 = min RSS(β0 , β1 )

β0 ,β1

Estimadores de mı́nimos cuadrados IV

Estimadores de mı́nimos cuadrados V
Este problema puede ser resuelto considerando las condiciones de

optimalidad de primer orden
∂RSS(β0 ,β1 )
= −2 N
i=1 (yi − β0 − β1 xi ) = 0
P
I
∂β0
∂RSS(β0 ,β1 )
= −2 N
i=1 xi (yi − β0 − β1 xi ) = 0
P
I
∂β1
Lo que produce los siguientes estimadores de mı́nimos cuadrados

I β∗0 = ȳ − β∗1 x̄
PN
i=1 (xi −x̄)(yi −ȳ)
I β∗1 = PN 2
i=1 (xi −x̄)

Variabilidad de los coeficientes I
I La varianza de los estimadores de mı́nimos cuadrados es la

siguiente:  
1 x̄2
SE (β0 ) = σ  + PN
2 ∗ 2 
  ;
n i=1 (xi − x̄)
2
σ2
SE2 (β∗1 ) = PN
i=1 (xi − x̄)2
donde σ2 = VAR(ε).
I Esto puede ser utilizado para establecer intervalos de confianza
(e.g. 95%) para los estimadores
β∗1 ± 2 · SE(β∗1 )

Contraste de hipótesis sobre coeficientes I
Def. Constraste de hipótesis sobre efecto de X en Y

Considere el siguiente contraste
I H0 : No existe relación entre X y Y
I HA : Existe alguna relación entre X y Y
O, matemáticamente
I H0 : β 1 = 0
I HA : β 1 , 0
ya que esto reducirı́a al modelo a Y = β0 + ε.

Contraste de hipótesis sobre coeficientes II
Esto puede ser probado utilizando el estadı́stico
β∗1 − 0
t=
SE(β∗1 )
con una distribución t y n − 2 grados de libertad, asumiendo β1 = 0
Utilizando software estadı́stico

podemos obtener la probabilidad
de observar un valor igual o más
extremo (mayor) a |t|
I A esta probabilidad se conoce
como el valor p

Evaluando desempeño del modelo I
Para evaluar el desempeño de un modelo generalmente se utilizan
algunas de las dos siguientes medidas
I Modelo explicativo: R2 (o considerando complejidad del
modelo R2adj )
I Modelo predictivo: RSS
Para estimar el RSS necesitamos particionar los datos en: (1) datos
de entrenamiento y (2) datos de prueba

Evaluando desempeño del modelo II
Para obtener estimaciones de la distribución de los estimadores

(como por ejemplo del RSS) podemos utilizar la validación cruzada
(cross validation)
Esto nos permite tener estimaciones de intervalos (como intervalos

de confianza)

RSS y coeficiente de determinación R2 I
Total sum of squares TSS = − ȳ)2

P
i (yi
I
Explained sum of squares ESS = i (ŷi − ȳ)2

P
I
Residual sum of squares RSS = i (yi − ŷ)2

P
I
TSS = ESS + RSS
Coeficiente de
determinación
El coeficiente de
determinación del
modelo es
ESS
R2 =
TSS

Regresión lineal múltiple I
Consideramos ahora el modelo de regresión lineal múltiple
yi = β0 + β1 xi1 + · · · + βp xip + εi .
Equivalentemente
Y = Xβ + ε,
donde Y ∈ Rn ; X ∈ Rn×(p+1) ; β ∈ R(p+1) ; y ε ∈ Rn .
Regresión lineal múltiple II

Estimación de los coeficientes I
El cálculo de la suma cuadrada de los residuos RSS es
RSS(β) = (y − Xβ)| (y − Xβ)
∂RSS
= − 2X| (y − Xβ) X| (y − Xβ) =0
∂β
∂2 RSS β̂ = (X| X)−1 X| y
=2X| X
∂β∂β|
Tenemos ası́ la estimación ŷ dada por
ŷ = Xβ̂
ŷ = X(X| X)−1 X| y

Coeficiente de determinación I
Total sum of squares TSS = − ȳ)2

P
i (yi
I
Explained sum of squares ESS = i (ŷi − ȳ)2

P
I
Residual sum of squares RSS = i (yi − ŷ)2

P
I
TSS = ESS + RSS

Coeficiente de determinación II
Coeficiente de determinación
El coeficiente de determinación del modelo es
ESS
R2 = .
TSS
Coeficiente de determinación ajustado

El coeficiente de determinación ajustdo del modelo es
n−1
R2adj = 1 − (1 − R2 ),
n−k−1
donde n es el tamaño de la muestra y k número de variables
independientes

Contraste de hipótesis múltiples coeficientes I
Contraste de hipótesis múltiples coeficientes

Considere el siguiente contraste
I H0 : Ningún Xi es útil para predecir Y
I HA : Al menos un Xi es útil para predecir Y
O, matemáticamente
I H0 : β 1 = · · · = β p = 0
I HA : βi , 0 para algún i.
El estadı́stico de la prueba es
(TSS − RSS)/p
F= ∼ Fp,n−p−1
RSS/(n − p − 1)

Selección de modelos I
I El acercamiento más directo corresponde a una búsqueda

exhaustiva en el espacio de modelos: ajustamos un modelo de
mı́nimos cuadrados a todas las combinaciones posibles de
variables y escogemos entre ellos según algún criterio que
equilibre error y tamaño del modelo
I Sin embargo, no podemos explorar todos los modelos para p
medianos y grandes: existen 2p modelos posibles para p
variables
I para p = 40 hay más de un billón de modelos
I Veremos dos métodos de exploración del espacio de modelos:
1. Selección hacia adelante
2. Selección hacia atrás

Selección de modelos II
Selección hacia adelante

1. Empezamos con el modelo NULL: el modelo con un intercepto
pero sin predictores
2. Ajustamos p modelos de regresión lineal simple y añadimos al
modelo NULL la variable que resulte en el menor RSS
3. Añada a ese modelo la variables que resulte en el menor RSS
entre todos los modelos de dos variables
4. Continue ası́ hasta que alguna regla de parar se cumpla: e.g.
cuando todas las variables restantes tengan un valor p superior
a cierto umbral

Selección de modelos III
Selección hacia atrás

1. Empezamos con un modelo con todas las variables
2. Retiramos la variable con el mayor valor p
3. Un nuevo modelo con (p − 1) es ajustado; retiramos la variable
con el mayor valor p
4. Continue ası́ hasta que alguna regla de parar se cumpla: e.g.
cuando todas las variables en el modelo tengan un valor p
inferior a cierto umbral

Selección de modelos utilizando regularización I
El siguiente problema de optimización
β̂ ∈ arg min kY − Xβk2 + λkβkp ,

β
es conocido en la literatura como:

I p = 1 tenemos regresión Lasso (least absolute shrinkage and
selection operator)
I p = 2 tenemos regresión Ridge
Selección de modelos utilizando regularización II
Se ha introducido la pérdida elastic-net que mezcla la regresión

lasso y ridge de la siguiente manera
N
1 X h i
min wi l(yi , β0 + β| xi ) + λ (1 − α)kβk22 /2 + αkβk1 ,
β0 ,β N
i=1
donde l(yi , β0 + β| xi ) es el negativo log máxima verosimilitud.

I α = 1 tenemos regresión Lasso
I α = 0 tenemos regresión Ridge

Selección de modelos utilizando regularización III
I En el caso de la regresión ridge (p = 2) tenemos una solución de

forma cerrada
−1
β̂ = X| X + λĨ X| y,
donde Ĩ es similar a una matriz identidad de tamaño

(p + 1) × (p + 1) pero con un cero en la primera posición.
I Para el caso de la regresión lasso (p = 1) no se tiene una forma
cerrada, y el estimador es obtenido utilizando técnicas de
optimización (e.g. método de newton).

Selección de modelos utilizando regularización IV
Considere el modelo de regresión lasso de Price sobre las variables:
Age, KM, Weight, Automatic, MetColor y α = 1.
Lambda
3000 400 55 20
Automtc1
150
Coefficients
50
MetColr1
Weight
0
KM
−100
Age
8 7 6 5 4 3
Log Lambda

Regresión logı́stica I
I Los datos contienen información de

5000 ofertas de préstamos
I La variable respuesta es si una
oferta de prestamos ha sido
aceptado en el pasado
UniversalBank Data
I Age of customer in years
I Experience: professional experience in years
I Income of customer
I Family size of customer
I CCAvg: average monthly credit card spending
I Mortgage: size of mortgage
I SecuritiesAccount: No/Yes
I CDAccount: No/Yes
I Online: No/Yes
I CreditCard: No/Yes
I Educational level: three categories (undergraduate,
Andrés G. Abad, Ph.D., agabad@espol.edu.ec
graduate, professional) 29 / 39
Regresión logı́stica II
La idea es transformar la respuesta y = β0 + β1 x1 + · · · + βp xp de la
siguiente manera
La curva o función logı́stica es
1
p(y) =
1 + exp−y
1
= .
1 + exp−β0 −β1 x1 −···−βp xp
Su inverso es conocido como

función logit y esta dada por
p
log( ) = β0 + β1 x1 + · · · + βp xp .
1−p

Regresión logı́stica III
Modelando la aceptación del prestamo PersonalLoan en función del
ingreso Income
1
P{PersonalLoan = 1|Income = x} =
1 + exp−β0 −β1 x
Ajustando coeficientes, obtenemos β0 = −6.3525, β1 = 0.0392 y
1
P{PersonalLoan = 1|Income = x} =
1+ exp6.3525−0.0392x

Estimacón de parámetros I
La estimación de parámetros es obtenida a través del proceso

iterativo máxima verosimilitud
N
Y
β∗0 , β∗1 = arg max `(β0 , β1 ) = arg max p(xi )yi (1 − p(xi ))(1−yi ) ,
β0 ,β1 β0 ,β1
i=1
lo que es equivalente a
N
X
yi log(p(xi )) + (1 − yi ) log(1 − p(xi ))

arg max
β0 ,β1
i=1

Estimacón de parámetros II
logit=-13.201-
0.045Age+0.057Experience+0.066Income+0.572Family
+0.187CCAvg+0.002Mortgage-0.855Securities+3.469CD
-0.844Online-0.964CreditCard+4.589EduGrad+4.523EducProf

Evaluando la precisión de la predicción I
I Matriz de confusión
I Curva ROC (receiver operating characteristic)
I Curva Lift

Matriz de confusión I
Definimos la precisión y el error de predicción como
Número de objetos clasificados correctamente

Precisión =
Número de objetos en los datos
y
Error = 1 − Precisión

Curva ROC (receiver operating characteristic) I

Curva Lift I

Referencias Bibliográficas I

Administracion de La Cadena de Suministro Estrategia Planeacion y Operacion Sunil Chopra Peter Meindl

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Administracion de La Cadena de Suministro Estrategia Planeacion y Operacion Sunil Chopra Peter Meindl

Hochgeladen von

Copyright:

Verfügbare Formate

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL

Métodos de Regresión Lineal Simple,

Andrés G. Abad, Ph.D.

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 1 / 39

Introducción al problema de regresión

Evaluando la precisión de la predicción

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 2 / 39

I Los datos corresponden a 1436 autos

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 3 / 39

Precio =β̂0 + β̂1 · Edad

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 4 / 39

Se propone el siguiente modelo lineal

Considerando los estimadores βˆ0 y βˆ1 , obtenemos la estimación

ŷi = β̂0 + β̂1 xi .

¿Cómo encontramos los estimadores β̂0 y β̂1 ?

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 5 / 39

Def. Residual Sum of Squares (RSS)

donde yi es la respuesta real, ŷi es la respuesta predicha por el

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 6 / 39

Def. Estimadores β∗i de mı́nimos cuadrados

β∗0 , β∗1 = min RSS(β0 , β1 )

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 7 / 39

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 8 / 39

Este problema puede ser resuelto considerando las condiciones de

Lo que produce los siguientes estimadores de mı́nimos cuadrados

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 9 / 39

I La varianza de los estimadores de mı́nimos cuadrados es la

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 10 / 39

Def. Constraste de hipótesis sobre efecto de X en Y

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 11 / 39

Esto puede ser probado utilizando el estadı́stico

con una distribución t y n − 2 grados de libertad, asumiendo β1 = 0

Utilizando software estadı́stico

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 12 / 39

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 13 / 39

Para obtener estimaciones de la distribución de los estimadores

Esto nos permite tener estimaciones de intervalos (como intervalos

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 14 / 39

Total sum of squares TSS = − ȳ)2

Explained sum of squares ESS = i (ŷi − ȳ)2

Residual sum of squares RSS = i (yi − ŷ)2

TSS = ESS + RSS

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 15 / 39

Consideramos ahora el modelo de regresión lineal múltiple

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 17 / 39

El cálculo de la suma cuadrada de los residuos RSS es

RSS(β) = (y − Xβ)| (y − Xβ)

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 18 / 39

Total sum of squares TSS = − ȳ)2

Explained sum of squares ESS = i (ŷi − ȳ)2

Residual sum of squares RSS = i (yi − ŷ)2

TSS = ESS + RSS

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 19 / 39

Coeficiente de determinación ajustado

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 20 / 39

Contraste de hipótesis múltiples coeficientes

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 21 / 39

I El acercamiento más directo corresponde a una búsqueda

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 22 / 39

Selección hacia adelante

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 23 / 39

Selección hacia atrás

Andrés G. Abad, Ph.D., agabad@espol.edu.ec 24 / 39