Regresion Lineal Multiple

Clase 3.
Modelo de regresión múltiple
Nerys Ramı́rez Mordán
Pontificia Universidad Católica Madre y Maestra

Econometrı́a I (EC-411-T)
15 de junio de 2018
1
Contenido
1 Introducción Varianza de los estimadores

Omisión de variables R cuadrada ajustada
relevantes 3 Supuestos del modelo
Generalizar formas Linealidad
funcionales Muestreo aleatorio
Efecto ceteris paribus Independencia de u|x
Cambio simultáneo de varias X 0 s no estocásticas
variables Multicolinealidad
2 Modelo de regresión múltiple Homocedasticidad
Generalización del modelo Autocorrelación
Estimación Normalidad
Valor ajustado y residuales 4 Referencias
2
Introducción
3
Introducción
El modelo de regresión simple con frecuencia es inadecuado en la

práctica (Gujarati, 2007, p.195), especialmente, porque la variable
dependiente, o regresada, depende de más de una variable.
Lo anterior, dificulta obtener relaciones cesteris paribus, porque no
es posible mantener el supuesto de que los demás factores que
afectan a y −contenidos en ui − se mantienen constantes
(Wooldridge, 2009, p.68).
4
Introducción
Por tanto, es recomendable utilizar un modelo de regresión que

incorpore más de una variable entre los factores explicativos.
yi = β0 + β1 x1i + β2 x2i + ... + βk xki + ui (1)

Este modelo se conoce como el regresión múltiple, y permite:
1 Explicar una mayor proporción de la variación de Y .
2 Evitar sesgo ocasionado por variable omitida.
3 Incorporar formas funcionales.
4 Garantizar el efecto ceteris paribus.
5 Estudiar cambios simultáneos entre variables.
5
Omisión de variables relevantes
La omisión de una variable relevante relacionada con el resto

de variables del modelo, causa sesgo en nuestras estimaciones de
los parámetros.
Este sesgo dependerá de la correlación de la variable omitida con
las demás variables independientes y su efecto sobre la variable
dependiente (Wooldridge, 2009, p.91).
6
Omisión de variables relevantes
Suponga el modelo correcto es:
yi = β0 + β1 x1i + β2 x2i + u (2)
Pero ha estimado:
yi = α0 + α1 x1 + u∗ (3)
Por lo que:
Cov(x1 , y) Cov(x1 , β0 + β1 x1 + β2 x2 + u)
α1 = = (4)
var(x1 ) var(x1 )
Cov(x1 , x2 )
α1 = β1 + β2 (5)
V ar(x1 )
7
Ecuación de salarios: sesgo por variable omitida
Suponga desea estudiar el efecto de la educación sobre el salario
y ha modificado los ejemplos anteriores agregando la variable
experiencia entre las variables explicativas:
salarioi = β0 + β1 educi + β2 expi + ui (6)
Ahora podemos estar seguro que se esta midiendo el efecto de la

ecuación, manteniendo constante la experiencia.
¿Puede determinar la dirección del sesgo del coeficiente asociado
con Educación en el modelo donde se omite la variable exp?
8
Generalizar formas funcionales
Adicionalmente, el modelo de regresión múltiple permite establecer

relaciones funcionales entre variables, como es el caso de funciones
cuadráticas.
yi = β0 + β1 xi + β2 x2i + ui (7)
Este modelo cae fuera de la regresión simple porque contiene dos

funciones de ingreso (x y x2 ), lo que modifica la interpretación de
los parámetros, dado que ahora el efecto marginal de x depende de
β1 , β2 y el nivel de x:
∆yi
= β1 + 2β2 x (8)
∆xi
9
Ecuación de salarios: formas funcionales
Ahora, suponga incorpora el valor de la experiencia al cuadrado
en la ecuación de ingresos, lo que modifica el efecto marginal
derivado de un año adicional de experiencia.
salarioi = β0 + β1 educi + β2 expi + β3 exp2i + ui (9)
Este efecto marginal viene dado por:
∆salarioi
= β2 + 2β3 exp (10)
∆expi
10
Efecto ceteris paribus
La ventaja del método múltiple, es que permite estimaciones

ceteris paribus aun cuando los datos no se recolectaron de esa
manera −no se impusieron restricciones a los valores muestrales,
como para darse el lujo de mantener constante ciertas variables−.
Imagine que omite una variable relevante de la ecuación de salario,
esta variable relevante pasa a estar contenida en ui , pero se
correlaciona con las variables incluidas en el modelo, por lo que,
no es posible obtener una interpretación ceteris paribus.
11
Efecto ceteris paribus
También, el modelo múltiple permite verificar el efecto del cambio

de dos o más variables de forma conjunta.
Por ejemplo, dado el modelo sobre salarios:
salario = 107,16 + 12,8edu + 5,3exp + ui (11)
ˆ
∆salario = 12,8∆edu + 5,3∆exp = 18,1 (12)
12
13
Ahora, el modelo se generaliza para controlar de forma explı́cita

los demás factores que afectan la variable independiente, en el
conocido modelo de regresión lineal múltiple:
yi = β0 + β1 x1i + β2 x2i + ... + βk xki + ui (13)
Donde, β0 indica al efecto medio sobre Y de todas las variables

excluidas del modelo, aunque su interpretación mecánica del valor
promedio de Y cuando todas las x0 s se hacen cero continua siendo
valida; las βi ∀i ∈ [1, ..., k] se conocen como coeficientes de
regresión parciales; y, ui continua siendo el término de error.
14
Tomando esperanza condicionales:
E[yi |x1i , x2i , ..., xki ] = β0 + β1 x1i + β2 x2i + ... + βk xki (14)
Donde el supuesto clave de la relación de ui con X se establece en

términos de esperanza condicional, indicando que el promedio de
los efectos de los factores no observados es igual a cero,
independientemente de los valores de las xi . Es decir,
corr(u, x) = 0.
E[ui |x1i , x2i , ..., xki ] = 0 (15)
15
Estimación
El modelo se continua estimando a partir de Mı́nimos

Cuadrados Ordinarios, obteniendo las estimaciones que
minimicen la suma de los residuales al cuadrado.
Dadas n observaciones sobre las variables (yi , x1i , x2i ..., xki :
i = 1, 2, ..., n), se eligen los estimadores que:
n n
2
(yi − βˆ0 − βˆ1 x1i − βˆ2 x2i − ... − βˆk xki )
X X
min u2 = (16)
i=1 i=1
16
Estimación
Empleando cálculo multivariado se obtienen las k + 1 condiciones

de primer orden:
(y − βˆ − βˆ x1 − βˆ x2 − ... − βˆk xki ) = 0

Pn
Pn i=1 i ˆ 0 ˆ 1 1 i ˆ 2 2 i
(yi − β0 − β1 xi − β2 xi − ... − βˆk xki )x1i = 0
Pi=1
n ˆ ˆ 1 ˆ 2 ˆ k 2
− β0 − β1 xi − β2 xi − ... − βk xi )xi = 0
i=1 (yi
...
Pn
(y − ˆ
β − ˆ
β x 1 − βˆ x2 − ... − βˆ xk )xk = 0
i=1 i 0 1 i 2 i k i i
17
Estimación
En el caso de dos variables independientes, la solución al sistema

anterior, arroja las siguientes estimaciones:
β̂0 = ȳ − β̂1 x̄1 − β̂2 x̄2 − ... − β̂k x̄k (17)
yi x1i )( x22i ) − ( yi x2i )( x1i x2i )

P P P P
(
β̂1 = (18)
( x21i )( x22i ) − ( x1i x2i )2
P P P
yi x2i )( x21i ) − ( yi x1i )( x1i x2i )

P P P P
(
β̂2 = (19)
( x21i )( x22i ) − ( x1i x2i )2
P P P
18
Interpretación de los coeficientes
Consideremos nuevamente la ecuación del salario:
ˆ = 2,87 + 0,60educ + 0,02exper + 0,17antig

sal (20)
Ahora, el coeficiente asociado con educación mide el efecto de un

año adicional de educación, manteniendo constante la experiencia
y la antigüedad en la empresa.
Alternativamente, si comparamos dos personas con el mismo nivel
de experiencia y antigüedad, el coeficiente de educ es la
diferencia en el salario esperado cuando sus niveles de educación
difieren en un año (UC3, 2017, p.21).
19
Valor ajustado y residuales
El valor ajustado (ŷi ) se obtiene como:
ŷi = β̂0 + β̂1 x1i + β̂2 x2i + ... + β̂k xki (21)
El residual (ûi ) esta definido como en el caso del modelo de

regresión simple, a partir de la diferencia entre el y observado y el
ŷ estimado:
ûi = yi − ŷi = yi − βˆ0 − βˆ1 x1i − βˆ2 x2i − ... − βˆk xki (22)
20
Varianza de los estimadores
Ahora, la varianza de los estimadores se obtiene como:
σ̂ 2
var(β̂j ) = Pn 2 2
(23)
i=1 (xij − x̄j ) (1 − Rj )
Rj2 se conoce como R-cuadrado auxiliar.

El estimador insesgado de σ 2 (aquı́ k es el número de parámetros
estimados):
Pn 2
i=1 ûi
σ̂ 2 = (24)
n−k
21
R cuadrada ajustada
Como el R-cuadrado es una función creciente del número de

variables incluidas en el modelo, se suele utilizar el R2 -ajustado
(por los grados de libertad del modelo), que pone como restricción
(n − k) los grados de libertad (gl) para compensar la pérdida de gl
que implica el incremento del número de parámetros.
Pn 2
i=1 û /(n − k)
n−1
2
R̄ = Pn 2
= 1 − 1 − R2 (25)
i=1 (yi − ȳ) /(n − 1) n−k
Para comparar las R̄2 ajustados o no, es necesario que los modelos
tengan la misma cantidad de observaciones y las mismas variables
independientes (aunque adopten cualquier forma) (Gujarati y
Swan, 2009, p.203).
22
Ejemplo
Continuando con el ejemplo de clases:

1 Obtenga el R2 ajustado del modelo.
2 Reproducir los ejercicios en Excel y en R para confirmar resultados.
n−1 8−1
R̄2 = 1 − 1 − R2 = 1 − (1 − 0,57742) ∗ = 0,5070 (26)
n−k 8−2
23
Supuestos del modelo
24
Linealidad. El modelo de regresión poblacional es lineal en los

parámetros (no sobre las variables).
Este supuesto permite establecer la forma funcional de la relación
entre las variables.
k
X
yi = β0 + βi xi + ui (27)
i=1
Implica que el efecto de xi sobre y, es el mismo

independientemente al nivel de x, no obstante, el modelo lineal
permite incorporar no linealidades (Novales, 2010, p.16).
25
Muestreo aleatorio. Se cuenta con una muestra aleatoria de

tamaño n (xi , yi : i = 1, 2, 3, ..., n).
Variación muestral de la variable explicativas. No todos los
valores de (xi : i = 1, 2, 3, ..., n) son iguales. Sı́ xi varia en la
población, las muestras aleatorias recogerán dicha propiedad.
26
Independencia entre el error y las regresoras del modelo.
E[ui |xi ] = E[ui ] = 0 ∀i = 1, 2, 3, ..., n (28)
Según Gujarati y Swan (2009, p.4), la razón de este supuesto es

que la especificación de la regresión suponı́a un efecto aditivo e
independiente entre x e u, de lo contrario, no es posible evaluar los
efectos individuales de las regresoras.
27
Cuando ui no cumple la independencia se obtienen relaciones

espurias, dado que la relación entre u y x se debe a factores no
observados que afectan a y y están relacionados con x
(Wooldridge, 2009, p.52).
Suponga ha especificado el modelo siguiente, omitiendo la variable
relevante (x2i ).
yi = β0 + β1 x1i + νi (29)
Ahora, E[νi ] = E[β2 x2i + ui ] = β2 E[x2i ].
28
Desempeño en matemáticas y desayuno escolar
Suponga el porcentaje de estudiantes que aprueban el examen
estandarizado de matemáticas en el primer año de bachillerato de
una escuela (math10). Suponga que se desea estimar el efecto del
programa federal de desayunos escolares (que se otorga a los
estudiantes más pobres) sobre el desempeño de los estudiantes.
Sea lnchprg el porcentaje de estudiantes beneficiados con el
programa de desayunos escolares, se estima la siguiente relación
(MEAP93.txt).
ˆ
math10 = 3,14 − 0,319lnchprg + u (30)
¿Se puede creer que un aumento en el porcentaje de estudiantes

que reciben el desayuno escolar cause un peor desempeño?
29
Valores fijos de X o los valores de X son no estocásticos.
Cov(xji , ui ) = 0 (31)
Muchas veces, se requiere fijar valores de las x0 s para verificar

valores de y. Supone se escogen primero n valores muestrales de
Xi , y posteriormente, dados estos valores, se obtiene la muestra.
Técnicamente, condicionar sobre los valores muestrales de la
variable independiente es lo mismo que tratar a las x0 s como fijas
en muestreo repetidos (Wooldridge, 2009, p.49).
En contexto no experimentales no tiene mucho sentido pensar en
este supuesto, dado las muestras se construyen de forma aleatoria,
aunque una vez se obtiene este muestreo, no cambia nada en
suponer las x0 s como no aleatorias.
30
Multicolinealidad. No hay ninguna relación lineal exacta entre los

regresores, esto implica que no ninguna variable es constante.
Este supuesto permite correlación entre las variables, lo que no
permite es una correlación perfecta.
El efecto de la violación de este supuesto, puede apreciarse en la
ecuación 23, dado el R-cuadrado auxiliar (Rj2 ).
σ̂ 2
var(β̂j ) = Pn 2 2
(32)
i=1 (xij − x̄j ) (1 − Rj )
31
Los supuestos anteriores se utilizan para demostrar el

insesgamiento de los estimadores.
1 Linealidad.
2 Muestreo aleatorio.
3 Variación muestral de las variables explicativas.
4 Independencia entre u y x.
5 Valores fijos de x en muestras repetidas.
6 Multicolinealidad.
El insesgamiento es una propiedad de las estimaciones muestrales
de los coeficientes de MCO, no dice nada sobre los coeficientes
obtenidos en una determinada muestra.
32
Homocedasticidad o varianza constante de ui condicionada a los

valores de x0 s, que indica que la varianza es independiente a los
valores de x.
var[ui |xi ] = E[ui ] = var(ui ) = σui (33)
Este supuesto no se utiliza para demostrar insesgamiento.
33
No hay autocorrelación en el residuo, es decir entre dos ui e uj

(∀i 6= j). Aunque este supuesto suele asumirse con mayor seriedad
en el contexto de las series temporales, los datos transversales
pueden presentar correlación espacial.
34
Normalidad de ui .
ui ∼ N (0, σu ) (34)
No tiene ningún papel en las propiedades de insesgadez y

consistencia (Velasco, 2006, p.12).
35
Referencias
36
Referencias
1 Gujarati, Damodar (2007). Introducción a la Econometrı́a. 5th. Ed.

2 Hill, C; Griffinths, W and Lim, G. (2011). Principle of Econometric. United
States of America. Foruth edition.
3 Novales, Alfonso (2010). Análisis de regresión. Universidad Complutense de
Madrid.
4 Wooldridge, J. (2009). Introducción a la Econometrı́a: un enfoque moderno.
4ta. ed. Michigan State University. Cengage Learning
37

Regresion Lineal Multiple

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Regresion Lineal Multiple

Hochgeladen von

Copyright:

Verfügbare Formate

Clase 3.

Modelo de regresión múltiple

Nerys Ramı́rez Mordán

Pontificia Universidad Católica Madre y Maestra

1 Introducción Varianza de los estimadores

El modelo de regresión simple con frecuencia es inadecuado en la

Por tanto, es recomendable utilizar un modelo de regresión que

yi = β0 + β1 x1i + β2 x2i + ... + βk xki + ui (1)

La omisión de una variable relevante relacionada con el resto

Suponga el modelo correcto es:

yi = β0 + β1 x1i + β2 x2i + u (2)

salarioi = β0 + β1 educi + β2 expi + ui (6)

Ahora podemos estar seguro que se esta midiendo el efecto de la

Adicionalmente, el modelo de regresión múltiple permite establecer

Este modelo cae fuera de la regresión simple porque contiene dos

salarioi = β0 + β1 educi + β2 expi + β3 exp2i + ui (9)

Este efecto marginal viene dado por:

La ventaja del método múltiple, es que permite estimaciones

También, el modelo múltiple permite verificar el efecto del cambio

salario = 107,16 + 12,8edu + 5,3exp + ui (11)

Ahora, el modelo se generaliza para controlar de forma explı́cita

yi = β0 + β1 x1i + β2 x2i + ... + βk xki + ui (13)

Donde, β0 indica al efecto medio sobre Y de todas las variables

Tomando esperanza condicionales:

Donde el supuesto clave de la relación de ui con X se establece en

E[ui |x1i , x2i , ..., xki ] = 0 (15)

El modelo se continua estimando a partir de Mı́nimos

Empleando cálculo multivariado se obtienen las k + 1 condiciones

(y − βˆ − βˆ x1 − βˆ x2 − ... − βˆk xki ) = 0

En el caso de dos variables independientes, la solución al sistema

β̂0 = ȳ − β̂1 x̄1 − β̂2 x̄2 − ... − β̂k x̄k (17)

yi x1i )( x22i ) − ( yi x2i )( x1i x2i )

yi x2i )( x21i ) − ( yi x1i )( x1i x2i )

ˆ = 2,87 + 0,60educ + 0,02exper + 0,17antig

Ahora, el coeficiente asociado con educación mide el efecto de un

El valor ajustado (ŷi ) se obtiene como:

El residual (ûi ) esta definido como en el caso del modelo de

Ahora, la varianza de los estimadores se obtiene como:

Rj2 se conoce como R-cuadrado auxiliar.

Como el R-cuadrado es una función creciente del número de

Continuando con el ejemplo de clases:

Linealidad. El modelo de regresión poblacional es lineal en los

Implica que el efecto de xi sobre y, es el mismo

Muestreo aleatorio. Se cuenta con una muestra aleatoria de

Independencia entre el error y las regresoras del modelo.

E[ui |xi ] = E[ui ] = 0 ∀i = 1, 2, 3, ..., n (28)

Según Gujarati y Swan (2009, p.4), la razón de este supuesto es

Cuando ui no cumple la independencia se obtienen relaciones

Ahora, E[νi ] = E[β2 x2i + ui ] = β2 E[x2i ].

¿Se puede creer que un aumento en el porcentaje de estudiantes

Valores fijos de X o los valores de X son no estocásticos.

Muchas veces, se requiere fijar valores de las x0 s para verificar

Multicolinealidad. No hay ninguna relación lineal exacta entre los

Los supuestos anteriores se utilizan para demostrar el

Homocedasticidad o varianza constante de ui condicionada a los

var[ui |xi ] = E[ui ] = var(ui ) = σui (33)

Este supuesto no se utiliza para demostrar insesgamiento.

No hay autocorrelación en el residuo, es decir entre dos ui e uj

No tiene ningún papel en las propiedades de insesgadez y

1 Gujarati, Damodar (2007). Introducción a la Econometrı́a. 5th. Ed.

Das könnte Ihnen auch gefallen