Sie sind auf Seite 1von 37

Clase 3.

Modelo de regresión múltiple

Nerys Ramı́rez Mordán

Pontificia Universidad Católica Madre y Maestra


Econometrı́a I (EC-411-T)

15 de junio de 2018

1
Contenido

1 Introducción Varianza de los estimadores


Omisión de variables R cuadrada ajustada
relevantes 3 Supuestos del modelo
Generalizar formas Linealidad
funcionales Muestreo aleatorio
Efecto ceteris paribus Independencia de u|x
Cambio simultáneo de varias X 0 s no estocásticas
variables Multicolinealidad
2 Modelo de regresión múltiple Homocedasticidad
Generalización del modelo Autocorrelación
Estimación Normalidad
Valor ajustado y residuales 4 Referencias

2
Introducción

3
Introducción

El modelo de regresión simple con frecuencia es inadecuado en la


práctica (Gujarati, 2007, p.195), especialmente, porque la variable
dependiente, o regresada, depende de más de una variable.
Lo anterior, dificulta obtener relaciones cesteris paribus, porque no
es posible mantener el supuesto de que los demás factores que
afectan a y −contenidos en ui − se mantienen constantes
(Wooldridge, 2009, p.68).

4
Introducción

Por tanto, es recomendable utilizar un modelo de regresión que


incorpore más de una variable entre los factores explicativos.

yi = β0 + β1 x1i + β2 x2i + ... + βk xki + ui (1)


Este modelo se conoce como el regresión múltiple, y permite:
1 Explicar una mayor proporción de la variación de Y .
2 Evitar sesgo ocasionado por variable omitida.
3 Incorporar formas funcionales.
4 Garantizar el efecto ceteris paribus.
5 Estudiar cambios simultáneos entre variables.

5
Omisión de variables relevantes

La omisión de una variable relevante relacionada con el resto


de variables del modelo, causa sesgo en nuestras estimaciones de
los parámetros.
Este sesgo dependerá de la correlación de la variable omitida con
las demás variables independientes y su efecto sobre la variable
dependiente (Wooldridge, 2009, p.91).

6
Omisión de variables relevantes

Suponga el modelo correcto es:

yi = β0 + β1 x1i + β2 x2i + u (2)

Pero ha estimado:

yi = α0 + α1 x1 + u∗ (3)
Por lo que:

Cov(x1 , y) Cov(x1 , β0 + β1 x1 + β2 x2 + u)
α1 = = (4)
var(x1 ) var(x1 )
Cov(x1 , x2 )
α1 = β1 + β2 (5)
V ar(x1 )

7
Ecuación de salarios: sesgo por variable omitida
Suponga desea estudiar el efecto de la educación sobre el salario
y ha modificado los ejemplos anteriores agregando la variable
experiencia entre las variables explicativas:

salarioi = β0 + β1 educi + β2 expi + ui (6)

Ahora podemos estar seguro que se esta midiendo el efecto de la


ecuación, manteniendo constante la experiencia.
¿Puede determinar la dirección del sesgo del coeficiente asociado
con Educación en el modelo donde se omite la variable exp?

8
Generalizar formas funcionales

Adicionalmente, el modelo de regresión múltiple permite establecer


relaciones funcionales entre variables, como es el caso de funciones
cuadráticas.

yi = β0 + β1 xi + β2 x2i + ui (7)

Este modelo cae fuera de la regresión simple porque contiene dos


funciones de ingreso (x y x2 ), lo que modifica la interpretación de
los parámetros, dado que ahora el efecto marginal de x depende de
β1 , β2 y el nivel de x:

∆yi
= β1 + 2β2 x (8)
∆xi

9
Ecuación de salarios: formas funcionales
Ahora, suponga incorpora el valor de la experiencia al cuadrado
en la ecuación de ingresos, lo que modifica el efecto marginal
derivado de un año adicional de experiencia.

salarioi = β0 + β1 educi + β2 expi + β3 exp2i + ui (9)

Este efecto marginal viene dado por:

∆salarioi
= β2 + 2β3 exp (10)
∆expi

10
Efecto ceteris paribus

La ventaja del método múltiple, es que permite estimaciones


ceteris paribus aun cuando los datos no se recolectaron de esa
manera −no se impusieron restricciones a los valores muestrales,
como para darse el lujo de mantener constante ciertas variables−.
Imagine que omite una variable relevante de la ecuación de salario,
esta variable relevante pasa a estar contenida en ui , pero se
correlaciona con las variables incluidas en el modelo, por lo que,
no es posible obtener una interpretación ceteris paribus.

11
Efecto ceteris paribus

También, el modelo múltiple permite verificar el efecto del cambio


de dos o más variables de forma conjunta.
Por ejemplo, dado el modelo sobre salarios:

salario = 107,16 + 12,8edu + 5,3exp + ui (11)

ˆ
∆salario = 12,8∆edu + 5,3∆exp = 18,1 (12)

12
Modelo de regresión múltiple

13
Modelo de regresión múltiple

Ahora, el modelo se generaliza para controlar de forma explı́cita


los demás factores que afectan la variable independiente, en el
conocido modelo de regresión lineal múltiple:

yi = β0 + β1 x1i + β2 x2i + ... + βk xki + ui (13)

Donde, β0 indica al efecto medio sobre Y de todas las variables


excluidas del modelo, aunque su interpretación mecánica del valor
promedio de Y cuando todas las x0 s se hacen cero continua siendo
valida; las βi ∀i ∈ [1, ..., k] se conocen como coeficientes de
regresión parciales; y, ui continua siendo el término de error.

14
Modelo de regresión múltiple

Tomando esperanza condicionales:

E[yi |x1i , x2i , ..., xki ] = β0 + β1 x1i + β2 x2i + ... + βk xki (14)

Donde el supuesto clave de la relación de ui con X se establece en


términos de esperanza condicional, indicando que el promedio de
los efectos de los factores no observados es igual a cero,
independientemente de los valores de las xi . Es decir,
corr(u, x) = 0.

E[ui |x1i , x2i , ..., xki ] = 0 (15)

15
Estimación

El modelo se continua estimando a partir de Mı́nimos


Cuadrados Ordinarios, obteniendo las estimaciones que
minimicen la suma de los residuales al cuadrado.
Dadas n observaciones sobre las variables (yi , x1i , x2i ..., xki :
i = 1, 2, ..., n), se eligen los estimadores que:

n n
2
(yi − βˆ0 − βˆ1 x1i − βˆ2 x2i − ... − βˆk xki )
X X
min u2 = (16)
i=1 i=1

16
Estimación

Empleando cálculo multivariado se obtienen las k + 1 condiciones


de primer orden:

(y − βˆ − βˆ x1 − βˆ x2 − ... − βˆk xki ) = 0


Pn
Pn i=1 i ˆ 0 ˆ 1 1 i ˆ 2 2 i
(yi − β0 − β1 xi − β2 xi − ... − βˆk xki )x1i = 0
Pi=1
n ˆ ˆ 1 ˆ 2 ˆ k 2
− β0 − β1 xi − β2 xi − ... − βk xi )xi = 0
i=1 (yi
...
Pn
(y − ˆ
β − ˆ
β x 1 − βˆ x2 − ... − βˆ xk )xk = 0
i=1 i 0 1 i 2 i k i i

17
Estimación

En el caso de dos variables independientes, la solución al sistema


anterior, arroja las siguientes estimaciones:

β̂0 = ȳ − β̂1 x̄1 − β̂2 x̄2 − ... − β̂k x̄k (17)

yi x1i )( x22i ) − ( yi x2i )( x1i x2i )


P P P P
(
β̂1 = (18)
( x21i )( x22i ) − ( x1i x2i )2
P P P

yi x2i )( x21i ) − ( yi x1i )( x1i x2i )


P P P P
(
β̂2 = (19)
( x21i )( x22i ) − ( x1i x2i )2
P P P

18
Interpretación de los coeficientes
Consideremos nuevamente la ecuación del salario:

ˆ = 2,87 + 0,60educ + 0,02exper + 0,17antig


sal (20)

Ahora, el coeficiente asociado con educación mide el efecto de un


año adicional de educación, manteniendo constante la experiencia
y la antigüedad en la empresa.
Alternativamente, si comparamos dos personas con el mismo nivel
de experiencia y antigüedad, el coeficiente de educ es la
diferencia en el salario esperado cuando sus niveles de educación
difieren en un año (UC3, 2017, p.21).

19
Valor ajustado y residuales

El valor ajustado (ŷi ) se obtiene como:

ŷi = β̂0 + β̂1 x1i + β̂2 x2i + ... + β̂k xki (21)

El residual (ûi ) esta definido como en el caso del modelo de


regresión simple, a partir de la diferencia entre el y observado y el
ŷ estimado:

ûi = yi − ŷi = yi − βˆ0 − βˆ1 x1i − βˆ2 x2i − ... − βˆk xki (22)

20
Varianza de los estimadores

Ahora, la varianza de los estimadores se obtiene como:

σ̂ 2
var(β̂j ) = Pn 2 2
(23)
i=1 (xij − x̄j ) (1 − Rj )

Rj2 se conoce como R-cuadrado auxiliar.


El estimador insesgado de σ 2 (aquı́ k es el número de parámetros
estimados):

Pn 2
i=1 ûi
σ̂ 2 = (24)
n−k

21
R cuadrada ajustada

Como el R-cuadrado es una función creciente del número de


variables incluidas en el modelo, se suele utilizar el R2 -ajustado
(por los grados de libertad del modelo), que pone como restricción
(n − k) los grados de libertad (gl) para compensar la pérdida de gl
que implica el incremento del número de parámetros.

Pn 2
i=1 û /(n − k)
  n−1
2
R̄ = Pn 2
= 1 − 1 − R2 (25)
i=1 (yi − ȳ) /(n − 1) n−k

Para comparar las R̄2 ajustados o no, es necesario que los modelos
tengan la misma cantidad de observaciones y las mismas variables
independientes (aunque adopten cualquier forma) (Gujarati y
Swan, 2009, p.203).

22
Ejemplo

Continuando con el ejemplo de clases:


1 Obtenga el R2 ajustado del modelo.
2 Reproducir los ejercicios en Excel y en R para confirmar resultados.

  n−1 8−1
R̄2 = 1 − 1 − R2 = 1 − (1 − 0,57742) ∗ = 0,5070 (26)
n−k 8−2

23
Supuestos del modelo

24
Supuestos del modelo

Linealidad. El modelo de regresión poblacional es lineal en los


parámetros (no sobre las variables).
Este supuesto permite establecer la forma funcional de la relación
entre las variables.

k
X
yi = β0 + βi xi + ui (27)
i=1

Implica que el efecto de xi sobre y, es el mismo


independientemente al nivel de x, no obstante, el modelo lineal
permite incorporar no linealidades (Novales, 2010, p.16).

25
Supuestos del modelo

Muestreo aleatorio. Se cuenta con una muestra aleatoria de


tamaño n (xi , yi : i = 1, 2, 3, ..., n).
Variación muestral de la variable explicativas. No todos los
valores de (xi : i = 1, 2, 3, ..., n) son iguales. Sı́ xi varia en la
población, las muestras aleatorias recogerán dicha propiedad.

26
Supuestos del modelo

Independencia entre el error y las regresoras del modelo.

E[ui |xi ] = E[ui ] = 0 ∀i = 1, 2, 3, ..., n (28)

Según Gujarati y Swan (2009, p.4), la razón de este supuesto es


que la especificación de la regresión suponı́a un efecto aditivo e
independiente entre x e u, de lo contrario, no es posible evaluar los
efectos individuales de las regresoras.

27
Supuestos del modelo

Cuando ui no cumple la independencia se obtienen relaciones


espurias, dado que la relación entre u y x se debe a factores no
observados que afectan a y y están relacionados con x
(Wooldridge, 2009, p.52).
Suponga ha especificado el modelo siguiente, omitiendo la variable
relevante (x2i ).

yi = β0 + β1 x1i + νi (29)

Ahora, E[νi ] = E[β2 x2i + ui ] = β2 E[x2i ].

28
Desempeño en matemáticas y desayuno escolar
Suponga el porcentaje de estudiantes que aprueban el examen
estandarizado de matemáticas en el primer año de bachillerato de
una escuela (math10). Suponga que se desea estimar el efecto del
programa federal de desayunos escolares (que se otorga a los
estudiantes más pobres) sobre el desempeño de los estudiantes.
Sea lnchprg el porcentaje de estudiantes beneficiados con el
programa de desayunos escolares, se estima la siguiente relación
(MEAP93.txt).

ˆ
math10 = 3,14 − 0,319lnchprg + u (30)

¿Se puede creer que un aumento en el porcentaje de estudiantes


que reciben el desayuno escolar cause un peor desempeño?

29
Supuestos del modelo

Valores fijos de X o los valores de X son no estocásticos.

Cov(xji , ui ) = 0 (31)

Muchas veces, se requiere fijar valores de las x0 s para verificar


valores de y. Supone se escogen primero n valores muestrales de
Xi , y posteriormente, dados estos valores, se obtiene la muestra.
Técnicamente, condicionar sobre los valores muestrales de la
variable independiente es lo mismo que tratar a las x0 s como fijas
en muestreo repetidos (Wooldridge, 2009, p.49).
En contexto no experimentales no tiene mucho sentido pensar en
este supuesto, dado las muestras se construyen de forma aleatoria,
aunque una vez se obtiene este muestreo, no cambia nada en
suponer las x0 s como no aleatorias.

30
Supuestos del modelo

Multicolinealidad. No hay ninguna relación lineal exacta entre los


regresores, esto implica que no ninguna variable es constante.
Este supuesto permite correlación entre las variables, lo que no
permite es una correlación perfecta.
El efecto de la violación de este supuesto, puede apreciarse en la
ecuación 23, dado el R-cuadrado auxiliar (Rj2 ).

σ̂ 2
var(β̂j ) = Pn 2 2
(32)
i=1 (xij − x̄j ) (1 − Rj )

31
Supuestos del modelo

Los supuestos anteriores se utilizan para demostrar el


insesgamiento de los estimadores.
1 Linealidad.
2 Muestreo aleatorio.
3 Variación muestral de las variables explicativas.
4 Independencia entre u y x.
5 Valores fijos de x en muestras repetidas.
6 Multicolinealidad.
El insesgamiento es una propiedad de las estimaciones muestrales
de los coeficientes de MCO, no dice nada sobre los coeficientes
obtenidos en una determinada muestra.

32
Supuestos del modelo

Homocedasticidad o varianza constante de ui condicionada a los


valores de x0 s, que indica que la varianza es independiente a los
valores de x.

var[ui |xi ] = E[ui ] = var(ui ) = σui (33)

Este supuesto no se utiliza para demostrar insesgamiento.

33
Supuestos del modelo

No hay autocorrelación en el residuo, es decir entre dos ui e uj


(∀i 6= j). Aunque este supuesto suele asumirse con mayor seriedad
en el contexto de las series temporales, los datos transversales
pueden presentar correlación espacial.

34
Supuestos del modelo

Normalidad de ui .

ui ∼ N (0, σu ) (34)

No tiene ningún papel en las propiedades de insesgadez y


consistencia (Velasco, 2006, p.12).

35
Referencias

36
Referencias

1 Gujarati, Damodar (2007). Introducción a la Econometrı́a. 5th. Ed.


2 Hill, C; Griffinths, W and Lim, G. (2011). Principle of Econometric. United
States of America. Foruth edition.
3 Novales, Alfonso (2010). Análisis de regresión. Universidad Complutense de
Madrid.
4 Wooldridge, J. (2009). Introducción a la Econometrı́a: un enfoque moderno.
4ta. ed. Michigan State University. Cengage Learning

37

Das könnte Ihnen auch gefallen