Beruflich Dokumente
Kultur Dokumente
Semestre 2019-30
1 Preliminares
2 Estimación por mı́nimos cuadrados ordinarios
3 Análisis de Varianza (ANOVA)
4 Supuestos y validación del modelo de Regresión
5 Inferencia sobre β
6 Intervalos de confianza y predicción para E [Y | x = x0 ]
7 Ejemplo en R
Model y = 75 + 15x
1 Los coeficientes del modelo se interpretan en términos de una derivada
2 Por cada cambio unitario en x, el valor esperado de y cambia 15 unidades
3 El intercepto es el valor de y cuando x = 0. En algunas situaciones este parámetro
es considerado de “poco” interés
4 Cuál es el valor esperado de Y cuando x = 1.25%?
ID y x
1 y1 x1
2 y2 x2
3 y3 x3
4 y4 x4
5 y5 x5
6 y6 x6
.. .. ..
. . .
n yn xn
En este caso, por cada cambio unitario en el % del nivel de hidrocarbón, el valor
esperado del % de pureza de oxı́geno cambia 14.97%
Estimación
Estamos interesados en estimar el valor esperado de y dados valores especı́ficos de
x, y posteriormente construir intervalos de confianza y predicción
El proceso de estimación se realiza por mı́nimos cuadrados ordinarios (OLS, en
inglés) – minimizando la función
n
X n
X
L= 2i = (yi − β0 − β1 xi )2 (1)
i=1 i=1
Estimación
Estamos interesados en estimar el valor esperado de y dados valores especı́ficos de
x, y posteriormente construir intervalos de confianza y predicción
El proceso de estimación se realiza por mı́nimos cuadrados ordinarios (OLS, en
inglés) – minimizando la función
n
X n
X
L= 2i = (yi − β0 − β1 xi )2 (1)
i=1 i=1
El modelo estimado es
ŷi = β̂0 + β̂1 xi (2)
SSxy
β̂1 =
SSx
β̂0 = ȳ − β1 x̄
donde
n n
!2
X 1 X
SSx = xi2 − xi
i=1
n i=1
n n n
X 1 X X
SSxy = xi yi − xi yi
i=1
n i=1 i=1
Supuestos
Los supuestos se hacen sobre los residuales o errores
Hay 4 supuestos que deben verificarse:
I Los errores siguen una distribución Normal (i.e., prueba Shapiro-Wilks)
I Los errores tienen media cero (garantizado por OLS)
I La varianza σ̂ 2 es constante (i.e., prueba de heterocedasticidad)
I Los errores son independientes (i.e., prueba de Durbin-Watson o la
ACF)
Podrı́amos hacer esto “a mano” o usando R (preferible)
Qué hacemos?
1 La idea principal es determinar si podemos calcular, basados en una muestra de
tamaño n, que a nivel poblacional β0 y β1 toman valores especı́ficos
2 Esto puede hacerse usando dos estrategias
I Intervalos de confianza
I Pruebas de hipótesis
Qué hacemos?
1 La idea principal es determinar si podemos calcular, basados en una muestra de
tamaño n, que a nivel poblacional β0 y β1 toman valores especı́ficos
2 Esto puede hacerse usando dos estrategias
I Intervalos de confianza
I Pruebas de hipótesis
Pruebas de hipótesis
1 Como es usual, necesitamos establecer la hipótesis y luego calcular un estadı́stico
de prueba
2 Aunque las hipótesis son las mismas, el estadı́stico es diferente para cada
coeficiente
Cómo?
Para β0 probamos si H0 : β0 = 0 vs. H0 : β0 6= 0 (<, >) usando el estadı́stico
β̂0 − 0
tcalc = r ∼ tn−2
σ̂ 2 n1 + SSx̄ x
β̂1 − 0
tcalc = q ∼ tn−2
σ̂ 2
SSx
En ambos casos usamos la región de rechazo o el valor P para tomar una decisión
acerca de los parámetros a nivel poblacional