Sie sind auf Seite 1von 32

Análisis de Datos en Ingenierı́a II

Sesión 2: Introducción a RLS

Ing. Jorge I. Vélez, MSc, PhD


jvelezv@uninorte.edu.co

Departamento de Ingenierı́a Industrial


Universidad del Norte
Barranquilla, Colombia

Semestre 2019-30

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 1 / 29


Conceptos importantes de Análisis de Datos I
1 Estadı́stica Descriptiva
I Medidas de tendencia central, dispersión y posición
I Histogramas, boxplots, gráficos de barra y gráficos de torta
2 Inferencia
I Variables aleatorias discretas y continuas
I Distribuciones de probabilidad (Binomial, Poisson, Normal, t, χ2 , F )
I Pruebas de hipótesis (una y dos colas; medias y proporciones)
I Definición, cálculo e interpretación del valor p
I Definición, cálculo e interpretación de intervalos de confianza
3 Regresión Lineal y Análisis de Varianza (ANOVA)
I Formulación e interpretación de un modelo de Regresión Lineal
I Tabla ANOVA
I Interpretación de medidas de desempeño básicas (R 2 , MSE y AIC)
I Estimación y predicción (i.e., inferencia)

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 2 / 29


Contenido

Modelos de Regresión Avanzados (20 horas, semanas 1-5)


Introducción a RLS
Regresión Lineal Múltiple

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 3 / 29


Introducción a RLS

1 Preliminares
2 Estimación por mı́nimos cuadrados ordinarios
3 Análisis de Varianza (ANOVA)
4 Supuestos y validación del modelo de Regresión
5 Inferencia sobre β
6 Intervalos de confianza y predicción para E [Y | x = x0 ]
7 Ejemplo en R

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 4 / 29


Preliminares

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 5 / 29


Modelo de RLS (1/6)
De dónde estudiar?

1 Capı́tulo 11 en Montgomery & Runger (Applied Statistics and Probability for


Engineers, 3rd edition, John Wiley & Sons)
2 Kutner, Nachtsheim & Neter (Applied Linear Regression Models, McGraw Hill, 4th
Edition)
3 Bowerman & O’Connell (Pronósticos, Series de Tiempo y Regresión: Un enfoque
aplicado, Thompson, 2007)

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 6 / 29


Modelo de RLS (2/6)
Preliminares

1 En muchas aplicaciones en Ingenierı́a se mide una variable de interés que está


influenciada por una o más variables independientes (o explicativas)
2 El modelo de Regresión Lineal Simple (RLS) es el más estudiado de los modelos de
regresión
3 Estimamos la relación entre una variable respuesta y y una variable
controlable/independiente de interés x
4 Los pares (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) constituyen los datos
5 Un gráfico de dispersión es una herramienta fundamental
6 Determinamos la correlación muestral ρ̂
7 Interesa principalmente estimar el valor esperado de Y como una función de X y
calcular intervalos de confianza y predicción

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 7 / 29


Modelo de RLS (3/6)
Preliminares

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 8 / 29


Modelo de RLS (4/6)
Ejemplo

Model y = 75 + 15x
1 Los coeficientes del modelo se interpretan en términos de una derivada
2 Por cada cambio unitario en x, el valor esperado de y cambia 15 unidades
3 El intercepto es el valor de y cuando x = 0. En algunas situaciones este parámetro
es considerado de “poco” interés
4 Cuál es el valor esperado de Y cuando x = 1.25%?

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 9 / 29


Modelo de RLS (5/6)
Estructura de datos

ID y x
1 y1 x1
2 y2 x2
3 y3 x3
4 y4 x4
5 y5 x5
6 y6 x6
.. .. ..
. . .
n yn xn

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 10 / 29


Modelo de RLS (6/6)
Ejemplo: ŷ = 74.2 + 14.97x

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 11 / 29


Modelo de RLS (6/6)
Ejemplo: ŷ = 74.2 + 14.97x

En este caso, por cada cambio unitario en el % del nivel de hidrocarbón, el valor
esperado del % de pureza de oxı́geno cambia 14.97%

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 11 / 29


Estimación por Mı́nimos
Cuadrados Ordinarios

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 12 / 29


Estimación por Mı́nimos Cuadrados Ordinarios (1/4)

Estimación
Estamos interesados en estimar el valor esperado de y dados valores especı́ficos de
x, y posteriormente construir intervalos de confianza y predicción
El proceso de estimación se realiza por mı́nimos cuadrados ordinarios (OLS, en
inglés) – minimizando la función
n
X n
X
L= 2i = (yi − β0 − β1 xi )2 (1)
i=1 i=1

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 13 / 29


Estimación por Mı́nimos Cuadrados Ordinarios (1/4)

Estimación
Estamos interesados en estimar el valor esperado de y dados valores especı́ficos de
x, y posteriormente construir intervalos de confianza y predicción
El proceso de estimación se realiza por mı́nimos cuadrados ordinarios (OLS, en
inglés) – minimizando la función
n
X n
X
L= 2i = (yi − β0 − β1 xi )2 (1)
i=1 i=1

El modelo estimado es
ŷi = β̂0 + β̂1 xi (2)

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 13 / 29


Estimación por Mı́nimos Cuadrados Ordinarios (2/4)

Algunas cantidades de interés


σ̂ 2 , también conocida como el Mean Squared Error (MSE)
La tabla de análisis de varianza (ANOVA) para bondad de ajuste
El coeficiente de determinación, R 2
Valores crı́ticos de la distribución t para evaluar la significancia estadı́stica de los
parámetros del modelo
El valor de E [Y |X = x0 ], además de intervalos de confianza y predicción

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 14 / 29


Estimación por Mı́nimos Cuadrados Ordinarios (3/4)

Los parámetros estimados del modelo de RLS son

SSxy
β̂1 =
SSx
β̂0 = ȳ − β1 x̄

donde

n n
!2
X 1 X
SSx = xi2 − xi
i=1
n i=1
n n n
X 1 X X
SSxy = xi yi − xi yi
i=1
n i=1 i=1

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 15 / 29


Estimación por Mı́nimos Cuadrados Ordinarios (4/4)
Valores reales vs. Valores ajustados

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 16 / 29


Tabla ANOVA

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 17 / 29


Análisis de Varianza (1/2)

Construcción de la tabla ANOVA


La tabla ANOVA es útil para estimar la varianza del modelo de RLS, el coeficiente
de determinación R 2 y realizar las pruebas de bondad de ajuste sobre el modelo
La varianza del modelo es
n
SSE 1 X 2 L̂
σ̂ 2 = MSE = = ˆi =
n−2 n − 2 i=1 n−2

Por lo tanto, SST = SSE + SSR with


n
X n
X n
X
SSR = (ŷi − ȳ )2 = yi2 − nȳ 2 , SST = (yi − ȳ )2
i=1 i=1 i=1

El coeficiente de determinación es R 2 = 1 − SSE /SST , 0 ≤ R 2 ≤ 1

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 18 / 29


Análisis de Varianza (2/2)
Tabla ANOVA

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 19 / 29


Validación de Supuestos

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 20 / 29


Supuestos y validación del modelo

Supuestos
Los supuestos se hacen sobre los residuales o errores
Hay 4 supuestos que deben verificarse:
I Los errores siguen una distribución Normal (i.e., prueba Shapiro-Wilks)
I Los errores tienen media cero (garantizado por OLS)
I La varianza σ̂ 2 es constante (i.e., prueba de heterocedasticidad)
I Los errores son independientes (i.e., prueba de Durbin-Watson o la
ACF)
Podrı́amos hacer esto “a mano” o usando R (preferible)

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 21 / 29


Inferencia sobre β

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 22 / 29


Inferencia sobre β (1/3)

Qué hacemos?
1 La idea principal es determinar si podemos calcular, basados en una muestra de
tamaño n, que a nivel poblacional β0 y β1 toman valores especı́ficos
2 Esto puede hacerse usando dos estrategias
I Intervalos de confianza
I Pruebas de hipótesis

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 23 / 29


Inferencia sobre β (1/3)

Qué hacemos?
1 La idea principal es determinar si podemos calcular, basados en una muestra de
tamaño n, que a nivel poblacional β0 y β1 toman valores especı́ficos
2 Esto puede hacerse usando dos estrategias
I Intervalos de confianza
I Pruebas de hipótesis

Intervalos de confianza del (1-α)100% para β0 y β1


r r !
1 x̄ 2 1 x̄ 2
β0 ∈ β̂0 − tα/2,n−2 σ̂ + , β̂0 + tα/2,n−2 σ̂ +
n SSx n SSx
 
σ̂ σ̂
β1 ∈ β̂1 − tα/2,n−2 √ , β̂1 + tα/2,n−2 √
SSx SSx

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 23 / 29


Inferencia sobre β (2/3)

Pruebas de hipótesis
1 Como es usual, necesitamos establecer la hipótesis y luego calcular un estadı́stico
de prueba
2 Aunque las hipótesis son las mismas, el estadı́stico es diferente para cada
coeficiente

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 24 / 29


Inferencia sobre β (3/3)

Cómo?
Para β0 probamos si H0 : β0 = 0 vs. H0 : β0 6= 0 (<, >) usando el estadı́stico

β̂0 − 0
tcalc = r   ∼ tn−2
σ̂ 2 n1 + SSx̄ x

Para β1 probamos H0 : β1 = 0 vs. H0 : β1 6= 0 (<, >) usando el estadı́stico

β̂1 − 0
tcalc = q ∼ tn−2
σ̂ 2
SSx

En ambos casos usamos la región de rechazo o el valor P para tomar una decisión
acerca de los parámetros a nivel poblacional

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 25 / 29


Intervalos de Confianza y
Predicción para E [Y | x = x0]

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 26 / 29


Inferencia sobre Y

Intervalo de confianza del (1 − α)100% para E [Y | x = x0 ]


r r !
1 (x0 − x̄)2 1 (x0 − x̄)2
Y ∈ ŷ − tα/2,n−2 σ̂ + , ŷ + tα/2,n−2 σ̂ +
n SSx n SSx

Intervalo de predicción del (1 − α)100% para E [Y | x = x0 ]


r
1 (x0 − x̄)2
Y ± tα/2,n−2 σ̂ 1+ +
n SSx

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 27 / 29


Ejemplo en R

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 28 / 29


Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 29 / 29

Das könnte Ihnen auch gefallen