Clase2 Rls

Análisis de Datos en Ingenierı́a II
Sesión 2: Introducción a RLS
Ing. Jorge I. Vélez, MSc, PhD

jvelezv@uninorte.edu.co
Departamento de Ingenierı́a Industrial

Universidad del Norte
Barranquilla, Colombia
Semestre 2019-30
Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 1 / 29

Conceptos importantes de Análisis de Datos I
1 Estadı́stica Descriptiva
I Medidas de tendencia central, dispersión y posición
I Histogramas, boxplots, gráficos de barra y gráficos de torta
2 Inferencia
I Variables aleatorias discretas y continuas
I Distribuciones de probabilidad (Binomial, Poisson, Normal, t, χ2 , F )
I Pruebas de hipótesis (una y dos colas; medias y proporciones)
I Definición, cálculo e interpretación del valor p
I Definición, cálculo e interpretación de intervalos de confianza
3 Regresión Lineal y Análisis de Varianza (ANOVA)
I Formulación e interpretación de un modelo de Regresión Lineal
I Tabla ANOVA
I Interpretación de medidas de desempeño básicas (R 2 , MSE y AIC)
I Estimación y predicción (i.e., inferencia)

Contenido
Modelos de Regresión Avanzados (20 horas, semanas 1-5)

Introducción a RLS
Regresión Lineal Múltiple

Introducción a RLS
1 Preliminares
2 Estimación por mı́nimos cuadrados ordinarios
3 Análisis de Varianza (ANOVA)
4 Supuestos y validación del modelo de Regresión
5 Inferencia sobre β
6 Intervalos de confianza y predicción para E [Y | x = x0 ]
7 Ejemplo en R

Preliminares

Modelo de RLS (1/6)
De dónde estudiar?
1 Capı́tulo 11 en Montgomery & Runger (Applied Statistics and Probability for

Engineers, 3rd edition, John Wiley & Sons)
2 Kutner, Nachtsheim & Neter (Applied Linear Regression Models, McGraw Hill, 4th
Edition)
3 Bowerman & O’Connell (Pronósticos, Series de Tiempo y Regresión: Un enfoque
aplicado, Thompson, 2007)

Modelo de RLS (2/6)
Preliminares
1 En muchas aplicaciones en Ingenierı́a se mide una variable de interés que está

influenciada por una o más variables independientes (o explicativas)
2 El modelo de Regresión Lineal Simple (RLS) es el más estudiado de los modelos de
regresión
3 Estimamos la relación entre una variable respuesta y y una variable
controlable/independiente de interés x
4 Los pares (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) constituyen los datos
5 Un gráfico de dispersión es una herramienta fundamental
6 Determinamos la correlación muestral ρ̂
7 Interesa principalmente estimar el valor esperado de Y como una función de X y
calcular intervalos de confianza y predicción

Modelo de RLS (3/6)
Preliminares

Modelo de RLS (4/6)
Ejemplo
Model y = 75 + 15x
1 Los coeficientes del modelo se interpretan en términos de una derivada
2 Por cada cambio unitario en x, el valor esperado de y cambia 15 unidades
3 El intercepto es el valor de y cuando x = 0. En algunas situaciones este parámetro
es considerado de “poco” interés
4 Cuál es el valor esperado de Y cuando x = 1.25%?

Modelo de RLS (5/6)
Estructura de datos
ID y x
1 y1 x1
2 y2 x2
3 y3 x3
4 y4 x4
5 y5 x5
6 y6 x6
.. .. ..
. . .
n yn xn

Modelo de RLS (6/6)
Ejemplo: ŷ = 74.2 + 14.97x

Modelo de RLS (6/6)
Ejemplo: ŷ = 74.2 + 14.97x
En este caso, por cada cambio unitario en el % del nivel de hidrocarbón, el valor
esperado del % de pureza de oxı́geno cambia 14.97%

Estimación por Mı́nimos
Cuadrados Ordinarios

Estimación por Mı́nimos Cuadrados Ordinarios (1/4)
Estimación
Estamos interesados en estimar el valor esperado de y dados valores especı́ficos de
x, y posteriormente construir intervalos de confianza y predicción
El proceso de estimación se realiza por mı́nimos cuadrados ordinarios (OLS, en
inglés) – minimizando la función
n
X n
X
L= 2i = (yi − β0 − β1 xi )2 (1)
i=1 i=1

Estimación
Estamos interesados en estimar el valor esperado de y dados valores especı́ficos de
x, y posteriormente construir intervalos de confianza y predicción
El proceso de estimación se realiza por mı́nimos cuadrados ordinarios (OLS, en
inglés) – minimizando la función
n
X n
X
L= 2i = (yi − β0 − β1 xi )2 (1)
i=1 i=1
El modelo estimado es
ŷi = β̂0 + β̂1 xi (2)

Algunas cantidades de interés

σ̂ 2 , también conocida como el Mean Squared Error (MSE)
La tabla de análisis de varianza (ANOVA) para bondad de ajuste
El coeficiente de determinación, R 2
Valores crı́ticos de la distribución t para evaluar la significancia estadı́stica de los
parámetros del modelo
El valor de E [Y |X = x0 ], además de intervalos de confianza y predicción

Los parámetros estimados del modelo de RLS son
SSxy
β̂1 =
SSx
β̂0 = ȳ − β1 x̄
donde
n n
!2
X 1 X
SSx = xi2 − xi
i=1
n i=1
n n n
X 1 X X
SSxy = xi yi − xi yi
i=1
n i=1 i=1

Valores reales vs. Valores ajustados

Tabla ANOVA

Análisis de Varianza (1/2)
Construcción de la tabla ANOVA

La tabla ANOVA es útil para estimar la varianza del modelo de RLS, el coeficiente
de determinación R 2 y realizar las pruebas de bondad de ajuste sobre el modelo
La varianza del modelo es
n
SSE 1 X 2 L̂
σ̂ 2 = MSE = = ˆi =
n−2 n − 2 i=1 n−2
Por lo tanto, SST = SSE + SSR with

n
X n
X n
X
SSR = (ŷi − ȳ )2 = yi2 − nȳ 2 , SST = (yi − ȳ )2
i=1 i=1 i=1
El coeficiente de determinación es R 2 = 1 − SSE /SST , 0 ≤ R 2 ≤ 1

Análisis de Varianza (2/2)
Tabla ANOVA

Validación de Supuestos

Supuestos y validación del modelo
Supuestos
Los supuestos se hacen sobre los residuales o errores
Hay 4 supuestos que deben verificarse:
I Los errores siguen una distribución Normal (i.e., prueba Shapiro-Wilks)
I Los errores tienen media cero (garantizado por OLS)
I La varianza σ̂ 2 es constante (i.e., prueba de heterocedasticidad)
I Los errores son independientes (i.e., prueba de Durbin-Watson o la
ACF)
Podrı́amos hacer esto “a mano” o usando R (preferible)

Inferencia sobre β

Inferencia sobre β (1/3)
Qué hacemos?
1 La idea principal es determinar si podemos calcular, basados en una muestra de
tamaño n, que a nivel poblacional β0 y β1 toman valores especı́ficos
2 Esto puede hacerse usando dos estrategias
I Intervalos de confianza
I Pruebas de hipótesis

Qué hacemos?
1 La idea principal es determinar si podemos calcular, basados en una muestra de
tamaño n, que a nivel poblacional β0 y β1 toman valores especı́ficos
2 Esto puede hacerse usando dos estrategias
I Intervalos de confianza
I Pruebas de hipótesis
Intervalos de confianza del (1-α)100% para β0 y β1

r r !
1 x̄ 2 1 x̄ 2
β0 ∈ β̂0 − tα/2,n−2 σ̂ + , β̂0 + tα/2,n−2 σ̂ +
n SSx n SSx

σ̂ σ̂
β1 ∈ β̂1 − tα/2,n−2 √ , β̂1 + tα/2,n−2 √
SSx SSx

Pruebas de hipótesis
1 Como es usual, necesitamos establecer la hipótesis y luego calcular un estadı́stico
de prueba
2 Aunque las hipótesis son las mismas, el estadı́stico es diferente para cada
coeficiente

Cómo?
Para β0 probamos si H0 : β0 = 0 vs. H0 : β0 6= 0 (<, >) usando el estadı́stico
β̂0 − 0
tcalc = r ∼ tn−2
σ̂ 2 n1 + SSx̄ x
Para β1 probamos H0 : β1 = 0 vs. H0 : β1 6= 0 (<, >) usando el estadı́stico
β̂1 − 0
tcalc = q ∼ tn−2
σ̂ 2
SSx
En ambos casos usamos la región de rechazo o el valor P para tomar una decisión
acerca de los parámetros a nivel poblacional

Intervalos de Confianza y
Predicción para E [Y | x = x0]

Inferencia sobre Y
Intervalo de confianza del (1 − α)100% para E [Y | x = x0 ]

r r !
1 (x0 − x̄)2 1 (x0 − x̄)2
Y ∈ ŷ − tα/2,n−2 σ̂ + , ŷ + tα/2,n−2 σ̂ +
n SSx n SSx
Intervalo de predicción del (1 − α)100% para E [Y | x = x0 ]

r
1 (x0 − x̄)2
Y ± tα/2,n−2 σ̂ 1+ +
n SSx

Ejemplo en R


Clase2 Rls

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Clase2 Rls

Hochgeladen von

Copyright:

Verfügbare Formate

Análisis de Datos en Ingenierı́a II

Sesión 2: Introducción a RLS

Ing. Jorge I. Vélez, MSc, PhD

Departamento de Ingenierı́a Industrial

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 1 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 2 / 29

Modelos de Regresión Avanzados (20 horas, semanas 1-5)

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 3 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 4 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 5 / 29

1 Capı́tulo 11 en Montgomery & Runger (Applied Statistics and Probability for

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 6 / 29

1 En muchas aplicaciones en Ingenierı́a se mide una variable de interés que está

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 7 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 8 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 9 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 10 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 11 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 11 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 12 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 13 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 13 / 29

Algunas cantidades de interés

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 14 / 29

Los parámetros estimados del modelo de RLS son

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 15 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 16 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 17 / 29

Construcción de la tabla ANOVA

Por lo tanto, SST = SSE + SSR with

El coeficiente de determinación es R 2 = 1 − SSE /SST , 0 ≤ R 2 ≤ 1

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 18 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 19 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 20 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 21 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 22 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 23 / 29

Intervalos de confianza del (1-α)100% para β0 y β1

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 23 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 24 / 29

Para β1 probamos H0 : β1 = 0 vs. H0 : β1 6= 0 (<, >) usando el estadı́stico

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 25 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 26 / 29

Intervalo de confianza del (1 − α)100% para E [Y | x = x0 ]

Intervalo de predicción del (1 − α)100% para E [Y | x = x0 ]

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 27 / 29

Ing. Jorge I. Vélez, MSc, PhD Análisis de Datos en Ingenierı́a II 1/08/2019 28 / 29

Das könnte Ihnen auch gefallen