Sie sind auf Seite 1von 48

EI.

Contenido
4. Modelos lineales y Estimación por mínimos cuadrados
4.1. Introducción: Modelos Estadísticos Lineales
4.2. Regresión Lineal Simple
4.3. Estimación y predicción
4.4. Regresión Múltiple
4.5. Estimación y predicción
Objetivo
El objetivo aquí es modelar la relación entre una respuesta
variable, Y, y una variable aleatoria cuantitativa y explicativa, 𝑋1 ,
que puede ser cuantitativo o categórico.

Los principales objetivos cuando construimos un modelo es


comprender la relación entre x e y y/o predecir valores futuros de
y.
Introducción
Un modelo puede ser determinista o estadístico.

En el modelo determinista, la variable respuesta Y se relaciona con las


variables explicativas a través de una función matemática
𝑓(𝑋1 , … , 𝑋𝑝−1 |𝛽) donde 𝛽 son constantes y son desconocidas.
𝑌 = 𝑓(𝑋) 𝑌 =3−𝑋

En el modelo estadístico, el valor de la variable respuesta es el resultado


de una combinación entre una señal determinista y un ruido aleatorio

𝑌 = 𝑠𝑒ñ𝑎𝑙 + 𝑟𝑢𝑖𝑑𝑜
Introducción (2)

Tenemos los datos de la edad de


muerte de varias personas, así
como la longitud de la línea de vida
de la mano… esto con el objeto de
conocer si la expectativa de vida
está relacionada con la línea de
vida de la mano
Modelo teórico

Supóngase que X explica a Y en términos de una recta que tiene pendiente


𝛽1 e intersección 𝛽0 con el Eje Y. Si esto es cierto, también es cierto que cada
valor observado de Y no siempre determina un punto que pertenece a la
recta… porque al efectuar la medida de 𝑌 – una vez fijado 𝑋 = 𝑥𝑖 - se comete
un error aleatorio ε1 , de manera que la Relación Estadística se puede
expresar así:

𝑌𝑖 = β0 + β1 𝑥𝑖 + ε𝑖
Modelo teórico (2)
Realizaremos los siguientes supuestos para ε𝑖 :

𝐻1 : 𝐸 ε𝑖 = 0 , 𝑖 = 1, … , 𝑛
𝐻2 : 𝑉 ε𝑖 = 𝜎 2 , 𝑖 = 1, … , 𝑛 Homocedasticidad
𝐻3 : ε𝑖 ≈ 𝑁𝑜𝑟𝑚𝑎𝑙 (0, 𝜎 2 )
𝐻4 : ε𝑖 𝑦 ε𝑗 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠

Donde 𝜎 2 es el tercer parámetro del modelo, y también es desconocido.


ε𝑖 𝑦 ε𝑗 son “independientes” si 𝑐𝑜𝑣(ε𝑖 , ε𝑗 ) y 𝑐𝑜𝑟𝑟(ε𝑖 , ε𝑗 ) son 0.
Modelo teórico (3)
Lo anterior es equivalente a:

𝐻1 : 𝐸 𝑌𝑖 |𝑥𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 , 𝑳𝒊𝒏𝒆𝒂𝒍𝒊𝒅𝒂𝒅
𝐻2 : 𝑉 𝑌𝑖 |𝑥𝑖 = 𝜎 2 , 𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 𝒄𝒐𝒏𝒔𝒕𝒂𝒏𝒕𝒆
𝐻3 : 𝑌𝑖 |𝑥𝑖 ≈ 𝑁𝑜𝑟𝑚𝑎𝑙 0, 𝜎 2 𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑑𝑎𝑑
𝐻4 : 𝑦𝑖 |𝑥𝑖 𝑦 𝑦𝑗 |𝑥𝑗 𝐼𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎
Modelo teórico (4)
Linealidad

Homocedasticidad
Modelo teórico (5)

Si no podemos asumir una


normalidad GLOBAL, al
menos intentaremos que
exista normalidad en los
valores que comparten
𝑦𝑖 𝑦 𝑥𝑖
Ejemplo

Supongamos que queremos

Peso del cerebro (g)


relacionar el peso del cerebro de
un mamífero con el peso de su Elefantes
cuerpo. Nuestra base contiene
datos de 62 mamíferos

Peso del cuerpo (Kg)


Ejemplo

Luego de una transformación

Ln_Peso del cerebro (g)


logarítmica, ya no existen
observaciones inusuales

Ln_Peso del cuerpo (Kg)


Modelo calculado
Una vez que tenemos nuestro pares de datos 𝑥, 𝑦 , necesitamos ajustar el
modelo:

𝑦𝑖 = β0 + β1 𝑥𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
Donde:
- 𝑏0 y 𝑏1 son valores conocidos, pero dependen de
la muestra que tomemos
- 𝑦𝑖 es el valor que predice a 𝑦𝑖

𝜺𝒊 = 𝒚𝒊 − 𝒚𝒊 = 𝒆𝒊 Error/Residuo
Modelo calculado (2)
Modelo calculado (3)

𝑦𝑖 = β0 + β1 𝑥𝑖

𝑦𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
Estimación de los parámetros
Método: Mínimos Cuadrados Ordinarios (MCO)
𝑛

Minimizar: |𝜀𝑖 |
𝑖=1

𝑛 𝑛

Minimizar: 𝑄 𝑏0 , 𝑏1 = 𝜀𝑖2 = [𝑌𝑖 − β0 + β1 𝑥𝑖 ]2


𝑖=1 𝑖=1
Estimación de los parámetros (2)
Método: Mínimos Cuadrados Ordinarios (MCO)

Los estimadores por MCO para 𝑏0 𝑦 𝑏1


𝑛 𝑛
𝜕𝑄 Ecuaciones normales
= −2 (𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 ) = 0 𝑒𝑖 = 0
𝜕𝑏0 𝑖=1 que permiten la
𝑖=1
estimación de “punto”
𝑛 𝑛 de los parámetros del
𝜕𝑄
= −2 (𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 )𝑥𝑖 = 0 𝑒𝑖 𝑥𝑖 = 0 modelo.
𝜕𝑏1
𝑖=1 𝑖=1
Estimación de los parámetros (3)
Método: Mínimos Cuadrados Ordinarios (MCO)

Resolviendo las ecuaciones se obtiene:

𝑛
𝑖=1 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑆𝑥𝑦 𝑆𝑥𝑦 𝑆𝑥𝑥
𝑏1 = = = 2 𝑟𝑥𝑦 = 𝑏1
𝑛
(𝑥𝑖 − 𝑥)2 𝑆𝑥𝑥 𝑆𝑥 𝑆𝑦𝑦
𝑖=1

𝑏0 = 𝑦 − 𝑏1 𝑥 = 0
Estimación de los parámetros (4)
Método: Mínimos Cuadrados Ordinarios (MCO)
Al redefinir los estimadores se tiene:
𝑛 𝑛

𝑏𝑜 = 𝑑𝑖 𝑦𝑖 𝑏1 = 𝑤𝑖 𝑦𝑖
donde: donde:
𝑖=1 1 𝑖=1 𝑥𝑖 − 𝑥
𝑑𝑖 = − 𝑤𝑖 𝑥 𝑤𝑖 =
𝑛 𝑆𝑥𝑥
La propiedad de insesgadez se cumple en ambos casos:
𝑛 𝑛
𝑛 𝑛

𝐸(𝑏𝑜 ) = 𝐸 𝑑𝑖 𝑦𝑖 = 𝑑𝑖 𝐸(𝑦𝑖 ) = β0 𝐸(𝑏1 ) = 𝐸 𝑤𝑖 𝑦𝑖 = 𝑤𝑖 𝐸(𝑦𝑖 ) = β1


𝑖=1 𝑖=1
𝑖=1 𝑖=1
Estimación de los parámetros (5)
Método: Mínimos Cuadrados Ordinarios (MCO)
𝑛 𝑛

𝑏𝑜 = 𝑑𝑖 𝑦𝑖 𝑏1 = 𝑤𝑖 𝑦𝑖
𝑖=1 𝑖=1

Respecto a la varianza tenemos…

𝑛 𝑛
𝑛 𝑛 2
𝜎 2 𝑛 2 𝜎
𝑖=1 𝑥𝑖 𝑉𝑎𝑟(𝑏1 ) = 𝑉𝑎𝑟 𝑤𝑖 𝑦𝑖 = 𝑤12 𝑉𝑎𝑟(𝑦𝑖 ) =
𝑉𝑎𝑟(𝑏𝑜 ) = 𝑉𝑎𝑟 𝑑𝑖 𝑦𝑖 = 𝑑𝑖 𝑉𝑎𝑟(𝑦𝑖 ) = 𝑆𝑥𝑥
𝑛𝑆𝑥𝑥 𝑖=1 𝑖=1
𝑖=1 𝑖=1
Estimación de los parámetros (6)
Método: Mínimos Cuadrados Ordinarios (MCO)
Otro estimador relevante es 𝜎 2 , dado que indica la varianza del error y también la
de 𝑌𝑖 …
𝑛 𝑛

𝑒𝑖2 = [𝑌𝑖 − 𝑦𝑖 ]2 = 𝑺𝑪𝑬


𝑖=1 𝑖=1

Esta Suma Cuadrática del Error/residual tiene n-2 grados de libertad, de


manera que la Media Cuadrática del Error está dada por:
𝑛
(𝑌𝑖 − 𝑦𝑖 )2 2 Además la MCE es un estimador insesgado de 𝜎 2
= 𝑴𝑪𝑬 = 𝜎𝑀𝐶𝑂
𝑛−2 𝑛 2
𝑖=1 𝑒𝑖
𝑬 𝑴𝑪𝑬 = 𝐸 = 𝜎2
𝑛−2
𝑖=1
Distribución de los coeficientes 𝑏𝑜 y 𝑏1
𝑛 2
𝜎2 𝑥
𝑖=1 𝑖 𝜎2
𝑏𝑜 ~𝑁 β0 , 𝑏1 ~𝑁 β1 ,
𝑛𝑆𝑥𝑥 𝑆𝑥𝑥

¿Qué se debe hacer para minimizar Var(𝑏1 )?


A partir de las distribuciones de 𝑏𝑜 y 𝑏1 podemos hacer inferencia sobre β0 y
β1 , además…
- Construir intervalos de confianza para β0 y β1
- Realizar tests de significancia para β0 y β1
- Realizar intervalos de predicción para valores futuros de y.
Estimación de los parámetros
Método: Máxima Verosimilitud
2
Se conoce que: 𝑦𝑖 ≡ 𝑁(β0 + β1 𝑥𝑖 , 𝜎 ) por lo que su función de densidad está dada por:

1 (𝑌𝑖 −β0 −β1 𝑥𝑖 )2



𝑓(𝑦𝑖 ) = 𝑒 2𝜎 2
2π𝜎 2
Maximizando la Función de Verosimilitud se observa que los estimadores
para β0 𝑦 β1 son los mismos a los obtenidos mediante MCO: No obstante,
el estimador para 𝜎 2 sí varía…
𝑛
2
𝑒𝑖2
𝜎𝑀𝑉 =
𝑛
𝑖=1
Estimación de los parámetros
Método: Máxima Verosimilitud

𝑛 La relación existente entre el estimador de la


2
𝑒𝑖2 varianza por MCO (Insesgado) y Máxima
𝜎𝑀𝐶𝑂 =
𝑛−2 verosimilitud (sesgado) está dada por:
𝑖=1

2
𝑛 2
𝑛 𝜎𝑀𝐶𝑂 = 𝑀𝐶𝐸 = 𝜎𝑀𝑉
2
𝑒𝑖2 𝑛−2
𝜎𝑀𝑉 =
𝑛
𝑖=1
Ejemplo
Método: Mínimos Cuadrados Ordinarios (MCO)
Calificaciones a un servicio bancario
𝒙𝒊 Antigüedad en años 1 2 3 4 5 6
𝒚𝒊 Calificación 4,8 7,3 8,4 11,0 13,1 15,2

6 6
6
𝑖=1 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 36
𝑦𝑖 = 𝑛𝑏0 + 𝑏1 𝑥𝑖 𝑏1 = = = 𝟐, 𝟎𝟓𝟕
6 2 17,5
𝑖=1 𝑖=1
(𝑥
𝑖=1 𝑖 − 𝑥)

6 6 6

𝑦𝑖 𝑥𝑖 = 𝑏0 𝑥𝑖 + 𝑏1 𝑥𝑖2 𝑏0 = 𝑦 − 𝑏1 𝑥 = 9,97 − 2,057 3,5 = 𝟐, 𝟕𝟔𝟔𝟕


𝑖=1 𝑖=1 𝑖=1
Estimación de los coeficientes (5)
Método: Mínimos Cuadrados Ordinarios (MCO)
Calificaciones a un servicio bancario

16 ¿Cuál sería el valor de la calificación que


y = 2.0571x + 2.7667
14 R² = 0.9936
daría un cliente si tiene 1.5 años de
12 antigüedad?... Y si tiene 5 años?
10
8
6 𝑦𝑖 = 2,0571𝑥𝑖 + 2,7667
4
𝑌|𝑋 = 2,0571 1,5 + 2,7667 = 5,85
2
0 𝑌|𝑋 = 2,0571 5 + 2,7667 = 13,05
0 1 2 3 4 5 6 7
Partición de las Sumas Cuadráticas
Ejemplo: Altura (𝑥𝑖 ) vs Peso (𝑦𝑖 )
¿Cuál es la mejor predicción de peso de un estudiante si no tenemos información de
su altura?

Altura (cm)
Partición de las Sumas Cuadráticas (2)
Ejemplo: Altura (𝑥𝑖 ) vs Peso (𝑦𝑖 )

¿Cuál es la mejor predicción de peso de


un estudiante si conocemos su altura?

Altura (cm)
Partición de las Sumas Cuadráticas (3)
Ejemplo: Altura (𝑥𝑖 ) vs Peso (𝑦𝑖 )

𝑛 𝑛 𝑛

(𝑦𝑖 − 𝑦)2 = (𝑦𝑖 − 𝑦)2 + (𝑦𝑖 −𝑦𝑖 )2


𝑖=1 𝑖=1 𝑖=1

Variabilidad TOTAL Variabilidad Variabilidad Altura (cm)


MODELO ERROR/RESIDUAL

Nota: Si cambiamos el modelo, utilizando


SCT SCR SCE los mismos datos, la SCT no varía…
mientras que SCR y SCE sí lo hacen.
Partición de las Sumas Cuadráticas (4)
TABLA ANOVA
A cada suma cuadrática se le asocia un número entero que son los grados de libertad…
Variabilidad Sumas cuadráticas Grados de Medias cuadráticas Estadístico
libertad (gl) Prueba F
𝑛 𝑆𝐶𝑅 𝑀𝐶𝑅
Explicada por 𝑝−1
𝑆𝐶𝑅 = (𝑦𝑖 − 𝑦)2 𝑀𝐶𝑅 = 𝐹0 =
la regresión 𝑝−1 𝑀𝐶𝐸
𝑖=1
𝑛 𝑆𝐶𝐸
Residual/Error 𝑛−𝑝
𝑆𝐶𝐸 = (𝑦𝑖 −𝑦𝑖 )2 𝑀𝐶𝐸 = = 𝜎2
𝑛−𝑝
𝑖=1
𝑛
Total
𝑆𝐶𝑇 = (𝑦𝑖 − 𝑦)2
𝑖=1
𝑝 = # parámetros
Partición de las Sumas Cuadráticas (5)
Coeficiente de Determinación
Se define al Coeficiente de determinación 𝑅2 , como el cociente de la Suma
Cuadrática de Regresión para la Suma Cuadrática Total

𝑆𝐶𝑅 𝑆𝐶𝑇 − 𝑆𝐶𝐸 𝑆𝐶𝐸 Se evidencia que mientras más


2
𝑅 = = =1− pequeño es la SCE, mayor será la
𝑆𝐶𝑇 𝑆𝐶𝑇 𝑆𝐶𝑇
Potencia de explicación del modelo
𝑹𝟐 ∗ 𝟏𝟎𝟎%

2 𝑛−𝑝 2
Coeficiente de Determinación Ajustado 𝑅𝐴𝑑𝑗 = 𝑅
𝑛−1
Partición de las Sumas Cuadráticas (6)
Coeficiente de Correlación
Se puede probar que en Regresión Lineal Simple, la relación entre el
Coeficiente de Correlación de X con Y y el Coeficiente de Determinación
en este modelo, viene dada por:

𝒓𝒙𝒚 = ± 𝑹𝟐

El Coeficiente de Correlación sí puede ser negativo,


de manera que el signo se selecciona si la relación
entre la variable de explicación (explicativa) y la
variable explicada es “creciente” o “decreciente”
Ejemplo – Caída de presión de la membrana
Al purificar agua potable, se puede usar una filtración de membrana. En un experimento se
desea examinar la relación entre la caída de presión a través de una membrana y el flujo
(flujo por área) a través de la membrana. Observamos los siguientes 10 valores relacionados
de presión (x) y flujo (y):

1 2 3 4 5 6 7 8 9 10
Presión (x) 1,02 2,08 2,89 4,01 5,32 5,83 7,26 7,96 9,11 9,99
Flujo (y) 1,15 0,85 1,56 1,72 4,32 5,07 5,00 5,31 6,17 7,04

Obtener la ecuación de regresión, así como los residuos y la tabla ANOVA. Además
responder:
a) ¿Cuál es la correlación empírica estimada entre la presión y el flujo?
Ejemplo…
1 2 3 4 5 6 7 8 9 10
Presión (x) 1,02 2,08 2,89 4,01 5,32 5,83 7,26 7,96 9,11 9,99
Flujo (y) 1,15 0,85 1,56 1,72 4,32 5,07 5,00 5,31 6,17 7,04

Estimamos 𝒃𝒐 y 𝒃𝟏 para establecer el modelo de regresión

10
𝑖=1 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 60,1531
𝑏1 = 10 2
= = 𝟎, 𝟕𝟐𝟐𝟓
(𝑥
𝑖=1 𝑖 − 𝑥) 83,26
𝑦𝑖 = −𝟎, 𝟏𝟖𝟖𝟔 + 𝟎, 𝟕𝟐𝟐𝟓𝑥𝑖
𝑏0 = 𝑦 − 𝑏1 𝑥 = 3,819 − 0,7225 5,547 = −𝟎, 𝟏𝟖𝟖𝟔
Ejemplo…
Estimamos los residuos del modelo…
𝑋𝑖 𝑌𝑖 𝑦𝑖 𝑒𝑖 = 𝑌𝑖 − 𝑦𝑖 10
1.02 1.15 0.55 0.60 𝑆𝐶𝐸 = (𝑌𝑖 − 𝑦𝑖 )2 = (0,60)2 +(−0,46)2 + ⋯ + 0,01 2 = 3,32
2.08 0.85 1.31 -0.46 𝑖=1

2.89 1.56 1.90 -0.34 𝑆𝐶𝐸 3,32


𝑀𝐶𝐸 = = = 0,415
𝑛 − 𝑝 10 − 2
4.01 1.72 2.71 -0.99
5.32 4.32 3.65 0.67
10
5.83 5.07 4.02 1.05
𝑆𝐶𝑅 = (𝑦𝑖 − 𝑦)2 = (0,55 − 3,82)2 + ⋯ + 7,03 − 3,82 2
= 43,46
7.26 5 5.06 -0.06 𝑖=1

7.96 5.31 5.56 -0.25


9.11 6.17 6.39 -0.22
9.99 7.04 7.03 0.01
Ejemplo…
Tabla ANOVA…
Variabilidad Sumas cuadráticas Grados de libertad Medias Estadístico Prueba F
(gl) cuadráticas
Explicada por la 𝑆𝐶𝑅 = 43,46 𝑝−1= 𝟏 𝑀𝐶𝑅 = 43,46 43,46
𝐹0 = = 105
regresión 0,415
𝑆𝐶𝐸 3,32
Residual/Error 𝑆𝐶𝐸 = 3,32 𝑛 − 𝑝 𝑀𝐶𝐸
=𝟖 = 𝑀𝐶𝐸 = 0,415
= = 0,415 𝜎 2 = 0,415
𝑛 − 𝑝 10 − 2

Total 𝑆𝐶𝑇 = 46,78 𝟗

a) ¿Cuál es la correlación empírica?

𝑆𝐶𝑅 43,46
𝑅2 = = = 0,9290 𝑟𝑥𝑦 = ± 𝑅2 = 0,9290 = 0,964
𝑆𝐶𝑇 46,78
El flujo se incrementa conforme incrementa la
presión
Ejemplo – Output de R

𝑯𝟎 : 𝒃𝒊 = 𝟎
𝑯𝟏 : 𝒃𝒊 ≠ 𝟎

Para n > 20
Si |t| > 2 y el modelo es correcto, se Rechaza Ho y
no podemos remover 𝒃𝒊 del modelo
Si |t| < 2 y el modelo es correcto, NO se Rechaza Ho
𝑴𝑪𝑬 y podemos remover 𝒃 del modelo
𝒊
Ejemplo

1,6794
= 16,6
0,1011
Intervalos de confianza para 𝑏𝑜 y 𝑏1
A partir de las distribuciones de 𝑏𝑜 y 𝑏1 se puede construir intervalos de
confianza para los parámetros del modelo, donde el estimador de 𝜎 2 (Varianza
del error) será la Media cuadrática del error (MCE)

𝑀𝐶𝐸 ∗ 𝑛𝑖=1 𝑥𝑖2


𝑏𝑜 ~𝑁 β0 , 𝒃𝒐 ~𝑵 𝜷𝟎 , 𝑺𝟐𝒃𝟎
𝑛𝑆𝑥𝑥
𝒃𝒊 − 𝒕𝒏−𝟐,𝜶/𝟐 𝑺𝟐𝒃𝒊 < β𝑖 < 𝒃𝒊 + 𝒕𝒏−𝟐,𝜶/𝟐 𝑺𝟐𝒃𝒊
𝑀𝐶𝐸
𝑏1 ~𝑁 β1 , 𝒃𝟏 ~𝑵 𝜷𝟏 , 𝑺𝟐𝒃𝟏
𝑆𝑥𝑥

𝑛
Donde: 𝑆𝑥𝑥 = 𝑖=1(𝑥𝑖 − 𝑥)2
Intervalos de confianza para 𝑏𝑜 y 𝑏1
… Continuando con el ejemplo de Caída de presión de la membrana
b) Construya un intervalo de confianza al 90% para la pendiente

𝑦𝑖 = −𝟎, 𝟏𝟖𝟖𝟔 + 𝟎, 𝟕𝟐𝟐𝟓𝑥𝑖


𝑀𝐶𝐸 0,416
𝑆𝑏21 = = = 0,0049
𝑆𝑥𝑥 83,25
𝑏𝑖 − 𝑡𝑛−2,𝛼/2 𝑆𝑏2𝑖 < 𝛽𝑖 < 𝑏𝑖 + 𝑡𝑛−2,𝛼/2 𝑆𝑏2𝑖
𝑆𝑏1 = 0,0049 = 0,0706
0,7225 − 𝑡10−2, 0.10/2 𝑆𝑏1 < 𝛽1 < 0,7225 + 𝑡10−2, 0.10/2 𝑆𝑏1

0,7225 − 1,860 0,0706 < 𝛽1 < 0,7225 + 1,860(0,0706) Valor t teórico: 𝑡8,0.05 = 1,860

[0,5912 ; 0,8538]
Intervalos de confianza para 𝑏𝑜 y 𝑏1
… Continuando con el ejemplo de Caída de presión de la membrana
c) ¿Qué tan grande es la variabilidad del flujo que no es explicada por la diferencia de
las presiones?

Partimos de que 𝑅2 = 0,929 expresa la “variabilidad explicada” por el modelo,


de manera que la variabilidad que no es explicada por el modelo está dada
por:
1 − 𝑅2 = 0,071
Intervalos de confianza para 𝑏𝑜 y 𝑏1
… Continuando con el ejemplo de Caída de presión de la membrana
d) Con un nivel de significancia de α = 0,05 ¿Se rechaza la hipótesis de que la regresión
pasa por la coordenada (0,0) ?
Para saber si la recta de regresión pasa por (0,0) es preciso saber si los coeficientes 𝑏𝑜 y
𝑏1 son significativos para el modelo o diferentes de cero… 𝑀𝐶𝐸 ∗ 𝑛 𝑥 2 𝑖=1 𝑖
𝑆𝑏20 =
𝐻0 : 𝑏𝑖 = 0 𝑏𝑖 − 0 𝑛𝑆𝑥𝑥
𝑡= ~ 𝑡 − 𝑠𝑡𝑢𝑑𝑒𝑛𝑡 0,416(390,9517)
𝐻1 : 𝑏𝑖 ≠ 0 𝑆𝑏𝑖 𝑆𝑏20 =
10(83,2596)
𝑏1 − 0 0,7225 − 0 𝑆𝑏1 = 0,1953 = 0,442
𝑡= = = 10,23
𝑆𝑏1 0,0706

𝑏0 − 0 −0,1886 − 0
𝑡= = = −0,43 Dado que 𝑏0 no es relevante para el modelo, NO
𝑆𝑏0 0,442
podemos rechazar la Ho de que la recta pase por (0,0)
Predicción
En un modelo de regresión hay dos objetivos fundamentales:

1.- Conocer la relación entre la variable respuesta y la explicativa


2.- Utilizar un modelo ajustado para predecir el valor de la variable respuesta

Respecto al segundo punto, es posible realizar dos tipos de predicciones:

Predicción de una nueva Estimación de la respuesta


observación media
Conociendo que una persona mide ¿Cuál es el peso medio de las personas
180 cm, ¿Cuál es su peso esperado? que miden 180 cm de altura?
Predicción
Estimación de la respuesta media…

El intervalo de confianza para predecir el valor esperado o respuesta media de 𝑌 en


𝑋0 , E(𝑌|𝑋0 ) es:

1 𝑋0 −𝑋 2 1 𝑋0 −𝑋 2
𝑏0 + 𝑏1 𝑋0 − 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 + 𝑛 2 ; 𝑏0 + 𝑏1 𝑋0 + 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 + 𝑛 2
𝑛 𝑖=1 𝑋𝑖 −𝑋 𝑛 𝑖=1 𝑋𝑖 −𝑋
Predicción
Predicción de una nueva observación…

El intervalo de confianza para predecir la respuesta en un valor observado 𝑋0 , 𝑌(𝑋0 )


es:

1 𝑋0 −𝑋 2 1 𝑋0 −𝑋 2
𝑏0 + 𝑏1 𝑋0 − 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 1 + + 𝑛 2 ; 𝑏0 + 𝑏1 𝑋0 + 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 1 + + 𝑛 2
𝑛 𝑖=1 𝑋𝑖 −𝑋 𝑛 𝑖=1 𝑋𝑖 −𝑋
Predicción
… Continuando con el ejemplo de Caída de presión de la membrana
e) A partir del modelo 𝑦𝑖 = −𝟎, 𝟏𝟖𝟖𝟔 + 𝟎, 𝟕𝟐𝟐𝟓𝑥𝑖 , determinar un intervalo de confianza
para el “valor esperado del flujo” y la “ predicción del flujo” dado que la “presión” es 6 (α
= 0,05).
1 𝑋0 − 𝑋 2 1 𝑋0 − 𝑋 2
𝑏0 + 𝑏1 𝑋0 ± 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 + 𝑛 2 𝑏0 + 𝑏1 𝑋0 ± 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 1 + + 𝑛 2
𝑛 𝑖=1 𝑋𝑖 − 𝑋 𝑛 𝑖=1 𝑋𝑖 − 𝑋

1 6 − 5,547 2 2
1 6 − 5,547
−0,1886 + 0,7225(6) ± 2,306 0,415 + −0,1886 + 0,7225(6) ± 2,306 0,415 1 + +
10 83,25 10 83,25

IC valor esperado del flujo de 4,14: [3,67 ; 4,62] IC predicción del flujo de 4,14: [2,58 ; 5,71 ]
Predicción
Script en R
Ejercicio Caída de presión de la membrana
D <- data.frame(
pressure=c(1.02,2.08,2.89,4.01,5.32,5.83,7.26,7.96,9.11,9.99),
flux=c(1.15,0.85,1.56,1.72,4.32,5.07,5.00,5.31,6.17,7.04)
)
fit <- lm(flux ~ pressure, data=D)
summary(fit)

## Tabla ANOVA
aov(fit)
summary(aov(fit))

pre1 <- predict(fit, newdata=data.frame(pressure=6), interval="prediction") ## valor especifico


pre2 <- predict(fit, newdata=data.frame(pressure=6), interval="confidence") ## valor promedio
pre1
pre2

pred.int <- predict(fit, interval="prediction")


mydata <- cbind(D, pred.int)

library("ggplot2")
p <- ggplot(mydata, aes(pressure, flux)) +
geom_point() +
stat_smooth(method = lm)
# Añadiendo los intervalos
p + geom_line(aes(y = lwr ), color = "red", linetype = "dashed")+
geom_line(aes(y = upr), color = "red", linetype = "dashed")
Control de Lectura (Martes 7 de Agosto/2018)

REGRESIÓN LINEAL MÚLTIPLE

Das könnte Ihnen auch gefallen