Beruflich Dokumente
Kultur Dokumente
Licenciatura en Matemticas
4 semestre
Estadstica II
Clave:
05142421/06142421
1
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
ndice
Unidad 3. Anlisis de regresin lineal mltiple ...................................................................... 4
Presentacin de la unidad............................................................................................................ 4
Competencia especfica................................................................................................................ 5
2
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
3.10. Mtodo de seleccin de variables .................................................................................. 25
3
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
Presentacin de la unidad
El anlisis de regresin lineal mltiple es una tcnica estadstica que se utiliza para estudiar las
relaciones de dependencia entre una variable respuesta y varias variables regresoras.
El puntaje de un nio en una prueba puede estar influido a factores como: nivel sociocultural,
nivel econmico, si el nio asiste a escuela pblica o privada, si la escuela se localiza en una
zona rural o urbana, etc.
El objetivo del anlisis de regresin lineal mltiple ser entender el cambio en cuando cambia
cuando todas las variables regresoras ( ) se mantienen constantes.
Cabe mencionar que los ejemplos que se presentan en esta unidad se realizan con las frmulas
tradicionales y no va un paquete estadstico, por lo que es posible que se presenten algunas
diferencias debido al tipo de simulaciones de algunos paquetes.
Propsitos de la unidad
4
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
Competencia especfica
Competencia especfica
= 0 + 1 1 + 2 2 + + + (3.1)
A la ecuacin (3.1) se le llama modelo de regresin lineal mltiple, ya que implica ms de una
variable regresora. Se observa que una vez ms aparece el parmetro error que ayuda a
explicar las causas externas que en ocasiones no se pueden medir.
El modelo de regresin lineal (3.1) para individuos se puede escribir en su forma matricial
como:
= + (3.2)
Donde:
1 11 1
1 21 2
=( )
1 1
5
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
El adjetivo lineal es para indicar que el modelo es lineal respecto a los parmetros 0 , 1 , ,
y no porque sea funcin lineal de las . De hecho, el modelo de regresin lineal se podra
escribir como sigue:
= 0 + 1 1 + 2 2 + + + (3.1)
1 1 11 1 0 1
2 1 21 2 2
()=( ) ( 1) + ( )
1 1
Nota que al obtener las derivadas parciales para cada uno de los parmetros desconocidos de
la regresin se tendrn = 1 ecuaciones normales. La suma de cuadrados de los errores
puede ser expresada como
() = 2 = (3.3)
=1
() = + = 2 +
6
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
()
| = 2 + 2 =
Simplificando se tiene
= . (3.4)
El sistema (3.4) son las ecuaciones normales de mnimos cuadrados. Asumiendo de rango
completo y multipllicando por la inversa de se obtiene el estimador mnimos cuadrados
= ( ) (3.5)
) = y (
Se puede probar que ( ) = 2 ( ).
Ejemplo 1
Casas Gio vende casas en el norte de la Repblica Mexicana. Una de las inquietudes de los
compradores potenciales se refiere al costo en calefaccin durante el invierno. Por lo que el
departamento de investigacin de Casas Geo realiz una investigacin que desarrollar
algunos lineamientos acerca de los costos de calefaccin para las casas de una sola familia.
Tres variables fueron integradas al estudio: la media diaria de la temperatura externa, el nmero
de pulgadas de aislamiento en el tico y la antigedad del calentador. Para el estudio se tom
una muestra aleatoria de 15 casas. La informacin de la muestra se reporta en la siguiente
tabla:
Antigedad
Costo de Temperatura Aislamiento
del
Casa calefaccin media externa del tico
calentador
($) (F) (pulgadas)
(aos)
1 47 55 10 3
2 163 23 4 12
3 60 40 9 6
4 71 47 5 7
5 215 12 3 6
6 72 51 7 8
7 68 35 8 5
8 232 10 5 9
9 221 7 4 13
7
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
10 95 40 3 9
11 128 30 5 10
12 223 18 4 15
13 235 19 2 11
14 210 25 1 12
15 204 29 3 13
Grfica 3.1.
En la grfica 3.1. se observa que la temperatura media est inversamente proporcional al costo
de calefaccin, lo cual suena razonable, a medida que la temperatura aumenta el costo
disminuye. La variable aislamiento del tico tambin muestra una relacin inversa: entre ms
aislamiento presente el tico, menor es el costo de calefaccin. La antigedad del calentador
es una variable directamente proporcional al costo, es decir, mientras mayor sea la antigedad
el costo aumenta.
8
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
Como se ha observado correlaciones lineales en la matriz de dispersin de las variables
regresoras con la variable independiente se concluye que un anlisis de regresin lineal
mltiple es conveniente.
= ( )
1
1 55 10 3 1 55 10 3 1 55 10 3 47
1 23 4 12 1 23 4 12 1 23 4 12 163
1 40 9 6 1 40 9 6 1 40 9 6 60
1 47 5 7 1 47 5 7 1 47 5 7 71
1 12 3 6 1 12 3 6 1 12 3 6 215
1 51 7 8 1 51 7 8 1 51 7 8 72
1 35 8 5 1 35 8 5 1 35 8 5 68
=
1 10 5 9 1 10 5 9 1 10 5 9 232
1 7 4 13 1 7 4 13 1 7 4 13 221
1 40 3 9 1 40 3 9 1 40 3 9 95
1 30 5 10 1 30 5 10 1 30 5 10 128
1 18 4 15 1 18 4 15 1 18 4 15 223
1 19 2 11 1 19 2 11 1 19 2 11 235
1 25 1 12 1 25 1 12 1 25 1 12 210
(1 29 3 13) (1 29 3 13) (1 29 3 13) (204)
( )
250.537
= ( 3.251 )
7.302
3.257
El valor en que la ecuacin cruza el eje es 250.537. Los coeficientes para la temperatura
media y el aislamiento del tico son negativos lo que reafirma la relacin inversa que se
observ en la dispersin.
Cuando la temperatura externa sube un grado el costo de calefaccin disminuye en $3.21. Sin
importar el valor que tomen las otra dos variables.
Por cada unidad de aislamiento se espera que el costo disminuya en $7.302 no importando el
valor que tomen las variables temperatura y antigedad.
9
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
La variable antigedad que tiene una relacin directa dice que por cada ao de antigedad el
costo de calefaccin aumenta en $3.257.
Se puede hacer una prediccin sobre el costo de calefaccin cambiando los datos: si la
temperatura externa media es de 32 grados, el tico tiene 6 pulgadas de aislamiento y la
antigedad del calentador es de 1 ao. Se sustituyen los valores en la ecuacin de regresin
Propsito
De la misma manera que en regresin simple, el Teorema de Gauss Markov establece que por
= ( ) es el mejor estimador lineal
mnimos cuadrados ordinarios el estimador
, es aquel estimador de
insesgado. Es decir, que dentro de todas las combinaciones lineales,
ahora es un vector y por lo
mnima varianza. La diferencia con regresin lineal simple es que
tanto su varianza es en realidad una matriz y no un escalar.
= +
1 1
2 () ()
(, , , 2 ) = 2
(2)2
10
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
( ) ( )
)(
( )
2 = (3.3)
Las regiones de confianza para niveles especficos de los regresores, tienen mucha importancia
en una regresin lineal simple, aqu se desarrollarn las regiones de confianza una por una,
para el caso de las mltiples, y se presentar en forma breve las regiones simultneas de
confianza para los coeficientes de regresin.
Para construir el intervalo de confianza para algn , se considera que los errores se
distribuyen de manera normal con media cero y varianza 2 . Lo que da como consecuencia que
las observaciones tambin se distribuyan de manera normal e independiente, por ser
combinaciones lineales de los errores. As se tiene que:
~ (0 + , 2 ) (3.4)
=1
~( , 2 ()1 )
~( , 2 )
11
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
~ , = 1,2, ,
2
2, 2 + 2, 2 (3.5)
Ejemplo 1
4.4459 1 2.0564
Al caso de construir un intervalo para cierta observacin se le conoce como Intervalo para la
respuesta media. Supn que se tiene la observacin 01 , 02 , , 0 . Se define el vector:
12
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
1
01
= 02
[0 ]
) = = 0
(0 ) = (
Por lo tanto el valor ajustado es un estimador insesgado de 0 (la respuesta media). Ahora la
varianza de 0 es:
(0 ) = 2 ()
0 2, 2 0 ( )1 0 0 0 2, 2 0 ( )1 0 (3.6)
Ejemplo 1
Continuando con los datos del ejemplo 1. Supn que el departamento de investigacin quiere
establecer un intervalo de 95% de confianza para el costo medio de calefaccin cuando la
Temperatura media externa es de 12F, el aislamiento del tico de 4 pulgadas y la antigedad
del calentador de 5 aos. Entonces,
1
0 = [12]
4
5
250.537
= [1
0 = 3.251
12 4 5] [ 7.302 ] = 198.6014
3.257
13
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
(0 ) = 2 ( )
3.1932 0.0168 0.1741 0.1928 1
= 601.3798[1 12 4 5] (0.0168 0.0005 0.0013 0.0007 ) [12]
0.1741 0.0013 0.0245 0.0099 4
0.1928 0.0007 0.0099 0.0133 5
= 373.3967
Cuando se estiman los parmetros del modelo, aparecen dos incgnitas que se deben analizar.
Cul es el ajuste general del modelo?, y cules regresores especficos parecen importantes?
Existen muchos procedimientos de pruebas de hiptesis que hacen una demostracin por la
cual se puede responder a estas preguntas, para ello se requiere que los errores aleatorios
sean independientes y tengan una distribucin normal con promedio ( ) = 0 y una varianza
( ) = 2
Esta prueba tiene como finalidad probar si las variables independientes x1 , x2 , , xn sirven para
explicar el comportamiento de la variable dependiente y de manera lineal. Es la generalizacin
del anlisis de varianza que se vio en regresin simple. Las hiptesis son:
0 : 1 = 2 = n = 0 1 : j 0
Si la hiptesis nula es cierta significa que se tendran que buscar otras variables
independientes, o manejar otro enfoque para predecir a la variable dependiente.
Una vez ms se descompone la varianza de y en dos partes una debido a la regresin y otra
debido a los errores.
2
I. ~1
2
14
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
2
II. ~1
2
III. ~2
2
0 > ,,1
(=1 )2
=
15
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
(=1 )2
=
Ejemplo
(2244)2
= 412196 = 76493.6
15
(2244)2
= 404979.4 = 69277.04
15
Y se utiliza el hecho de que
= +
Por lo tanto
= = 7216.558
Se debe buscar en tablas el cuantil de una 0.95,3,48 , como no se encuentra, se busca con los
grados de libertad ms prximos
0.95,1,11 = 5.222
Dado que 35.19903 > 5.222 se rechaza 0 , por lo tanto existe evidencia estadstica para
suponer que 1 : j 0 . Por lo que algunas variables explican el
modelo.
16
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
Con el Anlisis de Varianza (ANOVA) se puede contrastar si las variables se relacionan con el
modelo o no, pero esto sucede de forma conjunta. Una vez que se haya decidido que no todos
los parmetros son significativos para el modelo lo que sigue es saber cules sirven y cules
no.
0 : = 0 1 : 0
Es decir, si el valor de este parmetro en la poblacin es cero o no. De ser cierta esta hiptesis,
entonces la variable no influira sobre la variable respuesta y. Dicha variable sera excluida
del modelo de regresin lineal mltiple.
Estadstico de prueba
(3.7)
2
tiene una distribucin con grados de libertad. Bajo la hiptesis nula se sabe que = 0,
sustituyendo en el estadstico (3.7) se tiene que:
0 = = 1,2, , (3.8)
2
Regla de decisin
Cuando se haya decidido qu variables permanecen en el modelo y cules no, se realizar una
vez ms el clculo de los parmetros, y se obtendr un nuevo modelo.
Ejemplo
Para ilustrar el procedimiento se usarn los datos de Casas Geo. Primero se evala la
importancia de la variable regresora media diaria de la temperatura externa (1 ).
17
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
Las hiptesis son:
0 : 1 = 0 1 : 1 0
3.251
0 = = 5.9289
(601.3798)(0.0005)
Rechaza 0 si |0 | > 0.025,11 = 2.2010 . Como 5.9289 > 2.2010 se rechaza 0 y por lo
tanto 1 es significativo para el modelo y permanece en l.
Propsito.
Recuerda que los residuos se calculan como la diferencia entre lo observado y lo esperado, de
manera matemtica se escribe:
=
Ejemplo
18
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
19
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
2 = 1
El cuidado que se debe tener en regresin mltiple es que por cada variable que se agregue
por poco que sta aporte al modelo es informacin que har crecer a 2 . Esto puede ser
engaoso al tener que escoger entre varios modelos. Se debe de tener mucho cuidado y
seleccionar cuidadosamente aquellas variables que aporten informacin relevante al modelo.
Esta seleccin se estudiar en el apartado (3.10).
Ejemplo
20
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
7215.558
2 = 1 = 0.9057
76493.6
Las observaciones atpicas son aquellas con residuos grandes, en ocasiones es equivalente
hablar de observaciones con valores demasiado grandes o demasiado pequeos. Estos valores
son llamados outliers. Cuando se enfrenta a una observacin de este estilo, las primeras
preguntas que se deben hacer son:
2. Hubo algn problema experimental con el valor? Por ejemplo, si se nota que durante el
experimento alguno de los aparatos no funciona correctamente, se puede pensar que el
dato obtenido es un error del aparato y se tiene justificacin para borrarlo del anlisis.
3. Puede el outlier ser causado por una diversidad biolgica? Si cada valor es resultado
de una persona o animal diferente, el outlier puede ser un valor correcto. Entonces el
outlier no es resultado de un error, se debe a que el individuo es considerablemente
diferente a los dems. Es interesante encontrar este tipo de datos.
Antes de decir NO a estas tres preguntas, hay que decidir qu hacer con el outlier. Hay dos
posibilidades:
Una posibilidad es que el outlier sea correcto, en este caso el dato se conserva para el
anlisis. El valor tiene la misma distribucin que los otros valores, entonces ste debe de
ser incluido.
La otra posibilidad es que el valor sea un error. Cuando se incluye un valor errneo en el
anlisis los resultados pueden ser incorrecto, por lo que es preferible quitar el dato. En
otras palabras, el valor es resultado de una poblacin diferente a la de los otros y es
engaoso.
El problema es que nunca se puede estar seguro cul de estas posibilidades es correcta.
Un punto de influencia o un valor influyente, tiene un impacto notable sobre los coeficientes
del modelo, porque jala al modelo de regresin en su direccin.
21
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
La grfica 3.2 muestra una observacin influyente ya que controla las propiedades del modelo
por mover la grfica de direccin (recta continua). Mientras que la recta punteada es una mejor
aproximacin y explicara mejor los datos. En este caso hay una observacin influyente.
Existen mtodos de diagnstico para balanceo e influencia que ayudan que ayudan a detectar
dichas observaciones. Por ejemplo, los elementos de la matriz de varianzas y covarianzas en la
matriz de varianzas y covarianzas entre y , comnmente se denota por , la diagonal de
esta matriz es una medida estandarizada de la distancia de la observacin al centro
del espacio de . Por lo que las observaciones grandes indicarn observaciones
potencialmente influyentes por estar lejos de la muestra. Los elementos de se calculan como:
= ()
La regla de dedo para decidir si un dato es influyente es elegir aquellos que estn por encima
de 2.
Otra estadstica utilizada es la Distancia de Cook y mide el efecto que tendra el quitar una
observacin en el modelo. Aquellos valores altos tendrn una gran influencia sobre el clculo de
y necesitar un anlisis ms detallado. Se calcula la estadstica como:
2
=
(1 )
Donde:
2 es el residuo de la observacin
22
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
La regla de dedo para decidir si un dato es influyente es elegir aquellos donde > 1.
Ejemplo
Observacin
1 0.3885777 0.01243932
2 0.1200248 -0.00156885
3 0.2596996 -0.00255187
4 0.2339316 -0.00202071
5 0.5818682 0.00412898
6 0.2450416 0.00203297
7 0.2217157 -0.00385273
8 0.2869059 0.00432772
9 0.3083964 -0.00451165
10 0.2694582 -0.00616567
11 0.0768167 -0.00089054
12 0.3729393 0.00342529
13 0.1671735 0.0025508
14 0.2726336 0.00170607
15 0.1948173 0.00335731
23
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
3.9. Multicolinealidad
Ejemplo
Se calcula la matriz de correlaciones para las tres variables del ejercicio de Casas Geo
Se observa gran correlacin negativa entre el aislamiento del tico 2 y la antigedad del
calentador 3 , porque 23 = 0.7115 . A pesar de ello el determinante no es prximo a 1 as
que no se considera la existencia de una multicolinealidad alta.
24
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
Propsito.
Justificar el tipo de modelos que se utilizan para ajustar un conjunto de datos va polinomio
por mnimos cuadrados y el modelo de regresin mltiple.
3.10.1. Forward
El procedimiento Forward introduce una a una las variables al modelo y en cada etapa
introduce la variable ms significativa de acuerdo a la prueba (o la prueba ) hasta que se
cumpla cierta condicin de alto.
3.10.2. Backward
3.10.3. Stepwise
25
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
Cierre de la unidad
En la unidad 3 has aprendido a modelar una variable respuesta con varias variables regresoras
mediante el mtodo de mnimos cuadrados. Utilizando el supuesto distribucional de normalidad
se logra hacer inferencia para los parmetros y tambin hacer prediccin para las nuevas
observaciones.
Se estudiaron algunos problemas usuales que surgen cuando se trabaja con muchas variables
como fueron los datos atpicos, la multicolinealidad y la seleccin de variables.
Para saber ms
En el siguiente link encontrars una gua para programar en R el modelo de regresin mltiple y
podrs estudiar casos especiales en la regresin
King, W. (2007). Web log message. Recuperado de:
http://ww2.coastal.edu/kingw/statistics/R-tutorials/multregr.html.
Fuentes de consulta
Neter, J., Wasserman, W. y Kunter, M. H. (1990). Applied Linear Statistical Models (3a
ed.). Boston: Irwin.
26