Sie sind auf Seite 1von 26

Estadstica II

Unidad 3. Anlisis de regresin lineal mltiple

Licenciatura en Matemticas

4 semestre

Estadstica II

Unidad 3. Anlisis de regresin lineal mltiple

Clave:
05142421/06142421

Universidad Abierta y a Distancia de Mxico

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

1
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

ndice
Unidad 3. Anlisis de regresin lineal mltiple ...................................................................... 4

Presentacin de la unidad............................................................................................................ 4

Propsitos de la unidad ................................................................................................................ 4

Competencia especfica................................................................................................................ 5

3.1. Planteamiento del problema ................................................................................................ 5

3.2. Supuestos del modelo ........................................................................................................... 6

3.3. Estimacin de los parmetros............................................................................................. 6

3.3.1. Mnimos cuadrados ............................................................................................................... 6

Actividad 1. Ajuste de una regresin lineal mltiple .......................................................... 10

3.3.2. Teorema de Gauss Markov .................................................................................................. 10

3.3.3. Mxima verosimilitud .......................................................................................................... 10

3.4. Regiones de confianza ........................................................................................................ 11

3.4.1. Para los coeficientes ............................................................................................................ 11

3.4.2. Para la respuesta media ...................................................................................................... 12

3.5. Pruebas de hiptesis ........................................................................................................... 14

3.5.1. Para la significancia de la regresin..................................................................................... 14

3.5.2. Para los coeficientes de manera individual ......................................................................... 17

Actividad 2. Seleccin de variables en un modelo de regresin lineal mltiple ......... 18

3.6. Medidas de adecuacin del modelo ................................................................................ 18

3.7. Coeficiente de determinacin mltiple ........................................................................... 20

3.8. Datos atpicos ........................................................................................................................ 21

3.8.1. Datos influyentes ................................................................................................................. 21

3.9. Multicolinealidad ................................................................................................................... 24

Actividad 3. Ajuste de datos ...................................................................................................... 25


Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

2
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
3.10. Mtodo de seleccin de variables .................................................................................. 25

3.10.1. Forward .............................................................................................................................. 25

3.10.2. Backward ........................................................................................................................... 25

3.10.3. Stepwise ............................................................................................................................ 25

Evidencia de aprendizaje. Ajuste de un anlisis de regresin lineal mltiple ............. 26

Cierre de la unidad ....................................................................................................................... 26

Para saber ms.............................................................................................................................. 26

Fuentes de consulta .................................................................................................................... 26

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

3
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

Unidad 3. Anlisis de regresin lineal mltiple

Presentacin de la unidad

El anlisis de regresin lineal mltiple es una tcnica estadstica que se utiliza para estudiar las
relaciones de dependencia entre una variable respuesta y varias variables regresoras.

Se puede usar la regresin lineal mltiple para responder a preguntas como:

El puntaje de un nio en una prueba puede estar influido a factores como: nivel sociocultural,
nivel econmico, si el nio asiste a escuela pblica o privada, si la escuela se localiza en una
zona rural o urbana, etc.

En el ejemplo anterior se tienen varias variables respuesta, a diferencia de la regresin lineal


simple en donde slo se contaba con una.

Se denotan los tipos de variables como sigue:

1 , 2 , , : Se tienen variables independientes, predictoras o regresoras


: la variable dependiente o variable respuesta

El objetivo del anlisis de regresin lineal mltiple ser entender el cambio en cuando cambia
cuando todas las variables regresoras ( ) se mantienen constantes.

Cabe mencionar que los ejemplos que se presentan en esta unidad se realizan con las frmulas
tradicionales y no va un paquete estadstico, por lo que es posible que se presenten algunas
diferencias debido al tipo de simulaciones de algunos paquetes.

Propsitos de la unidad

Mediante el estudio de esta unidad podrs:

Diferenciar entre una variable dependiente y una


variable independiente.

Construir una recta de regresin lineal mltiple.

Comprobar los supuestos del modelo de regresin


lineal mltiple.
Propsitos

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

4
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

Competencia especfica

Ajustar modelos de dos variables correlacionadas para


predecir resultados de una poblacin mediante el anlisis de
regresin lineal mltiple.

Competencia especfica

3.1. Planteamiento del problema

Como se ha dicho anteriormente la variable respuesta se puede relacionar con regresores


1 , 2 , , de modo que el modelo es:

= 0 + 1 1 + 2 2 + + + (3.1)

A la ecuacin (3.1) se le llama modelo de regresin lineal mltiple, ya que implica ms de una
variable regresora. Se observa que una vez ms aparece el parmetro error que ayuda a
explicar las causas externas que en ocasiones no se pueden medir.

Los parmetros 0 , 1 , , , se llaman coeficientes de regresin. Este modelo describe a un


hiperplano en el espacio de dimensiones de las variables regresoras. El parmetro
representa el cambio esperado en la respuesta por el cambio unitario en cuando todas
las dems variables regresoras ( ) se mantienen constantes. Por esta razn, a los
parmetros , = 1,2, , se les llama con frecuencia coeficientes de regresin parcial.

El modelo de regresin lineal (3.1) para individuos se puede escribir en su forma matricial
como:

= + (3.2)
Donde:

1 11 1
1 21 2
=( )

1 1

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

5
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

Cada = (1 , 2 , , ), es un vector de dimensin 1, es una matriz de dimensin


, es un vector de 1 y es un vector de 1.

3.2. Supuestos del modelo

El adjetivo lineal es para indicar que el modelo es lineal respecto a los parmetros 0 , 1 , ,
y no porque sea funcin lineal de las . De hecho, el modelo de regresin lineal se podra
escribir como sigue:

= 0 + 1 1 + 2 2 + + + (3.1)

en donde representa cualquier funcin de las regresoras originales 1 , 2 , , , incluyendo


transformaciones como exp( ), sen( ).

3.3. Estimacin de los parmetros

3.3.1. Mnimos cuadrados

Descomponiendo la ecuacin (3.2) se tiene que el modelo de regresin mltiple se puede


expresar como:

1 1 11 1 0 1
2 1 21 2 2
()=( ) ( 1) + ( )

1 1

Nota que al obtener las derivadas parciales para cada uno de los parmetros desconocidos de
la regresin se tendrn = 1 ecuaciones normales. La suma de cuadrados de los errores
puede ser expresada como

() = 2 = (3.3)
=1

Y desarrollando la ecuacin (3.3) queda

() = + = 2 +

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

6
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

donde es una matriz 1 1, o un escalar y su transpuesta ( ) = es el mismo


escalar. El estimador mnimos cuadrados debe satisfacer

()
| = 2 + 2 =

Simplificando se tiene

= . (3.4)

El sistema (3.4) son las ecuaciones normales de mnimos cuadrados. Asumiendo de rango
completo y multipllicando por la inversa de se obtiene el estimador mnimos cuadrados

= ( ) (3.5)

) = y (
Se puede probar que ( ) = 2 ( ).

Ejemplo 1

Casas Gio vende casas en el norte de la Repblica Mexicana. Una de las inquietudes de los
compradores potenciales se refiere al costo en calefaccin durante el invierno. Por lo que el
departamento de investigacin de Casas Geo realiz una investigacin que desarrollar
algunos lineamientos acerca de los costos de calefaccin para las casas de una sola familia.
Tres variables fueron integradas al estudio: la media diaria de la temperatura externa, el nmero
de pulgadas de aislamiento en el tico y la antigedad del calentador. Para el estudio se tom
una muestra aleatoria de 15 casas. La informacin de la muestra se reporta en la siguiente
tabla:

Antigedad
Costo de Temperatura Aislamiento
del
Casa calefaccin media externa del tico
calentador
($) (F) (pulgadas)
(aos)
1 47 55 10 3
2 163 23 4 12
3 60 40 9 6
4 71 47 5 7
5 215 12 3 6
6 72 51 7 8
7 68 35 8 5
8 232 10 5 9
9 221 7 4 13

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

7
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
10 95 40 3 9
11 128 30 5 10
12 223 18 4 15
13 235 19 2 11
14 210 25 1 12
15 204 29 3 13

Se sustituyen los datos

Grfica 3.1.

En la grfica 3.1. se observa que la temperatura media est inversamente proporcional al costo
de calefaccin, lo cual suena razonable, a medida que la temperatura aumenta el costo
disminuye. La variable aislamiento del tico tambin muestra una relacin inversa: entre ms
aislamiento presente el tico, menor es el costo de calefaccin. La antigedad del calentador
es una variable directamente proporcional al costo, es decir, mientras mayor sea la antigedad
el costo aumenta.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

8
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
Como se ha observado correlaciones lineales en la matriz de dispersin de las variables
regresoras con la variable independiente se concluye que un anlisis de regresin lineal
mltiple es conveniente.

Se calculan los estimadores de los parmetros por el mtodo de mnimos cuadrados

= ( )

1

1 55 10 3 1 55 10 3 1 55 10 3 47
1 23 4 12 1 23 4 12 1 23 4 12 163
1 40 9 6 1 40 9 6 1 40 9 6 60
1 47 5 7 1 47 5 7 1 47 5 7 71
1 12 3 6 1 12 3 6 1 12 3 6 215
1 51 7 8 1 51 7 8 1 51 7 8 72
1 35 8 5 1 35 8 5 1 35 8 5 68
=
1 10 5 9 1 10 5 9 1 10 5 9 232
1 7 4 13 1 7 4 13 1 7 4 13 221
1 40 3 9 1 40 3 9 1 40 3 9 95
1 30 5 10 1 30 5 10 1 30 5 10 128
1 18 4 15 1 18 4 15 1 18 4 15 223
1 19 2 11 1 19 2 11 1 19 2 11 235
1 25 1 12 1 25 1 12 1 25 1 12 210
(1 29 3 13) (1 29 3 13) (1 29 3 13) (204)
( )

250.537
= ( 3.251 )

7.302
3.257

La ecuacin de regresin por el mtodo de mnimos cuadrados es:

= 250.537 3.251 1 7.302 2 + 3.257 3

El valor en que la ecuacin cruza el eje es 250.537. Los coeficientes para la temperatura
media y el aislamiento del tico son negativos lo que reafirma la relacin inversa que se
observ en la dispersin.

Cuando la temperatura externa sube un grado el costo de calefaccin disminuye en $3.21. Sin
importar el valor que tomen las otra dos variables.

Por cada unidad de aislamiento se espera que el costo disminuya en $7.302 no importando el
valor que tomen las variables temperatura y antigedad.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

9
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
La variable antigedad que tiene una relacin directa dice que por cada ao de antigedad el
costo de calefaccin aumenta en $3.257.

Se puede hacer una prediccin sobre el costo de calefaccin cambiando los datos: si la
temperatura externa media es de 32 grados, el tico tiene 6 pulgadas de aislamiento y la
antigedad del calentador es de 1 ao. Se sustituyen los valores en la ecuacin de regresin

92.946 = 250.537 3.251 (36) 7.302 (6) + 3.257 (1)

con los datos dados se tiene un costo de calefaccin de $92.946.

Actividad 1. Ajuste de una regresin lineal mltiple

Propsito

Realizar un ajuste de una regresin lineal mltiple, mediante un problema planteado.

3.3.2. Teorema de Gauss Markov

De la misma manera que en regresin simple, el Teorema de Gauss Markov establece que por
= ( ) es el mejor estimador lineal
mnimos cuadrados ordinarios el estimador
, es aquel estimador de
insesgado. Es decir, que dentro de todas las combinaciones lineales,
ahora es un vector y por lo
mnima varianza. La diferencia con regresin lineal simple es que
tanto su varianza es en realidad una matriz y no un escalar.

3.3.3. Mxima verosimilitud

Asumiendo el supuesto distribucional en la ecuacin (3.2)

= +

Donde ~(, 2 ), con 2 constante. Adems los errores son independientes.


La funcin de verosimilitud es:

1 1
2 () ()
(, , , 2 ) = 2
(2)2

En este caso la suma de los errores al cuadrado est dado por:


Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

10
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

( ) ( )

= ( ) , que coincide con el


Y el estimador de bajo el supuesto distribucional es:
estimador de mnimos cuadrados. El estimador insesgado de mxima verosimilitud para 2 es:

)(
( )
2 = (3.3)

3.4. Regiones de confianza

Las regiones de confianza para niveles especficos de los regresores, tienen mucha importancia
en una regresin lineal simple, aqu se desarrollarn las regiones de confianza una por una,
para el caso de las mltiples, y se presentar en forma breve las regiones simultneas de
confianza para los coeficientes de regresin.

3.4.1. Para los coeficientes

Para construir el intervalo de confianza para algn , se considera que los errores se
distribuyen de manera normal con media cero y varianza 2 . Lo que da como consecuencia que
las observaciones tambin se distribuyan de manera normal e independiente, por ser
combinaciones lineales de los errores. As se tiene que:

~ (0 + , 2 ) (3.4)
=1

Como el estimador tambin es combinacin lineal de las observaciones, hereda la propiedad


de normalidad con los siguientes parmetros:

~( , 2 ()1 )

Lo que implica que la distribucin marginal de cada es:

~( , 2 )

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

11
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

donde es el elemento de la diagonal de la matriz ()1 . Adems, se sustituye


el estimador de 2 como se vio en la ecuacin (3.3) y se obtiene:


~ , = 1,2, ,
2

Con una distribucin con grados de libertad.


As un intervalo del (1 )% para el coeficiente de regresin es:

2, 2 + 2, 2 (3.5)
Ejemplo 1

Para el ejemplo desarrollado en el apartado 3.3.1 de Casas Geo se calcula el intervalo de


confianza a 95% para el parmetro 1 , con 1 = 3.251. Se tiene 2 = 601.3798. La matriz

3.1932 0.0168 0.1741 0.1928


()1 =( 0.0168 0.0005 0.0013 0.0007 )
0.1741 0.0013 0.0245 0.0099
0.1928 0.0007 0.0099 0.0133

Por lo tanto el elemento de la diagonal que corresponde a 1 es 11 = 0.0005. Se aplica la


ecuacin (3.5)

3.251 0.025,12 (601.3798)(0.0005) 1 3.251 + 0.025,12 (601.3798)(0.0005)


3.251 (2.1788)(601.3798)(0.0005) 1 3.251 + (2.1788)(601.3798)(0.0005)

4.4459 1 2.0564

El intervalo no cruza por el cero, por lo que 1 es significativo para el modelo,

3.4.2. Para la respuesta media

Al caso de construir un intervalo para cierta observacin se le conoce como Intervalo para la
respuesta media. Supn que se tiene la observacin 01 , 02 , , 0 . Se define el vector:

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

12
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
1
01
= 02

[0 ]

El valor estimado en este punto es:



0 =

El primer y segundo momento son:

) = = 0
(0 ) = (

Por lo tanto el valor ajustado es un estimador insesgado de 0 (la respuesta media). Ahora la
varianza de 0 es:

(0 ) = 2 ()

Se sustituye el estimador de 2 para despejar valores desconocidos. As un intervalo del


(1 )% de confianza para la respuesta media en el punto 01 , 02 , , 0 es:

0 2, 2 0 ( )1 0 0 0 2, 2 0 ( )1 0 (3.6)

Ejemplo 1

Continuando con los datos del ejemplo 1. Supn que el departamento de investigacin quiere
establecer un intervalo de 95% de confianza para el costo medio de calefaccin cuando la
Temperatura media externa es de 12F, el aislamiento del tico de 4 pulgadas y la antigedad
del calentador de 5 aos. Entonces,

1
0 = [12]
4
5

Primero se calcula el valor ajustado en este punto

250.537
= [1
0 = 3.251
12 4 5] [ 7.302 ] = 198.6014
3.257

Ahora se calcula la varianza de 0


Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

13
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

(0 ) = 2 ( )
3.1932 0.0168 0.1741 0.1928 1
= 601.3798[1 12 4 5] (0.0168 0.0005 0.0013 0.0007 ) [12]
0.1741 0.0013 0.0245 0.0099 4
0.1928 0.0007 0.0099 0.0133 5
= 373.3967

Un intervalo de confianza de 95% para el costo promedio de calefaccin es:

198.6014 (2.1788)373.3967 0 198.6014 (2.1788)373.3967


156.4994 0 240.7034

3.5. Pruebas de hiptesis

Cuando se estiman los parmetros del modelo, aparecen dos incgnitas que se deben analizar.
Cul es el ajuste general del modelo?, y cules regresores especficos parecen importantes?

Existen muchos procedimientos de pruebas de hiptesis que hacen una demostracin por la
cual se puede responder a estas preguntas, para ello se requiere que los errores aleatorios
sean independientes y tengan una distribucin normal con promedio ( ) = 0 y una varianza
( ) = 2

3.5.1. Para la significancia de la regresin

Esta prueba tiene como finalidad probar si las variables independientes x1 , x2 , , xn sirven para
explicar el comportamiento de la variable dependiente y de manera lineal. Es la generalizacin
del anlisis de varianza que se vio en regresin simple. Las hiptesis son:

0 : 1 = 2 = n = 0 1 : j 0

Si la hiptesis nula es cierta significa que se tendran que buscar otras variables
independientes, o manejar otro enfoque para predecir a la variable dependiente.

Una vez ms se descompone la varianza de y en dos partes una debido a la regresin y otra
debido a los errores.

Si la hiptesis nula es cierta, entonces:

2
I. ~1
2

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

14
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

2
II. ~1
2


III. ~2
2

Adems y son independientes.

Se utiliza el estadstico de prueba



0 = =
( 1)

La estadstica 0 tiene distribucin ,1 y se rechaza 0 cuando

0 > ,,1

Los valores se presentan desagregados en una tabla de Anlisis de Varianza (ANOVA)

Tabla de Anlisis de varianza


Fuente de Suma de Grados de
Cuadrado medio
variacin cuadrados libertad
Regresin = / /
Error 1 = 1
Total 1

Una frmula de clculo para la suma de cuadrados de la regresin es:

(=1 )2

=

La suma de cuadrados del error se calcula como:

Y la suma total de cuadrados es:

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

15
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

(=1 )2
=

Ejemplo

Se probar la significancia de la regresin para el ejercicio de Casas Geo. Primero se calculan


las sumas de los cuadrados.

(2244)2
= 412196 = 76493.6
15

(2244)2
= 404979.4 = 69277.04
15
Y se utiliza el hecho de que

= +
Por lo tanto

= = 7216.558

Se construye la tabla de anlisis de varianza

Tabla de Anlisis de varianza


Fuente de Suma de Grados de
Cuadrado medio
variacin cuadrados libertad
Regresin 69277.04 3 23092.35 35.19903
Error 7216.558 11 656.0507
Total 76493.6 14

Se debe buscar en tablas el cuantil de una 0.95,3,48 , como no se encuentra, se busca con los
grados de libertad ms prximos
0.95,1,11 = 5.222

Dado que 35.19903 > 5.222 se rechaza 0 , por lo tanto existe evidencia estadstica para
suponer que 1 : j 0 . Por lo que algunas variables explican el
modelo.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

16
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

3.5.2. Para los coeficientes de manera individual

Con el Anlisis de Varianza (ANOVA) se puede contrastar si las variables se relacionan con el
modelo o no, pero esto sucede de forma conjunta. Una vez que se haya decidido que no todos
los parmetros son significativos para el modelo lo que sigue es saber cules sirven y cules
no.

La hiptesis a probar es:

0 : = 0 1 : 0

Es decir, si el valor de este parmetro en la poblacin es cero o no. De ser cierta esta hiptesis,
entonces la variable no influira sobre la variable respuesta y. Dicha variable sera excluida
del modelo de regresin lineal mltiple.
Estadstico de prueba

Recuerda que en la seccin 3.4.1 viste que el estadstico:


(3.7)
2

tiene una distribucin con grados de libertad. Bajo la hiptesis nula se sabe que = 0,
sustituyendo en el estadstico (3.7) se tiene que:


0 = = 1,2, , (3.8)
2

Que ahora se distribuye con 1 grados de libertad.

Regla de decisin

Rechaza 0 si |0 | > 2,1 .

Cuando se haya decidido qu variables permanecen en el modelo y cules no, se realizar una
vez ms el clculo de los parmetros, y se obtendr un nuevo modelo.

Ejemplo

Para ilustrar el procedimiento se usarn los datos de Casas Geo. Primero se evala la
importancia de la variable regresora media diaria de la temperatura externa (1 ).

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

17
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
Las hiptesis son:

0 : 1 = 0 1 : 1 0

El estadstico (3.7) es:

3.251
0 = = 5.9289
(601.3798)(0.0005)

Rechaza 0 si |0 | > 0.025,11 = 2.2010 . Como 5.9289 > 2.2010 se rechaza 0 y por lo
tanto 1 es significativo para el modelo y permanece en l.

Actividad 2. Seleccin de variables en un modelo de regresin lineal


mltiple

Propsito.

Determinar la validez del modelo presentado en el problema que se plantea.

3.6. Medidas de adecuacin del modelo

No se debe olvidar que durante la construccin de hiptesis e intervalos de confianza se ha


utilizado el supuesto distribucional en los errores, ~(, 2 ), adems se considera que los
errores son independientes. La manera de verificar los supuestos es la misma que se utiliz con
la regresin lineal simple que es va el anlisis de los residuos.

Recuerda que los residuos se calculan como la diferencia entre lo observado y lo esperado, de
manera matemtica se escribe:

=
Ejemplo

Se verifican los supuestos para el ejemplo de Casas Gio.

Se comienza con el supuesto de normalidad y para ello se construye un histograma de los


residuos

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

18
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

Grficamente la distribucin de los residuos no aparenta ser la de una normal. Se recomienda


realizar una prueba de bondad y ajuste Kolmogorov-Smirnov.

A continuacin se revisa la homocedasticidad.

No se observa un patrn de los en funcin de y . Por lo que se considera que no se viola el


supuesto de varianza constante.

Finalmente se observa la correlacin de los residuos en la siguiente grfica:

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

19
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

No se observan patrones en los residuos, as que se consideran no correlacionados.

3.7. Coeficiente de determinacin mltiple

El coeficiente de determinacin mltiple, representado por 2 , es el porcentaje de la


variacin explicada por el modelo; es decir, a travs de la recta de regresin.


2 = 1

Como ya se haba visto en la unidad 2 lo deseable es que el estadstico se acerque a 1 para as


tener una mayor variabilidad dada la recta de regresin. Es comn que el resultado se exprese
como porcentaje.

El cuidado que se debe tener en regresin mltiple es que por cada variable que se agregue
por poco que sta aporte al modelo es informacin que har crecer a 2 . Esto puede ser
engaoso al tener que escoger entre varios modelos. Se debe de tener mucho cuidado y
seleccionar cuidadosamente aquellas variables que aporten informacin relevante al modelo.
Esta seleccin se estudiar en el apartado (3.10).

Ejemplo

Para construir el coeficiente de determinacin se toman los datos de la tabla ANOVA

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

20
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple
7215.558
2 = 1 = 0.9057
76493.6

Por lo tanto la variabilidad explicada por el modelo es de 90.57% , se considera demasiado


alta. Por lo tanto el modelo explica bien al Costo de calefaccin.

3.8. Datos atpicos

3.8.1. Datos influyentes

Las observaciones atpicas son aquellas con residuos grandes, en ocasiones es equivalente
hablar de observaciones con valores demasiado grandes o demasiado pequeos. Estos valores
son llamados outliers. Cuando se enfrenta a una observacin de este estilo, las primeras
preguntas que se deben hacer son:

1. Es el dato encontrado correcto? Puede haber un error de captura.

2. Hubo algn problema experimental con el valor? Por ejemplo, si se nota que durante el
experimento alguno de los aparatos no funciona correctamente, se puede pensar que el
dato obtenido es un error del aparato y se tiene justificacin para borrarlo del anlisis.

3. Puede el outlier ser causado por una diversidad biolgica? Si cada valor es resultado
de una persona o animal diferente, el outlier puede ser un valor correcto. Entonces el
outlier no es resultado de un error, se debe a que el individuo es considerablemente
diferente a los dems. Es interesante encontrar este tipo de datos.

Antes de decir NO a estas tres preguntas, hay que decidir qu hacer con el outlier. Hay dos
posibilidades:

Una posibilidad es que el outlier sea correcto, en este caso el dato se conserva para el
anlisis. El valor tiene la misma distribucin que los otros valores, entonces ste debe de
ser incluido.

La otra posibilidad es que el valor sea un error. Cuando se incluye un valor errneo en el
anlisis los resultados pueden ser incorrecto, por lo que es preferible quitar el dato. En
otras palabras, el valor es resultado de una poblacin diferente a la de los otros y es
engaoso.

El problema es que nunca se puede estar seguro cul de estas posibilidades es correcta.
Un punto de influencia o un valor influyente, tiene un impacto notable sobre los coeficientes
del modelo, porque jala al modelo de regresin en su direccin.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

21
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

Grfica 3.2. Observacin influyente

La grfica 3.2 muestra una observacin influyente ya que controla las propiedades del modelo
por mover la grfica de direccin (recta continua). Mientras que la recta punteada es una mejor
aproximacin y explicara mejor los datos. En este caso hay una observacin influyente.

Existen mtodos de diagnstico para balanceo e influencia que ayudan que ayudan a detectar
dichas observaciones. Por ejemplo, los elementos de la matriz de varianzas y covarianzas en la
matriz de varianzas y covarianzas entre y , comnmente se denota por , la diagonal de
esta matriz es una medida estandarizada de la distancia de la observacin al centro
del espacio de . Por lo que las observaciones grandes indicarn observaciones
potencialmente influyentes por estar lejos de la muestra. Los elementos de se calculan como:

= ()

La regla de dedo para decidir si un dato es influyente es elegir aquellos que estn por encima
de 2.

Otra estadstica utilizada es la Distancia de Cook y mide el efecto que tendra el quitar una
observacin en el modelo. Aquellos valores altos tendrn una gran influencia sobre el clculo de
y necesitar un anlisis ms detallado. Se calcula la estadstica como:

2
=
(1 )

Donde:

es el la elemento de la diagonal de la matriz

2 es el residuo de la observacin

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

22
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

es el cuadrado medio del error

es el nmero de variables independientes

La regla de dedo para decidir si un dato es influyente es elegir aquellos donde > 1.

Ejemplo

Siguiendo el ejemplo de Casas Geo se obtiene de la tabla ANOVA que = 656.0507,


= 3 y = 15, 2 = 0.4

Observacin
1 0.3885777 0.01243932
2 0.1200248 -0.00156885
3 0.2596996 -0.00255187
4 0.2339316 -0.00202071
5 0.5818682 0.00412898
6 0.2450416 0.00203297
7 0.2217157 -0.00385273
8 0.2869059 0.00432772
9 0.3083964 -0.00451165
10 0.2694582 -0.00616567
11 0.0768167 -0.00089054
12 0.3729393 0.00342529
13 0.1671735 0.0025508
14 0.2726336 0.00170607
15 0.1948173 0.00335731

Observando las estadsticas de balanceo e influencia se tiene que nicamente la observacin 5


est por arriba de los lmites en la matriz de varianza y covarianza, pero no reporta problemas
con la Distancia de Cook. Lo que corresponde es realizar un nuevo ajuste de regresin
mltiple, ANOVA, pruebas de parmetros, etc. y determinar si la observacin es realmente
influyente.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

23
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

3.9. Multicolinealidad

Para realizar un ajuste de regresin es necesario el clculo de la matriz ()1 , as que la


condicin de existencia de la inversa es necesaria y esto se cumple cuando la matriz es de
rango completo, es decir, de rango . El problema de multicolinealidad surge cuando las
regresoras tienen dependencia casi lineal entre las variables regresoras, en este caso el rango
de la matriz es menor a y no es posible calcular la matriz inversa.

Un mtodo para identificar la multicolinealidad es analizando los coeficientes de correlacin


entre todas las variables regresoras, con esto se puede detectar que variables estn
correlacionadas dos a dos. Despus se analiza el determinante de la matriz mientras ms
cercano a 1 significa que no existe multicolinealidad y un determinante cercano a 0 indica
presencia de multicolinealidad. Con este mtodo se observar la correlacin entre cualquier
nmero de variables de manera conjunta y no nicamente dos a dos.

Para contrarrestar el efecto de la multicolinealidad se recomienda aumentar la muestra


esperando que esto ayude a reducir la correlacin de las variables. Otro mtodo es eliminar las
variables regresoras que se encuentren ms correlacionadas. Tambin se puede intentar la
transformacin de alguna variable.

Ejemplo

Se calcula la matriz de correlaciones para las tres variables del ejercicio de Casas Geo

Temperatura Aislamiento Antigedad del


media del tico calentador
Temperatura
1.0000 0.6126 -0.5874
media
Aislamiento del
1.0000 -0.7115
tico
Antigedad del
1.0000
calentador

El determinante de la matriz de correlacin es 0.2855.

Se observa gran correlacin negativa entre el aislamiento del tico 2 y la antigedad del
calentador 3 , porque 23 = 0.7115 . A pesar de ello el determinante no es prximo a 1 as
que no se considera la existencia de una multicolinealidad alta.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

24
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

Actividad 3. Ajuste de datos

Propsito.

Justificar el tipo de modelos que se utilizan para ajustar un conjunto de datos va polinomio
por mnimos cuadrados y el modelo de regresin mltiple.

3.10. Mtodo de seleccin de variables

En ocasiones se encuentra un nmero grande de variables regresoras y es necesario reducir el


modelo para lograr una mejor interpretacin de los datos o para evitar multicolinealidad. La
prueba no es suficiente cuando se tiene un nmero considerablemente grande de variables, lo
que se busca son mtodos que refinen la seleccin.

En esta seccin se mencionan los tres procedimientos ms utilizados y que vienen


implementados en casi todo paquete estadstico, pero no se realiza ningn ejercicio debido a la
gran cantidad de clculos que llevara, ya que por cada etapa se tiene que analizar varios
estadsticos o calcular correlaciones parciales.

3.10.1. Forward

El procedimiento Forward introduce una a una las variables al modelo y en cada etapa
introduce la variable ms significativa de acuerdo a la prueba (o la prueba ) hasta que se
cumpla cierta condicin de alto.

3.10.2. Backward

El procedimiento Backward en la primera etapa ajusta un modelo de regresin mltiple con


todas las variables y va eliminando la variable menos significativa de acuerdo a la prueba (o
la prueba ) hasta que se cumpla cierta condicin.

3.10.3. Stepwise

El procedimiento Stepwise es una mezcla de los procedimientos anteriores. Introduce en cada


etapa la variable ms significativa, pero por cada etapa, examina la permanencia de todas las
variables y termina cuando ya no entra ni sale ninguna variable.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

25
Estadstica II
Unidad 3. Anlisis de regresin lineal mltiple

Evidencia de aprendizaje. Ajuste de un anlisis de regresin lineal mltiple


Propsito

Aplicar los conceptos de Pruebas paramtricas y bondad de ajuste en problemas especficos.

Cierre de la unidad

En la unidad 3 has aprendido a modelar una variable respuesta con varias variables regresoras
mediante el mtodo de mnimos cuadrados. Utilizando el supuesto distribucional de normalidad
se logra hacer inferencia para los parmetros y tambin hacer prediccin para las nuevas
observaciones.

Se estudiaron algunos problemas usuales que surgen cuando se trabaja con muchas variables
como fueron los datos atpicos, la multicolinealidad y la seleccin de variables.

Para saber ms

En el siguiente link encontrars una gua para programar en R el modelo de regresin mltiple y
podrs estudiar casos especiales en la regresin
King, W. (2007). Web log message. Recuperado de:
http://ww2.coastal.edu/kingw/statistics/R-tutorials/multregr.html.

Fuentes de consulta

Montgomery, D. C., Peck, E. A. y Vinning, G. G. (2001). Introduction to Linear


Regression Analysis (3a ed.). New York: John Wiley and Sons.

Neter, J., Wasserman, W. y Kunter, M. H. (1990). Applied Linear Statistical Models (3a
ed.). Boston: Irwin.

Ciencias exactas, Ingenieras y tecnologas | Licenciatura en Matemticas

26

Das könnte Ihnen auch gefallen