Sie sind auf Seite 1von 26

Ejemplo de los gastos de las computadoras personales según su antigüedad y las horas diarias de trabajo

Supongamos que estamos interesados en explicar los gastos (en miles de pesos) de las computadoras personales de un departamento comercial a partir de su edad (en años) y del número de horas diarias que trabajan (horas/día).

Se ha tomado una muestra de cinco computadoras personales y de las cuales se han obtenido los resultados siguientes:

Gastos Y (miles de pesos )

Antigüedad X1 ( años)

Horas de trabajo X2 (horas/día)

24.6

1

11

33.0

3

13

36.6

4

13

39.8

4

14

28.6

2

12

Se quiere encontrar un modelo de regresión de la forma:

y

=

0

+

1

x

1

+

2

x +

2

Si desarrollamos esta ecuación en odas las observaciones de la muestra, obtenemos el sistema de siguiente:

y

y

y

y

y

=

1

0

+

2

= +

0

3

4

5

= +

0

= +

0

= +

0

1 + 1 2 3 + 1 2 4 + 1 2 4 + 1
1
+
1
2
3
+
1
2
4
+
1
2
4 +
1
2
2 +
1
2

11

+

13

13

14 +

12 +

+

+

1

2

3

4

5

Que podemos escribir matricialmente como

Y

==== X

Donde:

++++

1

Y =

24.6

33.0

36.0

39.8

28.0

 

X

1

1

= 1

1

1

1

3

4

4

2

11

13

12

14

13

=

0

1

2

=

1

2

3

4

5

 

es la parte correspondiente a la variación de Y que queda explicada por las variables X i

es el término de los errores y que de alguna manera recoge el efecto de aquellas variables que también afectan a Y; las cuales no se encuentran incluidas en el modelo porque son desconocidas o porque no se tienen datos suyos

Estimación del vector de parámetros por Cuadrados Mínimos

A partir de las observaciones de la muestra se quiere encontrar una ecuación

de regresión lineal múltiple estimada que predice la variable dependiente, Y, en función de las variables independientes observadas X j . Tal modelo tiene la

forma

Donde:

ˆ

ˆy

i

=

ˆ

o

+

ˆ

1

x

i1

+

ˆ

2

x

i2

+

+

ˆ

p

x

ip

+ e

i

j son las estimaciones de los parámetros del modelo

ˆy

i es el valor estimado por el modelo para y i

e

i

= y

i

ˆy

i

Es la diferencia entre los valores observados y los valores

estimados de la variable dependiente.

El vector de los residuos se puede escribir en forma matricial como:

e

==== Y

ˆ

X

Para construir el modelo de ajuste se tiene que minimizar la suma de cuadrados de los residuos.

ˆ

Q( β )

=

n

=

i

1

e

2

i

=

n

=

i

1

(

y

i

ˆy

i

)

2

=

2

e

T

e

=

(Y

Xβ ˆ ) (Y

T

Xβ ˆ )

Haciendo operaciones con los vectores y matrices

Q( β ˆ )

Q( β ˆ )

Y

T

Y

=

Y

T

Y

=

β ˆ

2β ˆ

T

X

T

Y

T

X

ˆ

T

Xβ ˆ

+

T

T X

X

T

β ˆ

Y

Y

+

T

β ˆ

Xβ ˆ

T

X

T

Xβ ˆ

Derivando Q con respecto a ecuaciones normales

e igualando a cero se obtiene el sistema de

(

X

T

X

)

ˆ

= X

T

Y

Resolviendo para

ˆ

se obtiene:

ˆ

=

(

X

T

X

)

1

X

T

Y

El vector ˆ es el vector de los estimadores mínimos cuadráticos de los parámetros del modelo.

Recordemos que si en la ecuación matricial (

efectúa la multiplicación, se obtiene el sistema de ecuaciones normales de la regresión

T

X

)

ˆ

X

= X

T

Y se

3

n

n

x i 1

n

i =

n

1

x

i

1

2

x

i

1

1 i

i =

n

x

i =

1

i

2

=

n

=

1

i

n

x

n

ik

1

x

x

x

i

1

i

2

ik x

i 1

i =

1

i =

1

n

x

i 2

i =

n

i =

1

1

x

i

1

x

i

2

n

=

x

2

i

2

i

1

x

ik x

n

i =

1

i 2

n

i =

1

x

n

i = 1

n

x

ik

x

ik

x

i

= 1

n

i = 1

ik

x

i 1

x

i 2

2

ik

Para nuestro ejemplo, tenemos:



k

2

1

0

ˆ

ˆ

ˆ

ˆ

e

e

k

3

= e

1

e

2


Y =

  

24.6

33.0

36.0

39.8

28.0

 

Entonces,

X

T

X =

1

  11

1

X

1

3

13


1

1 3

4

1 4

1 2

1

= 1

 

1

4

13

1

4

14

11


13

13

14

12


1

12

2

X

T

1

1

  11

=

1

3

13

1

4

13

1

1 3

4

1

1 4

1 2

1

11

13

13 =


12

14

5

  63

14

1

4

14

14

46

182

Y la inversa de esta matriz será:

4

1

12

2

63

 

182

799

(

X

T

X

)

1

=

5

14

63

14

46

182

Por otro lado, se tiene:

X

T Y

=



1

1

11

1

3

13

1

4

13

1

4

14

63

799

182

1

2

12

 




 

1

=

24.6

33.0

36.6

39.8

28.6

181.5

14

17.5

=

 

 

162.6

486.4

2075.8

14

1.3

1.4

 

17.5

1.4

1.7

Así el vector de parámetros estimados de la regresión

ˆ

=

(

X

T

X

)

1

X

T

Y

=

181.5

14

14

1.3

17.5

1.4

La ecuación de regresión queda:

17.5

1.4

1.7

yˆ = 5 + 2.6x

1

+ 2.4x







 

2

Interpretación de los parámetros

162.6

486.4

2075.8

=

 

 

5

 

2.6

2.4

De la misma manera que en la regresión lineal, una vez obtenido el modelo de regresión lineal múltiple, es muy importante hacer una buena interpretación de los resultados obtenidos. De momento, sólo hemos obtenido los parámetros estimados del modelo de regresión:

Para interpretarlos correctamente, debemos tener presente el contexto que estudiamos.

5

1. Interpretación de

ˆ

0

Este parámetro representa la estimación del valor de Y cuando todas las X j toman valor cero. No siempre tiene una interpretación vinculada al contexto (geométrica, física, económica, etc.). Para que sea posible interpretarlo, necesitamos lo siguiente:

a.

b.

Que sea realmente posible que las X j = 0.

Que se tengan suficientes observaciones cerca de los valores X j = 0.

2. Interpretación de

ˆ

j

Representa la estimación del incremento que experimenta la variable Y cuando X j aumenta su valor en una unidad y las demás variables se mantienen

constantes.

Ejemplo de los gastos de las computadoras personales según su antigüedad y las horas diarias de trabajo

Continuando con el ejemplo de las computadoras personales y a partir de los resultados obtenidos en el ajuste:

ˆ

0

= 5

Nos indica los gastos en miles de pesos de una computadora personal con cero años de antigüedad y cero horas semanales de trabajo. Es evidente que en este caso no tiene ningún sentido.

ˆ

1

=

2.6

Nos indica el incremento de los gastos en miles de pesos por cada año de antigüedad de una computadora personal, sin tener en cuenta el número de

horas diarias de uso. Así pues, por cada año que pase, tendremos 2,6 x 1.000

= 2600 computadora personal más en los gastos de mantenimiento de una computadora personal.

ˆ

2 =

2.4

Nos indica el incremento en los gastos en miles de pesos por cada hora diaria de uso sin tener en cuenta la antigüedad de la computadora personal. Tenemos que por cada hora de trabajo adicional, tendremos un incremento de 2,4 x 1.000

= 2.400 pesos en los gastos anuales de mantenimiento de una computadora

personal.

6

La calidad del ajuste

1. Introducción

Una vez encontrado el modelo de regresión lineal múltiple a partir de los datos de una muestra, queremos utilizarlo para hacer inferencias a toda la población. Sin embargo, antes es necesario llevar a cabo una comprobación de la idoneidad del modelo obtenido.

Ahora se debe calcular el coeficiente de determinación para la regresión múltiple como indicador de la calidad del ajuste. También se utilizan los gráficos de los residuos como una importante herramienta de diagnóstico del modelo

Calidad del ajuste. El coeficiente de determinación R 2

Si

componentes

consideramos

que

la

variabilidad

del

modelo

puede

dividirse

en

SCT = SCR + SCE

los

Variabilidad total muestral = variabilidad explicada + variabilidad no explicada

De la misma manera que en la regresión lineal simple, también podemos definir ahora el coeficiente de determinación R 2 como la proporción de variabilidad explicada por el modelo con respecto a la variabilidad total, es decir:

R

2 Variabilidad explicada por el modelo

=

Variabilidad total de la muestra

Se puede expresar el coeficiente de determinación así:

R

2 SCR

=

SCT

=

1

SCE

SCT

Las ecuaciones de las varianzas:

S

2

y

=

1

n

1

n

i = 1

(

y

i

y

)

2

SCT

=

n

1

7

2 1

S

ˆy

=

k

n

=

1

i

(

ˆy

i

2

S

e

=

Donde

1

n

k

1

y

n

=

1

i

(

)

2 SCR

=

k

y

i

ˆy

i

)

2

=

1

n

k

1

n

=

1

i

e

2

i

=

SCE

n

k

1

SCT = Suma de Cuadrados Totales SCR = Suma de Cuadrados de la Regresión SCE = Suma de Cuadrados de los residuos

Ya se demostró que:

SCT = SCR + SCE

Para calcular las sumas de cuadrados, podemos utilizar el cálculo matricial.

Suma de los cuadrados totales

Siendo D el vector de desviaciones de las y i con respecto a la media y :

D

=

d

1

2

d

d

n

=

y

y

y

1

2

n

y

y

y

Se puede escribir la suma de los cuadrados totales de la forma siguiente:

SCT

=

n

i = 1

(

y

i

y

)

2

=

D

T

D

=

[

y

1

8

y

y

2

y

y

n

y

]

y

y

y

1

2

n

y

y

y

Suma de los cuadrados de la regresión:

A partir de los valores estimados

y

ˆ

1

ˆ

y

2

ˆ

y

n

=

1

⋯ ⋯

11

x

12

1

n

x

x

1

1

x

x

21

22

x

2

n

⋯ ⋯

x

x

k

1

k

2

x

kn

ˆ

ˆ

ˆ

0

1

2

ˆ

k

Se puede calcular el vector de las desviaciones de los valores estimados

con respecto a la media

y

yˆ

i

w =

w

1

w

2

w

n

de donde,

SCR

=

n

=

1

i

(

ˆ

y

i

=

y


ˆ

y

ˆ

1

y

y

T

y

2

ˆ

y

n

y

)

2

=

w

w

=

[

ˆ

y

1

y

ˆ

y

2

y

ˆ

y

n

y

]

y

ˆ

y

y

ˆ

1

2

ˆ

n

Suma de los cuadrados de los errores

A partir de los residuos:

9

y

y

y

e =

e

1

e

2

e

n

de donde,

SCE

=

n

=

1

i

(

y

i

=

y

1

y

2

y

n

ˆ

y

i

)

2

y

y ˆ

2

1

ˆ

y ˆ

n

=

e

T

e

=

[

y

1

ˆ

y

1

y

2

y

2

y

n

ˆ

y

n

]

y

1

y

y

2

n

y

n

2

1

y

ˆ

ˆ

ˆ

y

Para el ejemplo de los gastos de las computadoras personales según su antigüedad y las horas diarias de trabajo

Se tiene que, y = 32.52

SCT

=

n

i = 1

(

y

i

y

)

2

=

[

de manera que la suma de cuadrados totales vale:

7.92

0.48

4.08

7.28

3.98

]

7.92

0.48

4.08

7.28

3.98

= 147.97

Los valores estimados por el modelo de regresión múltiple son:

ˆy

ˆy

ˆy

ˆy

ˆy

1

2

3

4

5

    = X   

ˆ

=

1

1

1

1

1

1

3

4

4

2

11

13

13

14

12

 

5

 

2.6

2.4

=

 

10

24

34

36.6

39

29

 

ˆ

De manera que la suma de cuadrados de la regresión es:

SCR

=

n

i = 1

(

ˆ

y

i

y

)

2

=

[

8.52

1.48

4.08

6.48

3.52

]

8.52

1.48

4.08

6.48

3.52

= 145.81

La diferencia entre los valores observados y los valores estimados nos permite obtener los residuos:

  24.6 e 1   y ˆy  1 1   
24.6
e 1 
y
ˆy
1
1
e
y
ˆy
33
2
2
2
e
= 
e
 = 
y
ˆy
=
 36.6
3
3
3
e
y
ˆy
39.8
4
4
4
e
y
ˆy
28.6
 
 
 
5
5
5
Por lo tanto
n
SCE
=
(
)
2
T
y
y
ˆ
=
e
e
=
[
0.6
i
i

i = 1

24   0.6     34 1    36.6 =
24
0.6
34
1
36.6
= 
0
39
0.8
29
0.4
 
 
 
0.6
1
1
0
0.8
0.4 
]
0
 =
0.8
0.4

2.16

De esta manera el coeficiente de determinación es:

11

R

R

2

2

=

=

SCR

145.81

=

=

0.985

SCT

1

147.97

1

SCE

=

2.16

=

SCT

147.97

1

0.015

=

0.985

Este resultado nos dice que el modelo de regresión múltiple obtenido explica el 98,5% de la variabilidad de los gastos de las computadoras personales. Dado que está muy cerca del 100%, por el momento se puede considerar como un buen modelo.

El coeficiente de determinación ajustado

El coeficiente de determinación ajustado,

R

2

, se define de la siguiente forma

 

SCE /

(

n

 

k

1

)

 

R

2

=

1

 
 

SCT /

(

n

1

)

Esta medida se utiliza para tener en cuenta el hecho de que las variables independientes irrelevantes provocan una pequeña reducción en la suma de

los cuadrados de los residuos. Por lo tanto, el

manera los modelos de regresión lineal múltiple que tiene diferentes números

2 permite comparar de mejor

R

de variables independientes

El

R

2

para el ejemplo será entonces:

R

2

=

1

SCE /

(

n

 

k

1

)

=

SCT /

(

n

1

)

1

2.16 / 2

=

147.97 / 4

0,970804

12

Contrastación conjunta del modelo

Hemos visto cómo hay que hacer el contraste de hipótesis para ver si cada una de las variables X i , individualmente, contribuye a explicar la variable Y.

Ahora queremos contrastar el modelo de forma global, teniendo en cuenta todas las variables X i que hemos utilizado para encontrarlo.

Establecemos las hipótesis:

• Hipótesis nula: H 0 : 1 =

2 =

= K = 0.

Nos indica que no existe relación lineal entre la variable Y y ninguna de las variables Xi.

Hipótesis alternativa: H 1 : al menos una i 0 Calculamos el estadístico de contraste.

Esta prueba se basa en un estadístico de contraste que es una observación de una distribución F cuando H 0 es cierta.

Buscaremos una relación entre la variación explicada por el modelo de regresión múltiple y la no explicada por el mismo modelo. Si la proporción de variación explicada en relación con la no explicada es grande, entonces se confirmará la utilidad del modelo y no rechazaremos la hipótesis nula H 0 .

A partir de la descomposición de la suma de cuadrados totales según la suma de cuadrados de la regresión más la suma de los cuadrados de los errores:

Bajo la hipótesis nula, H 0 : 1 =

2 =

= K = 0.

SCR tiene una distribución 2 con k grados de libertad.

SCE tiene una distribución 2 con n – k - 1 grados de libertad.

SCR y SCE son independientes.

El cociente de dos variables 2 divididas por sus grados de libertad da una variable F de Snedecor con los grados de libertad correspondientes al numerador y denominador del cociente.

Si la hipótesis nula es cierta y, por tanto, no existe ningún tipo de relación lineal entre Y y las variables X i , el estadístico tendrá un valor cercano a uno. Pero cuando existe cierta relación, la suma de los cuadrados de la regresión (numerador) aumenta y la suma de los cuadrados de los errores (denominador) disminuye, de manera que el valor del estadístico de contraste aumenta. Si este valor supera un valor crítico de la distribución F, entonces rechazamos la hipótesis nula.

Así pues, podemos definir el estadístico de contraste:

13

F

SCR k

/

= SCE

/(

n

k

1)

Es una observación de una distribución F de Snedecor con k y n – k - 1 grados de libertad.

Si la hipótesis nula es cierta y, por tanto, no existe ningún tipo de relación lineal entre Y y las variables X i , el estadístico tendrá un valor cercano a uno. Pero cuando existe cierta relación, la suma de los cuadrados de la regresión (numerador) aumenta y la suma de los cuadrados de los errores (denominador) disminuye, de manera que el valor del estadístico de contraste aumenta. Si este valor supera un valor crítico de la distribución F, entonces rechazamos la hipótesis nula.

Establecemos un criterio de decisión a partir de un nivel de significación :

A partir de este valor crítico de la distribución F de Snedecor:

significativamente la variable Y. Es decir, el modelo sí que contribuye con información a explicar la variable Y.

por tanto, el modelo explica

Si

F

>

F ;

k;

n-k-1 ,

rechazamos

H 0 ;

Si F < F ; k; n-k-1, no rechazamos H 0 ; por tanto, el modelo no explica de forma significativa la variable Y.

También podemos hacerlo a partir del p-valor: p = P(F ; k; n-k-1 > f ).

• Si p , se rechaza la hipótesis nula H 0 .

• Si p > , no se rechaza la hipótesis nula H 0 .

Los cálculos necesarios se pueden resumir en la tabla siguiente, conocida como TABLA DE ANÁLISIS DE VARAINZA

   

Grados

   

Fuente de

Variación

Suma de

cuadrados

de

libertad

Cuadrados medios

Estadístico

de prueba

x1,x2,….xk

SCR

k

CMR=SCR/k

 

e

SCE

n - k - 1

CME=SCE/(n - k - 1)

CMR/CME

y

SCT

n - 1

 

Es muy importante tener presente el hecho siguiente: que el modelo lineal explique de forma significativa la variable Y no implica que todas las variables sean explicativas; para saberlo, deberemos contrastarlas de una en una, tal como se ha explicado en el apartado anterior.

14

Ejemplo de los gastos de las computadoras personales según su antigüedad y las horas diarias de trabajo

Ahora realizaremos un contraste conjunto del modelo obtenido anteriormente para las computadoras personales. Tomaremos = 0,05.

1. Establecemos las hipótesis nula y alternativa:

• Hipótesis nula: H 0 : 1 =

• Hipótesis alternativa: H 1 : al menos una i 0, i = 1, 2.

2 = 0.

2. Calculamos el estadístico de contraste:

Tenemos que:

Fuente

       

de

Variación

Suma de

cuadrados

Grados de

libertad

Cuadrados medios

Estadístico

de prueba

x1,x2

145,81

2

72,955

 

E

2,16

5 -2- 1

1,08

67,5509259

Y

147,97

5 -1

 

Establecemos un criterio de decisión a partir de un nivel de significación = 0,05. Mirando las tablas de la distribución F de Snedecor, tenemos que el valor

crítico para

denominador es F 0,05;2;2 = 19,0.

= 0,05 y 2 grados de libertad en el numerador y 2 en el

Puesto que 67,5 > 19,0, entonces rechazamos la hipótesis nula, de manera que el modelo en conjunto es bueno para explicar la variable Y.

Con el p-valor tenemos que: p = P(F 0,05;2;2 > 67,5) = 0,0146 el cual es menor que 0,05; por tanto, rechazamos la hipótesis nula.

Inferencia en la regresión lineal múltiple

1. Introducción

Una vez estimado el modelo de regresión, interesa poder aplicarlo, hacer inferencia, a la población de la que se ha sacado la muestra. Ahora se determina los intervalos de confianza para los parámetros del modelo y se realizan contrastes de hipótesis para así poder detectar cuáles son las variables realmente significativas. Finalmente, se realizan la validación de los supuestos; en especial cómo se puede detectar y evitar el problema de la duplicación de información que surge

15

cuando se utilizan variables correlacionadas, conocido con el nombre de multicolinealidad.

2. Estimación de la varianza de los errores

Dada una muestra de observaciones, el modelo estará totalmente determinado una vez que se especifiquen los valores estimados de los coeficientes 0 ,

como

estimación

k y se estime la varianza común de los errores 2 . Para determinar una

1 ,

,

insesgada

de

esta

última,

se

considera

los

residuos

estimaciones de los valores del término de error, entonces se puede estimar la

varianza de este término a partir de la varianza de los residuos:

s

2

e

=

1

n

k

1

n SCE

i

=

1

(

y

i

ˆy

i

)

2

=

n

k

1

Donde k es el número de variables independientes en el modelo de regresión.

La raíz cuadrada de la varianza s e , se conoce también como error típico de la estimación ( Standard Error of Est. )

3. Distribuciones probabilísticas de los parámetros de la regresión

Así, 0 ,

poder inferir nuestros resultados a la población de la que hemos extraído las muestras. Primero las caracterizaremos calculando sus valores esperados y las desviaciones estándar:

que habrá que estudiar para

1 ,

,

k son unas variables aleatorias

a) Valor esperado de

ˆ

j

E

(

ˆ

j

)

=

j

para j = 1,

son iguales a los valores poblacionales de éstos. Aunque estos valores sean desconocidos, este resultado será de gran utilidad a la hora de hacer inferencia estadística.

, k. Se observa que los valores esperados de estos parámetros

b) Varianza de

de la matriz

2

(

ˆ

j . Las varianzas de las

X

T

X

) 1

2

diag

, es decir:

(

X

T

X

)

1

=

var

(

ˆ

0

)

16

ˆ

j son los elementos de la diagonal

var

(

ˆ

1

)

var

(

ˆ

k

)

 

Ya se ha calculado la media y la varianza de los estimadores. Puesto que la

j son combinación lineal de las

variable Y se distribuye normalmente y las

observaciones y j , se puede asegurar que las

ˆ

ˆ

j se distribuirán normalmente:

ˆ

j

(

N

j

,

q ij
q
ij

)

donde q jj es el elemento de la fila j y columna j de la matriz (X T X) -1 . Dado que la varianza 2 es desconocida, se utiliza el valor estimado a partir de los datos de

la muestra, es decir

s

2

e

2 1

s

e

=

n

k

1

n

=

1

i

(

y

i

ˆy

i

)

2 SCE

=

n

k

1

De manera que:

2

s diag

e

(

X

T

X

)

1

=

var

(

ˆ

0

)

var

(

ˆ

1

)

var

(

ˆ

k

)

 

Así, las desviaciones estándar de los estimadores serán:

s

ˆ

j

=

( ˆ var j ) ,
(
ˆ
var
j )
,

para

17

j

=

1,2,

,k

Para el ejemplo de las computadoras personales

(

X

T

X

)

1

=

181.5

14

17.5

 

14

1.3

1.4

17.5

1.4

1.7

La ecuación de regresión quedó:

Además

s

yˆ = 5 + 2.6x

1

+ 2.4x

2

e

=

SCE

2.16

=

n

k

1

2

=

1.08

2

De esta manera:

var

var

var

(

(

(

ˆ

ˆ

ˆ

0

1

2

)

)

)

=

=

=

1.08

1.08

1.08

181.5

=

195,912

1.3

=

1.7

=

1.404

1.836

s

ˆ

s

1

=

s

ˆ

0

=

1.18

ˆ

2

=

1.35

13.99

=

14

Intervalos de confianza de los parámetros del modelo

En los modelos de regresión lineal múltiple resulta útil construir estimaciones de intervalos de confianza para los coeficientes de la regresión. Como hemos visto en el apartado anterior, los estimadores siguen distribuciones. Por tanto, se puede demostrar que la variable tipificada:

ˆ

j

j

s

ˆ

j

sigue una distribución t de Student con n – k -1 grados de libertad. Puesto que:

18

P