U1 Regresion Actual

1
(1.1)
(1.2)
1 REGRESIN LINEAL SIMPLE Y MLTIPLE
INTRODUCCIN

El anlisis de regresin tiene como objetivo modelar en forma matemtica el
comportamiento de una variable de respuesta en funcin de una o ms variables
independientes (factores). Por ejemplo, suponga que el rendimiento de un proceso
qumico est relacionado con la temperatura de operacin. Si mediante un modelo
matemtico es posible describir tal relacin, entonces este modelo puede ser
usado para propsitos de prediccin, optimizacin o control.

Para estimar los parmetros de un modelo de regresin son necesarios los datos,
los cuales pueden obtenerse de experimentos planeados, de observaciones de
fenmenos no controlados o de registros histricos.

Sean dos variables X y Y, suponga que se quiere explicar el comportamiento de Y
con base en los valores que toma X. Para esto, se mide el valor de Y sobre un
conjunto de n valores de X, con lo que se obtienen n parejas de puntos
(x
1
,y
1
),(x
2
,y
2
),,(x
n
,y
n
). A Y se le llama la variable dependiente o variable de
respuesta y a X se le conoce como variable independiente. La variable X no
necesariamente es aleatoria, ya que en muchas ocasiones el investigador fija sus
valores; en cambio, Y s es una variable aleatoria. Una manera de estudiar el
comportamiento de Y con respecto a X es mediante un modelo de regresin que
consiste en ajustar un modelo matemtico a las n parejas de puntos. Con ello, se
puede ver si dado un valor de la variable independiente X es posible predecir el
valor promedio de Y.

Suponga que las variables X y Y estn relacionadas linealmente y que para cada
valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que
cada observacin de Y puede ser descrita por el modelo:

Donde es un error aleatorio con media cero y varianza
. Tambin suponga que

los errores aleatorios no estn correlacionados. La ecuacin (1.1) es conocida
como el modelo de regresin lineal simple. Bajo el supuesto de que este modelo
es adecuado y como el valor esperado del error es cero, = 0, se puede ver
que el valor esperado de la variable Y, para cada valor de X, est dado por lnea
recta.

En donde
son los parmetros del modelo y son constantes desconocidas.

Por lo tanto, para tener bien especificada la ecuacin que relaciona las dos
=
+

| =

2

variables ser necesario estimar los dos parmetros, que tienen los siguientes
significados:
es el punto en el cual la lnea recta intercepta o cruza el eje y, y

es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o
disminuye la variable Y por cada unidad que se incrementa X.

El siguiente ejemplo nos permitir ilustrar mejor los conceptos anteriores.

Ejemplo 1.1 En un laboratorio se quiere investigar la forma en que se relaciona la
cantidad de fibra (madera) en la pulpa con la resistencia del producto (papel). Los
datos obtenidos en un estudio experimental son los siguientes:

Es claro que la variable de respuesta o variable dependiente es la resistencia, por
eso se denota con Y. para tener una idea de la relacin que existe entre X y Y, los
14 pares de datos son graficados en un diagrama de dispersin como el siguiente.

30 25 20 15 10 5
190
180
170
160
150
140
130
Porcentaje de fibra
R
e
s
i
s
t
e
n
c
i
a

Porcentaje de fibra Resistencia
4 134
6 145
8 142
10 149
12 144
14 160
16 156
18 157
20 168
22 166
24 167
26 171
28 174
30 183
Tabla 1.1 Datos de resistencia de la pulpa
Figura 1.1 Diagrama de dispersin para los datos de resistencia de la pulpa
3

Se observa que entre X y Y existe una correlacin lineal positiva, ya que conforme
aumenta X tambin se incrementa Y, por lo que es razonable suponer que la
relacin entre X y Y la explique un modelo de regresin lineal simple. As, cada
observacin de Y, la podemos expresar como:

Con i=1,2,,n (n=14 para este ejemplo). Para estimar
ajustamos la recta
que explique de mejor manera el comportamiento de los datos en el diagrama de
dispersin de la figura 1.1. En otras palabras, debemos encontrar la recta que
pasa ms cerca de todos los puntos. Un procedimiento para ajustar la mejor recta
y, por lo tanto, para estimar
es mediante el mtodo de mnimos cuadrados,

el cual consiste en lo siguiente: Si de la ecuacin (1.3) despejamos los errores, los
elevamos al cuadrado y los sumamos, obtenemos lo siguiente:

De esta forma, se quieren encontrar los valores de
que minimizan la suma

de los errores cuadrados. Es decir, se busca ajustar la recta de manera que la
suma de las distancias en forma vertical de los puntos a la recta se minimice.

El procedimiento matemtico para minimizar los errores de la ecuacin (1.4) y as
encontrar los estimadores de mnimos cuadrados de
, consiste en calcular
dichos estimadores por medio de las siguientes frmulas:

son las medias muestrales de las dos variables, es decir,

De esta forma, para obtener la recta ajustada es necesario aplicar las frmulas
anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos
de la resistencia de la pulpa.

(1.3)
(1.4)
(1.5)
(1.6)
(1.7) y (1.8)
4

=
.
= 1.6242 y
= 158.286 1.624217 = 130.67

Por lo tanto, la lnea recta que mejor explica la relacin entre porcentaje de fibra y
resistencia del papel, est dada por:

= 130.67 + 1.6242

En la siguiente figura se muestra el ajuste de esta lnea. De esta manera, por cada
punto porcentual de incremento en el porcentaje de fibra, se espera un incremento
de la resistencia de 1.6242 en promedio.

30 25 20 15 10 5
190
180
170
160
150
140
130
Porcentaje de fibra
R
e
s
i
s
t
e
n
c
i
a

Porcentaje de fibra
(X
i
)
Resistencia
(Y
i
)

4 134 16 536
6 145 36 870
8 142 64 1136
10 149 100 1490
12 144 144 1728
14 160 196 2240
16 156 256 2496
18 157 324 2826
20 168 400 3360
22 166 484 3652
24 167 576 4008
26 171 676 4446
28 174 784 4872
30 183 900 5490
=238
=2216
=4956
=39150
=17
=158.286
Tabla 1.2 Procedimiento para realizar los clculos para la regresin simple
(1.9)
Figura 1.2 Lnea que mejor se ajusta a los puntos
5

La ecuacin (1.9) sirve para estimar la resistencia promedio esperada para
cualquier porcentaje de fibra utilizada, claro que esa estimacin ser ms precisa
en la medida que X est dentro del intervalo de los valores con los que se hizo la
estimacin. Por ejemplo, para cada X
i
, con el que se experiment, se puede
estimar el
con base en el modelo.

Hasta aqu hemos obtenido una ecuacin de regresin que estima la relacin
entre la variable X y la variable Y, ahora la pregunta es Qu tan bien se ajusta a
los datos dicha ecuacin?

Una medida de la bondad de ajuste de la ecuacin de regresin estimada (lo bien
que se ajusta la ecuacin a los datos) es el coeficiente de determinacin, mismo
que se obtiene realizando algunas sumas de cuadrados que veremos a
continuacin.

A la diferencia que existe, en la observacin i, entre el valor observado de la
variable dependiente Yi, y el valor estimado de la variable dependiente
, se le
llama residual y se denota como:

El residual
representa el error que existe al usar
para estimar Yi. Por lo tanto,

para la observacin i, el residual es:

La suma de los cuadrados de estos residuales o errores es la cantidad que se
minimiza empleando el mtodo de los mnimos cuadrados. Esta cantidad, tambin
conocida como suma de cuadrados debida al error, se denota por SCE.

El valor SCE es una medida del error al utilizar la ecuacin de regresin estimada
para estimar los valores de la variable dependiente en los elementos de la
muestra. Por lo tanto, SCE mide el error que existe al utilizar la ecuacin de
regresin estimada para predecir Y.

Retomando el ejemplo 1.1, los valores de las variables independiente y
dependiente para/del porcentaje de fibra 1 son X
1
= 4 y Y
1
= 134. El valor estimado
para esta resistencia de la pulpa segn la ecuacin de regresin estimada es
Y
= . +. = . . Por lo tanto, para el porcentaje 1, el error al

usar Y
para estimar Y
1
es:

Y
= 134 137.20 = 3.2 El error elevado al cuadrado, (-3.2)

2
=10.24.
SUMA DE CUADRADOS DEBIDA AL ERROR: =
(1.10)

6

Tabla 1.3 Clculos de SCE suma de cuadrados debido al error
Despus de calcular y elevar al cuadrado los residuales de cada uno de los
porcentajes de la muestra, se suman y se obtiene la Suma de Cuadrados debido
al Error (SCE).

A continuacin se muestra una tabla con cada uno de los residuales de cada uno
de los porcentajes de fibra.

es la varianza del error aleatorio, . As que es natural utilizar los residuos para
hacer una estimacin para dicha varianza. Para ello la suma de cuadrados debido
al error se divide entre sus respectivos grados de libertad, por lo tanto, un
estimador insesgado de
est dado por:

= (1.11)

Como se aprecia en la expresin anterior
recibe el nombre de Cuadrado Medio

debido al Error; y la raz cuadrada de ste, es decir, = , se conoce como
error estndar de estimacin.

Porcentaje
de fibra
(X
i
)
Resistencia
(Y
i
)
Resistencia
estimada

Residual
(error)

Residual al
cuadrado
4 134 137.17 -3.17 10.05
6 145 140.42 4.59 21.02
8 142 143.66 -1.66 2.76
10 149 146.91 2.09 4.37
12 144 150.16 -6.16 37.95
14 160 153.41 6.59 43.43
16 156 156.66 -0.66 0.44
18 157 159.90 -2.90 8.41
20 168 163.15 4.85 23.52
22 166 166.40 -0.40 0.16
24 167 169.65 -2.65 7.02
26 171 172.90 -1.90 3.61
28 174 176.15 -2.15 4.62
30 183 179.40 3.60 12.96
=238
=2216 SCE=180.32
7

1.1.1 PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL SIMPLE

En cualquier anlisis de regresin no basta hacer los clculos que se explicaron
antes, sino que es necesario evaluar qu tan bien el modelo (la lnea recta) explica
la relacin entre X y Y.

Para probar si existe una relacin de regresin significante, se debe realizar una
prueba de hiptesis.

Hay dos pruebas que son las usadas: Prueba t y F, en ambas se requiere una
estimacin de
, misma que est dada en la expresin (1.11).

1.1.1.1 PRUEBA DE HIPTESIS t

Por lo general, la hiptesis de mayor inters plantea que la pendiente es
significativamente diferente de cero. Esto se logra al probar la siguiente hiptesis:

Si se rechaza H
o
, se concluir que
0, y que entre las dos variables existe una

relacin estadsticamente significante.

Para encontrar el estadstico de prueba o de contraste para esta hiptesis, se
requiere calcular previamente el error estndar estimado de

El estadstico de prueba o de contraste se determina as:

Uno de los mtodos para rechazar la hiptesis nula (
es el del valor crtico; el

cual si recordamos, dado el nivel de significancia y considerando n-2 grados de
libertad; se busca en las tablas de distribucin t, recordemos tambin que la
prueba es de dos extremos porque la H
1
0, por lo tanto el nivel de significancia se
divide entre 2; por lo que el valor crtico est dado por: t
/
, gl

Al aplicar este criterio, se rechaza H
o
si t
cal

/
si t
cal

/
en caso contrario no
se rechaza H
o
.

1
el subndice
cal
permite diferenciar el valor t calculado del valor crtico t

= 0
0
(1.12)

ERROR ESTNDAR ESTIMADO DE
(1.13)

(1.14)
1
8

No rechazar que
= 0, en el caso del modelo de regresin lineal simple, implica

que no existe una relacin lineal significativa entre X y Y; por lo tanto, no existe
relacin entre las variables.

Si se utiliza como criterio de rechazo la comparacin de la significancia observada
(valor-p o p-value) contra la significancia predefinida (), entonces se rechaza H
o

si valor-p < .

La estimacin de los parmetros del modelo y las pruebas de hiptesis sobre los
mismos se sintetizan en la tabla siguiente.

PARMETRO ESTIMACIN ERROR ESTNDAR ESTADSTICO VALOR-P
Intercepcin

Pendiente

Pr
|

Consideremos el ejemplo 1.1 (resistencia de la pulpa) para realizar la prueba de
hiptesis recin descrita.

Determinamos nuestras hiptesis:
0

Calculamos el error estndar estimado de

.
.
0.1285

Calculamos el estadstico de prueba:

.
.
.

Considerando un nivel de significancia de 0.05, determinamos el valor crtico; as
tenemos que t
./
, 12gl equivale a 2.1788

Sustituimos valores respectivos en la regla de rechazo si t
cal

/
si t
cal

/
se
rechaza H
o.
Como el estadstico de contraste es positivo, probamos la segunda
condicin de dicha regla, as tenemos que 12.64 2.1788 por lo tanto se rechaza
H
o
.
-2.1788 2.1788
12.64
9

Debido a que rechazamos H
o
podemos concluir que
0, es decir que existe una

relacin significativa entre las variables X y Y o sea que existe una relacin significativa
entre la cantidad de fibra en la pulpa y la resistencia del papel.
1.1.1.2 PRUEBA DE HIPTESIS F (anlisis de varianza del modelo de
regresin)

Otro enfoque para analizar la significancia del modelo es descomponer la
variabilidad observada, y a partir de ello probar hiptesis. Efectivamente, la
variabilidad total observada en la variable de respuesta puede ser medida a travs
de la Suma Total de Cuadrados, que est dada por:

El primer componente de STC se denota por SCR, mide la variabilidad explicada
por la recta de regresin (modelo de regresin) y se le conoce como Suma de
Cuadrados debido a la Regresin y est dada por:

Mientras que como vemos, la ecuacin 1.10, es el segundo componente de STC y
mide la variabilidad no explicada por la recta de regresin (modelo de regresin).
Los grados de libertad para STC son n-1, SCR tiene un grado de libertad y SCE
tiene n-2.

Al dividir las sumas de cuadrados entre sus grados de libertad obtenemos los
cuadrados medios:

Como se mencion en la pgina 6 del presente material; un estimador insesgado
de
es el CME, as que, otro estimador de
lo proporciona el CMR.

SUMA TOTAL DE CUADRADOS STC = STC = STC = STC =
= = = = SCR + SCE (1.15)

SUMA DE CUADRADOS
DEBIDO A LA REGRESIN =
(1.16)

CUADRADO MEDIO DEBIDO AL ERROR =

(1.11)

CUADRADO MEDIO DEBIDO A LA REGRESIN =

(1.17)
10

Todo lo anterior podemos utilizarlo para generar otra forma de probar la hiptesis
sobre la significancia de la regresin:

Ya que si H
o
es verdadera, entonces el siguiente estadstico:

Tiene una distribucin F con 1 y n-2 grados de libertad en el numerador y
denominador respectivamente. Por lo tanto, se rechaza
= 0, si el estadstico
de prueba es mayor que el valor crtico correspondiente, es decir, se rechaza H
o
si
F>F
(, 1, n-2)
.

El anlisis de varianza para probar la significancia del modelo de regresin se
resume a continuacin.

Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
F Valor-p
Regresin SCR 1 CMR

Pr(F
>F
cal
)
Error o
residual
SCE n-2 CME
Total STC n-1

Tabla 1.5 Anlisis de varianza (ANOVA) para el modelo de regresin simple

Ejemplo 1.2 Al hacer el anlisis de regresin y el anlisis de varianza para el
modelo que se ajust a los datos del ejemplo 1.1 (resistencia de la pulpa), se
obtienen las tablas 1.6 y 1.7. Veamos los detalles.

En la pgina cuatro y ocho del presente material ya habamos visto que
=
130.675 y
= 1.6242,
= 0.1285 y
= 12.64, as tenemos que el anlisis de

regresin para la recta de regresin que relaciona el porcentaje de fibra con la
resistencia de la pulpa es:

PARMETRO ESTIMACIN ERROR ESTNDAR ESTADSTICO VALOR-P
Intercepcin 130.675
Pendiente 1.6242 0.1285 12.64 0.0000

Tabla 1.6 Anlisis de regresin para el ejemplo 1.2
= 0
0
(1.20)

ESTADSTICO DE PRUEBA F
(1.21)
11

En cuanto al anlisis de varianza para la siguiente tabla ya tenemos el valor de
SCE=180.32, el cual se calcul en la pgina 6 del presente, por lo que nos falta
calcular los dems valores de dicha tabla.

Tomando informacin de la tabla 1.3 calcularemos la SCR de la siguiente manera:

Prcticamente ya tenemos todos los clculos para completar el anlisis de
varianza de la tabla 1.7, slo restara:

STC= 2,400.5+180.32= 2,580.86 CMR=
,.
= , .
CME=
.
= . F=
,.
.
= .

Fuente de variacin Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
F Valor-p
Regresin 2,400.5 1 2,400.5 159.71 0.0000
Error o residual 180.32 12 180.32
Total 2,580.86 13

Tabla 1.7 Anlisis de varianza (ANOVA) para el ejemplo 1.2

En esta tabla se observa que el modelo de regresin es significativo, ya que el
valor p es menor de 0.05. Esta misma conclusin se obtiene si se procede con el
mtodo del valor crtico, ya que de las tablas de distribucin F se obtiene que
= 159.71 >
.;,
= 6.55
Porcentaje
de fibra
(X
i
)
Resistencia
(Y
i
)
Resistencia
estimada

4 134 137.17 445.63
6 145 140.42 319.16
8 142 143.66 213.74
10 149 146.91 129.28
12 144 150.16 65.93
14 160 153.41 23.72
16 156 156.66 2.62
18 157 159.90 2.62
20 168 163.15 23.72
22 166 166.40 65.93
24 167 169.65 129.28
26 171 172.90 213.74
28 174 176.15 319.34
30 183 179.40 446.05
SCR= 2400.5
12

1.1.2 CALIDAD DEL AJUSTE EN LA REGRESIN LINEAL SIMPLE

En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay una
relacin significativa entre X y Y; sin embargo, no hemos visto si tal relacin
permite hacer estimaciones con una precisin aceptable. Por ejemplo, es de
inters saber qu tanta de la variabilidad presente en Y fue explicada por el
modelo.
1.1.2.1 COEFICIENTE DE DETERMINACIN R
2

Un primer criterio para evaluar la calidad del ajuste es observar la forma en que el
modelo se ajust a los datos. En el caso de la regresin lineal simple esto se
distingue al observar si los puntos tienden a ajustarse razonablemente bien a la
lnea recta (vase figura 1.2). Pero otro criterio ms cuantitativo es el que
proporciona el coeficiente de determinacin, que en regresin est definido por:

Es claro que 0 <
1. En general
se interpreta como la proporcin de la

variabilidad en los datos (Y) que es explicada por el modelo. En el caso de los
datos del ejemplo 1.1, a partir de la tabla 1.7 tenemos que

,.
,.
= 0.930. Por
lo tanto, podemos decir 93% de la variacin observada en la resistencia es
explicada por el modelo (lnea recta), lo cual nos dice que la calidad del ajuste es
satisfactorio, y que por ello, la relacin entre X y Y es descrita adecuadamente por
una lnea recta.

Coeficiente de determinacin ajustado
. Este coeficiente se calcula de la

siguiente manera:

Donde el cuadrado medio total, CMT, se obtiene al dividir la Suma Total de
Cuadrados (STC) entre sus grados de libertad. Cuando hay muchos trminos en
un modelo el estadstico
se prefiere en lugar de
, puesto que este ltimo es

engaoso al incrementarse en forma artificial con cada trmino que se agrega al
modelo, aunque sea un trmino que no contribuya en nada a la explicacin de la
respuesta. En cambio, el
incluso baja de valor cuando el trmino que se

agrega no aporta nada. Se cumple que 0 <
1.

=

=

(1.22)

(1.23)
13

Para el modelo del ejemplo 1.1, de acuerdo a la tabla 1.7, el coeficiente de
determinacin ajustado est dado por:

2,580.86 13 ] [180.32 12 ]
2,580.86 13
= .

Coeficiente de correlacin r. Es bien conocido que el coeficiente de correlacin,
r, mide la intensidad de la relacin lineal entre dos variables X y Y. Si se tiene n
pares de datos de la forma (X
i
,Y
i
), entonces este coeficiente se obtiene de la
siguiente manera:
=

Se puede ver que -1 r 1; si r es prximo a -1, entonces tendremos una relacin
lineal negativa fuerte, y si r es prximo a cero, entonces diremos que no hay
correlacin lineal, y finalmente si r es prximo a 1, entonces tendremos una
relacin lineal positiva fuerte. Por ejemplo, para los datos del ejemplo 1, el
coeficiente de correlacin es =

.
= . , lo cual habla de una
correlacin lineal positiva fuerte.

Media del error absoluto (mea). Otra forma de medir la calidad del ajuste es a
travs de la media del valor absoluto de los residuos, es decir:

Es claro que mientras mejor sea el ajuste, los residuos sern ms pequeos y, en
consecuencia, tambin la mea tender a ser ms pequea. La mea se puede ver
como una medicin para ver cunto falla en promedio el modelo al hacer la
estimacin de la variable de respuesta. En los datos del ejemplo 1.1, de acuerdo a
la tabla 1.3:
=
|3.17| + |4.59| +|1.7| + + |3.6|
14
=
43.37
14
= 3.0979

=
|
(1.24)
14

1.1.2.2 ANLISIS GRFICO DE RESIDUOS

Como complemento a lo que se ha discutido hasta aqu, un anlisis adecuado de
los residuos proporciona informacin adicional sobre la calidad del ajuste del
modelo de regresin y de esa manera es posible verificar si el modelo es
adecuado. Las grficas que suelen hacerse para completar el diagnostico del
modelo consisten en: graficar los residuos en papel de probabilidad normal,
graficar los residuos contra los predichos (
, los residuos contra cada variable

independiente (X
i
) y contra alguna otra variable importante que no haya sido
incluida en el modelo.

Por ejemplo, para los residuos del ejemplo 1.1 que se muestran en la tabla 1.3, se
construye la grfica de probabilidad normal que se muestra a continuacin.

10 5 0 -5 -10
99
95
90
80
70
60
50
40
30
20
10
5
1
Residuos
P
o
r
c
e
n
t
a
j
e

a
c
u
m
u
l
a
d
o

En esta grfica se aprecia que los puntos tienden a ajustarse razonablemente bien
a la lnea recta.

A partir de la tabla 1.3 es fcil obtener la grfica de residuos contra predichos
(
que se muestra en la figura 1.4. Si el modelo es adecuado se espera que

en esta grfica los puntos no sigan ningn patrn y que, por lo tanto, estn
distribuidos ms o menos aleatoriamente a lo largo y ancho de la grfica. Cuando
esto ocurre significa que el modelo se ajusta de igual manera a lo largo de los
valores de Y. por el contrario, si se aprecia algn patrn habr que ver cul es el
tipo de patrn que se observa en la grfica y diagnosticar cul es la falla que
registra el modelo.
Figura 1.3 Grfica de probabilidad normal para los residuos del ejemplo 1.1
15

En particular la figura anterior no muestra ninguna anomala, lo cual es una
evidencia ms a favor del modelo de regresin simple para el ejemplo 1.1

1.1.3 ESTIMACIN Y PREDICCIN POR INTERVALO EN
REGRESIN LINEAL SIMPLE

Una de las aplicaciones ms importantes en un anlisis de regresin es hacer
estimaciones de la respuesta media para un valor dado X
p
. En el caso particular
de la regresin lineal simple, sabemos que un estimador puntual de la respuesta
media lo da la recta de regresin:

Adems de esto, en ocasiones es de inters obtener una estimacin por intervalo
para |
). Para ello, un intervalo de confianza al 100(1- )% para la respuesta

media en Xp est dado por:

La notacin usada anteriormente corresponde a:

= valor dado de la variable independiente X
= valor de la variable dependiente Y que corresponde al valor dado
= error estndar de

180 170 160 150 140
7.5
5.0
2.5
0.0
-2.5
-5.0
Valores Predichos
R
e
s
i
d
u
o
s
Figura 1.4 Grfica de residuos contra estimados o predichos del ejemplo 1.1
INTERVALO DE CONFIANZA

( ,)

(1.25)

ERROR ESTNDAR DE
+
(
=1
(1.26)

16

Al intervalo 1.25 se le conoce tambin como intervalo para la recta de regresin.
Note que su amplitud depende de CME y de la distancia entre
. La amplitud
es mnima cuando
y se incrementa conforme |
| se hace ms grande.

Para ilustrar lo anterior consideremos el modelo ajustado a los datos del ejemplo
1.1, y obtengamos el intervalo de confianza para la respuesta media en
= 12
(porcentaje en fibra).

El estimador puntual est dado por
=130.67 + (1.6242)(12) = 150.16; y un

intervalo de confianza al 95% para la respuesta media en ese punto es:

150.16 2.17915.0271
1
14
+
12 17
910

. .

De aqu que el intervalo de confianza para la respuesta media en
= 12 est
dado por:
147.5 |
= 12) 152.82

30 25 20 15 10 5
190
180
170
160
150
140
130
120
Porcentaje de fibra
R
e
s
i
s
t
e
n
c
i
a
S 3.87648
R-Sq 93.0%
R-Sq(adj) 92.4%
Regression
95% CI
95% PI
Resistencia = 130.7 + 1.624 Porcentaje de fibra

La primera banda (roja) de confianza en torno a la recta de regresin de la figura
1.5 indica el clculo del intervalo de confianza de la expresin (1.25) para los
valores
con los que se ajust la recta de regresin. Ntese cmo se va

abriendo esta banda debido a que se incrementa |
|.

Figura 1.5 Recta de regresin con intervalo de confianza y de prediccin para observaciones
futuras para el ejemplo 1.1
17

1.2 REGRESIN LINEAL MULTIPLE

Aunque la seccin previa aplica a una relacin entre dos variables, en esta
seccin veremos un mtodo para analizar una relacin lineal que incluye ms de
dos variables.

Al igual que en la seccin anterior, slo estudiaremos relaciones lineales.
Utilizamos la siguiente ecuacin de regresin mltiple para describir relaciones
lineales que incluyen ms de dos variables.

Emplearemos la siguiente notacin, que surge de manera natural de la notacin
utilizada en la seccin anterior.

Notacin:

+ +
(Forma general de la ecuacin de regresin

mltiple estimada).
n = tamao de la muestra.
k = nmero de variables de prediccin. (Las variables de prediccin tambin se
conocen como variables independientes o variables x).
=valor predicho de Y (se calcula por medio de la ecuacin de regresin mltiple)
, ,
Son las variables de prediccin
= intercepto Y, o el valor de Y cuando todas las variables de prediccin son 0.

(Este valor es un parmetro poblacional).
= estimado de
basado en los datos muestrales (
es un estadstico
muestral).
, ,
son los coeficientes de las variables de prediccin
, ,
, ,
son estimados muestrales de los coeficientes
, ,

=es el error aleatorio, que permite a cada respuesta desviarse del valor promedio
de Y por la cantidad . Se debe suponer que los valores de son independientes;
tienen una media de 0 y una varianza comn
para cualquier conjunto
, ,
y tienen una distribucin normal

Una ecuacin de regresin mltiple expresa una relacin lineal entre una variable de respuesta
Y y dos o ms variables de prediccin (x
1
, x
2
, x
3
,,x
k
). La forma general de una ecuacin de
regresin mltiple es:
=
++
+ (1.27)

Por lo tanto la forma general de una ecuacin de regresin mltiple ESTIMADA es

++
(1.28)
18

Cuando estos supuestos respecto a se cumplen, el valor promedio de Y para un
conjunto dado de valores
, ,
es igual al siguiente modelo:

=
++

Observemos que el modelo de regresin mltiple y los supuestos son muy
similares al modelo y los supuestos usados para la regresin lineal simple. Por lo
tanto, no nos sorprenda saber que los procedimientos de prueba y estimacin
tambin son extensiones de los usados en la seccin anterior.

Los modelos de regresin mltiple son muy flexibles y toman muchas formas, lo
que depende de cmo sean introducidas las variables independientes
, ,

en el modelo.

ANALISIS DE REGRESIN MLTIPLE

Este anlisis tiene que ver con procedimientos de estimacin, prueba y
diagnstico diseados para ajustar el modelo de regresin mltiple =
++
a un conjunto de datos.

Debido a la complejidad de los clculos, estos procedimientos se ponen en
prctica casi siempre mediante un programa de regresin en uno o varios
paquetes de software. Seguiremos los patrones bsicos establecidos en la
regresin lineal simple, comenzando con una descripcin de los procedimientos
generales e ilustrados con un ejemplo.

Veamos cmo podemos calcular la ecuacin de regresin mltiple. Por
conveniencia utilizaremos solamente dos variables independientes en el problema
que trabajaremos en esta seccin. Debemos tener en consideracin, que en
principio la misma tcnica es aplicable a cualquier nmero de variables
independientes.

Ejemplo 1.3 El SAT est tratando de estimar la cantidad mensual de impuestos no
pagados descubiertos por su departamento de auditoras. En el pasado, el SAT
estimaba esta cantidad sobre la base del nmero esperado de horas de auditoras
de campo. En los ltimos aos, sin embargo, las horas de trabajo de auditoras de
campo se han vuelto un factor de prediccin errtico de los impuestos reales no
pagados. Como resultado de ello, el SAT est buscando otro factor con el cual
pueda mejorar la ecuacin de estimacin.

19

El departamento de auditoras tiene un registro del nmero de horas que sus
computadoras usan para detectar impuestos no pagados. Podramos combinar
esta informacin con los datos referentes a las horas de trabajo de auditoras de
campo y obtener una ecuacin de estimacin ms precisa para los impuestos no
pagados descubiertos cada mes? En la siguiente tabla se presentan esos datos
correspondientes a los ltimos diez meses.

En la regresin simple, X es el smbolo utilizado para los valores de la variable
independiente. En la regresin mltiple tenemos ms de una variable
independiente. De modo que debemos continuar usando X, pero debemos aadir
un subndice (por ejemplo X
1
,X
2
) para diferenciar las variables independientes que
estamos utilizando.

En este ejemplo, dejaremos que X
1
represente el nmero de horas de trabajo de
auditoras en campo y X
2
represente el nmero de horas en computadora. La
variable dependiente, Y, ser los impuestos reales no pagados descubiertos.

Mes Horas de
trabajo de
auditora de
campo
(x
1
)
Horas en
computadora
(x
2
)
Impuestos
reales no
pagados
descubiertos
(Y
i
)
Enero 45 16 29
Febrero 42 14 24
Marzo 44 15 27
Abril 45 13 25
Mayo 43 13 26
Junio 46 14 28
Julio 44 16 30
Agosto 45 16 28
Septiembre 44 15 28
Octubre 43 15 27

Tabla 1.8 Datos de la auditora del SAT empleados en el ejemplo 1.3

Recordemos que en la regresin simple, la ecuacin
describe la
relacin entre dos variables X y Y. En regresin mltiple, debemos extender esa
ecuacin, agregando un trmino para cada nueva variable. En forma simblica, la
ecuacin (1.28) es la frmula que podemos utilizar cuando tenemos dos variables
independientes

20

En la que:

= valor estimado correspondiente a la variable dependiente
= Interseccin con Y
= valores de las dos variables independientes
= pendientes asociadas con
, respectivamente.

Recordemos que visualizamos la ecuacin de estimacin como una lnea recta en
una grfica; as pues, podemos representar una ecuacin de regresin mltiple
con dos variables independientes como un plano, como el siguiente.

Aqu tenemos una forma tridimensional que posee profundidad, longitud y ancho.
Para adquirir una idea intuitiva de esta forma tridimensional, visualice la
interseccin de los ejes Y, X
1
y X
2
como el rincn de un cuarto.

Usaremos los datos de la tabla 1.8 y las siguientes ecuaciones para determinar los
valores de las constantes numricas

El resolver las ecuaciones 1.29, 1.30 y 1.31 para
nos dar los

coeficientes del plano de regresin. Obviamente, la mejor manera de calcular

(1.29)

(1.30)

(1.31)
21

todas las sumas implicadas en estas tres ecuaciones es mediante el uso de una
tabla para recoger y organizar la informacin necesaria, del mismo modo como lo
hicimos en la regresin simple. Hemos hecho esto en la siguiente tabla para el
problema del SAT

Y
(1)
X
1
(2)
X
2

(3)
X
1
Y
(2)x(1)
X
2
Y
(3)x(1)
X
1
X
2
(2)x(3)

(2)
2

(3)
2
Y
2
(1)
2
29 45 16 1,305 464 720 2,025 256 841
24 42 14 1,008 336 588 1,764 196 576
27 44 15 1,188 405 660 1,936 225 729
25 45 13 1,125 325 585 2,025 169 625
26 43 13 1,118 338 559 1,849 169 676
28 46 14 1,288 392 644 2,116 196 784
30 44 16 1,320 480 704 1,936 256 900
28 45 16 1,260 448 720 2,025 256 784
28 44 15 1,232 420 660 1,936 225 784
27 43 15 1,161 405 645 1,849 225 729
272 441 147 12,005 4,013 6,485 19,461 2,173 7,428

. ,
= . ,
= .

Tabla 1.9 Datos de 15 condominios para el ejemplo 1.4

Ahora, utilizando la informacin de la tabla anterior en las ecuaciones 1.29, 1.30 y
1.31, obtenemos tres ecuaciones con tres constantes desconocidas (
:

272 = 10
+ 441
+ 147

12,005 = 441
+ 19,461
+ 6,485

4,013 = 147
+ 6,485
+ 2,173

Cuando resolvemos estas tres ecuaciones de manera simultnea obtenemos:

= 13.828,
= 0.564 y
= 1.099

Sustituimos estos valores en la ecuacin de regresin de dos variables,
obtenemos una ecuacin que describe la relacin entre el nmero de horas de
trabajo de auditoras de campo, el nmero de horas de computacin y los
impuestos no pagados descubiertos por el departamento de auditoras:

= -13.828 + 0.564
+ 1.099

22

El departamento de auditoras puede utilizar esta ecuacin mensualmente para
estimar la cantidad de impuestos no pagados que va a descubrir.

Supongamos que el SAT desea aumentar la cantidad de sus descubrimientos de
impuestos no pagados durante el siguiente mes. Como los auditores entrenados
son escasos, el SAT no tiene la intencin de contratar personal adicional. El
nmero de horas de trabajo en auditoras de campo, entonces, permanecer en el
nivel de octubre, alrededor de 4,300 horas. Pero con el fin de aumentar sus
hallazgos de impuestos no pagados, el SAT espera aumentar el nmero de horas
en computadora a aproximadamente 1,600. Como consecuencia de lo anterior:

43 4,300 horas de trabajo en auditoras de campo
= 16 1,600 horas de tiempo en computadora

Sustituimos estos valores en la ecuacin de regresin para el departamento de
auditoras, obtenemos:
= -13.828 + 0.564
+ 1.099

= -13.828 + (0.564)(43) +(1.099)(16)
= -13.828 + 24.252 + 17.584
= 28.008 descubrimientos estimados en $28008,000

Por consiguiente, en el pronstico para noviembre, el departamento de auditoras
espera encontrar una evasin de impuestos de aproximadamente 28 millones de
dlares, para esta combinacin de factores.

Hasta este punto nos hemos referido a
como la interseccin con Y y a

como las pendientes del plano de regresin mltiple. Pero, para ser ms precisos,
deberamos decir que estas constantes numricas son los coeficientes de
regresin estimados. La constante
es el valor de
(en este caso, la estimacin

de los impuestos no pagados) si tanto X
1
y X
2
tienen valor cero. Los coeficientes
describen cmo los cambios en X

1
y X
2
afectan el valor de
.

En el ejemplo del SAT, podemos dejar constante el nmero de horas de trabajo de
auditora de campo, X
1
, y cambiar el nmero de horas en computadora, X
2
.
Cuando hacemos esto, el valor de
aumenta en $1099,000 por cada 100 horas

adicionales de tiempo en computadora. Del mismo modo, podemos fijar X
2
y
encontrar que por cada aumento adicional de 100 horas en el nmero de horas de
trabajo de auditoras de campo,
aumenta en $564,000.

Como vemos, cada variable independiente puede ser responsable por algo de la
variabilidad de la variable dependiente.
23

En resumen, la regresin mltiple es slo una tcnica para usar varias variables
independientes para construir una mejor ecuacin de prediccin.

LA REGRESIN MLTIPLE

En la seccin inicial y hasta donde vamos de la presente, hemos visto problemas
simplificados y muestras de tamao pequeo. Despus del ejemplo anterior,
probablemente hayamos concluido que no nos interesa la regresin si tenemos
que realizar los clculos a mano. De hecho, conforme aumenta el tamao de las
muestras y el nmero de variables independientes de la regresin se hace mayor,
rpidamente se vuelve impracticable hacer los clculos, incluso con la ayuda de
una calculadora de bolsillo.

Sin embargo, como profesionistas, tendremos que tratar con problemas complejos
que requieren muestras ms grandes y variables independientes adicionales. Para
ayudarnos a resolver estos problemas ms detallados, utilizaremos una
computadora, lo cual nos permitir efectuar un gran nmero de clculos en un
perodo muy pequeo.

Para demostrar cmo una computadora maneja el anlisis de regresin mltiple,
tomemos el problema del SAT de la seccin anterior. Supongamos que el
departamento de auditoras agrega a su modelo la informacin correspondiente a
las recompensas pagadas a los informantes. El SAT desea incluir esta tercera
variable independiente, X
3
, debido a que siente que es verdad que existe una
cierta relacin entre estos pagos y la evasin de impuestos descubierta.

Mes Horas de
trabajo de
auditora de
campo
(x
1
)
Horas en
computadora
(x
2
)
Recompensa
a
informantes
(X
3
)
Impuestos
reales no
pagados
descubiertos
(Y
i
)
Enero 45 16 71 29
Febrero 42 14 70 24
Marzo 44 15 72 27
Abril 45 13 71 25
Mayo 43 13 75 26
Junio 46 14 74 28
Julio 44 16 76 30
Agosto 45 16 69 28
Septiembre 44 15 74 28
Octubre 43 15 73 27

Tabla 2.0 Datos de la auditora del SAT empleados en el ejemplo 1.3
24

En la tabla 2.0 se recogi la informacin correspondiente a los ltimos diez meses.

Para resolver este problema, el departamento de auditoras ha utilizado el
procedimiento de regresin mltiple del paquete estadstico Minitab. Desde luego
que todava no sabemos cmo interpretar la solucin proporcionada por el
paquete, pero como veremos ms adelante, la mayora de los nmeros que se
dan en la solucin corresponden bastante bien a los que hemos analizado en el
contexto de regresin simple.

Una vez que todos los datos se han capturado en la computadora y se han elegido
las variables independiente y dependiente, el programa Minitab calcula los
coeficientes de regresin y varias estadsticas asociadas con la ecuacin de
regresin. Miremos lo que se obtiene para el problema del SAT y veamos que
significan los nmeros producidos. La primera parte del informe se da en la
siguiente figura.

Como podemos ver, Minitab muestra explcitamente la ecuacin de estimacin, as
como tambin da una tabla con los coeficientes. Por lo tanto, podemos leer la
ecuacin de estimacin como:

= -45.796 + 0.597
+ 1.177
+ 0.405

Podemos interpretar esta ecuacin del mismo modo en que interpretamos la
ecuacin de regresin de dos variables en la pgina 21 de este material. Si
mantenemos constante el nmero de horas de trabajo en auditoras de campo, X
1
,
y el nmero de horas en computadora, X
2
, y cambiamos la recompensa a
informantes, X
3
, entonces el valor de
aumentar $405,000 por cada $1,000

pagados a los informantes. De manera parecida, dejando constantes X
1
y X
3
,
vemos que cada 100 horas adicionales de tiempo de computadora empleadas

se incrementar en $1177,000. Finalmente, si X
2
y X
3
se mantienen fijas,
estimamos que un gasto adicional de 100 horas en las auditoras de campo
descubrir una evasin de impuestos adicional de $597,000.
The regression equation is
Impto real (y) = - 45.8 + 0.597 Auditoria (x1) + 1.18 Compu (x2)
+ 0.405 Recompensa (x3)

Predictor Coef SE Coef T P
Constant -45.796 4.878 -9.39 0.000
Auditoria (x1) 0.59697 0.08112 7.36 0.000
Compu (x2) 1.17684 0.08407 14.00 0.000
Recompensa (x3) 0.40511 0.04223 9.59 0.000

25

Supongamos que en noviembre el SAT intenta dejar las horas de trabajo en
auditoras de campo y las horas en computadora en sus niveles de octubre (4,300
y 1,500), pero decide aumentar las recompensas pagadas a los informantes a
$75,000. Cunto de impuestos no pagados esperan descubrir en noviembre?
Sustituyendo estos valores en la ecuacin de regresin estimada, obtenemos:

= - 45.796 + 0.597
+ 1.177
+ 0.405

= - 45.796 + 0.597(43) + 1.177(15) + 0.405(75)
= - 45.796 + 25.671 + 17.6556 + 30.375
= 27.905 descubrimientos estimados, $27905,000

De modo que el departamento de auditoras espera descubrir aproximadamente
$28 millones de evasin de impuestos en noviembre.

Una medida de dispersin, el error estndar de la estimacin de la regresin
mltiple, el cul es denotado en Minitab por la letra S y es mostrado
inmediatamente despus de la primera parte del informe, como vemos a
continuacin:
S = 0.286128 R-Sq = 98.3% R-Sq(adj) = 97.5%

Recordemos que la estimacin se hace ms precisa conforme el grado de
dispersin alrededor del plano de regresin mltiple se hace ms pequeo. Por lo
tanto considerando el informe de Minitab, podemos ver que la estimacin de los
impuestos descubiertos se desva en $286,000.

En la misma lnea en la que Minitab muestra el error estndar de la estimacin, se
encuentran los coeficientes de determinacin mltiple as como el coeficiente de
determinacin mltiple ajustado. Al igual que en regresin simple, en regresin
mltiple el coeficiente de determinacin representa la proporcin de la variabilidad
total de Y pero aqu, dicha variabilidad es explicada por el plano de regresin.

Por lo tanto, podemos decir 98.3% de la variacin total de impuestos no pagados
descubiertos se explica por las tres variables independientes. Para la regresin de
dos variables que efectuamos anteriormente, R
2
es solamente 0.7289, as que
72.89% de la variacin se explica por las horas de trabajo de auditora de campo y
las horas en computadora. El agregar las recompensas a los informantes explica
otro 25.45% de la variacin.

Si deseamos saber el porcentaje en el que las variables estn relacionadas
debemos calcular el coeficiente de correlacin, para lo cual sacamos raz
cuadrada al coeficiente de determinacin R
2
, para este caso en particular tenemos
26

que
. 983 = .991; como vemos, la relacin entre las variables es

intensa, pues es del 99.1%.

1.2.1 PRUEBA DE HIPTESIS EN REGRESIN LINEAL MULTIPLE

Al inicio de este material, notamos que la lnea de regresin de muestra
(ecuacin 1.9), estimaba la lnea de regresin de la poblacin, =
.
La razn por la cual solamente podamos estimar la lnea de regresin de
poblacin en lugar de encontrarla exactamente era que los puntos de dato no caen
exactamente en la lnea de regresin de la poblacin. Debido a las perturbaciones
aleatorias, los puntos de dato satisfacan =
+ (ecuacin 1.1) ms que

a =
.

Exactamente el mismo tipo de situacin se tiene en la regresin mltiple. Nuestro
plano de regresin estimado:

Es una estimacin de un plano de regresin de poblacin verdadero pero
desconocido de la forma:

De nuevo, los puntos de dato individuales normalmente no caen con exactitud en
el plano de regresin de poblacin. Consideremos el problema del SAT para ver
cmo es esto. No todos los pagos a los informantes sern igualmente efectivos.
Algunas de las horas en computadora podran ser utilizadas para recolectar y
organizar datos; otras podran ser utilizadas para analizar tales datos en bsqueda
de errores y fraudes. El xito de la computadora en descubrir impuestos no
pagados puede depender de cunto tiempo se dedique a cada una de estas
actividades. Por stas y otras razones, algunos de los puntos de dato se
encontrarn por encima del plano de regresin y algunos estarn por debajo de
ste.

En esta seccin haremos inferencias acerca de las pendientes (
, ,
de la
ecuacin de regresin verdadera (la que se aplica a la poblacin completa)
basadas en las pendientes (
, ,
de la ecuacin de regresin estimada a

partir de la muestra de puntos de dato.

+ +
(1.28)
=
+ +
(1.27a)
27

INFERENCIAS ACERCA DE LA REGRESIN COMO UN TODO (PRUEBA
GLOBAL)

En la regresin lineal simple se usaron las pruebas t y F, las que llevaban a la
misma conclusin; es decir, si se rechaza la hiptesis nula, se concluye que b1
0. En la regresin mltiple, la prueba t y F tienen propsitos diferentes.
1. La prueba F se usa para determinar si existe una relacin de significancia
entre la variable dependiente y el conjunto de todas las variables
independientes; a esta prueba F se le llama prueba de significancia
global.
2. Si la prueba F indica que hay significancia global, se usa la prueba t para
ver si cada una de las variables individuales es significativa. Para cada una
de las variables independientes del modelo se realiza una prueba t. A cada
una de estas pruebas t se les conoce como pruebas de significancia
individual.

El modelo de regresin mltiple que se defini al inicio de esta seccin es:

++
+

La hiptesis de la prueba F comprende los parmetros del modelo de regresin
mltiple.
= =
= 0

:

Cuando se rechaza la hiptesis nula, la prueba proporciona evidencia estadstica
suficiente para concluir que uno o ms de los parmetros no es igual a cero y que
la relacin global entre Y y el conjunto de variables independientes X1, X2,,Xk
es significativa.

En la seccin 1.1.1.2 de este material, nos fijamos en tres trminos diferentes,
cada uno de los cuales es una suma de cuadrados. Los denotamos como:

STC = suma total de cuadrados =

SCR = suma de cuadrados debido a la regresin =

SCE = suma de cuadrados debido al error =

As tenemos que STC=SCR+SCE. Cada una de estas sumas de cuadrados tiene
un nmero asociado de grados de libertad.

28

STC tiene n-1 grados de libertad (n observaciones, pero perdimos un grado de
libertad debido a que la variable de la muestra est fija). SCR tiene k grados de
libertad, debido a que existen k variables independientes que se utilizaron para
explicar Y. SCE tiene n-k-1 grados de libertad, porque utilizamos nuestras n
observaciones para estimar k+1 constantes b
0
, b
1
, b
2,
,b
k
.

Por otro lado, un cuadrado medio es una suma de cuadrados dividida entre sus
correspondientes grados de libertad. Por lo tanto, el cuadrado medio debido a la
regresin (CMR) es SCR/k y el cuadrado medio debido al error (CME) es SCE/(n-
k-1).

El siguiente informe de Minitab corresponde al problema del SAT; dicho informe se
encuentra inmediatamente despus del anlisis de regresin visto anteriormente.

Aplicaremos la prueba F al problema del SAT. Como se tienen tres variables
independientes, las hiptesis se expresan como se mencion anteriormente:

= =
= 0

:

Como podemos ver, en el presente anlisis de varianza tenemos que el CMR =
9.7029 y que el CME = 0.0819; as mismo vemos que el estadstico de prueba F
tiene un valor de 118.52, el cual, si recordamos de la seccin anterior vimos que
ste se calcula dividiendo CMR/CME.

Ahora usaremos el mtodo del valor crtico para emplear la regla de rechazo y
emitir una conclusin. Para determinar dicho valor crtico se procede igual que en
la regresin lineal simple, pero lo realizaremos nuevamente aqu. Consideremos la
siguiente expresin:
;,

CUADRADO MEDIO DEBIDO A LA REGRESIN =

(1.32)

CUADRADO MEDIO DEBIDO AL ERROR =

(1.33)

Analysis of Variance

Source DF SS MS F P
Regression 3 29.1088 9.7029 118.52 0.000
Residual Error 6 0.4912 0.0819
Total 9 29.6000
29

Donde:
= nivel de significancia dado
k = nmero de variables independientes = V
1
= grados de libertad
n-k-1 = nmero total de la muestra - nmero de variables independientes -1 = V
2

Suponiendo que el nivel de significancia es del 1%, en las tablas de distribucin F
buscamos lo siguiente:
;,
.
;,
.;,
.

La regla de rechazo dice: Rechazar H
o
si F
cal
F

Como 118.52 > 12.92, se rechaza H
0 y se concluye que existe una

relacin significativa entre los impuestos reales descubiertos no pagados, Y, y las
tres variables independientes, auditoras en campo, horas en computadora y
recompensa a informantes.

INFERENCIAS ACERCA DE UNA PENDIENTE INDIVIDUAL

El plano de regresin se deriva de una muestra y no de la poblacin completa.
Como resultado de ello, no podemos esperar que la ecuacin de regresin
verdadera
+ +
(la que se aplica a la poblacin

completa) sea exactamente igual que la ecuacin estimada a partir de
observaciones de muestra,
+ +
. Pero, a pesar de
esto, podemos utilizar el valor
, una de las pendientes que calculamos a partir de

la muestra, para probar hiptesis acerca del valor
, una de las pendientes del

plano de regresin para la poblacin completa.

El procedimiento para probar una hiptesis con respecto a
es parecido al
procedimiento analizado en la seccin 1 de este material sobre prueba de
hiptesis. Para entender este problema regresemos al problema en que se
relaciona la evasin de impuestos descubierta con las horas de trabajo en
auditoras de campo, horas en computadora y recompensa a informantes. En la
12.92 Fcal= 118.52
30

Impto real (y) = - 45.8 + 0.597 Auditoria (x1) + 1.18 Compu (x2)
+ 0.405 Recompensa (x3)

Predictor Coef SE Coef T P
Constant -45.796 4.878 -9.39 0.000
Auditoria (x1) 0.59697 0.08112 7.36 0.000
Compu (x2) 1.17684 0.08407 14.00 0.000
Recompensa (x3) 0.40511 0.04223 9.59 0.000

pgina 21 apuntamos que
= 0.597. El primer paso consiste en hallar algn valor

para
y compararlo con
= 0.597.

Supongamos que durante un largo periodo transcurrido, la pendiente de la relacin
entre Y y X
1
fue de 0.400. Para probar si todava esto es vlido, podramos definir
las hiptesis como:

= 0.400 Hiptesis nula
0.400 Hiptesis alternativa

En efecto, estamos probando para saber si los datos actuales indican que
ha
cambiado su valor histrico de 0.400.

Para encontrar el estadstico de prueba para
, es necesario hallar primero el

error estndar del coeficiente de regresin. Aqu, el coeficiente de regresin con el
que estamos trabajando es
de modo que el error estndar de este coeficiente

se representa con
. Resulta demasiado difcil calcular
a mano, pero,
afortunadamente, el programa Minitab calcula los errores estndar de todos los
coeficientes de regresin. Por conveniencia, repetiremos el resultado de Minitab
Del resultado anterior, vemos que
es 0.08112. (Similarmente si deseamos

probar una hiptesis acerca de
, vemos que el error estndar apropiado que

debemos utilizar es
= 0.0841.) Ya que hemos encontrado
en el resultado
obtenido con Minitab, podemos usar la ecuacin siguiente para estandarizar la
pendiente de nuestra ecuacin de regresin ajustada:

As tenemos que,
=
..
.
= .

Supongamos que estamos interesados en probar nuestras hiptesis al nivel de
significancia de 10%. Como tenemos diez observaciones en nuestra muestra de
datos, y tres variables independientes, sabemos que se tienen n-k-1= 10-3-1= 6
ESTADSTICO DE PRUEBA
(1.32)
31

grados de libertad. Buscamos en la tabla de distribucin t, en la columna
correspondiente al 10% hasta que encontremos el rengln de los 6 grados de
libertad. Ah, notamos que el valor apropiado de t es 1.943. Como nos preocupa si
(la pendiente del plano de regresin de la muestra) es significativamente

diferente de
(la pendiente hipotetizada del plano de regresin de la poblacin),

sta es una prueba de dos extremos, y los valores crticos son -1.943 y +1.943. el
estadstico de prueba se encuentra fuera de la regin de no rechazo de nuestra
prueba, como vemos en la siguiente figura:

Por consiguiente, rechazamos la hiptesis nula de que
sigue siendo igual a

0.400. En otras palabras, existe una diferencia significativa (suficientemente
grande) entre
y 0.400 para que podamos concluir que
ha cambiado su valor
tradicional. Debido a esto, sentimos que cada 100 horas adicionales de trabajo en
auditoras de campo ya no aumentan la cantidad de descubrimientos de impuestos
no pagados en $400,000 como lo hacan en el pasado.

-1.943 1.943
2.432
Antes tenamos el 0.400 como un parmetro que nos servia para pensar que si aumentbamos
100 horas a las auditoras de campo seguramente descubriramos $400,000 de impuestos no
pagados, pero como la prueba nos dice que rechacemos el 0.400 como vlido, ya no hay un
parmetro que nos deje suponer lo anterior, sino que aumentemos lo que aumentemos no
sabremos cuantos impuestos no pagados descubriremos.
32

De los resultados de Minitab
nivel de significancia () de 5% y 6
grados de libertad
1.2.2 INTERVALOS DE CONFIANZA Y PREDICCIN EN
REGRESIN LINEAL MULTIPLE

Adems de la prueba de hiptesis, tambin podemos construir un intervalo de
confianza para cualquiera de los valores de
. Del mismo modo que
es una
estimacin puntual de
, estos intervalos de confianza son estimaciones de

intervalo de
. Para ilustrar el proceso de construccin de un intervalo de

confianza, encontremos un intervalo de confianza del 95% para
en el ejemplo
del SAT. Los datos importantes son:

= 2.447

Con esta informacin podemos calcular el intervalo de confianza de la siguiente
manera:
= 0.405 + 2.4470.0422
= 0.508 lmite superior del intervalo
= 0.405 2.4470.0422
= 0.302 lmite inferior del intervalo

Vemos que podemos estar seguros en 95% de que cada $1,000 adicionales
pagados a informantes aumenta el descubrimiento de impuestos no pagados en
una cantidad entre $302,000 y $508,000.

Al igual que en regresin lineal simple podemos construir intervalos de confianza
sobre la respuesta media para el conjunto de condiciones dadas por las variables
independientes.

Un intervalo de confianza de (1-)100% para la respuesta media de X
1
, X
2
,,X
k

es:

Donde:
= respuesta media estimada

= valor de la distribucin t con n-k-1 grados de libertad
= error estndar de la prediccin mltiple

= 0.405
= 0.0422
INTERVALO DE CONFIANZA
(1.33)

33

Con los datos del ejemplo del SAT, construiremos un intervalo de confianza de
95% para la respuesta media, cuando X
1
= 42, X
2
= 13 y X
3
= 69. Como ya lo
mencionamos anteriormente, los clculos de forma manual en regresin mltiple
resultan poco prcticos, por lo tanto seguimos explotando las herramientas del
programa Minitab, as que una vez ingresados los valores deseados para cada
una de las variables independientes, dicho programa nos arroja el siguiente
resultado:

Analicemos el informe de Minitab; en primer lugar tenemos la respuesta media
estimada,
, 22.5279, luego tenemos el error estndar de prediccin e

inmediatamente despus tenemos el intervalo de confianza cuyos lmites son:
21.8489 y 23.2068. Notemos tambin que los datos finales de dicho rengln
pertenecen a los lmites del intervalo de prediccin, en este caso 21.5526 para el
lmite inferior y 23.5031 para el lmite superior.

En la parte inferior Minitab nos corrobora los valores asignados a cada variable
independiente.

Con los resultados anteriores, podemos estar seguros en 95% de que si el SAT
asigna cada mes 4,200 horas a las auditoras de campo, 1,300 horas en
computadora y $69,000 en recompensas a informantes el descubrimiento de
impuestos no pagados en promedio estar entre $21848,900 y $23206,800.

Si el SAT decide manejar para un solo mes (cualquiera que este fuera), 4,200
horas a las auditoras de campo, 1,300 horas en computadora y $69,000 en
recompensas a informantes, el SAT esperara descubrir entre $21552,600 y
$23503,100 de impuestos no pagados.

Es importante distinguir claramente entre el intervalo de confianza sobre la
respuesta media y el intervalo de prediccin sobre una respuesta observada. Esta
ltima proporciona una frontera dentro de la cual puede decirse que caer una
respuesta nueva observada.

Predicted Values for New Observations

New Obs Fit SE Fit 95% CI 95% PI
1 22.5279 0.2775 (21.8489, 23.2068) (21.5526, 23.5031)

Values of Predictors for New Observations

Auditoria Compu Recompensa
New Obs (x1) (x2) (x3)
1 42.0 13.0 69.0

34

1.3 REGRESIN NO LINEAL

El modelo de regresin cuadrtica es una alternativa cuando el modelo lineal no
logra un coeficiente de determinacin apropiado, o cuando el fenmeno en estudio
tiene un comportamiento que puede considerarse como parablico. La forma ms
simple de tratar de establecer la tendencia es a travs de un diagrama de
dispersin o nube de puntos, tal como la siguiente:

30 25 20 15 10
4.0
3.5
3.0
2.5
2.0
X
Y

Las variables independientes X
1
, X
2
,,X
3
empleadas en el modelo lineal no tienen
que representar variables independientes diferentes. Por ejemplo, si se sospecha
que una variable independiente X afecta la respuesta Y, pero la relacin es
curvilnea ms que lineal, entonces se podra elegir ajustar a un modelo
cuadrtico:

Notacin:
Y: Variable dependiente
: Parmetros de la ecuacin, que generalmente son desconocidos

: Error asociado al modelo
X
k :
Valor de la k-sima observacin de la variable independiente
: Trmino cuyos exponentes suman 2 (en este caso, X

2
)
Una ecuacin de regresin no lineal expresa una relacin curvilnea entre una variable de
respuesta Y y dos o ms variables de prediccin (x
1
, x
2
, x
3
,,x
k
), en las que una de ellas est
elevada al cuadrado. La forma general de una ecuacin de regresin no lineal es:

=
+ (1.34)

Por lo tanto la forma general de una ecuacin de regresin no lineal ESTIMADA es

(1.35)
Figura 1.6 diagrama de dispersin del ejemplo 1.4
35

Las siguientes frmulas nos permiten calcular de forma manual los coeficientes de
la ecuacin de regresin no lineal estimada:

Para facilitar un poco el clculo de las frmulas anteriores, se construye la
siguiente tabla de datos:

X Y X
2
X
3
X
4
X*Y X
2
*Y Y
2

X Y X
2
X
3
X
4
X*Y X
2
Y Y
2

Tabla 2.1 Organizacin de datos para clculo de

Ejemplo 1.4 En un estudio de variables que afecta la productividad en el comercio
de comestibles al menudeo, Erick Moreno usa valor agregado por hora de trabajo
para medir la productividad de tiendas de comestibles al menudeo. l define valor
agregado como el excedente (dinero generado por el negocio) disponible para
pagar empleados, mobiliario y enseres y equipo. Los datos consistentes con la
relacin entre valor agregado por hora de trabajo Y y el tamao X de una tienda de
comestibles descrita en el artculo de Moreno, se muestran en la tabla 2.1 para 10
tiendas de alimentos ficticias. Escoja un modelo para relacionar Y con X.

(1.36)
(1.37)
(1.38)
36

Tienda Valor agregado por hora
de trabajo
(Y)
Tamao de tienda (miles
de pies cuadrados)
(X)
1 4.08 21.0
2 3.40 12.0
3 3.51 25.2
4 3.09 10.4
5 2.92 30.9
6 1.94 6.8
7 4.11 19.6
8 3.16 14.5
9 3.75 25.0
10 3.60 19.1
Tabla 2.1 Datos ficticios de diez tiendas de alimentos

Podemos investigar la relacin entre Y y X al observar el diagrama de puntos de la
figura 1.6, el cul insertamos nuevamente aqu:

30 25 20 15 10
4.0
3.5
3.0
2.5
2.0
X
Y

Esta grfica siguiere que la productividad, Y, aumenta cuando el tamao de la
tienda de comestibles, X, aumenta hasta alcanzar un tamao ptimo. Arriba de
ese tamao, la productividad tiende a disminuir. La relacin parece ser curvilnea y
un modelo cuadrtico,
puede ser apropiado. Recordemos

que, al elegir usar este modelo, no estamos diciendo que la verdadera relacin
sea cuadrtica, sino slo que puede dar estimaciones y predicciones ms precisas
que, por ejemplo, un modelo lineal.

Para ajustar este tipo de modelo podemos proceder manualmente usando las
frmulas (1.36),(1.37) y (1.38), o por medio del programa estadstico Minitab,
37

como haremos en este material. Una vez capturados los datos en el programa
obtenemos el siguiente informe:

De la salida anterior de Minitab, podemos ver que la ecuacin de regresin es:

0.1594 + 0.3919
0.009495

La grfica de esta ecuacin cuadrtica junto con los puntos de datos se muestran
en la figura 1.7:
30 25 20 15 10
4.0
3.5
3.0
2.5
2.0
X
Y
S 0.250298
R-Sq 87.9%
R-Sq(adj) 84.5%
Fitted Line Plot
Y = - 0.1594 + 0.3919 X
- 0.009495 X**2

Para evaluar lo adecuado del modelo cuadrtico, podemos realizar una prueba de
hiptesis global, como la siguiente:

Y = - 0.1594 + 0.3919 X - 0.009495 X**2

S = 0.250298 R-Sq = 87.9% R-Sq(adj) = 84.5%

Analysis of Variance

Source DF SS MS F P
Regression 2 3.19889 1.59945 25.53 0.001
Error 7 0.43855 0.06265
Total 9 3.63744

Sequential Analysis of Variance

Source DF SS F P
Linear 1 0.80032 2.26 0.171
Quadratic 1 2.39858 38.29 0.000

Figura 1.7 Recta de regresin cuadrtica ajustada para el ejemplo 1.4
38

Establecemos las hiptesis:
0

Con un nivel de significancia de 5% y procediendo por el mtodo del valor crtico
tenemos que

.;,
. .

Recordemos que el estadstico de contraste est dado por

.
.

.

Rechazamos la hiptesis nula; en consecuencia, el ajuste total del modelo es
altamente significativo. Por otro lado, vemos que el coeficiente de determinacin,
R
2
, muestra un ajuste de la lnea a los puntos en 87.9% y si calculamos el
coeficiente de correlacin, R, ste nos dice que la relacin entre las variables es
de un 93.7%, por todo esto podemos concluir que la productividad en el comercio
de los comestibles al menudeo est altamente relacionado con el tamao de la
tienda.

6.54 F
cal
23.53
39

BIBLIOGRAFA:

Levin, Richard I. y Rubin S. David. Estadstica para administradores.
Prentice-Hall Hispanoamrica, 1996.

Anderson, David R., Sweeney Dennis J. y Williams Thomas A. Estadstica para
administracin y economa.
Cengage Learning Editores, 2008.

Mendenhall, William, Beaver, Robert J. y Barbara M. Introduccin a la probabilidad
y estadstica.
Cengage Learning Editores, 2010

U1 Regresion Actual

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

U1 Regresion Actual

Hochgeladen von

Copyright:

Verfügbare Formate

1

. Tambin suponga que

son los parmetros del modelo y son constantes desconocidas.

es el punto en el cual la lnea recta intercepta o cruza el eje y, y

es mediante el mtodo de mnimos cuadrados,

que minimizan la suma

son las medias muestrales de las dos variables, es decir,

= 158.286 1.624217 = 130.67

con base en el modelo.

representa el error que existe al usar

para estimar Yi. Por lo tanto,

= . +. = . . Por lo tanto, para el porcentaje 1, el error al

= 134 137.20 = 3.2 El error elevado al cuadrado, (-3.2)

est dado por:

recibe el nombre de Cuadrado Medio

, misma que est dada en la expresin (1.11).

0, y que entre las dos variables existe una

es el del valor crtico; el

= 0, en el caso del modelo de regresin lineal simple, implica

0, es decir que existe una

es el CME, as que, otro estimador de

= = = = SCR + SCE (1.15)

= 12.64, as tenemos que el anlisis de

se interpreta como la proporcin de la

. Este coeficiente se calcula de la

, puesto que este ltimo es

incluso baja de valor cuando el trmino que se

, los residuos contra cada variable

que se muestra en la figura 1.4. Si el modelo es adecuado se espera que

). Para ello, un intervalo de confianza al 100(1- )% para la respuesta

= valor dado de la variable independiente X

= valor de la variable dependiente Y que corresponde al valor dado

=130.67 + (1.6242)(12) = 150.16; y un

con los que se ajust la recta de regresin. Ntese cmo se va

(Forma general de la ecuacin de regresin

=valor predicho de Y (se calcula por medio de la ecuacin de regresin mltiple)

Son las variables de prediccin

= intercepto Y, o el valor de Y cuando todas las variables de prediccin son 0.

basado en los datos muestrales (

son los coeficientes de las variables de prediccin

son estimados muestrales de los coeficientes

para cualquier conjunto

y tienen una distribucin normal

es igual al siguiente modelo:

= valor estimado correspondiente a la variable dependiente

= valores de las dos variables independientes

= pendientes asociadas con

nos dar los

43 4,300 horas de trabajo en auditoras de campo

= 16 1,600 horas de tiempo en computadora

como la interseccin con Y y a

(en este caso, la estimacin

describen cmo los cambios en X

aumenta en $1099,000 por cada 100 horas

aumentar $405,000 por cada $1,000

. 983 = .991; como vemos, la relacin entre las variables es

(ecuacin 1.9), estimaba la lnea de regresin de la poblacin, =

+ (ecuacin 1.1) ms que

de la ecuacin de regresin estimada a

0 y se concluye que existe una

(la que se aplica a la poblacin

, una de las pendientes que calculamos a partir de

, una de las pendientes del

= 0.597. El primer paso consiste en hallar algn valor