Regresion

2011
UNED
DISEOS DE INVESTIGACIN Y ANLISIS DE DATOS

[TEMA 8]
Anlisis de Regresin Lineal Simple y Mltiple
ndice
8.1 Introduccin ...................................................................................................................................... 3
8.2 Objetivos ........................................................................................................................................... 4
8.3 Anlisis de Regresin Simple ............................................................................................................. 4
8.3.1 Coeficientes de la regresin lineal simple .................................................................................. 8
8.3.2 Bondad de Ajuste de la Recta de Regresin............................................................................. 12
8.3.3 Inferencias sobre la regresin .................................................................................................. 16
8.3.3.1 Contraste sobre la correlacin/regresin ......................................................................... 16
8.3.3.2 Intervalo de confianza (IC) para rXY ................................................................................... 20
8.3.3.3 Contraste para los coeficientes de la regresin, B y B0 ..................................................... 21
8.3.3.4 Intervalo de Confianza para los coeficientes de regresin, B y B0 .................................... 23
8.3.3.5 Intervalo de Confianza los valores estimados Y ............................................................... 25
8.3.4 Precisin de las estimaciones de los parmetros , , y 0 y su relacin con el tamao
muestral .....................................................................................................Error! Marcador no definido.
8.4 Anlisis de Regresin Mltiple ........................................................................................................ 30
8.4.1 Regresin con dos Variables Independientes .......................................................................... 30
8.4.2 Ajuste del modelo. Medidas de asociacin .............................................................................. 34
8.4.3 Correlacin Semiparcial y Parcial ............................................................................................. 37
8.4.4 Inferencias sobre la Regresin Mltiple................................................................................... 42
8.5 Ejercicio prctico ............................................................................................................................. 44
8.5.1 Resultados ................................................................................................................................ 49
8.5.2 Mtodo Stepwise (Pasos Sucesivos) ........................................................................................ 51
8.6 Resumen.......................................................................................................................................... 55
8.7 Ejercicio de Autoevaluacin ............................................................................................................ 56
8.7.1 Preguntas ................................................................................................................................. 57
8.7.2 Solucin ejercicios de autoevaluacin ..................................................................................... 58
8.1 Introduccin
Como se explica en el libro de Fundamentos de Investigacin, los diseos ex post facto se
caracterizan porque el investigador no puede manipular intencionalmente la variable independiente, ni
asignar aleatoriamente a los participantes a los diferentes niveles de la misma en estos diseos, el
investigador selecciona a los sujetos en funcin de que posean o no determinadas caractersticas. Uno
de los procedimientos de anlisis ms empleados para este tipo de diseos es el que se conoce como
Anlisis de Regresin/Correlacin. Este procedimiento analtico puede ser usado siempre que una
variable cuantitativa, en este caso la Variable Dependiente (VD), sea estudiada como una funcin de una
variable, o de una combinacin de varias Variables Independientes1 (VI). Cuando se estudia la VD en
funcin de una sola VI este anlisis se conoce como Anlisis de Regresin Simple (ARS). Cuando hay ms
de una VI se conoce como Anlisis de Regresin Mltiple (ARM).
La forma de la relacin entre la VD y la VI puede ser muy diversa. En el caso del ARS se pueden dar
relaciones lineales, exponenciales, potenciales, polinmicas, etc. En este texto nicamente vamos a
tratar las relaciones de carcter lineal, es decir, aquellas en las que la VD se puede expresar como una
funcin de la VI elevada a la primera potencia. Lo mismo sucede con las relaciones que se pueden dar en
el ARM, pero slo estudiaremos el caso en el que la VD se puede expresar como una combinacin lineal
de varias VI`s.
Aunque el ARM es una tcnica de anlisis para los diseos ex post facto, tambin se puede aplicar a
situaciones en las que se manipulan condiciones experimentales. Por tanto, las variables independientes
pueden tener una ocurrencia natural (sexo, Cociente Intelectual, tiempo que se tarda en aprender una
lista de palabras, introversin, ansiedad, etc.), o pueden ser variables manipuladas en un laboratorio. En
resumen, casi cualquier informacin que tenga inters para el estudio de la VD puede ser objeto de
incorporacin en este tipo de anlisis2.
El Anlisis de Regresin tiene una amplitud de aplicacin de gran alcance. Se emplea para contrastar
hiptesis generadas en el mbito de las ciencias de la conducta, de la salud, de la educacin, etc. Estas
hiptesis pueden llegar por la va de una teora formal, por investigaciones previas o simplemente por
algn tipo de intuicin cientfica acerca de algn fenmeno. Una lista breve de hiptesis sobre
determinadas situaciones puede dar idea del alcance de esta tcnica de anlisis:
El estrs en la vida cotidiana puede estar relacionado con la cantidad de das que las personas
causan baja laboral por enfermedad.
Cuando, para una poltica educativa racional, se quiere compara el rendimiento educativo en
funcin de si los estudiantes estudian en colegios pblicos o privados, es necesario el control
estadstico de determinadas caractersticas, tales como el CI, logros acadmicos previos,
1
Al igual que en los captulos de Diseos de ms de dos grupos, en este captulo designaremos la variable
dependiente por Y, mientras que las variables independientes las designaremos como Xi, siendo i = 1,.,n, segn el
nmero de variables independientes que se incorporen en el ARM.
2
Cohen, J, Cohen, P. , West, S. G.y Aiken, L. S. Applied Multiple Regression/Correlation. Analysis for the
Behavorial Sciences. 3 Ed. Lawrence Erlbaum Assoc. N, Jersey, 2003.
formacin acadmica de los padres, nivel de ingresos familiares, etc., porque pueden explicar el
rendimiento ms que el tipo de escuela.
La ejecucin de una tarea est relacionado con el nivel de activacin de las personas, y la
relacin tiene una forma de U invertida (esta relacin se conoce en el mbito de la psicologa
experimental como la Ley de Yerkes y Dodson)
Cada una de estas hiptesis plantea una relacin entre una o ms variables explicativas (VIs) y la
variable dependiente (VD) objeto de estudio y, por consiguiente, todas ellas pueden ser contrastadas
mediante Anlisis de Regresin.
En este captulo vamos a estudiar nicamente el Anlisis de Regresin Lineal Simple y Mltiple y
vamos a apoyar la explicacin mediante ejemplos numricos para facilitar la comprensin de la tcnica
de anlisis, utilizando el mnimo soporte matemtico que es posible.
8.2 Objetivos
Elaborar un modelo de regresin simple, para explicar el comportamiento de una variable

(dependiente) a partir de otra (independiente).
Interpretar los coeficientes del modelo elaborado.
Determinar si el modelo es suficientemente explicativo (bondad de ajuste)
Especificar el modelo estadstico que subyace al anlisis.
Elaborar un modelo de regresin lineal mltiple con dos variables predictoras.
Calcular la bondad del modelo de regresin mltiple.
Realizar inferencias sobre los coeficientes de correlacin y los de los modelos de regresin
ajustados.
Cuantificar la correlacin de dos variables cuando se excluye el influjo que otras variables tienen
sobre cada una de ellas.
Ver el desarrollo completo de un ejemplo de regresin mltiple realizado por un software de
anlisis estadstico.
8.3 Anlisis de Regresin Simple

Cuando una variable, que llamaremos independiente (VI), aporta informacin sobre otra variable,
que llamaremos dependiente (VD), decimos que ambas estn relacionadas y esa informacin puede
servir para saber ms sobre el comportamiento de la variable dependiente, sabiendo el
comportamiento de la independiente. Esta relacin, como se ha sealado en la introduccin, puede ser
de diversos tipos: lineal, potencial, exponencial, logartmica, polinmica, etc. El tipo de relacin entre las
variables se detecta a travs de la representacin grfica de todos los pares de valores en ambas
variables. Supongamos, por ejemplo, los datos de la Tabla 8.1 (que servirn como conjunto de datos
para la explicacin del ARS) con las puntuaciones de 16 escolares en dos variables: una prueba de
vocabulario (variable X o independiente) y el nmero de errores ortogrficos detectados dentro de un
texto (variable Y o dependiente).
Tabla 8.1
Datos de 16 escolares en una prueba de vocabulario (X) y nmero de errores ortogrficos
detectados en un texto (Y)
Sujeto
1
2
3
4
5
6
7
8
X
3
1
7
9
10
8
4
6
Y
9
7
12
18
18
13
8
17
Sujeto
9
10
11
12
13
14
15
16
X
10
2
5
7
9
6
7
8
Y
22
6
10
18
16
13
15
16
Al confeccionar el correspondiente diagrama de dispersin o diagrama de puntos de los 16 pares de

datos (vase la Figura 8.1) se observa que hay un tendencia de carcter lineal y positiva, en el sentido
que a medida que un escolar punta ms alto en la prueba de vocabulario (X) tambin suele detectar
ms errores ortogrficos (Y). Obviamente estamos hablando de una tendencia porque esa relacin no
siempre se cumple de tal forma que no siempre una mayor puntuacin en vocabulario se corresponde
con una mayor deteccin de errores. Vase, por ejemplo, los sujetos 12 y 13; el segundo obtiene una
puntuacin mayor en la prueba de vocabulario (2 puntos), pero detecta dos errores menos que el
primero. An as, la tendencia global de los datos es claramente directa o positiva.
Por lo estudiado en el texto de Introduccin al Anlisis de Datos sabemos cmo cuantificar la relacin
entre dos variables cuantitativas: mediante el Coeficiente de Correlacin de Pearson, que puede
expresarse en trminos de puntuaciones directas, diferenciales o tpicas.
Figura 8.1 Diagrama de dispersin de los datos de la tabla 8.1
Estas frmulas son, respectivamente, las siguientes:

(8.1)

(8.2)

(8.3)
El resultado del coeficiente con puntuaciones directas y diferenciales para nuestros datos es:

16 1561 102 218
16 764 102 16 3294 218

171,25
113,75 323,75
0,8924
0,8924
En la Tabla 8.2 se muestran los clculos necesarios para obtener los diferentes elementos de las
frmulas.
Tabla 8.2
Desarrollo para el clculo del coeficiente de correlacin de Pearson
Sujetos
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Suma
Media
Desv. Tp.
X
3
1
7
9
10
8
4
6
10
2
5
7
9
6
7
8
102
6,375
2,7538
Puntuaciones directas
Y
XY
X2
9
27
9
7
7
1
12
84
49
18
162
81
18
180
100
13
104
64
8
32
16
17
102
36
22
220
100
6
12
4
10
50
25
18
126
49
16
144
81
13
78
36
15
105
49
16
128
64
218
1561 764
13,625
4,6458
Y2
81
49
144
324
324
169
64
289
484
36
100
324
256
169
225
256
3294
x
-3,375
-5,375
0,625
2,625
3,625
1,625
-2,375
-0,375
3,625
-4,375
-1,375
0,625
2,625
-0,375
0,625
1,625
Puntuaciones diferenciales
y
xy
x2
-4,625 15,609375 11,390625
-6,625 35,609375 28,890625
-1,625
-1,015625
0,390625
4,375 11,484375
6,890625
4,375 15,859375 13,140625
-0,625
-1,015625
2,640625
-5,625 13,359375
5,640625
3,375
-1,265625
0,140625
8,375 30,359375 13,140625
-7,625 33,359375 19,140625
-3,625
4,984375
1,890625
4,375
2,734375
0,390625
2,375
6,234375
6,890625
-0,625
0,234375
0,140625
1,375
0,859375
0,390625
2,375
3,859375
2,640625
171,25
113,75
y2
21,390625
43,890625
2,640625
19,140625
19,140625
0,390625
31,640625
11,390625
70,140625
58,140625
13,140625
19,140625
5,640625
0,390625
1,890625
5,640625
323,75
A la vista de los datos representados en el diagrama de la Figura 8.1, es fcil intuir que la relacin
entre ambas variables puede ser modelada de tal forma que la VD se represente como una funcin de
la VI. En este caso, la funcin que, a priori y visto el diagrama, mejor puede modelar la relacin es la
lineal, es decir, una funcin que exprese la VD en trminos de los valores de la VI, sometidos a algn tipo
de transformacin lineal. Dicho de otra forma, una funcin lineal que permita hacer una estimacin de
la VD a partir de la VI, es una funcin del tipo:
# $ % $& ; ()(*+,+ ( )./.+012(* ,1(0/+*
# $ ; ()(*+,+ ( )./.+012(* ,13((01+4(*

5 ; ()(*+,+ ( )./.+012(* /)10+*
(8.4 a)
(8.4 b)
(8.4 c)
Al ser una estimacin, Y (puntuacin en Y predicha por el modelo lineal) se acercar ms o menos al
verdadero valor de la VD. Este ajuste ser mayor cuanto mayor sea la relacin entre las variables, es
decir, depender del valor del coeficiente de correlacin de Pearson, como tendremos ocasin de
demostrar ms adelante. An sabiendo que la mejor relacin puede ser representada por una funcin
lineal, queda an por determinar cul de las muchas funciones lineales (una para cada combinacin de
valores, parmetros o coeficientes de la regresin, B y B0 en la Ecuacin 8.4 lo cual significa que, en
esencia, son infinitas), es la que mejor ajusta los datos del diagrama.
8.3.1 Coeficientes de la regresin lineal simple

Antes de proceder al clculo de los coeficientes de regresin (B y B0) es conveniente observar qu
sucede una vez que hemos determinado la funcin y la representamos sobre los datos. En la Figura 8.2
se pueden ver los datos y una lnea vertical entre cada uno de los datos y la recta de ajuste que mejor
los ajusta (ms adelante veremos cmo se calcula esta recta). Cuando ya se ha construido la recta (que
es una estimacin de Y), y se procede a particularizar para cada valor de la VI (en este caso puntuacin
en vocabulario), los valores resultantes se sita, obviamente, a lo largo de la recta. En algunos casos el
valor que se obtiene con la recta de ajuste (la estimacin, Y) coincide con el verdadero valor de la VD
(representado por los puntos), aunque en la mayora de los casos no coincide. Es decir, si deseamos
predecir el comportamiento de VD utilizando su relacin con VI, una vez hecha la prediccin (valor en la
recta), vemos que en muchos casos difiere del verdadero valor de la VD para ese valor concreto de la VI.
Por tanto, cuando utilizamos el modelo lineal para estimar cada valor Y a partir de X aplicando la recta
de regresin obtenida, hay un error en la estimacin de la VD (Y) ya que el valor pronosticado (Y) y el
valor medido (Y) no suelen coincidir. La diferencia entre ambos es ese error de estimacin. En la Figura
8.2 este error viene dado por la magnitud o longitud de la lnea vertical que separa cada dato de la
prediccin realizada por la recta de regresin.
Figura 8.2 Errores despus del ajuste de una recta
De acuerdo a la frmula (8.4), los valores en la recta los hemos denominado Y, y a los valores de la
VD los hemos denominado Y. Pensemos en estas distancias (Y Y), como la distancia que hay entre
cada valor (Y) y su media (representada por Y, ya que la prediccin realizada por la recta de regresin
representa la media que sera de esperar si el anlisis se repitiese con infinitas muestras). Ahora,
tomemos estas distancias, elevmoslas al cuadrado y sumemos todos esos cuadrados. El valor
resultante de esta suma ser el Error Cuadrtico de la Recta de Ajuste (existen otras terminologas como
Recta de Estimacin, Recta de Prediccin o Recta de Regresin, siendo cualquiera de estas
denominaciones es vlida), y slo hay una recta que hace mnimo este error. Por esta razn a este
mtodo de ajuste de una recta de regresin se le conoce como ajuste por mnimos cuadrados ya que el
objetivo es encontrar los valores B y B0 que hacen ms pequeo (mnimo) el error (Y-Y) al cuadrado.
Adems, hay otra caracterstica importante de la recta de ajuste, que se puede enunciar del siguiente
modo: la recta de regresin es una estimacin insesgada de la VD en el sentido de que la media de los
valores pronosticados es igual a la media de los valores observados. Es decir,
7 57

(8.5)
Por procedimientos matemticos que no vamos a desarrollar, el valor del parmetro B de la funcin
lineal en (8.4) que minimiza los errores cuadrticos, se obtiene de acuerdo a la expresin:
$
8
8
(8.6)
siendo rXY, el coeficiente de correlacin de Pearson

SY la desviacin tpica de la variable dependiente (Y)
SX la desviacin tpica de la variable independiente (X).
9
Conocido B, el valor de B0 se obtiene mediante la expresin:

$& 9 $9
(8.7)
Construida la recta de ajuste podemos expresar la variable dependiente, Y, como una funcin de la
variable independiente, X, mediante la siguiente expresin:
$& % $ % :
(8.8)
Donde representa el error de prediccin y est compuesto por las distancias entre cada valor de Y e Y
para una valor dado de X que observaramos si repitisemos el procedimiento a varias muestras
diferentes.
Cul es el significado de los coeficientes de regresin? En el anlisis de regresin simple el
coeficiente protagonista es el factor B, conocido como pendiente de la recta, y cuantifica el
incremento que se produce en la estimacin de la variable dependiente (Y) cuando la independiente (X)
aumenta en una unidad.
En la Figura 8.3 se ve de manera grfica el significado de B en nuestros datos. La estimacin de Y para
un valor X = 4, proporciona el valor 10,049, y para una X = 5, el valor es 11,555. La diferencia entre estos
valores al aumentar X en una unidad (de 4 a 5) es lo que aumenta Y y ese es el valor de la pendiente. En
el caso del ejemplo que ilustra esta explicacin la pendiente nos dice que los escolares, con cada punto
ms que obtienen en la prueba de vocabulario detectan, en promedio, 1,5 errores ms en la prueba de
lectura.
10
Figura 8.3 Interpretacin grfica de la pendiente de la recta de regresin
La constante de la recta de regresin, B0, seala el punto en el que sta corta al eje de ordenadas, es
decir, el valor estimado de Y cuando X es igual a 0. No es un coeficiente interpretable en el sentido en el
que lo es la pendiente. De hecho, casi nunca es objeto de interpretacin salvo cuando el valor 0 se
encuentra dentro del rango de valores de la VI. Si no es el caso, la recta de regresin slo se puede
interpretar dentro del rango de valores de la VI, pues es con esos valores con los que se construye la
recta de estimacin. Fuera de ese rango, no se sabe qu sucede con la funcin que relaciona X con Y y
por tanto podra ser que por debajo del menor valor de la VI y/o por encima del mayor valor de la VI la
funcin de estimacin de la VD cambiara su forma.
Para que sean vlidas las inferencias que sobre la VD se hagan con la recta de regresin, se deben de
cumplir cuatro supuestos bsicos, tres de los cuales son, en esencia, los mismos que ya se han
mencionado en las tcnicas de anlisis para las pruebas T y los ANOVAS:
1. Independencia de las observaciones. Este supuesto slo se contrasta si el proceso de
seleccin de la muestra no ha sido aleatorio.
2. Homocedasticidad. Su cumplimiento supone que las varianzas de las distribuciones de los
errores, condicionadas a los diferentes valores de la VI, deben ser iguales.
3. Normalidad de las distribuciones condicionadas.
4. Independencia entre los valores estimados, Y, y los errores de estimacin, . Expresado en
trminos de coeficiente de correlacin de Pearson, ry = 0. Esto es as debido a que los
errores se distribuyen de manera aleatoria, mientras que las estimaciones o pronsticos son
una funcin de la VI.
En la Figura 8.4 se representan los supuestos 2 (las varianzas de las cuatro curvas normales dibujadas
son idnticas) y 3 (para cada valor de Xi existe una gama de valores posibles que se distribuyen
normalmente con media Y). El supuesto 4 se puede ver numricamente en los datos de la Tabla 8.3.
11
Figura 8.4 Representacin supuestos 2 y 3 en el ARS
8.3.2 Bondad de Ajuste de la Recta de Regresin

La expresin Bondad de Ajuste, se refiere a cmo de explicativa es la recta respecto de los datos
sobre los que se ha ajustado. Al hacer un ajuste mnimo cuadrtico conseguimos un conjunto de valores,
situados sobre la recta, cuyo promedio coincide con el promedio de la VD, que estiman los diferentes
valores de la VD para cada valor de la VI. Denotaremos simblicamente estos valores estimados
mediante el smbolo de la variable dependiente (v.g., Y) con un acento en la parte superior derecha, es
decir, como Y y la nombraremos diciendo Y prima. Las estimaciones pueden diferir de los valores de
la VD, es decir, los valores de Y no tienen porqu coincidir exactamente con Y. La diferencia entre
ambos valores ser un error de estimacin que, siendo inevitable, trataremos de que sea lo menor
posible. La magnitud de los errores de estimacin son un primer indicio para determinar si el ajuste es
bueno o no. No obstante, tomar la magnitud de los errores aisladamente, sin poner sta en relacin con
alguna otra magnitud, no resuelve completamente el problema de determinar la bondad.
Para explicar el concepto de bondad de ajuste, veamos de qu est compuesta la varianza de la VD,
antes y despus de ajustar la recta de regresin sobre el conjunto de datos. Para ello, vamos a estudiar
lo que sucede en uno solo de los 16 valores que estamos utilizando como ejemplo numrico, tal como se
observa en la Figura 8.5.
12
Figura 8.5 Descomposicin de la suma de cuadrados de la VD
Imagine el lector que slo dispone de los estadsticos media y varianza de la prueba de deteccin de
errores del grupo de sujetos del ejemplo de la Tabla 8.1, y desea hacer una estimacin para un sujeto
concreto, y an no sabe que se ha determinado que dicha prueba est relacionada con la prueba de
vocabulario. A falta de otro tipo de informacin sobre la variable que se quiere estimar, lo correcto es
otorgar como mejor estimacin la media del grupo, por ser la que minimiza el error de prediccin. Para
cada sujeto concreto el error que se cometer ser 7 9, y para el conjunto de datos, el error,
expresado en trminos de cuadrados, es el mnimo posible. Es decir, si no tenemos idea de la relacin
entre la variable predictora (X) y la predicha (Y), y nos piden realizar una estimacin de Y, lo mejor que
podemos hacer es utilizar la media de Y como estimador. Cualquier otro valor que elijamos har que el
error de prediccin sea superior al que obtendramos si utilizamos la media.
Sigamos suponiendo que en un momento posterior disponemos de informacin sobre la relacin que
hay entre la deteccin de errores (Y) y una prueba de vocabulario (X) que han realizado los estudiantes,
y sabe cul es la recta de ajuste entre ambas variables. Si ahora desea hacer una estimacin de la
puntuacin de un sujeto en la prueba de errores, lo razonable es que aproveche la informacin nueva
de que dispone, y vea qu puntuacin ha obtenido el sujeto en vocabulario y, mediante la ecuacin de
la recta construida, haga una estimacin de la puntuacin en Y, que estar situada en la recta y que
hemos denominado Y. Esta estimacin se aproxima ms al valor original (Y) de lo que lo haca la media
pero an persiste un cierto error, el que va de Y a Y. Es decir, del error original, 9 , hemos
reducido una parte, 5 9, pero an queda otra parte, 5, sin explicar. Por tanto, la variable
original Y, expresada en puntuaciones diferenciales, 9 , es la suma de otras dos variables,
5 5 9 , que, adems, son independientes entre s; su correlacin, pues, es cero. Por tanto
podemos afirmar que a nivel de cada puntuacin individual se cumple:
13
9 # 9 % 5
(8.9)
y sumando para todos los puntos y elevando al cuadrado se obtiene lo que se conoce como Suma de
Cuadrados, dividiendo por el nmero de casos menos 1 se obtienen la varianza total de Y ( SY2 ), la
varianza de las Y predichas ( SY2' ) y la varianza de los errores ( S2 ). Como la relacin de la Ecuacin 8.9 se
sigue manteniendo, estas varianzas mantienen la relacin que puede verse en la Ecuacin 8.10:
9 5 9 5

%
; 8 8#
% 8<
1
1
1
(8.10)
En resumen, cuando hay una relacin lineal entre dos variables, la varianza de la VD se puede
descomponer en dos varianzas: la de los pronsticos, debido a la relacin que la VD guarda con la VI, y la
de los errores o residuos. Esta relacin se cumple tanto para la Regresin Lineal Simple como para la
Mltiple. Esta descomposicin de las varianza de la VD en dos varianzas es el Teorema de Pitgoras
del Anlisis de Regresin Lineal.
Tabla 8.3
Desarrollo numrico de la descomposicin de la varianza de la VD
X
3
1
7
9
10
8
4
6
10
2
5
7
9
6
7
8
Y
9
7
12
18
18
13
8
17
22
6
10
18
16
13
15
16
>
=
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
Y'
8,5440
5,5330
14,5659
17,5769
19,0824
16,0714
10,0495
13,0604
19,0824
7,0385
11,5549
14,5659
17,5769
13,0604
14,5659
16,0714
9 # 9
-4,6250 -5,0810
-6,6250 -8,0920
-1,6250
0,9409
4,3750
3,9519
4,3750
5,4574
-0,6250
2,4464
-5,6250 -3,5755
3,3750 -0,5646
8,3750
5,4574
-7,6250 -6,5865
-3,6250 -2,0701
4,3750
0,9409
2,3750
3,9519
-0,6250 -0,5646
1,3750
0,9409
2,3750
2,4464
#
0,4560
1,4670
-2,5659
0,4231
-1,0824
-3,0714
-2,0495
3,9396
2,9176
-1,0385
-1,5549
3,4341
-1,5769
-0,0604
0,4341
-0,0714
Suma
Varianzas
9
21,3906
43,8906
2,6406
19,1406
19,1406
0,3906
31,6406
11,3906
70,1406
58,1406
13,1406
19,1406
5,6406
0,3906
1,8906
5,6406
5 9
25,8170
65,4810
0,8854
15,6177
29,7834
5,9850
12,7846
0,3187
29,7834
43,3825
4,2851
0,8854
15,6177
0,3187
0,8854
5,9850
5
0,2080
2,1522
6,5840
0,1790
1,1716
9,4337
4,2002
15,5201
8,5123
1,0784
2,4179
11,7928
2,4867
0,0037
0,1884
0,0051
323,7500
257,8159
65,9341
SY2 = 21,5833
SY2' = 17,1877
S 2 = 4,3956
SY2 = 323,75 /(16 1) = 21,5833

SY2' = 257,8159 /(16 1) = 17,1877
S 2 = 65,9341 /(16 1) = 4,3956
rY
rXY
R2
0
0,8924
0,7963
14
A partir de la Ecuacin 8.10, se puede establecer una serie de relaciones. La primera es lo que
representa la proporcin de la varianza de los pronsticos respecto de la VD: la proporcin de la
varianza de la VD explicada por la varianza de la VI, ya que los pronsticos son un combinacin lineal
de la propia VI, combinacin que est representada por la recta de regresin (Y = BX + B0). La cuanta de
esta proporcin es el cuadrado del coeficiente de correlacin de Pearson entre la VD y la VI (esto solo
sirve para el caso de la Regresin Lineal Simple).
?@BA
?@B
A C9B
C9B
?DEFG
?D@

H
8< 5 8IJKL7MNOL

1 H

9
8I
8

(8.11)
(8.12)

En resumen, H
(a partir de ahora lo designaremos como R2), denominado Coeficiente de
Determinacin, es la proporcin de la variabilidad de la VD que es imputada (o explicada por) la
,
variabilidad de la VI, mientras que su complemento, 1 H
denominado Coeficiente de Alienacin,
es la parte residual de la variabilidad de la VD, atribuible a otros factores no relacionados linealmente
con la VD.
Adems de esta interpretacin de R2, hay otra que tiene que ver con la reduccin del error original
de la VD. En este sentido, R2 es la proporcin en que se reduce el error de la VD cuando empleamos la
recta de regresin para estimarla. Observe el lector (Tabla 8.3) que el error cuadrtico inicial es
21,5833, y despus de ajustar la recta y proceder a las estimaciones de Y, an queda un error cuadrtico
de 4,3956. En trminos absolutos el error se ha reducido en 21,5833 4,3956 = 17,1877, lo que en
trminos de proporcin respecto del error original la reduccin es: 17,1877/21,5833 = 0,7963, que es el
valor de R2 que aparece en la Tabla.
A partir de 8.12, se puede obtener la desviacin estndar de los errores (o residuos). Su expresin es:
S2
2
= 1 RXY
S2Y
2
S2 = SY2 (1 RXY
)
S = SY
1 R
(8.13)
2
XY
Un forma grfica de representar la varianza explicada o compartida es mediante los denominados

diagramas de Venn en estadstica matemtica, en el cual la varianza de cada variable es representada
por sendos crculos de rea igual a la unidad y la interseccin del solapamiento de ambos crculos
representara la proporcin de varianza compartida, que es el valor del coeficiente de determinacin R2.
15
En la Figura 8.6 se representa la varianza compartida de los datos del ejemplo, sin pretensin de
exactitud en cuanto al rea solapada de ambos crculos.
Figura 8.6 Diagrama de Venn con la representacin de la proporcin de varianza compartida

Otro indicador del ajuste, adems de R2, es lo que se conoce como Error Tpico, y es una estimacin
sobre la poblacin realizada a partir de la muestra. Su valor se deriva de la raz cuadrado del cociente
entre la Suma de Cuadrados de los residuos o errores entre los grados de libertad, que son el nmero de
observaciones muestrales menos el nmero de parmetros estimados por la regresin, que en el caso
bivariado son dos. La frmula es:
5
P< Q
) 1
(8.14)
Siendo p, el nmero de variables independientes que incorpora el modelo, que en el caso de la

regresin simple es 1.
8.3.3 Inferencias sobre la regresin

Una vez construido el modelo de estimacin, es preciso dotarle de significacin estadstica para que
las inferencias que se hagan a partir de los datos muestrales sean vlidas para el conjunto de la
poblacin. Los dos contrastes que vamos a tratar son los que tienen que ver con el coeficiente de
correlacin entre las variables dependiente e independiente, y por tanto tambin es un contraste sobre
la regresin, y el segundo es el contraste que se realiza sobre los coeficientes de regresin. Adems del
contraste, veremos cmo calcular los intervalos de confianza tanto para el coeficiente de correlacin
como para los coeficientes de la regresin.
8.3.3.1 Contraste sobre la correlacin/regresin

El primer contraste que hay que realizar es el relativo al ajuste de la correlacin entre la VD y la VI. En
este caso la hiptesis nula ser que no hay relacin entre la VD y la VI, siendo la hiptesis alternativa su
negacin, es decir que s hay relacin. Expresado simblicamente:
16
R& : T 0
RU: T V 0
donde representa la correlacin entre la VD y la VI en la poblacin. Para dilucidar la significacin se
puede utilizar dos procedimientos que conducen al mismo resultado. Por un lado, se puede establecer
una razn F (es decir, un cociente entre medias cuadrticas) entre el coeficiente de determinacin y el
coeficiente de alienacin, divididos por sus respectivos grados de libertad. Su frmula es:
H [
X. 4. (X(*1
W
1 H
\X. 4. (*1,.2*
(8.15)
Frmula que se puede reescribir tambin del siguiente modo:

W
H /1
1 H
\ ^
2
(8.16)
y aplicada a los datos que estn sirviendo como ejemplo, nos da un resultado de F
W
0,7963
54,743
1 0,7963
\ 16
2
valor que resulta significativo, pues la probabilidad de encontrar un valor F igual o mayor, con 1 y 14
grados de libertad es p = 3,358x10-6 (este valor no puede localizarse en las Tablas debido a la magnitud
tan elevada de la F obtenida; vase para comprobarlo las figuras 8.7a y 8.7b).
1.0
6. 10-7
5. 10-7
0.8
4. 10-7
0.6
3. 10-7
0.4
2. 10-7
1. 10-7
0.2
52
0
10
20
30
40
50
54
56
58
60
60
Figura 8.7a: Distribucin F con 1 y 14 grados de

libertad. Obsrvese como la grfica es
indistinguible del eje de abscisas a partir de F =
Figura 8.7b: Distribucin F con 1 y 14 grados de

libertad limitada al rango de valores del eje de
abscisas [50, 60]. Se puede ver que la funcin F no
17
10.
toca el eje de abscisas, pero que los valores de las

ordenadas son inferiores a la millonsima.
Comparando este procedimiento con la tabla del ANOVA, tenemos, a partir de las expresiones (8.11) y
(8.12), que la razn F se puede reescribir del siguiente modo:
W
8IJK_J.
[
1
8IJKL7M.
[ ^ 2
`IJK_J.
`IJKL7M.
(8.17)
Lo relevante de estas expresiones son los grados de libertad asociados a la suma de cuadrados de la
regresin (1 g.l.), y por lo tanto a R2, y los grados de libertad de la suma de cuadrados de los errores o
residuos (N-2 g.l.), (y por tanto a 1 R2). El trmino N refleja el nmero de observaciones
independientes (el total de sujetos) y el valor 2 representa el nmero de restricciones que han sido
necesarias para construir la ecuacin de estimacin, a saber, la pendiente (B) y el intercepto (B0). El
nico grado de libertad asociado a la suma de cuadrados de la regresin representa la desviacin de la
pendiente B con respecto a cero. Realizando el clculo para los datos del ejemplo (vase Tabla 8.4),
cuyas sumas de cuadrados se pueden ver en las sumas de las dos ltimas columnas de la Tabla 8.3, y
puesto en formato de tabla de ANOVA:
Tabla 8.4
Tabla ANOVA para el contraste de la Regresin
ANOVA de la Regresin
FV
SC
GL
MC
Regresin
257,816
257,8159
Residuos
Total
65,9341 14
323,75 15
4,7096
F
54,743
Prob.
3,36E-06
La otra manera de contrastar la hiptesis nula de que la correlacin en la poblacin es igual a 0, es

mediante el estadstico t, cuya expresin es:
/
2

1
(8.17)
que se distribuye segn la t de Student con n-2 grados de libertad. Para los datos que sirven de soporte,
el valor del estadstico es:
18
/
0,892416 2
1 0,8924
7,3988
Cuya probabilidad es, lgicamente, la misma que del valor del estadstico F, calculado anteriormente, y
ello es debido a la igualdad entre la t y la F en determinadas condiciones de los grados de libertad de F.
Esta relacin es la siguiente:
/b WU,b
(8.18)
19
OPCIONAL
8.3.3.2 Intervalo de confianza (IC) para rXY
La distribucin muestral de rXY no es simtrica salvo en el caso que la XY (correlacin en la poblacin)
sea igual a 0, lo cual supone que los lmites del intervalo de confianza no son equidistantes del valor de
rXY. Sin entrar en consideraciones sobre el por qu de este comportamiento del intervalo de confianza,
para resolver este problema, Fisher desarroll el estadstico z como una transformacin de r:
#
1
4 1 % 4 1
2
(8.20)
donde ln es el logaritmo naturali con base e 2,7183. La distribucin muestral de z depende

nicamente del tamao muestral y presenta una distribucin normal incluso con muestras
relativamente pequeas. Su error tpico es:
1
P#
3
(8.21)
Luego el IC se calcula como:
IC ( z ' ) = z ' z / 2 z '

Aplicado (8.20) y (8.21) al coeficiente de correlacin obtenido con los datos del ejemplo, y para un
intervalo de confianza del 95%, asumiendo la normalidad de la distribucin muestral de z, los lmites del
IC sern:
#
1
4 1 % 0,8924 4 1 0,8924 1,434
2
PA
16 3
0,2773
i # 1,98j
cIde% # 1,434 g 0,2773 1,96 h L #
i7 0,89
Convirtiendo estos dos valores de z, en valores de r, tomando la correspondencia de la Tabla XIII

(transformada Z de Fisher), los lmites aproximados del IC de r son, 0,71 y 0,96 (vanse las Figuras 8.8a y
8.8b para ejemplificar la utilizacin de la Tabla XIII), valores que no son simtricos respectos del
coeficiente de correlacin muestral (0,8924) ya que la distancia entre Li y rXY es distinta de la distancia
entre Ls y rXY. Es la primera vez que observamos un IC asimtrico como puede verse grficamente en la
Figura 8.9.
20
Figura 8.8a: Obtencin del valor de rinferior a partir Figura 8.8b: Obtencin del valor de rsuperior a partir
del Li de z en la Tabla XIII del Formulario.
del Ls de z en la Tabla XIII del Formulario
(obsrvese que hemos tenido que aproximar ya
que el valor de 1.98 no se encuentra en la tabla).
Figura 8.9: Coeficiente de correlacin e intervalo de confianza para los datos del ejemplo. Puede verse
claramente que el IC no es simtrico con respecto a rXY muestral.
8.3.3.3 Contraste para los coeficientes de la regresin, B y B0

Con este contraste se quiere determinar si hay evidencia estadstica de que la pendiente es diferente
de cero, es decir si la pendiente es significativamente diferente a una lnea horizontal, perpendicular al
eje de ordenadas, e igualmente si el intercepto es diferente de cero, aunque en este caso ya se ha
sealado que en la mayor parte de los estudios suele ser ignorado. Por tanto, las hiptesis nula y
alternativa respecto de la pendiente y el intercepto en la poblacin, y 0, respectivamente son:
R&:
RU :
k 0 ; k& 0
k V 0 ; k& V 0
21
El estadstico de contraste para la pendiente es:

/
$ 0
Pl
(8.22)
siendo Pm el error tpico de la distribucin muestral de la pendiente cuya expresin es:

Pl

8 1
Q
8 2
(8.23)
El estadstico t es un percentil de la distribucin t de Student con n-2 grados de libertad. Cuando el

tamao muestral es lo suficientemente amplio (n 100), la significacin del valor t se puede determinar
en la distribucin normal tipificada.
Aplicando este contraste a la pendiente de los datos que estn sirviendo de ejemplo, el valor del
estadstico es:
/
1,5055 0
0,8924
4,646 1
n
2,754
16 2
1,5055
7,399
0,2035
Siendo p = 3,36x10-6 (de nuevo, el valor de t = 7,399 es tan elevado que no aparece en las tablas y, por
tanto, tampoco pueden utilizarse estas para evaluar el valor de p; esto significa que este valor de
probabilidad ha sido obtenido mediante un software cientfico) la probabilidad de encontrar un valor
igual o mayor, lo cual lleva al rechazo de la H0. Observe el lector que la probabilidad de este estadstico
es la misma que la de la F en la Tabla 8.4 del ANOVA de la Regresin.
Para el intercepto, el estadstico de contraste es:
/
$& 0
Plo
(8.24)
siendo Pmo el error tpico de la distribucin muestral del intercepto, cuya expresin es:
1
9
Plo P< Q %
18
(8.25)
siendo P< el Error Tpico, ya comentado en el epgrafe de bondad de ajuste, y cuyo valor es la raz
cuadrada de la Media Cuadrtica (MC) de los Residuos de la tabla del ANOVA (Tabla 8.4) para el
contraste de la regresin, que representa la varianza residual en la poblacin para el caso de la regresin
bivariada. Como en el caso de la pendiente, el estadstico t tiene la misma distribucin con los mismos
grados de libertad.
Aplicando el contraste a los datos del ejemplo, y teniendo en cuenta que, en el caso de la regresin
bivariada la varianza residual en la poblacin tiene n-2 grados de libertad, y dado que estamos haciendo
la inferencia para la poblacin, el valor de la varianza residual es:
22
/
4,0275 0
1
6,375
4,7096n16 % 16 17,583
4,0275
2,864
1,4061
Cuya probabilidad es 0,006, por lo que se rechaza la hiptesis nula de que el intercepto es igual a 0
(tanto si utilizamos un = 0,05 como un = 0,01 ). Como puede verse en la Figura 8.10, las Tablas
solo nos permiten determinar que 2,864 se encuentra entre los valores 2,624 y 2,977. Por consiguiente,
la p debe encontrarse entre 1-0,990 = 0.01 y 1-0.995 = 0.005. La probabilidad calculada se realiz
mediante software cientfico.
Figura 8.10
8.3.3.4 Intervalo de Confianza para los coeficientes de regresin, B y B0

Al mismo resultado se llega si en vez de calcular el estadstico t se calcula el intervalo de confianza
sobre el coeficiente de regresin, B. Dado que ya se ha calculado el Error Tpico de la distribucin
muestral de B (Pl ) con la expresin (8.23), los lmites del IC de B, se obtendrn segn la siguiente
frmula:
cI $ $ g p/ bC;UCq s Pl
(8.26)
siendo t(n-2;1-/2), el valor de t de la distribucin t de Student con n-2 grados de libertad y un nivel de
significacin . Aplicando la frmula a los resultados del ejemplo se obtiene, para un nivel de confianza
del 95%, los siguientes lmites:
cIl 1,5055 g 2,145 t
4,646 1 0,8924
1,942j
Q
uv
1,069
16 2
2,754
Al no contener el ICB el valor 0 entre sus lmites, se llega, obviamente, a la misma conclusin que a
travs del estadstico t.
23
Para el intercepto, la frmula de clculo del IC es:

cI $& $& g / bC;UCq Plo
(8.27)
Aplicando la expresin a los datos del ejemplo los lmites son

1
6,375
7,043j
cIlo 4,0275 g 2,145 t
4,7096Q
%
uv
1,012
16 16 17,583
Tambin aqu se llega a la misma conclusin que con el estadstico de contraste t, se rechaza la
hiptesis nula ya que el intervalo de confianza no incluye el valor 0.
24
OPCIONAL
3.3.5 Intervalo de Confianza de los valores estimados Y
Por ltimo, para cerrar los apartados de contrastes de hiptesis e intervalos de confianza, resta
nicamente calcular el IC para los valores estimados Y para cada valor de la VI. Para ello slo se necesita
conocer el Error Tpico de la distribucin muestral de los pronsticos, error que es una funcin, entre
otros estadsticos, de cada valor de la VI y de su media. Su expresin es:
7 9
1
P# P< Q %
18
(8.28)
Aplicado a los datos del ejemplo con un nivel de confianza del 95%, los lmites de las estimaciones, Y
para cada valor de la VI (es decir, para cada Xi), se pueden ver en la tabla 8.5.
25
Tabla 8.5
Lmites del IC para los valores estimados de los datos del ejemplo de la Tabla 8.1
(Ecuacin de regresin: Y = 1,5055X+ 4,0275)
X
1
2
3
4
5
6
7
8
9
10
Y'
5,5330
7,0385
8,5440
10,0495
11,5549
13,0604
14,5659
16,0714
17,5769
19,0824
ETY
1,2209
1,0425
0,8752
0,7266
0,6104
0,5479
0,5572
0,6354
0,7613
0,9156
Li (Yi)
2,9145
4,8025
6,6669
8,4911
10,2457
11,8854
13,3708
14,7087
15,9440
17,1186
Ls (Yi)
8,1515
9,2744
10,4210
11,6078
12,8642
14,2355
15,7611
17,4341
19,2098
21,0463
Ejemplo del clculo para X1 = 1.
Y1' = 1.5055 X 1 + 4.0275 = 5.5330

ETY ' =
1
1 ( X i X )2
1
(1 6.375) 2
+
=
4
.
7096
+
= 1.2209
n (n 1) S X2
16 (16 1) 7.583
Li (Y1' ) = Y1' t
ETY ' = 5.5330 2.145 1.2209 = 2.9145
ETY ' = 5.5330 + 2.145 1.2209 = 8.1515
( n 2 , 1 )
2
Ls (Y1' ) = Y1' + t
( n 2 , 1 )
2
Este proceso se repetira para cada Xi.

Su representacin grfica se puede ver en la Figura 8.11. Observe el lector, que por la propia
estructura de la frmula del error tpico, la parte ms estrecha del intervalo, se sita en el punto 9, 9,
y se va abriendo a medida que las estimaciones se alejan de este punto, debido al factor 7 9 en la
frmula del Error Tpico
26
Figura 8.11 Representacin grfica del IC para los valores estimados por la lnea de regresin.
27
OPCIONAL
8.3.4 Precisin de las estimaciones de los parmetros , , y 0 y su relacin con el
tamao muestral
Hasta el momento todos los contrastes prcticos se han basado en un nmero determinado de
observaciones (en nuestro ejemplo n=16), y el grado de precisin de los contrastes viene dado (repase el
lector las frmulas de los intervalos de confianza) por el tamao muestral. En todos los casos, la
amplitud del intervalo es funcin inversa del tamao muestral. Para ver por qu sucede esto, pensemos
en los mismos estadsticos obtenidos en el ejemplo y qu le sucede al Error Tpico de la distribucin
muestral de los parmetros, es decir, el denominador de las pruebas t de los contrastes, que es el factor
que multiplica el valor de t en la construccin del Intervalo de Confianza. En la Tabla 8.6 se muestra para
los mismos estadsticos del ejemplo, qu sucede con el Error Tpico de la distribucin muestral y con la
Precisin del Intervalo para distintos valores de n.
Tabla 8.6 Relacin entre el tamao muestral y la precisin del IC
28
0,8924
Sx
2,7538
Sy
>
w
4,6458
1,5055
B0
Error
Tpico
4,0275
X
NC
Errores Tpicos
n
B0
Precisin
Y'(x)
B0
Y'(x)
10
0,2692
1,8098
0,6933
0,5998
4,0325
1,5448
12
0,2408
1,6392
0,6328
0,5246
3,5715
1,3787
14
0,2198
1,5093
0,5858
0,4714
3,2371
1,2563
16
0,2035
1,4061
0,5479
0,4314
2,9807
1,1615
2,1702
18
0,1903
1,3215
0,5165
0,3999
2,7763
1,0851
20
0,1794
1,2506
0,4900
0,3743
2,6086
1,0221
25
0,1588
1,1136
0,4382
0,3270
2,2934
0,9025
30
0,1439
1,0136
0,4000
0,2938
2,0700
0,8169
35
0,1325
0,9364
0,3703
0,2691
1,9011
0,7518
40
0,1235
0,8746
0,3464
0,2496
1,7676
0,7001
45
0,1161
0,8236
0,3266
0,2338
1,6588
0,6577
50
0,1099
0,7806
0,3098
0,2207
1,5678
0,6222
55
0,1046
0,7437
0,2954
0,2096
1,4903
0,5919
60
0,1000
0,7115
0,2828
0,2000
1,4233
0,5657
65
0,0959
0,6832
0,2717
0,1916
1,3645
0,5426
70
0,0923
0,6581
0,2618
0,1841
1,3125
0,5222
75
0,0891
0,6355
0,2529
0,1775
1,2660
0,5039
80
0,0862
0,6151
0,2449
0,1716
1,2241
0,4874
85
0,0836
0,5966
0,2376
0,1662
1,1861
0,4724
90
0,0812
0,5796
0,2309
0,1612
1,1514
0,4587
95
0,0789
0,5640
0,2247
0,1567
1,1197
0,4461
100
0,0769
0,5496
0,2190
0,1526
1,0904
0,4346
6,3750
0,95
Ejemplo de clculo para n = 20 (lnea con fondo oscuro en la tabla):
B =
SY
SX
B =
0
'
X =6
2
1 rXY
4.646 1 0,8924 2
=
= 0,179
(n 2) 2,754
(20 2)
1
X2
1
6,3752
+
=
4
,
7096
+
= 1,250
n (n 1) S X2
20 (20 1) 7,583
1 ( X i X )2
1
(6 6,375) 2
= 4,7096
+
= 0,490
2
n (n 1) S X
20 (20 1) 7,583
Las precisiones son la amplitud del intervalo de confianza dividido por

dos.
Analizando las frmulas de los errores tpicos de las distribuciones muestrales de los coeficientes
vemos que estos estn aproximadamente en una proporciona inversa a . Cuando se cuadruplica el
tamao muestral el error tpico se divide aproximadamente por la mitad. Es fcil, pues, calcular a priori
el tamao muestral cuando sabemos el Error Tpico para un n y se desea reducir en una cierta cantidad,
29
x. el clculo del nuevo n* es n/x2. Por ejemplo, para un n = 20 tenemos un Pl = 0,1799. Si queremos
reducir ese error 4 veces (es decir, o 0,25), el tamao muestral deber ser 20/0,252 = 320 sujetos.
Si lo que se desea es una reduccin concreta del Error Tpico para un n dado, es decir pasar de Pl a la

P
expresin Plx es: x y l[P x z . Por ejemplo, si se desea pasar de un Pl de 0,78 para un n = 50 a un
l
nuevo valor de Pl igual a 0,3, la muestra necesaria es n* = 50(0,78/0,3)2 = 338 sujetos.
8.4 Anlisis de Regresin Mltiple

Como se ha sealado en el epgrafe de Introduccin, en este tema slo tratamos modelos lineales de
explicacin del comportamiento de una VD en funcin de una o varias VI. Ya hemos desarrollado la
tcnica de Anlisis de Regresin Lineal Simple, y en este epgrafe ampliamos dicho modelo para ms de
una VI, empezando por dos VI o variables predictoras. Como en el caso de una sola variable predictora,
se va a desarrollar con el mnimo aparato matemtico posible. La tcnica de clculo con el modelo de
dos variables independientes es relativamente sencilla y se puede desarrollar con un calculadora
cientfica, aunque su modelo matemtico, el mismo que el del Modelo Lineal General (MGL), del cual
los modelos de regresin y los modelos de anlisis de la varianza son parte, requiere para su desarrollo
algebra de matrices, el cual queda fuera del alcance de este texto. Dado que, en la actualidad, todos
estos procedimientos de anlisis se realizan con programas informticos de anlisis estadstico, el
inters estriba en saber leer e interpretar correctamente los resultados del anlisis. Comenzaremos, con
el modelo ms simple de regresin lineal mltiple que es el de dos variables independientes.
8.4.1 Regresin con dos Variables Independientes

Para la explicacin vamos a servirnos de un ejemplo numrico que hace menos abstracto el modelo.
Supongamos que un psiclogo escolar quiere determinar qu factores pueden influir en el rendimiento
en matemticas en uno de los cursos de educacin secundaria. Supone que el tiempo que dedican al
estudio en general es importante, y quizs tambin su capacidad para el razonamiento abstracto. Para
llevar a cabo esta investigacin, selecciona al azar una muestra de 15 estudiantes del colegio y registra
el tiempo semanal de estudio (variable X1) y les administra, adems, un test de razonamiento abstracto
(variable X2). Las notas obtenidas por estos 15 escolares en el ltimo examen que han realizado de
matemticas le sirven como variable dependiente (Y). Los datos son los que se muestran en la Tabla 8.7
30
Tabla 8.7
Datos para el desarrollo del anlisis con dos VI
Sujeto
Horas Estudio
(X1)
Test
Punt.
Razonamiento Matemticas
(X2)
(Y)
19
54
18
52
14
34
24
63
19
46
16
44
12
17
50
14
52
23
57
10
11
21
53
11
10
17
56
12
13
19
67
13
24
57
14
19
54
15
11
17
51
El modelo de estimacin lineal de la VD con dos VIs, constar de dos coeficientes de regresin, uno
para cada VI, y una constante que ser el valor estimado para la VD cuando son nulas las dos VI. No
obstante, como ya hemos explicado anteriormente, la constante, si no est el valor cero dentro del
rango de valores de las variables predictoras no se toma en consideracin en el anlisis. Es decir, si X1= 0
y X2 = 0 no forman parte de los rangos admitidos empricamente por ambas variables, no tiene sentido
considerar el valor que adoptara la constante en esos casos. El modelo de estimacin es:
# $U U % $ % $&
(8.29)
Por lo que la VD se puede expresar como:

# % : $U U % $ % $& % :
(8.30)
Siendo B1 el coeficiente de regresin parcial para X1, B2 el coeficiente de regresin parcial para X2, y
B0 el intercepto con el eje de la Y cuando X1 y X2 valen 0, y los residuos una vez que se ha determinado
la funcin de estimacin de la VD. Al igual que en regresin simple, estos coeficientes son los que hacen
mnimo el error cuadrtico de prediccin, es decir, minimizan las diferencias cuadrticas entre Y e Y.
31
En primer lugar, antes de calcular los coeficientes de regresin parciales de la ecuacin, llamados as
para remarcar que es el peso o efecto de una VI cuando el resto de las VI que estn en la ecuacin
permanecen constantes, en la Tabla 8.8 se muestran los estadsticos descriptivos de cada una de las
variables, los coeficientes de correlacin entre las variables dos a dos (tambin llamados bivariados) y
las rectas de regresin simple entre cada predictor y la VD. Hemos simplificado la notacin de los
coeficientes de correlacin (ry1 representa la correlacin entre la variable Y y el predictor X1, y el resto
siguen la misma pauta) y tambin de la regresin ( Y1' representa las estimaciones Y realizadas a partir de
X1 )
Tabla 8.8
Estadsticos descriptivos de los datos de la Tabla 8.7
Horas Estudio
(X1)
Test
Razonamiento
(X2)
Punt.
Matemticas
(Y)
9,33
1,91
18,73
3,17
52,67
7,76
ry1
0,441
ry2
0,628
r12
-0,043
rY21 = 0,194
rY22 = 0,394
r122 = 0,002
Media
Desv. Tpic.
Rectas de Regresin
Y'1 = 1,786 X1 + 36
Y'2 = 1,537 X2 + 23,867
Para facilitar el clculo de los coeficientes de regresin parcial de la ecuacin (8.29), comenzaremos, por
sencillez, obteniendo la ecuacin de regresin en puntuaciones tpicas o estandarizadas, cuya expresin
es:
5 kU U % k
(8.31)
siendo 1 y 2 los coeficientes de regresin parcial estandarizados, y se obtienen mediante las siguientes
frmulas:
32
kU
U U

1 U
U U
k

1 U
(8.32)
Con los resultados de la Tabla 8.

kU
k
0,441 0,628 0,043

0,469
1 0,043
0,628 0,441 0,043

0,649
1 0,043
Una vez determinados los coeficientes de regresin parcial estandarizados, se obtienen fcilmente los
coeficientes sin estandarizar mediante la relacin:
$U kU
8
8U
8
$ k
8
(8.33)
siendo S1 y S2, las desviaciones tpicas de las variables X1 y X2, respectivamente. Sustituyendo por los
valores de la Tabla 8.8 los coeficientes no estandarizados son:
$U 0,469
$ 0,649
7,76
1,899
1,91
7,76
1,587
3,17
Y la constante de la ecuacin es:

$& 9 $U 9U $ 9
(8.34)
Sustituyendo por los valores correspondientes su valor es:

$& 52,67 1,899 9,33 1,587 18,73 5,217
33
Obtenidos los coeficientes, las funciones de estimacin de la VD con coeficientes de regresin parcial
no estandarizados y estandarizados (es decir, expresada la funcin en puntuaciones directas y tpicas),
son las siguientes:
# 1,899U % 1,587 % 5,217
# 0,469U % 0,649
Al ser dos las variables independientes, las estimaciones quedan situadas en un plano, que se conoce
como plano de regresin, del mismo modo que la lnea de estimacin en regresin simple se conoce
como lnea de regresin. Algunas de las puntuaciones de la VD estarn por encima del plano y otras por
debajo, y esas distancias de cada punto de la VD al plano forman los residuos del modelo de estimacin
(vase Figura 8.12).
Figura 8.12: tres vistas del conjunto de puntos y el plano de regresin. La zona azul representa el plano
visto desde arriba, la zona naranja representa el plano visto desde abajo . La tercera grfica intenta
visualizar todos los puntos, tanto los que estn situados por encima como los que estn situados por
debajo del plano. En este caso, el plano se ve en escorzo. Los datos estn representados por puntos
rojos.
El modelo ajustado, Y, ya arroja una primera interpretacin: cuando permanece constante X2, por
cada hora de estudio, la puntuacin en matemticas aumenta en promedio, 1,899 puntos, y cuando
permanece constante X1, por cada punto ms en razonamiento abstracto, aumenta 1,587 la puntuacin
e matemticas
8.4.2 Ajuste del modelo. Medidas de asociacin

En regresin simple, el ajuste del modelo viene dado por el coeficiente de determinacin que es el
cuadrado del coeficiente de correlacin de Pearson entre la VD y la VI, y ese coeficiente informaba de
qu porcin de la variabilidad de la VD es explicada por, o atribuida a, la variabilidad de la VI. En el caso
de la regresin mltiple, las preguntas bsicas que hay que responder son las siguientes:
Estiman bien la VD el conjunto de VIs?
Cunta variabilidad explica cada variable individualmente una vez que las otras variables han
aportado lo suyo?
34
Comencemos por responder a la primera pregunta, y para ello disponemos del denominado
coeficiente de correlacin mltiple, R, y su cuadrado, el coeficiente de determinacin, R2. Al igual que r
es el coeficiente de correlacin entre dos variables, R es el coeficiente que correlaciona la VD con una
combinacin ptima de dos o ms variables independientes. Su frmula de clculo es:

U
%
2U U
H.U Q

1 U
(8.35)
Y de forma alternativa, una expresin si cabe ms simple es la basada en los coeficientes de regresin
parcial estandarizados de la recta de regresin:
H.U
kU U % k
(8.36)
Aplicada la frmula (8.32) a los datos del ejemplo, el valor de RY.12 es:
H.U
0,469 0,441 % 0,649 0,628 0,7836
El coeficiente de determinacin es el cuadrado del coeficiente de correlacin mltiple, y su
interpretacin y clculo es idntica a la de la regresin simple: razn entre la varianza de los pronsticos
y la varianza de la VD.

H.U

8.U
H.U
8
(8.37)
En la Tabla 8.9 se muestran los valores de Y, los pronsticos y los residuos para los datos del ejemplo,
cuya funcin de estimacin de Y, ya calculada, es:
# 1,899U % 1,587 % 5,217
Tabla 8.9
Puntuacin en Matemticas actual, estimada y residual para cada sujeto
Punt.
Matemticas
(Y)
Estimaciones
(Y12)
Residuos
(Y Y12)
54
50,562
3,438
52
50,874
1,126
34
38,829
-4,829
63
60,396
2,604
46
52,461
-6,461
44
47,7
-3,7
35
50
54,984
-4,984
52
44,526
7,474
57
53,112
3,888
53
59,433
-6,433
56
51,186
4,814
67
60,057
6,943
57
60,396
-3,396
54
52,461
1,539
51
53,085
-2,085
Varianza
60,238
36,991
23,247
Ejemplo de clculo para el primer sujeto:
Y1 = 54 X 1 = 8 X 2 = 19
Y12' = 1.899 X 1 + 1.587 X 2 + 5.217 = 50.562
Y1 Y12' = 54 50.562 = 3.438
A partir de los datos de la Tabla 8.9 se obtiene el coeficiente de determinacin R2.

H.U

8U
36,991
60,238 0,614
8
Es decir, la combinacin de las dos variables (tiempo de estudio y razonamiento abstracto) se

atribuyen el 61,4% de la variabilidad de las puntuaciones obtenidas en matemticas, y por tanto el
38,6% restante se debe a otros factores no relacionados linealmente con dichas puntuaciones. Vemos
que se cumple lo que denominamos Teorema de Pitgoras de la Regresin Lineal: la varianza de las
puntuaciones observadas es igual a la varianza de las puntuaciones estimadas ms la varianza de los
residuos. En este caso, tomando los valores de las varianzas calculadas: 60,238 = 36,991 + 23,247.
El coeficiente R2 obtenido en la muestra no es un estimador insesgado de 2 en la poblacin. Para
entender esto de forma intuitiva, podemos imaginar el caso en que una o ms VIs no contribuyen a la
explicacin de la varianza de la VD en la poblacin. Sin embargo, en la muestra, debido a las
fluctuaciones del proceso de muestreo, raramente se observa una situacin en la que no haya
contribucin de una VI a la varianza de la VD, aunque sea muy pequea. Cuanto menor sea la muestra
mayor ser la contribucin a la VD, lo que provoca un aumento artificial de la R2, valor que no se
correspondera con el 2 en la poblacin. Por esa razn, es preferible disponer de una estimacin ms
ajustada y realista de 2. Este ajuste, se conoce como R2 Ajustado que simbolizaremos mediante la R
mayscula a la que se le superpone el signo virgulilla:

H|.U
1 1 H.U

1
) 1
(8.38)
siendo n, el nmero de observaciones y p, el nmero de variables independientes o predictoras. Para el

caso de ejemplo, el valor de R2 Ajustado es:
36

H|.U
1 1 0,614
15 1
0,5498
15 2 1
Otro valor que informa del ajuste es el Error Tpico (ya explicado para el caso bivariado) y que est
relacionado con R2 en el sentido de que cuando ste aumenta el Error Tpico disminuye. De acuerdo a la
ecuacin 8.14, y siendo las sumas de cuadrados las que se muestran en la Tabla 8.10, su valor para este
ejemplo es:
5
325,451
P< Q
Q
5,2078
) 1
15 2 1
Tabla 8.10
Sumas de cuadrados total, residual y debidas a la regresin del ejemplo numrico
> ~
} = =
SCTotal
} = =5~
SCResiduos
> ~
} =5 =
843,333
325,451
517,968
SCRegresin
8.4.3 Correlacin Semiparcial y Parcial

La segunda de las preguntas que hacamos al comienzo del epgrafe anterior, es cmo determinar la
contribucin de cada variable independiente a la explicacin de la dependiente. La respuesta a esta
pregunta la proporciona la llamada correlacin semiparcial, sr, y su cuadrado, sr2. Antes de explicar qu
son esas nuevas correlaciones que acaban de entrar en escena, piense el lector que cuando en un
modelo intervienen ms de dos variables, las correlaciones que se calculan entre las variables dos a dos,
no son correlaciones puras, en el sentido de que no miden relaciones entre esas dos variables al
margen del influjo que las otras variables del modelo puedan tener sobre cada una de ellas. Estas
correlaciones que se calculan entre dos variables (correlaciones bivariadas) se denominan correlaciones
de orden cero, y a travs del valor obtenido no se puede saber qu parte de la varianza de la VD es
capaz de explicar independientemente cada una de las VIs, puesto que entre stas tambin puede
haber relacin. Por lo tanto, para saber qu parte de la VD explica cada VI al margen de las otras VIs, es
necesario eliminar el influjo que sobre cada VI tienen el resto de las VIs, para as poder determinar el
influjo nico que esa VI tiene sobre la VD. Esta relacin entre cada VI y la VD habiendo eliminado el
influjo del resto de las VIs sobre cada VI es lo que se llama Coeficiente de Correlacin Semiparcial.
Cmo se calcula este coeficiente? Ya sabemos, por todo lo explicado hasta el momento, que en un
modelo de regresin hay una proporcin de varianza explicada y una proporcin de varianza no
37
explicada que es la varianza de los residuos. La varianza explicada lo es en funcin de una cierta
combinacin de las variables independientes; por consiguiente, si en un modelo, por ejemplo, con dos
predictoras X1 y X2, se ajusta una regresin de la 1 sobre la 2, se extraen los residuos y, por ltimo, los
correlaciono con la VD, habr calculado el coeficiente de correlacin semiparcial entre X1 y la VD
habiendo eliminado el influjo de X2 sobre la VD. Por otra parte, si se ajusta una regresin simple entre X2
y X1 (obsrvese el cambio de subndices en relacin a la frase anterior), se extraen los residuos y stos se
correlacionan con la VD, habr calculado la correlacin entre el predictor X2 y la VD, habiendo eliminado
el influjo de X1 sobre la VD.
Para llevar a cabo este clculo de los coeficientes de correlacin semiparcial no es necesario
proceder como hemos explicado en el prrafo anterior; hay frmulas muy sencillas para ello, a partir de
las correlaciones de orden cero.
*U
*
U U

1 U
U U
(8.39)
1 U
y elevando al cuadrado estos valores se tiene la contribucin que cada VI tiene sobre la VD habiendo
eliminado el influjo de las otras VIs. En la Figura 8.13 se observa grficamente, mediante un Diagrama
de Venn, ests contribuciones expresadas en forma de rea compartida
Figura 8.13 Diagrama de Venn para un modelo de regresin con dos variables independientes
Tomando como referencia el diagrama de la Figura 8.13, las equivalencias entre las zonas designadas
con letras y los cuadrados de los coeficientes de correlacin semiparcial, son las siguientes:
38

+ *U H.U

(8.40)

* H.U
U
siendo:
~=.~ % %
~= %
~=~ %
Para el ejemplo numrico que sirve de base a la explicacin, los clculos de los coeficientes de
correlacin semiparcial son los siguientes:
*U
*
0,4406 0,6285 0,0431
1 0,0431
0,6285 0,4406 0,0431
1 0,0431
0,4681
0,6481
Estos valores elevados al cuadrado dan la proporcin de varianza compartida por cada
predictora habiendo eliminado el influjo de la otra predictora sobre la misma.
+ *U 0,4681 0,2191
* 0,6481 0,4200
El valor 0,46812 (0,2191) es a en el diagrama de la Figura 8.13, y 0,64812 (0,4200) es b. Estos dos
valores representan la contribucin exclusiva que cada variable hace a la explicacin de la dependiente.
La porcin c, es la proporcin de varianza de la VD estimada conjuntamente (es decir, de forma
redundante) por las dos variables. Sin embargo esta proporcin es de muy difcil interpretacin.
El otro coeficiente que se calcula en los modelos de regresin, y que adems sirve para determinar
cul es la primera variable que se incorpora al modelo cuando se realiza variable a variable3, es el
denominado coeficiente de correlacin parcial, pr. La diferencia con el semiparcial es que en el parcial
Hay varios mtodos para la introduccin de variables en el anlisis de regresin. Uno de estos mtodos es el
denominado Stepwise (Pasos Sucesivos) y en l se introduce en primer lugar la variable con mayor correlacin con
el criterio, y a partir de ah, sucesivamente la variable que mayor correlacin parcial tenga con el criterio. El
proceso de introduccin de variable se detiene cuando la siguiente variable independiente que va a entrar no
aporta un plus significativo a la explicacin de la VD.
39
se elimina el influjo de los predictores tanto de la VI objeto de correlacin como de la VD. Es decir, es
una correlacin entre residuos.
En el modelo de dos variables, si se ajusta una recta entre Y y X2, y nos quedamos con los residuos, y
si se ajusta una recta entre X1 y X2, y nos quedamos tambin con los residuos, podemos correlacionar
ambos residuos. De esta forma obtendremos la correlacin parcial entre Y y X1. A partir de aqu se ve
claro que esta es la correlacin pura entre dos variables, puesto que de ambas se ha extrado el influjo
de terceras variables. Al igual que en la correlacin semiparcial, no es necesario el clculo de los
residuos, pues se pueden obtener a partir de los correlaciones de orden cero entre pares de variables.
)U
)
U U
1
U
U U
(8.41)
1 U
1 U
El cuadrado de estos coeficientes (p.e. pr1) se interpreta como la proporcin de la varianza de la VD

(Y) no asociada con X2 que s est asociada a X1.
Otra manera de calcular esta proporcin de varianza es por medio de las porciones representadas en
el diagrama de Venn de la Figura 8.13.
)U

+
H.U

+%,
1

H.U
U
)

%,
1 U
(8.42)
Aplicando las frmulas a los datos del ejemplo, los coeficientes son:
)U
)
0,441 0,628 0,043
0,628
1
0,441
1
0,043
0,043
0,628 0,441 0,043
0,6018 ; )U 0,6018 0,3622

0,7219 ; ) 0,7219 0,5211
Si se hubiera realizado una regresin paso a paso, es decir, introduciendo las variables por su relacin
con la VD, la primera que habra entrado en el modelo hubiera sido la variable X2 (en el ejemplo,
Razonamiento abstracto) que es la que presenta mayor correlacin con la VD.
En resumen, por los resultados del coeficiente de correlacin parcial y semiparcial al cuadrado, en el
modelo obtenido est clara la contribucin de ambas variables a la explicacin de la puntuacin en
matemticas. El cuadrado de los coeficientes pr seala la proporcin de varianza de una VI asociada con
la parte de la VD que no est asociada con la otra VI. En nuestro caso es mayor la de razonamiento
abstracto que la de tiempo de estudio (52,11% y 36,22%, respectivamente). Adems, el modelo es
bueno (luego veremos su significacin estadstica, por medio de los contrastes) porque ambas variables
independientes tienen una buena relacin con la dependiente, y sin embargo, entre ellas no hay apenas
40
relacin (es, pues, un modelo casi ideal4). Cmo se manifiesta numricamente la ausencia de relacin
entre las variables independientes?, pues sencillamente en que el coeficiente de determinacin, R2
(0,6141), tiene un valor aproximado (siempre menor) que la suma de los cuadrados de los coeficientes
de correlacin semiparcial (0,2191+0,4200 = 0,6391 < 0.6141). La diferencia entre ambos valores es la
parte redundante del diagrama de Venn (zona c) que el modelo de regresin elimina cuando se ajusta
con el conjunto completo de variables independientes.
Los datos del ejemplo son ficticios y han sido simulados para lograr este efecto de correlacin media-alta de
las variables predictoras con la VD y ausencia de correlacin entre las predictoras. En anlisis de regresin, cuando
las VIs correlacionan se dice que hay colinealidad, y cuanto mayor es sta peor es el modelo de regresin.
41
EL RESTO DEL CAPTULO (HASTA LOS EJERCICIOS DE AUTOEVALUACIN) ES OPCIONAL

8.4.4 Inferencias sobre la Regresin Mltiple
Siguiendo el mismo proceso que en el caso de la regresin simple, el contraste se puede realizar bien
a travs de la confeccin de los intervalos de confianza o bien mediante estadsticos de contraste, como
la F de la tabla del ANOVA, resultado del cociente entre la media cuadrtica de la regresin y la media
cuadrtica de los residuos.
El IC para R2 (Olkin y Finn, 1995), se construye a partir del error tpico de R2, cuya expresin es la
siguiente:
4H 1 H ) 1
PB Q
1 % 3
(8.43)
siendo n el nmero de observaciones en la muestra y p el nmero de variables independientes.

Aplicado a los datos del ejemplo,
4 0,6141 1 0,6141 15 2 1
PB Q
0,1143
15 1 15 % 3
siendo el IC de R2 al 95%: 0,6141 (2,16)(0,1143) = (0,367 ; 0,861) siendo 2,16 es el valor crtico de la
distribucin t con 15-2 = 13 grados de libertad. A partir de estos lmites se rechazara la hiptesis nula de
que R2 en la poblacin es igual a 0 ya que los lmites no incluyen este valor.
Al mismo resultado llegaremos a travs del estadstico F de la tabla ANOVA, valor que, adems de
obtenerse como el cociente de las medias cuadrticas de la regresin y del residuo, se puede calcular
tambin con la siguiente frmula basada en R2:
W

) 1
HU
)
1 HU
(8.44)
Aplicando a los datos del ejemplo:

W
0,6141 15 2 1
9,548
1 0,6141 2
Igual al que se obtiene en la tabla del ANOVA (Tabla 8.11)
Tabla 8.11
Estadsticos de la regresin de los datos de la Tabla 8.7, y contraste de R2
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R2
0,7836
0,6141
42
R2 ajustado
Error tpico residual (P< )
Observaciones
ANOVA de la Regresin
FV
SC
Regresin
517,968
Residuos
325,451
Total
843,333
GL
2
12
14
0,5498
5,2078*
15
MC
258,984
27,121
F
9,549
Prob.
0,003
* El valor de P< es la raz cuadrada de la MC de los residuos.
Respecto de los coeficientes de regresin parcial, tanto estandarizados como no estandarizados

el contraste se realiza del mismo modo que en la regresin simple, y la diferencia estriba en que hay que
calcular un error tpico para cada coeficiente de cada variable independiente. La frmula es la siguiente:
Pl

8
1
1 H.U
Q
Q

87 1 H7 ) 1
(8.45)

donde H.U
es el coeficiente de determinacin, H7, es el coeficiente de determinacin de la regresin
de la variable predictora i respecto del resto de variables predictoras; es decir, la proporcin de varianza
de la predictora i explicada por una combinacin ptima del resto de predictoras (en el caso del
ejemplo, al ser slo dos las predictoras, el valor de H7 es el mismo para calcular el error tpico de ambos
coeficientes de regresin parcial). Por ltimo, SY es la desviacin tpica de la variable dependiente y Si es
la desviacin tpica del predictor i.
Para los datos del ejemplo los errores tpicos para contrastar los coeficientes de regresin parcial
son:
B =
1
B =
1
SY
1
S X 1 1 r122
SY
SX 2
1
1 r122
1 RY212
7,76
1
1 0,6141
=
= 0,7275
2
n p 1 1,91 1 (0,043) 15 2 1
1 RY212
7,76
1
1 0,6141
=
= 0,4391
2
n p 1 3,17 1 (0,043) 15 2 1
A partir de estos valores es sencillo calcular el IC para cada coeficiente de regresin, y comprobar si
dentro del intervalo se encuentra el valor 0. Si no es el caso, se rechazar la hiptesis nula de que los
coeficientes en la poblacin son igual a cero. En la Tabla 8.12 se presenta el resultado de estos
contrastes.
Tabla 8.12 Contrastes de los coeficientes de regresin parcial*

Coeficientes
Error
tpico
Prob.
Li (95%)
Ls (95%)
43
Horas Estudio
Test
Razonamiento
1,8991
0,7275
2,6102
0,0228
0,3139
3,4842
1,5868
0,4391
3,6138
0,0036
0,6300
2,5435
* Los lmites, se obtienen restando y sumando al valor del coeficiente, el producto entre el error tpico y el valor de t para un
nivel de confianza del 95% y n-p-1 grados de libertad (en el caso del ejemplo, este valor es 2,179). No se ha incluido el contraste
de la constante
Por ltimo, quedara el contraste de las correlaciones parcial y semiparcial. Como se han visto en la
frmulas estos dos coeficientes difieren en su clculo solo en el denominador por lo que o los dos son
igual a cero o los dos son diferentes de cero. Por ello, el estadstico de contraste se calcula slo para uno
de los coeficientes, en este caso el semiparcial. La frmula es:
) 1
/7 *7 Q
1 H
(8.46)
donde sri es la correlacin semiparcial entre la variable i y la variable dependiente.

Para los datos del ejemplo, los valores de t para los dos coeficientes de correlacin semiparcial son:
15 2 1
/U 0,4681Q
2,6102
1 0,6141
15 2 1
/ 0,6481Q
3,6138
1 0,6141
Que son los valores del estadstico t para los coeficientes de regresin parcial que se muestran en la
Tabla 8.12.
8.5 Ejercicio prctico

Una vez explicados los fundamentos bsicos del anlisis de regresin (hemos dejado al margen los
diferentes mtodos que hay para desarrollar el anlisis, el estudio de los casos de influencia o el anlisis
de los residuos, por exceder el alcance de este curso) es importante que el lector vea una salida de
resultados de una anlisis de regresin realizado con un programa informtico de anlisis estadstico, e
identificar los elementos que se han expuesto en el captulo.
Los datos de este ejercicio est adaptado del texto de Hair, Anderson, Tatham y Black (2001)
Anlisis Multivariado, y se refieren al estudio que una empresa ficticia (HATCO) realiza para
determinar el nivel de fidelidad de sus clientes, a partir de un conjunto de variables predictoras o
independientes, todas ellas cuantitativas, que se presentan en el Cuadro 8.2. El trmino Mtrica, a la
derecha del nombre de la variable, seala que es una variable de tipo cuantitativo.
Cuadro 8.2 Caractersticas de las variables del ejercicio
44
X1
Velocidad de entrega
Mtrica
X2
Nivel de precios
Mtrica
X3
Flexibilidad de precios
Mtrica
X4
Imagen del fabricante
Mtrica
X5
Servicio conjunto
Mtrica
X6
Imagen de fuerza de ventas
Mtrica
X7
Calidad de producto
Mtrica
X8
Nivel de fidelidad
Mtrica
X9
Nivel de satisfaccin
Mtrica
Percepciones de HATCO
Cada una de estas variables, excepto el Nivel de fidelidad (X8), se midi con una escala de
puntuacin grfica donde se dibuj una lnea entre dos puntos separados por diez centmetros que se
denominaron Pobre y Excelente:
Pobre
Excelente
Los encuestados sealan su percepcin haciendo una marca en la lnea. La marca se mide y se
registra la distancia desde el punto que se consider cero, en este caso, Pobre. La medicin se realiz
en centmetros. El resultado fue una escala que iba desde cero a diez, redondeado a un nico decimal.
Los siete atributos de HATCO puntuados por los encuestados y que sirven de VIs son los siguientes:
X1
Velocidad de entrega: tiempo que transcurre hasta que se entrega el producto, una vez que
se hubo confirmado el pedido.
X2
Nivel de precio: nivel de precios percibido por los clientes industriales.
X3
Flexibilidad de precios: la disposicin percibida en los representantes de HATCO para

negociar el precio de todas las compras.
X4
Imagen del fabricante: imagen conjunta del fabricante/distribuidor.
X5
Servicio: nivel conjunto de servicio necesario para mantener una relacin satisfactoria entre el
vendedor y el comprador.
X6
Imagen de la fuerza de ventas: imagen conjunta de la fuerza de ventas del fabricante.
X7
Calidad del producto: nivel de calidad percibido en un producto particular (por ejemplo, el
acabado o el rendimiento).
X9
Nivel de satisfaccin: satisfaccin del comprador con las compras anteriores realizadas a
HATCO, medidas en el mismo grfico de la escala de clasificacin de las entradas X1 a X7
La VD es:
X8 Nivel de fidelidad: cunto se compra a HATCO del total del producto de la empresa, medido
en una escala porcentual, que va desde 0 al 100 por cien.
45
46
Datos del ejercicio de Anlisis de Regresin Mltiple

id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
x1
4,10
1,80
3,40
2,70
6,00
1,90
4,60
1,30
5,50
4,00
2,40
3,90
2,80
3,70
3,20
4,90
4,70
3,30
3,00
2,40
2,40
5,20
3,50
3,00
2,80
5,20
3,40
2,40
x2
0,60
3,00
5,20
1,00
0,90
3,30
2,40
4,20
1,60
3,50
1,60
2,20
1,40
1,50
4,10
1,80
1,30
0,90
4,00
1,50
1,50
1,30
2,80
3,20
3,80
2,00
3,70
1,00
x3
6,90
6,30
5,70
7,10
9,60
7,90
9,50
6,20
9,40
6,50
8,80
9,10
8,10
8,60
5,70
7,70
9,90
8,60
9,10
6,70
6,60
9,70
9,90
6,00
8,90
9,30
6,40
7,70
x4
4,70
6,60
6,00
5,90
7,80
4,80
6,60
5,10
4,70
6,00
4,80
4,60
3,80
5,70
5,10
4,30
6,70
4,00
7,10
4,80
4,80
6,10
3,50
5,30
6,90
5,90
5,70
3,40
x5
2,40
2,50
4,30
1,80
3,40
2,60
3,50
2,80
3,50
3,70
2,00
3,00
2,10
2,70
3,60
3,40
3,00
2,10
3,50
1,90
1,90
3,20
3,10
3,10
3,30
3,70
3,50
1,70
x6
2,30
4,00
2,70
2,30
4,60
1,90
4,50
2,20
3,00
3,20
2,80
2,50
1,40
3,70
2,90
1,50
2,60
1,80
3,40
2,50
2,50
3,90
1,70
3,00
3,20
2,40
3,40
1,10
x7
5,20
8,40
8,20
7,80
4,50
9,70
7,60
6,90
7,60
8,70
5,80
8,30
6,60
6,70
6,20
5,90
6,80
6,30
8,40
7,20
7,20
6,70
5,40
8,00
8,20
4,60
8,40
6,20
x8
32,00
43,00
48,00
32,00
58,00
45,00
46,00
44,00
63,00
54,00
32,00
47,00
39,00
38,00
38,00
40,00
55,00
41,00
55,00
36,00
36,00
54,00
49,00
43,00
53,00
60,00
47,00
35,00
x9
4,20
4,30
5,20
3,90
6,80
4,40
5,80
4,30
5,40
5,40
4,30
5,00
4,40
5,00
4,40
5,60
6,00
4,50
5,20
3,70
3,70
5,80
5,40
3,30
5,00
6,10
3,80
4,10
id
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
x1
3,10
3,40
5,40
3,70
4,50
2,80
3,80
2,90
4,90
4,30
2,30
3,10
5,10
4,10
1,10
3,70
4,20
1,60
5,30
2,30
5,60
5,20
1,00
4,50
2,30
2,60
2,50
2,10
x2
1,90
3,90
2,10
0,70
4,10
2,40
0,80
2,60
4,40
1,80
4,50
1,90
1,90
1,10
2,00
1,40
2,50
4,50
1,70
3,70
2,20
1,30
1,90
1,60
3,70
3,00
3,10
3,50
x3
10,00
5,60
8,00
8,20
6,30
6,70
8,70
7,70
7,40
7,60
8,00
9,90
9,20
9,30
7,20
9,00
9,20
6,40
8,50
8,30
8,20
9,10
7,10
8,70
7,60
8,50
7,00
7,40
47
x4
4,50
5,60
3,00
6,00
5,90
4,90
2,90
7,00
6,90
5,40
4,70
4,50
5,80
5,50
4,70
4,50
6,20
5,30
3,70
5,20
3,10
4,50
4,50
4,60
5,00
6,00
4,20
4,80
x5
2,60
3,60
3,80
2,10
4,30
2,50
1,60
2,80
4,60
3,10
3,30
2,60
3,60
2,50
1,60
2,60
3,30
3,00
3,50
3,00
4,00
3,30
1,50
3,10
3,00
2,80
2,80
2,80
x6
3,20
2,30
1,40
2,50
3,40
2,60
2,10
3,60
4,00
2,50
2,20
3,10
2,30
2,70
3,20
2,30
3,90
2,50
1,90
2,30
1,60
2,70
3,10
2,10
2,50
2,80
2,20
2,30
x7
3,80
9,10
5,20
5,20
8,80
9,20
5,60
7,70
9,60
4,40
8,70
3,80
4,50
7,40
10,00
6,80
7,30
7,10
4,80
9,10
5,30
7,30
9,90
6,80
7,40
6,80
9,00
7,20
x8
55,00
43,00
53,00
41,00
50,00
32,00
39,00
47,00
62,00
46,00
50,00
54,00
60,00
47,00
40,00
45,00
59,00
46,00
58,00
49,00
55,00
60,00
39,00
56,00
37,00
53,00
43,00
36,00
x9
4,90
4,70
3,80
5,00
5,50
3,70
3,70
4,20
6,20
5,60
5,00
4,80
6,10
5,30
3,40
4,90
6,00
4,50
4,30
4,80
3,90
5,10
3,30
5,10
4,40
5,60
3,70
4,30
29
30
31
32
33
34
35
1,80
4,00
0,00
1,90
4,90
5,00
2,00
3,30
0,90
2,10
3,40
2,30
1,30
2,60
7,50
9,10
6,90
7,60
9,30
8,60
6,50
4,50
5,40
5,40
4,60
4,50
4,70
3,70
2,50
2,40
1,10
2,60
3,60
3,10
2,40
2,40
2,60
2,60
2,50
1,30
2,50
1,70
7,60
7,30
8,90
7,70
6,20
3,70
8,50
39,00
46,00
29,00
40,00
53,00
48,00
38,00
3,60
5,10
3,90
3,70
5,90
4,80
3,20
64
65
66
67
68
69
70
2,90
4,30
3,10
1,90
4,00
6,10
2,00
1,20
2,50
4,20
2,70
0,50
0,50
2,80
7,30
9,30
5,10
5,00
6,70
9,20
5,20
48
6,10
6,30
7,80
4,90
4,50
4,80
5,00
2,00
3,40
3,60
2,20
2,20
3,30
2,40
2,50
4,00
4,00
2,50
2,10
2,80
2,70
8,00
7,40
5,90
8,20
5,00
7,10
8,40
34,00
60,00
43,00
36,00
31,00
60,00
38,00
4,00
6,10
5,20
3,60
4,00
5,20
3,70
8.5.1 Resultados
En primer lugar veremos los estadsticos descriptivos de las variables, as como la matriz de
correlaciones, con su significacin estadstica (como criterio, piense el lector que una probabilidad
mayor de 0,05 supone la aceptacin de que, en la poblacin las dos variables en cuestin no estn
relacionadas).
Estadsticos descriptivos
Media
45,9000
Desviacin
tpica
8,97686
Velocidad de entrega
3,4114
1,33466
70
Nivel de precios
2,3686
1,17825
70
Flexibilidad de precios
7,8571
1,33694
70
Imagen de fabricante
5,1686
1,07158
70
Servicio conjunto
2,8771
,72375
70
Imagen de fuerza de ventas
2,6643
,75662
70
Calidad de producto
7,0743
1,57973
70
Nivel de satisfaccin
4,6971
,85651
70
Nivel de fidelidad
Correlacin de Nivel de
Pearson
fidelidad
Sig.
(unilateral)
Nivel de Velocidad
fidelidad de entrega
1,000
,656
Nivel de Flexibilidad Imagen de

precios
de precios fabricante
,100
,564
,236
N
70
Servicio
conjunto
,709
Imagen de
fuerza de
ventas
,277
Calidad de
Nivel de
producto satisfaccin
-,182
,696
Velocidad de
entrega
,656
1,000
-,363
,512
,065
,625
,087
-,493
,637
Nivel de precios
,100
-,363
1,000
-,461
,278
,490
,186
,468
-,004
Flexibilidad de
precios
,564
,512
-,461
1,000
-,038
,101
,054
-,415
,567
Imagen de
fabricante
,236
,065
,278
-,038
1,000
,302
,776
,196
,512
Servicio
conjunto
,709
,625
,490
,101
,302
1,000
,236
-,079
,599
Imagen de
fuerza de
ventas
,277
,087
,186
,054
,776
,236
1,000
,185
,365
Calidad de
producto
-,182
-,493
,468
-,415
,196
-,079
,185
1,000
-,282
Nivel de
satisfaccin
,696
,637
-,004
,567
,512
,599
,365
-,282
1,000
,000
,204
,000
,025
,000
,010
,065
,000
,000
,001
,000
,297
,000
,237
,000
,000
Nivel de
fidelidad
Velocidad de
entrega
49
Nivel de precios
,204
,001
,000
,010
,000
,061
,000
,487
Flexibilidad de
precios
,000
,000
,000
,378
,202
,327
,000
,000
Imagen de
fabricante
,025
,297
,010
,378
,006
,000
,052
,000
Servicio
conjunto
,000
,000
,000
,202
,006
,024
,258
,000
Imagen de
fuerza de
ventas
,010
,237
,061
,327
,000
,024
,062
,001
Calidad de
producto
,065
,000
,000
,000
,052
,258
,062
,009
Nivel de
satisfaccin
,000
,000
,487
,000
,000
,000
,001
,009
A continuacin, se presenta el modelo ajustado cuando se introducen todas las variables predictoras
simultneamente (Mtodo Introducir). Primero se muestra el ajuste del modelo y luego los coeficientes.
Ajuste del modelo
2
R
a
,874
Error tpico de la
estimacin
4,63769
R
,764
R corregida
,733
Tabla ANOVA de la Regresin
Regresin
Residual
Total
Suma de
cuadrados
4248,304
g.l.
8
1311,996
5560,300
Media
cuadrtica
531,038
61
69
F
24,690
Sig.
,000
21,508
En la tabla del ANOVA de la Regresin, la probabilidad asociada al valor del estadstico F se denomina
Sig., que quiere decir Significacin Estadstica, es decir, la probabilidad de encontrar un valor de F igual o
mayor que el obtenido a partir de los datos muestrales.
Por ltimo, se presenta la tabla con los coeficientes de regresin parcial estandarizados y no
estandarizados y su significacin estadstica. En la misma tabla se muestran los valores de las
correlaciones de orden cero (coeficiente de correlacin de Pearson, ya visto en la matriz de
correlaciones) y los coeficientes de correlacin parcial y semiparcial.
Coeficientes no
estandarizados
(Constante)
Velocidad de
entrega
B
-8,374
Error tp.
6,165
-1,537
2,875
Coeficientes
tipificados
Beta
-,229
Correlaciones
t
-1,358
-,535
Sig.
Orden cero
,179
,595
,656
Parcial
-,068
Semiparcial
-,033
50
Nivel de
precios
Flexibilidad
de precios
Imagen de
fabricante
-1,870
2,955
-,245
-,633
,529
,100
-,081
-,039
3,143
,686
,468
4,580
,000
,564
,506
,285
-,744
1,098
-,089
-,677
,501
,236
-,086
-,042
Servicio
conjunto
10,983
5,678
,886
1,934
,058
,709
,240
,120
Imagen de
fuerza de
ventas
1,584
1,237
,134
1,280
,205
,277
,162
,080
Calidad de
producto
,545
,454
,096
1,203
,234
-,182
,152
,075
Nivel de
satisfaccin
,728
1,453
,069
,501
,618
,696
,064
,031
Dejando al margen la constante o intercepto, cuyo valor no es significativo (Sig. 0,179 > 0,05), hay
slo dos coeficientes que puede decirse que son significativos: la flexibilidad de los precios y el servicio
conjunto (aunque ste est en el lmite de significacin). El resto no son estadsticamente relevantes.
Qu significa esto? De acuerdo al valor de R2, la combinacin de todas las variables independientes
incorporadas al modelo explican el 76,4% del nivel de fidelidad del cliente, pero, a la vista de la
significacin de los coeficientes, casi toda esta variabilidad sera explicada por no ms de dos variables,
aquellas cuyos coeficientes de regresin parcial resultan significativos, que son las que presentan un
coeficiente de correlacin parcial ms alto con la VD (0,506 y 0,240).
Con este mtodo de incorporacin de todas las variables conjuntamente, en realidad no se puede
determinar cul es la contribucin de cada variable al modelo en trminos de varianza explicada, y si
esa contribucin resulta o no significativa. Por razn de parsimonia cientfica, es preferible el mtodo de
introduccin sucesiva de variables (denominado, como ya se ha dicho, Stepwise) y que da un ajuste
ptimo del modelo con el menor nmero de variables. En los siguientes cuadros de resultados veremos
cul es el modelo final cuando se calcula la regresin con este mtodo. Observe el lector, que hay un
estadstico nuevo en el cuadro de bondad de ajuste, que se denomina Cambio en R cuadrado, que
especifica el aumento en este estadstico cada vez que se introduce una variable. La introduccin de
variables se detiene cuando la siguiente que debera de entrar no aporta un incremento significativo en
el R cuadrado.
8.5.2 Mtodo Stepwise (Pasos Sucesivos)

Adems de los cuadros con los estadsticos descriptivos y la matriz de correlaciones, el primer cuadro
que se muestra en la salida de resultados es el de la lista de variables introducidas en el modelo en los
diferentes pasos.
51
Variables introducidas/eliminadas
Variables
introducidas
Servicio conjunto
Modelo
1
Variables
eliminadas
Flexibilidad de
precios
Mtodo
. Por pasos
criterio:
Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100.
. Por pasos
criterio:
Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100.
La variable Servicio Conjunto es la que mayor correlacin tiene con la VD (0,709), es decir, la variable
que explica ms proporcin de varianza de sta. El programa ajusta un primer modelo en el que slo
incluye esta variable. Una vez introducida esta variable (Servicio conjunto) comprueba cul de las dems
variables correlaciona ms con la parte no explicada del primer modelo ajustado, o sea, con los residuos,
y esta resulta ser la Flexibilidad de precios5. Entonces el programa, antes de incorporar esta variable al
modelo, calcula si el cambio que se va a producir en R2 es o no significativo; si lo es, rehace el modelo
con las dos variables conjuntamente y si no el proceso se detiene y tendramos un modelo con el
nmero de variables que producen cambios significativos en R2. En este caso, el cambio s es
significativo y as se puede ver en la siguiente tabla.
Modelo
1
R
,709a
R
cuadrado
,502
,864b
,747
R
cuadrado
Error tp. de
corregida la estimacin
,495
6,37899
,740
Estadsticos de cambio
Cambio en R
cuadrado
,502
Cambio en F
68,645
,245
64,908
4,58006
gl2
68
Sig. Cambio
en F
,000
67
,000
gl1
Tabla del ANOVA para los diferentes modelos ajustados

Modelo
1
Regresin
Suma de
cuadrados
2793,280
Residual
Total
Regresin
2767,020
5560,300
4154,843
gl
1
68
69
2
Media
cuadrtica
2793,280
F
68,645
Sig.
,000
40,691
2077,422
99,033
,000
En concreto lo que el programa hace es que, una vez que ha incorporado la primera, realiza un ajuste de
regresin entre cada VI y el resto, y entre estas y la VD, y luego correlaciona los residuos. Los residuos de la VI que
correlacione ms con los residuos de la VD es la siguiente en entrar en el modelo.
52
Residual
Total
1405,457
5560,300
Coeficientes no
estandarizados
Modelo
1
B
20,607
8,791
Error tp.
3,147
1,061
(Constante)
Servicio
conjunto
-3,835
8,165
Flexibilidad
de precios
3,340
(Constante)
Servicio
conjunto
67
69
20,977
Coeficientes
tipificados
Beta
Correlaciones
,709
t
6,549
8,285
Sig.
,000
,000
3,783
,766
,658
-1,014
10,663
,415
,497
8,057
Orden
cero
Parcial
Semiparcial
,709
,709
,709
,314
,000
,709
,793
,655
,000
,564
,701
,495
El valor del cambio en R2 al incorporar la variable Flexibilidad de Precios es exactamente el cuadrado

de su coeficiente de correlacin semiparcial (0,4952 = 0,245) y ese es el significado de sr2: aumento en la
proporcin de varianza explicada cuando se incorpora esa variable al modelo.
Lgicamente, el criterio para incorporar una nueva variable al modelo es que el cambio en R2 sea
significativo, y se contrasta con el estadstico
W

H7O
^ ) 1
0,245 70 2 1

64,908

1 H
1 1 0,747
donde q es el nmero de nuevas variables que entran en el modelo.

Otro mtodo de construccin del modelo ptimo es el introducir al principio todas las variables
predictoras en el modelo e ir sacando una a una hasta quedarse con las que realmente estiman
significativamente la VD. Este mtodo se denomina Eliminacin hacia Atrs, y en el cuadro siguiente
podemos ver el cambio que se produce en R2 a medida que se eliminan variables. Al principio estn las
ocho predictoras (por eso el valor 8 de grados de libertad en gl1), y luego se van eliminando segn que
tengan una menor correlacin parcial con el nivel de fidelidad. Al final se queda el modelo en slo dos
predictoras, igual que en el mtodo de pasos sucesivos. Lo interesante de esta tabla es que ningn
decremento de R2 es realmente significativo. No obstante, a partir del modelo 7 (con las dos variables
conocidas, servicio conjunto y flexibilidad de precios), si se extrajera una de las dos variables el cambio
s sera significativo, y esa es la razn por la que el proceso se para.
53
Resumen del modelo

Estadsticos de cambio
R
Error tp.
Cambio
R
cuadrado
de la
en R
cuadrado corregida estimacin cuadrado
,764
,733
4,63769
,764
61
Sig.
Cambio
en F
,000
,251
61
,618
-,001
,221
62
,640
4,55177
-,001
,186
63
,668
4,52720
-,001
,300
64
,586
,746
4,52808
-,004
1,026
65
,315
,740
4,58006
-,009
2,547
66
,115
Modelo
1
R
a
,874
,874b
,763
,736
4,60960
-,001
,873
,762
,740
4,58100
,873
,762
,743
,872e
,760
,746
,870
,757
,864
,747
Cambio
en F
24,690
gl1
gl2
a. Variables predictoras: (Constante), Nivel de satisfaccin, Nivel de precios, Imagen de fuerza de ventas, Calidad
de producto, Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto
b. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto
c. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Velocidad de entrega, Servicio conjunto
d. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Servicio conjunto
e. Variables predictoras: (Constante), Imagen de fuerza de ventas, Calidad de producto, Flexibilidad de precios,
Servicio conjunto
f. Variables predictoras: (Constante), Imagen de fuerza de ventas, Flexibilidad de precios, Servicio conjunto
g. Variables predictoras: (Constante), Flexibilidad de precios, Servicio conjunto
Otro detalle de inters son los valores del Error Tpico de Estimacin, que es mayor cuando estn
todas las variables independientes en el modelo que cuando slo estn las dos realmente explicativas. El
error es pensar que cuantas ms variables tengamos mejor se explica la VD, pero se ve claramente que
no es el caso. Para estos datos, el error aumenta proporcionalmente el 1,26% (4,63769 - 4,58006)/
4,58006 = 0,0126) de tener las dos predictoras en el modelo a tener las ocho.
En resumen, aparte de las variables mencionadas, el resto de variables no aportan cambios
significativos a la explicacin de la VD y por tanto no son tenidos en cuenta en el modelo. Por tanto, la
fidelidad de los clientes de la empresa estudiada es funcin, sobre todo, del Servicio Conjunto que
ofrece la empresa, lo que explica un 50,2% de la fidelidad mientras que la percepcin de la flexibilidad
de precios aade un 24,5% ms a la explicacin, lo cual hace que entre ambas se explique el 74,7% de la
fidelidad. A partir de estos resultados, los analistas y directivos de la empresa tienen bastantes
elementos para disear una estrategia de fidelizacin actuando sobre las variables que segn los
clientes no aaden valor a sta.
54
8.6 Resumen
El anlisis de los diseos ex post facto trata de determinar cmo un conjunto de variables, que
llamamos independientes, predictoras o explicativas, pueden explicar el comportamiento de la variable
objeto de estudio, que llamamos dependiente o criterio. Ello se ha realizado en tres pasos:
Ajuste del modelo de regresin para estimar la VD. Slo se han tratado ajustes de modelo
lineales, es decir, modelos en que la VD es una funcin lineal de la o las VIs. Cuando slo hay
una VI, el modelo se conoce como de Regresin Lineal Simple y cuando hay varias VIs, como
de Regresin Lineal Mltiple.
Clculo de la bondad del modelo ajustado. El estadstico que cuantifica el ajuste se
denominado coeficiente de determinacin y su valor oscila entre 0 y 1, e informa de la
proporcin en que la o las VIs explican la VD. En el caso de la regresin simple, este valor es
el cuadrado del coeficiente de correlacin de Pearson, y en el caso de la regresin mltiple
este valor es el cuadrado del coeficiente de correlacin mltiple. La parte no explicada por el
modelo de regresin es aquella que no est relacionada linealmente con la VD.
Contraste de significacin de los estadsticos del modelo: Coeficiente de determinacin,
coeficientes de regresin parcial y, en el caso de la regresin mltiple, coeficientes de
correlacin semiparcial y parcial. Para el coeficiente de determinacin, R2, el contraste se
basa en la comparacin de las medias cuadrticas de la regresin y las medias cuadrticas del
error, expresado este contraste mediante la tabla del ANOVA. Adems, se ha visto cmo
realizar los contrastes de los coeficientes de regresin parcial y de correlacin semiparcial y
parcial.
Los diferentes coeficientes que han aparecido en el captulo son:
R, que expresa la correlacin entre la VD (Y) y la mejor funcin lineal de las VIs (Xis)
R2, que se interpreta como la proporcin de varianza de VD asociada a la combinacin lineal
de las VIs. Tambin se interpreta como la reduccin proporcional del error inicial de la VD
cuando se ajusta un modelo de estimacin con las VIs.
sri, coeficiente de correlacin semiparcial, expresa la correlacin entre Y y Xi, cuando de sta
se ha extrado la que mantiene con el resto de Xis.
sri2, proporcin de varianza de Y asociada nicamente la varianza de Xi, y expresa el
incremento en R2 cuando la variable Xi entra en el modelo
pri, expresa la correlacin pura entre Y y Xi. Es decir, expresa la correlacin entre la parte
de Y no asociada linealmente con el resto de predictoras y la porcin de Xi no asociada
linealmente con el resto de predictoras.
pri2, expresa la proporcin de varianza de Y no asociada al resto de X que s est asociada con
X i.
Por ltimo, se ha planteado un ejercicio con un conjunto de datos para ver cmo se interpreta una
salida de resultados del anlisis realizado con un programa informtico.
55
8.7 Ejercicio de Autoevaluacin

Todas las preguntas estn relacionadas con datos de una investigacin (ficticia, con datos simulados)
en la que se trata de determinar la influencia que sobre el resultado en las pruebas para acceder a un
puesto de trabajo especializado tienen una serie de variables, como son los das que asisten a tutora en
una escuela de formacin para ese tipo de profesionales (variable X1), y la expectativa de empleo que
manifiestan los sujetos (variable X2), variables todas ellas cuantitativas o mtricas. Como variable
dependiente se toma, como se ha sealado, el resultado en una prueba en trminos de puntuacin
obtenida (variable Y). Los datos de 25 personas son los siguientes:
X1
X2
31
108
41
86
20
80
41
79
40
96
28
79
41
98
37
86
41
89
39
11
92
56
111
43
11
102
42
10
89
36
90
36
13
112
32
83
49
104
45
11
98
20
10
88
33
11
106
39
13
110
19
10
92
27
12
92
17
11
81
29
13
103
Para facilitar los clculo, en las siguientes dos tablas presentamos los estadsticos descriptivos de
cada variable, y la matriz de correlaciones
56
Suma
Media
Desv. Tpica
Varianza
Estadsticos descriptivos
X2
X1
882
239
35,2800
9,5600
9,7105
2,0833
94,2933
4,3400
Y
2354
94,1600
10,5423
111,1400
Matriz de correlaciones de
orden cero
X2
Y
X1
X1
X2
Y
-0,231
0,436
0,504
8.7.1 Preguntas
1. Cul es la ecuacin de regresin para la predecir el comportamiento de la variable Y a partir
de la variable X1?
a. Y = 77,465 + 0,473X1 (*)
b. Y = 35,465 + 0,573X1
c. Y = 77,465 + 0,743X1
2. Cul es la ecuacin de regresin para la predecir el comportamiento de la variable Y a partir
de la variable X2?
a. Y = 44,236 + 1,873X2
b. Y = 69,768 + 2,551X2 (*)
c. Y = 77,465 + 0,743X1
3. El coeficiente de correlacin mltiple del modelo Y = B0 + B1X1 + B2X2 para los datos
propuestos es:
a. 0,874
b. 0,759 (*)
c. 0,576
4. El coeficiente R2 ajustado para los datos es:
a. 0,594
b. 0,512
c. 0,538 (*)
5. Siguiendo el mtodo de Pasos Sucesivos (Stepwise) para lograr el mejor ajuste, qu cambio
se produce en R2 cuando se incorpora la segunda variable?
a. 0,322 (*)
b. 0,254
57
c. 0,222
6. La ecuacin de regresin mltiple estandarizada para los datos es:
a. 5 0,423U % 1,436
b. 5 1,014U % 0,872
c. 5 0,583U % 0,639 (*)
7. La varianza de los errores una vez ajustado el modelo de regresin mltiple es:
a. 47,109 (*)
b. 64,031
c. 111,140
8. El error tpico de estimacin del modelo ajustado es:
a. 7,891
b. 7,169 (*)
c. 8,235
9. La correlacin entre la variable dependiente Y y la predictora X1, una vez que se ha eliminado
el influjo de X2 sobre ambas variables, es:
a. 0,659 (*)
b. 0,567
c. 0,621
10. Cul es la proporcin de la varianza de Y asociada a X2, y no asociada a X1
a. 0,234
b. 0,342
c. 0,477 (*)
8.7.2 Solucin ejercicios de autoevaluacin

Debajo de las respuestas estn las operaciones necesarias, a partir de los estadsticos y la matriz de
correlaciones.
Pregunta 1 A
Pregunta 2 B
$U U
8
10,5423
0,436
0,473
9,7105
8
$U
8
10,5423
0,504
2,5514
8B
2,0833
$& 9 $U 9U 94,16 0,473 35,28 77,465
$& 9 $U 9 94,16 2,5514 9,56 69,768
Pregunta 3. B
58
H.U Q

U
%
2U U
0,436 % 0,504 2 0,436 0,504 0,231
Q
0,759

1 0,231
1 U
Pregunta 4. C

H|.U
1 p1 H.U
s
Pregunta 5. A

H.U
25 1
1
1 1 0,759
0,538
25 2 1
) 1

0,759 0,504 0,322
El mtodo Stepwise, la primera variable en entrar en el modelo sera la X2 pues es la que ms

correlaciona con Y
Pregunta 6. C
kU
k
U U

1 U
U U

1 U
Pregunta 7. A
0,436 0,504 0,231

0,583
1 0,231
0,504 0,436 0,231

0,639
1 0,231

8

8JJOJ
1 H.U
1 0,759 111,14 47,109
Pregunta 8. B
`
1130,6
P< Q
Q
7,169
) 1
25 2 1
El numerador del cociente dentro de la raz es la suma de cuadrados de los errores, y se obtienen
mediante

1 47,109 25 1 1130,6
} ` 8JJOJ
Pregunta 9. A
Se trata del coeficiente de correlacin parcial entre las variable Y y X1.
)U
U U
1 U

Pregunta 10. C
)
i
U U
1 U
U
0,436 0,504 0,231
1 0,504
1 0,231

0,657
0,504 0,436 0,231
1 0,436
1 0,231
0,477
Recurdese que la funcin logartmica es la inversa de la exponencial. Esto es, si la funcin exponencial (
y = a n ) es el valor de y en funcin de n (para un valor de la base, a, fijo), la funcin logaritmo de un nmero x con
59
base a es la potencia a la que debe elevarse la base para dar x ( x = log a
y ). Cuando se adjetiva el logaritmo

como natural significa que la base es el nmero irracional e 2.71828182845...
60

Regresion

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Regresion

Hochgeladen von

Copyright:

Verfügbare Formate

2011

DISEOS DE INVESTIGACIN Y ANLISIS DE DATOS

Elaborar un modelo de regresin simple, para explicar el comportamiento de una variable

8.3 Anlisis de Regresin Simple

Al confeccionar el correspondiente diagrama de dispersin o diagrama de puntos de los 16 pares de

Figura 8.1 Diagrama de dispersin de los datos de la tabla 8.1

Estas frmulas son, respectivamente, las siguientes:

16 1561 102 218

16 764 102  16 3294 218 

 # $ % $& ; ()(*+,+ ( )./.+012(* ,1(0/+*

 # $ ; ()(*+,+ ( )./.+012(* ,13((01+4(*

8.3.1 Coeficientes de la regresin lineal simple

Figura 8.2 Errores despus del ajuste de una recta

siendo rXY, el coeficiente de correlacin de Pearson

Conocido B, el valor de B0 se obtiene mediante la expresin:

Figura 8.3 Interpretacin grfica de la pendiente de la recta de regresin

Figura 8.4 Representacin supuestos 2 y 3 en el ARS

8.3.2 Bondad de Ajuste de la Recta de Regresin

Figura 8.5 Descomposicin de la suma de cuadrados de la VD

 9  # 9 %  5

SY2 = 323,75 /(16 1) = 21,5833

8<  5 8IJKL7MNOL

Un forma grfica de representar la varianza explicada o compartida es mediante los denominados

Figura 8.6 Diagrama de Venn con la representacin de la proporcin de varianza compartida

Siendo p, el nmero de variables independientes que incorpora el modelo, que en el caso de la

8.3.3 Inferencias sobre la regresin

8.3.3.1 Contraste sobre la correlacin/regresin

Frmula que se puede reescribir tambin del siguiente modo:

Figura 8.7a: Distribucin F con 1 y 14 grados de

Figura 8.7b: Distribucin F con 1 y 14 grados de

toca el eje de abscisas, pero que los valores de las

La otra manera de contrastar la hiptesis nula de que la correlacin en la poblacin es igual a 0, es

donde ln es el logaritmo naturali con base e 2,7183. La distribucin muestral de z depende

Luego el IC se calcula como:

IC ( z ' ) = z ' z / 2 z '

Convirtiendo estos dos valores de z, en valores de r, tomando la correspondencia de la Tabla XIII

8.3.3.3 Contraste para los coeficientes de la regresin, B y B0

El estadstico de contraste para la pendiente es:

siendo Pm el error tpico de la distribucin muestral de la pendiente cuya expresin es:

El estadstico t es un percentil de la distribucin t de Student con n-2 grados de libertad. Cuando el

8.3.3.4 Intervalo de Confianza para los coeficientes de regresin, B y B0

Para el intercepto, la frmula de clculo del IC es:

Aplicando la expresin a los datos del ejemplo los lmites son

Ejemplo del clculo para X1 = 1.

Y1' = 1.5055 X 1 + 4.0275 = 5.5330

ETY ' = 5.5330 2.145 1.2209 = 2.9145

ETY ' = 5.5330 + 2.145 1.2209 = 8.1515

Este proceso se repetira para cada Xi.

Ejemplo de clculo para n = 20 (lnea con fondo oscuro en la tabla):

Las precisiones son la amplitud del intervalo de confianza dividido por

8.4 Anlisis de Regresin Mltiple

8.4.1 Regresin con dos Variables Independientes

Por lo que la VD se puede expresar como:

Con los resultados de la Tabla 8.

0,441 0,628 0,043

0,628 0,441 0,043

Y la constante de la ecuacin es:

Sustituyendo por los valores correspondientes su valor es:

8.4.2 Ajuste del modelo. Medidas de asociacin

Es decir, la combinacin de las dos variables (tiempo de estudio y razonamiento abstracto) se

siendo n, el nmero de observaciones y p, el nmero de variables independientes o predictoras. Para el

8.4.3 Correlacin Semiparcial y Parcial

0,4406 0,6285 0,0431

16 1561 102 218

16 764 102 16 3294 218

# $ % $& ; ()(+,+ ( )./.+012( ,1(0/+*

# $ ; ()(+,+ ( )./.+012( ,13((01+4(*

9 # 9 % 5

8< 5 8IJKL7MNOL

0,441 0,628 0,043

0,628 0,441 0,043

0,4406 0,6285 0,0431

0,6285 0,4406 0,0431

0,441 0,628 0,043

0,628 0,441 0,043

$& 9 $U 9U 94,16 0,473 35,28 77,465

$& 9 $U 9 94,16 2,5514 9,56 69,768

0,436 0,504 0,231

0,504 0,436 0,231

0,436 0,504 0,231

0,504 0,436 0,231