Sie sind auf Seite 1von 60

2011

UNED

DISEOS DE INVESTIGACIN Y ANLISIS DE DATOS


[TEMA 8]
Anlisis de Regresin Lineal Simple y Mltiple

ndice
8.1 Introduccin ...................................................................................................................................... 3
8.2 Objetivos ........................................................................................................................................... 4
8.3 Anlisis de Regresin Simple ............................................................................................................. 4
8.3.1 Coeficientes de la regresin lineal simple .................................................................................. 8
8.3.2 Bondad de Ajuste de la Recta de Regresin............................................................................. 12
8.3.3 Inferencias sobre la regresin .................................................................................................. 16
8.3.3.1 Contraste sobre la correlacin/regresin ......................................................................... 16
8.3.3.2 Intervalo de confianza (IC) para rXY ................................................................................... 20
8.3.3.3 Contraste para los coeficientes de la regresin, B y B0 ..................................................... 21
8.3.3.4 Intervalo de Confianza para los coeficientes de regresin, B y B0 .................................... 23
8.3.3.5 Intervalo de Confianza los valores estimados Y ............................................................... 25
8.3.4 Precisin de las estimaciones de los parmetros , , y 0 y su relacin con el tamao
muestral .....................................................................................................Error! Marcador no definido.
8.4 Anlisis de Regresin Mltiple ........................................................................................................ 30
8.4.1 Regresin con dos Variables Independientes .......................................................................... 30
8.4.2 Ajuste del modelo. Medidas de asociacin .............................................................................. 34
8.4.3 Correlacin Semiparcial y Parcial ............................................................................................. 37
8.4.4 Inferencias sobre la Regresin Mltiple................................................................................... 42
8.5 Ejercicio prctico ............................................................................................................................. 44
8.5.1 Resultados ................................................................................................................................ 49
8.5.2 Mtodo Stepwise (Pasos Sucesivos) ........................................................................................ 51
8.6 Resumen.......................................................................................................................................... 55
8.7 Ejercicio de Autoevaluacin ............................................................................................................ 56
8.7.1 Preguntas ................................................................................................................................. 57
8.7.2 Solucin ejercicios de autoevaluacin ..................................................................................... 58

8.1 Introduccin
Como se explica en el libro de Fundamentos de Investigacin, los diseos ex post facto se
caracterizan porque el investigador no puede manipular intencionalmente la variable independiente, ni
asignar aleatoriamente a los participantes a los diferentes niveles de la misma en estos diseos, el
investigador selecciona a los sujetos en funcin de que posean o no determinadas caractersticas. Uno
de los procedimientos de anlisis ms empleados para este tipo de diseos es el que se conoce como
Anlisis de Regresin/Correlacin. Este procedimiento analtico puede ser usado siempre que una
variable cuantitativa, en este caso la Variable Dependiente (VD), sea estudiada como una funcin de una
variable, o de una combinacin de varias Variables Independientes1 (VI). Cuando se estudia la VD en
funcin de una sola VI este anlisis se conoce como Anlisis de Regresin Simple (ARS). Cuando hay ms
de una VI se conoce como Anlisis de Regresin Mltiple (ARM).
La forma de la relacin entre la VD y la VI puede ser muy diversa. En el caso del ARS se pueden dar
relaciones lineales, exponenciales, potenciales, polinmicas, etc. En este texto nicamente vamos a
tratar las relaciones de carcter lineal, es decir, aquellas en las que la VD se puede expresar como una
funcin de la VI elevada a la primera potencia. Lo mismo sucede con las relaciones que se pueden dar en
el ARM, pero slo estudiaremos el caso en el que la VD se puede expresar como una combinacin lineal
de varias VI`s.
Aunque el ARM es una tcnica de anlisis para los diseos ex post facto, tambin se puede aplicar a
situaciones en las que se manipulan condiciones experimentales. Por tanto, las variables independientes
pueden tener una ocurrencia natural (sexo, Cociente Intelectual, tiempo que se tarda en aprender una
lista de palabras, introversin, ansiedad, etc.), o pueden ser variables manipuladas en un laboratorio. En
resumen, casi cualquier informacin que tenga inters para el estudio de la VD puede ser objeto de
incorporacin en este tipo de anlisis2.
El Anlisis de Regresin tiene una amplitud de aplicacin de gran alcance. Se emplea para contrastar
hiptesis generadas en el mbito de las ciencias de la conducta, de la salud, de la educacin, etc. Estas
hiptesis pueden llegar por la va de una teora formal, por investigaciones previas o simplemente por
algn tipo de intuicin cientfica acerca de algn fenmeno. Una lista breve de hiptesis sobre
determinadas situaciones puede dar idea del alcance de esta tcnica de anlisis:
El estrs en la vida cotidiana puede estar relacionado con la cantidad de das que las personas
causan baja laboral por enfermedad.
Cuando, para una poltica educativa racional, se quiere compara el rendimiento educativo en
funcin de si los estudiantes estudian en colegios pblicos o privados, es necesario el control
estadstico de determinadas caractersticas, tales como el CI, logros acadmicos previos,
1

Al igual que en los captulos de Diseos de ms de dos grupos, en este captulo designaremos la variable
dependiente por Y, mientras que las variables independientes las designaremos como Xi, siendo i = 1,.,n, segn el
nmero de variables independientes que se incorporen en el ARM.
2

Cohen, J, Cohen, P. , West, S. G.y Aiken, L. S. Applied Multiple Regression/Correlation. Analysis for the
Behavorial Sciences. 3 Ed. Lawrence Erlbaum Assoc. N, Jersey, 2003.

formacin acadmica de los padres, nivel de ingresos familiares, etc., porque pueden explicar el
rendimiento ms que el tipo de escuela.
La ejecucin de una tarea est relacionado con el nivel de activacin de las personas, y la
relacin tiene una forma de U invertida (esta relacin se conoce en el mbito de la psicologa
experimental como la Ley de Yerkes y Dodson)
Cada una de estas hiptesis plantea una relacin entre una o ms variables explicativas (VIs) y la
variable dependiente (VD) objeto de estudio y, por consiguiente, todas ellas pueden ser contrastadas
mediante Anlisis de Regresin.
En este captulo vamos a estudiar nicamente el Anlisis de Regresin Lineal Simple y Mltiple y
vamos a apoyar la explicacin mediante ejemplos numricos para facilitar la comprensin de la tcnica
de anlisis, utilizando el mnimo soporte matemtico que es posible.

8.2 Objetivos

Elaborar un modelo de regresin simple, para explicar el comportamiento de una variable


(dependiente) a partir de otra (independiente).
Interpretar los coeficientes del modelo elaborado.
Determinar si el modelo es suficientemente explicativo (bondad de ajuste)
Especificar el modelo estadstico que subyace al anlisis.
Elaborar un modelo de regresin lineal mltiple con dos variables predictoras.
Calcular la bondad del modelo de regresin mltiple.
Realizar inferencias sobre los coeficientes de correlacin y los de los modelos de regresin
ajustados.
Cuantificar la correlacin de dos variables cuando se excluye el influjo que otras variables tienen
sobre cada una de ellas.
Ver el desarrollo completo de un ejemplo de regresin mltiple realizado por un software de
anlisis estadstico.

8.3 Anlisis de Regresin Simple


Cuando una variable, que llamaremos independiente (VI), aporta informacin sobre otra variable,
que llamaremos dependiente (VD), decimos que ambas estn relacionadas y esa informacin puede
servir para saber ms sobre el comportamiento de la variable dependiente, sabiendo el
comportamiento de la independiente. Esta relacin, como se ha sealado en la introduccin, puede ser
de diversos tipos: lineal, potencial, exponencial, logartmica, polinmica, etc. El tipo de relacin entre las
variables se detecta a travs de la representacin grfica de todos los pares de valores en ambas
variables. Supongamos, por ejemplo, los datos de la Tabla 8.1 (que servirn como conjunto de datos
para la explicacin del ARS) con las puntuaciones de 16 escolares en dos variables: una prueba de
vocabulario (variable X o independiente) y el nmero de errores ortogrficos detectados dentro de un
texto (variable Y o dependiente).

Tabla 8.1
Datos de 16 escolares en una prueba de vocabulario (X) y nmero de errores ortogrficos
detectados en un texto (Y)

Sujeto
1
2
3
4
5
6
7
8

X
3
1
7
9
10
8
4
6

Y
9
7
12
18
18
13
8
17

Sujeto
9
10
11
12
13
14
15
16

X
10
2
5
7
9
6
7
8

Y
22
6
10
18
16
13
15
16

Al confeccionar el correspondiente diagrama de dispersin o diagrama de puntos de los 16 pares de


datos (vase la Figura 8.1) se observa que hay un tendencia de carcter lineal y positiva, en el sentido
que a medida que un escolar punta ms alto en la prueba de vocabulario (X) tambin suele detectar
ms errores ortogrficos (Y). Obviamente estamos hablando de una tendencia porque esa relacin no
siempre se cumple de tal forma que no siempre una mayor puntuacin en vocabulario se corresponde
con una mayor deteccin de errores. Vase, por ejemplo, los sujetos 12 y 13; el segundo obtiene una
puntuacin mayor en la prueba de vocabulario (2 puntos), pero detecta dos errores menos que el
primero. An as, la tendencia global de los datos es claramente directa o positiva.
Por lo estudiado en el texto de Introduccin al Anlisis de Datos sabemos cmo cuantificar la relacin
entre dos variables cuantitativas: mediante el Coeficiente de Correlacin de Pearson, que puede
expresarse en trminos de puntuaciones directas, diferenciales o tpicas.

Figura 8.1 Diagrama de dispersin de los datos de la tabla 8.1

Estas frmulas son, respectivamente, las siguientes:


 
 

   

       

(8.1)



 

  

(8.2)

 


(8.3)

El resultado del coeficiente con puntuaciones directas y diferenciales para nuestros datos es:
 
 

16 1561 102 218

16 764 102  16 3294 218 


171,25

113,75 323,75

 0,8924

 0,8924

En la Tabla 8.2 se muestran los clculos necesarios para obtener los diferentes elementos de las
frmulas.

Tabla 8.2
Desarrollo para el clculo del coeficiente de correlacin de Pearson
Sujetos
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Suma
Media
Desv. Tp.

X
3
1
7
9
10
8
4
6
10
2
5
7
9
6
7
8
102
6,375
2,7538

Puntuaciones directas
Y
XY
X2
9
27
9
7
7
1
12
84
49
18
162
81
18
180
100
13
104
64
8
32
16
17
102
36
22
220
100
6
12
4
10
50
25
18
126
49
16
144
81
13
78
36
15
105
49
16
128
64
218
1561 764
13,625
4,6458

Y2
81
49
144
324
324
169
64
289
484
36
100
324
256
169
225
256
3294

x
-3,375
-5,375
0,625
2,625
3,625
1,625
-2,375
-0,375
3,625
-4,375
-1,375
0,625
2,625
-0,375
0,625
1,625

Puntuaciones diferenciales
y
xy
x2
-4,625 15,609375 11,390625
-6,625 35,609375 28,890625
-1,625
-1,015625
0,390625
4,375 11,484375
6,890625
4,375 15,859375 13,140625
-0,625
-1,015625
2,640625
-5,625 13,359375
5,640625
3,375
-1,265625
0,140625
8,375 30,359375 13,140625
-7,625 33,359375 19,140625
-3,625
4,984375
1,890625
4,375
2,734375
0,390625
2,375
6,234375
6,890625
-0,625
0,234375
0,140625
1,375
0,859375
0,390625
2,375
3,859375
2,640625
171,25
113,75

y2
21,390625
43,890625
2,640625
19,140625
19,140625
0,390625
31,640625
11,390625
70,140625
58,140625
13,140625
19,140625
5,640625
0,390625
1,890625
5,640625
323,75

A la vista de los datos representados en el diagrama de la Figura 8.1, es fcil intuir que la relacin
entre ambas variables puede ser modelada de tal forma que la VD se represente como una funcin de
la VI. En este caso, la funcin que, a priori y visto el diagrama, mejor puede modelar la relacin es la
lineal, es decir, una funcin que exprese la VD en trminos de los valores de la VI, sometidos a algn tipo
de transformacin lineal. Dicho de otra forma, una funcin lineal que permita hacer una estimacin de
la VD a partir de la VI, es una funcin del tipo:

 #  $ % $& ; ()(*+,+ ( )./.+012(* ,1(0/+*

 #  $ ; ()(*+,+ ( )./.+012(* ,13((01+4(*


5    ; ()(*+,+ ( )./.+012(* /)10+*

(8.4 a)
(8.4 b)
(8.4 c)

Al ser una estimacin, Y (puntuacin en Y predicha por el modelo lineal) se acercar ms o menos al
verdadero valor de la VD. Este ajuste ser mayor cuanto mayor sea la relacin entre las variables, es
decir, depender del valor del coeficiente de correlacin de Pearson, como tendremos ocasin de
demostrar ms adelante. An sabiendo que la mejor relacin puede ser representada por una funcin
lineal, queda an por determinar cul de las muchas funciones lineales (una para cada combinacin de
valores, parmetros o coeficientes de la regresin, B y B0 en la Ecuacin 8.4 lo cual significa que, en
esencia, son infinitas), es la que mejor ajusta los datos del diagrama.

8.3.1 Coeficientes de la regresin lineal simple


Antes de proceder al clculo de los coeficientes de regresin (B y B0) es conveniente observar qu
sucede una vez que hemos determinado la funcin y la representamos sobre los datos. En la Figura 8.2
se pueden ver los datos y una lnea vertical entre cada uno de los datos y la recta de ajuste que mejor
los ajusta (ms adelante veremos cmo se calcula esta recta). Cuando ya se ha construido la recta (que
es una estimacin de Y), y se procede a particularizar para cada valor de la VI (en este caso puntuacin
en vocabulario), los valores resultantes se sita, obviamente, a lo largo de la recta. En algunos casos el
valor que se obtiene con la recta de ajuste (la estimacin, Y) coincide con el verdadero valor de la VD
(representado por los puntos), aunque en la mayora de los casos no coincide. Es decir, si deseamos
predecir el comportamiento de VD utilizando su relacin con VI, una vez hecha la prediccin (valor en la
recta), vemos que en muchos casos difiere del verdadero valor de la VD para ese valor concreto de la VI.
Por tanto, cuando utilizamos el modelo lineal para estimar cada valor Y a partir de X aplicando la recta
de regresin obtenida, hay un error en la estimacin de la VD (Y) ya que el valor pronosticado (Y) y el
valor medido (Y) no suelen coincidir. La diferencia entre ambos es ese error de estimacin. En la Figura
8.2 este error viene dado por la magnitud o longitud de la lnea vertical que separa cada dato de la
prediccin realizada por la recta de regresin.

Figura 8.2 Errores despus del ajuste de una recta

De acuerdo a la frmula (8.4), los valores en la recta los hemos denominado Y, y a los valores de la
VD los hemos denominado Y. Pensemos en estas distancias (Y Y), como la distancia que hay entre
cada valor (Y) y su media (representada por Y, ya que la prediccin realizada por la recta de regresin
representa la media que sera de esperar si el anlisis se repitiese con infinitas muestras). Ahora,
tomemos estas distancias, elevmoslas al cuadrado y sumemos todos esos cuadrados. El valor
resultante de esta suma ser el Error Cuadrtico de la Recta de Ajuste (existen otras terminologas como
Recta de Estimacin, Recta de Prediccin o Recta de Regresin, siendo cualquiera de estas
denominaciones es vlida), y slo hay una recta que hace mnimo este error. Por esta razn a este
mtodo de ajuste de una recta de regresin se le conoce como ajuste por mnimos cuadrados ya que el
objetivo es encontrar los valores B y B0 que hacen ms pequeo (mnimo) el error (Y-Y) al cuadrado.
Adems, hay otra caracterstica importante de la recta de ajuste, que se puede enunciar del siguiente
modo: la recta de regresin es una estimacin insesgada de la VD en el sentido de que la media de los
valores pronosticados es igual a la media de los valores observados. Es decir,
7 57




(8.5)

Por procedimientos matemticos que no vamos a desarrollar, el valor del parmetro B de la funcin
lineal en (8.4) que minimiza los errores cuadrticos, se obtiene de acuerdo a la expresin:
$  

8
8

(8.6)

siendo rXY, el coeficiente de correlacin de Pearson


SY la desviacin tpica de la variable dependiente (Y)
SX la desviacin tpica de la variable independiente (X).
9

Conocido B, el valor de B0 se obtiene mediante la expresin:


$&  9 $9

(8.7)

Construida la recta de ajuste podemos expresar la variable dependiente, Y, como una funcin de la
variable independiente, X, mediante la siguiente expresin:
  $& % $ % :

(8.8)

Donde representa el error de prediccin y est compuesto por las distancias entre cada valor de Y e Y
para una valor dado de X que observaramos si repitisemos el procedimiento a varias muestras
diferentes.
Cul es el significado de los coeficientes de regresin? En el anlisis de regresin simple el
coeficiente protagonista es el factor B, conocido como pendiente de la recta, y cuantifica el
incremento que se produce en la estimacin de la variable dependiente (Y) cuando la independiente (X)
aumenta en una unidad.
En la Figura 8.3 se ve de manera grfica el significado de B en nuestros datos. La estimacin de Y para
un valor X = 4, proporciona el valor 10,049, y para una X = 5, el valor es 11,555. La diferencia entre estos
valores al aumentar X en una unidad (de 4 a 5) es lo que aumenta Y y ese es el valor de la pendiente. En
el caso del ejemplo que ilustra esta explicacin la pendiente nos dice que los escolares, con cada punto
ms que obtienen en la prueba de vocabulario detectan, en promedio, 1,5 errores ms en la prueba de
lectura.

10

Figura 8.3 Interpretacin grfica de la pendiente de la recta de regresin

La constante de la recta de regresin, B0, seala el punto en el que sta corta al eje de ordenadas, es
decir, el valor estimado de Y cuando X es igual a 0. No es un coeficiente interpretable en el sentido en el
que lo es la pendiente. De hecho, casi nunca es objeto de interpretacin salvo cuando el valor 0 se
encuentra dentro del rango de valores de la VI. Si no es el caso, la recta de regresin slo se puede
interpretar dentro del rango de valores de la VI, pues es con esos valores con los que se construye la
recta de estimacin. Fuera de ese rango, no se sabe qu sucede con la funcin que relaciona X con Y y
por tanto podra ser que por debajo del menor valor de la VI y/o por encima del mayor valor de la VI la
funcin de estimacin de la VD cambiara su forma.
Para que sean vlidas las inferencias que sobre la VD se hagan con la recta de regresin, se deben de
cumplir cuatro supuestos bsicos, tres de los cuales son, en esencia, los mismos que ya se han
mencionado en las tcnicas de anlisis para las pruebas T y los ANOVAS:
1. Independencia de las observaciones. Este supuesto slo se contrasta si el proceso de
seleccin de la muestra no ha sido aleatorio.
2. Homocedasticidad. Su cumplimiento supone que las varianzas de las distribuciones de los
errores, condicionadas a los diferentes valores de la VI, deben ser iguales.
3. Normalidad de las distribuciones condicionadas.
4. Independencia entre los valores estimados, Y, y los errores de estimacin, . Expresado en
trminos de coeficiente de correlacin de Pearson, ry = 0. Esto es as debido a que los
errores se distribuyen de manera aleatoria, mientras que las estimaciones o pronsticos son
una funcin de la VI.
En la Figura 8.4 se representan los supuestos 2 (las varianzas de las cuatro curvas normales dibujadas
son idnticas) y 3 (para cada valor de Xi existe una gama de valores posibles que se distribuyen
normalmente con media Y). El supuesto 4 se puede ver numricamente en los datos de la Tabla 8.3.

11

Figura 8.4 Representacin supuestos 2 y 3 en el ARS

8.3.2 Bondad de Ajuste de la Recta de Regresin


La expresin Bondad de Ajuste, se refiere a cmo de explicativa es la recta respecto de los datos
sobre los que se ha ajustado. Al hacer un ajuste mnimo cuadrtico conseguimos un conjunto de valores,
situados sobre la recta, cuyo promedio coincide con el promedio de la VD, que estiman los diferentes
valores de la VD para cada valor de la VI. Denotaremos simblicamente estos valores estimados
mediante el smbolo de la variable dependiente (v.g., Y) con un acento en la parte superior derecha, es
decir, como Y y la nombraremos diciendo Y prima. Las estimaciones pueden diferir de los valores de
la VD, es decir, los valores de Y no tienen porqu coincidir exactamente con Y. La diferencia entre
ambos valores ser un error de estimacin que, siendo inevitable, trataremos de que sea lo menor
posible. La magnitud de los errores de estimacin son un primer indicio para determinar si el ajuste es
bueno o no. No obstante, tomar la magnitud de los errores aisladamente, sin poner sta en relacin con
alguna otra magnitud, no resuelve completamente el problema de determinar la bondad.
Para explicar el concepto de bondad de ajuste, veamos de qu est compuesta la varianza de la VD,
antes y despus de ajustar la recta de regresin sobre el conjunto de datos. Para ello, vamos a estudiar
lo que sucede en uno solo de los 16 valores que estamos utilizando como ejemplo numrico, tal como se
observa en la Figura 8.5.

12

Figura 8.5 Descomposicin de la suma de cuadrados de la VD

Imagine el lector que slo dispone de los estadsticos media y varianza de la prueba de deteccin de
errores del grupo de sujetos del ejemplo de la Tabla 8.1, y desea hacer una estimacin para un sujeto
concreto, y an no sabe que se ha determinado que dicha prueba est relacionada con la prueba de
vocabulario. A falta de otro tipo de informacin sobre la variable que se quiere estimar, lo correcto es
otorgar como mejor estimacin la media del grupo, por ser la que minimiza el error de prediccin. Para
cada sujeto concreto el error que se cometer ser 7 9, y para el conjunto de datos, el error,
expresado en trminos de cuadrados, es el mnimo posible. Es decir, si no tenemos idea de la relacin
entre la variable predictora (X) y la predicha (Y), y nos piden realizar una estimacin de Y, lo mejor que
podemos hacer es utilizar la media de Y como estimador. Cualquier otro valor que elijamos har que el
error de prediccin sea superior al que obtendramos si utilizamos la media.
Sigamos suponiendo que en un momento posterior disponemos de informacin sobre la relacin que
hay entre la deteccin de errores (Y) y una prueba de vocabulario (X) que han realizado los estudiantes,
y sabe cul es la recta de ajuste entre ambas variables. Si ahora desea hacer una estimacin de la
puntuacin de un sujeto en la prueba de errores, lo razonable es que aproveche la informacin nueva
de que dispone, y vea qu puntuacin ha obtenido el sujeto en vocabulario y, mediante la ecuacin de
la recta construida, haga una estimacin de la puntuacin en Y, que estar situada en la recta y que
hemos denominado Y. Esta estimacin se aproxima ms al valor original (Y) de lo que lo haca la media
pero an persiste un cierto error, el que va de Y a Y. Es decir, del error original,  9 , hemos
reducido una parte, 5 9, pero an queda otra parte,  5, sin explicar. Por tanto, la variable
original Y, expresada en puntuaciones diferenciales,  9 , es la suma de otras dos variables,
 5  5 9 , que, adems, son independientes entre s; su correlacin, pues, es cero. Por tanto
podemos afirmar que a nivel de cada puntuacin individual se cumple:

13

 9   # 9 %  5

(8.9)

y sumando para todos los puntos y elevando al cuadrado se obtiene lo que se conoce como Suma de
Cuadrados, dividiendo por el nmero de casos menos 1 se obtienen la varianza total de Y ( SY2 ), la
varianza de las Y predichas ( SY2' ) y la varianza de los errores ( S2 ). Como la relacin de la Ecuacin 8.9 se
sigue manteniendo, estas varianzas mantienen la relacin que puede verse en la Ecuacin 8.10:
 9 5 9  5


%
; 8  8#
% 8<
 1
 1
 1

(8.10)

En resumen, cuando hay una relacin lineal entre dos variables, la varianza de la VD se puede
descomponer en dos varianzas: la de los pronsticos, debido a la relacin que la VD guarda con la VI, y la
de los errores o residuos. Esta relacin se cumple tanto para la Regresin Lineal Simple como para la
Mltiple. Esta descomposicin de las varianza de la VD en dos varianzas es el Teorema de Pitgoras
del Anlisis de Regresin Lineal.

Tabla 8.3
Desarrollo numrico de la descomposicin de la varianza de la VD
X
3
1
7
9
10
8
4
6
10
2
5
7
9
6
7
8

Y
9
7
12
18
18
13
8
17
22
6
10
18
16
13
15
16

>
=
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250

Y'
8,5440
5,5330
14,5659
17,5769
19,0824
16,0714
10,0495
13,0604
19,0824
7,0385
11,5549
14,5659
17,5769
13,0604
14,5659
16,0714

 9  # 9
-4,6250 -5,0810
-6,6250 -8,0920
-1,6250
0,9409
4,3750
3,9519
4,3750
5,4574
-0,6250
2,4464
-5,6250 -3,5755
3,3750 -0,5646
8,3750
5,4574
-7,6250 -6,5865
-3,6250 -2,0701
4,3750
0,9409
2,3750
3,9519
-0,6250 -0,5646
1,3750
0,9409
2,3750
2,4464

  # 
0,4560
1,4670
-2,5659
0,4231
-1,0824
-3,0714
-2,0495
3,9396
2,9176
-1,0385
-1,5549
3,4341
-1,5769
-0,0604
0,4341
-0,0714

Suma
Varianzas

 9
21,3906
43,8906
2,6406
19,1406
19,1406
0,3906
31,6406
11,3906
70,1406
58,1406
13,1406
19,1406
5,6406
0,3906
1,8906
5,6406

5 9 
25,8170
65,4810
0,8854
15,6177
29,7834
5,9850
12,7846
0,3187
29,7834
43,3825
4,2851
0,8854
15,6177
0,3187
0,8854
5,9850

 5
0,2080
2,1522
6,5840
0,1790
1,1716
9,4337
4,2002
15,5201
8,5123
1,0784
2,4179
11,7928
2,4867
0,0037
0,1884
0,0051

323,7500

257,8159

65,9341

SY2 = 21,5833

SY2' = 17,1877

S 2 = 4,3956

SY2 = 323,75 /(16 1) = 21,5833


SY2' = 257,8159 /(16 1) = 17,1877
S 2 = 65,9341 /(16 1) = 4,3956

rY
rXY
R2

0
0,8924
0,7963

14

A partir de la Ecuacin 8.10, se puede establecer una serie de relaciones. La primera es lo que
representa la proporcin de la varianza de los pronsticos respecto de la VD: la proporcin de la
varianza de la VD explicada por la varianza de la VI, ya que los pronsticos son un combinacin lineal
de la propia VI, combinacin que est representada por la recta de regresin (Y = BX + B0). La cuanta de
esta proporcin es el cuadrado del coeficiente de correlacin de Pearson entre la VD y la VI (esto solo
sirve para el caso de la Regresin Lineal Simple).
?@BA
?@B

 A C9B
C9B

?DEFG
?D@


 H

8<  5 8IJKL7MNOL




 1 H
 

9
8I
8


(8.11)

(8.12)


En resumen, H
(a partir de ahora lo designaremos como R2), denominado Coeficiente de
Determinacin, es la proporcin de la variabilidad de la VD que es imputada (o explicada por) la
,
variabilidad de la VI, mientras que su complemento, 1 H
denominado Coeficiente de Alienacin,
es la parte residual de la variabilidad de la VD, atribuible a otros factores no relacionados linealmente
con la VD.

Adems de esta interpretacin de R2, hay otra que tiene que ver con la reduccin del error original
de la VD. En este sentido, R2 es la proporcin en que se reduce el error de la VD cuando empleamos la
recta de regresin para estimarla. Observe el lector (Tabla 8.3) que el error cuadrtico inicial es
21,5833, y despus de ajustar la recta y proceder a las estimaciones de Y, an queda un error cuadrtico
de 4,3956. En trminos absolutos el error se ha reducido en 21,5833 4,3956 = 17,1877, lo que en
trminos de proporcin respecto del error original la reduccin es: 17,1877/21,5833 = 0,7963, que es el
valor de R2 que aparece en la Tabla.
A partir de 8.12, se puede obtener la desviacin estndar de los errores (o residuos). Su expresin es:

S2
2
= 1 RXY
S2Y
2
S2 = SY2 (1 RXY
)

S = SY

1 R

(8.13)

2
XY

Un forma grfica de representar la varianza explicada o compartida es mediante los denominados


diagramas de Venn en estadstica matemtica, en el cual la varianza de cada variable es representada
por sendos crculos de rea igual a la unidad y la interseccin del solapamiento de ambos crculos
representara la proporcin de varianza compartida, que es el valor del coeficiente de determinacin R2.
15

En la Figura 8.6 se representa la varianza compartida de los datos del ejemplo, sin pretensin de
exactitud en cuanto al rea solapada de ambos crculos.

Figura 8.6 Diagrama de Venn con la representacin de la proporcin de varianza compartida


Otro indicador del ajuste, adems de R2, es lo que se conoce como Error Tpico, y es una estimacin
sobre la poblacin realizada a partir de la muestra. Su valor se deriva de la raz cuadrado del cociente
entre la Suma de Cuadrados de los residuos o errores entre los grados de libertad, que son el nmero de
observaciones muestrales menos el nmero de parmetros estimados por la regresin, que en el caso
bivariado son dos. La frmula es:
 5
P<  Q
 ) 1

(8.14)

Siendo p, el nmero de variables independientes que incorpora el modelo, que en el caso de la


regresin simple es 1.

8.3.3 Inferencias sobre la regresin


Una vez construido el modelo de estimacin, es preciso dotarle de significacin estadstica para que
las inferencias que se hagan a partir de los datos muestrales sean vlidas para el conjunto de la
poblacin. Los dos contrastes que vamos a tratar son los que tienen que ver con el coeficiente de
correlacin entre las variables dependiente e independiente, y por tanto tambin es un contraste sobre
la regresin, y el segundo es el contraste que se realiza sobre los coeficientes de regresin. Adems del
contraste, veremos cmo calcular los intervalos de confianza tanto para el coeficiente de correlacin
como para los coeficientes de la regresin.

8.3.3.1 Contraste sobre la correlacin/regresin


El primer contraste que hay que realizar es el relativo al ajuste de la correlacin entre la VD y la VI. En
este caso la hiptesis nula ser que no hay relacin entre la VD y la VI, siendo la hiptesis alternativa su
negacin, es decir que s hay relacin. Expresado simblicamente:

16

R& : T  0

RU: T V 0
donde representa la correlacin entre la VD y la VI en la poblacin. Para dilucidar la significacin se
puede utilizar dos procedimientos que conducen al mismo resultado. Por un lado, se puede establecer
una razn F (es decir, un cociente entre medias cuadrticas) entre el coeficiente de determinacin y el
coeficiente de alienacin, divididos por sus respectivos grados de libertad. Su frmula es:
H [
X. 4. (X(*1
W
1 H 
\X. 4. (*1,.2*

(8.15)

Frmula que se puede reescribir tambin del siguiente modo:


W

H /1
1 H 
\ ^
2

(8.16)

y aplicada a los datos que estn sirviendo como ejemplo, nos da un resultado de F
W

0,7963
 54,743
1 0,7963
\ 16
2

valor que resulta significativo, pues la probabilidad de encontrar un valor F igual o mayor, con 1 y 14
grados de libertad es p = 3,358x10-6 (este valor no puede localizarse en las Tablas debido a la magnitud
tan elevada de la F obtenida; vase para comprobarlo las figuras 8.7a y 8.7b).
1.0

6. 10-7
5. 10-7

0.8

4. 10-7
0.6

3. 10-7
0.4

2. 10-7
1. 10-7

0.2

52
0

10

20

30

40

50

54

56

58

60

60

Figura 8.7a: Distribucin F con 1 y 14 grados de


libertad. Obsrvese como la grfica es
indistinguible del eje de abscisas a partir de F =

Figura 8.7b: Distribucin F con 1 y 14 grados de


libertad limitada al rango de valores del eje de
abscisas [50, 60]. Se puede ver que la funcin F no
17

10.

toca el eje de abscisas, pero que los valores de las


ordenadas son inferiores a la millonsima.

Comparando este procedimiento con la tabla del ANOVA, tenemos, a partir de las expresiones (8.11) y
(8.12), que la razn F se puede reescribir del siguiente modo:
W

8IJK_J.
[
1

8IJKL7M.
[ ^ 2

`IJK_J.
`IJKL7M.

(8.17)

Lo relevante de estas expresiones son los grados de libertad asociados a la suma de cuadrados de la
regresin (1 g.l.), y por lo tanto a R2, y los grados de libertad de la suma de cuadrados de los errores o
residuos (N-2 g.l.), (y por tanto a 1 R2). El trmino N refleja el nmero de observaciones
independientes (el total de sujetos) y el valor 2 representa el nmero de restricciones que han sido
necesarias para construir la ecuacin de estimacin, a saber, la pendiente (B) y el intercepto (B0). El
nico grado de libertad asociado a la suma de cuadrados de la regresin representa la desviacin de la
pendiente B con respecto a cero. Realizando el clculo para los datos del ejemplo (vase Tabla 8.4),
cuyas sumas de cuadrados se pueden ver en las sumas de las dos ltimas columnas de la Tabla 8.3, y
puesto en formato de tabla de ANOVA:

Tabla 8.4
Tabla ANOVA para el contraste de la Regresin
ANOVA de la Regresin
FV
SC

GL

MC

Regresin

257,816

257,8159

Residuos
Total

65,9341 14
323,75 15

4,7096

F
54,743

Prob.
3,36E-06

La otra manera de contrastar la hiptesis nula de que la correlacin en la poblacin es igual a 0, es


mediante el estadstico t, cuya expresin es:
/

  2

1 

(8.17)

que se distribuye segn la t de Student con n-2 grados de libertad. Para los datos que sirven de soporte,
el valor del estadstico es:
18

/

0,892416 2

1 0,8924

 7,3988

Cuya probabilidad es, lgicamente, la misma que del valor del estadstico F, calculado anteriormente, y
ello es debido a la igualdad entre la t y la F en determinadas condiciones de los grados de libertad de F.
Esta relacin es la siguiente:
/b  WU,b

(8.18)

19

OPCIONAL
8.3.3.2 Intervalo de confianza (IC) para rXY
La distribucin muestral de rXY no es simtrica salvo en el caso que la XY (correlacin en la poblacin)
sea igual a 0, lo cual supone que los lmites del intervalo de confianza no son equidistantes del valor de
rXY. Sin entrar en consideraciones sobre el por qu de este comportamiento del intervalo de confianza,
para resolver este problema, Fisher desarroll el estadstico z como una transformacin de r:
# 

1
4 1 %  4 1 
2

(8.20)

donde ln es el logaritmo naturali con base e 2,7183. La distribucin muestral de z depende


nicamente del tamao muestral y presenta una distribucin normal incluso con muestras
relativamente pequeas. Su error tpico es:
1

P# 

 3

(8.21)

Luego el IC se calcula como:

IC ( z ' ) = z ' z / 2 z '


Aplicado (8.20) y (8.21) al coeficiente de correlacin obtenido con los datos del ejemplo, y para un
intervalo de confianza del 95%, asumiendo la normalidad de la distribucin muestral de z, los lmites del
IC sern:
# 

1
4 1 % 0,8924 4 1 0,8924  1,434
2

PA 

16 3

 0,2773

i  #  1,98j
cIde%  #   1,434 g 0,2773 1,96  h L #
i7    0,89

Convirtiendo estos dos valores de z, en valores de r, tomando la correspondencia de la Tabla XIII


(transformada Z de Fisher), los lmites aproximados del IC de r son, 0,71 y 0,96 (vanse las Figuras 8.8a y
8.8b para ejemplificar la utilizacin de la Tabla XIII), valores que no son simtricos respectos del
coeficiente de correlacin muestral (0,8924) ya que la distancia entre Li y rXY es distinta de la distancia
entre Ls y rXY. Es la primera vez que observamos un IC asimtrico como puede verse grficamente en la
Figura 8.9.

20

Figura 8.8a: Obtencin del valor de rinferior a partir Figura 8.8b: Obtencin del valor de rsuperior a partir
del Li de z en la Tabla XIII del Formulario.
del Ls de z en la Tabla XIII del Formulario
(obsrvese que hemos tenido que aproximar ya
que el valor de 1.98 no se encuentra en la tabla).

Figura 8.9: Coeficiente de correlacin e intervalo de confianza para los datos del ejemplo. Puede verse
claramente que el IC no es simtrico con respecto a rXY muestral.

8.3.3.3 Contraste para los coeficientes de la regresin, B y B0


Con este contraste se quiere determinar si hay evidencia estadstica de que la pendiente es diferente
de cero, es decir si la pendiente es significativamente diferente a una lnea horizontal, perpendicular al
eje de ordenadas, e igualmente si el intercepto es diferente de cero, aunque en este caso ya se ha
sealado que en la mayor parte de los estudios suele ser ignorado. Por tanto, las hiptesis nula y
alternativa respecto de la pendiente y el intercepto en la poblacin, y 0, respectivamente son:
R&:
RU :

k  0 ; k&  0

k V 0 ; k& V 0

21

El estadstico de contraste para la pendiente es:


/

$ 0
Pl

(8.22)

siendo Pm el error tpico de la distribucin muestral de la pendiente cuya expresin es:


Pl 


8 1 
Q
8  2

(8.23)

El estadstico t es un percentil de la distribucin t de Student con n-2 grados de libertad. Cuando el


tamao muestral es lo suficientemente amplio (n 100), la significacin del valor t se puede determinar
en la distribucin normal tipificada.
Aplicando este contraste a la pendiente de los datos que estn sirviendo de ejemplo, el valor del
estadstico es:
/

1,5055 0

0,8924

4,646 1
n
2,754
16 2

1,5055
 7,399
0,2035

Siendo p = 3,36x10-6 (de nuevo, el valor de t = 7,399 es tan elevado que no aparece en las tablas y, por
tanto, tampoco pueden utilizarse estas para evaluar el valor de p; esto significa que este valor de
probabilidad ha sido obtenido mediante un software cientfico) la probabilidad de encontrar un valor
igual o mayor, lo cual lleva al rechazo de la H0. Observe el lector que la probabilidad de este estadstico
es la misma que la de la F en la Tabla 8.4 del ANOVA de la Regresin.
Para el intercepto, el estadstico de contraste es:
/

$& 0
Plo

(8.24)

siendo Pmo el error tpico de la distribucin muestral del intercepto, cuya expresin es:
1
9
Plo  P< Q %
  18

(8.25)

siendo P< el Error Tpico, ya comentado en el epgrafe de bondad de ajuste, y cuyo valor es la raz
cuadrada de la Media Cuadrtica (MC) de los Residuos de la tabla del ANOVA (Tabla 8.4) para el
contraste de la regresin, que representa la varianza residual en la poblacin para el caso de la regresin
bivariada. Como en el caso de la pendiente, el estadstico t tiene la misma distribucin con los mismos
grados de libertad.
Aplicando el contraste a los datos del ejemplo, y teniendo en cuenta que, en el caso de la regresin
bivariada la varianza residual en la poblacin tiene n-2 grados de libertad, y dado que estamos haciendo
la inferencia para la poblacin, el valor de la varianza residual es:

22

/

4,0275 0

1
6,375
4,7096n16 % 16 17,583

4,0275
 2,864
1,4061

Cuya probabilidad es 0,006, por lo que se rechaza la hiptesis nula de que el intercepto es igual a 0
(tanto si utilizamos un = 0,05 como un = 0,01 ). Como puede verse en la Figura 8.10, las Tablas
solo nos permiten determinar que 2,864 se encuentra entre los valores 2,624 y 2,977. Por consiguiente,
la p debe encontrarse entre 1-0,990 = 0.01 y 1-0.995 = 0.005. La probabilidad calculada se realiz
mediante software cientfico.

Figura 8.10

8.3.3.4 Intervalo de Confianza para los coeficientes de regresin, B y B0


Al mismo resultado se llega si en vez de calcular el estadstico t se calcula el intervalo de confianza
sobre el coeficiente de regresin, B. Dado que ya se ha calculado el Error Tpico de la distribucin
muestral de B (Pl ) con la expresin (8.23), los lmites del IC de B, se obtendrn segn la siguiente
frmula:
cI $  $ g p/ bC ;UCq  s Pl 

(8.26)

siendo t(n-2;1-/2), el valor de t de la distribucin t de Student con n-2 grados de libertad y un nivel de
significacin . Aplicando la frmula a los resultados del ejemplo se obtiene, para un nivel de confianza
del 95%, los siguientes lmites:
cIl  1,5055 g 2,145 t

4,646 1 0,8924
1,942j
Q
uv
1,069
16 2
2,754

Al no contener el ICB el valor 0 entre sus lmites, se llega, obviamente, a la misma conclusin que a
travs del estadstico t.

23

Para el intercepto, la frmula de clculo del IC es:


cI $&   $& g / bC ;UCq  Plo 

(8.27)

Aplicando la expresin a los datos del ejemplo los lmites son


1
6,375
7,043j
cIlo  4,0275 g 2,145 t
4,7096Q
%
uv
1,012
16 16 17,583
Tambin aqu se llega a la misma conclusin que con el estadstico de contraste t, se rechaza la
hiptesis nula ya que el intervalo de confianza no incluye el valor 0.

24

OPCIONAL
3.3.5 Intervalo de Confianza de los valores estimados Y
Por ltimo, para cerrar los apartados de contrastes de hiptesis e intervalos de confianza, resta
nicamente calcular el IC para los valores estimados Y para cada valor de la VI. Para ello slo se necesita
conocer el Error Tpico de la distribucin muestral de los pronsticos, error que es una funcin, entre
otros estadsticos, de cada valor de la VI y de su media. Su expresin es:
7 9
1
P#  P< Q %
  18

(8.28)

Aplicado a los datos del ejemplo con un nivel de confianza del 95%, los lmites de las estimaciones, Y
para cada valor de la VI (es decir, para cada Xi), se pueden ver en la tabla 8.5.

25

Tabla 8.5
Lmites del IC para los valores estimados de los datos del ejemplo de la Tabla 8.1
(Ecuacin de regresin: Y = 1,5055X+ 4,0275)

X
1
2
3
4
5
6
7
8
9
10

Y'
5,5330
7,0385
8,5440
10,0495
11,5549
13,0604
14,5659
16,0714
17,5769
19,0824

ETY
1,2209
1,0425
0,8752
0,7266
0,6104
0,5479
0,5572
0,6354
0,7613
0,9156

Li (Yi)
2,9145
4,8025
6,6669
8,4911
10,2457
11,8854
13,3708
14,7087
15,9440
17,1186

Ls (Yi)
8,1515
9,2744
10,4210
11,6078
12,8642
14,2355
15,7611
17,4341
19,2098
21,0463

Ejemplo del clculo para X1 = 1.

Y1' = 1.5055 X 1 + 4.0275 = 5.5330


ETY ' =
1

1 ( X i X )2
1
(1 6.375) 2
+
=
4
.
7096
+
= 1.2209
n (n 1) S X2
16 (16 1) 7.583

Li (Y1' ) = Y1' t

ETY ' = 5.5330 2.145 1.2209 = 2.9145

ETY ' = 5.5330 + 2.145 1.2209 = 8.1515

( n 2 , 1 )
2

Ls (Y1' ) = Y1' + t

( n 2 , 1 )
2

Este proceso se repetira para cada Xi.


Su representacin grfica se puede ver en la Figura 8.11. Observe el lector, que por la propia
estructura de la frmula del error tpico, la parte ms estrecha del intervalo, se sita en el punto 9, 9,
y se va abriendo a medida que las estimaciones se alejan de este punto, debido al factor 7 9 en la
frmula del Error Tpico

26

Figura 8.11 Representacin grfica del IC para los valores estimados por la lnea de regresin.

27

OPCIONAL
8.3.4 Precisin de las estimaciones de los parmetros , , y 0 y su relacin con el
tamao muestral
Hasta el momento todos los contrastes prcticos se han basado en un nmero determinado de
observaciones (en nuestro ejemplo n=16), y el grado de precisin de los contrastes viene dado (repase el
lector las frmulas de los intervalos de confianza) por el tamao muestral. En todos los casos, la
amplitud del intervalo es funcin inversa del tamao muestral. Para ver por qu sucede esto, pensemos
en los mismos estadsticos obtenidos en el ejemplo y qu le sucede al Error Tpico de la distribucin
muestral de los parmetros, es decir, el denominador de las pruebas t de los contrastes, que es el factor
que multiplica el valor de t en la construccin del Intervalo de Confianza. En la Tabla 8.6 se muestra para
los mismos estadsticos del ejemplo, qu sucede con el Error Tpico de la distribucin muestral y con la
Precisin del Intervalo para distintos valores de n.
Tabla 8.6 Relacin entre el tamao muestral y la precisin del IC

28

0,8924

Sx

2,7538

Sy
>
w

4,6458

1,5055

B0
Error
Tpico

4,0275

X
NC

Errores Tpicos
n

B0

Precisin
Y'(x)

B0

Y'(x)

10

0,2692

1,8098

0,6933

0,5998

4,0325

1,5448

12

0,2408

1,6392

0,6328

0,5246

3,5715

1,3787

14

0,2198

1,5093

0,5858

0,4714

3,2371

1,2563

16

0,2035

1,4061

0,5479

0,4314

2,9807

1,1615

2,1702

18

0,1903

1,3215

0,5165

0,3999

2,7763

1,0851

20

0,1794

1,2506

0,4900

0,3743

2,6086

1,0221

25

0,1588

1,1136

0,4382

0,3270

2,2934

0,9025

30

0,1439

1,0136

0,4000

0,2938

2,0700

0,8169

35

0,1325

0,9364

0,3703

0,2691

1,9011

0,7518

40

0,1235

0,8746

0,3464

0,2496

1,7676

0,7001

45

0,1161

0,8236

0,3266

0,2338

1,6588

0,6577

50

0,1099

0,7806

0,3098

0,2207

1,5678

0,6222

55

0,1046

0,7437

0,2954

0,2096

1,4903

0,5919

60

0,1000

0,7115

0,2828

0,2000

1,4233

0,5657

65

0,0959

0,6832

0,2717

0,1916

1,3645

0,5426

70

0,0923

0,6581

0,2618

0,1841

1,3125

0,5222

75

0,0891

0,6355

0,2529

0,1775

1,2660

0,5039

80

0,0862

0,6151

0,2449

0,1716

1,2241

0,4874

85

0,0836

0,5966

0,2376

0,1662

1,1861

0,4724

90

0,0812

0,5796

0,2309

0,1612

1,1514

0,4587

95

0,0789

0,5640

0,2247

0,1567

1,1197

0,4461

100

0,0769

0,5496

0,2190

0,1526

1,0904

0,4346

6,3750

0,95

Ejemplo de clculo para n = 20 (lnea con fondo oscuro en la tabla):

B =

SY
SX

B =
0

'
X =6

2
1 rXY
4.646 1 0,8924 2
=
= 0,179
(n 2) 2,754
(20 2)

1
X2
1
6,3752
+
=
4
,
7096
+
= 1,250
n (n 1) S X2
20 (20 1) 7,583
1 ( X i X )2
1
(6 6,375) 2

= 4,7096
+
= 0,490
2
n (n 1) S X
20 (20 1) 7,583

Las precisiones son la amplitud del intervalo de confianza dividido por


dos.
Analizando las frmulas de los errores tpicos de las distribuciones muestrales de los coeficientes
vemos que estos estn aproximadamente en una proporciona inversa a . Cuando se cuadruplica el
tamao muestral el error tpico se divide aproximadamente por la mitad. Es fcil, pues, calcular a priori
el tamao muestral cuando sabemos el Error Tpico para un n y se desea reducir en una cierta cantidad,
29

x. el clculo del nuevo n* es n/x2. Por ejemplo, para un n = 20 tenemos un Pl = 0,1799. Si queremos
reducir ese error 4 veces (es decir, o 0,25), el tamao muestral deber ser 20/0,252 = 320 sujetos.
Si lo que se desea es una reduccin concreta del Error Tpico para un n dado, es decir pasar de Pl a la

P
expresin Plx es: x   y l[P x z . Por ejemplo, si se desea pasar de un Pl de 0,78 para un n = 50 a un
l
nuevo valor de Pl igual a 0,3, la muestra necesaria es n* = 50(0,78/0,3)2 = 338 sujetos.

8.4 Anlisis de Regresin Mltiple


Como se ha sealado en el epgrafe de Introduccin, en este tema slo tratamos modelos lineales de
explicacin del comportamiento de una VD en funcin de una o varias VI. Ya hemos desarrollado la
tcnica de Anlisis de Regresin Lineal Simple, y en este epgrafe ampliamos dicho modelo para ms de
una VI, empezando por dos VI o variables predictoras. Como en el caso de una sola variable predictora,
se va a desarrollar con el mnimo aparato matemtico posible. La tcnica de clculo con el modelo de
dos variables independientes es relativamente sencilla y se puede desarrollar con un calculadora
cientfica, aunque su modelo matemtico, el mismo que el del Modelo Lineal General (MGL), del cual
los modelos de regresin y los modelos de anlisis de la varianza son parte, requiere para su desarrollo
algebra de matrices, el cual queda fuera del alcance de este texto. Dado que, en la actualidad, todos
estos procedimientos de anlisis se realizan con programas informticos de anlisis estadstico, el
inters estriba en saber leer e interpretar correctamente los resultados del anlisis. Comenzaremos, con
el modelo ms simple de regresin lineal mltiple que es el de dos variables independientes.

8.4.1 Regresin con dos Variables Independientes


Para la explicacin vamos a servirnos de un ejemplo numrico que hace menos abstracto el modelo.
Supongamos que un psiclogo escolar quiere determinar qu factores pueden influir en el rendimiento
en matemticas en uno de los cursos de educacin secundaria. Supone que el tiempo que dedican al
estudio en general es importante, y quizs tambin su capacidad para el razonamiento abstracto. Para
llevar a cabo esta investigacin, selecciona al azar una muestra de 15 estudiantes del colegio y registra
el tiempo semanal de estudio (variable X1) y les administra, adems, un test de razonamiento abstracto
(variable X2). Las notas obtenidas por estos 15 escolares en el ltimo examen que han realizado de
matemticas le sirven como variable dependiente (Y). Los datos son los que se muestran en la Tabla 8.7

30

Tabla 8.7
Datos para el desarrollo del anlisis con dos VI
Sujeto

Horas Estudio
(X1)

Test
Punt.
Razonamiento Matemticas
(X2)
(Y)

19

54

18

52

14

34

24

63

19

46

16

44

12

17

50

14

52

23

57

10

11

21

53

11

10

17

56

12

13

19

67

13

24

57

14

19

54

15

11

17

51

El modelo de estimacin lineal de la VD con dos VIs, constar de dos coeficientes de regresin, uno
para cada VI, y una constante que ser el valor estimado para la VD cuando son nulas las dos VI. No
obstante, como ya hemos explicado anteriormente, la constante, si no est el valor cero dentro del
rango de valores de las variables predictoras no se toma en consideracin en el anlisis. Es decir, si X1= 0
y X2 = 0 no forman parte de los rangos admitidos empricamente por ambas variables, no tiene sentido
considerar el valor que adoptara la constante en esos casos. El modelo de estimacin es:
 #  $U U % $  % $&

(8.29)

Por lo que la VD se puede expresar como:


   # % :  $U U % $  % $& % :

(8.30)

Siendo B1 el coeficiente de regresin parcial para X1, B2 el coeficiente de regresin parcial para X2, y
B0 el intercepto con el eje de la Y cuando X1 y X2 valen 0, y los residuos una vez que se ha determinado
la funcin de estimacin de la VD. Al igual que en regresin simple, estos coeficientes son los que hacen
mnimo el error cuadrtico de prediccin, es decir, minimizan las diferencias cuadrticas entre Y e Y.

31

En primer lugar, antes de calcular los coeficientes de regresin parciales de la ecuacin, llamados as
para remarcar que es el peso o efecto de una VI cuando el resto de las VI que estn en la ecuacin
permanecen constantes, en la Tabla 8.8 se muestran los estadsticos descriptivos de cada una de las
variables, los coeficientes de correlacin entre las variables dos a dos (tambin llamados bivariados) y
las rectas de regresin simple entre cada predictor y la VD. Hemos simplificado la notacin de los
coeficientes de correlacin (ry1 representa la correlacin entre la variable Y y el predictor X1, y el resto
siguen la misma pauta) y tambin de la regresin ( Y1' representa las estimaciones Y realizadas a partir de
X1 )

Tabla 8.8
Estadsticos descriptivos de los datos de la Tabla 8.7
Horas Estudio
(X1)

Test
Razonamiento
(X2)

Punt.
Matemticas
(Y)

9,33
1,91

18,73
3,17

52,67
7,76

ry1

0,441

ry2

0,628

r12

-0,043

rY21 = 0,194
rY22 = 0,394
r122 = 0,002

Media
Desv. Tpic.

Rectas de Regresin

Y'1 = 1,786 X1 + 36
Y'2 = 1,537 X2 + 23,867

Para facilitar el clculo de los coeficientes de regresin parcial de la ecuacin (8.29), comenzaremos, por
sencillez, obteniendo la ecuacin de regresin en puntuaciones tpicas o estandarizadas, cuya expresin
es:
5  kU U % k 

(8.31)

siendo 1 y 2 los coeficientes de regresin parcial estandarizados, y se obtienen mediante las siguientes
frmulas:

32

kU 

U  U

1 U

 U U
k 

1 U

(8.32)

Con los resultados de la Tabla 8.


kU 
k 

0,441 0,628 0,043


 0,469
1 0,043

0,628 0,441 0,043


 0,649
1 0,043

Una vez determinados los coeficientes de regresin parcial estandarizados, se obtienen fcilmente los
coeficientes sin estandarizar mediante la relacin:
$U  kU

8
8U

8
$  k
8

(8.33)

siendo S1 y S2, las desviaciones tpicas de las variables X1 y X2, respectivamente. Sustituyendo por los
valores de la Tabla 8.8 los coeficientes no estandarizados son:
$U  0,469
$  0,649

7,76
 1,899
1,91

7,76
 1,587
3,17

Y la constante de la ecuacin es:


$&  9 $U 9U $ 9

(8.34)

Sustituyendo por los valores correspondientes su valor es:


$&  52,67 1,899 9,33 1,587 18,73  5,217

33

Obtenidos los coeficientes, las funciones de estimacin de la VD con coeficientes de regresin parcial
no estandarizados y estandarizados (es decir, expresada la funcin en puntuaciones directas y tpicas),
son las siguientes:
 #  1,899U % 1,587 % 5,217
#  0,469U % 0,649

Al ser dos las variables independientes, las estimaciones quedan situadas en un plano, que se conoce
como plano de regresin, del mismo modo que la lnea de estimacin en regresin simple se conoce
como lnea de regresin. Algunas de las puntuaciones de la VD estarn por encima del plano y otras por
debajo, y esas distancias de cada punto de la VD al plano forman los residuos del modelo de estimacin
(vase Figura 8.12).

Figura 8.12: tres vistas del conjunto de puntos y el plano de regresin. La zona azul representa el plano
visto desde arriba, la zona naranja representa el plano visto desde abajo . La tercera grfica intenta
visualizar todos los puntos, tanto los que estn situados por encima como los que estn situados por
debajo del plano. En este caso, el plano se ve en escorzo. Los datos estn representados por puntos
rojos.

El modelo ajustado, Y, ya arroja una primera interpretacin: cuando permanece constante X2, por
cada hora de estudio, la puntuacin en matemticas aumenta en promedio, 1,899 puntos, y cuando
permanece constante X1, por cada punto ms en razonamiento abstracto, aumenta 1,587 la puntuacin
e matemticas

8.4.2 Ajuste del modelo. Medidas de asociacin


En regresin simple, el ajuste del modelo viene dado por el coeficiente de determinacin que es el
cuadrado del coeficiente de correlacin de Pearson entre la VD y la VI, y ese coeficiente informaba de
qu porcin de la variabilidad de la VD es explicada por, o atribuida a, la variabilidad de la VI. En el caso
de la regresin mltiple, las preguntas bsicas que hay que responder son las siguientes:
Estiman bien la VD el conjunto de VIs?
Cunta variabilidad explica cada variable individualmente una vez que las otras variables han
aportado lo suyo?
34

Comencemos por responder a la primera pregunta, y para ello disponemos del denominado
coeficiente de correlacin mltiple, R, y su cuadrado, el coeficiente de determinacin, R2. Al igual que r
es el coeficiente de correlacin entre dos variables, R es el coeficiente que correlaciona la VD con una
combinacin ptima de dos o ms variables independientes. Su frmula de clculo es:


U
% 
2U  U
H.U  Q

1 U

(8.35)

Y de forma alternativa, una expresin si cabe ms simple es la basada en los coeficientes de regresin
parcial estandarizados de la recta de regresin:
H.U 
kU U % k 

(8.36)

Aplicada la frmula (8.32) a los datos del ejemplo, el valor de RY.12 es:
H.U 
0,469 0,441 % 0,649 0,628  0,7836
El coeficiente de determinacin es el cuadrado del coeficiente de correlacin mltiple, y su
interpretacin y clculo es idntica a la de la regresin simple: razn entre la varianza de los pronsticos
y la varianza de la VD.

H.U



8.U
 H.U 
8

(8.37)

En la Tabla 8.9 se muestran los valores de Y, los pronsticos y los residuos para los datos del ejemplo,
cuya funcin de estimacin de Y, ya calculada, es:
 #  1,899U % 1,587 % 5,217

Tabla 8.9
Puntuacin en Matemticas actual, estimada y residual para cada sujeto
Punt.
Matemticas
(Y)

Estimaciones
(Y12)

Residuos
(Y Y12)

54

50,562

3,438

52

50,874

1,126

34

38,829

-4,829

63

60,396

2,604

46

52,461

-6,461

44

47,7

-3,7

35

50

54,984

-4,984

52

44,526

7,474

57

53,112

3,888

53

59,433

-6,433

56

51,186

4,814

67

60,057

6,943

57

60,396

-3,396

54

52,461

1,539

51

53,085

-2,085

Varianza
60,238
36,991
23,247
Ejemplo de clculo para el primer sujeto:

Y1 = 54 X 1 = 8 X 2 = 19
Y12' = 1.899 X 1 + 1.587 X 2 + 5.217 = 50.562
Y1 Y12' = 54 50.562 = 3.438
A partir de los datos de la Tabla 8.9 se obtiene el coeficiente de determinacin R2.

H.U



8U
36,991
 60,238  0,614
8

Es decir, la combinacin de las dos variables (tiempo de estudio y razonamiento abstracto) se


atribuyen el 61,4% de la variabilidad de las puntuaciones obtenidas en matemticas, y por tanto el
38,6% restante se debe a otros factores no relacionados linealmente con dichas puntuaciones. Vemos
que se cumple lo que denominamos Teorema de Pitgoras de la Regresin Lineal: la varianza de las
puntuaciones observadas es igual a la varianza de las puntuaciones estimadas ms la varianza de los
residuos. En este caso, tomando los valores de las varianzas calculadas: 60,238 = 36,991 + 23,247.
El coeficiente R2 obtenido en la muestra no es un estimador insesgado de 2 en la poblacin. Para
entender esto de forma intuitiva, podemos imaginar el caso en que una o ms VIs no contribuyen a la
explicacin de la varianza de la VD en la poblacin. Sin embargo, en la muestra, debido a las
fluctuaciones del proceso de muestreo, raramente se observa una situacin en la que no haya
contribucin de una VI a la varianza de la VD, aunque sea muy pequea. Cuanto menor sea la muestra
mayor ser la contribucin a la VD, lo que provoca un aumento artificial de la R2, valor que no se
correspondera con el 2 en la poblacin. Por esa razn, es preferible disponer de una estimacin ms
ajustada y realista de 2. Este ajuste, se conoce como R2 Ajustado que simbolizaremos mediante la R
mayscula a la que se le superpone el signo virgulilla:


H|.U
 1 1 H.U


 1
 ) 1

(8.38)

siendo n, el nmero de observaciones y p, el nmero de variables independientes o predictoras. Para el


caso de ejemplo, el valor de R2 Ajustado es:

36


H|.U
 1 1 0,614

15 1
 0,5498
15 2 1

Otro valor que informa del ajuste es el Error Tpico (ya explicado para el caso bivariado) y que est
relacionado con R2 en el sentido de que cuando ste aumenta el Error Tpico disminuye. De acuerdo a la
ecuacin 8.14, y siendo las sumas de cuadrados las que se muestran en la Tabla 8.10, su valor para este
ejemplo es:
 5
325,451
P<  Q
Q
 5,2078
 ) 1
15 2 1

Tabla 8.10
Sumas de cuadrados total, residual y debidas a la regresin del ejemplo numrico
> ~
} = =
SCTotal

} = =5~
SCResiduos

> ~
} =5 =

843,333

325,451

517,968

SCRegresin

8.4.3 Correlacin Semiparcial y Parcial


La segunda de las preguntas que hacamos al comienzo del epgrafe anterior, es cmo determinar la
contribucin de cada variable independiente a la explicacin de la dependiente. La respuesta a esta
pregunta la proporciona la llamada correlacin semiparcial, sr, y su cuadrado, sr2. Antes de explicar qu
son esas nuevas correlaciones que acaban de entrar en escena, piense el lector que cuando en un
modelo intervienen ms de dos variables, las correlaciones que se calculan entre las variables dos a dos,
no son correlaciones puras, en el sentido de que no miden relaciones entre esas dos variables al
margen del influjo que las otras variables del modelo puedan tener sobre cada una de ellas. Estas
correlaciones que se calculan entre dos variables (correlaciones bivariadas) se denominan correlaciones
de orden cero, y a travs del valor obtenido no se puede saber qu parte de la varianza de la VD es
capaz de explicar independientemente cada una de las VIs, puesto que entre stas tambin puede
haber relacin. Por lo tanto, para saber qu parte de la VD explica cada VI al margen de las otras VIs, es
necesario eliminar el influjo que sobre cada VI tienen el resto de las VIs, para as poder determinar el
influjo nico que esa VI tiene sobre la VD. Esta relacin entre cada VI y la VD habiendo eliminado el
influjo del resto de las VIs sobre cada VI es lo que se llama Coeficiente de Correlacin Semiparcial.
Cmo se calcula este coeficiente? Ya sabemos, por todo lo explicado hasta el momento, que en un
modelo de regresin hay una proporcin de varianza explicada y una proporcin de varianza no
37

explicada que es la varianza de los residuos. La varianza explicada lo es en funcin de una cierta
combinacin de las variables independientes; por consiguiente, si en un modelo, por ejemplo, con dos
predictoras X1 y X2, se ajusta una regresin de la 1 sobre la 2, se extraen los residuos y, por ltimo, los
correlaciono con la VD, habr calculado el coeficiente de correlacin semiparcial entre X1 y la VD
habiendo eliminado el influjo de X2 sobre la VD. Por otra parte, si se ajusta una regresin simple entre X2
y X1 (obsrvese el cambio de subndices en relacin a la frase anterior), se extraen los residuos y stos se
correlacionan con la VD, habr calculado la correlacin entre el predictor X2 y la VD, habiendo eliminado
el influjo de X1 sobre la VD.
Para llevar a cabo este clculo de los coeficientes de correlacin semiparcial no es necesario
proceder como hemos explicado en el prrafo anterior; hay frmulas muy sencillas para ello, a partir de
las correlaciones de orden cero.
*U 

* 

U  U

1 U

 U U

(8.39)

1 U

y elevando al cuadrado estos valores se tiene la contribucin que cada VI tiene sobre la VD habiendo
eliminado el influjo de las otras VIs. En la Figura 8.13 se observa grficamente, mediante un Diagrama
de Venn, ests contribuciones expresadas en forma de rea compartida

Figura 8.13 Diagrama de Venn para un modelo de regresin con dos variables independientes
Tomando como referencia el diagrama de la Figura 8.13, las equivalencias entre las zonas designadas
con letras y los cuadrados de los coeficientes de correlacin semiparcial, son las siguientes:

38



+  *U  H.U


(8.40)



  *  H.U
U

siendo:

~=.~  % %

~=  %

~=~  %

Para el ejemplo numrico que sirve de base a la explicacin, los clculos de los coeficientes de
correlacin semiparcial son los siguientes:
*U 
* 

0,4406 0,6285 0,0431

1 0,0431

0,6285 0,4406 0,0431

1 0,0431

 0,4681
 0,6481

Estos valores elevados al cuadrado dan la proporcin de varianza compartida por cada
predictora habiendo eliminado el influjo de la otra predictora sobre la misma.
+  *U  0,4681  0,2191
  *  0,6481  0,4200

El valor 0,46812 (0,2191) es a en el diagrama de la Figura 8.13, y 0,64812 (0,4200) es b. Estos dos
valores representan la contribucin exclusiva que cada variable hace a la explicacin de la dependiente.
La porcin c, es la proporcin de varianza de la VD estimada conjuntamente (es decir, de forma
redundante) por las dos variables. Sin embargo esta proporcin es de muy difcil interpretacin.
El otro coeficiente que se calcula en los modelos de regresin, y que adems sirve para determinar
cul es la primera variable que se incorpora al modelo cuando se realiza variable a variable3, es el
denominado coeficiente de correlacin parcial, pr. La diferencia con el semiparcial es que en el parcial

Hay varios mtodos para la introduccin de variables en el anlisis de regresin. Uno de estos mtodos es el
denominado Stepwise (Pasos Sucesivos) y en l se introduce en primer lugar la variable con mayor correlacin con
el criterio, y a partir de ah, sucesivamente la variable que mayor correlacin parcial tenga con el criterio. El
proceso de introduccin de variable se detiene cuando la siguiente variable independiente que va a entrar no
aporta un plus significativo a la explicacin de la VD.

39

se elimina el influjo de los predictores tanto de la VI objeto de correlacin como de la VD. Es decir, es
una correlacin entre residuos.
En el modelo de dos variables, si se ajusta una recta entre Y y X2, y nos quedamos con los residuos, y
si se ajusta una recta entre X1 y X2, y nos quedamos tambin con los residuos, podemos correlacionar
ambos residuos. De esta forma obtendremos la correlacin parcial entre Y y X1. A partir de aqu se ve
claro que esta es la correlacin pura entre dos variables, puesto que de ambas se ha extrado el influjo
de terceras variables. Al igual que en la correlacin semiparcial, no es necesario el clculo de los
residuos, pues se pueden obtener a partir de los correlaciones de orden cero entre pares de variables.
)U 

) 

U  U

1 
U

 U U

(8.41)

1 U

1 U

El cuadrado de estos coeficientes (p.e. pr1) se interpreta como la proporcin de la varianza de la VD


(Y) no asociada con X2 que s est asociada a X1.
Otra manera de calcular esta proporcin de varianza es por medio de las porciones representadas en
el diagrama de Venn de la Figura 8.13.
)U 



+
H.U



+%,
1 




H.U
U
) 


%,
1 U

(8.42)

Aplicando las frmulas a los datos del ejemplo, los coeficientes son:
)U 
) 

0,441 0,628 0,043

0,628
1

0,441
1

0,043

0,043

0,628 0,441 0,043

 0,6018 ; )U  0,6018  0,3622


 0,7219 ; )  0,7219  0,5211

Si se hubiera realizado una regresin paso a paso, es decir, introduciendo las variables por su relacin
con la VD, la primera que habra entrado en el modelo hubiera sido la variable X2 (en el ejemplo,
Razonamiento abstracto) que es la que presenta mayor correlacin con la VD.
En resumen, por los resultados del coeficiente de correlacin parcial y semiparcial al cuadrado, en el
modelo obtenido est clara la contribucin de ambas variables a la explicacin de la puntuacin en
matemticas. El cuadrado de los coeficientes pr seala la proporcin de varianza de una VI asociada con
la parte de la VD que no est asociada con la otra VI. En nuestro caso es mayor la de razonamiento
abstracto que la de tiempo de estudio (52,11% y 36,22%, respectivamente). Adems, el modelo es
bueno (luego veremos su significacin estadstica, por medio de los contrastes) porque ambas variables
independientes tienen una buena relacin con la dependiente, y sin embargo, entre ellas no hay apenas
40

relacin (es, pues, un modelo casi ideal4). Cmo se manifiesta numricamente la ausencia de relacin
entre las variables independientes?, pues sencillamente en que el coeficiente de determinacin, R2
(0,6141), tiene un valor aproximado (siempre menor) que la suma de los cuadrados de los coeficientes
de correlacin semiparcial (0,2191+0,4200 = 0,6391 < 0.6141). La diferencia entre ambos valores es la
parte redundante del diagrama de Venn (zona c) que el modelo de regresin elimina cuando se ajusta
con el conjunto completo de variables independientes.

Los datos del ejemplo son ficticios y han sido simulados para lograr este efecto de correlacin media-alta de
las variables predictoras con la VD y ausencia de correlacin entre las predictoras. En anlisis de regresin, cuando
las VIs correlacionan se dice que hay colinealidad, y cuanto mayor es sta peor es el modelo de regresin.

41

EL RESTO DEL CAPTULO (HASTA LOS EJERCICIOS DE AUTOEVALUACIN) ES OPCIONAL


8.4.4 Inferencias sobre la Regresin Mltiple
Siguiendo el mismo proceso que en el caso de la regresin simple, el contraste se puede realizar bien
a travs de la confeccin de los intervalos de confianza o bien mediante estadsticos de contraste, como
la F de la tabla del ANOVA, resultado del cociente entre la media cuadrtica de la regresin y la media
cuadrtica de los residuos.
El IC para R2 (Olkin y Finn, 1995), se construye a partir del error tpico de R2, cuya expresin es la
siguiente:
4H 1 H   ) 1
PB  Q
 1  % 3

(8.43)

siendo n el nmero de observaciones en la muestra y p el nmero de variables independientes.


Aplicado a los datos del ejemplo,
4 0,6141 1 0,6141 15 2 1
PB  Q
 0,1143
15 1 15 % 3

siendo el IC de R2 al 95%: 0,6141 (2,16)(0,1143) = (0,367 ; 0,861) siendo 2,16 es el valor crtico de la
distribucin t con 15-2 = 13 grados de libertad. A partir de estos lmites se rechazara la hiptesis nula de
que R2 en la poblacin es igual a 0 ya que los lmites no incluyen este valor.
Al mismo resultado llegaremos a travs del estadstico F de la tabla ANOVA, valor que, adems de
obtenerse como el cociente de las medias cuadrticas de la regresin y del residuo, se puede calcular
tambin con la siguiente frmula basada en R2:
W


 ) 1
HU
)
1 HU

(8.44)

Aplicando a los datos del ejemplo:


W

0,6141 15 2 1
 9,548
1 0,6141 2

Igual al que se obtiene en la tabla del ANOVA (Tabla 8.11)

Tabla 8.11
Estadsticos de la regresin de los datos de la Tabla 8.7, y contraste de R2
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R2

0,7836
0,6141

42

R2 ajustado
Error tpico residual (P< )
Observaciones

ANOVA de la Regresin
FV
SC
Regresin
517,968
Residuos
325,451
Total
843,333

GL
2
12
14

0,5498
5,2078*
15

MC
258,984
27,121

F
9,549

Prob.
0,003

* El valor de P< es la raz cuadrada de la MC de los residuos.

Respecto de los coeficientes de regresin parcial, tanto estandarizados como no estandarizados


el contraste se realiza del mismo modo que en la regresin simple, y la diferencia estriba en que hay que
calcular un error tpico para cada coeficiente de cada variable independiente. La frmula es la siguiente:
Pl 


8
1
1 H.U
Q
Q

87 1 H7  ) 1

(8.45)


donde H.U
es el coeficiente de determinacin, H7 , es el coeficiente de determinacin de la regresin
de la variable predictora i respecto del resto de variables predictoras; es decir, la proporcin de varianza
de la predictora i explicada por una combinacin ptima del resto de predictoras (en el caso del
ejemplo, al ser slo dos las predictoras, el valor de H7 es el mismo para calcular el error tpico de ambos
coeficientes de regresin parcial). Por ltimo, SY es la desviacin tpica de la variable dependiente y Si es
la desviacin tpica del predictor i.
Para los datos del ejemplo los errores tpicos para contrastar los coeficientes de regresin parcial
son:

B =
1

B =
1

SY
1
S X 1 1 r122

SY
SX 2

1
1 r122

1 RY212
7,76
1
1 0,6141
=
= 0,7275
2
n p 1 1,91 1 (0,043) 15 2 1

1 RY212
7,76
1
1 0,6141
=
= 0,4391
2
n p 1 3,17 1 (0,043) 15 2 1

A partir de estos valores es sencillo calcular el IC para cada coeficiente de regresin, y comprobar si
dentro del intervalo se encuentra el valor 0. Si no es el caso, se rechazar la hiptesis nula de que los
coeficientes en la poblacin son igual a cero. En la Tabla 8.12 se presenta el resultado de estos
contrastes.

Tabla 8.12 Contrastes de los coeficientes de regresin parcial*


Coeficientes

Error
tpico

Prob.

Li (95%)

Ls (95%)
43

Horas Estudio
Test
Razonamiento

1,8991

0,7275

2,6102

0,0228

0,3139

3,4842

1,5868

0,4391

3,6138

0,0036

0,6300

2,5435

* Los lmites, se obtienen restando y sumando al valor del coeficiente, el producto entre el error tpico y el valor de t para un
nivel de confianza del 95% y n-p-1 grados de libertad (en el caso del ejemplo, este valor es 2,179). No se ha incluido el contraste
de la constante

Por ltimo, quedara el contraste de las correlaciones parcial y semiparcial. Como se han visto en la
frmulas estos dos coeficientes difieren en su clculo solo en el denominador por lo que o los dos son
igual a cero o los dos son diferentes de cero. Por ello, el estadstico de contraste se calcula slo para uno
de los coeficientes, en este caso el semiparcial. La frmula es:
 ) 1
/7  *7 Q
1 H

(8.46)

donde sri es la correlacin semiparcial entre la variable i y la variable dependiente.


Para los datos del ejemplo, los valores de t para los dos coeficientes de correlacin semiparcial son:
15 2 1
/U  0,4681Q
 2,6102
1 0,6141

15 2 1
/  0,6481Q
 3,6138
1 0,6141

Que son los valores del estadstico t para los coeficientes de regresin parcial que se muestran en la
Tabla 8.12.

8.5 Ejercicio prctico


Una vez explicados los fundamentos bsicos del anlisis de regresin (hemos dejado al margen los
diferentes mtodos que hay para desarrollar el anlisis, el estudio de los casos de influencia o el anlisis
de los residuos, por exceder el alcance de este curso) es importante que el lector vea una salida de
resultados de una anlisis de regresin realizado con un programa informtico de anlisis estadstico, e
identificar los elementos que se han expuesto en el captulo.
Los datos de este ejercicio est adaptado del texto de Hair, Anderson, Tatham y Black (2001)
Anlisis Multivariado, y se refieren al estudio que una empresa ficticia (HATCO) realiza para
determinar el nivel de fidelidad de sus clientes, a partir de un conjunto de variables predictoras o
independientes, todas ellas cuantitativas, que se presentan en el Cuadro 8.2. El trmino Mtrica, a la
derecha del nombre de la variable, seala que es una variable de tipo cuantitativo.

Cuadro 8.2 Caractersticas de las variables del ejercicio

44

X1

Velocidad de entrega

Mtrica

X2

Nivel de precios

Mtrica

X3

Flexibilidad de precios

Mtrica

X4

Imagen del fabricante

Mtrica

X5

Servicio conjunto

Mtrica

X6

Imagen de fuerza de ventas

Mtrica

X7

Calidad de producto

Mtrica

X8

Nivel de fidelidad

Mtrica

X9

Nivel de satisfaccin

Mtrica

Percepciones de HATCO
Cada una de estas variables, excepto el Nivel de fidelidad (X8), se midi con una escala de
puntuacin grfica donde se dibuj una lnea entre dos puntos separados por diez centmetros que se
denominaron Pobre y Excelente:

Pobre

Excelente

Los encuestados sealan su percepcin haciendo una marca en la lnea. La marca se mide y se
registra la distancia desde el punto que se consider cero, en este caso, Pobre. La medicin se realiz
en centmetros. El resultado fue una escala que iba desde cero a diez, redondeado a un nico decimal.
Los siete atributos de HATCO puntuados por los encuestados y que sirven de VIs son los siguientes:
X1

Velocidad de entrega: tiempo que transcurre hasta que se entrega el producto, una vez que
se hubo confirmado el pedido.

X2

Nivel de precio: nivel de precios percibido por los clientes industriales.

X3

Flexibilidad de precios: la disposicin percibida en los representantes de HATCO para


negociar el precio de todas las compras.

X4

Imagen del fabricante: imagen conjunta del fabricante/distribuidor.

X5

Servicio: nivel conjunto de servicio necesario para mantener una relacin satisfactoria entre el
vendedor y el comprador.

X6

Imagen de la fuerza de ventas: imagen conjunta de la fuerza de ventas del fabricante.

X7

Calidad del producto: nivel de calidad percibido en un producto particular (por ejemplo, el
acabado o el rendimiento).

X9

Nivel de satisfaccin: satisfaccin del comprador con las compras anteriores realizadas a
HATCO, medidas en el mismo grfico de la escala de clasificacin de las entradas X1 a X7

La VD es:
X8 Nivel de fidelidad: cunto se compra a HATCO del total del producto de la empresa, medido
en una escala porcentual, que va desde 0 al 100 por cien.

45

46

Datos del ejercicio de Anlisis de Regresin Mltiple


id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

x1
4,10
1,80
3,40
2,70
6,00
1,90
4,60
1,30
5,50
4,00
2,40
3,90
2,80
3,70
3,20
4,90
4,70
3,30
3,00
2,40
2,40
5,20
3,50
3,00
2,80
5,20
3,40
2,40

x2
0,60
3,00
5,20
1,00
0,90
3,30
2,40
4,20
1,60
3,50
1,60
2,20
1,40
1,50
4,10
1,80
1,30
0,90
4,00
1,50
1,50
1,30
2,80
3,20
3,80
2,00
3,70
1,00

x3
6,90
6,30
5,70
7,10
9,60
7,90
9,50
6,20
9,40
6,50
8,80
9,10
8,10
8,60
5,70
7,70
9,90
8,60
9,10
6,70
6,60
9,70
9,90
6,00
8,90
9,30
6,40
7,70

x4
4,70
6,60
6,00
5,90
7,80
4,80
6,60
5,10
4,70
6,00
4,80
4,60
3,80
5,70
5,10
4,30
6,70
4,00
7,10
4,80
4,80
6,10
3,50
5,30
6,90
5,90
5,70
3,40

x5
2,40
2,50
4,30
1,80
3,40
2,60
3,50
2,80
3,50
3,70
2,00
3,00
2,10
2,70
3,60
3,40
3,00
2,10
3,50
1,90
1,90
3,20
3,10
3,10
3,30
3,70
3,50
1,70

x6
2,30
4,00
2,70
2,30
4,60
1,90
4,50
2,20
3,00
3,20
2,80
2,50
1,40
3,70
2,90
1,50
2,60
1,80
3,40
2,50
2,50
3,90
1,70
3,00
3,20
2,40
3,40
1,10

x7
5,20
8,40
8,20
7,80
4,50
9,70
7,60
6,90
7,60
8,70
5,80
8,30
6,60
6,70
6,20
5,90
6,80
6,30
8,40
7,20
7,20
6,70
5,40
8,00
8,20
4,60
8,40
6,20

x8
32,00
43,00
48,00
32,00
58,00
45,00
46,00
44,00
63,00
54,00
32,00
47,00
39,00
38,00
38,00
40,00
55,00
41,00
55,00
36,00
36,00
54,00
49,00
43,00
53,00
60,00
47,00
35,00

x9
4,20
4,30
5,20
3,90
6,80
4,40
5,80
4,30
5,40
5,40
4,30
5,00
4,40
5,00
4,40
5,60
6,00
4,50
5,20
3,70
3,70
5,80
5,40
3,30
5,00
6,10
3,80
4,10

id
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63

x1
3,10
3,40
5,40
3,70
4,50
2,80
3,80
2,90
4,90
4,30
2,30
3,10
5,10
4,10
1,10
3,70
4,20
1,60
5,30
2,30
5,60
5,20
1,00
4,50
2,30
2,60
2,50
2,10

x2
1,90
3,90
2,10
0,70
4,10
2,40
0,80
2,60
4,40
1,80
4,50
1,90
1,90
1,10
2,00
1,40
2,50
4,50
1,70
3,70
2,20
1,30
1,90
1,60
3,70
3,00
3,10
3,50

x3
10,00
5,60
8,00
8,20
6,30
6,70
8,70
7,70
7,40
7,60
8,00
9,90
9,20
9,30
7,20
9,00
9,20
6,40
8,50
8,30
8,20
9,10
7,10
8,70
7,60
8,50
7,00
7,40

47

x4
4,50
5,60
3,00
6,00
5,90
4,90
2,90
7,00
6,90
5,40
4,70
4,50
5,80
5,50
4,70
4,50
6,20
5,30
3,70
5,20
3,10
4,50
4,50
4,60
5,00
6,00
4,20
4,80

x5
2,60
3,60
3,80
2,10
4,30
2,50
1,60
2,80
4,60
3,10
3,30
2,60
3,60
2,50
1,60
2,60
3,30
3,00
3,50
3,00
4,00
3,30
1,50
3,10
3,00
2,80
2,80
2,80

x6
3,20
2,30
1,40
2,50
3,40
2,60
2,10
3,60
4,00
2,50
2,20
3,10
2,30
2,70
3,20
2,30
3,90
2,50
1,90
2,30
1,60
2,70
3,10
2,10
2,50
2,80
2,20
2,30

x7
3,80
9,10
5,20
5,20
8,80
9,20
5,60
7,70
9,60
4,40
8,70
3,80
4,50
7,40
10,00
6,80
7,30
7,10
4,80
9,10
5,30
7,30
9,90
6,80
7,40
6,80
9,00
7,20

x8
55,00
43,00
53,00
41,00
50,00
32,00
39,00
47,00
62,00
46,00
50,00
54,00
60,00
47,00
40,00
45,00
59,00
46,00
58,00
49,00
55,00
60,00
39,00
56,00
37,00
53,00
43,00
36,00

x9
4,90
4,70
3,80
5,00
5,50
3,70
3,70
4,20
6,20
5,60
5,00
4,80
6,10
5,30
3,40
4,90
6,00
4,50
4,30
4,80
3,90
5,10
3,30
5,10
4,40
5,60
3,70
4,30

29
30
31
32
33
34
35

1,80
4,00
0,00
1,90
4,90
5,00
2,00

3,30
0,90
2,10
3,40
2,30
1,30
2,60

7,50
9,10
6,90
7,60
9,30
8,60
6,50

4,50
5,40
5,40
4,60
4,50
4,70
3,70

2,50
2,40
1,10
2,60
3,60
3,10
2,40

2,40
2,60
2,60
2,50
1,30
2,50
1,70

7,60
7,30
8,90
7,70
6,20
3,70
8,50

39,00
46,00
29,00
40,00
53,00
48,00
38,00

3,60
5,10
3,90
3,70
5,90
4,80
3,20

64
65
66
67
68
69
70

2,90
4,30
3,10
1,90
4,00
6,10
2,00

1,20
2,50
4,20
2,70
0,50
0,50
2,80

7,30
9,30
5,10
5,00
6,70
9,20
5,20

48

6,10
6,30
7,80
4,90
4,50
4,80
5,00

2,00
3,40
3,60
2,20
2,20
3,30
2,40

2,50
4,00
4,00
2,50
2,10
2,80
2,70

8,00
7,40
5,90
8,20
5,00
7,10
8,40

34,00
60,00
43,00
36,00
31,00
60,00
38,00

4,00
6,10
5,20
3,60
4,00
5,20
3,70

8.5.1 Resultados
En primer lugar veremos los estadsticos descriptivos de las variables, as como la matriz de
correlaciones, con su significacin estadstica (como criterio, piense el lector que una probabilidad
mayor de 0,05 supone la aceptacin de que, en la poblacin las dos variables en cuestin no estn
relacionadas).
Estadsticos descriptivos
Media
45,9000

Desviacin
tpica
8,97686

Velocidad de entrega

3,4114

1,33466

70

Nivel de precios

2,3686

1,17825

70

Flexibilidad de precios

7,8571

1,33694

70

Imagen de fabricante

5,1686

1,07158

70

Servicio conjunto

2,8771

,72375

70

Imagen de fuerza de ventas

2,6643

,75662

70

Calidad de producto

7,0743

1,57973

70

Nivel de satisfaccin

4,6971

,85651

70

Nivel de fidelidad

Correlacin de Nivel de
Pearson
fidelidad

Sig.
(unilateral)

Nivel de Velocidad
fidelidad de entrega
1,000
,656

Nivel de Flexibilidad Imagen de


precios
de precios fabricante
,100
,564
,236

N
70

Servicio
conjunto
,709

Imagen de
fuerza de
ventas
,277

Calidad de
Nivel de
producto satisfaccin
-,182
,696

Velocidad de
entrega

,656

1,000

-,363

,512

,065

,625

,087

-,493

,637

Nivel de precios

,100

-,363

1,000

-,461

,278

,490

,186

,468

-,004

Flexibilidad de
precios

,564

,512

-,461

1,000

-,038

,101

,054

-,415

,567

Imagen de
fabricante

,236

,065

,278

-,038

1,000

,302

,776

,196

,512

Servicio
conjunto

,709

,625

,490

,101

,302

1,000

,236

-,079

,599

Imagen de
fuerza de
ventas

,277

,087

,186

,054

,776

,236

1,000

,185

,365

Calidad de
producto

-,182

-,493

,468

-,415

,196

-,079

,185

1,000

-,282

Nivel de
satisfaccin

,696

,637

-,004

,567

,512

,599

,365

-,282

1,000

,000

,204

,000

,025

,000

,010

,065

,000

,000

,001

,000

,297

,000

,237

,000

,000

Nivel de
fidelidad
Velocidad de
entrega

49

Nivel de precios

,204

,001

,000

,010

,000

,061

,000

,487

Flexibilidad de
precios

,000

,000

,000

,378

,202

,327

,000

,000

Imagen de
fabricante

,025

,297

,010

,378

,006

,000

,052

,000

Servicio
conjunto

,000

,000

,000

,202

,006

,024

,258

,000

Imagen de
fuerza de
ventas

,010

,237

,061

,327

,000

,024

,062

,001

Calidad de
producto

,065

,000

,000

,000

,052

,258

,062

,009

Nivel de
satisfaccin

,000

,000

,487

,000

,000

,000

,001

,009

A continuacin, se presenta el modelo ajustado cuando se introducen todas las variables predictoras
simultneamente (Mtodo Introducir). Primero se muestra el ajuste del modelo y luego los coeficientes.
Ajuste del modelo
2

R
a
,874

Error tpico de la
estimacin
4,63769

R
,764

R corregida
,733

Tabla ANOVA de la Regresin

Regresin
Residual
Total

Suma de
cuadrados
4248,304

g.l.
8

1311,996
5560,300

Media
cuadrtica
531,038

61
69

F
24,690

Sig.
,000

21,508

En la tabla del ANOVA de la Regresin, la probabilidad asociada al valor del estadstico F se denomina
Sig., que quiere decir Significacin Estadstica, es decir, la probabilidad de encontrar un valor de F igual o
mayor que el obtenido a partir de los datos muestrales.
Por ltimo, se presenta la tabla con los coeficientes de regresin parcial estandarizados y no
estandarizados y su significacin estadstica. En la misma tabla se muestran los valores de las
correlaciones de orden cero (coeficiente de correlacin de Pearson, ya visto en la matriz de
correlaciones) y los coeficientes de correlacin parcial y semiparcial.

Coeficientes no
estandarizados
(Constante)
Velocidad de
entrega

B
-8,374

Error tp.
6,165

-1,537

2,875

Coeficientes
tipificados
Beta
-,229

Correlaciones
t
-1,358
-,535

Sig.
Orden cero
,179
,595

,656

Parcial
-,068

Semiparcial
-,033

50

Nivel de
precios
Flexibilidad
de precios
Imagen de
fabricante

-1,870

2,955

-,245

-,633

,529

,100

-,081

-,039

3,143

,686

,468

4,580

,000

,564

,506

,285

-,744

1,098

-,089

-,677

,501

,236

-,086

-,042

Servicio
conjunto

10,983

5,678

,886

1,934

,058

,709

,240

,120

Imagen de
fuerza de
ventas

1,584

1,237

,134

1,280

,205

,277

,162

,080

Calidad de
producto

,545

,454

,096

1,203

,234

-,182

,152

,075

Nivel de
satisfaccin

,728

1,453

,069

,501

,618

,696

,064

,031

Dejando al margen la constante o intercepto, cuyo valor no es significativo (Sig. 0,179 > 0,05), hay
slo dos coeficientes que puede decirse que son significativos: la flexibilidad de los precios y el servicio
conjunto (aunque ste est en el lmite de significacin). El resto no son estadsticamente relevantes.
Qu significa esto? De acuerdo al valor de R2, la combinacin de todas las variables independientes
incorporadas al modelo explican el 76,4% del nivel de fidelidad del cliente, pero, a la vista de la
significacin de los coeficientes, casi toda esta variabilidad sera explicada por no ms de dos variables,
aquellas cuyos coeficientes de regresin parcial resultan significativos, que son las que presentan un
coeficiente de correlacin parcial ms alto con la VD (0,506 y 0,240).
Con este mtodo de incorporacin de todas las variables conjuntamente, en realidad no se puede
determinar cul es la contribucin de cada variable al modelo en trminos de varianza explicada, y si
esa contribucin resulta o no significativa. Por razn de parsimonia cientfica, es preferible el mtodo de
introduccin sucesiva de variables (denominado, como ya se ha dicho, Stepwise) y que da un ajuste
ptimo del modelo con el menor nmero de variables. En los siguientes cuadros de resultados veremos
cul es el modelo final cuando se calcula la regresin con este mtodo. Observe el lector, que hay un
estadstico nuevo en el cuadro de bondad de ajuste, que se denomina Cambio en R cuadrado, que
especifica el aumento en este estadstico cada vez que se introduce una variable. La introduccin de
variables se detiene cuando la siguiente que debera de entrar no aporta un incremento significativo en
el R cuadrado.

8.5.2 Mtodo Stepwise (Pasos Sucesivos)


Adems de los cuadros con los estadsticos descriptivos y la matriz de correlaciones, el primer cuadro
que se muestra en la salida de resultados es el de la lista de variables introducidas en el modelo en los
diferentes pasos.

51

Variables introducidas/eliminadas
Variables
introducidas
Servicio conjunto

Modelo
1

Variables
eliminadas

Flexibilidad de
precios

Mtodo
. Por pasos
criterio:
Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100.

. Por pasos
criterio:
Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100.

La variable Servicio Conjunto es la que mayor correlacin tiene con la VD (0,709), es decir, la variable
que explica ms proporcin de varianza de sta. El programa ajusta un primer modelo en el que slo
incluye esta variable. Una vez introducida esta variable (Servicio conjunto) comprueba cul de las dems
variables correlaciona ms con la parte no explicada del primer modelo ajustado, o sea, con los residuos,
y esta resulta ser la Flexibilidad de precios5. Entonces el programa, antes de incorporar esta variable al
modelo, calcula si el cambio que se va a producir en R2 es o no significativo; si lo es, rehace el modelo
con las dos variables conjuntamente y si no el proceso se detiene y tendramos un modelo con el
nmero de variables que producen cambios significativos en R2. En este caso, el cambio s es
significativo y as se puede ver en la siguiente tabla.

Modelo
1

R
,709a

R
cuadrado
,502

,864b

,747

R
cuadrado
Error tp. de
corregida la estimacin
,495
6,37899
,740

Estadsticos de cambio
Cambio en R
cuadrado
,502

Cambio en F
68,645

,245

64,908

4,58006

gl2
68

Sig. Cambio
en F
,000

67

,000

gl1

Tabla del ANOVA para los diferentes modelos ajustados


Modelo
1
Regresin

Suma de
cuadrados
2793,280

Residual
Total
Regresin

2767,020
5560,300
4154,843

gl
1
68
69
2

Media
cuadrtica
2793,280

F
68,645

Sig.
,000

40,691
2077,422

99,033

,000

En concreto lo que el programa hace es que, una vez que ha incorporado la primera, realiza un ajuste de
regresin entre cada VI y el resto, y entre estas y la VD, y luego correlaciona los residuos. Los residuos de la VI que
correlacione ms con los residuos de la VD es la siguiente en entrar en el modelo.

52

Residual
Total

1405,457
5560,300

Coeficientes no
estandarizados
Modelo
1

B
20,607
8,791

Error tp.
3,147
1,061

(Constante)
Servicio
conjunto

-3,835
8,165

Flexibilidad
de precios

3,340

(Constante)
Servicio
conjunto

67
69

20,977

Coeficientes
tipificados
Beta

Correlaciones

,709

t
6,549
8,285

Sig.
,000
,000

3,783
,766

,658

-1,014
10,663

,415

,497

8,057

Orden
cero

Parcial

Semiparcial

,709

,709

,709

,314
,000

,709

,793

,655

,000

,564

,701

,495

El valor del cambio en R2 al incorporar la variable Flexibilidad de Precios es exactamente el cuadrado


de su coeficiente de correlacin semiparcial (0,4952 = 0,245) y ese es el significado de sr2: aumento en la
proporcin de varianza explicada cuando se incorpora esa variable al modelo.
Lgicamente, el criterio para incorporar una nueva variable al modelo es que el cambio en R2 sea
significativo, y se contrasta con el estadstico
W


H7O
^ ) 1
0,245 70 2 1

 64,908

1 H 
1 1 0,747

donde q es el nmero de nuevas variables que entran en el modelo.


Otro mtodo de construccin del modelo ptimo es el introducir al principio todas las variables
predictoras en el modelo e ir sacando una a una hasta quedarse con las que realmente estiman
significativamente la VD. Este mtodo se denomina Eliminacin hacia Atrs, y en el cuadro siguiente
podemos ver el cambio que se produce en R2 a medida que se eliminan variables. Al principio estn las
ocho predictoras (por eso el valor 8 de grados de libertad en gl1), y luego se van eliminando segn que
tengan una menor correlacin parcial con el nivel de fidelidad. Al final se queda el modelo en slo dos
predictoras, igual que en el mtodo de pasos sucesivos. Lo interesante de esta tabla es que ningn
decremento de R2 es realmente significativo. No obstante, a partir del modelo 7 (con las dos variables
conocidas, servicio conjunto y flexibilidad de precios), si se extrajera una de las dos variables el cambio
s sera significativo, y esa es la razn por la que el proceso se para.

53

Resumen del modelo


Estadsticos de cambio
R
Error tp.
Cambio
R
cuadrado
de la
en R
cuadrado corregida estimacin cuadrado
,764
,733
4,63769
,764

61

Sig.
Cambio
en F
,000

,251

61

,618

-,001

,221

62

,640

4,55177

-,001

,186

63

,668

4,52720

-,001

,300

64

,586

,746

4,52808

-,004

1,026

65

,315

,740

4,58006

-,009

2,547

66

,115

Modelo
1

R
a
,874

,874b

,763

,736

4,60960

-,001

,873

,762

,740

4,58100

,873

,762

,743

,872e

,760

,746

,870

,757

,864

,747

Cambio
en F
24,690

gl1

gl2

a. Variables predictoras: (Constante), Nivel de satisfaccin, Nivel de precios, Imagen de fuerza de ventas, Calidad
de producto, Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto
b. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto
c. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Velocidad de entrega, Servicio conjunto
d. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Servicio conjunto
e. Variables predictoras: (Constante), Imagen de fuerza de ventas, Calidad de producto, Flexibilidad de precios,
Servicio conjunto
f. Variables predictoras: (Constante), Imagen de fuerza de ventas, Flexibilidad de precios, Servicio conjunto
g. Variables predictoras: (Constante), Flexibilidad de precios, Servicio conjunto

Otro detalle de inters son los valores del Error Tpico de Estimacin, que es mayor cuando estn
todas las variables independientes en el modelo que cuando slo estn las dos realmente explicativas. El
error es pensar que cuantas ms variables tengamos mejor se explica la VD, pero se ve claramente que
no es el caso. Para estos datos, el error aumenta proporcionalmente el 1,26% (4,63769 - 4,58006)/
4,58006 = 0,0126) de tener las dos predictoras en el modelo a tener las ocho.
En resumen, aparte de las variables mencionadas, el resto de variables no aportan cambios
significativos a la explicacin de la VD y por tanto no son tenidos en cuenta en el modelo. Por tanto, la
fidelidad de los clientes de la empresa estudiada es funcin, sobre todo, del Servicio Conjunto que
ofrece la empresa, lo que explica un 50,2% de la fidelidad mientras que la percepcin de la flexibilidad
de precios aade un 24,5% ms a la explicacin, lo cual hace que entre ambas se explique el 74,7% de la
fidelidad. A partir de estos resultados, los analistas y directivos de la empresa tienen bastantes
elementos para disear una estrategia de fidelizacin actuando sobre las variables que segn los
clientes no aaden valor a sta.

54

8.6 Resumen
El anlisis de los diseos ex post facto trata de determinar cmo un conjunto de variables, que
llamamos independientes, predictoras o explicativas, pueden explicar el comportamiento de la variable
objeto de estudio, que llamamos dependiente o criterio. Ello se ha realizado en tres pasos:

Ajuste del modelo de regresin para estimar la VD. Slo se han tratado ajustes de modelo
lineales, es decir, modelos en que la VD es una funcin lineal de la o las VIs. Cuando slo hay
una VI, el modelo se conoce como de Regresin Lineal Simple y cuando hay varias VIs, como
de Regresin Lineal Mltiple.
Clculo de la bondad del modelo ajustado. El estadstico que cuantifica el ajuste se
denominado coeficiente de determinacin y su valor oscila entre 0 y 1, e informa de la
proporcin en que la o las VIs explican la VD. En el caso de la regresin simple, este valor es
el cuadrado del coeficiente de correlacin de Pearson, y en el caso de la regresin mltiple
este valor es el cuadrado del coeficiente de correlacin mltiple. La parte no explicada por el
modelo de regresin es aquella que no est relacionada linealmente con la VD.
Contraste de significacin de los estadsticos del modelo: Coeficiente de determinacin,
coeficientes de regresin parcial y, en el caso de la regresin mltiple, coeficientes de
correlacin semiparcial y parcial. Para el coeficiente de determinacin, R2, el contraste se
basa en la comparacin de las medias cuadrticas de la regresin y las medias cuadrticas del
error, expresado este contraste mediante la tabla del ANOVA. Adems, se ha visto cmo
realizar los contrastes de los coeficientes de regresin parcial y de correlacin semiparcial y
parcial.

Los diferentes coeficientes que han aparecido en el captulo son:

R, que expresa la correlacin entre la VD (Y) y la mejor funcin lineal de las VIs (Xis)
R2, que se interpreta como la proporcin de varianza de VD asociada a la combinacin lineal
de las VIs. Tambin se interpreta como la reduccin proporcional del error inicial de la VD
cuando se ajusta un modelo de estimacin con las VIs.
sri, coeficiente de correlacin semiparcial, expresa la correlacin entre Y y Xi, cuando de sta
se ha extrado la que mantiene con el resto de Xis.
sri2, proporcin de varianza de Y asociada nicamente la varianza de Xi, y expresa el
incremento en R2 cuando la variable Xi entra en el modelo
pri, expresa la correlacin pura entre Y y Xi. Es decir, expresa la correlacin entre la parte
de Y no asociada linealmente con el resto de predictoras y la porcin de Xi no asociada
linealmente con el resto de predictoras.
pri2, expresa la proporcin de varianza de Y no asociada al resto de X que s est asociada con
X i.

Por ltimo, se ha planteado un ejercicio con un conjunto de datos para ver cmo se interpreta una
salida de resultados del anlisis realizado con un programa informtico.

55

8.7 Ejercicio de Autoevaluacin


Todas las preguntas estn relacionadas con datos de una investigacin (ficticia, con datos simulados)
en la que se trata de determinar la influencia que sobre el resultado en las pruebas para acceder a un
puesto de trabajo especializado tienen una serie de variables, como son los das que asisten a tutora en
una escuela de formacin para ese tipo de profesionales (variable X1), y la expectativa de empleo que
manifiestan los sujetos (variable X2), variables todas ellas cuantitativas o mtricas. Como variable
dependiente se toma, como se ha sealado, el resultado en una prueba en trminos de puntuacin
obtenida (variable Y). Los datos de 25 personas son los siguientes:

X1

X2

31

108

41

86

20

80

41

79

40

96

28

79

41

98

37

86

41

89

39

11

92

56

111

43

11

102

42

10

89

36

90

36

13

112

32

83

49

104

45

11

98

20

10

88

33

11

106

39

13

110

19

10

92

27

12

92

17

11

81

29

13

103

Para facilitar los clculo, en las siguientes dos tablas presentamos los estadsticos descriptivos de
cada variable, y la matriz de correlaciones

56

Suma
Media
Desv. Tpica
Varianza

Estadsticos descriptivos
X2
X1
882
239
35,2800
9,5600
9,7105
2,0833
94,2933
4,3400

Y
2354
94,1600
10,5423
111,1400

Matriz de correlaciones de
orden cero
X2
Y
X1
X1
X2
Y

-0,231

0,436
0,504

8.7.1 Preguntas
1. Cul es la ecuacin de regresin para la predecir el comportamiento de la variable Y a partir
de la variable X1?
a. Y = 77,465 + 0,473X1 (*)
b. Y = 35,465 + 0,573X1
c. Y = 77,465 + 0,743X1
2. Cul es la ecuacin de regresin para la predecir el comportamiento de la variable Y a partir
de la variable X2?
a. Y = 44,236 + 1,873X2
b. Y = 69,768 + 2,551X2 (*)
c. Y = 77,465 + 0,743X1
3. El coeficiente de correlacin mltiple del modelo Y = B0 + B1X1 + B2X2 para los datos
propuestos es:
a. 0,874
b. 0,759 (*)
c. 0,576
4. El coeficiente R2 ajustado para los datos es:
a. 0,594
b. 0,512
c. 0,538 (*)
5. Siguiendo el mtodo de Pasos Sucesivos (Stepwise) para lograr el mejor ajuste, qu cambio
se produce en R2 cuando se incorpora la segunda variable?
a. 0,322 (*)
b. 0,254

57

c. 0,222
6. La ecuacin de regresin mltiple estandarizada para los datos es:
a. 5  0,423U % 1,436
b. 5  1,014U % 0,872
c. 5  0,583U % 0,639 (*)
7. La varianza de los errores una vez ajustado el modelo de regresin mltiple es:
a. 47,109 (*)
b. 64,031
c. 111,140
8. El error tpico de estimacin del modelo ajustado es:
a. 7,891
b. 7,169 (*)
c. 8,235
9. La correlacin entre la variable dependiente Y y la predictora X1, una vez que se ha eliminado
el influjo de X2 sobre ambas variables, es:
a. 0,659 (*)
b. 0,567
c. 0,621
10. Cul es la proporcin de la varianza de Y asociada a X2, y no asociada a X1
a. 0,234
b. 0,342
c. 0,477 (*)

8.7.2 Solucin ejercicios de autoevaluacin


Debajo de las respuestas estn las operaciones necesarias, a partir de los estadsticos y la matriz de
correlaciones.

Pregunta 1 A
Pregunta 2 B
$U  U

8
10,5423
 0,436
 0,473
9,7105
8

$U  

8
10,5423
 0,504
 2,5514
8B
2,0833

$&  9 $U 9U  94,16 0,473 35,28  77,465

$&  9 $U 9  94,16 2,5514 9,56  69,768

Pregunta 3. B

58

H.U  Q



U
% 
2U  U
0,436 % 0,504 2 0,436 0,504 0,231
Q
 0,759

1 0,231
1 U

Pregunta 4. C


H|.U
 1 p1 H.U
s

Pregunta 5. A


H.U

25 1
 1
 1 1 0,759 
 0,538
25 2 1
 ) 1



 0,759 0,504  0,322

El mtodo Stepwise, la primera variable en entrar en el modelo sera la X2 pues es la que ms


correlaciona con Y
Pregunta 6. C
kU 

k 

U  U

1 U

 U U

1 U

Pregunta 7. A

0,436 0,504 0,231


 0,583
1 0,231

0,504 0,436 0,231


 0,639
1 0,231


8

8JJOJ
 1 H.U
  1 0,759  111,14  47,109

Pregunta 8. B

 `
1130,6
P<  Q
Q
 7,169
 ) 1
25 2 1

El numerador del cociente dentro de la raz es la suma de cuadrados de los errores, y se obtienen
mediante

 1  47,109 25 1  1130,6
}  `  8JJOJ

Pregunta 9. A
Se trata del coeficiente de correlacin parcial entre las variable Y y X1.
)U 

U  U

1 U


Pregunta 10. C
) 
i

 U U

1 U
U

0,436 0,504 0,231

1 0,504
1 0,231

 0,657

0,504 0,436 0,231

1 0,436
1 0,231

 0,477

Recurdese que la funcin logartmica es la inversa de la exponencial. Esto es, si la funcin exponencial (

y = a n ) es el valor de y en funcin de n (para un valor de la base, a, fijo), la funcin logaritmo de un nmero x con
59

base a es la potencia a la que debe elevarse la base para dar x ( x = log a

y ). Cuando se adjetiva el logaritmo


como natural significa que la base es el nmero irracional e 2.71828182845...

60

Das könnte Ihnen auch gefallen