Beruflich Dokumente
Kultur Dokumente
1.- Introduccin
El coeficiente de correlacin (rxy), estudiado en los puntos anteriores, permita conocer la
magnitud de la relacin (supuestamente lineal) existente entre dos variables. En el
presente apartado nos introduciremos en el concepto de regresin lineal, donde estudiaremos
la estructura de relacin existente entre tales variables. Ambos conceptos -regresin y
correlacin- estn ntimamente ligados, mientras el primero especifica la forma de la relacin,
el segundo, sobre la base de esta forma, estudia la intensidad de la relacin establecida.
De una manera ms concreta, mediante el modelo de regresin especificaremos la
ecuacin de regresin que nos permitir un doble objetivo: a) describir de una manera
clara y concisa la relacin existente entre ambas variables y b), predecir los valores de
una variable en funcin de la otra.
En un sentido muy amplio, y hablando en trminos puramente estadsticos, podemos afirmar
que el anlisis de regresin es un mtodo que permite analizar la variabilidad de una
determinada variable en funcin de la informacin que le proporcionan una o ms variables
(Pedhazur, 1982). Se concreta, como hemos indicado, en el estudio de relacin entre
variables, de forma tal que una determinada variable -variable respuesta, explicada,
dependiente o criterio- pueda expresarse en funcin de otra u otras variables - predictoras,
explicativas, independientes o regresores-, lo que permitir predecir los valores de la variable
respuesta en funcin de las variables explicativas, as como determinar la importancia de
stas. Por otro lado, se especifica que la estructura de la relacin es lineal. Este aspecto es
importante por cuanto se descartan aqu otros tipos de relaciones. Por esta razn, con cierta
frecuencia nos referiremos a la regresin lineal como modelo de regresin lineal, en el sentido
de que se aplica una cierta concepcin -modelo- que tenemos de la realidad merced a la cual
se supone que las relaciones entre variables sigue una cierta estructura -la estructura lineal.-.
Hemos de decir, aunque slo sea por curiosidad histrica, que el trmino "regresin" se debe a
Sir Francis Galton (1822-1911) estudiando la relacin de la estatura entre padres e hijos.
Observ que los padres altos tenan hijos altos, aunque no tan altos como sus
progenitores. Igualmente, los padres bajos tendan a tener descendencia de baja estatura
aunque ms altos que sus respectivos padres. En ambos casos, pues, exista una cierta
tendencia a la estatura media, o dicho en trminos de propio Galton, exista una
"regresin a la mediocridad". Aunque hoy da el trmino de "regresin lineal" est muy
lejos de sus primeras intenciones ha quedado as acuado, aunque con otros
propsitos.
Es evidente el inters el modelo de regresin lineal aplicado a Ciencias Humanas y de la
Salud, donde no podemos encontrar relaciones exactas como ocurre en otras reas de la
ciencia, pero s ciertas tendencias susceptibles de ser cuantificadas. Supngase, por citar tan
slo algunos posibles casos de estudio, el efecto de una cierta terapia sobre las respuestas de
los pacientes sometidos a ella, los gastos de publicidad de una empresa y el consumo
ciudadano, el efecto del tabaco sobre el cncer, el clima laboral y la productividad en una
empresa o la calidad de enseanza y el rendimiento acadmico. En todos ellos hay algn
aspecto de la conducta que nos interesa prever (y en ltima instancia, controlar). Merced a la
ligazn que presenta la conducta con alguna variable relevante (y que se entiende manipulable
por el investigador) podemos ejercer algn tipo de control sobre aquella interviniendo sobre la
variable que incide sobre la misma. De esta forma, lograremos nuestros propsitos en cuanto
a salud, por ejemplo, eliminado el consumo de tabaco, o bien una determinada terapia
cognitivo-conductual se mostrar efectiva en la remisin de la depresin.
Como se ha indicado, en el presente captulo, nos limitaremos al estudio de la regresin donde
se estudia la relacin que sobre la variable de respuesta ejerce una nica variable explicativa.
Este tipo de regresin -la ms sencilla de las posibles- se denomina por esta razn regresin
lineal simple.
3.- Diagrama de dispersin
Previo a todo anlisis, resulta conveniente una primera inspeccin visual de los datos al objeto
de comprobar la conveniencia o no de utilizar el modelo de regresin simple. Se recurre a este
respecto, a la representacin conjunta de los datos mediante el diagrama de dispersin o nube
de puntos. Una simple ojeada nos permitir determinar (se entiende grosso modo): a) si existe
relacin o no entre las variables y b) si sta es o no lineal. Adems pueden extraerse otras
informaciones de inters, como son: c) el grado de estrechez de la nube de puntos, indicadora
de la intensidad de la relacin, d) si existen valores anmalos que distorsionan la posible
relacin, o e), si la dispersin de los datos a lo largo de la nube de puntos es uniforme, lo que
tendr su importancia, tal como veremos en los prximos apartados.
La informacin obtenida es importante para encarar la actuacin ms conveniente. Una nube
redondeada y sin contornos definidos (fig. 2a) es indicadora de ausencia de relacin. La
variable explicativa es irrelevante y no merece la pena seguir con el modelo en cuestin. En la
figuras 2b y 2c se sugiere una relacin lineal, ms fuerte en la figura 2b, debido a su mayor
estrechez, aunque en ambos casos un anlisis estadstico posterior se hace necesario para
confirmar con seguridad la relacin insinuada en los grficos. En la figura 2d la relacin es
claramente curvilnea (como ocurre si relacionamos ansiedad con rendimiento) y no procede a
aplicar el modelo lineal de regresin. Aqu podemos optar por transformar los datos a efecto
de lograr linealidad, o lo que puede ser ms conveniente, respetar los datos y elaborar el
modelo pertinente. En la figura 2e, la dispersin no es constante a lo largo del recorrido de los
datos -heterocedasticidad-, lo que imposibilita, como se tendr ocasin de comprobar, la
aplicacin del modelo lineal de regresin. Por otro lado, en la figura 2f un par de datos
anmalos -outliers- ejercen una distorsin importante sobre el modelo, lo que obligar a
replantearse la conveniencia de eliminarlos o bien incluirlos en el modelo, con la consiguiente
transformacin del mismo.
Y X
En trminos grficos, esta relacin quedara expresada mediante el siguiente diagrama causal:
abordables directamente desde el planteamiento lineal. Por ejemplo, es bien conocida que la
relacin entre ansiedad y rendimiento sigue una U invertida:
En los momento iniciales hay poca gente con conocimiento del tema, lo que hace que la
extensin del rumor sea pequea. Conforme aumenta el nmero de sujetos conocedores de
tal rumor hay ms posibilidad de interaccin con las personas desconocedoras del tema,
con lo que hay una gran progresin, hasta llegar a un cierto punto en el que casi toda la
poblacin est saturada y son ya pocos los individuos que restan por enterarse de la
cuestin, de forma tal que el incremento es cada vez ms reducido, hasta alcanzar el valor de
cero, cuando el rumor ha llegado a extenderse por toda la poblacin. Este tipo de fenmenos
5
Y Y
6
Y Y
Los parmetros de la ecuacin (1.14) -ecuacin de regresin verdadera- ( y )
generalmente desconocidos y han de ser estimados a partir de los valores observados en
muestra de sujetos. Para que las inferencias a la poblacin -estimacin- as como
contrastes de hiptesis acerca de los parmetros sean adecuados es necesario que
variables implicadas cumplan las siguientes caractersticas estadsticas:
son
una
los
las
SUPUESTOS
(a) Linealidad. El primer supuesto establece que el valor esperado (media) en la variable
Y para cada uno de los valores X se encuentra sobre la recta de regresin "verdadera" de Y
sobre X, o dicho de otra manera, la recta de regresin de Y sobre X vendr determinada
por los valores medios de Y para cada valor de X. En consecuencia, la esperanza
matemtica de los errores ser cero. As:
E (Y | X ) X
Ya que:
E E Y Y E Y Y E Y E Y Y Y 0
(b) Homocedasticidad. El segundo supuesto establece que las varianzas de Y para cada valor
de X son todas iguales 2 , esto es, la dispersin de la variable Y a todo lo largo de la
recta de regresin es constante. El inters de esta propiedad reside en la ventaja de
utilizar un nico valor para todo el recorrido de X a la hora de estimar valores de Y a partir
de X, lo que otorga simplicidad al modelo. As pues:
Var(Y | X i) 2
Var(Y | X i) E Yi Yi 2 E Yi X i 2 E 2 2
c) Ausencia de autocorrelacin. El tercer supuesto establece que las variables aleatorias
Y son independientes entre s; es decir, la covarianza (o bien, correlacin) entre dos
valores de Y cualesquiera es cero. Cuando los valores de Y hacen referencia a sujetos
7
distintos -estudios transversales- esta propiedad suele cumplirse. Otro caso sucede en
estudios longitudinales donde se efectan diferentes mediciones de los mismos sujetos a
lo largo del tiempo, y que por razones de inercia suelen presentar autocorrelacin. As:
Cov(YiYj) 0
O bien:
Cov( i j) 0
Hay que decir en relacin a este supuesto que le modelo de regresin es bastante robusto
frente a violaciones del mismo. Por otro lado, para tamaos de muestras grandes, el
teorema central del lmite garantiza su cumplimiento.
Adems de estos requisitos necesarios a efectos de inferencia estadstica y contrastes
de hiptesis han de respetarse otros supuestos relacionados con el modelo de regresin en
cuanto modelo descriptivo. Estos son:
(a) El modelo ha de estar correctamente especificado, lo que implica el doble cometido de
no haber excluido variables independientes relevantes y el no haber incluido variables
independientes irrelevantes. Este requisito cumple su verdadera dimensin en la
regresin mltiple donde las variables independientes han de ser seleccionadas
cuidadosamente. Cuando se trata de una nica variable independiente, la precaucin ha de
cifrarse en esa variable y aqu la evidencia es palpable si el modelo no ha sido
correctamente especificado.
(b) La variable independiente ha de haber sido medida sin error. Se quiere decir con ello
que las puntuaciones empricas obtenidas en X son precisamente sus puntuaciones
verdaderas. Este requisito es un tanto ideal ya que el error de medida est implcito en
toda medicin. A este respecto hay que decir que en modelos ms completos
(Modelos Estructurales) se contempla la fiabilidad en la medida. Obsrvese por otro
lado, que la exactitud en la medicin no es requisito para la variable Y, ya que esta
circunstancia queda contemplada en el error .
6.- Estimacin de parmetros
Los datos observados en una determinada
tipo:
muestra
presentan
e
i 1
mnimo
Este procedimiento presenta el inconveniente de que puede lograrse una suma de cero
existiendo grandes errores positivos y negativos que quedaran neutralizados entre s. Esta
situacin podramos solventarla con dos procedimientos: a) operando con los valores
absolutos de los errores:
N
|e | mnimo
i 1
e
i 1
2
i
mnimo
y de ordenada en el origen:
Sy
Sx
a Y bX
e
i 1
2
i
mnimo
10
e2
i 1
i 1
i 1
i 1
Esta funcin tendr un mnimo para los valores que anulen la primera derivada respecto a a y
b. As pues, calculemos primeramente la derivada parcial respecto a a. Haciendo operaciones
tenemos:
a bX Y 0
i 1
De donde:
a Y bX
Para calcular b procedamos de igual manera. Igualemos a cera la derivada parcial respecto a
b, y haciendo operaciones:
i 1
i 1
X2
XY
i1
Y X 0
Despejando b:
N
XY
i 1
X
i 1
XY
S xy
S x2
rxy S x S y
S x2
rxy
Sy
Sx
X2
b) puntuaciones centradas
Tengamos al ecuacin de regresin en directas:
11
Y a bX
Sustituyamos a por su valor:
Y a bX (Y bX ) bX Y bX bX Y b(X X
Donde se nos indica que el valor pronosticado en Y es precisamente su media (el valor
previsto en ausencia total de informacin) ms el efecto de la variable X.
Ahora, si pasamos Y al primer miembro de la ecuacin:
Y Y b(X X )
Se observa en el primer miembro las puntuaciones centradas de Y y en el segundo las
puntuaciones centradas de X. Sustituyendo, entonces, por la notacin adecuada el modelo
en puntuaciones centradas queda:
y
bx
Como puede observarse, dicha ecuacin presenta la misma pendiente que la ecuacin
obtenida en puntuaciones directas. Se diferencia de sta en que carece de ordenada en el
origen. La recta, pues, en centradas pasa por el origen de coordenadas. Esto es:
Obsrvese que las puntuaciones centradas son la consecuencia de restar a los valores Y su
media (Y Y ) y a los valores X, igualmente su media (X X ). Por otro lado, sucede,
precisamente, que tanto la media de Y como la media de X satisfacen la ecuacin de la
recta, como se desprende de (1.20):
Y a bX
Por tanto, la transformacin en puntuaciones centradas equivale a un desplazamiento del
origen del sistema de coordenadas al punto (X ,Y ). En consecuencia, la recta de regresin
observada tendr la misma pendiente pero carecer de ordenada en el origen, tal como se
observa en la siguiente figura:
12
c) Puntuaciones estandarizadas
Tomemos como referencia la siguiente ecuacin conocida:
Y Y b(X X )
Y sustituyamos b por su expresin mnimo cuadrtica:
Sy
(X X )
Y Y b(X X ) rxy
S x
Se observa que el primer miembro de la igualdad hace referencia a las puntuaciones tpicas
de Y y el segundo miembro, a las puntuaciones tpicas de X. Sustituyendo por la notacin
adecuada:
y rxy Z x
Z
13
a) Directas:
b rxy
Sy
Sx
0.8327
2.579
0.1975
10.874
Y a bX 16.702 0.1975X
b) Centradas:
y
bx 0.1975x
c) Estandarizadas:
Zy rxyZx 0.8327Zx
Y a bX e
donde la parte determinista que permite obtener
modelo es:
Y a bX
la
14
e Y Y 7 7.788 0.788
La interpretacin es obvia; para un sujeto de 124 de C.I. el modelo predice 7.788 puntos.
Ha obtenido 7 puntos, luego la parte que no explica el modelo corresponde a -0.788
puntos.
b) Puntuacin estimada
Mayor inters tiene por el momento que nos concentremos en la parte estructural del
i obtenido al aplicar la ecuacin de
modelo. A este respecto hay que decir que el valor Y
regresin sobre un determinado valor Xi hace referencia al valor promedio previsto para
todos aquellos sujetos que han obtenido en la variable X el valor de Xi . Por ejemplo, en el
caso que nos concierne para el sujeto que ha logrado 124 puntos de C.I. la puntuacin
prevista ha sido de 7.788. Se interpreta como la calificacin media de todos los sujetos de
124 puntos en inteligencia. Es obvio que no todos los sujetos de igual inteligencia
sacarn exactamente la misma puntuacin. Dependiendo de otros factores (motivacin,
personalidad ... etc) unos obtendrn ms y otros menos. Al final es el valor ms probable
(promedio) el especificado por la ecuacin de regresin.
c) Pendiente de la recta
La pendiente de la recta tiene una interpretacin sencilla en matemticas; muestra el
cambio en Y por cada unidad de cambio en X. Como la ecuacin de regresin opera (mediante
el procedimiento de mnimos cuadrados) sobre la base del diagrama de dispersin, la
interpretacin, en este caso, tal como quedo de manifiesto en el apartado anterior, es la
siguiente: la pendiente b indica el cambio medio en Y asociado a cada unidad de cambio en X.
Por ejemplo, en el caso que estamos tratando, la pendiente vale 0.1975. Se interpreta en el
sentido de que por cada punto de incremento en el C.I. los sujetos, por trmino medio,
mejorarn en 0.1975 puntos su rendimiento acadmico.
Una pendiente de cero indica claramente que la variable X no sirve para nada, pero una
pendiente grande no indica lo contrario, ya que para esto hace falta conocer las escalas de las
variables, y lo que es ms importante, la dispersin de la nube de puntos. Un diagrama de
dispersin mas bien redondeado, aunque con una recta implcita de gran pendiente no
significa gran cosa en trminos de relacin.
c) Ordenada en el origen
Como se sabe, la ordenada en el origen hace referencia al valor en Y cuando X=0. En la
ecuacin de regresin, ya que la recta est elaborada sobre los puntos medios del diagrama de
15
Y 600 120X
En este caso, los sujetos que carecen de todo tipo de estudio ganan por trmino medio 600
euros, de tal manera que por cada ao de estudio ven incrementado su salario en 120 euros.
As, un sujeto que haya estudiado 10 aos tendr un sueldo de 600+120*10=1800 euros.
16
Y Y
Para un sujeto en particular que dado un valor Xi haya obtenido Yi , cometeremos un error
de prediccin:
e Yi Y
Supongamos ahora que tenemos conocimiento de la relacin lineal que liga las variable X e Y.
Y esta relacin es segn la ecuacin conocida
Y a bX
Yi Yi
segn se ilustra en la siguiente figura:
en ausencia de
Yi Y
como indicativo del error cometido cuando carecemos de la informacin proporcionada por
el modelo y lo definimos como desviacin total respecto a la media para un determinado
sujeto, entonces el valor:
Yi Y
har referencia a la parte que de la desviacin total explica el modelo de regresin. Se
denomina desviacin explicada por el modelo de regresin. Queda, entonces, un resto:
Yi Yi
que no logra explicar el modelo -desviacin no explicada-. De esta forma, segn lo
expuesto, podemos establecer la siguiente igualdad:
18
Yi Y Yi Y Yi Y
Para el sujeto i la desviacin total del valor Yi con respecto a la media Yi Y puede
descomponerse en la desviacin explicada por el modelo de regresin Yi Y ms la
desviacin no explicada Yi Y .
Si elevamos al cuadrado ambos miembros de la igualdad (1.30):
Yi Y 2 Yi Y 2 Yi Y 2 2Yi Y Yi Y
Si se cumple esta igualdad para cada uno de los sujetos, se cumplir igualmente para la
suma de todos ellos. As pues:
N
Y
i 1
Y 2
i 1
Y 2
i 1
Y 2 2
Y
i 1
Y Yi Y
Donde:
N
Y
i1
Y Yi Y 0
ya que los errores aleatorios no correlacionan con ninguna otra puntuacin (Obsrvese
que el sumatorio anterior es el numerador de la covarianza entre los errores y las
puntuaciones predichas por el modelo de regresin). En consecuencia:
N
i 1
i 1
i 1
Yi Y 2 Yi Y 2 Yi Y 2
Esto es:
Suma de cuadrados total = Suma de cuadrados explicada + Suma de cuadrados no explicada
Si tomamos las sumas de cuadrados anteriores (como numeradores de varianzas que son)
como un ndice de la variabilidad de los datos tenemos que:
Variacin Total = Variacin Explicada + Variacin No Explicada.
Merece destacarse la importancia de esta igualdad. Del cociente entre la variacin explicada y
la total obtendremos la proporcin de variacin explicada por el modelo, lo que permitir
hacernos una idea del ajuste del modelo al fenmeno observado -bondad de ajuste-. Por otro
lado, a partir de estos datos calcularemos la varianza explicada y no explicada,
permitindonos su cociente tomar la decisin de si el modelo lineal es un buen indicador del
comportamiento de los datos observados -validez del modelo-. A estas consideraciones
19
R2
(Y
Y )2
(Y
Y )2
i1
N
i1
Obsrvese que este cociente lo hemos denominado como R2. Coincide, precisamente, como
demostraremos a continuacin con el valor de rxy al cuadrado, tambin denominado
coeficiente de determinacin. En este sentido, en relacin al numerador de la expresin
(1.32) se sabe que la ecuacin de regresin en puntuaciones centradas es:
Yi Y b(X i X )
Elevando al cuadrado y sacando sumatorios:
N
i 1
i 1
(Yi Y )2 b 2 (X i X)2
N
(X
i 1
pues:
N
(X
X )2 NSx2
Y )2 NS y2
i1
Igualmente, en relacin a
(Y
i 1
Y )2 :
N
(Y
i 1
20
R
2
(Y Y )
i 1
N
(Y
i 1
Y )2
b 2NSx2 b 2Sx2
2
NS y2
Sy
S
rxy y Sx2
2 2
Sx
b S
2
R2 2 x
rxy
2
Sy
Sy
Xi
b X i1
N
N
N
i1
2
2
2
(
Y
Y
)
b
(
X
X
)
i
i
R 2 iN1
Ni1
2
2
2
N
(Yi Y )
(Yi Y )
i
N
i1
i 1
i1
2
Y
i
N
i1
2
2
i
Por otro lado, podemos replantear la frmula (1.31) en funcin de R2. De esta forma logramos
una mejor comprensin de dicha igualdad, al mismo tiempo que al expresarse en trminos
de proporcin quedamos liberados de los problemas de las escalas. Para ello dividamos los
dos miembros de la igualdad (1.31) por la suma de cuadrados total:
21
Yi Y 2
i 1
N
Y
i 1
Y 2
Yi Y 2
i 1
N
Y
i 1
Y 2
Y 2
Y 2
i 1
N
i 1
Esto es:
Prop. variabilidad total = prop. variabilidad explicada + prop. variabilidad no explicada
Es fcil deducir que:
Prop. var. no explicada = 1 - R2
variacin
SOL:
22
(Y Y )
R2
i1
N
(Y
i1
Y )2
(Y
i 1
(Y Y ) 4.032 6.5 6.204 6.5 3.637 6.5 7.784 6.5 10.351 6.5
i 1
8.178 6.5 2 5.414 6.5 2 8.771 6.5 2 6.599 6.5 2 4.032 6.5 2 46.108
De aqu se deduce que la suma de cuadrados no explicada ser:
N
i 1
i 1
i 1
Yi Y 2 Yi Y 2 Yi Y 2
23
R2
(Y Y )
i 1
N
(Y
i 1
Y )2
46.108
0.6933
66.5
2
i
b X i1
N
N
i1
(Yi Y )2
R 2 iN1
2
N
(Yi Y )2
Yi
N
i 1
2
Yi i1
N
i1
2
1175 2
2
0
.
1975
139245
10
2
65
489
10
46.108 0.6933
66.5
O ms sencilla an:
N
R2
(Y Y )
i1
N
(Y
i1
Y )2
0.6933
NSy2
10 * 2.579 2
66.5
(Y Y )
i 1
k
Siendo el numerador la suma de cuadrados explicada por la regresin y el denominador los
grados de libertad asociados al componente de variacin explicado, donde k indica el
nmero de variables independientes a considerar.
Por otro lado, la varianza no explicada ser:
n
(Y
i 1
Yi )2
N k 1
(Y Y )
i 1
(Y
i 1
Yi)2
N k 1
Se rechaza la H 0
Aunque la frmula (1.40) es suficiente para determinar la validez del modelo, habitualmente
25
se recurre a la siguiente tabla donde quedan desglosados los distintos elementos que
configuran dicha frmula. De esta forma se ve de una manera ms clara los componentes
de variacin del modelo as como sus grados de libertad asociados.
FUENTE DE
VARIACIN
SUMA DE
CUADRADOS
(Y
i 1
i1
Total
Y )
(Y Y )
i 1
n
(Y
n
No explicada
VARIANZA
n
Explicada
GRADOS DE
LIBERTAD
Yi)
(Y
N k 1
Varno exp.
Yi)2
i1
Varexp.
N k 1
(Yi Yi )2
(Y
N 1
i 1
i 1
Y )2
N 1
Podemos aplicar la frmula (1.40) directamente o bien utilizar alguna frmula alternativa
ms sencilla. De esta forma, en relacin a la suma de cuadrados debida a la regresin
podemos utilizar la expresin conocida:
n
(Yi Y )2 b 2
i 1
(X
i 1
X )2
(Y
i 1
Y ) b
(X
i 1
X) b
2
i 1
X i2
X
i 1
(Y Y )
i 1
b2
(X
i 1
que
se
supone
ha
sido calculada
X )2 b 2 NSx2
Ya que:
26
X
i 1
X 2
Sx2
i1
X 2 NSx2
(Yi Yi )2
i 1
(Yi Y )2
i 1
(Y
i 1
Y )2
(Yi Yi )2
i 1
(Yi Y )2
i 1
(Y
i1
Y )2 NS y2 b 2 NSx2
Segn utilicemos una u otra expresin tendremos diferentes alternativas a la frmula (1.40).
Por ejemplo, si operamos en puntuaciones directas:
b2
n
(Y
i 1
(Yi Yi)2
N k 1
i 1
Y )
i 1
2
i
i 1
Y
i 1
2
i
i 1
X i
Yi
b2
i 1
2
i
i 1
X i
N k 1
(Y Y )
i 1
(Y
i 1
Yi)2
b 2NSx2
k
2
NSy b 2NSx2
N k 1
N k 1
27
R2
k
F
1 R2
N k 1
Para ello, tan slo tenemos que dividir el numerador y el denominado de (1.42) por la suma
de cuadrados de Y. As pues:
N
(Y Y )
(Y Y )2
(Y Y )2 /
R2
k
k
F N k
N
N
1
R2
(Y Y)2
(Y Y)2 / (Y Y )2
N k 1
i 1
i 1
i 1
N k 1
N k 1
i 1
i 1
i 1
Ejemplo 1.7.- Calcular la validez del modelo de regresin lineal del ejemplo 1.1.
SOL:
Si lo hacemos en trminos de las puntuaciones directas:
b2
i 1
2
i
i 1
X i
Y
i 1
2
i
i 1
Yi
1175 2
0.1975 2 139245
10
65 2
1175 2
489
0.1975 2 139245
10
10
10 1 1
b2
i 1
N k 1
2
i
i 1
X i
46.108
1
18.088
20.392
28
Comparando:
18.088 > 5.318
Luego se rechaza la H 0 (con un riesgo mximo de 0.05). Puede considerarse vlido el
modelo.
Si operamos en trminos de varianzas:
b 2 NSx2
0.1975 2 * 10 * 10.874 2
k
1
F
18.088
2
2
2
2
NS y b NSx 10 * 2.579 0.1975 2 * 10 * 10.874 2
8
N k 1
18.088
1 R2
1 0.8237 2
N k 1
8
FUENTE DE
VARIACIN
Explicada
No explicada
Total
SUMA DE
CUADRADOS
46.108
20.392
66.5
GRADOS DE
LIBERTAD
1
VARIANZA
F
F 18.088
46.108
2.549
7.389
29
Y Y b(X X )
Despejando Y:
Y Y b(X X )
30
31
En esta situacin las variables estn relacionadas, el modelo aporta informacin relevante
en trminos predictivos y es, por ello, vlido.
As pues, como se ha indicado, la validez del modelo puede comprobarse tambin (adems
de la prueba F) contrastando la pendiente asociada al modelo de regresin. Si se
demuestra que la pendiente es significativamente diferente de cero, el modelo tendr
capacidad predictiva, y por tanto, ser vlido. Por el contrario, si la pendiente no fuera
estadsticamente diferente de cero su capacidad predictiva no ir ms all de Y (prediccin
en ausencia de informacin) y el modelo no ser vlido.
En trminos estadsticos se trata de comprobar si la pendiente b observada en una cierta
muestra puede o no proceder de una poblacin cuya pendiente vale cero. Esto es, se
contrasta la hiptesis nula:
H0 : 0
S bi
2
Sres
n
(X X)
2
Sres
NSx2
i 1
S bi
b0
2
Sres
n
(X X)
i1
Posteriormente comparamos este valor t con el de las tablas t(,N 2) para el nivel de
significacin y N-2 grados de libertad:
32
b0
2
Sres
n
(X X)
0.1975
4.253
2.549
1182 .5
i 1
1.4.10.- Prediccin.
Una vez validado el modelo de regresin que liga las variables X e Y puede ser conveniente
utilizarlo para establecer predicciones de la variable Y. Por ejemplo, si conocemos para
una cierta muestra de vendedores la relacin existente entre una determinada prueba
psicolgica y el xito profesional de los mismos, puede interesarnos, si disponemos de un
candidato a vendedor, aplicar dicha prueba a efectos de su capacidad en ventas.
Si para la elaboracin del modelo dispusiramos de los datos de toda la poblacin sucedera
que la ecuacin de regresin obtenida sera precisamente la ecuacin regresin verdadera
Y X
33
En este supuesto, el valor ms probable en Y para un sujeto que haya obtenido un cierto
valor en X sera el reflejado en la ecuacin de regresin (1.46):
Si deseamos afinar algo ms y ofrecer una estimacin por intervalo, sabemos por los
requisitos del modelo de regresin que para un cierto valor Xo la distribucin ligada de los
valores Y sigue una ley normal de media el valor predicho en la ecuacin de regresin y de
varianza la varianza residual. De esta forma, para los sujetos que han obtenido Xo habr una
proporcin 1 de ellos que tendrn en Y puntuaciones comprendidas en el siguiente
intervalo:
Y0 t(N 2, )Se
En trminos de probabilidad, diremos que un sujeto que ha obtenido una cierta puntuacin
Xo tendr una probabilidad 1 de estar comprendido en los citados lmites.
En la prctica, no obstante, sucede que desconocemos la recta de regresin verdadera;
tan slo disponemos de la recta de regresin obtenida en una muestra. En consecuencia,
entre la ecuacin de regresin estimada y la verdadera habr una cierta diferencia tal como se
muestra en la siguiente figura:
No podemos especificar el valor exacto del error ya que desconocemos los parmetros
poblacionales. Lo que s podemos cuantificar es la distribucin en el muestreo de los
o en torno al valor real Yo. Esto es, hemos de determinar la Var(Yo ). A
distintos valores Y
este respecto, se sabe que:
Y0 a bX 0 e
34
Luego:
2
Var(Y0 ) Var(a bX 0 e) Var (a) X 02Var (b) Sres
X2
1
Var(a)
X X
i 1
S2
res
En consecuencia:
1
Var (Y0)
X2
N
X X
i 1
S2 X 2
res
0
2
Sres
N
X X
2
Sres
i 1
Haciendo operaciones:
1
2
Var (Y0 ) Sres
1
X0 X 2
N
X X
i 1
Y0 t(N 2,) S
1 1
2
res
X0
N
X X
i 1
35
Ejemplo 1.9.- Tomando como referencia los datos del ejemplo 1.3, determinar el la
calificacin verdadera para una persona que presenta 115 puntos de C.I.
SOL:
Aplicando la ecuacin de regresin tenemos que la puntuacin pronosticada para este
sujeto ser:
Y0 t(N 2, ) S
2
res
espera
encontrarse
el parmetro
2
1 1 X 0 X 6.011 2.306 2.549 1 1 115 117 .5
N
N
10
1182 .5
X X 2
i 1
36
Existe una probabilidad de 0.95 de que un sujeto que presente un C.I. de 115 obtenga entre
9.882 y 2.140 en rendimiento. Obsrvese la magnitud del intervalo que hace posible
prcticamente cualquier calificacin (de suspenso a sobresaliente) debido a la muestra tan
pequea (10 sujetos) que por motivos didcticos ha sido utilizada.
37
38