Regresion Lineal Simple

Regresin lineal simple
1.- Introduccin
El coeficiente de correlacin (rxy), estudiado en los puntos anteriores, permita conocer la
magnitud de la relacin (supuestamente lineal) existente entre dos variables. En el
presente apartado nos introduciremos en el concepto de regresin lineal, donde estudiaremos
la estructura de relacin existente entre tales variables. Ambos conceptos -regresin y
correlacin- estn ntimamente ligados, mientras el primero especifica la forma de la relacin,
el segundo, sobre la base de esta forma, estudia la intensidad de la relacin establecida.
De una manera ms concreta, mediante el modelo de regresin especificaremos la
ecuacin de regresin que nos permitir un doble objetivo: a) describir de una manera
clara y concisa la relacin existente entre ambas variables y b), predecir los valores de
una variable en funcin de la otra.
En un sentido muy amplio, y hablando en trminos puramente estadsticos, podemos afirmar
que el anlisis de regresin es un mtodo que permite analizar la variabilidad de una
determinada variable en funcin de la informacin que le proporcionan una o ms variables
(Pedhazur, 1982). Se concreta, como hemos indicado, en el estudio de relacin entre
variables, de forma tal que una determinada variable -variable respuesta, explicada,
dependiente o criterio- pueda expresarse en funcin de otra u otras variables - predictoras,
explicativas, independientes o regresores-, lo que permitir predecir los valores de la variable
respuesta en funcin de las variables explicativas, as como determinar la importancia de
stas. Por otro lado, se especifica que la estructura de la relacin es lineal. Este aspecto es
importante por cuanto se descartan aqu otros tipos de relaciones. Por esta razn, con cierta
frecuencia nos referiremos a la regresin lineal como modelo de regresin lineal, en el sentido
de que se aplica una cierta concepcin -modelo- que tenemos de la realidad merced a la cual
se supone que las relaciones entre variables sigue una cierta estructura -la estructura lineal.-.
Hemos de decir, aunque slo sea por curiosidad histrica, que el trmino "regresin" se debe a
Sir Francis Galton (1822-1911) estudiando la relacin de la estatura entre padres e hijos.
Observ que los padres altos tenan hijos altos, aunque no tan altos como sus
progenitores. Igualmente, los padres bajos tendan a tener descendencia de baja estatura
aunque ms altos que sus respectivos padres. En ambos casos, pues, exista una cierta
tendencia a la estatura media, o dicho en trminos de propio Galton, exista una
"regresin a la mediocridad". Aunque hoy da el trmino de "regresin lineal" est muy
lejos de sus primeras intenciones ha quedado as acuado, aunque con otros
propsitos.
Es evidente el inters el modelo de regresin lineal aplicado a Ciencias Humanas y de la
Salud, donde no podemos encontrar relaciones exactas como ocurre en otras reas de la
ciencia, pero s ciertas tendencias susceptibles de ser cuantificadas. Supngase, por citar tan
slo algunos posibles casos de estudio, el efecto de una cierta terapia sobre las respuestas de
los pacientes sometidos a ella, los gastos de publicidad de una empresa y el consumo
ciudadano, el efecto del tabaco sobre el cncer, el clima laboral y la productividad en una
empresa o la calidad de enseanza y el rendimiento acadmico. En todos ellos hay algn
aspecto de la conducta que nos interesa prever (y en ltima instancia, controlar). Merced a la
ligazn que presenta la conducta con alguna variable relevante (y que se entiende manipulable
por el investigador) podemos ejercer algn tipo de control sobre aquella interviniendo sobre la
variable que incide sobre la misma. De esta forma, lograremos nuestros propsitos en cuanto
a salud, por ejemplo, eliminado el consumo de tabaco, o bien una determinada terapia
cognitivo-conductual se mostrar efectiva en la remisin de la depresin.
Como se ha indicado, en el presente captulo, nos limitaremos al estudio de la regresin donde
se estudia la relacin que sobre la variable de respuesta ejerce una nica variable explicativa.
Este tipo de regresin -la ms sencilla de las posibles- se denomina por esta razn regresin
lineal simple.
3.- Diagrama de dispersin
Previo a todo anlisis, resulta conveniente una primera inspeccin visual de los datos al objeto
de comprobar la conveniencia o no de utilizar el modelo de regresin simple. Se recurre a este
respecto, a la representacin conjunta de los datos mediante el diagrama de dispersin o nube
de puntos. Una simple ojeada nos permitir determinar (se entiende grosso modo): a) si existe
relacin o no entre las variables y b) si sta es o no lineal. Adems pueden extraerse otras
informaciones de inters, como son: c) el grado de estrechez de la nube de puntos, indicadora
de la intensidad de la relacin, d) si existen valores anmalos que distorsionan la posible
relacin, o e), si la dispersin de los datos a lo largo de la nube de puntos es uniforme, lo que
tendr su importancia, tal como veremos en los prximos apartados.
La informacin obtenida es importante para encarar la actuacin ms conveniente. Una nube
redondeada y sin contornos definidos (fig. 2a) es indicadora de ausencia de relacin. La
variable explicativa es irrelevante y no merece la pena seguir con el modelo en cuestin. En la
figuras 2b y 2c se sugiere una relacin lineal, ms fuerte en la figura 2b, debido a su mayor
estrechez, aunque en ambos casos un anlisis estadstico posterior se hace necesario para
confirmar con seguridad la relacin insinuada en los grficos. En la figura 2d la relacin es
claramente curvilnea (como ocurre si relacionamos ansiedad con rendimiento) y no procede a
aplicar el modelo lineal de regresin. Aqu podemos optar por transformar los datos a efecto
de lograr linealidad, o lo que puede ser ms conveniente, respetar los datos y elaborar el
modelo pertinente. En la figura 2e, la dispersin no es constante a lo largo del recorrido de los
datos -heterocedasticidad-, lo que imposibilita, como se tendr ocasin de comprobar, la
aplicacin del modelo lineal de regresin. Por otro lado, en la figura 2f un par de datos
anmalos -outliers- ejercen una distorsin importante sobre el modelo, lo que obligar a
replantearse la conveniencia de eliminarlos o bien incluirlos en el modelo, con la consiguiente
transformacin del mismo.
Figura 2. Posibles diagramas de dispersin
4.- Especificacin del modelo de regresin lineal simple
Como se ha observado anteriormente, cuando existen razones para suponer la existencia de

una relacin lineal entre dos variables, podremos establecer la siguiente estructura de relacin:
Y X
En trminos grficos, esta relacin quedara expresada mediante el siguiente diagrama causal:
donde podemos distinguir las variables X, Y y . La variable X, origen de la flecha en la

figura 1.1 es la variable observada cuya incidencia sobre Y deseamos estudiar. En trminos
de la ecuacin (1.1) es la variable que sirve de base para la prediccin. Se le denomina
3
variable predeterminada, explicativa, predictora, independiente, exgena o simplemente,

regresor. En nuestra opinin, variable explicativa o predictora, son los trminos cuyos
significados ilustran mejor el propsito de estas variables. Se dice que es fija si sus valores
son establecidos por el investigador; por ejemplo, cuando analizamos el efecto que el
nmero de miligramos de una determinada droga tiene sobre el tiempo de reaccin a ciertos
estmulos visuales y fijamos previamente los valores de X . Por el contrario, se dice que es
aleatoria cuando sus valores no estn determinados por el investigador sino que se elige
una muestra aleatoria de sujetos y se miden ambas variables. Por ejemplo, si queremos
investigar la relacin entre inteligencia y rendimiento en matemticas en nios de 14 aos, y
para ello, seleccionamos una muestra de la poblacin de nios de 14 aos, midiendo,
posteriormente, su nivel de inteligencia y su rendimiento en matemticas. Los valores
de inteligencia obtenidos son el resultado de la medicin en la muestra (modelo de efectos
aleatorios para X), pero la muestra estudiada no viene condicionada por valores
predefinidos de inteligencia.
La variable Y, punto final de la flecha, es la variable que el modelo pretende dar cuenta Se la
suele denominar como variable de respuesta, explicada, dependiente, criterio o endgena.
El objeto de la regresin va a ser, precisamente, estimar la relacin que Y presenta con X y
predecir sus valores en sujetos no medidos en la muestra. Igualmente, en nuestra opinin,
consideramos ms conveniente el trmino de variable de respuesta o explicada.
La variable representa el componente de error en la prediccin de la variable Y debido la
relacin estocstica entre Y y X. Se le denomina entre otros nombres como error,
perturbacin, o residual. Debe su valor fundamentalmente a dos tipos de factores: a)
medicin incorrecta de la variable Y, y b) influencia de otras variables omitidas por el
modelo. Si salimos del esquema determinista que impera en Ciencias Humanas y
concedemos un cierto valor al azar y a la espontaneidad habremos de aadir a los puntos
anteriores un tercer punto: c) variabilidad inherente a la conducta humana.
Es importante destacar que aqu nos ocupamos de relaciones entre variables
exclusivamente lineal; esto es, de variables cuya estructura de relacin es del tipo:
No obstante pueden establecerse otras muchas formas de relacin
posible que no son

4
abordables directamente desde el planteamiento lineal. Por ejemplo, es bien conocida que la
relacin entre ansiedad y rendimiento sigue una U invertida:
Un pequeo incremento en los valores de ansiedad sirve para activar al sujeto, y en

consecuencia, aumenta su rendimiento, mientras que a partir de un cierto punto, la ansiedad
desarbola a dicho individuo impidindole concentrarse adecuadamente.
Otro tipo de relacin no lineal puede observarse en la evolucin de un determinado rumor a
lo largo del tiempo, que sigue una relacin sigmoidal:
En los momento iniciales hay poca gente con conocimiento del tema, lo que hace que la
extensin del rumor sea pequea. Conforme aumenta el nmero de sujetos conocedores de
tal rumor hay ms posibilidad de interaccin con las personas desconocedoras del tema,
con lo que hay una gran progresin, hasta llegar a un cierto punto en el que casi toda la
poblacin est saturada y son ya pocos los individuos que restan por enterarse de la
cuestin, de forma tal que el incremento es cada vez ms reducido, hasta alcanzar el valor de
cero, cuando el rumor ha llegado a extenderse por toda la poblacin. Este tipo de fenmenos
5
es muy conocido en biologa, especialmente en dinmica de poblaciones, caracterstico de la

evolucin de una cierta poblacin con recursos limitados.
Otro ejemplo. La relacin entre esfuerzo y aprendizaje no es lineal sino tal como se expone en
la siguiente figura:
En el comienzo, pequeos esfuerzos supone un aprendizaje relativamente rpido, pero a

partir de un determinado punto grandes esfuerzos no se ven proporcionalmente
compensados (recurdese a este respecto, el aprendizaje de idiomas).
No daremos ms ejemplos para no aburrir al lector. Tan slo dejar constancia de que la
relacin lineal es una de las relaciones posibles y de que existen otros modelos alternativos.
El modelo lineal es bien conocido y existe una extensa literatura al respecto, por lo que
es frecuentemente utilizado, aunque no siempre con las debidas precauciones. Ya
veremos ms adelante, en el tema correspondiente al anlisis de residuos cmo tratar
toda la casustica de modelos supuestamente no lineales.
1.4.2.- Especificacin del modelo de regresin lineal simple

El modelo de regresin lineal simple para la poblacin establece como hiptesis estructural
bsica lo siguiente:
Y X
la puntuacin de un sujeto en la variable criterio Y depende linealmente de la puntuacin del

sujeto en la variable predictora X ms una perturbacin o error . Otra forma de
expresar el modelo es:
Y Y
6
donde la puntuacin Y predicha por el modelo de regresin es:

Y X
De la expresin (1.15) se deduce que el error en la prediccin ser:
Y Y
Los parmetros de la ecuacin (1.14) -ecuacin de regresin verdadera- ( y )
generalmente desconocidos y han de ser estimados a partir de los valores observados en
muestra de sujetos. Para que las inferencias a la poblacin -estimacin- as como
contrastes de hiptesis acerca de los parmetros sean adecuados es necesario que
variables implicadas cumplan las siguientes caractersticas estadsticas:
son
una
los
las
SUPUESTOS
(a) Linealidad. El primer supuesto establece que el valor esperado (media) en la variable
Y para cada uno de los valores X se encuentra sobre la recta de regresin "verdadera" de Y
sobre X, o dicho de otra manera, la recta de regresin de Y sobre X vendr determinada
por los valores medios de Y para cada valor de X. En consecuencia, la esperanza
matemtica de los errores ser cero. As:
E (Y | X ) X
En trminos de los errores:

E ( ) 0
Ya que:
E E Y Y E Y Y E Y E Y Y Y 0
(b) Homocedasticidad. El segundo supuesto establece que las varianzas de Y para cada valor
de X son todas iguales 2 , esto es, la dispersin de la variable Y a todo lo largo de la
recta de regresin es constante. El inters de esta propiedad reside en la ventaja de
utilizar un nico valor para todo el recorrido de X a la hora de estimar valores de Y a partir
de X, lo que otorga simplicidad al modelo. As pues:
Var(Y | X i) 2
Obsrvese que la distribucin de los errores es la misma que la de la variable dependiente

en torno a la recta de regresin (para valores fijos de X). En consecuencia, su varianza
coincidir con la de los errores ya que en la expresin Y X la variabilidad en
Y para un cierto valor de X lo aporta :
Var(Y | X i) E Yi Yi 2 E Yi X i 2 E 2 2
c) Ausencia de autocorrelacin. El tercer supuesto establece que las variables aleatorias
Y son independientes entre s; es decir, la covarianza (o bien, correlacin) entre dos
valores de Y cualesquiera es cero. Cuando los valores de Y hacen referencia a sujetos
7
distintos -estudios transversales- esta propiedad suele cumplirse. Otro caso sucede en
estudios longitudinales donde se efectan diferentes mediciones de los mismos sujetos a
lo largo del tiempo, y que por razones de inercia suelen presentar autocorrelacin. As:
Cov(YiYj) 0
O bien:
Cov( i j) 0
d) Normalidad de las distribuciones. Este supuesto establece que la forma de la distribucin

de Y para cada valor de X sigue una ley normal. Se cumple, entonces, la condicin de
normalidad. Esta propiedad, junto a la condicin de homocedasticidad facilita la
inferencia estadstica del valor de Y poblacional a partir del valor de X. As:
Yi N( yx , y2x )
Y en trmino de los errores:

i N (0, 2 )
Hay que decir en relacin a este supuesto que le modelo de regresin es bastante robusto
frente a violaciones del mismo. Por otro lado, para tamaos de muestras grandes, el
teorema central del lmite garantiza su cumplimiento.
Adems de estos requisitos necesarios a efectos de inferencia estadstica y contrastes
de hiptesis han de respetarse otros supuestos relacionados con el modelo de regresin en
cuanto modelo descriptivo. Estos son:
(a) El modelo ha de estar correctamente especificado, lo que implica el doble cometido de
no haber excluido variables independientes relevantes y el no haber incluido variables
independientes irrelevantes. Este requisito cumple su verdadera dimensin en la
regresin mltiple donde las variables independientes han de ser seleccionadas
cuidadosamente. Cuando se trata de una nica variable independiente, la precaucin ha de
cifrarse en esa variable y aqu la evidencia es palpable si el modelo no ha sido
correctamente especificado.
(b) La variable independiente ha de haber sido medida sin error. Se quiere decir con ello
que las puntuaciones empricas obtenidas en X son precisamente sus puntuaciones
verdaderas. Este requisito es un tanto ideal ya que el error de medida est implcito en
toda medicin. A este respecto hay que decir que en modelos ms completos
(Modelos Estructurales) se contempla la fiabilidad en la medida. Obsrvese por otro
lado, que la exactitud en la medicin no es requisito para la variable Y, ya que esta
circunstancia queda contemplada en el error .
6.- Estimacin de parmetros
Los datos observados en una determinada
tipo:
muestra
presentan
una configuracin del
denominado diagrama de dispersin o bien nube de puntos. Dicha configuracin carece

de operatividad matemtica. No obstante, segn el modelo convenido, la estructura de
relacin entre X e Y se supone lineal. As pues, hemos de determinar la recta:
Y X
que mejor represente la nube de puntos correspondiente a la muestra observada, y cuyos

valores (a y b) sean buenos estimadores de la verdadera ecuacin de regresin ( y ):
E(Y |X) X
referente a la poblacin de origen.

Podramos utilizar varios mtodos en la determinacin de la recta que mejor ajuste a la
mencionada nube de puntos. Todos ellos tendrn, obviamente, como objetivo fundamental
reducir al mnimo el error global cometido, lo que se traduce, de alguna forma, en minimizar
el conjunto de errores e obtenido para el total de las observaciones. A este respecto,
podramos establecer el siguiente criterio:
N
e
i 1
mnimo
Este procedimiento presenta el inconveniente de que puede lograrse una suma de cero
existiendo grandes errores positivos y negativos que quedaran neutralizados entre s. Esta
situacin podramos solventarla con dos procedimientos: a) operando con los valores
absolutos de los errores:
N
|e | mnimo
i 1
O bien, b) elevando al cuadrado tales valores:

N
e
i 1
2
i
mnimo
De estos dos procedimientos, el ltimo, denominado criterio de mnimos cuadrados es el

preferible. Varias razones lo avalan:
a) El hecho de elevar al cuadrado las puntuaciones no solamente resuelve el problema del

signo, sino que adems magnifica los errores grandes, lo cual obliga an ms a reducir tales
errores.
b) Algebraicamente entraa menos dificultades operar con sumas de cuadrados que con
sumas de valores absolutos.
c) Y por ltimo, y este es el punto ms importante, las estimaciones de los parmetros de la
ecuacin de regresin (a y b) obtenidas mediante el criterio de los mnimos cuadrados son
estimaciones sin sesgo, y por el teorema de Gauss-Markov presentan la mnima varianza
(ver al respecto el Apndice A). Adems, las estimaciones obtenidas mediante mnimos
cuadrados son coincidentes con las logradas por el procedimiento de mxima
verosimilitud.
1.4.3 1.- Estimacin mediante mnimos cuadrados

a) Puntuaciones directas.
En lo que sigue demostraremos, dado un conjunto de datos ofrecidos en puntuaciones
directas, que la ecuacin de la recta Y a bX cuyo ajuste sigue el criterio de los mnimos
cuadrados es aquella que tiene por pendiente:
b rxy
y de ordenada en el origen:
Sy
Sx
a Y bX
Efectivamente, tengamos la expresin:

N
e
i 1
2
i
mnimo
10
Sustituyendo los errores por su valor:

N
e2
i 1
Y Y 2 (Y (a bX))2 Y 2 (a bX 2) 2Y(a bX)

N
i 1
i 1
i 1
Esta funcin tendr un mnimo para los valores que anulen la primera derivada respecto a a y
b. As pues, calculemos primeramente la derivada parcial respecto a a. Haciendo operaciones
tenemos:
a bX Y 0
i 1
De donde:
a Y bX
Para calcular b procedamos de igual manera. Igualemos a cera la derivada parcial respecto a
b, y haciendo operaciones:
i 1
i 1
X2
XY
i1
Y X 0
Despejando b:
N
XY
i 1
X
i 1
XY
S xy
S x2
rxy S x S y
S x2
rxy
Sy
Sx
X2
b) puntuaciones centradas
Tengamos al ecuacin de regresin en directas:
11
Y a bX
Sustituyamos a por su valor:
Y a bX (Y bX ) bX Y bX bX Y b(X X
Donde se nos indica que el valor pronosticado en Y es precisamente su media (el valor
previsto en ausencia total de informacin) ms el efecto de la variable X.
Ahora, si pasamos Y al primer miembro de la ecuacin:
Y Y b(X X )
Se observa en el primer miembro las puntuaciones centradas de Y y en el segundo las
puntuaciones centradas de X. Sustituyendo, entonces, por la notacin adecuada el modelo
en puntuaciones centradas queda:
y
bx
Como puede observarse, dicha ecuacin presenta la misma pendiente que la ecuacin
obtenida en puntuaciones directas. Se diferencia de sta en que carece de ordenada en el
origen. La recta, pues, en centradas pasa por el origen de coordenadas. Esto es:
Obsrvese que las puntuaciones centradas son la consecuencia de restar a los valores Y su
media (Y Y ) y a los valores X, igualmente su media (X X ). Por otro lado, sucede,
precisamente, que tanto la media de Y como la media de X satisfacen la ecuacin de la
recta, como se desprende de (1.20):
Y a bX
Por tanto, la transformacin en puntuaciones centradas equivale a un desplazamiento del
origen del sistema de coordenadas al punto (X ,Y ). En consecuencia, la recta de regresin
observada tendr la misma pendiente pero carecer de ordenada en el origen, tal como se
observa en la siguiente figura:
12
c) Puntuaciones estandarizadas
Tomemos como referencia la siguiente ecuacin conocida:
Y Y b(X X )
Y sustituyamos b por su expresin mnimo cuadrtica:
Sy
(X X )
Y Y b(X X ) rxy
S x
Se observa que el primer miembro de la igualdad hace referencia a las puntuaciones tpicas
de Y y el segundo miembro, a las puntuaciones tpicas de X. Sustituyendo por la notacin
adecuada:
y rxy Z x
Z
Se comprueba que la ecuacin en puntuaciones estandarizadas tiene por pendiente el

coeficiente de correlacin simple.
Ejemplo 1.5.- Sobre los datos del ejemplo 1.1, calcular la ecuacin de regresin en
puntuaciones directas, centradas y estandarizadas:
SOL:
13
a) Directas:
b rxy
Sy
Sx
0.8327
2.579
0.1975
10.874
a Y bX 6.5 0.1975 * 117 .5 16.702

Por tanto:
Y a bX 16.702 0.1975X
b) Centradas:
y
bx 0.1975x
c) Estandarizadas:
Zy rxyZx 0.8327Zx
1.4.5.- Interpretacin del modelo de regresin

Como se ha indicado, en el modelo de regresin lineal se establece la relacin existente
entre las variables X e Y. Esta relacin, para todo sujeto, tiene un componente estructural
(lineal) de carcter determinista indicado por a bX y un componente aleatorio e,
especfico para cada individuo . As:
Y a bX e
donde la parte determinista que permite obtener
modelo es:
Y a bX
la
puntuacin pronosticada por el
Distinguimos pues, los siguientes elementos: a) error de estimacin -e-, b) puntuacin

-, c) pendiente de la recta -b- y d) ordenada en el origen -a-.
pronosticada -Y
a) Error de estimacin
La parte aleatoria hace referencia justamente a aquello que el modelo no explica. Muestra la
deficiencia del modelo, aunque es obvio que ningn modelo en ciencias humanas, dada su
complejidad, carecer de error. El estudio del error o puntuaciones residuales tiene especial
inters, como se ver mas adelante en la verificacin de los supuestos del modelo. Por el
momento, sealemos su existencia. En el ejemplo 1.1, el sujeto nmero 4, que presenta un
coeficiente intelectual -C.I.- de 124 puntos, ha obtenido una calificacin de 7 puntos. El
pronstico de la ecuacin de regresin ser:
14
Y a bX 16.702 0.1975 * 124 7.788

Y el error obtenido:
e Y Y 7 7.788 0.788
La interpretacin es obvia; para un sujeto de 124 de C.I. el modelo predice 7.788 puntos.
Ha obtenido 7 puntos, luego la parte que no explica el modelo corresponde a -0.788
puntos.
b) Puntuacin estimada
Mayor inters tiene por el momento que nos concentremos en la parte estructural del
i obtenido al aplicar la ecuacin de
modelo. A este respecto hay que decir que el valor Y
regresin sobre un determinado valor Xi hace referencia al valor promedio previsto para
todos aquellos sujetos que han obtenido en la variable X el valor de Xi . Por ejemplo, en el
caso que nos concierne para el sujeto que ha logrado 124 puntos de C.I. la puntuacin
prevista ha sido de 7.788. Se interpreta como la calificacin media de todos los sujetos de
124 puntos en inteligencia. Es obvio que no todos los sujetos de igual inteligencia
sacarn exactamente la misma puntuacin. Dependiendo de otros factores (motivacin,
personalidad ... etc) unos obtendrn ms y otros menos. Al final es el valor ms probable
(promedio) el especificado por la ecuacin de regresin.
c) Pendiente de la recta
La pendiente de la recta tiene una interpretacin sencilla en matemticas; muestra el
cambio en Y por cada unidad de cambio en X. Como la ecuacin de regresin opera (mediante
el procedimiento de mnimos cuadrados) sobre la base del diagrama de dispersin, la
interpretacin, en este caso, tal como quedo de manifiesto en el apartado anterior, es la
siguiente: la pendiente b indica el cambio medio en Y asociado a cada unidad de cambio en X.
Por ejemplo, en el caso que estamos tratando, la pendiente vale 0.1975. Se interpreta en el
sentido de que por cada punto de incremento en el C.I. los sujetos, por trmino medio,
mejorarn en 0.1975 puntos su rendimiento acadmico.
Una pendiente de cero indica claramente que la variable X no sirve para nada, pero una
pendiente grande no indica lo contrario, ya que para esto hace falta conocer las escalas de las
variables, y lo que es ms importante, la dispersin de la nube de puntos. Un diagrama de
dispersin mas bien redondeado, aunque con una recta implcita de gran pendiente no
significa gran cosa en trminos de relacin.
c) Ordenada en el origen
Como se sabe, la ordenada en el origen hace referencia al valor en Y cuando X=0. En la
ecuacin de regresin, ya que la recta est elaborada sobre los puntos medios del diagrama de
15
dispersin, hace referencia a la puntuacin media de Y cuando el valor de X es cero. No

siempre es interpretable este valor en Psicologa. Por ejemplo, en nuestro caso la ordenada
en el origen es -16.702. Es evidente que un sujeto no obtendr esta calificacin cuando
X=0. Los valores negativos en rendimiento carecen de interpretacin. Por otro lado, ha de
tenerse en cuenta que no es posible encontrar una inteligencia de valor cero; el rango de
variacin en las variables no ha de estar fuera de los observados en la muestra, ya que ste ha
sido el punto de referencia para determinar la ecuacin de regresin. Por tanto, aunque la
recta pueda prolongarse hasta el infinito no es lcito operar con valores fuera de los
mrgenes estudiados.
No obstante, frecuentemente, puede interpretarse el valor de la ordenada en el origen.
Supongamos que relacionamos la variable Ingresos (Y) con Aos de estudio (X) y obtenemos
la siguiente ecuacin de regresin:
Y 600 120X
En este caso, los sujetos que carecen de todo tipo de estudio ganan por trmino medio 600
euros, de tal manera que por cada ao de estudio ven incrementado su salario en 120 euros.
As, un sujeto que haya estudiado 10 aos tendr un sueldo de 600+120*10=1800 euros.
1.4.6.- Componentes de variacin.

Interesa en este apartado analizar la capacidad predictiva del modelo de regresin lineal.
Supuesto que los datos observados se ajustan a una ecuacin lineal hemos determinado en
el punto anterior aquella recta que mejor cumple dicha condicin en el sentido de generar la
mnima cantidad de errores cuadrticos posibles. Veremos ahora, en una primera
instancia, cuanto, en trminos de variacin, explica el modelo lineal del conjunto de los
datos observados (bondad de ajuste) para tratar ms adelante de la lgica de la decisin que
permite aceptar o rechazar la hiptesis del modelo lineal para un determinado conjunto de
datos (validez del modelo).
Expondremos, primeramente, los distintos componentes de variacin que pueden reconocerse
al aplicar el modelo regresin sobre un determinado fenmeno observado. Digamos que todo
modelo es un intento de explicar la realidad. Y los modelos estadsticos se aplican,
precisamente, cuando la realidad estudiada es imperfectamente conocida. Se observa, as,
que una parte del comportamiento del fenmeno queda explicado por el modelo, mientras que
otra parte se sustrae al mismo.
Para aclarar estas ideas, supongamos en primer lugar que disponemos de dos variables X e Y
pero desconocemos la naturaleza de la relacin entre ambas variables. En este supuesto, si nos
piden el valor en Y para un sujeto que haya obtenido un cierto valor en X, daremos como
valor ms probable la media de Y. Es razonable tal respuesta, ya que en ausencia de
informacin para una variable que sigue una ley normal el valor de mxima probabilidad es
precisamente su valor medio. As pues, como se observa en el siguiente grfico el valor de Y
estimado para cualquier valor de X serY :
16
De esta forma, en ausencia total de informacin, la ecuacin de regresin ser:
Y Y
Para un sujeto en particular que dado un valor Xi haya obtenido Yi , cometeremos un error
de prediccin:
e Yi Y
tal como se ilustra en la siguiente figura:
Supongamos ahora que tenemos conocimiento de la relacin lineal que liga las variable X e Y.
Y esta relacin es segn la ecuacin conocida
Y a bX
El error cometido ser entonces:

17
Yi Yi
segn se ilustra en la siguiente figura:
Se observa que en este caso el error es ms pequeo que el existente

informacin. Si tomamos el valor:
en ausencia de
Yi Y
como indicativo del error cometido cuando carecemos de la informacin proporcionada por
el modelo y lo definimos como desviacin total respecto a la media para un determinado
sujeto, entonces el valor:
Yi Y
har referencia a la parte que de la desviacin total explica el modelo de regresin. Se
denomina desviacin explicada por el modelo de regresin. Queda, entonces, un resto:
Yi Yi
que no logra explicar el modelo -desviacin no explicada-. De esta forma, segn lo
expuesto, podemos establecer la siguiente igualdad:
18
Yi Y Yi Y Yi Y
Para el sujeto i la desviacin total del valor Yi con respecto a la media Yi Y puede
descomponerse en la desviacin explicada por el modelo de regresin Yi Y ms la
desviacin no explicada Yi Y .
Si elevamos al cuadrado ambos miembros de la igualdad (1.30):
Yi Y 2 Yi Y 2 Yi Y 2 2Yi Y Yi Y
Si se cumple esta igualdad para cada uno de los sujetos, se cumplir igualmente para la
suma de todos ellos. As pues:
N
Y
i 1
Y 2
i 1
Y 2
i 1
Y 2 2
Y
i 1
Y Yi Y
Donde:
N
Y
i1
Y Yi Y 0
ya que los errores aleatorios no correlacionan con ninguna otra puntuacin (Obsrvese
que el sumatorio anterior es el numerador de la covarianza entre los errores y las
puntuaciones predichas por el modelo de regresin). En consecuencia:
N
i 1
i 1
i 1
Yi Y 2 Yi Y 2 Yi Y 2
Esto es:
Suma de cuadrados total = Suma de cuadrados explicada + Suma de cuadrados no explicada
Si tomamos las sumas de cuadrados anteriores (como numeradores de varianzas que son)
como un ndice de la variabilidad de los datos tenemos que:
Variacin Total = Variacin Explicada + Variacin No Explicada.
Merece destacarse la importancia de esta igualdad. Del cociente entre la variacin explicada y
la total obtendremos la proporcin de variacin explicada por el modelo, lo que permitir
hacernos una idea del ajuste del modelo al fenmeno observado -bondad de ajuste-. Por otro
lado, a partir de estos datos calcularemos la varianza explicada y no explicada,
permitindonos su cociente tomar la decisin de si el modelo lineal es un buen indicador del
comportamiento de los datos observados -validez del modelo-. A estas consideraciones
19
dedicamos los dos prximos apartados.
1.4.7.- Bondad de ajuste

Tomaremos como ndice de la bondad de ajuste del modelo la proporcin de variacin
explicada por el mismo; esto es, el cociente entre la suma de cuadrados explicada por el
modelo y la suma de cuadrados total. De esta forma, podemos hacernos una idea de cunto
explica el modelo de la realidad estudiada. Su expresin es:
N
R2
(Y
Y )2
(Y
Y )2
i1
N
i1
Obsrvese que este cociente lo hemos denominado como R2. Coincide, precisamente, como
demostraremos a continuacin con el valor de rxy al cuadrado, tambin denominado
coeficiente de determinacin. En este sentido, en relacin al numerador de la expresin
(1.32) se sabe que la ecuacin de regresin en puntuaciones centradas es:
Yi Y b(X i X )
Elevando al cuadrado y sacando sumatorios:
N
i 1
i 1
(Yi Y )2 b 2 (X i X)2
N
Por otro lado, se sabe que
(X
i 1
X )2 representa el numerador de la varianza de X. As
pues:
N
(X
X )2 NSx2
Y )2 NS y2
i1
Igualmente, en relacin a
(Y
i 1
Y )2 :
N
(Y
i 1
20
Por tanto, podremos expresar (1.32) de la siguiente manera:

N
R
2
(Y Y )
i 1
N
(Y
i 1
Y )2
b 2NSx2 b 2Sx2
2
NS y2
Sy
Sustituyendo b por su expresin mnimo cuadrtica:
S
rxy y Sx2
2 2
Sx
b S
2
R2 2 x
rxy
2
Sy
Sy
De donde se comprueba que la proporcin de varianza explicada corresponde con el

2
valor de rxy . De esta forma, la interpretacin de R 2 es extremadamente sencilla y
clarificadora. En el ejemplo 1.1 se obtuvo rxy = 0.8327. Por tanto, el cuadrado de este valor,
R2 = 0.83272 = 0.6933 nos indica que el 69.33% de la variacin observada en el rendimiento
es debida a la inteligencia. Queda, en consecuencia, un 30.67% de variacin debido a otros
factores (motivacin, horas de estudio, ..etc).
Resulta patente, pues, la utilidad de R2 para hacernos una ideal cabal del efecto de una
variable sobre otra. En trminos prcticos, para calcular la bondad de ajuste del modelo
bastar con elevar al cuadrado el coeficiente de correlacin (rxy) que se supone ya ha sido
obtenido en su momento (ver frmula (1.9) o equivalente). Tambin podemos aplicar la
frmula (1.33), si disponemos de las varianzas de X y de Y. Podemos, igualmente, aplicar
directamente la expresin (1.32) o bien, si operamos en base a las puntuaciones directas
utilizaremos la siguiente:
Xi
b X i1
N
N
N
i1
2
2
2
(
Y
Y
)
b
(
X
X
)
i
i
R 2 iN1
Ni1
2
2
2
N
(Yi Y )
(Yi Y )
i
N
i1
i 1
i1
2
Y
i
N
i1
2
2
i
Por otro lado, podemos replantear la frmula (1.31) en funcin de R2. De esta forma logramos
una mejor comprensin de dicha igualdad, al mismo tiempo que al expresarse en trminos
de proporcin quedamos liberados de los problemas de las escalas. Para ello dividamos los
dos miembros de la igualdad (1.31) por la suma de cuadrados total:
21
Yi Y 2
i 1
N
Y
i 1
Y 2
Yi Y 2
i 1
N
Y
i 1
Y 2
Y 2
Y 2
i 1
N
i 1
Esto es:
Prop. variabilidad total = prop. variabilidad explicada + prop. variabilidad no explicada
Es fcil deducir que:
Prop. var. no explicada = 1 - R2
Luego la expresin (1.35) deviene:

1 R 2 (1 R 2 )
Grficamente el reparto de variabilidad podemos representarlo en el siguiente diagrama de

Venn. La interseccin de los crculos indica la proporcin de variabilidad explicada por la
regresin:
Ejemplo 1.6.- Determinar los componentes de variacin y la proporcin de

explicada por el modelo de regresin lineal de los datos del ejemplo 1.1.
variacin
SOL:
22
Comenzaremos con la expresin original (1.32), que no es precisamente la frmula

ms simple de realizar, pero tiene la ventaja de ser la que mejor refleja la lgica de la bondad
de ajuste. Permite distinguir para cada puntuacin de Y los distintos componentes de
variacin (desviacin explicada, no explicada y total):
N
(Y Y )
R2
i1
N
(Y
i1
Y )2
Calculemos, en primer lugar, la suma de cuadrados total:

N
(Y
i 1
Y )2 4 6.5 2 8 6.5 2 2 6.5 2 7 6.5 2 9 6.5 2
9 6.5 2 3 6.5 2 10 6.5 2 7 6.5 2 6 6.5 2 66.5

Antes de proceder a calcular la suma de cuadrados explicada, hemos de determinar los
valores predichos por la ecuacin de regresin para los distintos valores de X. As pues:
Y1 16.702 0.1975 * 105 4.032

Y2 16.702 0.1975 * 116 6.204
Y3 16.702 0.1975 * 103 3.637
Y4 16.702 0.1975 * 124 7.784
Y5 16.702 0.1975 * 137 10.351
Y6 16.702 0.1975 * 127 8.178
Y7 16.702 0.1975 * 112 5.414
Y8 16.702 0.1975 * 129 8.771
Y9 16.702 0.1975 * 118 6.599
Y10 16.702 0.1975 * 105 4.032
Una vez obtenidas las puntuaciones estimadas por el modelo procedemos a calcular la suma
de cuadrados explicada:
N
(Y Y ) 4.032 6.5 6.204 6.5 3.637 6.5 7.784 6.5 10.351 6.5
i 1
8.178 6.5 2 5.414 6.5 2 8.771 6.5 2 6.599 6.5 2 4.032 6.5 2 46.108
De aqu se deduce que la suma de cuadrados no explicada ser:
N
i 1
i 1
i 1
Yi Y 2 Yi Y 2 Yi Y 2
66.5 46.108 20.392
Y la proporcin de variabilidad explicada:
23
R2
(Y Y )
i 1
N
(Y
i 1
Y )2
46.108
0.6933
66.5
Otra frmula ms til para el calculo de R 2 es:
2
i
b X i1
N
N
i1
(Yi Y )2
R 2 iN1
2
N
(Yi Y )2
Yi
N
i 1
2
Yi i1
N
i1
2
1175 2
2
0
.
1975
139245
10

2
65
489
10
46.108 0.6933
66.5
O ms sencilla an:
N
R2
(Y Y )
i1
N
(Y
i1
Y )2
b 2NSx2 0.1975 2 * 10 * 10.874 2 46.108
0.6933
NSy2
10 * 2.579 2
66.5
1.4.8.-- Validacin del modelo.

Como se ha indicado, hay dos de variacin en todo fenmeno de base estadstica: la fuente
de variacin especificada por el modelo y que constituye su estructura, y una fuente de
variacin aleatoria, no controlada, que imprime una cierta deformacin sobre el
modelo concebido. Desde esta perspectiva, la validacin del modelo consiste bsicamente
en comprobar si persiste la estructura del modelo a pesar de la deformacin
a por la
fluctuacin aleatoria de los datos.
A nivel estadstico, se trata de comparar la varianza explicada, que define el modelo, con la
varianza no explicada, que lo desdibuja. Si la varianza explicada es mayor que la no
explicada ser indicativo de que se reconoce algo a pesar del ruido, si ocurre lo contrario, el
ruido, la deformacin que impone la varianza aleatoria impedir toda posibilidad de
reconocimiento y el modelo no ser validado.
La prueba estadstica que permite comparar varianzas y tomar decisiones en cuanto a su
magnitud relativa es, como se sabe, el anlisis de la varianza. A dicha prueba nos
remitimos cuando hablamos de validacin del modelo.
A este respecto, la varianza explicada tendr por valor:
24
(Y Y )
i 1
k
Siendo el numerador la suma de cuadrados explicada por la regresin y el denominador los
grados de libertad asociados al componente de variacin explicado, donde k indica el
nmero de variables independientes a considerar.
Por otro lado, la varianza no explicada ser:
n
(Y
i 1
Yi )2
N k 1
donde el numerador hace referencia a la suma de cuadrado no explicada por el modelo, y el

denominador sus grados de libertad asociados (N hace referencia al nmero de individuos
y k al nmero de variables independientes).
El anlisis de la varianza queda, entonces, de la siguiente manera:
(Y Y )
i 1
(Y
i 1
Yi)2
N k 1
Si el valor obtenido de F es superior al de las tablas para k y N-k-1 grados de libertad y al

nivel de significacin de , rechazaremos la hiptesis de igualdad de varianzas (con
un riesgo mximo ). Concluiremos, en consecuencia, que muy probablemente las variables
X e Y estn relacionadas. As:
F F(k,N k 1,)
Se rechaza la H 0
En caso contrario, si el valor obtenido de F es igual o inferior al de las tablas, concluiremos

(con un riesgo desconocido) que ambas varianzas son iguales, y por tanto, no
estaremos en condiciones de rechazar la H 0 . Concluiremos, por tanto, que muy
probablemente las variables X e Y no estarn relacionadas. Esto es:
F F(k,N k 1,) Se acepta la H 0
Aunque la frmula (1.40) es suficiente para determinar la validez del modelo, habitualmente
25
se recurre a la siguiente tabla donde quedan desglosados los distintos elementos que
configuran dicha frmula. De esta forma se ve de una manera ms clara los componentes
de variacin del modelo as como sus grados de libertad asociados.
FUENTE DE
VARIACIN
SUMA DE
CUADRADOS
(Y
i 1
i1
Total
Y )
(Y Y )
i 1
n
(Y
n
No explicada
VARIANZA
n
Explicada
GRADOS DE
LIBERTAD
Yi)
(Y
N k 1
Varno exp.
Yi)2
i1
Varexp.
N k 1
(Yi Yi )2
(Y
N 1
i 1
i 1
Y )2
N 1
Podemos aplicar la frmula (1.40) directamente o bien utilizar alguna frmula alternativa
ms sencilla. De esta forma, en relacin a la suma de cuadrados debida a la regresin
podemos utilizar la expresin conocida:
n
(Yi Y )2 b 2
i 1
(X
i 1
X )2
Si disponemos de las puntuaciones directas de la variable X, resulta ms simple:
(Y
i 1
Y ) b
(X
i 1
X) b
2
i 1
X i2
X
i 1
(Y Y )
i 1
b2
(X
i 1
que
Ms fcil an, si conocemos la varianza de X,

previamente:
se
supone
ha
sido calculada
X )2 b 2 NSx2
Ya que:
26
X
i 1
X 2
Sx2
i1
X 2 NSx2
Y en relacin a la suma de cuadrados no explicada (o residual),

como la diferencia entre la suma de cuadrados total y explicada:
N
(Yi Yi )2
i 1
(Yi Y )2
i 1
(Y
i 1
sta puede expresarse
Y )2
Y de una manera ms sencilla en base a lo expuesto anteriormente:

N
(Yi Yi )2
i 1
(Yi Y )2
i 1
(Y
i1
Y )2 NS y2 b 2 NSx2
Segn utilicemos una u otra expresin tendremos diferentes alternativas a la frmula (1.40).
Por ejemplo, si operamos en puntuaciones directas:
b2
n
(Y
i 1
(Yi Yi)2
N k 1
i 1
Y )
i 1
2
i
i 1
Y
i 1
2
i
i 1
X i
Yi
b2
i 1
2
i
i 1
X i
N k 1
O bien en trminos de varianzas, si stas se conocen:
(Y Y )
i 1
(Y
i 1
Yi)2
b 2NSx2
k
2
NSy b 2NSx2
N k 1
N k 1
27
Podemos simplificar an ms el clculo de F, y expresarlo en trminos de R2 segn la

siguiente frmula:
R2
k
F
1 R2
N k 1
Para ello, tan slo tenemos que dividir el numerador y el denominado de (1.42) por la suma
de cuadrados de Y. As pues:
N
(Y Y )
(Y Y )2
(Y Y )2 /
R2
k
k
F N k
N
N
1
R2
(Y Y)2
(Y Y)2 / (Y Y )2
N k 1
i 1
i 1
i 1
N k 1
N k 1
i 1
i 1
i 1
Ejemplo 1.7.- Calcular la validez del modelo de regresin lineal del ejemplo 1.1.
SOL:
Si lo hacemos en trminos de las puntuaciones directas:
b2
i 1
2
i
i 1
X i
Y
i 1
2
i
i 1
Yi
1175 2
0.1975 2 139245
10
65 2
1175 2
489
0.1975 2 139245
10
10
10 1 1
b2
i 1
N k 1
2
i
i 1
X i
46.108
1
18.088
20.392
28
Buscando en las tablas:

F(1,8,0.05) 5.318
Comparando:
18.088 > 5.318
Luego se rechaza la H 0 (con un riesgo mximo de 0.05). Puede considerarse vlido el
modelo.
Si operamos en trminos de varianzas:
b 2 NSx2
0.1975 2 * 10 * 10.874 2
k
1
F
18.088
2
2
2
2
NS y b NSx 10 * 2.579 0.1975 2 * 10 * 10.874 2
8
N k 1
Ms fcilmente podemos aplicar la expresin (1.43) para el clculo de la validez. As:

R2
0.8237 2
k
1
F
18.088
1 R2
1 0.8237 2
N k 1
8
Si se desea, a efectos ilustrativos de los distintos elementos que componen el anlisis de la

varianza, podremos elaborar la siguiente tabla:
FUENTE DE
VARIACIN
Explicada
No explicada
Total
SUMA DE
CUADRADOS
46.108
20.392
66.5
GRADOS DE
LIBERTAD
1
VARIANZA
F
F 18.088
46.108
2.549
7.389
29
1.4.9.- Significacin de los parmetros de la regresin.

La significacin de los parmetros del modelo de regresin reviste especial inters en el
contexto de la regresin mltiple, donde pudiera ocurrir que la prueba F del anlisis de la
varianza mostrara que en trminos globales el modelo fuera vlido, mientras que el efecto
de algunas variables del modelo fuera nulo, o lo que es lo mismo que algunos
coeficientes de regresin no ejercieran ningn efecto significativo sobre la variable
dependiente.
En el caso de la regresin simple -ya que existe una sola variable independiente- la prueba
de significacin de los coeficientes de regresin puede considerarse como una prueba
equivalente a la prueba del anlisis de la varianza (tambin de la significacin del coeficiente
de correlacin rxy).
De los dos coeficientes de regresin del modelo (a y b) nos interesan tan slo la pendiente
de la recta, que es precisamente el coeficiente que nos muestra el efecto de la variable X
sobre Y. En concreto comprobaremos si su valor es estadsticamente igual a cero o no. Si
dicha pendiente no difiere significativamente de cero concluiremos que el modelo no aporta
informacin relevante. En caso contrario, daremos el modelo como vlido. Esto es,
tengamos la ecuacin de regresin en puntuaciones centradas:
Y Y b(X X )
Despejando Y:
Y Y b(X X )
Se observa que cuando la pendiente vale cero:

Y Y
la puntuacin pronosticada es precisamente la media de Y, (que, como se sabe, es el

pronstico cuando el modelo carece de informacin alguna) tal como se refleja en el
siguiente grfico:
30
La recta de regresin es pues, paralela al eje de las abscisas. Cualquier cambio en X

implica siempre el mismo valor en Y. Ambas variables no estn, por tanto,
correlacionadas.
Por otro lado, como es fcil comprobar, cuando la pendiente de la recta es diferente de cero
incrementos en el valor de X suponen incrementos efectivos en la variable Y:
31
En esta situacin las variables estn relacionadas, el modelo aporta informacin relevante
en trminos predictivos y es, por ello, vlido.
As pues, como se ha indicado, la validez del modelo puede comprobarse tambin (adems
de la prueba F) contrastando la pendiente asociada al modelo de regresin. Si se
demuestra que la pendiente es significativamente diferente de cero, el modelo tendr
capacidad predictiva, y por tanto, ser vlido. Por el contrario, si la pendiente no fuera
estadsticamente diferente de cero su capacidad predictiva no ir ms all de Y (prediccin
en ausencia de informacin) y el modelo no ser vlido.
En trminos estadsticos se trata de comprobar si la pendiente b observada en una cierta
muestra puede o no proceder de una poblacin cuya pendiente vale cero. Esto es, se
contrasta la hiptesis nula:
H0 : 0
frente a la hiptesis alternativa:

H1 : 0
En este supuesto, se demuestra (ver Apndice A) que la distribucin muestral de

coeficientes b procedentes de una poblacin cuyo valor es cero, se distribuye segn una ley
de Student de media cero y desviacin tipo:
S bi
2
Sres
n
(X X)
2
Sres
NSx2
i 1
De esta forma, si se desea saber si un determinado coeficiente b observado en una

muestra procede de una poblacin de 0 , calcularemos el nmero de desviaciones tipo
que se encuentra de la media de dicha distribucin, segn la frmula conocida:
S bi
b0
2
Sres
n
(X X)
i1
Posteriormente comparamos este valor t con el de las tablas t(,N 2) para el nivel de
significacin y N-2 grados de libertad:
Si t t(,N 2) Se acepta la hiptesis nula. El modelo no es vlido
32
Si t t(,N 2) Se rechaza la hiptesis nula. El modelo es vlido

Ejemplo 1.8.- Determinar la significacin del coeficiente de regresin de ejemplo 1.3.
SOL:
Apliquemos (1.45):
b0
2
Sres
n
(X X)
0.1975
4.253
2.549
1182 .5
i 1
Buscamos la t de las tablas para 0.05 y N 2 8 grados de libertad:

t(0.05,8) 2.306
Comparndolo con el valor obtenido:

4.253 > 2.306
La pendiente es significativamente distinta de cero. Existe, pues, relacin entre ambas
variables.
1.4.10.- Prediccin.
Una vez validado el modelo de regresin que liga las variables X e Y puede ser conveniente
utilizarlo para establecer predicciones de la variable Y. Por ejemplo, si conocemos para
una cierta muestra de vendedores la relacin existente entre una determinada prueba
psicolgica y el xito profesional de los mismos, puede interesarnos, si disponemos de un
candidato a vendedor, aplicar dicha prueba a efectos de su capacidad en ventas.
Si para la elaboracin del modelo dispusiramos de los datos de toda la poblacin sucedera
que la ecuacin de regresin obtenida sera precisamente la ecuacin regresin verdadera
Y X
33
En este supuesto, el valor ms probable en Y para un sujeto que haya obtenido un cierto
valor en X sera el reflejado en la ecuacin de regresin (1.46):
Si deseamos afinar algo ms y ofrecer una estimacin por intervalo, sabemos por los
requisitos del modelo de regresin que para un cierto valor Xo la distribucin ligada de los
valores Y sigue una ley normal de media el valor predicho en la ecuacin de regresin y de
varianza la varianza residual. De esta forma, para los sujetos que han obtenido Xo habr una
proporcin 1 de ellos que tendrn en Y puntuaciones comprendidas en el siguiente
intervalo:
Y0 t(N 2, )Se
En trminos de probabilidad, diremos que un sujeto que ha obtenido una cierta puntuacin
Xo tendr una probabilidad 1 de estar comprendido en los citados lmites.
En la prctica, no obstante, sucede que desconocemos la recta de regresin verdadera;
tan slo disponemos de la recta de regresin obtenida en una muestra. En consecuencia,
entre la ecuacin de regresin estimada y la verdadera habr una cierta diferencia tal como se
muestra en la siguiente figura:
No podemos especificar el valor exacto del error ya que desconocemos los parmetros
poblacionales. Lo que s podemos cuantificar es la distribucin en el muestreo de los
o en torno al valor real Yo. Esto es, hemos de determinar la Var(Yo ). A
distintos valores Y
este respecto, se sabe que:
Y0 a bX 0 e
34
Luego:
2
Var(Y0 ) Var(a bX 0 e) Var (a) X 02Var (b) Sres
Pero sabemos (ver Apndice A) que:
X2
1
Var(a)
X X
i 1
S2
res
En consecuencia:
1
Var (Y0)
X2
N
X X
i 1
S2 X 2
res
0
2
Sres
N
X X
2
Sres
i 1
Haciendo operaciones:
1
2
Var (Y0 ) Sres
1
X0 X 2
N
X X
i 1
Por tanto, el intervalo de confianza ser:
Y0 t(N 2,) S
1 1
2
res
X0
N
X X
i 1
siendo X 0 es el valor especificado de X sobre el que se desea la prediccin. Obsrvese cmo

cuanto ms alejado se encuentre este valor de la media mayor dispersin habr para el
0 .
intervalo de confianza de la Y
En el siguiente grfico se muestra dos lneas ligeramente curvas que indican las distintas
amplitudes de los intervalos de confianza a lo largo del recorrido de la ecuacin de regresin.
Tales amplitudes son menores cuanto ms cerca se encuentre de la media X :
35
Ejemplo 1.9.- Tomando como referencia los datos del ejemplo 1.3, determinar el la
calificacin verdadera para una persona que presenta 115 puntos de C.I.
SOL:
Aplicando la ecuacin de regresin tenemos que la puntuacin pronosticada para este
sujeto ser:
Y0 a bX 16.702 0.1975 * 115 6.011

Y el intervalo de confianza ( 0.05 ) donde
correspondiente:
Y0 t(N 2, ) S
2
res
espera
encontrarse
el parmetro
2
1 1 X 0 X 6.011 2.306 2.549 1 1 115 117 .5
N
N
10
1182 .5
X X 2
i 1
6.011 3.871 2.140 9.882
36
Existe una probabilidad de 0.95 de que un sujeto que presente un C.I. de 115 obtenga entre
9.882 y 2.140 en rendimiento. Obsrvese la magnitud del intervalo que hace posible
prcticamente cualquier calificacin (de suspenso a sobresaliente) debido a la muestra tan
pequea (10 sujetos) que por motivos didcticos ha sido utilizada.
1.4.11.- Limitaciones de la prediccin

Es preciso hacer algunas consideraciones en relacin al alcance de la prediccin
Aunque la ecuacin de la recta puede prolongarse indefinidamente en sus dos
extremos, hay que tener la precaucin de no extrapolar los valores ms all de los datos de
observacin. La ecuacin de regresin ha sido obtenida a partir de unos determinados
valores muestrales, y a estos valores hay que atenerse. Pudiera ocurrir que dentro del rango
de observacin existiese una relacin lineal, pero al mismo tiempo, fuera de ese rango la
linealidad dejara de existir. Por ejemplo, supongamos que estudiamos el efecto de la
ansiedad sobre el rendimiento dentro de un rango de 0 a 10 en niveles de ansiedad.
Podramos obtener un grfico de las siguientes caractersticas:
Si a continuacin estudisemos esta misma relacin pero para un rango en ansiedad de 10 a

20 puntos, imaginemos que la relacin fuera de este tipo:
37
Supongamos que un determinado investigador que desconoce el segundo estudio trabaja

con un sujeto cuyo nivel de ansiedad es de 15 puntos. En base a lo que conoce del tema se
sentir inclinado a extrapolar los valores segn el siguiente grfico:
El error ha sido considerable. Ha supuesto que el rendimiento aumentaba cuando en realidad

ha disminuido. De aqu se deduce que hemos de operar con suma precaucin a la hora de
realizar predicciones estadstica y limitarnos siempre al rango de valores sobre los que se ha
elaborado el modelo, ya que no tenemos informacin de lo que ocurre fuera de los lmites
observados, y pudiera ocurrir que la linealidad quedara desvirtuada fuera de tales
mrgenes.
38

Regresion Lineal Simple

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Regresion Lineal Simple

Hochgeladen von

Copyright:

Verfügbare Formate

Regresin lineal simple

Figura 2. Posibles diagramas de dispersin

4.- Especificacin del modelo de regresin lineal simple

Como se ha observado anteriormente, cuando existen razones para suponer la existencia de

donde podemos distinguir las variables X, Y y . La variable X, origen de la flecha en la

variable predeterminada, explicativa, predictora, independiente, exgena o simplemente,

No obstante pueden establecerse otras muchas formas de relacin

posible que no son

Un pequeo incremento en los valores de ansiedad sirve para activar al sujeto, y en

es muy conocido en biologa, especialmente en dinmica de poblaciones, caracterstico de la

En el comienzo, pequeos esfuerzos supone un aprendizaje relativamente rpido, pero a

1.4.2.- Especificacin del modelo de regresin lineal simple

la puntuacin de un sujeto en la variable criterio Y depende linealmente de la puntuacin del

donde la puntuacin Y predicha por el modelo de regresin es:

De la expresin (1.15) se deduce que el error en la prediccin ser:

En trminos de los errores:

Obsrvese que la distribucin de los errores es la misma que la de la variable dependiente

d) Normalidad de las distribuciones. Este supuesto establece que la forma de la distribucin

Y en trmino de los errores:

una configuracin del

denominado diagrama de dispersin o bien nube de puntos. Dicha configuracin carece

que mejor represente la nube de puntos correspondiente a la muestra observada, y cuyos

referente a la poblacin de origen.

O bien, b) elevando al cuadrado tales valores:

De estos dos procedimientos, el ltimo, denominado criterio de mnimos cuadrados es el

a) El hecho de elevar al cuadrado las puntuaciones no solamente resuelve el problema del

1.4.3 1.- Estimacin mediante mnimos cuadrados

Efectivamente, tengamos la expresin:

Sustituyendo los errores por su valor:

Y Y 2 (Y (a bX))2 Y 2 (a bX 2) 2Y(a bX)

Se comprueba que la ecuacin en puntuaciones estandarizadas tiene por pendiente el

a Y bX 6.5 0.1975 * 117 .5 16.702

1.4.5.- Interpretacin del modelo de regresin

puntuacin pronosticada por el

Distinguimos pues, los siguientes elementos: a) error de estimacin -e-, b) puntuacin

Y a bX 16.702 0.1975 * 124 7.788

dispersin, hace referencia a la puntuacin media de Y cuando el valor de X es cero. No

1.4.6.- Componentes de variacin.

De esta forma, en ausencia total de informacin, la ecuacin de regresin ser:

tal como se ilustra en la siguiente figura:

El error cometido ser entonces:

Se observa que en este caso el error es ms pequeo que el existente

dedicamos los dos prximos apartados.

1.4.7.- Bondad de ajuste

Por otro lado, se sabe que

X )2 representa el numerador de la varianza de X. As

Por tanto, podremos expresar (1.32) de la siguiente manera:

Sustituyendo b por su expresin mnimo cuadrtica:

De donde se comprueba que la proporcin de varianza explicada corresponde con el

Luego la expresin (1.35) deviene:

Grficamente el reparto de variabilidad podemos representarlo en el siguiente diagrama de

Ejemplo 1.6.- Determinar los componentes de variacin y la proporcin de

Comenzaremos con la expresin original (1.32), que no es precisamente la frmula

Calculemos, en primer lugar, la suma de cuadrados total:

Y )2 4 6.5 2 8 6.5 2 2 6.5 2 7 6.5 2 9 6.5 2

9 6.5 2 3 6.5 2 10 6.5 2 7 6.5 2 6 6.5 2 66.5

Y1 16.702 0.1975 * 105 4.032

66.5 46.108 20.392

Y la proporcin de variabilidad explicada:

Otra frmula ms til para el calculo de R 2 es:

b 2NSx2 0.1975 2 * 10 * 10.874 2 46.108

1.4.8.-- Validacin del modelo.

donde el numerador hace referencia a la suma de cuadrado no explicada por el modelo, y el

Si el valor obtenido de F es superior al de las tablas para k y N-k-1 grados de libertad y al