Sie sind auf Seite 1von 3

Regresión lineal múltiple

1. Introducción. En el tema anterior estudiamos la correlación entre dos variables y las predicciones
que pueden hacerse de una de ellas a partir del conocimiento de los valores de la otra, es decir, se
pronosticaban valores determinados de una variable criterio (Y) en función de según qué valores se
obtenían de una variable predictora (X). Sin embargo, la predicción de una variable (Y) a partir del
conocimiento de otra única puede resultar un análisis extremadamente simple de la realidad en la
cual existen múltiples factores que afectan a cualquier fenómeno que pretenda explicarse. En
Psicología diremos que la conducta de los sujetos, en sus diversas manifestaciones, constituye
función de múltiples variables que la condicionan y/o determinan. Por ejemplo, el comportamiento
de un sujeto en una situación conflictiva puede depender de su temperamento, del nivel de
conflictividad de la situación, de su experiencia en situaciones de este tipo por las que haya pasado
previamente, etc... Es importante, pues, estudiar con un modelo de análisis más complejo que el de
la regresión simple, de qué manera se producen estas relaciones entre la conducta y una serie más o
menos numerosa de factores que la condicionan. El modelo de la regresión múltiple va a permitirnos
acometer esta tarea. 1.1.Ecuación de regresión múltiple y supuestos. Centrémonos, por ejemplo, en
la variable éxito académico. Intentemos identificar las variables de las que depende la calificación
final de un sujeto que ha cursado la enseñanza secundaria y se presenta inminentemente a la
selectividad. Explicar de forma exclusiva dicha nota a partir del nivel de inteligencia de los sujetos
puede resultar demasiado simplista e incompleto. Posibles condicionantes adicionales que influyen
sobre la misma pueden ser: el nivel social o contexto cultural en el que se desenvuelve el sujeto, la
motivación que siente por el estudio, el tiempo que emplea en dicho estudio o la calidad de los
profesores que haya tenido en su trayectoria estudiantil... Seleccionemos, de todas estas, dos
variables para confeccionar un modelo explicativo del éxito académico (la nota en una prueba final):
La inteligencia y la motivación por el estudio. Formalizamos este modelo, de manera similar a como
lo hacíamos en regresión simple, con una ecuación del tipo: Y = a + b X + b X + e 1 1 2 2 donde X1 y
X2 son las variables predictoras contempladas, inteligencia y motivación, respectivamente. Sus
coeficientes correspondientes representan el cambio previsto en Y por cada unidad de cambio en
cada X, manteniendo la otra variable X constante. Así 2. Regresión lineal múltiple 26 pues, en el caso
de X1 , su coeficiente b1 denota el cambio esperado en el éxito académico –calificación- por cada
punto más en el variable inteligencia bajo un determinado valor de la motivación; es decir, sin tener
en cuenta a esta segunda variable. El término e representa el error de predicción del modelo. En
este sentido, supongamos que en el ejemplo planteado el valor de los diferentes coeficientes fuera:
Y = + X + X + e 2 5.0 1 2 2 Interpretaríamos a cada uno de ellos así: a: En el caso de poseer una
inteligencia y un nivel de motivación nulos para los objetivos de aprendizaje en cuestión, la
calificación final esperada del sujeto sería 2. X1: Independientemente del nivel de motivación del
sujeto por el aprendizaje, por cada unidad sumada a la variable inteligencia se incrementa 0.5
puntos la nota en la prueba final. X2: La nota esperada se verá incrementada en 2 puntos por cada
unidad de cambio en la variable motivación, sea cual sea el nivel de inteligencia del sujeto. Cada
variable X mantiene con la variable criterio Y una relación de linealidad, es decir, supone un
incremento constante y regular en Y por cada cambio en X. En el modelo global el cambio total de Y
se debe a la suma de los incrementos por separado de cada variable predictora. En definitiva, el
modelo se considera aditivo en este sentido descrito por ser una suma de efectos. Para representar
gráficamente el modelo de regresión con dos variables predictoras se necesita un espacio de tres
dimensiones (como en la regresión simple se necesitaban dos dimensiones), es decir, una dimensión
para cada una de las variables del modelo: dos para cada una de las Xs, respectivamente, y otra más
para la variable Y. En esta circunstancia se obtiene un plano de regresión (no una recta como en
regresión simple). El lugar donde dicho plano corta el eje de la variable Y es su ordenada en el
origen, es decir, el valor de Y cuando tanto X1 como X2 valen 0. El desplazamiento en el eje de Y en
función de X1 refleja los cambios de X1 sobre Y manteniendo constante X2 . Y de forma similar, el
desplazamiento en el eje de Y respecto a X2 refleja la relación entre X2 e Y manteniendo constante
X1. Además, al igual que en el modelo de regresión simple, otros requisitos que deben cumplir los
datos son: - Homocedasticidad: La distribución de los errores respecto al plano de regresión es
constante, es decir, homogénea alrededor del mismo - Normalidad: Dicha distribución de errores
sigue una ley normal - Independencia de errores: Los errores son independientes entre sí, no están
relacionados tampoco con las variables predictoras ni con la criterio. En suma, las puntuaciones de
Xs e Y no se influyen unas con otras. Además de estas condiciones apuntadas, para establecer
adecuadas estimaciones de los coeficientes de la ecuación, el modelo de regresión múltiple requiere
que las variables predictoras no presenten entre sí correlaciones altas. Si se dan correlaciones altas
entre 2. Regresión lineal múltiple 27 ellas, estos coeficientes ( , ,... b1 b2 ) pueden sufrir grandes
cambios debido a que cada uno de ellos refleja el efecto específico de cada predictor con el criterio
eliminando en dicho cálculo la correlación que dicho predictor mantiene con el resto de predictores
así como la que mantienen estos predictores con el criterio. Así, existiendo una correlación entre dos
predictores, el cálculo del coeficiente parcial del primero será reflejo de aquélla correlación exclusiva
entre éste y el criterio eliminando de dicho cálculo tanto la supuesta relación que la segunda
variable mantenga con el criterio como la correlación entre el primer y segundo predictor. En este
sentido se dice que los coeficientes de la ecuación múltiple son coeficientes de correlación parcial
por lo que la existencia de grandes porcentajes de variabilidad compartida entre predictores –
colinealidad- hace que las estimaciones calculadas sufran muchos cambios respecto a las estimadas
independientemente entre cada regresor particular con la variable criterio. Así pues, las
interpretaciones teóricas en estas situaciones de existencia de alta colinealidad resultan muy
difíciles. 1.2. Coeficiente de regresión múltiple y 2 R múltiple. Se define el coeficiente de regresión
múltiple como la correlación existente entre la variable criterio –Y- y el conjunto de las variables
predictoras contempladas en el modelo. A diferencia del coeficiente de correlación simple, el
coeficiente de correlación múltiple es siempre positivo por lo que la naturaleza de la relación de
cada predictor (positiva o negativa) con la variable criterio no se refleja en el resultado. Si queremos
conocer el signo que determina la relación de cada variable predictora con el criterio debemos
identificar el signo que acompaña a su coeficiente de regresión particular en la ecuación de
regresión múltiple o calcular su coeficiente de correlación simple (bivariado) con la variable criterio.
El cuadrado del coeficiente de correlación múltiple representa la proporción de la variabilidad de Y
explicada por el conjunto de las Xs, es decir por el componente explicativo, conocido o determinista
del modelo. Como complemento, 1- 2 R constituye como sabemos la proporción de variación no
explicada o residual atribuida al efecto de factores aleatorios y desconocidos, ajenos a las variables
predictoras analizadas. Tal y como sabemos -y también para el modelo de regresión múltiple-: 2 1 1
2 2 ( ) ) ˆ ( Y Y Y Y SC SC R N N total regresión − − = = ∑ ∑ es decir, la proporción que de la variabilidad
de los datos de Y respecto a su media (variabilidad total –en el denominador-) se atribuye a la
regresión (variabilidad explicada –en el numerador-). Entonces la proporción de variación no
explicada es: 2 1 1 2 2 ( ) ) ˆ ( 1 Y Y Y Y SC SC R N N total residual − − − = = ∑ ∑ 2. Regresión lineal
múltiple 28 Resulta muy útil, para interpretar estos valores de variabilidad explicada y residual del
modelo de regresión múltiple, recurrir a procedimientos gráficos utilizando diagramas de Venn,
donde cada variable está representada por un círculo. Supongamos que tratamos de explicar Y por
cuenta de dos variables predictoras (X1 y X2). Las diferentes porciones de variabilidad de Y
compartidas ( 2 RY .12 ) y no compartidas ( 2 .12 1− RY ) con estas variables X son: En este diagrama
puede observarse que la parte compartida de Y con X1 y X2 viene determinada por el área total a + b
+ c y la parte no explicada por el área d. Las proporciones de variación explicada y no explicada de
este modelo planteado son las que se determinan arriba en el cuadro ( 2 RY .12 y 2 .12 1− RY ). Así:
1( ) 1 2 2 R + − R = 1.3. Validación del modelo. Como se sabe, validar un modelo de regresión
consiste en analizar si la variabilidad de la variable criterio (Y) atribuida a la regresión –en este caso
al efecto del conjunto de variables predictoras- es lo suficientemente grande con respecto a la
variabilidad no explicada o residual. El índice F constituye una prueba estadística pertinente para
evaluar dicha relación: 1 / 1 / 2 2 − − − = R N k R k F La probabilidad (p) asociada al resultado de dicha
prueba indica el grado de certidumbre con el que podemos concluir que numerador -parte
explicativa del modelo- y denominador -parte borrosa o residual- coinciden, es decir, que lo
determinado o explicativo se confunde con –o es lo mismo a- lo borroso del modelo. Si dicha
probabilidad es pequeña (p

Das könnte Ihnen auch gefallen