Sie sind auf Seite 1von 13

MODELO DE REGRESIN LINEAL SIMPLE

Los Modelos de Regresin estudian la relacin entre una variable de inters y


un conjunto de variables explicativas.
Cuando se estudia la relacin entre una variable de inters, variable respuesta o
variable dependiente Y, y un conjunto de variables regresoras (explicativas,
independientes) (X1, X2, Xp) puede darse las siguientes situaciones:
Existe una relacin funcional entre ellas, en el sentido de que el
conocimiento de las variables regresoras determina completamente el valor que
toma la variable respuesta, esto es,
Y = m (X1, X2, Xp)
Ejemplo: la relacin que existe entre el tiempo (Y) que tarda un mvil en
recorrer una distancia y dicha distancia (X) a velocidad constante
No exista ninguna relacin entre la variable respuesta y las variables
regresoras, en el sentido de que el conocimiento de stas no proporciona ninguna
informacin sobre el comportamiento de la otra.
Ejemplo: la relacin que existe entre el dinero (Y) que gana una persona adulta
mensualmente y su altura (X).
El caso intermedio, existe una relacin estocstica entre la variable
respuesta y las variables regresoras, en el sentido de que el conocimiento de
stas permite predecir con mayor o menor exactitud el valor de la variable
respuesta. Por tanto siguen un modelo de la forma,
Y = m (X1, X2, Xp) +
Siendo m la funcin de regresin desconocida y una variable aleatoria de
media cero (el error de observacin).
El objetivo bsico en el estudio de un modelo de regresin es el de estimar la
funcin de regresin, m, y la distribucin que sigue el error aleatorio
RECTA DE REGRESIN
El modelo de regresin ms sencillo es el Modelo de Regresin Lineal Simple
que estudia la relacin lineal entre la variable respuesta Y y la variable regresora X, a
partir de una muestra (Xi , Yi)i = 1,,n que sigue el siguiente modelo:

Y = a + b X,
a se denomina la ordenada en el origen y b la pendiente de la recta.
De manera que el modelo a ajustar es
Yi = a + bXi + i

i = 1,2,,n.

En forma matricial Y = a1 + bX + e
donde Y` = (y1, y2, , yn), 1` =(1,1,,1), X` =(x1, x2, , xn), `= (1, 2, n)
Se supone que se verifican las siguientes hiptesis:
1.

La funcin de regresin es lineal,


m(xi) = a + bxi nos da la media de la variable dependiente para un valor
de la variable independiente
O, equivalentemente, E( i) = 0, i = 1,...,n.

2.

La varianza es constante (homocedasticidad),


V ar(ei )=

3.

, i = 1,...,n.

La distribucin es normal,
Y/X=xi ~ N(a + bxi , 2)
O, equivalentemente, i ~ N(0,2), i = 1,...,n.

4.

Las observaciones Yi son independientes. Bajo las hiptesis de


normalidad, esto equivale a que la Cov(Y iY j) = 0, si i j.
Esta hiptesis en funcin de los errores sera los i son independientes,
que bajo normalidad, equivale a que Cov(i , j ) = 0, si i j.

En el modelo de regresin lineal simple hay tres parmetros que se deben


estimar: los coeficientes de la recta de regresin, a y b y la varianza de la distribucin
normal, 2.
El clculo de estimadores para estos parmetros puede hacerse por diferentes
mtodos, nosotros utilizamos el mtodo de mnimos cuadrados.
Dado un valor de X, xi, tenemos los dos valores de Y, el observado, yi, y el
i = a +bxi Los residuos se definen ei = yi- y
i
terico o predicho, y

As pues, hemos de minimizar:


i 1

yi a bxi

Que derivando respecto a a y a b e igualando a cero:

i 1

yi a bxi

2 yi a bxi 0

a
i

2 yi a bxi xi 0

b
i
Que nos dar un sistema de dos ecuaciones normales y dos incgnitas (a, b).
Resolviendo el sistema:

na

x
y

bS

Y obtenemos que la recta de regresin de Y sobre X es

2
x

y = a + bx con los

valores a y b anteriormente calculados, o bien la siguiente expresin:


y y

S xy
S 2x

x x

Que sera la misma recta pero expresada en punto pendiente. A la pendiente b de


la recta de regresin de Y sobre X se le denomina coeficiente de regresin de Y sobre
X.
RECTA DE REGRESIN DE X SOBRE Y
Aplicando el mismo razonamiento llegaramos a la expresin de la recta de
regresin de X sobre Y x = a + by con

b'

S xy

S 2y

a ' x b' y

o bien:

xx

S xy
S 2y

y y

Igualmente a la pendiente b de la recta de regresin de X sobre Y se le


denomina coeficiente de regresin de X sobre Y.
NOTA: Hay que tener en cuenta que la recta de regresin de X sobre Y no se
obtiene despejando X de la recta de regresin de Y sobre X.
PROPIEDADES:
1.

Estas dos rectas se cortan en el punto ( x, y) que se denomina centro de

gravedad de la distribucin conjunta.


2.

Tanto el signo de b como el de b ser el signo de la covarianza (pues las

varianzas son siempre positivas). Una covarianza positiva nos dar dos coeficientes de
regresin positivos y sus correspondientes rectas de regresin crecientes. Si la
covarianza es negativa, las dos rectas de regresin sern decrecientes al ser negativas
sus pendientes. En caso de que la covarianza valga cero, las rectas de regresin sern
paralelas a los ejes coordenados y perpendiculares entre s.

MEDIDAS DE BONDAD DE AJUSTE: Anlisis de la varianza


VARIACIN RESIDUAL
Para cada valor xi de X, obtenamos una diferencia (el residuo) entre el valor
observado de Y en la nube de puntos y el correspondiente valor terico obtenido en la
funcin. Si todos los puntos de la nube estn en la funcin, la dependencia ser
funcional; el grado de dependencia ser el mximo posible. Cuanto ms se alejen los
puntos observados de la funcin (mayores sean los residuos) iremos perdiendo
intensidad en la dependencia.
Se define la variacin residual o variacin no explicada por la regresin como
la suma de los cuadrados de los residuos.

2
VNE y i y i y i a bxi
i

e
2

Si la variacin residual es grande los residuos sern grandes y la dependencia


ser pequea, el ajuste ser malo.
Si la variacin residual es pequea (cerca de cero), la dependencia ser grande,
el ajuste ser bueno.
Se define la varianza residual como la variacin residual dividida entre sus
2
grados de libertad n-2; este cantidad se denota por S R

y es la estimacin de la

varianza de la varianza de los residuos.


SR

se denomina error estndar de la regresin

VARIACIN DEBIDA A LA REGRESIN


Nos sirve para ver en qu medida mejora la descripcin de una variable a travs
de la otra. Llamaremos variacin debida a la regresin o variacin explicada a la
suma de los cuadrados de las desviaciones de los valores tericos a la media.

VE y i y

VARIACIN TOTAL
La variacin total es la suma de los cuadrados de las desviaciones de los
valores observados a la media

VT y i y

Se demuestra que VT = VE + VNE


Es decir, la variacin total de la variable Y es la suma de dos variaciones:
la de la variable Y que representara la parte de la dispersin o variabilidad de la
variable Y explicada por la regresin, o sea, por la relacin lineal con la variable
X , denotada por variacin explicada por el modelo y la variacin residual que
representara la parte de la variabilidad no explicada por la regresin.

As pues, cuando aumenta la varianza debida a la regresin, disminuye la


varianza residual y el ajuste es bueno y al contrario.

COEFICIENTE DE DETERMINACIN
El problema de la variacin residual es que viene afectada por las unidades de
medida y esto imposibilita la comparacin de la dependencia entre grupos de variables.
Obtenemos una medida relativa (es decir, que no dependa de las unidades y est entre
cero y uno) de la bondad de ajuste dividiendo la variacin debida a la regresin entre la
variacin total
Se define el COEFICIENTE DE DETERMINACIN COMO:

R cuadrado

VE
VT

o bien

R cuadrado

El coeficiente de determinacin (multiplicado por cien) representa el porcentaje


de la variabilidad de Y explicada por la recta de regresin, es decir por su relacin con
la variable X.
0 R-cuadrado 1
Si R cuadrado = 1 todos los residuos valen cero y el ajuste es perfecto.
Si R cuadrado = 0 el ajuste es inadecuado.
PROPIEDADES:
1.

El coeficiente de determinacin de la recta de regresin de Y sobre X es

el mismo que el de la recta de regresin de X sobre Y, cumplindose que:


R -cuadrado= bb. Es decir, el coeficiente de determinacin es una medida del
grado de relacin lineal entre las variarbles.
2.

El coeficiente de determinacin es el cuadrado del coeficiente de

correlacin lineal, es decir: R -cuadrado= r2,


Esto solo es cierto en el caso de regresin lineal simple
R

bb '

S
S

xy
2
x

S
S

xy
2
y

xy

COEFICIENTE DE CORRELACIN
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relacin
lineal que hay entre ambas variables es el coeficiente de correlacin definido por

COV ( X , Y )
( X ) (Y )

Donde (X) y (Y) representan las desviaciones tpicas de las variables X e Y.


Cov ( X , Y ) E ( XY ) E ( X ) E (Y )

Un buen estimador de este parmetro es el coeficiente de correlacin lineal


muestral (o coeficiente de correlacin de Pearson), definido por
r

S XY
S X SY

S XY

Se comprueba que r = signo(

1 n
xi y i X Y
n i 1

)R

Por tanto, r[-1,1]. Este coeficiente es una buena medida de la bondad del ajuste
de la recta de regresin. Evidentemente, existe una estrecha relacin entre r y

aunque estos estimadores proporcionan diferentes interpretaciones del

modelo:
r es una medida de la relacin lineal entre las variables X e Y.

mide el cambio producido en la variable Y al realizarse un cambio de

una unidad en la variable X.


De las definiciones anteriores se deduce que:
SXY = 0

= 0 r =0

Es importante estudiar si r es significativo (distinto de cero) ya que ello implica


que el modelo de regresin lineal es significativo. Desafortunadamente la distribucin
de r es complicada pero para tamaos muestrales mayores que 30 su desviacin tpica es
(r )

1
y puede utilizarse la siguiente regla
n

2
n

r significativo

En la interpretacin del coeficiente de correlacin se debe tener en cuenta que:


r = 1 indica una relacin lineal exacta positiva (creciente) o negativa
(decreciente),
r = 0 indica la no existencia de relacin lineal estocstica, pero no indica
independencia de las variables ya que puede existir una relacin no lineal
incluso exacta,

Valores intermedios de r (0 < r < 1 -1 < r < 0) indican la existencia de una


relacin lineal estocstica, ms fuerte cuanto ms prximo a +1 ( -1) sea el
valor de r.

PREDICCIN
El objetivo ltimo de la regresin es la prediccin de una variable para un valor
determinado de la otra. La prediccin de Y para X = x 0 ser simplemente el valor
obtenido en la recta de regresin de Y sobre X al sustituir el valor de x por x0.
Es claro que la fiabilidad de esta prediccin ser tanto mayor cuando
mayor sea la correlacin entre las variables (es decir mayor sea R cuadrado o r ).
INTERVALOS DE CONFIANZA PARA LOS PARMETROS

El estimador

de la pendiente de la recta regresin, se denomina

coeficiente de regresin y tiene una sencilla interpretacin, indica el crecimiento (o


decrecimiento) de la variable respuesta Y asociado a un incremento unitario en la
variable regresora X.

El estadstico

se distribuye como una normal de media b y varianza

2
nS X

N
(
b
,
)
Esto es,
nS X2
Por tanto la V ar(

- disminuye al aumentar n,
- disminuye al aumentar sx2
- disminuye al disminuir
El estimador

indica el valor de la ordenada en la recta de regresin

estimada para x = 0 tiene menor importancia y, en muchos casos, no tiene una


interpretacin prctica.

La distribucin de

X2
nS X2

es una normal de media a y varianza

Esto es, a N (a,


Por tanto la V ar (

X2
nS X2

- disminuye al aumentar n,
- disminuye al aumentar sx2
- disminuye al disminuir

- disminuye al disminuir

2
SR

es el estadstico que se utiliza como estimador de la varianza de los

residuos.
S R2

VNE
n2

Nuevamente, utilizando las hiptesis de normalidad e independencia se obtiene


que la distribucin de este estadstico es

(n 2) S R2
2n 2
2

Conociendo las distribuciones de estos estadsticos podemos hallar intervalos de


confianza y realizar contrastes de hiptesis para los parmetros
Teniendo en cuenta que2 es desconocida y hay que estimarla, la distribucin de
2
es una T con grados de libertad los de S R

b b
S x n Tn 2
SR

As un intervalo de confianza para b a un nivel de confianza 1 - viene dado


por

SR
SX

t / 2 , n 2

De forma anloga se puede obtener un intervalo de confianza del parmetro a.


a a
SR

Tn 2

X2

S X2

a S R

X2
1
1 2 t / 2 , n 2
n
S X

Los estadsticos

no son variables aleatorias

independientes
Como ya se ha indicado el parmetro

tiene menor importancia que

y, en algunas situaciones, no tiene una interpretacin realista si el cero no es

un punto del rango de la X, por ejemplo, al estudiar la relacin entre las variables peso y
altura de un colectivo de personas. Por ello tiene inters la ecuacin de la recta de
regresin que utiliza solo el parmetro b. Esta ecuacin es la siguiente
y i y b( x i x ) i

o bien,
y i y b( x i x )

INTERPRETACIN GEOMTRICA
Considrense los siguientes vectores del espacio n-dimensional Rn

Y ( y1 , y 2 ,..., y n )

1 (1,1, ..., 1)`

Vector de la variable respuesta

Vector de 1

X ( x1 , x 2 ,..., x n )`

Vector de la variable regresora

( 1 , 2 ,..., n )` Vector de los errores aleatorios


Y ( y 1 , y 2 ,..., y n )` Vector de las predicciones

e (e1 , e2 ,..., en )` Y Y Vector de los residuos

Dado el modelo de regresin lineal


Y a1 bX

El mtodo de estimacin por mnimos cuadrados tiene la siguiente interpretacin


geomtrica:
El vector de predicciones

en el plano que generan los vectores

es la proyeccin ortogonal del vector


y

De esta forma el vector de residuos e es de mdulo mnimo e

e
i 1

Por tanto, el vector de residuos e es perpendicular al plano generado por

.
Y, en particular, es ortogonal a estos dos vectores, esto es,
n
e t 1 ei 0
i 1

n
e t X ei x i 0
i 1

2
i

.
y

Del teorema de Pitgoras se deduce que

y e

son ortogonales y

por tanto
2
2

Y Y e 2

y
i 1

2
i

i 1

i 1

y i2 ei2

CONTRASTES SOBRE LOS PARAMETROS DEL MODELO


Es de gran inters el siguiente contraste
H0 : b 0
H1 : b 0

ya que aceptar H0 implica que la recta de regresin es Y i = a + i, por tanto, no


existe relacin lineal entre las variables X e Y .
Utilizando la distribucin de

si H0 es cierto, se sigue que

b b
S x n Tn 2
SR

El estadstico T0
la regin crtica es

b
S x n Tn 2 , por tanto
SR
T0 t / 2 , n 2

El p - valor del contraste es P(|Tn-2|>|t0|)


Este contraste se denomina contraste de regresin

De la misma forma se puede hacer el contraste

H0 : a 0
H1 : a 0

Aunque este contraste tiene menor inters por su escaso significado. En este

caso, si H0 es cierto, se verifica que

T0
SR

Tn 2

X2

S X2

Y se calcula la regin crtica y el p-valor igual que antes


TABLA ANOVA. El contraste de regresin.
Supongamos que queremos realizar el siguiente contraste de hiptesis,
H0: E(Y/X=x)=a (es constante, no depende de x)
Frente a la alternativa
H1: E(Y/X=x)=a +bx (el modelo lineal es significativo )
Por tanto, si se acepta H0, la variable regresora no influye y no hay relacin
lineal entre ambas variables. En caso contrario, si existe una dependencia lineal de la
variable respuesta respecto a la regresora. Teniendo en cuenta la descomposicin de la
variabilidad de los datos
VT = VE + VNE

yi yi

2
2

y
y

y
=
+ i
i
i

Podemos confeccionar la siguiente tabla


Tabla anova del modelo de regresin simple
variacin Suma de cuadrados
Grados de libertad Varianzas
regresin

VE y i y

VE

residual

VNE yi y i ei
i

total

n-2 2

VT
i

yn-1
i

Valor F
VE
2
SR

2
SR

S Y2

Si H0 es cierta (la variable X no influye), la recta de regresin es


aproximadamente horizontal y se verifica que aproximadamente y i y y por tanto
VE 0. Pero VE es una medida con dimensiones y no puede utilizarse como medida
de discrepancia, para resolver este inconveniente se divide por la varianza residual y
como estadstico del contraste de regresin se utiliza el siguiente

F0

VE
2
SR

Por la hiptesis de normalidad y bajo H0 se deduce que el estadstico F0 sigue


una distribucin F con 1 y n - 2 grados de libertad.

f ,1, n 2

Y el p - valor viene dado por P(F1,n-2 > f0)

La regin crtica es

Das könnte Ihnen auch gefallen