Tema 6 Regresion

MODELO DE REGRESIN LINEAL SIMPLE
Los Modelos de Regresin estudian la relacin entre una variable de inters y

un conjunto de variables explicativas.
Cuando se estudia la relacin entre una variable de inters, variable respuesta o
variable dependiente Y, y un conjunto de variables regresoras (explicativas,
independientes) (X1, X2, Xp) puede darse las siguientes situaciones:
Existe una relacin funcional entre ellas, en el sentido de que el
conocimiento de las variables regresoras determina completamente el valor que
toma la variable respuesta, esto es,
Y = m (X1, X2, Xp)
Ejemplo: la relacin que existe entre el tiempo (Y) que tarda un mvil en
recorrer una distancia y dicha distancia (X) a velocidad constante
No exista ninguna relacin entre la variable respuesta y las variables
regresoras, en el sentido de que el conocimiento de stas no proporciona ninguna
informacin sobre el comportamiento de la otra.
Ejemplo: la relacin que existe entre el dinero (Y) que gana una persona adulta
mensualmente y su altura (X).
El caso intermedio, existe una relacin estocstica entre la variable
respuesta y las variables regresoras, en el sentido de que el conocimiento de
stas permite predecir con mayor o menor exactitud el valor de la variable
respuesta. Por tanto siguen un modelo de la forma,
Y = m (X1, X2, Xp) +
Siendo m la funcin de regresin desconocida y una variable aleatoria de
media cero (el error de observacin).
El objetivo bsico en el estudio de un modelo de regresin es el de estimar la
funcin de regresin, m, y la distribucin que sigue el error aleatorio
RECTA DE REGRESIN
El modelo de regresin ms sencillo es el Modelo de Regresin Lineal Simple
que estudia la relacin lineal entre la variable respuesta Y y la variable regresora X, a
partir de una muestra (Xi , Yi)i = 1,,n que sigue el siguiente modelo:
Y = a + b X,
a se denomina la ordenada en el origen y b la pendiente de la recta.
De manera que el modelo a ajustar es
Yi = a + bXi + i
i = 1,2,,n.
En forma matricial Y = a1 + bX + e
donde Y` = (y1, y2, , yn), 1` =(1,1,,1), X` =(x1, x2, , xn), `= (1, 2, n)
Se supone que se verifican las siguientes hiptesis:
1.
La funcin de regresin es lineal,

m(xi) = a + bxi nos da la media de la variable dependiente para un valor
de la variable independiente
O, equivalentemente, E( i) = 0, i = 1,...,n.
2.
La varianza es constante (homocedasticidad),

V ar(ei )=
3.
, i = 1,...,n.
La distribucin es normal,
Y/X=xi ~ N(a + bxi , 2)
O, equivalentemente, i ~ N(0,2), i = 1,...,n.
4.
Las observaciones Yi son independientes. Bajo las hiptesis de

normalidad, esto equivale a que la Cov(Y iY j) = 0, si i j.
Esta hiptesis en funcin de los errores sera los i son independientes,
que bajo normalidad, equivale a que Cov(i , j ) = 0, si i j.
En el modelo de regresin lineal simple hay tres parmetros que se deben

estimar: los coeficientes de la recta de regresin, a y b y la varianza de la distribucin
normal, 2.
El clculo de estimadores para estos parmetros puede hacerse por diferentes
mtodos, nosotros utilizamos el mtodo de mnimos cuadrados.
Dado un valor de X, xi, tenemos los dos valores de Y, el observado, yi, y el
i = a +bxi Los residuos se definen ei = yi- y
i
terico o predicho, y
As pues, hemos de minimizar:

i 1
yi a bxi
Que derivando respecto a a y a b e igualando a cero:
i 1
yi a bxi
2 yi a bxi 0
a
i
2 yi a bxi xi 0
b
i
Que nos dar un sistema de dos ecuaciones normales y dos incgnitas (a, b).
Resolviendo el sistema:
na
x
y
bS
Y obtenemos que la recta de regresin de Y sobre X es
2
x
y = a + bx con los
valores a y b anteriormente calculados, o bien la siguiente expresin:

y y
S xy
S 2x
x x
Que sera la misma recta pero expresada en punto pendiente. A la pendiente b de

la recta de regresin de Y sobre X se le denomina coeficiente de regresin de Y sobre
X.
RECTA DE REGRESIN DE X SOBRE Y
Aplicando el mismo razonamiento llegaramos a la expresin de la recta de
regresin de X sobre Y x = a + by con
b'
S xy
S 2y
a ' x b' y
o bien:
xx
S xy
S 2y
y y
Igualmente a la pendiente b de la recta de regresin de X sobre Y se le

denomina coeficiente de regresin de X sobre Y.
NOTA: Hay que tener en cuenta que la recta de regresin de X sobre Y no se
obtiene despejando X de la recta de regresin de Y sobre X.
PROPIEDADES:
1.
Estas dos rectas se cortan en el punto ( x, y) que se denomina centro de
gravedad de la distribucin conjunta.

2.
Tanto el signo de b como el de b ser el signo de la covarianza (pues las
varianzas son siempre positivas). Una covarianza positiva nos dar dos coeficientes de
regresin positivos y sus correspondientes rectas de regresin crecientes. Si la
covarianza es negativa, las dos rectas de regresin sern decrecientes al ser negativas
sus pendientes. En caso de que la covarianza valga cero, las rectas de regresin sern
paralelas a los ejes coordenados y perpendiculares entre s.
MEDIDAS DE BONDAD DE AJUSTE: Anlisis de la varianza

VARIACIN RESIDUAL
Para cada valor xi de X, obtenamos una diferencia (el residuo) entre el valor
observado de Y en la nube de puntos y el correspondiente valor terico obtenido en la
funcin. Si todos los puntos de la nube estn en la funcin, la dependencia ser
funcional; el grado de dependencia ser el mximo posible. Cuanto ms se alejen los
puntos observados de la funcin (mayores sean los residuos) iremos perdiendo
intensidad en la dependencia.
Se define la variacin residual o variacin no explicada por la regresin como
la suma de los cuadrados de los residuos.
2
VNE y i y i y i a bxi
i
e
2
Si la variacin residual es grande los residuos sern grandes y la dependencia

ser pequea, el ajuste ser malo.
Si la variacin residual es pequea (cerca de cero), la dependencia ser grande,
el ajuste ser bueno.
Se define la varianza residual como la variacin residual dividida entre sus
2
grados de libertad n-2; este cantidad se denota por S R
y es la estimacin de la
varianza de la varianza de los residuos.

SR
se denomina error estndar de la regresin
VARIACIN DEBIDA A LA REGRESIN

Nos sirve para ver en qu medida mejora la descripcin de una variable a travs
de la otra. Llamaremos variacin debida a la regresin o variacin explicada a la
suma de los cuadrados de las desviaciones de los valores tericos a la media.
VE y i y
VARIACIN TOTAL
La variacin total es la suma de los cuadrados de las desviaciones de los
valores observados a la media
VT y i y
Se demuestra que VT = VE + VNE

Es decir, la variacin total de la variable Y es la suma de dos variaciones:
la de la variable Y que representara la parte de la dispersin o variabilidad de la
variable Y explicada por la regresin, o sea, por la relacin lineal con la variable
X , denotada por variacin explicada por el modelo y la variacin residual que
representara la parte de la variabilidad no explicada por la regresin.
As pues, cuando aumenta la varianza debida a la regresin, disminuye la

varianza residual y el ajuste es bueno y al contrario.
COEFICIENTE DE DETERMINACIN
El problema de la variacin residual es que viene afectada por las unidades de
medida y esto imposibilita la comparacin de la dependencia entre grupos de variables.
Obtenemos una medida relativa (es decir, que no dependa de las unidades y est entre
cero y uno) de la bondad de ajuste dividiendo la variacin debida a la regresin entre la
variacin total
Se define el COEFICIENTE DE DETERMINACIN COMO:
R cuadrado
VE
VT
o bien
R cuadrado
El coeficiente de determinacin (multiplicado por cien) representa el porcentaje

de la variabilidad de Y explicada por la recta de regresin, es decir por su relacin con
la variable X.
0 R-cuadrado 1
Si R cuadrado = 1 todos los residuos valen cero y el ajuste es perfecto.
Si R cuadrado = 0 el ajuste es inadecuado.
PROPIEDADES:
1.
El coeficiente de determinacin de la recta de regresin de Y sobre X es
el mismo que el de la recta de regresin de X sobre Y, cumplindose que:

R -cuadrado= bb. Es decir, el coeficiente de determinacin es una medida del
grado de relacin lineal entre las variarbles.
2.
El coeficiente de determinacin es el cuadrado del coeficiente de
correlacin lineal, es decir: R -cuadrado= r2,

Esto solo es cierto en el caso de regresin lineal simple
R
bb '
S
S
xy
2
x
S
S
xy
2
y
xy
COEFICIENTE DE CORRELACIN
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relacin
lineal que hay entre ambas variables es el coeficiente de correlacin definido por
COV ( X , Y )
( X ) (Y )
Donde (X) y (Y) representan las desviaciones tpicas de las variables X e Y.

Cov ( X , Y ) E ( XY ) E ( X ) E (Y )
Un buen estimador de este parmetro es el coeficiente de correlacin lineal

muestral (o coeficiente de correlacin de Pearson), definido por
r
S XY
S X SY
S XY
Se comprueba que r = signo(
1 n
xi y i X Y
n i 1
)R
Por tanto, r[-1,1]. Este coeficiente es una buena medida de la bondad del ajuste
de la recta de regresin. Evidentemente, existe una estrecha relacin entre r y
aunque estos estimadores proporcionan diferentes interpretaciones del
modelo:
r es una medida de la relacin lineal entre las variables X e Y.
mide el cambio producido en la variable Y al realizarse un cambio de
una unidad en la variable X.

De las definiciones anteriores se deduce que:
SXY = 0
= 0 r =0
Es importante estudiar si r es significativo (distinto de cero) ya que ello implica

que el modelo de regresin lineal es significativo. Desafortunadamente la distribucin
de r es complicada pero para tamaos muestrales mayores que 30 su desviacin tpica es
(r )
1
y puede utilizarse la siguiente regla
n
2
n
r significativo
En la interpretacin del coeficiente de correlacin se debe tener en cuenta que:

r = 1 indica una relacin lineal exacta positiva (creciente) o negativa
(decreciente),
r = 0 indica la no existencia de relacin lineal estocstica, pero no indica
independencia de las variables ya que puede existir una relacin no lineal
incluso exacta,
Valores intermedios de r (0 < r < 1 -1 < r < 0) indican la existencia de una

relacin lineal estocstica, ms fuerte cuanto ms prximo a +1 ( -1) sea el
valor de r.
PREDICCIN
El objetivo ltimo de la regresin es la prediccin de una variable para un valor
determinado de la otra. La prediccin de Y para X = x 0 ser simplemente el valor
obtenido en la recta de regresin de Y sobre X al sustituir el valor de x por x0.
Es claro que la fiabilidad de esta prediccin ser tanto mayor cuando
mayor sea la correlacin entre las variables (es decir mayor sea R cuadrado o r ).
INTERVALOS DE CONFIANZA PARA LOS PARMETROS
El estimador
de la pendiente de la recta regresin, se denomina
coeficiente de regresin y tiene una sencilla interpretacin, indica el crecimiento (o

decrecimiento) de la variable respuesta Y asociado a un incremento unitario en la
variable regresora X.
El estadstico
se distribuye como una normal de media b y varianza
2
nS X
N
(
b
,
)
Esto es,
nS X2
Por tanto la V ar(
- disminuye al aumentar n,
- disminuye al aumentar sx2
- disminuye al disminuir
El estimador
indica el valor de la ordenada en la recta de regresin
estimada para x = 0 tiene menor importancia y, en muchos casos, no tiene una

interpretacin prctica.
La distribucin de
X2
nS X2
es una normal de media a y varianza
Esto es, a N (a,

Por tanto la V ar (
X2
nS X2
- disminuye al aumentar n,
- disminuye al aumentar sx2
2
SR
es el estadstico que se utiliza como estimador de la varianza de los
residuos.
S R2
VNE
n2
Nuevamente, utilizando las hiptesis de normalidad e independencia se obtiene

que la distribucin de este estadstico es
(n 2) S R2
2n 2
2
Conociendo las distribuciones de estos estadsticos podemos hallar intervalos de

confianza y realizar contrastes de hiptesis para los parmetros
Teniendo en cuenta que2 es desconocida y hay que estimarla, la distribucin de
2
es una T con grados de libertad los de S R
b b
S x n Tn 2
SR
As un intervalo de confianza para b a un nivel de confianza 1 - viene dado

por
SR
SX
t / 2 , n 2
De forma anloga se puede obtener un intervalo de confianza del parmetro a.

a a
SR
Tn 2
X2
S X2
a S R
X2
1
1 2 t / 2 , n 2
n
S X
Los estadsticos
no son variables aleatorias
independientes
Como ya se ha indicado el parmetro
tiene menor importancia que
y, en algunas situaciones, no tiene una interpretacin realista si el cero no es
un punto del rango de la X, por ejemplo, al estudiar la relacin entre las variables peso y
altura de un colectivo de personas. Por ello tiene inters la ecuacin de la recta de
regresin que utiliza solo el parmetro b. Esta ecuacin es la siguiente
y i y b( x i x ) i
o bien,
y i y b( x i x )
INTERPRETACIN GEOMTRICA
Considrense los siguientes vectores del espacio n-dimensional Rn
Y ( y1 , y 2 ,..., y n )
1 (1,1, ..., 1)`
Vector de la variable respuesta
Vector de 1
X ( x1 , x 2 ,..., x n )`
Vector de la variable regresora
( 1 , 2 ,..., n )` Vector de los errores aleatorios

Y ( y 1 , y 2 ,..., y n )` Vector de las predicciones
e (e1 , e2 ,..., en )` Y Y Vector de los residuos
Dado el modelo de regresin lineal

Y a1 bX
El mtodo de estimacin por mnimos cuadrados tiene la siguiente interpretacin

geomtrica:
El vector de predicciones
en el plano que generan los vectores
es la proyeccin ortogonal del vector

y
De esta forma el vector de residuos e es de mdulo mnimo e
e
i 1
Por tanto, el vector de residuos e es perpendicular al plano generado por
.
Y, en particular, es ortogonal a estos dos vectores, esto es,
n
e t 1 ei 0
i 1
n
e t X ei x i 0
i 1
2
i
.
y
Del teorema de Pitgoras se deduce que
y e
son ortogonales y
por tanto
2
2
Y Y e 2
y
i 1
2
i
i 1
i 1
y i2 ei2
CONTRASTES SOBRE LOS PARAMETROS DEL MODELO

Es de gran inters el siguiente contraste
H0 : b 0
H1 : b 0
ya que aceptar H0 implica que la recta de regresin es Y i = a + i, por tanto, no

existe relacin lineal entre las variables X e Y .
Utilizando la distribucin de
si H0 es cierto, se sigue que
b b
S x n Tn 2
SR
El estadstico T0
la regin crtica es
b
S x n Tn 2 , por tanto
SR
T0 t / 2 , n 2
El p - valor del contraste es P(|Tn-2|>|t0|)

Este contraste se denomina contraste de regresin
De la misma forma se puede hacer el contraste
H0 : a 0
H1 : a 0
Aunque este contraste tiene menor inters por su escaso significado. En este
caso, si H0 es cierto, se verifica que
T0
SR
Tn 2
X2
S X2
Y se calcula la regin crtica y el p-valor igual que antes

TABLA ANOVA. El contraste de regresin.
Supongamos que queremos realizar el siguiente contraste de hiptesis,
H0: E(Y/X=x)=a (es constante, no depende de x)
Frente a la alternativa
H1: E(Y/X=x)=a +bx (el modelo lineal es significativo )
Por tanto, si se acepta H0, la variable regresora no influye y no hay relacin
lineal entre ambas variables. En caso contrario, si existe una dependencia lineal de la
variable respuesta respecto a la regresora. Teniendo en cuenta la descomposicin de la
variabilidad de los datos
VT = VE + VNE
yi yi
2
2
y
y
y
=
+ i
i
i
Podemos confeccionar la siguiente tabla

Tabla anova del modelo de regresin simple
variacin Suma de cuadrados
Grados de libertad Varianzas
regresin
VE y i y
VE
residual
VNE yi y i ei
i
total
n-2 2
VT
i
yn-1
i
Valor F
VE
2
SR
2
SR
S Y2
Si H0 es cierta (la variable X no influye), la recta de regresin es

aproximadamente horizontal y se verifica que aproximadamente y i y y por tanto
VE 0. Pero VE es una medida con dimensiones y no puede utilizarse como medida
de discrepancia, para resolver este inconveniente se divide por la varianza residual y
como estadstico del contraste de regresin se utiliza el siguiente
F0
VE
2
SR
Por la hiptesis de normalidad y bajo H0 se deduce que el estadstico F0 sigue

una distribucin F con 1 y n - 2 grados de libertad.
f ,1, n 2
Y el p - valor viene dado por P(F1,n-2 > f0)
La regin crtica es

Tema 6 Regresion

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Tema 6 Regresion

Hochgeladen von

Copyright:

Verfügbare Formate

MODELO DE REGRESIN LINEAL SIMPLE

Los Modelos de Regresin estudian la relacin entre una variable de inters y

La funcin de regresin es lineal,

La varianza es constante (homocedasticidad),

Las observaciones Yi son independientes. Bajo las hiptesis de

En el modelo de regresin lineal simple hay tres parmetros que se deben

As pues, hemos de minimizar:

Que derivando respecto a a y a b e igualando a cero:

Y obtenemos que la recta de regresin de Y sobre X es

valores a y b anteriormente calculados, o bien la siguiente expresin:

Que sera la misma recta pero expresada en punto pendiente. A la pendiente b de

Igualmente a la pendiente b de la recta de regresin de X sobre Y se le

Estas dos rectas se cortan en el punto ( x, y) que se denomina centro de

gravedad de la distribucin conjunta.

Tanto el signo de b como el de b ser el signo de la covarianza (pues las

MEDIDAS DE BONDAD DE AJUSTE: Anlisis de la varianza

Si la variacin residual es grande los residuos sern grandes y la dependencia

varianza de la varianza de los residuos.

se denomina error estndar de la regresin

VARIACIN DEBIDA A LA REGRESIN

Se demuestra que VT = VE + VNE

As pues, cuando aumenta la varianza debida a la regresin, disminuye la

El coeficiente de determinacin (multiplicado por cien) representa el porcentaje

El coeficiente de determinacin de la recta de regresin de Y sobre X es

el mismo que el de la recta de regresin de X sobre Y, cumplindose que:

El coeficiente de determinacin es el cuadrado del coeficiente de

correlacin lineal, es decir: R -cuadrado= r2,

Donde (X) y (Y) representan las desviaciones tpicas de las variables X e Y.

Un buen estimador de este parmetro es el coeficiente de correlacin lineal

Se comprueba que r = signo(

aunque estos estimadores proporcionan diferentes interpretaciones del

mide el cambio producido en la variable Y al realizarse un cambio de

una unidad en la variable X.

Es importante estudiar si r es significativo (distinto de cero) ya que ello implica

En la interpretacin del coeficiente de correlacin se debe tener en cuenta que:

Valores intermedios de r (0 < r < 1 -1 < r < 0) indican la existencia de una

de la pendiente de la recta regresin, se denomina

coeficiente de regresin y tiene una sencilla interpretacin, indica el crecimiento (o

se distribuye como una normal de media b y varianza

indica el valor de la ordenada en la recta de regresin

estimada para x = 0 tiene menor importancia y, en muchos casos, no tiene una

es una normal de media a y varianza

Esto es, a N (a,

es el estadstico que se utiliza como estimador de la varianza de los

Nuevamente, utilizando las hiptesis de normalidad e independencia se obtiene

Conociendo las distribuciones de estos estadsticos podemos hallar intervalos de

As un intervalo de confianza para b a un nivel de confianza 1 - viene dado

De forma anloga se puede obtener un intervalo de confianza del parmetro a.

no son variables aleatorias

tiene menor importancia que

y, en algunas situaciones, no tiene una interpretacin realista si el cero no es

1 (1,1, ..., 1)`

Vector de la variable respuesta

Vector de la variable regresora

( 1 , 2 ,..., n )` Vector de los errores aleatorios

e (e1 , e2 ,..., en )` Y Y Vector de los residuos

Dado el modelo de regresin lineal

El mtodo de estimacin por mnimos cuadrados tiene la siguiente interpretacin

en el plano que generan los vectores

es la proyeccin ortogonal del vector

De esta forma el vector de residuos e es de mdulo mnimo e

Por tanto, el vector de residuos e es perpendicular al plano generado por

Del teorema de Pitgoras se deduce que