Sie sind auf Seite 1von 33

UNIVERSIDAD DE SUCRE

PROGRAMA: LICENCIATURA EN
MATEMTICAS
ASIGNATURA: ESTADISTICA
CURSO preparado por:
MELBA LILIANA VERTEL MORINSN
E-mail: melba.vertel@unisucre.edu.co

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

Modelos de Regresin Lineal


Problemas de Causalidad
El investigador suele tener razones tericas o prcticas para creer
que determinada variable es causalmente dependiente de una o ms
variables distintas.
Si hay suficientes observaciones empricas sobre estas variables, el
anlisis de regresin es un mtodo apropiado para describir la
estructura, fuerza y sentido exacto de esta asociacin.
El modelo permite diferenciar variables independientes o
predictivas, variables dependientes, y variables control.
La distincin entre variables dependientes e independientes debe
efectuarse con arreglo a fundamentos tericos, por conocimiento o
experiencia y estudios anteriores.

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

Modelos de Regresin Lineal


Respuestas Metodolgicas
Estima la fuerza
independientemente
introducidas

o bondad explicativa del modelo terico


de las caractersticas de las variables

Predice el valor medio que puede asumir la variable Y dado un


valor de X (regresin a la media) bajo un intervalo de confianza
Estima el efecto neto de cada una de las variables intervinientes
sobre la variable dependiente (control sobre los dems efectos
suponiendo independencia entre las variables predictivas).

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

Modelos de Regresin Lineal


Funcin Lineal de Regresin
El objetivo de la tcnica de regresin es establecer la relacin estadstica
que existe entre la variable dependiente (Y) y una o ms variables
independientes (X11, X22, Xnn).
Para poder realizar esto, se postula una relacin funcional entre las
variables. Debido a su simplicidad analtica, la forma que ms se utiliza
en la prctica es la relacin lineal:

y i 0 1 xi1 p xip
Donde: los coeficientes son los factores que definen la variacin promedio
de y, para cada valor de x.
Estimada esta funcin terica a partir de los datos, cabe preguntarse qu
tan bien se ajusta a la distribucin real.
Tema: Regresin Lineal

ESTADISTICA. U. Sucre

Regresin Lineal Simple


Se trata de predecir el comportamiento de Y usando X entonces el
modelo de regresin lineal simple es de la forma:

Y o 1 X
Donde, Y: es llamada la variable de respuesta o dependiente,
X: es llamada la variable predictora o independiente,
o : es el intercepto de la lnea con el eje Y,
1 : es la pendiente de la lnea de regresin y
: es un error aleatorio, el cual se supone que tiene media 0 y
varianza constante 2.
Tema: Regresin Lineal

ESTADISTICA. U. Sucre

Forma matricial del


modelo
Habitualmente escribimos el modelo como
Y = X+ E
con:

1 x11
y1

1 x21
y2
Y
; X

y
1 x
np
n

x1 p

x2 p

xnp

nx(p 1)

1
;

(p 1)x1

E ~ N 0 n , 2 I n ; Y ~ N X , 2 I n
Tema: Regresin Lineal

e1

e2
; E


e
n

nx1

ESTADISTICA. U. Sucre

Mnimos Cuadrados

Objetivo: Buscar los valores de ,,,p que mejor


ajustan nuestros datos.

Ecuacin: y i 0 1 xi1 p xip

Residuo:

ei yi y i yi 0 1 xi1 k xik

Minimizar:

2
e
i
i 1

Resultado en forma matricial:

X X
Tema: Regresin Lineal

XY

ESTADISTICA. U. Sucre

Lnea de regresin estimada (p=1)


El modelo de regresin lineal es estimado por la ecuacin
Y o 1 X

El estimado o de o y el estimado 1 de son hallados usando


El MMC, que se basa en minimizar la suma de cuadrados de los
n
n
errores.
2
2
e

(
y

x
)

i
i
o
1 i
Q(o,1) =
i 1
i 1
Luego :

o y 1 x

s xy
s xx

x y

xy

n
2

2
x

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

Interpretacin de los Coeficientes de Regresin:

Interpretacin del intercepto o :


Indica el valor promedio de la variable de respuesta Y cuando X es cero. Si
se tiene certeza de que la variable predictora X no puede asumir el valor 0,
entonces la interpretacin no tiene sentido.

Interpretacin de la pendiente 1 :
Indica el cambio promedio en la variable de respuesta Y cuando X se
incrementa en una unidad.

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

Inferencia en Regresin Lineal


Inferencia acerca de los coeficientes de regresin
Las pruebas de hiptesis ms frecuentes son,
Ho: o= 0 versus Ha: o 0 y

Ho: 1 = 0 versus Ha: 1 0.

La prueba estadstica viene dada por: t


s.e( )

La cual se distribuye como una t con n-2 grados de libertad.

Intervalo de confianza del 100 (1-) % para la pendiente 1


1 t / 2,n 2 * s.e( 1 )
Tema: Regresin Lineal

ESTADISTICA. U. Sucre

10

El Anlisis de Varianza para Regresin


Lineal Simple
En el caso de regresin, la descomposicin de la variacin de la
variable de respuesta Y es como sigue:
VAR. TOTAL DE Y = VAR. DEBIDA A LA REGRESIN + VAR. DEBIDA AL ERROR

Donde:
n

( yi y )
Suma de Cuadrados Total = SCT =
i 1

( y i y )
Suma de Cuadrados de Regresin = SCR =
i 1
n

Suma de Cuadrados del Error = SCE = ( y


i 1

y i ) 2

Cada una de estas sumas de cuadrados tiene una distribucin Ji


Cuadrado
Tema: Regresin Lineal

ESTADISTICA. U. Sucre

11

Animacin: Descomposicin de la varianza

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

12

Tabla del anlisis de varianza


Fuentes de
Variacin

Grados de
Libertad

Suma de
Cuadrados

Cuadrados
Medios

Debido a la
regresin

SCR

CMR=SCR/1

CMR/CME

Debido al
Error

n-2

SCE

CME=SCE/n-2

Total

n-1

SCT

La hiptesis nula Ho: = 0 se rechaza si el p-value de la


prueba de F es menor que .05.

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

13

El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo de regresin hallado.

R2

SSR
SST

Donde,
SCR representa la suma de cuadrados debido a la regresin y
SCT representa la suma de cuadrados del total.
El coeficiente de determinacin es simplemente el cuadrado del coeficiente de
correlacin.
El coeficiente de Determinacin vara entre 0 y 1.
R2 indica qu porcentaje de la variabilidad de la variable de respuesta Y es
explicada por su relacin lineal con X.
Tema: Regresin Lineal

ESTADISTICA. U. Sucre

14

Intervalos de Confianza para el valor medio


de Y e Intervalo de Prediccin
Se busca es establecer un intervalo de
confianza para la media asumiendo que
la relacin entre X e Y es lineal.

Yo X o

Un intervalo de confianza del 100(1-)%


para el valor medio de todos los valores Y
dado que X = X0 esta dado por:

2
(
x

x
)
1
Y0 t(1 / 2, n 2) s
0
n
S xx

Un intervalo de confianza del 100(1-) %


para el valor predicho de Y dado que
X = X0 es de la forma:

2
(
x

x
)
1
0
Y0 t(1 / 2, n 2) s 1
n
S xx

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

15

Modelos de Regresin Lineal


Salidas Estadsticas del Mtodo
Se evala la bondad de ajuste del modelo terico a travs del
coeficiente de determinacin R22
La capacidad explicativa del modelo se hace a partir del mtodo
de mnimos cuadrados (ANOVA), cuyo resultado es testeado a
travs de F de Fisher
Predice los valores de la variable dependiente a partir de estimar
el valor del coeficiente (B), el error estndar (S) y el coeficiente R
parcial (BETA) de cada una de las variables y de la Constante
Mide la fuerza, sentido y significancia estadstica de las variables
del modelo sobre la variable dependiente a travs de la prueba t
de Student

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

16

Anlisis de Residuales
En un anlisis de residuales se puede detectar:

Si efectivamente la relacin entre las variables X e Y es lineal.

Si hay normalidad de los errores.

Si hay valores anormales en la distribucin de errores.

Si hay varianza constante (propiedad de Homocedasticidad) y

Si hay independencia de los errores.

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

17

Animacin: Residuos del modelo de regresin

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

18

Modelos No Lineales y Transformaciones


Cuando se construyen modelos de regresin el objetivo es conseguir un
modelo con R2 alto que se aproxime a 100 %, asumiendo que no hay
datos atpicos presentes. Si no se desea incluir variables predictoras
adicionales en el modelo, hay dos alternativas:
Tratar de usar modelos polinmicos de grado mayor o igual a dos, y
Transformando las variables tanto la predictora como la de respuesta.
Regresin Cuadrtica
Un modelo cuadrtico es de la forma:

Y a bX cX 2
donde a, b y c son constantes a estimar. Usando la tcnica de mnimos
cuadrados se pueden obtener frmulas explcitas para calcular a, b y c.

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

19

Modelos No lineales que pueden ser


transformados en lineales
La segunda alternativa para aumentar el R2 consiste en usar modelos no
lineales que pueden ser convertidos en lineales, a travs de transformaciones
tanto de la variable independiente como dependiente.
Nombre del modelo

Ecuacin del Modelo

Transformacin

Modelo Linealizado

Exponencial

Y=eX

Z=Ln Y X=X

Z=Ln +X

Logartmico

Y= +Log X

Y=Y

Y= +W

Doblemente Logartmico

Y=X

Z=Log Y W=Log X

Z= Log +W

Hiperblico

Y= +/X

Y=Y

W=1/X

Y= +W

Inverso

Y=1/( +X)

Z=1/Y

X=X

Z= +X

W=Log X

Para predecir el valor de Y usando el modelo linealizado hay que aplicar la


inversa de la transformacin correspondiente al mismo.

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

20

FUNCIONES NO LINEALES

Exponenciales

Logartmicas
Tema: Regresin Lineal

ESTADISTICA. U. Sucre

21

Se pueden considerar otros tipos


de modelos, en funcin del
aspecto que presente el
diagrama de dispersin
(regresin no lineal)

Incluso se puede considerar el


que una variable dependa de
varias (regresin mltiple).

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

22

Cundo es bueno un modelo de regresin?

Lo adecuado del modelo depende de la


relacin entre:
la dispersin marginal de Y
La dispersin de Y condicionada a X

Es decir, fijando valores de X, vemos


cmo se distribuye Y

380
320

340

360

400

420

r= 0.415
r^2 = 0.172

150

160

170

180

La distribucin de Y, para valores


fijados de X, se denomina distribucin
condicionada.

190

360

370

La distribucin de Y,
independientemente del valor de X, se
denomina distribucin marginal.

350

380

390

r= 0.984
r^2 = 0.969

150

160

170

180

190

Si la dispersin se reduce notablemente,


el modelo de regresin ser adecuado.
Tema: Regresin Lineal

ESTADISTICA. U. Sucre

23

Covarianza de dos variables X e Y

La covarianza entre dos variables, Sxy, nos indica si la


posible relacin entre dos variables es directa o inversa.
Directa: Sxy >0
1
Inversa: Sxy <0
S xy
( xi x )( yi y )
Incorreladas: Sxy =0
n

El signo de la covarianza nos dice si el aspecto de la nube


de puntos es creciente o no, pero no nos dice nada sobre el
grado de relacin entre las variables.

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

24

Coef. de correlacin lineal de


Pearson

La coeficiente de correlacin lineal de


Pearson de dos variables, r, nos indica si
los puntos tienen una tendencia a
disponerse alineadamente (excluyendo
S
r
rectas horizontales y verticales).
S S

xy

tiene el mismo signo que Sxy por tanto de


su signo obtenemos el que la posible
relacin sea directa o inversa.

r es til para determinar si hay relacin


lineal entre dos variables, pero no servir
para otro tipo de relaciones (cuadrtica,
logartmica,...)
Tema: Regresin Lineal

ESTADISTICA. U. Sucre

25

Propiedades de r

Es adimensional
Slo toma valores en [-1,1]
Las variables son incorreladas r=0
Relacin lineal perfecta entre dos variables r=+1 o r=-1
Excluimos los casos de puntos alineados horiz. o verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de
relacin lineal.
Siempre que no existan observaciones anmalas.

Relacin
inversa
perfecta
Variables
incorreladas

-1

Relacin
directa
casi
perfecta

+1

0
Tema: Regresin Lineal

ESTADISTICA. U. Sucre

26

correlaciones positivas

correlaciones negativas

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

27

Animacin:
Evolucin de r y diagrama de dispersin

Tema: Regresin Lineal

ESTADISTICA. U. Sucre

28

Resumen sobre bondad de un


ajuste

La bondad de un ajuste de un modelo de regresin se mide


usando el coeficiente de determinacin R2

R2 es una cantidad adimensional que slo puede tomar


valores en [0, 1]
Para el alumno astuto: por qu?

Cuando un ajuste es bueno, R2 ser cercano a uno.


por qu?

Cuando un ajuste es malo R2 ser cercano a cero.

A R2 tambin se le denomina porcentaje de variabilidad


explicado por el modelo de regresin.

por qu?

por qu? Difcil.

R2 puede ser pesado de calcular en modelos de regresin


general, pero en el modelo lineal simple, la expresin es de lo
ms sencilla: R2=r2
Es coherente lo dicho entonces sobre los valores de R 2?
Tema: Regresin Lineal

ESTADISTICA. U. Sucre

29

Modelos de anlisis de regresin

Modelos de regresin
1 variable explicativa

2+ variables explicativas

Simple

Lineal

Mltiple

No lineal

Lineal

Tema: Regresin Lineal

No lineal

ESTADISTICA. U. Sucre

30

En el diagrama de dispersin se aprecie una clara relacin


lineal directa.
Aprecias regresin a la media en el sentido de Galton en la
grfica?

La tabla de correlaciones nos muestra que r=0,759


190

Por qu se ven algunos r=1?

180

El modelo de regresin lineal simple es


Altura hijo = b0 + b1 Altura del padre

170

Altura del hijo

b0=89,985
b1=0,466
Aprecias regresin a la media?

160

150
150

160

170

180

190

Altura del Padre

La bondad del ajuste es de R2=0,577= 57,7%


Eso significa que el 57% de las predicciones del
modelo son
Coeficientes
Correlaciones
correctas?
Coeficientes no
estandarizados
Altura
del
Cmo lo interpretas?
Modelo
B
Error tp.
a

Correlacin de Pearson

Altura del hijo


Altura del Padre

Altura del hijo


1,000
,759

Padre
,759
1,000

(Constante)
Altura del Padre

89,985
,466

9,180
,053

a. Variable dependiente: Altura del hijo

Resumen del modelo


Modelo
1

R
R cuadrado
a
,759
,577

R cuadrado
corregida
,569

Error tp. de la
estimacin
3,480

a. Variables
predictoras:
(Constante), Altura del Padre
Tema: Regresin
Lineal

31

ESTADISTICA. U. Sucre

200

datos<-data.frame(X,Y)

10.0
9.5

X
0.01794

#Grfica de dispersin

7.5

plot(X,Y,col=1:3,main="tiempo vs. slidos solubles")

7.0

8.0

datos

Coefficients:
(Intercept)
7.00661

9.0

Y<-c(7.4,7.0,8.2,7.6,9.2,8.6,9.0,10.0,10.3)

tiempo vs. slidos solubles

X<-c(0,18,42,81,100,118,125,141,169)

Call:
lm(formula = Y ~ X)

8.5

# Script Regresin Lineal simple

#modelo de regresin

50

100

150

modelo<-lm(Y~X)
modelo
#Grfico de dispersin con linea de regresin
plot(X,Y,col=1:3,main="tiempo vs. slidos solubles")
abline(modelo)

Coefficients:
Coefficients:
Estimate
Estimate Std.
Std. Error
Error t
t value
value Pr(>|t|)
Pr(>|t|)
(Intercept)
7.006614
0.337556
20.757
1.51e-07
(Intercept) 7.006614
0.337556 20.757 1.51e-07 ***
***
X
0.017935
0.003258
5.506
0.000901
X
0.017935
0.003258
5.506 0.000901 ***
***
-----

# Estimacin y significancia de los coeficientes


summary(modelo)
#Anlisis de varianza de la regresin

Residual
standard error:
Residual standard
error: 0.5312
0.5312 on
on 7
7 degrees
degrees of
of freedom
freedom
Multiple
Adjusted
Multiple R-squared:
R-squared: 0.8124,
0.8124,
Adjusted R-squared:
R-squared: 0.7856
0.7856
F-statistic:
30.31
on
1
and
7
DF,
p-value:
0.000901
F-statistic: 30.31 on 1 and 7 DF, p-value: 0.000901

anova(modelo)
# Grfico de diagnstico de los residuales
plot(modelo)
#residuales
resi<-residuals(modelo)

Analysis
Analysis of
of Variance
Variance Table
Table
Response:
Response: Y
Y
Df
Df
X
1
X
1
Residuals
Residuals 7
7
-----

Sum
Pr(>F)
Sum Sq
Sq Mean
Mean Sq
Sq F
F value
value
Pr(>F)
8.5536
0.000901 ***
8.5536 8.5536
8.5536 30.313
30.313 0.000901
***
1.9752
1.9752 0.2822
0.2822

Lineal (Cap. ESTADISTICA.


U. Sucre Lineal
32
Ejemplo: TeoraTema:
deRegresin
Calcio
Regresin

Aplicacin Peces (Vertel, pg.63):


DCA, Polinomios Ortogonales y Regresin lineal
simple
Anava y Polinomios ortogonales

Analysis
Analysis of
of Variance
Variance Table
Table
Response:
Response: long
long
Df
Df Sum
Sum Sq
Sq Mean
Mean Sq
Sq F
F value
value
Pr(>F)
Pr(>F)
trat
2
421.20
trat
2 421.20
0.0001508
0.0001508 ***
***
Residuals
Residuals 18
18 253.99
253.99

210.60
210.60

14.925
14.925

14.11
14.11

Df
Pr(>F)
Df Sum
Sum Sq
Sq Mean
Mean Sq
Sq F
F value
value
Pr(>F)
trat
2
421.20
210.60
trat
2 421.20 210.60 14.925
14.925
trat:
trat: RespL
RespL 1
1 416.93
416.93 416.93
416.93 29.547
29.547
trat:
4.28
4.28
0.303
trat: RespC
RespC 1
1
4.28
4.28
0.303
Residuals
18
253.99
14.11
Residuals
18 253.99
14.11

0.0001508
0.0001508 ***
***
3.652e-05
3.652e-05 ***
***
0.5887848
0.5887848

-----

Call:
Call:
lm(formula
lm(formula =
= long
long ~
~ t,
t, data
data =
= base)
base)

50
50

longitud
longitud vs.
vs. concentracin
concentracin

tt

30
30

40
40

Coefficients:
Coefficients:
Estimate
Estimate Std.
Std. Error
Error t
t value
value Pr(>|t|)
Pr(>|t|)
(Intercept)
21.29524
1.27208
16.740
7.86e-13
(Intercept) 21.29524
1.27208 16.740 7.86e-13 ***
***
t
-0.21829
0.03941 -5.538
-5.538 2.42e-05
2.42e-05 ***
***
t
-0.21829
0.03941

00

10
10

20
20

----Multiple
Multiple R-squared:
R-squared: 0.6175,
0.6175,

10
10

15
15

20
20
long
long

25
25

30
30

Adjusted
Adjusted R-squared:
R-squared: 0.5974
0.5974

Analysis
Analysis of
of Variance
Variance Table
Table
Response:
long
Response: long
Df
Sum Sq
Mean Sq
Pr(>F)
Df Sum
Sq Mean
Sq F
F value
value
Pr(>F)
t
1
2.424e-05 ***
t
1 416.93
416.93 416.93
416.93 30.672
30.672 2.424e-05
***
Residuals
13.59
Residuals 19
19 258.26
258.26
13.59
----Tema: Regresin Lineal

ESTADISTICA. U. Sucre

33

Das könnte Ihnen auch gefallen