Sie sind auf Seite 1von 77

REGRESIN LINEAL SIMPLE

Nuevos elementos

La Normal bivariante
(modelo de probabilidad)

Ajuste de una recta a una nube


de puntos (anlisis de datos)

Distribucin Normal Bivariante


(parmetros m1, m2, s1, s2, r)

m1= E(X) m2 = E(Y) s12 = Var(X) s22 = Var(Y) r = Coef. Correlacin (X,Y)
2

Distribucin Normal Bivariante


(simulacin de datos)
rho=0, sigma1)1, sigma2=3

-5

m1= m2 = 0
s1 = 1 s 2 = 3
r =0

-3

-10

-2

-1

m1= m2 = 0
s1 = s2 = 1
r =0

10

rho=0, sigma1=sigma2

-10

-5

10

rho=0.8, sigma1=sigma2

rho=-0.8, sigma1=sigma2

m1= m2 = 0
s1 = s2 = 1
r = - 0.8

m1= m2 = 0
s 1 = s2 = 1
r = 0.8

-5

-1

-2

-5

-3

-4

-2

-4

-2

Normal bivariante: Distribuciones condicionadas


Y/X=x es una N(b0+b1x , s)

E(Y/X=x)

x
Ejemplo de David W. Stockburger
(Modelo para X resultado de un test, Y errores de produccin)

y= b0+b1x es la recta de regresin de Y sobre X


4

Las tcnicas de Regresin lineal simple parten de


dos variables cuantitativas:
La variable explicativa (x)
La variable respuesta (y)
Y tratan de explicar la y mediante una funcin lineal
de la x representada por la recta

y = b0 + b1 x
Para ello dispondremos:
De un modelo de probabilidad (la Normal)
y de n pares de datos (xi,yi) que suponemos que
provienen del modelo establecido
5

El origen:On the laws of inheritance in man


Karl Pearson
Biometrika 1903

Variables:
X altura del padre
Y altura del hijo
Datos:
n= 1078 parejas de padres e hijos
Media de los padres = 68 pulgadas
Media de los hijos = 69 pulgadas
vx = vy = 2.7
r =0.51
6

Modelo 1 (una variable aleatoria, fijado x)

Modelo 2 (dos variables aleatorias)

s
7

La diferencia est en
cmo se tomarn los datos !
Modelo 1:
El experimentador fija los valores de las xi
y obtiene al azar los correspondientes yi
Modelo 2:
El experimentador obtiene al azar parejas de valores
(xi ,yi)
En ambos casos
Los datos son un conjunto de n parejas (xi ,yi)
8

Muestra aleatoria

i = 1,2,,n
Interpretacin de los parmetros:
Representa el valor medio de la respuesta (y)
cuando la variable explicativa (x) vale cero
Representa el incremento de la respuesta
media (y) cuando la variable explicativa (x)
aumenta en una unidad

Ajuste de una recta a n pares de datos (xi,yi)

DATOS
Grfico de los puntos
(xi,yi)
i =1,2,,n

10

Ajuste de una recta a n pares de datos (xi,yi)

Grfico de puntos
tiene sentido
una relacin lineal?
tiene sentido
alguna relacin?

11

Ajuste de una recta a n pares de datos (xi,yi)

Cul es la recta
que mejor predice
la altura en funcin
de la edad?
Mnimos cuadrados
Hacemos mnima la
suma de los
cuadrados de las
diferencias entre el
valor real de cada yi
con el valor que
predice la recta

12

Ajuste de una recta a n pares de datos (xi,yi)


Estimacin de los coeficientes de la recta
Recta de regresin
estimada

13

Estimacin de la varianza residual s2


(mide la dispersin de los puntos a la recta)
Los residuos del modelo son

Los grados de libertad de


los residuos son n-2

Varianza residual

14

ESTIMACIN PUNTUAL DE LOS


PARMETROS DE LA REGRESIN

Estimacin de r

15

ESTIMACIN POR INTERVALOS DE LOS


PARMETROS DE LA REGRESIN
(suponiendo Normalidad)

16

Anlisis estadstico: requisitos previos


1. Normalidad: los datos obtenidos se ajustan razonablemente a una
distribucin Normal
2. Homocedasticidad: la variabilidad de los datos para los distintos valores
de x es similar
3. Linealidad: los residuos (diferencia de los datos a la recta) se distribuyen
sin forma alrededor del cero

4. Independencia: las observaciones se realizan de forma independiente


unas de otras
SI HAY DESVIACIONES SIGNIFICATIVAS SOBRE ESTOS REQUISITOS
LOS RESULTADOS POSTERIORES PUEDEN SER INCORRECTOS

17

La importancia de los grficos de puntos


(4 conjuntos de datos emparejados)
x1

y1

x2

y2

x3

y3

x4

y4

10

8.04

10

9.14

10

7.46

6.58

6.95

8.14

6.77

5.76

13

7.58

13

8.74

13

12.74

7.71

8.81

8.77

7.11

8.84

11

8.33

11

9.26

11

7.81

8.47

14

9.96

14

8.1

14

8.84

7.04

7.24

6.13

6.08

5.25

4.26

3.1

5.39

19

12.5

12

10.84

12

9.13

12

8.15

5.56

4.82

7.26

6.42

7.91

5.68

4.74

5.73

6.89

From the Exploring Data website http://curriculum.qed.qld.gov.au/kla/eda/


Education Queensland, 1997
18

Los 4 grupos de datos tienen exactamente los


mismos valores descriptivos siguientes:
Nmero de datos

11

Media de las xs

9.0

Media de las ys

7.5

Ecuacin de la recta de
regresin

y = 3 + 0.5x

Coeficiente de correlacin

0.82

r2

0.67

19

Pero los grficos son:

12.5

16.0

2.0

9.0

x2

x3 vs y3

x4 vs y4

12.5

16.0

16.5

20.0

11.5
4.0

6.5

y4

9.0

11.5
9.0
6.5

y3

5.5

x1

4.0
2.0

6.0

8.0
9.0

14.0

5.5

14.0

2.0

2.0

4.0

y2

8.0
4.0

6.0

y1

10.0

10.0

x2 vs y2

12.0

x1 vs y1

5.5

9.0

x3

12.5

16.0

6.0

9.5

13.0

x4

20

Anlisis de los residuos


Los residuos pueden dibujarse de distintas formas:
1. poniendo en el eje de abcisas los valores de las xi y en
ordenadas los correspondientes ei
2. poniendo en el eje de abcisas los valores de las yi y en
ordenadas los correspondientes ei
Residuos tipificados o estandarizados
Para evitar la influencia de las unidades de medida utilizadas en
los datos y eliminar posibles diferencias debidas al azar en su
variabilidad, se utilizan los residuos tipificados dividiendo cada
uno de ellos por una medida comn de la dispersin.
Si el modelo es correcto los residuos tipificados se ajustarn
aproximadamente a una N(0,1) y su dispersin ser homognea
alrededor del cero.
Residuos tipificados muy alejados del cero (fuera de (-2,2))
pueden indicar datos anmalos.
21

y1

4.0

6.0

8.0

10.0

12.0

x1 vs y1

2.0

5.5

9.0

12.5

16.0

12.5

16.0

x1

2.0

4.0

y2

6.0

8.0

10.0

x2 vs y2

2.0

5.5

9.0

x2

22

y3

4.0

6.5

9.0

11.5

14.0

x3 vs y3

2.0

5.5

9.0

12.5

16.0

16.5

20.0

x3

4.0

6.5

y4

9.0

11.5

14.0

x4 vs y4

6.0

9.5

13.0

x4

23

Grfico de los residuos ei


es este un valor anmalo?

En abcisas los valores


de xi (edades en aos)
En ordenadas los
residuos ei sin tipificar

24

RESIDUOS VALORES PRONOSTICADOS


se cumplen las hiptesis del modelo?

25

Ejemplo: tiempo, temperatura, CO2


(desde hace 159.000 aos)

Los siguientes grficos corresponden a datos obtenidos sobre la


evolucin de la temperatura global y la concentracin atmosfrica
de CO2 en los ltimos 159.000 aos. Las variables son: miles de
aos antes del presente, diferencia de temperatura respecto a la
actual y concentracin de CO2 en la atmsfera.
Source: Compiled by Worldwatch Institute from J.M. Barnola et al.
"Historical CO2 Record from the Vostok Ice Core," in Thomas A.
Boden et al., eds., Trends '93: A Compendium of Data on Global
Change (Oak Ridge, TN.: Oak Ridge National Laboratory, 1994); J.
Jouzel et al., "Vostok Isotopic Temperature Record," in Thomas A.
Boden et al.; Timothy Whorf, Scripps Institution of Oceanography,
La Jolla, CA, private communication, February 2, 1995.
Education Queensland

26

evolucin temperatura

temperatura relativa

4,00
2,00
0,00
-2,00
-4,00
-6,00
-8,00
-10,00
-180

-130

-80

-30

miles de aos antes del presente


La regresin lineal no es aplicable

27

evolucin CO2
400

CO2 (ppm)

350
300
250
200
150
100
-180

-130

-80

-30

miles de aos antes del presente


La regresin lineal no es aplicable
28

qu efecto
tendr este dato
sobre la recta de
regresin?
Es de 1995

relacion temperatura -CO2


400

CO2 (ppm)

350
300
250
200
150
100
-10,00

-8,00

-6,00

-4,00

-2,00

0,00

2,00

4,00

temperatura relativa

29

Residuos tipificados sobre la variable dependiente

dato
anmalo

30

TRANSFORMACIONES DE LOS DATOS

Cuando detectamos problemas de


no linealidad
o
heterocedasticidad

Y queremos aplicar las tcnicas de regresin lineal

31

Algunas funciones linealizables


Log

Doble Log

Inversa

Log + 1/x

32

Algunas grficas
y=kebx

y=keb/x

33

La curva logstica

yi =

C
1 e - - bX i

Nota: C es el valor mximo


posible de la variable Y
Cambio de variable:

yi

= Z i
Ln
(C - y i )
Modelo lineal

Z i = bX i
34

Ejemplo

Problemas de
Heterocedasticidad

35

Ejemplo
WORLD REGRESSION LINE
(N = 1,764 primary administrative subdivisions of 98 nations)

36

Ejemplo. Peso del cerebro en funcin del peso corporal para


62 especies de mamferos

Elefante asitico

Elefante africano

Hombre

37

Ejemplo 1. Longitud versus peso


En estudios sobre poblaciones de animales salvajes muchas veces
se obtiene informacin basada en fotografas areas. A travs de
dicha informacin es posible conocer algunas caractersticas de los
animales. La longitud de un caimn es fcil de determinar con
fotografas areas, pero su peso es mucho ms difcil de estimar.
Para establecer un modelo que estime el peso conocida la longitud
del cuerpo, se capturaron 25 caimanes en Florida, midiendo en cada
uno su longitud y su peso (Education Queensland, 1997). Los
resultados se muestran en la siguiente grfica:

peso (libras)

Caimanes (datos)

Qu funcin representa
mejor el peso (Y) en
funcin de la longitud (X)?

700
600
500
400
300
200
100
0

Y = b 0 + b 1 X3

Y= kX
40

60

80

100

120

longitud (pulgadas)

140

160

b1

Y = keb1X
38

Caimanes R2 = 0'94

Caimanes R2 = 0'97
700

7
Log (peso)

600

Peso

500
400
300
200
100
0
100000

6
5
4
3

1100000

2100000

Longitud al cubo

3100000

4,2

4,4

4,6

4,8

Log (longitud)

Qu modelo representa cada una de estas grficas?


R2 es la estimacin del coeficiente de correlacin al cuadrado

Qu efecto tendrn sobre el ajuste los 3 caimanes grandes?

39

Modelo Y = k X b1
Equivalente al ajuste lineal Log(Y) = b0 + b1Log(X)

40

Modelo Y = k X

b1

: anlisis de los residuos

Residuos tipificados
sobre Log(peso)

Residuos brutos
sobre Log(longitud)

0,6

Residuos

0,4
0,2
0
-0,2

4,2

4,4

4,6

4,8

-0,4
Log (longitud)

41

Modelo Y = k X

b1

: anlisis de los residuos (Normalidad)

42

Modelo Y = b0 + b1 X3 : anlisis de los residuos

Residuos tipificados

43

CONTRASTES DE LA REGRESIN: t
(Los valores de la X no influyen en los valores de Y
en una relacin lineal)

Con nivel de significacin


rechazamos H0 si el cero no est
en el intervalo de confianza:

Error tpico

44

Ejemplo 2. Altura de ola en funcin de la velocidad del viento

45

Ejemplo 1. Caimanes con la transformacin doble log

Modelo 1

Error
tpico

-10,175
3,286

Coeficientes

Intercepcin
Log(Longitud)

p-valor

Inferior
95%

Superior
95%

0,732

13,907

1,1E-12

-11,688

-8,661

0,165

19,868

5,59E-16

2,944

3,628

Curva de regresin estimada:


Log Y = -10,175 + 3,286 Log X
o equivalentemente:

Y = e-10,175 X

3,286

= 0,0000381 X

3,286

46

CONTRASTES DE LA REGRESIN: ANOVA


Descomposicin de la variabilidad en regresin

SCT

SCE

SCR

SCE Suma de cuadrados


explicada (variabilidad de y debida
a su relacin lineal con la x)
SCR Suma de cuadrados residual
(variabilidad de y respecto a la recta
ajustada)
SCT Suma de cuadrados total
(variabilidad total de la y)

47

TABLA ANOVA
p-valor
?

El modelo de regresin lineal NO sirve para explicar la respuesta


El modelo de regresin lineal SI sirve para explicar la respuesta

48

Coeficiente de determinacin R2
Valoracin de cunto se ajustan los puntos a la recta
El COEFICIENTE DE DETERMINACIN es la proporcin de
variabilidad explicada por la regresin

R2 = SCE /SCT

En REGRESIN SIMPLE el COEFICIENTE DE DETERMINACIN coincide


con el COEFICIENTE DE CORRELACIN AL CUADRADO

R=

49

Coeficiente de determinacin R2

50

Comentarios:
El contraste de la regresin supone que la relacin (ms
o menos fuerte) es LINEAL
LINEAL. Por tanto, si no
rechazamos la hiptesis nula lo nico que podemos
decir es que no hemos encontrado evidencia de que
exista una relacin lineal,
lineal puede existir una relacin
no lineal
En REGRESIN SIMPLE el contraste ANOVA coincide
exactamente con el contraste de la t para el coeficiente
de la variable regresora

51

Ejemplo 2. Altura de ola en funcin de la velocidad del viento

52

Ejemplo 1. Caimanes con la transformacin doble log


b
Resumen del modelo

Modelo
1

R c uadrado
corregida
,943

R
R c uadrado
a
,972
,945

Error t p. de la
est imac in
,17531

a. Variables predict oras: (Cons tant e), LogLongit ud


b. Variable dependiente: LogPeso

ANOVAb
Modelo
1

Regresin
Res idual
Tot al

Suma de
cuadrados
12, 132
,707
12, 838

gl
1
23
24

Media
cuadrt ica
12, 132
,031

F
394,729

Sig.
,000a

a. Variables predict oras : (Const ante), LogLongitud


b. Variable dependiente: LogPes o

53

Ejemplo 3

Datos extraidos de: C. D. Keeling, T. P. Whorf & CO2 Research Groups (SIO); U.
California, La Jolla; en http://cdiac.ornl.gov/trends/co2/sio-mlo.htm

54

CO2
316,91
325,68
338,69
354,19
369,47

CO2 en Mauna Loa (Hawaii)


380
370
CO2 en ppm

Ao
1960
1970
1980
1990
2000

Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observ aciones

0,9947
0,9894
0,9858
2,5288
5

360
350
340
330
320
310
1950

1960

1970

1980

1990

2000

2010

Ao

ANLISIS DE VARIANZA
g. l.

S. C.

1
3
4

Regresin
Residuos
Total
Coef.
Intercepcin
Variable X 1

300,90
13,36

1785,70
19,19
1804,88
Error tpico

2,65
0,80

M. C.

1785,70
6,40

Estadstico t

113,45
16,71

279,23

Probabilidad

0,0000
0,0005

F-crit

0,0005

Inferior 95%

292,46
10,82

Superior 95%

309,34
15,91

55

Diagnstico de las hiptesis del modelo


Si las hiptesis del modelo son ciertas, entonces los residuos
son aproximadamente

Podemos utilizar contrastes y grficos para ver si hay EVIDENCIA CLARA en


contra de alguna de las hiptesis

Tienen que estar


entre -2 y 2, en
una nube de
puntos sin forma

56

Ejemplo 2. Altura de ola en funcin de la velocidad del viento

57

Predicciones a partir del modelo ajustado


Una vez aceptado el modelo de regresin, podemos
plantearnos realizar estimaciones y predicciones sobre
distintas caractersticas de la Y dado un valor fijo de X
que denominaremos x0
Analizaremos dos opciones:
- Estimacin de E(Y/X=x0) valor medio de Y para X=x0
- Prediccin de un valor de Y para X=x0
En ambos casos la mejor estimacin puntual es el
valor de Y predicho por la recta de regresin ajustada:

y0 = b0 + b1x0
Dnde est la diferencia?
58

Ejemplo: para una misma velocidad del viento x0 las olas


podrn tener distintas alturas: recordemos que hemos
aceptado una N(b0+b1x0 ,s)
Estimacin de la media de Y dado X=x0
Estimacin de la altura media que tendrn todas las olas
para una velocidad del viento fija x0
Prediccin de un valor de Y dado X=x0
Prediccin de la altura de una ola para una velocidad del
viento fija x0
La estimacin de la media ser ms precisa ya que
compensamos la variabilidad de la Y para X=x0
En la prediccin de un nico valor, a la variabilidad
estadstica se suma la variabilidad de los valores de la
Y para X=x0

59

Intervalos de confianza para la estimacin y la prediccin


Estimacin de la media de Y dado X=x0

Prediccin de un valor de Y dado X=x0

Error tpico

60

Grficamente: Bandas de confianza y de prediccin


Bandas de
prediccin
para Y
dado X=x
Bandas de
confianza
para
E(Y/X=x)

media

Los dos bandas tienen la misma forma, siempre ms


estrechas en la media de las x donde hay ms informacin
61

Ejemplo 2. Altura de ola en funcin de la velocidad del viento

62

Ejemplo 1. Caimanes con la transformacin doble log


Curva de regresin estimada:
Log Y = -10,175 + 3,286 Log X
o equivalentemente:
Y = e-10,175 X

3,286

= 0,0000381 X

3,286

Qu peso estimaramos en media para los caimanes cuya longitud sea 100
pulgadas?
Respuesta: log (y100) = 4,958

luego y100 = 142,25 libras

Que incremento del peso estimamos que resultara de un incremento del


1% en la longitud?
log (y1,01x) log (yx) = log (y1,01x /yx) = 3,286 log (1,01) = 0,0327
luego y1,01x = yx e0,0327 = yx 1,0332

el peso se incrementara en un 3,32%

63

Algunos abusos que se pueden cometer


en la regresin
Extrapolacin
Generalizacin
Correlacin ecolgica
Causalidad

64

Extrapolacin
Aplicar el modelo a valores de la variable explicativa alejados
de los observados
Verdadera
relacin
Ybuena
Yprediccin

Recta de
regresin
estimada

xprediccin

65

Ejemplo. Evolucin de la produccin de petrleo


evolucin de la produccin de petrleo

millones de barriles

25000
20000
15000
10000
5000
0
1860

1880

1900

1920

1940

1960

1980

2000

aos

66

Generalizacin
Utilizar un nico modelo para conjuntos de datos que
proceden de distintas poblaciones

Regresin con
todos los datos

67

Ejemplo. Datos del nmero de pie en funcin de la altura de


varios estudiantes de ambos sexos

68

Correlacin ecolgica
Cuando no existe relacin entre dos variables en ninguna
de las poblaciones pero al juntar varias poblaciones
aparece una falsa correlacin

Regresin con
todos los datos

69

Causalidad

Poblacin de burros

Admitir que existe una relacin de causalidad entre las xs y


las ys porque se ajusta bien un modelo

Presupuesto en educacin

Correlacin no implica Causalidad

70

Metodologa para el anlisis de la regresin

71

Ejemplo 4.
Y = Incidencia de hielo (en meses por ao) en las costas
de Islandia en funcin de X = temperatura media anual.

n = 57 aos

72

Ajuste del modelo lineal


Estad sticos descripti vos
N
temperat ura
incidencia de hielo
N v lido (s egn lista)

57
57
57

Mnimo
1, 00
,20

Mx imo
4, 40
7, 30

Media
2, 8947
2, 5561

Des v . t p.
,79066
1, 84556

Coefi cientesa
Coef icientes no
est andarizados
Modelo
1

(Constante)
temperatura

B
6, 573
-1,388

Error t p.
,759
,253

Coef icientes
est andarizad
os
Beta
-, 595

t
8, 661
-5,484

Interv alo de conf ianza para


B al 95%
L mite
Sig.
L mite inf erior
superior
,000
5, 052
8, 094
,000
-1,895
-, 881

a. Variable dependiente: incidencia de hielo

ANOVAb
Modelo
1

Regresin
Res idual
Tot al

Suma de
cuadrados
67, 422
123,319
190,740

gl
1
55
56

Media
cuadrt ica
67, 422
2, 242

F
30, 070

Sig.
,000a

a. Variables predict oras : (Const ante), temperatura


b. Variable dependiente: incidencia de hielo

73

Normalidad

74

Dos grficos de los residuos

Mean annual temperature (C) Grfico de los residuales


6
Residuos

4
2
0
-2

0,0

1,0

2,0

3,0

4,0

5,0

-4
Mean annual temperature (C)

Comentarios?

75

Otros modelos: transformaciones

Valores de R y F:
Lineal: R=0,595 F=30,07
Log: R= 0,609 F= 32,384
Exp: R= 0,514 F = 19,7
Inverso: R=0,586 F=28,7

Coefi cientes

ln(t emperatura)
(Constante)

Coef icientes no
est andarizados
B
Error t pico
-3,382
,594
5, 993
,635

Coef icientes
est andarizad
os
Beta
-, 609

t
-5,691
9, 440

Sig.
,000
,000

76

Predicciones
Qu incidencia de hielo esperamos de un ao en que la temperatura
global sea de 1C?
Respuesta con el modelo lineal: 6,573 1,388 = 5,185 meses al ao
Intervalo de confianza 0.95 para la incidencia media de hielo:
5,185 -+ t55,0.025 1,497 (0,515) = 5,185 -+ 1,03 = (4,155, 6,215)
Qu efecto tendr sobre la incidencia del hielo un incremento de un 1C
en la temperatura?
Respuesta: la incidencia de hielo descender en 1,388 meses

Respuesta con el modelo logartmico: 5,993 3,382 log(1) = 5,993


meses
Qu efecto tendr sobre la incidencia del hielo el multiplicar la
temperatura por 2?
Respuesta: la incidencia de hielo descender en 2,344 meses
yx= incidencia de hielo pronosticada a temperatura x = 5,993-3,382 log(x)
y2x= incidencia de hielo pronosticada a temperatura 2x = 5,993-3,382 log(2x)
yx-y2x = 3,382 log(2) = 2,344

77

Das könnte Ihnen auch gefallen