Sie sind auf Seite 1von 26

1

REGRESION Y CORRELACION
LINEALES
2
Relaciones entre variables y regresin
El trmino regresin fue introducido por Galton (1889)
refirindose a la ley de la regresin universal:

Cada peculiaridad en un hombre es compartida por
sus descendientes, pero en media, en un grado
menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos
fsicos de los descendientes (una variable) a partir de
los de sus padres (otra variable).

Pearson realiz un estudio con ms de 1000 registros
de grupos familiares observando una relacin del tipo:

Altura del hijo = 85cm + 0,5 altura del padre
(aprox.)

Conclusin: los padres muy altos tienen
tendencia a tener hijos que heredan parte de esta
altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de
los padres muy bajos.


Francis Galton
Karl Pearson
3
Regresin
Describir la relacin entre dos variables numricas
El anlisis de regresin sirve para predecir una medida en funcin
de otra medida (o varias).
Y = Variable dependiente
predicha
explicada
X = Variable independiente
predictora
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X

4
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Diagramas de dispersin , nube de puntos o Scaterplot
M
i
d
e

1
8
7

c
m
.

Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
Variable independiente x (altura)
Variable dependiente y (peso)
5
REGRESION LINEAL SIMPLE
Finalidad
Estimar los valores de y (variable
dependiente) a partir de los valores
de x (variable independiente)
Modelo
c | o + + = x y
y
x
y

c
a
u
Ordenada en
el origen
(intercepto)
| =tg u coeficiente de regresin
(pendiente)
Ax
Ay x
y
b
A
A
=
6
Fuerte relacin
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
No hay relacion
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Relacin directa e inversa
Cierta relacin
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Para valores de X por encima de la
media tenemos valores de Y por
encima y por debajo en proporciones
similares.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.
Para los valores de X mayores que la media
le corresponden valores de Y mayores
tambin.

Para los valores de X menores que la media
le corresponden valores de Y menores
tambin. : relacin directa.
7
COVARIANZA
Es una medida de la variacin lineal conjunta de dos variables
+
+
y

N
x
x
y
y
xy


=
) )( (
o
o
xy
< 0 asociacin lineal con pendiente negativa
o
xy
= 0 ausencia de asociacin lineal
o
xy
> 0 asociacin lineal con pendiente positiva


n
x x y y


=
) )( (
cov
Estimacin de o
xy
Es un estimador sesgado
centroide
x
y
x
x
y
y
8
El signo de la covarianza nos dice si el aspecto
de la nube de puntos es creciente o no, pero no
nos dice nada sobre el grado de relacin entre
las variables.
Coef. de correlacin lineal de Pearson
El coeficiente de correlacin lineal de Pearson de dos variables, r,
indica si los puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales y verticales).
r

(Rho ) en la poblacin
Valor en la muestra
9
y x xy
o o o / =
CORRELACION LINEAL
Finalidad
Medir la intensidad de la asociacin lineal entre dos variables
aleatorias
coeficiente de correlacin
covarianza poblacional
coeficiente de
determinacin
Proporcin de varianza compartida por las
dos variables

2
y x xy
s s s r / =
r
2
10
Es adimensional
Slo toma valores entre -1y +1
Las variables NO estn correlacionadas r=0
Relacin lineal perfecta entre dos variables r = +1 o r=-1
Excluimos los casos de puntos alineados horiz. o
verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin
lineal.
Siempre que no existan observaciones anmalas.


Propiedades de r
-1 +1
0
Relacin
inversa
perfecta
Relacin
directa
casi
perfecta
Variables
NO correlacionadas
11
Y = 0.134 X + 2.122
0
2
4
6
8
10
12
14
16
0 10 20 30 40 50 60 70 80 90
X
Y
Y = 0.134 X + 2.122
0
2
4
6
8
10
12
14
16
0 10 20 30 40 50 60 70 80 90
X
Y
Y = X
0
2
4
6
8
10
12
14
16
0 2 4 6 8 10 12 14 16
X
Y
Y = X
0
2
4
6
8
10
12
14
16
0 2 4 6 8 10 12 14 16
X
Y
Correlacin positiva
Correlacin negativa
r = + 1
0 s r s +1
-1 s r s 0
r = - 1
12
#DIV/0!
0
2
4
6
8
10
12
14
16
0 1 2 3 4 5 6
X
Y
Y = 0.093 X + 4.335
0
2
4
6
8
10
12
14
16
20 25 30 35 40 45 50 55 60
X
Y
Y = 4
0
1
2
3
4
5
6
7
8
20 25 30 35 40 45 50 55 60
X
Y
r = 0
Ausencia de correlacin
13
Animacin: Evolucin de r y diagrama de dispersin
14
2
1
2
r
n r
t
calc

=
ESTIMACION DE (rho)
Los residuos ( e ) deben ser :

Se compara con el valor
critico (t tabulado)
CONSIDERACIONES PARA LA VALIDEZ DEL TEST
y x
s s
Cov
r
.
=
0 : = Ho
PRUEBA DE
Normales
Homocedasticos
Independientes
Testar la Ho: = 0 equivale a ensayar la Ho:| = 0
15
Animacin: Residuos del modelo de regresin
16
ESTADISTICOS USUALES
Varianza residual (insesgada)
2
2
2
2
)

(
2
.

=

n n
y y
x y
s
c
Error tipico de estimacin de y
2
.

x y
s
x y
s =
Error tipico de estimacin de b
SCX
x y
s
b
s
.

=
Coeficiente
de Determinacin R
2
) 1 s s =
2
R ( 0
SCtotal
n SCRegresi
2
R
2
2
2
1
Y
e
S
S
R =
17
Cmo medir la bondad de una regresin?
Imaginemos un diagrama de dispersin, y vamos
a tratar de comprender en primer lugar qu es
el error residual, su relacin con la varianza de Y,
y de ah, cmo medir la bondad de un ajuste.
18
Interpretacin de la variabilidad en Y
Y En primer lugar olvidemos que existe
la variable X. Veamos cul es la
variabilidad en el eje Y.

La franja sombreada indica la zona
donde varan los valores de Y.

Proyeccin sobre el eje Y = olvidar X

2

Y
S
19
Interpretacin del residuo ( )
Y
Fijmonos ahora en los errores de prediccin
(lneas verticales). Los proyectamos sobre el
eje Y.
Se observa que los errores de prediccin,
residuos, estn menos dispersos que la
variable Y original.

Cuanto menos dispersos sean los
residuos,
mejor ser la bondad del ajuste.

y y


2
e
S
20
Resumiendo: La dispersin del error residual ser una fraccin de
la dispersin original de Y
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin.

Bondad de un ajuste
2
2
2
1
Y
e
S
S
R =
Y
2 2

Y e
S S <
Eso hace que definamos
como medida de
bondad de un ajuste de
regresin, o coeficiente
de determinacin a:
21
A medida que los valores se alejan del centroide ( , )
las estimaciones de y son ms imprecisas
Consecuencia sobre las estimaciones de y
y
x
x y

faja de
confianza
para
y
x
faja de
confianza
para
x y

x y
b
s t b

+
b
s t b

b
22
P Q
Buen ajuste a la recta en el intervalo PQ
NO implica que la relacin sea lineal fuera del mismo
23
La recta de regresin de y sobre x no es la misma que la de x sobre y , salvo
que todos los puntos estn sobre la recta
y
x
x
e
y
x
y
e
24
Precauciones en la interpretacin de r
r significativo NO implica relacin de causalidad entre las
variables
r = 0 NO implica ausencia de asociacin entre las variables
t x
y
x
y
y
x
r = 0
r = 0
25
Los problemas de regresin y de correlacin lineales
se parecen pero difieren
En la finalidad
En las variables
REGRESION CORRELACION
x variable
independiente fija
NO hay distincin entre
variable dependiente e
independiente
y variable
dependiente aleatoria
x e y son variables
aleatorias
26
Clculos en correlacin y regresin
Entrar x Hallar y Borrar la memoria estadstica
x
x
s
Entrar y Hallar y Borrar la memoria estadstica
y
y
s
Entrar los productos (x y) Hallar
y x
Calcular:
y x y x Cov . =
y x
s s
Cov
r
.
=
Testar: 0 : = Ho
bx a y =
x b y a =
x
y
s
rs
b =

Das könnte Ihnen auch gefallen