Sie sind auf Seite 1von 27

Bioestadstica. U. Mlaga.

Tema 3: Estadstica bivariante 1


Bioestadstica
Tema 3: Estadstica descriptiva
bivariante y regresin lineal.
Tema 3: Estadstica bivariante 2
Bioestadstica. U. Mlaga.
Relaciones entre variables y regresin
El trmino regresin fue introducido por Galton en su libro
Natural inheritance (1889) refirindose a la ley de la
regresin universal:

Cada peculiaridad en un hombre es compartida por sus
descendientes, pero en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos fsicos de
los descendientes (una variable) a partir de los de sus padres (otra
variable).
Pearson (un amigo suyo) realiz un estudio con ms de 1000
registros de grupos familiares observando una relacin del tipo:

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Conclusin: los padres muy altos tienen tendencia a tener hijos que
heredan parte de esta altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de los padres muy
bajos.


Hoy en da el sentido de regresin es el de prediccin de una
medida basndonos en el conocimiento de otra.
Francis Galton
Primo de Darwin
Estadstico y aventurero
Fundador (con otros) de
la estadstica moderna
para explicar las teoras
de Darwin.


Tema 3: Estadstica bivariante 3
Bioestadstica. U. Mlaga.
Qu vamos a estudiar
En este captulo vamos a tratar diferentes formas de describir
la relacin entre dos variables cuando estas son numricas.
Estudiar si hay relacin entre la altura y el peso.
Haremos mencin de pasada a otros casos:
Alguna de las variables es ordinal.
Estudiar la relacin entre el sobrepeso y el dolor de espalda
(ordinal)
Hay ms de dos variables relacionadas.
Conocer el peso de una persona conociendo su altura y
contorno de cintura?
El estudio conjunto de dos variables cualitativas lo aplazamos
hasta que veamos contrastes de hiptesis (X
2
).
Hay relacin entre fumar y padecer enfermedad de pulmn?
Tema 3: Estadstica bivariante 4
Bioestadstica. U. Mlaga.
Estudio conjunto de dos variables
A la derecha tenemos una posible manera de recoger los
datos obtenido observando dos variables en varios
individuos de una muestra.

En cada fila tenemos los datos de un individuo

Cada columna representa los valores que toma una variable
sobre los mismos.

Las individuos no se muestran en ningn orden particular.

Dichas observaciones pueden ser representadas en un
diagrama de dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas son los valores
de las variables.

Nuestro objetivo ser intentar reconocer a partir del
mismo si hay relacin entre las variables, de qu tipo, y si
es posible predecir el valor de una de ellas en funcin de
la otra.
Altura
en cm.
Peso
en Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
Tema 3: Estadstica bivariante 5
Bioestadstica. U. Mlaga.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Diagramas de dispersin o nube de puntos
M
i
d
e

1
8
7

c
m
.

Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersin.
Tema 3: Estadstica bivariante 6
Bioestadstica. U. Mlaga.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Relacin entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersin.
Tema 3: Estadstica bivariante 7
Bioestadstica. U. Mlaga.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Prediccin de una variable en funcin de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
10 cm.
10 kg.
Tema 3: Estadstica bivariante 8
Bioestadstica. U. Mlaga.
Incorrelacin
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Relacin directa e inversa
Fuerte relacin
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Cierta relacin
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Para valores de X por encima de la media
tenemos valores de Y por encima y por
debajo en proporciones similares.
Incorrelacin.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.
Para los valores de X mayores que la media le
corresponden valores de Y mayores tambin.

Para los valores de X menores que la media le
corresponden valores de Y menores tambin.

Esto se llama relacin directa.
Tema 3: Estadstica bivariante 9
Bioestadstica. U. Mlaga.
Cundo es bueno un modelo de regresin?
Lo adecuado del modelo depende de la
relacin entre:
la dispersin marginal de Y
La dispersin de Y condicionada a X

Es decir, fijando valores de X, vemos
cmo se distribuye Y

La distribucin de Y, para valores
fijados de X, se denomina distribucin
condicionada.

La distribucin de Y,
independientemente del valor de X, se
denomina distribucin marginal.

Si la dispersin se reduce notablemente,
el modelo de regresin ser adecuado.
150 160 170 180 190
3
2
0
3
4
0
3
6
0
3
8
0
4
0
0
4
2
0
y
3
2
0
3
4
0
3
6
0
3
8
0
4
0
0
4
2
0
3
2
0
3
4
0
3
6
0
3
8
0
4
0
0
4
2
0
3
2
0
3
4
0
3
6
0
3
8
0
4
0
0
4
2
0
3
2
0
3
4
0
3
6
0
3
8
0
4
0
0
4
2
0
r= 0.415
r^2 = 0.172
150 160 170 180 190
3
5
0
3
6
0
3
7
0
3
8
0
3
9
0
y
3
5
0
3
6
0
3
7
0
3
8
0
3
9
0
3
5
0
3
6
0
3
7
0
3
8
0
3
9
0
3
5
0
3
6
0
3
7
0
3
8
0
3
9
0
3
5
0
3
6
0
3
7
0
3
8
0
3
9
0r= 0.984
r^2 = 0.969
Tema 3: Estadstica bivariante 10
Bioestadstica. U. Mlaga.
La covarianza entre dos variables, S
xy
, nos indica si
la posible relacin entre dos variables es directa o
inversa.
Directa: S
xy
>0
Inversa: S
xy
<0
Incorreladas: S
xy
=0

El signo de la covarianza nos dice si el aspecto de la
nube de puntos es creciente o no, pero no nos dice
nada sobre el grado de relacin entre las variables.

Covarianza de dos variables X e Y
) )( (
1
y y x x
n
S
i
i
i xy


Tema 3: Estadstica bivariante 11
Bioestadstica. U. Mlaga.
Coef. de correlacin lineal de Pearson
La coeficiente de correlacin lineal de Pearson de
dos variables, r, nos indica si los puntos tienen una
tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).


tiene el mismo signo que S
xy
por tanto de su signo
obtenemos el que la posible relacin sea directa o
inversa.

r es til para determinar si hay relacin lineal entre
dos variables, pero no servir para otro tipo de
relaciones (cuadrtica, logartmica,...)

y x
xy
S S
S
r
Tema 3: Estadstica bivariante 12
Bioestadstica. U. Mlaga.
Es adimensional
Slo toma valores en [-1,1]
Las variables son incorreladas r=0
Relacin lineal perfecta entre dos variables r=+1 o r=-1
Excluimos los casos de puntos alineados horiz. o verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de
relacin lineal.
Siempre que no existan observaciones anmalas.


Propiedades de r
-1 +1
0
Relacin
inversa
perfecta
Relacin
directa
casi
perfecta
Variables
incorreladas
Tema 3: Estadstica bivariante 13
Bioestadstica. U. Mlaga.
Entrenando el ojo: correlaciones positivas
r=0,1
30
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0,4
30
40
50
60
70
80
90
100
110
120
130
140 150 160 170 180 190 200
r=0,8
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,99
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Tema 3: Estadstica bivariante 14
Bioestadstica. U. Mlaga.
Entrenando el ojo: correlaciones negativas
r=-0,5
0
10
20
30
40
50
60
70
80
90
140 150 160 170 180 190 200
r=-0,7
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,95
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,999
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Tema 3: Estadstica bivariante 15
Bioestadstica. U. Mlaga.
Animacin: Evolucin de r y diagrama de dispersin
Tema 3: Estadstica bivariante 16
Bioestadstica. U. Mlaga.
Preguntas frecuentes
Si r=0 eso quiere decir que no las variables son
independientes?
En la prctica, casi siempre s, pero no tiene
por qu ser cierto en todos los casos.
Lo contrario si es cierto: Independencia
implica incorrelacin.

Me ha salido r=12 la relacin es superlineal[sic]?
Superqu? Eso es un error de clculo. Siempre debe tomar un
valor entre -1 y +1.

A partir de qu valores se considera que hay buena relacin
lineal?
Imposible dar un valor concreto (mirad los grficos anteriores).
Para este curso digamos que si |r|>0,7 hay buena relacin lineal
y que si |r|>0,4 hay cierta relacin (por decir algo... la cosa es
un poco ms complicada observaciones atpicas,
homogeneidad de varianzas...)



Tema 3: Estadstica bivariante 17
Bioestadstica. U. Mlaga.
Otros coeficientes de correlacin
Cuando las variables en vez de ser numricas son
ordinales, es posible preguntarse sobre si hay algn
tipo de correlacin entre ellas.

Disponemos para estos casos de dos estadsticos,
aunque no los usaremos en clase:
(ro) de Spearman
(tau) de Kendall

No tenis que estudiar nada sobre ellos en este
curso. Recordad slo que son estadsticos anlogos
a r y que los encontrareis en publicaciones donde las
variables no puedan considerarse numricas.
Maurice George Kendall
Charles Edward Spearman
Tema 3: Estadstica bivariante 18
Bioestadstica. U. Mlaga.
Regresin
El anlisis de regresin sirve para predecir una
medida en funcin de otra medida (o varias).
Y = Variable dependiente
predicha
explicada
X = Variable independiente
predictora
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X

Tema 3: Estadstica bivariante 19
Bioestadstica. U. Mlaga.
Regresin

El ejemplo del estudio de la altura en grupos familiares de
Pearson es del tipo que desarrollaremos en el resto del
tema.

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

Si el padre mide 200cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.

Si el padre mide 120cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.

Es decir, nos interesaremos por modelos de regresin
lineal simple.
Tema 3: Estadstica bivariante 20
Bioestadstica. U. Mlaga.
Modelo de regresin lineal simple
En el modelo de regresin lineal simple, dado dos
variables
Y (dependiente)
X (independiente, explicativa, predictora)

buscamos encontrar una funcin de X muy simple (lineal)
que nos permita aproximar Y mediante
= b
0
+ b
1
X
b
0
(ordenada en el origen, constante)
b
1
(pendiente de la recta)

Y e rara vez coincidirn por muy bueno que sea el
modelo de regresin. A la cantidad
e=Y- se le denomina residuo o error residual.
Tema 3: Estadstica bivariante 21
Bioestadstica. U. Mlaga.
0
30
60
90
120
150
180
0 1
0
2
0
3
0
4
0
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
1
4
0
1
5
0
1
6
0
1
7
0
1
8
0
1
9
0
2
0
0
2
1
0
2
2
0
En el ejemplo de Pearson y las alturas, l encontr:
= b
0
+ b
1
X
b
0
=85 cm (No interpretar como altura de un hijo cuyo padre mide
0 cm Extrapolacin salvaje!
b
1
=0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)

b
0
=85 cm
b
1
=0,5
Tema 3: Estadstica bivariante 22
Bioestadstica. U. Mlaga.
0
30
60
90
120
150
180
0 1
0
2
0
3
0
4
0
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
1
4
0
1
5
0
1
6
0
1
7
0
1
8
0
1
9
0
2
0
0
2
1
0
2
2
0
La relacin entre las variables no es exacta. Es natural
preguntarse entonces:
Cul es la mejor recta que sirve para predecir los valores de Y
en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).
b
0
=85 cm
b
1
=0,5
Tema 3: Estadstica bivariante 23
Bioestadstica. U. Mlaga.
El modelo lineal de regresin se construye utilizando la tcnica de
estimacin mnimo cuadrtica:
Buscar b
0
, b
1
de tal manera que se minimice la cantidad

i
e
i
2

Se comprueba que para lograr dicho resultado basta con elegir:




Se obtiene adems unas ventajas de regalo
El error residual medio es nulo
La varianza del error residual es mnima para dicha estimacin.

Traducido: En trmino medio no nos equivocamos. Cualquier otra
estimacin que no cometa error en trmino medio, si es de tipo lineal,
ser peor por presentar mayor variabilidad con respecto al error medio
(que es cero).
x b y b
S
S
r b
X
Y
1 0 1

Tema 3: Estadstica bivariante 24
Bioestadstica. U. Mlaga.
Animacin: Residuos del modelo de regresin
Tema 3: Estadstica bivariante 25
Bioestadstica. U. Mlaga.
Que el error medio de las
predicciones sea nulo no quiere
decir que las predicciones sean
buenas.

Hay que encontrar un medio de
expresar la bondad del ajuste
(bondad de la prediccin)
Cometi un error
de -30 en su
ltima prediccin
No importa. Con los dos
ltimos clientes me
equivoqu en +10 y +20.
En trmino medio el error
es cero.
Tema 3: Estadstica bivariante 26
Bioestadstica. U. Mlaga.
Ejemplo con SPSS
A continuacin vamos a analizar un ejemplo realizado con
datos simulados, de lo que podra parecer el estudio
sobre alturas de hijos y padres, realizado con SPSS.

Suponemos que hemos recogido la altura de 60 varones,
junto a las de su padre.

El estudio descriptivo univariante de ambas variables por
separado no revela nada sobre una posible relacin.

Altura del hijo
182,5
180,0
177,5
175,0
172,5
170,0
167,5
165,0
162,5
160,0
12
10
8
6
4
2
0
Desv. tp. = 5,30
Media = 170,8
N = 59,00
Altura del Padre
195,0
190,0
185,0
180,0
175,0
170,0
165,0
160,0
155,0
16
14
12
10
8
6
4
2
0
Desv. tp. = 8,64
Media = 173,3
N = 59,00
Tema 3: Estadstica bivariante 27
Bioestadstica. U. Mlaga.
Altura del Padre
200 190 180 170 160 150
A
l
t
u
r
a

d
e
l

h
i
j
o
190
180
170
160
150
Resumen del modelo
,759
a
,577 ,569 3,480
Modelo
1
R R cuadrado
R cuadrado
corregi da
Error tp. de l a
estimaci n
Vari abl es predi ctoras: (Constante), Altura del Padre
a.
Coeficientes
a
89,985 9,180
,466 ,053
(Constante)
Al tura del Padre
Modelo
1
B Error tp.
Coefi ci entes no
estandari zados
Variabl e dependi ente: Al tura del hi j o
a.
Correlaciones
1,000 ,759
,759 1,000
Al tura del hi j o
Al tura del Padre
Correl aci n de Pearson
Al tura del hi j o
Al tura del
Padre
En el diagrama de dispersin se aprecie una clara relacin lineal directa.
Aprecias regresin a la media en el sentido de Galton en la grfica?
La tabla de correlaciones nos muestra que r=0,759
Por qu se ven algunos r=1?
El modelo de regresin lineal simple es
Altura hijo = b
0
+ b
1
Altura del padre
b
0
=89,985
b
1
=0,466
Aprecias regresin a la media?
La bondad del ajuste es de R
2
=0,577= 57,7%
Eso significa que el 57% de las predicciones del modelo son correctas?
Cmo lo interpretas?

Das könnte Ihnen auch gefallen