Correlación de Datos Bivariados

Anlisis de datos bivariados Cuantitativos:
Cuando las variables se relacionan linealmente *Coeficiente de correlacin r
*Regresin lineal a travs de mnimos cuadrados

*Coeficiente de determinacin r2 Cuando las variables NO se relacionan linealmente *Modelo Logartmico *Modelo Cuadrtico *Modelo Exponencial *Significado de r2
Transformacin de datos No lineales al Modelo Lineal

Anlisis de datos en SPSS
M. en C. Karla Elisa Jurez Contreras

kjuarezcontreras@ciencias.unam.mx
Cuando se quiere observar si hay alguna relacin lineal entre dos variables cuantitativas, lo primero que hacemos es hacer un diagrama de dispersin, en donde trazamos una variable en x y otra en y.
Y si trazamos lneas imaginarias que den la idea de 4 cuadrantes
y II I+
y II I+
y II I+
III +
IV -
III +
IV x x
y III + IV x x
x x Patrn positivo
La mayor parte de los datos quedan el los cuadrantes I y II
Patrn negativo
La mayor parte de los datos quedan el los cuadrantes II y IV
Ningn patrn
Los datos quedan dispersos en todos los cuadrantes
Diapositiva 3 corregida Cuando creemos/sabemos que nuestros datos se ajustan a un modelo linear, trazamos una recta que pase por la mayor parte de los puntos, que ser la que mejor explique el cambio de y respecto a x: la recta de los mnimos cuadrados y determinamos la ecuacin y=mx+b Asimismo determinamos un valor de r, de r2 y de m y b
x
Patrn positivo
0<r<1 Valor positivo 0<r2<1 Valor positivo
x
Patrn negativo
-1<r<0 Valor negativo 0<r2<1 Valor positivo
Ningn patrn
r~0 r2~0 m~0
0<m<1 Valor positivo

Si la relacin es fuertemente positiva, m, r y r2 ~ +1
-1<m<0 Valor negativo

Si la relacin es fuertemente negativa, m y r ~ -1 . r2 ~ +1
1. Coeficiente de correlacin r
r es una medida de la fuerza de la relacin entre dos variables.
En una regresin lineal, mide que tan fuertemente estn relacionadas x y y
El coeficiente de correlacin r se conoce tambin como el coeficiente de correlacin de Pearson.
r=
sxy
sxsy
Covarianza de variables x y y Desviacin estndar de x multiplicada por la desviacin estndar de y
-1 r1
Para calcular r
yX x
Y 1 2 3 4 5 6 7 8 9 10 suma desv. Est.
65 78 52 82 92 89 73 98 56 75 760 15,1143787
xy 39 43 21 64 57 47 28 75 34 52 460 16,5797735
xy
2535 3354 1092 5248 5244 4183 2044 7350 1904 3900 36854
sy
sx
(Sxi) (Syi) Determinar Covarianza: Sxiyi sxy = n -1 r= sxy sxsy =

210.44 15.114 x 16.579
460 x 760 36854 10 = 210.44 9
= 0.8397
La covarianza tambin la podemos determinar as:
S (x i sxy =
x ) (yi n -1
y) =
1894
9
= 210.44
Y 1 2 3 4 5 6 7 8 9 10 suma
y X
65 78 52 82 92 89 73 98 56 75 760 76
x
39 43 21 64 57 47 28 75 34 52 460 46
xi - X -7 -3 -25 18 11 1 -18 29 -12 6
yi - Y -11 2 -24 6 16 13 -3 22 -20 -1
ia
media
76
(xi - X) x ( yi - Y) 77 -6 600 108 176 13 54 638 240 -6 46 1894 suma
El coeficiente de correlacin se ocupa cuando se selecciona una unidad experimental al azar y luego se realizan mediciones de ambas variables x y y
Ejemplos: Relacionar la riqueza de hongos en un transecto(y) con el grueso de humus en el suelo (x) Relacionar el peso (y) y la talla (x) de los individuos
Relacionar un peso inicial (x) con un peso final (y) despus de un tratamiento
O tambin cuando el valor de x se da por anticipado y luego se mide el valor correspondiente de y

Ejemplos:
La relacin entre el nmero de ratas que viven en una caja (x) y la concentracin de corticosterona (y)
La relacin entre el nmero de horas sin dormir de las personas (x) con el nmero de errores que cometen al hacer un examen (y)
Cuando el valor de y depende del valor de x, es decir, el valor de x explica de alguna manera el valor de y. Entonces y es la variable dependiente Y x es la variable independiente Como ya se mencion, si la relacin de las variables x y y muestra un patrn lineal, entonces la relacin se representa mediante una lnea recta dada por la ecuacin:
y = mx + b
Cuando tenemos los datos en un diagrama de puntos dispersos, ajustamos una recta que ser la que mejor explique el cambio de y respecto a x Eso lo hacemos a travs del mtodo de los mnimos cuadrados.
y y = mx + b
4
3 2 1 b
0 1 2 3 4
m= r
Sy sx
m b= y x mx
m = pendiente de la recta: Indica la cantidad en que aumenta y por cada x b = constante: el valor de y cuando x vale 0
La recta que minimiza la suma de cuadrados de las desviaciones de los valores observados de y respecto a los valores predichos, es la recta del mejor ajuste.
Con los datos de la diapositiva 5 y 6
120 100 80 60 40 20 0 0 20 40 x 60 80
y = (0.766)( x) + 40.8
m= r
sy sx
= 0.8397
15.114 16.57
= 0.766
b = 76
( 0.766) x 46 = 40.8
Esta es la recta ajustada a los puntos que se realiza en Excel.

Como puede verse, los valores de m y de b son los mismos que se determinaron a travs de las frmulas de la diapositiva 11
y = 0,7656x + 40,784
120 100 80 60 40 20 0 0 20
40 x
60
80
Para ajustar una recta en Excel:
1) Se realiza una grfica de dispersin de puntos

2) Se hace click sobre los puntos y se agrega una lnea de tendencia. 3) La lnea de tendencia que se escoge es la Lineal
4) Y en las opciones se palomea *Presentar ecuacin en el grfico y *Presentar el valor de r2 en el grfico

5) Con la ecuacin que se presenta, conocemos m y b; y con el r2 desplegado, al determinar la raiz cuadrada conocemos r
(nmero de especies de hongos)
120 100 80 60 40 20 0 0 20
y = 0,7656x + 40,784 R2 = 0,7052
r=0.8397
Riqueza
40
60
80
grueso del humus (mm)
Y si y fuera : Riqueza de hongos Y x fuera grueso del humus
Entonces dira que se observa una relacin lineal entre grueso del humus y riqueza de hongos. En donde entre mas grueso sea el humus, mayor nmero de especies de hongos encuentro.
Sin embargo, con el puro valor de r NO puedo saber si la relacin lineal es significativa!
Necesito probar que esa relacin entre variables sea significativa, ya sea a travs de: ANOVA o Prueba de t
1 y
En una regresin lineal Cules son las hiptesis nulas y alternativas?
x
Si hay una relacin lineal positiva: m ~1 Si hay una relacin lineal negativa: m ~
x -1
Si NO hay una relacin lineal : m ~
x 0
Hiptesis alternativa (cola derecha): Habr una correlacin lineal positiva Ha: m > m0
en donde m0 vale 0
Hiptesis alternativa (cola izquierda): Habr una correlacin lineal negativa Ha: m < m0
en donde m0 vale 0
Hiptesis nula: No habr ninguna correlacin lineal entre x y y H0: m = m0

en donde m0 vale 0
Hiptesis alternativa (dos colas): Habr una correlacin lineal positiva o negativa
Ha: m m0
en donde m0 vale 0
Para hacer el anlisis estadstico en SPSS:

1) Se introducen las dos variables a analizar en columnas distintas 2) Dar click en Analizar, luego en regresin y dal click en Lineal
3) En el cuadro que aparece, jalar la Variable y al Cuadro dependiente y la Variable x al Cuadro Independientes 4) Dar click en Estadsticos y en el cuadro que aparece, palomear Estimaciones, Intervalos de Confianza, Ajuste del modelo, Cambio en r cuadrado y Descriptivos 5) Luego click en Continuar y luego en Aceptar
Tablitas desplegada en SPSS

Coeficiente de Correlacin de Pearson: Que tanto estn relacionadas linearmente las variables x y y
Coeficiente de determinacin
Significancia: Que tan significativa es est correlacin (r) entre x y y Si la significancia < 0.05. La correlacin linear entre x y y si es significativa Si la significancia es >0.05, la correlacin linear entre x y y NO es significativa
SSR: Suma de Cuadrados de la Regresin: Mide la cantidad de variacin explicada mediante la recta de regresin con una variable independiente x
SSE: Suma de Cuadrados del Error: Mide la variacin residual en los datos que no es explicada por la variable independiente x
Grados de libertad 1: 1
F=MSR
MSE
significancia MSR: Cuadrado Medio de la Regresin: Es un buen estimador de la varianza siempre y cuando NO se rechace H0
SStotales: Suma de Cuadrados Totales La variacin explicada mediante la recta de regresin y la variacin residual
Grados de libertad 2: n-2 Grados de libertad totales: n-1
MSE: Cuadrado Medio del Error: El estimador insesgado de la varianza en un experimento de regresin! Es un buen estimador tanto si se como si se rechaza H0!
A travs de ANOVA, podemos saber s la correlacin entre x y y es significativa:
f (F) a=0.05
La prueba es de una cola derecha

La F crtica tiene gl1= 1 y gl2 = n-2 El a con la que usualmente se trabaja es 0.05
0 Fa Valor crtico
Regin de Aceptacin de H0
F
En donde H0: No hay correlacin entre x y y; La pendiente de la recta ajustada va a ser 0
Regin de Rechazo de H0
Para rechazar H0 :
Si la F calculada es mayor a la F crtica Si el la significancia (p-value) es menor a a
Si hay correlacin entre x y y!
b : la constante de y=mx+b
m : la pendiente de y=mx+b
Estadstico t
Significancia de la prueba estadstica (t)
Intervalo de confianza para la pendiente (m)
Para calcular el estadstico t:
m0=0 pues mi H0 es que no habr correlacin lineal entre las dos variables y mi pendiente ser 0! m m0 t= MSE / Sxx
En donde:
Sxx= S (xi X)2
Grados de libertad: n-2
Para rechazar H0 :
Si la t calculada es mayor a la t crtica (cola derecha) Si la t calculada es menor a la t crtica (cola izquierda) Si la t calculada es mayor a la t crtica derecha o menor a la t crtica izquierda (dos colas) Si el la significancia (p-value) es menor a a
Ha: Correlacin positiva Ha: Correlacin negativa Ha: Correlacin
Para hacer el resto de los clculos
m m0 t= MSE / Sxx En donde: Sxx= S (xi x)2 = S x2i
(S xi) n
x
39 43 21 64 57 47 28 75 34 52 460 46
x2
1521 1849 441 4096 3249 2209 784 5625 1156 2704 23634
x-X
-7 -3 -25 18 11 1 -18 29 -12 6
(x X)2
49 9 625 324 121 1 324 841 144 36 2474
Sxx= S (xi x)2 = 2474 Sxx= S x2i (S xi) n

2
(460)2 Sxx= 23634 Sxx= 2474 10
SUMA PROMEDIO (X )
SSE MSE = n-1 =
S yy -
(S (xi X ) (yi Y))2

S xx n-1 =
(1894)2
2056 2474 9
= 606.026 9 = 75.753 y
65 78 52 82 92 89 73 98 56 75
y2
4225 6084 2704 6724 8464 7921 5329 9604 3136 5625
y-Y
-11 2 -24 6 16 13 -3 22 -20 -1
(y Y)2
121 4 576 36 256 169 9 484 400 1
xi - X -7 -3 -25 18 11 1 -18 29 -12 6 yi - Y -11 2 -24 6 16 13 -3 22 -20 -1 (xi - X) x ( yi - Y) 77 -6 600 108 176 13 54 638 240 -6 1894 suma
SUMA PROMEDIO (Y )
760 59816 76
2056
m m0 t= MSE / Sxx =
0.766 - 0 = 4.38 75.753 / 2474
Si nuestra hiptesis es que la correlacin es positiva, entonces: t crtico (a=0.05; 8 gl) =1.86
p-value= 0.001
1,86
4.38
Si nuestra hiptesis es que hay correlacin entre las dos variables, entonces: t crticos (a=0.05; 8 gl) = - 2.306, + 2.306 0.001
-4.38 -2.306 +2.306 4.38
p-value=0.001 + 0.001 =0.002
0.001
Que es el valor que aparece en la tablita de SPSS en la pgina 22
Diapositiva 27
Ntese que al determinar la correlacin entre dos variables a travs de F o t la significancia es la misma.
Cundo usar una u otra?
1) La prueba de t nos va a permitir hacer pruebas de hiptesis de 1 cola (izquierda o derecha) o de dos colas. Es decir, hipotetizar correlaciones positivas (derecha), negativas (izquierda) o simplemente hipotetizar correlaciones (dos colas) 2) La prueba de ANOVA (Estadstico F) nos permite probar simplemente correlaciones. Pero acurdense que el estadstico F en la prueba de ANOVA es slo 1 cola derecha! O sea que todo el alfa queda del lado derecho. Si en mi prueba, mi significancia es 0.03, entonces afirmar que hay correlacin entre mis dos variables x y y (p<0.05 o p=0.03) 3) La prueba de F resulta til cuando en el modelo de correlacin estoy evaluando mas de una variable independiente. 4) En base a mi valor de r y de m, sabr si mi correlacin fue positiva ( si tienen signo +) o negativa (si tienen signo -). Acurdense que m y r siempre tienen el mismo signo!
Si nuestra hiptesis es que la correlacin es negativa, entonces: t crtico (a=0.05; 8 gl) = - 1.86
*Con datos como los que se tienen en este problema, evidentemente la ltima hiptesis sera que la correlacin fuera negativa! En este diagrama de la prueba t se esquematiza que la correlacin NO es negativa! p-value=1-0.001=0.999
-1.86
4.38
En base al anlisis que realic puedo concluir que: Hay una correlacin lineal positiva (p<0.01) entre el grosor del humus y la riqueza de hongos.
Es decir, a mayor grosor del humus, mayor nmero de especies de hongos se encuentran.
*Al poner a lado de lineal positiva (p<0.01) ya denoto que realic un anlisis estadstico para la correlacin lineal y que de acuerdo a este anlisis, la correlacin lineal es altamente significativa.
Ejemplo tomado de una publicacin cientfica:
Paczolt, K., & Jones, A. (2010). Post-copulatory sexual selection and sexual conflict in the evolution of male pregnancy. Nature, 464 (7287), 401-404 DOI: 10.1038/nature08861
Figure 2 | Evidence for pre-copulatory mate choice and post-copulatory sexual selection by male Gulf pipefishes. a, We observed a strong negative correlation between a female's total length and the time that elapsed before mating took place for male-female pairs (linear regression: n = 22, r2 = 0.23, p = 0.025). b, The pattern was more pronounced when we took into account the female's length relative to the male's length (n = 22, r2 = 0.53, p=0.001). c,We observed a significantly positive relationship between the female's total length and the number of eggs transferred to the male's pouch (n = 22, r2 = 0.20, p= 0.038). d, Males also experienced higher levels of offspring survivorship when they mated with larger as opposed to smaller females (n = 22, r2 = 0.56, p = 0.007).
NTESE que en el parntesis, ellos ponen su significancia real (p=), su valor de r2 y el tamao de su muestra (el nmero de puntos en cada grfica). Tambin obsrvese que ellos usan las palabras fuerte, significativa, psitiva o negativa para describir sus correlaciones.
Lo que es importante denotar es que las palabras como correlacin fuerte, se usan GENERALMENTE cuando r > 0.5 y r2>0.25
En el caso contrario, describes tus datos como correlacin dbil
Y la correlacin es significativa cuando tu p<0.05
y altamente significativa cuando tu p<0.01
Coeficiente de determinacin
Es la proporcin de la varianza en la variable dependiente que se predice a partir de la variable independiente. Es decir, slo la proporcin de la variacin que se explica por el modelo de regresin linear.
Variacin debida al modelo de regresin Variacin debida al modelo de regresin y al Error
r2 =
SSR SStotal
(Sxy)2
Sxy
SxxSyy
SxxSyy
0<r2>1
Ejemplo:
Atencin!
r r2
Se correlacionan linealmente dos series de datos. La variable x es altura y la variable y es peso. La r= 0.8. La r2= 0.64. p<0.02 Las variables altura y peso estn correlacionadas fuertemente, con una r=0.8
La proporcin de la variacin debida al modelo de regresin lineal es de 0.64

O bien, una proporcin de 0.64 de la varianza en Y es predecible a partir de X. O bien, el 64% de la varianza en Y es predecible a partir de X. Dicho de otra manera: r2 indica que tan bien explica tu modelo de regresin lineal tus datos!
Cuando r2= 0 quiere decir que la variable dependiente no puede ser predicha a partir de la variable independiente Cuando r2=1 quiere decir que la variable dependiente puede ser predicha sin error a partir de la variable independiente
Un r2 entre 0 y 1 indica el grado en que la variable dependiente es predecible a partir de la independiente.
En la vida real, muchas veces tendremos datos en donde no se observe ninguna correlacin entre x y y (como el diagramita de la diapositiva 2) pero tambin tendremos otros datos en donde no haya una correlacin lineal (es decir m=0, r=0) pero que pueda haber otro tipo de correlacin!
Y con frecuencia, la gente se equivoca y quiere relacionar directamente sus variables con un modelo lineal pero mas bien, hay que usar el modelo adecuado para el conjunto de datos que tengamos!
Por ejemplo, la relacin entre la longitud y el peso de esta especie, se relacionan a travs de un modelo potencial
Y en la fase exponencial del crecimiento bacteriano, los datos estn mejor descritos si se usa un modelo exponencial que si usramos un modelo lineal.
EJEMPLO DE MODELO EXPONENCIAL
tiempo (minutos) absorbancia 0,021 0 0,022 30 0,025 60 0,034 90 0,051 120 0,078 150 0,118 180 0,179 210 0,273 240 0,42 270 0,598 300
absorbancia (600 nM)
0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 100
y = 0,0017x - 0,0882 R2 = 0,7747
200
300
400
tiempo (minutos)
Estos son datos de crecimiento de bacterias, en donde se midi la absorbancia (600 nM) en diferentes tiempos. Sabemos que los valores de absorbancia estn relacionados con el tiempo, pero evidentemente, el mejor modelo para describir los datos NO es un modelo linear
Como bien sabemos, el modelo exponencial es el que mejor describe el crecimiento bacteriano en la fase Exponencial
En la grfica que aqu se muestra se observa claramente!
y = 0,0143e
2
0,0121x
0,7
R = 0,9792
absorbancia (600 nM)
0,6 0,5 0,4 0,3 0,2 0,1 0 0 100 200 300 400 tiempo (minutos)
Para determinar la r2 cuando hay una correlacin No lineal entre dos variables
En este caso, el modelo es un modelo exponencial
y = 0,0143e0,0121x R2 = 0,9792
Lo primero que hay que hacer es transformar estos datos a un modelo lineal! Cmo?
Con el inverso de la exponencial : logaritmo natural
tiempo (minutos) absorbancia ln absorbancia -3,863232841 0,021 0 -3,816712826 0,022 30 -3,688879454 0,025 60 -3,381394754 0,034 90 -2,975929646 0,051 120 -2,551046452 0,078 150 -2,137070655 0,118 180 -1,720369473 0,179 210 -1,298283484 0,273 240 -0,867500568 0,42 270 -0,514164525 0,598 300
Despus de transformar a un modelo linear . entonces realizamos la regresin linear por mnimos cuadrados y determinamos los valores de r y r2 como ya lo hemos hecho para datos que se ajustan a un modelo lineal.
y = 0,0121x - 4,2502 R2 = 0,9792
El valor de r2 de estos datos exponenciales transformados a un modelo linear. Es el mismo valor de r2 que aparece cuando se ajusto una curva exponencial a los datos originales de absorbancia (diapositiva 3 )
ln absorbancia (600 nM)
0 -1 -2 -3 -4 -5 tiempo (minutos) 0 100 200 300 400
Para ver a que modelo se ajustan mis datos (si no lo s) o ver si mis datos se ajustan al modelo que creo (en este caso EXPONENCIAL) y ver si el ajuste es significativo
Click en
Estimacin Curvilnea
Click en el modelo curvilneo al que creo que se ajustan mis datos
Tablas de SPSS
Exponencial
Res um e n de l m ode lo R ,990 R c uadrado ,979 R c uadrado corregida ,977 Error tpic o de la estimacin ,185
La v ariable independiente es VAR00001.
Mis variables x y y muestran una fuerte correlacin exponencial (r=0.99) y la variacin del modelo, se ajusta en un 97% a el modelo exponencial! La correlacin exponencial entre x y y es altamente significativa (p<0.0001)
ANOVA Suma de cuadrados 14,455 ,306 14,761 gl 1 9 10 Media cuadrtica 14,455 ,034 F 424,458 Sig. ,000
Regresin Residual Total
La v ariable independiente es VAR00001.
Coe ficiente s Coef icientes no es tandariz ados B Error tpic o ,012 ,001 ,014 ,001 Coef icientes es tandariz ad os Beta ,990
VAR00001 (Cons tante)
t 20,602 9,607
Sig. ,000 ,000
La v ariable dependiente es ln(VAR00002).
EJEMPLO DE MODELO LOGARITMICO (ln)
Y por ejemplo, si tuviera esta grfica, el modelo que mejor se ajustara sera el MODELO LOGARITMICO (ln)
y = 0,9894Ln(x) + 0,0596 R2 = 0,9986
3,5 3
Variable y
2,5 2 1,5 1 0,5 0 0 5 10 15 Variable x 20 25
Para ajustar a un modelo lineal
x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
y 0 0,72 1,2 1,5 1,65 1,85 2 2,15 2,23 2,35 2,42 2,5 2,58 2,65 2,72 2,79 2,84 2,91 2,97 3,05
ln (x) 0,00 0,69 1,10 1,39 1,61 1,79 1,95 2,08 2,20 2,30 2,40 2,48 2,56 2,64 2,71 2,77 2,83 2,89 2,94 3,00
3,5 3
y = 0,9894x + 0,0596 R2 = 0,9986
Variable y
2,5 2 1,5 1 0,5 0 0,00 0,50 1,00 1,50 2,00 ln Variable x 2,50 3,00 3,50
Por ejemplo, en la actividad de una enzima, cuando se grafica la velocidad inicial contra la concentracin de sustrato, se obtiene una grfica como la de la derecha. El modelo se ajusta a un modelo Logartimico.
Para poder obtener valores como la Km o la Vmax, se ajustan los datos a un modelo lineal
EJEMPLO DE MODELO POTENCIAL
Y con datos as, el mejor modelo es un Modelo Potencial (cuadrado) y = 1,3439x1,8952 R2 = 0,9992
450 400 350 300 250 200 150 100 50 0 0 5 10 15 20 25 Variable x
Variable y
Para ajustar a un modelo lineal
x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
y 1,5 5 10 19 27 37 53 67 84 103 130 148 173 200 230 265 295 330 365 411
raiz cuadrada y 1,224744871 2,236067977 3,16227766 4,358898944 5,196152423 6,08276253 7,280109889 8,185352772 9,16515139 10,14889157 11,40175425 12,16552506 13,15294644 14,14213562 15,16575089 16,2788206 17,17556404 18,16590212 19,10497317 20,27313493
25 20
y = 0,9979x + 0,2259 R2 = 0,9998
variable y
15 10 5 0 0 5 10 15 20 25 variable x
En resumen (Modelos no lineares)
Modelo al que se ajustan los datos Exponencial y ~ e mx Potencial cuadrado y ~ x2 Logartmico y ~ ln x Logartimico y~logx
Para ajustar los datos a un modelo lineal Determinar ln (y) Determinar raz cuadrada de (y) Determinar ln x
Determinar log x
PARA HACER UN DIAGRAMA DE RESIDUOS 1) Trazar las variables x y y en un diagrama de dispersin y ajustar una recta a los datos
120 100 y = 1,1401x - 10,146 R2 = 0,9903
Longitud (cm)
80 60 40 20 0 0 20 40 60 Peso (g) 80 100 120
2) Determinar los residuos
y-
peso (g) 52 56 65 73 75 78 82 89 92 98 longitud (cm) 1,1401x - 10,146 Residuos 50 49,1392 -0,8608 54 53,6996 -0,3004 61 63,9605 2,9605 74 73,0813 -0,9187 74 75,3615 1,3615 79 78,7818 -0,2182 85 83,3422 -1,6578 93 91,3229 -1,6771 96 94,7432 -1,2568 99 101,5838 2,5838
Los residuos son la diferencia entre el valor predicho de y ( ) el valor observado de y
3) Trazar un diagrama de residuos
4 3
Residuos (longitud cm)
2 1 0 -1 -2 Peso (g) 0 20 40 60 80 100 120
y-
Si el diagrama de residuos muestra un patrn azaroso, entonces el modelo al que se ajustan los datos es un modelo lineal
Si el modelo fuera algo as, entonces

0,7
Absorbancia 600 nM
0,6 0,5 0,4 0,3 0,2 0,1 0 0 50 100 150 200 250 300 350 Tiempo (minutos)
1) Trazar las variables x y y en un diagrama de dispersin y ajustar una recta a los datos
0,7 0,6 y = 0,0017x - 0,0882 R2 = 0,7747
Absorbancia 600 nM
0,5 0,4 0,3 0,2 0,1 0 -0,1 0 -0,2 Tiempo (minutos) 50 100 150 200 250 300 350
2) Determinar los residuos

tiempo (minutos) absorbancia 0,0017x - 0,0882 Residuos 0 0,021 -0,0882 -0,1092 30 0,022 -0,0372 -0,0592 60 0,025 0,0138 -0,0112 90 0,034 0,0648 0,0308 120 0,051 0,1158 0,0648 150 0,078 0,1668 0,0888 180 0,118 0,2178 0,0998 210 0,179 0,2688 0,0898 240 0,273 0,3198 0,0468 270 0,42 0,3708 -0,0492 300 0,598 0,4218 -0,1762
3) Trazar un diagrama de residuos

0,15
Residuos (absorbancia 600 nM)
0,1 0,05 0 -0,05 0 -0,1 -0,15 -0,2 tiempo (minutos) 50 100 150 200 250 300 350
Si el diagrama de residuos muestra un patrn distinto a un patrn azaroso, entonces el modelo al que se ajustan los datos NO es un modelo lineal
y-
En este caso, por la naturaleza de la variable (absorbancia durante la fase exponencial del crecimiento de bacterias), sabemos que el mejor modelo es un modelo exponencial
0,7
Absorbancia 600 nM
0,6 0,5 0,4 0,3 0,2 0,1 0 0 50 100 150
y = 0,0143e0,0121x R2 = 0,9792
200
250
300
350
Tiempo (minutos)
PUNTOS ANORMALES (OUTLIERS) E INFLUYENTES

40 35 30 y = 3,2582x - 1,7 R2 = 0,9662
25 20 15 10 5 0 0 5 peso (g) 10 15
Esta es una grfica comn, en la que todos los datos estn cerca de la recta ajustada y sus valores de x y y estn relacionados fuertemente (r=0.9662)
Punto influyente Punto anormal (outlier)

y = 3,0084x - 0,4102 R2 = 0,9936 100 90 80 70 60 50 40 30 20 10 0 0 10 20 peso (g) 30 40
35 30 25 y = 3,0438x + 0,4154 R2 = 0,7645
talla (cm)
talla (cm)
talla (cm)
20 15 10 5 0 0 5 peso (g) 10 15
Un punto influyente es un dato que est alejado del resto de los dems datos, pero que influye fuertemente sobre la pendiente y sobre la r2 del modelo, haciendo por lo general que esta ltima sea mas grande
Un punto anormal (outlier) es un dato que difiere del patrn del resto de los datos y que tiene un residual muy grande. Limita el ajuste de la recta a los datos y en consecuencia, en su presencia, la r2 disminuye.
Sobre los outliers
Mucha gente lo que hace es sacar esos datos outliers para que su recta tenga un mejor ajuste y la r2 sea mas alta. Cuando esa eliminacin de outliers se hace sin algn argumento previo, slo con el fin de que la recta se vea mas bonita o que el r2 sea mas alto, est mal! Eso es cuchareo y es hacer trampa. Slo si tenemos argumentos vlidos para sacar esos datos, los sacaremos. Como por ejemplo, que sepamos que el sujeto estaba enfermo o que la muestra fue medida mal. En otras palabras, si es que sabemos que hubo algn error experimental o que hay criterios de exclusin (e.g. problemas hormonales) o de eliminacin (enfermedad, contaminacin de cultivo) que hagan VLIDO que saquemos esos datos, los sacamos. Sino no sacamos nada pues es hacer trampa. Si contamos con recursos y tiempo, lo recomendable sera hacer mas mediciones. De esa manera tendramos mas observaciones y puede ser que el dato anormal deje de ser anormal pues ya tendramos muchos mas datos y el ajuste de la recta sera distinto.
y = 3,4341x + 0,4263 R2 = 0,8865 40 35 30
talla (cm)
25 20 15 10 5 0 0 5 peso (g) 10 15

Correlación de Datos Bivariados

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Correlación de Datos Bivariados

Hochgeladen von

Copyright:

Verfügbare Formate

Anlisis de datos bivariados Cuantitativos:

Cuando las variables se relacionan linealmente *Coeficiente de correlacin r

*Regresin lineal a travs de mnimos cuadrados

Transformacin de datos No lineales al Modelo Lineal

M. en C. Karla Elisa Jurez Contreras

0<m<1 Valor positivo

-1<m<0 Valor negativo

El coeficiente de correlacin r se conoce tambin como el coeficiente de correlacin de Pearson.

Covarianza de variables x y y Desviacin estndar de x multiplicada por la desviacin estndar de y

Y 1 2 3 4 5 6 7 8 9 10 suma desv. Est.

(Sxi) (Syi) Determinar Covarianza: Sxiyi sxy = n -1 r= sxy sxsy =

460 x 760 36854 10 = 210.44 9

La covarianza tambin la podemos determinar as:

xi - X -7 -3 -25 18 11 1 -18 29 -12 6

yi - Y -11 2 -24 6 16 13 -3 22 -20 -1

(xi - X) x ( yi - Y) 77 -6 600 108 176 13 54 638 240 -6 46 1894 suma

O tambin cuando el valor de x se da por anticipado y luego se mide el valor correspondiente de y

Con los datos de la diapositiva 5 y 6

Esta es la recta ajustada a los puntos que se realiza en Excel.

Para ajustar una recta en Excel:

1) Se realiza una grfica de dispersin de puntos

4) Y en las opciones se palomea *Presentar ecuacin en el grfico y *Presentar el valor de r2 en el grfico

(nmero de especies de hongos)

y = 0,7656x + 40,784 R2 = 0,7052

grueso del humus (mm)

Y si y fuera : Riqueza de hongos Y x fuera grueso del humus

En una regresin lineal Cules son las hiptesis nulas y alternativas?

Hiptesis nula: No habr ninguna correlacin lineal entre x y y H0: m = m0

Para hacer el anlisis estadstico en SPSS:

Tablitas desplegada en SPSS

Grados de libertad 2: n-2 Grados de libertad totales: n-1

A travs de ANOVA, podemos saber s la correlacin entre x y y es significativa:

La prueba es de una cola derecha

Si hay correlacin entre x y y!

Significancia de la prueba estadstica (t)

Intervalo de confianza para la pendiente (m)

Para calcular el estadstico t:

Grados de libertad: n-2

Para hacer el resto de los clculos

m m0 t= MSE / Sxx En donde: Sxx= S (xi x)2 = S x2i

Sxx= S (xi x)2 = 2474 Sxx= S x2i (S xi) n

(460)2 Sxx= 23634 Sxx= 2474 10

SSE MSE = n-1 =

(S (xi X ) (yi Y))2

0.766 - 0 = 4.38 75.753 / 2474

p-value=0.001 + 0.001 =0.002

Que es el valor que aparece en la tablita de SPSS en la pgina 22

Cundo usar una u otra?

Ejemplo tomado de una publicacin cientfica:

En el caso contrario, describes tus datos como correlacin dbil

Y la correlacin es significativa cuando tu p<0.05

y altamente significativa cuando tu p<0.01

La proporcin de la variacin debida al modelo de regresin lineal es de 0.64

Un r2 entre 0 y 1 indica el grado en que la variable dependiente es predecible a partir de la independiente.

EJEMPLO DE MODELO EXPONENCIAL

absorbancia (600 nM)

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 100

y = 0,0017x - 0,0882 R2 = 0,7747

absorbancia (600 nM)

Con el inverso de la exponencial : logaritmo natural

y = 0,0121x - 4,2502 R2 = 0,9792

ln absorbancia (600 nM)

4) Y en las opciones se palomea Presentar ecuacin en el grfico y Presentar el valor de r2 en el grfico