Beruflich Dokumente
Kultur Dokumente
Cuando se quiere observar si hay alguna relacin lineal entre dos variables cuantitativas, lo primero que hacemos es hacer un diagrama de dispersin, en donde trazamos una variable en x y otra en y.
Y si trazamos lneas imaginarias que den la idea de 4 cuadrantes
y II I+
y II I+
y II I+
III +
IV -
III +
IV x x
y III + IV x x
x x Patrn positivo
La mayor parte de los datos quedan el los cuadrantes I y II
Patrn negativo
La mayor parte de los datos quedan el los cuadrantes II y IV
Ningn patrn
Los datos quedan dispersos en todos los cuadrantes
Diapositiva 3 corregida Cuando creemos/sabemos que nuestros datos se ajustan a un modelo linear, trazamos una recta que pase por la mayor parte de los puntos, que ser la que mejor explique el cambio de y respecto a x: la recta de los mnimos cuadrados y determinamos la ecuacin y=mx+b Asimismo determinamos un valor de r, de r2 y de m y b
x
Patrn positivo
0<r<1 Valor positivo 0<r2<1 Valor positivo
x
Patrn negativo
-1<r<0 Valor negativo 0<r2<1 Valor positivo
Ningn patrn
r~0 r2~0 m~0
1. Coeficiente de correlacin r
r es una medida de la fuerza de la relacin entre dos variables.
En una regresin lineal, mide que tan fuertemente estn relacionadas x y y
r=
sxy
sxsy
-1 r1
Para calcular r
yX x
65 78 52 82 92 89 73 98 56 75 760 15,1143787
xy 39 43 21 64 57 47 28 75 34 52 460 16,5797735
xy
2535 3354 1092 5248 5244 4183 2044 7350 1904 3900 36854
sy
sx
= 0.8397
S (x i sxy =
x ) (yi n -1
y) =
1894
9
= 210.44
Y 1 2 3 4 5 6 7 8 9 10 suma
y X
65 78 52 82 92 89 73 98 56 75 760 76
x
39 43 21 64 57 47 28 75 34 52 460 46
ia
media
76
El coeficiente de correlacin se ocupa cuando se selecciona una unidad experimental al azar y luego se realizan mediciones de ambas variables x y y
Ejemplos: Relacionar la riqueza de hongos en un transecto(y) con el grueso de humus en el suelo (x) Relacionar el peso (y) y la talla (x) de los individuos
Relacionar un peso inicial (x) con un peso final (y) despus de un tratamiento
La relacin entre el nmero de ratas que viven en una caja (x) y la concentracin de corticosterona (y)
La relacin entre el nmero de horas sin dormir de las personas (x) con el nmero de errores que cometen al hacer un examen (y)
Cuando el valor de y depende del valor de x, es decir, el valor de x explica de alguna manera el valor de y. Entonces y es la variable dependiente Y x es la variable independiente Como ya se mencion, si la relacin de las variables x y y muestra un patrn lineal, entonces la relacin se representa mediante una lnea recta dada por la ecuacin:
y = mx + b
Cuando tenemos los datos en un diagrama de puntos dispersos, ajustamos una recta que ser la que mejor explique el cambio de y respecto a x Eso lo hacemos a travs del mtodo de los mnimos cuadrados.
y y = mx + b
4
3 2 1 b
0 1 2 3 4
m= r
Sy sx
m b= y x mx
m = pendiente de la recta: Indica la cantidad en que aumenta y por cada x b = constante: el valor de y cuando x vale 0
La recta que minimiza la suma de cuadrados de las desviaciones de los valores observados de y respecto a los valores predichos, es la recta del mejor ajuste.
120 100 80 60 40 20 0 0 20 40 x 60 80
y = (0.766)( x) + 40.8
m= r
sy sx
= 0.8397
15.114 16.57
= 0.766
b = 76
( 0.766) x 46 = 40.8
120 100 80 60 40 20 0 0 20
40 x
60
80
120 100 80 60 40 20 0 0 20
r=0.8397
Riqueza
40
60
80
Entonces dira que se observa una relacin lineal entre grueso del humus y riqueza de hongos. En donde entre mas grueso sea el humus, mayor nmero de especies de hongos encuentro.
Sin embargo, con el puro valor de r NO puedo saber si la relacin lineal es significativa!
Necesito probar que esa relacin entre variables sea significativa, ya sea a travs de: ANOVA o Prueba de t
1 y
x
Si hay una relacin lineal positiva: m ~1 Si hay una relacin lineal negativa: m ~
x -1
Si NO hay una relacin lineal : m ~
x 0
Hiptesis alternativa (cola derecha): Habr una correlacin lineal positiva Ha: m > m0
en donde m0 vale 0
Hiptesis alternativa (cola izquierda): Habr una correlacin lineal negativa Ha: m < m0
en donde m0 vale 0
Hiptesis alternativa (dos colas): Habr una correlacin lineal positiva o negativa
Ha: m m0
en donde m0 vale 0
3) En el cuadro que aparece, jalar la Variable y al Cuadro dependiente y la Variable x al Cuadro Independientes 4) Dar click en Estadsticos y en el cuadro que aparece, palomear Estimaciones, Intervalos de Confianza, Ajuste del modelo, Cambio en r cuadrado y Descriptivos 5) Luego click en Continuar y luego en Aceptar
Coeficiente de determinacin
Significancia: Que tan significativa es est correlacin (r) entre x y y Si la significancia < 0.05. La correlacin linear entre x y y si es significativa Si la significancia es >0.05, la correlacin linear entre x y y NO es significativa
SSR: Suma de Cuadrados de la Regresin: Mide la cantidad de variacin explicada mediante la recta de regresin con una variable independiente x
SSE: Suma de Cuadrados del Error: Mide la variacin residual en los datos que no es explicada por la variable independiente x
Grados de libertad 1: 1
F=MSR
MSE
significancia MSR: Cuadrado Medio de la Regresin: Es un buen estimador de la varianza siempre y cuando NO se rechace H0
SStotales: Suma de Cuadrados Totales La variacin explicada mediante la recta de regresin y la variacin residual
MSE: Cuadrado Medio del Error: El estimador insesgado de la varianza en un experimento de regresin! Es un buen estimador tanto si se como si se rechaza H0!
f (F) a=0.05
0 Fa Valor crtico
Regin de Aceptacin de H0
F
En donde H0: No hay correlacin entre x y y; La pendiente de la recta ajustada va a ser 0
Regin de Rechazo de H0
Para rechazar H0 :
Si la F calculada es mayor a la F crtica Si el la significancia (p-value) es menor a a
b : la constante de y=mx+b
m : la pendiente de y=mx+b
Estadstico t
m0=0 pues mi H0 es que no habr correlacin lineal entre las dos variables y mi pendiente ser 0! m m0 t= MSE / Sxx
En donde:
Sxx= S (xi X)2
Para rechazar H0 :
Si la t calculada es mayor a la t crtica (cola derecha) Si la t calculada es menor a la t crtica (cola izquierda) Si la t calculada es mayor a la t crtica derecha o menor a la t crtica izquierda (dos colas) Si el la significancia (p-value) es menor a a
Ha: Correlacin positiva Ha: Correlacin negativa Ha: Correlacin
(S xi) n
x
39 43 21 64 57 47 28 75 34 52 460 46
x2
1521 1849 441 4096 3249 2209 784 5625 1156 2704 23634
x-X
-7 -3 -25 18 11 1 -18 29 -12 6
(x X)2
49 9 625 324 121 1 324 841 144 36 2474
SUMA PROMEDIO (X )
S yy -
(1894)2
2056 2474 9
= 606.026 9 = 75.753 y
65 78 52 82 92 89 73 98 56 75
y2
4225 6084 2704 6724 8464 7921 5329 9604 3136 5625
y-Y
-11 2 -24 6 16 13 -3 22 -20 -1
(y Y)2
121 4 576 36 256 169 9 484 400 1
xi - X -7 -3 -25 18 11 1 -18 29 -12 6 yi - Y -11 2 -24 6 16 13 -3 22 -20 -1 (xi - X) x ( yi - Y) 77 -6 600 108 176 13 54 638 240 -6 1894 suma
SUMA PROMEDIO (Y )
760 59816 76
2056
m m0 t= MSE / Sxx =
Si nuestra hiptesis es que la correlacin es positiva, entonces: t crtico (a=0.05; 8 gl) =1.86
p-value= 0.001
1,86
4.38
Si nuestra hiptesis es que hay correlacin entre las dos variables, entonces: t crticos (a=0.05; 8 gl) = - 2.306, + 2.306 0.001
-4.38 -2.306 +2.306 4.38
0.001
Diapositiva 27
Ntese que al determinar la correlacin entre dos variables a travs de F o t la significancia es la misma.
1) La prueba de t nos va a permitir hacer pruebas de hiptesis de 1 cola (izquierda o derecha) o de dos colas. Es decir, hipotetizar correlaciones positivas (derecha), negativas (izquierda) o simplemente hipotetizar correlaciones (dos colas) 2) La prueba de ANOVA (Estadstico F) nos permite probar simplemente correlaciones. Pero acurdense que el estadstico F en la prueba de ANOVA es slo 1 cola derecha! O sea que todo el alfa queda del lado derecho. Si en mi prueba, mi significancia es 0.03, entonces afirmar que hay correlacin entre mis dos variables x y y (p<0.05 o p=0.03) 3) La prueba de F resulta til cuando en el modelo de correlacin estoy evaluando mas de una variable independiente. 4) En base a mi valor de r y de m, sabr si mi correlacin fue positiva ( si tienen signo +) o negativa (si tienen signo -). Acurdense que m y r siempre tienen el mismo signo!
Si nuestra hiptesis es que la correlacin es negativa, entonces: t crtico (a=0.05; 8 gl) = - 1.86
*Con datos como los que se tienen en este problema, evidentemente la ltima hiptesis sera que la correlacin fuera negativa! En este diagrama de la prueba t se esquematiza que la correlacin NO es negativa! p-value=1-0.001=0.999
-1.86
4.38
En base al anlisis que realic puedo concluir que: Hay una correlacin lineal positiva (p<0.01) entre el grosor del humus y la riqueza de hongos.
Es decir, a mayor grosor del humus, mayor nmero de especies de hongos se encuentran.
*Al poner a lado de lineal positiva (p<0.01) ya denoto que realic un anlisis estadstico para la correlacin lineal y que de acuerdo a este anlisis, la correlacin lineal es altamente significativa.
Paczolt, K., & Jones, A. (2010). Post-copulatory sexual selection and sexual conflict in the evolution of male pregnancy. Nature, 464 (7287), 401-404 DOI: 10.1038/nature08861
Figure 2 | Evidence for pre-copulatory mate choice and post-copulatory sexual selection by male Gulf pipefishes. a, We observed a strong negative correlation between a female's total length and the time that elapsed before mating took place for male-female pairs (linear regression: n = 22, r2 = 0.23, p = 0.025). b, The pattern was more pronounced when we took into account the female's length relative to the male's length (n = 22, r2 = 0.53, p=0.001). c,We observed a significantly positive relationship between the female's total length and the number of eggs transferred to the male's pouch (n = 22, r2 = 0.20, p= 0.038). d, Males also experienced higher levels of offspring survivorship when they mated with larger as opposed to smaller females (n = 22, r2 = 0.56, p = 0.007).
NTESE que en el parntesis, ellos ponen su significancia real (p=), su valor de r2 y el tamao de su muestra (el nmero de puntos en cada grfica). Tambin obsrvese que ellos usan las palabras fuerte, significativa, psitiva o negativa para describir sus correlaciones.
Lo que es importante denotar es que las palabras como correlacin fuerte, se usan GENERALMENTE cuando r > 0.5 y r2>0.25
Coeficiente de determinacin
Es la proporcin de la varianza en la variable dependiente que se predice a partir de la variable independiente. Es decir, slo la proporcin de la variacin que se explica por el modelo de regresin linear.
Variacin debida al modelo de regresin Variacin debida al modelo de regresin y al Error
r2 =
SSR SStotal
(Sxy)2
Sxy
SxxSyy
SxxSyy
0<r2>1
Ejemplo:
Atencin!
r r2
Se correlacionan linealmente dos series de datos. La variable x es altura y la variable y es peso. La r= 0.8. La r2= 0.64. p<0.02 Las variables altura y peso estn correlacionadas fuertemente, con una r=0.8
Cuando r2= 0 quiere decir que la variable dependiente no puede ser predicha a partir de la variable independiente Cuando r2=1 quiere decir que la variable dependiente puede ser predicha sin error a partir de la variable independiente
En la vida real, muchas veces tendremos datos en donde no se observe ninguna correlacin entre x y y (como el diagramita de la diapositiva 2) pero tambin tendremos otros datos en donde no haya una correlacin lineal (es decir m=0, r=0) pero que pueda haber otro tipo de correlacin!
Y con frecuencia, la gente se equivoca y quiere relacionar directamente sus variables con un modelo lineal pero mas bien, hay que usar el modelo adecuado para el conjunto de datos que tengamos!
Por ejemplo, la relacin entre la longitud y el peso de esta especie, se relacionan a travs de un modelo potencial
Y en la fase exponencial del crecimiento bacteriano, los datos estn mejor descritos si se usa un modelo exponencial que si usramos un modelo lineal.
tiempo (minutos) absorbancia 0,021 0 0,022 30 0,025 60 0,034 90 0,051 120 0,078 150 0,118 180 0,179 210 0,273 240 0,42 270 0,598 300
200
300
400
tiempo (minutos)
Estos son datos de crecimiento de bacterias, en donde se midi la absorbancia (600 nM) en diferentes tiempos. Sabemos que los valores de absorbancia estn relacionados con el tiempo, pero evidentemente, el mejor modelo para describir los datos NO es un modelo linear
Como bien sabemos, el modelo exponencial es el que mejor describe el crecimiento bacteriano en la fase Exponencial
En la grfica que aqu se muestra se observa claramente!
y = 0,0143e
2
0,0121x
0,7
R = 0,9792
0,6 0,5 0,4 0,3 0,2 0,1 0 0 100 200 300 400 tiempo (minutos)
Para determinar la r2 cuando hay una correlacin No lineal entre dos variables
En este caso, el modelo es un modelo exponencial
y = 0,0143e0,0121x R2 = 0,9792
Lo primero que hay que hacer es transformar estos datos a un modelo lineal! Cmo?
tiempo (minutos) absorbancia ln absorbancia -3,863232841 0,021 0 -3,816712826 0,022 30 -3,688879454 0,025 60 -3,381394754 0,034 90 -2,975929646 0,051 120 -2,551046452 0,078 150 -2,137070655 0,118 180 -1,720369473 0,179 210 -1,298283484 0,273 240 -0,867500568 0,42 270 -0,514164525 0,598 300
Despus de transformar a un modelo linear . entonces realizamos la regresin linear por mnimos cuadrados y determinamos los valores de r y r2 como ya lo hemos hecho para datos que se ajustan a un modelo lineal.
El valor de r2 de estos datos exponenciales transformados a un modelo linear. Es el mismo valor de r2 que aparece cuando se ajusto una curva exponencial a los datos originales de absorbancia (diapositiva 3 )
Para ver a que modelo se ajustan mis datos (si no lo s) o ver si mis datos se ajustan al modelo que creo (en este caso EXPONENCIAL) y ver si el ajuste es significativo
Click en
Estimacin Curvilnea
Tablas de SPSS
Exponencial
Res um e n de l m ode lo R ,990 R c uadrado ,979 R c uadrado corregida ,977 Error tpic o de la estimacin ,185
Mis variables x y y muestran una fuerte correlacin exponencial (r=0.99) y la variacin del modelo, se ajusta en un 97% a el modelo exponencial! La correlacin exponencial entre x y y es altamente significativa (p<0.0001)
ANOVA Suma de cuadrados 14,455 ,306 14,761 gl 1 9 10 Media cuadrtica 14,455 ,034 F 424,458 Sig. ,000
Coe ficiente s Coef icientes no es tandariz ados B Error tpic o ,012 ,001 ,014 ,001 Coef icientes es tandariz ad os Beta ,990
t 20,602 9,607
Y por ejemplo, si tuviera esta grfica, el modelo que mejor se ajustara sera el MODELO LOGARITMICO (ln)
y = 0,9894Ln(x) + 0,0596 R2 = 0,9986
3,5 3
Variable y
x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
y 0 0,72 1,2 1,5 1,65 1,85 2 2,15 2,23 2,35 2,42 2,5 2,58 2,65 2,72 2,79 2,84 2,91 2,97 3,05
ln (x) 0,00 0,69 1,10 1,39 1,61 1,79 1,95 2,08 2,20 2,30 2,40 2,48 2,56 2,64 2,71 2,77 2,83 2,89 2,94 3,00
3,5 3
Variable y
2,5 2 1,5 1 0,5 0 0,00 0,50 1,00 1,50 2,00 ln Variable x 2,50 3,00 3,50
Por ejemplo, en la actividad de una enzima, cuando se grafica la velocidad inicial contra la concentracin de sustrato, se obtiene una grfica como la de la derecha. El modelo se ajusta a un modelo Logartimico.
Para poder obtener valores como la Km o la Vmax, se ajustan los datos a un modelo lineal
Y con datos as, el mejor modelo es un Modelo Potencial (cuadrado) y = 1,3439x1,8952 R2 = 0,9992
450 400 350 300 250 200 150 100 50 0 0 5 10 15 20 25 Variable x
Variable y
x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
y 1,5 5 10 19 27 37 53 67 84 103 130 148 173 200 230 265 295 330 365 411
raiz cuadrada y 1,224744871 2,236067977 3,16227766 4,358898944 5,196152423 6,08276253 7,280109889 8,185352772 9,16515139 10,14889157 11,40175425 12,16552506 13,15294644 14,14213562 15,16575089 16,2788206 17,17556404 18,16590212 19,10497317 20,27313493
25 20
variable y
15 10 5 0 0 5 10 15 20 25 variable x
Modelo al que se ajustan los datos Exponencial y ~ e mx Potencial cuadrado y ~ x2 Logartmico y ~ ln x Logartimico y~logx
Para ajustar los datos a un modelo lineal Determinar ln (y) Determinar raz cuadrada de (y) Determinar ln x
Determinar log x
PARA HACER UN DIAGRAMA DE RESIDUOS 1) Trazar las variables x y y en un diagrama de dispersin y ajustar una recta a los datos
120 100 y = 1,1401x - 10,146 R2 = 0,9903
Longitud (cm)
y-
peso (g) 52 56 65 73 75 78 82 89 92 98 longitud (cm) 1,1401x - 10,146 Residuos 50 49,1392 -0,8608 54 53,6996 -0,3004 61 63,9605 2,9605 74 73,0813 -0,9187 74 75,3615 1,3615 79 78,7818 -0,2182 85 83,3422 -1,6578 93 91,3229 -1,6771 96 94,7432 -1,2568 99 101,5838 2,5838
4 3
y-
Si el diagrama de residuos muestra un patrn azaroso, entonces el modelo al que se ajustan los datos es un modelo lineal
Absorbancia 600 nM
0,6 0,5 0,4 0,3 0,2 0,1 0 0 50 100 150 200 250 300 350 Tiempo (minutos)
1) Trazar las variables x y y en un diagrama de dispersin y ajustar una recta a los datos
0,7 0,6 y = 0,0017x - 0,0882 R2 = 0,7747
Absorbancia 600 nM
0,5 0,4 0,3 0,2 0,1 0 -0,1 0 -0,2 Tiempo (minutos) 50 100 150 200 250 300 350
0,1 0,05 0 -0,05 0 -0,1 -0,15 -0,2 tiempo (minutos) 50 100 150 200 250 300 350
Si el diagrama de residuos muestra un patrn distinto a un patrn azaroso, entonces el modelo al que se ajustan los datos NO es un modelo lineal
y-
En este caso, por la naturaleza de la variable (absorbancia durante la fase exponencial del crecimiento de bacterias), sabemos que el mejor modelo es un modelo exponencial
0,7
Absorbancia 600 nM
y = 0,0143e0,0121x R2 = 0,9792
200
250
300
350
Tiempo (minutos)
25 20 15 10 5 0 0 5 peso (g) 10 15
Esta es una grfica comn, en la que todos los datos estn cerca de la recta ajustada y sus valores de x y y estn relacionados fuertemente (r=0.9662)
talla (cm)
talla (cm)
talla (cm)
20 15 10 5 0 0 5 peso (g) 10 15
Un punto influyente es un dato que est alejado del resto de los dems datos, pero que influye fuertemente sobre la pendiente y sobre la r2 del modelo, haciendo por lo general que esta ltima sea mas grande
Un punto anormal (outlier) es un dato que difiere del patrn del resto de los datos y que tiene un residual muy grande. Limita el ajuste de la recta a los datos y en consecuencia, en su presencia, la r2 disminuye.
Mucha gente lo que hace es sacar esos datos outliers para que su recta tenga un mejor ajuste y la r2 sea mas alta. Cuando esa eliminacin de outliers se hace sin algn argumento previo, slo con el fin de que la recta se vea mas bonita o que el r2 sea mas alto, est mal! Eso es cuchareo y es hacer trampa. Slo si tenemos argumentos vlidos para sacar esos datos, los sacaremos. Como por ejemplo, que sepamos que el sujeto estaba enfermo o que la muestra fue medida mal. En otras palabras, si es que sabemos que hubo algn error experimental o que hay criterios de exclusin (e.g. problemas hormonales) o de eliminacin (enfermedad, contaminacin de cultivo) que hagan VLIDO que saquemos esos datos, los sacamos. Sino no sacamos nada pues es hacer trampa. Si contamos con recursos y tiempo, lo recomendable sera hacer mas mediciones. De esa manera tendramos mas observaciones y puede ser que el dato anormal deje de ser anormal pues ya tendramos muchos mas datos y el ajuste de la recta sera distinto.
y = 3,4341x + 0,4263 R2 = 0,8865 40 35 30
talla (cm)
25 20 15 10 5 0 0 5 peso (g) 10 15