Sie sind auf Seite 1von 56

Anlisis de datos bivariados Cuantitativos:

Cuando las variables se relacionan linealmente *Coeficiente de correlacin r

*Regresin lineal a travs de mnimos cuadrados


*Coeficiente de determinacin r2 Cuando las variables NO se relacionan linealmente *Modelo Logartmico *Modelo Cuadrtico *Modelo Exponencial *Significado de r2

Transformacin de datos No lineales al Modelo Lineal


Anlisis de datos en SPSS

M. en C. Karla Elisa Jurez Contreras


kjuarezcontreras@ciencias.unam.mx

Cuando se quiere observar si hay alguna relacin lineal entre dos variables cuantitativas, lo primero que hacemos es hacer un diagrama de dispersin, en donde trazamos una variable en x y otra en y.
Y si trazamos lneas imaginarias que den la idea de 4 cuadrantes

y II I+

y II I+

y II I+

III +

IV -

III +

IV x x

y III + IV x x

x x Patrn positivo
La mayor parte de los datos quedan el los cuadrantes I y II

Patrn negativo
La mayor parte de los datos quedan el los cuadrantes II y IV

Ningn patrn
Los datos quedan dispersos en todos los cuadrantes

Diapositiva 3 corregida Cuando creemos/sabemos que nuestros datos se ajustan a un modelo linear, trazamos una recta que pase por la mayor parte de los puntos, que ser la que mejor explique el cambio de y respecto a x: la recta de los mnimos cuadrados y determinamos la ecuacin y=mx+b Asimismo determinamos un valor de r, de r2 y de m y b

x
Patrn positivo
0<r<1 Valor positivo 0<r2<1 Valor positivo

x
Patrn negativo
-1<r<0 Valor negativo 0<r2<1 Valor positivo

Ningn patrn
r~0 r2~0 m~0

0<m<1 Valor positivo


Si la relacin es fuertemente positiva, m, r y r2 ~ +1

-1<m<0 Valor negativo


Si la relacin es fuertemente negativa, m y r ~ -1 . r2 ~ +1

1. Coeficiente de correlacin r
r es una medida de la fuerza de la relacin entre dos variables.
En una regresin lineal, mide que tan fuertemente estn relacionadas x y y

El coeficiente de correlacin r se conoce tambin como el coeficiente de correlacin de Pearson.

r=

sxy
sxsy

Covarianza de variables x y y Desviacin estndar de x multiplicada por la desviacin estndar de y

-1 r1

Para calcular r
yX x

Y 1 2 3 4 5 6 7 8 9 10 suma desv. Est.

65 78 52 82 92 89 73 98 56 75 760 15,1143787

xy 39 43 21 64 57 47 28 75 34 52 460 16,5797735

xy
2535 3354 1092 5248 5244 4183 2044 7350 1904 3900 36854

sy

sx

(Sxi) (Syi) Determinar Covarianza: Sxiyi sxy = n -1 r= sxy sxsy =


210.44 15.114 x 16.579

460 x 760 36854 10 = 210.44 9

= 0.8397

La covarianza tambin la podemos determinar as:

S (x i sxy =

x ) (yi n -1

y) =

1894
9

= 210.44

Y 1 2 3 4 5 6 7 8 9 10 suma

y X
65 78 52 82 92 89 73 98 56 75 760 76

x
39 43 21 64 57 47 28 75 34 52 460 46

xi - X -7 -3 -25 18 11 1 -18 29 -12 6

yi - Y -11 2 -24 6 16 13 -3 22 -20 -1

ia

media

76

(xi - X) x ( yi - Y) 77 -6 600 108 176 13 54 638 240 -6 46 1894 suma

El coeficiente de correlacin se ocupa cuando se selecciona una unidad experimental al azar y luego se realizan mediciones de ambas variables x y y
Ejemplos: Relacionar la riqueza de hongos en un transecto(y) con el grueso de humus en el suelo (x) Relacionar el peso (y) y la talla (x) de los individuos

Relacionar un peso inicial (x) con un peso final (y) despus de un tratamiento

O tambin cuando el valor de x se da por anticipado y luego se mide el valor correspondiente de y


Ejemplos:

La relacin entre el nmero de ratas que viven en una caja (x) y la concentracin de corticosterona (y)
La relacin entre el nmero de horas sin dormir de las personas (x) con el nmero de errores que cometen al hacer un examen (y)

Cuando el valor de y depende del valor de x, es decir, el valor de x explica de alguna manera el valor de y. Entonces y es la variable dependiente Y x es la variable independiente Como ya se mencion, si la relacin de las variables x y y muestra un patrn lineal, entonces la relacin se representa mediante una lnea recta dada por la ecuacin:

y = mx + b

Cuando tenemos los datos en un diagrama de puntos dispersos, ajustamos una recta que ser la que mejor explique el cambio de y respecto a x Eso lo hacemos a travs del mtodo de los mnimos cuadrados.

y y = mx + b

4
3 2 1 b
0 1 2 3 4

m= r

Sy sx

m b= y x mx

m = pendiente de la recta: Indica la cantidad en que aumenta y por cada x b = constante: el valor de y cuando x vale 0

La recta que minimiza la suma de cuadrados de las desviaciones de los valores observados de y respecto a los valores predichos, es la recta del mejor ajuste.

Con los datos de la diapositiva 5 y 6

120 100 80 60 40 20 0 0 20 40 x 60 80

y = (0.766)( x) + 40.8

m= r

sy sx

= 0.8397

15.114 16.57

= 0.766

b = 76

( 0.766) x 46 = 40.8

Esta es la recta ajustada a los puntos que se realiza en Excel.


Como puede verse, los valores de m y de b son los mismos que se determinaron a travs de las frmulas de la diapositiva 11
y = 0,7656x + 40,784

120 100 80 60 40 20 0 0 20

40 x

60

80

Para ajustar una recta en Excel:

1) Se realiza una grfica de dispersin de puntos


2) Se hace click sobre los puntos y se agrega una lnea de tendencia. 3) La lnea de tendencia que se escoge es la Lineal

4) Y en las opciones se palomea *Presentar ecuacin en el grfico y *Presentar el valor de r2 en el grfico


5) Con la ecuacin que se presenta, conocemos m y b; y con el r2 desplegado, al determinar la raiz cuadrada conocemos r

(nmero de especies de hongos)

120 100 80 60 40 20 0 0 20

y = 0,7656x + 40,784 R2 = 0,7052

r=0.8397

Riqueza

40

60

80

grueso del humus (mm)

Y si y fuera : Riqueza de hongos Y x fuera grueso del humus

Entonces dira que se observa una relacin lineal entre grueso del humus y riqueza de hongos. En donde entre mas grueso sea el humus, mayor nmero de especies de hongos encuentro.

Sin embargo, con el puro valor de r NO puedo saber si la relacin lineal es significativa!

Necesito probar que esa relacin entre variables sea significativa, ya sea a travs de: ANOVA o Prueba de t

1 y

En una regresin lineal Cules son las hiptesis nulas y alternativas?

x
Si hay una relacin lineal positiva: m ~1 Si hay una relacin lineal negativa: m ~

x -1
Si NO hay una relacin lineal : m ~

x 0

Hiptesis alternativa (cola derecha): Habr una correlacin lineal positiva Ha: m > m0
en donde m0 vale 0

Hiptesis alternativa (cola izquierda): Habr una correlacin lineal negativa Ha: m < m0
en donde m0 vale 0

Hiptesis nula: No habr ninguna correlacin lineal entre x y y H0: m = m0


en donde m0 vale 0

Hiptesis alternativa (dos colas): Habr una correlacin lineal positiva o negativa
Ha: m m0
en donde m0 vale 0

Para hacer el anlisis estadstico en SPSS:


1) Se introducen las dos variables a analizar en columnas distintas 2) Dar click en Analizar, luego en regresin y dal click en Lineal

3) En el cuadro que aparece, jalar la Variable y al Cuadro dependiente y la Variable x al Cuadro Independientes 4) Dar click en Estadsticos y en el cuadro que aparece, palomear Estimaciones, Intervalos de Confianza, Ajuste del modelo, Cambio en r cuadrado y Descriptivos 5) Luego click en Continuar y luego en Aceptar

Tablitas desplegada en SPSS


Coeficiente de Correlacin de Pearson: Que tanto estn relacionadas linearmente las variables x y y

Coeficiente de determinacin

Significancia: Que tan significativa es est correlacin (r) entre x y y Si la significancia < 0.05. La correlacin linear entre x y y si es significativa Si la significancia es >0.05, la correlacin linear entre x y y NO es significativa

SSR: Suma de Cuadrados de la Regresin: Mide la cantidad de variacin explicada mediante la recta de regresin con una variable independiente x

SSE: Suma de Cuadrados del Error: Mide la variacin residual en los datos que no es explicada por la variable independiente x

Grados de libertad 1: 1

F=MSR
MSE
significancia MSR: Cuadrado Medio de la Regresin: Es un buen estimador de la varianza siempre y cuando NO se rechace H0

SStotales: Suma de Cuadrados Totales La variacin explicada mediante la recta de regresin y la variacin residual

Grados de libertad 2: n-2 Grados de libertad totales: n-1

MSE: Cuadrado Medio del Error: El estimador insesgado de la varianza en un experimento de regresin! Es un buen estimador tanto si se como si se rechaza H0!

A travs de ANOVA, podemos saber s la correlacin entre x y y es significativa:

f (F) a=0.05

La prueba es de una cola derecha


La F crtica tiene gl1= 1 y gl2 = n-2 El a con la que usualmente se trabaja es 0.05

0 Fa Valor crtico
Regin de Aceptacin de H0

F
En donde H0: No hay correlacin entre x y y; La pendiente de la recta ajustada va a ser 0

Regin de Rechazo de H0

Para rechazar H0 :
Si la F calculada es mayor a la F crtica Si el la significancia (p-value) es menor a a

Si hay correlacin entre x y y!

b : la constante de y=mx+b

m : la pendiente de y=mx+b

Estadstico t

Significancia de la prueba estadstica (t)

Intervalo de confianza para la pendiente (m)

Para calcular el estadstico t:

m0=0 pues mi H0 es que no habr correlacin lineal entre las dos variables y mi pendiente ser 0! m m0 t= MSE / Sxx

En donde:
Sxx= S (xi X)2

Grados de libertad: n-2

Para rechazar H0 :
Si la t calculada es mayor a la t crtica (cola derecha) Si la t calculada es menor a la t crtica (cola izquierda) Si la t calculada es mayor a la t crtica derecha o menor a la t crtica izquierda (dos colas) Si el la significancia (p-value) es menor a a
Ha: Correlacin positiva Ha: Correlacin negativa Ha: Correlacin

Para hacer el resto de los clculos

m m0 t= MSE / Sxx En donde: Sxx= S (xi x)2 = S x2i

(S xi) n

x
39 43 21 64 57 47 28 75 34 52 460 46

x2
1521 1849 441 4096 3249 2209 784 5625 1156 2704 23634

x-X
-7 -3 -25 18 11 1 -18 29 -12 6

(x X)2
49 9 625 324 121 1 324 841 144 36 2474

Sxx= S (xi x)2 = 2474 Sxx= S x2i (S xi) n


2

(460)2 Sxx= 23634 Sxx= 2474 10

SUMA PROMEDIO (X )

SSE MSE = n-1 =

S yy -

(S (xi X ) (yi Y))2


S xx n-1 =

(1894)2
2056 2474 9

= 606.026 9 = 75.753 y
65 78 52 82 92 89 73 98 56 75

y2
4225 6084 2704 6724 8464 7921 5329 9604 3136 5625

y-Y
-11 2 -24 6 16 13 -3 22 -20 -1

(y Y)2
121 4 576 36 256 169 9 484 400 1
xi - X -7 -3 -25 18 11 1 -18 29 -12 6 yi - Y -11 2 -24 6 16 13 -3 22 -20 -1 (xi - X) x ( yi - Y) 77 -6 600 108 176 13 54 638 240 -6 1894 suma

SUMA PROMEDIO (Y )

760 59816 76

2056

m m0 t= MSE / Sxx =

0.766 - 0 = 4.38 75.753 / 2474

Si nuestra hiptesis es que la correlacin es positiva, entonces: t crtico (a=0.05; 8 gl) =1.86

p-value= 0.001

1,86

4.38

Si nuestra hiptesis es que hay correlacin entre las dos variables, entonces: t crticos (a=0.05; 8 gl) = - 2.306, + 2.306 0.001
-4.38 -2.306 +2.306 4.38

p-value=0.001 + 0.001 =0.002

0.001

Que es el valor que aparece en la tablita de SPSS en la pgina 22

Diapositiva 27

Ntese que al determinar la correlacin entre dos variables a travs de F o t la significancia es la misma.

Cundo usar una u otra?

1) La prueba de t nos va a permitir hacer pruebas de hiptesis de 1 cola (izquierda o derecha) o de dos colas. Es decir, hipotetizar correlaciones positivas (derecha), negativas (izquierda) o simplemente hipotetizar correlaciones (dos colas) 2) La prueba de ANOVA (Estadstico F) nos permite probar simplemente correlaciones. Pero acurdense que el estadstico F en la prueba de ANOVA es slo 1 cola derecha! O sea que todo el alfa queda del lado derecho. Si en mi prueba, mi significancia es 0.03, entonces afirmar que hay correlacin entre mis dos variables x y y (p<0.05 o p=0.03) 3) La prueba de F resulta til cuando en el modelo de correlacin estoy evaluando mas de una variable independiente. 4) En base a mi valor de r y de m, sabr si mi correlacin fue positiva ( si tienen signo +) o negativa (si tienen signo -). Acurdense que m y r siempre tienen el mismo signo!

Si nuestra hiptesis es que la correlacin es negativa, entonces: t crtico (a=0.05; 8 gl) = - 1.86
*Con datos como los que se tienen en este problema, evidentemente la ltima hiptesis sera que la correlacin fuera negativa! En este diagrama de la prueba t se esquematiza que la correlacin NO es negativa! p-value=1-0.001=0.999

-1.86

4.38

En base al anlisis que realic puedo concluir que: Hay una correlacin lineal positiva (p<0.01) entre el grosor del humus y la riqueza de hongos.

Es decir, a mayor grosor del humus, mayor nmero de especies de hongos se encuentran.

*Al poner a lado de lineal positiva (p<0.01) ya denoto que realic un anlisis estadstico para la correlacin lineal y que de acuerdo a este anlisis, la correlacin lineal es altamente significativa.

Ejemplo tomado de una publicacin cientfica:

Paczolt, K., & Jones, A. (2010). Post-copulatory sexual selection and sexual conflict in the evolution of male pregnancy. Nature, 464 (7287), 401-404 DOI: 10.1038/nature08861

Figure 2 | Evidence for pre-copulatory mate choice and post-copulatory sexual selection by male Gulf pipefishes. a, We observed a strong negative correlation between a female's total length and the time that elapsed before mating took place for male-female pairs (linear regression: n = 22, r2 = 0.23, p = 0.025). b, The pattern was more pronounced when we took into account the female's length relative to the male's length (n = 22, r2 = 0.53, p=0.001). c,We observed a significantly positive relationship between the female's total length and the number of eggs transferred to the male's pouch (n = 22, r2 = 0.20, p= 0.038). d, Males also experienced higher levels of offspring survivorship when they mated with larger as opposed to smaller females (n = 22, r2 = 0.56, p = 0.007).

NTESE que en el parntesis, ellos ponen su significancia real (p=), su valor de r2 y el tamao de su muestra (el nmero de puntos en cada grfica). Tambin obsrvese que ellos usan las palabras fuerte, significativa, psitiva o negativa para describir sus correlaciones.

Lo que es importante denotar es que las palabras como correlacin fuerte, se usan GENERALMENTE cuando r > 0.5 y r2>0.25

En el caso contrario, describes tus datos como correlacin dbil

Y la correlacin es significativa cuando tu p<0.05

y altamente significativa cuando tu p<0.01

Coeficiente de determinacin
Es la proporcin de la varianza en la variable dependiente que se predice a partir de la variable independiente. Es decir, slo la proporcin de la variacin que se explica por el modelo de regresin linear.
Variacin debida al modelo de regresin Variacin debida al modelo de regresin y al Error

r2 =

SSR SStotal

(Sxy)2

Sxy

SxxSyy

SxxSyy

0<r2>1
Ejemplo:

Atencin!
r r2

Se correlacionan linealmente dos series de datos. La variable x es altura y la variable y es peso. La r= 0.8. La r2= 0.64. p<0.02 Las variables altura y peso estn correlacionadas fuertemente, con una r=0.8

La proporcin de la variacin debida al modelo de regresin lineal es de 0.64


O bien, una proporcin de 0.64 de la varianza en Y es predecible a partir de X. O bien, el 64% de la varianza en Y es predecible a partir de X. Dicho de otra manera: r2 indica que tan bien explica tu modelo de regresin lineal tus datos!

Cuando r2= 0 quiere decir que la variable dependiente no puede ser predicha a partir de la variable independiente Cuando r2=1 quiere decir que la variable dependiente puede ser predicha sin error a partir de la variable independiente

Un r2 entre 0 y 1 indica el grado en que la variable dependiente es predecible a partir de la independiente.

En la vida real, muchas veces tendremos datos en donde no se observe ninguna correlacin entre x y y (como el diagramita de la diapositiva 2) pero tambin tendremos otros datos en donde no haya una correlacin lineal (es decir m=0, r=0) pero que pueda haber otro tipo de correlacin!
Y con frecuencia, la gente se equivoca y quiere relacionar directamente sus variables con un modelo lineal pero mas bien, hay que usar el modelo adecuado para el conjunto de datos que tengamos!

Por ejemplo, la relacin entre la longitud y el peso de esta especie, se relacionan a travs de un modelo potencial

Y en la fase exponencial del crecimiento bacteriano, los datos estn mejor descritos si se usa un modelo exponencial que si usramos un modelo lineal.

EJEMPLO DE MODELO EXPONENCIAL

tiempo (minutos) absorbancia 0,021 0 0,022 30 0,025 60 0,034 90 0,051 120 0,078 150 0,118 180 0,179 210 0,273 240 0,42 270 0,598 300

absorbancia (600 nM)

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 100

y = 0,0017x - 0,0882 R2 = 0,7747

200

300

400

tiempo (minutos)
Estos son datos de crecimiento de bacterias, en donde se midi la absorbancia (600 nM) en diferentes tiempos. Sabemos que los valores de absorbancia estn relacionados con el tiempo, pero evidentemente, el mejor modelo para describir los datos NO es un modelo linear

Como bien sabemos, el modelo exponencial es el que mejor describe el crecimiento bacteriano en la fase Exponencial
En la grfica que aqu se muestra se observa claramente!

y = 0,0143e
2

0,0121x

0,7

R = 0,9792

absorbancia (600 nM)

0,6 0,5 0,4 0,3 0,2 0,1 0 0 100 200 300 400 tiempo (minutos)

Para determinar la r2 cuando hay una correlacin No lineal entre dos variables
En este caso, el modelo es un modelo exponencial

y = 0,0143e0,0121x R2 = 0,9792

Lo primero que hay que hacer es transformar estos datos a un modelo lineal! Cmo?

Con el inverso de la exponencial : logaritmo natural

tiempo (minutos) absorbancia ln absorbancia -3,863232841 0,021 0 -3,816712826 0,022 30 -3,688879454 0,025 60 -3,381394754 0,034 90 -2,975929646 0,051 120 -2,551046452 0,078 150 -2,137070655 0,118 180 -1,720369473 0,179 210 -1,298283484 0,273 240 -0,867500568 0,42 270 -0,514164525 0,598 300

Despus de transformar a un modelo linear . entonces realizamos la regresin linear por mnimos cuadrados y determinamos los valores de r y r2 como ya lo hemos hecho para datos que se ajustan a un modelo lineal.

y = 0,0121x - 4,2502 R2 = 0,9792

El valor de r2 de estos datos exponenciales transformados a un modelo linear. Es el mismo valor de r2 que aparece cuando se ajusto una curva exponencial a los datos originales de absorbancia (diapositiva 3 )

ln absorbancia (600 nM)

0 -1 -2 -3 -4 -5 tiempo (minutos) 0 100 200 300 400

Para ver a que modelo se ajustan mis datos (si no lo s) o ver si mis datos se ajustan al modelo que creo (en este caso EXPONENCIAL) y ver si el ajuste es significativo

Click en
Estimacin Curvilnea

Click en el modelo curvilneo al que creo que se ajustan mis datos

Tablas de SPSS

Exponencial
Res um e n de l m ode lo R ,990 R c uadrado ,979 R c uadrado corregida ,977 Error tpic o de la estimacin ,185

La v ariable independiente es VAR00001.

Mis variables x y y muestran una fuerte correlacin exponencial (r=0.99) y la variacin del modelo, se ajusta en un 97% a el modelo exponencial! La correlacin exponencial entre x y y es altamente significativa (p<0.0001)
ANOVA Suma de cuadrados 14,455 ,306 14,761 gl 1 9 10 Media cuadrtica 14,455 ,034 F 424,458 Sig. ,000

Regresin Residual Total

La v ariable independiente es VAR00001.

Coe ficiente s Coef icientes no es tandariz ados B Error tpic o ,012 ,001 ,014 ,001 Coef icientes es tandariz ad os Beta ,990

VAR00001 (Cons tante)

t 20,602 9,607

Sig. ,000 ,000

La v ariable dependiente es ln(VAR00002).

EJEMPLO DE MODELO LOGARITMICO (ln)

Y por ejemplo, si tuviera esta grfica, el modelo que mejor se ajustara sera el MODELO LOGARITMICO (ln)
y = 0,9894Ln(x) + 0,0596 R2 = 0,9986

3,5 3

Variable y

2,5 2 1,5 1 0,5 0 0 5 10 15 Variable x 20 25

Para ajustar a un modelo lineal

x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

y 0 0,72 1,2 1,5 1,65 1,85 2 2,15 2,23 2,35 2,42 2,5 2,58 2,65 2,72 2,79 2,84 2,91 2,97 3,05

ln (x) 0,00 0,69 1,10 1,39 1,61 1,79 1,95 2,08 2,20 2,30 2,40 2,48 2,56 2,64 2,71 2,77 2,83 2,89 2,94 3,00

3,5 3

y = 0,9894x + 0,0596 R2 = 0,9986

Variable y

2,5 2 1,5 1 0,5 0 0,00 0,50 1,00 1,50 2,00 ln Variable x 2,50 3,00 3,50

Por ejemplo, en la actividad de una enzima, cuando se grafica la velocidad inicial contra la concentracin de sustrato, se obtiene una grfica como la de la derecha. El modelo se ajusta a un modelo Logartimico.
Para poder obtener valores como la Km o la Vmax, se ajustan los datos a un modelo lineal

EJEMPLO DE MODELO POTENCIAL

Y con datos as, el mejor modelo es un Modelo Potencial (cuadrado) y = 1,3439x1,8952 R2 = 0,9992
450 400 350 300 250 200 150 100 50 0 0 5 10 15 20 25 Variable x

Variable y

Para ajustar a un modelo lineal

x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

y 1,5 5 10 19 27 37 53 67 84 103 130 148 173 200 230 265 295 330 365 411

raiz cuadrada y 1,224744871 2,236067977 3,16227766 4,358898944 5,196152423 6,08276253 7,280109889 8,185352772 9,16515139 10,14889157 11,40175425 12,16552506 13,15294644 14,14213562 15,16575089 16,2788206 17,17556404 18,16590212 19,10497317 20,27313493

25 20

y = 0,9979x + 0,2259 R2 = 0,9998

variable y

15 10 5 0 0 5 10 15 20 25 variable x

En resumen (Modelos no lineares)

Modelo al que se ajustan los datos Exponencial y ~ e mx Potencial cuadrado y ~ x2 Logartmico y ~ ln x Logartimico y~logx

Para ajustar los datos a un modelo lineal Determinar ln (y) Determinar raz cuadrada de (y) Determinar ln x

Determinar log x

PARA HACER UN DIAGRAMA DE RESIDUOS 1) Trazar las variables x y y en un diagrama de dispersin y ajustar una recta a los datos
120 100 y = 1,1401x - 10,146 R2 = 0,9903

Longitud (cm)

80 60 40 20 0 0 20 40 60 Peso (g) 80 100 120

2) Determinar los residuos

y-
peso (g) 52 56 65 73 75 78 82 89 92 98 longitud (cm) 1,1401x - 10,146 Residuos 50 49,1392 -0,8608 54 53,6996 -0,3004 61 63,9605 2,9605 74 73,0813 -0,9187 74 75,3615 1,3615 79 78,7818 -0,2182 85 83,3422 -1,6578 93 91,3229 -1,6771 96 94,7432 -1,2568 99 101,5838 2,5838

Los residuos son la diferencia entre el valor predicho de y ( ) el valor observado de y

3) Trazar un diagrama de residuos

4 3

Residuos (longitud cm)

2 1 0 -1 -2 Peso (g) 0 20 40 60 80 100 120

y-

Si el diagrama de residuos muestra un patrn azaroso, entonces el modelo al que se ajustan los datos es un modelo lineal

Si el modelo fuera algo as, entonces


0,7

Absorbancia 600 nM

0,6 0,5 0,4 0,3 0,2 0,1 0 0 50 100 150 200 250 300 350 Tiempo (minutos)

1) Trazar las variables x y y en un diagrama de dispersin y ajustar una recta a los datos
0,7 0,6 y = 0,0017x - 0,0882 R2 = 0,7747

Absorbancia 600 nM

0,5 0,4 0,3 0,2 0,1 0 -0,1 0 -0,2 Tiempo (minutos) 50 100 150 200 250 300 350

2) Determinar los residuos


tiempo (minutos) absorbancia 0,0017x - 0,0882 Residuos 0 0,021 -0,0882 -0,1092 30 0,022 -0,0372 -0,0592 60 0,025 0,0138 -0,0112 90 0,034 0,0648 0,0308 120 0,051 0,1158 0,0648 150 0,078 0,1668 0,0888 180 0,118 0,2178 0,0998 210 0,179 0,2688 0,0898 240 0,273 0,3198 0,0468 270 0,42 0,3708 -0,0492 300 0,598 0,4218 -0,1762

3) Trazar un diagrama de residuos


0,15

Residuos (absorbancia 600 nM)

0,1 0,05 0 -0,05 0 -0,1 -0,15 -0,2 tiempo (minutos) 50 100 150 200 250 300 350

Si el diagrama de residuos muestra un patrn distinto a un patrn azaroso, entonces el modelo al que se ajustan los datos NO es un modelo lineal

y-

En este caso, por la naturaleza de la variable (absorbancia durante la fase exponencial del crecimiento de bacterias), sabemos que el mejor modelo es un modelo exponencial

0,7

Absorbancia 600 nM

0,6 0,5 0,4 0,3 0,2 0,1 0 0 50 100 150

y = 0,0143e0,0121x R2 = 0,9792

200

250

300

350

Tiempo (minutos)

PUNTOS ANORMALES (OUTLIERS) E INFLUYENTES


40 35 30 y = 3,2582x - 1,7 R2 = 0,9662

25 20 15 10 5 0 0 5 peso (g) 10 15

Esta es una grfica comn, en la que todos los datos estn cerca de la recta ajustada y sus valores de x y y estn relacionados fuertemente (r=0.9662)

Punto influyente Punto anormal (outlier)


y = 3,0084x - 0,4102 R2 = 0,9936 100 90 80 70 60 50 40 30 20 10 0 0 10 20 peso (g) 30 40
35 30 25 y = 3,0438x + 0,4154 R2 = 0,7645

talla (cm)

talla (cm)

talla (cm)

20 15 10 5 0 0 5 peso (g) 10 15

Un punto influyente es un dato que est alejado del resto de los dems datos, pero que influye fuertemente sobre la pendiente y sobre la r2 del modelo, haciendo por lo general que esta ltima sea mas grande

Un punto anormal (outlier) es un dato que difiere del patrn del resto de los datos y que tiene un residual muy grande. Limita el ajuste de la recta a los datos y en consecuencia, en su presencia, la r2 disminuye.

Sobre los outliers

Mucha gente lo que hace es sacar esos datos outliers para que su recta tenga un mejor ajuste y la r2 sea mas alta. Cuando esa eliminacin de outliers se hace sin algn argumento previo, slo con el fin de que la recta se vea mas bonita o que el r2 sea mas alto, est mal! Eso es cuchareo y es hacer trampa. Slo si tenemos argumentos vlidos para sacar esos datos, los sacaremos. Como por ejemplo, que sepamos que el sujeto estaba enfermo o que la muestra fue medida mal. En otras palabras, si es que sabemos que hubo algn error experimental o que hay criterios de exclusin (e.g. problemas hormonales) o de eliminacin (enfermedad, contaminacin de cultivo) que hagan VLIDO que saquemos esos datos, los sacamos. Sino no sacamos nada pues es hacer trampa. Si contamos con recursos y tiempo, lo recomendable sera hacer mas mediciones. De esa manera tendramos mas observaciones y puede ser que el dato anormal deje de ser anormal pues ya tendramos muchos mas datos y el ajuste de la recta sera distinto.
y = 3,4341x + 0,4263 R2 = 0,8865 40 35 30

talla (cm)

25 20 15 10 5 0 0 5 peso (g) 10 15

Das könnte Ihnen auch gefallen