Beruflich Dokumente
Kultur Dokumente
Diferenciar
grupos
de
una
poblacin
de
datos
usando
diseos
Contenido
Unidad 3.Introduccin al diseo Experimental..........................................................1
3.1 Experimentacin, conceptos bsicos...............................................................1
3.2 Modelos ANDEVA............................................................................................3
3.3 Andeva uni factorial, anova one way, diseo DCA.........................................8
3.4 ANDEVA para un Diseo BCA.......................................................................17
3.5 Diseo de Cuadro Latino...............................................................................26
3.6 Diseo en Cuadro Greco Latino....................................................................32
3.7 Anlisis de la varianza de dos factores con interaccin................................32
Pgina 1
Pgina 2
Pgina 3
construir
modelos
estadsticos
para
el
anlisis
de
los
datos
es
S 2trat
S 2error
Pgina 4
Pgina 5
x ij= x i i j
. La
ij
y ms o menos
Pgina 6
incorrectas. La falta de aditividad puede ocurrir por un mal diseo del experimento,
por ejemplo si se prueban diferentes dosis de fertilizante, pero cada dosis se
prueba en una especie de planta diferente, puede resultar una interaccin entre
dosis de fertilizante y especie de planta que rompa el modelo aditivo.
Qu hacer cuando el modelo no funciona?
La violacin o falta de apego a cualquiera de estas suposiciones indica que los
resultados podran no tener validez. Dependiendo del tipo de problema, puede
haber solucin o no al objetivo buscado en el experimento. El dilema ms fuerte
con el que ha de luchar el experimentador es el de la falta de homogeneidad de
varianzas, ya que si esto ocurre, no podemos saber si las diferencias entre los
tratamientos se deben a promedios diferentes o varianzas diferentes.
La falta de normalidad no es tan importante, pues la prueba ANDEVA es robusta a
este problema y, en casos extremos, se puede optar por el uso de
transformaciones. En general para los casos en que los supuestos de normalidad,
homogeneidad, independencia de medias-varianzas o aditividad no se cumplen,
puedo usar transformaciones de datos, las ms usadas son:
Logaritmo Log (x), til cuando los datos crecen en sentido exponencial o
cuando las desviaciones estndares de las muestra sean aproximadamente
proporcionales a los promedios o hay evidencia de efectos principales
multiplicativos de los tratamientos en vez de aditividad.
La transformacin
x+0.5
La transformacin
Arcoseno x /100
Pgina 7
tiene
Pgina 8
= Promedio General
x Ti x
i menos la media general. Estos efectos puede tener valor positivo o negativo
y el modelo supone que hay variacin entre los tratamientos, por los tanto se
puede calcular su variancia,
ij
S 2 tratamientos
tratamiento i. El valor del error puede ser negativo o positivo. Se cumple que la
suma y promedios de los errores son iguales a 0. Sin embargo es posible
calcular la variancia,
S 2
Pgina 9
HA: no todos los son iguales, al menos el menor y mayor promedios son
diferentes. Esto supone que la relacin
S 2 / S 2
es un valor relativamente
Modelo de ANDEVA
Causa de
Cuadrado
Variacin
Libertad
Medio, CM
SC
GL
Tratamientos
t 1
(n -1)
SC
( ) ( )
xi
1
r
Error
total
xij
- SCtratamientos
(t 1)
S2
SC Tratamientos
GL Tratamientos
Pgina 10
SC Error
GL error
FCalculado
S 2tratamientos
s 2error
Total
n 1
( x ij )
2
( )
1
x ij
R 2=
SC Modelo
SCTotal . En el caso de un DCA
Pgina 11
clculo es:
CV =
CM Error (100 )
X
II
III
IV
tratam
1.00
1.65
1.69
0.58
4.92
0.90
1.59
1.52
0.60
4.61
1.16
2.00
1.40
0.60
5.16
0.98
1.65
1.46
0.46
4.55
4.04
6.89
6.07
2.24
19.24
1.01
1.72
1.52
0.56
Tabla de ANDEVA
Causa de
Grados de
Suma de
Cuadrado
Variacin
Libertad
Cuadrados
Medio, CM
FCalculada
S2
Tratamientos
4 1 = 3
3.28
3.28/ 3 =1.09
1.09/0.02=6
5.18
Pgina 12
Error
15- 3 =
0.20
Total
12
16 1 =
3.48
0.2/12 =0.017
P valor
0.00
15
( x ij )2
1
( )
x ij
1
= (1.002 + 0.902 + 1.162 +0.982...+ 0.462 ) ((1.00 + 0.90 + 1.16 +0.98...+ 0.46)2 /
16) = 26.61 19.242 / 16 = 26.61 23.13 = 3.48
( ) ( )
xj
1
x ij
Pgina 13
Tratamiento
Pulpa caf
Pulpa caf
Pulpa caf
Pulpa caf
Lombrihumu
s
Lombrihumu
s
Lombrihumu
s
Lombrihumu
s
Qumico
Qumico
Qumico
Qumico
Tierra
Tierra
Tierra
Tierra
ij =x ij x ( xti x )
Peso
1.00
0.90
1.16
0.98
Media
Total
1.2
1.2
1.2
1.2
Media
Tratamiento
1.01
1.01
1.01
1.01
Efecto
Tratamiento
-0.19
-0.19
-0.19
-0.19
Error
-0.01
-0.11
0.15
-0.03
Error
Absolut
o
0.01
0.11
0.15
0.03
1.65
1.2
1.72
0.52
-0.07
0.07
1.59
1.2
1.72
0.52
-0.13
0.13
2.00
1.2
1.72
0.52
0.28
0.28
1.65
1.69
1.52
1.40
1.46
0.58
0.6
0.6
0.46
1.2
1.2
1.2
1.2
1.2
1.2
1.2
1.2
1.2
1.72
1.52
1.52
1.52
1.52
0.56
0.56
0.56
0.56
0.52
0.32
0.32
0.32
0.32
-0.64
-0.64
-0.64
-0.64
-0.07
0.17
0.00
-0.12
-0.06
0.02
0.04
0.04
-0.1
0.07
0.17
0.00
0.12
0.06
0.02
0.04
0.04
0.1
Pgina 14
0.28
0.16
0.04
-0.08
-0.20
-0.20
-0.08
0.04
Cuantiles de una Normal
0.16
0.28
n
16
Media D.E. W*
0.00 0.12 0.89
p (una cola)
0.10
La prueba de normalidad de Shapiro Wilks para los errores del modelo, realizado
con el programa INFOSTAT, confirma que stos se distribuyen de manera normal.
Se acepta la H0 de normalidad de los errores ya que el valor calculado p de 0.10
es mayor al valor de 0.05.
Pgina 15
F.V.
SC
gl
CM
p-valor
Abono 0.02
0.01
1.10
0.39
0.01
Error
0.06
12
Total
0.08
15
0.29
RABS_peso
0.22
0.14
0.06
-0.01
Pulpa
Lombrihumus
Qumico
Tierra
Pgina 16
R2=
3.28
=0.94
3.48
CV =
0.017
( 100 )=11
1.2
Pgina 17
E.2
206
129
106
E.3
300
128
122
E.4
282
190
115
Pgina 18
ejemplo: pendiente de suelos, vientos, riego, luz, etc. De esta manera se trata de
reducir la suma de cuadrados del error, es decir reducir la varianza del error y as
poder explicar con el modelo la variacin ocurrida en el rea experimental. El
punto dbil del modelo es que se pierden grados de libertad del error por lo tanto
sino se reduce la suma de cuadrados del error el BCA pierde precisin frente a un
DCA.
x = Promedio General
ij
Pgina 19
variacin, que en este caso son los bloques. El modelo supone que no existe
interaccin entre los bloques y que los efectos son fijos sin importar los
tratamientos, esto quiere decir que un tratamiento dado no puede ser de los
mejores promedio en un bloque y ser de los peores en otro.
Al realizar el experimento lo que se espera es que haya diferencias significativas
entre los bloques, que estos absorban error experimental. Sin embargo
esta
prueba solo es referencial ya que desde un punto de vista estricto de diseo, los
bloques no tienen repeticiones.
ANDEVA bifactorial sin interaccin es el modelo estadstico para anlisis de
un diseo B.C.A
Anlisis de Varianza
Hiptesis:
Sobre los tratamientos
Ho: 1= 2=..... = k, HA: no todas los k son iguales
Sobre los bloques
Ho: 1= 2=..... = j, HA: no todas j son iguales
Nivel de significacin:
0.05 0.01
Estadstico de Prueba:
Ftratamientos = S2tratam/S2error ; Fbloques= S2bloque/S2error
Regla de Decisin:
Si Fcalculado es mayor que la Ftabla se rechaza Ho
Pgina 20
Causa de
Grados
Variacin
de
Suma de Cuadrados
Tratamientos
( ) ( )
( ) ( )
x ij
(t 1)
total
t
(n -1) SC
xj
1
- SC
S2
SC Tratamientos
GL Tratamientos
S 2tratamientos
s 2error
x ij
b 1
xj
t 1
Error
FCalculado
Medio, CM
Libertad
Bloques
Cuadrado
SC bloques
GL bloques
tratam
- SC
bloq
S bloques
2
serror
SC Error
GL error
(b -1)
Total
n 1
( x ij )
( )
x ij
Donde:
i es cualquier tratamiento
j es cualquier bloque
t es el nmero de tratamientos
b es el nmero de bloques
n es el nmero de unidades experimentales, es igual a b x t.
Un Ejemplo
Para comparar diseos se analiza el mismo ejemplo anterior pero considerando
que las repeticiones tuvieron un diseo de bloques
Tabla de ANDEVA
Pgina 21
Causa de
Grados de
Suma de
Cuadrado
Variacin
Libertad
Cuadrados
Medio, CM
3.28
S2
1.09
Tratamientos
4 1 = 3
FCalculada
Tratamiento
Bloques
4 1 = 3
0.06
0.02
Error
15- 3 - 3= 9
0.14
0.16
Total
16 1 = 15
3.48
Bloques
1.29
( x ij )
1
70.07
( )
1
x ij
= (1.002 + 0.902 + 1.162 +0.982...+ 0.462 ) ((1.00 + 0.90 + 1.16 +0.98...+ 0.46)2 /
16)
= 26.61 19.242 / 16 = 26.61 23.13 = 3.48
t
b
1
Pgina 22
( ) ( )
b
xj
x ij
( ) ( )
xj
1
x ij
tratamientos
/ G.L tratamientos
3.28 / 3 = 1.09
Cuadrado Medio de los bloques= S.C bloques / G.L bloques
0.06 / 3 = 0.02
Cuadrado Medio del error = S.C error / G.L error
0.14 / 9 = 0.016
Ftratamientos = C.M tratamientos / C.M error
1.09 / 0.016 = 68.12 (la variancia de los tratamientos es 68.12 veces mayor que la
variancia del error)
Fbloques = C.M bloques / C.M error
0.02/ 0.016 = 1.25
Interpretacin de la prueba de hiptesis.
Luis Mara Dicovskiy Riobo, 2011
Pgina 23
Siendo Fcalculada = 68.12 > Ftabla, 3-9 GL = 0.05 3.86 y 0.01 6.99
El resultado se encuentra en Hiptesis alternativa, es decir al menos uno de los
tratamientos es diferente al resto, ahora se debe hacer una prueba de separacin
de promedios para conocer el detalle de las diferencias entre los tratamientos. Sin
embargo los bloques no son significativos, lo que significa que estos no
disminuyeron el error.
Separacin de Promedios
Estas pruebas se realizan solamente cuando el resultado del ANDEVA refleja que
estamos en HA, es decir al menos los promedios extremos son diferentes. Las
pruebas que veremos son: Diferencias significativas mnimas, Prueba de rangos
mltiples de Duncan y la Prueba de rangos mltiples de Tukey.
Diferencia Significativa Mnima
Solo se debe usar para comparar promedios adyacentes, o contra un testigo
estndar, donde no se involucren en la comparacin ms de 2 promedios. Esta
prueba suele ser poco usada, pero sirve como insumo para realizar la prueba de
Duncan que es ms popular.
DSM0.05 = t0.05
DSM0.05 =
2.262
2(CM error )
r
2(0.016)
=0.20 gr
4
El valor t de tabla se busca con los grados de libertad del error, en este caso es
de 9 y para un alfa del 5 %. El valor DSM de 0.20 gr se contrasta con las
Luis Mara Dicovskiy Riobo, 2011
Pgina 24
Tratamientos
en gr
Lombrihumus
1.72
Qumico
1.52
Pulpa caf
1.01
Conclusiones: el lombrihumus, el
Diferencia con
Diferencias
el testigo Tierra
mayores de
de 0.56 gr
0.20 gr
1.16
Si
0.96
Si
0.45
Si
fertilizante qumico y la pulpa de caf son
Pgina 25
CM error
r
DSM Tukey = q , gl error, t *
Donde q es un valor tabulado, ver tabla en Daniel (2006), donde se considera: el
valor alfa de 0.05,
0.016
=0.28 gr
4
Tabla de Diferencias
Tratamientos
Lombrihumus
Qumico
Pulpa caf
Tierra
Lombri
humus
-
Qumico
Pulpa caf
Tierra
0.20 NS
-
0.71**
0.52**
-
1.16**
0.96**
0.45**
-
Pgina 26
Grupo
Animales T1
T2
/Tiempo
Grupo 1
A
B
Grupo 2
C
A
Grupo 3
B
C
Donde A-B-C son los diferentes tipos de alimentos.
T3
C
B
A
En este caso, cada alimento se aplica una sola vez por cada grupo de animales
junto con cada tiempo, y si existiesen efectos sistemticos debido a diferencias
entre los animales o entre los tiempos, dichos efectos estaran presentes de igual
manera en cada tratamiento, esto es, en cada tipo de alimento.
En este modelo se pueden observar que las diagonales repiten el mismo grupo,
ver el caso de la diagonal A-A-A, B-B y C-C. Estas diagonales no son problema en
esta caso ya que las columnas son el Factor tiempo, y el tiempo no se perturba
diagonalmente, sin embargo si el diseo fuera con filas y columnas en el espacio,
por ejemplo filas E-O y columnas NS, las diagonales no son deseables ya que
Pgina 27
pueden ser una fuente de error. En este caso se recomienda sortear filas y
columnas de forma independiente.
Un arreglo experimental como el que se describi se denomina cuadrado latino
3X3. Un cuadrado latino n x n es un arreglo cuadrado, los tratamientos aparecen
solo una vez en cada fila y en cada columna.
A
B
C
D
Modelo
Lineal
A
B
C
D
E
B
C
D
A
B
A
D
E
C
C
D
A
B
C
E
A
B
D
D
E
B
C
D
C
E
A
B
E
D
B
C
A
Estadstico
x ij= x i c j f k ij
x ij
el tratamiento i.
x = Promedio General
i
cj
= Efecto de la columna j
fj
= efecto de la fila k
ij
usando el tratamiento i.
Luis Mara Dicovskiy Riobo, 2011
Pgina 28
Anlisis de Varianza
Hiptesis:
Sobre los tratamientos
Ho: 1= 2=..... = i
Suma de
Grados de
Cuadrado
Variacin
Cuadrados
Libertad
Medio, CM
FCalculado
S2
S2t
Tratamiento
SCT
t-1
St/Serror
2
Filas
SCF
c-1
Sf
Sf/S2error
2
Columnas
SCC
f-1
Sc
Sc/S2error
Error
SCTot (SCT+SCF+SCC)
Difer.
S2error
Total
SCTot
n-1
Las sumas de cuadrados de las filas, columnas y tratamientos se resuelven con
procedimientos similares, como si fueran tres anova one way.
El ejemplo: Se quiere estudiar el rendimiento acadmicos de alumnos de la
misma carrera Ingeniera en Sistemas en 4 grupos: A, B, C, D,
en cuatro
Pgina 29
Grupo
Momento
Nota
Asignatura
Grupo
Momento
Nota
C
D
A
B
D
A
B
C
1
2
3
4
1
2
3
4
82
81
83
77
70
65
67
61
Estadstica
Estadstica
Estadstica
Estadstica
B de D
B de D
B de D
B de D
A
B
C
D
B
C
D
A
1
2
3
4
1
2
3
4
75
70
73
67
78
76
78
71
Economa
Economa
Economa
Economa
Fsica
Fsica
Fsica
Fsica
Suma de Cuadrados
2
1174
SC total=82 +81 ++71
=623.75
16
2
SC Asignaturas =
=490.75
4
16
2
SC Grupo =
=2.75
4
16
SC Momento=
=124.25
4
16
Pgina 30
Error
Total
6.00 6
623.75 15
1.00
de Levene.
Hacer grficos de barras
Ovejas
A
B
C
D
B
A
D
C
Tiempo
1
1
1
1
2
2
2
2
Pgina 31
CMS
424.6
427.2
567
774.7
523.3
519.43
444.27
772.56
0
10
20
30
0
10
20
30
D
C
B
A
C
D
A
B
3
3
3
3
4
4
4
4
559
699.1
702.61
734.6
586.2
432
656.78
574
Levene.
Grficos de barras con intervalos de confianza.
neutralizar las diagonales del cuadro latino. Este diseo es poco usado y se
justifica cuando el
extremadamente heterogneos.
Ejemplo de un diseo Greco Latino con letras latinas diferenciando los factores
columnas y filas y letras griegas como tercer factor que neutraliza las diagonales.
A
B
C
D
C
D
C
Pgina 32
D
A
A
B
D
E
B
C
x = Promedio General
Pgina 33
j
ij
ij
Anlisis de Varianza
Hiptesis de los Factores A y B:
Ho: 1A= 2A=..... = iA ; HA: no todas los iA son iguales para el Factor A
Ho: 1B= 2B=..... = jB ; HA: no todas jB son iguales para el Factor B
Hiptesis de Interaccin
Ho: El Factor A no interacta con el Factor B
HA: El Factor A interacta con el Factor B
Nivel de significacin:
0.05 0.01
Estadstico de Prueba:
F1= S2A /S2error; F2= S2B/S2error; F3= S2AB/S2error
Regla de Decisin:
Si Fcalculado es mayor que la Ftabla se rechaza Ho
ANDEVA de un Diseo Bifactorial con interaccin
Causa de
Variacin
Libertad
Cuadrado
FCalculado
Medio, CM
S2
Total
Tratamientos
Totales
Factor A
Factor B
Factor AxB
Error
Donde:
SCtotal
SCtratamientos
n-1
t-1
SCA
SCB
SCAxB
SCError
a-1
b-1
(a-1)(b-1)
n-t
Pgina 34
S2A
S2B
S2AxB
S2A /Serror
S2B S2error
S2AxB S2error
Hora
Repeticiones
Varn
Varn
Varn
Mujer
s
0-3
4-6
+6
0-3
70
78
86
64
74
75
82
70
X
73
80
88
69
69
76
85
76
Pgina 35
286
309
341
279
X
71.50
77.25
85.25
69.75
Mujer
Mujer
4-6
+6
80
80
81
90
73
84
79
82
313
336
1,864
78.25
84.00
77.67
Suma de Cuadrados
1864
SC total=70 +74 + +82
24
2
SC tratamientos =
4
24
SC Sexo =
12
24
SC Horas estudio=
8
24
CM
159.07
2.67
392.04
4.29
12.11
Pgina 36
F
13.13
0.22
32.37
0.35
p-valor
<0.0001
0.6445
<0.0001
0.7064
Estos resultados dicen que no hay diferencias de notas segn sean los
estudiantes varones o mujeres (significacin de 0.64 mayor al 0.05), pero por otro
lado si se observa diferencias estadsticas entre las horas de estudio (significacin
de 0.0001 menor al 0.05), con esta ltima variable y este resultado se debe hacer
una separacin de promedios entre las tres categoras de horas de estudio.
Grfico de Interacciones
Este grfico nos permite observar si hay interaccin con los dos factores, sexo y
horas de estudio. Esta interaccin ocurre si las rayas generadas por las variables
se cruzan, lo que sera una confirmacin de la existencia de interaccin entre sexo
y horas de estudio. Como esto no se observa en el grfico que se muestra a
continuacin, se puede concluir que coinciden los resultados del ANDEVA y del
grfico.
Pgina 37
N
o
ta
s
8
5
8
0
7
5
7
00
-3
h
o
ra
sE
4
6
h
o
re
a
sm
s
tu
d
i-o
S
a
n
l+6horas
Pgina 38