Anova Uady, ANÁLISIS DE VARIANZA

ESPECIALIZACIN EN ESTADSTICA
Diseos Experimentales
UNIDAD 2
DISEOS CON UN FACTOR Y COMPARACIONES MLTIPLES
Mrida, Yucatn
2016
Especializacin en Estadstica
Unidad 2. Diseos con un factor y comparaciones

mltiples
Objetivo. El alumno ser capaz de identificar situaciones experimentales en las que se apliquen
diseos con un factor, de llevar a cabo el anlisis estadstico de datos de estos diseos
y de seleccionar el mtodo de comparacin mltiple ms adecuado para la situacin
experimental en cuestin.
Contenido
2.1. Diseo completamente aleatorizado. Modelo, anlisis estadstico (estimacin,
anlisis de varianza, intervalos de confianza y pruebas de hiptesis).
2.2. Caso desbalanceado.
2.3. Verificacin de supuestos del modelo: normalidad, homocedasticidad,
independencia, datos atpicos.
2.4. Comparaciones mltiples.
2.5. Potencia de la prueba F y determinacin del tamao de la muestra.
2.6. Transformacin de datos.
2.7. Prueba de Kruskal-Wallis.
2.8. Comparaciones mltiples no paramtricas.
2.9. Modelo de efectos aleatorios.
2.1. Diseo completamente aleatorizado. Modelo, anlisis estadstico

(estimacin, anlisis de varianza, intervalos de confianza y pruebas de
hiptesis).
Introduccin
En esta unidad se tratar el diseo experimental de una va (diseo completamente aleatorio), es

decir, un mtodo estadstico para comparar tres o ms tratamientos (poblaciones o condiciones)
cuando las muestras son independientes. Se enfatizar sobre la tcnica de anlisis de varianza
(ANDEVA o ANOVA) para el anlisis de los datos y de alternativas metodolgicas, como la prueba
no paramtrica de Kruskal-Wallis, cuando no se cumple el supuesto de normalidad.
Para una mejor comprensin de dichos mtodos estadsticos, a continuacin se presentan los
resultados fundamentales involucrados en el diseo y anlisis de datos por medio del ANDEVA
en situaciones experimentales en las que se apliquen diseos con un factor
U2. Diseos con un factor y comparaciones mltiples Pgina 2

ANLISIS DE VARIANZA DE UNA VA

Comparacin de ms de dos medias: anlisis de varianza para el diseo completamente
aleatorio de un factor con efectos fijos
Ejemplo 1
Un gerente de mercadotecnia de una cadena de una lnea de productos de cmputo, le interesa
saber si hay diferencias en las ventas de sus productos en tres ciudades. Elige al azar 15 tiendas
similares (5 por ciudad) entre las que integran la cadena. Las variables bajo control directo de
la compaa, como precio y publicidad, se mantuvieron al mismo nivel en los 30 das del
experimento y se registraron las ventas (en miles) para dicho periodo. Utilice un nivel de
significancia de 0.05.
Ventas (en miles)
Ciudad 1 Ciudad 2 Ciudad 3
10 16 15
14 18 12
18 22 8
15 18 10
12 15 13
Ejemplo 2. [Ejemplo 12-1.1 de Hines et al. (2005)]

Un fabricante de papel que se emplea para manufacturar bolsas para comestibles, est
interesado en mejorar la resistencia a la tensin del producto. Los ingenieros de manufactura
consideran que la resistencia a la tensin es una funcin de la concentracin de madera dura en
la pulpa, y que el intervalo de concentraciones de madera dura de inters prctico est entre 5 y
20%. Uno de los ingenieros responsables del estudio decide investigar cuatro niveles de la
concentracin de madera dura: 5, 10, 15 y 20%. Decide tambin elaborar seis especmenes de
prueba por cada nivel de concentracin, utilizando una planta piloto. Los 24 especmenes se
analizan en un probador de tensin de laboratorio, en orden aleatorio. Los datos de este
experimento se muestran en la siguiente tabla.
Resistencia del papel a la tensin (lpc: libra-fuerza por pulgada cuadrada, psi)
5% 10% 15% 20%
7 12 14 19
8 17 18 25
15 13 19 22
11 18 17 23
9 19 16 18
10 15 18 20
Importancia de la aleatorizacin en este experimento

Al hacer aleatorio el orden de las 24 series, el efecto de cualquier variable perjudicial que pudiera
afectar la resistencia a la tensin observada, ms o menos se equilibra. Por ejemplo, considere
que hay un efecto de calentamiento en el probador de tensin; esto es, cuanto ms tiempo est
en funcionamiento mayor ser la resistencia a la tensin observada. Si las 24 series se realizan
en orden, de acuerdo con concentraciones de madera dura ms altas cada vez (es decir, todos
los especmenes de 5% de concentracin se prueban primero, seguido por los seis especmenes

de 10%, etc.), cualesquiera diferencias observadas en la concentracin de madera dura podran

deberse al efecto de calentamiento.
Repaso de la teora bsica
Se estudiar el anlisis de varianza, tcnica que nos permite hacer inferencias simultneas sobre
parmetros de tres o ms poblaciones. Especficamente en esta seccin, se tratar el anlisis de
varianza de observacin nica para un diseo completamente aleatorizado. La tcnica se
denomina anlisis de varianza de una va, en virtud de que cada respuesta u observacin se
categoriza de acuerdo con un solo criterio de clasificacin: el tratamiento al cual pertenece.
El anlisis de varianza (ANDEVA o ANOVA) es un procedimiento aritmtico mediante el cual la

variacin total de un conjunto de datos se divide en dos o ms componentes, cada uno de los
cuales se puede atribuir a una fuente identificable.
El procedimiento trata de analizar la variacin en un conjunto de respuestas y asignar partes de
esta variacin a cada variable en un conjunto de variables independientes. El objetivo del ANOVA
es identificar variables independientes importantes y determinar la forma en que afectan la
respuesta.
Seleccin completamente aleatorizada

Si la aplicacin de los tratamientos se hace escogiendo aleatoriamente las unidades
experimentales que los van a recibir, procurando nicamente que se alcance el nmero de
repeticiones necesario para cada tratamiento (n1, n2,...,na; con a=nmero de tratamientos),
entonces estamos ante una seleccin completamente aleatorizada de los tratamientos. Tambin,
a la seleccin de muestras aleatorias independientes de a poblaciones se le denomina diseo
completamente aleatorizado.
La aleatorizacin puede hacerse con:

a) Una tabla de nmeros aleatorios
b) Una calculadora
c) Software, por ejemplo Excel
d) Urna
Notas:
1. Las unidades experimentales a las cuales se aplican los tratamientos deben ser tan
homogneas como sea posible (en lo nico que debe diferir las unidades experimentales es
en los tratamientos que recibirn para compararse). Cualesquiera fuentes de variabilidad
extraas tendern a inflar el error experimental, haciendo ms difcil detectar diferencias entre
los efectos de tratamientos.
2. Para reducir la influencia de esas fuentes de variabilidad extraas se sugiere realizar

observaciones complementarias de otras variables, a estas variables se les llama
concomitantes o covariables. Con variables concomitantes, la precisin del diseo
completamente aleatorizado aumenta. En esta situacin se empleara la tcnica estadstica
denominada anlisis de covarianza.
Se aplicar la prueba paramtrica del anlisis de varianza de una va basado en un diseo

completamente aleatorizado, para comparar las ventas promedio entre las ciudades, o bien, para
determinar el efecto de Ciudad en las ventas.

A continuacin se establecer la notacin y el modelo lineal.
yij = variable de respuesta

= jsima observacin bajo el tratamiento i
= venta de la j-sima tienda en la ciudad i-sima
donde i=1,2,3 y j=1,2,3,4,5
Datos tpicos para un experimento unifactorial.
Tratamientos (niveles del factor)
1 2 3 a
y11 y21 y31 ya1
y12 y22 y32 ya2
y13 y23 y33 ya3
. . . .
. . . .
. . . .
y1n y2n y3n yan
Totales y1. y2. y3. ... ya.
Prom y 1. y 2. y 3. y a.
El modelo estadstico lineal es:
i=1, 2,,a
Yij=+i+ij
j=1, 2,,n
La respuesta observada en cada uno de los a tratamientos es una variable aleatoria.
En donde yij es la ij-sima observacin (valor de la j-sima rplica bajo el tratamiento i), es un
parmetro comn a todos los tratamientos denominado media general o global, i es un parmetro
asociado con el i-simo tratamiento llamado efecto del i-simo tratamiento y ij es la componente
aleatoria del error.
El modelo dado se denomina modelo del anlisis de varianza de una va porque slo se investiga
un factor. Adems requerimos que el experimento se realice en orden aleatorio, de manera que
las unidades experimentales sean tan uniformes como sea posible. Esto es como ya se seal,
un diseo completamente aleatorizado.
El objetivo ser probar hiptesis apropiadas con respecto a los efectos de tratamiento y hacer
una estimacin de ellos.
HIPTESIS (modelo de efectos fijos) (*)

H0: 1=2==a vs. H1: i j para al menos un par (i, j) con ij

Equivalente a:
H0: i=0 i vs. H1: i 0 para al menos una i, i=1,2,...,a.
La media del i-simo tratamiento se descompone en dos componentes: i=+i, ya que

E(Yij)=+i= i
Para probar las hiptesis, se supone que los errores del modelo son variables aleatorias
independientes con distribucin normal, con media cero y varianza 2. Se supone que 2 es
constante para todos los niveles del factor (tratamientos). Es decir,
Supuestos (modelo de efectos fijos)

ij ~ NI(0, 2)
El modelo estadstico lineal describe dos situaciones con respecto al efecto de los tratamientos:
1) Los a tratamientos son seleccionados especficamente por el experimentador. Este

modelo se denomina modelo de efectos fijos. En esta situacin, desearamos probar
hiptesis acerca de las medias de los tratamientos y las conclusiones no pueden ser
extendidas a tratamientos similares que no fueron considerados explcitamente. Las
hiptesis son como en (*).
2) Los a tratamientos son una muestra aleatoria de una poblacin mayor de tratamientos. Se
conoce como modelo de efectos aleatorios o de componentes de varianza. En esta
situacin, nos gustara ser capaces de extender las conclusiones (basadas en la muestra
de tratamientos), a todos los tratamientos de la poblacin, ya sea que hayan sido
explcitamente considerado en el anlisis o no. Aqu las i son variables aleatorias y el
conocimiento de cada una en particular no tiene utilidad. En lugar de esto, probamos
hiptesis acerca de la variabilidad de las i y tratamos de estimar esta variabilidad. El
modelo estadstico lineal es:
Yij=+i+ij con i=1, 2,, a; j=1, 2,, n
En donde i y ij son variables aleatorias. Las varianzas y se conocen como componentes

2 2
de varianza.
Supuestos (modelo de efectos aleatorios)

ij ~ NI(0, ), i ~ NI(0, ) y i y ij son independientes.
2 2
Hiptesis (modelo de efectos aleatorios)

H0: 0 H1: 0
2 2
vs.
Si =0, todos los tratamientos son idnticos; por otra parte, si >0, existe variabilidad entre
2 2
los tratamientos.
Nota. En Montgomery (2004), el lector puede consultar en detalle el ANOVA cuando el modelo
es de efectos aleatorios o de componentes de varianza.

Estimacin de los parmetros del modelo (modelo de efectos fijos)
Para determinar los estimadores de mnimos cuadrados de y i se forma la suma de cuadrados

de los errores
2
L ij2 Yij i
a n
i 1 j 1 i j
Entonces
L L
0; 0, i=1, 2,,a
i
De aqu se obtiene el siguiente sistema, llamado sistema de ecuaciones normales de mnimos

cuadrados:
N n1 n 2 ... n a Y..
n n1 Y1.
. a+1 ecuaciones
.
n n a Ya.
Nota. Si se suman las ltimas a ecuaciones normales se obtiene la primera de ellas, por lo tanto
las a+1 ecuaciones normales no son independientes, y no hay solucin nica para y i.
a
Se aplica la restriccin
i 1
i 0 (i se define como desviaciones de la media general i=i-) y
se obtienen
Y..
i Yi. Y.. i=1, 2,, a
Estos resultados tienen gran informacin intuitiva:
1) La media global se estima con el promedio total de las observaciones.

2) Cualquier efecto de tratamiento es la diferencia entre el promedio del tratamiento y el
promedio total.
Estas estimaciones no son nicas y depende de la restriccin que se elige. A pesar de ser
desafortunada esta situacin, no lo es del todo pues ciertas funciones de los parmetros del
modelo se estiman de manera nica, sin tomar en cuenta la restriccin. Por ejemplo i-j se
estimara como
i j ( Yi. Y.. ) ( Y j. Y.. ) Yi. Y j.
La media del i-simo tratamiento i=+i, [E(Yij)=i=+i], se estima mediante:


i i Y.. Yi. Y..
i Yi.
Nota. Las funciones que se estiman de manera nica, independiente de la restriccin usada, se
denominan funciones estimables.
ESTADSTICA DE PRUEBA
En esta seccin se tratar la teora necesaria para comprender la estadstica de prueba utilizada
en el ANOVA de una va.
Suma de cuadrados
El nombre de anlisis de varianza se deriva del hecho de dividir la variabilidad total en sus partes
componentes. La suma de cuadrados total corregida es:

a n 2
SCTotal Yij Y..

i 1 j 1
se usa como una medida de la variabilidad global o total de los datos, ya que si dividiramos por
el nmero de gl, N-1=an-1, tendramos la varianza muestral de las Ys).
Mediante lgebra la SCTotal puede dividirse en dos sumas de cuadrados:

a n 2 a n 2 a n 2
SCTotal Yij Y.. n Yi. Y.. Yij Yi. (**)

i 1 j 1 i 1 j 1 i 1 j 1
De i Yi. Y.. para i=1,,a y de Yij=+i+ij se tiene que ij=Yij--i y

ij Yij i Yij Y.. Y i. Y.. ij Yij Y i.
As,
SCTotal= n
i j
2
i
i j
2
ij
entonces la primera diferencia en (**) (entre medias de tratamiento y la media global) es una
medida de las diferencias entre los tratamientos, mientras que la segunda (entre las
observaciones dentro de cada tratamiento con su media de tratamiento) puede deberse
solamente al error aleatorio. Por lo tanto
SCTotal=SCTrat + SCE
donde
a
Yi.2 Y..2 Y..2
a n
SCTrat , SCTotal Y 2
ij y SCE=SCTotal - SCTrat
i 1 n N i 1 j 1 N
SCTrat se llama la suma de cuadrados debida a los tratamientos (o entre tratamientos), y SC E se

llama la suma de cuadrados debida al error (o dentro de los tratamientos).
SCTrat SCE
Las cantidades CMTrat y CME se llaman cuadrados medios.
a 1 Na
Se puede demostrar que los valores esperados de los cuadrados medios son:

a
n i2
E(CMTrat ) 2 i1
a 1
E(CME ) 2
Estas dos expresiones se obtienen directamente aplicando propiedades del valor esperado de
una variable aleatoria, haciendo la suposicin del modelo de efectos fijos Yij=+i+ij donde
E(ij)=0 y Var(ij)= .
2
Nota. Las observaciones Yij estn distribuidas normal independientemente con media +i y
varianza [Yij ~NI(+i , 2)]
2
As, el CME estima (estimador insesgado), y si no hay diferencias entre las medias de los
2
a
n i2
i 1
tratamientos (lo cual implica que i=0 i ), la expresin sera cero y por tanto, el CMTrat
a 1
tambin estimar a . Sin embargo, si las medias de los tratamientos difieren, el valor esperado
2
del CMTrat es mayor que . Entonces para probar la hiptesis de no diferencia en las medias de
2
los tratamientos (H0: 1=2==a o equivalente H0: i=0) se deben comparar el CMTrat y CME.
Entonces si H0 es verdadera, la razn:
CMTrat
F ~ Fa-1, N-a
CME
es el estadstico de prueba para la hiptesis de igualdad de medias de los tratamientos. En

pginas siguientes se incluye su deduccin.
Si H0 es falsa, la E(CMTrat)> . Por tanto, si H1 es verdadera, el valor esperado del numerador

2
del estadstico de prueba es mayor que el valor esperado del denominador, y rechazaramos H 0
si el valor del estadstico de prueba es demasiado grande. Esto implica una regin crtica
unilateral de cola superior:
Rechazamos H0 si F0 > F; a-1, N-a (F0 denota el valor de la estadstica de prueba)
El procedimiento de prueba se resume en la siguiente tabla.
Tabla de anlisis de varianza

Fuente de SC g.l. CM F Valor p
Variacin
Tratamientos SCTrat a-1 CMTrat CMTrat/CME
(Entre tratamientos)
Error SCE N-a CME

(Dentro de tratamiento)
Total SCTotal N-1

A continuacin se deduce la distribucin del estadstico de prueba. Para ello se utilizarn

los siguientes teoremas:
W1
i) Sean W1, W2 v.a.i tales que W1~ y W2~ entonces X 2 2 m ~F(m, n), es decir, X tiene una
m n
W2
n
distribucin F con (m, n) g.l.; m g.l. en el numerador y n g.l. en el denominador.
ii) Si Y1 , Y2 ,..., Yn es una m.a. de una distribucin Normal con media y varianza 2 [Yi~NI(,2)]
Y Y
n
2
n 1S 2 i n
entonces
2
i 1
2
~ 2
n1 . Adems, Y y ( Y Y) n 1S
i 1
i
2 2
o bien, Y y S2
son v.a.i.
Nota. Las tres sumas de cuadrados no son independientes, puesto que SCTrat y SCE suman SCT.
iii) Teorema de Cochran (til para establecer la independencia de la SCTrat y SCE).

v
Sean Zi~NI(0,1) para i=1,2,,v y Z
i 1
2
i Q1 Q2 ... Qs donde sv y Qi tiene vi gl
(i=1,2,,s). Entonces Q1, Q2,,Qs son variables aleatorias ji-cuadrada independientes con
v1,v2,,vs gl, respectivamente, si y slo si v=v1+v2++vs.
As, de SCTotal=SCE + SCTrat
Y Y Y Y n Y
t ni
2 2 2
ij .. ij i. i i. Y.. , con a=t tratamientos y ni rplicas del
i 1 j 1 i j i
tratamiento i. Las distribuciones de las SC bajo H0 son:
SCTotal SCE SCTrat

2
2 2
2 ni 1 2 ni t 2t 1

Al emplear el teorema de Cochran, note que los gl para SCTrat y SCE suman los gl de SCT, por lo
SCE SC Trat
que y son v.a.i con distribucin ji-cuadrada.
2
2
SCtrat
2 SCtrat SCtrat
( t 1)
2
F t 1 t 1
CMtrat
~ Ft 1, n t
SCE SCE SCE CME i
2
ni t ni t
2
ni t

2.2. Caso desbalanceado
Si el nmero de observaciones tomadas dentro de cada tratamiento es diferente, decimos que el

diseo est desbalanceado.
Las modificaciones en las frmulas son:

a
Sean ni el nmero de observaciones tomadas bajo el tratamiento i (i=1,2,,a) y sea N= n ,
i 1
i
entonces:
a ni 2
Y..
Yij
2
SCTotal=
i 1 j 1 N
a 2 2
Yi. Y
SCTrat=
i 1 ni
..
N
No se requiere ningn otro cambio en el anlisis de varianza.
Nota. Existen dos ventajas para elegir un diseo balanceado. Primero, si las muestras son del
mismo tamao, el estadstico de prueba es relativamente insensible a pequeas desviaciones de
la suposicin de la igualdad de varianzas en los a tratamientos. Esto no sucede en el caso de
tamaos muestrales distintos. Segundo, la potencia de la prueba se maximiza si las muestras
son de igual tamao.
Intervalos de confianza para i, la media del i-simo tratamiento (i=+i) y para la

diferencias de medias de tratamiento.
El estimador puntual de i es
i i Yi. , si se supone que los errores estn distribuidos
normalmente, cada Yi. ~NI(i, 2/n). Si 2 fuera conocida se usara la distribucin normal para
definir el I.C. Usando el CME como estimacin de 2, el I.C. se debe basar en la distribucin t de
Student. Por tanto, un I.C. del 100(1-)% para la media del i-simo tratamiento i es:
CME
Y i. t
, N a ni
2
CME
Nota. S Yi. es el error estndar (EE) de cualquier media de tratamiento.
n
El I.C. del 100(1-)% para la diferencia de las medias de dos tratamientos (i - j) est dado por:
1 1
Y i. Y j. t
, N a
CME
n n
2 i j
Una vez repasado la teora bsica sobre el ANOVA de un factor de efectos fijos para un diseo
completamente aleatorio, til para comparar tres o ms tratamientos cuando las muestras son
independientes, retomaremos el ejemplo 1 planteado al inicio de la seccin.

Ejemplo 1
Ventas (en miles)
10 16 15
14 18 12
18 22 8
15 18 10
12 15 13
Solucin (Resultados de Statgraphics)
ANOVA Simple - Ventas por Ciudad

Variable dependiente: Ventas
Factor: Ciudad
Nmero de observaciones: 15
Nmero de niveles: 3
Resumen Estadstico para Ventas

Ciudad Recuento Promedio Desviacin Estndar Coeficiente de Variacin
1 5 13.8 3.03315 21.9793%
2 5 17.8 2.68328 15.0746%
3 5 11.6 2.70185 23.2918%
Total 15 14.4 3.71868 25.8242%
Tabla ANOVA para Ventas por Ciudad

Fuente Suma de Cuadrados Gl Cuadrado Medio Razn-F Valor-P
Entre grupos 98.8 2 49.4 6.25 0.0138
Intra grupos 94.8 12 7.9
Total (Corr.) 193.6 14
Nota. Antes de interpretar la tabla del ANOVA debe verificarse si se satisfacen los supuestos del
modelo.
2.3. Verificacin de supuestos del modelo: normalidad, homocedasticidad,

independencia, datos atpicos.
Para probar las hiptesis, se supone que los errores del modelo son variables aleatorias
independientes con distribucin normal, con media cero y varianza 2. Se supone que 2 es
constante para todos los niveles del factor (tratamientos). Es decir,

ij ~ NI(0, 2)
En la prctica se estiman los errores (ij), que denotaremos con e ij .
Definicin (general para cualquier diseo)

El residuo para la observacin y ij (la j-sima observacin del tratamiento i) es: eij y ij y ij ,
donde y ij es el valor de la observacin correspondiente, y y ij es el valor de y ij predicho o
estimado por el modelo.
Por lo tanto, en el ANOVA para el diseo completamente aleatorio de un factor con efectos fijos:
eij y ij y ij y ij ( i ) y ij y ( y i y )
eij y ij y i
Supuesto de normalidad (mtodo grfico: Grfico de probabilidad normal)
Grfico de Probabilidad Normal - RESIDUOS

Datos/Variable: RESIDUOS (Residuos)
15 valores con rango desde -3.8 a 4.2
Grfico de Probabilidad Normal
99.9
n:15
99 Mediana:0.2
Sigma:2.37037
95
W:0.939387
P:0.3651
80
porcentaje
50
20
5
1
0.1
-3.8 -1.8 0.2 2.2 4.2
RESIDUOS
Supuesto de normalidad por medio de un mtodo inferencial (pruebas de bondad de ajuste

a la distribucin normal, por ejemplo, la de Shapiro-Wilk y la de Kolmogorov-Smirnov).
Ajuste de Datos No Censurados - RESIDUOS

Datos/Variable: RESIDUOS (Residuos)
15 valores con rango desde -3.8 a 4.2
Pruebas de Normalidad para RESIDUOS

Prueba Estadstico Valor-P

Estadstico W de Shapiro-Wilk 0.939387 0.365116
Pruebas de Bondad-de-Ajuste para RESIDUOS

Prueba de Kolmogorov-Smirnov
Normal
DMAS 0.130679
DMENOS 0.130635
DN 0.130679
Valor-P 0.959896
D de Kolmogorov-Smirnov Modificada
Normal
D 0.130679
Forma Modificada 0.533493
Valor-P >=0.10*
Decisin
i) Del grfico de probabilidad normal se observa que los puntos prcticamente forman
una lnea recta, o bien, estn cercanos a la recta, es decir, los errores se ajustan a
una distribucin normal.
ii) Pruebas de bondad de ajuste: Los errores se ajustan a una distribucin normal
(Shapiro-Wilks: W=0.9394, P=0.3651; Kolmogorov-Smirnov: D=0.5335, P>0.10).
Supuesto de igualdad de varianzas [mtodo grfico: residuos vs. valores ajustados

(predichos) por el modelo].
Si esta grfica no revela ningn patrn obvio entonces se tiene homogeneidad de varianzas.
La grfica siguiente es un ejemplo de que se tiene homogeneidad de varianzas: los puntos se

hallan confinados en una banda horizontal, y presenta variacin homognea dentro de la banda.
Las siguientes dos grficas son ejemplos de heterogeneidad de varianzas.

A continuacin las grficas para el ejemplo de estudio.
Grfico de Residuos para Ventas
3
residuos
-1
-3
-5
11 13 15 17 19
predichos

3
residuos
-1
-3
-5
1 2 3
Ciudad
Supuesto de igualdad de varianzas (mtodo inferencial, ejemplo: La prueba de Bartlett)
Las pruebas para diagnosticar homogeneidad de varianzas (igualdad de varianzas) son respecto
a la hiptesis:
H0 : 12 22 a2
HA : Lo anterior no es cierto al menos para una i2
Para probar la homogeneidad de varianzas poblacionales frecuentemente se sugiere la prueba

de Bartlett. Desafortunadamente la prueba de Bartlett es muy sensible a los alejamientos de la
normalidad en los datos, y una prueba significativa 2 puede, por tanto, indicar no normalidad en
lugar de heterogeneidad de varianzas. Por esta razn muchos estadsticos no recomiendan en
absoluto esta prueba cuando la normalidad de la distribucin est en duda. No obstante
presentamos a continuacin el procedimiento para hacer la comparacin de varianzas.
Hiptesis: H0 : 12 22 a2 vs. HA : Lo anterior no es cierto al menospara una i2
1. Calcule el estadstico X2 cuya distribucin de muestreo es, aproximadamente, ji cuadrado

con a1 grados de libertad, cuando las a muestras provienen de poblaciones normales
independientes.
a
r
X2 2.3026 , donde: r (N a) log10 sp2 (ni 1) log10 si2 ,
s i 1
a
1 a
1 1 2
(n 1)s
i
2
i
s 1 , sp i 1
(varianza ponderada),
3(a 1) i 1 (ni 1) (N a) Na
y s i2 es la varianza muestral del i-simo tratamiento. El valor de r es grande cuando hay
una gran diferencia entre las varianzas muestrales s i2 y es igual a cero si todas las s i2 son
iguales.
2. Debe rechazarse H0 para valores grandes de X2 ; en otras palabras, se rechaza H0 slo si:

X2 2,a 1
en donde ,a 1 es la puntuacin -porcentual superior de la distribucin ji cuadrada con a
2
1 grados de libertad.
A continuacin los resultados de la prueba de Bartlett obtenido con el Statgraphics:
Verificacin de Varianza
Prueba Valor-P
de Bartlett 1.0065 0.965632
Decisin
i) Del grfico ventas predichas contra residuos, observamos que los puntos quedan
comprendidos dentro de dos bandas horizontales, segn su tendencia. Por lo que el
supuesto de igualdad de varianzas se cumple. Es decir, los residuos de cada
tratamiento proceden de una distribucin que tiene la misma varianza 2.
ii) De la prueba inferencial para probar la igualdad de varianzas, se tiene que P>0.05, es
decir, no se rechaza la hiptesis de igualdad de varianzas (los tratamientos tienen
igual varianza).
Supuesto de independencia: grfico de tiempo (orden de corrida) contra residuos
La suposicin de independencia en los residuos puede verificarse si se grafica en el eje de las

abscisas el tiempo (orden en que se colect un dato, orden de corrida) y en el eje de las
ordenadas el residuo correspondiente. En resumen, graficar el orden en que se colect un dato
contra el residuo correspondiente. Si en este grfico se presenta una tendencia o patrn no
aleatorio claramente definido, entonces existe una correlacin entre los errores y, por lo tanto, el
supuesto de independencia no se cumple. Por lo que el supuesto se cumple, si el comportamiento
de los puntos es aleatorio dentro de una banda horizontal.
Gutirrez y De la Vara (2012) sealan que la violacin de este supuesto generalmente indica
deficiencias en la planeacin y ejecucin del experimento; asimismo, puede ser un indicador de
que no se aplic en forma correcta el principio de aleatorizacin, o de que conforme se fueron
realizando las pruebas experimentales aparecieron factores que afectaron la respuesta
observada. Por ello, en caso de tener problemas con este supuesto, las conclusiones que se
obtienen del anlisis son endebles y por ello es mejor revisar lo hecho y tratar de investigar por
qu no se cumpli con ese supuesto de independencia, a fin de reconsiderar la situacin.
A continuacin el grfico de nmero de fila contra residuos para el ejemplo de estudio.

3
residuos
-1
-3
-5
0 3 6 9 12 15
nmero de fila
Decisin
Los puntos (t, eij) aparecen en forma azarosa, sin un patrn definido, por lo que se cumple el
supuesto de independencia de los errores aleatorios.
Una vez verificado los supuestos se interpreta la tabla del ANOVA.
Decisin
Las ventas promedio de los productos de cmputo de las ciudades difieren significativamente
(F2,12=6.25, P=0.0138<0.05). O bien, la ciudad afecta significativamente las ventas de los
productos de cmputo.
Hasta aqu se tiene que los tratamientos difieren significativamente. De manera lgica surge la
pregunta qu tratamientos (ciudades) son los causantes de las diferencias?
A continuacin se presentan algunos mtodos de comparacin mltiple.
2.4. Mtodos de comparaciones mltiples
En el ANOVA (modelo de efectos fijos) el rechazo de la H0 implica que las medias de tratamiento
difieren, pero la naturaleza exacta de las diferencias no se especifica.
Hay varios procedimientos para comparar un grupo de medias de tratamientos.
I. Para preguntas de investigacin (a priori).

[Contrastes, intervalos de confianza simultneos de Bonferroni]
Un contraste es una comparacin en la que intervienen dos o ms medias (Visauta, 1997). Se

utiliza cuando se desea probar hiptesis que involucren grupos de medias antes de realizar el
anlisis de varianza. A este tipo de comparaciones se les llama contrastes. Por ejemplo, suponga
que se tienen cuatro tratamientos A, B, C, D y se intuye que el promedio de los tratamientos A y
D es el mismo que el de los tratamiento B y C, es decir, se desea probar la hiptesis
H0: (A + D)/2 = (B + C)/2

II. Para preguntas planteadas despus del anlisis de varianza (a posteriori).

Scheff
DSM
Tukey
Duncan
Dunnett (cuando se tiene un tratamiento control)
O bien, distinguiremos entre comparaciones planeadas (I) y no planeadas (II) segn el

experimentador haya o no establecido las comparaciones a efectuar, antes del experimento.
Para hacer las comparaciones planeadas de medias de tratamientos, i, se trabaja con las medias
observadas, Yi o bien, con los totales de tratamiento Yi
Contrastes
Ejemplo. Considere que el investigador, en el ejemplo de las ventas de equipos de cmputo en

tres ciudades, antes de realizar el experimento propuso probar las siguientes hiptesis:
1) H0 : 1 21 2 3 y 2) H0 : 2 3
H1 : 1 1
2 2 3 H1 : 2 3
El uso de contrastes para efectuar la comparacin planeada de las medias, se basa precisamente
en la forma en que se escriben las hiptesis nulas, especificadas antes de la obtencin de datos.
a a
Definicin. Un contraste es una combinacin lineal de la forma c
i1
i i donde c
i1
i 0.
Note que las hiptesis anteriores son contrastes:

H0 : 1 21 2 3 0 vs H1 : 1 21 2 3 0 .
H0 : 2 2 3 0 vs H0 : 2 2 3 0
Definicin. Un contraste estimado de los totales de un conjunto de a tratamientos de un diseo

a a
balanceado es la combinacin lineal: C c i y i con la restriccin
i 1
c
i1
i 0
Nota. Para diseos desbalanceados, la frmula de contraste es la misma pero la restriccin que
a
se pide a los coeficientes es: n c
i 1
i i 0 en donde n1, n2 ..., na son los nmeros de repeticiones
para los tratamientos 1,2,...,a, respectivamente.
Pruebas de hiptesis para contrastes de medias
Un contraste se prueba comparando la suma de cuadrados del contraste estimado con el

cuadrado medio del error, calculado ya en el ANDEVA de una va y de efectos fijos. El estadstico
resultante estar distribuido F con 1 y N a grados de libertad. Es decir, cada SC de un
contraste contribuye con un grado de libertad en la descomposicin de la SCT .
Definicin. La suma de cuadrados de un contraste estimado C es:

SCC
a
i 1
c i yi 2
para diseos balanceados.

ni 1 c i2
a
SCC
a
cy
i 1 i i
2
para diseos desbalanceados.

i 1nic i2
a
Estadstico de prueba
a
SCC / 1 CMC
Si H0 : c
i 1
i i 0 es verdadera entonces F
SCE /(N a) CME
~ F1, Na
Regin de rechazo (RR)

Fc F; 1,Na
Notas:
1) Bajo H0 verdadera, otro enfoque es utilizar el estadstico t de Student:

a
c i Yi
T i1
~ t Na
n CME i1 c
a 2
i
RR: t c t / 2, Na
a
2) Con contrastes estimados por medio de las medias de tratamiento, C c y
i1
i i , y bajo
H0 verdadera, el estadstico de prueba es:

cY
a
i
T i1 i
~ t Na
CM (c
a 2
E i1 i / ni )
RR: t c t / 2, Na
Un caso especial de contrastes son los llamados contrastes ortogonales.
a a
Definicin. Dos contrastes 1 c i i y 2 d i i con coeficientes c i y di son
i1 i1
ortogonales si
a
c d
i1
i i 0 diseos balanceados
a
n c d
i 1
i i i 0 diseos desbalanceados
Notas.
1. Para a tratamientos, el conjunto de a1 contrastes ortogonales particiona la SCTrat , en
a 1 componentes independientes con un solo grado de libertad.

2. De los distintos conjuntos posibles de contrastes mutuamente ortogonales, el

experimentador debera escoger aquel que sea ms interesante o ms relevante en su
estudio. La ortogonalidad mutua es deseable pero no es absolutamente esencial. Si hay
varios contrastes que sean de inters al cientfico, no debera dejar que la ortogonalidad
mutua le inhabilite su necesidad de efectuar pruebas estadsticas, siempre que estos
contrastes no hayan sido sugeridos por los datos. Los contrastes sugeridos despus de
la coleccin de datos debern ser probados por otro procedimiento de comparacin
mltiple (mtodo de Scheff, DSM y otros).
3. Los coeficientes de contraste deben ser elegidos antes de realizar el experimento, por la
tendencia del error tipo I a incrementarse.
4. Del ejemplo, 1 y 2 son contrastes ortogonales.
Ejemplo (prueba del primer contraste planteado)
Hiptesis
H0 : 1 21 2 3 0 vs : H1 : 1 21 2 3 0
Clculo del estadstico de prueba

Se estima el contraste y se calcula la suma de cuadrados del contraste:
C1 2y1 y 2 y 3 2(69) 89 58 9
SCC1
a
cy
i1 i i

2

( 9)2

81
2.7
ni1 c i2 5[2 ( 1) ( 1) ] (5)(6)
a 2 2 2
SCC / 1 (2.7) / 1
Fc 0.34
SCE /(N a) 7.9
RR y decisin
Como Fc 0.34 F; 1,Na F0.05; 1,12 4.75 no se rechaza H0 con =0.05, es decir, las ventas
promedio de la ciudad 1 no difieren significativamente de las ventas promedio para las ciudades
2 y 3.
Nota. Valor P P(F1,12 0.34)
EXPOSICIN: Prueba del segundo contraste y la comparacin mltiple de Bonferroni.

H0 : 2 2 3 0 vs H0 : 2 2 3 0
EXPOSICIN: Mtodo de Scheff para comparar todos los contrastes
En la prctica, el experimentador no puede saber previamente qu contrastes desea comparar,

o bien, puede estar interesado en ms de a 1 comparaciones posibles. En muchos experimentos
exploratorios, las comparaciones de inters se descubren despus del examen preliminar de los
datos. Scheff en 1953 propuso un mtodo para comparar cualquiera y todos los contrastes
posibles entre las medias de tratamientos. En el mtodo de Scheff, el error tipo I es cuando
mucho para cualquiera de las comparaciones posibles.

Comparacin de pares de medias de tratamientos
En muchas situaciones prcticas, el experimentador desea comparar solamente pares de medias.

Frecuentemente, podemos determinar cules medias difieren probando las diferencias entre
todos los pares de medias. As, estamos interesados en contrastes de la forma i j para
todo i j . El mtodo de Scheff puede ser aplicado fcilmente a este problema, pero no es el
procedimiento ms sensible para tales comparaciones.
A continuacin se presentan algunos mtodos de comparacin mltiple diseados
especficamente para las comparaciones por pares entre todas las a medias poblacionales de
tratamiento.
Mtodo de la Diferencia Significativa Mnima (DSM)
Supngase que siguiendo a un anlisis de varianza donde la hiptesis nula es rechazada,

deseamos probar H0 : i j para toda ij. Esto puede hacerse empleando el estadstico t.
Y i Y j
t0
1 1
CME
n n
i j
Suponiendo una alternativa bilateral H1 : i j , el par de medias i y j sera declarado

significativamente diferente si
1 1
Y i Y j t CME
, Na n n
2 i j
La cantidad
1 1
DSM t CME
, Na n n
2 i j
Se llama diferencia significativa mnima (DSM). Si el diseo est balanceado, entonces

n1=n2==na=n y la
2CME
DSM t
, Na n
2
Ejemplo
Para ilustrar el procedimiento, usemos los datos del ejemplo de las ventas de los productos de
cmputo en a=3 ciudades distintas.
El valor de la MDS al =5% es:

2CME 2(7.9)
DSM=t0.05/2, 12 =2.179 =3.87
n 5
As, cualquier par de medias que difiera en valor absoluto, por ms de 3.87, implicar que los
correspondientes pares de medias poblacionales son significativamente diferentes. Los tres
promedios de tratamiento son:
y1. =13.8; y 2. =17.8 y y 3. =11.6

Y las diferencias en los promedios son:

1 vs. 2 y1. y 2. =|13.8-17.8|=|-4|=4 *
1 vs. 3 y1. y 3. =|13.8-11.6|=|2.2|=2.2

2 vs. 3 y 2. y 3. =|17.8-11.6|=|6.2|=6.2 *
Los valores sealados con asterisco indican los pares de medias que son significativamente
diferentes. Es til dibujar una grfica, como la figura de abajo, subrayando pares de medias que
no difieren significativamente. El nico par de medias que no difiere significativamente, es 1 vs.
3, adems; en la Ciudad 2 la venta promedio result significativamente mayor que en las otras
dos ciudades.
y 3. y 1. y 2.
11.6 13.8 17.8
a a b
Las medias con letras iguales no difieren significativamente.
Notas.
1) El riesgo puede inflarse considerablemente usando este mtodo. Especficamente,
conforme a crece, la tasa de error tipo I por experimento (la razn del nmero de
experimentos en el cual al menos un error tipo I se comete, al nmero total de
experimentos) se hace grande.
2) Adems de permitir tratamientos repetidos en forma desbalanceada, la DSM puede ser
usada para la estimacin por intervalos. As, un intervalo de confianza del 100(1-)% para
la diferencia de las medias poblacionales, i j es:
( yi y j ) DSM i=1,2,,a; j=1,2,,a; i j
Resultados de Statgraphics
Pruebas de Mltiple Rangos para Ventas por Ciudad
Mtodo: 95.0 porcentaje LSD

Ciudad Casos Media Grupos Homogneos
3 5 11.6 X
1 5 13.8 X
2 5 17.8 X
Contraste Sig. Diferencia +/- Lmites

1-2 * -4.0 3.87315
1-3 2.2 3.87315
2-3 * 6.2 3.87315
* indica una diferencia significativa.
Nota. Dentro de cada columna, los niveles que tienen signo X forman un grupo de medias entre las cuales
no hay diferencias estadsticamente significativas.

EXPOSICIN: Prueba de Tukey
Prueba de rango mltiple de Duncan
Un procedimiento usado ampliamente para comparar todas las parejas de medias es el de la

prueba de rango mltiple de Duncan. Para aplicar dicha prueba en muestras del mismo tamao,
se disponen en orden ascendente los a promedios de tratamiento y luego se determina el error
estndar de cada promedio, usando:
CME
S Y i.
n
Para muestras de diferentes tamaos, n se debe reemplazar por la media armnica nn de los
niia1 en la ecuacin anterior, en donde:
a
nn= a
1
n
i 1 i
Ntese que si n1=n2==na, entonces nn=n. A partir de las tablas de rangos significativos de
Duncan, [tabla VII del Apndice de Montgomery (2004)], se obtienen los valores de r(p, f), para
p=2,3,,a en donde es el nivel de significacin y f=GLE (g.l. del error). Estos rangos deben
transformarse en a-1 rangos mnimos significativos (es decir, Rp) para p=2,3,,a calculando:
Rp=r(p, f) S Y i.
A continuacin, se prueban las diferencias observadas entre las medias, comenzando por el valor
ms alto contra el ms pequeo, comparando esta diferencia con el rango mnimo significativo,
Ra. Despus se calcula la diferencia entre el promedio ms alto y el segundo ms pequeo y se
compara con el rango significativo mnimo Ra-1. Este procedimiento contina hasta que todas las
medias hayan sido comparadas con la media ms grande. A continuacin, la diferencia entre la
segunda media ms grande y la ms pequea se calcula y compara contra el rango significativo
mnimo Ra-1. Este proceso contina hasta que han sido consideradas las diferencias entre los a(a-
1)/2 posibles pares. Si una diferencia observada es mayor que el rango significativo mnimo
correspondiente, se concluye que la pareja de medias en cuestin es significativamente diferente.
Para evitar contradicciones, ninguna diferencia entre una pareja de medias se considera
significativa si las dos medias se encuentran entre otras dos que no difieran significativamente.
Ejemplo
En el experimento de las ventas de los productos de cmputo en a=3 ciudades distintas, se
obtuvieron los siguientes resultados mustrales:
y1. =13.8; y 2. =17.8 y y 3. =11.6
donde n1=n2=n3=n=5 observaciones. Del ANOVA se tiene que CME=7.9 con f=GLE=12.
Organizando los promedios en orden ascendente:
y 3. =11.6

y1. =13.8
y 2. =17.8
7.9
El error estndar de cada promedio es S Y =1.26. Usando la tabla VII del Apndice del
i.
5
Montgomery (2004), para 12 g.l. y =0.05, los rangos significativos son: r0.05 (2, 12)=3.08 y r0.05 (3,
12)=3.23. As los rangos significativos mnimos son:
R2=r0.05 (2, 12) S Yi. =(3.08)(1.26)=3.87

R3=r0.05 (3, 12) S Yi. =(3.23)(1.26)=4.06
Al hacer las comparaciones se tiene:
2 vs. 3: 17.8 11.6 = 6.2 > 4.06 (R3) entonces 23

2 vs. 1: 17.8 13.8 = 4.0 > 3.87 (R2) entonces 21
1 vs. 3: 13.8 11.6 = 2.2 < 3.87 (R2) entonces no se rechaza 1=3
A partir de este anlisis se observa que existen diferencias significativas entre los pares de
medias (2,3) y (2,1). En la figura de abajo se muestra una grfica en donde se subrayan las
medias que no son significativamente diferentes. Hay que notar que, en este ejemplo, la prueba
de rango mltiple de Duncan y el mtodo MDS producen el mismo resultado.
y 3. y 1. y 2.
11.6 13.8 17.8
Notas. Una desventaja de la prueba de rangos mltiples de Duncan es que no es capaz de

proporcionar estimacin por intervalos de confianza.
Resultados de Statgraphics
Pruebas de Mltiple Rangos para Ventas por Ciudad
Mtodo: 95.0 porcentaje Duncan

Ciudad Casos Media Grupos Homogneos
3 5 11.6 X
1 5 13.8 X
2 5 17.8 X
Contraste Sig. Diferencia

1-2 * -4.0
1-3 2.2
2-3 * 6.2
* indica una diferencia significativa.
EXPOSICIN: Prueba de Dunnett para comparar tratamientos con un tratamiento control

En muchos experimentos, uno de los tratamientos es un control, y el analista est interesado en

comparar cada una de las otras a-1 medias de tratamientos con el control. As, solamente hay
que hacer a-1 comparaciones. Ha sido desarrollada una tcnica estadstica, llamada la prueba
de Dunnett, para esta situacin.
Supngase que el tratamiento a (el ltimo) es el control (si no lo es, basta con renumerar para
que sea el a-simo tratamiento). Entonces deseamos probar las hiptesis:
H0: i=a
H1: ia i=1,2,,a-1
El procedimiento de Dunnett es una modificacin de la prueba t usual. Para cada hiptesis,

calculamos las diferencias observadas en las medias mustrales
Yi. Ya. i=1,2,,a-1
La hiptesis nula H0: i=a se rechaza al nivel de significacin si:
1 1
Yi. Y a. d a 1, f CME
ni na
Donde la constante d(a-1, f) est dada en la tabla IX Montgomery (2004) (son posibles pruebas
tanto de dos colas, como de una). Ntese que es el nivel de significacin conjunto asociado
con las a-1 pruebas. Aqu, f=GLE.
Ejemplo
Para ilustrar la prueba de Dunnett, considere los datos del ejemplo de las ventas de los productos
de cmputo en a=3 ciudades distintas. Supongamos que el tratamiento 1 es el control,
renumerremos:
y1. y3. ; y3. y1. ; y 2. y 2. (Paso 1)
Luego: y1. =11.6; y 2. =17.8; y 3. =13.8 (Paso 2)
En este ejemplo: a=3; a-1=2; f=12; ni=n=5; CME=7.9 (Paso 3)
Al nivel del 5%, encontramos en la tabla IX que:
d(a-1, f)=d0.05(2, 12)=2.50 (Paso 4)
As, la diferencia crtica es:
1 1 2CME 2(7.9)
d0.05(2, 12) CME =d0.05(2, 12) =2.50 =4.44 (Paso 5)
n n n 5
As, cualquier media de tratamiento que difiera del control ms de 4.44 se declarara
significativamente diferente. Las diferencias observadas son:
1 vs. 3: y1. y 3. =|11.6-13.8|=|-2.2|=2.2

2 vs. 3: y 2. y 3. =|17.8-13.8|=|4|=4
Ninguna diferencia yi. y a. es una diferencia significativa cuando se compara con el control.
Para rescatar que hiptesis no se rechazan en trminos de los datos (subndices) originales,
renumeramos en forma inversa:
y3. y1. ; y1. y3. ; y 2. y 2.
Por tanto, concluimos que no rechazamos 1=2; 1=3.
Nota. Cuando se comparan tratamientos con un control es una buena idea usar ms
observaciones para el tratamiento control (digamos na) que para los otros tratamientos (digamos
n, suponiendo igual nmero de observaciones para los restantes a-1 tratamientos). La razn na/n
deber escogerse aproximadamente igual a a (la raz cuadrada del nmero total de
tratamientos). Es decir, se elige: na/n= a .
Resultados de SPSS
Oneway
ANOVA
Ventas
Sum of Squares df Mean Square F Sig.
Between Groups 98.800 2 49.400 6.2532 0.0138
Within Groups 94.800 12 7.900
Total 193.600 14
Post Hoc Tests
Multiple Comparisons
Ventas
Dunnett t (2-sided)a
95% Confidence Interval
(I) (J) Mean Difference

Ciudad Ciudad (I-J) Std. Error Sig. Lower Bound Upper Bound
2 1 4.000 1.778 0.0781 -.45 8.45
3 1 -2.200 1.778 0.3861 -6.65 2.25
a. Dunnett t-tests treat one group as a control, and compare all other groups against it.

2.5. Potencia de la prueba F y determinacin del tamao de la muestra.
En esta seccin se estudian mtodos para determinar el tamao apropiado de la muestra, es

decir, el nmero de rplicas que deben hacerse. A pesar de que este anlisis se har para diseos
de un factor, la metodologa general puede aplicarse a situaciones experimentales ms
complejas.
En general, se requieren ms rplicas si lo que interesa al experimentador son efectos pequeos
en lugar de grandes.
Mtodo de las curvas de operacin caracterstica
Una curva de operacin caracterstica es una grfica de la probabilidad del error tipo II de una
prueba estadstica para un tamao de muestra particular, contra el parmetro que refleja que
tanto es falsa la hiptesis nula.
Aqu se considera la probabilidad de error tipo II para el modelo de efectos fijos y el caso de
muestras del mismo tamao en cada tratamiento, es decir,
Pno rechazar H0 H0 es falsa

1 Prechazar H0 H0 es falsa Potencia de la prueba
1 Prechazar H0 H0 es falsa

1 P F0 F; a1, Na H0 es falsa (*)
Para evaluar esta probabilidad, se requiere conocer la distribucin del estadstico F0 si la hiptesis
CMTrat
nula H0 es falsa. Es posible mostrar que si la hiptesis nula es falsa, el estadstico F0
CME
tiene la distribucin F no centrada, con a 1 y N a grados de libertad, y un parmetro de
descentralizacin igual a . Si 0 , se transforma en la distribucin F (centrada) usual.
Seleccin del tamao de muestra suponiendo medias de tratamiento conocidas
Las curvas caractersticas operativas que se proporcionan en la tabla V del Apndice del
Montgomery (2004) se usan para evaluar la probabilidad en la ecuacin (*). Estas curvas indican
la probabilidad de error tipo II ( ) contra el parmetro en donde:
a
n i2
2 i1
(**)
a 2
2 est relacionado con el parmetro de descentralizacin . Las curvas se proporcionan para
=0.01 y =0.05, y para diversos grados de libertad (gl) del numerador y el denominador. El
experimentador debe especificar el valor de cuando se usan las curvas caractersticas
operativas. En la prctica, esto resulta difcil. Una forma de determinar es elegir los valores de
las medias de tratamiento por los cuales se desea rechazar la hiptesis nula con una probabilidad
alta. Por tanto, si 1, 2 ,, a son las medias de los tratamientos propuestas, las i de la
ecuacin (**), se determinan como i i , con / a , el promedio de las medias
a
i1 i
individuales de tratamiento. Tambin es necesario una estimacin de . En ocasiones, sta

2

puede obtenerse con base a la experiencia pasada, experimentos previos o una estimacin
propuesta como 2 (Rango)2 / 16 . Cuando no hay seguridad del valor de 2 , el tamao de
las muestras puede determinarse para un intervalo de valores posibles de 2 y estudiar el efecto
de este parmetro sobre el tamao de la muestra, antes de tomar una decisin final.
Nota. El problema del enfoque que se acaba de dar, es que usualmente resulta difcil seleccionar
el conjunto de medias de tratamiento sobre el cual se basar la decisin sobre el tamao de la
muestra.
Seleccin del tamao de muestra con el requisito de diferencia mnima detectable entre
medias de tratamiento
Un enfoque alterno es la seleccin del tamao de muestra de manera que la hiptesis nula se
rechace si la diferencia entre cualquier par de medias de tratamiento es al menos D (diferencia
mnima detectable), es posible demostrar que el valor mnimo de 2 es:
nD2
2
2a 2
Como ste es el valor mnimo de 2, el tamao de las muestras correspondientes que se obtienen
con las curvas caractersticas operativas tiene un valor conservador; es decir, proporciona una
potencia, al menos igual a la especificada por el experimentador.
Ejemplo
Supongamos que en el problema de las ventas de productos de cmputo en tres ciudades, el
experimentador desea rechazar la hiptesis nula con una probabilidad de 0.90 (potencia de la
prueba) como mnimo, si la diferencia entre cualquier par de medias de tratamiento es hasta 6
mil. Suponiendo que 8 2.828 miles, el valor mnimo de 2 es:
n(6 2 )
2 0.75n
2(3)( 8 )2
Se utilizar la curva de operacin caracterstica para 1=a1=31=2, 2=Na=a(n1)=3(n1)
grados de libertad del error y =0.05 [tabla V del Apndice de Montgomery (2004)]. Como primera
aproximacin del nmero de rplicas requeridas se prueba n=4: esto da 2=3, o bien, =1.73 y
2=3(41)=9; por tanto en la tabla V (para la grfica con 1 2 ) se determina que 0.40. As,
se concluye que n=4 rplicas no son suficientes porque la potencia de la prueba es
aproximadamente 1=0.40=0.60, la cual es mucho menor que la requerida de 0.90. Procediendo
en forma similar, puede construirse la siguiente tabla:
n 2 1 2 Potencia= (1 )

2 a(n 1)
4 3.00 1.73 9 0.40 0.60
5 3.75 1.94 12 0.30 0.70
6 4.50 2.12 15 0.18 0.82
7 5.25 2.29 18 0.10 0.90
Se concluye que al menos n=7 rplicas son necesarias para obtener una prueba con la potencia
deseada cuando =0.05.


Seleccin del tamao de muestra con el mtodo de la estimacin por intervalos de

confianza
Este enfoque supone que el experimentador desea expresar sus resultados finales en trminos
de intervalos de confianza para la diferencia de dos medias de tratamientos, y se desea
especificar de antemano cuan ancho quiere que sean esos intervalos de confianza.
Una estimacin por intervalo de confianza del 100(1-)% para la diferencia de cualesquiera dos
medias de tratamientos, i j , se determina por medio de:
y y t
i j / 2, Na
2CME
n
Donde
2CME
s yi y j es el error estndar estimado de cada diferencia de medias de los tratamientos.
n
2CME
t / 2, Na es la precisin del anterior intervalo de confianza.
n
As, dado el nivel de confianza (1-), una estimacin para la varianza (CME) y el lmite del error
de estimacin (L), entonces el tamao de muestra se determina de:
2CME
L t / 2, Na
n
El procedimiento es probar valores para n, y el que proporcione la mejor aproximacin para L,
ser el tamao de muestra (nmero de repeticiones) que se utilizar en cada tratamiento. Estos
ensayos se deben a que el factor t / 2, Na t / 2, ana depende de n. Se seleccionar la n que
reduzca la mitad del ancho del intervalo de confianza de modo que, en un nivel de confianza
prescrito, sea menor o igual al lmite especificado del error de estimacin.
Ejemplo
Supngase que en el problema de las ventas de productos de cmputo en tres ciudades, se
quiere estimar un intervalo de confianza del 95% para que la diferencia en las ventas promedio
para cualesquiera dos ciudades, sea 3 mil. Suponga que 8 es una estimacin del CME.
2
Solucin
Para este ejemplo =0.05, CME8 y L=3. As,
2CME 2(8)
L t / 2, Na ( t 0.025,3n3 )
n n
Ensayos:
2(8)
Para n=7, t / 2,ana t 0.025,18 2.101 y L (2.101) 3.18
7
2(8)
Para n=8, t / 2,ana t 0.025,21 2.080 y L (2.080) 2.94
8
Por tanto, n=8 es el tamao de muestra ms pequeo que lleva a la precisin requerida.

2.6. Transformacin de datos
Una transformacin es simplemente una reexpresin de los datos en diferente unidad de medida.
Cuando la variable de estudio no se distribuye normal, generalmente se emplea algn tipo de

transformacin para aproximar los datos a la distribucin normal y el mtodo estadstico se aplica
a la variable transformada. Montgomery (2004c) seala que las transformaciones se usan para
tres propsitos: estabilizar la varianza de la respuesta, hacer que la distribucin de la variable de
respuesta est ms cerca de la distribucin normal y mejorar el ajuste del modelo a los datos.
Ante el problema de heterogeneidad de varianzas el procedimiento usual es aplicar una

transformacin a los datos y correr el ANOVA en los datos transformados. Tenga presente que
las conclusiones del ANOVA se aplican a las poblaciones transformadas.
Las transformaciones ms comunes para lograr la normalidad y/o la homogeneidad de varianzas

son la raz cuadrada, la logartmica y la angular o transformacin arco seno (Steel y Torrie, 1988;
Zar, 2010; Sokal y Rohlf, 2000; Montgomery, 2004b). En las tres primeras referencias citadas, se
discute en detalle bajo qu condiciones se recomienda utilizar cada una de las transformaciones
mencionadas.
Cuando no hay una transformacin obvia, generalmente se realiza una bsqueda emprica de
una transformacin que aproxime a la distribucin normal a travs de observar el efecto de cada
una de las transformaciones, por ejemplo, en el grfico de probabilidad normal.
Una clase til de transformaciones es la de la transformacin de potencia y (mtodo de Box-Cox)

para corregir la no normalidad y/o la varianza no constante en modelos de regresin y anlisis de
varianza (Montgomery et al., 2002b; Montgomery, 2004c).
Johnson y Wichern (2002), indican que cuando la eleccin de la transformacin que aproxime a
la distribucin normal no es obvia, es conveniente que los datos sugieran una transformacin, y
esto puede lograrse con la familia de transformaciones de potencia (y). Tambin presentan un
mtodo analtico relativamente prctico para elegir la transformacin de potencia.
Resumen [tomado de Montgomery, et al. (2002b)]

Si las observaciones siguen la distribucin de Poisson, se usara la transformacin raz cuadrada
yi* yi o yi* yi 1 .
Si los datos siguen la distribucin lognormal, la transformacin logartmica yi* ln(yi ) es
adecuada.
Para datos binomiales expresados como fracciones, la transformacin arcsen, yi* arcsen yi ,
es til.
Referencias citadas en la seccin de transformacin de datos

1. Johnson, R.A.; Wichern, D.W. (2002). The multivariate normal distribution. En: Applied
multivariate statistical analysis. 5a Ed. Prentice Hall. New Jersey, USA. pp. 149-209.
2. Montgomery, D.C. (2004b). Experimentos con un slo factor: el anlisis de varianza. En:
Diseo y anlisis de experimentos. 2 Ed. Limusa Wiley, Mxico, D.F. pp. 60-125.
3. Montgomery, D.C. (2004c). Otros tpicos de diseo y anlisis. En: Diseo y anlisis de
experimentos. 2 Ed. Limusa Wiley, Mxico, D.F. pp. 590-629.

4. Montgomery, D.C.; Peck, E.A.; Vining, G.G. (2002b). Transformaciones y ponderacin

para corregir inadecuaciones del modelo. En: Introduccin al anlisis de regresin lineal.
3 Ed. CECSA. Mxico, D.F. pp. 155-184.
5. Sokal, R.R.; Rohlf, F.J. (2000). Assumptions of analysis of variance. En: Biometry, the
principles and practice of statistics in biological research. 3a Ed. W.H. Freeman and
Company. New York, USA. pp 392-450.
6. Steel, R.G.D.; Torrie, J.H. (1988). Bioestadstica: principios y procedimientos. 2 Ed.
McGraw-Hill/Interamericana. Mxico, D.F.
7. Zar, J.H. (2010). Biostatistical Analysis. 5a Ed. Prentice-Hall. New Jersey, USA.
2.7. Prueba de Kruskal-Wallis
El procedimiento de ANOVA de una va para un diseo completamente aleatorio de efectos fijos

expuesto anteriormente, se emplea para determinar si son estadsticamente iguales varias
medias poblacionales. Los datos fueron a niveles de intervalo o de razn, se supuso que las
poblaciones estaban normalmente distribuidas y que eran iguales las varianzas de dichas
poblaciones. Cmo proceder si el supuesto de normalidad no se cumple o si los datos fueran
de escala ordinal? Una opcin es aplicar la prueba (no paramtrica) de Kruskal-Wallis; se conoce
como anlisis de varianza en un sentido por rangos de Kruskal-Wallis.
Supuestos
i) K muestras aleatorias independientes.

ii) La escala de medicin es al menos ordinal.
Los datos se arreglan de la siguiente manera:
Grupos (tratamientos)
1 2 k
Y11 Y21 Yk1
Y12 Y22 Yk2
: : :
Y1n1 Y2n2 Yknk
donde Yij es el dato para la j-sima observacin en el i-simo grupo y ni es el nmero de

observacin en el i-simo grupo.
Hiptesis
Prueba la H0 de que las k muestras provienen de poblaciones idnticas con la misma mediana.
H0: 1=2==k vs. H1 : i j para al menos un par (i, j) con ij
donde i representa la mediana de la poblacin para el i-simo grupo (tratamiento). Es decir la

prueba de Kruskal-Wallis compara k distribuciones poblaciones, as H0 y H1 tambin pueden
enunciarse como:
H0: Las k distribuciones poblacionales son idnticas.

vs.

H1: Al menos una de las poblaciones tiende a dar observaciones ms grandes que las otras. O
bien, al menos dos de las distribuciones poblacionales difieren en localizacin.
Estadstico de prueba
12 k
Ri2
3(N 1)
N(N 1) i 1 ni
H (I)
g

1 t 3j t j (N3 N)
j 1
donde
k
N= n
i 1
i (total de observaciones).
ni es el nmero de observaciones del i-simo tratamiento (grupo).

ni
R i= r
i 1
ij es la suma de los rangos de las observaciones del i-simo tratamiento ya que rij
es el rango de Yij.
g=nmero de grupos empatados.
tj=tamao del j-simo grupo empatado. Nmero de observaciones empatadas en el grupo
j de valores empatados.
Aqu se considera una observacin no empatada como un grupo empatado de tamao 1. Por lo

tanto si no hay observaciones empatadas g=N, tj=1 y t 3j t j 0 para toda j=1,2,,N y el
denominador de H se reduce a 1, obtenindose:
12 k
Ri2
H 3(N 1) (II)
N(N 1) i 1 ni
Nota. El efecto del ajuste por empates (ecuacin I) es incrementar H, de modo que si la H no
ajustada (ecuacin II) es significativa al nivel de significancia elegido, no es necesario aplicar el
ajuste.
Clculo del estadstico de prueba

Pasos para el clculo de H:
1. Las n1, n2,...,nk observaciones de los k grupos se combinan en una sola serie de tamao
n y se arreglan en orden de magnitud desde el ms pequeo hasta el ms grande.
Entonces las observaciones se reemplazan por rangos desde 1, que es el asignado a la
observacin menor, hasta N, que se asigna a la observacin mayor. Cuando dos o ms
observaciones tienen el mismo valor (empate), a cada observacin se le da la media de
los rangos en los cuales empat.
2. Los rangos asignados a las observaciones en cada uno de los k grupos se suman por
separado para dar k sumas de rangos (Ri).
3. Se calcula H.
Regin de rechazo
Rechace H0 si H>H; n1,...,nk donde la constante H; n1,...,nk satisface P(H>H; n1,...,nk)= y se puede
obtener de la tabla de la distribucin de H (Hollander y Wolfe, 1999; Conover, 1999; Zar, 2010).

Aproximacin para muestras grandes
Wackerly et al. (2010) sealan que Kruskal y Wallis demostraron que si los ni son grandes (ni5)
y bajo H0 verdadera, la distribucin del estadstico de prueba H es aproximadamente ji-cuadrada

con k-1 g.l., es decir, H ~ k2 1 . Por lo tanto, rechace H0 si H 2,k 1 .
2.8. Comparaciones mltiples no paramtricas
En caso de que la prueba determine diferencias estadsticas significativas entre los tratamientos
con respecto a la variable de estudio o de respuesta, deben efectuarse comparaciones mltiples
para determinar qu pares de tratamientos difieren, inclusive cuando se tiene un tratamiento
control.
Notas:
a) La mayora de los paquetes estadsticos no incluyen comparaciones mltiples entre sus
opciones para la prueba de Kruskal-Wallis.
b) En las siguientes referencias se tienen ms detalle terico del mtodo y de las
comparaciones mltiples: Hollander y Wolfe (1999), Siegel y Castellan (2001), Zar (2010)
y Conover (1999).
Comparaciones mltiples, muestras grandes (Siegel y Castellan, 2001)
Hiptesis
H0 : u v vs. H1 : u v para algunos grupos u y v.
Procedimiento
Se determinan las diferencias Ru Rv para todos los pares de grupos. Cuando el tamao de las
muestras es grande, estas diferencias se distribuyen aproximadamente normal. Sin embargo, ya
que hay una cantidad muy grande de diferencias y que las diferencias no son independientes, el
procedimiento de comparacin debe ajustarse apropiadamente. Por lo tanto,
NN 1 1 1
si Ru Rv ( z k k 1 ) rechace H0 : u v con nivel de significacin y
12 nu nv
decida por H1 : u v .
El valor de z k k 1 es el valor de la abcisa de la distribucin normal tal que

PZ z / k (k 1)
k(k 1)
Nota. El mtodo de comparacin antes descrito no contiene en su expresin una correccin por
empates.
A continuacin se tratar la comparacin mltiple de Dunn (Cuando no se tiene un tratamiento

control):

N(N 1) 1 1
Concluya H1 : A B si R A RB Q , k
12 n A nB
RA
donde R A y RB son los rangos promedio para los tratamientos A y B respectivamente.
nA
En caso de tener empates:

N(N 1)
Concluya H1 : A B si R A RB Q , k
t 1

1

12
12(N 1) n A nB

t
g
donde t 3
j t j y Q, k z k k 1 .
j1
Una vez presentado la teora bsica sobre la prueba de Kruskal-Wallis para comparar tres o ms
tratamientos cuando las muestras son independientes, se aplicar el mtodo con los datos del
ejemplo acerca de las ventas de productos de cmputo en tres ciudades.
Ejemplo
Ventas (en miles)
10 16 15
14 18 12
18 22 8
15 18 10
12 15 13
Solucin
Rangos asignados, totales y promedios para los datos del ejemplo.
Ciudad 1 Rango Ciudad 2 Rango Ciudad 3 Rango

10 2.5 16 11 15 9
14 7 18 13 12 4.5
18 13 22 15 8 1
15 9 18 13 10 2.5
12 4.5 15 9 13 6
R1 36 R2 61 R3 23
R1 7.2 R2 12.2 R3 4.6

Resultados de SPSS
Pruebas no paramtricas
Prueba de Kruskal-Wallis
Rangos
Rango
Ciudad N promedio
Ventas 1 5 7.20
2 5 12.20
3 5 4.60
Total 15
Estadsticos de contraste(a,b)
Ventas
Chi-cuadrado 7.5956
gl 2
Sig. asintt. .0224
Sig. exacta .0135
Probabilidad en el
.0010
punto
a Prueba de Kruskal-Wallis
b Variable de agrupacin: Ciudad
Decisin. Difiere significativamente las ventas de los productos de cmputo en las ciudades
(H=7.5956, P=0.0135<0.05).
Ejercicio
Para el ejemplo anterior aplicar la comparacin mltiple.
2.9 Modelo de efectos aleatorios

EXPOSICIN

Bibliografa
Bibliografa citada
Conover, W.J. (1999). Practical nonparametric statistics. 3a Ed. John Wiley and Sons. New York,
USA.
Gutirrez-Pulido, H. y de la Vara-Salazar, R. (2012). Anlisis y Diseo de Experimentos. 3 Ed.

McGraw Hill, Mxico, D.F.
Hines, W.W., Montgomery, D.C., Goldsman, D.M. y Borror, C.M. (2005). Probabilidad y estadstica
para ingeniera. 3a Ed. Grupo Editorial Patria. Mxico, D.F.
Hollander, M., Wolfe, D.A. (1999). Nonparametric statistical methods. 2a Ed. John Wiley and Sons.
New York, USA.
Johnson, R.A.; Wichern, D.W. (2002). The multivariate normal distribution. En: Applied
multivariate statistical analysis. 5a Ed. Prentice Hall. New Jersey, USA. pp. 149-209.
Montgomery, D.C. (2004). Diseo y anlisis de experimentos. 2 Ed. Limusa Wiley, Mxico, D.F.
Montgomery, D.C. (2004b). Experimentos con un slo factor: el anlisis de varianza. En: Diseo
y anlisis de experimentos. 2 Ed. Limusa Wiley, Mxico, D.F. pp. 60-125.
Montgomery, D.C. (2004c). Otros tpicos de diseo y anlisis. En: Diseo y anlisis de
experimentos. 2 Ed. Limusa Wiley, Mxico, D.F. pp. 590-629.
Montgomery, D.C.; Peck, E.A.; Vining, G.G. (2002b). Transformaciones y ponderacin para
corregir inadecuaciones del modelo. En: Introduccin al anlisis de regresin lineal. 3 Ed.
CECSA. Mxico, D.F. pp. 155-184.
Siegel, S., Castellan N.J. (2001). Estadstica no paramtrica: aplicada a las ciencias de la
conducta. 4 Ed. Editorial Trillas. Mxico, D.F.
Steel, R.G.D.; Torrie, J.H. (1988). Bioestadstica: principios y procedimientos. 2 Ed. McGraw-
Hill/Interamericana. Mxico, D.F.
Sokal, R.R.; Rohlf, F.J. (2000). Assumptions of analysis of variance. En: Biometry, the principles
and practice of statistics in biological research. 3a Ed. W.H. Freeman and Company. New York,
USA. pp 392-450.
Visauta, V. B. (1997). Anlisis estadstico con SPSS para Windows, estadstica bsica. McGraw-
Hill-Interamericana. Espaa.
Wackerly, D.D., Mendenhall, W., Scheaffer, R.L. (2010). Estadstica Matemtica con
Aplicaciones. 7 Ed. CENGAGE Learning. Mxico, D.F.
Zar, J.H. (2010). Biostatistical Analysis. 5a Ed. Prentice-Hall. New Jersey, USA.

Bibliografa consultada
Daniel, W.W. (2006). Bioestadstica: Base para el Anlisis de las Ciencias de la Salud. 4a Ed.
Limusa Wiley. Mxico, D.F.
Daniel, W.W. (1990). Applied Nonparametrics Statistics. 2a Ed. Duxbury Thomson Learning.
Pacific Grove, CA, USA.
Dickinson, G.J., Chakraborti, S. (1992). Nonparametric statistical inference. 3a Ed. Marcel Dekker.
New York, USA.
Freund, J.E., Miller, I., Miller, M. (2000). Estadstica matemtica con aplicaciones. 6. Ed.
Pearson. Mxico, D.F.
Kuehl, R.O. (2001). Diseo de Experimentos. 2 Ed. Thomson Editores. Mxico, D.F.
Infante, G.S. y Zrate, L.G. (2005). Mtodos Estadsticos. 2 Ed. Editorial Trillas. Mxico, D.F.
Mendenhall, W., Beaver, R.J. y Beaver, B.M. (2002). Introduccin a la Probabilidad y Estadstica,
Thomson, Mxico, D.F.
Montgomery, D.C., Runger, G.C. (2005). Probabilidad y estadstica aplicadas a la ingeniera. 2

Ed. Limusa Wiley. Mxico, D.F.
Scheaffer, R.L., McClave, J.T. (1993). Probabilidad y estadstica para ingeniera. Grupo Editorial
Iberoamrica. Mxico, D.F.

Anova Uady, ANÁLISIS DE VARIANZA

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Anova Uady, ANÁLISIS DE VARIANZA

Hochgeladen von

Copyright:

Verfügbare Formate

ESPECIALIZACIN EN ESTADSTICA

Unidad 2. Diseos con un factor y comparaciones

2.1. Diseo completamente aleatorizado. Modelo, anlisis estadstico

En esta unidad se tratar el diseo experimental de una va (diseo completamente aleatorio), es

U2. Diseos con un factor y comparaciones mltiples Pgina 2

ANLISIS DE VARIANZA DE UNA VA

Ejemplo 2. [Ejemplo 12-1.1 de Hines et al. (2005)]

Importancia de la aleatorizacin en este experimento

U2. Diseos con un factor y comparaciones mltiples Pgina 3

de 10%, etc.), cualesquiera diferencias observadas en la concentracin de madera dura podran

Repaso de la teora bsica

El anlisis de varianza (ANDEVA o ANOVA) es un procedimiento aritmtico mediante el cual la

Seleccin completamente aleatorizada

La aleatorizacin puede hacerse con:

2. Para reducir la influencia de esas fuentes de variabilidad extraas se sugiere realizar

Se aplicar la prueba paramtrica del anlisis de varianza de una va basado en un diseo

U2. Diseos con un factor y comparaciones mltiples Pgina 4

A continuacin se establecer la notacin y el modelo lineal.

yij = variable de respuesta

donde i=1,2,3 y j=1,2,3,4,5

Datos tpicos para un experimento unifactorial.

Tratamientos (niveles del factor)

Totales y1. y2. y3. ... ya.

El modelo estadstico lineal es:

La respuesta observada en cada uno de los a tratamientos es una variable aleatoria.

HIPTESIS (modelo de efectos fijos) (*)

U2. Diseos con un factor y comparaciones mltiples Pgina 5

La media del i-simo tratamiento se descompone en dos componentes: i=+i, ya que

Supuestos (modelo de efectos fijos)

1) Los a tratamientos son seleccionados especficamente por el experimentador. Este

Yij=+i+ij con i=1, 2,, a; j=1, 2,, n

En donde i y ij son variables aleatorias. Las varianzas y se conocen como componentes

Supuestos (modelo de efectos aleatorios)

Hiptesis (modelo de efectos aleatorios)

U2. Diseos con un factor y comparaciones mltiples Pgina 6

Estimacin de los parmetros del modelo (modelo de efectos fijos)

Para determinar los estimadores de mnimos cuadrados de y i se forma la suma de cuadrados

De aqu se obtiene el siguiente sistema, llamado sistema de ecuaciones normales de mnimos

Estos resultados tienen gran informacin intuitiva:

1) La media global se estima con el promedio total de las observaciones.

i j ( Yi. Y.. ) ( Y j. Y.. ) Yi. Y j.

La media del i-simo tratamiento i=+i, [E(Yij)=i=+i], se estima mediante:

U2. Diseos con un factor y comparaciones mltiples Pgina 7

SCTotal Yij Y..

Mediante lgebra la SCTotal puede dividirse en dos sumas de cuadrados:

SCTotal Yij Y.. n Yi. Y.. Yij Yi. (**)

De i Yi. Y.. para i=1,,a y de Yij=+i+ij se tiene que ij=Yij--i y

SCTrat se llama la suma de cuadrados debida a los tratamientos (o entre tratamientos), y SC E se

U2. Diseos con un factor y comparaciones mltiples Pgina 8

es el estadstico de prueba para la hiptesis de igualdad de medias de los tratamientos. En

Si H0 es falsa, la E(CMTrat)> . Por tanto, si H1 es verdadera, el valor esperado del numerador

Rechazamos H0 si F0 > F; a-1, N-a (F0 denota el valor de la estadstica de prueba)

El procedimiento de prueba se resume en la siguiente tabla.

Tabla de anlisis de varianza

Error SCE N-a CME

U2. Diseos con un factor y comparaciones mltiples Pgina 9

A continuacin se deduce la distribucin del estadstico de prueba. Para ello se utilizarn

iii) Teorema de Cochran (til para establecer la independencia de la SCTrat y SCE).

As, de SCTotal=SCE + SCTrat

SCTotal SCE SCTrat

U2. Diseos con un factor y comparaciones mltiples Pgina 10

2.2. Caso desbalanceado

Si el nmero de observaciones tomadas dentro de cada tratamiento es diferente, decimos que el

Las modificaciones en las frmulas son: