Comparacion de Varias Muestras

STATGRAPHICS Rev.
4/d/yyyy
Comparacin de Varias Muestras

Resumen
El procedimiento de Comparacin de Varias Muestras est diseado para comparar dos o ms
muestras independientes de datos variables. Se hacen pruebas para determinar si hay o no
diferencias significativas entre las medias, varianzas y/o medianas de las poblaciones de las que
se tomaron las muestras. Adems, se pueden desplegar los datos grficamente de varias maneras,
incluyendo una grfica de dispersin mltiple, una grfica ANOM y una grfica de medias.
Los resultados de este procedimiento son idnticos al los del procedimiento ANOVA de una va.
StatFolio Muestra: multiple samples.sgp

Datos de Muestra:
El archivo pulse rates.sf6 contiene los resultados de un experimento reportado por Milliken y
Johnson (1992) en el que 78 trabajadores fueron asignados en seis grupos al azar. A cada grupo
se le dio una tarea a realizar y se midieron las tasas de pulsacin luego de que cada individuo
trabaj por una hora en su tarea asignada. Luego de que varios individuos abandonaron el
estudio, los datos finales fueron:
Task 1
(Tarea 1)
27
31
26
32
39
37
38
39
30
28
27
27
34
Task 2
(Tarea 2)
29
28
37
24
35
40
40
31
30
25
29
25
Task 3
(Tarea 3)
34
36
34
41
30
44
44
32
32
31
Task 4
(Tarea 4)
34
34
43
44
40
47
34
31
45
28
Task 5
(Tarea 5)
28
28
26
35
31
30
34
34
26
20
41
21
Task 6
(Tarea 6)
28
26
29
25
35
34
37
28
21
28
26
Las n = 68 mediciones finales han sido arregladas en q = 6 columnas, una para cada grupo de
sujetos.
Alternativamente, los datos pudieron ser arreglados en una tabla con las tasas de pulsacin en
una sola columna junto con una columna identificando qu tarea se le dio al sujeto. Una porcin
de tal archivo se muestra abajo:
2006 por StatPoint, Inc.
Comparacin de Varias Muestras - 1
STATGRAPHICS Rev. 4/d/yyyy

Subject
(Sujeto)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Pulse Rate
(Tasa de Pulsacin)
27
31
26
32
39
37
38
39
30
28
27
27
34
29
28
37
24
35
40
40
31
30
25
29
25
34
Task
(Tarea)
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
3
Cualquier estructura de datos puede ser analizada por el procedimiento Anlisis Multimuestral.
Si los mismos datos se usarn en otros procedimientos tales como el procedimiento de Modelos
Lineales Generales, estos deben ser estructurados de la segunda manera. Como parte de la
opcin Guardar Resultados en este procedimiento, puede tomar un conjunto de datos que est
estructurado en el formato de mltiples columnas y rearreglarlo como columnas de datos
cifrados.
Datos de Entrada
Cuando el procedimiento Comparacin de Datos Mltiples se selecciona en el men principal, el
primer cuadro de dilogo desplegado le pide especificar el formato en el que los datos sern
ingresados:
Mltiples Columnas de Datos: indica que cada muestra se ha colocado en una columna
separada.
Columnas de Cdigos y Datos: indica que todas las observaciones se han colocado en una
sola columna, con una segunda columna indicando a qu muestra pertenece cada
observacin.
Estadsticos Muestrales: indica que las observaciones originales no estn disponibles. Sin
embargo, los tamaos de muestra, las medias muestrales, y las desviaciones estndar
muestrales se han colocado en 3 columnas de la hoja de datos. En este caso, algunas opciones
no estarn disponibles.
Mltiples Columnas de Datos

Si los datos se han colocado en columnas separadas para cada muestra, se deben ingresar los
nombres de las columnas en el siguiente cuadro de dilogo.
Muestras: dos o ms columnas numricas que contienen las observaciones, una columna
para cada muestra.
Seleccionar: subconjunto a seleccionar.
Columnas Datos y Cdigo

Si los datos de todas las muestras se han colocado en una sola columna, entonces ingrese el
nombre de esa columna y de la columna que contiene los identificadores de grupo.
Datos: columna numrica que contiene observaciones de todas las muestras.
Cdigos de Nivel: columnas numricas o no numricas que contienen un identificador para

la muestra correspondiente a cada dato.
Estadsticos de Muestra
Si las observaciones originales no estn disponibles, pero se conocen la media y la desviacin
estndar de cada muestra, ingrese los estadsticos muestrales en la hoja de datos en columnas
separadas.
Tarea
1
2
3
4
5
6
Tamao
13
12
10
10
12
11
Media
31.9231
31.0833
35.8000
38.0000
29.5000
28.8182
Desviacin Estndar
4.95751
5.66422
5.30827
6.59966
6.00757
4.75012
Luego complete el segundo cuadro de dilogo como se muestra a continuacin.

Medias muestrales: columna numrica que contiene las medias de cada muestra.
Desviaciones estndar muestrales: columna numrica que contiene las desviaciones

estndar de cada muestra.
Tamaos de muestra: columna numrica que contiene los tamaos de cada muestra.
Etiquetas de la muestra: columna opcional que contiene etiquetas para cada muestra.
Resumen del Anlisis

El Resumen del Anlisis muestra el nmero de observaciones en cada muestra.
Comparacin de Varias Muestras
Muestra 1: tarea 1
Muestra 2: tarea 2
Muestra 3: tarea 3
Muestra 4: tarea 4
Muestra 5: tarea 5
Muestra 6: tarea 6
Muestra 1: 13 valores en el rango de 26.0 a 39.0
Tambin se despliegan los valores ms alto y ms bajo.

Grfico de Dispersin
El panel Grfico de Dispersin grafica datos de cada grupo.
Dispersin segn Muestra
50
respuesta
45
40
35
30
25
20
Task 1 Task 2 Task 3 Task 4 Task 5 Task 6
Si hay muchos valores comunes, tal vez dese aadir una pequea cantidad despacio horizontal a
la grfica, presionando el botn Separar de la barra de herramientas de anlisis.
Esto fija cada punto al azar en direccin horizontal de tal modo que valores idnticos no se
encimen:

Dispersin segn Muestra
50
respuesta
45
40
35
30
25
20
La grfica de arriba parece sugerir que las tasas de pulsacin son de alguna manera ms altas en
aquellos que realizaron las tareas 3 y 4. Nota: Agregar espacio a la grfica de dispersin no tiene
efecto en ningn clculo.
Estadsticos de Resumen
El panel Estadsticos de Resumen calcula diferentes estadsticos que son usados comnmente
para resumir una muestra de datos variables:
Resumen Estadstico
Recuento
Tarea 1 13
Tarea 2 12
Tarea 3 10
Tarea 4 10
Tarea 5 12
Tarea 6 11
Total
68
Promedio
31.9231
31.0833
35.8
38.0
29.5
28.8182
32.3088
Desviacin Estndar
4.95751
5.66422
5.30827
6.59966
6.00757
4.75012
6.24203
Coeficiente de Variacin
15.5296%
18.2227%
14.8276%
17.3675%
20.3646%
16.4831%
19.3199%
Mnimo
26.0
24.0
30.0
28.0
20.0
21.0
20.0
Mximo
39.0
40.0
44.0
47.0
41.0
37.0
47.0
Rango
13.0
16.0
14.0
19.0
21.0
16.0
27.0
La mayora de los estadsticos pertenecen a una de las siguientes categoras:

1. medidas de tendencia central estadsticos que caracterizan el centro de los datos.
2. medidas de dispersin estadsticos que miden la dispersin de los datos.

3. medidas de forma estadsticos que miden la forma de los datos con respecto a una
distribucin normal.
Los estadsticos incluidos por defecto en la tabla son controlados por las opciones del panel
Estadsticos del cuadro de dilogo Preferencias. Con este procedimiento, la seleccin puede
cambiarse usando el Panel de Opciones. Para una descripcin detallada de cada estadstico, vea
la documentacin Anlisis de una Variable.
Son de inters particular:
1. Medias muestrales Y j : la tasa de pulsacin promedio de sujetos de cada una de las 6
tareas.
2. Desviaciones estndar muestrales s j : las desviaciones estndar de cada grupo.
3. Simetras y kurtosis estandarizadas: Estos estadsticos deben estar entre 2 y +2 si los
datos vienen de distribuciones normales.
Para las tasas de pulsacin, la tasa promedio fue ms alta para el grupo 4, as como la desviacin
estndar. Todos los estadsticos de simetra y de kurtosis estn en el rango esperado para datos
que vienen de distribuciones normales.
Panel de Opciones
Seleccione los estadsticos deseados.
Grfico de Caja y Bigotes

Este panel despliega una grfica de caja y bigotes para cada muestra.

Grfico Caja y Bigotes
Task 1
Task 2
Task 3
Task 4
Task 5
Task 6
20
25
30
35
respuesta
40
45
50
Las grficas de caja y bigotes se construyen de la siguiente manera:
Se dibuja una caja que va del cuartil inferior de la muestra hasta el cuartil superior.
Este es el intervalo cubierto por 50% de los datos cuando se ordenan de menor a
mayor.
Se dibuja una lnea vertical en la mediana (valor medio).
Si se requiere, se coloca un signo de ms en el lugar de la media muestral.
Se dibujan bigotes desde los bordes de la caja hasta los valores ms pequeo y ms
alto, a menos que haya valores inusualmente lejos de la caja (los que Tukey llama
aberrantes). Los puntos exteriores, que son puntos abajo o arriba de la caja ms de
1.5 veces el rango intercuartil, se indican con smbolos de punto. Cualquier punto que
est abajo o arriba de la caja ms de tres veces el rango intercuartil se llama
aberrante lejano, y se indican por smbolos de punto con signos de suma
superimpuestos encima de ellos. Si hay puntos exteriores, los bigotes se dibujan hacia
los valores ms grande y ms pequeo que no sean puntos exteriores.
En los datos muestrales, la variabilidad parece ser similar en cada muestra, aunque las locaciones
muestran algunas diferencias. No hay puntos exteriores.
Panel de Opciones
Direccin: la orientacin de la grfica, correspondiente a la direccin de los bigotes.
Muesca sobre la Mediana: Si se selecciona, se agrega un corte a la grfica mostrando el

error de estimacin asociado a cada mediana. Los cortes se escalan de tal forma que, para
muestras de igual tamao, si no se traslapan, las dos medianas son significativamente
diferentes en el nivel de confianza por defecto del sistema (establecido en la pestaa General
del cuadro de dilogo Preferencias en el men Edicin).
Mostrar aberrantes: si se selecciona, indica la ubicacin de los aberrantes.
Mostrar Media: si se selecciona, muestra la ubicacin de la media muestral as como la

mediana.
Ejemplo Grfica de caja y bigotes cortada.

La siguiente grfica agrega grietas de mediana a un nivel de confianza del 95%.
Grfico Caja y Bigotes
50
respuesta
45
40
35
30
25
20
Task 1
Task 2
Task 3
Task 4
Task 5
Task 6
Cada corte cubre el intervalo.
z 1.25( IQR j )
1
~
xj /2
1 +
2 1.35 n j
2
(1)
~
donde x j es la mediana de la j-sima muestra, IQRj es el rango intercuartil de muestra, nj es el
tamao de muestra, y z/2 es el valor crtico superior (/2)% de una distribucin normal estndar.
En aquellos casos en los que el tamao de muestra es pequeo, el corte puede extenderse ms
all de la caja, resultando una apariencia de doblado.
Como las muestras varan en tamao, la regla de traslape no funcionar a la perfeccin. Sin
embargo, los cortes para las tareas 4 y 6 no se traslapan, lo que tpicamente indicara una
diferencia significativa entre esas dos medianas a un nivel de significancia del 5%.
Tabla ANOVA
Para determinar si las medias de los q grupos son significativamente diferentes entre s o no,
puede realizarse un anlisis de varianza de una va. Los resultados se despliegan en la tabla
ANOVA:
Tabla ANOVA
Fuente
Entre grupos
Intra grupos
Total (Corr.)
Suma de Cuadrados
694.439
1916.08
2610.51
Gl
5
62
67
Cuadrado Medio
138.888
30.9045
Razn-F
4.49
Valor-P
0.0015
La tabla divide la variabilidad total de las n mediciones en dos componentes:

1. Un componente intragrupal, que mide la variabilidad entre tasas de pulsacin de
individuos a los que se les asign la misma tarea.
2. Un componente intergrupal, que mide la variabilidad entre tasas de pulsacin de
individuos con diferentes tareas.
El F-radio es de particular importancia, el cual prueba la hiptesis de que la respuesta media para
todas las muestras es la misma. Formalmente, prueba la hiptesis nula
H0: 1 = 2 = ... = q
contra la hiptesis alternativa
HA: no todos los j iguales
Si F es suficientemente grande, la hiptesis nula se rechaza
La importancia estadstica del F-radio se juzga ms fcilmente por su P-valor. Si el P-valor es
menor que 0.05, la hiptesis nula de medias iguales se rechaza a un nivel de significancia del
5%, como en este ejemplo. Esto no implica que cada media sea significativamente diferente que
las otras. Simplemente implica que no todas las medias son la misma. Determinar cules medias
son significativamente diferentes de cules otras requiere pruebas adicionales, como se discute
abajo.
ANOVA Grfico
El ANOVA Grfico, desarrollado por Hunter (2005), es una tcnica para desplegar grficamente
la importancia de las diferencias entre las muestras. Es una grfica de los efectos escalados,
donde el efecto es igual a la diferencia entre una media muestral y la gran media estimada.
Cada efecto es multiplicado por un factor escalador.
R ni
T n
(2)
donde R es los grados de libertad residuales, T es los grados de libertad entre las diferencias
grupales, ni es igual al nmero de observaciones en el i-simo nivel del grupo, y n es el nmero
promedio de observaciones en todos los grupos. Esto escala los efectos de tal manera que la
varianza natural de los puntos en el diagrama es comparable a la de los residuales, los cuales se
despliegan en la parte baja de la grfica.
La grfica para los datos de muestra se muestra abajo:
ANOVA Grfico para Task 1
Grupos
Task 6
Task 5
Task 2
Task 1
Task 3
Task 4
P = 0.0015
Residuos
-13
-3
17
27
Al lado derecho del display est el P-valor para las diferencias dentro del grupo, tomado de la
tabla ANOVA.
Comparando la variabilidad entre los efectos en la grfica de arriba con la de los residuales, es
fcil ver que las diferencias son de una mayor magnitud que las que podran explicarse
solamente por el error experimental. Dependiendo de la localizacin relativa de los efectos,
podra tambin ser posible en algunos casos identificar visualmente cules muestras son
significativamente diferentes de cules otras, lo cual es hecho formalmente por las Pruebas de
Rangos Mltiples descritas abajo.
Pruebas de Rangos Mltiples

Para determinar cules medias son significativamente diferentes de cules otras, pueden
realizarse Pruebas de Rangos Mltiples:
Pruebas de Rangos Mltiples
Mtodo: 95.0 porcentaje LSD
Casos Media
Tarea 6 11
28.8182
Tarea 5 12
29.5
Tarea 2 12
31.0833
Tarea 1 13
31.9231
Tarea 3 10
35.8
Tarea 4 10
38.0
Contraste
Tarea 1 - Tarea 2
Tarea 1 - Tarea 3
Tarea 1 - Tarea 4
Tarea 1 - Tarea 5
Tarea 1 - Tarea 6
Tarea 2 - Tarea 3
Tarea 2 - Tarea 4
Tarea 2 - Tarea 5
Tarea 2 - Tarea 6
Tarea 3 - Tarea 4
Tarea 3 - Tarea 5
Tarea 3 - Tarea 6
Tarea 4 - Tarea 5
Tarea 4 - Tarea 6
Tarea 5 - Tarea 6
Sig.
*
*
*
*
Grupos Homogneos
X
X
XX
XX
XX
X
Diferencia
0.839744
-3.87692
-6.07692
2.42308
3.1049
-4.71667
-6.91667
1.58333
2.26515
-2.2
6.3
6.98182
8.5
9.18182
0.681818
+/- Lmites
4.44862
4.67423
4.67423
4.44862
4.55256
4.75816
4.75816
4.53672
4.63869
4.96973
4.75816
4.85547
4.75816
4.85547
4.63869
* indica una
diferencia significativa.
La mitad de arriba de la tabla muestra cada una de las medias muestrales estimadas en un orden
de magnitud creciente. Muestra:
Casos el nmero de observaciones nj.
Media la media muestral estimada Yj .

Grupos Homogneos una ilustracin grfica de cules medias son significativamente
diferentes de cules otras, basada en los contrastes desplegados en la segunda mitad de la
tabla. Cada columna de Xs indica un grupo de medias en las que no hay diferencias
significativas estadsticamente. Por ejemplo, la primera columna de la tabla de arriba
contiene X para las tareas 1, 2, 5, y 6, indicando que no hay diferencias significativas
entre esas cuatro medias. Asimismo, las tareas 1, 2 y 3 no muestran diferencias
significativas, como tampoco lo hacen las tareas 3 y 4. Cualesquiera dos tareas que no
tengan una X en la misma columna son significativamente diferentes entre s, tal como
las tareas 4 y 6.
Diferencia la diferencia entre las dos medias muestrales.
$ j1 j2 = Y j1 Y j2
(3)
Limites - un intervalo estimado de la diferencia, usando el procedimiento de

comparaciones mltiples seleccionado recientemente.
1
1
$ j1 j2 M MS within
+
n j1 n j2
(4)
donde M es una constante que depende del procedimiento seleccionado.
Sig. Se pone un asterisco junto a cualquier diferencia que sea estadsticamente

significativamente diferente de 0 al nivel de significancia seleccionado, i.e., cualquier
intervalo que no contenga al 0.
Para los datos de tasa de pulsacin, Tarea 4 tiene una tasa de pulsacin media significativamente
mayor que cualquier tarea excepto Tarea 3. Adems, Tarea 3 es significativamente mayor que
Tareas 5 y 6.
Panel de Opciones
Mtodo: el mtodo usado para hacer comparaciones mltiples.
Nivel de Confianza: el nivel de confianza usado para la comparacin mltiple seleccionada.
Los mtodos disponibles son:
LSD - forma un intervalo de confianza para cada par de medias al nivel de confianza
seleccionado usando:
M = t / 2 ,n q
(5)
donde t representa el valor de la distribucin t de Student con n - q grados de libertad

dejando un rea de /2 en la cola superior de la curva. Este procedimiento se debe a
Fisher y es llamado el procedimiento de la Diferencia Menos Significativa, ya que la
magnitud de los lmites indica la diferencia ms pequea entre cualesquiera dos medias
que puedan ser declaradas para representar una diferencia estadsticamente significativa.
Esto slo debe usarse cuando la F-prueba en la tabla ANOVA indique diferencias
significativas entre las medias muestrales. La probabilidad de hacer un error Tipo I
aplica a cada par de medias de manera separada. Si se hace ms de una comparacin, la
probabilidad total de llamar al menos a un par de medias significativamente diferentes
cuando no lo son puede ser considerablemente mayor que .
Tukey HSD ensancha los intervalos para permitir comparaciones mltiples entre todos
los pares de medias, usando
(6)
M = T/2,q,n-q
que usa la t de Tukey en vez de la t de Student. La t de Tukey es igual a 1 / 2 veces el

rango de la distribucin Studentizada, que es tabulada en algunos libros como en Neter et
al. (1996). Tukey llam a su procedimiento el de Diferencia Honestamente Significativa
ya que controla la tasa de error experimental a . Si todas las medias son iguales, la
probabilidad de declarar a cualquiera de los pares como significativamente diferentes en
todo el experimento es igual a . El procedimiento de Tukey es ms conservador que el
procedimiento LSD de Fisher, pues hace ms difcil declarar cualquier par particular de
medias como significativamente diferentes.
Scheffe diseado para permitir la estimacin de todos los posibles contrastes entre las
medias muestrales (no solo en comparaciones por pares). Usa una mltiple relacionada
con la distribucin F.
M =
(q 1)F ,q 1,nq
(7)
En esta instancia, es probable que el procedimiento sea muy conservador, pues slo se
estn estimando pares.
Bonferroni diseado para permitir la estimacin de cualquier nmero preseleccionado

de contrastes. En este caso, usa una mltiple igual a

M = t /( q ( q 1)),n q
(8)
pues q(q-1)/2 se estn estimando diferencias por pares. Estos lmites son usualmente ms
anchos que los de Tukey cuando se hacen todas las comparaciones por pares.
Student-Newman-Keuls A diferencia de los mtodos previos, ste no crea intervalos

para las diferencias por pares. En vez de eso, ordena las medias en orden creciente y
luego comienza a separarlas en grupos de acuerdo a valores del rango distribucin
Studentizada. Eventualmente, las medias se separan en grupos homogneos en los que no
hay diferencias significativas.
Duncan similar al procedimiento Student-Newman-Keuls, excepto que usa un valor

crtico distinto al rango de la distribucin Studentizada al definir los grupos homogneos.
Una discusin detallada de los procedimientos de Duncan y de Student-Newman-Keuls la
dan Milliken y Johnson (1992).
La eleccin entre un procedimiento LCD y uno de mltiples comparaciones como el HSD de

Tukey debe depender del costo relativo de hacer un error Tipo I (llamar diferentes a un par de
medias que realmente no lo son) contra el costo de hacer un error Tipo II (no llamar diferentes a
un par de medias que s lo sean). En las primeras etapas de una investigacin, tal vez uno no
quiera ser tan conservador como cuando ya se han hecho las verificaciones finales.
Tabla de Medias
Esta tabla despliega cada media muestral junto a un intervalo de incertidumbre:
Tabla de Medias con intervalos de confianza del 95.0%
Error Est.
Casos Media
(s agrupada) Lmite Inferior
Tarea 1 13
31.9231
1.54184
29.7437
Tarea
2
12
31.0833
1.6048
28.815
El tipo de intervalo desplegado depende del Panel
Tarea 3 10
35.8
1.75797
33.3151
Tarea 4 10
38.0
1.75797
35.5151
Panel
Tarea 5de Opciones
12
29.5
1.6048
27.2316
Tarea 6 11
28.8182
1.67616
26.449
Total
68
32.3088
Lmite Superior
34.1024
de33.3517
Opciones.
38.2849
40.4849
31.7684
31.1874
Intervalos: el mtodo usado para construir los intervalos.
Nivel de Confianza: el nivel de confianza asociado a cada intervalo.
Los tipos de intervalos que pueden seleccionarse son:
Ninguno no se despliega ningn intervalo.
Errores Estndar (S agrupada) despliega los errores estndar usando la desviacin

estndar intramuestral acumulada:
Yj
sj2
(10)
nj
Intervalos de Confianza (S agrupada) despliega intervalos de confianza para el grupo

Medias usando la desviacin estndar intramuestral acumulada:
Y j t / 2 , n q
(9)
Errores Estndar (S individual) - despliega los errores estndar usando la desviacin

estndar de cada muestra separadamente:
Yj
MS within
nj
MS within
nj
(11)
Intervalos de Confianza (S individual) - despliega intervalos de confianza para el grupo

Medias usando la desviacin estndar de cada grupo separadamente:

Y j t / 2,n j 1
sj
nj
(12)
Intervalos LSD - diseados para comparar cualquier para de medias con el nivel de
confianza establecido. Los intervalos estn dados por:
Yj
2M
2
MS within
nj
(13)
donde M se define como en las Pruebas de Rango Mltiple. Esta frmula tambin aplica
para las tres selecciones de abajo.
Intervalos Tukey HSD - diseados para comparar todos los pares de medias. El
intervalo de confianza establecido aplica para toda la familia de comparaciones por pares:
Intervalos Scheffe - diseados para comparar todos los contrastes. No son muy
relevantes aqu.
Intervalos Bonferroni - diseados para comparar un nmero seleccionado de contrastes.

Los intervalos de Tukey son usualmente ms ajustados.
Grfica de Medias
Las medias muestrales pueden ser graficadas junto a los intervalos de incertidumbre:
Medias y 95.0% de Fisher LSD
41
Media
38
35
32
29
26
Los tipos de intervalos que pueden usarse son los mismos que en la Tabla de Medias arriba.
Si todos los tamaos de muestra son los mismos (o cercanos), el analista puede determinar cules
medias son significativamente diferentes de cules otras usando los procedimientos LSD, Tukey,
Scheffe o Bonferroni simplemente viendo si un par de intervalos se traslapan en direccin
vertical o no. Un par de intervalos que no se traslapan indica una diferencia estadsticamente

significativa entre las medias al nivel de confianza seleccionado. En este caso, note que el
intervalo de la tarea 4 se traslapa solo con el de la tarea 3, indicando que es significativamente
diferente de todas las dems tareas.
Verificacin de Varianza.
Una de las suposiciones que respaldan el anlisis de varianza es que las varianzas de las
poblaciones de donde se tomaron las muestras son las mismas. El panel Verificacin de Varianza
realiza alguna de varias pruebas para verificar esta suposicin.
Verificacin de Varianza
Prueba
Valor-P
Levene's 0.641611
0.668799
La hiptesis a probarse ser:

Hiptesis Nula: todas las j son iguales
Hiptesis Alt.: no todas las j son iguales
Las cuatro pruebas son:

1. Prueba de Cochran: compara la varianza mxima dentro de la muestra con la varianza
muestra promedio. Un P-valor menor que 0.05 indica una diferencia significativa entre
las desviaciones estndar dentro de la muestra a un nivel de significancia del 5%. La
prueba es apropiada slo si todos los grupos son del mismo tamao.
2. Prueba de Bartlett: compara un promedio ponderado de las varianzas dentro de la
muestra con su media geomtrica. Un P-valor menor que 0.05 indica una diferencia
significativa entre las desviaciones estndar dentro de la muestra a un nivel de
significancia del 5%. La prueba es apropiada tanto para grupos del mismo tamao como
para grupos de tamao distinto.
3. Prueba de Hartley: calcula el cociente entre la varianza muestral ms grande y la ms
pequea. Este estadstico debe compararse con una tabla de valores crticos, como la

contenida en Neter et al. (1996). Para 6 muestras y 62 grados de libertad para error
experimental, H se hubiera excedido aproximadamente 2.1 para ser estadsticamente
significativo a un nivel de significancia del 5%. Nota: esta prueba slo es apropiada si el
nmero de observaciones entre cada nivel de tratamiento es el mismo.
4. Prueba de Levene: realiza un anlisis de varianza de una va en las variables.
Z ij = y ij y j
(14)
El estadstico tabulado es el F estadstico de la tabla ANOVA.

Para los datos de tasa de pulsacin, no hay razn para rechazar la suposicin de que las
desviaciones estndar son las mismas para todos los grupos, ya que los P-valores son mayores
que 0.05. Cualquier diferencia aparente entre las desviaciones estndar muestrales no es
estadsticamente significativa a un nivel de significancia del 5%.
Grficas de Residuales
Como en todo modelo estadstico, es una buena costumbre examinar los residuales. En un
anlisis de varianza de una va, los residuales se definen por:
eij = y ij y j
(15)
i.e., los residuales son las diferencias entre los valores de datos observados y sus respectivas
medias grupales.
El procedimiento Comparacin de Muestras Mltiple crea 3 grficas de residuales:
1. contra indicador muestral.
2. contra valor predicho.
3. contra nmero de observacin.
Residuales contra Muestras
Esta grfica es de ayuda para visualizar cualquier diferencia en la variabilidad de las muestras.

Grfico de Residuos
12
residuos
8
4
0
-4
-8
-12
Task 1
Task 2
Task 3
Task 4
Task 5
Task 6
muestra
El residual promedio en cada grupo es igual a 0.

Residuales contra Predicho
Esta grfica es de ayuda para detectar cualquier heteroescedasticidad en los datos.
Grfico de Residuos
12
residuos
8
4
0
-4
-8
-12
28
30
32
34
valor predicho
36
38
La heteroescedasticidad ocurre cuando la variabilidad de los datos cambia como lo hace la

media, y puede necesitarse transformar los datos antes de realizar el ANOVA. Usualmente es
evidenciado por un patrn de forma de embudo en la grfica de residuales.
Residuales contra Observacin
Esta grfica muestra los residuales contra el nmero de fila en la hoja de datos:

Grfico de Residuos
12
residuos
8
4
0
-4
-8
-12
0
20
40
observacin
60
80
Si los datos se arreglan en orden cronolgico, cualquier patrn de los datos puede indicar una
influencia exterior. No es evidente ningn patrn as en la grfica de arriba.
Grfica de Anlisis de Medias (ANOM)

Si el nmero de muestras est entre 3 y 20, en la Grfica de Anlisis de Medias o Grfica
ANOM, se presenta una aproximacin de alguna manera distinta a la comparacin de medias:
Grfico ANOM
Con 95% Lmites de Decisin
Media
39
LDS=36.38
37
LC=32.31
35
LDI=28.24
33
31
29
27
Esta grfica construye una tabla similar a un cuadro de control, donde cada media muestral se
grafica junto a una lnea central y los lmites de decisin superiores e inferiores. La lnea central
se localiza en el promedio de todas las observaciones Y . Los lmites de decisin se localizan en
Y hn q ,1
MS within
nj
q 1
(16)

donde h es un valor crtico obtenido de una tabla de la distribucin t multivariada. El cuadro
prueba la hiptesis nula de que todas las medias muestrales son iguales que la media. Cualquier
media que caiga fuera de los lmites de decisin indica que la media correspondiente difiere
significativamente de la media total.
La ventaja de la grfica ANOM es que muestra de un vistazo qu medias son significativamente
diferentes que el promedio de todas las muestras. Tambin lo hace usando un tipo de cuadro con
el que muchos ingenieros y operadores estn familiarizados. Es fcil ver a partir del cuadro de
arriba que la tarea 4 tiene una tasa de pulsacin significativamente mayor que el promedio,
mientras que todas las dems medias caen dentro de los lmites de decisin. El procedimiento es
exacto si todos los tamaos de muestra son iguales y es aproximado si no difieren mucho.
Panel de Opciones
Nivel de Confianza: nivel usado para posicionar los lmites de decisin.
Nmero de Decimales para Lmites: nmero de decimales mostrados al desplegar los

lmites de decisin.
Pruebas de Wruskal-Wallis y Friedman

Una alternativa para el anlisis estndar de varianzas que compara medianas de grupo en lugar
de medias es la Prueba Kruskal-Wallis. Esta prueba es mucho menos sensible a la presencia de
puntos lejanos que lo que es una ANOVA de una va y debe usarse cada vez que la suposicin de
normalidad dentro de las muestras no sea razonable. sta prueba las hiptesis:
Hiptesis Nula: todas las medianas de grupo son iguales.
Hiptesis Alt.: no todas las medianas de grupo son iguales.
La prueba es conducida por:

1. Ordenar todos los n valores del ms pequeo al ms grande y clasificarlos, asignando
rango de 1 al ms pequeo y de n al mayor. Si dos observaciones cualesquiera son
exactamente iguales, a las observaciones empatadas se les da el mismo rango que al
promedio de las posiciones a las que ocurre el empate.

2. Calcular los rangos promedio de las observaciones dentro de cada grupo R j .
3. Calcular un estadstico de prueba para comparar las diferencias entre los rangos
promedio.
4. Calcular un P-valor para probar las hiptesis.
El resultado se muestra abajo:
Prueba Kruskal-Wallis
Tamao de Muestra
Rango Promedio
Tarea
1 13 = 15.9995 P-Valor=33.3846
Estadstico
0.00684551
Tarea 2 12
30.5833
Tarea 3 10
46.4
P-valores
pequeos (menores
que 0.05 si se opera a un nivel de significancia del 5%) indica
Tarea 4 10
50.35
hay
diferencias
significativas26.7083
entre las medianas de grupo, como en el ejemplo de arriba.
Tarea
5 12
Tarea 6 11
23.3636
que
Panel de Opciones
Mtodo: procedimiento a usar para comparar las medianas. Kruskal-Wallis es apropiado al

comparar q muestras independientes. Friedman es apropiado al analizar un experimento en
bloques, i.e., cuando los datos de cada fila corresponden a la misma unidad o bloque
experimental.
La prueba Friedman es apropiada para un diseo aleatorio de bloques, en el que cada fila de la
hoja de datos representa una condicin o bloque particular. En este ejemplo, esto aplicara si los
mismos 13 sujetos hubiesen realizado cada una de las 6 tareas, en lugar de diferentes sujetos para
cada tarea. El resultado de la prueba Friedman es interpretada de la misma manera que el de la
prueba Kruskal-Wallis.
Prueba de la Medianas de Mood

La Prueba de la Mediana de Mood es otro mtodo de determinar si las medianas de todos los q
grupos son iguales o no. Es menos sensible a puntos lejanos que la de Kruskal-Wallace, pero
tambin es menos poderosa cuando los datos vienen de distribuciones como la normal. El
resultado se muestra abajo.
Prueba de la Mediana de Mood
Total n = 68
Gran mediana = 31.0
Muestra
Tarea 1
Tarea 2
Tarea 3
Tarea 4
Tarea 5
Tarea 6
Tamao de Muestra
13
12
10
10
12
11
n<=
7
8
2
2
8
8
n>
6
4
8
8
4
3
Mediana
31.0
29.5
34.0
37.0
29.0
28.0
LC inferior 95.0%
27.0
25.0
30.3244
28.9733
21.5318
23.8509
LC superior 95.0%
38.6056
39.6809
44.0
46.3511
34.8936
35.5745
Estadstico = 12.168 P-Valor= 0.0325567
Arriba de la tabla se despliega el nmero total de observaciones n y la mediana total. Para cada
muestra la tabla muestra:
1. Tamao de Muestra: El nmero de observaciones en la muestra nj.
2. n<=: de las observaciones en la muestra, cuntas son menores o iguales que la mediana
total.
3. n>: de las observaciones en la muestra, cuntas son mayores o iguales que la mediana
total.
4. Mediana: la mediana muestral.
5. CL: los lmites de confianza superior e inferior para la mediana de la poblacin de donde
vino la muestra.
Abajo de la pantalla se muestra un estadstico de prueba y un P-Valor. Tratando los n<= y las n>
columnas como columnas de una tabla de contingencia de dos vas, se calcula un estadstico de
prueba ji-cuadrada. P-Valores pequeos (menores que 0.05 operando a un nivel de significancia
del 5%) llevan a la conclusin de que no todas las medianas son iguales, como en este ejemplo.
Panel de Opciones
Nivel de Confianza: nivel usado para los lmites de confianza.
Grfico de Medianas
El Grfico de Medianas despliega los intervalos de confianza para las medianas desplegadas por
el panel Prueba de la Mediana de Mood.
Grfico de Medianas con Intervalos del 95.0% de Confianza
51
respuesta
46
41
36
31
26
21
Panel de Opciones
Nivel de Confianza: nivel usado para los lmites de confianza.
Guardar Resultados
Los siguientes resultados pueden guardarse en la hoja de datos:
1.
2.
3.
4.
Recuentos los q tamaos de muestra nj.

Medias las q medias muestrales.
Medianas las q medianas muestrales.
Desviaciones Estndar las q desviaciones estndar muestrales
5. Errores Estndar los errores estndar de cada media muestral, MS within / n j .

6. Etiquetas una etiqueta para cada muestra.
7. Residuales los n residuales.
8. Rangos los q rangos muestrales.
9. Columna de Datos las n observaciones arregladas en una sola columna.
10. Columna Cdigos n cdigos que identifican la muestra correspondiente a cada
observacin en la Columna de Datos.

Clculos
Anlisis de Varianza
Fuente
Intergrupa
l
Intragrupa
l
Suma de Cuadrados
q
SS between = n j Y j Y
j =1
nj
SS within = Yij Y j
j =1 i = 1
nj
SS total = Yij Y
Total
j =1 i =1
D.F.
Media
cuadrtica
df between = q 1
df within = n j 1
j =1
MSbetween =
SSbetween
df between
MS within =
SS within
df within
F-Radio
F=
MSbetween
MSwithin
n-1
Prueba de Cochran
El estadstico desplegado se calcula por

A=
( )
max s 2j
q
s
j =1
(17)
2
j
Para probar significancia estadstica,

A
C = ( q 1)
1 A
(18)
es comparada con una F distribucin con (n/q - 1) y (n/q - 1)(q - 1) grados de libertad.
Prueba de Bartlett
El estadstico desplegado se calcula por

q
1
B = ( dfe) ln( MSE ) (n j 1) ln s 2j
C
j =1
( )
(19)
donde

C = 1+
q
n j 1
3( q 1) j =1
MSE =
1 q
n 1 s 2j
dfe j =1 j
dfe
(20)
(21)
dfe = n j 1
j =1
(22)
B es comparada con una distribucin ji-cuadrada con (q-1) grados de libertad.
Prueba de Hartley
H=
( )
min (s )
max s 2j
2
j
(23)
Lmites de Confianza de Medianas
Los lmites desplegados son una interpolacin no lineal de intervalos de confianza a los niveles
de confianza superior e inferior ms cercanos que el nivel requiera. Luego de ordenar las
observaciones, el intervalo que va de la d-sima observacin ms pequea en la muestra a la dsima observacin ms grande forma un intervalo de confianza para la mediana con un nivel de
confianza 1 2 PB(d-1), donde PB representa la distribucin binomial con p = 0.5 y n = nj.

Comparacion de Varias Muestras

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Comparacion de Varias Muestras

Hochgeladen von

Copyright:

Verfügbare Formate

STATGRAPHICS Rev.

Comparacin de Varias Muestras

StatFolio Muestra: multiple samples.sgp

2006 por StatPoint, Inc.

Comparacin de Varias Muestras - 1

STATGRAPHICS Rev. 4/d/yyyy

2006 por StatPoint, Inc.

Comparacin de Varias Muestras - 2

STATGRAPHICS Rev. 4/d/yyyy

Mltiples Columnas de Datos

STATGRAPHICS Rev. 4/d/yyyy

Seleccionar: subconjunto a seleccionar.

Columnas Datos y Cdigo

Datos: columna numrica que contiene observaciones de todas las muestras.

Cdigos de Nivel: columnas numricas o no numricas que contienen un identificador para

Seleccionar: subconjunto a seleccionar.

Luego complete el segundo cuadro de dilogo como se muestra a continuacin.

Comparacin de Varias Muestras - 4

STATGRAPHICS Rev. 4/d/yyyy

Desviaciones estndar muestrales: columna numrica que contiene las desviaciones

Seleccionar: subconjunto a seleccionar.

Resumen del Anlisis

Tambin se despliegan los valores ms alto y ms bajo.

Comparacin de Varias Muestras - 5

STATGRAPHICS Rev. 4/d/yyyy

2006 por StatPoint, Inc.

Comparacin de Varias Muestras - 6

STATGRAPHICS Rev. 4/d/yyyy

La mayora de los estadsticos pertenecen a una de las siguientes categoras:

Comparacin de Varias Muestras - 7

STATGRAPHICS Rev. 4/d/yyyy

Seleccione los estadsticos deseados.

Grfico de Caja y Bigotes

2006 por StatPoint, Inc.

Comparacin de Varias Muestras - 8

STATGRAPHICS Rev. 4/d/yyyy

Las grficas de caja y bigotes se construyen de la siguiente manera:

Se dibuja una lnea vertical en la mediana (valor medio).

Si se requiere, se coloca un signo de ms en el lugar de la media muestral.

2006 por StatPoint, Inc.

Comparacin de Varias Muestras - 9

STATGRAPHICS Rev. 4/d/yyyy

Direccin: la orientacin de la grfica, correspondiente a la direccin de los bigotes.

Muesca sobre la Mediana: Si se selecciona, se agrega un corte a la grfica mostrando el

Mostrar aberrantes: si se selecciona, indica la ubicacin de los aberrantes.

Mostrar Media: si se selecciona, muestra la ubicacin de la media muestral as como la

Ejemplo Grfica de caja y bigotes cortada.

Cada corte cubre el intervalo.

STATGRAPHICS Rev. 4/d/yyyy

2006 por StatPoint, Inc.

Comparacin de Varias Muestras - 11

STATGRAPHICS Rev. 4/d/yyyy

La tabla divide la variabilidad total de las n mediciones en dos componentes:

2006 por StatPoint, Inc.

Comparacin de Varias Muestras - 12

STATGRAPHICS Rev. 4/d/yyyy

2006 por StatPoint, Inc.

Comparacin de Varias Muestras - 13

STATGRAPHICS Rev. 4/d/yyyy

Pruebas de Rangos Mltiples

Casos el nmero de observaciones nj.

Media la media muestral estimada Yj .

2006 por StatPoint, Inc.

Comparacin de Varias Muestras - 14