Sie sind auf Seite 1von 40

Instituto Tecnolgico Superior de

Zacapoaxtla
Departamento de Desarrollo
Acadmico

Mara del Consuelo Valle Espinosa


Usaremos el anlisis de la varianza (ANOVA) para contrastar la
hiptesis nula de que las medias de distintas poblaciones coinciden.
Por ejemplo, en el caso de 5 poblaciones, el contraste a realizar
sera:

HO : 1 = 2 = ... = 5 vs. HA : no todas las medias poblacionales


son iguales

En la seccin anterior se estudi cmo se utiliza la distribucin t-


Student (o la Normal) para contrastar la hiptesis nula de que dos
medias poblacionales coinciden. Usando esta tcnica, podramos
realizar los siguientes 10 contrastes la hiptesis nula anterior:
En este caso, rechazar cualquiera de las 10 hiptesis
nulas implicara rechazar la hiptesis nula inicial de
que las cinco medias coinciden. Por el contrario, si no
rechazsemos ninguna de las 10 hiptesis, tampoco
rechazaramos la hiptesis inicial. El problema de este
mtodo es doble:

Por un lado, se requiere de un mayor esfuerzo


computacional,

Al hacer un mayor nmero de contrastes aumenta el


error de tipo I (la probabilidad de rechazar la
hiptesis nula
siendo sta cierta).

El uso de las tcnicas ANOVA nos permiten eludir


ambos problemas.
El objetivo principal de muchos experimentos
consiste en determinar el efecto que sobre alguna
variable dependiente Y tienen distintos niveles de
algn factor X (variable independiente y discreta). El
factor puede ser la temperatura, la empresa que ha
producido el
bien, el da de la semana, etc.

Esencialmente, el diseo para el anlisis simple de la


varianza consistir en obtener muestras aleatorias e
independientes del valor de Y asociado a cada uno de
los distintos niveles del factor X1, X2,..., Xn .
Entonces podremos determinar si los diferentes
niveles del factor tienen un efecto significativo sobre
el valor de la variable dependiente.
El funcionamiento de la tcnica ANOVA simple es, a
grandes rasgos, es el siguiente:

A fin de comparar las medias de Y asociadas a los


distintos niveles del factor (X1, X2,..., Xn),
compararemos una medida de la variacin entre
diferentes niveles (MS-factor) con una medida de la
variacin dentro de cada nivel (MS-error).

Si el MS-factor es significativamente mayor que el MS-


error, concluiremos que las medias asociadas a
diferentes niveles del factor son distintas. Esto
significa que el factor influye significativamente
sobre la variable dependiente Y. Si, por el contrario, el
MS-factor no es significativamente mayor que el MS-
error, no rechazaremos la hiptesis nula de que todas
las medias, asociadas a diferentes niveles del factor,
coinciden.
El modelo asociado al i-simo nivel del factor X ser:
Y = i +
donde:

Los errores estn normalmente distribuidos con


media 0
Los errores son independientes
Los errores tienen varianza constante 2

Para verificar estos supuestos suele ser til realizar un grfico


que muestre la distribucin de las observaciones por niveles: si
en el grfico se aprecian diferencias entre niveles por lo que a
la variacin de las observaciones se refiere, es muy probable
que tengamos un problema con el supuesto de varianza
constante; si aparecen valores extremos, puede que no se
cumpla el supuesto de normalidad; por otra parte, si el tiempo
fuese un factor importante a la hora de registrar
observaciones, podra ocurrir que observaciones consecutivas
estuviesen correlacionadas, con lo que no se cumplira el
supuesto de independencia.
Ejemplo:
Se realiza un estudio para comparar la eficiencia
de tres programas teraputicos para el
tratamiento del acn. Se emplean tres mtodos y
se comparan respecto a su eficacia.

N = 35 pacientes
k = 3 tratamientos a comparar.
Se obtienen tres muestras independientes y
aleatorias de tamaos:
n 1 = 10,
n 2 = 12 y n 3 = 13
Factor : Niveles :
El factor que interesa es el Se est estudiando tres
tipo de tratamiento. tratamientos; de este
Ningn otro factor, tal como modo el experimento est
edad, tipo de piel, hbitos
dietticos o sexo del diseado para tres niveles.
paciente, se consideran.

Aleatoriedad :
La distribucin de personas en cada subgrupo se ha
realizado en forma aleatoria e independiente, extradas
de las poblaciones con respuestas medias:
1 2 3
Se quiere comparar la hiptesis nula de que los
tratamientos tienen el mismo efecto medio:

H0 :1=2 =3
(no hay diferencia en los efectos medios de los
tratamientos)

Ha :i j
(al menos una media difiere de las otras)
Nivel del factor Las respuestas
(tratamiento recibido)
Nivel I Nivel II Nivel III observadas son el
48.6 68 67.5 porcentaje de mejoras
49.4 67 62.5 registradas por
50.1 70.1 64.2
49.8 64.5 62.5
paciente en el nmero
50.6 68 63.9 de lesiones por acn al
50.8 68.3 64.8 final de 16 semanas del
47.1
52.5
71.9
71.5
62.3
61.4
tratamiento.
49 69.9 67.4
46.7 68.9 65.4
67.8 63.2
68.9 61.2
60.5
Media muestral de
respuestas al
tratamiento I = 49.46
Media muestral de Nivel del factor
(tratamiento recibido)
respuestas al Nivel I Nivel II Nivel III
48.6 68 67.5
tratamiento II = 68.73 49.4 67 62.5
50.1 70.1 64.2
Media muestral de 49.8
50.6
64.5
68
62.5
63.9
respuestas al 50.8
47.1
68.3
71.9
64.8
62.3
tratamiento III= 63.60 52.5
49
71.5
69.9
61.4
67.4

Media muestral de
46.7 68.9 65.4
67.8 63.2

todas las respuestas = 68.9 61.2


60.5

61.23 494.6 824.8 826.8 2146.2


49.46 68.73 63.6 61.32
Si los tratamientos (niveles del factor) no tienen
efecto, entonces sus medias seran la misma que
la media global. Si algn tratamiento tiene
efecto, la diferencia entre los resultados de este
tratamiento y la media global indicar tal efecto.

Dentro de cada uno de los tres subgrupos hay


cierta variabilidad natural de la respuesta de
cada persona en torno a la respuesta de su
subgrupo. Esta diferencia se conoce como error
aleatorio.
La desviacin de la respuesta que experimenta
cada individuo involucrado en el experimento
con respecto a la respuesta global (de los tres
tratamientos) se puede dividir en dos
componentes:


La desviacin de la La desviacin de
respuesta del su su propia
subgrupo con respuesta con
respecto a la respecto a la
respuesta global. respuesta de su
subgrupo
Sustituyendo las medias estimadas en el modelo
conceptual anteriormente expuesto obtenemos:
Si se eleva al
cuadrado cada
identidad del
modelo lineal
y se suman
las respuestas
de TODOS los
individuos
involucrados
en el
experimento
se obtiene
Cuadrado medio de los
tratamientos.

Cuadrado medio del


error
La respuesta de cada uno de los individuos (no
importando que tratamiento se le haya aplicado)
es casi igual a la respuesta global. Tomado en
cuenta los nuevos estadsticos en esta hiptesis
tenemos:

MSStotal 0

Esto es:
MSStr MSSE
Para que Ho sea cierta,
esperamos que MSTr y MSE
estn prximos; si Ho no
es cierta, esperamos que
MSTr sea mayor que MSE

Por lo que para poder


contrastar Ho se utiliza el
cociente de MSTR / MSE
que tiene una distribucin
de probabilidad F con k-1
y N -k grados de libertad
Nivel I Nivel II Nivel III
x1j (x1j-Xm1)^2 x2j (x2j-Xm2)^2 x3j (x3j-Xm3)^2

48.6 0.7396 68 0.5329 67.5 15.21


49.4 0.0036 67 2.9929 62.5 1.21
50.1 0.4096 70.1 1.8769 64.2 0.36
49.8 0.1156 64.5 17.8929 62.5 1.21
50.6 1.2996 68 0.5329 63.9 0.09
50.8 1.7956 68.3 0.1849 64.8 1.44
47.1 5.5696 71.9 10.0489 62.3 1.69
52.5 9.2416 71.5 7.6729 61.4 4.84
49 0.2116 69.9 1.3689 67.4 14.44
46.7 7.6176 68.9 0.0289 65.4 3.24
suma 67.8 0.8649 63.2 0.16
Media M1 27.004 68.9 0.0289 61.2 5.76
49.46 Media M2 suma 60.5 9.61
68.73 44.0268 Media M3 suma
Media total 63.6 59.26
61.32
10*(Xm1-Xmt)^2 SSe
1406.596 130.2908 MSe
12*(Xm2-Xmt)^2 4.0715875
658.8972
13*(Xm3-Xmt)^2 F en tablas
67.5792 2 , 32 gl
SStr F observado alfa = .01
2133.0724 MStr 261.946035 5.33634291
1066.5362
Se acostumbra sintetizar los resultados ms
importantes del Anlisis de Varianza en un
cuadro ANOVA tal como sigue:

Referencia DF SS MS F
Tratamiento 2 2133.6 1066.8 262.1
Error 32 130.3 4.07
Total 34 2263.96
El punto crtico para un contraste con alfa = 0.01
es aproximadamente 5.39.

Puesto que el valor observado de F es 262.12 es


mucho mayor que 5.39.

Tenemos prueba estadstica de que los tres


tratamientos difieren en el efecto medio.
Anlisis de varianza de dos factores con una sola muestra por
grupo

Suponga que usted haya experimentado con levadura para


una receta de panes dulces. Parece ser que la cantidad de
azcar y la temperatura del agua afectan el tamao de los
panes. Basndose en los siguientes datos, realizar un
anlisis de varianza para averiguar lo que es significativo de
estas recetas.
El resultado del ANOVA (Anlisis de varianza) indica el valor
estadstico de la "F." En este caso el valor de la "F" por las
filas (cantidad de azcar) es 23.15.

Para saber si estos resultados son significativos (o sea, si la


probabilidad "P" tiene un valor menor a 0.05), el valor de la
"F" observado necesita ser al menos 6.94 (o sea, el valor
crtico de la F).

Entonces, como el valor de "F" observado es de 23.15 y es


mucho mayor que el valor crtico de la F (6.94), estamos
seguros que los resultados de nuestras pruebas son
significativas.

El valor de la "F" para las columnas (temperatura del agua)


es igual a 378.53. Esto es tambin significativo, porque el
valor de "F" crtico es solamente 6.94.

En otras palabras, existe una relacin significativa en la


cantidad de azcar, la temperatura del agua y el tamao de
los panes dulces. La probabilidad muestra a qu nivel los
resultados son estadsticamente significativos.
Suponga que usted tenga un restaurante y haya creado
una nueva receta de salsa para las enchiladas.

Por alguna razn parece ser que a sus clientes varones


les gusta ms la salsa anterior que la nueva.

Pero tambin parece ser que a sus clientes femeninas


prefieren la nueva salsa que la anterior.

Usted decide realizar una prueba con un grupo de 10


mujeres y 10 varones dndole a probar las dos
salsas, basndose en una escala de 100 puntos para el
sabor de las dos salsas.

Existe alguna relacin significativa desde el punto de


vista de los clientes varones y clientes femeninas y cmo
ven la nueva y la anterior salsa para las enchiladas?
hombres mujeres
85 69
74 65
reseta 96 63
nueva 62 70
80 72
78 59
90 64
79 70
85 68
80 73
68 85
reseta 64 75
anterior 62 97
69 80
73 88
61 81
64 91
72 83
70 84
71 82
NOTA: para que en EXCEL trabaje correctamente el algoritmo
hay que incorporar a la matriz de datos la fila y la columna de
ttulos.
Anlisis de varianza de dos factores con varias muestras por grupo

RESUMEN hombres mujeres Total

Cuenta 10 10 20
Suma 809 673 1482
Promedio 80.9 67.3 74.1

Varianza 84.7666667 19.5666667 98.0947368

Cuenta 10 10 20
Suma 674 846 1520
Promedio 67.4 84.6 76

Varianza 18.7111111 38.0444444 104.736842

Total
Cuenta 20 20
Suma 1483 1519
Promedio 74.15 75.95

Varianza 96.9763158 106.05

ANLISIS DE VARIANZA

Origen de las Suma de Grados de Promedio de Valor crtico


variaciones cuadrados libertad los cuadrados F Probabilidad para F

Muestra 36.1 1 36.1 0.8963995 0.35006116 4.11316528

Columnas 32.4 1 32.4 0.80452476 0.3757033 4.11316528

Interaccin 2371.6 1 2371.6 58.8892261 4.3769E-09 4.11316528


Dentro del
grupo 1449.8 36 40.2722222

Total 3889.9 39
El resultado del ANOVA (Anlisis de varianza) indica el
valor estadstico de la "F." En este caso el valor de la "F"
de la muestra (receta anterior y receta nueva) es 0.896.

Para saber si estos resultados son significativos (o sea,


si la probabilidad "P" tiene un valor menor a 0.05), el
valor de la "F" necesita ser al menos 4.11 (o sea, el valor
crtico de la F).

Entonces, como el valor de nuestra "F" es de 0.896 y es


no es mayor que el valor crtico de la F, no podemos
decir que existe alguna diferencia significativa.

Sin embargo, a la vez necesitamos interpretar qu


significa el valor de F que est relacionado al efecto de
una interaccin. Siempre un efecto de interacin
sobrepasa el efecto principal.
En este caso tenemos un gran efecto de interaccin (el
valor de la "F"=58.89).

En otras palabras, s existe una diferencia significativa


entre la opinin de los hombres y de las mujeresa
relacionada a la receta anterior y a la nueva.

La probabilidad demuestra a qu nivel los resultados son


estadsticamente significativos.
Referencias:

http://www.uoc.edu/in3/emath/

http://www.laits.utexas.edu/orkelm/excel/EXCEL/ANOVA
2ONE.HTM

http://www.laits.utexas.edu/orkelm/excel/EXCEL/ANOVA
2MANY.HTM

Das könnte Ihnen auch gefallen