Beruflich Dokumente
Kultur Dokumente
Objetivo: Proponer un modelo y un test estadstico para estudiar si existen diferencias significativas en el comportamiento de una variable en ms de dos poblaciones 1. Comparacin de poblaciones con ANOVA 2. Modelo unifactorial 3. Comparaciones mltiples g de las hiptesis p del modelo unifactorial 4. Diagnstico 5. Metodologa para la aplicacin del modelo unifactorial
Ana Justel
1. Comparacin de poblaciones con ANOVA La tcnica estadstica conocida como ANLISIS DE LA VARIANZA (ANOVA) trata de cmo determinar si un fenmeno, que podemos cuantificar, tiene el mismo comportamiento en todos los grupos de una poblacin, que se diferencian entre s por algn FACTOR Ejemplos: Ejemplos :
Ejemplo de calidad ambiental Se realizan 24 pruebas de 4 materiales para construir la capa superficial del firme, los materiales se asignan al azar. En cada prueba b se mide id un indicador i di d de d la l calidad lid d ambiental bi t l del d l material t i l (cuanto ms alto est el indicador, mayor es la calidad)
En este experimento, el MATERIAL 3 es el mejor, pero estamos seguros de que los materiales no son todos el mismo?
Comparacin de poblaciones
Sorteo Grupos
3 2 1 1 2 3 1 2 3
A B C
1 2 3
C A B B A C B A C
4
Comparacin de poblaciones
Ana Justel
Comparacin de poblaciones
El diseo es DESEQUILIBRADO cuando, para cada nivel del factor, se mide la variable respuesta en un nmero distinto de individuos
6
G1 G2
G3
G1 G2
G3
Las diferencias entre las medias son grandes comparadas con l las diferencias dif i entre t los l datos d t dentro d t de d cada d grupo? ?
Idea del test ANOVA: ANOVA: Comparar la variabilidad entre las medias con la variabilidad en el experimento (variabilidad dentro de cada grupo)
7
Comparacin de poblaciones
Test ANOVA
H0: Las respuestas medias son iguales en todos los grupos H1: Las respuestas medias son distintas en al menos dos grupos
Comparamos la variabilidad entre las medias con la variabilidad en el experimento
Para evitar que la variabilidad dependa de las unidades de medida, se calcula el cociente
Idea del test ANOVA: ANOVA: Comparar la variabilidad entre las medias con la variabilidad en el experimento (variabilidad dentro de cada grupo)
8
Test ANOVA
H0: Las respuestas medias son iguales en todos los grupos H1: Las respuestas medias son distintas en al menos dos grupos
ANOVA Riesgo Suma de cuadrados . . . gl . . . Media cuadrtica . . F . Sig. p-valor.
H0: Las respuestas medias son iguales en los tres grupos H1: Las respuestas p medias son distintas en al menos dos g grupos p
ANOVA Los grupos son diferentes Suma de cuadrados 32,000 4,000 36,000 gl 2 9 11 Media cuadrtica 16,000 ,444 F 36,000 Sig. ,000
Rechazamos H0
ANOVA Los g grupos p son similares Suma de cuadrados 32,000 2852,000 2884,000 gl 2 9 11 Media cuadrtica 16,000 316,889 F ,050 Sig. ,951
No Rechazamos H0
10
Comparacin de poblaciones
11
Comparacin de poblaciones
12
2. Modelo unifactorial
Modelo: El modelo ms natural para comparar las medias de Modelo: I poblaciones distintas es el UNIFACTORIAL UNIFACTORIAL:
Ana Justel
13
Modelo unifactorial
Ana Justel
14
Modelo unifactorial
Ana Justel
15
Modelo unifactorial
Ana Justel
16
Modelo unifactorial
Ana Justel
17
Modelo unifactorial
18
Modelo unifactorial
Ana Justel
19
Modelo unifactorial
Test ANOVA
H0: Las respuestas medias son iguales en todos los grupos H1: Las respuestas medias son distintas en al menos dos grupos
En la tabla ANOVA se representa la idea de que la varianza se puede descomponer en las distintas fuentes que la originan
Para comparar dos poblaciones, poblaciones coincide con el test test-t t (tienen el mismo p p-valor) valor)
Ana Justel
20
pero no estamos seguros de que los indicadores medios sean realmente distintos. Para asegurarnos hacemos un test ANOVA
Audiencia Suma de cuadrados 228,000 112,000 340,000 gl 3 20 23 Media cuadrtica 76,000 5,600 F 13,571 Sig. Sig ,000
Hemos encontrado evidencia para rechazar H0 y afirmar que no todos d los l materiales l son iguales l Qu materiales son distintos entre s?
21
Modelo unifactorial
Cuestiones pendientes
Cmo medimos cunto explica el factor sobre las diferencias q q p queda sin explicar entre individuos y que Cuando encontramos evidencia de que no todos los grupos son iguales, cmo encontramos cules son distintos entre s? Los resultados que hemos obtenido dependen de que se cumplan unas hiptesis sobre cmo son los datos Factores fijos y factores aleatorios Cmo es la tabla ANOVA cuando queremos ver si varios factores influyen al mismo tiempo
22
Modelo unifactorial
Coeficiente de determinacin Cmo evaluamos si el modelo propuesto sirve para explicar la variabilidad en la respuesta? no sirve porque depende de las unidades de medida
es la proporcin de la variabilidad observada en los datos que queda explicada por el modelo
COEFICIENTE DE DETERMINACIN
R2=SCE/SCT
Ana Justel
23
Ejemplos arreglados
ANOVA Los grupos son diferentes Suma de cuadrados 32,000 4 000 4,000 36,000 gl 2 9 11 Media cuadrtica 16,000 ,444 444 F 36,000 Sig. ,000
24
Ejemplo de calidad ambiental Hemos encontrado evidencia de que el material influye en la calidad del firme
T1 T2 66 8 T3 T4 Media Varianza 61 3,33 68 2,8 61 6,85
Audiencia Suma de cuadrados 228 000 228,000 112,000 340,000 gl 3 20 23 Media cuadrtica 76 000 76,000 5,600 F 13 571 13,571 Sig. ,000 000
El material explica en un 67% las diferencias de calidad que se observan b en el l firme. fi Quedan d otras causas que explican li el l 33% restante, pero desconocemos cules son.
25
3. Comparaciones mltiples
C Comparaciones i d poblaciones de bl i d dos a dos d Cuando se rechaza con el test ANOVA, se busca qu grupos son distintos entre s haciendo COMPARACIONES MLTIPLES (pruebas Post hoc) (p ) dos a dos. Existen varias opciones p y la q que ms se usa es con CORRECCIN DE BONFERRONI
26
Comparaciones mltiples
Comparaciones dos a dos Si hay h evidencia id i para rechazar h la l hiptesis hi t i nula l podemos d preguntarnos son iguales los niveles medios de los grupos i y j?
OJO!!! no son el mismo contraste e intervalo que para la diferencias de medias con el t t t t-test
La varianza se estima con los datos de los 2 grupos y de los otros grupos, utilizamos la varianza residual Cambian los grados de libertad, que son n I
27
Comparaciones mltiples
Comparaciones dos a dos Si hay evidencia para rechazar la hiptesis nula y queremos encontrar qu grupos se diferencian entre si, debemos realizar tests para comparar todos los pares de medias
28
29
30
31
En un barrio de una ciudad que presenta altos niveles de contaminacin se analiza su efecto sobre la salud. Se estudia si la contaminacin t i i afecta f t por i igual l a nios, i adultos d lt y ancianos. i U Un exhaustivo control mdico a 5 personas de cada grupo de edad, elegidas al azar, da los siguientes resultados sobre un indicador de salud en aspectos relacionados con afecciones respiratorias y alrgicas Afecta la contaminacin de la misma manera a los tres grupos de edad? (son los
33
S di d d l d medios di i l para l ? Son l los i indicadores de salud iguales los t tres grupos?
34
Hay alguna evidencia CLARA en contra de alguna de las hiptesis del modelo que hemos asumido?
Para responder a esta pregunta disponemos de: Datos CONOCIMIENTO Para mirar a los datos disponemos de las herramientas grficas y de los tests
35
36
Ejemplos j p de PSEUDIOREPLICACIN: 1. Analizamos varias veces la misma muestra 2 Cuando utilizamos los mismos pacientes para aplicarles 2. distintos tratamientos 3. Hacemos muestreos en los mismos cuerpos de agua a lo largo del tiempo
37
38
Ejemplos j p de PSEUDIOREPLICACIN: 2. Cuando utilizamos los mismos pacientes para aplicarles distintos tratamientos
El paciente es un factor
39
Ejemplos de PSEUDIOREPLICACIN: 3 Hacemos muestreos en los mismos cuerpos de agua a lo 3. largo del tiempo
40
41
El l caso ms h habitual b l es cuando d l la variabilidad b l d d crece al l aumentar los niveles de respuesta observada
42
43
44
Soluciones cuando hay problemas de LINEALIDAD: 1. Separar los individuos en ms niveles 2. Localizar posibles outliers (datos atpicos) 3 Proponer un modelo con ms factores controlados 3.
45
Problemas de NORMALIDAD:
46
Soluciones cuando hay problemas de NORMALIDAD: 1. Cuando la distribucin es asimtrica, transformar la variable respuesta 2. Cuando se observa una distribucin bimodal, dividir los datos en dos niveles 3. Utilizar test no paramtricos de homogeneidad de poblaciones
47
Cuando alguna de estas caractersticas falla es porque las hiptesis p q que hemos asumido en los datos no son ciertas
48
49
50
51
En este modelo el test ANOVA para efectos aleatorios coincide con el de efectos fijos. No ocurre lo mismo en modelos ms complejos
52