Sie sind auf Seite 1von 52

TEMA 1: COMPARACIN DE POBLACIONES

Objetivo: Proponer un modelo y un test estadstico para estudiar si existen diferencias significativas en el comportamiento de una variable en ms de dos poblaciones 1. Comparacin de poblaciones con ANOVA 2. Modelo unifactorial 3. Comparaciones mltiples g de las hiptesis p del modelo unifactorial 4. Diagnstico 5. Metodologa para la aplicacin del modelo unifactorial

Ana Justel

1. Comparacin de poblaciones con ANOVA La tcnica estadstica conocida como ANLISIS DE LA VARIANZA (ANOVA) trata de cmo determinar si un fenmeno, que podemos cuantificar, tiene el mismo comportamiento en todos los grupos de una poblacin, que se diferencian entre s por algn FACTOR Ejemplos: Ejemplos :

A. Queremos ver si la produccin de un cultivo depende del


p de fertilizante tipo

B. Si las emisiones de gases de efecto invernadero dependen


del nivel de desarrollo de los pases

C. Si el porcentaje de cianobacterias entre las algas de un


embalse depende del punto de muestreo

Se comparan los niveles medios de respuesta en cada grupo


2

Ejemplo de calidad ambiental Se realizan 24 pruebas de 4 materiales para construir la capa superficial del firme, los materiales se asignan al azar. En cada prueba b se mide id un indicador i di d de d la l calidad lid d ambiental bi t l del d l material t i l (cuanto ms alto est el indicador, mayor es la calidad)

En este experimento, el MATERIAL 3 es el mejor, pero estamos seguros de que los materiales no son todos el mismo?

Comparacin de poblaciones

COMPARACIN DE K POBLACIONES o TRATAMIENTOS

Hacemos un experimento para tener datos

Sorteo Grupos

3 2 1 1 2 3 1 2 3

A B C

1 2 3

C A B B A C B A C
4

Comparacin de poblaciones

Elementos del diseo de experimentos


Variable respuesta, o explicada, o dependiente: dependiente: Variable cuantitativa asociada al fenmeno que nos interesa estudiar Variables experimentales o factores: factores: Conjunto de variables categricas que influyen en la respuesta y que se fijan a ciertos niveles antes del experimento Unidades experimentales: Individuos que intervienen en el experimento y que son observados a un nivel determinado de cada uno de los factores Tamao del experimento: experimento: Nmero experimentales en el experimento total de unidades

Ana Justel

Comparacin de poblaciones

COMPARACIN DE K POBLACIONES o TRATAMIENTOS


Los datos: Yij es la respuesta del j-simo simo individuo del grupo i-simo simo

El diseo es DESEQUILIBRADO cuando, para cada nivel del factor, se mide la variable respuesta en un nmero distinto de individuos
6

Unos ejemplos arreglados

G1 G2

G3

G1 G2

G3

Los grupos son diferentes


Medias

Los grupos son semejantes

Las diferencias entre las medias son grandes comparadas con l las diferencias dif i entre t los l datos d t dentro d t de d cada d grupo? ?

Idea del test ANOVA: ANOVA: Comparar la variabilidad entre las medias con la variabilidad en el experimento (variabilidad dentro de cada grupo)
7

Comparacin de poblaciones

Test ANOVA
H0: Las respuestas medias son iguales en todos los grupos H1: Las respuestas medias son distintas en al menos dos grupos
Comparamos la variabilidad entre las medias con la variabilidad en el experimento

Para evitar que la variabilidad dependa de las unidades de medida, se calcula el cociente

(Cuando H0 es cierta y con condiciones)

Idea del test ANOVA: ANOVA: Comparar la variabilidad entre las medias con la variabilidad en el experimento (variabilidad dentro de cada grupo)
8

Comparacin de varios grupos

Test ANOVA
H0: Las respuestas medias son iguales en todos los grupos H1: Las respuestas medias son distintas en al menos dos grupos
ANOVA Riesgo Suma de cuadrados . . . gl . . . Media cuadrtica . . F . Sig. p-valor.

Inter-grupos Intra-grupos Total

La tabla ANOVA en los ejemplos arreglados

H0: Las respuestas medias son iguales en los tres grupos H1: Las respuestas p medias son distintas en al menos dos g grupos p
ANOVA Los grupos son diferentes Suma de cuadrados 32,000 4,000 36,000 gl 2 9 11 Media cuadrtica 16,000 ,444 F 36,000 Sig. ,000

Rechazamos H0

Inter-grupos Intra-grupos Total

ANOVA Los g grupos p son similares Suma de cuadrados 32,000 2852,000 2884,000 gl 2 9 11 Media cuadrtica 16,000 316,889 F ,050 Sig. ,951

No Rechazamos H0

Inter-grupos Intra-grupos Total

10

Comparacin de poblaciones

HIPTESIS QUE ASUMIMOS QUE CUMPLEN LOS DATOS

HIPTESIS DEL MODELO

11

Comparacin de poblaciones

12

2. Modelo unifactorial

Modelo: El modelo ms natural para comparar las medias de Modelo: I poblaciones distintas es el UNIFACTORIAL UNIFACTORIAL:

Ana Justel

13

Modelo unifactorial

HIPTESIS QUE ASUMIMOS QUE CUMPLEN LOS ERRORES


Decir que los datos cumplen las hiptesis es lo mismo que decir que los errores son:

HIPTESIS DEL MODELO

Ana Justel

14

Modelo unifactorial

ESTIMACIN DE LOS PARMETROS DEL MODELO

Ana Justel

15

Modelo unifactorial

Ana Justel

16

Modelo unifactorial

Ana Justel

17

Modelo unifactorial

18

Modelo unifactorial

Descomposicin de la variabilidad del experimento

Ana Justel

19

Modelo unifactorial

Test ANOVA
H0: Las respuestas medias son iguales en todos los grupos H1: Las respuestas medias son distintas en al menos dos grupos

En la tabla ANOVA se representa la idea de que la varianza se puede descomponer en las distintas fuentes que la originan

Para comparar dos poblaciones, poblaciones coincide con el test test-t t (tienen el mismo p p-valor) valor)
Ana Justel
20

Ejemplo de calidad ambiental En principio creemos que el mejor material es el 3,

pero no estamos seguros de que los indicadores medios sean realmente distintos. Para asegurarnos hacemos un test ANOVA
Audiencia Suma de cuadrados 228,000 112,000 340,000 gl 3 20 23 Media cuadrtica 76,000 5,600 F 13,571 Sig. Sig ,000

Inter-grupos Intra-grupos Total

Hemos encontrado evidencia para rechazar H0 y afirmar que no todos d los l materiales l son iguales l Qu materiales son distintos entre s?
21

Modelo unifactorial

Cuestiones pendientes
Cmo medimos cunto explica el factor sobre las diferencias q q p queda sin explicar entre individuos y que Cuando encontramos evidencia de que no todos los grupos son iguales, cmo encontramos cules son distintos entre s? Los resultados que hemos obtenido dependen de que se cumplan unas hiptesis sobre cmo son los datos Factores fijos y factores aleatorios Cmo es la tabla ANOVA cuando queremos ver si varios factores influyen al mismo tiempo

22

Modelo unifactorial

Coeficiente de determinacin Cmo evaluamos si el modelo propuesto sirve para explicar la variabilidad en la respuesta? no sirve porque depende de las unidades de medida

es la proporcin de la variabilidad observada en los datos que queda explicada por el modelo

COEFICIENTE DE DETERMINACIN

R2=SCE/SCT

Ana Justel

23

Ejemplos arreglados
ANOVA Los grupos son diferentes Suma de cuadrados 32,000 4 000 4,000 36,000 gl 2 9 11 Media cuadrtica 16,000 ,444 444 F 36,000 Sig. ,000

Inter-grupos Intra-grupos Intra grupos Total

R2 = 0,8888 ( SCE / SCT = 32 / 36)

El porcentaje de variabilidad explicada por el modelo es del 88,8 88 8 %


ANOVA Los grupos son similares Suma de cuadrados 32,000 2852,000 2884,000 gl 2 9 11 Media cuadrtica 16,000 316,889 F ,050 Sig. ,951

Inter-grupos Intra-grupos Total

R2 = 0,0111 (SCE / SCT = 32 / 2884)

El porcentaje de variabilidad explicada por el modelo es del 1,1 %

24

Ejemplo de calidad ambiental Hemos encontrado evidencia de que el material influye en la calidad del firme
T1 T2 66 8 T3 T4 Media Varianza 61 3,33 68 2,8 61 6,85

Audiencia Suma de cuadrados 228 000 228,000 112,000 340,000 gl 3 20 23 Media cuadrtica 76 000 76,000 5,600 F 13 571 13,571 Sig. ,000 000

Inter-grupos Inter grupos Intra-grupos Total

El material explica en un 67% las diferencias de calidad que se observan b en el l firme. fi Quedan d otras causas que explican li el l 33% restante, pero desconocemos cules son.

25

3. Comparaciones mltiples

C Comparaciones i d poblaciones de bl i d dos a dos d Cuando se rechaza con el test ANOVA, se busca qu grupos son distintos entre s haciendo COMPARACIONES MLTIPLES (pruebas Post hoc) (p ) dos a dos. Existen varias opciones p y la q que ms se usa es con CORRECCIN DE BONFERRONI

26

Comparaciones mltiples

Comparaciones dos a dos Si hay h evidencia id i para rechazar h la l hiptesis hi t i nula l podemos d preguntarnos son iguales los niveles medios de los grupos i y j?

OJO!!! no son el mismo contraste e intervalo que para la diferencias de medias con el t t t t-test

La varianza se estima con los datos de los 2 grupos y de los otros grupos, utilizamos la varianza residual Cambian los grados de libertad, que son n I
27

Comparaciones mltiples

Comparaciones dos a dos Si hay evidencia para rechazar la hiptesis nula y queremos encontrar qu grupos se diferencian entre si, debemos realizar tests para comparar todos los pares de medias

28

Pruebas dos a dos

Comparaciones dos a dos

29

Pruebas dos a dos

Comparaciones dos a dos

30

Pruebas dos a dos

Comparaciones dos a dos con SPSS

31

Ejemplo de calidad ambiental En principio creemos que el mejor material es el 3

Los mejores j materiales son el 2 y el 3


32

Ejemplo de salud pblica

En un barrio de una ciudad que presenta altos niveles de contaminacin se analiza su efecto sobre la salud. Se estudia si la contaminacin t i i afecta f t por i igual l a nios, i adultos d lt y ancianos. i U Un exhaustivo control mdico a 5 personas de cada grupo de edad, elegidas al azar, da los siguientes resultados sobre un indicador de salud en aspectos relacionados con afecciones respiratorias y alrgicas Afecta la contaminacin de la misma manera a los tres grupos de edad? (son los

indicadores de salud medios iguales para los tres grupos?)

33

Ejemplo de salud pblica

S di d d l d medios di i l para l ? Son l los i indicadores de salud iguales los t tres grupos?

34

4. Diagnstico de las hiptesis del modelo

Hay alguna evidencia CLARA en contra de alguna de las hiptesis del modelo que hemos asumido?

Para responder a esta pregunta disponemos de: Datos CONOCIMIENTO Para mirar a los datos disponemos de las herramientas grficas y de los tests

35

Hiptesis sobre los datos

INDEPENDENCIA DE LOS DATOS


El resultado de la variable observada en un individuo cualquiera no afecta a los resultados que observamos en los otros individuos

36

Hiptesis sobre los datos

INDEPENDENCIA DE LOS DATOS

Ejemplos j p de PSEUDIOREPLICACIN: 1. Analizamos varias veces la misma muestra 2 Cuando utilizamos los mismos pacientes para aplicarles 2. distintos tratamientos 3. Hacemos muestreos en los mismos cuerpos de agua a lo largo del tiempo

37

Hiptesis sobre los datos

INDEPENDENCIA DE LOS DATOS


Soluciones para el problema de la PSEUDIOREPLICACIN: 1. Mejorar la toma de datos con un correcto sistema de aleatorizacin. Las rplicas del experimento deben ser medidas de la misma variable observadas en distintos individuos 2. Si esto no es posible, utilizar diseos anidados 3. Si las medidas sobre el mismo individuo se toman en distintos momentos del tiempo, utilizar diseos de medidas repetidas

38

Hiptesis sobre los datos

INDEPENDENCIA DE LOS DATOS

Ejemplos j p de PSEUDIOREPLICACIN: 2. Cuando utilizamos los mismos pacientes para aplicarles distintos tratamientos

Aplicar slo un tratamiento a cada paciente

El paciente es un factor

39

Hiptesis sobre los datos

INDEPENDENCIA DE LOS DATOS

Ejemplos de PSEUDIOREPLICACIN: 3 Hacemos muestreos en los mismos cuerpos de agua a lo 3. largo del tiempo

Diseo de medidas repetidas

40

Hiptesis sobre los datos

HOMOCEDASTICIDAD DE LOS DATOS


La variabilidad de los datos debe ser la misma en todos los niveles Se estudia con: BOX-PLOTS mltiples p Diagramas de dispersin Barras de error

41

Hiptesis sobre los datos

HOMOCEDASTICIDAD DE LOS DATOS


Ejemplo de HETEROCEDASTICIDAD HETEROCEDASTICIDAD: :

El l caso ms h habitual b l es cuando d l la variabilidad b l d d crece al l aumentar los niveles de respuesta observada

42

Hiptesis sobre los datos

HOMOCEDASTICIDAD DE LOS DATOS


Soluciones para el problema de la HETEROCEDASTICIDAD: 1. Cuando la variabilidad crece al aumentar los niveles de respuesta p observada, , la mejor j solucin es la transformacin logaritmo neperiano de la respuesta 2. Probar b otras transformaciones f de d la l variable bl respuesta posibles outliers ( (datos atpicos) p ) 3. Localizar p 4. Utilizar test no paramtricos de homogeneidad de poblaciones bl i

43

Hiptesis sobre los datos

HOMOCEDASTICIDAD DE LOS DATOS


Solucin para el problema de HETEROCEDASTICIDAD HETEROCEDASTICIDAD: : Logaritmo neperiano de las emisiones de CO2

44

Hiptesis sobre los datos

LINEALIDAD DE LOS DATOS


En cada nivel los datos varan en torno a un nico valor, que no tiene por que ser el mismo en todos los niveles Se estudia con: Diagramas de dispersin Histograma

Soluciones cuando hay problemas de LINEALIDAD: 1. Separar los individuos en ms niveles 2. Localizar posibles outliers (datos atpicos) 3 Proponer un modelo con ms factores controlados 3.

45

Hiptesis sobre los datos

NORMALIDAD DE LOS DATOS


La distribucin de los datos de cada nivel debe ajustarse a una normal, no necesariamente la misma entre niveles Histograma Grfico probabilstico normal Se estudia con: (Q-Q o P-P plot) Test de normalidad
(Kolmogorov-Smirnov o Shapiro-Wilk)

Problemas de NORMALIDAD:

46

Hiptesis sobre los datos

NORMALIDAD DE LOS DATOS


La distribucin de los datos de cada nivel debe ajustarse a una normal, no necesariamente la misma entre niveles Histograma Grfico probabilstico normal Se estudia con: (Q-Q o P-P plot) Test de normalidad
(Kolmogorov-Smirnov o Shapiro-Wilk)

Soluciones cuando hay problemas de NORMALIDAD: 1. Cuando la distribucin es asimtrica, transformar la variable respuesta 2. Cuando se observa una distribucin bimodal, dividir los datos en dos niveles 3. Utilizar test no paramtricos de homogeneidad de poblaciones
47

Hiptesis sobre los datos

ANLISIS DE LOS RESIDUOS DIAGNSTICO DEL MODELO


Las hiptesis p del modelo no se p pueden comprobar p cuando hay y pocos datos o muchos niveles niveles. . Entonces, se analizan los residuos del modelo modelo. .

Los residuos del modelo son aproximadamente:

Cuando alguna de estas caractersticas falla es porque las hiptesis p q que hemos asumido en los datos no son ciertas
48

5. Metodologa para la aplicacin del modelo unifactorial

49

Aplicacin del modelo unifactorial

A. Comparamos K tratamientos en UNA poblacin B. Comparamos UN tratamiento en K poblaciones

MannMann -Whitney, Wilcoxon MannMann -Whitney, Wilcoxon

50

Aplicacin del modelo unifactorial

Otra forma de escribir el modelo unifactorial

51

Aplicacin del modelo unifactorial

En este modelo el test ANOVA para efectos aleatorios coincide con el de efectos fijos. No ocurre lo mismo en modelos ms complejos
52

Das könnte Ihnen auch gefallen