Sie sind auf Seite 1von 5

GRUPO 13

27/04/2015

Tema 11: Anlisis de la asociacin entre variables


Vamos a continuar estudiando los tests de hiptesis, atacando uno de los problemas que
an no habamos abordado, la asociacin entre variables CUALITATIVAS. En la primera parte
de este tema, estudiamos la asociacin entre variables CUANTITATIVAS numricas a travs de:
-

Diagrama de dispersin
Covarianza
Coeficiente de correlacin (covarianza dividida entre el producto de las desviaciones).
Mtodo ms eficiente que la covarianza.
Modelo de regresin lineal: y=a+bx
a: constante u ordenada en el origen. El trmino independiente.
b: coeficiente de regresin o pendiente.
Coeficiente de determinacin

Asociacin entre variables cualitativas: test de Chi cuadrado


EJEMPLO:
E: padecer infarto de miocardio.
: no padecer infarto de miocardio.
T: padecer obesidad
^T: no padecer obesidad.
1: se trata del espacio muestral (el de tener o no infarto de miocardio). {E,}
2: otro espacio muestral (tener o no tener obesidad). {T,^T}

P(E,T) es la probabilidad de interseccin de dos sucesos.


P(E,T)=P(E)XP(T)
Para que esta expresin sea cierta, los sucesos tienen que ser independientes. Si no
hay independencia, decimos que hay asociacin de variables y no podremos utilizar esta
relacin, por lo que no ser posible calcular la probabilidad de interseccin entre las variables
E y T.
En medicina, nos interesa conocer el grado de asociacin o independencia entre dos
sucesos por ejemplo con el fin de averiguar si existen factores de riesgo. En este caso,
queremos analizar si hay asociacin entre la obesidad e infarto de miocardio para saber si la
obesidad es un factor de riesgo para tener un infarto de miocardio. Si existe asociacin entre
las variables, diremos que la obesidad s es un factor de riesgo para padecer el infarto y si no la
hay, no ser factor de riesgo.

VALORES CALCULADOS BAJO HIPTESIS DE INDEPENDENCIA:


2/1
E

T
20
45
^T
10
25
30
70

65
35
100

DATOS DE LA MUESTRA:
-

N=100
65 de los individuos tenan obesidad
35 no tenan obesidad
30 sufrieron infarto de miocardio
70 no sufrieron infarto

Estos valores son las distribuciones marginales, los dos primeros se corresponden con la
distribucin marginal de la variable fila y los dos ltimos con la variable columna.
Los valores sealados en rojo constituyen la distribucin conjunta bajo la hiptesis de
independencia (suponemos que son situaciones independientes). Para calcular estos valores
hemos aplicado: P(E,T)=P(E)xP(T)
P(E,T)=0.3x0.65=0.1950.2
P(,^T)=0.7x0.35=0.2450.25
A continuacin, pasamos estos valores a la tabla (sealados en negrita) y deducimos el
valor de los otros valores de la distribucin conjunta, dado que conocemos las distribuciones
marginales. Se debe de cumplir que la suma de las distribuciones conjuntas por fila y columna
sea igual al valor de la distribucin marginal por fila y columna respectivamente (20+45=65).
Estos cuatro valores calculados de la distribucin conjunta son los valores esperados bajo la
hiptesis de independencia.
H0: INDEPENDENCIA (hiptesis nula)
H1: ASOCIACIN (hiptesis alternativa)
Vamos a analizar la distancia entre los valores obtenidos en la muestra y los calculados
bajo la hiptesis de independencia.

Lo medimos mediante un estadstico: test de asociacin de la Chi cuadrado.


Frmula:

Donde x2=valor del estadstico del Chi cuadrado=c

oi: el valor observado en cada casilla (29, 6, 1 )


E1: valores esperados (20).
El sentido de elevar la resta al cuadrado es para quitar los resultados negativos y evitar
que el sumatorio sea 0. Obtenemos un valor que en este caso es 15,123: valor de Chi

cuadrado. Se le denomina as porque sigue una distribucin chi cuadrado que depende de
unos grados de libertad.
El grado de libertad se calcula de la siguiente forma:
GRADO DE LIBERTAD= (N de filas-1)x(N de columnas-1)

En este caso, tomar valor 1 (2-1)x(2-1)=1


Que tenga grado de libertad 1 implica que solo podemos coger una de las casillas y
darle un valor aleatorio, de modo que el resto tienen que tomar valores fijos para conservar las
distribuciones marginales. En este caso hemos fijado el valor 1 (sealado en rojo).
En una tabla de 4 columnas y 3 filas tendra un grado de libertad 6. Tendra 12 casillas,
por lo que podramos fijar 6 casillas a nuestro aire, y el resto quedaran fijadas.

VALORES OBTENIDOS DE LA MUESTRA:

T
^T

E
1
29
30

64
6
70

65
35
100

Nuestra tabla sigue una distribucin Chi cuadrado con 1 grado de libertad. Esta distribucin se
caracteriza por tener una asntota horizontal.

En nuestro caso el estadstico Chi era 15,123 (C=15,123). Cuanto mayor sea C, mayor es la
distancia de lo observado y la hiptesis nula (s hay independencia). Cuanto ms se separe,
menos independencia hay entre las variables.
Razonamiento para rechazar la hiptesis nula (de independencia):
Primero debemos de fijar que indica el lmite a partir del cual rechazamos la hiptesis nula,
Error tipo 1. En este caso =0.05 ya que queremos realizar un intervalo de confianza al 95%
(1-0.95=0.05). A continuacin, consultamos en la tabla de distribucin de Chi cuadrado dos

valores: grado de libertad y valor de . En la primera columna encontraremos los grados de


libertad (cogemos el valor 1) y buscamos su interseccin con =0.05 y obtenemos el valor
3.841. Esto significa que por encima del valor de 3.841 cometemos un error de tipo 1.
Rechazamos la hiptesis. A partir de 3.841 esta probabilidad que queda por debajo de la chi
cuadrado hasta ms infinito es del 0.05. Esta es la probabilidad de cometer un error de tipo 1.
En nuestro caso, que C es 15.123, p (nivel de significacin de los datos) es la
probabilidad de que el estadstico c fuera mayor o igual a 15,123 condicionado a que existe
independencia. Esto se calcula con la probabilidad de que Chi cuadrado con un grado de
libertad, tome valores mayores o iguales a 15.123 condicionado a independencia.
Buscamos p en la tabla de la Chi cuadrado. El 15,123 no aparece en esta tabla porque
el valor ms grande es 10.83 con una probabilidad de p=0.001, luego la p de 15.123 sera
menor que 0.001. Por lo tanto es un valor muy raro ya que tendra una p<0.001 si hubiese
independencia. Como p<, rechazamos la H0, nos quedamos con H1: asociacin. En conclusin
la obesidad es un factor de riesgo para el infarto de miocardio.

En STATA
Vamos a usar la base de datos INMA estudiando la asociacin entre genero de
neonatos y bajo peso.
Para obtener los datos que necesitamos para conocer el grado de asociacin o
independencia de las variables acudimos a STATA:

Statistics Summaries, tables, and tests Tables Two-way tables with measures of
association.
A continuacin se nos abrir una ventana en la que tendremos que escoger las variables a
seleccionar en columnas (column variable) y filas (row variable):

Row: genero
Colum: bajo peso
En su lugar, tambin podemos hacer uso del comando: tabulate genero bajo_peso/ tab
genero bajo_peso.
De este modo, aparece una tabla sin ninguna medida de asociacin.
Para obtener medidas de asociacin acudimos de nuevo a Statistics Summaries, tables, and
tests Tables Two-way tables with measures of association. En este caso, marcaremos las
casillas Pearsons chi-squared (en Tests Statistics) y Expected frequences (en Cells Contents).
Pinchar en submit.

En la nueva tabla, en las casillas salen dos valores. El valor de arriba es el observado. El valor de
abajo es el esperado si hubiese INDEPENDENCIA. Ahora debemos de calcular el valor de la chi
cuadrado.
117.6 es el valor de nias que esperara observar si existiera condicin de independencia entre
las variables gnero y bajo peso.
Comando: di (((valor observado-valor esperado)^2)/valor esperado)+ ...
Esta operacin debera repetirse para todas las casillas de nuestra tabla.
El resultado de la operacin es c = 1.1808. El valor p es la probabilidad de observar un valor de
1,1928 o ms extremos. Miramos en la tabla de la chi y dice que le corresponde una
probabilidad de 0.30 (nivel de significacin de los datos:p). Debems de fijar un alfa. Si fijamos
un alfa de 0.05, p>q (alfa), luego no podemos rechazar la independencia. Hay independencia
entre gnero y peso de los neonatos.

Das könnte Ihnen auch gefallen