Beruflich Dokumente
Kultur Dokumente
27/04/2015
Diagrama de dispersin
Covarianza
Coeficiente de correlacin (covarianza dividida entre el producto de las desviaciones).
Mtodo ms eficiente que la covarianza.
Modelo de regresin lineal: y=a+bx
a: constante u ordenada en el origen. El trmino independiente.
b: coeficiente de regresin o pendiente.
Coeficiente de determinacin
T
20
45
^T
10
25
30
70
65
35
100
DATOS DE LA MUESTRA:
-
N=100
65 de los individuos tenan obesidad
35 no tenan obesidad
30 sufrieron infarto de miocardio
70 no sufrieron infarto
Estos valores son las distribuciones marginales, los dos primeros se corresponden con la
distribucin marginal de la variable fila y los dos ltimos con la variable columna.
Los valores sealados en rojo constituyen la distribucin conjunta bajo la hiptesis de
independencia (suponemos que son situaciones independientes). Para calcular estos valores
hemos aplicado: P(E,T)=P(E)xP(T)
P(E,T)=0.3x0.65=0.1950.2
P(,^T)=0.7x0.35=0.2450.25
A continuacin, pasamos estos valores a la tabla (sealados en negrita) y deducimos el
valor de los otros valores de la distribucin conjunta, dado que conocemos las distribuciones
marginales. Se debe de cumplir que la suma de las distribuciones conjuntas por fila y columna
sea igual al valor de la distribucin marginal por fila y columna respectivamente (20+45=65).
Estos cuatro valores calculados de la distribucin conjunta son los valores esperados bajo la
hiptesis de independencia.
H0: INDEPENDENCIA (hiptesis nula)
H1: ASOCIACIN (hiptesis alternativa)
Vamos a analizar la distancia entre los valores obtenidos en la muestra y los calculados
bajo la hiptesis de independencia.
cuadrado. Se le denomina as porque sigue una distribucin chi cuadrado que depende de
unos grados de libertad.
El grado de libertad se calcula de la siguiente forma:
GRADO DE LIBERTAD= (N de filas-1)x(N de columnas-1)
T
^T
E
1
29
30
64
6
70
65
35
100
Nuestra tabla sigue una distribucin Chi cuadrado con 1 grado de libertad. Esta distribucin se
caracteriza por tener una asntota horizontal.
En nuestro caso el estadstico Chi era 15,123 (C=15,123). Cuanto mayor sea C, mayor es la
distancia de lo observado y la hiptesis nula (s hay independencia). Cuanto ms se separe,
menos independencia hay entre las variables.
Razonamiento para rechazar la hiptesis nula (de independencia):
Primero debemos de fijar que indica el lmite a partir del cual rechazamos la hiptesis nula,
Error tipo 1. En este caso =0.05 ya que queremos realizar un intervalo de confianza al 95%
(1-0.95=0.05). A continuacin, consultamos en la tabla de distribucin de Chi cuadrado dos
En STATA
Vamos a usar la base de datos INMA estudiando la asociacin entre genero de
neonatos y bajo peso.
Para obtener los datos que necesitamos para conocer el grado de asociacin o
independencia de las variables acudimos a STATA:
Statistics Summaries, tables, and tests Tables Two-way tables with measures of
association.
A continuacin se nos abrir una ventana en la que tendremos que escoger las variables a
seleccionar en columnas (column variable) y filas (row variable):
Row: genero
Colum: bajo peso
En su lugar, tambin podemos hacer uso del comando: tabulate genero bajo_peso/ tab
genero bajo_peso.
De este modo, aparece una tabla sin ninguna medida de asociacin.
Para obtener medidas de asociacin acudimos de nuevo a Statistics Summaries, tables, and
tests Tables Two-way tables with measures of association. En este caso, marcaremos las
casillas Pearsons chi-squared (en Tests Statistics) y Expected frequences (en Cells Contents).
Pinchar en submit.
En la nueva tabla, en las casillas salen dos valores. El valor de arriba es el observado. El valor de
abajo es el esperado si hubiese INDEPENDENCIA. Ahora debemos de calcular el valor de la chi
cuadrado.
117.6 es el valor de nias que esperara observar si existiera condicin de independencia entre
las variables gnero y bajo peso.
Comando: di (((valor observado-valor esperado)^2)/valor esperado)+ ...
Esta operacin debera repetirse para todas las casillas de nuestra tabla.
El resultado de la operacin es c = 1.1808. El valor p es la probabilidad de observar un valor de
1,1928 o ms extremos. Miramos en la tabla de la chi y dice que le corresponde una
probabilidad de 0.30 (nivel de significacin de los datos:p). Debems de fijar un alfa. Si fijamos
un alfa de 0.05, p>q (alfa), luego no podemos rechazar la independencia. Hay independencia
entre gnero y peso de los neonatos.