Beruflich Dokumente
Kultur Dokumente
EL ANLISIS PRELIMINAR
DE LOS DATOS
LECTURA OBLIGATORIA
Captulo 2: Preparacin del Archivo de datos. En Rial, A. y Varela, J. (2008).
Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo.
Pginas 17-28.
Captulo 3: Anlisis de datos para una sola variable. En Rial, A. y Varela, J. (2008).
Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo.
Pginas 31-57.
Captulo 4: Inferencia estadstica. Estimacin de parmetros y contrates de hiptesis.
En Rial, A. y Varela, J. (2008). Estadstica Prctica para la Investigacin en Ciencias de
la Salud. Corua: Netbiblo. Pginas 59-96.
Modelos Multivariantes
Modelos Multivariantes
Muestreo de Errores
Se trata de estimar el Porcentaje de Error (PE) que contiene nuestra
matriz de datos. Seleccionamos una submuestra de cuestionarios y
comprobamos cuntos errores hay.
Seleccionar una submuestra aleatoria (entre el 10 y el 20%)
3. LOS RECHAZOS. Son iguales los que responden a una encuesta que los
que no responden?. Los missing siguen algn patrn?, de quin
estamos realmente informando?(POSIBLE SESGO EN LOS TRESULTADOS)
LO MAS IMPORTANTE ES PREGUNTARSE POR LAS RAZONES
DE LA NO RESPUESTA
Modelos Multivariantes
Se distribuyen al azar?
Varias estrategias:
Comprobar si los distintos segmentos presentan un
porcentaje similar de falta de repuesta (Sexo, Provincia,
Grupos de Edad, ...) 2
Estudiar posibles patrones
Identificar variables relacionadas y comprobar que los
que responden y los missing se comportan igual, que no
existen diferencias estadsticamente significativas entre
ambos grupos.
Modelos Multivariantes
Sustituirlos o imputarlos?
Media de la serie
SUSTITUCIN
IMPUTACIN
Interpolacin lineal
Tendencia lineal en el punto
Media de Subclases (Kalton)
Fichero Caliente (Hot Deck)
Regresin lineal
Esperanza Maximizacin (EM)
Modelos Multivariantes
10
11
Cmo detectarlos?
A nivel univariante:
Numricamente (IQR)
Grficos de Caja (BOXPLOT)
Grficos de Tallo y Hojas
A nivel multivariado:
Residuos (tipificados, studentizados, etc.)
Distancia de Mahalanobis
Distancia de Cook
Modelos Multivariantes
12
El BOXPLOT
600000
500000
10
400000
300000
9
200000
100000
0
N=
20
INGRESOS
Modelos Multivariantes
13
BOXPLOT
MUCHA INFORMACIN:
Extremos y outliers
Percentiles 75 y 25
IQR
Mediana
Asimetra
Comparar la distribucin de 2 o ms variables
Comparar la distribucin de 2 o ms grupos en una misma
variable
Modelos Multivariantes
14
500000
10
400000
300000
10
9
19
200000
100000
-100000
N=
20
20
INGRESOS
GASTOS
Modelos Multivariantes
15
500000
10
400000
300000
INGRESOS
200000
100000
0
N=
10
10
HOMBRE
MUJER
SEXO
Modelos Multivariantes
16
La comprobacin de supuestos
Para elegir la prueba estadstica adecuada en cada caso
Optar por Pruebas Paramtricas No Paramtricas
Garantizar la Estabilidad del modelo
Ejemplos:
t de Student Mann-Withney
Anova Kruskal-Wallis
Discriminante o Regresin Logstica
Modelos Multivariantes
17
18
Cmo se comprueban?
NORMALIDAD: Prueba K-S con correccin de Lilliefors
(muestras pequeas: Shapiro-Wilk)
ALEATORIEDAD: Prueba de las Rachas
HOMOCEDASTICIDAD: Prueba de Levene
Se parte siempre de que se cumplen los supuestos salvo que las
pruebas sean significativas (p< 0.05)
Modelos Multivariantes
19
Y... si no es NORMAL
2 ALTERNATIVAS:
TRANSFORMAR LA VARIABLE
Posibles transformaciones
Asimetra Positiva FUERTE: -1/X3, -1/X
SUAVE: log X X
Asimetra Negativa FUERTE: antilog X
SUAVE: X2 X3
20