Sie sind auf Seite 1von 18

Anlisis de valores perdidos

Ana Mara Lpez Departamento de Psicologa Experimental

Introduccin
La presencia de valores perdidos (informacin ausente o faltante) es un problema comn a cualquier investigacin y no puede ser ignorado en el anlisis de datos. Ignorar los datos ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio hasta la aparicin de sesgos inaceptables. La eliminacin de sujetos con caractersticas especiales limita la representatividad o validez externa de los resultados del estudio. Las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de medida, los sujetos no asisten a la entrevista (en diseos longitudinales pueden abandonar el estudio en una oleada concreta), no contestan a una serie de preguntas o responden con la opcin no sabe/no contesta incorporada en el cuestionario, etc. Por todas estas razones y muchas otras los datos perdidos son ubicuos en la investigacin en ciencias sociales y de la salud (Allison, 2002).

Introduccin
Hay una solucin fcil para el tratamiento de bases de datos con valores perdidos y consiste en analizar slo los casos con Informacin completa en el conjunto de variables. Esta solucin, es la opcin por defecto de la mayora de los paquetes estadsticos, se conoce como anlisis de casos completos (Casewise, Listwise). El anlisis de casos completos tiene la ventaja de su simplicidad pero el inconveniente de que se pueden excluir a muchos casos y perder potencia en los anlisis estadsticos.

Patrones de prdida de informacin


La forma o patrn para la prdida de datos puede ser muy variada. En la figura siguiente aparecen representada tres posibles matrices de datos con perdida de informacin univariante, montona y aleatoria.

a) X1 X2 X3 ..Yp
1 2 3 . . . . . . N

b) Y1 Y2 Y3 Yp Y1 Y2 ? ?

c) Y3....Yp ?

? ? ?

Figura 1. Patrones de pedida de informacin: a) univariado, b) montono, y c) arbitrario

Mecanismos de perdida de datos


Se distinguen tres mecanismos de perdida de datos:

Datos perdidos completamente al azar (MCAR = missing completely at random)


Datos perdidos al azar (MAR= missing completely at random)

Datos perdidos no ignorables o no debidos al azar (MNI=missing nonignorable, o MNAR=missing not at random).

Mecanismos de perdida de datos


Se considera que los datos perdidos son MCAR cuando las caractersticas de los sujetos con informacin son las mismas que las de los sujetos sin informacin. Dicho de otra manera la probabilidad de que un sujeto presente un valor ausente en una variable no depende ni de otras variables del cuestionario ni de los valores de la propia variable con valores perdidos. Las observaciones con datos perdidos son una muestra aleatoria del conjunto de observaciones. Ejemplo de MCAR: 1. Las personas que no nos proporcionan su salario tienen, en promedio, el mismo salario que las personas que nos lo proporcionan. 2. Las caractersticas estadsticas (media, porcentajes) del resto de las variables son las misma para los sujetos que nos proporcionan su salario y para los que no lo proporcionan.

Mecanismos de perdida de datos


La perdida de datos es MAR cuando los sujetos con datos incompletos son diferentes significativamente de los que presentan datos completos en alguna variable, y el patrn de ausencia de datos puede ser predecible a partir de variables con datos observados en la base de datos del estudio que no muestran ausencia de datos. La probabilidad de que se produzca la ausencia de una observacin depende de otras variables pero no de los valores de la variable con

el valor ausente. Es imposible probar si la condicin MAR es satisfecha y la razn


es que dado que no conocemos la informacin faltante no podemos comparar los valores de aquellos sujetos que tienen informacin con los que no la tienen. Un ejemplo de MAR
1. La prdida de valores en la variable sueldo es MAR si depende del estado civil pero dentro de cada categora, la probabilidad de missing no est relacionada con el sueldo.

Mecanismos de perdida de datos


La perdida de datos es MNAR cuando la probabilidad de los datos perdidos sobre una variable Y depende de los valores de dicha variable una vez que se han controlado el resto de las variables. Ejemplo: 1. Si son los hogares de renta mayor los que con menos probabilidad nos proporcionan el salario, una vez controladas el resto de las variables, entonces la perdida de datos no es aleatoria ni ignorable. En los siguientes archivos se simula el mecanismo MAR y MNAR para una variable y para dos variables. En este ltimo ejemplo tomado de Schafer y Graham, 2002 se simulan los tres mecanismos de prdida con dos variables.

2.

Anlisis de Valores perdidos con SPSS

Anlisis de Valores perdidos con SPSS

Archivo: opinion.sav

Anlisis de valores perdidos


Estadsticos univ ariados Perdidos Recuento Porcentaje 29 29,0 0 ,0 0 ,0 No de extremos Bajos Altos 0 5 0 0
a

N salario opinion sexo

Media 71 1536,0563 100 4,2900 100

Desviacin tp. 567,98511 1,77693

a. Nmero de casos fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).

Resumen de las medias estimadas

Segn lista Todos los valores EM Regresin

1536,0563 1536,0563 1637,1620 1585,1126

4,7324 4,2900 4,2900 4,2900

Resumen de las desv iaciones tpicas estimadas

opinion
1,57623 1,77693 1,77693 1,77693

salario

Segn lista Todos los valores EM Regresin

567,98511 567,98511 598,12110 517,90342

opinion

salario

Anlisis de valores perdidos


a Pruebas T con v arianzas separadas

t gl no presente no perdido Media(Presentes) Media(Perdidos)

. . 71 0 1536,0563 .

4,0 46,5 71 29 4,7324 3,2069

Para cada variable cuantitativa, los pares de grupos estn formados por variables indicador (presente, perdido). a. Las variables indicador con menos del 5% de los valores perdidos no se muestran.

Tablas de contingencia de variables indicador frente a categricas


sexo

salario

opinion

salario

salario

Presente Perdidos

Recuento Porcentaje % perd. sistema

71 71,0 29,0

45 81,8 18,2

26 57,8 42,2

Las variables indicador con menos del 5% de sus valores perdidos no se muestran.

hombre

mujer

Total

Anlisis de valores perdidos


Patrones perdidos (casos con v alores perdidos) Patrones de val ores extrem os y a perdi dos

Patrones tabulados

no perdido

% perdido

Caso 43 44 45 47 48 49 50 52 54 55 79 80 81 82 83 84 85 86 87 88 89 91 92 93 95 96 98 99 100

Patrones a perdidos

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3

S S S S S S S S S S S S S S S S S S S S S S S S S S S S S

opinion

Nmero de casos 71 29

salario
X

sexo

71 100

Los patrones con menos del 1% de los casos (1 o menos) no se muestran. a. Las variables se ordenan segn los patrones perdidos. b. Nmero de casos completos si las variables perdidas en ese patrn (marcado con X) no se utilizan.

- i ndi ca un val or extremo baj o, m i entras que + i ndi ca un val or extrem o al to. El rango uti l izado es (C1 - 1,5*AIC, C3 + 1,5*AIC). a. Los casos y l as vari abl es se ordenan segn l os patrones de l os perdi dos.

Completo si...

opinion

salario

sexo

Anlisis de valores perdidos

Estadsticos segn lista


Medias segn lista
Cov arianzas segn lista
Correlaciones segn lista

Nmero de caso

opinion

salario

opinion

salario

salario 322607,08250 opinion -567,92757

2,48451

salario opinion

1 -,634

71

1536,0563

4,7324

Estadsticos segn pareja


Medias segn parej a
Frecuencias segn parej a

Desv iaciones tpicas segn parej a

opinion

salario

opinion

salario

sexo

salario opinion sexo

71 71 71

100 100

salario opinion sexo


100

1536,0563 1536,0563 1536,0563

4,7324 4,2900 4,2900

salario opinion sexo

567,98511 567,98511 567,98511

1,57623 1,77693 1,77693

Media de la variable cuantitativa cuando est presente la otra variable.


Correlaciones segn parej a

Desviacin tpica de la variable cuantitativa cuando est presente la otra variable.

Cov arianzas segn parej a

opinion

salario

salario 322607,08250 opinion -567,92757

3,15747

salario opinion

1 -,634

opinion

salario

opinion

opinion

salario

salario

Anlisis de valores perdidos Estadsticos de EM estimados


a Medias de EM
a Cov arianzas de EM

a Correlaciones de EM

opinion

opinion

salario

1637,1620

4,2900

a. Prueba MCAR de Little: Chi-cuadrado = 15,175, GL = 1, Sig. = ,000

salario 357748,85539 opinion -721,71074

3,15747

salario opinion

1 -,679

a. Prueba MCAR de Little: Chi-cuadrado = 15,175, GL = 1, Sig. = ,000

a. Prueba MCAR de Little: Chi-cuadrado = 15,175, GL = 1, Sig. = ,000

Estadsticos de regresin estimados


a Cov arianzas de regresin
a Medias de regresin

a Correlaciones de regresin

opinion

opinion

salario

1585,1126

4,2900

salario 268223,95183 opinion -611,10178

3,15747

salario opinion

1 -,664

a. Se aade a cada estimacin el residuo de un caso elegido aleatoriamente.

a. Se aade a cada estimacin el residuo de un caso elegido aleatoriamente.

a. Se aade a cada estimacin el residuo de un caso elegido aleatoriamente.

opinion
1

salario

salario

opinion
1

salario

salario

Mtodos para tratar valores perdidos


Anlisis de casos completos: para el conjunto de variables (Listwise, Complete case) Anlisis de casos completos: por pares de variables (Pairwise)

Mtodos para tratar valores perdidos


Mtodos de imputacin de datos 1. Imputacin simple Sustitucin por la media de las observaciones con informacin. Imputacin mediante regresin mltiple. Asigna a los valores missing los valores predichos por una ecuacin de regresin estimada a partir de los sujetos con informacin completa.

Algoritmo EM

2. Imputacin mltiple

Referencias bibliogrficas:
Allison, P.D. (2002). Missing values. Sage Little, R. J. A. y Rubin, D. B. (1989) The Analysis of Social Science Data with Missing Values. Sociological Methods and Research 18: 292-326. Little, R. J. A. y Rubin, D.B. Statistical Analysis with Missing Data, 2nd edition. New York: Wiley. Rejas, J. Imputacin de datos ausentes en estudios de calidad de vida relacionados con la salud: patrones de prdida de datos y mtodos de imputacin. Investig. Cln. Farm. 2005, Vol. 2 (1): 23-29 Schafer, J.L. y Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological Methods, Vol. 7, No. 2, 14777 Tutorial sobre anlisis de valores perdidos http://www2.chass.ncsu.edu/garson/pa765/missing.htm con SPSS 13.

Das könnte Ihnen auch gefallen