North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
Aspectos Bsicos del Anlisis de Datos: Variables y Distribucin
V O L U ME N 3 , N ME R O 5 Cmo puedes determinar si un de- rrame qumico en una fbrica caus enfermedad a los trabajadores? Cmo puedes saber qu alimento caus un brote de salmonella en tu comunidad? En una investigacin de campo, mu- chas veces quieres saber si una ex- posicin determinada (por ejemplo un derrame qumico) est asociado a cualquier enfermedad posible, o cules de las muchas posibles expo- siciones estn asociadas a una en- fermedad en particular (por ejemplo, cul es la causa potencial de un brote de salmonella? Comienzas el proceso de responder estas pregun- tas eligiendo un diseo de estudio, desarrollando un cuestionario y reco- lectando datos. Todo esto fue discu- tido en ediciones anteriores de FO- CUS, Una vez que estos pasos se han completado y has recolectado tus datos, qu sigue? A diferencia de la caracterizacin de los epidemilogos en algunos pro- gramas de televisin, despus de recolectar los datos no tienes sim- plemente un destello de inspiracin y resuelves el brote; de hecho tienes que sentarte y analizar los datos! No es la parte ms glamorosa del trabajo del epidemilogo, pero cuan- do los datos llevan al origen de un brote, el anlisis es definitivamente estimulante. Esta edicin de FOCUS te guiar en los pasos bsicos del anlisis descriptivo de datos, inclu- yendo los tipos de variables, princi- pios bsicos de codificacin y anli- sis de datos univariados simples. Autores: Kim Brunette, MPH Amy Nelson, PhD, MPH Grupo de trabajo FOCUS* Crticos: Grupo de trabajo FOCUS* Gloria C. Mejia, DDS, MPH, PhD (Versin en espaol) Editoras de Produccin : Tara P. Rybka, MPH Lorraine Alexander, DrPH Rachel A. Wilfert, MD, MPH Gloria C. Mejia, DDS, MPH, PhD (Versin en espaol) Jefe de Edicin: Pia D.M. MacDonald, PhD, MPH
Traduccin al espaol por: Pelusa Orellana
* Todos los miembros del Grupo de Trabajo FO- CUS estan nombrados en la ltima pgina de la publicacin. The North Carolina Center for Public Health Prepared- ness is funded by Grant/Cooperative Agreement Num- ber U90/CCU424255 from the Centers for Disease Control and Prevention. The contents of this publication are solely the responsibility of the authors and do not necessarily represent the views of the CDC. C O N T R I B U Y E N T E S Tipos de Variables Antes de continuar con el anlisis, tomemos un momento para discutir las variables. Esto puede parecer trivial para aquellos que tienen expe- riencia en anlisis, pero las variables no son un tema trivial. Al igual que las personas, las variables vienen en dis- tintos tamaos y formas. Sin embar- go, la mayor parte de la epidemiologa de campo se centra en variables con- tinuas y categricas. Las variables continuas son siempre numricas, y tericamente pueden ser cualquier nmero, positivo o negativo (en realidad, esto depende de la varia- ble). Ejemplos de variables continuas son la edad en aos, el peso, presin arterial, temperaturas interiores y ex- teriores, concentraciones de contami- nantes en el aire o agua, y otras medi- ciones. Las variables categricas contienen informacin que puede organizarse en categoras, de manera similar a como se organizara la informacin en ca- nastas. Cada informacin pertenece a una, y slo una, canasta. Existen diversos tipos de variables categri- cas, ordinales, nominales y dicotmi- cas o binarias. Una variable ordinal es cualquier va- riable categrica con algn orden in- trnseco o valor numrico. Por ejem- plo, podramos categorizar informa- cin acerca del nivel educacional de un grupo de personas en una variable denominada EDUCACION. Una perso- na puede no haber terminado la edu- cacin secundaria, otra podra haber- se graduado de secundaria pero no Enfoque en Epidemiologa de Campo North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
Pgina 2 F O C U S O N F I E L D E P I D E MI O L O G Y haber recibido educacin superior, una tercera podr haber tenido alguna educacin superior o haber recibido algn entrenamiento posterior, y otra podr haberse gra- duado de la universidad. Los niveles de educacin de todos los miembros del grupo se acomodan claramente dentro de estas categoras, y las categoras tienen un orden intrnseco. Un egresado de la universidad tiene ms educacin que un graduado de la escuela secunda- ria, y un graduado de la escuela secundaria tiene ms educacin que alguien que no termin la escuela. De este modo, a medida que las categoras van de 1 a 5, aumenta el nivel de educacin. Otros ejemplos de varia- bles ordinales son: aceptacin (por ejemplo, total desacuerdo, desacuer- do, neutro, acuerdo, totalmente de acuerdo) escalafn (por ejemplo excelente, bueno, aceptable, pobre) frecuencia (por ejemplo siempre, a menudo, a veces, nunca) o cualquier otra escala (por ejemplo, en una escala del 1 al 5 cunto te gustan los cacahuates?) Una variable nominal es una variable categrica sin or- den intrnseco. Por ejemplo, digamos que tenemos una variable llamada LUGAR DE RESIDENCIA que caracteriza la parte del pas en que vive una persona: el noreste, sur, medio-oeste, o noroeste. Las categoras de esta variable no tienen valor numrico ni orden. La residen- cia en el noroeste no tiene valor cuantitativo en compa- racin con el noreste. Otros ejemplos de variables nomi- nales incluyen el sexo (masculino, femenino), nacionali- dad (Estadounidense, Mexicano, Francs), raza-etnia (Afroamericano, hispano, blanco, asitico americano) o mascota favorita (perro, gato, pez, culebra). Una variable dicotmica o binaria es una variable categ- rica que tiene slo dos niveles o categoras. Muchas variables dicotmicas representan la respuesta a una pregunta cerrada (de respuesta s o no). Por ejemplo, asisti usted al picnic de la iglesia el 24 de mayo? o Consumi ensalada de papas en el picnic? Una varia- ble no requiere ser variable si/no para ser dicotmica, slo necesita tener dos categoras, como por ejemplo, sexo (masculino/femenino). Codificacin Una vez que has recopilado tus cuestionarios u otra in- formacin debes elegir los cdigos para ingresarlos a una base de datos. La codificacin es el proceso de tra- ducir la informacin recolectada de los cuestionarios u otras investigaciones a algo que pueda ser analizado, por lo general utilizando un programa computacional. La codificacin incluye el asignar un valor a la informacin entregada en el cuestionario, y muchas veces a ese valor se le asigna un nombre. Por ejemplo, si tienes la pregun- ta Sexo?, podras tener respuestas tales como masculino, femenino o M, F, etc. La codificacin evitar tales inconsistencias. Un sistema comn de codificacin (codificacin y nom- bre) para variables dicotmicas es el siguiente: 0 = No 1 = Si, donde el nmero 1 es el valor asignado, y SI es la etique- ta o significado de dicho valor. A algunos les gusta utilizar un sistema de 1 y 2, donde 1 = No 2 = Si. Esto apunta a un aspecto importante en la codificacin. Cuando asignas un valor a un pedazo de informacin, tambin debes dejar en claro lo que significa ese valor. En el primer ejemplo anterior, 1= s, pero en el segundo ejemplo, 1= No. Cualquiera de los dos est bien, siem- pre y cuando quede claro cmo se ha codificado la infor- macin. Puedes aclarar esto creando un diccionario de datos como un archivo separado que acompae la base de datos. De manera similar, podramos codificar la variable dico- tmica para sexo: 0 = Femenino 1 = Masculino Las variables dicotmicas tambin pueden ser variables falseadas o ficticias (dummy, en ingls). Una variable ficticia es cualquier variable que se codifica para que tenga dos niveles, como las variables si/no y las varia- bles femenino/masculino del ejemplo anterior. Tambin pueden ser usadas para representar variables ms com- plicadas. Esto es especialmente til cuando tienes mu- chos valores que son ms significativos cuando se anali- zan en trminos de una respuesta s o no. Por ejemplo, puedes haber recopilado datos sobre el nmero de cigarrillos fumados por semana, con 75 res- puestas que van de cero cigarrillos a 3 paquetes por se- mana, pero puedes volver a codificar esta informacin como variable ficticia: 1= fuma, 0=no fuma. Tambin podras hacer esto para la educacin (1=cualquier edu- cacin posterior a la secundaria, 0= sin educacin poste- rior a la secundaria), consumo de alimentos (1= comi el producto durante el perodo de tiempo, 0=no comi el producto) y muchas otras variables. Este tipo de codifi- cacin es til en las etapas posteriores del anlisis. Muchos paquetes de software para anlisis te permiten asignar un nombre a los valores de las variables. Luego el computador automticamente nombra los 0 como masculinos y los 1 como femeninos, lo que facilita tu vida cuando observes el resultado, tal como lo muestra North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
Pgina 3 V O L U ME N 3 , N ME R O 5 el ejemplo siguiente: Sin nombre: Variable SEXO Frecuencia Porcentaje 0 21 60% 1 14 40% Con nombre: Variable SEXO Frecuencia Porcentaje Masculino 21 60% Femenino 14 40% El proceso de codificacin es similar con otras variables categricas. Para la variable EDUCACION mencionada anteriormente, podramos codificarla de la siguiente ma- nera: 0 = No se gradu de la escuela secundaria 1 = Se gradu de la escuela secundaria 2 = Algn estudio universitario o superior 3 = Egresado de la universidad. Observa que para esta variable ordinal categrica debe- mos ser consistentes con la enumeracin, porque el va- lor del cdigo asignado tiene significado. Mientras ms alto el cdigo, ms educado es el que responde. Tam- bin podramos haber codificado esta variable en el or- den inverso, de modo que 0= egresado de la universidad y 3= no se gradu de la escuela secundaria. En este caso, mientras ms alto es el cdigo, menor es el grado de educacin del que responde. Cualquiera de los dos modos est bien, siempre y cuando recordemos el cdi- go al interpreta el anlisis. El siguiente es un ejemplo de mala codificacin: 0 = Algn estudio universitario o superior 1 = Egresado de la escuela secundaria 2 = Egresado de la universidad 3 = no se gradu de la escuela secundaria. Los datos que estamos tratando de codificar tienen un orden inherente, pero la codificacin en este ejemplo no sigue ese orden. Esta no es una codificacin apropiada para una variable ordinal categrica. Para una variable nominal categrica, sin embargo, el orden no tiene ningn efecto. Aunque codifiquemos ca- da variable con un nmero, el nmero no representa un valor numrico. Por ejemplo, usando la variable LUGAR DE RESIDENCIA, mencionada anteriormente, 1 = Noreste 2 = Sur 3 = Noroeste 4 = Medio-oeste 5 = Suroeste. No importa el orden que utilicemos para estas categor- as. El medio-oeste pudo haberse codificado como 4, 2, o 5 porque no existe un valor ordenado asociado a cada respuesta. La codificacin de variables continuas es unidireccional. Si alguien dice que su edad en aos es 37 aos, la ingre- sas como 37 a tu base de datos. Pero qu pasara si usases categoras de edad en lugar de los datos en aos que recopilaste? Es comn crear categoras a partir de variables conti- nuas, y puede hacerse fcilmente usando un software de anlisis. Con un paquete de software, puedes desglosar una variable continua como la edad en categoras, creando una variable ordinal categrica como la siguien- te: EDADCAT 1 = 09 aos de edad 2 = 1019 aos de edad 3 = 2039 aos de edad 4 = 4059 aos de edad 5 = 60 aos o ms. Es posible que tambin necesites codificar respuestas de preguntas de oraciones para completar y preguntas abiertas. Con una pregunta abierta como por ejemplo, por qu decidi no consultar al doctor acerca de esta enfermedad?, los entrevistados respondern todos de manera distinta. Tambin podras dar a los entrevista- dos opciones de respuesta para una pregunta especfica y ofrecer una opcin otro (especifique), en la cual los entrevistados podrn escribir la respuesta que deseen. Este tipo de preguntas abiertas pueden ser difciles de analizar. Una manera de analizar la informacin es agru- par las respuestas con temas similares. Para la pregun- ta anterior, quienes respondieron que no se sentan lo suficientemente enfermos para ir al doctor, los snto- mas desaparecieron, y la enfermedad no dur mucho tiempo podran agruparse como la enfermedad no era grave. Tambin necesitars codificar respuestas del tipo no s. Por lo general, la respuesta no s se codifica co- mo 9. Limpieza de los Datos Uno de los primeros pasos en el anlisis de datos es mi- rar la informacin obtenida y limpiarla de cualquier error evidente, debido al ingreso incorrecto de datos. Si existen valores extremos (nmeros demasiado altos o demasiado bajos), son correctos esos nmeros? Un Dato de ayuda para la Codificacin: Pese a que no codificas hasta que se hayan recopilado los datos, debes pensar cmo vas a codificar cuando ests diseando el cuestionario, antes de que recopi- les datos. Esto te ayudar a recopilar los datos en un formato que puedas usar. North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
valor de 110 en edad podra ser un error para quien en realidad tiene 10 o 11 (o 101!) Se ingres un valor que no existe para una variable? Por ejemplo, si 1=masculino y 0= femenino, si se ingres 2, es claramente un error. Si existen valores faltantes, acaso la persona no respon- di, o accidentalmente no se ingres a la base de datos? Algunos software de anlisis permiten al usuario estable- cer lmites definidos al ingresar datos. Esto evita que una persona ingrese un 2 cuando los valores aceptables son slo 1 y 0. Los lmites tambin pueden establecerse para variables continuas y nominales, por ejemplo permi- tiendo slo 3 dgitos para la edad, o limitando la cantidad de palabras que se ingresan. Tambin puedes asignar tipos de campos para la mayora de los tipos de variables basados en el tipo de datos que el campo debiera conte- ner (por ejemplo formatear las fechas como mm/dd/aaaa o valores numricos o textos especficos). De manera similar, algunos protocolos de estudio permi- ten que se ingresen datos de otras fuentes. Por ejemplo, si una persona no respondi una pregunta sobre edad, esa informacin puede estar disponible a partir de un registro mdico que se est usando en el estudio. A modo de verificacin del ingreso de datos, algunos sis- temas te permiten ingresar datos dos veces y luego com- pararlos para ver si existen discrepancias. Este proceso se llama doble ingreso. El anlisis univariado de datos, que discutiremos a conti- nuacin es tambin una forma til de revisar la calidad de los datos, incluyendo la revisin de los valores extre- mos. Anlisis univariado de datos El anlisis univariado de datos es importante por muchas razones. Al mirar a cada variable individualmente, apren- demos mucho acerca de la informacin recopilada. De manera similar, el anlisis univariado es un buen mtodo para verificar la calidad de los datos. Siempre deben investigarse las inconsistencias o los resultados inespe- rados, usando los datos originales como punto de refe- rencia. Las frecuencias simples te dirn si la mayora de los ca- sos son jvenes, o si la mayora de los casos son muje- res, o si muchos de los participantes del estudio compar- ten alguna otra caracterstica que te interese. Primero, examina la distribucin univariada (una variable). Los grficos y tablas te pueden dar una buena idea de cmo se ven tus variables y pueden ayudar tambin a encon- trar algunos de los problemas de limpieza de datos men- cionados anteriormente. Variables continuas Pgina 4 F O C U S O N F I E L D E P I D E MI O L O G Y Una mirada inicial a las variables continuas te puede entregar varias piezas importantes de informacin: Hay datos para todos los sujetos, o faltan valores? Se encuentra la mayora de los valores agrupados, o hay mucha variacin? (figuras 1a y 1b) Existen valores extremos? Tienen sentido los valores mnimos y mximos, o podra haber errores en la codificacin? Tambin podemos realizar un anlisis univariado de va- riables continuas para obtener informacin valiosa. En- tre las estadsticas comnmente usadas se encuentran las siguientes: Media- promedio de todos los valores de esta variable en la base de datos (fig.2). Mediana- el medio de la distribucin, el nmero en el cual la mitad de los valores estn por encima y la otra mitad est por debajo (figura 2) Moda- el valor que ms se repite (figura 2) Rango de valores- desde el valor mnimo hasta el mxi- mo (figura 2) Desviacin estndar- una medida de qu tan confiables son los datos. En la figura 1a, la desviacin estndar es de 20.4; en la figura 1b es de 7.6. Una desviacin es- tndar grande en comparacin a los valores de la varia- ble indica que los datos se encuentran ampliamente distribuidos. Las desviaciones estndar son fciles de calcular con software de anlisis o pueden ser calcula- das a mano. Distribucin- muestra si la mayora de los valores se en- Figura 1a: ejemplo de valores de edad ampliamente distribuidos
0 10 20 30 40 50 60 70 80 90 A g e
( i n
y e a r s )
Figura 1b: ejemplo de valores de edad poco distribuidos.
0 10 20 30 40 50 60 70 80 90 A g e
( i n
y e a r s )
North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
Pgina 5 V O L U ME N 3 , N ME R O 5 cuentran en la parte baja del rango, o en la parte alta, o agrupa- dos en el medio (figura 3) Percentil- el porcenta- je de la distribucin que es igual a o me- nor que un determina- do valor (figura 3). En la figura 3a, el percen- til 25 ocurre en los 4 aos pues el 25% del total de quienes res- ponden tienen 4 o menos aos.
Datos categricos La distribucin de datos categricos tambin debe ser examinada antes de llevar a cabo anlisis ms profundos. Por ejemplo, observemos la variable LUGAR DE RESIDEN- CIA, de la figura 4a. Vemos que ms gente vive en el sur que en ningn otro lugar, mientras que menos gente vive en el suroeste que en cualquier otro lugar. El rea geogr- fica de residencia puede ser importante en algunos estu- dios porque los estilos de vida y las influencias culturales tienden a ser distintas en diferentes partes del pas. Una forma de poner estos resultados en contexto es compa- rar esta distribucin a la distribucin esperada de resi- dencia. Si seleccionamos a nuestros participantes del estudio al azar a partir de la poblacin de los Estados Unidos, podramos esperar tener la misma distribucin de personas en cada regin, suponiendo que todas tie- nen el mismo tamao de poblacin, como lo muestra la figura 4b.
Otra forma de observar estos datos categricos es haciendo listas de los datos en tablas. Por ejemplo, la tabla 1 nos da la misma informacin que la figura 4a, pero en un formato distinto. Muchas tablas muestran la frecuencia (nmero) as como tambin el porcentaje del total de los individuos en la tabla. Cuando los grficos o tablas se usan para informar y Figura 2: estadsticas que describen una distribucin de variable continua. 0 10 20 30 40 50 60 70 80 90 A g e
( i n
y e a r s )
84 =Mximo (valor extremo) 2 =Mnimo 28 =Moda (Ocurre 2 veces) 33 =Media 36 =Mediana (Percentil 50) 0 2 4 6 8 10 12 14 1 2 3 4 5 6 7 8 9 10 11 Age (years) F r e q u e n c y 0 2 4 6 8 10 12 14 1 2 3 4 5 6 7 8 9 10 11 Age (year s) F r e q u e n c y Figura 3a: distribucin de campana para la variable EDAD
Figura 3b: distribucin asimtrica para la variable EDAD Percentil 25 (4 aos) Percentil 25 (6 aos) Figura 4a: nmero de personas que responden el cuestionario y que residen en 5 regiones de los Estados Unidos. 0 5 10 15 20 25 30 Midwest Northeast Northwest South Southwest vari abl e: RESIDE N u m b e r
o f
P e o p l e Figura 4b: nmero esperado de personas que residen en 5 regiones de los Estados Unidos. 0 4 8 12 16 20 Midwest Northeast Northwest South Southwest vari abl e: RESIDE N u m b e r
o f
P e o p l e Frequencia Porcentaje Medio-oeste 16 20% Noreste 13 16% Noroeste 19 24% Sur 24 30% Suroeste 8 10% Total 80 100% Tabla 1: Numero de personas que responden el cuestionario y que residen en 5 regiones de los Estados Unidos North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
describir datos, deben incluir toda la informacin rele- vante en los ttulos, encabezados y nombres, tales como poblacin que se estudia, fechas del estudio, y nmero de participantes. En el ejemplo anterior, un epidemilo- go querra comparar el nmero observado de personas en cada regin (figura 4a) frente al nmero esperado de personas en cada regin (figura 4b). Al comparar los datos observados con los datos esperados, los epidemi- logos pueden ver si hay algo extraordinario asociado a los datos observados. Podemos realizar el proceso con nuestra variable ordinal categrica EDUCACION. La figu- ra 5a nos muestra la distribucin observada de niveles de educacin en una poblacin determinada de adultos. Pese a que el grfico est marcado con niveles de educa- cin, esos niveles representan los nmeros usados en la codificacin (0 para menos que educacin secundaria, 1 para egresados de educacin secundaria, y as sucesiva- mente.) Este grfico contiene informacin descriptiva til acerca de la poblacin del estudio. Tambin podemos compa- rarla con la distribucin esperada de educacin entre nuestros participantes en el estudio. La informacin ob- tenida de la Oficina del Censo de los Estados Unidos res- pecto al nivel educacional de la poblacin de los Estados Unidos de 20 aos o ms aparece en la figura 5b. (1). Esta es la distribucin esperada de nivel educacional para la poblacin del pas. Al mirar los grficos y compa- rar las categoras, vemos que la poblacin de nuestro estudio parece ser ms educada de lo que esperbamos.
Son los datos observados tan distintos de los datos esperados? Este es el tipo de preguntas que un epidemilogo querra explorar en profundidad. Una forma de comparar los datos categricos observados con los datos categricos esperados es usando una prueba estadstica como el ji-cuadrado. Las prximas dos ediciones de FOCUS discutirn los ji-cuadrado y otros tipos de anlisis de datos ms extensos. Pgina 6 F O C U S O N F I E L D E P I D E MI O L O G Y Figura 5a. Datos observados respecto a nivel de educacin a partir de un cuestionario hipottico. 0 5 10 15 20 25 30 35 Less than high school High school graduate Some college College graduate vari abl e: EDUCATION P e r c e n t Figura 5b. Datos de nivel educacional de la poblacin de los Estados Unidos de 20 o ms aos, Oficina del Censo de los Estados Unidos. 0 5 10 15 20 25 30 35 Less than high school High school graduate Some college College graduate vari abl e: EDUCATION P e r c e n t North Carolina Center for Public Health PreparednessThe North Carolina Institute for Public Health
P R X I MO S T E MA S Estamos en Internet! http://www.sph.unc.edu/nccphp The North Carolina Center for Public Health Preparedness The University of North Carolina at Chapel Hill Campus Box 8165 Chapel Hill, NC 27599-8165 Phone: 919-843-5561 Fax: 919-843-5563 Email: nccphp@unc.edu C O N T A C T O : R E F E R E N C I A S : 1. US Census Bureau. Educational Attainment in the United States: 2003---Detailed Tables for Current Population Report, P20-550 (All Races). Available at: http://www.census.gov/population/www/socdemo/education/cp s2003.html. Accessed December 11, 2006. Equipo de trabajo FOCUS: Lorraine Alexander, DrPH Meredith Anderson, MPH David Bergmire-Sweat, MPH Kim Brunette, MPH Anjum Hajat, MPH Pia D.M. MacDonald, PhD, MPH Gloria C. Mejia, DDS, MPH Amy Nelson, PhD, MPH Tara P. Rybka, MPH Rachel A. Wilfert, MD, MPH Anlisis de datos: pruebas estadsticas simples Anlisis avanzado de datos: mtodos para el control de confusin Recoleccin de especimenes en investigaciones de brotes Si le gustara recibir copias electrnicas del peridico FOCUS on Field Epide- miology por favor llene la siguiente forma: NOMBRE: ______________________________________ TTULO (S): _____________________________________ AFILIACIN: ____________________________________ CORREO ELECTRNICO: __________________________ Podemos contactar por correo electrnico a sus colegas?: Si es as, por favor incluya su correo electrnico a continuacin _____________________________________________________ _____________________________________________________ _____________________________________________________ Por favor enviar por fax a: (919) 919-843-5563 O por correo a: North Carolina Center for Public Health Preparedness The University of North Carolina at Chapel Hill Campus Box 8165 Chapel Hill, NC 27599-8165 O en lnea en: http://www.sph.unc.edu/nccphp/focus/