Sie sind auf Seite 1von 15

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

TALLER DEPURACION DE UNA BASE DATOS PASOS PREVIOS AL ANALISIS


En este taller usted aprender algunas formulas en Excel que le permitirn encontrar de forma rpida registros duplicados repetidos

1.

MATERIALES Y METODOS

El diagnstico inicial se realizar en Microsoft Excel, partiendo de los reportes de extensin xls de datos bsicos y complementarios obtenidos del software Sivigila 2010 para el perodo especfico. Para efectos de estandarizacin de conceptos se aclaran las siguientes definiciones Caso duplicado: Hace referencia a los casos que en el sistema, toma dos o ms registros con la misma informacin en todas las variables, segn lo establecido en la regla de validacin. Regla de validacin: Se definieron 7 variables como regla de validacin (cdigo evento, fecha de notificacin, semana, tipo de documento, numero de documento, UPGD, Subndice). Caso repetido: Cuando dos o ms registros tienen informacin similar que difiere en al menos una de las variables pertenecientes a la regla de validacin. Ejemplo: (un registro con el mismo cdigo evento, fecha de notificacin, tipo de documento, numero de documento, UPGD, pero la semana epidemiolgica es diferente). Diccionario de datos: Conjunto de metadatos que contiene las caractersticas lgicas y puntuales de los datos que se van a utilizar en el sistema que se programa, incluyendo nombre, descripcin, alias, contenido y organizacin. Identifica los procesos donde se emplean los datos y los sitios donde se necesita el acceso inmediato a la informacin, se desarrolla durante el anlisis de flujo de datos y auxilia a los analistas que participan en la determinacin de los requerimientos del sistema, su contenido tambin se emplea durante el diseo. En un diccionario de datos se encuentra la lista de todos los elementos que forman parte del flujo de datos de todo el sistema. Los elementos ms

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA importantes son flujos de datos, almacenes de datos y procesos. El diccionario de datos guarda los detalles y descripcin de todos estos elementos.

2.

PROCEDIMIENTO

2.2.1

Acceder a la informacin.

Para disponer de la informacin contenida en el software de Sivigila se debe acceder mediante el men: Procesos Recepcin y Transferencia de Archivos Planos .. Retroalimentacin de datos a UPGD/Datos para anlisis XLS, (ver figura 1). Figura 1. Ruta de acceso a obtener archivos en Excel de los

eventos notificados en el software Sivigila 2010.


1

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

Los

archivos

generados

se

encuentran

en

la

ruta

documentos\SIVIGILA 2010.

C: \Mis

3.2.2 Depuracin de la informacin. Eliminacin de registros duplicados: Teniendo en cuenta las definiciones del punto 2, es necesario identificar inicialmente los registros duplicados en la base de datos en Excel1 mediante la siguiente instruccin:

En la barra de herramientas identifique la opcin de datos; herramienta de datos; quitar duplicados, (ver figura 2).
1

Los procedimientos utilizados en el presente documento son realizados bajo la versin de Microsoft Excel 2007.

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

Figura

2. Mecanismo para eliminar duplicados, en archivos de Excel 2007.

Una vez se ingrese a la opcin de quitar duplicados, se abre un recuadro donde se sealan las variables de la base de datos que se tienen en cuenta para identificar registros con valores iguales. Se debe verificar que todas las variables se encuentran seleccionadas y una vez esto sea as se debe Aceptar la ejecucin del proceso. (figura 3)

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

Eliminacin

de registros repetidos:

Finalizada la eliminacin de los registros duplicados, es necesario identificar los casos repetidos de la base de datos analizada, para tal fin se propone tener en cuenta los siguientes pasos en el procedimiento de depuracin: 1. Ordenar la informacin mediante la opcin de

la

barra

de

Datos; Ordenar y filtrar; ordenar, (ver figura 3)


herramientas

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

Figura

4. Mecanismo para ordenar datos, en archivos de Excel 2007.

Una vez se da la instruccin se muestra un recuadro en el cual se establecen las variables y el orden en el cual se van a disponer los registros, para tal fin es necesario ubicar las variables de la siguiente manera:

Primer apellido. Segundo apellido. Primer nombre. Segundo nombre. Tipo de documento de identificacin. Nmero del documento de identificacin.

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

Figura

4. Mecanismo para ordenar datos, en archivos de Excel 2007.

Seleccin de registros repetidos Finalizada la eliminacin de los registros duplicados, es necesario identificar los casos repetidos de la base de datos analizada, para tal fin se propone tener en cuenta lo siguientes pasos en el procedimiento de depuracin.

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

a. Mtodo de documento de identidad Seleccione la columna documento de identidad Ingrese a la opcin inicio, formato condicional, resaltar reglas de celdas, duplicar valores. Esta funcin permite que los formatos que se encuentren ms de una vez en la base de datos se resalten con un color, facilitando al usuario analizar la informacin identificando de forma gil los registros que debe verificar o complementar los datos 2 de sus variables.

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA Ordene la informacin por documento de identidad mediante la opcin de la barra de herramientas Datos, ordenar y filtrar, ordenar por num_ide

b. Mtodo nombres y apellidos Ordenar la informacin mediante la opcin de la barra de herramientas: inicio/ordenar y filtrar; orden personalizado

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA Una vez se da la instruccin se muestra un recuadro en el cual se establecen las variables y el orden el cual se van a disponer los registros, para tal fin es necesario ubicar las variables de la siguiente manera

Una vez ordenados los nombres usaremos una frmula que permitir identificar los registros repetidos, los cuales eran numerados con nmeros mayores a 1 de acuerdo al nmero de registros repetidos de un mismo registro hallados en la base 1. Inserte una columna antes de la columna pri_nom_ y ingrese el nombre concatenar

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

2. Ubique el cursor en la segunda fila de esta nueva columna, luego seleccione el botn insertar funcin y seleccione CONCATENAR

1 2

3. En el siguiente recuadro seleccionen el siguiente orden los siguientes campos pri_nom/seg_nom/pri_ape_/seg_ape, aceptar y copiar la formula en toda la columna

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

4. Con la funcin contar si de Excel puede encontrar los registros repetidos los cuales sern numerados con nmeros mayores a 1 de acuerdo al nmero de registros repetidos de un mismo registro hallados en la base

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

Mediante un filtro elija los nmeros mayores a 1 y mrquelos con un color

INSTITUTO NACIONAL DE SALUD SUBDIRECCION DE VIGILANCIA Y CONTROL EN SALUD PBLICA GRUPO SIVIGILA

Analice los repetidos y decida De acuerdo al evento que usted se encuentre analizando usted puede
o o Eliminar uno de los dos datos de forma aleatoria Eliminar el ajuste ms antiguo tomar varias decisiones respecto al registro repetido que sealo con un color

Para el anlisis de la informacin tenga en cuenta:

Los registros que en la columna de ajuste contengan 6 (descartado) o


D (error de digitacin) deben ser excluidos en caso de que se deseen calcular incidencias o prevalencias. corte del tiempo especfico para su anlisis.

Verifique que el ao y la semana epidemiolgica corresponden a la

Das könnte Ihnen auch gefallen