Sie sind auf Seite 1von 15

UNIVERSIDAD JOSE CARLOS MARAITEGUI

INGENIERA DE SISTEMAS E INFORMTICA

Trabajo de Investigacin
CLASIFICACIN DEL ESTADO NUTRICIONAL DE NIOS MENORES DE 5 AOS DE LAS REDES DE SALUD DE PUNO, UTILIZANDO TCNICAS DE MINERA DE DATOS

AUTOR Jos Luis Morales Rocha

Moquegua Per 2011

Introduccin En el presente trabajo de investigacin intitulado Clasificacin del Estado Nutricional de Nios Menores de 5 Aos de las Redes de Salud de Puno, Utilizando Tcnicas de Minera de Datos, se desarroll utilizando tcnicas de Minera de Datos, especficamente las K-Means mediante la aplicacin de la Minera de Datos, implementndolo con la herramienta Clementine versin 12, dado que el Clementine permiten al Ingeniero de Sistemas e Informtica la generacin rpida y con calidad de investigaciones en el rea de Minera de Datos. Las tcnicas de K-Means son sistemas de computacin muy avanzados compuesto por un gran nmero de elementos interconectados, los cuales procesan informacin por medio de su estado dinmico como respuesta a entradas externas. Por consiguiente la finalidad de la presente investigacin consiste en la aplicacin de un modelo de Minera de Datos para realizar una adecuada clasificacin del estado nutricional de los nios menores de 5 aos de las Redes de Salud de Puno, tomando en cuenta sus pesos, tallas y edades. A continuacin mostramos la estructura del trabajo realizado en captulos: Como primer captulo denominado Descripcin del Problema, concebimos el planteamiento del problema de investigacin, donde vemos que la desnutricin infantil es una patologa que trae problemas en el plano fsico a los nios a nivel mundial, regional y local, donde las estadsticas disponibles indican que entre un 25% a 40% los nios menores de 5 aos sufren de algn tipo de desnutricin. El segundo captulo titulado Modelo de minera de datos, se desarrolla el modelo aplicado al presente trabajo de investigacin. El tercer captulo, viene marcado por las tcnicas de minera de datos que se utiliz en el proceso de la presente investigacin, como es la tcnica de K-Means, que nos ha de servir para el desarrollo del trabajo de investigacin. Posteriormente en un cuarto captulo, denominado Resultados, se muestra los resultados hallados con el Software de Minera de datos Clementine, en esta etapa mostramos los cluster formados por la tcnica K-Means con sus respectivas estadsticas. Finalmente en el quinto denominado Conclusiones y Recomendaciones, es donde damos a conocer los resultados de la investigacin, desde cmo se concibi el modelo hasta los resultados finales, damos a conocer las diferentes conclusiones a las que llegamos con la investigacin. Se dan las recomendaciones respectivas y la literatura usada en la investigacin y al final de este trabajo adjuntamos los anexos respectivos.

El Autor.

1. Descripcin del problema: En los ltimos aos se han observado, a nivel mundial, importantes cambios en las conductas alimentaras y estilos de vida de la poblacin, que han favorecido un dramtico aumento de la desnutricin en todas las edades, enfermedad crnica de difcil tratamiento y alto costo personal, social y familiar. En los pases en vas de desarrollo como Per, especialmente en nios menores de 5 aos, la desnutricin continua siendo una patologa de gran inters epidemiolgico, como problema de salud y factor que predispone de muchas causas de morbilidad y mortalidad. Se calcula que todava el 25% de los menores de 5 aos estn afectados de desnutricin global (peso para la edad) y otros 20% estn en riesgo de sufrirla (MINSA). La desnutricin infantil no slo trae consigo problemas en el plano fsico en las nias y nios, tales como perdida de oportunidad de una mayor talla y disminucin de la capacidad estructural corporal, sino tambin dao de las capacidades funcionales nobles del cerebro, tales como la abstraccin, la integracin, el anlisis, el pensamiento matemtico, la capacidad de respuesta ante situaciones no estructuradas, alteraciones afectivas y emocionales. La clasificacin del Estado Nutricional de nios menores a 5 aos es de gran inters prctico, pues permite determinar y conocer las clases o tipos de desnutricin infantil, lo cual podra facilitar la toma de decisiones y la planificacin de intervenciones que contribuyan a mejorar la calidad de vida de la poblacin infantil. La Minera de Datos ha surgido como una nueva rea del conocimiento. Est formada por un conjunto de tcnicas y mtodos que en base a las grandes bases datos intentan formar modelos, extrayendo patrones de comportamiento. Una de estas tcnicas que trata de extraer conocimiento y formar grupos con caractersticas homogneas es la denominada K-Means, utilizada recientemente con un relativo xito para la clasificacin de unidades de anlisis. En este sentido, la Minera de Datos, constituye una interesante herramienta alternativa a los mtodos estadsticos ms tradicionales como por ejemplo el Anlisis Cluster. Por consiguiente nos planteamos la siguiente interrogante: De qu manera la aplicacin de la Minera de Datos con las tcnicas de K-Means clasificar el estado nutricional de los nios menores de 5 aos en las redes de salud de Puno? 2. Modelo de Minera de datos Para la solucin del problema en el presente trabajo de investigacin, planteamos la implementacin de un Modelo Descriptivo, cuyo algoritmo que fue utilizado es el Algoritmo de Clustering (K-Means), con lo que se implement cuatro Cluster (Grupos) de estados nutricionales. El modelo implementado en el presente trabajo de investigacin fue utilizando el Software de Minera de Datos Clementine, versin 12.

3. Tcnicas aplicadas 3.1. Recogida de datos La informacin para la presente investigacin fue tomada de las Bases de Datos de la Direccin Regional de Salud de Puno (DIRESA-Puno). Para nuestra investigacin se tom una muestra aleatoria de 68 nios menores de 5 aos, esto debido a que la DIRESA-Puno es muy recelosa en cuanto a su informacin, por lo tanto procedimos a extraer una muestra aleatoria de 68 observaciones de un total de 18119 nios registrados en su Bases de Datos, que posteriormente fue exportada a un archivo de texto. 3.2. Limpieza y preparacin de datos En primer lugar procedimos a leer los datos de los pesos, tallas y edad de los nios de la Regin de Puno. En donde podemos observar que los datos se leen correctamente:

La tabla donde se muestra las Microredes de la DIRESA de Puno, se muestran en la siguiente figura:

A simple vista se observa que no existen datos faltantes. Por consiguiente pasamos a ver si algunos atributos tienen datos faltantes o anmalos, para los cual utilizamos el nodo Auditar datos, como se muestra en la siguiente figura:

Despus de ejecutarlos tenemos los siguientes resultados:

La figura anterior nos muestra una foto bastante detallada de los valores mnimos, mximos, media, desviacin estndar, asimetra, valores nicos, valores vlidos, as como un grfico de distribucin. Analizando las variables Edad, Peso y Talla, podemos apreciar que no existen valores perdidos, tampoco valores faltantes, la informacin se distribuye en forma normal.

Por lo tanto, procedemos a investigar con ms detalle para ver si existen valores anmalos, mediante graficas por los campos o variables estudiadas, para lo cual agregamos un nodo Grafico y lo enlazamos con la fuente de datos, como mostramos en la siguiente figura:

Despus de ejecutar nuestro modelo tenemos las siguientes graficas: En las variables Peso y Edad, se observa que existe una relacin directa, es decir a mayor edad los nios tienen mayor peso. Tambin apreciamos los puntos de dispersin diferenciados por sexo. No se aprecia ningn valor extrao en dicha dispersin.

En las variables Edad y Talla, observamos tambin que existe una relacin directa, podemos concluir tambin que no existe observacin extraa en dicha relacin.

Para las variables Peso y Talla, ocurre lo mismo que en los grficos anterior, se observa que tambin existe una relacin directa, a mayor peso se tiene que los nios tienen mayor Talla. Tambin se observa que existe ningn valor extrao.

3.3. Minera de datos Las variables que se utilizaron son: Edad: Esta dada en meses, nios menores de 5 aos Peso: Esta dado en kg Talla: Esta dado en cm

Se utiliz un algoritmo de Clustering (K-Means) para obtener cuatro grupos sobre esta muestra. El modelo final de Minera de Datos realizado con el software Clementine, se muestra a continuacin:

A continuacin, se muestra los cluster (grupos) formados por el software Clementine (que incluye promedios, desviaciones y distancias).

Cluster 1 23 Records
Edad * Mean = 11,174 * Standard Deviation = 5,167 Peso * Mean = 8,622 * Standard Deviation = 1,131 Talla * Mean = 70,543 * Standard Deviation = 3,671

Cluster 2 10 Records
Edad * Mean = 41,3 * Standard Deviation = 8,97 Peso * Mean = 14,06 * Standard Deviation = 1,349 Talla * Mean = 95,05 * Standard Deviation = 3,023

Cluster 3 18 Records
Edad * Mean = 22,0 * Standard Deviation = 6,954 Peso * Mean = 12,056 * Standard Deviation = 1,849 Talla * Mean = 83,833 * Standard Deviation = 5,023

Cluster 4 17 Records
Edad * Mean = 3,706 * Standard Deviation = 2,867 Peso * Mean = 5,329 * Standard Deviation = 1,012 Talla * Mean = 58,382 * Standard Deviation = 4,755

Proximities
4 3 2 0.365495 0.413522 0.83807 3 1 4

Proximities
0.445606 0.83807 1.188014 1 2 4

Proximities
0.413522 0.445606 0.777621 1 3 2

Proximities
0.365495 0.777621 1.188014

Tambin mostramos los resultados en forma grfica como podemos visualizarlo en el siguiente grfico:

Visualizacin grafica de las distribuciones por grupos formados

En esta visualizacin grafica podemos ver adems que a todos los campos el KMeans les asigna el mayor valor de importancia a la hora de haber realizado los grupos. 3.4. Evaluacin y validacin Despus de aadir un nodo Tabla a la salida del nodo diamante K-Means, se observa los datos que han cado en los cluster formados por Clementine.

Resultado de los cluster formados


N 1 2 3 4 5 6 7 MicroRed
HRMNB HRMNB HRMNB PUNO PUNO PUNO PUNO

$KM-K-Means cluster-1 cluster-4 cluster-4 cluster-4 cluster-4 cluster-3 cluster-1

$KMD-K-Means 0.06003384 0.131514719 0.054256979 0.146335145 0.161970165 0.116913417 0.179339469

8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO PUNO LARAQUERI LARAQUERI LARAQUERI LARAQUERI COATA COATA COATA COATA COATA COATA COATA COATA COATA MAAZO MAAZO MAAZO MAAZO ACORA ACORA ACORA ACORA ACORA ACORA ACORA

cluster-3 cluster-1 cluster-4 cluster-1 cluster-2 cluster-4 cluster-3 cluster-4 cluster-4 cluster-4 cluster-1 cluster-3 cluster-3 cluster-2 cluster-3 cluster-1 cluster-4 cluster-4 cluster-4 cluster-1 cluster-1 cluster-1 cluster-4 cluster-1 cluster-1 cluster-3 cluster-3 cluster-1 cluster-1 cluster-1 cluster-2 cluster-1 cluster-1 cluster-1 cluster-3 cluster-1 cluster-1 cluster-4 cluster-2 cluster-2 cluster-1 cluster-3 cluster-3 cluster-3 cluster-4

0.087749581 0.100045651 0.045968771 0.228265543 0.097388691 0.184536375 0.090312373 0.087150817 0.218384043 0.07096282 0.159215987 0.138759282 0.261720159 0.106453608 0.268858327 0.167121208 0.112102374 0.057910533 0.032891541 0.106933521 0.092084914 0.160266252 0.072688997 0.158702993 0.127930556 0.192811979 0.280791799 0.137077673 0.144085246 0.196570202 0.156818794 0.165336724 0.142528779 0.093543562 0.164552163 0.13021644 0.190385467 0.073039435 0.303014547 0.153623881 0.092481574 0.388903283 0.272614057 0.119430726 0.13652407

53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68

ACORA ACORA ACORA ACORA ACORA ACORA ACORA ACORA ACORA ACORA ACORA ACORA ACORA ACORA ACORA ACORA

cluster-2 cluster-1 cluster-2 cluster-3 cluster-1 cluster-1 cluster-2 cluster-3 cluster-3 cluster-2 cluster-3 cluster-4 cluster-2 cluster-3 cluster-4 cluster-3

0.210706932 0.023838007 0.15750422 0.24839834 0.139752773 0.094338449 0.187873104 0.06234815 0.186112617 0.249018989 0.141458291 0.190380317 0.19355239 0.178402171 0.162718837 0.159669477

Se observa a que conglomerado pertenece cada observacin, adems que se muestra la distancia al centro de su conglomerado. Cuanto menor es ese valor la pertenencia a su conglomerado es ms fuerte. En cambio, cuanto mayor es ese valor el nio no esta tan claramente asignado dentro de su conglomerado. Para nuestra investigacin se aprecia que los valores de distancia son pequeos. 4. Resultados De los resultados obtenidos por K-Means, en la conformacin de 4 grupos se puede ver lo siguiente: Los nios menores de 5 aos de las redes de Salud de Puno que pertenecen al Grupo 1 tienen la etiqueta cluster-1, los que pertenecen al Grupo 2 tienen la etqiuetacluster-2, los que pertenecen al Grupo 3 tienen la etiqueta cluster-3 y los que pertenecen al Grupo 4 tienen la etiqueta cluster-4.
Cluster formados con K-MEANS Micro Redes de la Red de Salud Puno
HRMNB PUNO LARAQUERI COATA MAAZO ACORA

TOTAL

Cluster 1 Cant. % 1 4 7 30 3 13 6 26 2 9 4 17 23 34

Cluster 2 Cant. % 0 0 2 20 0 0 1 10 0 0 7 70 10 15

Cluster 3 Cant. % 0 0 6 33 0 0 2 11 1 6 9 50 18 26

Cluster 4 Cant. % 2 12 10 59 1 6 0 0 1 6 3 18 17 25

Cluster formados con K-MEANS


25 20 15 10 10 5 0 Cluster 1 Cluster 2 Cluster 3 Cluster 4 23 18

17

Por lo tanto dichos nios menores de 5 aos de las redes de Salud de Puno se han sido distribuidos de la siguiente manera:

GRUPO 1:

Formado por 23 nios menores de 5 aos, 1 nio que pertenecen a la Micro red de Salud de Hospital Manuel Nez Butrn, 7 a la Micro red de Puno, 3 nios a la Micro res de Laraqueri, 6 nios a la Micro red de Salud de Coata, 2 a la de Maazo y 4 nios a la micro Red de Salud de Acora. Formado por 10 nios, donde 2 nios pertenecen a la Micro Red de Salud de puno, 1 a la Micro Red de salud de Coata, y 7 nios a la micro Red de Salud de Acora. Formado por 18 nios menores de 5 aos, 6 nios se encuentra en la Micro Red de Salud de Puno, 2 a la Micro red de Coata, 1 a la Micro red de Maazo y 9 nios a la micro Red de Salud de Acora. Formado por 17 nios menores de 5 aos, 2 nios que pertenecen a la Micro red de Salud de Hospital Manuel Nez Butrn, 10 nios se encuentran en la Micro Red de Salud de Puno, 1 en Micro Red de Salud de Laraqueri, 1 nio estn entre las Micro Redes de Salud de Maazo y 3 en Acora.

GRUPO 2:

GRUPO 3:

GRUPO 4:

Del 100% de los nios menores de 5 aos de las redes de Salud de Puno se aprecia que el 34% de ellos se encuentran en el Grupo 1, el 15% en el Grupo 2, el 26% en el Tercer Grupo y finalmente el 25% se encuentran en el Grupo IV.

Estadsticas convencionales
Media y Desviacin Estndar de las Variables por Grupos de Estado Nutricional
Variables Edad Peso Talla Grupo I Grupo II Grupo III Grupo IV Promedio Desv. Std. Promedio Desv. Std. Promedio Desv. Std. Promedio Desv. Std. 11.147 5.167 41.300 8.970 22.000 6.954 3.706 2.867 8.622 1.131 14.060 1.349 12.056 1.849 5.329 1.012 70.543 3.671 95.050 3.023 83.833 5.023 58.382 4.755

En cuanto a la variable Edad, observamos que el Grupo II muestra la mayor variabilidad, as como el mayor promedio de Edad de los nios observados en el trabajo de investigacin. El menor promedio de edad se observa en el Grupo IV y su variabilidad tambin es menor con referencia a los dems grupos. Referente a la variable Peso, se observa que el Grupo III tiene la mayor variabilidad y el mayor promedio del peso de los nios se encuentra en el Grupo II. Tambin se aprecia que el menor Peso en promedio se encuentra en el Grupo IV. De acuerdo a la variable Talla, la mayor variabilidad de la talla se encuentra en el grupo III, y la mayor talla promedio de que tienen los nios se encuentran en el Grupo II. De idntica manera podemos apreciar que el Grupo IV se encuentran los nios que tienen en promedio una menor talla.

Promedio de las Variables por Grupos de Estado Nutricional


100.000 90.000 80.000 70.000 60.000 50.000 40.000 30.000 20.000 10.000 0.000 Grupo I Grupo II Grupo III Grupo IV

Edad Peso Talla

Por consiguiente podemos concluir que en el Grupo II, se encuentran los nios con una Talla en promedio de 95 cm, con un Peso en promedio de 14 Kg y Edad con un promedio de 41 meses. Seguido del Grupo III, con una Edad promedio de 22 meses, Peso promedio de 12 kg y una Talla en promedio de 84 cm. Se considera a nios en el Grupo I con Edad en promedio de 11 meses, Peso promedio de 9 Kg y una Talla promedio de 71 cm. Finalmente se encuentran en el Grupo IV, los nios con una Edad promedio de 4 meses, Peso en promedio de 5 Kg y Talla en promedio de 58 cm.

5. Conclusiones y Recomendaciones 5.1. Conclusiones 1. Se utiliz la herramienta de Minera de Datos Clementine para la clasificacin del estado nutricional de nios menores de 5 aos de la Redes de Salud de Puno. 2. Para la solucin del problema en el presente trabajo de investigacin, se implement un Modelo Descriptivo, con el Algoritmo de Clustering (KMeans), y se conform cuatro Cluster (Grupos) de estados nutricionales. 3. La clasificacin que realiz el modelo de Red Neuronal implementado es de la siguiente manera: en el Grupo II, situ a los nios que tienen una Talla promedio de 95 cm, con Peso en promedio de 14 Kg y Edad con un promedio de 41 meses. Seguido del Grupo III, con una Edad promedio de 22 meses, un Peso promedio de 12 kg y Talla en promedio de 84 cm. Consider como a un grupo de nios en el Grupo I, los cuales tienen una Edad promedio de 11 meses, un Peso promedio de 9 Kg y una Talla promedio de 71 cm. Finalmente ubic en el Grupo IV, a los nios que tienen una Edad promedio de 4 meses, con un Peso en promedio de 5 Kg y una Talla en promedio de 58 cm.

5.2. Recomendaciones 1. Se recomienda la implementacin y aplicacin de tcnicas de minera de datos, as como Redes Neuronales Artificiales, Algoritmos Genticos, Lgica Difusa, etc., para poder obtener soluciones optimas a aspectos de problemas a los cuales mejor se ajuste. 2. Se recomienda la aplicacin y utilizacin de este tipo de sistemas en las diferentes reas del MINSA para mejorar la calidad de servicio hacia los pacientes que asisten diariamente a sus diferentes servicios. 3. Se recomienda que el MINSA destine recursos para la implementacin de sistemas de Minera de Datos. Porque son tcnicas de ltima generacin. 4. Recomendamos la implementacin y aplicacin de Minera de Datos en los diferentes trabajos de investigacin.

6. Bibliografa 1. Aguilar Quispe,R. Minera de Datos: Fundamentos, Tcnicas y Aplicaciones. 2003. 2. Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., Uhturudsamy, R. Advances in Knowledge Discovery and Data Mining. 1996. 3. Flores Garcia, Anbal. Minera de Datos, Universidad Jos Carlos Maritegui. Prottulo de Ingeniera de Sistemas e Informtica 4. Ian H., Whitten, Eibe, Frank. Data Mining, Practical Machine Learning Tools and Techniques. El Servier. 2005. 5. Kopanakis, I., Theodoulidis, B. Visual data mining modeling techniques for the visualization of mining outcomes. Journal of Visual Languages and Computing. 2003. 6. Macas Rodrguez, Miguel. Tcnicas de Minera de Datos para la Retencin de Clientes en el Sector Asegurador. Mxico. 2008 7. Mamdouh Reafaat. Data Preparation for Data Mining Using SAS. El Servier. 2006. 8. Sofia J. Vallejos, Minera de Datos. Argentina. 2006 9. Witten, I.H., Frank, E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, San Diego, EE.UU. 2000 10. Witten, Ian H. and Frank, Eibe. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, San Francisco, 2 edition, 2005.

Das könnte Ihnen auch gefallen