Sie sind auf Seite 1von 6

Proyecto Aplicacin de tcnicas de Data Mining (minera de datos) al estudio de cultivos agrcolas en la zona de Trenque Lauquen.

Introduccin Al pensar en variables o factores agropecuarios, de composicin de suelo o climticos entre otros; que afectan a los posibles rindes de los diferentes cultivos a ser analizados; existirn un nmero muy grande de factores (pero finito al fin) y estos generarn un volumen importante de informacin. Sobre ese volumen de informacin se identificarn aquellos factores que afectan en mayor medida a los rindes y a travs de un anlisis exhaustivo y estadstico sobre los datos, se detectarn relaciones, correlaciones, incidencias o implicancias entre factores (variables indicadores) de tal forma de explicar el por qu de un determinado rinde. En la actualidad existen modelos que ante determinadas variables o indicadores, estiman posibles rindes y, en su mayora observan relaciones tradicionales. Se entienden por relaciones tradicionales aquellas relaciones entre variables que acabadamente se conoce su incidencia en el resultado final. A travs de la minera de datos se persigue mejorar o hacer ms eficaz (disminuyendo el error) la obtencin del resultado en cuestin. La minera de datos permite detectar (o confirmar) relaciones entre variables y cumplir con el objetivo del trabajo que es inferir rindes. Si la relacin es conocida, se procede a evaluar si el grado de incidencia se acerca a lo conocido y en todo caso se procede a ajustar el modelo. Si la relacin es desconocida se procede a cuantificar, determinando el grado de importancia e incorporndola (si es significativa) en el modelo. Se entiende que cuanto mayor volumen de informacin sea fuente de anlisis, mayor posibilidad de detectar relaciones entre variables ocultas. Ahora bien, como se menciono, existen modelos que estiman rindes. A priori, suponiendo que estos modelos son correctos y eficaces para el clculo de rindes de cultivos, no son garanta de que existan relaciones significativas que no se han tenido en cuenta en su construccin. El proyecto presentado pretende, partiendo de estos modelos existentes y considerando las variables o indicadores incluidos en estos modelos; poner a prueba los mismos y evaluar la posibilidad de corregirlos o mejorarlos con la incorporacin de factores de ajuste u otras variables no consideradas en el modelo original. En definitiva, el trabajo propuesto pone a prueba los modelos actuales con la intencin de flexibilizarlos de forma tal de mejorar el monitoreo de indicadores que hacen a la toma de decisiones. Objetivos 1- Analizar y comparar tcnicas informticas y estadsticas para determinar las relaciones entre las variables involucradas en distintos modelos de estudio de cultivos regionales. 2- Aplicar tcnicas de minera de datos para inferir rindes de cultivos.

3- Crear una fuente de informacin homognea a fin de sustentar modelos regionales de inferencia de rindes de cultivos. 4- Conocer, evaluar y mejorar los modelos existentes de determinacin de rindes. 5- Formular modelos de inferencia de rindes aplicados a las condiciones productivas de la regin. Participantes El presente proyecto de investigacin est enmarcado en un convenio firmado entre la Facultad de Ciencias Exactas de la UNICEN y la Facultad Regional Trenque Lauquen de la UTN. Debido a la temtica considerada, la propuesta de investigacin se incluye en el Proyecto Datamining Ontology cuyo director es Prof .Mg. Oscar Nigro, dentro del Proyecto Bases de Datos y Procesamiento de Seales, del INSTITUTO DE TECNOLOGIA INFORMATICA AVANZADA, dirigido por el Ing Jorge Doorn, de la Facultad de Ciencias Exactas de la Universidad Nacional del Centro de la Provincia de Buenos Aires. Por otra parte y por las caractersticas del proyecto, es importante vincular y trabajar en forma interdisciplinaria entre miembros de ambos mbitos acadmicos, y entidades u organizaciones afines al desarrollo agropecuario tales como INTA, grupo CREA, etc. Tambin vincularse con organizaciones o entidades a los efectos de constituirse como fuentes de informacin, tal es el caso de la informacin meteorolgica. Etapas Conforme a los objetivos presentados, el proyecto puede pensarse en tres etapas fundamentales: 1- Determinar las variables datos a considerar en el estudio de Data Mining. Para realizar esta etapa se debe hacer un estado del arte de modelos de rindes posibles conforme a los cultivos que son de inters. El anlisis de estos modelos nos argumentar la utilizacin de determinadas variables y sern esos datos (mediciones de dichas variables), en un principio, los necesarios a ser relevados y facilitados. Los datos debern ser tratados en forma consistente y homognea a los efectos de poder operar sobre los mismos. Por su parte tambin debern estar debidamente dimensionados y catalogados en tiempo y espacio geogrfico. Es importante mencionar que a los efectos de la aplicacin de minera de datos y creacin de modelos, es importante considerar que slo pueden ser incluidas variables o indicadores medibles. Si no puedo determinar con precisin o medir valores de variables, no deben incorporarse al anlisis. 2- Determinar tcnicas de Data Mining a aplicar. Cun exactamente es capaz Data Mining de decirle cosas importantes que se desconoce o que van a pasar? El fin de data mining es evidenciar cosas que se desconocen o predecir patrones y en su defectos adelantarse a los eventos. Para hacer evaluar estos comportamientos se realizan modelos. Las tcnicas ms comnmente usadas en Data Mining son:

Redes neuronales artificiales: modelos predecible no-lineales que aprenden a travs del entrenamiento y semejan la estructura de una red neuronal biolgica. rboles de decisin: estructuras de forma de rbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Mtodos especficos de rboles de decisin incluyen rboles de Clasificacin y Regresin (CART: Classification And Regression Tree) y Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi Square Automatic Interaction Detection) Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como combinaciones genticas, mutaciones y seleccin natural en un diseo basado en los conceptos de evolucin. Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de datos histricos. Algunas veces se llama la tcnica del vecino k-ms cercano. Regla de induccin: la extraccin de reglas if-then de datos basados en significado estadstico. Redes Bayesianas. Estos algoritmos son de singular utilidad para la determinacin de vinculaciones causa-efecto entre mltiples variables y pueden ser de singular ayuda en detectar conexiones no conocidas Actualmente existen modelos que pueden predecir el rinde de los cultivos. Para saber si los modelos son eficaces se aplicaran estos modelos con datos relevados que son necesarios en esos modelos y comparar sus estimaciones con los rindes conocidos para esos datos. Con Data Mining, la mejor manera para realizar pruebas de modelos es dejar de lado ciertos datos para aislarlos del proceso de Data Mining. Una vez que el proceso y la aplicacin de la/s tcnica/s estn completas, los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo. Si el modelo funciona, las observaciones deben mantenerse para los datos excl. idos. 3- Flexibilizacin de modelos existentes o creacin de nuevos modelos. De los modelos existentes que como se mencion son analizados a fin de determinar las variables iniciales necesarias a relevar en el sistema; se puede desprender, tras realizar minera de datos y anlisis de correlaciones o incidencias entre variables, que los modelos son exactos o que necesitan ajustes en cuanto a sus ndices o formulas matemticas. Tambin puede suceder que sea necesario incorporar nuevas variables, no contempladas en los modelos, pero que se sospeche son de incidencia en el objetivo de inferir rindes. Al introducir estas mediciones puede suceder que se confirmen las sospechas de su incidencia y deban ser incorporadas a modelos existentes o que el comportamiento de algunas variables se exprese mejor con la composicin de otras variables existentes o incorporadas al modelo. De esta forma estaramos en presencia de nuevos modelos. 4- Creacin de modelos estndar o normalizados. Debido a que para el procesamiento de datos y anlisis efectuados sobre los mismos a fin de determinar los modelos se ha debido tomar criterios de homogenizacin de la informacin, sera deseable establecer la forma y conocer cules son las variables o mediciones requeridas por los modelos. De esta forma los orgenes

de informacin la generaran en la estructura adecuada a los modelos y facilitara la utilizacin de los modelos en los usuarios. Temas involucrados en el proyecto Las reas incluidas en el proyecto son: Bases de Datos Data Mining Data Warehouse Estadstica Anlisis de Datos Ingeniera del Conocimiento Ingeniera Ontolgica Visualizacin de datos Redes Bayesianas Sistemas de Indicadores de Gestin (BSC) Desarrollo La idea de caja negra en donde existen entradas de variables de informacin y se obtiene una salida esperada constituye una visin, un tanto primitiva, del proyecto. Determinar cules son las variables medidas necesarias como input necesarias para generar la salida esperada constituye el primer desafo. Para determinar ese conjunto de variables, en un principio se analizarn modelos existentes y establecer cul es el conjunto finito de variables que contemplan. Variable 1 RINDE Variable 2 Variable N Determinado el conjunto de variables input del sistema y normalizada la medicin de las variables y, tras relevar un volumen significativo de informacin; el siguiente paso consiste en clarificar la caja negra. En este punto es que se debe determinar y realizar efectivamente un anlisis exhaustivo de los datos y aplicando los fundamentos tericos - prcticos de los temas mencionados anteriormente (Data Mining y sus tcnicas, Data Warehouse, Anlisis Estadsticos y Anlisis de Datos, consideraciones de Ingeniera del Conocimiento y Ingeniera Ontolgica y Redes Bayesianas). Un punto importante es como Visualizar los datos y la presentacin de los mismos a travs de Sistemas de Indicadores de Gestin (BSC) que hacen a la ayuda en la toma de decisiones. MODELO 1 Conjunto de variables M1V1, M1V2M1Vm MODELO K Conjunto de variables MkV1, MkV2MkVm

MODELO 1 Conjunto de variables M1V1, M1V2M1Vm MODELO K Conjunto de variables MkV1, MkV2MkVm BSC Si bien la salida fundamental que arroya el sistema es el rinde posible determinado por el sistema modelado, en realidad la caja negra generara de salida los modelos optimizados (existentes flexibilizados o nuevos) y son estos modelos los que inferirn el rinde. Por su parte, como se mencion anteriormente puede ser necesario incorporar variables sospechadas de ser incidentes en el objetivo de determinar el rinde. Estas nuevas variables ocasionarn (de ser incidentes) nuevos modelos mejorados. Este ltimo proceso de incorporar mas variables y mejorar el sistema, conjuntamente con aumentar el volumen de informacin analizado en la caja negra deber producir un efecto de mejora continua. MODELO 1 Conjunto de variables M1V1, M1V2M1Vm MODELO K Conjunto de variables MkV1, MkV2MkVm BSC RINDE MODELO N1 Conjunto de variables MN1V1, MN1V2MN1Vm MODELO NJ Conjunto de variables MNJV1, MNJV2MNJVm Conclusiones La minera de datos es la herramienta adecuada para la formulacin de modelos de inferencia, en este caso se pretende establecer modelos de inferencia de rindes de cultivos. En la actualidad existen modelos que realizan estas predicciones. Partiendo de estos modelos y sus variables, se crear una gran base de datos, se aplicaran tcnicas de data mining sobre ese volumen de informacin generando flexibilizacin de los modelos existentes y creando nuevos modelos acorde a nuestra realidad medida.

A travs de dar a conocer los resultados del presente proyecto y standarizando su uso en los usuarios regionales, se crear un volumen de informacin aun mayor que generar un crculo virtuoso y la continua optimizacin de los modelos.

Das könnte Ihnen auch gefallen