Tesis de Magister en Ingeniera en Sistemas de Informacin
Deteccin de Patrones de Daos y Averas en la Industria
Automotriz
Ing. Hugo Daniel Flores
Directora: Dra. Paola V. Britos Codirector: Dr. Ramn Garca Martnez
- 2009 -
Universidad Tecnolgica Nacional Facultad Regional Buenos Aires DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 1 de287 Ing. Hugo Daniel Flores Resumen
En la industria automotriz uno de los temas relevantes en la produccin y distribucin de unidades es la deteccin e identificacin de daos y/o averas producidas a lo largo del circuito que recorren los autos desde que salen de planta de produccin hasta que llegan a su destino final.
Con el incremento de la globalizacin, los fabricantes de vehculos han ido rediseando sus redes de produccin en todo el mundo. Para optimizar los costes, determinados pases son escogidos para especializarse en la produccin de ciertos modelos. Esta situacin ha dado lugar a un inevitable aumento del transporte de los vehculos desde los pases productores a los mercados finales. Durante estos trayectos los vehculos se ven sometidos a daos, en grado variable, en toda la cadena de suministro.
El objetivo del proyecto es utilizar la metodologa CRISP-DM para detectar patrones en la produccin de daos y/o averas en la cadena de distribucin para permitir a la industria:
Identificar daos y/o averas. Determinar responsabilidad de siniestralidad en funcin del tipo de avera y tipo de transporte. Imputar incidentes segn el tipo de transporte. Determinar tipos de averas y/o daos. Determinar partes averiadas y/o daadas que muestren algn tipo de comportamiento. Especificar gravedad de daos y/o averas. Definir e identificar modelos con daos especificando partes, tipo de dao y gravedad. Especificar lugares donde se producen daos y/o averas tratando de definir patrones de comportamiento. Especificar estadsticamente: tipos de transporte que producen daos y/o averas como as tambin, partes, tipos de averas, gravedades, lugares donde se producen. Descubrir informacin oculta en funcin de los modelos generados a partir de los datos disponibles.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 2 de287 Ing. Hugo Daniel Flores
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 3 de287 Ing. Hugo Daniel Flores
Dedicatoria
A mi esposa y familia
Sandra, Mara Elena, Paula y Marcos
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 4 de287 Ing. Hugo Daniel Flores
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 5 de287 Ing. Hugo Daniel Flores Agradecimiento
A la Universidad Tecnolgica Nacional, Facultad Regional Tucumn y por su intermedio al Estado Nacional por darme la posibilidad de estudiar y acceder a un nivel acadmico superior.
A la Escuela de Posgrado de la Universidad Tecnolgica Nacional, Facultad Regional Buenos Aires por haberme permitido acceder a este nivel de estudio.
A mis tutores Dra. Paola Britos y Dr. Ramn Garca Martnez por haberme conducido a lo largo del desarrollo de este trabajo de tesis.
A la Dra. Zulma Cataldi por su colaboracin y asesoramiento en la especificacin de los lineamientos generales para el desarrollo de esta tesis.
A mis colegas y asociados por haber contribuido abierta y desinteresadamente en las pruebas y consultas realizadas no solo para este proyecto en particular sino tambin por todos los emprendimientos que vamos logrando.
A mi esposa por darme la confianza y el apoyo, y soportar diariamente la ardua labor que implica mi desarrollo profesional permanente.
A mi madre por haberme inculcado desde nio a seguir el camino de la educacin para mejorar mi futuro como persona, como hijo, como hermano y como hombre de familia.
Espero que este trabajo y su propuesta de futuras lneas de investigacin sirvan como agradecimiento y devolucin hacia la sociedad por las oportunidades que me brind a travs de la Universidad Estatal.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 6 de287 Ing. Hugo Daniel Flores
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 7 de287 Ing. Hugo Daniel Flores ndice
1. Introduccin.....................................................................................................................................9 1.1. Minera de Datos (Data Mining)...............................................................................................9 1.2. Lineamientos del documento de tesis.....................................................................................10 2. Tcnicas de Minera de Datos........................................................................................................11 1. Anlisis estadstico.....................................................................................................................11 2. Anlisis a travs de sistemas inteligentes..................................................................................12 3. Conclusiones..............................................................................................................................13 3. Metodologas de Minera de Datos................................................................................................15 3.1. SEMMA..................................................................................................................................15 3.2. CRISP-DM..............................................................................................................................16 3.3. Microsoft.................................................................................................................................18 3.4. Comparacin de Metodologas...............................................................................................21 4. La metodologa CRISP-DM...........................................................................................................23 4.1. Introduccin............................................................................................................................23 4.1.1. La Metodologa CRISP-DM............................................................................................23 4.1.2. Pasaje de modelos genricos a modelos especializados..................................................24 4.2. El modelo de referencia CRISP-DM......................................................................................25 4.2.1. Comprensin del Negocio................................................................................................27 4.2.2. Comprensin de Datos.....................................................................................................31 4.2.3. Preparacin de Datos.......................................................................................................33 4.2.4. Modelado.........................................................................................................................37 4.2.5. Evaluacin........................................................................................................................39 4.3. La gua de usuario de CRISP-DM..........................................................................................43 4.3.1. Comprendiendo el negocio..............................................................................................43 4.3.2. Comprensin de Datos.....................................................................................................51 4.3.3. Preparacin de los datos...................................................................................................56 4.3.4. Modelado.........................................................................................................................60 4.3.5. Evaluacin........................................................................................................................64 4.3.6. Desarrollo.........................................................................................................................67 4.4. Las salidas del CRISP-DM.....................................................................................................69 4.4.1. Comprensin del Negocio................................................................................................70 4.4.2. Comprensin de Datos.....................................................................................................71 4.4.3. Preparacin de Datos.......................................................................................................72 4.4.4. Modelado.........................................................................................................................73 4.4.5. Evaluacin........................................................................................................................74 4.4.6. Desarrollo.........................................................................................................................75 4.4.7. Resumen de dependencias...............................................................................................75 4.5. Apndice.................................................................................................................................77 4.5.1. Glosario/Terminologa.....................................................................................................77 4.5.2. Tipos de problemas de minera de datos..........................................................................77 5. Descripcin y desarrollo de la industria.........................................................................................85 5.1. La industria automotriz y el control de daos y/o averas......................................................85 5.2. Circuitos logsticos..................................................................................................................86 5.3. Transportes y lugares de almacenamiento..............................................................................87 6. Procesos a analizar, lmites y alcance............................................................................................89 6.1. Puntos de Control....................................................................................................................89 6.2. Estndares de inspeccin........................................................................................................89 7. Informacin y datos.......................................................................................................................91 DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 8 de287 Ing. Hugo Daniel Flores 7.1. Proceso de inspeccin y captura de datos...............................................................................91 7.2. Sistema normalizado de codificacin de daos y/o averas....................................................91 7.3. Proceso de educcin de requerimientos del proyecto.............................................................91 8. Aplicacin de la metodologa propuesta........................................................................................95 8.1. Comprensin del Negocio.......................................................................................................95 8.2. Comprensin de Datos..........................................................................................................104 8.3. Preparacin de Datos............................................................................................................112 8.4. Modelado..............................................................................................................................115 8.4.1. Seleccin de las tcnicas de modelado..........................................................................115 8.4.2. Generacin de la prueba de diseo................................................................................115 8.4.3. Construccin de los modelos.........................................................................................116 8.4.4. Descripcin de los modelos...........................................................................................119 8.4.4.1. Modelo de Clasificacin.........................................................................................119 8.4.4.2. Modelo de Clustering..............................................................................................144 8.4.4.3. Modelo de Prediccin.............................................................................................167 8.4.5. Dificultades encontradas................................................................................................190 8.5. Evaluacin.............................................................................................................................190 8.5.1. Evaluacin de los resultados en trminos de minera de datos......................................190 8.5.2. Evaluacin de los resultados en trminos de objetivos de negocio. ..............................218 8.5.2.1. Tipos de averas. .....................................................................................................219 8.5.2.2. Lugares....................................................................................................................220 8.5.2.3. Modelos...................................................................................................................220 8.5.2.4. Partes, Averas y Gravedad.....................................................................................221 8.5.2.5. Lugares, Partes y Tipos de Averas.........................................................................224 8.5.2.6. Modelos, Partes y Tipos de Averas........................................................................232 8.5.2.7. Imputacin Tipo de Transporte...............................................................................238 8.6. Desarrollo..............................................................................................................................241 8.6.1. Plan de desarrollo...........................................................................................................241 8.6.2. Supervisin y mantenimiento del plan...........................................................................250 8.6.3. Produccin de Informe definitivo..................................................................................251 8.6.4. Revisin del proyecto.....................................................................................................252 9. Conclusiones................................................................................................................................253 10. Lneas futuras de investigacin..................................................................................................257 11. Bibliografas y Documentacin.................................................................................................259 12. Anexos.......................................................................................................................................261 Anexo 1: Terminologa de negocio..............................................................................................261 Anexo 2: Terminologa de minera de datos................................................................................262 Anexo 3: Consultas estructuradas para base de datos..................................................................264 Anexo 4: Codificacin.................................................................................................................273 Anexo 5: Presentacin final.........................................................................................................277
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 9 de287 Ing. Hugo Daniel Flores 1. Introduccin
1.1. Minera de Datos (Data Mining)
El gran desarrollo tecnolgico de los ltimos aos ha potenciado el almacenamiento de grandes volmenes de informacin. No solo desde el punto de vista del computador personal sino tambin desde el punto de vista de la computacin como un conjunto de dispositivos electrnicamente interconectados capaces de soportar el trasporte de grandes cantidades de informacin en una direccin determinada con el propsito de ser almacenada centraliza o descentralizadamente, o bien desde el punto de vista de redes electrnicas donde desde cada nodo se permite la posibilidad de cargar informacin en una o ms bases de datos.
Al mayor poder de procesamiento y transporte de informacin se suman los avances tecnolgicos en materia de base de datos que soportan grandes volmenes de informacin de diferentes orgenes y fuentes pudiendo incluir texto, nmeros, imgenes, video, etc.
Estos avances en materia de gran capacidad de almacenamiento de informacin han dado lugar a la creacin de nuevas tecnologas como la Minera de Datos.
Conceptualmente la Minera de Datos o Explotacin de Datos, como tambin ser llamada en el presente trabajo, se puede definir como un conjunto de tcnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implcito, previamente desconocido, potencialmente til y humanamente comprensible, a partir de grandes conjuntos de datos con motivo de predecir de forma automatizada tendencias y comportamientos y/o descubrir de forma automatizada modelos previamente desconocidos [Piatetski-Shapiro, 1991].
Desde un punto de vista empresarial la minera de datos puede ser definida como un conjunto de reas que tiene como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones [Molina, 2001].
Lo que realmente hace el data mining es reunir las ventajas de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin Grfica, el Datawarehouse y el Procesamiento Masivo, principalmente usando como materia prima bases de datos.
Para tener una aproximacin cercana a las diversas definiciones encontradas en diferentes artculos de diferentes autores se puede concluir que la minera de datos es un proceso con el cual se pueden descubrir y cuantificar relaciones predictivas en los datos, y del resultado de este proceso es posible obtener conocimiento til para el negocio.
Hoy en da realizando las consultas (simplemente navegando los datos) convencionales a grandes bases de datos no es suficiente para resolver problemas de negocios, sino que se hace necesario seguir una metodologa ordenada para aplicar herramientas tecnolgicas y tcnicas disponibles en informticas para as obtener conocimiento y resultados que permitan a las compaas obtener un beneficio. El entorno natural del Data Mining es el Datawarehouse.
La minera de datos trata de sacar informacin de detalle de un almacn de datos. No se conforma solo con la visualizacin de datos, sino que es necesario obtener resultados en cuanto a la relacin que existe entre los mismos y como estos podran repercutir en el negocio.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 10 de287 Ing. Hugo Daniel Flores Para la explotacin de datos aplicando minera de datos existen diferentes tcnicas las cuales pueden ser desarrolladas segn diferentes metodologas. A continuacin se describirn algunas tcnicas y metodologas de Data Mining.
1.2. Lineamientos del documento de tesis
El primer captulo desarrolla una breve introduccin a la minera de datos que es la base operacional del presente proyecto de tesis.
El captulo dos muestra una descripcin de las diferentes tcnicas de minera de datos que pueden ser aplicadas en funcin de las necesidades del estudio en cuestin.
El tercer captulo realiza una comparacin entre las diferentes metodologa de minera de datos desarrolladas hasta el presente. Adems muestra el avance tecnolgico de cada tcnica y muestra como resultado una breve conclusin que motiva la aplicacin de la metodologa seleccionada para este proyecto.
En el cuarto captulo se desarrolla la metodologa completa a utilizar en este proyecto y esta adems representa para esta tesis el estado de la tecnologa. Se toma como marco de referencia la metodologa propuesta por la organizacin creadora de la misma y a la cual se hace referencia en las respectivas citas.
Le quinto captulo describe la situacin actual de la industria automotriz en lo referente a daos y/o averas. Adems se muestran los posibles circuitos logsticos estndares en la industria y dems detalles como los tipos de transporte o lugares de estacionamiento de las unidades automotrices.
El sexto captulo hace referencia a los procesos a analizar, los lmites del proyecto y los alcances del mismo.
En el sptimo captulo se realiza la descripcin global del sistema de informacin del que se obtiene toda la informacin para la explotacin de datos.
En el captulo ocho se realiza la aplicacin de la metodologa propuesta a la industria automotriz. Paso a paso se hace el desarrollo completo de la metodologa propuesta.
El captulo nueve muestra las conclusiones a las que se arriba luego del desarrollo del proyecto de tesis.
En el captulo diez se presentan las posibles lneas de investigacin que surgen de la realizacin de este proyecto.
El captulo once muestra la bibliografa a la cual se ha recurrido para el desarrollo del presente proyecto.
Finalmente en el captulo doce se muestran todos los anexos utilizados para la preparacin, anlisis y evaluacin de los resultados.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 11 de287 Ing. Hugo Daniel Flores 2. Tcnicas de Minera de Datos
Las bases de la minera de datos se encuentran en la inteligencia artificial y en el anlisis estadstico y mediante los modelos extrados. Utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin, clasificacin y segmentacin.
1. Anlisis estadstico
Debido al gran volumen de datos con el que se puede contar en la actualidad y al poder de proceso en la tecnologa desarrollada hasta aqu, se hace viable la exploracin de la informacin utilizando diferentes tcnicas estadsticas.
El Anlisis Estadstico se preocupa ms por el poder de generalizacin de los resultados obtenidos para inferir los resultados a situaciones ms generales que la estudiada.
A continuacin se presentan algunas tcnicas:
ANOVA o anlisis de la Varianza: Contrasta si existen diferencias significativas entre las medidas de una o ms variables continuas en grupos de poblacin distintos. Regresin: Define la relacin entre una o ms variables y un conjunto de variables predictoras de las primeras. Chi cuadrado: Contrasta la hiptesis de independencia entre variables. Componentes principales: Permite reducir el nmero de variables observadas a un menor nmero de variables artificiales, conservando la mayor parte de la informacin sobre la varianza de las variables. Anlisis discriminante: Mtodo de clasificacin de individuos en grupos que previamente se han establecido, y que permite encontrar la regla de clasificacin de los elementos de estos grupos, y por tanto identificar cules son las variables que mejor definan la pertenencia al grupo. Series temporales: Es el conocimiento de una variable a travs del tiempo para que a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones. Suelen basarse en un estudio de la serie en ciclos, tendencias y estacionalidades, que se diferencian por el mbito de tiempo abarcado, para por composicin obtener la serie original. Se pueden aplicar enfoques hbridos con los mtodos anteriores, en los que la serie se puede explicar no slo en funcin del tiempo sino como combinacin de otras variables de entornos ms estables y, por lo tanto, ms fcilmente predecibles. Anlisis cluster 1 : Permite clasificar una poblacin en un nmero determinado de grupos, en base a semejanzas y desemejanzas de perfiles existentes entre los diferentes componentes de dicha poblacin. El mtodo Chaid (Chi Squared Automatic Interaction Detector): Es un anlisis que genera un rbol de decisin para predecir el comportamiento de una variable, a partir de una o ms variables predictoras, de forma que los conjuntos de una misma rama y un mismo nivel son disjuntos. Es til en aquellas situaciones en las que el objetivo es dividir una poblacin en distintos segmentos basndose en algn criterio de decisin. El rbol de decisin se construye partiendo el conjunto de datos en dos o ms subconjuntos de observaciones a partir de los valores que toman las variables predictoras. Cada uno de estos subconjuntos vuelve despus a ser particionado utilizando el mismo algoritmo. Este proceso contina hasta que no se encuentran diferencias significativas en la influencia de las
1 Anlisis cluster usando mapas autoorganizados (tcnica de sistemas inteligentes) ser aplicado en esta tesis. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 12 de287 Ing. Hugo Daniel Flores variables de prediccin de uno de estos grupos hacia el valor de la variable de respuesta. La raz del rbol es el conjunto de datos ntegro, los subconjuntos y los subsubconjuntos conforman las ramas del rbol. Un conjunto en el que se hace una particin se llama nodo. El nmero de subconjuntos en una particin puede ir de dos hasta el nmero de valores distintos que puede tomar la variable usada para hacer la separacin. La variable de prediccin usada para crear una particin es aquella ms significativamente relacionada con la variable de respuesta de acuerdo con test de independencia de la Chi cuadrado sobre una tabla de contingencia.
2. Anlisis a travs de sistemas inteligentes
El objetivo de la aplicacin de Sistemas Inteligentes en la minera de datos es extraer informacin de manera no supervisada. Se preocupa por ofrecer soluciones algortmicas con un costo computacional aceptable.
A continuacin se presentan algunas de estas tcnicas:
Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de informacin. Aquellas configuraciones de las variables de anlisis que obtengan mejores valores para la variable de respuesta, correspondern a segmentos con mayor capacidad reproductiva. A travs de la reproduccin, los mejores segmentos perduran y su proporcin crece de generacin en generacin. Se puede adems introducir elementos aleatorios para la modificacin de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la poblacin estar constituida por buenas soluciones al problema de optimizacin. Redes neuronales: Genricamente son mtodos de proceso numrico en paralelo, en el que las variables interactan mediante transformaciones lineales o no lineales, hasta obtener salidas. Estas salidas se contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar a un proceso de retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo adecuado. Lgica difusa: Es una generalizacin del concepto de estadstica. La estadstica clsica se basa en la teora de probabilidades, a su vez sta en la tcnica conjuntista, en la que la relacin de pertenencia a un conjunto es dicotmica (el 2 es par o no lo es). Si se establece la nocin de conjunto borroso como aquel en el que la pertenencia tiene una cierta graduacin (un da a 20 C es caluroso?), dispondremos de una estadstica ms amplia y con resultados ms cercanos al modo de razonamiento humano. Mapas autoorganizados: Los mapas autoorganizados o SOM (Self-Organizing Map), tambin llamados redes de Kohonen son un tipo de red neuronal no supervisada, competitiva, distribuida de forma regular en una rejilla de, normalmente, dos dimensiones, cuyo fin es descubrir la estructura subyacente de los datos introducidos en ella. A lo largo del entrenamiento de la red, los vectores de datos son introducidos en cada neurona y se comparan con el vector de peso caracterstico de cada neurona. La neurona que presenta menor diferencia entre su vector de peso y el vector de datos es la neurona ganadora (o BMU, Best-Matching Unit, Unidad con mejor ajuste) y ella y sus vecinas vern modificados sus vectores de pesos. Algoritmos de induccin: Encuadrado dentro de las tcnicas de Aprendizaje Automtico (Machine Learning), estos algoritmos permiten construir automticamente a partir de un conjunto de datos de entrenamiento un rbol de clasificacin. Para inferir el rbol, el algoritmo realiza particiones binarias sucesivas en el espacio de las variables explicativas, DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 13 de287 Ing. Hugo Daniel Flores de forma que en cada particin se escoge la variable que aporta ms informacin en funcin de una medida de entropa o cantidad de informacin. El rbol as construido consta del mnimo nmero de atributos (variables) que se requieren para la clasificacin eficiente de los ejemplos dados, con lo que es claro el gran poder explicativo de esta tcnica. Tambin se pueden elaborar, a partir del rbol, reglas de clasificacin fcilmente interpretables, que definen las caractersticas que ms diferencian a las distintas clases establecidas inicialmente. Este tipo de sistemas clasificadores presentan la ventaja, frente a las tcnicas estadsticas, de que tienen un carcter estrictamente no paramtrico. Adems, aunque no alcanzan el poder predictivo de las redes neuronales, sus resultados son mucho ms fcilmente interpretables que los modelos de caja negra suministrados por aqullas. 3. Conclusiones
En general, cualquiera que sea el problema a resolver, no existe una nica tcnica para solucionarlo, sino que puede ser abordado siguiendo aproximaciones distintas. El nmero de tcnicas es muy grande y es muy probable que siga creciendo.
La experiencia prctica muestra la aptitud de las tcnicas de minera de datos para resolver problemas empresariales. Tambin es clara su aportacin para resolver problemas cientficos que impliquen el tratamiento de grandes cantidades de datos.
La minera de datos es, en realidad, una prolongacin de una prctica estadstica de larga tradicin, la de Anlisis de Datos. Existe, adems, una aportacin propia de tcnicas especficas de Inteligencia Artificial, en particular sobre la integracin de los algoritmos, la automatizacin del proceso y la optimizacin del coste.
A diferencia de la IA, que es una ciencia joven, en Estadstica se viene aprendiendo de los datos desde hace ms de un siglo, la diferencia consiste en que ahora existe la potencia de clculo suficiente para tratar ficheros de datos de forma masiva y automtica. Esta es una realidad que cada vez ser ms habitual.
Por otro lado y en relacin a la amplia diversidad de tcnicas disponibles, conviene tener claro que no existe la tcnica ms inteligente, sino formas inteligentes de utilizar una tcnica y que cada uno utiliza de forma inteligente aquello que conoce. Tambin que para la mayora de los problemas no existen diferencias significativas en los resultados obtenidos.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 14 de287 Ing. Hugo Daniel Flores
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 15 de287 Ing. Hugo Daniel Flores 3. Metodologas de Minera de Datos
3.1. SEMMA 2
SAS Institute 3 es el desarrollador de esta metodologa, la define como el proceso de seleccin, exploracin y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos.
El nombre de esta terminologa es el acrnimo correspondiente a las cinco fases bsicas del proceso (Figura 1).
Figura 1: Fases de la metodologa SEMMA
El proceso se inicia con la extraccin de la poblacin muestral sobre la que se va a aplicar el anlisis. El objetivo de esta fase consiste en seleccionar una muestra representativa del problema en estudio. La representatividad de la muestra es indispensable ya que de no cumplirse invalida todo el modelo y los resultados dejan de ser admisibles. La forma ms comn de obtener una muestra es la seleccin al azar, es decir, cada uno de los individuos de una poblacin tiene la misma posibilidad de ser elegido. Este mtodo de muestreo se denomina muestreo aleatorio simple.
La metodologa SEMMA establece que para cada muestra considerada para el anlisis del proceso se debe asociar el nivel de confianza de la muestra.
Una vez determinada una muestra o conjunto de muestras representativas de la poblacin en estudio, la metodologa SEMMA indica que se debe proceder a una exploracin de la informacin disponible con el fin de simplificar en lo posible el problema para optimizar la eficiencia del modelo. Para lograr este objetivo se propone la utilizacin de herramientas de visualizacin o de tcnicas estadsticas que ayuden a poner de manifiesto relaciones entre variables. De esta forma se pretende determinar cules son las variables explicativas que van a servir como entradas al modelo.
La tercera fase de la metodologa consiste en la manipulacin de los datos, en base a la exploracin realizada, de forma que se definan y tengan el formato adecuado los datos que sern introducidos en el modelo.
Una vez que se han definido las entradas del modelo con el formato adecuado para la aplicacin de la tcnica de modelado, se procede al anlisis y modelado de los datos. El objetivo de esta fase consiste en establecer una relacin entre las variables explicativas y las variables objeto del estudio, que posibiliten inferir el valor de las mismas con un nivel de confianza determinado. Las tcnicas utilizadas para el modelado de los datos incluyen mtodos estadsticos tradicionales (tales como anlisis discriminante, mtodos de agrupamiento, y anlisis de regresin), as como tcnicas basadas en datos tales como redes neuronales, tcnicas adaptativas, lgica fuzzy (difusa), rboles de decisin, reglas de asociacin y computacin evolutiva.
2 SEMMA: Simple, Explore, Modify, Model, Assess. 3 SAS Institute: Es una empresa con sede en Cary (Carolina del Norte, Estados Unidos). Es uno de los principales fabricantes de software business intelligence.[ Muestreo (Sample) Exploracin (Explore) Manipulacin (Modify) Modelado (Model) Valoracin (Assess) DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 16 de287 Ing. Hugo Daniel Flores
Finalmente, la ltima fase del proceso consiste en la valoracin de los resultados mediante el anlisis de bondad del modelo o modelos contrastados con otros mtodos estadsticos o con nuevas poblaciones muestrales.
3.2. CRISP-DM 4
La metodologa CRISP-DM (Chapman, 1999) consta de cuatro niveles de abstraccin, organizados de forma jerrquica en tareas que van desde el nivel ms general hasta los casos ms especficos.
A nivel ms general, el proceso est organizado en seis fases (Figura 2), estando cada fase a su vez estructurada en varias tareas generales de segundo nivel. Las tareas generales se proyectan a tareas especficas, donde se describen las acciones que deben ser desarrolladas para situaciones especficas. As, si en el segundo nivel se tiene la tarea general limpieza de datos, en el tercer nivel se dicen las tareas que tienen que desarrollarse para un caso especfico, como por ejemplo, limpieza de datos numricos, o limpieza de datos categricos. El cuarto nivel, recoge el conjunto de acciones, decisiones y resultados sobre el proyecto de Data Mining especfico.
La metodologa CRISP-DM proporciona dos documentos distintos como herramienta de ayuda en el desarrollo del proyecto de Data Mining: el del modelo de referencia y la gua del usuario.
El documento del modelo de referencia describe de forma general las fases, tareas generales y salidas del proyecto de Data Mining. La gua del usuario proporciona informacin ms detallada sobre la aplicacin prctica del modelo de referencia al proyecto de Data Mining especfico, proporcionando consejos y listas de comprobacin sobre las tareas correspondientes a cada fase.
La metodologa CRISP-DM estructura el ciclo de vida de un proyecto de Data Mining en seis fases, que interactan entre ellas de forma iterativa durante el desarrollo del proyecto (Figura 2).
Las flechas indican relaciones ms habituales entre las fases, aunque se pueden establecer relaciones entre cualquier fase. El crculo exterior simboliza la naturaleza cclica del proceso de modelado.
4 CRISP-DM: Cross Industry Standard Process for Data Mining. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 17 de287 Ing. Hugo Daniel Flores
Figura 2: Fases del proceso de modelado metodologa CRISP-DM.
La primera fase anlisis del problema, incluye la comprensin de los objetivos y requerimientos del proyecto desde una perspectiva empresarial, con el fin de convertirlos en objetivos tcnicos y en una planificacin.
La segunda fase de anlisis de datos comprende la recoleccin inicial de datos, en orden a que sea posible establecer un primer contacto con el problema, identificando la calidad de los datos y estableciendo las relaciones ms evidentes que permitan establecer las primeras hiptesis.
Una vez realizado el anlisis de datos, la metodologa establece que se proceda a la preparacin de los datos, de tal forma que puedan ser tratados por las tcnicas de modelado. La preparacin de datos incluye las tareas generales de seleccin de datos a los que se van a aplicar la tcnica de modelado (variables y muestras), limpieza de los datos, generacin de variables adicionales, integracin de diferentes orgenes de datos y cambios de formato.
La fase de preparacin de los datos, se encuentra muy relacionada con la fase de modelado, puesto que en funcin de la tcnica de modelado que vaya a ser utilizada los datos necesitan ser procesados en diferentes formas. Por lo tanto las fases de preparacin y modelado interactan de forma sistemtica.
Anlisis del Problema Anlisis de los datos Preparacin de los datos Modelado Evaluacin Explotacin Datos DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 18 de287 Ing. Hugo Daniel Flores En la fase de modelado se seleccionan las tcnicas de modelado ms apropiadas para el proyecto de Data Mining especfico. Las tcnicas a utilizar en esta fase se seleccionan en funcin de los siguientes criterios:
Ser apropiada al problema Disponer de datos adecuados Cumplir los requerimientos del problema Tiempo necesario para obtener un modelo Conocimiento de la tcnica
Antes de proceder al modelado de los datos se debe de establecer un diseo del mtodo de evaluacin de los modelos, que permita establecer el grado de bondad de los modelos. Una vez realizadas estas tareas genricas se procede a la generacin y evaluacin del modelo. Los parmetros utilizados en la generacin del modelo dependen de las caractersticas de los datos.
En la fase de evaluacin, se evala el modelo, no desde el punto de vista de los datos, sino del cumplimiento de los criterios de xito del problema. Se debe revisar el proceso teniendo en cuenta los resultados obtenidos para poder repetir algn paso en el que a la vista del desarrollo posterior del proceso se hayan podido cometer errores. Si el modelo generado es vlido en funcin de los criterios de xito establecidos en la primera fase, se procede a la explotacin del modelo.
Normalmente los proyectos de Data Mining no terminan en la implantacin del modelo, sino que se deben documentar y presentar los resultados de manera comprensible en orden a lograr un incremento del conocimiento. Adems en la fase de explotacin se debe de asegurar el mantenimiento de la aplicacin y la posible difusin de los resultados [Fayyad, 1996].
3.3. Microsoft
En la Figura 3 se describe las relaciones entre cada paso en la metodologa desarrollada por Microsoft para la implementacin de Data Mining (Figura 3).
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 19 de287 Ing. Hugo Daniel Flores
Figura 3: Fases del proceso de modelado metodologa Microsoft.
El primer paso del proceso de minera de datos consiste en definir claramente el problema empresarial.
Este paso incluye analizar los requisitos empresariales, definir el mbito del problema, definir las mtricas por las que se evaluar el modelo y definir el objetivo final del proyecto de minera de datos. Estas tareas se traducen en preguntas como las siguientes:
Qu se est buscando? Qu atributo del conjunto de datos se desea intentar predecir? Qu tipos de relaciones se intenta buscar? Se desea realizar predicciones a partir del modelo de minera de datos o slo buscar asociaciones y patrones interesantes? Cmo se distribuyen los datos? Cmo se relacionan las columnas? o en caso de haber varias tablas, cmo se relacionan las tablas?
Para responder a estas preguntas, es probable que se deba dirigir un estudio de disponibilidad de datos para investigar las necesidades de los usuarios de la empresa con respecto a los datos disponibles. Si los datos no son compatibles con las necesidades de los usuarios, puede que se deba volver a definir el proyecto.
El segundo paso del proceso de minera de datos consiste en consolidar y limpiar los datos identificados en el paso Definir el problema.
Los datos pueden estar dispersos en la empresa y almacenados en distintos formatos; tambin pueden contener incoherencias como entradas que faltan o contienen errores.
Definir el problema Preparar datos Explorar datos Generar modelos Validar modelos Implementar y actualizar modelos Integracin de servicio Integracin de servicio Vista de origen de datos Diseador de minera de datos DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 20 de287 Ing. Hugo Daniel Flores El tercer paso del proceso de minera de datos consiste en explorar los datos preparados.
Se debe comprender los datos para tomar las decisiones adecuadas al crear los modelos. Entre las tcnicas de exploracin se incluyen calcular los valores mnimos y mximos, calcular la media y las desviaciones estndar y examinar la distribucin de los datos. Una vez explorados los datos, se puede decidir si el conjunto de datos contiene datos con errores y, a continuacin, crear una estrategia para solucionar los problemas.
El cuarto paso del proceso de minera de datos consiste en generar los modelos de minera de datos.
Antes de generar un modelo, se deben separar aleatoriamente los datos preparados en conjuntos de datos de entrenamiento y comprobacin independientes. El conjunto de datos de entrenamiento se utiliza para generar el modelo y el conjunto de datos de comprobacin para comprobar la precisin del modelo mediante la creacin de consultas de prediccin.
Una vez definida la estructura del modelo de minera de datos, se procesa rellenando la estructura vaca con los patrones que describen el modelo. Esto se conoce como entrenar el modelo. Los patrones se encuentran al pasar los datos originales por un algoritmo matemtico.
El modelo de minera de datos se define mediante un objeto de estructura de minera de datos, un objeto de modelo de minera de datos y un algoritmo de minera de datos.
El quinto paso del proceso de minera de datos consiste en explorar los modelos que se han generado y comprobar su eficacia.
No se debe implementar un modelo en un entorno de produccin sin comprobar primero si el modelo funciona correctamente. Adems, puede ser que se hayan creado varios modelos y se deba decidir cul funciona mejor. Si ninguno de los modelos que se han creado en el paso Generar Modelos funciona correctamente, puede ser que se deba volver a un paso anterior del proceso y volver a definir el problema o volver a investigar los datos del conjunto de datos original.
El ltimo paso del proceso de minera de datos consiste en implementar los modelos que funcionan mejor en un entorno de produccin.
Una vez que los modelos de minera de datos se encuentran en el entorno de produccin, se pueden llevar acabo diferentes tareas, dependiendo de las necesidades.
stas son algunas de las tareas que se pueden realizar:
Utilizar los modelos para crear predicciones que se puedan utilizar para tomar decisiones empresariales. Incrustar la funcionalidad de minera de datos directamente en una aplicacin. Crear un paquete en el que se utilice un modelo de minera de datos para separar de forma inteligente los datos entrantes en varias tablas. Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minera de datos existente. La actualizacin del modelo forma parte de la estrategia de implementacin. A medida que la organizacin recibe ms datos, se deben volver a procesar los modelos para mejorar as su eficacia.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 21 de287 Ing. Hugo Daniel Flores 3.4. Comparacin de Metodologas
Las metodologas SEMMA, CRISP-DM y Microsoft esencialmente son muy parecidas. Las tres estn compuestas por etapas o fases que interactan entre s.
En referencia a la tecnologa SEMMA est ms ligada a los aspectos tcnicos de la explotacin de datos. En cuanto a las otras dos, estn ms enfocadas en el negocio en s; es decir en la aplicacin de la Minera de Datos a los negocios. Esta diferencia se ve especficamente en la primera etapa donde SEMMA arranca directamente en el trabajo de datos mientras que CRISP-DM y Microsoft empiezan por el estudio del negocio y sus objetivos, y luego recin se transforma en un problema tcnico.
Analizando la propuesta metodolgica de Microsoft se puede ver que est ntimamente vinculada a la aplicacin de las herramientas de su propia compaa (Microsoft) especialmente en lo que respecta a la integracin de servicios, vista de origen de datos y diseador de minera de datos. Lo mismo ocurre con la metodologa SEMMA la cual est ligada a herramientas SAS.
Para concluir se puede decir que uno de los motivos por los cuales fue escogida para el presente proyecto la metodologa CRISP-DM es que este sistema est diseado como una metodologa independiente de la herramienta tecnolgica a utilizar en la Explotacin de Datos. Esto ltimo la hace ms flexible. Otro punto importante es que es de libre acceso y cumple con la caracterstica de ser orientada al negocio. Para esta implementacin su desarrollo ser aplicado a los datos de la Industria Automotriz.
Finalmente tambin es posible resaltar que la metodologa CRISP-DM es ms completa debido a que tiene toda una fase dedicada al entendimiento del negocio.
La Tabla 1 muestra un cuadro comparativo entre las diferentes metodologas descriptas hasta aqu.
Metodologas CRISP-DM SEMMA Microsoft Estructura Fases y niveles Fases Fases Niveles Parte de lo general a lo especfico No tiene No tiene Fases Anlisis del problema Anlisis de datos Preparacin de Datos Modelado Evaluacin Explotacin Muestreo Exploracin Manipulacin Modelado Valoracin Definir el problema Preparar los datos Explorar los datos Generar modelos Explorar y validar los modelos Implementar y actualizar los modelos Herramientas Genricas SAS Microsoft Procesos Iterativo e interactivo entre fases Iterativo e interactivo entre fases Iterativo e interactivo entre fases Documentacin Modelo de referencia Gua de usuario No se especifica No se especifica Objetivos Se centra en los objetivos empresariales del proyecto Se centra en las caractersticas tcnicas del desarrollo del proceso Se centra en los objetivos empresariales del proyecto Tabla 1: Cuadro comparativo de metodologas
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 22 de287 Ing. Hugo Daniel Flores
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 23 de287 Ing. Hugo Daniel Flores 4. La metodologa CRISP-DM
4.1. Introduccin 4.1.1. La Metodologa CRISP-DM
4.1.1.1. Interrupcin jerrquica
La metodologa de CRISP-DM est descrita en trminos de un modelo de proceso jerrquico consistente en un conjunto de tareas descritas en cuatro niveles de abstraccin (de lo general a lo especfico): fase, tarea genrica, tarea especializada, e instancia de procesos. (Ver figura 4.)
Figura 4: Cuatro niveles de interrupcin de la metodologa CRISP-DM
En el nivel superior, el proceso de minera de datos es organizado en un nmero de fases; cada fase consiste de varias tareas genricas de segundo nivel. Este segundo nivel es llamado genrico porque esta destinado a ser bastante general para cubrir todas las situaciones posibles de minera de datos. Las tareas genricas estn destinadas a ser tan completas y estables como sea posible. Completo significa que cubre tanto al proceso entero de minera de datos como todas las aplicaciones de minera de datos posibles. Estable significa que el modelo debera ser vlido para acontecimientos normales y an para desarrollos imprevistos como tcnicas de modelado nuevo.
El tercer nivel, el nivel de tarea especializado, es el lugar para describir como las acciones en las tareas genricas deberan ser realizadas en ciertas situaciones especficas. Por ejemplo, en el segundo nivel podra haber una tarea genrica llamada limpieza de datos. El tercer nivel describe como esta tarea se distingue en situaciones diferentes, como la limpieza de valores numricos contra la limpieza de valores categricos, o si el tipo de problema es de agrupamiento o de modelado predictivo.
La descripcin de fases y tareas como pasos discretos realizados en un orden especfico representa una secuencia idealizada de eventos.
En la prctica, muchas de las tareas pueden ser realizadas en un orden diferente, y esto a menudo es necesario para volver a hacer tareas anteriores repetidamente y repetir ciertas acciones. Este modelo DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 24 de287 Ing. Hugo Daniel Flores de proceso no intenta capturar todas estas posibles rutas del proceso de la minera de datos porque esto requerira un modelo de proceso demasiado complejo.
El cuarto nivel, la instancia de proceso, es un registro de las acciones, decisiones, y de los resultados de una minera de datos real. Una instancia de proceso esta organizado segn las tareas definidas en los niveles ms altos, pero representa ms bien lo que en realidad sucede en un caso particular que lo que sucede en general.
4.1.1.2. Modelo de referencia y gua de usuario
Horizontalmente, la metodologa de CRISP-DM distingue entre el modelo de referencia y la gua de usuario. El modelo de referencia presenta una descripcin rpida de fases, las tareas, y sus salidas, y describe que hacer en el proyecto de minera de datos. La gua de usuario da consejos ms detallados e insinuaciones para cada fase y cada tarea dentro de una fase, y representa como realizar un proyecto de minera de datos.
4.1.2. Pasaje de modelos genricos a modelos especializados
4.1.2.1. Contexto de la minera de datos
El contexto de minera de datos traza un mapa entre lo genrico y el nivel especializado en CRISP- DM. Actualmente se distinguen cuatro dimensiones diferentes de contextos de minera de datos:
El dominio de aplicacin es el rea especfica en la que el proyecto de minera de datos toma lugar. Los tipos de problemas de minera de datos describen la(s) clase(s) especfica(s) de objetivo(s) con el que el proyecto de minera de datos trata. El aspecto tcnico cubre cuestiones especficas en minera de datos que describe diferentes (tcnicas) dificultades que por lo general ocurren durante la minera de datos. La herramienta y las especificaciones de dimensin tcnica en la que las herramienta(s) de minera de datos y/o tcnicas son aplicadas durante el proyecto de minera de datos.
La Tabla 2 resume estas dimensiones de contextos de minera de datos y muestra ejemplos especficos para cada dimensin.
Contexto Data Mining Dimensin Dominio Aplicacin Tipo Problema Data Mining Aspecto Tcnico Herramienta y Tcnica Modelar Respuesta Descripcin y sumarizacin Valores por omisin Clementine Realizar Prediccin Segmentacin Outliers Mineset Realizar Prediccin Descripcin Concepto Outliers Decision Tree Clasificacin Decision Tree Prediccin Ejemplos Anlisis Dependencia
Tabla 2: Dimensin de contextos y ejemplos de minera de datos DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 25 de287 Ing. Hugo Daniel Flores Un contexto especfico de minera de datos es un valor concreto para una o ms de estas dimensiones. Por ejemplo, un proyecto de minera de datos tratando con un problema de clasificacin que se revuelve con la prediccin constituye un contexto especfico. Lo ms especfico (los valores) para las dimensiones de contextos diferentes son fijadas (especificadas), lo mas concreto es el contexto de minera de datos.
4.1.2.2. Pasaje con contextos
Se distinguen dos tipos diferentes de pasajes (plan) entre el nivel genrico y un especializado en el CRISP-DM:
Pasaje para el presente: Si slo se aplica el modelo de proceso genrico para realizar un proyecto de minera simple e intentar pasar de tareas genricas y sus descripciones al proyecto especfico como requerido, se habla sobre un pasaje solo para (probablemente) un solo uso.
Pasaje para el futuro: Si sistemticamente se especializa el modelo de proceso genrico segn un contexto predefinido (o se analiza sistemticamente de modo similar y consolidando las experiencias de un nico proyecto hacia un modelo de proceso especializado para el uso futuro en contextos comparables), se habla explcitamente de la sobre escritura de un modelo de proceso especializado en trminos de CRISP-DM.
Cualquiera de los tipos de trazados es apropiado segn sus propios objetivos, depende de su contexto de minera de datos especficos y las necesidades de su organizacin.
4.1.2.3. Pasaje
La estrategia bsica para pasar un mapa del modelo de proceso genrico al nivel especializado es la misma para ambos tipos de pasaje:
Analizar su contexto especfico. Quitar cualquier detalle no aplicable a su contexto. Agregar cualquier detalle especfico a su contexto. Especializar (o instanciar) el contenido genrico segn las caractersticas concretas de su contexto. Renombrar el contenido genrico posible para proporcionar significados ms explcitos en su contexto para la aclaracin.
4.2. El modelo de referencia CRISP-DM
El modelo de proceso corriente para la minera de datos proporciona una descripcin del ciclo de vida del proyecto de minera de datos. Este contiene las fases de un proyecto, sus tareas respectivas, y las relaciones entre estas tareas. En este nivel de descripcin, no es posible identificar todas las relaciones. Las relaciones podran existir entre cualquier tarea de minera de datos segn los objetivos, el contexto, y -lo ms importante- el inters del usuario sobre los datos.
El ciclo de vida del proyecto de minera de datos consiste en seis fases, se muestran en la Figura 2 (Fases del proceso de modelado metodologa CRISP-DM). La secuencia de las fases no es rgida.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 26 de287 Ing. Hugo Daniel Flores El movimiento hacia adelante y hacia atrs entre fases diferentes es siempre requerido. El resultado de cada fase determina que la fase o la tarea particular de una fase tienen que ser realizados despus. Las flechas indican las ms importantes y frecuentes dependencias entre fases.
El crculo externo en la Figura 2 simboliza la naturaleza cclica de la minera de datos. La minera de datos no se termina una vez que la solucin es desplegada. Las informaciones ocultas (lecciones ocultas) durante el proceso y la solucin desplegada pueden provocar nuevas y a menudo ms preguntas enfocadas en el negocio. Los procesos de minera subsecuentes se beneficiarn de las experiencias previas. A continuacin se describe brevemente cada fase:
Comprensin del Negocio: Esta fase inicial se enfoca en la comprensin de los objetivos de proyecto y exigencias desde una perspectiva de negocio, luego se convierte este conocimiento de los datos en la definicin de un problema de minera de datos y en un plan preliminar diseado para alcanzar los objetivos. Comprensin de los datos: La fase de entendimiento de datos comienza con la coleccin de datos inicial y contina con las actividades que permiten familiarizarse con los datos, identificar los problemas de calidad de datos, descubrir los primeros conocimientos en los datos, y/o descubrir subconjuntos interesantes para formar hiptesis en cuanto a la informacin oculta. Preparacin de Datos: La fase de Preparacin de Datos cubre todas las actividades necesarias para construir el conjunto de datos final (los datos que sern provistos por las herramientas de modelado) de los datos en bruto iniciales. Las tareas de Preparacin de Datos probablemente van a ser realizadas muchas veces y no en cualquier orden prescripto. Las tareas incluyen la seleccin de tablas, registros y atributos, as como la transformacin y la limpieza de datos para las herramientas que modelan. Modelado: En esta fase, varias tcnicas de modelado son seleccionadas y aplicadas, y sus parmetros son calibrados a valores ptimos. Tpicamente hay varias tcnicas para el mismo tipo de problema de minera de datos. Algunas tcnicas tienen requerimientos especficos sobre la forma de datos. Por lo tanto, volver a la fase de Preparacin de Datos es a menudo necesario. Evaluacin: En esta etapa en el proyecto, se ha construido un modelo (o modelos) que parece tener una alta calidad de la perspectiva de anlisis de datos. Antes de proceder al despliegue final del modelo es importante evaluar a fondo el modelo y la revisin de los pasos ejecutados para crearlo para comparar el modelo correctamente obtenido con los objetivos de negocio. Un objetivo clave es determinar si hay alguna cuestin importante de negocio que no ha sido suficientemente considerada. En el final de esta fase, una decisin en el uso de los resultados de minera de datos debera ser tomada. Desarrollo: La creacin del modelo no es generalmente el final del proyecto. Incluso si el objetivo del modelo es de aumentar el conocimiento de los datos, el conocimiento ganado debera ser organizado y presentado en el modo en el que el cliente pueda usarlo. Ello a menudo implica la aplicacin de modelos "vivos" dentro de un proceso de toma de decisiones de una organizacin, por ejemplo, en tiempo real la personalizacin de pgina Web o la repetida obtencin de bases de datos de mercadeo. Dependiendo de los requerimientos, la fase de desarrollo puede ser tan simple como la generacin de un informe o tan compleja como la realizacin repetida de un proceso cruzado de minera de datos a travs de la empresa. En muchos casos, es el cliente, no el analista de datos, quien lleva el paso de desarrollo. Sin embargo, incluso si el analista realizara el esfuerzo de despliegue, esto es importante para el cliente para entender que acciones necesitan ser ejecutadas en orden para hacer uso de los modelos creados en ese momento.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 27 de287 Ing. Hugo Daniel Flores La figura 5 presenta un contexto de fases acompaadas por tareas genricas y las salidas. En las secciones siguientes, se describen cada tarea genrica y sus salidas ms detalladamente. La atencin es enfocada en descripciones de tarea y resmenes de salidas.
Figura 5: Tareas genricas y salidas del modelo de referencia CRISP-DM
4.2.1. Comprensin del Negocio
La primera etapa de la metodologa apunta a la comprensin de los objetivos del proyecto desde el punto de vista de los objetivos de negocio. En funcin del conocimiento obtenido del negocio se plantea un problema de minera de datos. En esta etapa se desarrollan los pasos preliminares para lograr los objetivos del negocio con herramientas de minera de datos.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 28 de287 Ing. Hugo Daniel Flores
Figura 6: Comprensin del Negocio
4.2.1.1. Determinacin de objetivos de negocio
Tarea: Determinar los objetivos de negocio
El primer objetivo para un contexto es entender desde una perspectiva de negocio lo que el cliente realmente quiere lograr. A menudo el cliente tiene muchos objetivos que compiten y restricciones que deben ser correctamente equilibrados. El objetivo debe ser mostrar (destapar) factores importantes, al principio esto puede influir en el resultado del proyecto.
Una consecuencia posible de la negligencia de este paso es gastar un gran esfuerzo produciendo respuestas correctas a preguntas incorrectas o erradas.
Salida: Contexto
Se registra la informacin que se conoce sobre la situacin de negocio de la organizacin en el principio del proyecto.
Objetivos de negocio
Se describe el objetivo primario del cliente, desde una perspectiva de negocio. Adems de los objetivos del negocio primario all hay tpicamente otras preguntas de negocio relacionadas con lo que al cliente le gustara administrar. Por ejemplo, el objetivo primario del negocio podra ser mantener a clientes corrientes por prediccin cuando ellos son propensos a moverse a un competidor. Los ejemplos de preguntas relacionadas de negocio son Cmo el uso del canal DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 29 de287 Ing. Hugo Daniel Flores primario (por ejemplo, ATM, visita al negocio, Internet) afecta si los clientes se quedan o se van? o Bajar los honorarios de ATM considerablemente reducir el nmero de los clientes ms importante que se irn?
Criterios de xito de negocio
Se describen los criterios para un resultado acertado o til al proyecto desde el punto de vista del negocio. Esto podra ser bastante especfico y capaz de ser medido objetivamente, por ejemplo, la reduccin de clientes se revuelve a un cierto nivel o valor, o esto podra ser general y subjetivo, como dar ideas tiles en las relaciones. En este ltimo caso, debera indicarse quien hace el juicio subjetivo.
4.2.1.2. Evaluacin de la situacin
Tarea: Evaluar la situacin
Esta tarea implica la investigacin ms detallada sobre todos los recursos, restricciones, presunciones, y otros factores que deberan ser considerados en la determinacin del objetivo de anlisis de datos y el plan de proyecto. En la tarea anterior, su objetivo es ponerse rpidamente al da con la situacin. Aqu se quiere ampliar sobre los detalles.
Salida: Inventario de recursos
Se listan los recursos disponibles para el proyecto, incluyendo el personal (expertos de negocio, expertos de datos, soportes tcnicos, expertos en minera de datos), datos (extractos fijos, aproximaciones a la vida real, almacenes de datos, o datos operacionales), recursos computacionales (plataformas de hardware), y software (herramientas de minera de datos, otros software relevantes).
Requerimientos, presunciones, y restricciones
Se listan todos los requerimientos del proyecto, incluyendo el programa de terminacin, la comprensibilidad y calidad de los resultados, y la seguridad, as como las cuestiones legales. Como parte de esta salida se debe asegurar que se permita usar los datos.
Se listan las presunciones hechas por el proyecto. Estas pueden ser presunciones sobre los datos que pueden ser verificados durante la minera de datos, pero tambin puede incluir presunciones no comprobables sobre el negocio relacionado con el proyecto. Es en particular importante listar si esto afectar la validez de los resultados.
Se listan las restricciones sobre el proyecto. Estas pueden ser restricciones sobre la disponibilidad de recursos, pero puede tambin incluir coacciones tecnolgicas como el tamao de conjunto de datos lo que es prctico para usar el modelado.
Riesgos y contingencias
Se listan los riesgos o los acontecimientos que podran retrasar el proyecto o hacer que falle. Se listan los planes de contingencia correspondientes, que accin ser tomada si estos riesgos o acontecimientos ocurren.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 30 de287 Ing. Hugo Daniel Flores Terminologa
Se compila un glosario de terminologa relevante al proyecto. Esto puede incluir dos componentes:
(1) Un glosario de terminologa relevante del negocio, que forma parte de la comprensin del negocio disponible al proyecto. La construccin de este glosario es una til evocacin al conocimiento y un ejercicio de educacin.
(2) Un glosario de terminologa de minera de datos, ilustrada con ejemplos relevantes al problema del negocio en cuestin.
Costos y beneficios
Se construye un anlisis de costo-beneficio para el proyecto, que compare los gastos del proyecto con los beneficios potenciales al negocio si esto es exitoso. La comparacin debera ser tan especfica como sea posible. Por ejemplo, usar medidas monetarias en una situacin comercial.
4.2.1.3. Determinacin de los objetivos de la minera de datos
Tarea: Determinar los objetivos de la minera de datos
Un objetivo de negocio declara objetivos en la terminologa de negocio. Un objetivo de minera de datos declara objetivos de proyecto en trminos tcnicos. Por ejemplo, el objetivo de negocio podra ser Aumentar catlogos de ventas a clientes existentes. Un objetivo de minera de datos podra ser Predecir cuantas baratijas un cliente comprar, obteniendo datos de sus compras de tres aos pasados, informacin demogrfica (edad, sueldo, ciudad, etc.), y el precio del artculo.
Salida: Objetivos de la minera de datos
Se describen las salidas intencionadas del proyecto que permiten el logro de los objetivos de negocio.
Criterios de xito de la minera de datos
Se definen los criterios de un resultado exitoso para el proyecto en trminos tcnicos por ejemplo, un cierto nivel de prediccin precisa o un perfil de inclinacin a comprar con un determinado grado de "elevacin". Como con un criterio de xito de negocio, puede ser necesario describir estos en trminos subjetivos, en este caso la persona o las personas que hacen el juicio subjetivo deberan ser identificadas.
4.2.1.4. Producir el plan del proyecto
Tarea: Producir el plan del proyecto
Se describe el plan intencionado para alcanzar los objetivos de minera de datos y as alcanzar los objetivos de negocio.
El plan debera especificar los pasos para ser realizados durante el resto del proyecto, incluyendo la seleccin inicial de herramientas y tcnicas.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 31 de287 Ing. Hugo Daniel Flores Salida: Plan del Proyecto
Se listan las etapas a ser ejecutadas en el proyecto, juntos con su duracin, recursos requeridos, entradas, salidas, y dependencias. Donde sea posible, se debe hacer explcita la iteracin en gran escala en el proceso de minera de datos. Por ejemplo, las repeticiones del modelado y las fases de evaluacin.
Como parte del plan de proyecto es tambin importante analizar dependencias entre la planificacin de tiempo y los riesgos.
Se marcan los resultados de estos anlisis explcitamente en el plan de proyecto, idealmente con acciones y recomendaciones si los riesgos se manifiestan.
El plan de proyecto contiene proyectos detallados para cada fase. Se decide en este punto que estrategia de evaluacin ser usada en la fase de evaluacin.
El plan de proyecto es un documento dinmico debido a que en el final de cada fase son necesarios una revisin del progreso y logros y es recomendada una actualizacin correspondiente del plan de proyecto. Los puntos de revisin especficas para estas actualizaciones son parte del plan del proyecto.
Evaluacin inicial de herramientas y tcnicas
En el final de la primera fase, una evaluacin inicial de herramientas y tcnicas debera ser realizada. Aqu, por ejemplo, se puede seleccionar una herramienta de minera de datos que soporte varios mtodos para las distintas etapas del proceso. Es importante evaluar herramientas y tcnicas tempranamente en el proceso desde la seleccin de herramientas y tcnicas y esto puede influir en el proyecto entero. 4.2.2. Comprensin de Datos
En esta fase se desarrolla el entendimiento de datos y todas aquellas actividades relacionadas con la limpieza de datos, identificacin de problemas vinculados con la toma de datos, procedimientos para determinar la calidad de datos y todo lo tendiente a facilitar la familiarizacin con los datos. A partir de esta etapa se determinan los primeros subconjuntos de datos que pueden contener la informacin que se est buscando.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 32 de287 Ing. Hugo Daniel Flores
Figura 7: Comprensin de Datos
4.2.2.1. Recoleccin de datos iniciales
Tarea: Recolectar datos iniciales
Se adquieren en el proyecto los datos (o el acceso a los datos) listados en los recursos del proyecto. Esta coleccin inicial incluye carga de datos, si es necesario para la comprensin de los datos. Por ejemplo, si se usa un instrumento especfico para la comprensin de los datos, esto perfectamente se entiende para abrir sus datos en esta herramienta. Este esfuerzo posiblemente conduce a los pasos iniciales de Preparacin de Datos.
Si se adquieren datos de mltiples fuentes, la integracin es una cuestin adicional, aqu o ms tarde en las fases de Preparacin de Datos.
Salida: Informe de coleccin de datos inicial
Se lista el conjunto de dato(s) adquirido(s), juntos con sus posiciones, los mtodos usados para adquirirlos, y algunos de los problemas encontrados. Se registran los problemas encontrados y algunas de las resoluciones alcanzadas. Esto ayuda a la rplica (observacin) futura del proyecto o a la ejecucin de proyectos similares futuros.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 33 de287 Ing. Hugo Daniel Flores 4.2.2.2. Describir los datos
Tarea: Describir los datos
Se examinan las propiedades "gruesas" o "superficiales" de los datos e informes adquiridos en los resultados.
Salida: Informe de descripcin de datos
Se describen los datos que han sido adquiridos, incluyendo su formato, la cantidad de datos (por ejemplo, el nmero de registros y campos en cada tabla), los identificadores de los campos, y cualquier otro rasgo superficial que ha sido descubierto. Se evala si los datos adquiridos satisfacen las exigencias relevantes.
4.2.2.3. Explorar los datos
Tarea: Explorar los datos
Esta tarea dirige interrogantes de minera de datos usando preguntas, visualizacin, y tcnicas de reporte. Estos incluyen la distribucin de atributos claves (por ejemplo, el atributo objetivo de una tarea de prediccin) relacionados entre pares o pequeos nmeros de atributos, los resultados de simples agregaciones, las propiedades de las subpoblaciones significativas, y anlisis estadsticos simples. Estos anlisis directamente pueden dirigir los objetivos de minera de datos; ellos tambin pueden contribuir o refinar la descripcin de datos e informes de calidad, y alimentar en la transformacin y otros pasos de Preparacin de Datos necesarios para anlisis futuros.
Salida: Informe de exploracin de datos
Se describen los resultados de esta tarea, incluyendo primeras conclusiones o hiptesis iniciales y su impacto sobre el resto del proyecto. Si es apropiado, se pueden incluir grficos y plots para indicar las caractersticas de datos que sugieren ms examen de subconjuntos de datos interesantes.
4.2.2.4. Verificar la calidad de los datos
Tarea: Verificar la calidad de los datos
Se examina la calidad de los datos, dirigiendo preguntas como: Los datos estn completos? Esto cubre todo los casos requeridos? Son correctos, o estos contienen errores y, si hay errores, que tan comunes son estos? Hay valores omitidos en los datos? Si es as, como se representan estos, donde ocurre esto, y que tan comunes son estos?
Salida: Informe de calidad de datos
Se listan los resultados de la verificacin de calidad de datos; si existen problemas de calidad, se listan las posibles soluciones. Las soluciones a los problemas de calidad de datos generalmente dependen tanto del conocimiento de los datos como del negocio. 4.2.3. Preparacin de Datos
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 34 de287 Ing. Hugo Daniel Flores En esta etapa se desarrollan las actividades para construir el conjunto de datos final. Aqu se relaciona directamente el formato de los datos obtenidos con las herramientas de minera de datos a utilizar. La tarea de Preparacin de Datos probablemente ser desarrollada en ms de una fase en paralelo a lo largo de todo el proyecto. Esta fase y sus tareas estn vinculados con los aspectos tcnicos de sistemas como lo son las base de datos, tablas, registros, documentos electrnicos y todos los programas / procesos para la transformacin de los datos en informacin utilizable por los modelos de minera de datos.
Figura 8: Preparacin de Datos
Salida: Conjunto de datos
Este es el conjunto (o conjuntos) producido por la fase de Preparacin de Datos, que es usada para modelar o para el trabajo principal de anlisis del proyecto.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 35 de287 Ing. Hugo Daniel Flores Descripcin del conjunto de datos
Se describe el conjunto de datos (o conjuntos) que es usado para el modelado y el trabajo principal de anlisis del proyecto.
4.2.3.1. Seleccin de datos
Tarea: Seleccionar datos
Se decide si los datos son usados para el anlisis. Los criterios incluyen tanto la importancia a los objetivos de la minera de datos, la calidad, y las restricciones tcnicas como los lmites sobre el volumen de datos o los tipos de datos. La seleccin de datos puede cubrir tanto la seleccin de atributos (columnas) como la seleccin de registros (filas) en una tabla.
Salida: Razonamiento para la inclusin/exclusin
Se listan los datos para ser incluidos o excluidos y los motivos para estas decisiones.
4.2.3.2. Limpieza de datos
Tarea: Limpiar datos
Se eleva la calidad de los datos al nivel requerido por las tcnicas de anlisis seleccionadas. Esto puede implicar la seleccin de los subconjuntos de datos limpios, la insercin de datos por defecto adecuados, o tcnicas ms ambiciosas tales como la estimacin de datos faltantes mediante modelado.
Salida: Informe de la limpieza de los datos
Se describe que decisiones y acciones fueron tomadas para dirigir los problemas de calidad de datos informados durante la tarea de Verificacin de Calidad de Datos de la fase de Comprensin de Datos. Las transformaciones de los datos para una apropiada limpieza y el posible impacto en el anlisis de resultados deberan ser considerados.
4.2.3.3. Construir datos
Tarea: Construir datos
Esta tarea incluye la construccin de operaciones de preparacin de datos tales como la produccin de atributos derivados o el ingreso de nuevos registros, o la transformacin de valores para atributos existentes.
Salidas: Atributos derivados
Los atributos derivados son los atributos nuevos que son construidos de uno o ms atributos existentes en el mismo registro. Ejemplo: rea =longitud x anchura.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 36 de287 Ing. Hugo Daniel Flores Registros generados
Se describe la creacin de registros completamente nuevos. Ejemplo: Crear registros para los clientes quienes no hicieron compras durante el ao pasado. No habra ninguna razn de tener tales registros en los datos brutos, pero para el objetivo del modelado esto podra tener sentido para representar explcitamente el hecho que ciertos clientes no hayan hecho ninguna compra.
4.2.3.4. Integrar datos
Tarea: Integrar datos
Estos son los mtodos por el cual la informacin es combinada desde mltiples tablas o registros para crear nuevos registros o valores.
Salida: Combinacin de datos
La combinacin de tablas se refiere a la unin simultnea de dos o ms tablas que tienen informacin diferente sobre el mismo objeto. Ejemplo: una cadena de venta al pblico tiene una tabla con la informacin sobre las caractersticas generales de cada tienda (por ejemplo, el espacio, el tipo de comercio), otra tabla con datos resumidos de las ventas (por ejemplo, el beneficio, el cambio porcentual en ventas desde el ao anterior), y la otra con informacin sobre los datos demogrficos del rea circundante. Cada una de estas tablas contiene un registro para cada tienda. Estas tablas pueden ser combinadas simultneamente en una nueva tabla con un registro para cada tienda, combinando campos de las tablas fuentes.
Los datos combinados tambin cubren agregaciones. La agregacin se refiere a operaciones en la que nuevos valores de informacin resumida son calculados desde mltiples registros y/o tablas. Por ejemplo, convirtiendo una tabla de compra de clientes donde hay un registro para cada compra en una tabla nueva donde hay un registro para cada cliente, con campos tales como el nmero de compras, el promedio de la cantidad de compra, el porcentaje de ordenes cobrados a tarjeta de crdito, el porcentaje de artculos bajo promocin, etc.
4.2.3.5. Formatear datos
Tarea: Formatear datos
Se refiere a modificaciones principalmente sintcticas hechas a los datos que no cambian su significado, pero podra ser requerido por la herramienta de modelado.
Salida: Datos reformateados
Algunas herramientas tienen requerimientos sobre el orden de los atributos, tales como el primer campo que es un nico identificador para cada registro o el ltimo campo que es el campo resultado que el modelo debe predecir.
Podra ser importante cambiar el orden de los registros en el conjunto de datos. Quizs la herramienta de modelado requiere que los registros sean clasificados segn el valor del atributo de resultado.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 37 de287 Ing. Hugo Daniel Flores Comnmente, los registros del conjunto de datos son ordenados al principio de algn modo, pero el algoritmo que modela necesita que ellos estn en un orden moderadamente arbitrario. Por ejemplo, cuando se usan redes neuronales, esto es generalmente mejor para los registros para ser presentados en un orden aleatorio, aunque algunas herramientas manejen esto automticamente sin la intervencin explicita del usuario.
Adems, hay cambios puramente sintcticos hechos para satisfacer las exigencias de la herramienta de modelado especfica. Ejemplos: el quitar las comas de adentro de campos de texto en ficheros de datos delimitados por coma, cortar todos los valores a un mximo de 32 caracteres. 4.2.4. Modelado
En esta fase se eligen diferentes tcnicas de modelado de datos y se estudian y ajustan parmetros con los valores correctos para el proyecto. Existen en el universo tecnolgico muchas tcnicas para la resolucin del mismo problema de minera de datos. Es altamente probable que desde el modelado sea necesario volver a la fase de preparacin de datos puesto que todas las tcnicas en evaluacin pueden tener requisitos de formato de datos diferentes. Durante esta etapa los datos son procesados ms de una vez posiblemente por cada herramienta.
Figura 9: Modelado
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 38 de287 Ing. Hugo Daniel Flores 4.2.4.1. Seleccin de la tcnica de modelado
Tarea: Escoger la tcnica de modelado
Como primer paso en modelado, se debe seleccionar la tcnica de modelado real que va a ser usado.
Aunque se haya podido seleccionar una herramienta durante la fase de Comprensin del Negocio, esta tarea se refiere a la tcnica de modelado especfico, por ejemplo, un rbol de decisin construido con C4.5, o la generacin de redes neuronales Back-Propagacin. Si mltiples tcnicas son aplicadas, se realiza esta tarea separadamente para cada tcnica.
Salida: Tcnicas de modelado
Se documenta la tcnica de modelado real que se est por usar.
Presunciones del modelado
Muchas tcnicas de modelado hacen presunciones especficas sobre los datos como por ejemplo que todos los atributos tengan distribuciones uniformes, no encontrar valores no permitidos, el atributo de clase debe ser simblico, etc. Se debe registrar cualquiera de tales presunciones hechas.
4.2.4.2. Generacin de la prueba de diseo
Tarea: Generar la prueba de diseo
Antes de construir un modelo, se debe generar un procedimiento o el mecanismo para probar la calidad y validez del modelo. Por ejemplo, en tareas de minera de datos supervisados como la clasificacin, es comn usar tasas de errores como medida de calidad para modelos de minera de datos. Por lo tanto, tpicamente se separa el conjunto de datos en una serie y en un conjunto de prueba construimos el modelo sobre el conjunto de series, y se estima su calidad sobre el conjunto de prueba separado.
Salida: Prueba de diseo
Se describe el plan intencionado para el entrenamiento, la prueba, y la evaluacin de los modelos. Un componente primario del plan determina como dividir un conjunto de datos disponible en datos de entrenamiento, datos de prueba, y conjunto de datos de validacin.
4.2.4.3. Construccin del modelo
Tarea: Construir el modelo
Se ejecuta la herramienta de modelado sobre el conjunto de datos preparados para crear uno o ms modelos.
Salidas: Parmetros de ajustes
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 39 de287 Ing. Hugo Daniel Flores Con cualquier herramienta de modelado, hay a menudo un gran nmero de parmetros que pueden ser ajustados. Se listan los parmetros y sus valores escogidos, tambin con el razonamiento para elegir los parmetros de ajustes.
Modelos
Estos son los modelos reales producidos por la herramienta de modelado, no un informe.
Descripciones del modelo
Se describen los modelos obtenidos. Se informa sobre la interpretacin de los modelos y se documenta cualquier dificultad encontrada con sus significados.
4.2.4.4. Evaluacin del modelo
Tarea: Evaluar el modelo
Se interpretan los modelos segn su conocimiento de dominio, los criterios de xitos de minera de datos, y el diseo de prueba deseado. Se juzga el xito de la aplicacin del modelado y se descubren tcnicas mas tcnicamente; se necesita tomar contacto con analistas de negocio y expertos en el dominio luego para hablar de los resultados de la minera de datos en el contexto de negocio. Se nota que esta tarea slo se considera para modelos, mientras que la fase de evaluacin tambin toma en cuenta todos los otros resultados que fueron producidos en el curso del proyecto.
Se intenta clasificar los modelos. Se evalan los modelos segn los criterios de evaluacin. Tanto como es posible, tambin se tiene en cuenta objetivos del negocio y criterios de xito de negocio. En los grandes proyectos de minera de datos, se aplica una sola tcnica ms de una vez, o se generan resultados de minera de datos con varias tcnicas diferentes. En esta tarea, se comparan todos los resultados segn los criterios de evaluacin.
Salida: Evaluacin de modelos
Se resumen los resultados de esta tarea, se listan las calidades de los modelos generados (por ejemplo, en trminos de exactitud), y se clasifican su calidad en relacin con cada uno.
Parmetros de ajustes revisados
Segn la evaluacin del modelo, se revisan los parmetros de ajuste para la siguiente corrida en la tarea de Construccin del Modelo. Se repite la construccin y evaluacin del modelo hasta que se encuentre el/los mejor/es modelo/s. Se documenta todo, tanto las revisiones como las evaluaciones. 4.2.5. Evaluacin
Hasta esta fase se han obtenido algunos modelos de minera de datos con sus datos y parmetros establecidos en forma ptima pero antes de pasar a la etapa final es necesario evaluar los resultados obtenidos por la ejecucin de los programas en funcin de los objetivos de negocio. Aqu se puede presentar la necesidad de eliminar, modificar o considerar nuevas cuestiones relacionadas con el negocio. Al final de la fase probablemente se tomarn algunas decisiones.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 40 de287 Ing. Hugo Daniel Flores
Figura 10: Evaluacin
4.2.5.1. Evaluacin de los resultados
Tarea: Evaluar los resultados
Los pasos de la evaluacin anterior tratan con factores como la exactitud y la generalidad del modelo. Este paso evala el grado al que el modelo responde (encuentra) los objetivos de negocio y procura determinar si hay alguna decisin de negocio por el que este modelo es deficiente. Otra opcin de evaluacin es probar el/los modelo/s sobre aplicaciones de prueba en la aplicacin real, si el tiempo y las restricciones de presupuesto lo permiten.
Adems, la evaluacin tambin verifica otros resultados generados por la minera de datos. Los resultados de la minera de datos implican modelos que necesariamente son relacionados con los objetivos originales de negocio y todas los otros descubrimientos que no son relacionados necesariamente con los objetivos originales de negocio, pero tambin podra revelar desafos adicionales, informacin, o insinuaciones para futuras direcciones.
Salida: Evaluacin de los resultados de la minera de datos en lo que concierne a criterios de xito de negocio
Se resumen los resultados de evaluacin en trminos de criterios de xito de negocio, incluyendo una declaracin final en cuanto a si el proyecto ya encuentra los objetivos iniciales de negocio.
Modelos aprobados
Despus de la evaluacin de modelos en lo que concierne a criterios de xito de negocio, los modelos generados que encuentran los criterios seleccionados son los modelos aprobados.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 41 de287 Ing. Hugo Daniel Flores 4.2.5.2. Proceso de revisin
Tarea: Revisar el proceso
En este punto, los modelos resultantes pasan a ser satisfactorios y a satisfacer las necesidades de negocio. Ahora es apropiado hacer una revisin ms cuidadosa de los compromisos de la minera de datos para determinar si hay algn factor importante o tarea que de algn modo ha sido pasada por alto. Esta revisin tambin cubre cuestiones de calidad como por ejemplo: Se construy correctamente el modelo? Se usan slo los atributos que se permitieron usar y que estn disponibles para anlisis futuros?
Salida: Revisin de proceso
Se resume la revisin de proceso y se destacan las actividades que han sido omitidas y/o aquellas que deberan ser repetidas.
4.2.5.3. Determinacin de los prximos pasos
Tarea: Determinar los prximos pasos
Segn los resultados de la evaluacin y la revisin de proceso, se decide como proceder. Se decide si hay que terminar este proyecto y tomar medidas sobre el desarrollo si es apropiado, tanto iniciar ms iteraciones, o comenzar nuevos proyectos de minera de datos. Esta tarea incluye los anlisis de recursos restantes y del presupuesto, que puede influir en las decisiones.
Salida: Lista de posibles acciones
Se listan las acciones futuras potenciales, con los motivos a favor y en contra de cada opcin.
Decisin
Se describe la decisin en cuanto a como proceder, junto con el razonamiento.
4.2.6. Desarrollo
El final del proyecto no termina con el modelado de datos y su ejecucin y posterior evaluacin de los resultados puesto que el conocimiento obtenido hasta aqu debe ser presentado de forma clara y precisa a todos los actores dentro de la organizacin. Se puede presentar un simple informe de resultados, desarrollar una aplicacin para la presentacin de los resultados o bien instruir al usuario de los modelos para que ellos mismos generen y ejecuten los modelos con nuevos datos. Es importante al final de esta fase tener desarrollada toda la documentacin del proyecto para dar independencia al usuario final en la utilizacin y generacin de nuevos procesos de explotacin de datos.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 42 de287 Ing. Hugo Daniel Flores
Figura 11: Desarrollo
4.2.6.1. Desarrollo del plan
Tarea: Desarrollar el plan
De acuerdo al desarrollo de los resultados de minera de datos en el negocio, esta tarea toma los resultados de la evaluacin y determina una estrategia para el desarrollo. Si un procedimiento general ha sido identificado para crear el/los modelo/s relevante/s, este procedimiento es documentado aqu para el desarrollo posterior.
Salida: Desarrollo del plan
Resumir la estrategia de desarrollo, incluyendo los pasos necesarios y como realizarlos.
4.2.6.2. Plan de supervisin y mantenimiento
Tarea: Planear la supervisin y el mantenimiento
La supervisin y el mantenimiento son cuestiones importantes si los resultados de minera de datos son parte del negocio cotidiano y de su ambiente. La preparacin cuidadosa de una estrategia de mantenimiento ayuda a evitar largos periodos innecesarios de uso incorrecto de resultados de minera de datos. Para supervisar el desarrollo de los resultados de la minera de datos, el proyecto necesita un plan detallado de proceso de supervisin. Este plan tiene en cuenta el tipo especfico de desarrollo.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 43 de287 Ing. Hugo Daniel Flores Salida: Supervisin y plan de mantenimiento
Se resume la estrategia de supervisin y mantenimiento incluyendo los pasos necesarios y como realizarlos.
4.2.6.3. Informe definitivo de producto
Tarea: Producir el informe final
En el final del proyecto, se sobrescribe un informe final. Segn el plan de desarrollo, este informe puede ser slo un resumen del proyecto y sus experiencias (si stas an no han sido documentadas como una actividad en curso) o sta puede ser una presentacin final y comprensiva de los resultados de minera de datos.
Salidas: Informe definitivo
Esto es el informe escrito final del compromiso de la minera de datos. Esto incluye todo el desarrollo anterior, el resumen y la organizacin de los resultados.
Presentacin final
Tambin a menudo habr una reunin en la conclusin del proyecto en el que los resultados son presentados verbalmente al cliente.
4.2.6.4. Revisin del proyecto
Tarea: Revisar el proyecto
Se evala lo que fue correcto y lo que se equivoc, lo que fue bien hecho y lo que necesita ser mejorado.
Salida: Documentacin de la experiencia
Se resumen las experiencias importantes ganadas durante el proyecto. Por ejemplo, trampas, accesos engaosos, o las insinuaciones para seleccionar las mejores tcnicas de minera de datos en situaciones similares podran ser la parte de esta documentacin. En proyectos ideales, la documentacin de la experiencia tambin cubre cualquier informe que ha sido escrito por miembros individuales del proyecto durante las fases del proyecto y sus tareas.
4.3. La gua de usuario de CRISP-DM 4.3.1. Comprendiendo el negocio
4.3.1.1. Determinacin de objetivos de negocio
Tarea: Determinar objetivos de negocio
El primer objetivo es comprender a fondo, desde una perspectiva de negocio, lo que el cliente realmente quiere lograr. A menudo el cliente tiene muchos objetivos y restricciones que compiten que deben ser correctamente equilibrados. El objetivo debe ser destapar factores importantes en el DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 44 de287 Ing. Hugo Daniel Flores principio del proyecto esto puede influir en el resultado final. Una consecuencia probable de descuidar este paso puede ser a expensas de un gran esfuerzo de producir las respuestas correctas a las preguntas incorrectas.
Salida: Contexto
Se debe cotejar la informacin sobre la situacin de negocio de la organizacin al principio del proyecto. Estos detalles no slo sirven para identificar ms estrechamente los objetivos de negocio a ser alcanzados, sino tambin sirven para identificar los recursos, tanto humanos como materiales, que pueden ser usados durante el curso del proyecto.
Actividades: Organizar
Desarrollar organigramas que identifiquen divisiones, departamentos, y grupos de proyectos. El organigrama debera tambin identificar los nombres de los gerentes y sus responsabilidades. Identificar a personas claves en el negocio y sus roles. Identificar a un patrocinador interno (el patrocinador financiero y el experto primario del dominio de usuario). Indicar si hay un comit de direccin y lista de miembros. Identificar las unidades de negocio que son afectadas por el proyecto de minera de datos (por ejemplo, el Control de comercializacin, Ventas, Finanzas).
rea del problema
Identificar el rea del problema (por ejemplo, el control de comercializacin, el cuidado de cliente, el desarrollo comercial, etc.). Describir el problema en trminos generales. Comprobar el estado actual del proyecto (por ejemplo, comprobar si ya esta claro que dentro de la unidad de negocio un proyecto de minera de datos debe ser realizado, o si la minera de datos necesita ser promovida como una tecnologa clave en el negocio). Clarificar los requisitos previos del proyecto (por ejemplo, Cul es la motivacin del proyecto? La minera de datos ya est siendo usada en el negocio?). Si es necesario, preparar presentaciones y demostraciones de minera de datos para el negocio. Identificar grupos de objetivos para el resultado de proyecto (por ejemplo, Se espera entregar un informe para la direccin superior o un sistema operacional para ser usado por usuarios finales inexpertos?). Identificar las necesidades de los usuarios y sus expectativas.
Solucin actual
Describir cualquier solucin usada actualmente para dirigir el problema. Describir las ventajas y las desventajas de la solucin corriente y el nivel al que esto es aceptado por los usuarios.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 45 de287 Ing. Hugo Daniel Flores Salida: Objetivos de negocio
Describir el objetivo primario del cliente, desde una perspectiva de negocio. Adems del objetivo de negocio primario, hay tpicamente un gran nmero de preguntas relacionadas al negocio a las que al cliente le gustara dirigir. Por ejemplo, el objetivo primario de negocio podra ser mantener a clientes actuales por prediccin cuando ellos son propensos a moverse a un competidor, mientras un objetivo secundario de negocio podra ser el de determinar si precios (comisiones) inferiores afectan slo un a segmento particular de clientes.
Actividades
De manera informal describir el problema a ser solucionado. Especificar todas las preguntas de negocio tan precisas como sea posible. Especificar cualquier otras exigencias de negocio (por ejemplo, el negocio no quiere perder a ningn cliente). Especificar las ventajas esperadas en trminos de negocio.
Se debe tener cuidado
Se debe tener cuidado de establecer objetivos inalcanzables. Deben ser tan realistas como posibles y hechos por ellos.
Salida: Criterios de xito de negocio
Describir los criterios para un resultado exitoso o til al proyecto desde el punto de vista del negocio. Esto podra ser bastante especfico y fcilmente medible, como una reduccin de cliente a un cierto grado, o general y subjetivo, como dar ideas tiles en las relaciones. En el caso ltimo, se debe estar seguro de indicar quien hara el juicio subjetivo.
Actividades
Especificar criterios de xito de negocio (por ejemplo, Mejorar la tasa de respuesta en una campaa de correo en el 10 por ciento y marcar la tasa en el 20 por ciento). Identificar quien evala los criterios de xito.
Se debe recordar
Cada uno de los criterios de xito debera relacionarse con al menos uno de los objetivos especificados de negocio.
Se recomienda
Antes del comienzo de la evaluacin de situacin, se podra analizar las experiencias anteriores del problema. Internamente, usando CRISP-DM, o externamente, usando soluciones pre-empaquetadas.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 46 de287 Ing. Hugo Daniel Flores 4.3.1.2. Evaluacin de la situacin
Tarea: Evaluar la situacin
Esta tarea implica una investigacin ms detallada sobre todos los recursos, restricciones, presunciones, y otros factores que deberan ser considerados en la determinacin del objetivo de anlisis de datos y en el desarrollo del plan de proyecto.
Salida: Inventario de recursos
Listar los recursos disponibles para el proyecto, incluyendo el personal (expertos de datos y de negocios, soportes tcnicos, expertos en minera de datos), datos (extracciones fijas, acceso a datos existentes en almacenes de datos u operacionales), recursos computacionales (plataformas de hardware), y software (instrumentos de minera de datos, otros software relevantes).
Actividades: Recursos de Hardware
Identificar el hardware bsico. Establecer la disponibilidad del hardware bsico para el proyecto de minera de datos. Comprobar si la planificacin del mantenimiento de hardware se opone a la disponibilidad del hardware para el proyecto de minera de datos. Identificar el hardware disponible para ser usado por la herramienta de minera de datos (si el instrumento es conocido en esta etapa).
Fuentes de datos y conocimientos
Identificar las fuentes de datos. Identificar el tipo de fuentes de datos (fuentes en lnea, expertos, documentacin escrita, etc.). Identificar fuentes de conocimiento. Identificar el tipo de fuentes de conocimientos (fuentes en lnea, expertos, documentacin escrita, etc.). Comprobar herramientas disponibles y tcnicas. Describir el conocimiento de generalidades relevantes (de manera informal o formal).
Fuentes de personal
Identificar al patrocinador del proyecto. Identificar al administrador de sistema, el administrador de base de datos, y el personal de soporte tcnico para futuras preguntas. Identificar al analista de mercado, los expertos en minera de datos, y estadsticos, y comprobar su disponibilidad. Comprobar la disponibilidad de expertos de dominio para fases posteriores
Se debe recordar
Se debe recordar que el proyecto puede necesitar personal tcnico en cualquier momento en todas partes del proyecto, por ejemplo durante la transformacin de datos.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 47 de287 Ing. Hugo Daniel Flores Salidas: Requerimientos, presunciones, y restricciones
Listar todos los requerimientos del proyecto, incluyendo la planeacin de la terminacin, la comprensibilidad, y la calidad y seguridad de los resultados, as como cuestiones legales. Como parte de esta salida, se debe asegurar que se permiten usar los datos.
Listar las presunciones hechas por el proyecto. Estos pueden ser presunciones sobre los datos, que pueden ser verificados durante la minera de datos, pero tambin puede incluir presunciones no comprobables relacionadas con el proyecto. Esto es en particular importante de ponerlos en una lista si ellos afectarn la validez de los resultados.
Listar las restricciones hechas en el proyecto. Estas restricciones podran implicar la carencia de recursos para terminar algunas tareas en el proyecto en el tiempo requerido, o pueden ser restricciones legales o ticas sobre el uso de los datos o la solucin necesaria para terminar la tarea de minera de datos.
Actividades: Requerimientos
Especificar el perfil del grupo objetivo. Capturar todos los requerimientos en la planificacin. Capturar los requerimientos de comprensibilidad, exactitud, desarrollar habilidades, mantenimiento, y repetibilidad del proyecto de minera de datos y los modelos resultantes. Capturar los requerimientos de seguridad, restricciones legales, de privacidad, informacin, y planificacin de proyecto.
Presunciones
Aclarar todas las presunciones (incluyendo las implcitas) y las hechas por ellos explcitamente (por ejemplo, dirigir las cuestiones de negocio, a un nmero mnimo de clientes con la edad por encima de 50 es necesaria). Listar las presunciones sobre calidad de datos (por ejemplo, exactitud, disponibilidad) Listar las presunciones sobre factores externos (por ejemplo, cuestiones econmicas, productos competitivos, avances tcnicos). Aclarar presunciones que conducen a cualquiera de las estimaciones (por ejemplo, el precio de un instrumento especfico es asumido para ser menor que $ 1.000). Listar todas las presunciones en cuanto a si es necesario entender y describir o explicar el modelo (por ejemplo, cmo el modelo y los resultados son presentados a la direccin / patrocinador).
Restricciones
Comprobar restricciones generales (por ejemplo, cuestiones legales, presupuesto, escalas de tiempo, y recursos). Comprobar el correcto acceso a fuentes de datos (por ejemplo, restricciones de acceso, la contrasea requerida). Comprobar la accesibilidad de tcnica de datos (los sistemas operativos, el sistema de administracin de datos, el formato de archivo y de base de datos). Comprobar si el conocimiento relevante es accesible. Comprobar restricciones de presupuesto (gastos fijos, gastos de implementacin, etc.). DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 48 de287 Ing. Hugo Daniel Flores Se debe recordar
La lista de presunciones tambin incluye presunciones al principio del proyecto, esto es, lo que el punto de inicio del proyecto ha sido.
Salidas: Riesgos y contingencias
Listar los riesgos, es decir los acontecimientos que podran ocurrir, impactando en la planificacin, el costo, o el resultado. Listar los planes de contingencias respectivos: que accin ser tomada para evitar o reducir al mnimo el impacto o recuperarse de la ocurrencia de los riesgos previstos.
Actividades: Identificar riesgos
Identificar riesgos de negocio (por ejemplo, el competidor aparece primero con mejores resultados). Identificar riesgos de organizacin (por ejemplo, el departamento que solicita el proyecto no tiene financiacin para el proyecto). Identificar riesgos financieros (por ejemplo, aumentar la financiacin depende de los resultados iniciales de minera de datos). Identificar riesgos tcnicos. Identificar los riesgos que dependen de datos y de las fuentes de datos (por ejemplo, la mala calidad y cobertura).
Desarrollo de planes de contingencia
Determinar condiciones en las que cada riesgo puede ocurrir. Desarrollar planes de contingencia.
Salida: Terminologa
Compilar un glosario de terminologa relevante al proyecto. Esto debera incluir al menos dos componentes:
(1) Un glosario de terminologa relevante de negocio, que forma parte de la comprensin de negocio disponible al proyecto.
(2) Un glosario de terminologa de minera de datos, ilustrada con ejemplos relevantes al problema de negocio en cuestin.
Actividades
Comprobar la disponibilidad previa de glosarios; sino se debe comenzar a bosquejar glosarios. Hablar a expertos de dominio para entender la terminologa. Familiarizarse con la terminologa de negocio.
Salida: Costos y beneficios
Preparar un anlisis de costo-beneficio para el proyecto, comparando los gastos del proyecto con el beneficio potencial para el negocio si esto es exitoso. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 49 de287 Ing. Hugo Daniel Flores Actividades
Estimar el costo para la coleccin de datos. Estimar el costo de desarrollo y realizacin de una solucin. Identificar beneficios (por ejemplo, mejorar la satisfaccin del cliente, ROI, y el aumento de las ganancias). Estimar gastos de operacin.
Se recomienda
La comparacin debera ser tan especfica como sea posible, cmo esto permite un mejor caso de negocio para ser realizado.
Se debe tener cuidado
Se deben identificar costos ocultos, como la extraccin y preparacin repetida de datos, cambios en los procesos laborales, y tiempo requerido para el entrenamiento.
4.3.1.3. Determinar objetivos de minera de datos
Tarea: Determinar objetivos de minera de datos
Un objetivo de negocio declara objetivos en la terminologa de negocio; un objetivo de minera de datos declara objetivos de proyecto en trminos tcnicos. Por ejemplo, el objetivo de negocio podra ser, Aumentar la venta por catalogo a clientes existentes, mientras un objetivo de minera de datos podra ser, Predecir cuantas baratijas comprar un cliente, considerando sus compras durante los tres aos pasados, informacin demogrfica relevante, y el precio del artculo.
Salida: Objetivos de minera de datos
Describir las salidas planeadas del proyecto que permiten el logro de los objetivos de negocio.
Se debe tener en cuenta que estas son salidas normalmente tcnicas.
Actividades
Traducir las preguntas de negocio a objetivos de minera de datos (por ejemplo, una campaa de control de comercializacin requiere la segmentacin de clientes para decidir a quien acercarse en esta campaa; el nivel/tamao de los segmentos deberan ser especificados). Especificar datos, tipo de problema de minera de datos (por ejemplo, la clasificacin, la descripcin, la prediccin, y clustering).
Se recomienda
Puede ser sabio redefinir el problema. Por ejemplo, modelar la retencin de producto ms que la retencin del cliente cuando la retencin del cliente entrega resultados muy tarde para afectar la salida.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 50 de287 Ing. Hugo Daniel Flores Salida: Criterios de xitos de minera de datos
Definir los criterios para un resultado acertado para el proyecto en trminos tcnicos, por ejemplo un cierto grado de exactitud predictiva o un perfil de propensin a comprar con un nivel dado "elevacin".
Cmo con los criterios de xitos del negocio, puede ser necesario describir estos en trminos subjetivos, en el caso de que la persona o las personas que hacen el juicio subjetivo debieran ser identificadas.
Actividades
Especificar los criterios para evaluar el modelo (por ejemplo, la exactitud del modelo, el funcionamiento y la complejidad). Definir el patrn de pruebas para los criterios de evaluacin. Especificar las reglas que dirigen criterios de evaluacin subjetivos (por ejemplo, la habilidad de explicar del modelo y de los datos y la comprensin de mercadeo proporcionada por el modelo).
Se debe tener cuidado
Los datos que extraen criterios de xito son diferentes a los criterios de xito de negocio definidos antes.
Se debe recordar
Se debe recordar que es sabio planear para el desarrollo desde el principio del proyecto.
4.3.1.4. Produccin del plan del proyecto
Tarea: Producir el plan del proyecto
Describir el plan propuesto para alcanzar los objetivos de minera de datos y as alcanzar los objetivos de negocio.
Salida: Plan del Proyecto
Listar las etapas para ser ejecutadas en el proyecto, juntos con su duracin, recursos requeridos, entradas, salidas, y dependencias. En cualquier parte donde sea posible, se deben hacer explcitas las iteraciones en gran escala en el proceso de minera de datos. Por ejemplo, las repeticiones del modelado y fases de evaluacin. Como parte del plan de proyecto, es tambin importante analizar dependencias entre el planeamiento de los tiempos y los riesgos. Marcar los resultados de estos anlisis explcitamente en el plan de proyecto, idealmente con acciones y recomendaciones para actuar si los riesgos son manifestados.
Aunque esta sea la nica tarea en la que el plan de proyecto directamente es llamado, sin embargo debera ser consultado continuamente y repasado en todas partes del proyecto. Debera ser consultado el plan de proyecto como mnimo siempre que una tarea nueva sea comenzada o una iteracin futura de una tarea o una actividad este comenzando.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 51 de287 Ing. Hugo Daniel Flores Actividades
Definir el plan de proceso inicial y hablar de la viabilidad con todo el personal incluido. Combinar todos los objetivos identificados y tcnicas seleccionadas en un procedimiento coherente que solucione las cuestiones del negocio y encuentre los criterios de xito de negocio. Estimar el esfuerzo y los recursos necesarios para alcanzar y desarrollar la solucin. Es til considerar la experiencia de otras personas estimando escalas de tiempo para proyectos de minera de datos. Por ejemplo, es a menudo presumido que el 50-70 por ciento del tiempo y el esfuerzo en un proyecto de minera de datos es usado en la fase de Preparacin de Datos, mientras que solo un 20-30 por ciento es usado en la fase de Comprensin de Datos, mientras que solo un 10-20 por ciento es gastado en cada uno de las fase de Modelado, Evaluacin, y Comprensin del Negocio y el 5-10 por ciento en la fase de Desarrollo. Identificar pasos crticos. Marcar los puntos de decisin. Marcar los puntos de revisin. Identificar las principales iteraciones.
Salida: Evaluacin Inicial de herramientas y tcnicas
Al final de la primera fase, el equipo de proyecto realiza una evaluacin inicial de herramientas y tcnicas. Aqu, es importante seleccionar una herramienta de minera de datos que soporte varios mtodos para las diferentes etapas del proceso, ya que la seleccin de herramientas y tcnicas puede influir en el proyecto entero.
Actividades
Crear una lista de criterios de seleccin para herramientas y tcnicas (o usar uno existente si est disponible). Escoger herramientas y tcnicas posibles. Evaluar la adecuacin de tcnicas. Revisar y priorizar tcnicas aplicables segn la evaluacin de soluciones alternativas 4.3.2. Comprensin de Datos
4.3.2.1. Recoleccin de datos iniciales
Tarea: Recoger datos iniciales
Obtener los datos (o el acceso a los datos) listados en los recursos de proyecto. Esta coleccin inicial incluye carga de datos, si es necesario para la Comprensin de Datos. Por ejemplo, si se tiene la intencin de usar una herramienta especfica para comprender los datos es lgico cargar los datos en esta herramienta.
Salida: Informe de la recoleccin de datos inicial
Se debe describir toda la variedad de datos usados para el proyecto, e incluir cualquier requerimiento de seleccin para datos ms detallados. El informe de coleccin de datos tambin debera definir si algunos atributos son relativamente ms importantes que otros. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 52 de287 Ing. Hugo Daniel Flores
Se debe recordar que cualquier evaluacin de calidad de datos debera ser hecha no solamente de las fuentes de datos individuales, sino tambin de algunos datos que son resultado de fuentes de datos que se combinan. Por inconsistencias entre las fuentes, los datos combinados pueden presentar los problemas que no existen en las fuentes de datos individuales.
Actividades: Planificacin de requerimientos de datos
Se debe planear que informacin es necesaria (por ejemplo, slo para atributos determinados, o la informacin adicional especfica).
Comprobar si toda la informacin necesaria (para resolver los objetivos de la minera de datos) esta en realidad disponible.
Criterios de seleccin
Se debe especificar los criterios de seleccin (por ejemplo, Qu atributos son necesarios para los objetivos especficos de minera de datos? Que atributos han sido identificados como no pertinentes? Cuantos atributos se pueden manejar con las tcnicas escogidas?). Elegir tablas/archivos de inters. Elegir datos dentro de una tabla/archivo. Pensar cuanto tiempo de un historial habra que usar (por ejemplo, si 18 meses de datos estn disponibles, slo 12 meses pueden ser necesarios para el ejercicio).
Se debe tener cuidado
Se debe estar consciente de que los datos recolectados de diferentes fuentes pueden dar lugar a problemas de calidad cuando sean combinados (por ejemplo, los archivos de direccin combinados con una base de datos de cliente pueden mostrar inconsistencias de formato, invalidez de datos, etc.).
Insercin de datos
Si los datos contienen libre entradas de texto, se tendr que codificarlos para modelar o necesitamos agruparlos en entradas especficas? Se pueden encontrar atributos omitidos? Se puede mejorar la extraccin los datos?
Se recomienda
Se debe recordar que algn conocimiento sobre los datos puede estar disponible de fuentes no electrnicas (por ejemplo, de gente, de texto impreso, etc.).
Puede ser necesario un preproceso de los datos (datos de serie tiempo, promedios ponderados, etc.).
4.3.2.2. Descripcin de datos
Tarea: Describir datos
Examinar las propiedades "gruesas" de los datos obtenidos y el informe sobre los resultados. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 53 de287 Ing. Hugo Daniel Flores Salida: Informe de descripcin de datos
Se deben describir los datos que han sido obtenidos, incluyendo el formato de los datos, la cantidad de los datos (por ejemplo, el nmero de registros y campos internos de cada tabla), las identidades de los campos, y cualquier otro rasgo superficial que haya sido descubierto.
Actividades: Anlisis volumtrico de datos
Identificar datos y mtodos de captura. Acceder a las fuentes de datos. Usar anlisis estadsticos si es apropiado. Reportar las tablas y sus relaciones. Comprobar el volumen de datos, el nmero de mltiplos, la complejidad. Notar si los datos contienen entradas de texto libres.
Atributo, tipos y valores
Comprobar la accesibilidad y disponibilidad de atributos. Comprobar los tipos de atributos (numrico, simblico, la taxonoma, etc.). Comprobar el rango de valores de los atributos. Analizar los atributos correlativos (correlaciones de atributo). Comprender el significado de cada atributo y clasificar (describir) el valor en trminos de negocio. Para cada atributo se debe calcular la estadstica bsica (por ejemplo, calcular la distribucin, el promedio, el mximo, el mnimo, la desviacin estndar, la varianza, la moda, la inclinacin, etc.). Analizar la estadstica bsica y relacionar los resultados con su significado en trminos de negocio. Decidir si el atributo es relevante para los objetivos especficos de la minera de datos. Determinar si el significado del atributo es usado coherentemente (conscientemente). Entrevistar a expertos de dominio para obtener su opinin sobre la importancia de los atributos. Decidir si es necesario equilibrar los datos (basado en las tcnicas a ser usadas).
Claves
Se deben analizar relaciones claves. Se debe comprobar la cantidad de coincidencias entre valores de atributos claves a travs de tablas.
Revisin de Objetivos/Presunciones
Se debe actualizar la lista de presunciones, si es necesario.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 54 de287 Ing. Hugo Daniel Flores 4.3.2.3. Exploracin de datos
Tarea: Explorar datos
Esta tarea aborda las preguntas de minera de datos que pueden ser dirigidas usando la interrogacin, la visualizacin, y tcnicas de informe. Estos anlisis pueden directamente dirigir los objetivos de minera de datos. Sin embargo, ellos pueden tambin contribuir a refinar la descripcin de datos e informes de calidad, y alimentar internamente la transformacin y otros pasos de preparacin de datos necesario antes de que pueda ocurrir un futuro anlisis.
Salida: Informe de exploracin de datos
Describir los resultados de esta tarea, incluyendo las primeras conclusiones o las hiptesis iniciales y su impacto sobre el resto del proyecto. El informe tambin puede incluir grficos y diseos (plots) que indican las caractersticas de los datos o los puntos de inters de subconjuntos de datos dignos de una futura investigacin.
Actividades: Explorar Datos
Se debe analizar en detalles las propiedades de atributos interesantes (por ejemplo, la estadstica bsica, las sub-poblaciones interesantes). Identificar las caractersticas de las sub-poblaciones.
Formar suposiciones para anlisis futuro
Considerar y evaluar la informacin y conclusiones en el informe de descripciones de datos. Formar una hiptesis e identificar acciones. Transformar la hiptesis en un objetivo de minera de datos, si es posible. Aclarar objetivos de minera de datos o hacerlos ms exactos. Una bsqueda "ciega" no es necesariamente intil, pero una bsqueda ms dirigida hacia objetivos de negocio es preferible. Realizar un anlisis bsico para verificar la hiptesis.
4.3.2.4. Verificacin de la calidad de datos
Tarea: Verificar la calidad de datos
Se debe examinar la calidad de los datos, dirigiendo preguntas como: Son los datos completos? Estos cubren todos los casos requeridos? Hay en ellos errores o ellos contienen errores? Si hay errores, como son ellos? Hay valores omitidos en los datos? Si es as, cmo son representados, donde ocurren, y como son ellos?
Salida: Informe de calidad de datos
Listar los resultados de la verificacin de calidad de datos; si hay problemas de calidad listar las posibles soluciones.
Actividades
Identificar valores especiales y catalogar su significado.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 55 de287 Ing. Hugo Daniel Flores Revisin de atributos claves
Se debe comprobar la cobertura (por ejemplo, si todos los valores posibles son representados). Comprobar las claves. Verificar que los significados de los atributos y valores contenidos se satisfacen simultneamente. Identificar atributos omitidos y campos en blanco. Establecer el significado de datos que faltan o fallan. Se deben comprobar los atributos con los valores diferentes que tienen significados similares (por ejemplo, la grasa baja la dieta). Comprobar la ortografa y el formato de valores (por ejemplo, mismo valor pero a veces comienza con una letra minscula y a veces con una letra mayscula). Comprobar las desviaciones, y decidir si una desviacin es "ruido" o puede indicar un fenmeno interesante. Comprobar la plausibilidad de valores, (por ejemplo, todos los campos que tienen el mismo o casi los mismos valores).
Se recomienda
Se debe repasar cualquiera de los atributos que dan respuestas que estn en desacuerdo con el sentido comn (por ejemplo, adolescentes con altos niveles de ingreso).
Se pueden usar plots de visualizacin, histogramas, etc. para revelar inconsistencias en los datos.
Calidad de datos en archivos planos
Si los datos son almacenados en archivos planos, se debe comprobar que delimitador es usado y si esto es usado coherentemente en todos los atributos. Si los datos son almacenados en archivos planos, comprobar el nmero de campos en cada registro para ver si ellos coinciden.
Ruido e inconsistencias entre fuentes
Comprobar consistencia y superabundancia entre fuentes diferentes. Se debe planear para tratar el ruido. Descubrir el tipo de ruido y que atributos son afectados.
Se recomienda
Se debe recordar que puede ser necesario excluir algunos datos ya que ellos no exponen comportamiento positivo o negativo (por ejemplo, al comprobar en el comportamiento del prstamo de clientes, excluye a todo los que nunca han tomado prestado, aquellos que no financian una hipoteca de casa, aquellos cuya hipoteca se acerca a la madurez, etc.).
Revisar si las presunciones son vlidas o no, considerando la informacin real o actual en los datos y el conocimiento de negocio.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 56 de287 Ing. Hugo Daniel Flores 4.3.3. Preparacin de los datos
Salida: Conjunto de datos
Estos son los conjuntos de dato(s) producidos por la fase de Preparacin de Datos, usada para modelar o para el trabajo de anlisis principal del proyecto.
Salida: Descripcin del conjunto de datos
Esto es, la descripcin del conjunto de datos(s) usado para el modelado o para el trabajo de anlisis principal del proyecto.
4.3.3.1. Datos seleccionados
Tarea: Seleccionar datos
Se debe decidir los datos a ser usados para el anlisis. Los criterios incluyen la importancia a los objetivos de minera de datos, la calidad, y las restricciones tcnicas como los lmites en el volumen de datos o en los tipos de datos.
Salida: Razonamiento para inclusin/exclusin
Listar los datos a ser usados / excluidos y los motivos para estas decisiones.
Actividades
Recoger datos adicionales apropiados (de diferentes fuentes - internos as como externos). Realizar las pruebas de importancia y correlacin para decidir si los campos son incluidos. Reconsiderar Criterios de Seleccin de Datos (ver Tarea 2.1) en la luz de las experiencias de calidad de los datos y en la exploracin de datos (esto es, se puede desear incluir/excluir otros juegos de datos). Reconsiderar Criterios de Seleccin de Datos (ver la Tarea 2.1) en la luz de experiencia de modelado (esto es, la evaluacin del modelo puede mostrar que otros conjuntos de datos son necesarios). Seleccionar diferentes subconjuntos de datos (por ejemplo, atributos diferentes, slo los datos que encuentran ciertas condiciones). Considerar el uso de tcnicas de muestreo (por ejemplo, una solucin rpida puede implicar la prueba dura y el entrenamiento del conjunto de datos o la reduccin del tamao del conjunto de datos de prueba, si la herramienta no puede manejar conjunto de datos llenos. Esto puede tambin ser til para tener muestras ponderadas para dar distinta importancia a atributos diferentes o valores diferentes del mismo atributo). Documentar el razonamiento para la inclusin/exclusin. Comprobar tcnicas disponibles para el muestreo de datos.
Se recomienda
Basado en Criterios de Seleccin de Datos se debe decidir si uno o ms atributos son ms importantes que otros y el correspondiente peso de los atributos. Decidir basado en el contexto (esto es, el uso, la herramienta, etc.), cmo manejarse con el peso.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 57 de287 Ing. Hugo Daniel Flores 4.3.3.2. Limpieza de datos
Tarea: Limpiar datos
Se debe elevar la calidad de datos al nivel requerido por las tcnicas de anlisis seleccionadas. Esto puede implicar la seleccin de subconjuntos limpios de los datos, la insercin de faltas apropiadas, o tcnicas ms ambiciosas como la estimacin de datos omitidos por modelado.
Salida: Informe de la limpieza de datos
Describir las decisiones y las acciones que fueron tomados para dirigir los problemas de calidad de datos informados durante la Tarea de Verificacin de Calidad de Datos. Si los datos estn para ser usados en el ejercicio de minera de datos, el informe debera dirigir cuestiones de calidad de datos excepcionales y el efecto posible que esto podra tener sobre los resultados.
Actividades
Reconsiderar como tratar con cualquier tipo de ruido observado. Corregir, remover, o ignorar el ruido. Decidir como tratar con valores especiales y su significado. El rea de valores especiales puede dar lugar a muchos resultados extraos y con cuidado deberan ser examinados. Los ejemplos de valores especiales podran surgir por los resultados tomados de una revisin donde algunas cuestiones no fueron preguntadas o no fueron contestadas. Esto podra terminar en un valor de 99 para datos desconocidos. Por ejemplo, 99 para estado civil o afiliacin poltica. Los valores especiales tambin podran surgir cuando los datos son truncados por ejemplo 00 para gente de 100 aos o para todos los coches con 100.000 kilmetros en el odmetro. Reconsiderar Criterios de Seleccin de Datos (ver Tarea 2.1) en la luz de las experiencias de los datos limpios (esto es, se puede desear incluir/excluir otros conjuntos de datos).
Se recomienda
Recordar que algunos campos pueden ser irrelevantes a los objetivos de la minera de datos y, por lo tanto, el ruido en aquellos campos no tiene ninguna importancia. Sin embargo, si el ruido es ignorado por estos motivos, esto debera ser totalmente documentado como circunstancias que pueden cambiarse ms tarde.
4.3.3.3. Construccin de datos
Tarea: Construir datos
Esta tarea incluye la construccin de operaciones de preparacin de datos tales como la produccin de atributos derivados, completar registros nuevos, o transformar valores para atributos existentes.
Actividades
Comprobar los mecanismos de construccin disponibles con la lista de herramientas sugeridas para el proyecto. Decidir si esto es lo mejor para realizar la construccin dentro de la herramienta o fuera de ella (esto es, que es ms eficiente, exacto, repetible). DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 58 de287 Ing. Hugo Daniel Flores Reconsiderar Criterios de Seleccin de Datos (ver Tarea 2.1) en la luz de las experiencias de construccin de datos (esto es, se puede desear incluir/excluir otros conjuntos de datos).
Salida: Atributos derivados
Los atributos derivados son los atributos nuevos que son construidos de uno o ms atributos existentes en el mismo registro. Un ejemplo podra ser: rea =longitud x anchura. Por qu se debera tener que construir atributos derivados durante el curso de una investigacin de minera de datos? No debera pensarse que slo los datos de bases de datos u otras fuentes deberan ser usados en la construccin de un modelo. Los atributos derivados podran ser construidos porque:
El conocimiento del contexto convence que algn hecho es importante y debera ser representado aunque no se tenga ningn atributo actualmente para representarlo. El algoritmo de modelado en uso maneja slo ciertos tipos de datos - por ejemplo se est usando regresin lineal y se sospecha que hay ciertas no-linealidades que sern incluidas en el modelo. El resultado de la fase de modelado sugiere que ciertos hechos no sean cubiertos.
Actividades: Derivar atributos
Decidir si cualquier atributo puede ser normalizado (por ejemplo, usando un algoritmo de agrupamiento (clustering) con el periodo y el ingreso, en ciertas divisas, el ingreso se controlar). Considerar agregar nueva informacin sobre la importancia relevante de los atributos para agregar nuevos atributos (por ejemplo, atributos con peso, normalizacin ponderada). Cmo se puede construir o imputar atributos faltantes? Decidir el tipo de construccin (por ejemplo, la combinacin, el promedio, la induccin). Agregar atributos nuevos a los datos de acceso.
Se recomienda
Antes de agregar Atributos Derivados, se debe intentar determinar si y como ellos facilitan el proceso de modelado o facilitan el algoritmo de modelado. Quizs el ingreso por persona es un mejor o ms fcil atributo para usar que el ingreso por casa. No se debe sacar atributos simplemente para reducir el nmero de atributos de entrada.
Otro tipo de atributo derivado es la transformacin de un atributo individual, por lo general realizado para cubrir las necesidades de las herramientas de modelado.
Actividades Transformaciones de atributo individual
Especificar los pasos de transformaciones necesarias en los trminos de facilitar la transformacin disponible (por ejemplo, cambiar un binning de un atributo numrico). Realizar pasos de transformacin.
Se recomienda
Las transformaciones pueden ser necesarias para cambiar rangos a campos simblicos (por ejemplo, aos a rangos de edad) o campos simblicos (definitivamente s, s, no se sabe, "no") a valores numricos. Las herramientas de modelado o los algoritmos a menudo los requieren. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 59 de287 Ing. Hugo Daniel Flores Salida: Registros generados
Los registros generados son registros completamente nuevos, que agregan nuevo conocimiento o representan nuevos datos que de otro modo no son representados (por ejemplo, habiendo segmentado los datos, puede ser til generar un registro para representar al miembro prototpico de cada segmento para un tratamiento futuro).
Actividades
Comprobar por tcnicas disponibles si es necesario (por ejemplo, mecanismos para construir prototipos para cada segmento de datos segmentados).
4.3.3.4. Integracin de datos
Tarea: Integrar datos
Estos son mtodos para combinar la informacin de mltiples tablas u otras fuentes de informacin para crear nuevos registros o valores.
Salida: Datos combinados
La combinacin de tablas se refiere a la unin de dos o ms tablas que tienen diferente informacin sobre los mismos objetos. En esta etapa, tambin puede ser aconsejable generar registros nuevos. Tambin puede ser recomendado para generar valores agregados.
La agregacin se refiere a operaciones donde los nuevos valores son calculados por informacin resumida de mltiples registros y/o tablas.
Actividades
Comprobar si las aplicaciones de integracin son capaces de integrar las fuentes de entrada como se requiere. Integrar fuentes y resultados almacenados. Reconsiderar Criterios de Seleccin de Datos (ver la Tarea 2.1) en la luz de las experiencias de integracin de datos (esto es, se puede desear incluir/excluir otros conjuntos de datos).
Se recomienda
Recordar que algn conocimiento puede estar contenido en un formato no-electrnico.
4.3.3.5. Formateo de datos
Tarea: Formatear datos
Transformar formateando se refiere principalmente a modificaciones sintcticas hechas a los datos que no cambian su significado, pero podra ser requerido por la herramienta de modelado.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 60 de287 Ing. Hugo Daniel Flores Salida: Datos reformateados
Algunas herramientas tienen requerimientos sobre el orden de los atributos, tal que el primer campo sea un nico identificador para cada registro o el campo ltimo ser el juego de resultados que el modelo debe predecir.
Actividades: Atributos reorganizados
Algunas herramientas tienen requerimientos sobre el orden de los atributos, tal que el primer campo es un nico identificador para cada registro o el campo ltimo es el juego de resultados que el modelo debe predecir.
Reordenando registros
Podra ser importante cambiar el orden de los registros en el conjunto de datos. Quizs el instrumento de modelado requiere que los registros sean clasificados segn el valor del atributo de resultado.
Reformateado de valores internos
Estos son cambios puramente sintcticos hechos para satisfacer las exigencias de la herramienta especfica de modelado. Reconsiderar Criterios de Seleccin de Datos (ver Tarea 2.1) en la luz de las experiencias de limpieza de datos (esto es, se puede desear incluir/excluir otros conjuntos de datos). 4.3.4. Modelado
4.1. Seleccionar tcnicas de modelado
Tarea: Seleccionar tcnicas de modelado
Como primer paso en modelado, seleccionar la tcnica de modelado inicial actual. Si hay mltiples a ser aplicados, realizar separadamente esta tarea para cada tcnica.
Se debe recordar que no todos los instrumentos y tcnicas son aplicables a todas y cada tarea. Para ciertos problemas, slo algunas tcnicas son apropiadas.
Requerimientos polticos y otras restricciones adicionales limitan las opciones disponibles para el ingeniero de minera de datos. Puede ser que solo una herramienta o tcnica estn disponibles para solucionar el problema a mano y que el instrumento no pueda ser absolutamente lo mejor, desde un punto de vista tcnico.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 61 de287 Ing. Hugo Daniel Flores
Figura 11: Diversidad de Tcnicas
Salida: Tcnicas de modelado
Registrar las tcnicas de modelado real que se usan.
Actividades
Decidir las tcnicas apropiada para el ejercicio teniendo en cuenta la herramienta seleccionada.
Salida: Presunciones de modelado
Muchas tcnicas de modelado realizan presunciones especficas sobre los datos.
Actividades
Definir cualquier presuncin construida por la tcnica sobre los datos (por ejemplo, la calidad, el formato, la distribucin). Comparar estas presunciones con aquellas del Informe de Descripcin de Datos. Se debe asegurar que estas presunciones sostienen y permiten volver a la fase de Preparacin de Datos, si es necesario.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 62 de287 Ing. Hugo Daniel Flores 4.3.4.2. Generar el diseo de prueba
Tarea: Generar el diseo de prueba
Antes de construir un modelo, es necesario definir un procedimiento para probar la calidad del modelo y la validez. Por ejemplo, en tareas de minera de datos supervisadas como la clasificacin, es comn usar tasas de error como medidas de calidad para modelos de minera de datos. Por lo tanto, el diseo de prueba especifica que el conjunto de datos debera ser separado en el entrenamiento y en el conjunto de prueba. El modelo esta construido sobre el conjunto de entrenamiento y su calidad estimada sobre el conjunto de prueba.
Salida: Diseo de Prueba
Describir el plan deliberado para el entrenamiento, las pruebas, y la evaluacin de los modelos. Un componente primario del plan es para decidir como dividir el conjunto de datos disponible sobre datos que se entrenan, datos de prueba, y conjunto de pruebas de validacin.
Actividades
Comprobar que existen diseos de prueba separadamente para cada objetivo de minera de datos. Decidir los pasos necesarios (el nmero de iteraciones, el nmero de desviaciones o curvas, etc.). Preparar los datos requeridos para la prueba
4.3.4.3. Construccin del modelo
Tarea: Construir el modelo
Se corre la herramienta de modelado sobre el conjunto de datos listo para crear uno o ms modelos.
Salida: Parmetros de ajuste
Con cualquier herramienta de modelado hay a menudo un gran nmero de parmetros que pueden ser ajustados. Se debe listar los parmetros y sus valores seleccionados, con la explicacin (el razonamiento) para la eleccin.
Actividades
Determinar los parmetros iniciales. Documentar las razones para elegir aquellos valores.
Salida: Modelos
Controlar la herramienta de modelado en el conjunto de datos listos para crear uno o ms modelos.
Actividades
Ejecutar la tcnica seleccionada sobre el conjunto de datos de entrada para producir el modelo. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 63 de287 Ing. Hugo Daniel Flores Post-procesar los resultados de minera de datos (por ejemplo, editar reglas, mostrar rboles).
Salida: Descripcin del modelo
Describir el resultado del modelado y evaluar su exactitud esperada, la robustez, y defectos posibles.
Informar sobre la interpretacin de los modelos y encontrar cualquier dificultad.
Actividades
Describir cualquier caracterstica del modelo actual que puede ser til para el futuro. Ajustar parmetro de entorno (de registro) usado para producir el modelo. Dar una descripcin detallada del modelo y cualquier rasgo especial. Para modelos basados por regla, listar las reglas producidas, ms cualquier evaluacin de cada regla o la exactitud y alcance total del modelo. Para modelos no transparentes, listar cualquier informacin tcnica sobre el modelo (como la topologa de las redes neuronales) y cualquier descripcin de comportamiento producido por el proceso de modelado (como la exactitud o la sensibilidad). Describir el comportamiento del modelo y la interpretacin. Expresar conclusiones respecto a los patrones en los datos (si hay alguno); a veces el modelo revela hechos importantes sobre los datos sin un proceso de evaluacin separado (por ejemplo, que la salida o la conclusin son duplicadas en una de las entradas).
4.3.4.4. Evaluacin del modelo
Tarea: Evaluar el modelo
El modelo ahora debera ser evaluado para asegurar que se encontr criterio de xito de la minera de datos y aprobar los criterios de prueba deseados. Esto es una evaluacin puramente tcnica basada en el resultado de las tareas de modelado.
Salida: Evaluacin del modelo
Resumir los resultados de esta tarea, listar las calidades de los modelos generados (por ejemplo, en trminos de exactitud), y el nivel de su calidad en relacin a otro.
Actividades
Evaluar los resultados en lo que concierne a criterios de evaluacin. Probar los resultados segn una estrategia de prueba (por ejemplo: Corrida y Prueba, Validacin cruzada, bootstrapping, etc.). Comparar los resultados de la evaluacin y la interpretacin. Crear la clasificacin de resultados en lo que concierne a criterios de xito y evaluacin. Seleccionar los mejores modelos. Interpretar los resultados en trminos de negocio (tanto como sea posible en esta etapa). Conseguir comentarios de los modelos por expertos en datos o en el dominio. Chequear la credibilidad del modelo. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 64 de287 Ing. Hugo Daniel Flores Comprobar los efectos sobre los objetivos de minera de datos. Comprobar los modelos contra una base de conocimiento determinada para ver si la informacin descubierta es nueva y til. Comprobar la fiabilidad de los resultados. Analizar el potencial para el desarrollo de cada resultado Si hay una descripcin verbal del modelo generado (por ejemplo, en forma de reglas), evaluar las reglas: Ellas son lgicas, o ellas son factibles, hay demasiadas reglas o hay demasiado poco, ellos violan el sentido comn? Evaluar resultados. Conseguir ideas especficas de cada tcnica de modelado y ciertos parmetros de ajustes que conduzcan a resultados buenos/malos.
Se recomienda
Tablas de Elevacin y Tablas de Beneficio pueden ser construidas para determinar bien lo que el modelo predice.
Salida: Revisin de parmetros de ajuste
Segn la evaluacin del modelo, se debe revisar parmetros de ajuste para la siguiente corrida en la tarea de Construccin del Modelo. Iterar (repetir) la construccin del modelo y evaluar hasta que se encuentre el mejor modelo.
Actividades
Ajustar parmetros para producir mejores modelos.
4.3.5. Evaluacin
Los pasos de evaluacin previa tratan con factores como la exactitud y la generalidad del modelo. Este paso evala el grado en el que el modelo encuentra los objetivos de negocio, y procura determinar si hay alguna razn de negocio por la qu este modelo sea deficiente. Se comparan resultados con los criterios de evaluacin definidos en el principio del proyecto.
Un modo bueno para definir las salidas totales de un proyecto de minera de datos es usar la ecuacin:
RESULTADOS = MODELOS + CONCLUSIONES
En esta ecuacin, definimos que la salida total del proyecto de minera de datos no son solamente los modelos (aunque ellos sean, desde luego, importantes) sino tambin las conclusiones, las que definimos como algo (aparte del modelo) que es importante en:
la bsqueda de los objetivos de negocio o importancia para arribar a nuevas preguntas, las lneas de aproximacin, o los efectos negativos (por ejemplo, los problemas de calidad de datos descubierto por el uso de la minera de datos).
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 65 de287 Ing. Hugo Daniel Flores Se debe tener en cuenta que aunque el modelo est directamente conectado a las preguntas de negocio, las conclusiones no necesariamente estn relacionadas con cualquiera de las preguntas u objetivos, mientras ellos son importantes para el promotor del proyecto.
4.3.5.1. Evaluacin de los resultados
Tarea: Evaluar los resultados
Esta etapa evala el grado al que el modelo encuentra los objetivos de negocio, y procura determinar si hay alguna razn de negocio por el cual este modelo es deficiente. Otra opcin es probar el (los) modelo(s) sobre la aplicacin de prueba en el sistema verdadero, si las restricciones de tiempo y de presupuesto as lo permiten.
Adems, la evaluacin tambin evala otros resultados generados por la minera de datos. Los resultados de minera de datos cubren los modelos que estn relacionados con los objetivos originales de negocio y todas las dems conclusiones. Unos son relacionados con los objetivos de negocios originales mientras que otros podran revelar desafos adicionales, informacin, o ideas para futuras administraciones (direcciones).
Salida: Evaluacin de los resultados de minera de datos en lo que respecta a criterios de xito de negocio
Resumir resultados de evaluacin en trminos de criterios de xito de negocio, incluyendo una declaracin final relacionada a si el proyecto encuentra los objetivos iniciales de negocio.
Actividades
Comprender los resultados de la minera de datos. Interpretar los resultados en trminos de la aplicacin (del uso). Comprobar efectos sobre los objetivos de minera de datos. Comprobar los resultados de minera de datos contra la base de un conocimiento determinado para ver si la informacin descubierta es nueva y til. Evaluar y estimar los resultados en lo que respecta a criterios de xito de negocio (esto es, si el proyecto ha alcanzado los Objetivos de Negocio originales). Comparar los resultados de la evaluacin y la interpretacin. Clasificar los resultados en lo que respecta a criterios de xito de negocio. Comprobar el efecto de los resultados sobre el objetivo (fin) de la aplicacin inicial. Determinar si hay nuevos objetivos de negocio para ser dirigidos ms tarde en el proyecto, o en nuevos proyectos. Expresar recomendaciones para proyectos futuros de minera de datos
Salida: Modelos aprobados
Despus de evaluar los modelos con respecto a los criterios de xito de negocio, se debe seleccionar y probar los modelos generados que encontraron los criterios seleccionados.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 66 de287 Ing. Hugo Daniel Flores 4.3.5.2. Proceso de revisin
Tarea: Revisar el proceso
En este punto, el modelo resultante parece ser satisfactorio y parece satisfacer necesidades de negocio. Es ahora apropiado hacer una revisin ms cuidadosa de las promesas de minera de datos para determinar si hay algn factor importante o tarea que de algn modo ha sido pasada por alto. En esta etapa del ejercicio de minera de datos, el Proceso de Revisin toma la forma de una Revisin de Garanta de Calidad.
Salida: Revisin de procesos
Resumir el proceso de revisin y poner en una lista las actividades que han sido omitidas y/o deberan ser repetidas.
Actividades
Proporcionar una descripcin del proceso de minera de datos usado. Analizar el proceso de minera de datos. Para cada etapa del proceso: Esto fue necesario? Esto fue ejecutado de forma ptima? En que modo podra ser mejorado? Identificar fracasos. Identificar pasos desviados (de engaos). Identificar acciones alternativas posibles y/o caminos inesperados en el proceso. Revisar resultados de minera de datos en lo que concierne a criterios de xito de negocio.
4.3.5.3. Determinacin de los prximos pasos
Tarea: Determinar los prximos pasos
Basado en los resultados de evaluacin y la revisin de proceso, se debe decidir como proceder.
Las decisiones a ser tomadas incluyen si hay que terminar este proyecto y seguir adelante al desarrollo para iniciar futuras iteraciones, o establecer nuevos proyectos de minera de datos.
Salida: Lista de acciones posibles
Listar acciones futuras posibles con los motivos para y contra de cada opcin.
Actividades
Analizar el potencial para el desarrollo de cada resultado. Estimar el potencial para la mejora de proceso actual. Comprobar los recursos restantes para determinar si ellos permiten iteraciones de proceso adicionales (o si recursos adicionales pueden estar siendo disponibles). Recomendar continuar con las alternativas. Refinar el plan de proceso.
Salida: Decisin
Describir las decisiones hechas, con el razonamiento para ello. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 67 de287 Ing. Hugo Daniel Flores Actividades
Clasificar las acciones posibles. Seleccionar una de las acciones posibles. Documentar las razones para la eleccin.
4.3.6. Desarrollo
4.3.6.1. Plan de desarrollo
Tarea: Desarrollo del Plan
Esta tarea comienza con la evaluacin de los resultados y concluye con una estrategia para el desarrollo de los resultados de la minera de datos en el negocio.
Salida: Plan de Desarrollo
Resumir la estrategia de desarrollo, incluyendo los pasos necesarios y como realizarlos.
Actividades
Resumir resultados desarrollados. Construir y evaluar los planes alternativos para el desarrollo. Decidir para cada resultado conocimiento o informacin distintos. Determinar como el conocimiento o la informacin sern propagados (generados) a los usuarios. Decidir como ser supervisado el uso del resultado y medir sus beneficios (donde sea aplicable). Decidir por cada resultado de modelo desarrollado o de software. Establecer como el modelo o el resultado de software sern desplegados dentro de los sistemas de la organizacin. Determinar como su empleo ser supervisado y como se miden sus beneficios (donde sea aplicable). Identificar posibles problemas durante el desarrollo (peligros a ser evitados).
4.3.6.2. Supervisin y mantenimiento del plan
Tarea: Supervisar y mantener el plan
La supervisin y el mantenimiento son cuestiones importantes si los resultados de la minera de datos se hacen parte del negocio cotidiano y de su ambiente. Una preparacin cuidadosa de una estrategia de mantenimiento ayuda a evitar innecesariamente largos perodos de uso incorrecto de los resultados de minera de datos. Para supervisar el desarrollo de los resultados de minera de datos, el proyecto necesita un plan detallado para supervisar y mantener. Este plan tiene en cuenta el tipo especfico de desarrollo.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 68 de287 Ing. Hugo Daniel Flores Salida: Plan de supervisin y mantenimiento
Resumir la estrategia de supervisin y mantenimiento, la inclusin de pasos necesarios y como realizarlos.
Actividades
Comprobar aspectos dinmicos (esto es, qu cosas podran cambiar en el entorno?). Decidir como ser supervisada la precisin. Determinar cuando el resultado de minera de datos o el modelo no deberan ser usados ms. Identificar criterios (la validez, el lmite de la exactitud, nuevos datos, cambios en el dominio de aplicacin, etc.), y que debera pasar si el modelo o el resultado no pueden ser usados ms. Actualizacin del modelo, establecimiento de nuevos proyectos de minera de datos, etc. Cambiarn con el tiempo los objetivos de negocio del empleo del modelo? Documentar totalmente el problema inicial que el modelo intentaba solucionar. Desarrollar el plan de mantenimiento y la supervisin.
4.3.6.3. Produccin de Informe definitivo
Tarea: Producir Informe definitivo
En el final del proyecto, el equipo de proyecto sobrescribe un informe definitivo. Segn el plan de desarrollo, este informe puede ser slo un resumen del proyecto y su experiencia, o una presentacin final de los resultados de minera de datos.
Salida: Informe definitivo
En el final del proyecto, habr al menos un informe definitivo en el que todos los hilos son encontrados. As como la identificacin de los resultados obtenidos, el informe tambin debera describir el proceso, mostrar los costos que se han encontrados, definir cualquier desviacin del plan original, describir proyectos de implementacin, y hacer cualquier recomendacin para el futuro trabajo. El contenido real detallado del informe depende en gran medida de la audiencia planeada.
Actividades
Identificar cuales informes son necesarios (presentacin de diapositiva, conclusiones de administracin, detalles encontrados, explicacin de los modelos, etc.). Analizar que tan bien se han encontrado los objetivos de minera de datos iniciales. Identificar grupos de objetivos para el informe. Describir en forma general las estructuras y el contenido de informe(s). Seleccionar conclusiones para ser incluidas en los informes. Escribir un informe.
Salida: Presentacin final
As como un informe definitivo, puede ser necesario hacer una presentacin final para concluir el proyecto (por ejemplo, al patrocinador de direccin). La presentacin normalmente contiene un DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 69 de287 Ing. Hugo Daniel Flores subconjunto del contenido de la informacin en el informe definitivo, estructurado de un modo diferente.
Actividades
Decidir el grupo objetivo para la presentacin final y determinar si ellos ya habrn recibido el informe definitivo. Seleccionar cuales de los artculos del informe definitivo deberan ser incluidos en la presentacin final.
4.3.6.4. Revisin del proyecto
Tarea: Revisar el proyecto
Evaluar que fue lo correcto y que fue lo errado, cual fue el xito obtenido, y que necesidades sern mejoradas.
Salida: Documentacin de experiencia
Resumir la gran experiencia ganada durante el proyecto. Por ejemplo, trampas, accesos a informacin incorrecta (misleading approaches), o los puntos para seleccionar las mejores tcnicas de minera de datos en situaciones similares podran ser la parte de esta documentacin. En proyectos ideales, la documentacin de experiencia tambin cubre cualquier informe que ha sido escrito por miembros individuales del proyecto durante el proyecto.
Actividades
Entrevistar a toda la gente significativa involucrada en el proyecto y preguntarles sobre su experiencia durante el proyecto. Si los usuarios finales trabajan en el negocio con los resultados de minera de datos, entrevistarlos: Estn satisfechos? Cmo podra haber sido mejor realizado? Necesitan de apoyo adicional? Resumir la realimentacin y escribir la documentacin de experiencia. Analizar el proceso (las cosas que se trabajaron bien, los errores producidos, las lecciones aprendidas, etc.). Documentar el proceso de minera de datos especfico (Cmo pueden los resultados y la experiencia de aplicacin del modelo ser realimentado en el proceso?) Generalizar desde los detalles para producir la experiencia til para proyectos futuros.
4.4. Las salidas del CRISP-DM
Esta seccin contiene las breves descripciones de los objetivos y el contenido de los informes ms importantes. Aqu, se enfoca en los informes que son significativos para comunicar los resultados de una fase a la gente no involucrada en esta fase (y posiblemente no involucrada en este proyecto). Estos no son necesariamente idnticos a las salidas como lo descrito en el modelo de referencia y la gua de usuario. El objetivo de estas salidas es mas para documentar resultados mientras se est realizando el proyecto.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 70 de287 Ing. Hugo Daniel Flores 4.4.1. Comprensin del Negocio
Los resultados de la fase de Comprensin de Negocio pueden ser resumidos en un informe. Se sugiere las secciones siguientes:
Contexto
La seccin Contexto proporciona una descripcin bsica del contexto de proyecto. Se deben listar cuales reas estn trabajando en el proyecto, que problemas han sido identificados, y por qu la minera de datos parece proporcionar una solucin.
Objetivos de negocio y criterios de xito
La seccin de Objetivos de negocio describe los objetivos del proyecto en trminos de negocio. Para cada objetivo, Los Criterios de xito de Negocio, esto es, describir las medidas para determinar si realmente el proyecto ha logrado sus objetivos.
Esta seccin tambin debera listar los objetivos que fueron considerados, pero rechazados. El razonamiento de la seleccin de objetivos debera ser dado.
Inventario de recursos
La seccin de Inventario de Recursos apunta a identificar el personal, fuentes de datos, instalaciones tcnicas, y otros recursos que pueden ser tiles en la realizacin del proyecto.
Requerimientos, presunciones, y restricciones
Esta seccin lista los requerimientos generales para la ejecucin del proyecto: tipo de resultados de proyecto, presunciones hechas sobre la naturaleza del problema y de los datos que estn siendo usados, y restricciones impuestas al proyecto.
Riesgos y contingencias
Esta seccin identifica los problemas que pueden ocurrir en el proyecto, describe las consecuencias, y declara que acciones pueden ser tomadas para reducir al mnimo tales riesgos.
Terminologa
La seccin de Terminologa permite a la gente desconocida con los problemas que estn siendo dirigidos por el proyecto hacerse ms familiar con ellos.
Costos y beneficios
Esta seccin describe los costos del proyecto y predice los beneficios del negocio si el proyecto es exitoso (por ejemplo, la vuelta en la Inversin). Otros beneficios menos tangibles (por ejemplo, la satisfaccin del cliente) tambin deberan ser destacadas.
Objetivos de minera de datos y criterios de xito
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 71 de287 Ing. Hugo Daniel Flores La seccin de Objetivos de Minera de datos declara los resultados del proyecto que permiten el logro de los objetivos de negocio. Tambin como el listado de los accesos probables de minera de datos, los criterios de xito para los resultados en trminos de minera de datos tambin deberan ser puestos en una lista.
Plan de proyecto
Esta seccin pone en una lista las etapas para ser ejecutadas en el proyecto, juntos con su duracin, recursos requeridos, entradas, salidas, y dependencias. Donde sea posible, esto debera hacer explcitamente las iteraciones en gran escala en el proceso por ejemplo de minera de datos (por ejemplo, las repeticiones del modelado y fases de evaluacin).
Evaluacin inicial de herramientas y tcnicas
Esta seccin da una vista inicial de que herramientas y tcnicas probablemente van a ser usadas y como. Esto describe los requerimientos para las herramientas y tcnicas, ponen en una lista herramientas disponibles y tcnicas, y los compara con los requerimientos.
4.4.2. Comprensin de Datos
Los resultados de la fase Comprensin de Datos por lo general son documentados en varios informes. Idealmente, estos informes seran los escritos mientras se estaban realizando las respectivas tareas. Los informes describen el conjunto de datos que es explorado durante la Comprensin de Datos.
Para el informe definitivo, un sumario de las partes ms relevantes es suficiente.
Informe de coleccin de datos iniciales
Este informe describe como las diferentes fuentes de datos identificadas en el inventario fueron capturadas y extrados.
Temas a ser cubiertos:
Contexto de datos. Lista de fuentes de datos con amplia rea de cobertura de datos requeridos por cada uno. Para cada fuente de datos, mtodo de adquisicin o extraccin. Problemas encontrados en adquisicin de datos o extraccin.
Informe de descripcin de datos
Cada conjunto de datos adquirido es descrito en este informe.
Temas a ser cubiertos:
Cada fuente de datos descrita detalladamente. Lista de tablas (puede ser slo uno) u otros objetos de base de datos. Descripcin de cada campo, incluyendo unidades, cdigos usados, etc.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 72 de287 Ing. Hugo Daniel Flores Informe de exploracin de datos
Este informe describe la exploracin de datos y sus resultados.
Temas a ser cubiertos:
Contexto, incluyendo los amplios objetivos de exploracin de datos. Para cada rea de exploracin emprendida:
Las regularidades esperadas o patrones. Mtodo de deteccin. Regularidades o patrones encontrados, esperados e inesperados. Cualquier otra sorpresa. Conclusiones para transformacin de datos, limpieza de datos, y cualquier otro proceso previo. Conclusiones relacionadas con datos que extraen objetivos u objetivos de negocio. Sumario de conclusiones.
Informe de calidad de datos
Este informe describe lo completo y la exactitud de los datos.
Temas a ser cubiertos:
Contexto, incluyendo amplias expectativas sobre calidad de datos. Para cada conjunto de datos:
Acercar temas para evaluar la calidad de datos. Los resultados de evaluacin de calidad de datos. Sumario de conclusiones de calidad de datos.
4.4.3. Preparacin de Datos
Los informes en la fase de Preparacin de Datos se enfocan en los pasos de pre-proceso que producen los datos para ser minados.
Informe de descripcin de conjunto de datos
Este informe proporciona una descripcin del conjunto de datos (despus del pre-proceso) y el proceso por el que fue producido.
Temas a ser cubiertos:
Contexto, incluyendo objetivos amplios y plan para el pre-proceso.
Razonamiento para inclusin/exclusin de conjunto de datos. Para cada conjunto de datos incluir:
La descripcin del pre-proceso, incluyendo las acciones que fueron necesarias para dirigir cualquier cuestin de calidad de datos. Descripcin detallada del conjunto de datos resultante, tabla por tabla y campo por campo. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 73 de287 Ing. Hugo Daniel Flores Razonamiento para inclusin/exclusin de atributos. Descubrimientos de hechos durante el pre-proceso, y cualquier implicacin para futuros trabajos. Sumario y conclusiones.
4.4.4. Modelado
Las salidas producidas durante la fase Modelado pueden ser combinadas en un informe. Se sugieren las secciones siguientes.
Modelado de presunciones
Esta seccin define cualquier presuncin explcita hecha sobre los datos y cualquier presuncin que est implcita en la tcnica de modelado a ser usado.
Diseo de prueba
Esta seccin describe como los modelos son construidos, probados, y evaluados.
Temas a ser cubiertos:
Contexto de fondo para la ocupacin del modelo y su relacin a los objetivos de minera de datos. Para cada tarea de modelado:
Ampliacin de la descripcin del tipo de modelo y los datos que se entrenan para ser usado. La explicacin de como el modelo ser probado o evaluado. Descripcin de cualquier dato requerido para las pruebas. Plan para produccin de los datos de prueba si hay. Descripcin de cualquier examen planeado de modelos por expertos en dominio o de datos. Sumario de plan de prueba.
Descripcin del modelo
Este informe describe los modelos entregados y las descripciones del proceso por el que ellos fueron producidos.
Temas a ser cubiertos:
Descripcin de modelos producidos. Para cada modelo:
Tipo de modelo y la relacin a los objetivos de minera de datos. Los parmetros de ajustes usados para producir el modelo. Descripcin detallada del modelo y cualquier rasgo especial. Por ejemplo: para modelos basados por regla, listar las reglas producidas ms cualquier evaluacin de precisin por regla o el modelo completo y el alcance; para modelos no transparentes, listar cualquier informacin tcnica sobre el modelo (como la topologa de red de los nervios) y algunas descripciones de comportamiento producidas por el proceso de modelado (como la precisin o la sensibilidad). Descripcin del comportamiento del modelo e interpretacin. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 74 de287 Ing. Hugo Daniel Flores Conclusiones en cuanto a los patrones en los datos (si hay). A veces el modelo revelar hechos importantes sobre los datos sin un proceso de evaluacin separado (por ejemplo, que la salida o la conclusin estn duplicadas en una de las entradas). Sumario de conclusiones.
Evaluacin del modelo
Esta seccin describe los resultados de prueba de los modelos segn el diseo de prueba.
Temas a ser cubiertos:
Descripcin de los procesos de evaluacin y los resultados, incluyendo cualquier desviacin del plan de prueba. Para cada modelo:
Evaluacin detallada, incluyendo medidas como precisin e interpretacin del comportamiento. Cualquier comentario sobre los modelos por expertos en el dominio o de datos. Evaluacin resumida de modelos. Ideas en por qu una cierta tcnica de modelado y ciertos ajustes de parmetro conducen a resultados buenos/malos. Evaluacin sumaria del conjunto de modelos completos.
4.4.5. Evaluacin
Evaluacin de los resultados de minera de datos en lo que respecta a criterios de xito de negocio
Este informe compara los objetivos de minera de datos con los objetivos de negocio y los criterios de xito de negocio.
Temas a ser cubiertos:
Revisin de objetivos de negocio y criterios de xito de negocio (qu podra haberse cambiado durante y/o como consecuencia de la minera de datos). Para cada criterio de xito de negocio:
Comparacin detallada entre criterio de xito y resultados de minera de datos. Conclusiones sobre aceptabilidad (achievability) de criterios de xitos y conveniencia del proceso de minera de datos. Revisin del xito de proyecto: El proyecto ha alcanzado los objetivos originales de negocio? Objetivos nuevos de negocio deben ser dirigidos despus en el proyecto o en nuevos proyectos? Conclusiones para futuros proyectos de minera de datos.
Revisin de proceso
Esta seccin evala la eficacia del proyecto e identifica cualquier factor que podra haber sido pasado por alto y que debera ser tenido en cuenta si el proyecto es repetido.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 75 de287 Ing. Hugo Daniel Flores Lista de posibles acciones
Esta seccin hace recomendaciones en cuanto a los siguientes pasos en el proyecto.
4.4.6. Desarrollo
Plan de desarrollo
Este informe especifica el desarrollo de los resultados de minera de datos.
Temas a ser cubiertos:
Resumen de los resultados desarrollados (derivado de los informes de Prximos Pasos). Descripcin de plan de desarrollo.
Supervisin y plan de mantenimiento
La supervisin y el plan de mantenimiento especifican como los resultados desarrollados deben ser mantenidos.
Temas a ser cubiertos:
Descripcin de los resultados de desarrollo y la indicacin de que los resultados pueden requerir la actualizacin (y el por qu). Para cada resultado desarrollado:
Descripcin de como la actualizacin ser provocada (por una normal actualizacin, por un acontecimiento de activacin, por la ejecucin de una supervisin). Descripcin de cmo la actualizacin ser realizada. Resumen de los procesos de actualizacin de los resultados.
Informe definitivo
El informe definitivo es usado para resumir el proyecto y sus resultados.
Contenido:
Resumen de la Comprensin del Negocio: contexto, objetivos, y criterios de xito. Sumario de proceso de minera de datos. Resumen de los resultados de minera de datos. Sumario de la evaluacin de resultados. Resumen del desarrollo y de los planes de mantenimiento. Anlisis Costo/Beneficio. Conclusiones para el negocio. Conclusiones para futura minera de datos.
4.4.7. Resumen de dependencias
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 76 de287 Ing. Hugo Daniel Flores La siguiente tabla (Tabla 3) resume las entradas principales para los operadores. Esto no significa que solo las listas de entradas puestas deberan ser consideradas, por ejemplo, los objetivos de negocio deberan ser distribuidos a todo los operadores.
Sin embargo, el operador debera dirigir cuestiones especficas elevadas por sus entradas.
Frase Entregable Referido a Relacionado a Entender el negocio Background Objetivo de negocio Backgorund Terminologa Creterio de xito de negocio Objetivo de negocio Inventario de recursos Requerimientos, asunciones y restricciones Objetivo de negocio Riesgos y contingencias Objetivo de negocio - Criterio de xito de negocio Terminologa Backgorund Objetivo de negocio Costos y beneficios Objetivo de negocio Plan de proyecto Metas de minera de datos Objetivo de negocio - Requerimientos, asunciones y restricciones
Criterio de xito de minera de datos Criterio de xito de negocio - Requerimientos, asumciones y restricciones - Metas de minera de datos
Plan de proyecto Objetivo de negocio - Inventario de recursos - Requerimientos, asunciones y restricciones - Riesgos y contingencias Costos y beneficios Comprender datos Reporte de coleccin inicial de datos Objetivo de negocio - Inventario de recursos - Objetivos de minera de datos
Reporte de descripcin de datos Objetivo de negocio - Reporte de coleccin inicial de datos Reporte de calidad de datos Reporte de exploracin de datos Objetivo de negocio - Reporte de coleccin inicial de datos Reporte de descripcin de datos Reporte de calidad de datos Objetivo de negocio - Reporte de coleccin inicial de datos Preparar datos Set de datos y descripcin de set de datos Objetivo de negocio - Objetivo de minera de datos - Reporte de descripcin de datos - Reporte de calidad de datos - Reporte de exploracin de datos
Modelar Diseo de test Objetivo de minera de datos - Criterio de xito de minera de datos
Modelos Objetivo de minera de datos Setear parmetros Setear parmetros Objetivo de minera de datos Modelos Descripcin de modelo Modelos - Setear parmetros - Diseo de test Evaluacin de modelo Criterio de xito de negocio - Diseo de test - Modelos Evaluacin Evaluar resultado de minera de datos - Criterio de xito de negocio Criterio de xito de negocio - Terminologa Revisin de proceso Objetivo de negocio - Evaluacin de resultado de minera de datos - Criterio de xito de negocio
Pasos a seguir Plan de proyecto - Evaluacin de resultado de minera de datos - Criterio de xito de negocio
Desarrollo Desarrollo de plan Objetivo de negocio - Requerimientos, asunciones y restricciones Plan de mantenimiento Plan de mantenimiento Objetivo de negocio - Requerimientos, asunciones y restricciones Desarrollo de plan Reporte final y presentacin Objetivo de negocio - Terminologa - Evaluacin de resultado de minera de datos - Criterio de xito de negocio
Documentacin de experiencia Plan de proyecto - Revisin de proceso
Tabla 3: Entradas principales de los operadores DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 77 de287 Ing. Hugo Daniel Flores 4.5. Apndice
4.5.1. Glosario/Terminologa
Actividad: Es parte de una tarea en la Gua de Usuario; describe las acciones para realizar una tarea. Metodologa de CRISP-DM: El trmino general para todos los conceptos desarrollados y definidos en el CRISP-DM. Contexto de minera de datos: Un conjunto de restricciones y presunciones, tales como el tipo de problema, las tcnicas o herramientas, el dominio de aplicacin. Tipos de problemas de minera de datos: Una clase de tpicos problemas de minera de datos, tales como la descripcin de datos y el resumen, la segmentacin, las descripciones de conceptos, la clasificacin, la prediccin, el anlisis de dependencia. Genrico: Una tarea que mantiene un cruce con todos los proyectos de minera de datos posibles. Modelo: La capacidad de aplicar algoritmos a un conjunto de datos para predecir atributos objetivos; ejecutable. Salida: El resultado tangible de la ejecucin de una tarea. Fase: Un trmino para la parte de alto nivel del modelo de proceso CRISP-DM; consiste en tareas relacionadas. Caso del proceso: Un proyecto especfico descrito en trminos del modelo de proceso Modelo de proceso: Define la estructura de proyectos de minera de datos y proporciona la gua para su ejecucin; consiste en el modelo de referencia y en la gua de usuario. Modelo de referencia: Descomposicin de proyectos de minera de datos en fases, tareas, y salidas. Especializado: Una tarea que hace presunciones especficas en contextos especficos de minera de datos. Tarea: Una serie de actividades para producir una o ms salidas; parte de una fase Gua de usuario: Asesoramiento especfico sobre como realizar proyectos de minera de datos.
4.5.2. Tipos de problemas de minera de datos
Por lo general, los proyectos de minera de datos implican una combinacin de diferentes tipos de problema, que juntos solucionan el problema de negocio.
4.5.2.1. Descripcin de datos y resumen
La descripcin y el resumen de datos apuntan a la descripcin concisa de las caractersticas de los datos, tpicamente en forma elemental y agregada. Esto da al usuario una descripcin de la estructura de los datos. A veces, una descripcin y resumen de los datos solo puede ser un objetivo de un proyecto de minera de datos. Por ejemplo, un minorista podra estar interesado en el volumen de ventas de todas las salidas separado por categoras. Los cambios y diferencias de un perodo anterior podran ser resumidos y destacados. Esta clase de problema estara en lo mas bajo de la escala de problemas de minera de datos.
En casi todos los proyectos de minera de datos, sin embargo, la descripcin y resumen de los datos son un objetivo subordinado en el proceso, tpicamente en sus tempranas etapas. En el principio de un proceso de minera de datos, el usuario a menudo no conoce, ni el objetivo preciso del anlisis, DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 78 de287 Ing. Hugo Daniel Flores ni la naturaleza exacta de los datos. La exploracin inicial del anlisis de datos puede ayudar a los usuarios a entender la naturaleza de los datos y formar hiptesis potenciales de la informacin oculta. La estadstica descriptiva simple y las tcnicas de visualizacin proporcionan las primeras ideas sobre los datos. Por ejemplo, la distribucin de clientes por edad y regiones geogrficas sugiere que partes de un grupo de clientes necesita para ser dirigida para futuras estrategias de comercializacin (marketing).
La descripcin y el resumen de datos tpicamente ocurren en combinacin con otros tipos de problemas de minera de datos. Por ejemplo, la descripcin de datos puede conducir a la postulacin (presuncin) de segmentos interesantes en los datos. Una vez que los segmentos son identificados y definidos, una descripcin y un resumen de estos segmentos son tiles. Es aconsejable llevar a cabo una descripcin y resumen de datos antes de que cualquier otro tipo de problema de minera de dato sea especificado (dirigido). En este documento, esto se refleja en el hecho que la descripcin y resumen de datos es una tarea en la fase de Comprensin de Datos.
El resumen tambin juega un papel importante en la presentacin de los resultados finales. Los resultados de otros tipos de problemas de minera de datos (por ejemplo, las descripciones de conceptos o los modelos de prediccin) tambin pueden ser considerados resumen de datos, pero sobre un nivel conceptual ms alto.
Muchos sistemas de informe, paquetes estadsticos, OLAP, y sistemas EIS pueden cubrir la descripcin y resumen de datos, pero hacerlo usualmente no proporciona algunos mtodos para realizar modelado ms avanzado. Si la descripcin y resumen de datos son considerados un tipo de problema independiente y ningn modelado futuro es requerido, entonces estas herramientas pueden ser apropiadas para realizar los compromisos de minera de datos.
4.5.2.2. Segmentacin
La segmentacin apunta a la separacin de los datos en subgrupos o clase significativos e interesantes. Todos los miembros de un subgrupo comparten caractersticas comunes. Por ejemplo, en el anlisis de cesta de compras, uno podra definir los segmentos de cestas segn los artculos que ellos contienen.
La segmentacin puede ser realizada a mano o semi-automticamente. El analista puede suponer ciertos subgrupos como relevantes para la pregunta de negocio, basada sobre un conocimiento previo o sobre el resultado de la descripcin y el resumen de datos. En adicin, hay tambin tcnicas automticas de agrupamiento (clustering) que pueden descubrir las estructuras antes insospechadas y ocultas en datos que permite la segmentacin.
La segmentacin a veces puede ser un objetivo de minera de datos. Entonces la deteccin de segmentos sera el objetivo principal de un proyecto de minera de datos. Por ejemplo, todas las direcciones en reas de cdigo postal con la edad mas alta que el promedio y un ingreso podran ser seleccionadas para enviar publicidad para seguro de clnica de ancianos.
Muy a menudo, sin embargo, la segmentacin es un paso hacia la solucin de otros tipos de problema. Entonces, el objetivo es de guardar (mantener) el tamao de los datos manejables o encontrar los subconjuntos de datos homogneos que son ms fciles para analizar. Tpicamente en grandes conjuntos de datos variados afectan el alcance de cada uno y obscurece los patrones interesantes. Entonces, la segmentacin apropiada hace la tarea ms fcil. Por ejemplo, analizar las dependencias entre artculos en millones de cestas de compras es muy difcil. Esto es mucho ms DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 79 de287 Ing. Hugo Daniel Flores fcil (y ms significativo, generalmente) para identificar dependencias en los segmentos interesantes de cestas de compras -por ejemplo, cestas de alto valor, cestas que contienen bienes de confort, o cestas de un da o de un periodo particular.
Nota: En la literatura, hay algo de ambigedad en el significado de ciertos trminos. A veces llaman a la segmentacin agrupamiento (clustering) o clasificacin (classification). El ltimo trmino es confuso porque algunas personas lo usan para referirse a la creacin de clases, mientras que otros piensan en la creacin de modelos para predecir las clases conocidas para casos antes no vistos. En este documento, restringimos el trmino de clasificacin al ltimo significado (ver ms abajo) y usar el trmino segmentacin con el antiguo significado, aunque las tcnicas de clasificacin puedan ser usadas para obtener descripciones de los segmentos descubiertos.
Tcnicas apropiadas:
Tcnicas de agrupamiento (clustering) Redes Neuronales Visualizacin
Ejemplo:
Una empresa de venta de autos con regularidad recoge informacin sobre sus clientes acerca de sus caractersticas socioeconmicas como el ingreso, la edad, el sexo, la profesin, etc. Usando anlisis de agrupamiento, la empresa puede dividir a sus clientes en subgrupos ms comprensibles y analizar la estructura de cada subgrupo. Estrategias de control de comercializacin (marketing) especficas son desarrolladas para cada grupo separado.
4.5.2.3. Descripciones de conceptos
La descripcin de concepto apunta a una descripcin comprensible de conceptos o clases. El objetivo no es para completar el desarrollo de modelos con prediccin de exactitud alta, sino para ganar ideas. Por ejemplo, una empresa puede estar interesada en el estudio sobre sus clientes ms leales y desleales. De una descripcin de concepto de estos conceptos (clientes leales y desleales) la compaa infiere que podra estar hecho para encontrar clientes leales o transformar clientes desleales a clientes leales.
Una descripcin de concepto tiene una conexin cercana tanto a la segmentacin como a la clasificacin. La segmentacin puede conducir a una enumeracin de objetos que pertenecen a un concepto o clase sin proporcionar cualquier descripcin comprensible. Tpicamente la segmentacin es llevada a cabo antes de que la descripcin de concepto sea realizada. Algunas tcnicas -tcnicas de agrupamiento conceptuales, por ejemplo-ejecutan la segmentacin y descripcin de concepto al mismo tiempo.
Las descripciones de concepto tambin pueden ser usadas para objetivos de clasificacin. Por otra parte, algunas tcnicas de clasificacin producen modelos de clasificacin comprensibles, que pueden entonces ser consideradas descripciones de concepto. La distincin importante es que la clasificacin apunta a ser completa en algn sentido. El modelo de clasificacin tiene que aplicarse a todos los casos en la poblacin seleccionada.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 80 de287 Ing. Hugo Daniel Flores De otra manera, las descripciones de concepto no tienen que ser completas. Es suficiente si ellos describen las partes importantes de los conceptos o clases. En el ejemplo mencionado, puede ser suficiente conseguir las descripciones de conceptos de aquellos clientes que son claramente leales.
Tcnicas apropiadas:
Mtodos de induccin de reglas Agrupamiento conceptual
Ejemplo:
Usando datos sobre los compradores de coches nuevos y una tcnica de induccin de regla, una empresa de coche podra generar las reglas que describen sus clientes leales y desleales. Debajo estn los ejemplos de las reglas generadas:
Si SEXO =macho y EDAD >51 entonces CLIENTE =leal Si SEXO =hembra y EDAD >21 entonces CLIENTE =leal Si PROFESIN =gerente y EDAD <51 entonces CLIENTE =desleal Si ESTADO CIVIL =soltero y EDAD <51 entonces CLIENTE =desleal
4.5.2.4. Clasificacin
La clasificacin asume que hay un conjunto de objetos caracterizados por algn atributo o rasgo que pertenece a diferentes clases. La etiqueta de clase es un valor (simblico) discreto y es conocido para cada objeto. El objetivo es para construir los modelos de clasificacin (a veces llamados clasificadores), que asigna la etiqueta de clase correcta a objetos antes no vistos y sin etiquetas.
Los modelos de clasificacin sobre todo son usados para el modelado predictivo.
Las etiquetas de clase pueden ser presentadas en el avance -definida por el usuario, por ejemplo, o derivadas de la segmentacin. La clasificacin es uno de los tipos de problemas ms importantes de minera de datos que ocurren en una amplia gama de aplicaciones. Muchos problemas de minera de datos pueden ser transformados a problemas de clasificacin. Por ejemplo, intentando guardar crditos para evaluar el riesgo de acreditar a un cliente nuevo. Esto puede ser transformado a un problema de clasificacin para crear dos clases, clientes buenos y clientes malos. Un modelo de clasificacin puede ser generado de los datos de cliente existentes de acuerdo a su comportamiento crediticio. Este modelo de clasificacin puede entonces ser usado para asignar a clientes nuevos a una de las dos clases y aceptarlo o rechazarlo.
La clasificacin tiene conexiones a casi todos los otros tipos de problemas. Los problemas de prediccin pueden ser transformados a los problemas de clasificacin por discretizacin de etiquetas de clase continuas, porque las tcnicas de discretizacin permiten transformar rangos continuos en intervalos discretos. Estos intervalos discretos, ms que los valores numricos exactos, son usados como etiquetas de clase, y de ah conducen a un problema de clasificacin.
Algunas tcnicas de clasificacin producen una clase comprensible o descripciones de concepto. Hay tambin una conexin al anlisis de dependencia porque los modelos de clasificacin tpicamente usan (explotan) y aclaran las dependencias entre atributos.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 81 de287 Ing. Hugo Daniel Flores La segmentacin puede tambin proporcionar las etiquetas de clase o restringir el conjunto de datos para que buenos modelos de clasificacin puedan ser construidos. Es til analizar desviaciones antes de que un modelo de clasificacin sea construido. Las desviaciones y contingencias (cosas fuera de lugar-outliers) pueden obscurecer el patrn que podra permitir un buen modelo de clasificacin. De otro modo, un modelo de clasificacin tambin puede ser usado para identificar desviaciones y otros problemas con los datos.
Tcnicas apropiadas:
Anlisis de discriminante Mtodos de induccin de regla Aprendizaje por rboles de Decisin Redes neuronales La K ms cercana Razonamiento basado en caso Algoritmos genticos
Ejemplo:
Los bancos generalmente tienen informacin sobre el comportamiento de pago de sus aspirantes de crdito.
Combinando esta informacin financiera con otra informacin sobre los clientes, como el sexo, la edad, el ingreso, etc., es posible desarrollar un sistema para clasificar a clientes nuevos como clientes buenos o malos (esto es, el riesgo de crdito en la aceptacin de un cliente es alto o bajo).
4.5.2.5. Prediccin
Otro tipo de problema importante que ocurre en una amplia gama de usos es la prediccin. La prediccin es muy similar a la clasificacin.
La nica diferencia es que en la prediccin el atributo objetivo (la clase) no es un atributo cualitativo discreto, sino es uno continuo.
El objetivo de la prediccin esta en encontrar el valor numrico del atributo objetivo para objetos no vistos. En la literatura, este tipo de problema es a veces llamado regresin. Si la prediccin trata con datos de serie tiempo, entonces a menudo lo llaman pronosticacin.
Tcnicas apropiadas:
Anlisis de regresin rboles de regresin Redes neuronales La K ms cercana Mtodos de la Caja-J enkins Algoritmos genticos
Ejemplo:
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 82 de287 Ing. Hugo Daniel Flores El rdito anual de una empresa internacional esta correlacionado con otros atributos como la promocin, la tasa de cambio, la tasa de inflacin, etc. Teniendo estos valores (o estimaciones confiables), la empresa puede predecir su rdito esperado durante el prximo ao.
4.5.2.6. Anlisis de dependencia
El anlisis de dependencia consiste en encontrar un modelo que describe dependencias significativas (o asociaciones) entre artculos de datos o acontecimientos. Las dependencias pueden ser usadas para predecir el valor de unos datos de artculo dada la informacin sobre otros artculos de datos. Aunque las dependencias pueden ser usadas para el modelado predictivo, aquellos son mas usados por su comprensin. Las dependencias pueden ser estrictas o probabilsticas.
Las asociaciones son un caso especial de dependencias, que recientemente se han hecho muy populares. Las asociaciones describen las afinidades de artculos de datos (esto es, artculos de datos o los acontecimientos que con frecuencia ocurren juntos). Un tpico escenario de aplicacin para asociaciones es el anlisis de cestas que hacen compras. All, una regla como en el 30 por ciento de todas las compras, la cerveza y cacahuetes han sido comprados juntos es un ejemplo tpico para una asociacin.
Los algoritmos para detectar asociaciones son muy rpidos y producen muchas asociaciones. Seleccionar el ms interesante es un desafo.
El anlisis de dependencia tiene conexiones cercanas a la prediccin y a la clasificacin, ya que las dependencias implcitamente son usadas para la formulacin de modelos predictivos. Hay tambin una conexin a descripciones de concepto, que a menudo destacan dependencias.
En aplicaciones, el anlisis de dependencia a menudo co-ocurre con la segmentacin. En grandes conjunto de datos, las dependencias son raras veces significativas porque muchas influencias cubren el uno al otro. En tales casos, se aconseja realizar un anlisis de dependencia sobre ms segmentos homogneos de datos.
El modelo secuencial es una clase especial de dependencia en las que el orden de acontecimientos es considerado. En un anlisis de cesta de compras, las asociaciones describen dependencias entre artculos en un tiempo dado. El patrn secuencial describe el modelo que hace compras de un cliente particular o un grupo de clientes en el tiempo.
Tcnicas Apropiadas:
Anlisis de correlacin Anlisis de regresin Reglas de asociacin Redes bayesianas Programacin de lgica inductiva Tcnicas de visualizacin
Ejemplo 1:
Usando el anlisis de regresin, un analista de negocio ha encontrado que hay dependencias significativas entre las ventas totales de un producto y tanto en su precio como en la cantidad de DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 83 de287 Ing. Hugo Daniel Flores gastos de publicidad. Este conocimiento permite al negocio alcanzar el nivel deseado de las ventas por cambio del precio del producto y/o el gasto de publicidad.
Ejemplo 2:
Aplicando algoritmos de regla de asociacin a datos sobre accesorios de coche, una empresa de coches ha encontrado que en el 95 por ciento de casos, si un CD player es ordenado, una transmisin automtica es ordenada tambin.
Basado en esta dependencia, la empresa de coche decide ofrecer estos accesorios como un paquete, que conduce a la reduccin del costo.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 84 de287 Ing. Hugo Daniel Flores
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 85 de287 Ing. Hugo Daniel Flores 5. Descripcin y desarrollo de la industria.
5.1. La industria automotriz y el control de daos y/o averas
El nuevo orden internacional que comenz a gestarse en la dcada del 70 y que luego fue impulsado por la terminacin de la guerra fra y la oleada de internacionalizacin de las economas ha dado lugar a un nuevo paradigma en la divisin de trabajo. La especializacin del trabajo no se realiza solo a nivel empresa o regin sino a nivel mundial y puede involucrar tanto a regiones como a pases e inclusive a continentes.
Con el desarrollo de las tecnologas de las comunicaciones y los transportes desde hace dos dcadas se asiste a un nuevo sistema de produccin en la industria automotriz que se sostiene en base a la distribucin de la produccin de las diferentes marcas y modelos en masa al rededor del mundo.
Todas las compaas automotrices hoy en da no producen todos sus modelos en una sola regin o pas sino que las mismas realizan acuerdos multinacionales para producir determinados modelos en determinados lugares para luego intercambiarlos entre los diferentes puntos de produccin. De esta manera para asistir a cada mercado en cada regin se realizan los convenios internacionales de intercambio de unidades necesarios para satisfacer las demandas.
Este movimiento de intercambio de unidades entre las diferentes regiones del mundo ha llevado a esta industria a desarrollar un estricto control en el seguimiento e identificacin del estado de las mismas a lo largo de su recorrido. Como consecuencia inmediata de este traslado de los productos surge que los costos por movimiento, reparacin y puesta a punto de los automviles es mayor a los costos de produccin. Esto es, el costo por unidad producida es inferior al costo de la misma desde que sale de planta hasta que llega al cliente final.
Las unidades pueden ser movilizados por diferentes tipos de transportes: areos, martimos o terrestres (camiones o tren). El traslado de los autos puede ser con almacenamiento en contenedores o trincados independientemente uno de otro. Tambin son estoqueados/almacenados en diferentes playas o patios con el objeto de ser reparados o simplemente por cuestiones comerciales previas a la distribucin.
Las cantidades transportadas en masa varan desde unos pocos (7, 11 o 13 unidades por transportes terrestre, por ejemplo bateas) a cientos (por ejemplo por tren) o inclusive a miles de unidades (por ejemplo buques equipados segn normas internacionales para transportar desde cientos a miles de unidades).
Para el control y la verificacin del estado de cada unidad las diferentes empresas (marcas) han creado sus propios estndares de inspeccin o peritaje o verificacin. Cada unidad es inspeccionada segn los estndares impuesto por cada compaa en cada uno de los lugares por donde pasan o bien donde se estacionan.
El camino que recorre cada unidad desde que sale de planta hasta que llega a un cliente final es lo que se denomina en la industria como circuito logstico o cadena logstica. En cada circuito intervienen una o varias empresas denominadas operadoras logsticas. Cada operador logstico puede contratar (tercerizar) a otras empresas para el transporte de las unidades de punto a punto. Adems tambin es frecuente la tercerizacin en el desarrollo de las inspecciones o peritajes que es realizado normalmente en los lugares donde se produce el intercambio de responsabilidad de una DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 86 de287 Ing. Hugo Daniel Flores empresa a otra. As es que como ejemplos estndares de lugares o puntos de inspeccin se pueden nombrar:
controles a la bajada o subida de buque; controles dentro de los buques; controles a la entrada o salida de un puerto; controles dentro de los puertos (estiba); controles a la salida de una planta de produccin; controles a la entrada o salida de un patio / playa (stock) comercial o por reparacin; controles a la subida o bajada de bateas (camiones).
5.2. Circuitos logsticos
Los elementos que lo componen son los diferentes medios de transporte (podran ser llamados enlaces) y los puntos (podran ser denominados nodos) por donde transitan o se estacionan los autos. Tanto los transportes como los lugares por donde pasan pueden ser lugares de distintas compaas, transportes de distintas compaas e inclusive el traspaso de un trasporte a un lugar o a otro trasporte puede ser realizado por otra empresa.
La verificacin o control de una unidad en sus diferentes puntos se desarrolla en funcin de los estndares de cada empresa. Las empresas pueden ser certificadas segn normas internacionales o no, esto todava en esta industria es irrelevante para algunas compaas.
Ejemplo 1: Exportacin Argentina
Figura 1: Circuito exportacin
Ejemplo 2: Importacin Argentina
Figura 2: Circuito importacin DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 87 de287 Ing. Hugo Daniel Flores 5.3. Transportes y lugares de almacenamiento
Como se ha mencionado anteriormente cada transporte puede tener diferentes capacidades. Normalmente el transporte terrestre se realiza a travs de camiones o bateas. Pero tambin existe la posibilidad de ser realizado a travs de trenes para lo cual con frecuencia se utilizan contenedores para resguardar la estructura del auto.
Los transportes martimos son todava el medio de transporte ms rentable para este negocio. Todo buque o barcaza est equipada con la tecnologa y herramientas necesarias para transportar algunos miles de autos (hasta 4.000 unidades). Para el transporte de las unidades en el interior de un barco se realiza lo que en el medio se denomina trincado que consiste en amarrar desde diferentes puntos del auto (ruedas o parte de la estructura del auto) al piso del buque. De esta forma se evita el movimiento de los productos cuando el transporte es movilizado a travs de un ocano o ro.
El trasporte por va area es el menos frecuente por razones de costo. Pero al igual que con el transporte martimo las unidades pueden ir trincadas o bien tambin se suele utilizar contenedores.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 88 de287 Ing. Hugo Daniel Flores
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 89 de287 Ing. Hugo Daniel Flores 6. Procesos a analizar, lmites y alcance
6.1. Puntos de Control
Puntos de control y transporte
Para el desarrollo del presente proyecto se definirn y tomarn muestras de puntos y transportes estndares en la industria; esto es, se trabajar con muestras tomadas de inspecciones realizadas frecuentemente por cualquier marca.
A continuacin se describen los puntos de control que intervienen en este proyecto.
Despacho de planta de produccin
Inspecciones realizadas sobre todas las unidades que salen de planta de produccin y se dirigen por transporte terrestre (camiones) a patios o puertos. La imputabilidad de las observaciones notadas corresponde a planta de produccin (normalmente denominada origen o averas de calidad).
Ingreso a puerto
Procedente de diferentes lugares y trasladadas a travs de camiones. La responsabilidad es imputada a transporte terrestre.
Subida a buque
Luego de estadio en playa de puerto toda unidad es embarcada. Las inspecciones son realizadas previas a la entrada a rampa. La imputabilidad corresponde a patio de puerto.
Descarga de buque
Unidades inspeccionadas a la descarga de un barco. Los daos y/o averas son imputados a las empresas de transporte martimo.
Salida de puerto
Luego de una determinada cantidad de tiempo las unidades son despachadas de puerto con destinos diferentes. Las unidades son cargadas a camiones.
6.2. Estndares de inspeccin
Las observaciones realizadas son parametrizadas segn los estndares impuestos por las compaas que intervienen como operadoras logsticas.
Los daos y/o averas constan de tres partes claramente diferenciables: parte (rea), avera (tipo de dao) y gravedad (severidad):
Parte: o denominada frecuentemente rea, es un cdigo alfanumrico de dos dgitos que identifica una de las partes del auto. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 90 de287 Ing. Hugo Daniel Flores Avera: est compuesto por un cdigo alfanumrico de dos dgitos y es utilizado para definir el tipo de dao. Gravedad: o severidad compuesto por un cdigo alfanumrico definido para especificar la gravedad del dao o avera descubierto.
Un campo de observacin es tambin considerado como parte de la codificacin estndar. Sirve para realizar cualquier aclaracin sobre un dao que no se ha podido parametrizar directamente debido a la falta de los cdigos que lo pueden definir.
Algunos estndares incluyen un cuarto cdigo compuesto por tres o cuatro dgitos alfanumricos definidos para realizar una observacin referente a la avera y que sirve para especificar que la avera fue descubierta en un lugar dos o tres puntos antes de la inspeccin en ese CP (check point).
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 91 de287 Ing. Hugo Daniel Flores 7. Informacin y datos
7.1. Proceso de inspeccin y captura de datos
El proceso de inspeccin se realiza solo sobre las partes visibles de la unidad. El presente proyecto no incluye todas las fallas o desperfectos mecnicos del auto.
Cada perito o inspector aplica la norma estndar para observar y recorrer el vehculo en bsqueda de daos y/o averas. Las inspecciones sobre cada unidad pueden ser realizadas por uno o ms peritos. La cantidad de inspectores depende de los acuerdos realizados entre las empresas y de las verificaciones posteriores o anteriores que se realizan a cada unidad.
Los automviles transitan por las diferentes cadenas logsticas con la documentacin correspondiente. Esta documentacin incluye lo que se denomina VIN (Vehicle Identification Number) que es un cdigo alfanumrico de 17 o 18 dgitos.
El VIN tiene una estructura estndar en la industria y a partir de este se pueden conocer datos del vehculo como el origen, la marca, el modelo, el color, etc. Este nmero alfanumrico viene impreso en la documentacin en cdigo de barras.
La gran mayora de las marcas trabaja con el cdigo de barras denominado 128. Pero tambin se usan otras normas como la 3 de 9 o 3 de 6. Siempre el auto tiene impreso el VIN en cdigo de barras de 17 o 18 dgitos.
Del procedimiento de inspeccin realizado surge un cdigo de avera si es observada en la unidad. La misma, segn un proceso estndar, hoy en da, es cargada manualmente por cada perito. Luego esta informacin es almacenada en una base de datos la cual es alimentada diariamente por todas las inspecciones realizadas.
En algunos procesos de carga masiva de datos se utilizan colectores electrnicos de datos y en otros simplemente se transforma o procesa la informacin suministrada por la compaa interesada en verificar las unidades (entrega lo que se denomina parking list de vehculos). Los procesos de carga masiva se realizan en proceso batch o por radio frecuencia. Este ltimo va almacenando on line en la base de datos unidad por unidad inspeccionada.
7.2. Sistema normalizado de codificacin de daos y/o averas
Los datos cargados (los cuales son utilizados en este proyecto) son: VIN, parte, avera, gravedad, observacin y cdigo de clave (o cdigo que especifica el origen real de la avera).
7.3. Proceso de educcin de requerimientos del proyecto
Comprensin del dominio
El objetivo del negocio es determinar comportamientos en la ocurrencia de daos y/o averas. Ms detalles sobre la determinacin de los objetivos se encontrarn en el mdulo de Comprensin del Negocio de la metodologa CRISP-DM detallada ms adelante.
Los actores involucrados para la obtencin de los datos necesarios para el desarrollo del presente trabajo son: DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 92 de287 Ing. Hugo Daniel Flores Especialistas en consultora martima y peritajes navales Especialistas en inspeccin de unidades automotrices Especialistas en desarrollo de tecnologa para la captura de datos y desarrollo de base de datos para el almacenamiento de los mismos.
En referencia a los lmites del proyecto se puede hacer referencia al hecho de explotar la informacin almacenada en las base de datos desde el perodo 2002 a 2008. Se cuenta con dos cadenas logsticas de exportacin, dos cadenas logsticas de importacin y puntos de control de carga y descarga de autos en puertos de Argentina y Brasil.
Identificacin de necesidades
El objetivo del requisito es la bsqueda e identificacin de los diferentes tipos de averas y/o daos en las unidades. Esta necesidad surge de las compaas que intervienen en el proceso como consecuencia del movimiento fluido de unidades de lugar en lugar. Es necesario tambin por cuestiones operacionales debido a que en toda la cadena de suministro es necesario poder establecer los recursos consumidos para el movimiento de las unidades.
Con la posibilidad de asignar recursos es posible establecer los costos que demandar el sistema logstico. Con el establecimiento de los patrones buscado es posible para cada parte interesada poder presupuestar en funcin de las cantidades movilizadas los costos por reparacin de los daos.
El equipamiento de los sistemas de transporte es otro tem a cubrir como consecuencia del descubrimiento de patrones de produccin de daos y averas. Todo proveedor de servicio de transporte debe cumplir con determinadas condiciones para asegurar la conduccin segura de las unidades.
El origen de la informacin para este proyecto se encuentra en bases de datos normalizadas. Las mismas son alimentadas diariamente por personal capacitado y experto en la identificacin de daos. Se cuenta con equipamiento electrnico para la captura automtica de datos por lo que la posibilidad de errores en la informacin es mnima.
Del mismo modo la consistencia de la informacin es controlada diariamente tanto por el personal responsable directamente de la misma como de los clientes que acceden para verificar el estado de las unidades movilizadas a los largo de los circuitos y/o en los diferentes puntos de control.
Para la realizacin de la bsqueda de la informacin se cuenta con informacin detallada de:
Cantidad de unidades transportadas Lugares por donde pasan las unidades Trasportes, tipos y compaas Partes averiadas Tipos de averas Severidad de averas Responsables de averas
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 93 de287 Ing. Hugo Daniel Flores Identificacin de riesgos y contingencias
Al momento de desarrollar el presente proyecto no se detectan riesgos para su desarrollo y por lo tanto no es necesario definir planes de contingencia. Se cuenta con la informacin electrnicamente tomada y con el personal capacitado para el anlisis de la informacin.
El hecho de no ver en este momento del proyecto riesgos potenciales no significa que no existan puesto que al tratarse especficamente de una minera de datos (definida como el intento por descubrir informacin oculta en los datos) es probable que los resultados obtenidos coincidan con trabajos relacionados por empresas privadas con el objetivo de reducir o presupuestar costos. En funcin de esto ltimo se puede describir como plan de contingencia ante este probable riesgo el desarrollo de un informe parametrizado con datos precisos y/o la valorizacin de los patrones de daos y/o averas detectadas.
Evaluacin de herramientas de explotacin de informacin
Por cuestiones de ndole prctico y a los efectos de llevar acabo el presente trabajo de tesis de maestra se utilizan herramientas de explotacin de datos suministradas por los Directores de Tesis, las mismas son:
Software para Construccin de rboles de Decisin utilizando un Modelo de Clasificacin. Software para Agrupamiento usando Mapas Autoorganizados. Software para Construccin de Modelos de Prediccin.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 94 de287 Ing. Hugo Daniel Flores
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 95 de287 Ing. Hugo Daniel Flores 8. Aplicacin de la metodologa propuesta.
8.1. Comprensin del Negocio
8.1.1. Objetivos del negocio
El objetivo del negocio es determinar comportamientos en la ocurrencia de daos y/o averas. De esto ltimo tambin se puede inferir que es de utilidad para la toma de decisiones el poder determinar o definir los lugares donde se producen los daos y las imputaciones de las mismas.
Descubrir donde se producen los siniestro conduce a la definicin de polticas para la prevencin de las fallas en el sistema. De esto ltimo surgen las medidas correctivas a llevar a cabo.
Los objetivos pueden ser resumidos en:
Identificar daos y/o averas. Determinar responsabilidad de siniestralidad en funcin del tipo de avera y tipo de transporte. Imputar incidentes segn el tipo de transporte. Determinar tipos de averas y/o daos. Determinar partes averiadas y/o daadas que muestren algn tipo de comportamiento. Especificar gravedad de daos y/o averas. Especificar lugares donde se producen daos y/o averas tratando de definir patrones de comportamiento. Especificar estadsticamente: tipos de transporte que producen daos y/o averas como as tambin, partes, tipos de averas, gravedades, lugares donde se producen. Descubrir informacin oculta en funcin de los modelos generados a partir de los datos disponibles.
Contexto actual
En referencia a la situacin global del negocio se puede decir que toda la informacin necesaria para la explotacin de datos se encuentra disponible electrnicamente pero en forma dispersa. Esto es, cada organizacin que interviene en cada circuito logstico tiene su propia sistema de anlisis de daos y/o averas e inclusive los estndares con los cuales se parametriza la informacin es distinta una de otra.
No hay en el medio un estudio en profundidad sobre el comportamiento de los estados por los que atraviesa una unidad automotriz en referencia al estudio de daos, averas, responsables e imputaciones.
Departamentos involucrados en cada compaa
Los departamentos involucrados en el desarrollo en el control y seguimiento de unidades automotrices de los cuales surge la informacin y hacia los cuales est destinado el resultado del proyecto son:
Departamento de calidad Departamento de ventas DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 96 de287 Ing. Hugo Daniel Flores Departamento de operaciones Departamento de sistemas Departamento de logstica y distribucin
rea del problema
La produccin de daos y averas es prcticamente inevitable debido al movimiento de las unidades y al traspaso de empresa a empresa y de medio a medio de trasporte. Del mismo modo es vital para la industria la especificacin y determinacin clara de las responsabilidades por cada siniestro. De lo afinado que se encuentre el sistema depende el abastecimiento de unidades a los mercados objetivos.
La minera de datos debe ser promovida en esta actividad debido a que no existen registros documentados de comportamientos estndares en la produccin de siniestros. Todo lo relacionado con cantidades tanto de produccin, como exportacin o importacin estn claramente detalladas tanto para las compaas que intervienen en la industria como en los organismos gubernamentales y no gubernamentales.
Todo anlisis de siniestros y especificacin de tiempos de abastecimiento y reparacin de unidades se realiza individualmente y en forma reactiva.
Solucin actual
Actualmente se recurre a las consultas manuales (por ejemplo SQL) para obtener los datos necesarios para tener conocimiento de la situacin de las unidades. En el caso de que haya discrepancias en cuanto a las responsabilidades o imputabilidad de daos y/o averas se realiza un cruce de informacin entre las compaas que intervienen la operatoria logstica.
Objetivo primario de negocio
El objetivo primario de negocio para el presente proyecto es la posibilidad de detectar el comportamiento de los daos y/o averas que se producen en las unidades automotrices 0 kilmetro a lo largo de su circuito logstico.
Actividades
Cumplir con los objetivos propuestos por la aplicacin de la metodologa de explotacin de datos dar respuesta a las siguientes preguntas:
Cules son las partes de los vehculos con mayor y menor incidencia de daos? Cules son los tipos de daos de mayor y menor frecuencia? Qu gravedad tienen frecuentemente las averas producidas? Cules son la mayor y menor cantidad de partes faltantes? Cules son los lugares donde se producen la mayor y menor cantidad de daos? Cules son los trasportes que provocan la mayor y menor cantidad de daos? Qu marcas y modelos son daados con mayor y menor frecuencia? Cules son las mayores y menores combinaciones de partes y averas producidas? Cules son los mayores y menores combinaciones de partes y faltantes producidos? DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 97 de287 Ing. Hugo Daniel Flores Cules son las mayores y menores combinaciones de partes, averas y gravedades producidas? Cules son los periodos de mayor flujo de exportacin e importacin de unidades va martima? Cules son los porcentajes de siniestralidad producidas por cantidad de unidades movilizadas? Cules son los porcentajes de ms de una averas en las unidades automotrices? Cules son los porcentajes de unidades daadas por cantidad de unidades inspeccionadas?
Criterios de xito
Desde el punto de vista del negocio se establece como criterio de xito el poder:
Especificar daos y/o averas; cantidades, tipos y severidad. Establecer responsabilidades especficas. Especificar tipos de transportes que producen las averas y tipos de avera. Establecer claramente averas y tipos de averas. Definir comportamientos de averas y daos. Especificar lugares de produccin de daos. Definir estadsticamente tipos de transportes, partes, tipos de averas, gravedades e imputabilidad de daos y/o averas.
El criterio de xito del proyecto estar definido por personal experto en el desarrollo de las actividades de inspeccin, captura de datos, anlisis de informacin y tecnologa con experiencia comprobable en el negocio.
Expertos en el proceso operativo y tecnolgico llevarn adelante todo el proceso de establecimiento de criterio de xito del proyecto.
8.1.2. Evaluacin de la situacin
Situacin
Se cuenta con informacin detallada de las operaciones vinculadas a las inspecciones de unidades automotrices desde 2002 a la fecha. Todas las bases de informacin se encuentran normalizadas y con la documentacin vinculada a las mismas.
Actualmente las bases de datos se encuentran en lnea y funcionando bajo un desarrollo Web. Est estn siendo utilizadas y alimentadas diariamente.
Recursos de software
Se cuenta con los siguientes sistemas:
Servidor de base de datos. Software para la Construccin de un rbol de Decisin utilizando un Modelo de Clasificacin. Software para Agrupamiento usando Mapas Autoorganizados. Software para la Construccin de un Modelo de Prediccin. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 98 de287 Ing. Hugo Daniel Flores Recursos de hardware
Estn a disposicin los siguientes sistemas de hardware:
Equipamiento para la produccin y almacenamiento de la base de datos, y el entrenamiento de los modelos: 1. CPU Microprocesador Intel Core 2, 1.7 GHz, 512 MB RAM, 60 GB HD. 2. CPU Microprocesador Intel Pentium 4, 1.7 GHz, 640 MB RAM, 80 GB HD. 3. Monitor 17. 4. Monitores 17. 5. Impresora Lser. Servidor de base de datos local instalado para el resguardo de las base de informacin en lnea. 1. Servidor Microprocesador Intel Pentium , 3 GHz, 1 GB RAM, 160 GB HD. 2. Servidor Microprocesador Intel Pentium , Dual, 1.8 GHz, 1.5 GB RAM, 320GB HD. 3. Monitor 15. Acceso irrestricto a las base de datos en lnea y publicadas por Web. Sistema de banda ancha 3 MB conectado directamente a los servicios publicados en produccin.
Adems se cuenta con personal experimentado en inspecciones a los cuales se puede acceder para realizar las consultas necesarias para aclarar cualquier inquietud.
Fuentes de datos y conocimiento
Se cuenta con la siguiente informacin:
Base de datos con informacin vinculada a los movimientos de importacin y exportacin de vehculos (dos marcas del mercado argentino con destino y origen Brasil y Francia, ao 2002 a 2008). Base de datos con informacin vinculada a los movimientos de exportacin de vehculos (dos marcas del mercado brasileo con destino Argentina, ao 2002 a 2008). Base de datos con informacin de empresa de transporte martimo referida a los movimientos de unidades de importacin y exportacin de autos (varias marcas del mercado argentino con destino y origen de diferentes pases, ao 2006 a 2008). Base de datos con unidades de importacin y exportacin de empresa de transporte martimo (varias marcas del mercado brasileo con destino y origen de diferentes pases, ao 2004 a 2008). Base de datos con informacin de movimientos de autos de una empresa de transporte terrestre (una marca del mercado argentino ao 2004).
Fuentes de personal
Se cuenta con personal experto en inspecciones y con acceso a los mismos si restricciones de tiempo.
Hay contacto directo y permanente con los administradores de sistemas, de personal y de soporte tcnico.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 99 de287 Ing. Hugo Daniel Flores El proyecto cuenta con el apoyo tcnico operativo y tecnolgico en todo momento. Se tiene acceso inclusive a lugares donde se genera la informacin y se realiza su almacenamiento.
Requerimientos, presunciones, y restricciones
Los datos pueden ser usados transformando toda informacin relacionada directamente con: Marcas de vehculos. Modelos de vehculos. Nombres de buques y compaas martimas. Nmeros de batea y nombre de compaas de transporte terrestre. Nombres de todas las empresas vinculadas a las operaciones en cualquier punto de control.
Para el uso de la informacin se proceder a desarrollar un sistema de codificacin alfanumrica para evitar inconvenientes legales.
La validez de los resultados obtenidos puede ser verificada directamente consultando sobre las bases de datos.
Terminologa
Ver Anexo 1: Glosario de terminologa relevante de negocio.
Ver Anexo 2: Glosario de terminologa de minera de datos.
8.1.3. Objetivos de minera de datos
Los objetivos en trminos de minera de datos son:
Determinar el comportamiento de partes de vehculos con mayor y menor incidencia de daos. Determinar el comportamiento de tipos de daos de mayor y menor frecuencia. Determinar el comportamiento de gravedades que tienen frecuentemente las averas producidas. Especificar el comportamiento de partes faltantes con mayor y menor incidencia. Determinar lugares donde se producen la mayor y menor cantidad de daos. Especificar el comportamiento que provoca la mayor y menor cantidad de daos segn los tipos de transporte. Definir el comportamiento de marcas y modelos daados con mayor y menor frecuencia. Definir el comportamiento de las mayores y menores combinaciones de partes y averas producidas. Definir el comportamiento de las mayores y menores combinaciones de partes y faltantes producidos. Determinar el comportamiento de las mayores y menores combinaciones de partes, averas y gravedades producidas. Determinar el comportamiento de los flujos de exportacin e importacin de unidades va martima. Determinar el comportamiento de siniestralidad producidas por cantidad de unidades movilizadas. Determinar el comportamiento de ms de una avera en las unidades automotrices. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 100 de287 Ing. Hugo Daniel Flores Definir el comportamiento de unidades daadas por cantidad de unidades inspeccionadas.
Actividades
Clasificacin: Por ao 2003, 2004, 2005, 2006, 2007, 2008.
Mes de operacin Mes de produccin Puntos de control Empresa de transporte martimo Empresa de almacenamiento Empresa de produccin de autos Nmero de batea Modelo de vehculos Parte de vehculos Tipo de averas Gravedad
Agrupamiento: Por ao 2003, 2004, 2005, 2006, 2007, 2008.
Mes de operacin Mes de produccin Puntos de control Empresa de transporte martimo Empresa de almacenamiento Empresa de produccin de autos Nmero de batea Modelo de vehculos Parte de vehculos Tipo de averas Gravedad
Prediccin: Por ao 2003, 2004, 2005, 2006, 2007, 2008.
Mes de operacin Mes de produccin Puntos de control Empresa de transporte martimo Empresa de almacenamiento Empresa de produccin de autos Nmero de batea Modelo de vehculos Parte de vehculos Tipo de averas Gravedad
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 101 de287 Ing. Hugo Daniel Flores Criterios de xitos de la minera de datos
Los resultados sern evaluados y controlados contra consultas SQL directas sobre la base de datos.
En funcin de las muestras de consultas manuales a cada base de datos se establecern los criterios de xitos de cada resultado.
Para cada resultado se especificar un patrn manual de consulta.
8.1.4. Produccin del plan del proyecto
Plan de proyecto
Se tomarn muestras de las bases de datos en produccin segn los puntos descritos en los tems del presente proyecto vistos anteriormente.
A cada una de las muestras tomadas se analizar el contenido y se realizarn trabajos de normalizacin de informacin y adaptacin para su mejor interpretacin.
En forma paralela se ir describiendo en detalle en diccionario de terminologa de negocio (Anexo 1) todo el vocabulario usado en la industria.
Etapa 1: Anlisis de la estructura de datos e informacin de las bases de datos en produccin. Tiempo estimado 3 semanas.
Etapa 2: Ejecucin de consultas para la captura de muestras representativas para lograr los objetivos del proyecto. Tiempo estimado 1 semana.
Etapa 3: Conversin y normalizacin de datos segn estructura requerida por los sistemas donde los datos ser procesados. Tiempo estimado 3 semanas.
Etapa 4: Ejecucin de los procesos de explotacin de datos sobre toda la informacin obtenida y parametrizada. Tiempo estimado 1 semana.
Etapa 5: Anlisis de los resultados obtenidos en funcin de los procesos ejecutados en el punto anterior. Tiempo estimado 2 semanas.
Etapa 6: Segn los resultados obtenidos se proceder a ejecutar nuevamente los procesos de explotacin de datos. Tiempo estimado 1 semana.
Etapa 7: Desarrollo de reportes en funcin de los resultados obtenidos y considerando los objetivos de negocios del presente proyecto. Tiempo estimado 1 semana.
Etapa 8: Anlisis y desarrollo de las conclusiones obtenidas segn los resultados de cada proceso. Tiempo estimado 2 semanas.
Etapa 9: Desarrollo de presentacin de los resultados obtenidos a los participantes del proyecto. Tiempo estimado 1 semana.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 102 de287 Ing. Hugo Daniel Flores Nota: Durante cada una de las etapas del proyecto se ir desarrollando en paralelo el diccionario de terminologa de negocio (Anexo 1) y de minera de datos (Anexo 2).
Evaluacin inicial de herramientas y tcnicas
Construccin de rboles basado en modelo de clasificacin.
Los rboles de clasificacin, o tambin llamados modelos basados en rboles, se fundamentan en el principio de divide y vencers, construyendo un rbol que en cada nodo establece unas condiciones sobre un atributo, dividiendo as el conjunto de casos en subconjuntos que cumplen cada condicin. Los subconjuntos se vuelven a dividir aadiendo nuevos niveles al rbol hasta detenerse mediante algn criterio.
Agrupamiento usando mapas autoorganizados
Tcnicas que agrupan los datos en funcin de una distancia sin utilizar ningn tipo de informacin externa para organizar los grupos.
Clustering no supervisado. Conjunto de tcnicas que agrupan los datos en funcin de una distancia sin utilizar ningn tipo de informacin externa para organizar los grupos. Dependiendo de la forma en la que los datos son agrupados, podemos distinguir dos tipos de clustering:
J errquico: El clustering jerrquico aglomeratico es un mtodo determinista basado en una matriz de distancias. Establece pequeos grupos de genes/condiciones que tienen un patrn de expresin comn y posteriormente construye un dendograma (representacin grafica de un grupo de relaciones basadas en la cercana o similitud entre los datos) de forma secuencial. El rbol o dendograma, establece una relacin ordenada de los grupos previamente definidos y la longitud de sus ramas es una representacin de la distancia entre los distintos nodos del mismo. En el desarrollo del clustering jerrquico se han utilizado diferentes algoritmos (UPGMA, Ward, etc.) aunque todos siguen la misma estrategia en general: separan cada gen en un nodo diferente, calculan la distancia entre los dos genes ms prximos y los juntan en un cluster. Entonces se vuelve a calcular la matriz de distancias sustituyendo los dos patrones que se han unido por el promedio de ambos. En cada paso, los algoritmos son capaces de juntar los genes no solo de dos en dos sino muchos ms a la vez. Muchos de ellos simplemente se diferencian en la forma en la que calculan la distancia del nuevo cluster formado al resto de los elementos de la matriz, y en este sentido, la aproximacin del Average linkage (algoritmo que opera agrupando iterativamente los genes o clusters que presentan la distancia media mas pequea en cada paso sucesivo del calculo de la matriz de distancias) es la mas utilizada.
Por otro lado existe el clustering jerrquico divisivo que es similar al anterior pero agrupa los genes de forma inversa. Mientras que el clustering aglomerativo separa inicialmente todos los genes y posteriormente los va agrupando para construir clusters ms grandes, el clustering divisivo agrupa inicialmente todos los genes en un nico cluster y sucesivamente los va separando hasta que cada uno se encuentre aislado como una entidad. Es decir, el mtodo divisivo va identificando aquellos genes con un patrn ms diferente para separarlos en el espacio lo ms posible. Este es el caso de SOTA (Self-Organizing Tree Algorithm). A pesar de que no esta exento de problemas, el clustering es una herramienta poderosa para la reduccin de los datos obtenido de microarrays y para el estudio de posibles hiptesis que DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 103 de287 Ing. Hugo Daniel Flores relacionan los clusters de genes obtenidos con el fenotipo. Sin embargo, este tipo de relaciones deben ser formalmente validadas por otros experimentos adicionales.
No jerrquico: En este caso los algoritmos comienzan a calcular la matriz de distancias a partir de un numero predefinido de clusters y van recolocando de forma iterativa los genes en los diferentes grupos hasta minimizar la dispersin interna de cada cluster. Los dos algoritmos ms representativos de este tipo de clustering son:
1. K-Medias: es un algoritmo que comienza con una muestra de k genes elegidos al azar de la matriz original de datos. Cada uno de ellos se utiliza como el centroide inicial de los k clusters que se van a formar. La matriz de distancias se calcula desde dicho centroide hasta cada uno de los genes de la matriz de datos y cada uno de ellos ser asignado de esta forma al centroide ms cercano. Entonces la matriz de distancias se recalcula reemplazando cada centroide por la media de los genes asignados a l y el algoritmo repite entonces el proceso anterior. El mapa de clusters que ofrece este algoritmo carece de topologa.
2. SOM: los mapas auto-organizados (Self-Organising Maps) son redes neuronales. El algoritmo permite, de forma iterativa, que los patrones mas parecidos se vayan juntando entre si y alejndose de aquellos otros que son mas diferentes. Este tipo de algoritmos son ms fiables y robustos puesto que se basan en redes neuronales que por definicin son capaces de trabajar con grandes cantidades de datos con ruido. Sin embargo, no carece de ciertos inconvenientes. SOM es una herramienta particularmente til en el tratamiento de datos procedentes de series temporales.
El gran problema que presentan estos mtodos no jerrquicos es que al no generar un dendograma no permiten hacerse una idea de la representacin espacial de los genes, la cual suele ofrecer un conocimiento intuitivo de cmo analizar los datos de microarrays.
Clustering supervisado: se basa en la idea de que para la clasificacin de la mayora de muestras biolgicas ya existe informacin preliminar que puede utilizarse para agrupacin de nuevos datos en clusters. Los mtodos supervisados aprenden de esta informacin previa, generalmente ofrecida por un conjunto de datos de entrenamiento, la forma en que deben clasificar los nuevos datos (genes o condiciones) que se les presentan.
SVM (Supported Vector Machines): es una tcnica lineal que utiliza hiperplanos para separar los datos en el espacio como puntos negativos o positivos. Los datos de estudio son clasificados respecto de otro conjunto de datos previamente conocido.
Preceptrones: estn basados en redes neuronales. Tienen algunas ventajas sobre las SVM como por ejemplo la capacidad de clasificar muchas muestras al mismo tiempo y discriminar entre varias clases diferentes.
Construccin de un modelo de prediccin
Otro tipo de problema importante que ocurre en una amplia gama de usos es la prediccin. La prediccin es muy similar a la clasificacin.
La nica diferencia es que en la prediccin el atributo objetivo (la clase) no es un atributo cualitativo discreto, sino es uno continuo. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 104 de287 Ing. Hugo Daniel Flores El objetivo de la prediccin esta en encontrar el valor numrico del atributo objetivo para objetos no vistos. En la literatura, este tipo de problema es a veces llamado regresin. Si la prediccin trata con datos de serie tiempo, entonces a menudo lo llaman pronosticacin. 8.2. Comprensin de Datos
8.2.1. Recoleccin de datos iniciales
8.2.1.1. Informe de la recoleccin de datos inicial
Identificacin de autos Cada unidad automotriz se identifica con un nmero el cual se especfica en cada uno de los registros que componen el presente trabajo. Toda unidad est relacionada con una avera la cual es producida en un determinado lugar, por una determinada empresa responsable.
Modelos Los datos relacionados con el nombre real del modelo son reemplazados por cdigos numricos los cuales son extrados directamente de cada consulta a la base de datos.
Lugares Los diferentes tipos de lugares estn codificados. Los lugares estn relacionados con los sitios donde las unidades son estacionadas transitoriamente.
Tipos de transporte Los transportes tambin estn codificados por un nmero y los mismos son de diferente tipo. Esta informacin es referida a los transportes y tipos de transporte que trasladan los vehculos de un sitio a otro.
Empresas Cada empresa responsable por un siniestro es extrada con un cdigo numrico. Todo sitio o transporte estn vinculados a una empresa.
Partes Cada parte de una unidad automotriz es identificada con un nmero que usualmente est compuesto por dos dgitos alfanumricos. Cada nmero representa una parte de un auto.
Averas Cada tipo de avera de cada siniestro est representado por un nmero. Normalmente es un cdigo compuesto por dos dgitos alfanumricos.
Gravedades Los diferentes niveles de avera son tambin extrados con un nmero. Representan la severidad que tiene una avera en una determinada parte del auto.
Observacin Tambin referida a cada avera y tiene como objetivo el describir un dao que no puede ser codificado en funcin del estndar de inspeccin especificado. Es un campo alfanumrico de N cantidad de caracteres.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 105 de287 Ing. Hugo Daniel Flores Fechas Las fechas son extradas en formato numrico con el formato aaaammdd: 4 caracteres numricos correspondientes al ao, 2 al mes y 2 al da.
Requerimientos de informacin
La informacin necesaria para el logro de los objetivos del proyecto son los descritos en el tem anterior y lo mismos se encuentran disponibles en las bases de datos.
Criterio de seleccin de los datos
Los atributos especficos necesarios para la minera de datos son:
Identificador de autos Fecha de operacin en la que se detecta el dao Modelo de cada unidad Lugar Parte del auto donde se produce la avera Tipo de avera producida en cada unidad Severidad o gravedad de avera producida Observaciones por cada unidad
Los datos se extraern segn la fecha de operacin en la que se ha detectado cada avera. Los periodos establecidos para realizar las particiones de datos extrados es anual des el ao 2003 hasta el ao 2008.
Todos los datos son extrados de un sistema estndar como lo es el SQL Server. La estructura de cada base de datos esta normalizada.
Insercin y transformacin de datos
Los datos que contienen solo descripciones compuestas por caracteres alfanumricos son los relacionados con las observaciones. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 106 de287 Ing. Hugo Daniel Flores En cuanto a la transformacin de datos se encuentra la necesidad de codificar los datos de modelos debido a que los mismos se encuentran (en dos de las marcas incluidas en el presente proyecto) en formato de caracteres. Para cada una de las consultas realizadas en la generacin del cdigo seleccionador se procede a la transformacin automtica de los modelos en cdigos numricos.
8.2.2. Descripcin de datos
En lineamientos generales todos los datos extrados estn codificados numricamente por lo tanto la necesidad de manipulacin de los mismos es mnima a la hora de llevarlos a los modelos a utilizar en el proyecto.
Los tipos de datos extrados son:
Identificador de autos: numrico Fecha de operacin en la que se detecta el dao: numrico Modelo de cada unidad: numrico Lugar: numrico Parte del auto donde se produce la avera: numrico Tipo de avera producida en cada unidad: numrico Severidad o gravedad de avera producida: numrico Observaciones por cada unidad: alfanumrico
Anlisis volumtrico de datos
Datos y mtodos de captura
Los datos son extrados realizando consultas con tecnologa SQL. Luego la informacin estructurada es almacenada en planillas de clculo y posteriormente se cargan en los modelos para ser analizados.
Si es necesario algn tipo de transformacin para cada grupo de datos capturado el proceso para transformar los mismos se realiza con sentencias SQL.
La disponibilidad de datos es 100 % accesible.
Fuentes de datos
Como lo mencionado en prrafos anteriores la fuente de datos se obtiene por en lnea desde los sistemas en produccin las cuales son alimentadas diariamente.
Tablas y relaciones
Autos Operaciones: Estas tablas se relacionan para identificar las operaciones que son realizadas diariamente y la cantidad de unidades que contienen las mismas.
Daos Autos Operaciones: Esta relacin permite al sistema relacionar las averas tomadas a cada auto y para una operacin especifica.
Daos Partes: Relacionadas para obtener los cdigos y la descripcin con la que se identifica cada parte en un dao determinado. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 107 de287 Ing. Hugo Daniel Flores Daos Averas: Estas tablas estn relacionadas para obtener los cdigos y descripcin de los diferentes tipos de averas contenidos en un dao.
Daos Gravedades: Relacionadas para detallar los cdigos y la descripcin de cada nivel de gravedad para un dao especfico.
Operaciones Buques: Desde all se obtienen los datos vinculados a los buques que forman parte de una operacin determinada si la misma es realizada en puerto tanto a la bajada como a la subida de los autos a cada navo.
Operaciones Compaas: Relacionadas para obtener informacin vinculada a las empresas responsables por los daos u observaciones realizadas para cada unidad automotriz.
Operaciones Puntos de control: Toda operacin est vinculada a un lugar especfico en la cadena. Esta relacin permite al sistema obtener informacin detallada de lugar donde se realiz la inspeccin del auto.
Operaciones Imputaciones: Estas tablas estn relacionadas para poder saber cuales es el tipo de transporte o bien el tipo de lugar donde se produce una determinada avera.
8.2.3. Exploracin de datos
rboles de Decisin con Modelo de Clasificacin.
El algoritmo de construccin de rboles de decisin trabaja sobre la cantidad de registros tomadas sin especificacin de cantidad mxima y el objetivo inicial es el descubrimiento de patrones para el comportamiento de las averas en lugares, tipos de transporte, modelos y marcas. El procesamiento de datos se realiza segn los periodos definidos.
Agrupamiento con Mapas Autoorganizados.
El agrupamiento de informacin se realiza con 5000 registros como mximo y se toman matrices de 3 x 3, 4 x 4, y 10 x 10. Del mismo modo que en el algoritmo anterior el proceso de la informacin se realiza en funcin de los periodos establecidos. Los agrupamientos se realizan sobre modelos, lugares, partes, averas y severidades.
Modelos de Prediccin.
La construccin de los modelos de prediccin se desarrolla sobre 2000 registros como cantidad mxima. Se procesan corridas para el anlisis de datos de partes, averas, lugares, modelos, severidades y marcas. Con esta informacin se puede obtener el comportamiento de las averas en relacin a determinadas partes, lugares, y tipos de transporte. En este caso tambin los registros son procesados segn los periodos establecidos.
Informe de exploracin de datos
Se realiza la exploracin de datos sobre informacin extrada desde el ao 2003 al 2008. Los primeros resultados van a mostrar informacin estadstica y principalmente sirve para determinar la consistencia y completitud de datos.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 108 de287 Ing. Hugo Daniel Flores Tambin en esta etapa se va ha poder ver la necesidad de extraer de la base de datos atributos que posiblemente fueron omitidos y los cuales a partir de esta primera exploracin se pueden vislumbrar.
De la exploracin inicial de toda la informacin disponible para el presente estudio se define la divisin de los periodos de procesamiento de datos de la siguiente forma:
Muestra 1: Ao 2003, 16 modelos.
Muestra 2: Primer semestre ao 2004, 11 modelos.
Muestra 3: Segundo semestre ao 2004, 13 modelos.
Muestra 4: Primer semestre ao 2005, 19 modelos.
Muestra 5: Segundo semestre ao 2005, 18 modelos.
Muestra 6: Primer semestre ao 2006, 18 modelos.
Muestra 7: Segundo semestre ao 2006, 22 modelos.
Muestra 8: Primer semestre ao 2007, 20 modelos.
Muestra 9: Segundo semestre ao 2007, 22 modelos.
Muestra 10: Primer semestre ao 2008, 22 modelos.
Para cada uno de los periodos establecidos el estudio comprende los siguientes lugares:
Importacin: salida de planta de origen, subida a buque puerto de origen, bajada de buque puerto de destino, salida de puerto de destino. Exportacin: salida de planta, ingreso a puerto, subida a buque.
En referencia a las empresas y tipos de transporte por cada lugar se encuentran:
Para concluir con el presente informe de exploracin de datos se detallan las diferentes cantidades de datos a analizar y los grficos donde corresponden.
Cantidad total de registros explotar: 50246 Cantidad total de modelos que intervienen: 22 Cantidad de partes de autos: 99 Cantidad de tipos de averas: 11
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 109 de287 Ing. Hugo Daniel Flores En los grfico siguientes se muestran resultados de la exploracin de datos inicial sobre al totalidad de la informacin con la que se desarrolla el presente proyecto. Los grficos muestran la informacin den dibujo de barras y de tortas para una mejor interpretacin de los resultados.
El Grfico 1 muestra las cantidades de unidades producidas en funcin de los lugares donde se producen y del recorrido que realizan. 2390 22075 5070 1544 0 5000 10000 15000 20000 25000 Retiro Fbrica de Origen Subida Buque Puerto de Origen Bajada de Buque Retiro de Puerto
Grfico 1: Cantidad de averas por lugar (Importacin de vehculos)
En el Grfico 2 se muestran las mismas cantidades del grfico 1 en dibujo de tortas. All tambin se puede observar el porcentaje de averas en funcin de los lugares en un circuito comn de importacin de vehculos. Retiro Fbrica de Origen; 2390; 8% Subida Buque Puerto de Origen; 22075; 71% Bajada de Buque; 5070; 16% Retiro de Puerto; 1544; 5%
Grfico 2: Cantidad de averas por lugar, cantidades y porcentajes (Importacin de vehculos)
El Grfico 3 permite ver las cantidades por lugares de deteccin de averas en un circuito estndar de exportacin de autos. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 110 de287 Ing. Hugo Daniel Flores 10137 6647 2383 0 2000 4000 6000 8000 10000 12000 Transferencia ubicacin y lnea de carga Ingreso a Puerto Subida a Buque
Grfico 3: Cantidad de averas por lugar (Exportacin de vehculos)
El Grfico 4 detalla las cantidades de averas en funcin de los lugares y permite ver los porcentajes y cantidades en un circuito estndar de exportacin. Transferenciaubicacin y lneadecarga; 10137; 53% Ingreso aPuerto; 6647; 35% SubidaaBuque; 2383; 12%
Grfico 4: Cantidad de averas por lugar, cantidades y porcentajes (Exportacin de vehculos)
El Grfico 5 muestra los 10 modelos de vehculos con mayor cantidad de daados. 17 20 9 5 7 13 8 18 6 5 14060 11890 9129 4814 3734 2612 1577 798 434 253 0 2000 4000 6000 8000 10000 12000 14000 16000 1 2 3 4 5 6 7 8 9 10
Grfico 5: Los 10 modelos con mayor cantidad de averas
El Grfico 6 permite ver los 10 modelos con mayor cantidad de averas especificando cantidades y porcentajes del total tomado como referencia. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Grfico 6: Los 10 modelos con mayor cantidad de averas, porcentajes y cantidades
El Grfico 7 muestra las 10 partes de vehculos daadas ms frecuentemente. Solo se toman ests 10 reas para tener referencia y como consecuencia de la primera exploracin de datos. 4403 4401 4286 3926 3568 3029 1975 1906 1744 1296 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Puertadelantera Derecha Paragolpe trasero / Spoiler trasero Puertadelantera izquierda Puertatrasera izquierda Paragolpe delantero / Protector delantero Puertatrasera Derecha Manual Otros Spoiler delantero Llantadelantera izquierda
Grfico 7: Las 10 partes con mayor incidencia de averas
Concluyendo con la exploracin de datos se muestra a continuacin el Grfico 8 con las 10 averas producidas en los vehculos con mayor frecuencia. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Grfico 8: Las 10 partes con mayor incidencia de averas
8.2.4. Verificacin de la calidad de datos
En funcin de la exploracin inicial de datos se concluye que estos son completos. Los datos cubren los casos requeridos para la obtencin de los resultados necesarios para el logro de los objetivos del presente proyecto.
Los datos provienen del mismo sistema de base datos el cual no contiene errores, con excepcin de los errores gramaticales en los campos que permiten el ingreso de texto, pero esos campos no son requeridos para el presente proyecto.
En referencia a los valores omitidos hasta este punto ellos no fueron encontrados. Del mismo modo hasta este temes del proyecto no se present la necesidad de excluir datos.
8.3. Preparacin de Datos
8.3.1. Datos seleccionados
Los datos seleccionados para el anlisis son los siguientes:
Nmero de chasis: tipo entero. Modelo: tipo entero. Fecha: tipo entero, formado ao (4 dgitos), mes (2 dgitos) y da (2 dgitos). Lugar: tipo entero. Parte: tipo entero. Tipo Avera: tipo entero. Gravedad: tipo entero. Observacin: tipo carcter.
El volumen de datos a explotar vara en funcin del software a utilizar, esto es:
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 113 de287 Ing. Hugo Daniel Flores Modelo de Clasificacin: El software no tiene lmite especificado por lo que los datos a extraer para el anlisis depende exclusivamente del contenido en la base de datos en la divisin de perodos establecidos.
Modelo de Clustering: El lmite del software es 5000 registros. Si el grupo de datos tomados en cada periodo supera la restriccin establecida por el software se procede a tomar el grupo de valor fecha ms bajo. Esto es, se toma la primera parte de los registros del periodo.
Modelo de Prediccin: El lmite del software es de 2000 registros. En el caso de superar las cantidades de datos restringidas por el software se toma como criterio de seleccin el mismo que para el punto anterior a los efectos de normalizar las consultas (SQL) de extraccin de datos.
En referencia a importancia de datos se puede dividir en tres niveles:
Primaria: Los datos de Modelo, Lugar, Parte, Avera. Estos son los datos en funcin de los cuales se realizar las explotaciones. Secundaria: Los atributos referidos a Fecha y Gravedad. En cuanto a las fechas solo son utilizadas a los efectos de la toma de datos y para establecer un criterio de normalizacin de las consultas para la extraccin de los datos. En cuanto a los datos de gravedad los mismos no tienen variacin significativa. Inclusive la variacin ms alta, que son cuatro, solo la presentan en los dos o tres primeros periodos de seleccin puesto que luego se achican solo a dos tipos. Terciaria: El atributo Observacin entra en esta clasificacin puesto que el mismo no interviene en la evaluacin directa de los modelos.
8.3.2. Limpieza de datos
La base de datos con la se cuenta para el presente trabajo contiene informacin relacionada con operaciones de 4 marcas de automviles. Pero solo 2 de las marcas contienen informacin relevante y representativa por su cantidad y diversidad de movimientos. Por este motivo se procedi a eliminar del presente proyecto las otras dos marcas como as tambin los puntos por donde pasan los cuales no agregan valor al proyecto.
Los datos de las marcas que quedan fuera del proyecto pueden ser objeto de un estudio posterior para continuar con esta lnea de investigacin en la industria automotriz. Los datos de las marcas que quedan excluas del proyecto no tienen importancia relevante para los perodos de distribucin de las extracciones realizadas pero si pueden ser relevantes si los perodos establecidos son ms prolongados (por ejemplo cada dos aos).
Tambin por motivos de normalizacin para el ingreso de informacin a los modelos de software con los que se cuenta se ha realizado por SQL la codificacin de los modelos puesto que los mismos estn disponibles en la base de datos en formato de caracteres alfanumricos.
El campo Gravedad puede ser irrelevante en alguno de los perodos iniciales del presente estudio debido a la cantidad de variaciones. Inicialmente son 1, 2, 3 y 4 y al final se reduce solo a dos 1 y 2.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 114 de287 Ing. Hugo Daniel Flores 8.3.3. Construccin de datos
Como se ha mencionado en el tem anterior se ha realizado la transformacin del atributo Modelo a formato numrico debido a que los mismos se encontraban en formato alfanumrico.
Lo recomendable para el proceso de transformacin es la programacin de una consulta SQL con las sentencias correspondientes para la transformacin de los datos.
Todos los datos extrados previos a la incorporacin de los mismos en el software de anlisis de datos pasan a un archivo de planilla de clculo.
La explotacin de los datos se realizar sobre informacin codificada en formato numrico y luego de realizar el estudio del significado de los resultados se procede a la captura del significado en la base de datos.
Las marcas y modelos excluidos segn lo dicho previamente tambin son filtrados en las consultas estructuradas. Los nmeros de VIN que contiene cada unidad permiten realizar el filtro apropiadamente puesto que es nico y universal para cada uno. La estructura del nmero de identificacin del auto permite saber dentro de si mismo a que marca y modelo pertenece, por lo tanto en cada consulta SQL se incorpora la sentencia correspondiente para efectivizar el filtro.
8.3.4. Integracin de datos
Los datos son extrados y combinados a partir de tres tablas relacionadas por sus respectivas claves.
Los atributos finales se obtienen de las siguientes tablas:
Chasis Nmero de identificacin de un auto Modelo del vehiculo Operaciones Fecha en que se realiza la operacin donde interviene el vehculo que sufre la avera. Daos Cdigo de parte averiada Cdigo de avera Cdigo de gravedad Observacin
Las consultas SQL son capaces de integrar toda la informacin requerida para el presente proyecto. Todas las lneas de cdigo para la generacin de los archivos en funcin de los perodos establecidos quedan almacenadas en archivos con formato de query. Las consultas programadas se encuentran almacenadas en el Anexo 3.
8.3.5. Formateo de datos
Las herramientas exigen que los datos a explotar sean numricos.
En cuanto al orden en el que debe ir cada columna los programas no requieren una posicin especfica pero a los efectos de normalizar el presente proceso de trabajo se define el siguiente orden: DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 115 de287 Ing. Hugo Daniel Flores a. Chasis b. Modelo c. Fecha d. Lugar e. Parte f. Avera g. Gravedad h. Observacin
8.4. Modelado
8.4.1. Seleccin de las tcnicas de modelado
rboles de Clasificacin
Agrupamiento con Mapas Autoorganizados
Modelo de Prediccin
La documentacin necesaria para la utilizacin de las herramientas de software que se utilizan en este proyecto de tesis se encuentra disponible en la misma aplicacin. La informacin brindada por cada herramienta es tcnicamente precisa y detallada lo cual permite su aplicabilidad sin mayores inconvenientes.
Las aplicaciones han sido desarrolladas con tecnologas de planilla de clculos programadas con uno de los lenguajes de programacin estndares en informtica.
8.4.2. Generacin de la prueba de diseo
El conjunto de datos de entrenamiento es almacenado en archivos con formato de hoja de clculo y se dividen en funcin de los perodos establecidos previamente para el presente proyecto. Se capturan y almacenan todos los datos segn cada perodo preestablecido. Las cantidades de datos de entrenamiento para los respectivos modelos tambin es variable en funcin del software a usar, lo cual se especific previamente en prrafos anteriores.
Las pruebas se han realizado con muestras reducidas de los datos a ser explotados con el formato que se utilizar en los modelos reales.
En referencia a la validacin de la calidad de datos cada aplicacin solicita como parmetros iniciales previos a cada proceso la especificacin de los mismos. Cada validacin especificada queda almacenada en la aplicacin ejecutada.
Durante las pruebas de diseo de los modelos se desestimaron los campos de identificacin de chasis, fecha de produccin de la avera y observacin. La decisin fue tomada en funcin de lo que se conoce hasta este momento de desarrollo del proyecto y no se descarta la posibilidad de recurrir a esta informacin como consecuencia de un estudio o anlisis futuro.
De las pruebas tambin podemos concluir que en funcin de los resultados que se puedan llegar a obtener del presente estudio, se podra hacer necesario o bien podra ser caso de futuras lneas de DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 116 de287 Ing. Hugo Daniel Flores investigacin el desarrollo de la deteccin de patrones especficamente en uno de los ms importantes medios de transporte de autos como lo son los buques.
8.4.3. Construccin de los modelos
A continuacin se describe la parametrizacin y ejecucin de los modelos en funcin de las tres herramientas utilizadas por el proyecto.
8.4.3.1. Modelo de Clasificacin
Construccin de un Modelo de Clasificacin para el analizar el comportamiento de los Tipos de Averas.
Variables de entrada: Cdigo de Parte: Continuous Predictor. Cdigo de Gravedad: Continuous Predictor.
Variables de salida: Cdigo de Avera: Categorical Predictor.
Construccin de un Modelo de Clasificacin para el anlisis del comportamiento donde (CP) se producen las averas en un automvil.
Variables de entrada: Cdigo de Parte: Continuous Predictor. Cdigo de Avera: Continuous Predictor. Cdigo de Gravedad: Continuous Predictor.
Variables de salida: Cdigo de lugar (punto de control): Categorical Predictor.
Construccin de un Modelo de Clasificacin para analizar las averas producidas en modelos.
Variables de entrada: Cdigo de Parte: Continuous Predictor. Cdigo de Avera: Continuous Predictor. Cdigo de Gravedad: Continuous Predictor.
Variables de salida: Cdigo de modelo de auto: Categorical Predictor.
El procesamiento de datos de estos modelos permite determinar los niveles de siniestralidad por lugar y modelos de unidades automotrices. Otra informacin que se obtiene a partir de estos modelos es la imputacin de los incidentes y la determinacin de los tipos de transportes que los provocan.
8.4.3.2. Modelo de Clustering
Construccin de un Modelo de Clustering para establecer el agrupamiento de daos.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 117 de287 Ing. Hugo Daniel Flores Variables de entrada: Cdigo de Parte. Cdigo de Avera. Cdigo de Gravedad.
Variables de salida: Formacin de grupos.
Construccin de un Modelo de Clustering para el agrupamiento de datos en relacin a daos y los lugares donde se producen sin considerar la gravedad del dao.
Variables de entrada: Cdigo de CP. Cdigo de Parte. Cdigo de Avera.
Variables de salida: Formacin de grupos.
Construccin de un Modelo de Clustering para el agrupamiento de datos de averas en lugares considerando la severidad de los daos.
Variables de entrada: Cdigo de CP. Cdigo de Parte. Cdigo de Avera. Cdigo de Gravedad.
Variables de salida: Formacin de grupos.
Construccin de un Modelo de Clustering para el agrupamiento de datos de averas producidas en modelos sin considerar la gravedad de los daos.
Variables de entrada: Cdigo de Modelo. Cdigo de Parte. Cdigo de Avera.
Variables de salida: Formacin de grupos.
Construccin de un Modelo de Clustering para el agrupamiento de datos de averas producidas en modelos especificando la severidad de los daos.
Variables de entrada: Cdigo de Modelos. Cdigo de Parte. Cdigo de Avera. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 118 de287 Ing. Hugo Daniel Flores Cdigo de Gravedad.
Variables de salida: Formacin de grupos.
La ejecucin de estos agrupamientos identifica los daos producidos relacionados con los lugares y modelos de unidades. Tambin permite ver la relacin entre las partes averiadas, los tipos de averas producidos y la severidad de los mismos.
Del anlisis de la relacin entre los daos y los lugares se puede establecer el comportamiento de los daos en funcin del tipo de transporte.
8.4.3.3. Modelo de Prediccin
Construccin de un Modelo de Prediccin para determinar el comportamiento de las partes en funcin del tipo de avera y gravedad de la misma.
Variables de entrada: Cdigo de Avera: Continuous. Cdigo de Gravedad: Continuous.
Variables de salida: Cdigo de Parte: Output.
Construccin de un Modelo de Prediccin para determinar el comportamiento de los tipos de avera en funcin de las partes donde se producen y la gravedad de la misma.
Variables de entrada: Cdigo de Parte: Continuous. Cdigo de Gravedad: Continuous.
Variables de salida: Cdigo de Avera: Output.
Construccin de un Modelo de Prediccin para establecer el comportamiento de las averas en funcin del lugar donde se producen.
Variables de entrada: Cdigo de Parte: Continuous. Cdigo de Avera: Continuous. Cdigo de Gravedad: Continuous.
Variables de salida: Cdigo de CP: Output.
Construccin de un Modelo de Prediccin para establecer el comportamiento de las averas en funcin de los modelos de vehculo.
Variables de entrada: DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 119 de287 Ing. Hugo Daniel Flores Cdigo de Parte: Continuous. Cdigo de Avera: Continuous. Cdigo de Gravedad: Continuous.
Variables de salida: Cdigo de Modelo: Output.
Con el procesamiento del Modelo de Prediccin es posible encontrar los daos, lugares, tipos de transportes, y modelos donde se producen las averas.
Los modelos trabajan sobre los cdigos numricos de las variables introducidas. La traduccin de los cdigos empleados en el procesamiento de datos se encuentra disponible en el Anexo 4.
En el Anexo 4 se encuentra el detalle descriptivo de los modelos, lugares, tipos de transporte, cdigo de rea de un auto, tipo de avera de un auto y gravedad de una avera en un automvil.
8.4.4. Descripcin de los modelos
8.4.4.1. Modelo de Clasificacin
Se trabaja sobre tres categoras: Averas, Lugares y Modelos.
El modelo de minera de datos permite visualizar la ocurrencia de los tipos de averas producidos sobre todas las partes y especificando las gravedades. Se observan las cantidades y porcentajes de ocurrencia a lo largo de cada periodo.
El anlisis de la clase lugares permite visualizar el comportamiento de las averas en los diferentes lugares por donde transitan las unidades automotrices. Tambin permite ver cantidades y porcentajes mostrando una clara relacin entre los diferentes lugares donde se producen.
Por ltimo se analiza la ocurrencia de las averas por modelos de autos. Al final tambin es posible encontrar informacin sobre cantidades y porcentajes por cada perodo.
Para los tres tipos de anlisis mencionados se crean los rboles de decisin con sus respectivas reglas.
Finalmente este modelo muestra un detalle de los resultados obtenidos como la cantidad de hojas de los rboles generados, la cantidad de nodos, el tiempo de proceso de la herramienta, etc.
A continuacin se muestra resumen de los resultados obtenidos a partir la ejecucin del primer perodo.
Lugar Cantidad Retiro Fbrica de Origen 87 Subida Buque Puerto de Origen 6925 Bajada de Buque 942 Retiro de Puerto 352 Transferencia ubicacin y lnea de carga 424 Ingreso a Puerto 443 Subida a Buque 104
Tabla 5: Cantidad de averas por lugar
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 121 de287 Ing. Hugo Daniel Flores SubidaBuquePuerto deOrigen 74% BajadadeBuque 10% Retiro dePuerto 4% Ingreso aPuerto 5% SubidaaBuque 1% Retiro Fbricade Origen 1% Transferencia ubicacin y lneade carga 5%
Grfico 10: Porcentajes de ocurrencia de avera en diferentes lugares
Lugar Cantidad Retiro Fbrica de Origen 87 Subida Buque Puerto de Origen 6925 Bajada de Buque 942 Retiro de Puerto 352 Transferencia ubicacin y lnea de carga 424 Ingreso a Puerto 443 Subida a Buque 104
Tabla 8: Cantidad de averas por lugar
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 124 de287 Ing. Hugo Daniel Flores SubidaBuquePuerto deOrigen 83% BajadadeBuque 6% Retiro dePuerto 2% Ingreso aPuerto 6% SubidaaBuque 1% Retiro Fbricade Origen 1% Transferencia ubicacin y lneade carga 1%
Grfico 13: Porcentajes de ocurrencia de avera en diferentes lugares
Lugar Cantidad Retiro Fbrica de Origen 33 Subida Buque Puerto de Origen 4008 Bajada de Buque 505 Retiro de Puerto 71 Transferencia ubicacin y lnea de carga 20 Ingreso a Puerto 491 Subida a Buque 228
Grfico 18: Torta especificando porcentajes de ocurrencia de averas
Lugares (Perodo 4 Semestre 1 Ao 2005)
Lugar Cantidad Retiro Fbrica de Origen 603 Subida Buque Puerto de Origen 1849 Bajada de Buque 570 Retiro de Puerto 137 Transferencia ubicacin y lnea de carga 39 Ingreso a Puerto 510 Subida a Buque 201
Tabla 14: Cantidad de averas por lugar
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 129 de287 Ing. Hugo Daniel Flores SubidaBuquePuerto deOrigen 47% BajadadeBuque 15% Retiro dePuerto 4% Ingreso aPuerto 13% SubidaaBuque 5% Retiro Fbricade Origen 15% Transferencia ubicacin y lneade carga 1%
Grfico 19: Porcentajes de ocurrencia de avera en diferentes lugares
Tabla 16: Cantidad de daos y sus cdigos correspondientes Abollado 29% Faltante 6% Proyeccin 0% Manchado 1% Rayado - Rozado 48% Pintura saltada 13% Arrancado - Roto - Fisurado 2% Desgarrado - Cortado 0% Reventado - Estallado 1%
Grfico 21: Porcentajes de ocurrencia de averas DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 131 de287 Ing. Hugo Daniel Flores
Lugares (Perodo 5 Semestre 2 Ao 2005)
Lugar Cantidad Retiro Fbrica de Origen 909 Subida Buque Puerto de Origen 1208 Bajada de Buque 758 Retiro de Puerto 248 Transferencia ubicacin y lnea de carga 94 Ingreso a Puerto 550 Subida a Buque 104
Tabla 17: Cantidad de averas por lugar SubidaBuquePuerto deOrigen 32% BajadadeBuque 20% Retiro dePuerto 6% Ingreso aPuerto 14% SubidaaBuque 3% Retiro Fbricade Origen 23% Transferencia ubicacin y lneade carga 2%
Grfico 22: Porcentajes de ocurrencia de avera en diferentes lugares
Pgina 133 de287 Ing. Hugo Daniel Flores Lugares (Perodo 6 Semestre 1 Ao 2006)
Lugar Cantidad Retiro Fbrica de Origen 631 Subida Buque Puerto de Origen 1585 Bajada de Buque 580 Retiro de Puerto 187 Transferencia ubicacin y lnea de carga 136 Ingreso a Puerto 497 Subida a Buque 138
Lugar Cantidad Retiro Fbrica de Origen 39 Subida Buque Puerto de Origen 144 Bajada de Buque 547 Retiro de Puerto 119 Transferencia ubicacin y lnea de carga 415 Ingreso a Puerto 1069 Subida a Buque 265
Lugar Cantidad Retiro Fbrica de Origen 20 Subida Buque Puerto de Origen 517 Bajada de Buque 219 Retiro de Puerto 156 Transferencia ubicacin y lnea de carga 1437 Ingreso a Puerto 575 Subida a Buque 95
Tabla 26: Cantidad de averas por lugar
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 138 de287 Ing. Hugo Daniel Flores SubidaBuquePuerto deOrigen 17% BajadadeBuque 7% Retiro dePuerto 5% Ingreso aPuerto 19% SubidaaBuque 3% Retiro Fbricade Origen 1% Transferencia ubicacin y lneade carga 48%
Grfico 31: Porcentajes de ocurrencia de avera en diferentes lugares
Lugar Cantidad Retiro Fbrica de Origen 18 Subida Buque Puerto de Origen 635 Bajada de Buque 282 Retiro de Puerto 60 Transferencia ubicacin y lnea de carga 4503 Ingreso a Puerto 1167 Subida a Buque 523
Tabla 29: Cantidad de averas por lugar SubidaBuquePuerto deOrigen 9% BajadadeBuque 4% Retiro dePuerto 1% Ingreso aPuerto 16% SubidaaBuque 7% Retiro Fbricade Origen 0% Transferencia ubicacin y lneade carga 63%
Grfico 34: Porcentajes de ocurrencia de avera en diferentes lugares DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 141 de287 Ing. Hugo Daniel Flores Modelos (Perodo 9 Semestre 2 Ao 2007)
Lugar Cantidad Retiro Fbrica de Origen 12 Subida Buque Puerto de Origen 454 Bajada de Buque 318 Retiro de Puerto 124 Transferencia ubicacin y lnea de carga 3008 Ingreso a Puerto 958 Subida a Buque 633
Tabla 32: Cantidad de averas por lugar
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 143 de287 Ing. Hugo Daniel Flores SubidaBuquePuerto deOrigen 8% BajadadeBuque 6% Retiro dePuerto 2% Ingreso aPuerto 17% SubidaaBuque 11% Retiro Fbricade Origen 0% Transferencia ubicacin y lneade carga 56%
Grfico 37: Porcentajes de ocurrencia de avera en diferentes lugares
Grfico 38: Porcentajes de ocurrencia de avera en modelos
8.4.4.2. Modelo de Clustering
El anlisis es realizado agrupando: Parte Avera Gravedad, Lugar Parte Avera, Lugar Parte Avera Gravedad, Modelo Parte Avera, Modelo Parte Avera Gravedad.
El agrupamiento de partes, averas y gravedades permite visualizar el comportamiento de los siniestros ocurridos separando los daos en funcin del formato establecido por el estndar utilizado. El anlisis es realizado por cada perodo en el presente proyecto.
Para el segundo caso se toman el agrupamiento considerando el lugar donde se produce una avera, el tipo de avera y la parte del automvil que es afectado. Al igual que para el anterior agrupamiento este anlisis se realiza para cada uno de los periodos. En el siguiente proceso al agrupamiento se suma la gravedad del siniestro.
Luego, el anlisis posterior de los datos tiene en cuenta el agrupamiento de la informacin considerando el modelo averiado y la parte del auto y tipo de avera producido. Finalmente al agrupamiento anterior y al igual que en el caso de los lugares el agrupamiento de los modelos incluye la gravedad de cada siniestro.
Cada uno de los procesos realizados muestra al final el resultado estadstico logrado. All se especifican cantidades por grupos, cantidad de grupos formados, porcentajes, etc. El proceso de agrupamiento es realizado con matrices cuadradas de 10 x 10 en todos los casos.
A continuacin se muestra resumen de los resultados obtenidos a partir la ejecucin del primer perodo.
Parte Avera Gravedad (Perodo 1 Ao 2003)
Parte Avera Gravedad Cantidad Fila Columna Overall Tapa acceso gancho remolque Faltante Mediano DETECCION DE PATRONES DE DAOS Y/O AVERAS
Tabla 7: Agrupamiento con especificacin de cantidades por cluster: Parte - Avera - Gravedad
Lugar Parte Avera (Perodo 1 Ao 2003)
Lugar Parte Avera Cantidad Fila Columna Overall Retiro de Puerto Tapa acceso gancho remolque Faltante Cluster 1 Transferencia ubicacin y lnea de carga Manijas externas de puertas delanteras Rayado Rozado 1 1 1 Cluster 2 Transferencia ubicacin y lnea de carga Panel trasero bajo bal Rayado Rozado 12 1 2 Cluster 3 Transferencia ubicacin y lnea de carga Capot Rayado Rozado 11 1 3 Cluster 4 Ingreso a Puerto Paragolpe delantero / Superior Rayado Rozado 38 1 4 Cluster 5 Ingreso a Puerto Techo corredizo Faltante 55 1 5 Cluster 6 Ingreso a Puerto Cubierta delantera derecha Abollado 111 1 6 Cluster 7 Transferencia ubicacin y lnea de carga Luz de neblina trasera Exceso kilometraje 299 1 7 Cluster 8 Ingreso a Puerto Luz trasera izquierda Abollado 63 1 8 Cluster 9 Transferencia ubicacin y lnea de carga Luz de neblina trasera Abollado 76 1 9 Cluster 10 Subida Buque Puerto de Origen Bolsa de herramientas Faltante 4334 1 10
Tabla 8: Agrupamiento con especificacin de cantidades por cluster: Lugar - Parte - Avera
Lugar Parte Avera Gravedad (Perodo 1 Ao 2003)
Lugar Parte Avera Gravedad Cantidad Fila Columna DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 146 de287 Ing. Hugo Daniel Flores Overall Retiro de Puerto Tapa acceso gancho remolque Faltante Mediano Cluster 1 Bajada de Buque Tapizado interno puerta delantera izquierda Rayado - Rozado Mediano 596 1 1 Cluster 2 Retiro de Puerto Cristales de parante delantero Abollado Grave 1007 1 2 Cluster 3 Subida Buque Puerto de Origen Sistema de navegacin Proyeccin Grave 15 1 3 Cluster 4 Ingreso a Puerto Moldura protectora lateral derecha Rayado - Rozado Leve 488 1 4 Cluster 5 Subida Buque Puerto de Origen Cable de carga Faltante Mediano 582 1 5 Cluster 6 Transferencia ubicacin y lnea de carga Insignia Faltante Leve 99 1 6 Cluster 7 Subida Buque Puerto de Origen Llave Abollado Leve 2120 1 7 Cluster 8 Subida Buque Puerto de Origen Guardabarro delantero izquierdo Rayado - Rozado Leve 14 1 8 Cluster 9 Subida Buque Puerto de Origen Guardabarro delantero izquierdo Rayado - Rozado Mediano 79 1 9
Tabla 9: Agrupamiento con especificacin de cantidades por cluster: Lugar - Parte - Avera - Gravedad
Tabla 11: Agrupamiento con especificacin de cantidades por cluster: Modelo - Parte - Avera - Gravedad
A continuacin se muestra resumen de los resultados obtenidos a partir la ejecucin del segundo perodo.
Parte Avera Gravedad (Perodo 2 Semestre 1 Ao 2004)
Parte Avera Gravedad Cantidad Fila Columna Overall Tapa acceso gancho remolque Faltante Mediano Cluster 1 Cristales de parante delantero Faltante Intolerable 317 1 1 Cluster 2 Guardabarro trasero derecho Faltante Grave 756 1 2 Cluster 3 Cerraduras de puertas Rayado - Rozado Mediano 374 1 3 Cluster 4 Otros Abollado Leve 1864 1 4 Cluster 5 Cable de carga Rayado - Rozado Leve 223 1 5 Cluster 6 Antena Rayado - Rozado Mediano 520 1 7 Cluster 7 Bolsa de herramientas Abollado Mediano 932 1 9 Cluster 8 Tapa de Bal o Puerta Trasera Abollado Mediano 14 1 10
Tabla 12: Agrupamiento con especificacin de cantidades por cluster: Parte - Avera - Gravedad
Lugar Parte Avera (Perodo 2 Semestre 1 Ao 2004)
Lugar Parte Avera Cantidad Fila Columna Overall Retiro de Puerto Tapa acceso gancho remolque Faltante
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 148 de287 Ing. Hugo Daniel Flores Cluster 1 Transferencia ubicacin y lnea de carga Llanta trasera izquierda Faltante 9 1 1 Cluster 2 Transferencia ubicacin y lnea de carga Puerta delantera izquierda Rayado - Rozado 31 1 2 Cluster 3 Transferencia ubicacin y lnea de carga Techo corredizo Rayado - Rozado 17 1 3 Cluster 4 Ingreso a Puerto Techo corredizo Rayado - Rozado 97 1 4 Cluster 5 Ingreso a Puerto Puerta trasera derecha Rayado - Rozado 62 1 5 Cluster 6 Ingreso a Puerto Tapa posterior de techo Pintura saltada 23 1 6 Cluster 7 Transferencia ubicacin y lnea de carga Otros Abollado 167 1 7 Cluster 8 Ingreso a Puerto Llanta delantera derecha Abollado 14 1 8 Cluster 9 Subida Buque Puerto de Origen Bolsa de herramientas Faltante 4580 1 10
Tabla 13: Agrupamiento con especificacin de cantidades por cluster: Lugar - Parte - Avera
Lugar Parte Avera Gravedad (Perodo 2 Semestre 1 Ao 2004)
Lugar Parte Avera Gravedad Cantidad Fila Columna Overall Retiro de Puerto Tapa acceso gancho remolque Faltante Mediano Cluster 1 Bajada de Buque Cristales de parante delantero Faltante Intolerable 259 1 1 Cluster 2 Retiro de Puerto Guardabarro trasero derecho Faltante Grave 627 1 2 Cluster 3 Bajada de Buque Panel lateral izquierdo Faltante Leve 1961 1 3 Cluster 4 Ingreso a Puerto Tapa posterior de techo Pintura saltada Mediano 82 1 4 Cluster 5 Bajada de Buque Llanta delantera derecha Abollado Leve 1642 1 5 Cluster 6 Transferencia ubicacin y lnea de carga Parrilla delantera Abollado Leve 15 1 6 Cluster 7 Bajada de Buque Llanta delantera derecha Faltante Grave 405 1 7 Cluster 8 Retiro de Puerto Techo (inclusive convertible) Proyeccin Mediano 9 1 10
Tabla 14: Agrupamiento con especificacin de cantidades por cluster: Lugar - Parte - Avera - Gravedad
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 149 de287 Ing. Hugo Daniel Flores Modelo Parte Avera (Perodo 2 Semestre 1 Ao 2004)
Tabla 17: Agrupamiento con especificacin de cantidades por cluster: Parte - Avera - Gravedad
Lugar Parte Avera (Perodo 3 Semestre 2 Ao 2004)
Lugar Parte Avera Cantidad Fila Columna Overall Retiro de Puerto Tapa acceso gancho remolque Faltante
Cluster 1 Ingreso a Puerto Barras de techo Pintura saltada 46 1 1 Cluster 2 Ingreso a Puerto Guardabarro trasero derecho Pintura saltada 40 1 2 Cluster 3 Ingreso a Puerto Luz de neblina trasera Abollado 147 1 3 Cluster 4 Ingreso a Puerto Bolsa de herramientas Faltante 6 1 4 Cluster 5 Ingreso a Puerto Luz de patente trasera Rayado - Rozado 72 1 5 Cluster 6 Ingreso a Puerto Tapa acceso gancho remolque Faltante 10 1 6 Cluster 7 Subida a Buque Retrovisor externo izquierdo Rayado - Rozado 36 1 7 Cluster 8 Ingreso a Puerto Paragolpe trasero / Zona contacto Rayado - Rozado 299 1 8 Cluster 9 Transferencia ubicacin y lnea de carga Taza Proyeccin 13 1 9 Cluster 10 Transferencia ubicacin y lnea de carga Bolsa de herramientas Faltante 4331 1 10
Tabla 18: Agrupamiento con especificacin de cantidades por cluster: Lugar - Parte - Avera
Lugar Parte Avera Gravedad (Perodo 3 Semestre 2 Ao 2004)
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 151 de287 Ing. Hugo Daniel Flores Lugar Parte Avera Gravedad Cantidad Fila Columna Overall Retiro de Puerto Tapa acceso gancho remolque Faltante Leve
Cluster 1 Subida a Buque Spoiler delantero Rayado - Rozado Mediano 3 1 1 Cluster 2 Ingreso a Puerto Parante delantero Rayado - Rozado Grave 15 1 3 Cluster 3 Ingreso a Puerto Alfombra suplementarias Proyeccin Grave 48 1 4 Cluster 4 Ingreso a Puerto Luz de neblina trasera Faltante Grave 54 1 5 Cluster 5 Subida Buque Puerto de Origen Giro Delantero (derecho / izquierdo) Faltante Grave 448 1 6 Cluster 6 Ingreso a Puerto Retrovisor externo derecho Proyeccin - 548 1 8 Cluster 7 Transferencia ubicacin y lnea de carga Moldura protctora lateral izquierda Pintura saltada - 1 1 9 Cluster 8 Subida Buque Puerto de Origen Otros Faltante - 3883 1 10
Tabla 19: Agrupamiento con especificacin de cantidades por cluster: Lugar - Parte - Avera - Gravedad
Modelo Parte Avera (Perodo 3 Semestre 2 Ao 2004)
Modelo Parte Avera Cantidad Fila Columna Overall Modelo 15 Tapa acceso gancho remolque Faltante
Tabla 22: Agrupamiento con especificacin de cantidades por cluster: Parte - Avera - Gravedad
Lugar Parte Avera (Perodo 4 Semestre 1 Ao 2005)
Lugar Parte Avera Cantidad Fila Columna Overall Retiro de Puerto Guardabarro trasero derecho Faltante
Cluster 1 Ingreso a Puerto Paragolpe trasesro / Zona contacto Rayado - Rozado 3 1 1 Cluster 2 Ingreso a Puerto Paragolpe trasero / Spoiler trasero Rayado - Rozado 6 1 4 Cluster 3 Subida a Buque Paragolpe delantero / Protector delantero Rayado - Rozado 9 1 5 Cluster 4 Ingreso a Capot Rayado - 72 1 6 DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 153 de287 Ing. Hugo Daniel Flores Puerto Rozado Cluster 5 Subida Buque Puerto de Origen Tapa posterior de techo Rayado - Rozado 131 1 7 Cluster 6 Retiro de Puerto Taza Faltante 226 1 8 Cluster 7 Retiro de Puerto Llanta delantera izquierda Faltante 311 1 9 Cluster 8 Retiro de Puerto Puerta trasera derecha Faltante 3161 1 10
Tabla 23: Agrupamiento con especificacin de cantidades por cluster: Lugar - Parte - Avera
Lugar Parte Avera Gravedad (Perodo 4 Semestre 1 Ao 2005)
Lugar Parte Avera Gravedad Cantidad Fila Columna Overall Retiro de Puerto Guardabarro trasero derecho Faltante - Cluster 1 Subida a Buque Zcalo interno puerta delantera izquierda Rayado - Rozado Observada 3 1 1 Cluster 2 Subida a Buque Paragolpe trasero / Spoiler trasero Rayado - Rozado Observada 10 1 3 Cluster 3 Ingreso a Puerto Capot Rayado - Rozado Observada 64 1 4 Cluster 4 Ingreso a Puerto Parabrisa Faltante Observada 43 1 5 Cluster 5 Ingreso a Puerto Luz de neblina trasera Proyeccin Observada 165 1 6 Cluster 6 Ingreso a Puerto Cubierta delantera derecha Faltante - 436 1 7 Cluster 7 Bajada de Buque Zcalo derecho Faltante - 2342 1 8 Cluster 8 Subida Buque Puerto de Origen Escape Faltante Observada 855 1 9 Cluster 9 Subida Buque Puerto de Origen Luneta trasera / Cristal puerta trasera Arrancado - Roto - Fisurado - 1 1 10
Tabla 24: Agrupamiento con especificacin de cantidades por cluster: Lugar - Parte - Avera - Gravedad
Tabla 56: Agrupamiento con especificacin de cantidades por cluster: Modelo - Parte - Avera - Gravedad
8.4.4.3. Modelo de Prediccin
Al igual que con el anlisis del modelo anterior este se realiza sobre diferentes variables de ingreso: Parte Avera Gravedad con prediccin de la Parte, Parte Avera Gravedad con prediccin de la Avera, Lugar Parte Avera Gravedad considerando como variable de prediccin el Lugar, y finalmente Modelo Parte Avera Gravedad donde se toma como variable de prediccin el Modelo.
El primer anlisis permite ver o predecir la ocurrencia que una avera sea producida en una determinada parte.
Del anlisis del segundo grupo se obtiene informacin sobre la ocurrencia de una determinada avera teniendo en cuenta la parte de un auto y la gravedad del dao.
El siguiente proceso permite ver la ocurrencia de una avera en un determinado lugar.
Para finalizar esta etapa se toma como referencia de prediccin el modelo de auto que es averiado.
La herramienta nos permite ver por cada anlisis y procesamiento de datos la respectiva curva de entrenamiento para cada modelo y la correspondiente curva de validacin de datos de cada modelo. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 168 de287 Ing. Hugo Daniel Flores A continuacin se muestra resumen de los resultados obtenidos a partir la ejecucin del primer perodo.
Parte Avera Gravedad con prediccin de la Parte (Perodo 1 Ao 2003)
Variable Tipo de Avera Parte predictiva: Puerta delantera Derecha Tipo de Avera: Exceso kilometraje Gravedad: Mediano Partes predictivas: Puerta delantera Derecha Puerta trasera Derecha Panel lateral derecho Moldura protector lateral derecha Giro Delantero (D/I) Cristales de parante delantero. Escape Tapa acceso gancho remolque Bolsa de herramientas Otros
Variable Gravedad Parte predictiva: Tapa acceso gancho remolque Tipo Avera: Faltante Gravedad: Leve Partes predictivas: Moldura protector lateral derecha Giro Delantero (D/I) Cristales de parante delantero Escape Tapa acceso gancho remolque
Parte Avera Gravedad con prediccin de la Avera (Perodo 1 Ao 2003)
Variable Parte Avera predictiva: Faltante Parte: Rueda de Auxilio Gravedad: Mediano Averas predictivas: Abollado Faltante Proyeccin
Pgina 169 de287 Ing. Hugo Daniel Flores Lugar Parte Avera Gravedad considerando como variable de prediccin el Lugar (Perodo 1 Ao 2003)
Variable Parte Lugar predictivo: Retiro de Puerto Parte: Rueda de Auxilio Tipo de avera: Faltante Gravedad: Mediano
Variable Tipo de Avera Lugar predictivo: Transferencia ubicacin y lnea de carga Parte: Tapa acceso gancho remolque Tipo Avera: Exceso kilometraje Gravedad: Mediano
Variable Gravedad Lugar predictivo: Retiro de Puerto Parte: Tapa acceso gancho remolque Tipo Avera: Faltante Gravedad: Leve
Modelo Parte Avera Gravedad donde se toma como variable de prediccin el Modelo (Perodo 1 Ao 2003)
Variable Parte Modelo predictivo: Modelo 9 Parte: Rueda de Auxilio Tipo de avera: Faltante Gravedad: Mediano Modelos predictivos: Modelo 8 Modelo 9 Modelo 10 Modelo 11 Modelo 12
Variable Avera Modelo predictivo: Modelo 11 Parte: Tapa acceso gancho remolque Tipo de avera: Exceso kilometraje Gravedad: Mediano Modelos predictivos: Modelo 8 Modelo 9 Modelo 10 Modelo 11 Modelo 12
Variable Gravedad Modelo predictivo: Modelo 10 DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 170 de287 Ing. Hugo Daniel Flores Parte: Tapa acceso gancho remolque Tipo de avera: Faltante Gravedad: Leve Modelos predictivos: Modelo 9 Modelo 10
A continuacin se muestra resumen de los resultados obtenidos a partir la ejecucin del segundo perodo.
Parte Avera Gravedad con prediccin de la Parte (Perodo 2 Semestre 1 Ao 2004)
Variable Tipo de Avera Parte predictiva: Escape Tipo de Avera: Abollado Gravedad: Mediano Partes predictivas: Cristales de parante delantero Escape Tapa acceso gancho remolque Bolsa de herramientas Otros Llave Parrilla delantera Luz de neblina trasera Faro de stop luneta Retrovisor externo izquierdo Guardabarro delantero izquierdo
Variable Gravedad Parte predictiva: Llave Tipo Avera: Abollado Gravedad: Mediano Partes predictivas: Giro Delantero (derecho / izquierdo) Cristales de parante delantero Escape Tapa acceso gancho remolque Bolsa de herramientas Otros Llave
Parte Avera Gravedad con prediccin de la Avera (Perodo 1 Semestre 1 Ao 2004)
Variable Parte Avera predictiva: Abollado Parte: Llave Gravedad: Mediano DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 171 de287 Ing. Hugo Daniel Flores Averas predictivas: Abollado
Lugar Parte Avera Gravedad considerando como variable de prediccin el Lugar (Perodo 2 Semestre 1 Ao 2004)
Variable Parte Lugar predictivo: Bajada de Buque Parte: Llave Tipo de avera: Abollado Gravedad: Mediano
Variable Tipo de Avera Lugar predictivo: Retiro de Puerto Parte: Llave Tipo Avera: Abollado Gravedad: Mediano
Variable Gravedad Lugar predictivo: Bajada de buque Parte: Llave Tipo Avera: Abollado Gravedad: Mediano
Modelo Parte Avera Gravedad donde se toma como variable de prediccin el Modelo (Perodo 2 Semestre 1 Ao 2004)
Variable Parte Modelo predictivo: Modelo 11 Parte: Llave Tipo de avera: Abollado Gravedad: Mediano Modelos predictivos: Modelo 11
Variable Avera Modelo predictivo: Modelo 11 Parte: Llave Tipo de avera: Abollado Gravedad: Mediano Modelos predictivos: Modelo 11 DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 172 de287 Ing. Hugo Daniel Flores Variable Gravedad Modelo predictivo: Modelo 11 Parte: Llave Tipo de avera: Abollado Gravedad: Mediano Modelos predictivos: Modelo 11
A continuacin se muestra resumen de los resultados obtenidos a partir la ejecucin del tercer perodo.
Parte Avera Gravedad con prediccin de la Parte (Perodo 3 Semestre 2 Ao 2004)
Variable Tipo de Avera Parte predictiva: Llanta delantera derecha Tipo de Avera: Faltante Gravedad: Observada Partes predictivas: Guardabarro delantero derecho Llanta delantera derecha Cubierta delantera derecha Zcalo derecho Guardabarro trasero derecho Puerta delantera derecha Puerta trasera derecha Panel lateral derecho Moldura protectora lateral derecha Giro Delantero (derecho / izquierdo) Cristales de parante delantero Escape Tapa acceso gancho remolque Bolsa de herramientas
Variable Gravedad Parte predictiva: Puerta trasera derecha Tipo Avera: Faltante Gravedad: Observada Partes predictivas: Puerta delantera derecha
Parte Avera Gravedad con prediccin de la Avera (Perodo 3 Semestre 2 Ao 2004)
Variable Parte Avera predictiva: Abollado Parte: Giro Delantero (D/I) Gravedad: Observada Averas predictivas: Abollado DETECCION DE PATRONES DE DAOS Y/O AVERAS
Variable Gravedad Avera predictiva: Faltante Parte: Panel lateral derecho Gravedad: - Averas predictivas: Abollado Lugar Parte Avera Gravedad considerando como variable de prediccin el Lugar (Perodo 4 Semestre 1 Ao 2005)
Variable Parte Lugar predictivo: Retiro de Puerto Parte: Panel lateral derecho Tipo de avera: Faltante Gravedad: -
Variable Tipo de Avera Lugar predictivo: Retiro de Puerto Parte: Panel lateral derecho Tipo Avera: Faltante Gravedad: -
Variable Gravedad Lugar predictivo: Retiro de Puerto Parte: Panel lateral derecho Tipo Avera: Faltante Gravedad: -
Modelo Parte Avera Gravedad donde se toma como variable de prediccin el Modelo (Perodo 4 Semestre 1 Ao 2005)
Variable Parte DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 176 de287 Ing. Hugo Daniel Flores Modelo predictivo: Modelo 15 Parte: Panel lateral derecho Tipo de avera: Faltante Gravedad: - Modelos predictivos: Modelo 14 Modelo 15
A continuacin se muestra resumen de los resultados obtenidos a partir la ejecucin del quinto perodo.
Parte Avera Gravedad con prediccin de la Parte (Perodo 5 Semestre 2 Ao 2005)
Variable Tipo de Avera Parte predictiva: Aerosol antipinchazos Tipo de Avera: Faltante Gravedad: - Partes predictivas: Aerosol antipinchazos Transponder Antena Faldillas para barro Limpiador de Faros (derecho / izquierdo) Limpiador y lavador de parabrisas Limpiador y lavador de vidrios traseros DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 177 de287 Ing. Hugo Daniel Flores Alern Taza Alfombra suplementarias Manual Retrovisor externo derecho Guardabarro delantero derecho Llanta delantera derecha Cubierta delantera derecha Zcalo derecho Guardabarro trasero derecho Puerta delantera derecha Puerta trasera derecha Panel lateral derecho Moldura protectora lateral derecha Giro Delantero (derecho / izquierdo) Cristales de parante delantero Escape Tapa acceso gancho remolque Bolsa de herramientas Otros Llave Parrilla delantera Luz de neblina trasera Faro de stop luneta
Variable Gravedad Parte predictiva: Guardabarro trasero derecho Tipo Avera: Faltante Gravedad: - Partes predictivas: Zcalo derecho Guardabarro trasero derecho
Parte Avera Gravedad con prediccin de la Avera (Perodo 5 Semestre 2 Ao 2005)
A continuacin se muestra resumen de los resultados obtenidos a partir la ejecucin del sptimo perodo.
Parte Avera Gravedad con prediccin de la Parte (Perodo 7 Semestre 2 Ao 2006)
Variable Tipo de Avera Parte predictiva: Manijas externas de puertas traseras Tipo de Avera: Faltante Gravedad: - DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 182 de287 Ing. Hugo Daniel Flores Partes predictivas: Manijas externas de puertas traseras Aerosol antipinchazos Transponder Antena Faldillas para barro Limpiador de Faros (derecho / izquierdo) Limpiador y lavador de parabrisas Limpiador y lavador de vidrios traseros Alern Taza Alfombra suplementarias Manual Retrovisor externo derecho Guardabarro delantero derecho Llanta delantera derecha Cubierta delantera derecha Zcalo derecho Guardabarro trasero derecho Puerta delantera derecha Puerta trasera derecha Panel lateral derecho Moldura protectora lateral derecha Giro Delantero (derecho / izquierdo) Cristales de parante delantero Escape Tapa acceso gancho remolque Bolsa de herramientas Otros
Variable Gravedad Parte predictiva: Cubierta delantera derecha Tipo Avera: Faltante Gravedad: - Partes predictivas: Cubierta delantera derecha Zcalo derecho Guardabarro trasero derecho
Parte Avera Gravedad con prediccin de la Avera (Perodo 7 Semestre 2 Ao 2006)
Pgina 183 de287 Ing. Hugo Daniel Flores Variable Gravedad Avera predictiva: Faltante Parte: Guardabarro delantero derecho Gravedad: - Averas predictivas: Abollado
Lugar Parte Avera Gravedad considerando como variable de prediccin el Lugar (Perodo 7 Semestre 2 Ao 2006)
Variable Parte Lugar predictivo: Transferencia ubicacin y lnea de carga Parte: Guardabarro delantero derecho Tipo de avera: Faltante Gravedad: -
Variable Tipo de Avera Lugar predictivo: Transferencia ubicacin y lnea de carga Parte: Guardabarro delantero derecho Tipo Avera: Faltante Gravedad: -
Variable Gravedad Lugar predictivo: Transferencia ubicacin y lnea de carga Parte: Guardabarro delantero derecho Tipo Avera: Faltante Gravedad: -
Modelo Parte Avera Gravedad donde se toma como variable de prediccin el Modelo (Perodo 7 Semestre 2 Ao 2006)
Variable Parte Modelo predictivo: Modelo 15 Parte: Guardabarro delantero derecho Tipo de avera: Faltante Gravedad: - Modelos predictivos: Modelo 14 Modelo 15 Modelo 16
Variable Avera Modelo predictivo: Modelo 16 Parte: Guardabarro delantero derecho Tipo de avera: Faltante Gravedad: - Modelos predictivos: Modelo 15
Variable Gravedad DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 184 de287 Ing. Hugo Daniel Flores Modelo predictivo: Modelo 15 Parte: Guardabarro delantero derecho Tipo de avera: Faltante Gravedad: - Modelos predictivos: Modelo 15
A continuacin se muestra resumen de los resultados obtenidos a partir la ejecucin del octavo perodo.
Parte Avera Gravedad con prediccin de la Parte (Perodo 8 Semestre 1 Ao 2007)
Variable Tipo de Avera Parte predictiva: Manual Tipo de Avera: Faltante Gravedad: - Partes predictivas: Manual Retrovisor externo derecho Guardabarro delantero derecho Llanta delantera derecha Cubierta delantera derecha Zcalo derecho Guardabarro trasero derecho Puerta delantera derecha
Variable Gravedad Parte predictiva: Guardabarro delantero derecho Tipo Avera: Faltante Gravedad: - Partes predictivas: Retrovisor externo derecho Guardabarro delantero derecho Llanta delantera derecha Cubierta delantera derecha
Parte Avera Gravedad con prediccin de la Avera (Perodo 8 Semestre 1 Ao 2007)
A continuacin se muestra resumen de los resultados obtenidos a partir la ejecucin del noveno perodo.
Parte Avera Gravedad con prediccin de la Parte (Perodo 9 Semestre 2 Ao 2007)
Variable Tipo de Avera Parte predictiva: Cubierta delantera derecha Tipo de Avera: Proyeccin Gravedad: - Partes predictivas: Guardabarro delantero derecho Llanta delantera derecha
Variable Gravedad Parte predictiva: Cubierta delantera derechacho Tipo Avera: Proyeccin Gravedad: - Partes predictivas: Guardabarro delantero derecho Llanta delantera derecha
Parte Avera Gravedad con prediccin de la Avera (Perodo 9 Semestre 2 Ao 2007)
Variable Gravedad Modelo predictivo: Modelo 10 Parte: Puerta delantera derecha Tipo de avera: Proyeccin Gravedad: - Modelos predictivos: Modelo 9 Modelo 10 DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 190 de287 Ing. Hugo Daniel Flores 8.4.5. Dificultades encontradas
La nica dificultad encontrada en el procesamiento de los modelos desarrollados fue que en cuatro de los diez perodos ejecutados se encontraron cuatro eventos que se producan una sola vez en el perodo respectivo. Por lo tanto en la ejecucin del Modelo de Clasificacin al contener una sola clasificacin para poder correr la aplicacin esos registros deban ser eliminados.
8.5. Evaluacin
Los modelos generados y los resultados obtenidos para cada perodo han sido satisfactorios. Los modelos de Prediccin y Clasificacin han tenido un tiempo promedio de proceso de algunos minutos (entre 5 y 10 minutos). En cuanto al modelo de Agrupamiento el tiempo insumido fue de 7 u 8 horas en promedio.
Los resultados obtenidos de los diferentes modelos tienen relacin entre si y en un primer anlisis aproximado se puede deducir que los mismos has sido los esperados especialmente en lo que respecta a cantidades y promedios.
La ejecucin de los modelos ha generado los datos esperados en funcin de los objetivos de negocio establecidos previamente para el presente proyecto. Si bien en este primer anlisis se puede decir que se han cubierto todas las alternativas para lograr los objetivos de negocio y de minera de datos no se descarta la posibilidad de arribar a nuevas preguntas de negocio o nuevas aproximaciones de resultados. Podemos concluir que los modelos estn conectados directamente a los objetivos de negocio y de minera de datos.
8.5.1. Evaluacin de los resultados en trminos de minera de datos
A continuacin se desarrolla un resumen de los resultados obtenidos para cada perodo y para cada modelo de minera de datos.
8.5.1.1. Perodo 1: Ao 2003.
Clasificacin
Averas: 59 % de averas Abollado. 22 % de averas Rayado Rozado. 10 % de averas Pintura saltada.
Lugares: 74 % de averas en Subida a Buque Puerto de Origen. Imputacin transporte terrestre. 10 % de averas en Bajada de Buque. Imputacin transporte martimo. 5 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 5 % de averas en Transferencia Ubicacin y Lnea de Carga. Imputacin planta de produccin.
Modelos: 46 % de averas en Modelo 9. 29 % de averas en Modelo 17. 6 % de averas en Modelo 5. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 191 de287 Ing. Hugo Daniel Flores 6 % de averas en Modelo 20. 5 % de averas en Modelo 18. 5 % de averas en Modelo 13.
Nota: datos especificados anteriormente representan ms del 90 % del total de registros explotados.
General: Modelo 12, Tapa acceso gancho remolque, Faltante, Mediano.
Prediccin
Parte: Con variacin de Avera los valores predictivos resultan: Parte: Puerta delantera derecha Avera: Exceso kilometraje Gravedad: Mediano Con variacin de Gravedad los valores predictivos resultan: Parte: Tapa acceso gancho remolque Avera: Faltante Gravedad: Leve Avera: Con variacin de Parte los valores predictivos resultan: Avera: Faltante Parte: Rueda de auxilio Gravedad: Mediano Con variacin de Gravedad los valores predictivos resultan: Avera: Faltante Parte: Tapa acceso gancho remolque Gravedad: Leve Lugar: Con variacin de Parte los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Rueda de auxilio Avera: Faltante DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 193 de287 Ing. Hugo Daniel Flores Gravedad: Mediano Con variacin de Avera los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Tapa acceso gancho remolque Avera: Exceso kilometraje Gravedad: Mediano Con variacin de Gravedad los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Tapa acceso gancho remolque Avera: Faltante Gravedad: Leve Modelos: Con variacin de Parte los valores predictivos resultan: Modelo: Modelo 9 Parte: Rueda de auxilio Avera: Faltante Gravedad: Mediano Con variacin de Avera los valores predictivos resultan: Modelo: Modelo 11 Parte: Tapa acceso gancho remolque Avera: Exceso kilometraje Gravedad: Mediano Con variacin de Gravedad los valores predictivos resultan: Modelo: Modelo 10 Parte: Tapa acceso gancho remolque Avera: Faltante Gravedad: Leve
8.5.1.2. Perodo 2: Ao 2004 semestre 1.
Clasificacin
Averas: 50 % de averas Abollado. 29 % de averas Rayado Rozado. 14 % de averas Pintura saltada. 3 % de averas Faltante 3 % de averas Manchado.
Lugares: 83 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 6 % de averas en Bajada de Buque. Imputacin transporte martimo. 6 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 2 % de averas en Retiro de Puerto. Imputacin puerto.
Modelos: 47 % de averas en Modelo 17. 32 % de averas en Modelo 9. 10 % de averas en Modelo 13. 6 % de averas en Modelo 20. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 194 de287 Ing. Hugo Daniel Flores 4 % de averas en Modelo 18.
Nota: datos especificados anteriormente representan ms del 90 % del total de registros explotados.
Clustering
rea - Avera Gravedad: Cristales de parante delantero, Faltante, Intolerable: 317 6 %. Guardabarro trasero derecho, Faltante, Grave: 756 15 %. Cerraduras de puertas, Rayado Rozado, Mediano: 374 7 %. Otros, Abollado, Leve: 1864 37 %. Cable de carga, Rayado Rozado, Leve: 223 4 %. Antena, Rayado Rozado, Mediano: 520 10 %. Bolsa de herramientas, Abollado, Mediano: 932 19 %.
General: Tapa acceso gancho remolque, Faltante, Mediano.
Lugar - Parte Avera: Transferencia ubicacin y lnea de carga, Puerta delantera izquierda, Rayado Rozado: 31 1 %. Ingreso a Puerto, Techo corredizo, Rayado Rozado: 97 - 2 %. Ingreso a Puerto, Puerta trasera derecha, Rayado Rozado: 62 1 %. Transferencia ubicacin y lnea de carga, Otros, Abollado: 167 3 %. Subida Buque Puerto de Origen, Bolsa de herramientas, Faltante: 4580 92 %.
General: Retiro de Puerto, Tapa acceso gancho remolque, Faltante.
Lugar - Parte - Avera Gravedad: Bajada de Buque, Cristales de parante delantero, Faltante, Intolerable: 259 5 %. Retiro de Puerto, Guardabarro trasero derecho, Faltante, Grave: 627 13 %. Bajada de Buque, Panel lateral izquierdo, Faltante, Leve: 1961 39 %. Ingreso a Puerto, Tapa posterior de techo, Pintura saltada, Mediano: 82 2 %. Bajada de Buque, Llanta delantera derecha, Abollado, Leve: 1642 33 % Bajada de Buque, Llanta delantera derecha, Faltante, Grave: 405 8 %.
General: Retiro de Puerto, Tapa acceso gancho remolque, Faltante, Mediano.
General: Modelo 14, Tapa acceso gancho remolque, Faltante, Mediano.
Prediccin
Parte: Con variacin de Avera los valores predictivos resultan: Parte: Escape Avera: Abollado Gravedad: Mediano Con variacin de Gravedad los valores predictivos resultan: Parte: Llave Avera: Abollado Gravedad: Mediano Avera: Con variacin de Parte los valores predictivos resultan: Avera: Abollado Parte: Llave Gravedad: Mediano Con variacin de Gravedad los valores predictivos resultan: Avera: Abollado Parte: Llave Gravedad: Mediano Lugar: Con variacin de Parte los valores predictivos resultan: Lugar: Baja de Buque Parte: Llave Avera: Abollado Gravedad: Mediano Con variacin de Avera los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Llave Avera: Abollado Gravedad: Mediano Con variacin de Gravedad los valores predictivos resultan: Lugar: Bajada de Buque Parte: Llave Avera: Abollado Gravedad: Mediano DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 196 de287 Ing. Hugo Daniel Flores Modelos: Con variacin de Parte los valores predictivos resultan: Modelo: Modelo 11 Parte: Llave Avera: Abollado Gravedad: Mediano Con variacin de Avera los valores predictivos resultan: Modelo: Modelo 11 Parte: Llave Avera: Abollado Gravedad: Mediano Con variacin de Gravedad los valores predictivos resultan: Modelo: Modelo 11 Parte: Llave Avera: Abollado Gravedad: Mediano
8.5.1.3. Perodo 3: Ao 2004 semestre 2.
Clasificacin
Averas: 44 % de averas Abollado. 34 % de averas Rayado Rozado. 15 % de averas Pintura saltada. 5 % de averas Faltante
Lugares: 76 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 9 % de averas en Bajada de Buque. Imputacin transporte martimo. 9 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 4 % de averas en Subida a Buque. Imputacin puerto.
Modelos: 56 % de averas en Modelo 17. 15 % de averas en Modelo 9. 12 % de averas en Modelo 20. 9 % de averas en Modelo 13. 5 % de averas en Modelo 5.
Nota: datos especificados anteriormente representan ms del 90 % del total de registros explotados.
Clustering
rea - Avera Gravedad: Paragolpe trasero / Zona contacto, Rayado Rozado, Grave: 58 1 %. Alern, Proyeccin, Grave: 78 2 %. Luz de neblina trasera, Abollado, Grave: 401 8 %. Tapa acceso gancho remolque, Faltante: 4432 89 %.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 197 de287 Ing. Hugo Daniel Flores General: Tapa acceso gancho remolque, Faltante, Leve.
Lugar - Parte Avera: Ingreso a Puerto, Barras de techo, Pintura saltada: 46 1 %. Ingreso a Puerto, Guardabarro trasero derecho, Pintura saltada: 40 1 %. Ingreso a Puerto, Luz de neblina trasera, Abollado: 147 3 %. Ingreso a Puerto, Luz de patente trasera, Rayado Rozado: 72 1 %. Transferencia ubicacin y lnea de carga, Retrovisor externo izquierdo, Rayado Rozado: 36 1 %. Ingreso a Puerto, Paragolpe trasero / Zona contacto, Rayado Rozado: 299 6 %. Transferencia ubicacin y lnea de carga, Bolsa de herramientas, Faltante: 4331- 87 %.
General: Retiro de Puerto, Tapa acceso gancho remolque, Faltante.
Lugar - Parte - Avera Gravedad: Ingreso a Puerto, Alfombra suplementarias, Proyeccin, Grave: 48 1 %. Ingreso a Puerto, Luz de neblina trasera, Faltante, Grave: 54 1 %. Subida Buque Puerto de Origen, Giro Delantero (derecho / izquierdo), Faltante, Grave: 448 9 %. Ingreso a Puerto, Retrovisor externo derecho, Proyeccin: 548 11 %. Subida Buque Puerto de Origen, Otros, Faltante: 3883 78 %.
General: Retiro de Puerto, Tapa acceso gancho remolque, Faltante, Leve.
General: Modelo 15, Tapa acceso gancho remolque, Faltante, Leve.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 198 de287 Ing. Hugo Daniel Flores Prediccin
Parte: Con variacin de Avera los valores predictivos resultan: Parte: Llanta delantera derecha Avera: Faltante Gravedad: Observada Con variacin de Gravedad los valores predictivos resultan: Parte: Puerta trasera derecha Avera: Faltante Gravedad: Observada Avera: Con variacin de Parte los valores predictivos resultan: Avera: Abollado Parte: Giro Delantero (derecho / izquierdo) Gravedad: Observada Con variacin de Gravedad los valores predictivos resultan: Avera: Abollado Parte: Giro Delantero (derecho / izquierdo) Gravedad: Observada Lugar: Con variacin de Parte los valores predictivos resultan: Lugar: Baja de Buque Parte: Giro Delantero (derecho / izquierdo) Avera: Faltante Gravedad: Observada Con variacin de Avera los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Giro Delantero (derecho / izquierdo) Avera: Faltante Gravedad: Observada Con variacin de Gravedad los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Giro Delantero (derecho / izquierdo) Avera: Faltante Gravedad: Observada Modelos: Con variacin de Parte los valores predictivos resultan: Modelo: Modelo 14 Parte: Giro Delantero (derecho / izquierdo) Avera: Abollado Gravedad: Observada Con variacin de Avera los valores predictivos resultan: Modelo: Modelo 16 Parte: Giro Delantero (derecho / izquierdo) Avera: Faltante Gravedad: Observada Con variacin de Gravedad los valores predictivos resultan: Modelo: Modelo 14 Parte: Giro Delantero (derecho / izquierdo) DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 199 de287 Ing. Hugo Daniel Flores Avera: Faltante Gravedad: Observada
8.5.1.4. Perodo 4: Ao 2005 semestre 1.
Clasificacin
Averas: 45 % de averas Rayado Rozado. 28 % de averas Abollado. 15 % de averas Pintura saltada. 7 % de averas Faltante
Lugares: 47 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 15 % de averas en Retiro Fbrica de Origen. Imputacin planta de produccin. 15 % de averas en Bajada de Buque. Imputacin transporte martimo. 13 % de averas en Ingreso a Puerto. Imputacin transporte terrestre.
Modelos: 51 % de averas en Modelo 17. 15 % de averas en Modelo 20. 12 % de averas en Modelo 8. 11 % de averas en Modelo 9. 5 % de averas en Modelo 5.
Nota: datos especificados anteriormente representan ms del 90 % del total de registros explotados.
Parte: Con variacin de Avera los valores predictivos resultan: Parte: Alern Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Parte: Cubierta delantera derecha Avera: Faltante Gravedad: - Avera: Con variacin de Parte los valores predictivos resultan: Avera: Abollado Parte: Panel lateral derecho DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 201 de287 Ing. Hugo Daniel Flores Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Avera: Faltante Parte: Panel lateral derecho Gravedad: - Lugar: Con variacin de Parte los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Giro Panel lateral derecho Avera: Faltante Gravedad: - Con variacin de Avera los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Panel lateral derecho Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Panel lateral derecho Avera: Faltante Gravedad: - Modelos: Con variacin de Parte los valores predictivos resultan: Modelo: Modelo 15 Parte: Panel lateral derecho Avera: Faltante Gravedad: - Con variacin de Avera los valores predictivos resultan: Modelo: Modelo 17 Parte: Panel lateral derecho Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Modelo: Modelo 15 Parte: Panel lateral derecho Avera: Faltante Gravedad: -
8.5.1.5. Perodo 5: Ao 2005 semestre 2.
Clasificacin
Averas: 48 % de averas Rayado Rozado. 29 % de averas Abollado. 13 % de averas Pintura saltada. 6 % de averas Faltante
Lugares: 32 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 202 de287 Ing. Hugo Daniel Flores 23 % de averas en Retiro Fbrica de Origen. Imputacin planta de produccin. 20 % de averas en Bajada de Buque. Imputacin transporte martimo. 14 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 6 % de averas en Retiro de Puerto. Imputacin puerto.
Modelos: 47 % de averas en Modelo 17. 16 % de averas en Modelo 8. 12 % de averas en Modelo 9. 10 % de averas en Modelo 5. 7 % de averas en Modelo 20.
Nota: datos especificados anteriormente representan ms del 90 % del total de registros explotados.
Clustering
rea - Avera Gravedad: Barras de techo, Pintura saltada, Observada: 38 1 %. Barras de techo, Rayado Rozado, Observada: 108 3 %. Retrovisor externo izquierdo, Pintura saltada, Observada: 146 4 %. Tapa tanque combustible, Rayado Rozado, Observada: 30 1 %. Bolsa de herramientas, Rayado Rozado, Observada: 81 2 %. Guardabarro delantero derecho, Faltante: 3464 89 %.
General: Guardabarro delantero derecho, Faltante.
Lugar - Parte Avera: Subida Buque Puerto de Origen, Paragolpe delantero / Protector delantero Rayado Rozado: 29 1 %. Bajada de Buque, Paragolpe delantero / Protector delantero, Rayado - Rozado 63 2 %. Bajada de Buque, Paragolpe delantero / Superior, Rayado Rozado: 44 1 %. Retiro Fbrica de Origen, Paragolpe trasero / Spoiler trasero, Rayado Rozado: 993 26 %. Bajada de Buque, Antena, Proyeccin: 177 5 %. Retiro de Puerto, Cristales de parante delantero, Faltante: 2562 66 %.
General: Retiro de Puerto, Guardabarro delantero derecho, Faltante.
Lugar - Parte - Avera Gravedad: Ingreso a Puerto, Techo (inclusive convertible), Pintura saltada: 67 2 %. Ingreso a Puerto, Otros, Abollado: 177 5 %. Ingreso a Puerto, Techo (inclusive convertible), Rayado Rozado: 142 4 %. Ingreso a Puerto, Llanta delantera izquierda, Proyeccin: 111 3 %. Subida Buque Puerto de Origen, Guardabarro delantero derecho, Faltante: 2955 - 76 %. Bajada de Buque, Zcalo derecho, Faltante, Observada: 168 4 %. Ingreso a Puerto, Llanta delantera derecha, Proyeccin, Observada: 249 6 %.
General: DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 203 de287 Ing. Hugo Daniel Flores Retiro de Puerto, Guardabarro delantero derecho, Faltante.
Modelo - rea Avera: Modelo 18, Guardabarros y parante trasero izquierdo, Rayado Rozado: 269 7 %. Modelo 17, Faro de stop luneta, Abollado: 669 17 %. Modelo 7, Tapa acceso gancho remolque, Abollado: 1290 33 %. Modelo 17, Tapa de Bal o Puerta Trasera, Rayado Rozado: 1307 34 %. Modelo 13, Techo (inclusive convertible), Abollado: 24 1 %. Modelo 6, Paragolpe trasero / Zona contacto, Rayado Rozado: 263 7 %. Modelo 9, Paragolpe delantero / Superior, Rayado Rozado: 59 2 %.
Parte: Con variacin de Avera los valores predictivos resultan: Parte: Aerosol antipinchazos Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Parte: Guardabarro trasero derecho Avera: Faltante Gravedad: - Avera: Con variacin de Parte los valores predictivos resultan: Avera: Abollado Parte: Zcalo derecho Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Avera: Proyeccin Parte: Zcalo derecho Gravedad: - Lugar: Con variacin de Parte los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Zcalo derecho Avera: Faltante DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 204 de287 Ing. Hugo Daniel Flores Gravedad: - Con variacin de Avera los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Zcalo derecho Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Lugar: Ingreso a Puerto Parte: Zcalo derecho Avera: Faltante Gravedad: - Modelos: Con variacin de Parte los valores predictivos resultan: Modelo: Modelo 14 Parte: Zcalo derecho Avera: Faltante Gravedad: - Con variacin de Avera los valores predictivos resultan: Modelo: Modelo 16 Parte: Zcalo derecho Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Modelo: Modelo 13 Parte: Zcalo derecho Avera: Faltante Gravedad: -
8.5.1.6. Perodo 6: Ao 2006 semestre 1.
Clasificacin
Averas: 45 % de averas Abollado. 40 % de averas Rayado Rozado. 7 % de averas Pintura saltada. 7 % de averas Faltante
Lugares: 42 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 17 % de averas en Retiro Fbrica de Origen. Imputacin planta de produccin. 15 % de averas en Bajada de Buque. Imputacin transporte martimo. 13 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 5 % de averas en Retiro de Puerto. Imputacin puerto.
Modelos: 40 % de averas en Modelo 17. 21 % de averas en Modelo 9. 14 % de averas en Modelo 5. 12 % de averas en Modelo 20. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 205 de287 Ing. Hugo Daniel Flores 8 % de averas en Modelo 8.
Nota: datos especificados anteriormente representan ms del 90 % del total de registros explotados.
Parte: Con variacin de Avera los valores predictivos resultan: Parte: Panel trasero bajo bal Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Parte: Puerta delantera derecha Avera: Faltante Gravedad: - Avera: Con variacin de Parte los valores predictivos resultan: Avera: Abollado Parte: Cubierta delantera derecha Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Avera: Faltante Parte: Cubierta delantera derecha Gravedad: - Lugar: Con variacin de Parte los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Cubierta delantera derecha Avera: Faltante Gravedad: - Con variacin de Avera los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Cubierta delantera derecha Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Lugar: Retiro de Puerto DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 207 de287 Ing. Hugo Daniel Flores Parte: Cubierta delantera derecha Avera: Faltante Gravedad: - Modelos: Con variacin de Parte los valores predictivos resultan: Modelo: Modelo 11 Parte: Cubierta delantera derecha Avera: Faltante Gravedad: - Con variacin de Avera los valores predictivos resultan: Modelo: Modelo 14 Parte: Cubierta delantera derecha Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Modelo: Modelo 12 Parte: Cubierta delantera derecha Avera: Faltante Gravedad: -
8.5.1.7. Perodo 7: Ao 2006 semestre 2.
Clasificacin
Averas: 47 % de averas Rayado Rozado. 30 % de averas Abollado. 14 % de averas Faltante. 5 % de averas Pintura saltada
Lugares: 40 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 21% de averas en Bajada de Buque. Imputacin transporte martimo. 16 % de averas en Transferencia ubicacin y lnea de carga. Imputacin planta de produccin. 10 % de averas en Subida a Buque. Imputacin puerto. 6 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre.
Modelos: 50 % de averas en Modelo 20. 22 % de averas en Modelo 5. 10 % de averas en Modelo 10. 7 % de averas en Modelo 9. 4 % de averas en Modelo 13.
Nota: datos especificados anteriormente representan ms del 90 % del total de registros explotados.
Clustering
rea - Avera Gravedad: DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 208 de287 Ing. Hugo Daniel Flores Bolsa de herramientas, Arrancado - Roto Fisurado, Observada: 15 1 %. Luz de neblina trasera, Abollado, Observada: 94 4 %. Faro de stop luneta, Rayado Rozado, Observada: 94 4 %. Tapa posterior de techo, Proyeccin, Observada: 128 5 %. Alfombra suplementarias, Abollado, Observada: 22 - 1 %. Guardabarro delantero derecho, Faltante: 2271 86 %.
General: Guardabarro delantero derecho, Faltante.
Lugar - Parte Avera: Bajada de Buque, Paragolpe delantero / Protector delantero, Rayado Rozado: 41 2 %. Bajada de Buque, Manijas externas de puertas traseras, Proyeccin: 326 12 %. Ingreso a Puerto, Parabrisa, Proyeccin: 865 33 %. Bajada de Buque, Guardabarro delantero izquierdo, Abollado: 473 18 %. Ingreso a Puerto, Faro de stop luneta, Abollado: 483 18 %. Ingreso a Puerto, Llave, Rayado Rozado: 429 16 %.
General: Transferencia ubicacin y lnea de carga, Guardabarro delantero derecho, Faltante.
Lugar - Parte - Avera Gravedad: Bajada de Buque, Panel trasero bajo bal, Rayado Rozado, Observada: 14 1 %. Bajada de Buque, Alfombra suplementarias, Proyeccin, Observada: 21 1 %. Bajada de Buque, Parrilla delantera, Abollado, Observada: 67 3 %. Ingreso a Puerto, Guardabarro delantero derecho, Faltante, Observada: 250 10 %. Transferencia ubicacin y lnea de carga, Guardabarro delantero derecho, Faltante: 2271 86 %.
General: Transferencia ubicacin y lnea de carga, Guardabarro delantero derecho, Faltante.
Parte: Con variacin de Avera los valores predictivos resultan: Parte: Manijas externas de puertas traseras Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Parte: Cubierta delantera derecha Avera: Faltante Gravedad: - Avera: Con variacin de Parte los valores predictivos resultan: Avera: Faltante Parte: Guardabarro delantero derecho Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Avera: Faltante Parte: Guardabarro delantero derecho Gravedad: - Lugar: Con variacin de Parte los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Guardabarro delantero derecho Avera: Faltante Gravedad: - Con variacin de Avera los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Guardabarro delantero derecho Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Guardabarro delantero derecho Avera: Faltante Gravedad: - Modelos: Con variacin de Parte los valores predictivos resultan: Modelo: Modelo 15 Parte: Guardabarro delantero derecho Avera: Faltante Gravedad: - Con variacin de Avera los valores predictivos resultan: Modelo: Modelo 16 Parte: Guardabarro delantero derecho DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 210 de287 Ing. Hugo Daniel Flores Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Modelo: Modelo 15 Parte: Guardabarro delantero derecho Avera: Faltante Gravedad: -
8.5.1.8. Perodo 8: Ao 2007 semestre 1.
Clasificacin
Averas: 43 % de averas Rayado Rozado. 25 % de averas Abollado. 20 % de averas Faltante. 8 % de averas Pintura saltada
Lugares: 48 % de averas en Transferencia ubicacin y lnea de carga. Imputacin planta de produccin. 19 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 17 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 7 % de averas en Bajada de Buque. Imputacin transporte martimo. 5 % de averas en Retiro de Puerto. Imputacin puerto.
Modelos: 47 % de averas en Modelo 20. 24 % de averas en Modelo 5. 9 % de averas en Modelo 13. 7 % de averas en Modelo 9. 4 % de averas en Modelo 17.
Nota: datos especificados anteriormente representan ms del 90 % del total de registros explotados.
Parte: Con variacin de Avera los valores predictivos resultan: DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 212 de287 Ing. Hugo Daniel Flores Parte: Manual Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Parte: Guardabarro delantero derecho Avera: Faltante Gravedad: - Avera: Con variacin de Parte los valores predictivos resultan: Avera: Faltante Parte: Zcalo derecho Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Avera: Faltante Parte: Zcalo derecho Gravedad: - Lugar: Con variacin de Parte los valores predictivos resultan: Lugar: Retiro de Puerto Parte: Zcalo derecho Avera: Faltante Gravedad: - Con variacin de Avera los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Zcalo derecho Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Zcalo derecho Avera: Faltante Gravedad: - Modelos: Con variacin de Parte los valores predictivos resultan: Modelo: Modelo 13 Parte: Zcalo derecho Avera: Faltante Gravedad: - Con variacin de Avera los valores predictivos resultan: Modelo: Modelo 16 Parte: Zcalo derecho Avera: Faltante Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Modelo: Modelo 15 Parte: Zcalo derecho Avera: Faltante Gravedad: -
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 213 de287 Ing. Hugo Daniel Flores 8.5.1.9. Perodo 9: Ao 2007 semestre 2.
Clasificacin
Averas: 66 % de averas Rayado Rozado. 14 % de averas Abollado. 9 % de averas Faltante. 8 % de averas Pintura saltada
Lugares: 63 % de averas en Transferencia ubicacin y lnea de carga. Imputacin planta de produccin. 16 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 7 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 4 % de averas en Bajada de Buque. Imputacin transporte martimo.
Modelos: 54 % de averas en Modelo 20. 24 % de averas en Modelo 7. 12 % de averas en Modelo 5. 5 % de averas en Modelo 13. 2 % de averas en Modelo 9.
Nota: datos especificados anteriormente representan ms del 90 % del total de registros explotados.
Parte: Con variacin de Avera los valores predictivos resultan: Parte: Cubierta delantera derecha Avera: Proyeccin DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 215 de287 Ing. Hugo Daniel Flores Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Parte: Cubierta delantera derecha Avera: Proyeccin Gravedad: - Avera: Con variacin de Parte los valores predictivos resultan: Avera: Faltante Parte: Cubierta delantera derecha Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Avera: Faltante Parte: Cubierta delantera derecha Gravedad: - Lugar: Con variacin de Parte los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Cubierta delantera derecha Avera: Proyeccin Gravedad: - Con variacin de Avera los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Cubierta delantera derecha Avera: Proyeccin Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Cubierta delantera derecha Avera: Proyeccin Gravedad: - Modelos: Con variacin de Parte los valores predictivos resultan: Modelo: Modelo 12 Parte: Cubierta delantera derecha Avera: Proyeccin Gravedad: - Con variacin de Avera los valores predictivos resultan: Modelo: Modelo 13 Parte: Cubierta delantera derecha Avera: Proyeccin Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Modelo: Modelo 13 Parte: Cubierta delantera derecha Avera: Proyeccin Gravedad: -
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 216 de287 Ing. Hugo Daniel Flores 8.5.1.10. Perodo 10: Ao 2008 semestre 1.
Clasificacin
Averas: 41 % de averas Rayado Rozado. 32 % de averas Faltante. 14 % de averas Abollado. 6 % de averas Pintura saltada
Lugares: 56 % de averas en Transferencia ubicacin y lnea de carga. Imputacin planta de produccin. 17 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 11 % de averas en Subida a Buque. Imputacin puerto. 8 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 6 % de averas en Bajada de Buque. Imputacin transporte martimo.
Modelos: 48 % de averas en Modelo 20. 34 % de averas en Modelo 7. 8 % de averas en Modelo 5. 3 % de averas en Modelo 13. 3 % de averas en Modelo 9.
Nota: datos especificados anteriormente representan ms del 90 % del total de registros explotados.
Parte: Con variacin de Avera los valores predictivos resultan: Parte: Manual Avera: Proyeccin Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Parte: Taza Avera: Proyeccin Gravedad: - DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 218 de287 Ing. Hugo Daniel Flores Avera: Con variacin de Parte los valores predictivos resultan: Avera: Faltante Parte: Puerta delantera derecha Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Avera: Faltante Parte: Puerta delantera derecha Gravedad: - Lugar: Con variacin de Parte los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Puerta delantera derecha Avera: Proyeccin Gravedad: - Con variacin de Avera los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Puerta delantera derecha Avera: Proyeccin Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Lugar: Transferencia ubicacin y lnea de carga Parte: Puerta delantera derecha Avera: Proyeccin Gravedad: - Modelos: Con variacin de Parte los valores predictivos resultan: Modelo: Modelo 10 Parte: Puerta delantera derecha Avera: Proyeccin Gravedad: - Con variacin de Avera los valores predictivos resultan: Modelo: Modelo 10 Parte: Puerta delantera derecha Avera: Proyeccin Gravedad: - Con variacin de Gravedad los valores predictivos resultan: Modelo: Modelo 10 Parte: Puerta delantera derecha Avera: Proyeccin Gravedad: -
8.5.2. Evaluacin de los resultados en trminos de objetivos de negocio.
En este tems se van a describir los resultados obtenidos de la explotacin de datos en funcin de los objetivos de negocio propuesto para el presente estudio.
Cada perodo analizado contiene como resultado informacin detallada sobre daos, tipo de daos, lugares, transportes y modelos de autos, los cuales se encuentran relacionados entre si y permiten ver un comportamiento que se va a tratar de describir claramente. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 219 de287 Ing. Hugo Daniel Flores Existen objetivos de negocios especficamente vinculados con resultados estadsticos como cantidades, cantidades totales, porcentajes, mximos, mnimos, etc. los cuales fueron explicitados en los puntos desarrollados por el proyecto en la parte de exploracin de datos, evaluacin de resultados y resumen de los resultados obtenidos. Ahora se va a tratar de describir los comportamientos y conductas de los datos explotados para de esta forma concluir con la evaluacin final de la minera de datos desarrollada.
8.5.2.1. Tipos de averas.
Los Tipos de Averas predominantes a lo largo de los perodos analizados son abollados, rayados o rozados, pinturas saltadas y faltantes. Entre estos 4 Tipos de Averas se encuentra ms del 90 % de los siniestros en cada perodo.
El perodo 1 y 2 se caracteriza en primer lugar por el Tipo de Avera abollado con 59 y 50 % respectivamente, luego el rayado o rozado con 22 y 29 % respectivamente y luego el pintura saltada con el 10 % y 14 % respectivamente. En el segundo perodo aparece la avera faltante con el 3 % de ocurrencia. Y finalmente en el perodo 2 aparece por nica vez a un nivel aceptable de ocurrencia para ser mencionado el Tipo de Avera manchado con un 3 %.
Luego analizando el perodo 3 se puede ver que los niveles de ocurrencia de las averas cambia teniendo en primer lugar los abollados con 44 %, luego el 34 % para rayados o rozados, en tercer lugar el 15 % de averas son pintura saltada y finalmente el 5 % de tipo de averas son faltantes.
El cuarto y quinto perodo contienen exactamente los mismos tipos de averas con un leve cambio en la distribucin de los porcentajes de ocurrencia. Esto es, en primer lugar el Tipo de Avera rayado o rozado con 45 y 48 % para cada perodo respectivamente, luego aparecen los abollados con 28 y 29 % respectivamente, en tercer lugar se encuentra el Tipo de Avera pintura saltada con el 15 y 13 % respectivamente, y para terminar, en ambos perodos aparece la ocurrencia de los faltantes con el 7 y el 6 % respectivamente.
El perodo 6 presenta en la ocurrencia de los Tipos de Averas la misma distribucin en cuanto a porcentajes del perodo 3. O sea que en primer lugar se ve un 45 % de averas abollado, luego un 40 % de Tipos de Averas rayado o rozado, en tercer lugar pintura saltada con un 7 % y finalmente otro 7 % para los faltantes.
Los perodos 7, 8 y 9 presentan la ocurrencia exactamente de los mismos tipos de averas. Los porcentajes se distribuyen de la siguiente forma: en primer lugar rayado o rozado con el 47, 43 y 66 % respectivamente, luego en segundo lugar los abollados con el 30, 25 y 14 % respectivamente, en tercer lugar aparecen los faltantes con el 14, 20 y 9 % respectivamente, y finalmente se observan los tipos de averas de pintura saltada con el 5 % para el perodo 7 y el 8 % para los perodos 8 y 9.
Para concluir con el anlisis de los resultados de los Tipos de Averas ocurridos de ste punto se puede ver que en el perodo 10 con un particular cambio en la posicin de los porcentajes de ocurrencia en el segundo lugar aparecen los faltantes con un 32 %. En primer lugar tenemos el rayado rozado con el 41 %. Y en el tercer y cuarto lugar se encuentran los abollados y pintura saltada con el 14 y 6 % respectivamente.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 220 de287 Ing. Hugo Daniel Flores 8.5.2.2. Lugares.
Para los 6 primeros perodos del presente estudio los lugares predominantes donde ocurrieron las averas son a la Subida de Buque en Puerto de Origen con el 74, 83, 76, 47, 32 y 42 respectivamente. Los motivos por los cuales se produjo el cambio son fundamentalmente por la decisin poltica de la empresa vinculada a la implementacin de mayores controles debido al alto porcentaje de siniestralidad. Ese motivo no es incumbencia del presente estudio por lo cual solo es mencionado sin realizar el estudio y/o anlisis del cambio ejecutado por la compaa.
Los tres primeros perodos se caracterizan en segundo lugar por la ocurrencia de las averas en las operaciones de Bajada de Buque con el 10, el 6 y el 9 % respectivamente. Los siguientes tres perodos el segundo lugar de ocurrencia es Retiro Fbrica de Origen 15, 23 y 17 % respectivamente.
Para el tercer lugar en la ocurrencia de averas se haya el mismo comportamiento que para el segundo lugar para los 6 primeros perodos. Esto es, los tres primeros perodos tienen como tercer lugar de ocurrencia de averas el Ingreso a Puerto con el 5, el 6 y el 9 % respectivamente. Luego en los siguientes tres perodos cambia por Bajada de Buque con 15, 20 y 15 % respectivamente.
Para concluir con el anlisis de los 6 primeros perodos se ve que en el cuarto lugar para el perodo 1, 2 y 3 se encuentran los lugares de Transferencia Ubicacin y Lnea de Carga (5 %), Retiro de Puerto (2 %) y Subida a Buque (4 %). Luego para los perodos 4, 5 y 6 se encuentra en cuarto lugar la ocurrencia de averas en Ingreso a Puerto con el 13, 14 y 13 % de ocurrencia respectivamente.
Para los perodos 7, 8, 9 y 10 se produce un cambio en los porcentajes de ocurrencia de mayor a menor nivel de averas. En el perodo 7 el mayor nivel de ocurrencia se ve en el Ingreso a Puerto con el 40 %. Luego se reduce a un 21 % en la Bajada de Buque. En tercer lugar en el perodo 7 se encuentra la Transferencia Ubicacin y Lnea de Carga y finalmente con un porcentaje mnimo del 10 % y 6 % se encuentran la Subida a Buque y Subida a Buque Puerto de Origen respectivamente. Bsicamente estos dos ltimos lugares son similares operativamente pero se diferencian especficamente por el lugar fsico. Esta similitud ser evaluada en los puntos siguientes donde se analiza la imputabilidad de las averas en funcin de los tipos de transportes.
El perodo 8 y 9 coinciden en cuatro lugares con el mismo nivel de ocurrencia en porcentajes. En primer trmino el lugar Transferencia Ubicacin y Lnea de Carga con el 48 y el 63 % respectivamente. Luego en el segundo puesto el lugar Ingreso a Puerto con el 19 y 16 % respectivamente. En tercer lugar las ocurrencias se producen en la Bajada de Buque con el 7 % en ambos perodos. Para concluir el anlisis de estos dos perodos se ve que en el perodo hay un pequeo porcentaje (5 %) correspondiente al lugar Retiro de Puerto.
Para terminar con el anlisis de los lugares donde se producen las averas se ve que en el perodo 10 el 56 % de ocurrencia de averas se produce en el lugar Transferencia Ubicacin y Lnea de Carga, luego el segundo lugar donde se producen las averas con mayor frecuencia en es Ingreso a Puerto con el 17 %. En tercer lugar se observa que la Subida a Buque tiene el 11 % de ocurrencia de averas. Finalmente los lugares Subida a Buque Puerto de Origen y Bajada de Buque son los de menor ocurrencia con el 8 y el 6 % respectivamente.
8.5.2.3. Modelos.
Como particular comportamiento se puede ver que en 9 de los 10 perodos analizados un 50 % 6 % de los datos explotados giran en torno a un solo modelo. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 221 de287 Ing. Hugo Daniel Flores El primer perodo tiene al Modelo 9 (46 %) como de mayor ocurrencia de averas, seguido por el Modelo 17 con el 29 %. En tercer lugar se encuentra el Modelo 5 y 20 con el 6 %, y finalmente con el 5 % se ve la ocurrencia de averas sobre el Modelo 18 y 13.
Los perodos 2 y 3 tienen en primera instancia con mayor nivel de ocurrencia de averas al Modelo 17 (47 y 56 % respectivamente) y luego al Modelo 9 (32 y 15 % respectivamente). Luego en el perodo 2 sigue el Modelo 13 con el 10 %, en cuarto lugar el Modelo 20 con el 6 % y finalmente el Modelo 18 con el 4 %. Para el perodo 3 se ve que en el tercer lugar se encuentra el Modelo 20 con el 12 %, luego el Modelo 13 con el 9 % y finalmente el Modelo 5 con el 5 % de ocurrencia de averas.
En los perodos 4, 5 y 6 el Modelo con mayor cantidad de ocurrencia de averas es el 17 (51, 47 y 40 % respectivamente). Luego en el perodo 4 se ve el Modelo 20 con el 15 %, en tercer lugar el Modelo 8 con el 12 % y en cuarto y quinto lugar los Modelos 9 y 5 con el 11 y el 5 % respectivamente. El perodo 5 tiene en segundo lugar de ocurrencia de averas al Modelo 8 con el 16 %, luego el Modelo 9 con el 12 %, y finalmente el Modelo 5 y 20 con el 10 y el 5 % respectivamente. El perodo 6 tiene en segundo lugar al Modelo 9 con el 21 %, luego en tercer lugar el Modelo 5 con el 14 %, en cuarto lugar el Modelo 20 con el 12 % y finalmente el Modelo 8 con el 8 %.
Los perodos 7 y 8 se caracterizan por la mayor ocurrencia de averas en los Modelos 20 (50 y 47 % respectivamente) y 5 (22 y 24 % respectivamente) en primer y segundo lugar respectivamente. En el perodo 7 se ve en tercer lugar al Modelo 10 con el 10 % de ocurrencia de averas y luego los Modelos 9 y 13 con el 7 y 4 % respectivamente. En el perodo 8 se encuentra en el tercer lugar de ocurrencia de averas el Modelo 13 con el 9 % y luego los Modelos 9 y 17 con el 7 y el 4 % respectivamente.
Finalmente analizados los datos del perodo 9 y 10 considerando la ocurrencia de averas en los Modelos se puede ver que tienen la misma ubicacin en porcentajes de ocurrencia. El Modelo 20 es el de mayor ocurrencia con el 54 % para el perodo 9 y el 48 % para el perodo 10. En segundo lugar en ambos perodos se encuentra el Modelo 7 con el 24 y el 34 % respectivamente para cada perodo. Luego en tercer lugar se encuentra el Modelo nmero 5 con el 12 y el 8 % respectivamente para cada perodo. El Modelo 13 ocupa el cuarto lugar de ocurrencia de averas con el 5 y 3 % respectivamente. Para terminar se menciona con el menor porcentaje de ocurrencia el Modelo 9 con el 2 y el 3 % de nivel de ocurrencia para los perodos 9 y 10 respectivamente.
8.5.2.4. Partes, Averas y Gravedad.
La estructura de las averas estudiadas en el presente proyecto es Parte +Avera +Gravedad. En este punto se evalan los resultados de la explotacin de datos combinando los tres parmetros en cada uno de los perodos.
Para el primer perodo se puede ver que la media general es: Tapa acceso gancho remolque, Faltante, Mediano. Es un tipo de dao vlido y est relacionada con el robo de esa parte. Los centroides que pueden representar un tipo de ocurrencia de avera mnimo son: Luz trasera izquierda, Faltante, Mediano (13 %). Cubierta delantera izquierda, Rayado Rozado, Mediano (3 %). En ambos casos su ocurrencia es poco probable y los porcentajes arrojados por la explotacin de datos no tienen relacin con la realidad. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 222 de287 Ing. Hugo Daniel Flores Finalmente para el primer perodo se observan los centroides compuesto por: Panel lateral izquierdo, Abollado, Leve (21 %) Panel lateral derecho, Abollado, Mediano (7 %) Se puede concluir para este perodo que hay un comportamiento particular debido a que la media global de dao no se corresponde con ninguno de los centroides formados. Posiblemente el resultado se debe al hecho que el nmero que caracteriza al Tipo de Avera Faltante (7) se encuentra entre los dos Tipos de Avera de mayor ocurrencia en el perodo (Abollado 6 y Rozado Rayado 9).
El perodo dos est caracterizado por la media global igual al periodo anterior: Tapa acceso gancho remolque, Faltante, Mediano. Al igual que en el periodo anterior se puede ver que la media global no tiene relacin con los datos generados por los centroides que participan con resultado vlido. El centroide compuesto por: Cristales de parante delantero, Faltante, Intolerable (6 %). Tiene poco grado de ocurrencia en la realidad, pero puede llegar a tener aparicin entre los siniestros. En cuanto al centroide real representativo de este periodo se encuentra: Otros, Abollado, Leve (37 %). Este tipo de daos est vinculado directamente a la posibilidad de encontrar abolladuras en diferentes partes de las unidades. Como conclusin de este periodo tambin se puede decir que el hecho de no haber relacin entre la media global y los resultados posibles obtenidos se debe a una cuestin especficamente matemtica.
Siguiendo con los centroides del periodos 3 se puede ver que la media global contina siendo: Tapa acceso gancho remolque, Faltante, Leve. Pero la caracterstica distintiva de la media para este perodo es que su gravedad es leve y no mediana como en los dos perodos anteriores. Este periodo se caracteriza por estos dos tipos de daos: Paragolpe trasero / Zona contacto, Rayado Rozado, Grave (1 %). Tapa acceso gancho remolque, Faltante (89 %). Aqu si se puede ver la relacin directa entre la avera con nivel porcentual ms alto ocurrido en el perodo y la media global. Sin embargo no hay correspondencia entre el tipo de avera con mayor cantidad de ocurrencia y el tipo de avera que compone el dao que caracteriza al centroide de mayor porcentaje.
El periodo cuatro contiene como media global: Guardabarro trasero derecho, Faltante. Al evaluar la ocurrencia de este evento en la base de datos se puede ver que no tiene posibilidad real de combinacin. Posiblemente su aparicin en la media es solo a los efectos de clculos matemticos. Analizando el centroide: Zcalo izquierdo, Manchado, Observada (1 %). Se puede concluir que el porcentaje de ocurrencia en la realidad es mnimo como est representado por el porcentaje de la explotacin de los datos. En cuanto a los centroides que caracterizan a este periodo: Capot, Rayado Rozado, Observada (2 %). Panel trasero bajo bal, Rayado Rozado, Observada (3%). Llanta delantera izquierda, Abollado, Observada (18 %). DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 223 de287 Ing. Hugo Daniel Flores Se puede ver que las mismas son solo averas del tipo leve debido a que las mismas solo aparecen como observaciones.
En el quinto periodo el dao con media global es: Guardabarro delantero derecho, Faltante. Este dao coincide con el dao de centroide de mayor ocurrencia de este periodo pero el mismo no aparece en la base de datos estudiada. Al igual que en los casos anteriores posiblemente su aparicin solo se debe a cuestiones de clculo matemtico. Y para reforzar la conclusin tambin se debe mencionar que la mayor cantidad de tipos de avera para este periodo no es el Faltante sino el Abollado. En cuanto a los centroides que aparecen con posibilidad de ocurrencia baja en la realidad se encuentra: Barras de techo, Rayado Rozado, Observada (3 %). El 3 % indica cantidad de ocurrencia numerosa en relacin a la cantidad verificada sobre la base de datos. Los centroides que caracterizan este periodo son: Retrovisor externo izquierdo, Pintura saltada, Observada (4 %). Tapa tanque combustible, Rayado Rozado, Observada ( 1 %). Si bien no representan un porcentaje importante de ocurrencia son los nicos cuyo resultado en la verificacin de datos tienen ocurrencia vlida.
Como en el periodo 5, en el periodo 6 la media global de dao ocurrido no encuentra validez cruzando los datos de la base de datos explotada: Zcalo derecho, Faltante. Este dao no tiene posibilidad de ocurrencia real. En cuanto a los centroides que caracterizan al periodo: Capot, Rayado Rozado, Observada (1 %). Panel trasero bajo bal, Rayado Rozado, Observada (1 %). Estos dos centroides representan un porcentaje mnimo de ocurrencia en funcin de la cantidad de datos introducidos en el modelo.
En el periodo 7 tampoco se encuentra correspondencia entre la media global y los datos explotados: Guardabarro delantero derecho, Faltante. En cuanto al centroide que caracteriza este periodo se ve: Bolsa de herramientas, Arrancado - Roto Fisurado, Observada (1 %). El porcentaje de ocurrencia es mnimo.
El periodo 8 tiene como media global: Zcalo derecho, Faltante. Y al igual que en el periodo anterior este centroide no represente ocurrencia real en la base datos. En cuanto a los centroides representativo de este periodo: Paragolpe delantero / Protector delantero, Rayado Rozado, Observada (2 %). Paragolpe trasero / Spoiler trasero, Rayado Rozado, Observada (2 %). Luz de neblina trasera, Faltante, Observada (14 %).
El periodo 9 tiene como media global: Taza, Proyeccin. El centroide ms importante no representa una avera real. El cluster representativo de este periodo es: Guardabarros y parante trasero izquierdo, Rayado Rozado, Observada (4 %). DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 224 de287 Ing. Hugo Daniel Flores Llanta trasera izquierda, Rayado Rozado, Observada (1 %). Este representa un porcentaje mnimo de ocurrencia en la base de datos explotada.
La media global que representa este periodo es: Zcalo derecho, Faltante. Tampoco es una combinacin de dao vlida y adems no se corresponde con el tipo de avera ms producido en este periodo. Los centroides que representan este periodo son ms representativos y arrojan mayor probabilidad de ocurrencia que en los periodos anteriores: Paragolpe delantero / Protector delantero, Rayado Rozado, Observada (2 %). Moldura protectora lateral izquierda, Rayado Rozado, Observada (17 %). Retrovisor externo derecho, Faltante (79 %).
Para finalizar con el desarrollo de este punto del Clustering de daos considerando Parte +Tipo de Avera +Gravedad es difcil tomar como valores vlidos factibles de dar algn tipo de informacin en relacin al comportamiento de las averas debido especficamente a que la combinacin de los parmetros que definen un dao es excluyente. Es decir que hay combinaciones de cdigos de partes, averas y gravedades que en la realidad no se van a producir e inclusive en la prctica algunas veces son poco frecuentes y no justifican su estudio.
El desarrollo del Clustering evaluando cada uno de los grupos separando por cada una de sus partes si resulta de validez para el modelo y si arroja resultados factibles de ser estudiados para determinar un comportamiento de los siniestros.
En los puntos que continan en el presente trabajo se seguir evaluando la informacin suministrada por el agrupamiento de datos considerando los daos imputables a un modelo o a un determinado lugar, por lo tanto es viable la posibilidad que el agrupamiento de datos arroje resultados que permitan representar fehacientemente el comportamiento de los daos en las unidades automotrices.
8.5.2.5. Lugares, Partes y Tipos de Averas.
Analizando el resultado del primer periodo podemos ver que la media global contemplando la gravedad de una avera y sin contemplarla arrojan como dao: Retiro de Puerto, Tapa acceso gancho remolque, Faltante. La gravedad de la media global es: Mediano. En cuanto a los resultados sin contemplar la gravedad de la avera podemos ver: Subida Buque Puerto de Origen, Bolsa de herramientas, Faltante (87 %). Luego se puede visualizar el siguiente resultado: Transferencia ubicacin y lnea de carga, Luz de neblina trasera, Exceso kilometraje (6 %). Transferencia ubicacin y lnea de carga, Luz de neblina trasera, Abollado (2 %). Si bien tanto el lugar como la parte averiada suman un 8 % de ocurrencia, los porcentajes se dividen entre el 6 % y 2 % para diferentes tipos de averas. Finalmente se puede ver que los daos: Ingreso a Puerto, Cubierta delantera derecha, Abollado (2 %). Ingreso a Puerto, Paragolpe delantero / Superior, Rayado Rozado (1 %). Ingreso a Puerto, Techo corredizo, Faltante (1 %). Ingreso a Puerto, Luz trasera izquierda, Abollado (1 %). El 5 % del total de averas ocurren en el ingreso a puerto, pero las partes se distribuyen en tres grupos 3 % de abolladuras, 1 % de rayados o rozados y 1 % de faltantes. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 225 de287 Ing. Hugo Daniel Flores Si los datos procesados contemplan la gravedad de una avera los resultados cambian. Los daos que encabezan el mayor porcentaje de ocurrencias son: Subida Buque Puerto de Origen, Llave, Abollado, Leve (42 %). Retiro de Puerto, Cristales de parante delantero, Abollado, Grave (20 %). Subida Buque Puerto de Origen, Cable de carga, Faltante, Mediano (12 %). Subida Buque Puerto de Origen, Guardabarro delantero izquierdo, Rayado Rozado, Mediano (2 %). Analizando estos datos se puede ver que las averas ocurren en un 56 % en la subida a buque. Pero los tipos de averas se dividen solo en tres, por un lado el 62 % de abolladuras, el 12 % son faltantes y por otro solo el 2 % corresponde a rayados o rozados. Y en cuanto a las partes no sucede lo mismo puesto que se dividen en 4 partes, el 42 % corresponden a llaves, el 20 % a los cristales de parante delantero, el 12 % se refiere a los cables de carga o bien en un 2 % a guardabarros delantero izquierdo. Finalmente se ve que los las gravedades varan en leves 42 %, graves 20 % y medianos en un 2 %. Luego se ve la siguiente distribucin de ocurrencia de averas donde es considerada la gravedad: Bajada de Buque, Tapizado interno puerta delantera izquierda, Rayado Rozado, Mediano (12 %). Ingreso a Puerto, Moldura protectora lateral derecha, Rayado Rozado, Leve (10 %). Transferencia ubicacin y lnea de carga, Insignia, Faltante, Leve (2 %). Solo se puede hacer la observacin referida a que solo participa de esta distribucin dos tipos de averas por un lado el 22 % de rayados o rozados leves y por otro el 2 % de faltantes leves.
El segundo periodo tiene menor cantidad de centroides. En cuanto a la media global tambin como en el periodo anterior con la participacin y sin la participacin de la severidad de los daos, la avera es la misma y en el mismo lugar: Retiro de Puerto, Tapa acceso gancho remolque, Faltante. Si se especifica la gravedad esta es media. Sin la consideracin de los datos de gravedad se observa: Subida Buque Puerto de Origen, Bolsa de herramientas, Faltante (92 %). Adems el resultado en evaluacin tiene coherencia entre la avera y la parte del auto involucrada. Para concluir con esta parte se pueden ver porcentajes mnimos en: Transferencia ubicacin y lnea de carga, Otros, Abollado (3 %). Transferencia ubicacin y lnea de carga, Puerta delantera izquierda, Rayado Rozado (1 %). Ingreso a Puerto, Techo corredizo, Rayado Rozado (2 %). Ingreso a Puerto, Puerta trasera derecha, Rayado Rozado (1 %). Aqu se puede agrupar los lugares de averas en dos, el primero referido a la transferencia en lnea de carga (4 %) y el segundo en el ingreso a puerto (3 %). Mientras que los tipos de averas son tambin son dos, rayados o rozados con un 4 % y los abollados con un 3 %. Las partes si estn divididas en cuatro partes en funcin de los centroides definidos. Pasando a la evaluacin de los resultados considerando la gravedad de las averas en los lugares en estudio se ve que produce una dispersin de los porcentajes de mayor ocurrencia: Bajada de Buque, Panel lateral izquierdo, Faltante, Leve (39 %). Bajada de Buque, Llanta delantera derecha, Abollado, Leve (33 %). El 72 % se produce en la bajada de un buque. En cuanto a los tipos de averas se observa faltantes con el 39 % y abollados con el 33 %. Y en relacin a las partes involucradas se puede ver que ocurren en el panel lateral izquierdo y las llantas delanteras derechas. En los dos casos la gravedad es solo leve. Finalmente se ve que los porcentajes mnimos de ocurrencia de avera se producen segn la siguiente distribucin: DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 226 de287 Ing. Hugo Daniel Flores Bajada de Buque, Cristales de parante delantero, Faltante, Intolerable (5 %). Bajada de Buque, Llanta delantera derecha, Faltante, Grave (8 %). Retiro de Puerto, Guardabarro trasero derecho, Faltante, Grave (13 %). Ingreso a Puerto, Tapa posterior de techo, Pintura saltada, Mediano (2 %). Se observa que el 13 % ocurren en la bajada de un buque, un 13 % en el retiro de un puerto y solo un 2 % en ele ingreso a un puerto. En canto a los tipos de averas solo se presentan dos, los faltantes con el 26 % y un 2 % para pinturas saltadas. En referencia a las partes involucradas ests se distribuyen en cuatro en funcin de los centroides generados, un 13 % de guardabarros traseros derechas, un 8 % de llantas delanteras derechas, un 5 % de cristales de parantes delanteros y un 2 % de tapas posteriores de techo. Finalmente se observa que las gravedades encontradas se dividen en tres grupos, 21 % de graves, 5 % de intolerables y 2 % de medias.
El tercer periodo se caracteriza por el dao global: Retiro de Puerto, Tapa acceso gancho remolque, Faltante. Y si se contempla la gravedad, esta es leve. El lugar ms importante donde ocurren las averas sin considerar su gravedad es: Transferencia ubicacin y lnea de carga, Bolsa de herramientas, Faltante (87 %). Luego en porcentajes mnimos se puede ver: Ingreso a Puerto, Paragolpe trasero / Zona contacto, Rayado Rozado (6 %). Ingreso a Puerto, Luz de neblina trasera, Abollado (3 %). Ingreso a Puerto, Barras de techo, Pintura saltada (1 %). Ingreso a Puerto, Guardabarro trasero derecho, Pintura saltada (1 %). Ingreso a Puerto, Luz de patente trasera, Rayado Rozado (1 %). Transferencia ubicacin y lnea de carga, Retrovisor externo izquierdo, Rayado Rozado (1 %). Se observa que el 12 % de averas se produce en el ingreso a un puerto y solo el 1 % a los lugares vinculados a la transferencia y lnea de carga. En cuanto a las apartes afectadas se puede ver otra distribucin entre los porcentajes mnimos, esto es: un 6 % para los paragolpes traseros, un 3 % para las luces de neblina trasera, un 1 % para las barras de techo al igual que los guardabarros traseros derechos, las luces de patente traseras y los retrovisores externos izquierdos. En cuanto a los tipos de averas se observa que el 8 % son rayados o rozados, el 3 % son abollados y solo un 1 % para pintura saltada. Analizado los datos considerando la gravedad de las averas se observa: Subida Buque Puerto de Origen, Otros, Faltante (78 %). Se ve que el mayor porcentaje de incidentes se realiza a la subida a un buque. Los porcentajes mnimos de ocurrencia se observan en: Ingreso a Puerto, Retrovisor externo derecho, Proyeccin (11 %). Subida Buque Puerto de Origen, Giro Delantero (derecho / izquierdo), Faltante, Grave (9 %). Ingreso a Puerto, Alfombra suplementarias, Proyeccin, Grave (1 %). Ingreso a Puerto, Luz de neblina trasera, Faltante, Grave (1 %). El 13 % ocurre al ingreso a un puerto mientras que un 9 % ocurre a la subida a un buque. En cuanto a las partes que intervienen se observa que el 11 % se produce en retrovisores externos derechos, un 9 % en giros delanteros derechos o izquierdos, un 1 % son sobre las alfombras suplementarias y un 1 % sobre las luces de neblina trasera. En relacin a los tipos de averas se observa que el 12 % son de tipo proyeccin y un 10 % de faltantes. Finalmente se observa que las averas ocurridas son graves.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 227 de287 Ing. Hugo Daniel Flores El cuarto periodo se caracteriza por averas global en retiro de puerto. Las partes que hacen a la media global son el guardabarros trasero derecho. En cuanto al tipo de avera de la media son los faltantes. La severidad de las averas de la media si es considerada es grave. Los porcentajes de averas si la consideracin de la gravedad no es tenida en cuenta es la siguiente: Retiro de Puerto, Puerta trasera derecha, Faltante (81) %) El mayor ndice de siniestralidad no coincide con la media global solo en la parte daada pero si en el lugar y el tipo de dao. Luego los porcentajes de siniestralidad bajan agrupndose de la siguiente manera: Ingreso a Puerto, Capot, Rayado Rozado (2 %). Subida Buque Puerto de Origen, Tapa posterior de techo, Rayado Rozado (3 %). Retiro de Puerto, Taza, Faltante (6 %). Retiro de Puerto, Llanta delantera izquierda, Faltante (8 %). El 3 % se producen en la subida al buque, el 2 % en el ingreso a puerto y el 14 % en el retiro de puerto. Las averas en los dos primero lugares son rayados y rozados y en retiro de puerto son faltantes. Y las partes de los autos involucradas se dividen en un 2 % capot, un 3 % a las tapas posteriores de techos, un 6 % a las tazas y 8 % a las llantas delanteras izquierdas.
Si la gravedad es considerada el mayor porcentaje de ocurrencia es en: Bajada de Buque, Zcalo derecho, Faltante (60 %). Luego los porcentajes se agrupan de la siguiente forma: Subida Buque Puerto de Origen, Escape, Faltante, Observada (22 %). Ingreso a Puerto, Cubierta delantera derecha, Faltante (11 %). Ingreso a Puerto, Luz de neblina trasera, Proyeccin, Observada (4 %). Ingreso a Puerto, Capot, Rayado Rozado, Observada (2 %). Ingreso a Puerto, Parabrisa, Faltante, Observada (1 %). El 22 % se produce en la subida a buque y el 18 % en el ingreso a puerto. En referencia a las partes se distribuyen en 11 % cubiertas delanteras derechas, 4 % luces de neblina traseras, 2 % en capot y el 1 % en parabrisas. En relacin a los tipos de averas se dividen en faltantes con un 34 %, un 4 % proyecciones y un 2 % rayados o rozados. Y finalmente la severidad de las averas se distribuye en un 29 % de solo observaciones y 11 % graves.
La media global para el quinto periodo se define en: Retiro de Puerto, Guardabarro delantero derecho, Faltante. La severidad es grave si es considerada. Si no se considera la gravedad de las averas la ocurrencia de los siniestros se desarrolla de la siguiente manera: Retiro de Puerto, Cristales de parante delantero, Faltante (66 %). Luego el porcentaje baja y se distribuye como sigue: Retiro Fbrica de Origen, Paragolpe trasero / Spoiler trasero, Rayado Rozado (26 %). Bajada de Buque, Antena, Proyeccin (5 %). Bajada de Buque, Paragolpe delantero / Protector delantero, Rayado - Rozado (2 %). Bajada de Buque, Paragolpe delantero / Superior, Rayado Rozado (1 %). Subida Buque Puerto de Origen, Paragolpe delantero / Protector delantero Rayado Rozado (1 %). En retiro de fbrica se produce el 26 % de las averas de este periodo, en bajada de buque el 8 % y el 1 % en subida a buque. Luego analizando los resultados de las partes se ve que el paragolpe delantero o protector delantero tiene un 3 %, antenas un 5 % y el 26 % los paragolpes traseros o DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 228 de287 Ing. Hugo Daniel Flores spoilers traseros. En cuanto a las averas ests se caracterizan por rayado o rozado 30 % y el 5 % proyecciones. Considerando la gravedad de las averas se observa que el mayor porcentaje de siniestralidad de este periodo es: Subida Buque Puerto de Origen, Guardabarro delantero derecho, Faltante (76 %). Luego los menores porcentajes se definen en los siguientes centroides: Ingreso a Puerto, Llanta delantera derecha, Proyeccin, Observada (6 %). Bajada de Buque, Zcalo derecho, Faltante, Observada (4 %). Ingreso a Puerto, Llanta delantera izquierda, Proyeccin (3 %). Ingreso a Puerto, Techo (inclusive convertible), Rayado Rozado (2 %). Ingreso a Puerto, Otros, Abollado (5 %). Ingreso a Puerto, Techo (inclusive convertible), Pintura saltada (4 %). En ingreso a puerto se produce el 20 % y el 4 % en la bajada de buque. En referencia a los tipos de averas se subdividen en 9 % proyecciones, faltantes 4 %, rayados o rozados 2 %, un 5 % de abollados y el 4 % pinturas saltadas. Observando las partes afectadas stas se dividen en llantas delanteras derechas el 6 %, llanta delanteras izquierdas 3 %, zcalos derechos 4 %, techos (inclusive convertibles) 2 % y otros el 5 %. Finalmente se observa que el 10 % son solo observaciones y el 14 %
A continuacin se realiza la evaluacin de los datos explotados para el periodo seis. Se puede ver que la media global est constituida por: Retiro de Puerto, Zcalo derecho, Faltante. Y si la severidad es considerada esta es grave. Analizados los datos del periodo seis sin la consideracin de la gravedad de las averas se observa como ocurrencia predominante: Subida Buque Puerto de Origen, Guardabarro trasero derecho, Faltante (79 %). El lugar especificado y el dao no coincide con la media global salvo en el tipo de avera que es Faltante. En cuanto a los porcentajes de ocurrencia menor esos se distribuyen de la siguiente manera: Ingreso a Puerto, Tapa acceso gancho remolque, Faltante (12 %). Ingreso a Puerto, Zcalo interno puerta delantera izquierda, Rayado Rozado (3 %). Ingreso a Puerto, Paragolpe delantero / Protector delantero, Rayado Rozado (2 %). Transferencia ubicacin y lnea de carga, Spoiler delantero, Rayado Rozado (1 %). Transferencia ubicacin y lnea de carga, Paragolpe delantero / Protector delantero, Rayado Rozado (1 %). Transferencia ubicacin y lnea de carga, Llave, Abollado (1 %). Se observa que el 15 % de las averas se producen en el ingreso a un puerto. Las partes intervinientes son las tapas de acceso a gancho de remolque con un 12 %, luego los zcalos internos de puerta delantera izquierda con el 3 %, el paragolpe delantero o protector delantero con un 3 %, el spoiler delantero con el 1 % al igual que las llaves con el 1 %. Luego se observa que las averas se distribuyen en: un 7 % de rayados o rozados, un 12 % de faltantes y solo un 1 % de abollados. Pasando al caso donde las severidades son consideradas se observa lo siguiente: Bajada de Buque, Zcalo derecho, Faltante (88 %). El mayor porcentaje de ocurrencia tampoco coincide con la media global del periodo salvo en el tipo de averas que es Faltante. Luego en porcentajes inferiores se observa: Bajada de Buque, Tapa acceso gancho remolque, Abollado, Observada (7 %). Bajada de Buque, Moldura protectora lateral derecha, Faltante, Observada (3 %). Ingreso a Puerto, Tapa posterior de techo, Rayado Rozado, Observada (1 %). DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 229 de287 Ing. Hugo Daniel Flores Transferencia ubicacin y lnea de carga, Puerta trasera izquierda, Abollado, Observada (1 %). Los daos ocurren en un 10 % a la bajada del buque, en un 1 % en el ingreso al puerto y al igual que en la transferencia de ubicacin y lnea de carga. En referencia a los tipos de averas se observa que el 8 % son abollados, el 3 % faltantes y el 1 % rayados o rozados. En cuanto a las partes observadas se ve que el 7 % pertenece a las tapas de acceso a gancho de remolque, el 3 % a moldura protectora lateral derecha, y el 1 % para tapa posterior de techo al igual que la puerta trasera izquierda. Finalmente se observa que la severidad de la avera es solamente observable en todos los casos (12 %).
La media global del sptimo periodo est caracterizada por los daos: Transferencia ubicacin y lnea de carga, Guardabarro delantero derecho, Faltante. Si la gravedad es considerada entonces esta es grave. Observando los resultados del procesamiento sin considerar la gravedad de los daos se puede ver que hay una distribucin homognea de los centroides. Esto es: Ingreso a Puerto, Parabrisa, Proyeccin (33 %). Bajada de Buque, Guardabarro delantero izquierdo, Abollado (18 %). Ingreso a Puerto, Faro de stop luneta, Abollado (18 %). Ingreso a Puerto, Llave, Rayado Rozado (16 %). Bajada de Buque, Manijas externas de puertas traseras, Proyeccin (12 %). Bajada de Buque, Paragolpe delantero / Protector delantero, Rayado Rozado (2 %). Las averas son producidas en un 67 % en el ingreso a puerto y el 32 % en la bajada de buque. En referencia a las partes afectadas se divide en: un 33 % de parabrisas, 18 % guardabarros delanteros izquierdos al igual que los faros de stop de luneta, el 17 % de llaves, el 12 % de manijas externas de puertas traseras y el 2 % de paragolpes delanteros o protectores delanteros. Finalmente los tipos de averas son de proyeccin en un 45 %, un 36 % de abollados y el 18 de rayados o rozados.
Luego analizando los resultados del proceso contemplando la severidad de las averas el resultado es: Transferencia ubicacin y lnea de carga, Guardabarro delantero derecho, Faltante (86 %). En esta parte si el resultado muestra un mayor predominio en un centroide con casi un 90 % de ocurrencia. Adems se observa que tanto el lugar como la avera coinciden con la media global. Luego los centroides se dividen en menor porcentaje de la siguiente manera: Ingreso a Puerto, Guardabarro delantero derecho, Faltante, Observada (10 %). Bajada de Buque, Parrilla delantera, Abollado, Observada (3 %). Bajada de Buque, Panel trasero bajo bal, Rayado Rozado, Observada (1 %). Bajada de Buque, Alfombra suplementarias, Proyeccin, Observada (1 %). Los lugares de ocurrencia se mantienen como en el tem anterior. El 10 % suceden en el ingreso al puerto y el 5 % en la bajada de buque. En cuanto a las partes que intervienen se observa el 10 % son guardabarros delanteros derechos, el 3 % en parrillas delanteras, y el 1 % tanto para los paneles traseros bajo bal como para alfombras suplementarias. En referencia al tipo de averas estas se subdividen en 10 % de faltantes, 3 % de abollados, y 1 % de rayados y rozados al igual que proyecciones. Finalmente se ve que la gravedad de las averas son solo observadas (15 %).
El octavo periodo es caracterizado por la media global: Transferencia ubicacin y lnea de carga, Guardabarro delantero derecho, Faltante. Esta es la misma que para el periodo anterior tanto en el lugar de ocurrencia como el tipo de avera y la gravedad de la misma. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 230 de287 Ing. Hugo Daniel Flores Luego si se analiza detalladamente la distribucin de las averas sin considerar la gravedad del mismo se observa una distribucin pareja entre los diferentes centroides generados. Esto es: Bajada de Buque, Moldura protectora lateral derecha, Faltante (30 %). Transferencia ubicacin y lnea de carga, Manual, Faltante (24 %). Ingreso a Puerto, Puerta trasera izquierda, Proyeccin (20 %). Transferencia ubicacin y lnea de carga, Techo (inclusive convertible), Rayado Rozado (17 %). Transferencia ubicacin y lnea de carga, Guardabarro trasero derecho, Pintura saltada (10 %). Los lugares de ocurrencia se distribuyen entre un 30 % en la bajada de buque, el 51 % en la transferencia de ubicacin de lnea de carga y el 20 en el ingreso a puerto. En referencia a las partes averiadas se observa el 30 % en moldura protectora lateral derecha, el 24 % de manuales, el 20 de puertas traseras izquierdas, el 17 % techos (inclusive convertibles) y el 10 % de guardabarros traseros derechos. En relacin a los tipos de averas se observa que el 54 % son faltantes, el 20 % son proyecciones, el 17 % de rayados y rozados y el 10 de pinturas saltadas. Analizando los datos considerando la gravedad de las averas se observa que, al igual que en el periodo anterior, se centralizan en un centroide. Esto es: Transferencia ubicacin y lnea de carga, Zcalo derecho, Faltante (78 %). Donde la misma coincide con la media global en el lugar, el tipo de avera y la gravedad. Luego se observa que: Subida Buque Puerto de Origen, Panel lateral derecho, Abollado, Observada (12 %). Transferencia ubicacin y lnea de carga, Tapizado interno puerta delantera izquierda, Rayado Rozado, Observada (5 %). Ingreso a Puerto, Zcalo izquierdo, Abollado, Observada (2 %). Transferencia ubicacin y lnea de carga, Puerta trasera izquierda, Rayado Rozado, Observada (2 %). Los lugares se distribuyen en el 12 % en subida a buque, el 7 % en transferencia ubicacin y lnea de carga, y el 2 % en el ingreso a puerto. Las partes afectadas se subdividen en 12 % de paneles laterales derechos, 5 % de tapizados internos de puertas delanteras izquierdas, 2 % en zcalos izquierdos y el 2 % en puertas traseras izquierdas. En referencia a los tipos de averas son el 14 % de abollados y el 7 % de rayados y rozados. Por ltimo la severidad es grave.
El penltimo periodo en estudio se caracteriza por la media de ocurrencia global: Transferencia ubicacin y lnea de carga, Taza, Proyeccin. Con gravedad si es tenida en cuenta, grave. Si la gravedad no es considerada el centroide ms importante es: Ingreso a Puerto, Manijas externas de puertas delanteras, Proyeccin (62 %). Luego se dividen de la siguiente forma: Transferencia ubicacin y lnea de carga, Faro de stop luneta, Rayado Rozado (23 %). Bajada de Buque, Tapa acceso gancho remolque, Abollado (10 %). Bajada de Buque, Barras de techo, Abollado (3 %). Bajada de Buque, Capot, Rayado Rozado (1 %). Bajada de Buque, Zcalo interno puerta delantera izquierda, Rayado Rozado (1 %). El 23 % se produce en la transferencia ubicacin y lnea de carga y el 15 % en la bajada de buque. Las partes afectadas son: un 23 % de faros de stop de lunetas, 10 % tapas de ganchos de remolque, 3 % barras de techos, 1 % en capot y zcalo interno de puertas delanteras izquierdas. Mientras que el tipo de avera es 25 % de rayados o rozados y el 13 % de abollados. Si la gravedad del dao es considerada entonces el centroide ms importante es: DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 231 de287 Ing. Hugo Daniel Flores Transferencia ubicacin y lnea de carga, Limpiador y lavador de parabrisas, Proyeccin (79 %). No coincide totalmente con la media global. Luego los porcentajes mnimos ocurren de la siguiente forma: Subida Buque Puerto de Origen, Limpiador y lavador de parabrisas, Abollado, Observada (5 %). Transferencia ubicacin y lnea de carga, Tapa tanque combustible, Rayado Rozado, Observada (5 %). Ingreso a Puerto, Tapizado interno puerta delantera izquierda, Proyeccin, Observada (5 %). Transferencia ubicacin y lnea de carga, Zcalo derecho, Rayado Rozado, Observada (2 %). Transferencia ubicacin y lnea de carga, Llanta trasera izquierda, Rayado Rozado, Observada (1 %). Ingreso a Puerto, Escape, Rayado Rozado, Observada (1 %). Subida Buque Puerto de Origen, Puerta delantera izquierda, Abollado, Observada (1 %). El 6 % se observa en la subida a buque de puerto de origen, luego el 8 % en la transferencia ubicacin y lnea de carga, el 6 % en el ingreso a puerto. Las partes que intervienen son: el 5 % el limpiador y lavador de parabrisas, el 5 % de tapas de tanque de combustible, el 5 % de tapizado interno de la puerta delantera izquierda, el 2 % del zcalo derecho, el 1 % de las llantas traseras izquierdas, el 1 % del escape y el 1 % puertas delanteras izquierdas. Luego el tipo de avera se divide en un 6 % de abollados, 9 % rayados o rozados y 5 % de proyecciones.
El ltimo periodo se caracteriza por la media: Transferencia ubicacin y lnea de carga, Zcalo derecho, Faltante. Con el tipo de severidad grave si es considerada. Si no se considera la severidad entonces el centroide de mayor peso es: Transferencia ubicacin y lnea de carga, Giro Delantero (derecho / izquierdo), Faltante (61 %). Luego baja de forma considerable y se distribuye de la siguiente forma: Bajada de Buque, Panel lateral derecho, Faltante (17 %). Transferencia ubicacin y lnea de carga, Tapa posterior de techo, Rayado Rozado (14 %). Transferencia ubicacin y lnea de carga, Paragolpe delantero / Protector delantero, Rayado Rozado (4 %). Transferencia ubicacin y lnea de carga, Manijas externas de puertas traseras, Reventado Estallado (4 %). Transferencia ubicacin y lnea de carga, Llanta trasera izquierda, Rayado Rozado (1 %). El 17 % se producen en la bajada del buque y el 23 % en transferencia ubicacin y lnea de carga. Las partes afectadas son: 17 % de paneles laterales derechos, 14 % de tapa posterior de techo, 4 % de paragolpe delantero y protector delantero, 4 % de manijas externas de puertas traseras y el 1 % de llantas traseras izquierdas. Lo tipos de averas son: 19 % de rayados o rozados y el 4 % de estallados. Si los datos de la gravedad de las averas son considerados entonces la ocurrencia de los daos es la siguiente. El mximo porcentaje est centralizado en Transferencia ubicacin y lnea de carga, Retrovisor externo derecho, Faltante: (79 %). Como en el punto anterior no coincide con la media global. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 232 de287 Ing. Hugo Daniel Flores Luego los porcentajes se reducen y queda conformado de la siguiente manera: Transferencia ubicacin y lnea de carga, Llanta delantera izquierda, Rayado Rozado, Observada (8 %). Ingreso a Puerto, Paragolpe trasero / Spoiler trasero, Rayado Rozado, Observada (5 %). Ingreso a Puerto, Encendedor, Manchado, Observada (5 %). Bajada de Buque, Moldura protectora lateral derecha, Abollado, Observada (2 %). Ingreso a Puerto, Giro Delantero (derecho / izquierdo), Pintura saltada, Observada (1 %). El 8 % ocurre en la transferencia de ubicacin y lnea de carga, el 11 % en el ingreso a puerto y el 2 % en la bajada de buque. Las partes afectadas se dividen en 8 % llanta delantera izquierda, 5 % de paragolpes traseros o spoilers traseros, 5 % de encendedores, 2 % de molduras protectoras laterales derechas, y 1 % giro delantero (derecho o izquierdo). Los tipos de averas son rayados o rozados 13 %, manchados 5 %, abollados 2 % y pintura saltada un 1 %.
8.5.2.6. Modelos, Partes y Tipos de Averas.
A continuacin se realiza una evaluacin de los resultados vinculados con la ocurrencia de averas en los modelos de autos en estudio. Se contemplan como en el tem anterior el anlisis de daos con consideracin de la severidad y sin la consideracin de ella.
El primer periodo tiene como media global: Modelo 12, Tapa acceso gancho remolque, Faltante. Y si la gravedad es considerada esta es mediana. Luego se observa la siguiente distribucin de los centroides formados: Modelo 10, Manual, Abollado (25 %). Modelo 10, Panel lateral izquierdo, Abollado (22 %). Modelo 18, Cubierta delantera derecha, Rayado Rozado (18 %). Modelo 17, Cubierta delantera izquierda, Abollado (14 %). Modelo 4, Moldura protectora lateral derecha, Faltante (13 %). Modelo 9, Cerraduras de puertas, Rayado Rozado (6 %). Modelo 10, Giro Delantero (derecho / izquierdo), Rayado Rozado (2 %). El modelos 10 tiene el 49 % de participacin entre los daos detectados, luego el modelo 18 tiene el 18 %, el modelo 17 con un 14 %, el modelo 4 con un 13 % y finalmente el modelo 9 con solo un 6 %. En referencia a las partes que intervienen estas se subdividen en: 25 % manual, 22 % panel lateral izquierdo, 18 % cubierta delantera derecha, 14 % cubierta delantera izquierda, 13 % en moldura protectora lateral derecha, 6 % en cerraduras de puertas, y el 6 % en giros delanteros (derechos o izquierdos). Finalmente el tipo de avera se divide en: 61 % de abollados, 26 % rayados y rozados y el 13 % de faltantes. La produccin de averas considerando la gravedad tiene el siguiente el siguiente comportamiento: Modelo 11, Luz de neblina trasera, Faltante, Leve (59 %). Modelo 15, Puerta trasera derecha, Faltante, Grave (16 %). Modelo 5, Giro Delantero (derecho / izquierdo), Faltante, Intolerable (8 %). Modelo 17, Panel lateral derecho, Rayado Rozado, Mediano (6 %). Modelo 16, Bolsa de herramientas, Abollado, Mediano (5 %). Modelo 9, Manijas externas de puertas traseras, Rayado Rozado, Mediano (3 %). Modelo 18, Paragolpe trasero / Spoiler trasero, Faltante, Mediano (2 %). Modelo 14, Retrovisor externo derecho, Pintura saltada, Mediano (1 %). El modelo 11 tiene el 59 % de participacin, el modelo 15 le sigue con un 16 %, luego se observa el modelo 5 con el 8 %, el modelo 17 con el 6 %, el modelo 16 con el 5 %, el modelo 9 con el 3 %, el DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 233 de287 Ing. Hugo Daniel Flores modelo 18 con el 2 % y al final el modelo 14 con un 1 %. Las partes afectadas son: 59 % luces de neblinas traseras, puertas traseras derechas con el 16 %, los giros delanteros (derechos o izquierdos) con el 8 %, el panel lateral derecho con el 6 %, bolsas de herramientas con un 5 %, manijas externas de puertas traseras con el 3 %, el 2 para los paragolpes traseros o spoilers traseros y el 1 % para los retrovisores externos derechos. En cuanto a los tipos de averas estos se subdividen en: faltantes con el 85 %, 9 % los rayados o rozados, abollados el 5 % y pintura saltada el 1 %. Luego la severidad tiene el siguiente comportamiento: el 59 % con leves, 16 % graves, intolerables 8 %, y finalmente medianos 12 %.
El segundo periodo se caracteriza por la combinacin: Modelo 14, Tapa acceso gancho remolque, Faltante. Y cuando la severidad es considerada esta es media. Luego los centroides quedan conformados de la siguiente manera: Modelo 10, Guardabarro delantero izquierdo, Abollado (34 %). Modelo 17, Aerosol antipinchazos, Proyeccin (20 %). Modelo 17, Alfombra bal / caja de carga, Faltante (14 %). Modelo 17, Puerta delantera derecha, Abollado (12 %). Modelo 17, Cubierta delantera izquierda, Rayado Rozado (8 %). Modelo 8, Panel lateral izquierdo, Rayado Rozado (5 %). Modelo 6, Limpiador y lavador de parabrisas, Abollado (4 %). Modelo 7, Zcalo interno puerta delantera izquierda, Rayado Rozado (3 %). El modelo 10 participa con el 34 %, el modelo 17 tiene el 54 % de las averas, el modelo 8 con el 5 %, el modelo 6 con el 4 % y el modelo 7 con el 3 %. Luego las partes involucradas son: guardabarros delanteros izquierdos con el 34 %, aerosol antipinchazos 20 %, alfombra bal o caja de carga con el 14 %, puerta delantera derecha con el 12 %, cubierta delantera izquierda con el 8 %, panel lateral izquierdo el 5 %, limpiador y lavador de parabrisas con el 4 % y al final zcalo interno de puerta delantera izquierda con el 3 %. En cuanto a los tipos de averas se dividen de la siguiente forma: abollados 50 %, proyeccin el 20 %, faltantes el 14 % y rayados o rozados con el 16 %. Luego con la consideracin de las gravedades los daos se distribuyen del siguiente modo: Modelo 13, Puerta delantera izquierda, Faltante, Leve (47 %). Modelo 17, Alern, Faltante, Mediano (22 %). Modelo 16, Guardabarro trasero derecho, Faltante, Grave (16 %). Modelo 8, Giro Delantero (derecho / izquierdo), Faltante, Mediano (7 %). Modelo 8, Cristales de parante delantero, Faltante, Grave (5 %). Modelo 10, Barras de techo, Proyeccin, Mediano (2 %). El modelo 13 con el 47 % de ocurrencia, luego el modelo 17 con el 22 %, el modelo 16 el 16 %, el modelo 8 con el 12 % y finalmente el modelo 10 con el 2 %. Los tipos de averas se subdividen en: faltantes 97 % y proyeccin con el 2 %. Las partes se subdividen en: 47 % de puertas delanteras izquierdas, 22 % de alerones, con el 16 % guardabarros traseros derechos, el 7 % de giros delanteros (derecho o izquierdo), el 5 % de cristales de parante delantero y el 2 % de barras de techo. Finalmente la severidad de las averas se distribuye en: 47 % leves, 31 % medios y graves 21 %.
La media global del tercer periodo es: Modelo 15, Tapa acceso gancho remolque, Faltante. Y la severidad de la avera es leve si es considerada en el procesamiento. Luego los centroides arrojan la siguiente informacin: Modelo 9, Giro Delantero (derecho / izquierdo), Abollado (28 %). Modelo 17, Cubierta delantera izquierda, Faltante (22 %). Modelo 17, Guardabarro trasero derecho, Abollado (17 %). DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 234 de287 Ing. Hugo Daniel Flores Modelo 18, Limpiador y lavador de parabrisas, Proyeccin (14 %). Modelo 17, Llave de rueda, Faltante (11 %). Modelo 17, Tapa posterior de techo, Faltante (6 %). Modelo 13, Puerta trasera izquierda, Abollado (2 %). El modelo 9 ocurre en un 28 %, el modelo 17 el 56 %, el modelo 18 ocurre en un 14 % y las avera en el modelo 13 se producen en un 2 %. Luego se observa que el comportamiento de las parte se distribuye de la siguiente manera: 28 % en giros delanteros (derechos o izquierdos), 22 % en cubierta delantera izquierda, el 17 % en guardabarros traseros derechos, el 14 % en limpiador y lavador de parabrisas, 11 % en llaves de ruedas, el 6 % en tapa posterior de techo y el 2 % en puertas traseras izquierdas. Finalmente se observa que el 47 % son tipos de averas abollados, el 37 % de faltantes y el 14 % de proyecciones. Considerando las severidades de las averas se observa el siguiente comportamiento: Modelo 15, Tapa acceso gancho remolque, Faltante (89 %). En casi un 90 % de ocurrencia el modelo 15 es el ms afectado. Y coincide ciento por ciento con la media global. Luego los porcentajes mnimos quedan distribuidos de la siguiente forma: Modelo 17, Manual, Faltante, Grave (5 %). Modelo 10, Faro de stop luneta, Abollado, Grave (3 %). Modelo 4, Retrovisor externo derecho, Faltante, Grave (1 %). Modelo 17, Puerta trasera izquierda, Faltante, Grave (1 %). 6 % modelo 17, modelo 10 el 3 % y el modelo 4 el 1 %. Luego se observa que las partes afectadas son: manuales el 5 %, faros de stop de luneta el 3 %, 1 % de retrovisor externo derecho y tambin el mismo porcentaje para las puertas traseras izquierdas. Luego se observa que el 7 % son faltantes y el 3 % abollados. Finalmente el tipo de avera entre los porcentajes mnimos es siempre grave.
El cuarto periodo est caracterizado por el centroide. Modelo 15, Guardabarro trasero derecho, Faltante. Con severidad grave si es considerada. Luego sin la consideracin de la gravedad de averas los centroides dan la siguiente informacin: Modelo 18, Panel trasero bajo bal, Rayado Rozado (32 %). Modelo 8, Llanta delantera izquierda, Abollado (21 %). Modelo 18, Escape, Proyeccin (15 %). Modelo 17, Guardabarro delantero izquierdo, Pintura saltada (14 %). Modelo 6, Limpiador de Faros (derecho / izquierdo), Proyeccin (10 %). Modelo 17, Separador interno de carga, Proyeccin (6 %). Modelo 17, Llanta delantera derecha, Pintura saltada (2 %). Modelo 9, Parante delantero, Rayado Rozado (1 %). El 47 % corresponde al modelo 18, el modelo 8 el 21 %, el modelo 17 con el 22 %, el modelo 6 con el 10 % y el modelo 9 con el 1 %. Las partes se subdividen en: 32 % el panel trasero bajo bal, el 21 % las llantas delanteras izquierdas, el 15 % de escapes, el 14 % de guardabarros delanteros izquierdos, el 10 % limpiador de faros, el 6 % separador interno de carga, el 2 % de llanta delantera derecha y el 1 % en los parantes delanteros. Luego se observa que los tipos de averas se distribuyen de la siguiente forma: rayados o rozados 33 %, abollados con el 21 %, proyecciones con el 21 % y pinturas saltadas con el 16 %. Pasando a los resultados obtenidos con la consideracin de la gravedad del dao se observa que el mayor ndice de ocurrencia es: Modelo 15, Zcalo derecho, Faltante (71 %). Luego los porcentajes bajan de forma importante y quedan distribuidos de la siguiente forma: Modelo 18, Alfombra suplementarias, Faltante, Observada (13 %). Modelo 8, Tapa acceso gancho remolque, Abollado, Observada (10 %). DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 235 de287 Ing. Hugo Daniel Flores Modelo 18, Luz de patente trasera, Proyeccin, Observada (4 %). Modelo 9, Zcalo derecho, Manchado, Observada (2 %). Modelo 16, Batera, Rayado Rozado, Observada (1 %). El modelo 18 con el 17 %, luego el modelo 8 con el 10 %, el modelo 9 con el 2 % y al final el modelo 16 con el 1 %. Las partes que intervienen se dividen en: 13 % alfombras suplementarias, 10 % tapas de acceso gancho de remolque, 4 $ de luz de patente trasera, 2 % de zcalos derechos y 1 % en bateras. Los tipos de averas observados son: faltantes el 13 %, abollados con el 10 %, proyecciones con el 4 %, manchados con el 2 % y rayados o rozados con el 1 %. En todos los casos las averas son solo observables.
El quinto periodo est caracterizado por la media global: Modelo 13, Guardabarro delantero derecho, Faltante. Donde cuando se considera la severidad esta es grave. Luego pasando a la evaluacin de los resultados si la consideracin de la gravedad de los daos se observa: Modelo 17, Tapa de Bal o Puerta Trasera, Rayado Rozado (34 %). Modelo 7, Tapa acceso gancho remolque, Abollado (33 %). Modelo 17, Faro de stop luneta, Abollado (17 %). Modelo 18, Guardabarros y parante trasero izquierdo, Rayado Rozado (7 %). Modelo 6, Paragolpe trasero / Zona contacto, Rayado Rozado (7 %). Modelo 9, Paragolpe delantero / Superior, Rayado Rozado (2 %). Modelo 13, Techo (inclusive convertible), Abollado (1 %). El 51 % de ocurrencias en el modelo 17, el 33 % en el modelo 7, luego el modelo 18 con el 7 %, el modelo 6 con el 7 %, el modelo 9 con el 2 % y el modelo 13 con el 1 %. Las partes se agrupan en los siguientes porcentajes segn lo descrito en la lista previa. Los tipos de averas se subdividen en: rayados o rozados el 50 % y abollados el 51 %. Luego los datos a avaluar considerando la gravedad de los daos ocurre con el mayor porcentaje en: Modelo 13, Guardabarro delantero derecho, Faltante (89 %). Luego los porcentajes se reducen a los siguientes centroides: Modelo 6, Taza, Proyeccin, Observada (4 %). Modelo 18, Llave, Abollado, Observada (3 %). Modelo 19, Tapizado interno puerta delantera izquierda, Rayado Rozado, Observada (1 %). Modelo 8, Guardabarro delantero izquierdo, Abollado, Observada (1 %). Donde le modelo 6 aparece en un 4 %, el modelo 18 en el 4 %, el modelo 19 en el 1 % al igual que el modelo 8. Los tipos de averas se dividen en: 4 % proyecciones, 4 % abollados y 1 % en rayados o rozados. Las partes se distribuyen en: 4 % tazas, 3 % llaves, 3 % tapizados internos de puerta delanteras izquierdas y 1 % en guardabarros delanteros izquierdos. Finalmente se debe mencionar que en todos los casos las averas son solo observaciones.
El periodo seis tiene como media global: Modelo 13, Zcalo derecho, Faltante. Si se considera la severidad esta es grave. Los porcentajes de ocurrencia en los centroides se dividen en: Modelo 7, Escape, Faltante (45 %). Modelo 17, Panel trasero bajo bal, Rayado Rozado (24 %). Modelo 18, Giro Delantero (derecho / izquierdo), Abollado (15 %). Modelo 16, Guardabarros y parante trasero izquierdo, Abollado (8 %). Modelo 20, Paragolpe delantero / Protector delantero, Rayado Rozado (3 %). Modelo 17, Otros, Rayado Rozado (3 %). DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 236 de287 Ing. Hugo Daniel Flores Modelo 13, Barras de techo, Abollado (1 %). El modelo 7 con el 45 %, el modelo 17 con el 27 %, el modelo 18 con el 15 %, el modelo 16 con el 8 %, el modelo 20 con el 3 % y el modelo 13 con el 1 %. Luego las partes que intervienen se subdividen de la forma descrita en el listado anterior. En cuanto a loas tipos de averas estas se distribuyen de la siguiente forma: faltantes el 45 %, rayados o rozados el 27 % y abollados el 24 %. Los resultados del proceso considerando la gravedad de las averas se distribuyen como sigue: Modelo 13, Zcalo derecho, Faltante (88 %). El mayor porcentaje de ocurrencia es el modelo 13. Luego se distribuye en forma mnima entre los siguientes centroides: Modelo 7, Bolsa de herramientas, Faltante, Observada (7 %). Modelo 19, Bolsa de herramientas, Proyeccin, Observada (2 %). Modelo 16, Parrilla delantera, Pintura saltada, Observada (2 %). Modelo 20, Spoiler delantero, Rayado Rozado, Observada (1 %). Modelo 19, Paragolpe trasero / Spoiler trasero, Proyeccin, Observada (1 %). El modelo 7 con el 7 %, el modelo 19 con un 3 %, el modelo 16 con un 2 % y el modelo 20 con el 1 %. Luego las partes se distribuyen en: un 9 % bolsas de herramientas, el 2 % en parrilla delantera, el 1 % en spoilers delanteros y el 1 % para los paragolpes traseros o spoilers traseros. Los tipos de averas observados son: el 7 % de faltantes, proyeccin el 3 %, pinturas saltadas en un 2 % y un 1 % para rayados o rozados. Finalmente se debe mencionar que la severidad de las averas mnimas es solo observacin.
Los resultados del periodo siete tienen como media global: General: Modelo 15, Guardabarro delantero derecho, Faltante. Y cuando la gravedad es considerada esta es grave. Si no se considera la gravedad de las averas la distribucin es la siguiente: Modelo 6, Puerta delantera derecha, Faltante (33 %). Modelo 20, Barras de techo, Proyeccin (27 %). Modelo 19, Retrovisor externo izquierdo, Abollado (21 %). Modelo 20, Parrilla delantera, Rayado Rozado (10 %). Modelo 18, Retrovisor externo derecho, Reventado Estallado (4 %). Modelo 11, Barras de techo, Proyeccin (3 %). Modelo 13, Llanta delantera derecha, Abollado (1 %). Donde el modelo 6 tiene el 33 % de participacin, el modelo 20 el 37 %, el modelo 19 el 21 %, el modelo 18 con el 4 %, el modelo 11 con el 3 % y modelo 13 con el 1 %. Luego las partes son distribuidas de la siguiente forma: 33 % de puerta delantera derecha, 30 % de barras de techo, 21 % de retrovisor externo izquierdo, 10 % de parrilla delantera, 4 % de retrovisor externo derecho y 1 % de llanta delantera derecha. Finalmente los tipos de averas se distribuyen de la siguiente manera: 33 % de faltantes, 30 % de proyecciones, 22 % de abollados, 10 % de rayados o rozados y el 4 % de reventado o estallado. Sin considerar las severidades el mayor porcentaje de averas es: Modelo 15, Guardabarro delantero derecho, Faltante (86 %). Luego los porcentajes mnimos de ocurrencia son: Modelo 19, Retrovisor externo derecho, Faltante, Observada (9 %). Modelo 7, Zcalo izquierdo, Abollado, Observada (2 %). Modelo 6, Manijas externas de puertas traseras, Proyeccin, Observada (2 %). Modelo 5, Zcalo izquierdo, Rayado Rozado, Observada (1 %). Modelo 8, Retrovisor externo derecho, Pintura saltada, Observada (1 %). El modelo 19 con el 9 %, el 7 % con el 2 % al igual que el modelo 6, el modelo 5 y el modelo 8 con el 1 %. Las partes averiadas tienen los siguientes porcentajes: 10 % retrovisor externo derecho, 3 % DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 237 de287 Ing. Hugo Daniel Flores zcalo izquierdo y 2 % de manijas externas de puertas traseras. Los tipos de averas que participan son: 9 % faltantes, abollados 2 %, proyecciones 2 %, rayados o rozados 1 % al igual que pintura saltada. Finalmente el tipo de severidad es observado.
El periodo ocho tiene como media global: Modelo 14, Zcalo derecho, Faltante. Con severidad grave. En referencia a los resultados sin considerar la gravedad de la misma se divide de a siguiente forma: Modelo 20, Limpiador y lavador de parabrisas, Proyeccin (37 %). Modelo 7, Parrilla delantera, Faltante (24 %). Modelo 19, Zcalo izquierdo, Abollado (15 %). Modelo 5, Manijas externas de puertas traseras, Proyeccin (10 %). Modelo 13, Guardabarro delantero izquierdo, Abollado (7 %). Modelo 5, Capot, Rayado Rozado (3 %). Modelo 14, Techo corredizo, Faltante (3 %). El 37 % para el modelo 20, el 24 % el modelo 7, el modelo 19 con el 15 %, el modelo 5 el 13 %, el modelo 13 el 7 % y el modelo 14 con el 3 %. Las partes se subdividen segn los porcentajes es pacificados en el listado previo. En cuanto a los tipos de avera se puede observar: el 47 % son proyecciones, el 27 % faltantes, el 22 % de abollados y el 3 % de rayados o rozados. Considerando las severidades se observa la siguiente distribucin: Modelo 20, Cubierta delantera izquierda, Rayado Rozado, Observada (56 %). Modelo 14, Zcalo derecho, Faltante (16 %). Modelo 17, Manijas externas de puertas traseras, Proyeccin, Observada (12 %). Modelo 20, Tapa de Bal o Puerta Trasera, Rayado Rozado, Observada (10 %). Modelo 20, Paragolpe delantero / Protector delantero, Rayado Rozado, Observada (4 %). Modelo 11, Panel lateral derecho, Faltante, Observada (1 %). El 70 % para el modelo 20, el modelo 14 el 16 %, el modelo 17 con el 12 % y el modelo 11 con el 1 %.Las partes afectadas se distribuyen segn los datos especificados en el listado anterior. En cuanto a los tipos de averas estos son: rayados o rozados con el 70 %, faltantes con el 17 % y el 12 % proyecciones. Finalmente el tipo de severidad se divide en un 16 % de graves y un 83 % de solo observaciones.
El noveno periodo se caracteriza por el siguiente centroide: Modelo 14, Taza, Proyeccin. Y el tipo de severidad es grave. Luego si la gravedad no es considerada la distribucin de los centroides es como sigue a continuacin: Modelo 20, Limpiador y lavador de parabrisas, Proyeccin (54 %). Modelo 6, Tapizado interno puerta delantera izquierda, Rayado Rozado (16 %). Modelo 7, Guardabarro trasero derecho, Pintura saltada (14 %). Modelo 7, Cable de carga, Rayado Rozado (7 %). Modelo 13, Guardabarro trasero derecho, Abollado (3 %). Modelo 13, Techo (inclusive convertible), Abollado (3 %). Modelo 14, Luz de neblina trasera, Abollado (2 %). Modelo 13, Faro de stop luneta, Faltante (1 %). El modelo 20 con el 54 %, el modelo 6 con el 16 %, el modelo 7 con el 21 %, el modelo 13 con el 5 % y el modelo 14 con el 2 %. Luego se observa la siguiente distribucin entre las partes: 54 % limpiador y lavador de parabrisas, tapizado interno puerta delantera izquierda el 17 %, guardabarros trasero derecho con el 17 %, cable de carga 7 %, techo (inclusive convertible) 3 %, luz de neblina DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 238 de287 Ing. Hugo Daniel Flores trasera el 2 % y el faro de stop de luneta el 1 %. Luego el tipo de avera se subdivide en: pintura saltada 14 %, rayados o rozados el 7 %, el 8 % de abollados y el 1 % de faltantes. En referencia a la evaluacin de los resultados considerando su gravedad es la siguiente: Modelo 20, Llanta trasera izquierda, Rayado Rozado, Observada (1 %). Modelo 20, Alfombra bal / caja de carga, Rayado Rozado, Observada (3 %). Modelo 8, Alfombra suplementarias, Proyeccin, Observada (9 %). Modelo 16, Llanta delantera derecha, Faltante, Observada (7 %). Modelo 7, Llanta delantera derecha, Faltante (32 %). Modelo 20, Transponder, Proyeccin (47 %). El modelo 20 con el 51 %, luego los modelos 8 con el 9 %, el modelo 16 con el 7 % y el modelo 7 con el 32 % son los resultados obtenidos. En cuanto a las partes averiadas se subdividen en rayados o rozados con el 4 %, proyeccin con el 56 % y faltante con con el 39 %. Luego se observa que el 20 % son solo observaciones y averas el 80 %.
El ltimo periodo en estudio muestra la media global: Modelo 13, Zcalo derecho, Faltante. Con severidad grave. Sin la consideracin de la severidad el proceso arroja los siguientes valores: Modelo 7, Panel lateral derecho, Proyeccin (44 %). Modelo 19, Puerta trasera derecha, Faltante (41 %). Modelo 20, Manijas externas de puertas delanteras, Proyeccin (6 %). Modelo 20, Paragolpe delantero / Protector delantero, Rayado Rozado (4 %). Modelo 13, Techo corredizo Pintura saltada (4 %). Modelo 8, Capot, Faltante (1 %). Modelo 10, Cristales de parante delantero, Reventado Estallado (1 %). El modelo 7 con el 44 %, el modelo 19 con el 41 %, luego el modelo 20 con el 10 %, el modelo 13 con el 4 %, el modelo 8 con el 1 % al igual que el modelo 10. Luego las partes afectadas se distribuyen segn se especific el listado expuesto previamente. Los tipos de averas se distribuyen de la siguiente forma: proyeccin con el 50 %, faltante con el 41 %, rayado o rozado con el 4 %, pintura saltada con el 4 % y reventado o estallado con el 1 %. Con la gravedad considerada el mayor ndice de ocurrencia ocurre como sigue: Modelo 14, Retrovisor externo derecho, Faltante (79 %). Luego los porcentajes mnimos se dividen de la siguiente forma: Modelo 7, Giro Delantero (derecho / izquierdo), Rayado Rozado, Observada (11 %). Modelo 16, Limpiador y lavador de parabrisas, Faltante, Observada (4 %). Modelo 7, Conjunto carrocera, Manchado, Observada (3 %). Modelo 20, Guardabarro delantero izquierdo, Rayado Rozado, Observada (2 %). El modelo 7 con el 14 %, el modelo 16 con el 4 % y el modelo 20 con el 2 %. Las partes se subdividen segn se ha definido en el listado previo. Los tipos de averas son: rayados o rozados con el 13 %, faltante con el 4 % y manchados con el 3 %. Luego la gravedad de las averas es solo observable en todos los casos (21 %).
8.5.2.7. Imputacin Tipo de Transporte.
En este punto se van a evaluar los resultados obtenidos en cada periodo relacionados con el lugar donde se producen los daos y a partir de estos se especificar el tipo de imputacin al que corresponde.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 239 de287 Ing. Hugo Daniel Flores En el periodo uno se observa que el 79 % de las averas corresponden al transporte terrestre. Luego el 10 % transportes martimos y finalmente el 5 % a la salida de planta. El detalle del resultado del proceso es el siguiente: 74 % de averas en Subida a Buque Puerto de Origen. Imputacin transporte terrestre. 10 % de averas en Bajada de Buque. Imputacin transporte martimo. 5 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 5 % de averas en Transferencia Ubicacin y Lnea de Carga. Imputacin planta de produccin.
En el segundo periodo tambin el mayor ndice de daos es realizado por el transporte terrestre con un 89 % del total de datos explotados. Luego le sigue el transporte martimo con el 6 % y finalmente el puerto (averas en la playa de puerto) con solo el 2 %. El detalle porcentual de los datos explotados es el siguiente: 83 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 6 % de averas en Bajada de Buque. Imputacin transporte martimo. 6 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 2 % de averas en Retiro de Puerto. Imputacin puerto.
Los datos del periodo tres muestran que todava existe un predominio de las averas producidas por el transporte terrestre con el 85 %. Luego las averas de trasporte martimo con el 9 % y finalmente el la playa de puerto con el 4 %. Este periodo coincide con las imputaciones del periodo anterior pero los porcentuales son distintos. En cuanto a los detalles del periodo es el siguiente: 76 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 9 % de averas en Bajada de Buque. Imputacin transporte martimo. 9 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 4 % de averas en Subida a Buque. Imputacin puerto.
La informacin del periodo cuatro muestra que el 60 % solo es de trasporte terrestre. Luego el 15 % son daos de salida de planta de produccin. Y finalmente el 13 % son producidos en el transporte martimo. El detalle es el siguiente: 47 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 15 % de averas en Retiro Fbrica de Origen. Imputacin planta de produccin. 15 % de averas en Bajada de Buque. Imputacin transporte martimo. 13 % de averas en Ingreso a Puerto. Imputacin transporte terrestre.
El comportamiento de los resultados del periodo cinco tambin muestra en el primer lugar a las averas imputables al transporte terrestre con un 46 %. Luego le siguen las averas producidas en planta con el 23 %. En tercer lugar aparecen las averas producidas por las compaas martimas con el 20 % y finalmente con un porcentaje mnimo se observan las averas en playa de puerto con el 6 %. El detalle porcentual es el siguiente: 32 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 23 % de averas en Retiro Fbrica de Origen. Imputacin planta de produccin. 20 % de averas en Bajada de Buque. Imputacin transporte martimo. 14 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 6 % de averas en Retiro de Puerto. Imputacin puerto. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 240 de287 Ing. Hugo Daniel Flores En el periodo seis todava existe el predominio de las averas imputables al transporte terrestre con el 55 %. Luego, al igual que en el periodo anterior, las averas de planta de produccin con el 17 %. En tercer lugar las averas de transporte terrestre con el 13 % y finalmente con solo un 5 % las averas imputables a la playa de puerto. 42 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 17 % de averas en Retiro Fbrica de Origen. Imputacin planta de produccin. 15 % de averas en Bajada de Buque. Imputacin transporte martimo. 13 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 5 % de averas en Retiro de Puerto. Imputacin puerto.
El resultado de los procesos del periodo siete muestra que el transporte terrestre aparece con un 46 % de participacin. Luego en el segundo lugar se observan las averas de transporte martimo con el 21 %. En tercer lugar estn las averas imputables a planta con el 16 %. Y finalmente se observan los daos imputables a la playa de puerto con el 10 %. El detalle porcentual es el siguiente: 40 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 21% de averas en Bajada de Buque. Imputacin transporte martimo. 16 % de averas en Transferencia ubicacin y lnea de carga. Imputacin planta de produccin. 10 % de averas en Subida a Buque. Imputacin puerto. 6 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre.
En el periodo ocho se observa el cambio del primer lugar de imputabilidad. En este periodo el porcentaje ms alto de daos se encuentra en la salida de planta, o sea daos en produccin con el 48 %. Luego con el 36 % le siguen los daos imputables al transporte terrestre. El transporte martimo tiene el 7 % de incidencia en los daos y finalmente el 5 % de los daos de este periodo fueron producidos por la playa de puerto. El detalle es el siguiente: 48 % de averas en Transferencia ubicacin y lnea de carga. Imputacin planta de produccin. 19 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 17 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 7 % de averas en Bajada de Buque. Imputacin transporte martimo. 5 % de averas en Retiro de Puerto. Imputacin puerto.
Las averas en el periodo nueve mantienen el primer lugar de imputacin del periodo anterior. Los daos producidos en planta y detectados en la transferencia y lnea de carga tienen el 63 % de ocurrencia. Luego sigue el trasporte terrestre con el 23 % y finalmente el 4 % son averas producidas por el transporte martimo. 63 % de averas en Transferencia ubicacin y lnea de carga. Imputacin planta de produccin. 16 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 7 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 4 % de averas en Bajada de Buque. Imputacin transporte martimo.
El ltimo periodo en estudio tiene como mayor porcentaje de incidencia de las averas a la planta de produccin con el 56 %. Luego le siguen los daos de transporte terrestre con el 25 %. En el tercer DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 241 de287 Ing. Hugo Daniel Flores lugar se encuentran las averas de playa de puerto con el 11 %. Y finalmente las averas de transporte martimo con el 6 %. 56 % de averas en Transferencia ubicacin y lnea de carga. Imputacin planta de produccin. 17 % de averas en Ingreso a Puerto. Imputacin transporte terrestre. 11 % de averas en Subida a Buque. Imputacin puerto. 8 % de averas en Subida a Buque Puerto de origen. Imputacin transporte terrestre. 6 % de averas en Bajada de Buque. Imputacin transporte martimo.
8.6. Desarrollo
En esta fase se realiza la evaluacin de los resultados y la misma concluye con una estrategia para el desarrollo de los resultados de la minera de datos en el negocio.
8.6.1. Plan de desarrollo
Resumen de resultados.
El rbol de Clasificacin arroja el siguiente resultado que es ilustrado resumidamente en el Grfico 39. Se puede ver claramente los resultados obtenido sobre las cantidades de tipos de averas producidos a lo largo de cada periodo. En el grfico se han introducido solo los cuatro principales tipos de averas: Faltante, Pintura Saltada, Rayado o Rozado y Abollado. Estos cuatro tipos de averas constituyen el 96,04 por ciento en promedio del total de datos explotados.
Grfico 39: Barras detallado cantidades por tipo de avera
Con el rbol de Clasificacin tambin se proceso la informacin relacionada con los lugares donde se producen las averas. En el Grfico 40 se muestra el detalle de los resultados obtenidos. En este caso a diferencia del resultado anterior, la informacin que se puede visualizar es el 100 % de los resultados.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 242 de287 Ing. Hugo Daniel Flores Un detalle a tener presente en el resultado que muestra a lugar Subida a Buque en Puerto de Origen como el de mayor produccin de daos es que la informacin procesada en la prctica pertenece a dos cambios de responsabilidad. Esto es, las averas detectadas en la subida a un buque son imputables tanto al transporte terrestre como a playa de puerto. Adems, especialmente en los periodos iniciales del presente proyecto tambin hubo cambios a nivel empresas que por motivos polticos o internos. Es difcil estimar un porcentaje el cual sea representativo de lo que sucedi en la realidad en el punto de control en cuestin pero esto nos lleva a deducir que como lnea futura de investigacin se puede trabajar con los datos agrupados en funcin de los lugares de control y no por periodos de tiempo como es estudio actual.
El resultado de la explotacin de datos con rbol de Clasificacin tambin fue realizado sobre los modelos de autos que participan proyecto de minera de datos. El Grfico 41 muestra el resumen de los resultados obtenidos.
En este caso como en el de los tipos de averas tambin se ha reducido la cuestin a los modelos que participan en un 96,65 % de los registros explotados.
Como en el caso de los lugares de produccin de averas aqu tambin hay una observacin vlida que se puede realizar. Existen modelos que debido a que no estn incluidos en determinados periodos no porque no hayan tenido averas sino porque todava no participaban del proceso o porque no se fabricaban o porque no entraban en la cadena logstica. Esto tambin lleva a determinar la necesidad de realizar estudios futuros de minera de datos sobre la produccin de averas de determinados modelos. Posiblemente un agrupamiento interesante puede ser por modelo. De esto se hablar en tems posteriores cuando se especifiquen planes alternativos de explotacin de datos o lneas futuras de investigacin.
Grfico 41: Barras detallado cantidades por modelos averiados
Para cada uno resultados obtenidos de la explotacin de datos aplicando los modelos de clasificacin se han obtenido los conjuntos de reglas necesarios para establecer la ocurrencia de los resultados linealmente. Por razones prcticas no se exponen en el proyecto el detalle de las reglas pero las mismas pueden formar parte de futuras lneas de desarrollo de minera de datos para la identificacin de las reglas que llevan a la ocurrencia de las averas.
Resumiendo el resultado de los agrupamientos generados a partir del algoritmo de Clustering se observan los siguientes patrones de comportamiento. Estos resultados pueden ser diferenciados para los tipos de averas de mayor ocurrencia en todo el conjunto de datos estudiado. Por cuestiones de practicidad los patrones expuestos a continuacin representan el ms alto porcentaje de probabilidad de ocurrencia en relacin a los datos analizados.
Debido a que la herramienta de clustering utilizada en el proyecto se basa especficamente en el valor de los atributos y no en las relaciones entre los mismos sera necesario para afinar los resultados introducirlos o analizarlos a travs de algoritmos de induccin. La aplicacin de algoritmos de induccin sobre los resultados del agrupamiento por cada periodo o cada explotacin de datos en esta industria puede formar parte de lneas futuras de investigacin muy interesantes a desarrollar.
Como resultado del agrupamiento de averas se pueden especificar los siguientes patrones:
Capot, Abollado, Observada. Abollado, Leve. Abollado, Observada. Ingreso a Puerto, Abollado. Transferencia ubicacin y lnea de carga, Abollado. Abollado. Subida Buque Puerto de Origen, Luneta trasera / Cristal puerta trasera, Arrancado - Roto Fisurado, Grave. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 245 de287 Ing. Hugo Daniel Flores Transferencia ubicacin y lnea de carga, Paragolpe delantero / Protector delantero, Rayado Rozado. Paragolpe delantero / Superior, Rayado Rozado, Mediano. Modelo 20, Paragolpe delantero / Superior, Rayado Rozado, Observada. Subida Buque Puerto de Origen, Paragolpe delantero / Superior, Rayado Rozado. Paragolpe delantero / Superior, Rayado Rozado. Modelo 13, Puerta delantera derecha, Rayado Rozado. Retiro de Puerto, Rayado Rozado. Modelo 13, Retrovisor externo izquierdo, Rayado Rozado. Subida a Buque, Spoiler delantero, Rayado Rozado, Mediano. Bajada de Buque, Spoiler delantero, Rayado Rozado, Observada. Ingreso a Puerto, Spoiler delantero, Rayado Rozado, Observada. Transferencia ubicacin y lnea de carga, Spoiler delantero, Rayado Rozado, Observada. Spoiler delantero, Rayado Rozado, Observada. Bajada de Buque, Spoiler delantero, Rayado Rozado. Transferencia ubicacin y lnea de carga, Spoiler delantero, Rayado Rozado. Tapa posterior de techo, Rayado Rozado, Observada. Tapizado interno puerta delantera izquierda, Rayado Rozado. Subida a Buque, Zcalo interno puerta delantera izquierda, Rayado Rozado, Observada. Rayado Rozado, Grave. Rayado Rozado, Leve. Rayado Rozado, Mediano. Modelo 20, Rayado Rozado, Observada. Subida a Buque, Rayado Rozado, Observada. Rayado Rozado, Observada. Modelo 20, Rayado Rozado, Observada. Rayado Rozado, Observada. Modelo 20, Rayado Rozado, Observada. Rayado Rozado, Observada. Bajada de Buque, Rayado Rozado. Ingreso a Puerto, Rayado Rozado. Paragolpe trasero / Spoiler trasero, Rayado Rozado. Transferencia ubicacin y lnea de carga, Rayado - Rozado. Modelo 10, Rayado - Rozado. Rayado Rozado. Modelo 5, Rayado Rozado. Modelo 13, Rayado Rozado. Moldura protectora lateral derecha, Rayado Rozado. Modelo 20, Rayado Rozado. Cubierta trasera derecha, Reventado Estallado, Observada. Reventado - Estallado. Alern. Barras de techo. Capot, Observada. Conjunto carrocera, Observada. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 246 de287 Ing. Hugo Daniel Flores Cubierta delantera izquierda. Faro delantero izquierdo / derecho, Mediano. Subida Buque Puerto de Origen, Guardabarro trasero derecho. Llanta trasera izquierda, Observada. Manijas externas de puertas traseras, Observada. Manijas externas de puertas traseras. Panel lateral derecho, Observada. Parante delantero, Observada. Modelo 9, Parrilla delantera, Observada. Parrilla delantera. Retrovisor externo derecho, Grave. Retrovisor externo derecho, Observada. Separador interno de carga. Tapa acceso gancho remolque, Observada. Tapa posterior de techo, Mediano. Tapa posterior de techo, Observada. Tapa posterior de techo. Techo (inclusive convertible) . Techo corredizo, Observada. Zcalo derecho, Grave. Zcalo derecho, Observada. Zcalo derecho, Grave. Modelo 13, Grave. Transferencia ubicacin y lnea de carga, Leve. Modelo 16, Mediano. Subida Buque Puerto de Origen, Observada. Transferencia ubicacin y lnea de carga, Observada. Modelo 13, Observada. Modelo 7, Observada. Modelo 13, Observada. Modelo 20, Observada. Modelo 16, Observada. Subida a Buque. Transferencia ubicacin y lnea de carga. Modelo 17. Modelo 9. Modelo 13. Ingreso a Puerto, Capot, Rayado Rozado. Ingreso a Puerto, Paragolpe trasero / Spoiler trasero, Rayado Rozado. Ingreso a Puerto, Paragolpe trasesro / Zona contacto, Rayado Rozado. Subida a Buque, Rayado Rozado, Grave.
El resumen expuesto anteriormente incluye todos los resultados coherentes en funcin de la relacin entre sus atributos.
La lista anterior muestra todos los resultados de la explotacin de datos de clustering; esto es partes, averas y gravedades; daos por lugar y daos por modelos.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 247 de287 Ing. Hugo Daniel Flores Para resumir los resultados del Modelo de Prediccin se puede decir que se hicieron los siguientes procesos y los mismos agruparon la ocurrencia de partes averiadas, tipos de averas, lugares donde se producen las averas y modelos con averas como se especifica a continuacin.
Al igual que en el caso de los agrupamientos en los modelos de prediccin empleados sera viable y necesaria el estudio y aplicacin de algoritmos de induccin debido a que los resultados generados por sus atributos se basan en el valor numrico y no en la relacin entre ellos.
Las partes predictivas resultantes a lo largo de los 10 periodos son:
Manual Cubierta delantera derecha Escape Guardabarro delantero derecho Guardabarro trasero derecho Llanta delantera derecha Llave Manijas externas de puertas traseras Panel trasero bajo bal Puerta delantera derecha Puerta trasera derecha Tapa acceso gancho remolque Taza Alern Aerosol antipinchazos
Estos resultados fueron obtenidos realizando la variacin del tipo de avera y la gravedad de los mismos por cada periodo. Estas partes resultantes de los procesamientos de datos representan el 15 % de la cantidad de partes posibles de participacin en un siniestro.
En cuanto a los tipos de averas se puede ver un comportamiento mucho ms acotado en cantidad:
Faltante Abollado Proyeccin
A pesar que la cantidad resultante resumida es menor que en el anlisis de partes, en este caso los tipos de averas representan el 27 % del total de tipos de averas entre las cuales se puede encontrar un siniestro.
En referencia a los lugares donde se producen las averas el resultado arroj el siguiente valor:
Bajada de Buque Ingreso a Puerto Retiro de Puerto Salida de Planta
En este caso se puede ver que la posibilidad que se encuentre una avera en la subida a un buque es tan baja como para que el modelo de prediccin no la considere como resultado posible. Lo mismo DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 248 de287 Ing. Hugo Daniel Flores sucede con las averas encontradas en la subida a un buque en puerto de origen, si bien en ese punto de control se han encontrado gran porcentaje de las averas en estudio el modelo no arroja como resultado posible de ocurrencia en su prediccin.
Finalmente se observa que de los modelos de auto explotados en el presente estudio el resultado se resume a la ocurrencia de:
En este caso representan el 45 % de la cantidad de modelos posibles de aparecer.
Procesamiento de informacin
La informacin fue procesada segn la siguiente distribucin de datos dentro de cada software:
Explotacin de datos usando rbol de Clasificacin: Tipo de Averas, Lugares y Modelos de autos. Para cada herramienta se ingresan las columnas de daos distribuidas segn el formato parte +avera +gravedad. Explotacin de datos usando Clustering de Averas, Modelos averiados y Lugares donde se producen las averas. La distribucin de datos se realiza encolumnando las averas en funcin del formato parte ms avera y ms gravedad. Explotacin de datos usando Modelo de Prediccin de Averas, Lugares donde se producen las averas, y Modelos averiados. El ingreso de datos a cada modelo se realiza segn el formato parte +avera +gravedad.
En el procesamiento de datos vinculado directamente a los lugares donde se producen las averas se realizan dos actividades:
1. Agrupar en funcin de la imputabilidad a la salida de planta dos de los puntos de control. Estos puntos se identifican en el proyecto como Salida de Planta y la imputabilidad es a Calidad o Lnea de Produccin. 2. Y para el caso especfico de los datos relacionados con el punto de control Subida a Buque en Puerto de Origen se realiza la salvedad que la imputabilidad del dao est distribuida entre los daos producidos por el transporte terrestre y la playa de puerto (donde tambin se debe incluir la estiba).
Todos los modelos de datos son explotados para cada periodo desde el ao 2003 hasta mediados del ao 2008. El proyecto se ha desarrollado sobre 7 puntos de control. El total global de inspecciones realizadas para obtener la informacin es de 595393 inspecciones distribuidas entre los 7 puntos de control. El nmero total de autos es de 183926 unidades inspeccionadas a lo largo de las cadenas de logsticas, estas unidades corresponden a 20 tipos de modelos de autos diferentes. Finalmente y DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 249 de287 Ing. Hugo Daniel Flores como se mencion en la etapa de Preparacin de Datos el nmero total de registro de daos explotados en el proyecto es de 50246.
Planes alternativos
Un plan alternativo de desarrollo de minera de datos puede ser el que se detalla a continuacin.
- Extraccin de datos en formato SQL desde las bases de datos. - Normalizacin y transformacin de datos si es necesario. - Generacin de registros con el formato: parte, avera, gravedad, modelo, y lugar. - Distribucin de las tablas para introducir los datos en funcin de periodos por columna. - El modelo de Clustering se forma por las columnas:
Periodo 1 Periodo 2 Periodo 3 Periodo 4 Periodo 5 Periodo 6 Periodo 7 Periodo 8 Periodo 9 Periodo 10
- Luego para cada periodo / columna introducir los registros extrados de la base de datos. O sea que se puede invertir la introduccin de los datos a ser explotados para procesar por separado partes, luego averas, luego lugares, etc.
Otro plan alternativo que puede resultar interesante para la industria es el de separar la informacin por lugar y luego procesar cada lugar independientemente. Esto quedara conformado de la siguiente forma:
Punto de control salida de lnea de produccin. Punto de control ingreso a puerto. Punto de control despachos de puerto. Punto de control subidas a buque. Punto de control bajada de buque.
Luego para cada lugar donde se produce la informacin se ingresa en cada modelo segn el procesamiento actual los datos vinculados a las averas en formato parte ms avera y ms gravedad.
Dentro de cada uno de los puntos de control se pueden encontrar ms de una compaa responsable por el movimiento de la unidad automotriz por lo que tambin puede ser una lnea de anlisis valida para llevar a la prctica la realizacin de una subdivisin por cada lugar en funcin de la compaa que interviene.
Continuando con ese anlisis la minera de datos tambin puede ser llevada a cabo distribuyendo los grupos de datos por imputabilidad. Esto sera: DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 250 de287 Ing. Hugo Daniel Flores
Averas provocadas por lneas martimas. Averas producidas por transportes terrestres. Averas de calidad. Averas de puerto o playa.
Y cada grupo contendra en la explotacin de datos los cdigos de averas en formato parte ms avera ms gravedad.
En resumen y concluyendo con la mencin de los planes alternativos que se podran llevar a la prctica en un proyecto de minera de datos se puede decir que al contar con la informacin normalizada desde la produccin de la misma (inspecciones segn los estndares) pasando por la captura de datos y llegando a su almacenamiento en bases de datos centralizadas las estrategias para un futuro procesamiento de datos aplicando tcnicas de minera de datos solo depende de los requerimientos de las partes interesadas en la industria y la creatividad de los responsables de llevar a cabo el proyecto.
El descubrimiento de la informacin obtenida a partir del presente proyecto directamente podra ser usado para consolidar prcticas empricas realizadas en la industria. Se puede dar un marco terico por ejemplo al hecho de trabajar siempre sobre la base que el comportamiento de los tipos de averas siempre esta vinculado directamente a 4 tipos del total que impone el estndar de inspeccin de este estudio. Esto est justificado debido a que la ocurrencia de averas se produce con cuatro tipos de averas que participan en un porcentaje medio del 96 % del total en explotacin.
8.6.2. Supervisin y mantenimiento del plan
La supervisin y el mantenimiento de la implementacin del presente proyecto es importante debido a que los datos que se procesan diariamente pueden ser modificados por el personal operativo de la compaa. Los datos son modificados por diferentes motivos como puede ser haber realizado una codificacin incorrecta, haber asignado una imputabilidad incorrecta, etc. El volumen de datos en movimiento diario es grande y dinmico motivo por el cual la extraccin de las muestras debe ser realizada cuidadosamente y realizando backups de los datos explotados por cada proceso.
La minera de datos debera ser realizada por periodos de 6 meses. En funcin del presente proyecto se puede establecer el semestre como una unidad de medida representativa importante para la obtencin de resultados prcticos.
Como plan de supervisin y mantenimiento se podra establecer:
- Extraccin y almacenamiento semestral de datos guardando en formato de hoja de clculo toda la informacin. - Verificacin de los modelos de autos y lugares de inspeccin que intervienen. Si aparecen nuevos puntos de control o nuevos modelos se debe proceder a su codificacin. - Distribucin de los datos en funcin de los modelos de software de minera de datos a trabajar. - Los archivos de la explotacin de datos semestrales deben ser guardado en soporte magntico en la compaa. Lo conveniente es almacenar en carpetas y por procesos semestralmente. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 251 de287 Ing. Hugo Daniel Flores - Los resultados obtenidos por cada explotacin de datos debe ser llevado a formato de hoja de clculos con generacin de grficos de barras y tortas para una mejor visin e interpretacin de los resultados obtenidos por cada periodo. - Al final de cada proceso de minera de datos la evaluacin de los resultados debe ser realizado por un equipo compuesto por la parte operacin encargada de la captura de la informacin y el rea de tecnologa de la compaa.
8.6.3. Produccin de Informe definitivo
La utilizacin de la metodologa CRISP-DM para este proyecto ha permitido encontrar un comportamiento predictivo de los daos y/o en funcin del estndar utilizado para la realizacin de la inspeccin de unidades.
Se ha podido encontrar un plan de extraccin, normalizacin, y codificacin de datos para la realizacin de procesos de minera de datos semestrales. Como se ha mencionado en puntos anteriores adems estos procesos de minera de datos pueden tener como objetivos otros aspectos como pueden ser: realizar procesos de minera sobre las averas producidas en determinados puntos de control, por determinadas compaas o por tipos de imputacin.
Entre los objetivos logrados por la aplicacin de la metodologa se puede mencionar:
Se han determinado los daos y/o averas para cada periodo. Se han determinado responsabilidades en la siniestralidad en funcin del tipo de avera y tipo de transporte por cada periodo. El estudio de las averas ha permitido encontrar un referente de imputacin estableciendo patrones de comportamiento. Se han podido encontrar los tipos de averas y sus porcentajes de ocurrencia por cada periodo. Las partes averiadas han sido identificadas como as tambin las cantidades y porcentajes de ocurrencia en cada periodo. El comportamiento de los daos ha sido establecido especificando la gravedad de los mismos. Se han establecido cuales son los modelos de autos ms afectados por los daos como as tambin las partes que normalmente aparecen averiadas en las unidades. Los lugares donde se producen las averas han podido ser identificados como as tambin las partes y tipos de averas. Se han especificado las cantidades de averas por tipos de transportes, partes averas, tipos de averas, lugares donde se producen las averas y los modelos afectados. En referencia a informacin oculta descubierta en el proyecto lo ms importante fue lo relacionado con la cantidad de tipos de avera normalmente producidos, las partes normalmente afectadas y los modelos mayoritariamente averiados.
La presentacin final del proyecto se encuentra en el anexo 5. En este se encuentra un subconjunto de resultados obtenidos como as tambin la explicacin global de la metodologa utilizada y los pasos a seguir en la implementacin prctica.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 252 de287 Ing. Hugo Daniel Flores 8.6.4. Revisin del proyecto
Entre las cosas acertadas para el desarrollo del proyecto actual se puede decir que la determinacin de la divisin en periodos de tipo ha sido determinante para poder encontrar un estndar de cantidad de tiempo para realizar la explotacin de los datos.
Posiblemente uno de los errores en el proyecto fue el hecho de no invertir las columnas de datos a ser explotados dentro de cada modelo.
Lo acertado dentro de la explotacin de datos de proyecto se puede mencionar la Evaluar que fue lo correcto y que fue lo errado, cual fue el xito obtenido, y que necesidades sern mejoradas.
Posiblemente para futuros proyectos haya que analizar la posibilidad de evitar el procesamiento o la obtencin de resultados inconsistentes debido a la combinacin de partes con tipos de averas que en la realidad no aparecen. Este proyecto puede ser de utilidad para especificar en el software de captura o de almacenamiento en la base de datos todas las restricciones para el ingreso de averas con estructura inconsistente.
Otro resultado interesante que se ha podido corroborar dentro de un contexto metodolgico debido a la explotacin de datos desde el 2003 a mediados del 2008 con la base de datos en cuestin es que el cambio de compaa de inspeccin en el punto de control Subida a Buque en Puerto de Origen ha generado un cambio significativo en la deteccin de daos y/o averas. Los motivos que provocaron ese comportamiento distintivo en los datos no son discutidos en el presente proyecto, pero si se puede decir que para evitar este inconveniente en futuros proyectos de minera de datos uno de los caminos factibles para explotar los datos puede ser el de agrupar la informacin por puntos de control o por tipo de imputacin.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 253 de287 Ing. Hugo Daniel Flores 9. Conclusiones
A partir del anlisis de los diferentes mtodos para el desarrollo de esta minera de datos se puede concluir que la metodologa CRISP-DM es apropiada para la explotacin de datos en esta industria. Posiblemente en futuros proyectos podran utilizarse otras herramientas de software pero en trminos generales es apropiado considerar al presente proyecto con todos los pasos y las herramientas de software para la minera de datos en la deteccin de patrones de daos y/o averas.
Otro de los motivos por los cuales resulta apropiado trabajar con la metodologa mencionada anteriormente es que es totalmente independiente de las herramientas de software. Esto ltimo, caracterstica particular de CRISP-DM, es una de las grandes ventajas sobre otras metodologas. Adems, siguiendo los pasos segn lo detalla la metodologa se ha probado que es completa y flexible por lo cual es aconsejable recomendarla como base metodolgica para futuros proyectos en la industria de automviles.
Como se ha mencionado a lo largo del presente trabajo en la industria automotriz a nivel global existen diferentes estndares de inspeccin, codificacin y sistemas de captura de datos por lo tanto la generalidad que presenta la metodologa CRISP-DM le permite hacerse recomendable para futuras implementaciones. Cambiar de un estndar a otro no representa inconvenientes importantes para la explotacin de informacin.
En referencia a la minera de datos realizada tambin se puede concluir que la misma puede tomar formas diferentes de explotacin de datos tanto a nivel de formato de registros como a los periodos de tiempos en los cuales se puede distribuir la informacin. El sistema de datos est normalizado casi en su totalidad.
En relacin a las cantidades consideradas estadsticamente para la ocurrencia de los diferentes siniestros se observa de forma clara como es su distribucin. Inclusive los resultados obtenidos desde el punto de vista prctico permiten establecer como patrones de comportamiento los tipos de averas y los modelos afectados en este nicho de mercado especfico (considerando el estndar de inspeccin para la toma de datos y los modelos de autos que intervienen en este proyecto particularmente).
Si bien los resultados del trabajo muestran patrones de comportamiento satisfactorios es interesante ver que se pueden realizar ms combinaciones para la explotacin de datos en lo que se refiere a los lugares, modelos de autos o tipo de formato de registros introducidos en cada modelo de software. Inclusive puede tambin considerarse como parmetro de separacin las empresas responsables en cada punto de control.
Teniendo en cuenta lo expuesto en los puntos iniciales de esta tesis se puede decir que cualquiera sea el problema a resolver y con cualquier estndar de inspeccin no existe una nica tcnica para solucionarlo, sino que puede ser resuelto con distintas herramientas. Los aspectos estadsticos de la minera de datos aqu pueden dar resultados globales que permitan guiar el proyecto en esta industria hacia los aspectos inteligentes de explotacin de datos. Esto es, posiblemente sea conveniente comenzar los proyectos de data mining en esta industria con tcnicas estadsticas y luego en la medida que se va profundizando en el anlisis y conocimiento de los resultados se puede ir hacia la aplicacin de sistemas inteligentes.
La aplicacin del rbol de Clasificacin es totalmente ptima para este proyecto y en futuros proyectos de minera de datos de esta industria. Inclusive independientemente de la distribucin o el DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 254 de287 Ing. Hugo Daniel Flores agrupamiento de la informacin. Resulta de alta importancia siempre utilizarlo al inicio de cada explotacin de datos para tener una referencia clara de la situacin global de las cantidades de datos. El modelo grfico de los resultados obtenidos detallando cantidades y porcentajes en toda la distribucin en forma de tortas permite ver, seguir y analizar en todos los momentos del proyecto la informacin y coherencia con que se va trabajando.
Cada rbol de Clasificacin del software utilizado genera las reglas de produccin de cada nodo. Esas reglas pueden ser aplicables directamente al desarrollo de cualquier software para la administracin de datos en el proceso de almacenamiento de informacin. Constituiran las denominadas reglas de negocio para la validacin de datos de partes con tipos de averas y gravedades. En este trabajo las reglas no han sido incluidas debido a su gran cantidad y a que cada una tiene que ser sometida a un estudio previo para filtrarlas.
En cuanto al Clustering quizs sea necesario estudiar la posibilidad de trabajar con matrices de menor tamao puesto que este estudio ha demostrado que se necesita mucho tiempo de computacin para el procesamiento de matrices de 10 x 10 y posiblemente no se justifique debido a la similitud obtenida en los resultados con otras matrices de menor tamao. Otro factor a ser estudiado es la aplicacin o no de la gravedad de las averas puesto que pueden no ser necesarias, pero no se debe dejar de lado que quizs el estndar lo precise. Tambin se puede realizar la explotacin de datos con est tcnica considerando solamente datos relacionados con las partes por un lado por periodos, o bien por tipos de averas en determinados periodos, o por lugares o modelos en diferentes periodos. Es decir que la combinacin de posibilidades en funcin de la gran cantidad de informacin disponible es muy alta y es posible considerar que lo ms importante es que con este proyecto de tesis se ha podido demostrar la viabilidad de lneas de investigacin futuras con la aplicacin del agrupamiento como tcnica de explotacin de datos.
Es interesante ver tambin que la combinacin de posibilidades para la produccin de los centroides es grande debido al sistema de codificacin con el que se trabaja en el registro de averas en la industria y al sistema de datos normalizado desde donde se extraen los datos. O sea que es posible obtener resultados finales vlidos y errneos a partir de la explotacin. Los errores son descubiertos a partir de la inconsistencia entre las combinaciones posibles de: partes ms averas ms gravedades.
Si bien los resultados obtenidos son satisfactorios es importante destacar que es necesario trabajar, en etapas posteriores o en una futura implementacin de esta metodologa en la industria, con algoritmos de induccin para tratar de mejorar la explotacin de datos en lo que respecta a la relacin entre ellos. Como se ha mencionado a lo largo de este proyecto de tesis la tendencia de las tcnicas empleadas hacia el valor de los atributos y no entre sus relaciones muestra que algunos de los datos resultantes son inconsistentes con la realidad. Algunas de las herramientas posibles de utilizar pueden ser rboles de decisin o de clasificacin.
En relacin al Modelo de Prediccin es importante su aplicacin y determinante a la hora de encontrar los patrones de ocurrencia en las averas, lugares, partes averiadas y modelos de autos averiados. Al igual que con las otras dos herramientas utilizadas se han dejado fuera de este trabajo algunos de los resultados obtenidos. Esto es, para el caso de las variaciones posibles de realizar entre determinado rango de tipos de averas o partes la ocurrencia de los resultados predictivos puede variar.
Las pendientes obtenidas sobre las tendencias pueden ser positivas o negativas, y tambin pueden tener como ocurrencia de resultados posibles un determinado rango de valores. Estos ltimos son DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 255 de287 Ing. Hugo Daniel Flores aspectos matemticos que estudiados profundamente pueden dar informacin til sobre el comportamiento o la predictibilidad de las averas.
Adems, tambin como en el caso del Clustering es posible realizar la bsqueda de otro tipo de predicciones como por ejemplo determinados tipos de averas en determinados meses del ao. O bien, se puede realizar la prediccin sobre partes solamente en determinados periodos, o lugares o modelos de autos.
Este software de prediccin empleado tambin se basa fuertemente en el valor de sus atributos ms que en la relacin entre ellos en los resultados finales por lo que sera conveniente tambin como el caso del Clustering trabajar con algoritmos de induccin para mejorar los resultados.
Concluyendo con el resultado de la utilizacin del software empleado la informacin de esta industria en su formato tradicional y con el sistema de seguimiento almacenado en una base de datos central puede ser explotada en un proyecto de minera de datos con la aplicacin de tcnicas como el clustering, la clasificacin o la prediccin.
Los periodos de tiempo para el desarrollo de una minera de datos en la industria podra ser el semestre. La muestra semestral de datos es considerada suficiente como para lograr los objetivos segn se plantearon en el presente proyecto de tesis, y teniendo en cuenta el movimiento de los vehculos de mercado argentino. Los tipos de transportes tambin pueden determinar los lmites y alcances de un proyecto de minera de datos para detectar patrones de comportamiento.
Tambin es importante mencionar como conclusin de este proyecto que la estructura de las bases de datos desde donde se extrajo el mayor porcentaje de informacin contiene todas las relaciones y el formato necesarios para el desarrollo de cualquier tipo de herramienta de software para la gestin de la informacin. O sea que es recomendable para el desarrollo de aplicaciones de software de captura o almacenamiento de informacin para cada punto de control de una cadena logstica, realizar un anlisis detallado de las combinaciones posibles de averas o tipos de averas en funcin de esta base de datos.
El mecanismo para la obtencin de las reglas de negocios para aplicaciones informticas en el seguimiento y control de siniestros de este estudio no esta desarrollada en este mercado, motivo por el cual este proyecto puede servir de antecedente para mostrar lo lineamientos generales a tener en cuenta para el desarrollo de la tecnologa en la industria automotriz.
El descubrimiento de patrones de comportamiento de las averas o los resultados estadsticos en la explotacin de datos realizada en este trabajo permite definir el camino que se debe seguir para la realizacin de presupuestos y la definicin de polticas de distribucin de los operadores logsticos encargados de los movimientos de los automviles 0 KM. Teniendo en consideracin que el costo de produccin de las unidades es menor al costo de su posterior distribucin desde que sale de lnea de produccin hasta que llega a su destino final, hace de la minera de datos con tcnicas estadsticas e inteligentes una alternativa ms que importante para ser desarrollada por las empresas interesadas en el descubrimiento de patrones de comportamiento como as tambin en el control y asignacin de responsabilidad por siniestralidad.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 256 de287 Ing. Hugo Daniel Flores
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 257 de287 Ing. Hugo Daniel Flores 10. Lneas futuras de investigacin
Las lneas futuras de investigacin pueden ser las siguientes:
Implementacin de la metodologa para el estudio de comportamiento de averas agrupando la informacin por empresas responsables de siniestros. Desarrollo de la metodologa con informacin extrada de base de datos con otros estndares de inspeccin de unidades. Se recuerda que cada compaa puede tener su propio estndar de inspeccin el cual define el formato en el que los registros pueden ser explotados. Al igual que la implementacin por empresas responsables tambin se puede procesar la informacin para determinadas marcas o modelos de autos. Implementacin de proyecto con datos agrupados en funcin de la imputabilidad tambin es otra futura lnea de investigacin viable. Con la aplicacin del Modelo de Clasificacin se puede extraer todo el conjunto de reglas de negocio generado para ser aplicado en el software tanto de captura de datos como en la aplicacin que alimenta la base de datos. Esto es, a partir de las reglas generadas por el modelo validar todos los datos que ingresan al sistema. Como se ha mencionado en otros tems a lo largo de esta tesis tambin es viable la explotacin de datos de este sistema de informacin considerando cada uno de los puntos de control por separado. El Modelo de Clstering tambin puede ser considerado definiendo matrices de menor tamao.
En cuanto a la utilizacin de nuevas herramientas o herramientas complementarias para el tratamiento de la informacin en esta industria es necesario hacer mencin como posibles lneas futuras de investigacin la utilizacin de algoritmos de induccin. Tanto en el Clustering como en el Modelo de Prediccin los resultados obtenidos hacen hincapi fundamentalmente en sus valores numricos y no en la relacin entre los atributos. O sea que antes de dar los resultados finales de la aplicacin de cada modelo sera conveniente una introduccin previa de los mismos en algoritmos que permitan una aproximacin ms cercana a la realidad en lo referente a la relacin entre los datos procesados.
Concluyendo con los posibles caminos de investigacin se puede hacer referencia a que en esta industria uno de los sistemas de informacin estndares en el mundo (seguimiento y control de unidades automotrices) es el que se ha expuesto en el presente proyecto. Con la informacin normalizada electrnicamente es posible su estudio y explotacin con la aplicacin de la metodologa CRISP-DM considerando diferentes tipos de agrupacin de datos y distintas herramientas de software para obtener resultados exitosos para los interesados.
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 258 de287 Ing. Hugo Daniel Flores
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 259 de287 Ing. Hugo Daniel Flores 11. Bibliografas y Documentacin
Britos, P., et al, Minera de Datos, Basada en Sistemas Inteligentes (Editorial Nueva Librera, 2005). De Ville, B., Microsoft Data Mining: Integrated Business Intelligence for e-Commerce and Knowledge Management (Butterworth-Heinemann, 2001). Dich, J ., E-data, Transformando datos en informacin con Data Warehouse (Editorial Prentice Hall, 2001). Gill, H. y Rao, P., Data Warehousing, la integracin de informacin para la mejor toma de decisiones (Editorial Prentice Hall 1996). Groth, R., Data Mining: A Hands-On Approach for Business Professionals (Editorial Prentice Hall PTR, 1998). Han, J . y Kamber, M., Data Mining: Concepts and Techniques (Editorial Morgan Kauffman Publishers, 2001). Hernndez, O., Introduccin a la Minera de Datos (Editorial Pearson Educion, 2004). Hornick, F., et al, J ava Data Mining: Strategy, Standard, and Practice: A Practical Guide for architecture, design, and implementation (The Morgan Kaufmann Series in Data Management Systems) (Elsevier Inc., 2007). Inmon, W., Building the Data Warehouse (Editorial J ohn Wiley & Sons, Inc., 2002). J ean-Michel Franco y EDS-Instituc Prometheus, El Data Warehouse, El Data Minning (Ediciones Gestin 2000, 1997). J ean-Pasal, A., Inteligencia Artificial (Editorial Paraninfo, 1986). Larose, T., Data Mining Methods and Models (J ohn Wiley & Sons, Inc., 2006). Mccorduck, P., Mquinas que piensan, historia de la Inteligencia Artificial (Editorial Tecnos, 1991). Mundy, J ., et al, The Microsoft Data Warehouse Toolkit: With SQL Server 2005 and the Microsoft Business Intelligence Toolset (Wiley Publishing, Inc., 2006). Nilsson Nils, J ., Inteligencia Artificial Una Nueva Sntesis (Editorial MCGrow-Hill, 2001). Pajares Martinsanz, G., Inteligencia Artificial e Ingeniera del Conocimiento (Editorial Alfaomega Grupo Editor, 2006). Pea, D., Anlisis de datos Multivariantes (Editorial McGraw Hill/Interamericana de Espaa, 2002). Prez Lpez, C. y Santin Gonzalez, D., Minera de Datos, Tcnicas y Herramientas (Editorial Paraninfo, 2007). Russel, S y Norvig P., Inteligencia Artificial - Un Enfoque Moderno (Editorial. Pearson Education, 2003). Singh, H., Data Warehousing (Editorial Prentice Hall, 1998). Sitio de ADEFA (Asociacin de Fbricas de Automotores) http://www.adefa.com.ar (Octubre, 2007). Sitio de comunidad de personas interesadas en compartir conocimiento sobre temas relacionados con los datos, y como tratarlos para transformarlos en informacin que a su vez nos permita obtener conocimiento y saber: http://www.dataprix.com/categorias-de-dataprix. Sitio de Estadstica (Metodologa para el desarrollo de proyectos de Data Mining) http://www.estadistico.com/arts.html?20040426 (Septiembre, 2007). Sitio de ITBA (Instituto Tecnolgico Buenos Aires, Centro de Ingeniera de Software e Ingeniera del Conocimiento, Escuela de Postgrado) http://www.itba.edu.ar/capis/webcapis/planma-esp.html (Septiembre de 2007). Sitio de Metodologa CRISP-DM (Cross Industry Standard Process for Data Mining) http://www.crisp-dm.org (Agosto, 2007). Sitio de Microsoft http://technet.microsoft.com/es-es/library/ms174861.aspx (Octubre, 2007). Sitio de SAMAS (Sociedad Argentina de Mastologa) http://www.samas.org.ar (Agosto, 2007). DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 260 de287 Ing. Hugo Daniel Flores Sitio de SECYT (Biblioteca Electrnica de Ciencia y Tecnologa) http://www.biblioteca.secyt.gov.ar (Agosto, 2007). Sitio de Universidad de Sevilla http://www.us.edu.es (Septiembre, 2007). Sitio de Universidad Politcnica de Madrid http://www.upm.es (Septiembre, 2007). Sitio de Universidad Politcnica de Valencia http://www.upv.es (Septiembre, 2007). Tang, Z. and MacLennan, J ., (Author), Data Mining with SQL Server 2005 (Wiley Publishing, Inc., 2005).
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 261 de287 Ing. Hugo Daniel Flores 12. Anexos
Anexo 1: Terminologa de negocio.
Trmino Significado Area Parte de un vehculo. Avera Tipo de dao. Bajada de buque Operacin de translado de un auto desde un barco hacia el puerto. Barcaza Buque especficamente usado para transporte de autos. Batea Camin con estructura para transporte de vehculos. Buque Barco especial acondicionada y dimensionada para el transporte de automviles, camiones, tractores, etc. Cadena logstica Conjunto de lugares por donde va pasando una determinada unidad automotriz. Check point Punto de control. Cdificacin de avera Sistema de cdigo establecido para tomar un daos. Por ej. Parte +Avera +Gravedad. Colector de datos Equipo electrnico de datos con lector de cdigo de barras. CP Punto de control. Dealer Punto final de distribucin de una cadena logstica. Estndar de inspeccin Conjunto de reglas para establecer un criterio de inspeccin donde se especifica como inspeccionar y define como son las averas en funcin de un nivel de importancia. Gravedad Nivel de un dao. Hand held Colector de datos elctrnico con lector de cdigo de barras. Ingreso a puerto Entrada de autos a la playa de un puerto. Lnea de produccin Fbrica donde se producen los autos. Lnea de transferencia Lugar donde se transfiere una unidad luego de su salida de planta. Patio Lugar donde se almacenan vehculos. Perito Inspector que verifica estado de un vehculo. Perito naval Persona que realiza inspeccin de barcos y sus cargas. Playa Lugar donde se almacenan vehculos. Proyeccin Tipo de dao colectivo que provine de una variedad de acciones. Retiro de puerto Salida de autos de la playa de un puerto. Severidad Gravedad de un dao. Spoiler Alern u otro elemento de la carrocera de un automvil que sirve para hacerlo ms aerodinmico. Subida a buque Operacin de translado de un auto desde la playade puerto hacia un barco. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 262 de287 Ing. Hugo Daniel Flores Survey Operacin de inspeccin autos. Surveyor Persona que realiza un inspaccin de un auto. Transponder Dispositivo a bordo de un auto que recibe seales de radio correspondientes a una banda de frecuencias determinada, las amplifica y desplaza su frecuencia a otra del espectro y la retransmite. Transporte martimo Sistema de traslado de autos por mar. Transporte terrestre Sistema de traslado de autos por tierra. Trincado Forma de amarrar un auto al piso de un buque.
Anexo 2: Terminologa de minera de datos.
Trmino Significado Algoritmos genticos Tcnicas de optimizacin que usan procesos tales como combinacin gentica, mutacin y seleccin natural en un diseo basado en los conceptos de evolucin natural. Anlisis de series de tiempo (time-series) Anlisis de una secuencia de medidas hechas a intervalos especficos. El tiempo es usualmente la dimensin dominanate de los datos. Anlisis exploratorio de datos Uso de tcnicas estadsticas tanto grficas como descriptivas para aprender acerca de la estructura de un conjunto de datos. Anlisis prospectivo de datos Anlisis de datos que predice futuras tendencias, comportamientos o eventos basado en datos histticos. Anlisis retrospectivo de datos Anlisis de datos que provee una visin de las tendencias, comportamientos o eventos basado en datos histricos. rbol de decisin Estructura en forma de rbol que representa un conjunto de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Base de datos multidimensional Base de datos diseada para procesamiento analtico on-line (OLAP). Estructurada como un hipercubo con un eje por dimensin. CART rboles de clasificacin y regresin Una tcnica de rbol de decisin usada para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparacin de datos que CHAID . CHAID Deteccin de interaccin automtica de Chi cuadrado Una tcnica de rbol de decisin usada para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear mltiples divisiones. Antecede, y requiere ms preparacin de datos, que CART. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 263 de287 Ing. Hugo Daniel Flores Clasificacin Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto a variable(s) especfica(s) las cuales se estn tratando de predecir. Por ejemplo, un problema tpico de clasificacin es el de dividir una base de datos de compaas en grupos que son lo ms homogneos posibles con respecto a variables como "posibilidades de crdito" con valores tales como "Bueno" y "Malo". Clustering (agrupamiento) Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto a todas las variables disponibles. Computadoras con multiprocesadores Una computadora que incluye mltiples procesadores conectados por una red. Data cleansing Proceso de asegurar que todos los valores en un conjunto de datos sean consistentes y correctamente registrados. Data Mining La extraccin de informacin predecible escondida en grandes bases de datos. Data Warehouse Sistema para el almacenamiento y distribucin de cantdades masivas de datos. Datos anormales Datos que resultan de errores (por ej. errores en el tipeado durante la carga) o que representan eventos inusuales. Dimensin En una base de datos relacional o plana, cada campo en un registro representa una dimensin. En una base de datos multidimensional, una dimensin es un conjunto de entidades similares; por ej. una base de datos multidimensional de ventas podra incluir las dimensiones Producto, Tiempo y Ciudad. Modelo analtico Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un rbol de decisin es un modelo para la clasificacin de un conjunto de datos. Modelo lineal Un modelo analtico que asume relaciones lineales entre una variable seleccionada (dependiente) y sus predictores (variables independientes). Modelo no lineal Un modelo analtico que no asume una relacin lineal en los coeficientes de las variables que son estudiadas. Modelo predictivo Estructura y proceso para predecir valores de variables especificadas en un conjunto de datos. Navegacin de datos Proceso de visualizar diferentes dimensiones, "fetas" y niveles de una base de datos multidimensional. OLAP Procesamiento analtico on-line (On Line Analitic prossesing) Se refiere a aplicaciones de bases de datos orientadas a array que permite a los usuarios ver, navegar, manipular y analizar bases de datos multidimensionales. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 264 de287 Ing. Hugo Daniel Flores Outlier Un item de datos cuyo valor cae fuera de los lmites que encierran a la mayora del resto de los valores correspondientes de la muestra. Puede indicar datos anormales. Deberan ser examinados detenidamente; pueden dar importante informacin. Procesamiento paralelo Uso coordinado de mltiples procesadores para realizar tareas computacionales. El procesamiento paralelo puede ocurrir en una computadora con mltiples procesadores o en una red de estaciones de trabajo o PCs. RAID Formacin redundante de discos baratos (Redundant Array of inexpensive disks). Tecnologa para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de alto rendimiento. Regresin lineal Tcnica estadstica utilizada para encontrar la mejor relacin lineal que encaja entre una variable seleccionada (dependiente) y sus predicados (variables independientes). Regresin logstica Una regresin lineal que predice las proporciones de una variable seleccionada categrica, tal como Tipo de Consumidor, en una poblacin. SMP Multiprocesador simtrico (Symmetric multiprocessor) Tipo de computadora con multiprocesadores en la cual la memoria es compartida entre los procesadores. Vecino ms cercano Tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de datos histricos (donde k =1). Algunas veces se llama la tcnica del vecino k-ms cercano.
Anexo 3: Consultas estructuradas para base de datos.
/*cantidad de inspecciones total*/ select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20030101' and '20080631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
/*cantidad de inspecciones por periodo*/ select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20030101' and '20031231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 265 de287 Ing. Hugo Daniel Flores
select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20040101' and '20040631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20040701' and '20041231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20050101' and '20050631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20050701' and '20051231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20060101' and '20060631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 266 de287 Ing. Hugo Daniel Flores operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20060701' and '20061231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20070101' and '20070631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20070701' and '20071231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20080101' and '20080631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis, operativos_chasis.idoperativo from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20080701' and '20081231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
/*cantidad de unidades total*/ select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20030101' and '20080631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 267 de287 Ing. Hugo Daniel Flores
/*cantidad de unidades por periodo*/ select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20030101' and '20031231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20040101' and '20040631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20040701' and '20041231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20050101' and '20050631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20050701' and '20051231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 268 de287 Ing. Hugo Daniel Flores and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20060101' and '20060631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20060701' and '20061231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20070101' and '20070631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20070701' and '20071231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20080101' and '20080631' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a')
select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20080701' and '20081231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 269 de287 Ing. Hugo Daniel Flores
/*cantidad de modelos*/ select distinct operativos_chasis.idchasis from chasis inner join operativos_chasis on operativos_chasis.idchasis=chasis.idchasis inner join operativos on operativos.idoperativo=operativos_chasis.idoperativo and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) where operativos.fechaoperativo between '20030101' and '20031231' and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') and chasis.modelo='307'
/*cantidad de abollados*/ select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idarea=54 and idaveria=6
select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idarea=51 and idaveria=6 and chasis.modelo='boxer'
select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idarea=3 and idaveria=6 and (operativos.idcp=30) DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 270 de287 Ing. Hugo Daniel Flores
select idaveria, idarea, count(iddanio) from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idaveria=6 group by idaveria, idarea order by idaveria, idarea
/*cantidad de rayados*/ select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idarea=13 and idaveria=9
select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idarea=51 and idaveria=9 and chasis.modelo='307'
select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idarea=8 DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 271 de287 Ing. Hugo Daniel Flores and idaveria=9 and (operativos.idcp=10 or operativos.idcp=300)
select idaveria, idarea, count(iddanio) from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idaveria=9 group by idaveria, idarea order by idaveria, idarea
/*cantidad de pintura*/ select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idarea=73 and idaveria=5
select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis where idarea=35 and idaveria=5 and chasis.modelo='c4'
select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idarea=6 DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 272 de287 Ing. Hugo Daniel Flores and idaveria=5 and (operativos.idcp=360 or operativos.idcp=360)
select idaveria, idarea, count(iddanio) from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idaveria=5 group by idaveria, idarea order by idaveria, idarea
/*cantidad de faltantes*/ select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idarea=41 and idaveria=7
select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idarea=34 and idaveria=7 and chasis.modelo='c3'
select * from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 273 de287 Ing. Hugo Daniel Flores and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idarea=43 and idaveria=7 and (operativos.idcp=420 or operativos.idcp=420)
select idaveria, idarea, count(iddanio) from danios inner join operativos on operativos.idoperativo=danios.idoperativo and operativos.fechaoperativo between '20030101' and '20080630' and (operativos.idcp=300 or operativos.idcp=360 or operativos.idcp=420 or operativos.idcp=10 or operativos.idcp=25 or operativos.idcp=30 or operativos.idcp=60) inner join chasis on chasis.idchasis=danios.idchasis and (left(chasis.vin,2)='93' or left(chasis.vin,2)='8b' or left(chasis.vin,2)='vf' or left(chasis.vin,2)='8a') where idaveria=7 group by idaveria, idarea order by idaveria, idarea
Pgina 274 de287 Ing. Hugo Daniel Flores Cdigo Descripcin 30 Bajada de Buque 300 Transferencia ubicacin y lnea de carga 420 Subida a Buque 60 Retiro de Puerto 10 Retiro Fbrica de Origen 25 Subida Buque Puerto de Origen 360 Ingreso a Puerto
Deteccin de Patrones para la Prevencin de Daos y/o Averas
Ing. Hugo Daniel Flores
Pgina 1 Presentacin
Deteccin de Patrones para la Prevencin de Daos y/o Averas en Automviles 0 KM. Metodologa de desarrollo de minera de datos. Metodologa CRISP-DM. Desarrollo de la industria automotriz. Procesos en la industria automotriz Informacin de la industria automotriz Aplicacin de metodologa de desarrollo de minera de datos. Conclusin.
Pgina 2 Objetivos
1. Identificar daos y/o averas. 2. Determinar responsabilidad de siniestralidad en funcin del tipo de avera y tipo de transporte. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 278 de287 Ing. Hugo Daniel Flores 3. Imputar incidentes segn el tipo de transporte. 4. Determinar tipos de averas y/o daos. 5. Determinar partes averiadas y/o daadas que muestren algn tipo de comportamiento. 6. Especificar gravedad de daos y/o averas. 7. Definir e identificar modelos con daos especificando partes, tipo de dao y gravedad. 8. Especificar lugares donde se producen daos y/o averas tratando de definir patrones de comportamiento. 9. Especificar estadsticamente: tipos de transporte que producen daos y/o averas como as tambin, partes, tipos de averas, gravedades, lugares donde se producen. 10. Descubrir informacin oculta en funcin de los modelos generados a partir de los datos disponibles.
Pgina 3 Tecnologa
Minera de Datos Es un proceso con el cual se pueden descubrir y cuantificar relaciones predictivas en los datos con la aplicacin de un conjunto de tcnicas, y del resultado de este proceso es posible obtener conocimiento til para el negocio.
Tcnicas de Mineria de Datos
Anlisis estadstico Se preocupa por el poder de generalizacin de los resultados obtenidos para poder inferir los resultados a situaciones ms generales que la estudiada.
Anlisis con sistemas inteligentes Se preocupa por ofrecer soluciones algortmicas con un coste computacional aceptable.
Metodologa MS 1. Definicin del problema 2. Preparacin de datos 3. Exploracin de datos 4. Generacin del modelos 5. Validacin del modelos 6. Implementacin y actualizacin de los modelos
Pgina 5 DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 279 de287 Ing. Hugo Daniel Flores Tecnologa
Metodologa CRISP-DM
1. Anlisis del problema 2. Anlisis de datos 3. Preparacin de datos 4. Modelado 5. Explotacin 6. Evaluacin
Pgina 6 Metodologa CRISP-DM
Fue concebido a finales de 1996. Daimler Chrysler (entonces Daimler-Benz) estaba delante de la mayora de las organizaciones industriales y comerciales en la aplicacin de la minera de datos en sus operaciones de negocios.
Introduccin 1. La metodologa CRISP-DM 2. Pasaje de modelos genricos a modelos especializados
Modelo de referencia 1. Comprensin del negocio 2. Comprensin de datos 3. Preparacin de datos 4. Modelado 5. Evaluacin 6. Desarrollo
Pgina 7 Metodologa CRISP-DM
Gua de usuario Comprendiendo el negocio Comprensin de datos Preparacin de los datos Modelado Evaluacin Desarrollo
Salidas Comprensin del negocio Comprensin de datos Preparacin de los datos Modelado Evaluacin Desarrollo Resumen de dependencias
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 280 de287 Ing. Hugo Daniel Flores Pgina 8 Metodologa CRISP-DM
Apndice Glosario/Terminologa Tipos de problemas de minera de datos
Pgina 9 Industria automotriz
1. La industria automotriz y la identificacin de daos y/o averas. 2. Globalizacin de marcas. 3. Diversificacin de modelos. 4. Especializacin en produccin de modelos. 5. Desarrollo de tecnologa de las comunicaciones y medios de transportes. 6. Implementacin de controles. 7. Reduccin de costos. 8. Incorporacin de operadores logsticos. 9. Tercerizacin de sistemas de transporte y lugares de almacenamiento. 10. Puntos de control estratgicos. 11. Creacin de los estndares de inspeccin: 12. Procedimientos de inspeccin. 13. Sistemas codificacin de daos y/o averas. 14. Circuitos logsticos
Pgina 10 Industria Circuitos logsticos Exportacin
Importacin
DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 281 de287 Ing. Hugo Daniel Flores Pgina 11 Procesos, Informacin y Datos
Puntos de control Los check points son los nodos de las cadenas logsticas que conforman lo circuitos que recorren las unidades desde que salen de produccin hasta que llegan a su destino final. Estndares de inspeccin En cada punto de control se realiza la inspeccin de unidades segn un conjunto de reglas o procedimientos especificados por el estndar de isnepccin. Captura de datos Normalmente en la industria los datos son tomados por lectores de cdigo de barras debido a que toda unidad viene con una hoja detallada donde se indica el cdigo de barras con datos relacionados al vehculo. Procesamiento de datos Los datos son tomados donde se reliza cada inspeccin y luego son almacenados en una base de datos. Actualmente hay dos sistemas de almacenamiento uno en batch y otro de lnea a travs de radiofrecuencia. Base de datos Sistema de datos estructurado y normalizado.
Pgina 12 Aplicacin de la metodologa CRISP-DM
Comprensin del negocio El objetivo del negocio es determinar comportamientos en la ocurrencia de daos y/o averas. De esto ltimo tambin se puede inferir que es de utilidad para la toma de decisiones el poder determinar o definir los lugares donde se producen los daos y las imputaciones de las mismas.
Comprensin de datos Identificacin de autos, modelos, lugares, tipos de trasportes, empresas, partes, averas, gravedades, observacin, fechas.
Preparacin de datos Nmero de chasis, Modelo, Fecha, Lugar, Parte, Tipo Avera, Gravedad, Observacin.
Pgina 13 Aplicacin de la metodologa CRISP-DM
Modelado
El conjunto de datos de entrenamiento fue almacenado en archivos con formato de hoja de clculo y se dividi en funcin de los perodos establecidos previamente para el presente proyecto. Las cantidades de datos de entrenamiento para los respectivos modelos es variable en funcin del software utilizado, lo cual fue especificado previamente.
Evaluacin
La ejecucin de los modelos ha generado los datos esperados en funcin de los objetivos de negocio establecidos previamente para el proyecto. Si bien en el primer anlisis se pudo decir que DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 282 de287 Ing. Hugo Daniel Flores se han cubierto todas las alternativas para lograr los objetivos de negocio y de minera de datos no se descart la posibilidad de arribar a nuevas preguntas de negocio o nuevas aproximaciones de resultados.
Pgina 14 Aplicacin de la metodologa CRISP-DM
Desarrollo
rbol de Clasificacin Construccin de un rbol que en cada nodo establece condiciones sobre atributos, divide el conjunto de casos en subconjuntos que cumplen cada condicin. Los subconjuntos se vuelven a dividir aadiendo nuevos niveles al rbol hasta detenerse mediante algn criterio.
Agrupamiento Tcnica que agrupa los datos en funcin de una distancia sin utilizar ningn tipo de informacin externa para organizar los grupos.
Modelo de Clasificacin La diferencia con la primera tcnica est en que en la prediccin el atributo objetivo no es un atributo cualitativo discreto, sino es uno continuo. El objetivo de la prediccin esta en encontrar el valor numrico del atributo objetivo para objetos no vistos.
Pgina 15 Aplicacin de la metodologa CRISP-DM
Desarrollo
Pgina 16 Aplicacin de la metodologa CRISP-DM
Tipos de Averas 0 1000 2000 3000 4000 5000 6000 Per i o d o Faltante 494 184 274 264 240 247 339 605 641 1771 Pinturasaltada 935 790 812 598 490 271 136 237 609 334 Rayado - Rozado 2023 1628 1794 1792 1887 1499 1207 1278 4689 2223 Abollado 5338 2855 2375 1099 1126 1681 780 761 1016 751 2003 Semestre1-04 Semestre2-04 Semestre1-05 Semestre2-05 Semestre1-06 Semestre2-06 Semestre1-07 Semestre2-07 Semestre1-08 DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 283 de287 Ing. Hugo Daniel Flores Desarrollo
Pgina 285 de287 Ing. Hugo Daniel Flores Llanta trasera derecha. Paragolpe delantero / Protector delantero. Mediano. Observada. Modelo 17, Llanta delantera derecha. Modelo 9, Mediano.
Pgina 22 Aplicacin de la metodologa CRISP-DM
Desarrollo
Prediccin Aerosol antipinchazos Alern Cubierta delantera derecha Escape Guardabarro delantero derecho Guardabarro trasero derecho Llanta delantera derecha Llave Manijas externas de puertas traseras Manual Panel trasero bajo bal Puerta delantera derecha Puerta trasera derecha Tapa acceso gancho remolque Taza
Pgina 23 Conclusin
1. La metodologa CRISP DM es aplicable a la industria. 2. La aplicacin de las tcnicas de rbol de Clasificacin, Clustering y Modelo de Prediccin permiten obtener resultados satisfactorios. 3. Resulta ptimo el desarrollo y ejecucin de la metodologa en periodos semestrales. 4. La explotacin de datos puede tomar diferentes formas: por periodos diferentes, modelos o empresas especficas, puntos de control, tipos de averas o partes averiadas. 5. Los resultados obtenidos de la minera de datos pueden ser de utilidad para el desarrollo de sistemas de informacin. 6. En referencia a los datos y estructura de datos de los sistemas de base de datos desde donde se ha tomado la informacin se puede observar que los mismos son satisfactorios.
Pgina 24 Conclusin
En cuanto a los objetivos los mismos han sido logrados: Se han identificado daos y/o averas. Se han determinado las responsabilidades en funcin de la avera y tipos de transporte. DETECCION DE PATRONES DE DAOS Y/O AVERAS
Pgina 286 de287 Ing. Hugo Daniel Flores Las imputaciones de los incidentes segn el tipo de transporte se han establecido. Se han determinado los tipos de averas y/o daos. Se han determinado las partes averiadas y se ha podido establecer sus comportamientos. Se han especificado gravedades de daos y/o averas. Se han definido e identificado los modelos de autos con daos especificando partes, tipo de dao y gravedad. Se han especificado lugares donde se producen daos y/o averas y se han definido patrones de comportamiento. Se han especificado estadsticamente tipos de transporte que producen daos y/o averas como as tambin, partes, tipos de averas, gravedades, lugares donde se producen.