Tras las dificultades de los sistemas tradicionales en satisfacer las necesidades informacionales, surge el concepto de Data Warehouse, como solucin a las necesidades informacionales globales de la empresa. Este trmino acuado por Bill Inmon, se traduce literalmente como Almacn de Datos. No obstante si el Data Warehouse fuese exclusivamente un almacn de datos, los problemas seguiran siendo los mismos que en los Centros de Informacin. La ventaja principal de este tipo de sistemas se basa en su concepto fundamental, la estructura de la informacin. Este concepto significa el almacenamiento de informacin homognea y fiable, en una estructura basada en la consulta y el tratamiento jerarquizado de la misma, y en un entorno diferenciado de los sistemas operacionales. Segn defini Bill Inmon, el Data Warehouse se caracteriza por ser:
Integrado: los datos almacenados en el Data Warehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del Data Warehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar.
Histrico: el tiempo es parte implcita de la informacin contenida en un Data Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el Data Warehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el Data Warehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.
No voltil: el almacn de informacin de un Data Warehouse existe para ser ledo, y no modificado. La informacin es por tanto permanente, significando la actualizacin del Data Warehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista. E.F. Codd, considerado como el padre de las bases de datos relacionales, ha venido insistiendo desde principio de los noventa, que disponer de un sistema de bases de datos relacionales, no significa disponer de un soporte directo para la toma de decisiones. Muchas de estas decisiones se basan en un anlisis de naturaleza multidimensional, que se intentan resolver con la tecnologa no orientada para esta naturaleza. Este anlisis multidimensional, parte de una visin de la informacin como dimensiones de negocio. Estas dimensiones de negocio se comprenden mejor fijando un ejemplo, para lo que vamos a mostrar, para un sistema de gestin de expedientes, las jerarquas que se podran manejar para el nmero de los mismo para las dimensiones: zona geogrfica, tipo de expediente y tiempo de resolucin. La visin general de la informacin de ventas para estas dimensiones definidas, la representaremos, grficamente como el cubo de la derecha:
Un gerente de una zona estara interesado en visualizar la informacin para su zona en el tiempo para todos los productos que distribuye, lo podra tener una representacin grfica como el cubo de la derecha:
Un director de producto, sin embargo querra examinar la distribucin geogrfica de sus productos, para toda la informacin histrica almacenada en el Data Warehouse.
Esto se podra representar como la siguiente figura:
O se podra tambin examinar los datos en un determinado momento o una visin particularizada.
A su vez estas dimensiones tienen una jerarqua, interpretndose en el cubo como que cada cubo elemental es un dato elemental, del que se puede extraer informacin agregada. En el ejemplo anterior podra ser:
Y as por ejemplo se podra querer analizar la evolucin de las ventas en Galicia de libros de Fsica por meses desde Febrero del 1996 hasta Marzo del 1997. Ello es fcil de obtener (incluso a "golpe de ratn") si la informacin de ventas se ha almacenado en un Data Warehouse, definiendo estas jerarquas y estas dimensiones de negocio. En este sentido citamos las palabras de D. Wayne Calloway Director Ejecutivo de Operaciones de Pepsico en una asamblea general de accionistas:
"Hace diez aos les pude decir cuntos Doritos vendimos al Oeste del Mississipi. Hoy no slo les puedo decir eso mismo, sino cuntos vendimos en California, en el Condado de Orange, en la ciudad de Irvine, en el Supermercado local Vons, en una promocin especial, al final del pasillo 4, los jueves". Otra caracterstica del Data Warehouse es que contiene datos relativos a los datos, concepto que se ha venido asociando al trmino de metadatos. Los metadatos permiten mantener informacin de la procedencia de la informacin, la periodicidad de refresco, su fiabilidad, forma de clculo, etc., relativa a los datos de nuestro almacn. Estos metadatos sern los que permitan simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales. Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, seran: Soportar al usuario final, ayudndole a acceder al Data Warehouse con su propio lenguaje de negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas de navegacin. Soportar a los responsables tcnicos del Data Warehouse en aspectos de auditora, gestin de la informacin histrica, administracin del Data Warehouse, elaboracin de programas de extraccin de la informacin, especificacin de las interfaces para la realimentacin a los sistemas operacionales de los resultados obtenidos, etc. Para comprender el concepto de Data Warehouse, es importante considerar los procesos que lo conforman. A continuacin se describen dichos procesos clave en la gestin de un Data Warehouse:
Extracci: 	obtencin de informacin de las distintas fuentes tanto internas como externas.
Elaboracin: 	filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin.
Carga: 	organizacin y actualizacin de los datos y los metadatos en la base de datos.
Explotacin: 	extraccin y anlisis de la informacin en los distintos niveles de agrupacin. Desde el punto de vista del usuario, el nico proceso visible es la explotacin del almacn de datos, aunque el xito del Data Warehouse radica en los tres procesos iniciales que alimentan la informacin del mismo y suponen el mayor porcentaje de esfuerzo (en torno a un 80%) a la hora de desarrollar el almacn. Las diferencias de un Data Warehouse con un sistema tradicional las podramos resumir en el siguiente esquema: SISTEMA TRADICIONAL DATA WAREHOUSE Predomina la actualizacin Predomina la consulta La actividad ms importante es de tipo operativo (da a da) La actividad ms importante es el anlisis y la decisin estratgica Predomina el proceso puntual Predomina el proceso masivo Mayor importancia a la estabilidad Mayor importancia al dinamismo Datos en general desagregados Datos en distintos niveles de detalle y agregacin Importancia del dato actual Importancia del dato histrico Importante del tiempo de respuesta de la transaccin instantnea Importancia de la respuesta masiva Estructura relacional Visin multidimensional Usuarios de perfiles medios o bajos Usuarios de perfiles altos Explotacin de la informacin relacionada con la operativa de cada aplicacin Explotacin de toda la informacin interna y externa relacionada con el negocio
Una de las claves del xito en la construccin de un Data Warehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo. Terminamos este apartado, resumiendo los beneficios que un Data Warehouse puede aportar: Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares. 2.2.1.- DATA WAREHOUSE VS. DATA MART La duplicacin en otro entorno de datos es un trmino que suele ser mal interpretado e incomprendido. As es usado por los fabricantes de SGBD en el sentido de simple rplica de los datos de un sistema operacional centralizado en sistemas distribuidos. En un contexto de Data Warehouse, el trmino duplicacin se refiere a la creacin de Data Marts locales o departamentales basados en subconjuntos de la informacin contenida en el Data Warehouse central o maestro. Segn define Meta Group, "un Data Mart es una aplicacin de Data Warehouse, construida rpidamente para soportar una lnea de negocio simple". Los Data Marts, tienen las mismas caractersticas de integracin, no volatilidad, orientacin temtica y no volatilidad que el Data Warehouse. Representan una estrategia de "divide y vencers" para mbitos muy genricos de un Data Warehouse. Esta estrategia es particularmente apropiada cuando el Data Warehouse central crece muy rpidamente y los distintos departamentos requieren slo una pequea porcin de los datos contenidos en l. La creacin de estos Data Marts requiere algo ms que una simple rplica de los datos: se necesitarn tanto la segmentacin como algunos mtodos adicionales de consolidacin. La primera aproximacin a una arquitectura descentralizada de Data Mart, podra ser venir originada de una situacin como la descrita a continuacin.
El departamento de Marketing, emprende el primer proyecto de Data Warehouse como una solucin departamental, creando el primer Data Mart de la empresa. Visto el xito del proyecto, otros departamentos, como el de Riesgos, o el Financiero se lanzan a crear sus Data Marts. Marketing, comienza a usar otros datos que tambin usan los Data Marts de Riesgos y Financiero, y estos hacen lo propio. Esto parece ser una decisin normal, puesto que las necesidades de informacin de todos los Data Marts crecen conforme el tiempo avanza. Cuando esta situacin evoluciona, el esquema general de integracin entre los Data Marts pasa a ser, la del grfico de la derecha. En esta situacin, es fcil observar cmo este esquema de integracin de informacin de los Data Marts, pasa a convertirse en un rompecabezas en el que la gestin se ha complicado hasta convertir esta ansia de informacin en un autntico quebradero de cabeza. No obstante, lo que ha fallado no es la integracin de Data Marts, sino su forma de integracin.
En efecto, un enfoque ms adecuado sera la coordinacin de la gestin de informacin de todos los Data Marts en un Data Warehouse centralizado. En esta situacin los Data Marts obtendran la informacin necesaria, ya previamente cargada y depurada en el Data Warehouse corporativo, simplificando el crecimiento de una base de conocimientos a nivel de toda la empresa. Esta simplificacin provendra de la centralizacin de las labores de gestin de los Data Marts, en el Data Warehouse corporativo, generando economas de escala en la gestin de los Data Marts implicados. Segn un estudio de IDC (International Data Corporation) tras analizar 541 empresas, la distribucin de las implantaciones de Data Warehouse y Data Marts en la actualidad, y sus opiniones respecto a esta distribucin en el futuro, nos muestra los siguientes datos: En la grfica, observamos, cmo en la actualidad, de las empresas consultadas, un 80% de ellas cuentan con implantaciones de Data Warehouse o Data Marts.
La proporcin actual de implantaciones de Data Warehouse es casi el doble que el de Data Mart. No obstante, seguramente tras la andadura inicial de alguno de estos proyectos de Data Mart, se ve como ms adecuado para el futuro este enfoque "divide y vencers", previndose una inversin de estos papeles y duplicando la implantacin de Data Marts a los Data Warehouse. Probablemente, el 5% de usuarios que disponen de tecnologa de Data Warehouse y piensan renunciar a ella en el futuro, no han realizado previamente un estudio de factores implicados en un Data Warehouse, o han pasado por la situacin inicial de partida, y no se han planteado una reorganizacin del mismo. Componentes a tener en cuenta a la hora de construir un Data Warehouse 2.2.2.- COMPONENTES A TENER EN CUENTA A LA HORA DE CONSTRUIR UN DW 2.2.2.1.- Hardware 2.2.2.2.- Software de almacenamiento (SGBD) 2.2.2.3.- Software de extraccin y manipulacin de datos 2.2.2.4.- Herramientas Middleware 2.2.2.1.-Hardware Un componente fundamental a la hora de poder contar con un Data Warehouse que responda a las necesidades analticas avanzadas de los usuarios, es el poder contar con una infraestructura hardware que la soporte. En este sentido son crticas, a la hora de evaluar uno u otro hardware, dos caractersticas principales: Por un lado, a este tipo de sistemas suelen acceder pocos usuarios con unas necesidades muy grandes de informacin, a diferencia de los sistemas operacionales, con muchos usuarios y necesidades puntuales de informacin. Debido a la flexibilidad requerida a la hora de hacer consultas complejas e imprevistas, y al gran tamao de informacin manejada, son necesarias unas altas prestaciones de la mquina. Por otro lado, debido a que estos sistemas suelen comenzar con una funcionalidad limitada, que se va expandiendo con el tiempo (situacin por cierto aconsejada), es necesario que los sistemas sean escalables para dar soporte a las necesidades crecientes de equipamiento. En este sentido, ser conveniente el optar por una arquitectura abierta, que nos permita aprovechar lo mejor de cada fabricante. En el mercado se han desarrollado tecnologas basadas en tecnologa de procesamiento paralelo, dan el soporte necesario a las necesidades de altas prestaciones y escalabilidad de los Data Warehouse. Estas tecnologas son de dos tipos: SMP (Symmetric multiprocessing, o Multiprocesadores Simtricos): Los sistemas tienen mltiples procesadores que comparten un nico bus y una gran memoria, repartindose los procesos que genera el sistema, siendo el sistema operativo el que gestiona esta distribucin de tareas. Estos sistemas se conocen como arquitecturas de "casi todo compartido". El aspecto ms crtico de este tipo de sistemas es el grado de rendimiento relativo respecto al nmero de procesadores presentes, debido a su creciente no lineal. MPP (Massively parallel processing, o Multiprocesadores Masivamente Paralelos): Es una tecnologa que compite contra la SMP, en la que los sistemas suelen ser casi independientes comunicados por intercambiadores de alta velocidad que permiten gestionarlos como un nico sistema. Se conocen por ello como arquitecturas de "nada compartido". Su escalabilidad es mayor que la de los SMP. Segn Meta Group, las tendencias de mercado indican que las arquitecturas SMP aportan normalmente suficientes caractersticas de escalabilidad, con una mayor oferta y un menor riesgo tecnolgico. Sin embargo, cuando las condiciones de escalabilidad sean extremas, se puede plantear la opcin MPP. No obstante, se estn produciendo avances significativos en arquitecturas SMP, que han logrado mquinas con un crecimiento lineal de rendimiento hasta un nmero de 64 procesadores. Recomendamos desde estas pginas, la visita a la direccin Internet: http://www.tpc.org/bench.results.html en donde la Transaction Processing Council (de la que son miembros ALR, Amdahl, Bull, Compaq, Data General, Dell, Digital, Fujitsu, HP, IBM, Intergraph, NCR , Siemens-Nixdorf, Sun o Unisys), realiza una comparativa entre las mquinas de sus miembros, proporcionando para diferentes modelos y diferentes configuraciones de Sistemas Operativos y Software de Base de Datos, un anlisis de rendimiento (throughput), y un resumen de caractersticas (precio, nmero de procesadores, arquitectura y futuras versiones y fecha de disponibilidad). 2.2.2.2.-Software de almacenamiento (SGBD) Como hemos comentado, el sistema que gestione el almacenamiento de la informacin (Sistema de Gestin de Base de Datos o SGBD), es otro elemento clave en un Data Warehouse. Independientemente de que la informacin almacenada en el Data Warehouse se pueda analizar mediante visualizacin multidimensional, el SGBD puede estar realizado utilizando tecnologa de Bases de Datos Relacionales o Multidimensionales. Las bases de datos relacionales, se han popularizado en los sistemas operacionales, pero se han visto incapaces de enfrentarse a las necesidades de informacin de los entornos Data Warehouse. Por ello, y puesto que, como hemos comentado, las necesidades de informacin suelen atender a consultas multidimensionales, parece que unas Bases de Datos multidimensionales, parten con ventaja. En este sentido son de aplicacin los comentarios que realizamos en el apartado de hardware, por requerimientos de prestaciones, escalabilidad y consolidacin tecnolgica. Al igual que en el hardware, nuevos diseos de las bases de datos relacionales, las bases de datos post-relacionales, abren un mayor abanico de eleccin. Estas bases de datos post-relacionales, parten de una tecnologa consolidada y dan respuesta al agotamiento de las posibilidades de los sistemas de gestin de bases de datos relacionales, ofreciendo las mismas prestaciones aunque implantadas en una arquitectura diseada de forma ms eficiente. Esta mayor eficiencia se consigue instaurando relaciones lgicas en vez de fsicas, lo que hace que ya no sea necesario destinar ms hardware a una solucin para conseguir la ejecucin de las funciones requeridas. El resultado es que la misma aplicacin implantada en una BD post- relacional requiere menos hardware, puede dar servicio a un mayor nmero de usuarios y utilizar mecanismos intensivos de acceso a los datos ms complejos. Asimismo, esta tecnologa permite combinar las ventajas de las bases de datos jerrquicas y las relacionales con un coste ms reducido. Ambos sistemas aportan como ventaja que no resulta necesario disponer de servidores omnipotentes, sin que puede partirse de un nivel de hardware modesto y ampliarlo a medida que crecen las necesidades de informacin de la compaa y el uso efectivo del sistema. Dejamos fuera del mbito de esta gua el detallar cmo los proveedores de bases de datos han optimizado los accesos a los ndices, o las nuevas posibilidades que ofrece la compresin de datos (menos espacio para la misma informacin lo que implica, entre otras ventajas, que ms informacin se puede tener en cach), para lo que remitimos a la prensa especializada o a las publicaciones de los fabricantes.
2.2.2.3.- Software de extraccin y manipulacin de datos En este apartado analizaremos un componente esencial a la hora de implantar un Data Warehouse, la extraccin y manipulacin. Para esta labor, que entra dentro del mbito de los profesionales de tecnologas de la informacin, es crtico el poder contar con herramientas que permitan controlar y automatizar los continuos "mimos" y necesidades de actualizacin del Data Warehouse. Estas herramientas debern proporcionar las siguientes funcionalidades: Control de la extraccin de los datos y su automatizacin, disminuyendo el tiempo empleado en el descubrimiento de procesos no documentados, minimizando el margen de error y permitiendo mayor flexibilidad. Acceso a diferentes tecnologas, haciendo un uso efectivo del hardware, software, datos y recursos humanos existentes. Proporcionar la gestin integrada del Data Warehouse y los Data Marts existentes, integrando la extraccin, transformacin y carga para la construccin del Data Warehouse corporativo y de los Data Marts. Uso de la arquitectura de metadatos, facilitando la definicin de los objetos de negocio y las reglas de consolidacin. Acceso a una gran variedad de fuentes de datos diferentes. Manejo de excepciones. Planificacin, logs, interfaces a schedulers de terceros. Interfaz independiente de hardware. Soporte en la explotacin del Data Warehouse. A veces, no se suele prestar la suficiente atencin a esta fase de la gestin del Data Warehouse, aun cuando supone una gran parte del esfuerzo en la construccin de un Data Warehouse. Existen multitud de herramientas disponibles en el mercado que automatizan parte del trabajo, para lo cual recomendamos la visita a la pgina Internet: http://pwp.starnetinc.com/larryg/clean.html en la que se proporciona una lista de mas de 100 herramientas de extraccin y manipulacin de datos, con links a sus pginas Internet, y una somera descripcin de la funcionalidad cubierta por cada herramienta.
2.2.2.4.- Herramientas Middleware Como herramientas de soporte a la fase de gestin de un Data Warehouse, analizaremos a continuacin dos tipos de herramientas: Por un lado herramientas Middleware, que provean conectividad entre entornos diferentes, para ayudar en la gestin del Data Warehouse. Por otro, analizadores y aceleradores de consultas, que permitan optimizar tiempos de respuestas en las necesidades analticas, o de carga de los diferentes datos desde los sistemas operacionales hasta el Data Warehouse. Las herramientas Middleware deben ser escalables siendo capaces de crecer conforme crece el Data Warehouse, sin problemas de volmenes. Tambien deben ser flexibles y robustas, sin olvidarse de proporcionar un rendimiento adecuado. Estarn abiertas a todo tipos de entornos de almacenamiento de datos, tanto mediante estndares de facto (OLE, ODBC, etc.), como a los tipos de mercado ms populares (DB2, Access, etc.). La conectividad, al menos en estndares de transporte (SNA LU6.2, DECnet, etc.) debe estar tambien asegurada. Con el uso de estas herramientas de Middleware lograremos: Maximizar los recursos ejecutando las aplicaciones en la plataforma ms adecuada. Integrar los datos y aplicaciones existentes en una plataforma distribuida. Automatizar la distribucin de datos y aplicaciones desde un sistema centralizado. Reducir trfico en la red, balanceando los niveles de cliente servidor (mas o menos datos en local, mas o menos proceso en local). Explotar las capacidades de sistemas remotos sin tener que aprender multiples entornos operativos. Asegurar la escalabilidad del sistema. Desarrollar aplicaciones en local y explotarlas en el servidor. Los analizadores y aceleradores de querys trabajan volcando sobre un fichero de log las consultas ejecutadas y datos asociados a las mismas (tiempo de respuesta, tablas accedidas, mtodo de acceso, etc). Este log se analiza, bien automticamente o mediante la supervisin del administrador de datos, para mejorar los tiempos de accesos. Estos sistemas de monitorizacin se pueden implementar en un entorno separado de pruebas, o en el entorno real. Si se ejecutan sobre un entorno de pruebas, el rendimiento del entorno real no se v afectado. Sin embargo, no es posible optimizar los esfuerzos, puesto que los anlisis efectuados pueden realizarse sobre consultas no crticas o no frecuentemente realizadas por los usuarios. El implantar un sistema analizador de consultas, en el entorno real tiene adems una serie de ventajas tales como: Se pueden monitorizar los tiempos de respuesta del entorno real. Se pueden implantar mecanismos de optimizacin de las consultas, reduciendo la carga del sistema. Se puede imputar costes a los usuarios por el coste del Data Warehouse. Se pueden implantar mecanismos de bloqueo para las consultas que vayan a implicar un tiempo de respuesta excesivo. Fases de implantacin de un Data Warehouse 2.2.3.- FASES DE IMPLANTACIN DE UN DATA WAREHOUSE Tal y como apareca en un artculo en ComputerWorld: "Un Data Warehouse no se puede comprar, se tiene que construir". Como hemos mencionado con anterioridad, la construccin e implantacin de un Data Warehouse es un proceso evolutivo. Este proceso se tiene que apoyar en una metodologa especfica para este tipo de procesos, si bien es ms importante que la eleccin de la mejor de las metodologas, el realizar un control para asegurar el seguimiento de la misma. En las fases que se establezcan en el alcance del proyecto es fundamental el incluir una fase de formacin en la herramienta utilizada para un mximo aprovechamiento de la aplicacin. El seguir los pasos de la metodologa y el comenzar el Data Warehouse por un rea especfica de la empresa, nos permitir obtener resultados tangibles en un corto espacio de tiempo. Planteamos aqu la metodologa propuesta por SAS Institute: la "Rapid Warehousing Methodology". Dicha metodologa es iterativa, y est basada en el desarrollo incremental del proyecto de Data Warehouse dividido en cinco fases:
Definicin de los objetivos Definicin de los requerimientos de informacin Diseo y modelizacin Implementacin Revisin 2.2.3.1-Definicin de los objetivos 2.2.3.2.-Definicin de los requerimientos de informacin Tal como sucede en todo tipo de proyectos, sobre todo si involucran tcnicas novedosas como son las relativas al Data Warehouse, es analizar las necesidades y hacer comprender las ventajas que este sistema puede reportar. Es por ello por lo que nos remitimos al apartado de esta gua de Anlisis de las necesidades del comprador. Ser en este punto, en donde detallaremos los pasos a seguir en un proyecto de este tipo, en donde el usuario va a jugar un papel tan destacado. 2.2.3.3.-Diseo y modelizacin Los requerimientos de informacin identificados durante la anterior fase proporcionarn las bases para realizar el diseo y la modelizacin del Data Warehouse. En esta fase se identificarn las fuentes de los datos (sistema operacional, fuentes externas,..) y las transformaciones necesarias para, a partir de dichas fuentes, obtener el modelo lgico de datos del Data Warehouse. Este modelo estar formado por entidades y relaciones que permitirn resolver las necesidades de negocio de la organizacin. El modelo lgico se traducir posteriormente en el modelo fsico de datos que se almacenar en el Data Warehouse y que definir la arquitectura de almacenamiento del Data Warehouse adaptndose al tipo de explotacin que se realice del mismo. La mayor parte estas definiciones de los datos del Data Warehouse estarn almacenadas en los metadatos y formarn parte del mismo. 2.2.3.4.-Implementacin La implantacin de un Data Warehouse lleva implcitos los siguientes pasos: Extraccin de los datos del sistema operacional y transformacin de los mismos. Carga de los datos validados en el Data Warehouse. Esta carga deber ser planificada con una periodicidad que se adaptar a las necesidades de refresco detectadas durante las fases de diseo del nuevo sistema. Explotacin del Data Warehouse mediante diversas tcnicas dependiendo del tipo de aplicacin que se de a los datos: Query & Reporting On-line analytical processing (OLAP) Executive Information System (EIS) Informacin de gestin Decision Support Systems (DSS) Visualizacin de la informacin Data Mining Minera de Datos, etc. La informacin necesaria para mantener el control sobre los datos se almacena en los metadatos tcnicos (cuando describen las caractersticas fsicas de los datos) y de negocio (cuando describen cmo se usan esos datos). Dichos metadatos debern ser accesibles por los usuarios finales que permitirn en todo momento tanto al usuario, como al administrador que deber adems tener la facultad de modificarlos segn varen las necesidades de informacin. Con la finalizacin de esta fase se obtendr un Data Warehouse disponible para su uso por parte de los usuarios finales y el departamento de informtica. 2.2.3.5.-Revisin La construccin del Data Warehouse no finaliza con la implantacin del mismo, sino que es una tarea iterativa en la que se trata de incrementar su alcance aprendiendo de las experiencias anteriores. Despus de implantarse, debera realizarse una revisin del Data Warehouse planteando preguntas que permitan, despus de los seis o nueve meses posteriores a su puesta en marcha, definir cules seran los aspectos a mejorar o potenciar en funcin de la utilizacin que se haga del nuevo sistema. 2.2.3.6.-Diseo de la estructura de cursos de formacin Con la informacin obtenida de reuniones con los distintos usuarios se disearn una serie de cursos a medida, que tendrn como objetivo el proporcionar la formacin estadstica necesaria para el mejor aprovechamiento de la funcionalidad incluida en la aplicacin. Se realizarn prcticas sobre el desarrollo realizado, las cuales permitirn fijar los conceptos adquiridos y servirn como formacin a los usuarios. Estrategias de implantacin de un Data Warehouse 2.2.4.- ESTRATEGIAS DE IMPLANTACIN Resaltamos en esta gua algunas consideraciones que recomendamos deben seguirse a la hora de abordar un proyecto de este tipo: "La Base de Datos de Riesgos debe estar separada de las Bases de Datos Operacionales" con objeto de no interferir en la actividad del da a da, disponiendo de la informacin necesaria para Riesgos (interna y externa) y en un entorno orientado hacia la consulta y el anlisis (Data Warehouse). "Concepcin del sistema como un conjunto de herramientas de anlisis", debido a que las actividades de Anlisis de Riesgos no se pueden automatizar completamente, puesto que requieren anlisis y decisiones del usuario. "Diseo del sistema no orientado a procesos"; se debe disponer de un conjunto abierto de herramientas que se utilizan con propsitos determinados no relacionados con las necesidades operativas. "Abordar el sistema con un enfoque de desarrollo gradual", se debe comenzar con un esqueleto bsico de funcionalidad y datos que produzcan resultados a corto plazo y permita aprender en la prctica, y a continuacin ir configurando progresivamente nuevas funcionalidades conforme la experiencia lo vaya requiriendo. Son de aplicacin en este apartado las consideraciones que realizamos en los apartados Data Warehouse vs. Data Marts yFases de Implantacin de un Data Warehouse. Tcnicas de explotacin de la implantacin de un Data Warehouse
2.2.5.-TCNICAS DE EXPLOTACIN DE LA IMPLANTACIN 2.2.5.- Introduccin 2.2.5.1.- OLAP. ROLAP, MOLAP 2.2.5.2.- Query & Reporting 2.2.5.3.- Data Mining o Minera de Datos 2.2.5.4.- Webhousing Introduccin Dentro del esquema de Gestin y Explotacin del Data Warehouse que se muestra en el grfico, pasamos a detallar las posibilidades que nos ofrece esta ltima fase.
En ella, examinaremos 1. el uso que se puede realizar de las utilidades OLAP del Data Warehouse para anlisis multidimensionales, 2. las facilidades de obtencin de informacin mediante consultas e informes libre, y el uso de tcnicas de Data Mining que nos permitan descubrir "informacin oculta" en los datos mediante el uso de tcnicas estadsticas. OLAP, MOLAP y ROLAP 2.2.5.1.- OLAP, ROLAP, MOLAP 2.2.5.1.- Introduccin 2.2.5.1.1.- Sistemas MOLAP 2.2.5.1.2.- Sistemas ROLAP 2.2.5.1.3.- ROLAP vs. MOLAP (Comparativa) Introduccin.- La explotacin del Data Warehouse mediante informacin de gestin, se fundamenta bsicamente en los niveles agrupados o calculados de informacin. La informacin de gestin se compone de conceptos de informacin y coeficientes de gestin, que los cuadros directivos de la empresa pueden consultar segn las dimensiones de negocio que se definan. Dichas dimensiones de negocio se estructuran a su vez en distintos niveles de detalle (por ejemplo, la dimensin geogrfica puede constar de los niveles nacional, provincial, ayuntamientos y seccin censal). Este tipo de sistemas ha existido desde hace tiempo, en el mundo de la informtica bajo distintas denominaciones: cuadros de mando, MIS, EIS, etc. Su realizacin fuera del entorno del Data Warehouse, puede repercutir sobre estos sistemas en una mayor rigidez, dificultad de actualizacin y mantenimiento, malos tiempos de respuesta, incoherencias de la informacin, falta del dato agregado, etc. Los sistemas de soporte a la decisin usando tecnologas de Data Warehouse, se llaman sistemas OLAP (siglas de On Line Analytical Processing (OLAP). En general, estos sistemas OLAP deben: Soportar requerimientos complejos de anlisis Analizar datos desde diferentes perspectivas Soportar anlisis complejos contra un volumen ingente de datos La funcionalidad de los sistemas OLAP se caracteriza por ser un anlisis multidimensional de datos corporativos, que soportan los anlisis del usuario y unas posibilidades de navegacin, seleccionando la informacin a obtener. Normalmente este tipo de selecciones se ve reflejada en la visualizacin de la estructura multidimensional, en unos campos de seleccin que nos permitan elegir el nivel de agregacin (jerarqua) de la dimensin, y/o la eleccin de un dato en concreto, la visualizacin de los atributos del sujeto, frente a una(s) dimensiones en modo tabla, pudiendo con ello realizar, entre otras las siguientes acciones: Rotar (Swap): 		alterar las filas por columnas (permutar dos dimensiones de anlisis) Bajar (Down): 		bajar el nivel de visualizacin en las filas a una jerarqua inferior Detallar (Drilldown): 	informar para una fila en concreto, de datos a un nivel inferior Expandir (Expand): 	id. anterior sin perder la informacin a nivel superior para ste y el resto de los valores Colapsar (Collapse): 	operacin inversa de la anterior. Para ampliar el glosario sobre exploraciones en anlisis OLAP, recomendamos la visita a la pgina Internet: http://www.kenan.com/acumate/olaptrms.htm en donde se describen en torno a 50 trminos relacionados con las posibilidades de navegacin que permiten este tipo de anlisis. Existen dos arquitecturas diferentes para los sistemas OLAP: OLAP multidimensional (MOLAP) y OLAP relacionales (ROLAP). 2.2.5.1.1.-Sistemas MOLAP La arquitectura MOLAP usa unas bases de datos multidimensionales para proporcionar el anlisis, su principal premisa es que el OLAP est mejor implantado almacenando los datos multidimensionalmente. Por el contrario, la arquitectura ROLAP cree que las capacidades OLAP estn perfectamente implantadas sobre bases de datos relacionales Un sistema MOLAP usa una base de datos propietaria multidimensional, en la que la informacin se almacena multidimensionalmente, para ser visualizada multidimensionalmente. El sistema MOLAP utiliza una arquitectura de dos niveles: La bases de datos multidimensionales y el motor analtico. La base de datos multidimensional es la encargada del manejo, acceso y obtencin del dato. El nivel de aplicacin es el responsable de la ejecucin de los requerimientos OLAP. El nivel de presentacin se integra con el de aplicacin y proporciona un interfaz a travs del cual los usuarios finales visualizan los anlisis OLAP. Una arquitectura cliente/servidor permite a varios usuarios acceder a la misma base de datos multidimensional.
La informacin procedente de los sistemas operacionales, se carga en el sistema MOLAP, mediante una serie de rutinas batch. Una vez cargado el dato elemental en la Base de Datos multidimensional (MDDB), se realizan una serie de clculos en batch, para calcular los datos agregados, a travs de las dimensiones de negocio, rellenando la estructura MDDB. Tras rellenar esta estructura, se generan unos ndices y algoritmos de tablas hash para mejorar los tiempos de accesos a las consultas. Una vez que el proceso de compilacin se ha acabado, la MDDB est lista para su uso. Los usuarios solicitan informes a travs del interface, y la lgica de aplicacin de la MDDB obtiene el dato. La arquitectura MOLAP requiere unos clculos intensivos de compilacin. Lee de datos precompilados, y tiene capacidades limitadas de crear agregaciones dinmicamente o de hallar ratios que no se hayan precalculados y almacenados previamente. 2.2.5.1.2.-Sistemas ROLAP La arquitectura ROLAP, accede a los datos almacenados en un Data Warehouse para proporcionar los anlisis OLAP. La premisa de los sistemas ROLAP es que las capacidades OLAP se soportan mejor contra las bases de datos relacionales. El sistema ROLAP utiliza una arquitectura de tres niveles. La base de datos relacional maneja los requerimientos de almacenamiento de datos, y el motor ROLAP proporciona la funcionalidad analtica. El nivel de base de datos usa bases de datos relacionales para el manejo, acceso y obtencin del dato. El nivel de aplicacin es el motor que ejecuta las consultas multidimensionales de los usuarios. El motor ROLAP se integra con niveles de presentacin, a travs de los cuales los usuarios realizan los anlisis OLAP.
Despus de que el modelo de datos para el Data Warehouse se ha definido, los datos se cargan desde el sistema operacional. Se ejecutan rutinas de bases de datos para agregar el dato, si as es requerido por el modelos de datos. Se crean entonces los ndices para optimizar los tiempos de acceso a las consultas. Los usuarios finales ejecutan sus anlisis multidimensionales, a travs del motor ROLAP, que transforma dinmicamente sus consultas a consultas SQL. Se ejecutan estas consultas SQL en las bases de datos relacionales, y sus resultados se relacionan mediante tablas cruzadas y conjuntos multidimensionales para devolver los resultados a los usuarios. La arquitectura ROLAP es capaz de usar datos precalculados si estos estn disponibles, o de generar dinmicamente los resultados desde los datos elementales si es preciso. Esta arquitectura accede directamente a los datos del Data Warehouse, y soporta tcnicas de optimizacin de accesos para acelerar las consultas. Estas optimizaciones son, entre otras, particionado de los datos a nivel de aplicacin, soporte a la desnormalizacin y joins mltiples.
2.2.5.1.3.-ROLAP vs. MOLAP (Comparativa) Cuando se comparan las dos arquitecturas, se pueden realizar las siguientes observaciones: El ROLAP delega la negociacin entre tiempo de respuesta y el proceso batch al diseo del sistema. Mientras, el MOLAP, suele requerir que sus bases de datos se precompilen para conseguir un rendimiento aceptable en las consultas, incrementando, por tanto los requerimientos batch. Los sistemas con alta volatilidad de los datos (aquellos en los que cambian las reglas de agregacin y consolidacin), requieren una arquitectura que pueda realizar esta consolidacin ad-hoc. Los sistemas ROLAP soportan bien esta consolidacin dinmica, mientras que los MOLAP estn ms orientados hacia consolidaciones batch. Los ROLAP pueden crecer hasta un gran nmero de dimensiones, mientras que los MOLAP generalmente son adecuados para diez o menos dimensiones. Los ROLAP soportan anlisis OLAP contra grandes volmenes de datos elementales, mientras que los MOLAP se comportan razonablemente en volmenes ms reducidos (menos de 5 Gb) Por ello, y resumiendo, el ROLAP es una arquitectura flexible y general, que crece para dar soporte a amplios requerimientos OLAP. El MOLAP es una solucin particular, adecuada para soluciones departamentales con unos volmenes de informacin y nmero de dimensiones ms modestos. Query y reporting en un Data Warehouse
2.2.5.2.- QUERY & REPORTING Las consultas o informes libres trabajan tanto sobre el detalle como sobre las agregaciones de la informacin. Realizar este tipo de explotacin en un almacn de datos supone una optimizacin del tradicional entorno de informes (reporting), dado que el Data Warehouse mantiene una estructura y una tecnologa mucho ms apropiada para este tipo de solicitudes. Los sistemas de "Query & Reporting", no basados en almacenes de datos se caracterizan por la complejidad de las consultas, los altsimos tiempos de respuesta y la interferencia con otros procesos informticos que compartan su entorno. La explotacin del Data Warehouse mediante "Query & Reporting" debe permitir una gradacin de la flexibilidad de acceso, proporcional a la experiencia y formacin del usuario. A este respecto, se recomienda el mantenimiento de al menos tres niveles de dificultad: Los usuarios poco expertos podrn solicitar la ejecucin de informes o consultas predefinidas segn unos parmetros predeterminados. Los usuarios con cierta experiencia podrn generar consultas flexibles mediante una aplicacin que proporcione una interfaz grfica de ayuda. Los usuarios altamente experimentados podrn escribir, total o parcialmente, la consulta en un lenguaje de interrogacin de datos. Hay una extensa gama de herramientas en el mercado para cumplir esta funcionalidad sobre entornos de tipo Data Warehouse, por lo que se puede elegir el software ms adecuado para cada problemtica empresarial concreta. Minera de datos 2.2.5.3.- DATA MINING O MINERA DE DATOS 2.2.5.3.1.- Introduccin 2.2.5.3.2.- Tcnicas de Data Mining 2.2.5.3.3.- Metodologa de aplicacin 2.2.5.3.1.-Introduccin El Data Mining es un proceso que, a travs del descubrimiento y cuantificacin de relaciones predictivas en los datos, permite transformar la informacin disponible en conocimiento til de negocio. Esto es debido a que no es suficiente "navegar" por los datos para resolver los problemas de negocio, sino que se hace necesario seguir una metodologa ordenada que permita obtener rendimientos tangibles de este conjunto de herramientas y tcnicas de las que dispone el usuario. Constituye por tanto una de las vas clave de explotacin del Data Warehouse, dado que es este su entorno natural de trabajo. Se trata de un concepto de explotacin de naturaleza radicalmente distinta a la de los sistemas de informacin de gestin, dado que no se basa en coeficientes de gestin o en informacin altamente agregada, sino en la informacin de detalle contenida en el almacn. Adicionalmente, el usuario no se conforma con la mera visualizacin de datos, sino que trata de obtener una relacin entre los mismos que tenga repercusiones en su negocio. 2.2.5.3.2.Tcnicas de Data Mining Para soportar el proceso de Data Mining, el usuario dispone de una extensa gama de tcnicas que le pueden ayudar en cada una de las fases de dicho proceso, las cuales pasamos a describir: Anlisis estadstico: Utilizando las siguientes herramientas: 1. ANOVA: o Anlisis de la Varianza, contrasta si existen diferencias significativas entre las medidas de una o ms variables continuas en grupo de poblacin distintos. 2. Regresin: define la relacin entre una o ms variables y un conjunto de variables predictoras de las primeras. 3. Ji cuadrado: contrasta la hiptesis de independencia entre variables. 4. Componentes principales: permite reducir el nmero de variables observadas a un menor nmero de variables artificiales, conservando la mayor parte de la informacin sobre la varianza de las variables. 5. Anlisis cluster: permite clasificar una poblacin en un nmero determinado de grupos, en base a semejanzas y desemejanzas de perfiles existentes entre los diferentes componentes de dicha poblacin. 6. Anlisis discriminante: mtodo de clasificacin de individuos en grupos que previamente se han establecido, y que permite encontrar la regla de clasificacin de los elementos de estos grupos, y por tanto identificar cules son las variables que mejor definan la pertenencia al grupo. Mtodos basados en rboles de decisin: El mtodo Chaid (Chi Squared Automatic Interaction Detector) es un anlisis que genera un rbol de decisin para predecir el comportamiento de una variable, a partir de una o ms variables predictoras, de forma que los conjuntos de una misma rama y un mismo nivel son disjuntos. Es til en aquellas situaciones en las que el objetivo es dividir una poblacin en distintos segmentos basndose en algn criterio de decisin.
El rbol de decisin se construye partiendo el conjunto de datos en dos o ms subconjuntos de observaciones a partir de los valores que toman las variables predictoras. Cada uno de estos subconjuntos vuelve despus a ser particionado utilizando el mismo algoritmo. Este proceso contina hasta que no se encuentran diferencias significativas en la influencia de las variables de prediccin de uno de estos grupos hacia el valor de la variable de respuesta. La raz del rbol es el conjunto de datos ntegro, los subconjuntos y los subsubconjuntos conforman las ramas del rbol. Un conjunto en el que se hace una particin se llama nodo. El nmero de subconjuntos en una particin puede ir de dos hasta el nmero de valores distintos que puede tomar la variable usada para hacer la separacin. La variable de prediccin usada para crear una particin es aquella ms significativamente relacionada con la variable de respuesta de acuerdo con test de independencia de la Chi cuadrado sobre una tabla de contingencia. Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de informacin. Aquellas configuraciones de las variables de anlisis que obtengan mejores valores para la variable de respuesta, correspondern a segmentos con mayor capacidad reproductiva. A travs de la reproduccin, los mejores segmentos perduran y su proporcin crece de generacin en generacin. Se puede adems introducir elementos aleatorios para la modificacin de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la poblacin estar constituida por buenas soluciones al problema de optimizacin. Redes neuronales: Genricamente son mtodos de proceso numrico en paralelo, en el que las variables interactan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar a un proceso de retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo adecuado. Lgica difusa: Es una generalizacin del concepto de estadstica. La estadstica clsica se basa en la teora de probabilidades, a su vez sta en la tcnica conjuntista, en la que la relacin de pertenencia a un conjunto es dicotmica (el 2 es par o no lo es). Si establecemos la nocin de conjunto borroso como aquel en el que la pertenencia tiene una cierta graduacin (un da a 20C es caluroso?), dispondremos de una estadstica ms amplia y con resultados ms cercanos al modo de razonamiento humano. Series temporales: Es el conocimiento de una variable a travs del tiempo para, a partir de ese conocimiento, y bajo el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones. Suelen basarse en un estudio de la serie en ciclos, tendencias y estacionalidades, que se diferencian por el mbito de tiempo abarcado, para por composicin obtener la serie original. Se pueden aplicar enfoques hbridos con los mtodos anteriores, en los que la serie se puede explicar no slo en funcin del tiempo sino como combinacin de otras variables de entorno ms estables y, por lo tanto, ms fcilmente predecibles. 2.2.5.3.3. Metodologa de aplicacin: Para utilizar estas tcnicas de forma eficiente y ordenada es preciso aplicar una metodologa estructurada, al proceso de Data Mining. A este respecto proponemos la siguiente metodologa, siempre adaptable a la situacin de negocio particular a la que se aplique: Muestreo Extraccin de la poblacin muestral sobre la que se va a aplicar el anlisis. En ocasiones se trata de una muestra aleatoria, pero puede ser tambin un subconjunto de datos del Data Warehouse que cumplan unas condiciones determinadas. El objeto de trabajar con una muestra de la poblacin en lugar de toda ella, es la simplificacin del estudio y la disminucin de la carga de proceso. La muestra ms ptima ser aquella que teniendo un error asumible contenga el nmero mnimo de observaciones. En el caso de que se recurra a un muestreo aleatorio, se debera tener la opcin de elegir El nivel de confianza de la muestra (usualmente el 95% o el 99%). El tamao mximo de la muestra (nmero mximo de registros), en cuyo caso el sistema deber informar del el error cometido y la representatividad de la muestra sobre la poblacin original. El error muestral que est dispuesto a cometer, en cuyo caso el sistema informar del nmero de observaciones que debe contener la muestra y su representatividad sobre la poblacin original. Para facilitar este paso s debe disponer de herramientas de extraccin dinmica de informacin con o sin muestreo (simple o estratificado). En el caso del muestreo, dichas herramientas deben tener la opcin de, dado un nivel de confianza, fijar el tamao de la muestra y obtener el error o bien fijar el error y obtener el tamao mnimo de la muestra que nos proporcione este grado de error. Exploracin Una vez determinada la poblacin que sirve para la obtencin del modelo se deber determinar cuales son las variables explicativas que van a servir como "inputs" al modelo. Para ello es importante hacer una exploracin por la informacin disponible de la poblacin que nos permita eliminar variables que no influyen y agrupar aquellas que repercuten en la misma direccin.
El objetivo es simplificar en lo posible el problema con el fin de optimizar la eficiencia del modelo. En este paso se pueden emplear herramientas que nos permitan visualizar de forma grfica la informacin utilizando las variables explicativas como dimensiones. Tambin se pueden emplear tcnicas estadsticas que nos ayuden a poner de manifiesto relaciones entre variables. A este respecto resultar ideal una herramienta que permita la visualizacin y el anlisis estadstico integrados Manipulacin Tratamiento realizado sobre los datos de forma previa a la modelizacin, en base a la exploracin realizada, de forma que se definan claramente los inputs del modelo a realizar (seleccin de variables explicativas, agrupacin de variables similares, etc.). Modelizacin Permite establecer una relacin entre las variables explicativas y las variables objeto del estudio, que posibilitan inferir el valor de las mismas con un nivel de confianza determinado. Valoracin Anlisis de la bondad del modelo contrastando con otros mtodos estadsticos o con nuevas poblaciones muestrales. Webhousing 2.2.5.4.- WEBHOUSING La popularizacin de Internet y la tecnologa Web, ha creado un nuevo esquema de informacin en el cual los clientes tienen a su disposicin unas cantidades ingentes de informacin. La integracin de las tecnologas Internet y Data Warehouse tienen una serie de ventajas como son: Consistencia: toda la organizacin accede al mismo conjunto de datos y ve los informes que reflejan sus necesidades. Hay una "nica versin de la verdad". Accesibilidad: la empresa acede a la informacin a travs de un camino comn (el browser de Internet), simplificando el proceso de bsqueda de la informacin. Disponibilidad: la informacin es accesible en todo momento, independientemente de los sistemas operacionales. Bajos costes de desarrollo y mantenimiento, debidos a la estandarizacin de las aplicaciones de consultas basadas en Internet, independientemente del sistema operativo que soporte el browser, y de la reduccin de los costes de distribucin de software en los puestos clientes. Proteccin de los datos, debido al uso de tecnologas consolidadas de proteccin en entornos de red (firewalls). Bajos costes de formacin, debido al uso de interfaces tipo Web. La interactividad de las aplicaciones en este entorno pueden tener varios niveles: Publicacin de datos: las pginas distribuyen informacin obtenida del Data Warehouse, volcada en las pginas intra/internet. Distribucin de reportes: dando soporte a consultas simples elaboradas por los usuarios. Aplicaciones dinmicas: sirviendo de soporte de decisin a servicios solicitados desde el puesto cliente, ejecutando la peticin en el servidor y devolvindolas al cliente, va el browser de Internet o haciendo uso de "applets" de Java. Las arquitecturas base de una implantacin de Data Warehouse en Internet, pueden tener las siguientes alternativas: 1. Usar el Servidor Internet como router, y ejecutar la peticin desde el cliente al servidor directamente. 2. Hacer uso del navegador para visualizar una pgina Internet residente en el servidor de Internet. Esta pgina contendra informacin que se actualizara en el servidor Internet, desde el servidor DW, a peticin del usuario haciendo uso de CGI's. 3. El cliente podra lanzar su consulta directamente al servidor de DW, con "applets" de Java, haciendo el servidor Internet nicamente de encaminamiento (router). 4. El cliente podra ejecutar la aplicacin DW desde el navegador, pero con un plug-in, que hara que se tuvieran las mismas opciones que la aplicacin DW. 5. Realizar una descarga masiva de datos con un protocolo de transferencia de ficheros (FTP), para su proceso en local.
El alcance funcional de la implantacin del Data Warehouse, basado en tecnologas Internet, puede ser la misma que la realizada sin su uso. En este sentido las crticas que se le pueden achacar en la actualidad, provienen de la baja velocidad de las lneas actuales, que se solventa parcialmente mediante el uso de aplicaciones Java, en lugar de hacer uso de pginas HTML, o CGI. Solucin parcial, mientras la velocidad de transferencia se incrementa da a da mediante nuevos algoritmos de compresin de datos o el uso de lneas de alta capacidad RDSI. Tipos de aplicaciones donde utilizar tcnicas de Data Warehouse
2.2.6.- TIPOS DE APLICACIONES EN LAS QUE UTILIZAR LAS TCNICAS DISPONIBLES SOBRE EL DW 2.2.6.1.- Data Warehouse y Sistemas de Marketing 2.2.6.2.- Data Warehouse y Anlisis de Riesgo Financiero 2.2.6.3.- Data Warehouse y Anlisis de Riesgo de Crdito 2.2.6.4.- Data Warehouse: Otras reas de Aplicacin 2.2.6.1. Data Warehouse y Sistemas de Marketing La aplicacin de tecnologas de Data Warehouse supone un nuevo enfoque de Marketing, haciendo uso del Marketing de Base de Datos. En efecto, un sistema de Marketing Warehouse implica un marketing cientfico, analtico y experto, basado en el conocimiento exhaustivo de clientes, productos, canales y mercado. Este conocimiento se deriva de la disposicin de toda la informacin necesaria, tanto interna como externa, en un entorno de Data Warehouse, persiguiendo con toda esta informacin, la optimizacin de las variables controladas del Marketing Mix y el soporte a la prediccin de las variables no controlables (mediante tcnicas de Data Mining). Basndose en el conocimiento exhaustivo de los clientes se consigue un tratamiento personalizado de los mismos tanto en el da a da (atencin comercial) como en acciones de promocin especficas.
Las reas en las que se puede aplicar las tecnologas de Data Warehouse a Marketing son, entre otras: Investigacin Comercial Segmentacin de mercados Identificacin de necesidades no cubiertas y generacin de nuevos productos, o modificacin de productos existentes Fijacin de precios y descuentos Definicin de la estrategia de canales de comercializacin y distribucin Definicin de la estrategia de promocin y atencin al cliente Relacin con el cliente: Programacin, realizacin y seguimiento de acciones comerciales Lanzamiento de nuevos productos Campaas de venta cruzada, vinculacin, fidelizacin, etc. Apoyo al canal de venta con informacin cualificada 2.2.6.2. Data Warehouse y Anlisis de Riesgo Financiero El Data Warehouse aplicado al anlisis de riesgos financieros ofrece capacidades avanzadas de desarrollo de aplicaciones para dar soporte a las diversas actividades de gestin de riesgos. Es posible desarrollar cualquier herramienta utilizando las funciones que incorpora la plataforma, gracias a la potencionalidad estadstica aplicada al riesgo de crdito. As se puede usar para llevar a cabo las siguientes funcionalidades: Para la gestin de la posicin: Determinacin de la posicin, Clculo de sensibilidades, Anlisis what/if, Simulaciones, Monitorizacin riesgos contra lmites, etc. Para la medicin del riesgo: Soporte metodologa RiskMetrics (Metodologa registrada de J.P. Morgan / Reuters), Simulacin de escenarios histricos, Modelos de covarianzas, Simulacin de Montecarlo, Modelos de valoracin, Calibracin modelos valoracin, Anlisis de rentabilidad, Establecimiento y seguimiento. de lmites, Desarrollo/modificacin modelos, Stress testing, etc. El uso del Data Warehouse ofrece una gran flexibilidad para creacin o modificacin de modelos propios de valoracin y medicin de riesgos, tanto motivados por cambios en la regulacin, como en avances en la modelizacin de estos instrumentos financieros. Ello por cuanto se puede almacenar y poner a disposicin informacin histrica de mercado y el uso de tcnicas de Data Mining nos simplifica la implantacin de cualquier mtodo estadstico. Los mtodos de previsin, se pueden realizar usando series histricas, (GARCH, ARIMA, etc.)
Pero la explotacin de la informacin nos permite no solo la exploracin de los datos para un conocimiento de la informacin histrica, sino tambin para examinar condiciones de normalidad de las que la mayora de las metodologas de valoracin del riesgo parten. Adems de implantar modelos ya existentes, se pueden acometer anlisis con vistas a determinar modelos propios, basados en anlisis de correlacin para el estudio de la valoracin del riesgo de carteras o procesos de simulacin de Montecarlo. Todo ello en una plataforma avanzada de gestin de la informacin basada en la fcil visualizacin de la misma y de su anlisis estadstico como soporte a metodologas estndar de facto, o a las particularidades de cada entorno. 2.2.6.3. Data Warehouse y Anlisis de Riesgo de Crdito La informacin relativa a clientes y su entorno se ha convertido en fuente de prevencin de Riesgos de Crdito. En efecto, existe una tendencia general en todos los sectores a recoger, almacenar y analizar informacin crediticia como soporte a la toma de decisiones de Anlisis de Riesgos de Crdito. Los avances en la tecnologa de Data Warehouse hacen posible la optimizacin de los sistemas de Anlisis de Riesgo de Crdito: Para la gestin del riesgo de crdito los sistemas operacionales han ofrecido: Sistemas de Informacin para Gerencia (MIS) e informes de Soporte a la Decisin de Problemas (DSS) estticos y no abiertos a nuevas relaciones y orgenes de datos, situacin en la que la incorporacin de nuevas fuentes de informacin ha sido un problema en lugar de una ventaja. Exploraciones de datos e informes cerrados y estticos. Anlisis sin inclusin de consideraciones temporales lo que imposibilita el anlisis del pasado y la previsin del futuro. Herramientas de credit-scoring no flexibles, construidas sobre algoritmos difcilmente modificables, no adaptados al entorno de la empresa, o exclusivamente basados en la experiencia personal no contrastada, con lo que los sistemas han ayudado a repetir los errores en vez de a corregirlos. Pero estos sistemas tradicionales se enfrentan a una problemtica difcil de resolver para acomodarse a las necesidades analticas de los Sistemas de Anlisis del Riesgo, necesidades que se pueden cubrir mediante el uso de tecnologas de Data Warehouse Dentro de la Prevencin de Impagados, utilizando sistemas OLAP se puede obtener el grado interno de concentracin de riesgos con el cliente, y almacenar la variedad de fuentes internas o externas de informacin disponibles sobre el mismo. Ello nos permite obtener sin dificultad la posicin consolidada respecto al riesgo del cliente. El anlisis se puede realizar asimismo por las diferentes caractersticas de la operacin para la que se realiza el anlisis, en cuanto al plazo y la cuanta de la misma, la modalidad de crdito elegida, la finalidad de la operacin o las garantas asociadas a la misma. Usando las mismas capacidades es fcil el establecer una segmentacin ABC de la cartera de clientes potenciales o reales que nos optimicen el nivel de esfuerzo en el Anlisis de Riesgos. En el soporte al proceso de Anticipacin al Riesgo, se puede dar un adecuado soporte a la correcta generacin y consideracin de seales de alerta, teniendo en cuenta las pautas y condicionantes diferenciados dependiendo del tipo de cliente y producto usando Data Mining Para el caso del Seguimiento del ciclo de Impagados, de nuevo el uso de sistemas OLAP, simplifican el anlisis la diversidad de los diferentes parmetros que intervienen en el mismo, tales como la jerarqua de centros de recobro a contemplar, la diferente consideracin dependiendo de la antigedad del impago, del cliente o del importe impagado. Un sistema de Data Mining puede aconsejar la mejor accin en caso de impagados, litigio, precontencioso, etc. frente a los parmetros de importe, antigedad, zona geogrfica, etc. Estos sistemas hacen que el analista se dedique con ms intensidad al anlisis de la informacin, que es donde aporta su mayor valor aadido, que a la obtencin de la misma. No obstante, estos sistemas deben de huir de las automatizaciones completas sin intervencin del analista: es l el que mejor sabe lo que quiere descubrir. "La herramienta debe ser un medio y no un fin". 2.2.6.4. Data Warehouse: Otras reas de aplicacin Otras reas de la empresa han aplicado las soluciones que proporciona la tecnologa Data Warehouse para mejorar gran parte de sus procesos actuales. Entre ellas destacamos: Control de Gestin: Sistemas de Presupuestacin, Anlisis de Desviaciones, Reporting (EIS, MIS, etc.) Logstica: Mejora de la relacin con proveedores, Racionalizacin de los procesos de control de inventarios, Optimizacin de los niveles de produccin, Previsin de la demanda en infraestructura. Recursos Humanos Planificacin de incorporaciones, Gestin de carreras profesionales, Asignacin de recursos a proyectos alternativos, etc. Seguridad de acceso y manipulacin de la informacin en el Data Warehouse
2.2.7.- SEGURIDAD DE ACCESO Y MANIPULACIN DE LA INFORMACIN EN EL DW A continuacin trataremos las consideraciones a contemplar en cuanto a seguridad de accesos y seguridad de datos (backup), puesto que si bien la seguridad de accesos (al nivel de datos y de aplicacin) debe ser tratada de la misma manera que en los sistemas operacionales, los procedimientos de copias de seguridad merecen un especial tratamiento. Tal y como ocurre en los sistemas operacionales, un sistema Data Warehouse debe poder realizar procedimientos de recuperacin de la informacin desde cualquier momento en el que los datos estaban validados. Un Data Warehouse, debe poder contar con procedimientos de recuperacin, que permitan recuperar los datos ante cualquier situacin de catstrofe. No obstante, es preciso tener en cuenta otras consideraciones, as por ejemplo dependiendo del tamao de un Data Mart, se puede elegir no realizar un backup, sino realizar un refresco especial desde los datos operacionales, dependiendo de la periodicidad estndar de carga. En cuanto a la seguridad de acceso, se cumple en los sistemas de Data Warehouse, que es preciso el implantar niveles de acceso a la informacin, realizando un plan completo de seguridad que contemple: Acceso a recursos de la red (local o intranet) Asignacin de usuarios a grupos con perfiles de seguridad diferenciados Asignacin de niveles de autorizacin de aplicacin a grupos de usuarios Seguridad a nivel de Base de Datos, mediante los procedimientos provistos por las mismas. Etc. Tendencias tecnolgicas y de mercado de sistemas de Data Warehouse 2.3.- TENDENCIAS TECNOLGICAS Y DE MERCADO Describimos a continuacin una recopilacin de las principales tendencias observadas en el mercado. Estas tendencias se han comentado con anterioridad en otros apartados de esta Gua y se hace referencia a dichos puntos. Tendencias hacia herramientas especializados: El uso de herramientras de propsito general no satisface por completo las necesidades de un proyecto de Data Warehouse. Se ha comentado en esta gua las Herramientas de usuario final y tecnolgicas, en el que se muestran para cada paso de la creacin de un Data Warehouse, una lista de los principales vendedores y sus direcciones Web. Webhousing El uso de Internet como fuente de informacin hacia el exterior e interior (via intranets), crece constantemente, y la integracin de una herramienta de Data Warehouse con Internet, se comenta en el apartado de Webhousing Uso generalizado de Data Marts Las peculiaridades de un proyecto Data Warehouse, y el enfoque progresivo de su construccin, hace que cada vez mas organizaciones realicen sus desarrollos mediante el uso de Data Marts integrados, tal y como comentabamos en el apartadoData Warehouse vs. Data Mart Uso de tecnologa OLAP Este aspecto est comentado con amplitud en el apartado OLAP, ROLAP, MOLAP Aspectos tcnicos en el proceso de creacin y explotacin de un Data Warehouse
3.- ASPECTOS TCNICOS EN EL PROCESO DE CREACIN Y EXPLOTACIN DEL DW En este captulo se pretende dar la orientacin suficiente al comprador para la preparacin del conjunto de especificaciones que definirn los requisitos que han de cumplir la Creacin y Explotacin de un Data Warehouse. Se realiza en primer lugar un anlisis de las necesidades del comprador, a continuacin se recogen los factores relevantes a tener en cuenta en el proceso de adquisicin y, finalmente, se describe cmo deben ser planteadas las especificaciones tcnico - funcionales para la elaboracin del Pliego de Prescripciones Tcnicas, qu normas, estndares y clusulas tipo pueden ser de aplicacin, y cul es el cuestionario tcnico diseado para normalizar las ofertas y facilitar su evaluacin. 3.1.- ANLISIS DE LAS NECESIDADES DEL COMPRADOR Incluimos aqu unos pasos que, tal y como se comentaban en la Fases de implantacin de un Data Warehouse , son previos al inicio de un proyecto de este tipo. En efecto, como punto de arranque de todo, es preciso "vender la idea" a los usuarios finales de un Data Warehouse. Esto es as, por ser una idea bastante novedosa y sobre la que pueden surgir recelos de su efectividad. Estos recelos se pueden eliminar comenzando por un pequeo mdulo, del cual se valoren los beneficios posteriores, para iniciar progresivamente el desarrollo de nuevos mdulos, cada uno con un coste unitario cada vez ms reducido, pero sin embargo con unos beneficios distribuidos cada vez mayores por poder cada vez incluir ms informacin. (Ver Data Warehouse vs. Data Mart) para comprobar un caso de este tipo. El simple hecho de realizar un informe de necesidades previas en el que se enumeren la situacin de los datos entre los diversos sistemas operacionales, puede ser un hecho decisivo para emprender un proyecto de este tipo. Muchas veces la informacin existente se encuentra tan poco normalizada, existen tantas discrepancias entre estos sistemas, que el abordar un Data Warehouse en el que se limpien estos datos y se normalicen pueden aportar un valor intangible: "la calidad y fiabilidad de la informacin". La venta de esta idea no slo se ha de realizar frente a la Direccin sino que es preciso realizarla a todos los niveles: a la Direccin, Gerencia e incluso al rea de Desarrollo. Tras esta venta de la idea, comienzan dos fases similares al anlisis de requisitos del sistema (ARS segn abreviaturas de la metodologa METRICA): la definicin de objetivos y requerimientos de informacin, en el que se analicen las necesidades del comprador. Definicin de los objetivos En esta fase se definir el equipo de proyecto que debe estar compuesto por representantes del departamento informtico y de los departamentos usuarios del Data Warehouse adems de la figura de jefe de proyecto. Se definir el alcance del sistema y cuales son las funciones que el Data Warehouse realizar como suministrador de informacin de negocio estratgica para la empresa. Se definirn as mismo, los parmetros que permitan evaluar el xito del proyecto.
Definicin de los requerimientos de informacin Durante esta fase se mantendrn sucesivas entrevistas con los representantes del departamento usuario final y los representantes del departamento de informtica. Se realizar el estudio de los sistemas de informacin existentes, que ayudaran a comprender las carencias actuales y futuras que deben ser resueltas en el diseo del Data Warehouse Asimismo, en esta fase el equipo de proyecto debe ser capaz de validar el proceso de entrevistas y reforzar la orientacin de negocio del proyecto. Al finalizar esta fase se obtendr el documento de definicin de requerimientos en el que se reflejarn no solo las necesidades de informacin de los usuarios, sino cual ser la estrategia y arquitectura de implantacin del Data Warehouse. Factores relevantes en el proceso de adquisicin de un sistema de Data Warehouse DATA WAREHOUSE 3.2.- FACTORES RELEVANTES EN EL PROCESO DE ADQUISICIN En la definicin del objeto del contrato y los requisitos inherentes al mismo, as como en la valoracin y comparacin de ofertas de los licitadores pueden intervenir muchos factores y de muy diversa ndole. Es de suma importancia que todos los factores relevantes que intervienen en el proceso de contratacin queden debidamente recogidos en el pliego de prescripciones tcnicas que regule el contrato. As mismo, es conveniente que las soluciones ofertadas por los licitadores sean recogidas en los cuestionarios disponibles a tal efecto: De empresa Econmicos Tcnicos particulares Se van a relacionar a continuacin algunos de los factores que suelen tener mayor peso al seleccionar una herramienta de Data Warehouse. Sin embargo, debe tenerse en cuenta que la importancia de cada factor variar en funcin de cada caso particular, por lo que siempre ser necesario identificar la importancia relativa de cada punto. Los puntos a contemplar son bastante similares a los contemplados en el apartado homnimo de los SGBD, que adaptaremos a la casustica particular de un Data Warehouse. Pruebas en condiciones reales Tal y como suceda en los SGBD, el rendimiento real de un Data Warehouse es muy difcil de predecir mediante procedimientos tericos. Por ello, de igual forma que en el SGBD, si se va a instalar un Data Warehouse que contendr un gran volumen de datos o, si por cualquier otra razn, existen dudas sobre la capacidad del Data Warehouse de dar unas prestaciones adecuadas en las mquinas disponibles se debe exigir al suministrador una prueba anterior a la adquisicin del Data Warehouse. Esta prueba debe realizarse en la propia instalacin de destino. La prueba se debera realizar en las condiciones ms parecidas a las reales que se puedan conseguir. Para ello se deber cargar el Data Warehouse con un volumen de datos adecuado y se debern crear procesos de prueba similares a los ms costosos de los que se vayan a desarrollar. A diferencia de con los SGBD, no es preciso realizar la prueba en momentos de gran carga, por la diferente filosofa de un almacn de datos orientado al conocimiento, pero s que ser preciso la comprobacin de la compatibilidad de la herramienta para los procesos de extraccin y carga desde los diferentes sistemas operacionales (sistemas operativos, bases de datos, etc.) implicados . Volumen y organizacin de los datos Debe estar garantizado que el Data Warehouse es capaz de tratar el volumen de datos que se vaya a necesitar en la instalacin. Para ello debe verificarse no slo que el Data Warehouse puede manejar el volumen total de datos, sino que no existe ninguna limitacin que impide organizarlo de la forma ms conveniente. No obstante, en este sentido y como factor comn de un SGBD con un Data Warehouse, cabe resear que muchos problemas de rendimiento se deben ms veces a un mal diseo del modelo de datos del Data Warehouse que a un problema de rendimiento de la herramienta en s. Dimensionamiento de la plataforma de instalacin De lo comentado en los dos puntos anteriores puede deducirse que existe la posibilidad de que sea necesario redimensionar la mquina en la que se instale el Data Warehouse, o mejor aun, disponer de una dedicada al Data Warehouse. Es necesario que el suministrador detalle cual de las dos versiones est ofreciendo para cada una de las licencias que se compren y si alguna de ellas fuese una versin limitada, que especifique claramente cuales de las funcionalidades ofertadas no se encuentran presentes en la versin restringida. Condiciones econmicas y del soporte Existen actualmente varios sistemas de cobro por el uso de Data Warehouse segn el fabricante. Los ms utilizados son facturar por: Cada mquina y/o tipo de mquina en la que se instale. Cada usuario que acceda al SGBD. Por tiempo de utilizacin (usualmente renovacin anual). Por combinacin de las anteriores. Es imprescindible que el suministrador indique con toda claridad el mtodo utilizado. Tambin debe explicitarse que, salvo indicacin en contrario, todas las licencias son de versiones completas sin ninguna restriccin respecto a las funcionalidades ofertadas. Tambin es conveniente pedir los precios de los productos adicionales que no se desee instalar en el momento pero que puedan ser interesantes en el futuro. Otro factor importante es la duracin de la garanta, perodo de tiempo durante el que el suministrador proporcionar soporte gratuito a sus productos y, tambin el precio del soporte en aos sucesivos. Este ltimo precio debe fijarse sobre variables presentes en el contrato no sobre futuros precios de lista del fabricante. Otro factor que debe evaluarse es la calidad del soporte ofrecido. Este puede dividirse en un gran nmero de puntos cuya importancia variar en funcin de las necesidades del comprador. Entre ellos, se pueden citar: La inclusin o no de la instalacin en el precio del producto. El tiempo mximo de entrega. La inclusin o no de prestaciones adicionales gratuitas como puede ser un cierto nmero de horas de formacin. Capacitacin y experiencia del personal que presta soporte tcnico y consultora. Calidad de la documentacin, idioma en que est escrita, nmero de copias suministradas gratuitamente y precio de las copias adicionales. Capacidad tcnica de la empresa y de la asistencia tcnica que presta para lo que es recomendable pedir referencias a otros usuarios de la Administracin de este tipo de productos. Pliego de descripciones tcnicas particulares de un Data Warehouse DATA WAREHOUSE 3.3.- DISEO DEL PLIEGO DE PRESCRIPCIONES TCNICAS PARTICULARES Debido a la no existencia de ninguna norma o estndar aplicable a un Data Warehouse, mas que estndares de facto, describimos a continuacin cuestionarios tcnicos de normalizacin y valoracin de ofertas de SGBD. Estos cuestionarios han de partir de unas especificaciones previas de: Entorno Hardware: Host: (Tipo Mquina, Sistema Operativo y Base de Datos Operacional) Servidor de la aplicacin de DW (Tipo Mquina, N procesadores, Memoria total y por procesador, Sistema Operativo, Capacidad de Disco) Clientes (Tipo de Mquina, Memoria, Sistema Operativo, Capacidad de Disco) Red local (Topologa, Protocolos, Sofware de Cliente y Nmero de Usuarios soportados) Entorno Software: Gestor de Base de Datos para el Data Warehouse Volumen estimado de la Base de Datos A continuacin y dependiendo del mbito de aplicacin del Data Warehouse describimos un cuestionario aplicado a la creacin del Data Warehouse por un lado, por otro del Anlisis de la Calidad del dato y la depuracin, y por ltimo de su Explotacin. 3.3.1.- Cuestionario para la Extraccin, Movimiento y Carga 3.3.2.- Cuestionario de Anlisis de Calidad 3.3.3.- Cuestionario de Herramientas de Usuario Final: OLAP, EIS y Reporting. Cuestionario para la ETL 3.3.1.- CUESTIONARIO PARA LA EXTRACCIN, MOVIMIENTO Y CARGA Con carcter general y a fin de utilizar la informacin recopilada de cara a la contratacin, es importante destacar que los datos recogidos en este cuestionario estn dirigidos a obtener un resumen estructurado de la oferta y a demostrar la solvencia tcnica o profesional de la empresa en aquellos casos en que no sea requerida la clasificacin de la misma. Dicha informacin slo servir de base a la valoracin cuando est relacionada con lo expresado en la clusula "Criterios de adjudicacin del contrato", siendo, en el resto de los casos, de carcter meramente informativo. Nota: (*) significa que hay que indicar "1" en caso afirmativo. (**) significa que hay que repetir para cada sistema operativo ofertado. Cuestin Respuesta Referencia a
. Especificar para cada uno de las paquetes software ofertados la o las posibles plataformas (servidor central, servidor intermedio y cliente) donde podran instalarse, detallando los requerimientos fsicos y lgicos asociados a cada alternativa, junto con los procesos que se ejecutaran en cada una de las posibles plataformas [ ] [ ] . Compatibilidad con Sistemas operativos (Enumerar) [ ] [ ]
. Compatibilidad con software de red [ ] [ ] . Necesidad de software adicional [ ] [ ] - REQUERIMIENTOS FSICOS . Especificar detalladamente los requerimientos fsicos mnimos y recomendados, tales como memoria RAM, espacio libre en disco, procesadores, etc... [ ] [ ] CARACTERSTICAS GENERALES - FUENTES DE DATOS (ORIGEN) SOPORTADAS . Permite extraer datos desde varias plataformas origen simultneamente [ ] [ ] . Indicar las distintas fuentes de datos operacionales a las que es posible acceder, especificando en los casos que sea necesario las ltimas versiones certificadas. [ ] [ ] Ficheros planos [ ] [ ] Acceso a bases de datos [ ] [ ] Otras fuentes operacionales [ ] [ ] Consideraciones a tener en cuenta [ ] [ ]
- BASES DE DATOS DESTINO SOPORTADAS . Permite cargar datos en varias plataformas destino simultneamente [ ] [ ] .Gestores de bases de datos destino soportados, especificando las
ltimas versiones certificadas
- FUNCIONALIDADES . Enumerar las funcionalidades de la o las herramientas [ ] [ ] propuestas: Permite manejar (leer/escribir) cadenas de caracteres de longitud variable No limita el nmero de dgitos de los formatos numricos Es posible aplicar reglas de transformacin a los nmeros con formato en coma flotante
Otras funcionalidades (especificar)
- TRATAMIENTO INTERMEDIO DE LOS DATOS RECUPERADOS .Realiza un almacenamiento intermedio de los datos recuperados a partir de los sistemas operacionales . Especificar Almacenamiento intermetdio fsico de los datos Fichero plano Memoria BBDD propia BBDD externa Otros Localizacin Puesto cliente Servidor intermedio Servidor central Otros Tcnicas aplicadas sobre los datos intermedios Compresin Encriptacin Otros
Explicar el consumo de recursos asociado a este almacenamiento intermedio de los datos [ ] [ ]
- BASE DE DATOS COMO FUENTE DE DATOS OPERACIONALES . Conocimiento de la estructura de la base de datos Requiere algn software adicional que permita el acceso a las BBDD para tal funcionalidad [ ] [ ] . Deteccin a captura de modificaciones en la estructura de las bases de datos Requiere algn software adicional que permita el acceso a las BBDD para tal funcionalidad Explicar con detalle los mecanismos utilizados para la deteccin de cambios en la estructura de las bases de datos Es posible automatizar la deteccin de dichos cambios Es posible automatizar la captura de los cambios realizados en la estructura de las bases de datos Indicar si la herramienta es capaz de detectar automticamente las transformaciones a las que afectan las modificaciones realizadas Es necesario parar las bases de datos para realizar el proceso de captura de cambios
Observaciones [ ] [ ]
. Acceso a las bases de datos Requiere algn software adicional que permita el acceso a las BBDD para tal funcionalidad Acceden directamente a la base de datos los programas generados por la herramienta Indicar cmo se obtienen los ficheros de descarga de los [ ] [ ] datos Mediante una utilidad de la propia herramienta A travs de una utilidad de la BBDD Mediante un desarrollo a medida
Otros (especificar))
. Deteccin y captura de las modificaciones en los datos Requiere algn software adicional que permita el acceso a las BBDD para tal funcionalidad Es posible automatizar la deteccin de estas modificaciones Explicar detalladamente los mecanismos utilizados para la captura de dichas modificaciones Es posible automatizar la captura de dichas modificaciones Indicar si la herramienta es capaz de detectar automticamente las transformaciones a las que afectan las modificaciones realizadas.
Es necesario parar las bases de datos para realizar el proceso de captura de las modificaciones realizadas sobre los datos (Observaciones) [ ] [ ]
- RECOMENDACIONES PRCTICAS . Enumerar las principales recomendaciones prcticas para asegurar una plena explotacin de la potencialidad de los paquetes software ofertados
. Enumerar y justificar brevemente los puntos fuertes tanto de la arquitectura funcional propuesta como de las herramientas ofertadas [ ] [ ]
FUNCIONALIDAD
- FACILIDAD DE USO
. Especificar los idiomas soportados en cada una de las siguientes reas: Aplicacin Ayuda on-line Manuales de ayuda Soporte . Soporta alfabetizacin internacional . Dispone de ayuda on-line . Es posible la presentacin preliminar de la documentacin generada antes de imprimirla . Posee un interfaz grfico que permita tener una visin global de las tablas incluidas en los sistemas operacionales y en el Data Warehouse . Especificar detalladamente los diferentes perfiles de usuario contemplados para cada una de las herramientas ofertadas, as como la curva de aprendizaje (en horas) para cada uno de ellos. . Posee un Editor de Diagramas que facilite las tareas de diseo de los flujos de datos y de las transformaciones a aplicar [ ] [ ]
- PROCESOS DE EXTRACCIN Y TRANSFORMACIN
. Indicar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse . Requiere algn software adicional que complemente esta funcionalidad . Es posible automatizar completamente los procesos de extraccin y [ ] [ ] transformacin . Se puede integrar con el planificador externo de tareas . Explicar detalladamente el mecanismo de acceso a las estructuras de las bases de datos, tanto operacionales como del Data Warehouse . Explicar el mecanismo de extraccin de los datos desde los sistemas operacionales detallando concretamente de dnde los extraen y si se utilizan ficheros secuenciales intermedios . Detallar los procedimientos de depuracin incorporados . Indicar las funciones de transformacin ms importantes incluidas en el producto: Importacin desde ficheros planos de reglas de transformacin previamente definidas Validacin y sustitucin de los campos de una tabla en base a los campos de otras tablas Clculos aritmticos propios de sumarizacin de la informacin Conversin de formatos de fecha Definicin de reglas de negocio Llamadas a subrutinas externas Otras . Es posible definir reglas de transformacin generales que se puedan parametrizar mediante variables para casos concretos . En caso de exclusin de datos en base a reglas de transformacin, indicar si se pueden almacenar . Indicar: Almacenamiento fsico de los datos excluidos Fichero plano Base de Datos propia Base de Datos externa Otros Localizacin fsica de los datos excluidos Puesto cliente Servidor intermedio Servidor central
Otros
- CARACTERSTICAS DE LOS PROGRAMAS GENERADOS
. Especificar el lenguaje utilizado en la generacin de cdigo para las distintas fuentes soportadas
. Indicar si genera tambin los JCL o scripts de compilacin y ejecucin
. Es posible modificar los esqueletos de los programas a generar
. Enumerar los tipos de programas generados, con una breve descripcin de los mismos, y las plataformas (destino u origen) donde deben ser ejecutados [ ] [ ]
- GENERACIN DE DOCUMENTACIN
. Posee un Generador de Informes que automatice la generacin de la documentacin sobre los procesos de extraccin y transformacin . Indicar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse . Requiere algn software adicional que complemente esta funcionalidad . Describir la informacin incluida en dicha documentacin Origen de los datos [ ] [ ] Correspondencias Transformaciones Reglas de negocio aplicadas Otras (especificar)) . Soporta el versionado de la documentacin generada . Se proporciona algn software que facilite el mantenimiento y versionado de la documentacin
- CARACTERSTICAS DEL ENTORNO FUNCIONAL
. Especificar el software mnimo que es necesario tener instalado en las diferentes plataformas
. La transferencia de los programas generados desde el puesto cliente hasta los sistemas operacionales y el Data Warehouse es automtica
. Son necesarios otros requisitos software adicionales, como por ejemplo compiladores (Observaciones) [ ] [ ]
- DETECCIN Y CAPTURA DE MODIFICACIONES
. Indicar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse
. Requiere algn software adicional que complemente esta funcionalidad
. Explicar con detalle los mecanismos utilizados para la deteccin de cambios en la estructura de las [ ] [ ] bases de datos del Data Warehouse
. Es posible automatizar la deteccin de dichos cambios
. Explicar detalladamente los mecanismos utilizados para la captura de dichos cambios
. Es posible automatizar la captura de los cambios realizados en la estructura de las bases de datos del Data Warehouse
. Indicar si la herramienta es capaz de detectar automticamente las transformaciones a las que afectan los cambios realizados
. Es necesario parar las bases de datos del Data Warehouse para realizar el proceso de captura de cambios (Observaciones)
- DETECCIN Y CAPTURA DE MODIFICACIONES EN LA ESTRUCTURA DE LAS BASES DE DATOS DE DATA WAREHOUSE . Indicar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse
. Requiere algn software adicional que complemente esta funcionalidad
. Explicar con detalle los mecanismos utilizados para la deteccin de modificaciones en los datos de los sistemas operacionales fuente, enumerando las [ ] [ ] principales consideraciones a tener en cuenta
. Es posible automatizar la deteccin de estas modificaciones
. Explicar detalladamente los mecanismos utilizados para la captura de dichas modificaciones
. Es posible automatizar la captura de dichas modificaciones
. Indicar si la herramienta es capaz de detectar automticamente las transformaciones a las que afectan las modificaciones realizadas
. Es necesario parar las bases de datos operacionales para realizar el proceso de captura de las modificaciones realizadas sobre los datos (Observaciones)
. Deteccin y captura de modificaciones en los datos de los sistemas operacionales.
Indicar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse.
Requiere algn software adicional que complemente esta funcionalidad [ ] [ ] Explicar con detalle los mecanismos utilizados para la deteccin de modificaciones en los datos de los sistemas operacionales fuente, enumerando las principales consideraciones a tener en cuenta.
Posibilidad de automatizar la deteccin de estas modificaciones [ ] [ ] Explicar detalladamente los mecanismos utilizados para la captura de dichas modificaciones.
Posibilidad de automatizar la captura de dichas modificaciones [ ] [ ] Herramienta es capaz de detectar automticamente las transformaciones a las que afectan las modificaciones realizadas [ ] [ ] Es necesario parar las bases de datos operacionales para realizar el proceso de captura de las modificaciones realizadas sobre los datos [ ] [ ]
- MOVIMIENTO Y CARGA
. Indicar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse
. Requiere algn software adicional que complemente esta funcionalidad [ ] [ ]
. Explicar detalladamente los mecanismos de movimiento y carga de los datos en las bases de datos destino del Data Warehouse, enumerando las principales consideraciones a tener en cuenta. En este sentido indicar si la transferencia se realiza directamente o a travs de un servidor intermedio, en este ltimo caso detallar requerimientos fsicos y lgicos de dicho servidor intermedio
. Transferencia de datos desde los Sistemas Operacionales al Data Warehouse automtica [ ] [ ] . Control de las filas que sean rechazadas en el proceso de carga [ ] [ ] Indicar qu ocurre con el proceso de carga
. Para el caso de los datos rechazados indicar
Si se especifica el motivo del rechazo [ ] [ ] Almacenamiento fsico de los datos rechazados Fichero plano [ ] [ ] Base de Datos propia [ ] [ ] Base de Datos externa (especificar los gestores soportados en observaciones) [ ] [ ]
En caso de poder utilizar correo electrnico, indicar los paquetes del mercado perfectamente integrables con la herramienta propuesta
- CARGA INCREMENTAL
. Explicar detalladamente el mecanismo de carga incremental de los datos en las bases de datos destino del Data Warehouse, especificando si se realiza en base a un chequeo de los ficheros log de los sistemas operacionales, o en base al cruce de los fichero de carga, etc.
. Enumerar las principales diferencias respecto al proceso de carga masiva y las consideraciones a tener en cuenta
- FUNCIONALIDADES ADICIONALES
. Anlisis y control de la calidad
Incorpora funcionalidades para realizar un anlisis y control de la calidad de los datos [ ] [ ] Especificar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse.
Requiere algn software adicional que complemente esta funcionalidad [ ] [ ]
. Limpieza
Incorpora funcionalidades para llevar a cabo una limpieza de los datos [ ] [ ] Especificar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse
Requiere algn software adicional que complemente esta funcionalidad [ ] [ ] Explicar detalladamente los mecanismos de limpieza proporcionados, indicando la plataforma donde se ejecutan estos
- GESTIN DEL METADATA
. Procedimientos de creacin, mantenimiento y consulta
Indicar cmo se almacenan fsicamente los metadatos generados
Fichero plano [ ] [ ] Base de Datos propia [ ] [ ] Base de Datos externa (especificar los gestores soportados en observaciones) [ ] [ ]
Otros (especificar) [ ] [ ]
Dnde se almacenan dichos metadatos
Puesto cliente [ ] [ ] Servidor intermedio [ ] [ ] Servidor central del Data Warehouse [ ] [ ]
Servidor central operacional [ ] [ ] La creacin y actualizacin de los metadatos es completamente automtica [ ] [ ] Es posible definir plantillas para los metadatos que se desean generar [ ] [ ] Todos los datos y reglas de transformacin que intervienen en la creacin y mantenimiento del Data Warehouse se almacenan como metadatos [ ] [ ] Dispone de alguna herramienta especfica para el mantenimiento y consulta de los metadatos asociados al Data Warehouse, permitiendo la navegacin dentro del directorio de metadatos [ ] [ ] En caso afirmativo indicar * El nombre del paquete software ofertado que incluye tal funcionalidad * La plataformas o plataformas donde ha de instalarse * Si requiere algn software adicional para completar tal funcionalidad * Describir el mecanismo de integracin con las otras herramientas ofertadas
Es posible crear vistas adaptadas de los metadatos para diferentes proyectos [ ] [ ] Utiliza un formato propio de metadatos [ ] [ ] Indicar la informacin contenida en los metadatos
Descripcin de los esquemas de datos origen y destino [ ] [ ] Reglas de transformacin y validacin de datos [ ] [ ] Variables de conversin [ ] [ ] Mappings origen-destino [ ] [ ] Opciones de recuperacin de datos [ ] [ ] Opciones de manejo de excepciones [ ] [ ] Secuencia de acciones a realizar en las conversiones (queries, sorts y merges) [ ] [ ] Especificaciones detalladas de las conversiones [ ] [ ]
Otras (especificar) [ ] [ ]
Indicar el grado de seguridad en el acceso a los metadatos.
No incorpora funciones de seguridad (utiliza la dada por el gestor) [ ] [ ] S incorpora funciones de seguridad [ ] [ ]
Explicar en detalle
Dispone de alguna herramienta especfica que permita el acceso va Web a los metadatos asociados al Data Warehouse [ ] [ ] En caso afirmativo especificar qu navegadores son compatibles
Microsoft Internet Explorer [ ] [ ]
Netscape [ ] [ ] En caso afirmativo indicar
El nombre del paquete software ofertado que incluye tal funcionalidad y dnde ha de instalarse, detallando los requerimientos lgicos y fsicos asociados
Requiere algn software adicional para completar tal funcionalidad, adems del propio navegador [ ] [ ] En base a la pregunta anterior indicar las funcionalidades disponibles va Web y las principales diferencias respecto a un acceso cliente/servidor directo
. Integracin de los metadatos
Es posible que los metadatos generados por dicha herramienta de extraccin puedan ser interpretados e integrados con los metadatos generados por las herramientas de acceso al Data Warehouse [ ] [ ] En base a la pregunta anterior explicar detalladamente los mecanismos de integracin utilizados, enumerando las consideraciones a tener en cuenta
Dicha integracin de los metadatos completamente automtica [ ] [ ] Posibilidad de la integracin entre metadatos de negocio y tcnicos provenientes de mltiples fuentes [ ] [ ] En caso afirmativo explicar detalladamente los mecanismos de integracin utilizados, as como el grado de automatizacin de dicha integracin
. Control de versiones y documentacin del metadato
Mantiene un histrico sobre los cambios realizados que permita realizar un control de versiones [ ] [ ] Est automatizada la generacin de documentacin asociada con los metadatos [ ] [ ] En caso afirmativo indicar si es posible imprimir dicha documentacin.
No [ ] [ ] S, pero sin presentacin preliminar [ ] [ ]
S, con presentacin preliminar [ ] [ ]
. Importacin y exportacin de metadatos
Permite capturar los metadatos desde fuentes externas [ ] [ ] En caso afirmativo indicar las fuentes soportadas
Procesadores de texto [ ] [ ] Amipro [ ] [ ] Word [ ] [ ] WordPerfect [ ] [ ] Otros (especificar) [ ] [ ]
Servidor central [ ] [ ] Requiere algn software adicional que complemente dicha funcionalidad [ ] [ ] Indicar las funcionalidades que incorpora esta herramienta
Gestin de la seguridad [ ] [ ] Monitorizacin de tareas en curso [ ] [ ] Realizacin de pruebas de funcionalidad a volumen pequeo [ ] [ ]
Otras (especificar) [ ] [ ]
Puede ser utilizada esta herramienta de administracin desde varios puestos
No [ ] [ ] S, pero no simultneamente [ ] [ ]
S, simultneamente [ ] [ ]
. Estadsticas y logs de los procesos de extraccin, transformacin, movimiento y carga
Elabora automticamente estadsticas y logs de dichos procesos [ ] [ ] En caso afirmativo, especificar la informacin incluida en dichos logs y estadsticas
Total de registros ledos [ ] [ ] Total de registros cargados [ ] [ ] Tiempos de ejecucin [ ] [ ] Nmero de registros a los que se aplica una determinada regla de transformacin [ ] [ ] Nmero de registros que cumplen cada una de las condiciones de una regla de transformacin [ ] [ ]
Otras (especificar) [ ] [ ]
Indicar el almacenamiento fsico de dicha informacin
Fichero plano [ ] [ ] Base de Datos propia [ ] [ ] Base de Datos externa (especificar los gestores soportados en observaciones) [ ] [ ]
. Explicar en detalle los mecanismos de seguridad que incorporan la o las herramientas ofertadas
- PROCEDIMIENTO DE PLANIFICACIN Y MANTENIMIENTO
. Posible construir procedimientos que automaticen las tareas de planificacin y mantenimiento No [ ] [ ] S, pero no dispone de un interfaz grfico que facilite la programacin dedichas tareas. [ ] [ ]
S, con un interfaz grfico que facilite la programacin de dichas tareas [ ] [ ] . En caso afirmativo, indicar las posibles bases de dicha planificacin
Eventos [ ] [ ] Ventanas de tiempo [ ] [ ]
Otras (especificar) [ ] [ ] . Indicar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse
Cuestionario de anlisis de la calidad en un Data Warehouse 3.3.2.- CUESTIONARIO DE ANLISIS DE CALIDAD Con carcter general y a fin de utilizar la informacin recopilada de cara a la contratacin, es importante destacar que los datos recogidos en este cuestionario estn dirigidos a obtener un resumen estructurado de la oferta y a demostrar la solvencia tcnica o profesional de la empresa en aquellos casos en que no sea requerida la clasificacin de la misma. Dicha informacin slo servir de base a la valoracin cuando est relacionada con lo expresado en la clusula "Criterios de adjudicacin del contrato", siendo, en el resto de los casos, de carcter meramente informativo. Nota: (*) significa que hay que indicar "1" en caso afirmativo. (**) significa que hay que repetir para cada sistema operativo ofertado. Cuestin Respuesta Referencia a oferta (Pgina) ------------------------------------------ ---------- ----------
ENTORNO OPERATIVO
- REQUERIMIENTOS LGICOS
. Especificar para cada uno de las paquetes software ofertados la o las posibles plataformas (servidor central, servidor intermedio y cliente) donde podran instalarse, detallando los requerimientos fsicos y lgicos asociados a cada alternativa, junto con los procesos que se ejecutaran en cada una de las posibles plataformas. [ ] [ ]
. Compatibilidad con Sistemas operativos. (Enumerar) [ ] [ ]
. Compatibilidad con software de red [ ] [ ]
. Necesidad de software adicional. (Enumerar) [ ] [ ]
- REQUERIMIENTOS FSICOS
. Memoria RAM Mnima requerida [ ] [ ]
. Memoria RAM Recomendada [ ] [ ]
. Espacio libre de disco Mnimo requerido [ ] [ ]
. Espacio libre de disco Recomendado [ ] [ ]
. Procesador mnimo requerido [ ] [ ]
. Porcesador recomendado [ ] [ ]
. Observaciones
CARACTERISTICAS GENERALES [ ] [ ] - ORIGEN DE LOS DATOS A ANALIZAR
. Indicar si se analiza el total de los datos o bien slo una muestra significativa de los mismos
Todos los datos [ ] [ ] Muestra
Ambos [ ] [ ] . Observaciones
. Indicar y explicar detalladamente el mecanismo de obtencin de los datos a analizar.
Acceso directo a las fuentes de datos y anlisis de la calidad de los datos [ ] [ ] Acceso directo a las fuentes de datos, extraccin de los datos a analizar y almacenamiento de los mismos para su anlisis. [ ] [ ] Anlisis de la calidad de los datos que otras herramientas han extrado de las fuentes de datos. [ ] [ ] . Observaciones
. Explicacin detallada del mecanismo seguido
. En el caso de acceder directamente a las fuentes de datos indicar
Si es posible analizar la calidad de los datos de varias fuentes simultneamente [ ] [ ] Observaciones
Las fuentes de datos a las que es posible acceder, especificando en los casos en que sea necesario las ltimas versiones certificadas
Ficheros planos [ ] [ ] Bases de datos (especificar) [ ] [ ]
Otras fuentes de datos (especificar) [ ] [ ]
Observaciones
. En el caso de extraer los datos a analizar desde las fuentes soportadas y almacenarlos para su anlisis, indicar
Almacenamiento fsico de los datos analizar
Fichero plano [ ] [ ] Memoria [ ] [ ] Base de Datos propia [ ] [ ] Base de Datos externa (especificar los gestores soportados en observaciones) [ ] [ ] Otros (especificar) [ ] [ ]
En caso de aplicar compresin, indicar la relacin de compresin
Observaciones
En base a las preguntas anteriores, explicar en detalle el consumo de recursos asociado a este almacenamiento intermedio de los datos.
. En el caso de analizar los datos que otras herramientas han extrado de las fuentes de datos, especificar de qu herramientas se trata. as como sus requerimientos lgicos y fsicos y la plataforma o plataformas donde han de instalarse.
- ELECCION Y TRATAMIENTO DE LAS MUESTRAS
. Describir el mecanismo de eleccin de la muestra, para asegurar la aleatoriedad de la misma
Lo fija la herramienta sin intervencin del usuario [ ] [ ] El usuario selecciona un criterio de entre los posibles que proporciona la herramienta [ ] [ ] El usuario puede confeccionar los criterios de eleccin de la muestra a medida [ ] [ ] Otros (especificar) [ ] [ ]
Describir detalladamente el mecanismo seguido
Observaciones
. Indicar el almacenamiento fsico de la muestra de datos
Fichero plano [ ] [ ] Memoria [ ] [ ] Base de Datos propia [ ] [ ] Base de Datos externa (especificar los gestores soportados en observaciones) [ ] [ ] Otros (especificar) [ ] [ ]
Observaciones
. Indicar la localizacin fsica de la muestra de datos
En caso de aplicar compresin, indicar la relacin de compresin.............................
Observaciones
- MECANISMOS DE ANALISIS DE LA CALIDAD Y FUNCIONALIDADES
. Explicar detalladamente el mecanismo de anlisis de calidad utilizado y las funcionalidades disponibles
. Indicar los niveles de anlisis de calidad disponibles
A nivel de campo [ ] [ ] A nivel de grupo de campos [ ] [ ] A nivel de registros [ ] [ ] Otros (especificar) [ ] [ ]
Observaciones
. Indicar la plataforma o plataformas donde se ejecutan los procesos de anlisis de calidad de los datos
Puesto cliente [ ] [ ] Servidor intermedio [ ] [ ] Servidor central del Data Warehouse [ ] [ ] Servidor central operacional [ ] [ ] Otros (especificar) [ ] [ ]
Observaciones
. Indicar las mtricas que proporciona la herramienta por defecto para cuantificar la calidad de los datos
Validacin de formatos [ ] [ ] Ausencia de informacin en campos obligatorios [ ] [ ] Cardinalidad de las variables [ ] [ ] Comprobacin de reglas de integridad: [ ] [ ] Entre campos del mismo fichero [ ] [ ] Entre campos de distintos ficheros [ ] [ ] Rango de valores [ ] [ ] Comprobacin cruzada de valores contra una tabla de referencia [ ] [ ] Validacin de fechas [ ] [ ] Rango de fechas [ ] [ ] Otras (especificar): [ ] [ ]
Observaciones
. Posibilidad de utilizar "mtricas" definidas por el usuario para cuantificar la calidad de los datos
No [ ] [ ] S, pero no posee un asistente que facilita la definicin de dichas mtricas [ ] [ ] S, y posee un asistente que facilita la definicin de dichas mtricas [ ] [ ] Observaciones. Describir el mecanismo de definicin de mtricas utilizado [ ] [ ]
- LIMITACIONES
. Existencia de alguna limitacin interna de la herramienta en cuanto al volumen mximo de informacin que se puede analizar
S , limitado por nmero de registros [ ] [ ] S , limitado por volumen de informacin [ ] [ ] No [ ] [ ] En caso afirmativo, especificar el lmite definido
Observaciones
- RECOMENDACIONES PRACTICAS
. Enumerar las principales recomendaciones prcticas para asegurar una plena explotacin de la potencialidad de los paquetes software ofertados.
. Enumerar y justificar brevemente los puntos fuertes tanto de la arquitectura funcional propuesta como de las herramientas ofertadas.
FUNCIONALIDAD
- FACILIDAD DE USO
. Especificar los idiomas soportados en cada una de las siguientes reas
. Incluye los caracteres exclusivos del espaol: , y vocales acentuadas [ ] [ ] . Interfaz grfico [ ] [ ] . Ayuda on-line [ ] [ ]
. Presentacin preliminar de la documentacin antes de la impresin [ ] [ ]
. Observaciones
. Especificar detalladamente los diferentes perfiles de usuario contemplados para cada una de las herramientas ofertadas, as como la curva de aprendizaje (en horas)para cada uno de ellos.
- ACCESO A LAS FUENTES DE DATOS
. Conocimiento de la estructura de las bases de datos
Requerimiento de algn software adicional que [ ] [ ] permita conocer la estructura de las bases de datos En caso afirmativo indicar la plataforma o plataformas donde ha de instalarse dicha herramienta
Explicar detalladamente el mecanismo que utiliza la herramienta para conocer la estructura de las bases de datos
. Deteccin y captura de modificaciones en la estructura de las bases de datos
Requiere algn software adicional que permita detectar y capturar las modificaciones hechas en la estructura de las bases de datos [ ] [ ] Explicar con detalle los mecanismos utilizados para la deteccin de cambios en la estructura de las bases de datos.
Posibilidad de automatizar la deteccin de dichos cambios [ ] [ ] Explicar detalladamente los mecanismos utilizados para la captura de dichos cambios
Posibilidad de automatizar la captura de los cambios realizados en la estructura de las bases de datos [ ] [ ] Es necesario parar las bases de datos para realizar el proceso de captura de cambios [ ] [ ]
. Acceso a las bases de datos
Requiere algn software adicional que permita el acceso a las bases de datos [ ] [ ] Accede directamente a la base de datos [ ] [ ] En caso afirmativo describir el mecanismo de acceso seguido
En caso de no acceder directamente a la base de datos indicar cmo se obtienen los ficheros de datos
Mediante una utilidad de la propia herramienta [ ] [ ] A travs de una utilidad del gestor [ ] [ ] Mediante un desarrollo a medida. [ ] [ ] Otros (especificar) [ ] [ ]
- PROCEDIMIENTOS DE ANALISIS DE CALIDAD
. Indicar el paquete software ofertado que
incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse
. Requiere algn software adicional que complemente esta funcionalidad [ ] [ ]
. Es posible automatizar completamente los procesos de anlisis de calidad [ ] [ ]
. Es posible mantener un histrico sobre evolucin temporal de la calidad de los datos [ ] [ ]
. Formatos soportados para la exportacin de los resultados obtenidos
. Adjuntar como anexo un ejemplo, lo ms completo posible, que contenga la informacin sobre un anlisis de calidad, efectuado con la herramienta propuesta
- GENERACION DE DOCUMENTACION
. Posee un Generador de Informes que permita la generacin de la documentacin sobre los resultados obtenidos
No [ ] [ ] S, pero bajo la peticin del usuario [ ] [ ]
S, automticamente [ ] [ ]
. Indicar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse
. Requiere algn software adicional que complemente esta funcionalidad [ ] [ ]
. Describir la informacin incluida en dicha documentacin
Origen de los datos [ ] [ ] Posibles correspondencias entre datos [ ] [ ] Mtricas aplicadas [ ] [ ]
Otras (especificar) [ ] [ ]
. Soporta el versionado de la documentacin generada [ ] [ ]
. Se proporciona algn software que facilite el mantenimiento y versionado de la documentacin [ ] [ ]
- CARACTERISTICAS DEL ENTORNO FUNCIONAL
. Especificar el software mnimo que es necesario tener instalado en las diferentes plataformas
. Son necesarios otros requisitos software adicionales [ ] [ ]
- FUNCIONALIDADES ADICIONALES
. Limpieza de datos
Incorpora alguna funcionalidad que permita la limpieza de datos [ ] [ ] Especificar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse
Requiere algn software adicional que complemente esta funcionalidad [ ] [ ] Explicar detalladamente los mecanismos de limpieza proporcionados, indicando la plataforma donde se ejecutan estos
. Otras funcionalidades
Incorpora otras funcionalidades (enumerarlas) [ ] [ ]
Especificar el paquete o paquetes software ofertados que incluyen estas funcionalidades y la plataforma o plataformas donde ha de instalarse
Requiere algn software adicional que complemente estas funcionalidades [ ] [ ] Explicar detalladamente los mecanismos asociados a dichas funcionalidades, indicando la plataforma donde se ejecutan estos
- GESTION DE LOS METADATOS DE CALIDAD
. Se generan metadatos sobre la calidad de los datos [ ] [ ]
. Procedimientos de creacin, mantenimiento y consulta
Indicar cmo se almacenan fsicamente los metadatos generados.
Fichero plano [ ] [ ] Base de Datos propia [ ] [ ] Base de Datos externa (especificar los gestores soportados en observaciones) [ ] [ ]
Servidor central [ ] [ ] La creacin y actualizacin de los metadatos es completamente automtica [ ] [ ] En caso negativo indicar qu metadatos se alimentan automticamente y cules no, especificando en este ltimo caso el mecanismo seguido
Es posible definir plantillas para los metadatos que se desean generar [ ] [ ] Dispone de alguna herramienta especfica para el mantenimiento y consulta de los metadatos de calidad asociados al Data Warehouse, as como para la navegacin dentro del directorio de metadatos [ ] [ ] El nombre del paquete software ofertado que incluye tal funcionalidad
La plataformas o plataformas donde ha de instalarse
Requiere algn software adicional para completar tal funcionalidad [ ] [ ] Es posible crear vistas adaptadas de los metadatos para diferentes proyectos [ ] [ ] Utiliza un formato propio de metadatos [ ] [ ] Indicar la informacin contenida en los metadatos
Descripcin de los esquemas de datos origen [ ] [ ] Mtricas definidas por defecto [ ] [ ] Mtricas definidas por el usuario [ ] [ ]
Otras (especificar) [ ] [ ]
Indicar el grado de seguridad en el acceso a los metadatos
No incorpora funciones de seguridad [ ] [ ]
S incorpora funciones de seguridad [ ] [ ] Dispone de alguna herramienta especfica que permita el acceso va Web a los metadatos de calidad [ ] [ ] especificar qu navegadores son compatibles
El nombre del paquete software ofertado que incluye tal funcionalidad y dnde ha de instalarse, detallando los requerimientos lgicos y fsicos asociados
Requiere algn software adicional para completar tal funcionalidad, adems del propio navegador [ ] [ ] En base a la pregunta anterior indicar las funcionalidades disponibles va Web y las principales diferencias respecto a un acceso cliente/servidor directo
. Integracin de los metadatos de calidad con otros metadatos
Es posible que los metadatos generados por dicha herramienta de anlisis puedan ser interpretados e integrados con los generados por otras herramientas, tanto de usuario final como de [ ] [ ] extraccin, movimiento y carga En caso afirmativo especificar las herramientas de compatibles, indicando si son o no del mismo fabricante
En base a la pregunta anterior explicar detalladamente los mecanismos de integracin utilizados, enumerando las consideraciones a tener en cuenta
Dicha integracin de los metadatos completamente automtica [ ] [ ]
. Control de versiones y documentacin del metadato de calidad
Se mantiene un histrico sobre los cambios realizados en los metadatos de calidad que permita realizar un control de versiones [ ] [ ] si existe algn lmite en el nmero de versiones [ ] [ ] Est automatizada la generacin de documentacin asociada con los metadatos de calidad [ ] [ ] Posibilidad de imprimir dicha documentacin
No [ ] [ ] S, pero sin presentacin preliminar [ ] [ ] S, con presentacin preliminar [ ] [ ] . Importacin y exportacin de los metadatos de
calidad Permite importar los metadatos de calidad desde fuentes externas [ ] [ ] Indicar las fuentes soportadas
Procesadores de texto [ ] [ ] Amipro [ ] [ ] Word [ ] [ ] WordPerfect [ ] [ ] Otros (especificar) [ ] [ ]
Posibilidad de exportar los metadatos de calidad [ ] [ ] Formatos soportados
CDIF (formato estndar de intercambio de datos) [ ] [ ] Otros (especificar) [ ] [ ]
- PLANIFICACION DEL ANALISIS DE CALIDAD
. Posibilidad de construir procedimientos que automaticen las tareas de anlisis de la calidad de los datos
No [ ] [ ] S, pero no dispone de un interfaz grfico que facilite la programacin de dichas tareas. [ ] [ ] S, con un interfaz grfico que facilite la programacin de dichas tareas [ ] [ ] . Indicar las posibles bases de dicha planificacin
Eventos [ ] [ ] Ventanas de tiempo [ ] [ ] Otras (especificar) [ ] [ ]
. Indicar el paquete software ofertado que incluye esta funcionalidad y la plataforma o plataformas donde ha de instalarse
Resumen de las principales instalaciones donde se encuentran instaladas las herramientas propuestas, con una breve descripcin del entorno tecnolgico y de los volmenes de informacin manejados
Cuestionario de Herramientas de usuario final: OLAP, EIS, Reporting (1/3) 3.3.3.- CUESTIONARIO DE HERRAMIENTAS DE USUARIO FINAL: OLAP, EIS, REPORTING Con carcter general y a fin de utilizar la informacin recopilada de cara a la contratacin, es importante destacar que los datos recogidos en este cuestionario estn dirigidos a obtener un resumen estructurado de la oferta y a demostrar la solvencia tcnica o profesional de la empresa en aquellos casos en que no sea requerida la clasificacin de la misma. Dicha informacin slo servir de base a la valoracin cuando est relacionada con lo expresado en la clusula "Criterios de adjudicacin del contrato", siendo, en el resto de los casos, de carcter meramente informativo. Nota: (*) significa que hay que indicar "1" en caso afirmativo. (**) significa que hay que repetir para cada sistema operativo ofertado. Cuestin Respuesta Referencia a oferta (Pgina) ------------------------------------------ ---------- ----------
ENTORNO OPERATIVO
- REQUERIMIENTOS LGICOS
Es compatible con los sistemas operativos de las plataformas
[ ]
[ ] Es compatible con otros sistemas operativos (enumerar)
[ ]
[ ]
Es compatible con el software de red del entorno
[ ]
[ ] Necesidad software adicional (enumerar)
[ ]
[ ]
- REQUERIMIENTOS FSICOS
. Memoria RAM Mnima requerida [ ] [ ]
. Memoria RAM Recomendada [ ] [ ]
. Espacio libre de disco Mnimo requerido [ ] [ ]
. Espacio libre de disco Recomendado [ ] [ ]
. Procesador mnimo requerido [ ] [ ]
. Porcesador recomendado [ ] [ ]
. Observaciones
CARACTERSTICAS GENERALES
- INTERFACES DE USUARIO FINAL APORTADAS Y SOPORTADAS
. Especificar los diferentes interfaces de usuario final que aportan las herramientas ofertadas, indicando el perfil de usuario adecuado a cada uno de ellos
. Especificar el tipo de acceso efectuado ROLAP [ ] [ ] MOLAP [ ] [ ] Observaciones
. Indicar las arquitecturas cliente/servidor soportadas
2 niveles (acceso directo a la base de datos desde el puesto cliente) [ ] [ ] 3 niveles (acceso a la base de datos a travs de un servidor intermedio) [ ] [ ] 4 niveles (acceso va Web) [ ] [ ] Observaciones
. Indicar los gestores de bases de datos que soporta, as como las ltimas versiones certificadas para cada uno de ellos
Fichero plano [ ] [ ] Memoria [ ] [ ] Base de datos propia [ ] [ ] Base de datos externa (especificar los gestores soportados en observaciones) [ ] [ ] Otros (especificar) [ ] [ ]
. En caso de almacenar la informacin recuperada de manera multidimensional indicar cmo y cundo se genera el cubo
En el momento de la consulta [ ] [ ] En un proceso diferido [ ] [ ] Otros (especificar) [ ] [ ]
Para cualquiera de las respuestas describir en detalle el mecanismo seguido
. En caso de almacenamiento multidimensional explicar qu ocurre si los datos necesarios para dar respuesta a una consulta no se encuentran en el cubo
Genera en el momento un nuevo acceso a la base de datos del Data [ ] [ ] Warehouse [ ] [ ] Se indica que la consulta en cuestin no puede ser ejecutada [ ] [ ] Otros (especificar) [ ] [ ]
Para cualquiera de las respuestas describir en detalle el mecanismo seguido
- TCNICAS DE EXPLORACIN DE DATOS
. Tcnicas de exploracin de datos soportadas
Drill down [ ] [ ] Drill up [ ] [ ] Drill across [ ] [ ] Otras (especificar) [ ] [ ]
. Para las tcnicas de navegacin soportadas indicar en qu casos se vuelve a lanzar una query contra la base de datos con el fin de obtener los detalles solicitados, especificando si se hace de forma desatendida o no
. En el caso de utilizar alguna de las tcnicas de exploracin de datos, se mantiene la visualizacin de los datos asociados a cada uno de los pasos seguidos, de manera que siempre tendremos los datos anteriores para poder iniciar otro camino de navegacin. [ ] [ ]
Observaciones
. Es posible navegar por ms de una ocurrencia del mismo atributo simultneamente [ ] [ ] Especificar si existe algn lmite en el nmero de ocurrencias desde las que iniciar una navegacin
Observaciones
- FUNCIONALIDADES. POTENCIA DE CLCULO
. Principales funcionalidades proporcionadas
Rankings
[ ]
[ ] Tendencias
[ ]
[ ] Comparativas
[ ]
[ ]
Otras (especificar)
[ ]
[ ]
Descripcin de las funcionalidades
. Enumerar las funciones estadsticas disponibles
. Funcionalidades de clculo dinmico soportadas
Definicin de mltiples criterios de ordenacin dentro de un informe
[ ]
[ ] Redimensionamiento automtico de la anchura de las columnas
[ ]
[ ] Clculo automtico de totales y estadsticas
[ ]
[ ]
Otras (especificar)
[ ]
[ ]
. Posibilidad de utilizar fechas dinmicas, tomando como base la fecha actual
[ ]
[ ]
(especificar)
. Posible realizar clculos dinmicos entre las columnas o incluso celdas que componen un informe ya calculado, de forma semejante a como lo hace una hoja de clculo, sin necesidad de lanzar una nueva consulta
No
[ ]
[ ] S, pero es necesario definir una nueva mtrica
[ ]
[ ]
S, sin necesidad de definir nuevas mtricas
[ ]
[ ]
- VISIN DEL MODELO DE NEGOCIO
. Posee un interfaz grfica que muestre el modelo de negocio utilizado, es decir, las dimensiones de forma jerarquizada y los atributos que las componen
No
[ ]
[ ] S, pero sin la posibilidad de limitar la expansin de los atributos hasta el nivel deseado.
[ ]
[ ]
S, con la posibilidad de limitar la expansin.
[ ]
[ ]
. En caso de poder limitar esta expansin especificar los posibles criterios a seguir, y describir el mecanismo de limitacin utilizado
Por usuario
[ ]
[ ] Por grupo de usuario
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
. Posible en dicho interfaz grfico visualizar los valores de los atributos que forman parte del modelo de negocio
[ ]
[ ] afirmativo explicar la tcnica utilizada para obtener dichos valores
- LIMITACIONES
. Limitacin interna de la herramienta en cuanto al volumen mximo de informacin que se puede recuperar
S , limitado por nmero de registros
[ ]
[ ] S , limitado por volumen de informacin
[ ]
[ ] No
[ ]
[ ]
Especificar el lmite definido
. Limitacin en cuanto al nmero de dimensiones o atributos a incluir dentro del modelo de datos de negocio
[ ]
[ ]
(especificar)
. Especificar detalladamente las principales limitaciones de los paquetes software ofertados
- RECOMENDACIONES PRCTICAS
. Indicar el modelo de datos recomendado (en el servidor de datos)
Copo de nieve
[ ]
[ ] Estrella
[ ]
[ ] Relacional
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
. Especificar detalladamente las principales recomendaciones prcticas para asegurar una plena explotacin de la potencialidad de las herramientas ofertadas
. Enumerar y justificar brevemente los puntos fuertes tanto de la arquitectura funcional propuesta como de las herramientas ofertadas
Cuestionario de herramientas de usuario final: OLAP, EIS, Reporting (2/3) 3.3.3.- CUESTIONARIO DE HERRAMIENTAS DE USUARIO FINAL: OLAP, EIS, REPORTING Con carcter general y a fin de utilizar la informacin recopilada de cara a la contratacin, es importante destacar que los datos recogidos en este cuestionario estn dirigidos a obtener un resumen estructurado de la oferta y a demostrar la solvencia tcnica o profesional de la empresa en aquellos casos en que no sea requerida la clasificacin de la misma. Dicha informacin slo servir de base a la valoracin cuando est relacionada con lo expresado en la clusula "Criterios de adjudicacin del contrato", siendo, en el resto de los casos, de carcter meramente informativo. Nota: (*) significa que hay que indicar "1" en caso afirmativo. (**) significa que hay que repetir para cada sistema operativo ofertado. Cuestin Respuesta Referencia a oferta (Pgina) ------------------------------------------ ---------- ----------
ENTORNO OPERATIVO
- REQUERIMIENTOS LGICOS
Es compatible con los sistemas operativos de las plataformas
[ ]
[ ] Es compatible con otros sistemas operativos (enumerar)
- INTERFACES DE USUARIO FINAL APORTADAS Y SOPORTADAS
. Especificar los diferentes interfaces de usuario final que aportan las herramientas ofertadas, indicando el perfil de usuario adecuado a cada uno de ellos
. Especificar el tipo de acceso efectuado ROLAP [ ] [ ] MOLAP [ ] [ ] Observaciones
. Indicar las arquitecturas cliente/servidor soportadas
2 niveles (acceso directo a la base de datos desde el puesto cliente) [ ] [ ] 3 niveles (acceso a la base de datos a travs de un servidor intermedio) [ ] [ ] 4 niveles (acceso va Web) [ ] [ ] Observaciones
. Indicar los gestores de bases de datos que soporta, as como las ltimas versiones certificadas para cada uno de ellos
Fichero plano [ ] [ ] Memoria [ ] [ ] Base de datos propia [ ] [ ] Base de datos externa (especificar los gestores soportados en observaciones) [ ] [ ] Otros (especificar) [ ] [ ]
. Indicar la visin lgica de los datos recuperados. Relacional [ ] [ ] Multidimensional (cubos) [ ] [ ] . En caso de almacenar la informacin recuperada de manera multidimensional indicar cmo y cundo se genera el cubo
En el momento de la consulta [ ] [ ] En un proceso diferido [ ] [ ] Otros (especificar) [ ] [ ]
Para cualquiera de las respuestas describir en detalle el mecanismo seguido
. En caso de almacenamiento multidimensional explicar qu ocurre si los datos necesarios para dar respuesta a una consulta no se encuentran en el cubo
Genera en el momento un nuevo acceso a la base de datos del Data [ ] [ ] Warehouse [ ] [ ] Se indica que la consulta en cuestin no puede ser ejecutada [ ] [ ] Otros (especificar) [ ] [ ]
Para cualquiera de las respuestas describir en detalle el mecanismo seguido
- TCNICAS DE EXPLORACIN DE DATOS
. Tcnicas de exploracin de datos soportadas
Drill down [ ] [ ] Drill up [ ] [ ] Drill across [ ] [ ] Otras (especificar) [ ] [ ]
. Para las tcnicas de navegacin soportadas indicar en qu casos se vuelve a lanzar una query contra la base de datos con el fin de obtener los detalles solicitados, especificando si se hace de forma desatendida o no
. En el caso de utilizar alguna de las tcnicas de exploracin de datos, se mantiene la visualizacin de los datos asociados a cada uno de los pasos seguidos, de manera que siempre tendremos los datos anteriores para poder iniciar otro camino de navegacin. [ ] [ ]
Observaciones
. Es posible navegar por ms de una ocurrencia del mismo atributo simultneamente [ ] [ ] Especificar si existe algn lmite en el nmero de ocurrencias desde las que iniciar una navegacin
Observaciones
- FUNCIONALIDADES. POTENCIA DE CLCULO
. Principales funcionalidades proporcionadas
Rankings
[ ]
[ ] Tendencias
[ ]
[ ] Comparativas
[ ]
[ ]
Otras (especificar)
[ ]
[ ]
Descripcin de las funcionalidades
. Enumerar las funciones estadsticas disponibles
. Funcionalidades de clculo dinmico soportadas
Definicin de mltiples criterios de ordenacin dentro de un informe
[ ]
[ ] Redimensionamiento automtico de la anchura de las columnas
[ ]
[ ] Clculo automtico de totales y estadsticas
[ ]
[ ]
Otras (especificar)
[ ]
[ ]
. Posibilidad de utilizar fechas dinmicas, tomando como base la fecha actual
[ ]
[ ]
(especificar)
. Posible realizar clculos dinmicos entre las columnas o incluso celdas que componen un informe ya calculado, de forma semejante a como lo hace una hoja de clculo, sin necesidad de lanzar una nueva consulta
No
[ ]
[ ] S, pero es necesario definir una nueva mtrica
[ ]
[ ]
S, sin necesidad de definir nuevas mtricas
[ ]
[ ]
- VISIN DEL MODELO DE NEGOCIO
. Posee un interfaz grfica que muestre el modelo de negocio utilizado, es decir, las dimensiones de forma jerarquizada y los atributos que las componen
No
[ ]
[ ] S, pero sin la posibilidad de limitar la expansin de los atributos hasta el nivel deseado.
[ ]
[ ]
S, con la posibilidad de limitar la expansin.
[ ]
[ ]
. En caso de poder limitar esta expansin especificar los posibles criterios a seguir, y describir el mecanismo de limitacin utilizado
Por usuario
[ ]
[ ] Por grupo de usuario
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
. Posible en dicho interfaz grfico visualizar los valores de los atributos que forman parte del modelo de negocio
[ ]
[ ] afirmativo explicar la tcnica utilizada para obtener dichos valores
- LIMITACIONES
. Limitacin interna de la herramienta en cuanto al volumen mximo de informacin que se puede recuperar
S , limitado por nmero de registros
[ ]
[ ] S , limitado por volumen de informacin
[ ]
[ ] No
[ ]
[ ]
Especificar el lmite definido
. Limitacin en cuanto al nmero de dimensiones o atributos a incluir dentro del modelo de datos de negocio
[ ]
[ ]
(especificar)
. Especificar detalladamente las principales limitaciones de los paquetes software ofertados
- RECOMENDACIONES PRCTICAS
. Indicar el modelo de datos recomendado (en el servidor de datos)
Copo de nieve
[ ]
[ ] Estrella
[ ]
[ ] Relacional
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
. Especificar detalladamente las principales recomendaciones prcticas para asegurar una plena explotacin de la potencialidad de las herramientas ofertadas
. Enumerar y justificar brevemente los puntos fuertes tanto de la arquitectura funcional propuesta como de las herramientas ofertadas
Cuestionario de herramientas de usuario final: OLAP, EIS, Reporting (3/3) 3.3.3.- CUESTIONARIO DE HERRAMIENTAS DE USUARIO FINAL: OLAP, EIS, REPORTING (cont.) Con carcter general y a fin de utilizar la informacin recopilada de cara a la contratacin, es importante destacar que los datos recogidos en este cuestionario estn dirigidos a obtener un resumen estructurado de la oferta y a demostrar la solvencia tcnica o profesional de la empresa en aquellos casos en que no sea requerida la clasificacin de la misma. Dicha informacin slo servir de base a la valoracin cuando est relacionada con lo expresado en la clusula "Criterios de adjudicacin del contrato", siendo, en el resto de los casos, de carcter meramente informativo. Nota: (*) significa que hay que indicar "1" en caso afirmativo. (**) significa que hay que repetir para cada sistema operativo ofertado. Cuestin Respuesta Referencia a oferta (Pgina) ------------------------------------------ ---------- ----------
ADMINISTRACIN
- GESTIN DE RECURSOS
. Administracin centralizada
Posee una herramienta de administracin centralizada
No
[ ]
[ ]
S, pero sin interfaz grfica
[ ]
[ ] S, con interfaz grfica
[ ]
[ ] Indicar y describir las funcionalidades que incorpora esta herramienta
Gestin de la seguridad
[ ]
[ ]
Monitorizacin de tareas en curso
[ ]
[ ]
Definicin de perfiles de usuario
[ ]
[ ]
Asignacin y limitacin de recursos
[ ]
[ ]
Otras (especificar)
[ ]
[ ]
Observaciones. Describir las funcionalidades soportadas
Posibilidad de utilizacin de esta herramienta de administracin desde varios puestos
No
[ ]
[ ] S, pero no simultneamente
[ ]
[ ] S, simultneamente
[ ]
[ ] Indicar el paquete software ofertado que incluye esta funcionalidad
Indicar las plataformas donde es necesario instalar el software de esta herramienta de administracin
Puesto cliente
[ ]
[ ]
Servidor intermedio
[ ]
[ ]
Servidor central
[ ]
[ ] Requierimiento de algn software adicional que complemente dicha funcionalidad
[ ]
[ ]
Observaciones (especificar en caso afirmativo)
Observaciones
. Tratamiento de los datos recuperados
Tcnicas aplicadas sobre los datos recuperados
Compresin
[ ]
[ ] Encriptacin
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
En caso de aplicar compresin, indicar la relacin de compresin
Salva el resultado de la consulta
No
[ ]
[ ]
S, bajo peticin del usuario
[ ]
[ ]
S, automticamente
[ ]
[ ] En caso afirmativo especificar los formatos soportados
HTML
[ ]
[ ]
Dbase
[ ]
[ ] RTF
[ ]
[ ]
Lotus 123
[ ]
[ ]
Excel
[ ]
[ ]
Amipro
[ ]
[ ] WordPerfect
[ ]
[ ]
Word
[ ]
[ ]
Tablas del gestor
[ ]
[ ] Otros (especificar)
[ ]
[ ]
Utilizacin tablas temporales en la resolucin de las consultas efectuadas
[ ]
[ ] Observaciones. Indicar el volumen de almacenamiento recomendado para dichas tablas, en funcin del volumen de datos
En caso afirmativo especificar la posible localizacin fsica de dichas tablas
Puesto cliente (base de datos auxiliar)
[ ]
[ ]
Servidor intermedio (base de datos auxiliar)
[ ]
[ ]
Servidor central (base de datos del Data Warehouse)
[ ]
[ ]
Observaciones
. Estadsticas de ejecucin
Realizacin una elaboracin automtica de estadsticas sobre la utilizacin de recursos
[ ]
[ ] Informacin incluida en dichas estadsticas
Tipos de consultas ms frecuentes
[ ]
[ ] Tiempos de ejecucin
[ ]
[ ]
Nmero de accesos realizados por usuario
[ ]
[ ] Volmenes recuperados de informacin
[ ]
[ ]
Estadsticas asociadas a threads de diferentes prioridades
[ ]
[ ]
Otras estadsticas (especificar)
[ ]
[ ]
Almacenamiento fsico de dicha informacin estadstica
Fichero plano
[ ]
[ ]
Base de Datos propia
[ ]
[ ]
Base de Datos externa (especificar los gestores soportados en observaciones)
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
Dnde se almacena la informacin estadstica
Puesto cliente
[ ]
[ ] Servidor intermedio
[ ]
[ ] Servidor central
[ ]
[ ]
Observaciones
. Simulacin, estimaciones de consumo y recomendaciones sobre el diseo del Data Warehouse
Dispone de alguna herramienta de simulacin que permita estimar el consumo de recursos y el tiempo de respuesta de las consultas
[ ]
[ ] Permite estimar el consumo de recursos y tiempo de respuesta de una consulta antes de su ejecucin
No
[ ]
[ ] S, en base a ejecuciones anteriores (especificar qu ocurre si es la primera vez que se ejecuta dicha consulta
[ ]
[ ]
S, en base a otros criterios (especificar)
[ ]
[ ]
Dispone de alguna herramienta que en base a estadsticas de ejecucin haga recomendaciones sobre el diseo del Data Warehouse
No
[ ]
[ ]
S, con la ayuda del usuario final
[ ]
[ ]
S, hace las recomendaciones automticamente, sin necesitar al usuario final
[ ]
[ ] En caso afirmativo, explicar en qu consisten dichas recomendaciones
Observaciones
. Asignacin dinmica de recursos Es posible definir threads de consulta con diferentes prioridades de acceso para queries simultneas
[ ]
[ ] Indicar el abanico de prioridades asignadas a dichos threads
Los posibles criterios de definicin de dichos threads
Por tiempo estimado de ejecucin de la consulta
[ ]
[ ] Por perfil de usuario
[ ]
[ ] Por grupo de usuario
[ ]
[ ] Por consulta especfica
[ ]
[ ]
Por volumen estimado de datos a recuperar
[ ]
[ ]
Ventana de ejecucin (temporal)
[ ]
[ ]
Otras (especificar)
[ ]
[ ]
Observaciones
. Limitacin del consumo de recursos en las consultas
Posibilidad de la herramienta de limitar el consumo de recursos
No
[ ]
[ ] S. La herramienta lo hace automticamente, sin pedir confirmacin al usuario y sin tener en cuenta el perfil de usuario
[ ]
[ ] S. Se pide confirmacin al usuario siempre para lanzar o no la consulta independientemente del perfil del mismo
[ ]
[ ]
S. Para ciertos perfiles se limita automticamente y para otros no se limita
[ ]
[ ] S. Para ciertos perfiles se limita automticamente y para otros se pide confirmacin al usuario para lanzar o no la consulta
[ ]
[ ] Permite evitar la ejecucin de una consulta si el tiempo estimado de ejecucin es superior a un umbral definido
No
[ ]
[ ] S, totalmente
[ ]
[ ] S, pero permite al menos la ejecucin batch de la consulta para cualquier perfil de usuario final
[ ]
[ ]
S, pero permite al menos la ejecucin batch de la consulta para ciertos perfiles
[ ]
[ ] Permite evitar la ejecucin de una consulta si el nmero estimado de filas a devolver es superior a un umbral definido
No
[ ]
[ ] S, totalmente
[ ]
[ ] S, pero permite al menos la ejecucin batch de la consulta para cualquier perfil de usuario final
[ ]
[ ]
S, pero permite al menos la ejecucin batch de la consulta para ciertos perfiles
[ ]
[ ] Permite evitar la ejecucin de una consulta si el nmero estimado de filas a acceder es superior a un umbral definido
No
[ ]
[ ] S, totalmente
[ ]
[ ] S, pero permite al menos la ejecucin batch de la consulta para cualquier perfil de usuario final
[ ]
[ ]
S, pero permite al menos la ejecucin batch de la consulta para ciertos perfiles
[ ]
[ ] Permite evitar la ejecucin de una consulta si el volumen estimado de datos a devolver es superior a un umbral definido
No
[ ]
[ ] S, totalmente
[ ]
[ ] S, pero permite al menos la ejecucin batch de la consulta para cualquier perfil de usuario final
[ ]
[ ]
S, pero permite al menos la ejecucin batch de la consulta para ciertos perfiles
[ ]
[ ] Permite evitar la ejecucin de una consulta si el volumen estimado de datos a acceder es superior a un umbral definido
No
[ ]
[ ] S, totalmente
[ ]
[ ] S, pero permite al menos la ejecucin batch de la consulta para cualquier perfil de usuario final
[ ]
[ ]
S, pero permite al menos la ejecucin batch de la consulta para ciertos perfiles
[ ]
[ ] Cancela automticamente la ejecucin de una consulta cuando el tiempo de respuesta sobrepasa un umbral definido
No
[ ]
[ ] S, totalmente (no devuelve nada) independientemente del perfil de usuario
[ ]
[ ] S, totalmente (no devuelve nada) para ciertos perfiles de usuario, y para otros no la cancela
[ ]
[ ] S, pero devuelve al menos la informacin recuperada hasta ese momento,independientemente del perfil de usuario
[ ]
[ ] Cancela automticamente la ejecucin de una consulta cuando el nmero de filas devueltas sobrepasa un umbral definido
No
[ ]
[ ] S, totalmente (no devuelve nada) independientemente del perfil de usuario
[ ]
[ ] S, totalmente (no devuelve nada) para ciertos perfiles de usuario, y para otros no la cancela
[ ]
[ ] S, pero devuelve al menos la informacin recuperada hasta ese momento,independientemente del perfil de usuario
[ ]
[ ] Cancela automticamente la ejecucin de una consulta cuando el nmero de filas accedido sobrepasa un umbral definido
No
[ ]
[ ] S, totalmente (no devuelve nada) independientemente del perfil de usuario
[ ]
[ ] S, totalmente (no devuelve nada) para ciertos perfiles de usuario, y para otros no la cancela
[ ]
[ ] S, pero devuelve al menos la informacin recuperada hasta ese momento, independientemente del perfil de usuario
[ ]
[ ] Cancela automticamente la ejecucin de una consulta cuando el volumen de informacin recuperado sobrepasa un umbral definido
No
[ ]
[ ]
S, totalmente (no devuelve nada) independientemente del perfil de usuario
[ ]
[ ] S, totalmente (no devuelve nada) para ciertos perfiles de usuario, y para otros no la cancela
[ ]
[ ] S, pero devuelve al menos la informacin recuperada hasta ese momento, independientemente del perfil de usuario
[ ]
[ ] Cancela automticamente la ejecucin de una consulta cuando el volumen deinformacin accedido sobrepasa un umbral definido
No
[ ]
[ ] S, totalmente (no devuelve nada) independientemente del perfil de usuario
[ ]
[ ] S, totalmente (no devuelve nada) para ciertos perfiles de usuario, y para otros no la cancela
[ ]
[ ] S, pero devuelve al menos la informacin recuperada hasta ese momento, independientemente del perfil de usuario
[ ]
[ ] Permite rechazar consultas en base a la franja horaria
No
[ ]
[ ] S, totalmente
[ ]
[ ] S, pero permite al menos la ejecucin batch de la consulta para cualquier perfil de usuario final
[ ]
[ ]
S, pero permite al menos la ejecucin batch de la consulta para ciertos perfiles
[ ]
[ ] Permite rechazar consultas en base a la carga del sistema
No
[ ]
[ ] S, totalmente
[ ]
[ ] S, pero permite al menos la ejecucin batch de la consulta para cualquier perfil de usuario final
[ ]
[ ]
S, pero permite al menos la ejecucin batch de la consulta para ciertos perfiles
[ ]
[ ]
Observaciones
- GESTIN DE ACCCESO Y EJECUCIN
. Seguridad de acceso
Indicar los niveles de seguridad soportados
Por usuario
[ ]
[ ]
Por grupo de usuario
[ ]
[ ]
Por consulta especfica
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
En qu plataforma se gestiona la seguridad
Puesto cliente
[ ]
[ ]
Servidor intermedio
[ ]
[ ]
Servidor central
[ ]
[ ] Se realiza una identificacin del usuario a la hora de acceder al sistema
No
[ ]
[ ]
S, sin password
[ ]
[ ]
S, con password
[ ]
[ ] Almacenamiento fsico de la password
Fichero plano
[ ]
[ ] Base de datos propia
[ ]
[ ]
Base de datos externa (especificar los gestores soportados en observaciones)
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
Localizacin fsica de la password
Puesto cliente
[ ]
[ ] Servidor intermedio
[ ]
[ ]
Servidor central
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
Se permite a nivel de seguridad auditar las operaciones realizadas por los diferentes usuarios
[ ]
[ ] En caso afirmativo, cmo se almacena esta informacin?
Ficheros planos
[ ]
[ ] Base de datos propia
[ ]
[ ]
Base de datos externa (especificar los gestores soportados en observaciones)
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
En caso afirmativo, dnde se almacena esta informacin
Puesto cliente
[ ]
[ ] Servidor intermedio
[ ]
[ ]
Servidor central
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
Observaciones
. Limitaciones a nivel de acceso
Nmero mximo de accesos concurrentes para el mismo usuario
[ ]
[ ] Nmero mximo de usuarios concurrentes
[ ]
[ ] Existe la posibilidad de limitar el acceso a la informacin a nivel de registro
[ ]
[ ] En caso afirmativo, en base a qu criterio
Por consulta especfica
[ ]
[ ] Por grupo de usuario
[ ]
[ ]
Por usuario
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
Es posible lanzar desde un mismo puesto cliente una consulta, y sin esperar a recibir la respuesta lanzar otra
[ ]
[ ]
Observaciones
. Prioridades de ejecucin
Se pueden establecer distintos grados de prioridad a la hora de ejecutar varias consultas
[ ]
[ ] En base a qu criterios se pueden dar prioridades de ejecucin
Por usuario
[ ]
[ ] Por grupo de usuario
[ ]
[ ]
Consultas especficas
[ ]
[ ]
Otros (especificar)
[ ]
[ ]
Observaciones
ACLARACIONES GENERALES
Observaciones
REFERENCIAS
Resumen de las principales instalaciones donde se encuentran instaladas las herramientas propuestas, con una breve descripcin del entorno tecnolgico y de los volmenes de informacin manejados
Observaciones
Pruebas de verificacin y control de un Data Warehouse 4.- PRUEBAS DE VERIFICACIN Y CONTROL Un Data Warehouse precisa de un conjunto de pasos desde su creacin hasta su explotacin final. En todos estos pasos se precisa de una herramienta que nos permita simplificar su ejecucin. Debido a la amplia variedad de herramientas disponibles, y para asegurar la idoneidad de la herramienta, caben varias alternativas: Evaluacin distribuida: En ella se evaluara cada herramienta en un paso concreto. Se vera cual es la que mejor se adapta a nuestras necesidades, y a continuacin, examinaramos la compatibilidad en cascada de todas ellas. Evaluacin centralizada: En ella se evaluara el soporte que cada herramienta proporciona a todos los pasos, y a continuacin se examina cual es la que globalmente se adecua de forma global a nuestras necesidades. La eleccin de una u otra alternativa tiene sus ventajas e inconvenientes: la primera nos permitira obtener la mejor herramienta (la de mejor relacin cumplimiento expectativas/ precio), pero podra comprometer la cadena completa de uso de un Data Warehouse. Lo contrario ocurrira en la segunda alternativa. Debido a la creciente informacin disponible de cada fabricante en Internet, y a su frecuente actualizacin, recomendamos la visita al Data Warehousing Information Center (LGI Systems Incorporated), desde su pgina principal enhttp://pwp.starnetinc.com/larryg/index.html en donde, desde donde se encuentran enlaces a: Vendedores de herramientas de usuario final: Herramientas de Query and Reporting Bases de Datos OLAP y Multidimensionales Sistemas EIS (Executive Information Systems) Herramientas de Data Mining Recuperacin de Documentos Sistemas de Informacin Geogrfica (GIS) Herramientas de Anlisis de Decisiones Estadsticas Modelado de Procesos Filtrado de Informacin Obtencin de Informes Otras herramientas Vendedores de Infraestrutura Tecnolgica: Extraccin de Datos, Limpieza y Carga Catalogacin de la Informacin Bases de Datos para Data Warehousing Administracin de Consulas y Almacenamiento Modelado de Datos para Data Warehouse Herramientas iddleware Aceleradoras de Query's y Carga Otras utilidades de BD Hardware Vendedores por Funcin e Industria: Herramientas de Anlisis Financiero Herramientas de Marketing y Anlisis de Ventas Herramientas de Anlisis de la cadena de suministro Herramientas para la Industria de la Salud Herramientas para la Industria Detallista Herramientas para el Sector Financiero Otras herramientas especficas Empresas de Servicios: Consultoras Especialistas en DW NorSistemas Consultoras Generales Formacin Referencias utilizadas para la confeccin de la guia 5. REFERENCIAS UTILIZADAS "Informe Data Mining" Suplemento 709 ComputerWorld Espaa. "Data Warehouse" Cuadernos de Cinco Das. "Rapid Data Warehousing with the SAS System" SAS Institute. "The SAS System and Web Integration" SAS Institute White Paper. "Building a Decision Support Architecture for Data Warehousing"	 ATG's Data Warehousing Technology Guide. "Enterprise Storage for Today's Data Warehousing Environment" 	ATG's Data Warehousing Technology Guide. "Managing the Warehouse thruits Lifecycle" ATG's Data Warehousing Technology Guide. "Data Warehousing Information Center" LGI System Incorporated "What is a Data Warehouse?"W.H. Innmon (Prism Brochure Num. 1) "The Case For Relational OLAP"MicroStrategy Incorporated White Paper "Data Mining" Curso Formacin Interno NorSistemas "Nuevas Tecnologas en Anlisis de Riesgos" 	Hardvard-Deusto Finanzas y Contabilidad (SEP/OCT 97) http://www.dataprix.com/que-es-un-datawarehouse