You are on page 1of 18

Almacn de datos

De Wikipedia, la enciclopedia libre Saltar a: navegacin, bsqueda

Descripcin de un Data Warehouse. En el contexto de la informtica, un almacn de datos (del ingls data warehouse) es una coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organizacin, ms all de la informacin transaccional y operacional, almacenado en una base de datos diseada para favorecer el anlisis y la divulgacin eficiente de datos (especialmente OLAP, procesamiento analtico en lnea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

Contenido
[ocultar] 1 Definiciones de almacn de datos 1.1 Definicin de Bill Inmon 1.2 Definicin de Ralph Kimball 1.3 Una definicin ms amplia de almacn de datos 2 Funcin de un almacn de datos 3 Data marts

4 Cubos de informacin 4.1 Dimensiones 4.2 Variables 4.3 Ejemplos 5 Elementos que integran un almacn de datos 5.1 Metadatos 5.2 Funciones ETL (extraccin, transformacin y carga) 5.3 Middleware 6 Diseo de un almacn de datos 7 Almacn de datos espacial 8 Ventajas e inconvenientes de los almacenes de datos 8.1 Ventajas 8.2 Inconvenientes 9 Vase tambin 10 Notas y referencias 11 Enlaces externos

[editar] Definiciones de almacn de datos


[editar] Definicin de Bill Inmon
Bill Inmon[1] fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define un data warehouse (almacn de datos) en trminos de las caractersticas del repositorio de datos: Orientado a temas.- Los datos en la base de datos estn organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s. Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones. No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato, ste se convierte en informacin de slo lectura, y se mantiene para futuras consultas. Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organizacin, y dichos datos deben ser consistentes. Inmon defiende una metodologa descendente (top-down) a la hora de disear un almacn de datos, ya

que de esta forma se considerarn mejor todos los datos corporativos. En esta metodologa los Data marts se crearn despus de haber terminado el data warehouse completo de la organizacin.

[editar] Definicin de Ralph Kimball


Ralph Kimball[2] es otro conocido autor en el tema de los data warehouse, define un almacn de datos como: "una copia de las transacciones de datos especficamente estructurada para la consulta y el anlisis". Tambin fue Kimball quien determin que un data warehouse no era ms que: "la unin de todos los Data marts de una entidad". Defiende por tanto una metodologa ascendente (bottom-up) a la hora de disear un almacn de datos.

[editar] Una definicin ms amplia de almacn de datos


Las definiciones anteriores se centran en los datos en s mismos. Sin embargo, los medios para obtener y analizar esos datos, para extraerlos, transformarlos y cargarlos, as como las diferentes formas para realizar la gestin de datos son componentes esenciales de un almacn de datos. Muchas referencias a un almacn de datos utilizan esta definicin ms amplia. Por lo tanto, en esta definicin se incluyen herramientas para la inteligencia empresarial, herramientas para extraer, transformar y cargar datos en el almacn de datos, y herramientas para gestionar y recuperar los metadatos.

[editar] Funcin de un almacn de datos


En un almacn de datos lo que se quiere es contener datos que son necesarios o tiles para una organizacin, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en informacin til para el usuario. Un almacn de datos debe entregar la informacin correcta a la gente indicada en el momento ptimo y en el formato adecuado. El almacn de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de informacin ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fcilmente consultas sobre sus almacenes de datos sin tocar o afectar la operacin del sistema. En el funcionamiento de un almacn de los datos son muy importantes las siguientes ideas: Integracin de los datos provenientes de bases de datos distribuidas por las diferentes unidades de la organizacin y que con frecuencia tendrn diferentes estructuras (fuentes heterogneas). Se debe facilitar una descripcin global y un anlisis comprensivo de toda la organizacin en el almacn de datos. Separacin de los datos usados en operaciones diarias de los datos usados en el almacn de datos para los propsitos de divulgacin, de ayuda en la toma de decisiones, para el anlisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podran entorpecerse entre s. Peridicamente, se importan datos al almacn de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP) y de otros sistemas de software relacionados con el negocio para la transformacin posterior. Es prctica comn normalizar los datos antes de combinarlos en el almacn de datos mediante herramientas de extraccin, transformacin y carga (ETL). Estas herramientas leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso de transformacin al almacn de datos (filtracin, adaptacin, cambios de formato, etc.) y escriben en el almacn.

[editar] Data marts


Artculo principal: Data mart Los Data marts son subconjuntos de datos de un data warehouse para reas especificas. Entre las caractersticas de un data mart destacan: Usuarios limitados. rea especifica. Tiene un propsito especifico. Tiene una funcin de apoyo.

[editar] Cubos de informacin


Artculo principal: cubo OLAP Los cubos de informacin o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos. Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el data warehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada. El anlisis de los datos est basado en las dimensiones del hipercubo, por lo tanto, se trata de un anlisis multidimensional. A la informacin de un cubo puede acceder el ejecutivo mediante "tablas dinmicas" en una hoja de clculo o a travs de programas personalizados. Las tablas dinmicas le permiten manipular las vistas (cruces, filtrados, organizacin, totales) de la informacin con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de informacin se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, ste es una coleccin de datos que est formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y variables a los valores que se desean analizar.

[editar] Dimensiones
Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (forman parte de la tabla de dimensiones). Son catlogos de informacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la informacin general complementaria a cada uno de los registros de la tabla de hechos.

[editar] Variables
Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman parte de la tabla de hechos. Ms formalmente, las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido. En forma contraria, las

dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podran ser: productos, localidades (o zonas), el tiempo (medido en das, horas, semanas, etc.), ...

[editar] Ejemplos
Ejemplos de variables podran ser: Beneficios Gastos Ventas etc. Ejemplos de dimensiones podran ser: producto (diferentes tipos o denominaciones de productos) localidades (o provincia, o regiones, o zonas geogrficas) tiempo (medido de diferentes maneras, por horas, por das, por meses, por aos, ...) tipo de cliente (casado/soltero, joven/adulto/anciano, ...) etc. Segn lo anterior, podramos construir un cubo de informacin sobre el ndice de ventas (variable a estudiar) en funcin del producto vendido, la provincia, el mes del ao y si el cliente est casado o soltero (dimensiones). Tendramos un cubo de 4 dimensiones.

[editar] Elementos que integran un almacn de datos


[editar] Metadatos
Artculo principal: metadato Uno de los componentes ms importantes de la arquitectura de un almacn de datos son los metadatos. Se define comnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cul es la estructura de los datos que se van a almacenar y cmo se relacionan. El metadato documenta, entre otras cosas, qu tablas existen en una base de datos, qu columnas posee cada una de las tablas y qu tipo de datos se pueden almacenar. Los datos son de inters para el usuario final, el metadato es de inters para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacn de datos es muy diferente al rol que cumple en los ambientes operacionales. En el mbito de los data warehouse el metadato juega un papel fundamental, su funcin consiste en recoger todas las definiciones de la organizacin y el concepto de los datos en el almacn de datos, debe contener toda la informacin concerniente a: Tablas

Columnas de tablas Relaciones entre tablas Jerarquas y Dimensiones de datos Entidades y Relaciones

[editar] Funciones ETL (extraccin, transformacin y carga)


Artculo principal: Extract, transform and load Los procesos de extraccin, transformacin y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacn de datos (o en cualquier base de datos). Implican las siguientes operaciones: Extraccin. Accin de obtener la informacin deseada a partir de los datos almacenados en fuentes externas. Transformacin. Cualquier operacin realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de ste a otra base de datos. Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacn de datos objetivo normal.

[editar] Middleware
Artculo principal: Middleware Middleware es un trmino genrico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogneas. Estos servicios funcionan como una capa de abstraccin de software distribuida, que se sita entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). El middleware puede verse como una capa API, que sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se ejecutarn. De esta manera se ofrece una mejor relacin costo/rendimiento que pasa por el desarrollo de aplicaciones ms complejas, en menos tiempo. La funcin del middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacn de datos.

[editar] Diseo de un almacn de datos


Para construir un Data Warehouse se necesitan herramientas para ayudar a la migracin y a la transformacin de los datos hacia el almacn. Una vez construido, se requieren medios para manejar grandes volmenes de informacin. Se disea su arquitectura dependiendo de la estructura interna de los datos del almacn y especialmente del tipo de consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organizacin o empresa, los cuales se describen a continuacin:

Situacin actual de partida.- Cualquier solucin propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura tcnica existente y planeada de la compaa. Tipo y caractersticas del negocio.- Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organizacin y el soporte que representa la informacin dentro de todo su proceso de toma de decisiones. Entorno tcnico.- Se debe incluir tanto el aspecto del hardware (mainframes, servidores, redes,...) as como aplicaciones y herramientas. Se dar nfasis a los Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cmo operan, etc. Expectativas de los usuarios.- Un proyecto de data warehouse no es nicamente un proyecto tecnolgico, es una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad. Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo de un modelo conceptual para la construccin del data warehouse. Prototipo.- Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto final que ser entregado a los usuarios. Piloto.- El piloto de un data warehouse es el primero, o cada uno de los primeros resultados generados de forma iterativa que se harn para llegar a la construccin del producto final deseado. Prueba del concepto tecnolgico.- Es un paso opcional que se puede necesitar para determinar si la arquitectura especificada del data warehouse funcionar finalmente como se espera.

[editar] Almacn de datos espacial


Almacn de datos espacial es una coleccin de datos orientados al tema, integrados, no voltiles, variantes en el tiempo y que aaden la geografa de los datos, para la toma de decisiones. Sin embargo la componente geogrfica no es un dato agregado, sino que es una dimensin o variable en la tecnologa de la informacin, de tal manera que permita modelar todo el negocio como un ente holstico, y que a travs de herramientas de procesamiento analtico en lnea (OLAP), no solamente se posea un alto desempeo en consultas multidimensionales sino que adicionalmente se puedan visualizar espacialmente los resultados. El almacn de datos espacial forma el corazn de un extensivo Sistema de Informacin Geogrfica para la toma de decisiones, ste al igual que los SIG, permiten que un gran nmero de usuarios accedan a informacin integrada, a diferencia de un simple almacn de datos que est orientado al tema, el Data warehouse espacial adicionalmente es Geo-Relacional, es decir que en estructuras relacionales combina e integra los datos espaciales con los datos descriptivos. Actualmente es geoobjetos, esto es que los elementos geogrficos se manifiestan como objetos con todas sus propiedades y comportamientos, y que adicionalmente estn almacenados en una nica base de datos ObjetoRelacional. Los Data Warehouse Espaciales son aplicaciones basadas en un alto desempeo de las bases de datos, que utilizan arquitecturas Cliente-Servidor para integrar diversos datos en tiempo real. Mientras los almacenes de datos trabajan con muchos tipos y dimensiones de datos, muchos de los cuales no referencian ubicacin espacial, a pesar de poseerla intrnsecamente, y sabiendo que un 80%

de los datos poseen representacin y ubicacin en el espacio, en los Data warehouse espaciales, la variable geogrfica desempea un papel importante en la base de informacin para la construccin del anlisis, y de igual manera que para un Data warehouse, la variable tiempo es imprescindible en los anlisis, para los Data warehouse espaciales la variable geogrfica debe ser almacenada directamente en ella.

[editar] Ventajas e inconvenientes de los almacenes de datos


[editar] Ventajas
Hay muchas ventajas por las que es recomendable usar un almacn de datos. Algunas de ellas son: Los almacenes de datos hacen ms fcil el acceso a una gran variedad de datos a los usuarios finales Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisin tales como informes de tendencia', por ejemplo: obtener los tems con la mayora de las ventas en un rea en particular dentro de los ltimos dos aos; informes de excepcin, informes que muestran los resultados reales frente a los objetivos planteados a priori. Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestin de relaciones con clientes.

Inconvenientes
Utilizar almacenes de datos tambin plantea algunos inconvenientes, algunos de ellos son: A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacn de datos no suele ser esttico. Los costos de mantenimiento son elevados. Los almacenes de datos se pueden quedar obsoletos relativamente pronto. A veces, ante una peticin de informacin estos devuelven una informacin subptima, que tambin supone una prdida para la organizacin. A menudo existe una delgada lnea entre los almacenes de datos y los sistemas operacionales. Hay que determinar qu funcionalidades de estos se pueden aprovechar y cules se deben implementar en el data warehouse, resultara costoso implementar operaciones no necesarias o dejar de implementar alguna que s vaya a necesitarse.

Datawarehouse
Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creacin de un datawarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para implantar una solucin completa y fiable de Business Intelligence.

La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la informacin (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la informacin es homognea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).

El trmino Datawarehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como almacn de datos. No obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por ser:

* * * * *

Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista. Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo... etc. Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales. Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, son: Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI. Dar soporte a los responsables tcnicos del datawarehouse en aspectos de auditora, gestin de

la informacin histrica, administracin del datawarehouse, elaboracin de programas de extraccin de la informacin, especificacin de las interfaces para la realimentacin a los sistemas operacionales de los resultados obtenidos... etc. Por ltimo, destacar que para comprender ntegramente el concepto de datawarehouse, es importante entender cual es el proceso de construccin del mismo, denominado ETL (Extraccin, Transformacin y Carga), a partir de los sistemas operaciones de una compaa:

* * * * * * * * *

Extraccin: obtencin de informacin de las distintas fuentes tanto internas como externas. Transformacin: filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin. Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos.

Una de las claves del xito en la construccin de un datawarehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo. Principales aportaciones de un datawarehouse Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares. Si no est familiarizado con el concepto de datawarehouse, puede resultarle til, adems, examinar las siguientes definiciones:

Datamart

Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un rea de negocio especfica. Se caracteriza por disponer la estructura ptima de datos para analizar la informacin al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un

compendio de distintas fuentes de informacin.

Por tanto, para crear el datamart de un rea funcional de la empresa es preciso encontrar la estructura ptima para el anlisis de su informacin, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designacin de una u otra depender de los datos, los requisitos y las caractersticas especficas de cada departamento. De esta forma se pueden plantear dos tipos de datamarts: Datamart OLAP Se basan en los populares cubos OLAP, que se construyen agregando, segn los requisitos de cada rea o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creacin, explotacin y mantenimiento de los cubos OLAP es muy heterogneo, en funcin de la herramienta final que se utilice. Datamart OLTP Pueden basarse en un simple extracto del datawarehouse, no obstante, lo comn es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones ms usuales) aprovechando las caractersticas particulares de cada rea de la empresa. Las estructuras ms comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque slo es posibles en algunos SGBD avanzados, como Oracle). Los datamarts que estn dotados con estas estructuras ptimas de anlisis presentan las siguientes ventajas:

* * * * * *

Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validacin directa de la informacin Facilidad para la historizacin de los datos

Datamining (Minera de datos)

El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

Bsicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en algunos casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las redes neuronales. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin que surge entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Vea ms diferencias entre datos, informacin y conocimiento.

Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso comn a todos ellos se suele componer de cuatro etapas principales:

* * * *

Determinacin de los objetivos. Trata de la delimitacin de los objetivos que el cliente desea bajo la orientacin del especialista en data mining. Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. Determinacin del modelo. Se comienza realizando unos anlisis estadsticos de los datos, y despus se lleva a cabo una visualizacin grfica de los mismos para tener una primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la Inteligencia Artificial. Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los anlisis estadsticos y de visualizacin grfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

Carga de trabajo en las fases de un proyecto de datamining En resumen, el datamining se presenta como una tecnologa emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Adems, no hay duda de que trabajar con esta tecnologa implica cuidar un sinnmero de detalles debido a que el producto final involucra "toma de decisiones". En el artculo Data Mining: Torturando a los datos hasta que confiesen, Luis Carlos Molina proporciona una visin muy clarificadora sobre la minera de datos, incluyendo interesantes ejemplos de aplicaciones de la misma. Recomendamos su lectura.

Cuadro de Mando Integral

El Cuadro de Mando Integral (CMI), tambin conocido como Balanced Scorecard (BSC) o dashboard, es una herramienta de control empresarial que permite establecer y monitorizar los objetivos de una empresa y de sus diferentes reas o unidades. Tambin se puede considerar como una aplicacin que ayuda a una compaa a expresar los objetivos e iniciativas necesarias para cumplir con su estrategia, mostrando de forma continuada cundo la empresa y los empleados alcanzan los resultados definidos en su plan estratgico. Diferencia con otras herramientas de Business Intelligence El Cuadro de Mando Integral se diferencia de otras herramientas de Business Intelligence, como los Sistemas de Soporte a la Decisin (DSS) o los Sistemas de Informacin Ejecutiva (EIS), en que est ms orientados al seguimiento de indicadores que al anlisis minucioso de informacin. Por otro lado, es muy comn que un CMI sea controlado por la direccin general de una compaa, frente a otras herramientas de Business Intelligence ms enfocadas a a la direccin departamental. El CMI requiere, por tanto, que los directivos analicen el mercado y la estrategia para construir un modelo de negocio que refleje las interrelaciones entre los diferentes componentes de la empresa (plan estratgico). Una vez que lo han construido, los responsables de la organizacin utilizan este modelo como mapa para seleccionar los indicadores del CMI.

Tipos de Cuadros de Mando El Cuadro de Mando Operativo (CMO), es una herramienta de control enfocada al seguimiento de variables operativas, es decir, variables pertenecientes a reas o departamentos especficos de la empresa. La periodicidad de los CMO puede ser diaria, semanal o mensual, y est centrada en indicadores que generalmente representan procesos, por lo que su implantacin y puesta en marcha es ms sencilla y rpida. Un CMO debera estar siempre ligado a un DSS (Sistema de Soporte a Decisiones) para indagar en profundidad sobre los datos. El Cuadro de Mando Integral (CMI), por el contrario, representa la ejecucin de la estrategia de una compaa desde el punto de vista de la Direccin General (lo que hace que sta deba estar plenamente involucrada en todas sus fases, desde la definicin a la implantacin). Existen diferentes tipos de cuadros de mando integral, si bien los ms utilizados son los que se basan en la metodologa de Kaplan & Norton. La principales caractersticas de esta metodologa son que utilizan tanto indicadores financieros como no financieros, y que los objetivos estratgicos se organizan en cuatro reas o perspectivas: financiera, cliente, interna y aprendizaje/crecimiento.

La perspectiva financiera incorpora la visin de los accionistas y mide la creacin de valor de la empresa. Responde a la pregunta: Qu indicadores tienen que ir bien para que los esfuerzos de la empresa realmente se transformen en valor? Esta perspectiva valora uno de los objetivos ms

relevantes de organizaciones con nimo de lucro, que es, precisamente, crear valor para la sociedad.

* * *

La perspectiva del cliente refleja el posicionamiento de la empresa en el mercado o, ms concretamente, en los segmentos de mercado donde quiere competir. Por ejemplo, si una empresa sigue una estrategia de costes es muy posible que la clave de su xito dependa de una cuota de mercado alta y unos precios ms bajos que la competencia. Dos indicadores que reflejan este posicionamiento son la cuota de mercado y un ndice que compare los precios de la empresa con los de la competencia. La perspectiva interna recoge indicadores de procesos internos que son crticos para el posicionamiento en el mercado y para llevar la estrategia a buen puerto. En el caso de la empresa que compite en coste, posiblemente los indicadores de productividad, calidad e innovacin de procesos sean importantes. El xito en estas dimensiones no slo afecta a la perspectiva interna, sino tambin a la financiera, por el impacto que tienen sobre las rbricas de gasto. La perspectiva de aprendizaje y crecimiento es la ltima que se plantea en este modelo de CMI. Para cualquier estrategia, los recursos materiales y las personas son la clave del xito. Pero sin un modelo de negocio apropiado, muchas veces es difcil apreciar la importancia de invertir, y en pocas de crisis lo primero que se recorta es precisamente la fuente primaria de creacin de valor: se recortan inversiones en la mejora y el desarrollo de los recursos.

Pese a que estas cuatro son las perspectivas ms genricas, no son "obligatorias". Por ejemplo, una empresa de fabricacin de ropa deportiva tiene, adems de la perspectiva de clientes, una perspectiva de consumidores. Para esta empresa son tan importantes sus distribuidores como sus clientes finales. Una vez que se tienen claros los objetivos de cada perspectiva, es necesario definir los indicadores que se utilizan para realizar su seguimiento. Para ello, debemos tener en cuenta varios criterios: el primero es que el nmero de indicadores no supere los siete por perspectiva, y si son menos, mejor. La razn es que demasiados indicadores difuminan el mensaje que comunica el CMI y, como resultado, los esfuerzos se dispersan intentando perseguir demasiados objetivos al mismo tiempo. Puede ser recomendable durante el diseo empezar con una lista ms extensa de indicadores. Pero es necesario un proceso de sntesis para disponer de toda la fuerza de esta herramienta. No obstante, la aportacin que ha convertido al CMI en una de las herramientas ms significativas de los ltimos aos es que se cimenta en un modelo de negocio. El xito de su implantacin radica en que el equipo de direccin se involucre y dedique tiempo al desarrollo de su propio modelo de negocio. Beneficios de la implantacin de un Cuadro de Mando Integral La fuerza de explicitar un modelo de negocio y traducirlo en indicadores facilita el consenso en toda la empresa, no slo de la direccin, sino tambin de cmo alcanzarlo. Clarifica cmo las acciones del da a da afectan no slo al corto plazo, sino tambin al largo plazo. Una vez el CMI est en marcha, se puede utilizar para comunicar los planes de la empresa,

aunar los esfuerzos en una sola direccin y evitar la dispersin. En este caso, el CMI acta como un sistema de control por excepcin. Permita detectar de forma automtica desviaciones en el plan estratgico u operativo, e incluso indagar en los datos operativos de la compaa hasta descubrir la causa original que di lugar a esas desviaciones. Riesgos de la implantacin de un Cuadro de Mando Integral Un modelo poco elaborado y sin la colaboracin de la direccin es papel mojado, y el esfuerzo ser en vano. Si los indicadores no se escogen con cuidado, el CMI pierde una buena parte de sus virtudes, porque no comunica el mensaje que se quiere transmitir. Cuando la estrategia de la empresa est todava en evolucin, es contraproducente que el CMI se utilice como un sistema de control clsico y por excepcin, en lugar de usarlo como una herramienta de aprendizaje. Existe el riesgo de que lo mejor sea enemigo de lo bueno, de que el CMI sea perfecto, pero desfasado e intil.

* * *

Sistemas de Soporte a la Decisin (DSS)

Un Sistema de Soporte a la Decisin (DSS) es una herramienta de Business Intelligence enfocada al anlisis de los datos de una organizacin. En principio, puede parecer que el anlisis de datos es un proceso sencillo, y fcil de conseguir mediante una aplicacin hecha a medida o un ERP sofisticado. Sin embargo, no es as: estas aplicaciones suelen disponer de una serie de informes predefinidos en los que presentan la informacin de manera esttica, pero no permiten profundizar en los datos, navegar entre ellos, manejarlos desde distintas perspectivas... etc.

El DSS es una de las herramientas ms emblemticas del Business Intelligence ya que, entre otras propiedades, permiten resolver gran parte de las limitaciones de los programas de gestin. Estas son algunas de sus caractersticas principales: Informes dinmicos, flexibles e interactivos, de manera que el usuario no tenga que ceirse a los listados predefinidos que se configuraron en el momento de la implantacin, y que no siempre responden a sus dudas reales. No requiere conocimientos tcnicos. Un usuario no tcnico puede crear nuevos grficos e informes y navegar entre ellos, haciendo drag&drop o drill through. Por tanto, para examinar la informacin

disponible o crear nuevas mtricas no es imprescindible buscar auxilio en el departamento de informtica.

* * * *

Rapidez en el tiempo de respuesta, ya que la base de datos subyacente suele ser un datawarehouse corporativo o un datamart, con modelos de datos en estrella o copo de nieve. Este tipo de bases de datos estn optimizadas para el anlisis de grandes volmenes de informacin (vease nalisis OLTPOLAP). Integracin entre todos los sistemas/departamentos de la compaa. El proceso de ETL previo a la implantacin de un Sistema de Soporte a la Decisin garantiza la calidad y la integracin de los datos entre las diferentes unidades de la empresa. Existe lo que se llama: integridad referencial absoluta. Cada usuario dispone de informacin adecuada a su perfil. No se trata de que todo el mundo tenga acceso a toda la informacin, sino de que tenga acceso a la informacin que necesita para que su trabajo sea lo ms eficiente posible. Disponibilidad de informacin histrica. En estos sistemas est a la orden del da comparar los datos actuales con informacin de otros perodos histricos de la compaa, con el fin de analizar tendencias, fijar la evolucin de parmetros de negocio... etc. Diferencia con otras herramientas de Business Intelligence El principal objetivo de los Sistemas de Soporte a Decisiones es, a diferencia de otras herramientas como los Cuadros de Mando (CMI) o los Sistemas de Informacin Ejecutiva (EIS), explotar al mximo la informacin residente en una base de datos corporativa (datawarehouse o datamart), mostrando informes muy dinmicos y con gran potencial de navegacin, pero siempre con una interfaz grfica amigable, vistosa y sencilla.

Otra diferencia fundamental radica en los usuarios a los que estn destinadas las plataformas DSS: cualquier nivel gerencial dentro de una organizacin, tanto para situaciones estructuradas como no estructuradas. (En este sentido, por ejemplo, los CMI estn ms orientados a la alta direccin). Por ltimo, destacar que los DSS suelen requerir (aunque no es imprescindible) un motor OLAP subyacente, que facilite el anlisis casi ilimitado de los datos para hallar las causas raices de los problemas/pormenores de la compaa. Tipos de Sistemas de Soporte a Decisiones

* *

Sistemas de informacin gerencial (MIS) Los sistemas de informacin gerencial (MIS, Management Information Systems), tambien llamados Sistemas de Informacin Administrativa (AIS) dan soporte a un espectro ms amplio de tareas organizacionales, encontrndose a medio camino entre un DSS tradicional y una aplicacin CRM/ERP implantada en la misma compaa. Sistemas de informacin ejecutiva (EIS) Los sistemas de informacin ejecutiva (EIS, Executive Information System) son el tipo de DSS que ms

se suele emplear en Business Intelligence, ya que proveen a los gerentes de un acceso sencillo a informacin interna y externa de su compaa, y que es relevante para sus factores clave de xito.

* * *

Sistemas expertos basados en inteligencia artificial (SSEE) Los sistemas expertos, tambin llamados sistemas basados en conocimiento, utilizan redes neuronales para simular el conocimiento de un experto y utilizarlo de forma efectiva para resolver un problema concreto. Este concepto est muy relacionado con el datamining. Sistemas de apoyo a decisiones de grupo (GDSS) Un sistema de apoyo a decisiones en grupos (GDSS, Group Decision Support Systems) es "un sistema basado en computadoras que apoya a grupos de personas que tienen una tarea (u objetivo) comn, y que sirve como interfaz con un entorno compartido". El supuesto en que se basa el GDSS es que si se mejoran las comunicaciones se pueden mejorar las decisiones.

Sistemas de Informacin Ejecutiva (EIS)

Un Sistema de Informacin para Ejecutivos o Sistema de Informacin Ejecutiva es una herramienta software, basada en un DSS, que provee a los gerentes de un acceso sencillo a informacin interna y externa de su compaa, y que es relevante para sus factores clave de xito. La finalidad principal es que el ejecutivo tenga a su disposicin un panorama completo del estado de los indicadores de negocio que le afectan al instante, manteniendo tambin la posibilidad de analizar con detalle aquellos que no estn cumpliendo con las expectativas establecidas, para determinar el plan de accin ms adecuado.

De forma ms pragmtica, se puede definir un EIS como una aplicacin informtica que muestra informes y listados (query & reporting) de las diferentes reas de negocio, de forma consolidada, para facilitar la monitorizacin de la empresa o de una unidad de la misma. El EIS se caracteriza por ofrecer al ejecutivo un acceso rpido y efectivo a la informacin compartida, utilizando interfaces grficas visuales e intutivas. Suele incluir alertas e informes basados en excepcin, as como histricos y anlisis de tendencias. Tambin es frecuente que permita la domiciliacin por correo de los informes ms relevantes. A travs de esta solucin se puede contar con un resumen del comportamiento de una organizacin o rea especfica, y poder compararla a travs del tiempo. Es posible, adems, ajustar la visin de la informacin a la teora de Balanced Scorecard o Cuadro de Mando Integral impulsada por Norton y Kaplan, o bien a cualquier modelo estratgico de indicadores que maneje la compaa.