You are on page 1of 84

UNIVERSIDAD NACIONAL AUTNOMA DE MXICO

Rector
Juan Ramn de la Fuente
Secretario General
Enrique del Val Blanco
Director General de Servicios de Cmputo Acadmico
Alejandro Pisanty Baruch
Directora de Cmputo para la Docencia
Carmen Bravo Chaveste

GUAS Y TEXTOS DE CMPUTO: DATA WAREHOUSE y minera de datos

Editor
Direccin General de Servicios de Cmputo Acadmico
Coordinacin de la publicacin
Mara Guadalupe Izquierdo Dyrzo
Autor
Mary Karina Ruiz Torres
Revisin tcnica
Jos Luis Medina Flores
Correccin de estilo
Imelda Arcelia Gutirrez de la Torre
Lucero ledn Martnez
Diseo editorial
Gabriela Lil Morales Naranjo
Imelda Arcelia Gutirrez de la Torre
Diseo de portada
Rodolfo Cano Ramrez
2007 Universidad Nacional Autnoma de Mxico
Esta edicin y sus caractersticas son propiedad de la
Universidad Nacional Autnoma de Mxico
Ciudad Universitaria, Mxico, DF.
ISBN 978-970-32-4594-9

DATA WAREHOUSE y minera de datos

Contenido
Introduccin ............................................................................................................ 1
1. Data Warehousing............................................................................................... 3
1.1 Caractersticas .............................................................................................. 3
1.2 Estructura de datos y flujo de datos................................................................. 4
1.2.1 Dos enfoques: Inmon y Kimball............................................................. 4
1.2.2 Conocimiento del negocio ................................................................... 5
1.3 Arquitecturas de sistemas ............................................................................... 6
1.3.1 Sistemas OLAP .................................................................................... 6
1.3.2 Ejemplo .............................................................................................. 7
1.3.3 OLTP vs OLAP..................................................................................... 8
1.3.4 Data Warehouse y sistemas OLTP ....................................................... 10
1.4 Procesos..................................................................................................... 11
1.5 El modelo de Data Warehouse ..................................................................... 12
1.6 Modelo dimensional.................................................................................... 14
1.6.1 El esquema Estrella ............................................................................ 14
1.6.1.1 Granularidad ........................................................................ 15
1.6.1.2 Dimensiones ......................................................................... 15
1.6.1.3 La tabla de hechos................................................................. 15
1.7 Factores de xito ......................................................................................... 16
1.7.1 El propsito del negocio..................................................................... 16

Mary Karina Ruiz Torres

1.7.2 Consultas rpidas...............................................................................17


1.7.3 Estrategia de desarrollo.......................................................................18
1.7.4 Calidad de la informacin...................................................................19
1.8 Metadato ....................................................................................................20
1.9 Estructuras de datos para el anlisis de negocio .............................................22
1.9.1 Non-architected .................................................................................22
1.9.2 Data marts dependientes.....................................................................23
1.9.3 Bus....................................................................................................24
1.10 Seleccin de un DBMS................................................................................25
1.11 Seleccin de hardware................................................................................26
1.12 Seguridad..................................................................................................27
1.13 Aplicaciones ..............................................................................................27
1.13.1 Ventas .............................................................................................27
1.13.2 Efectividad de promociones ...............................................................28
1.13.3 Anlisis de clientes............................................................................28
1.13.4 Anlisis por regiones geogrficas .......................................................29
1.13.5 Actividades gerenciales (administrativas) .............................................30
1.13.6 Inventarios .......................................................................................30
1.13.7 Costos en procesos de fabricacin .....................................................30
1.14 Bases de datos para Data Warehousing .......................................................31
2. Minera de datos ................................................................................................33
2.1 Definicin....................................................................................................33
2.2 Campos de investigacin precedentes............................................................37
2.2.1 Aprendizaje inductivo..........................................................................37
2.2.2 Estadsticas ........................................................................................38
2.2.3 Mquinas de aprendizaje ....................................................................38
2.2.4 Diferencias entre minera de datos y mquinas de aprendizaje ...............38
2.3 Modelos de minera de datos ........................................................................39
2.3.1 Modelo de verificacin........................................................................39
2.3.2 Modelo de descubrimiento ..................................................................40
2.4 Problemas de la minera de datos..................................................................40
2.4.1 Informacin limitada...........................................................................40
2.4.2 Valores faltantes y ruido ......................................................................41
2.4.3 Incertidumbre.....................................................................................41

II

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

2.5 Usuarios de la minera de datos ................................................................... 42


2.6 Aplicaciones ............................................................................................... 43
2.6.1 Ventas/mercadotecnia ....................................................................... 43
2.6.2 Actividades bancarias ........................................................................ 43
2.6.3 Seguros y salud ................................................................................. 44
2.6.4 Transporte ........................................................................................ 44
2.6.5 Medicina .......................................................................................... 44
2.7 Funciones de la minera de datos ................................................................. 44
2.7.1 Clasificacin ..................................................................................... 44
2.7.2 Asociaciones ..................................................................................... 45
2.7.3 Patrones secuenciales/temporales ....................................................... 46
2.7.4 Agrupacin/segmentacin.................................................................. 46
2.8 Tcnicas de minera de datos ....................................................................... 46
2.8.1 Anlisis cluster................................................................................... 46
2.8.2 Induccin.......................................................................................... 47
2.8.2.1 rboles de decisin................................................................ 48
2.8.2.2 Reglas de induccin ............................................................... 48
2.8.3 Redes neuronales .............................................................................. 49
2.8.4 Procesamiento analtico en lnea ......................................................... 51
2.9 Herramientas para minera de datos ............................................................. 51
3. Bases de datos inteligentes ................................................................................. 54
3.1 Concepto ................................................................................................... 54
3.2 Componentes ............................................................................................. 55
3.2.1 Inteligencia en herramientas de alto nivel ............................................ 55
3.2.2 Inteligencia en la interfaz de usuario.................................................... 56
3.2.3 Inteligencia en el motor de la base de datos ........................................ 57
3.3 Caractersticas ............................................................................................ 58
3.4 Tipos de bases de datos............................................................................... 59
3.4.1 Bases de datos full text ....................................................................... 59
3.4.2 Indexed keywords .............................................................................. 60
3.4.3 Hypertext links ................................................................................... 60
3.5 Funcionamiento .......................................................................................... 60
3.6 Representacin del conocimiento.................................................................. 62
3.6.1 Reglas .............................................................................................. 62

III

Mary Karina Ruiz Torres

3.6.2 Marcos de referencia ..........................................................................62


3.6.3 Redes semnticas ...............................................................................62
3.6.4 rboles de decisin heurstica..............................................................63
3.7 Inferencia ....................................................................................................63
3.7.1 Forward chaining ...............................................................................63
3.7.2 Backward chaining .............................................................................64
3.8 Problemas de las bases de datos inteligentes ..................................................64
3.9 Ejemplo de bases de datos inteligentes...........................................................64
3.9.1 DowQuest .........................................................................................64
3.9.2 Topic.................................................................................................65
Anexo ....................................................................................................................66
Glosario............................................................................................................66
Bibliografa ............................................................................................................74
Data Warehouse y minera de datos ....................................................................74
Bases de datos inteligentes..................................................................................75
Referencias electrnicas ......................................................................................76

IV

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Introduccin
Los datos son hechos, la informacin es el significado que el ser humano le da a estos
hechos. Elementos individuales de datos tienen poco significado por si mismos, es
nicamente cuando estos hechos se agrupan o procesan que su significado comienza a
volverse claro. [Davis, W.S. and McCormack, A., The Information Age, p. 38].
La informacin y el uso que se hace de ella ha variado a travs de los aos, es as como hoy en
da el personal de empresas e instituciones requiere mayor informacin que antes, sin embargo,
la gente que realiza esos trabajos tiene poco control en su acceso y, de cierto modo, existe
dependencia de quienes deciden la informacin que ser proporcionada. Es decir, tanto la
informacin que debe almacenarse como su manejo difieren cada vez ms del tratamiento
tradicional, por lo que que surge la necesidad de plantear nuevos modelos y sistemas de bases
de datos que aporten un valor aadido a las bases de datos relacionales.
El objetivo de un sistema de descubrimiento de conocimiento es el de extraer informacin
relevante, en ese sentido, el conocimiento implcito en la base de datos queda escondido
tras lo que, hasta ahora, era una masa de datos carente de significado. Para ello, se
requiere de una serie de labores de preparacin y depuracin de los datos para,
posteriormente, aplicar una tcnica de minera de datos.
Este documento presenta una introduccin a las tecnologas de descubrimiento y anlisis de
informacin. Ejemplos de aplicaciones redituables muestran su relevancia actual en el entorno
empresarial, as como una descripcin bsica de cmo pueden evolucionar las arquitecturas de
Data Warehouse para entregar el valor de la minera de datos a los usuarios finales.
Se busca proporcionar un panorama general acerca de las tecnologas orientadas al
anlisis de informacin en la toma de decisiones, como son la minera de datos, Data
Warehousing y bases de datos inteligentes; adems de destacar la relacin existente entre
ellas e instruir sobre los elementos de decisin que permitan su aplicacin adecuada con
base en los objetivos del negocio.

Mary Karina Ruiz Torres

En el primer captulo, se presenta el concepto de Data Warehouse y las caractersticas


que lo hacen una herramienta de apoyo en la toma de decisiones. Para ello, se describen
los principales procesos y objetivos inherentes a un desarrollo de este tipo y que marcan
la diferencia con los sistemas transaccionales comunes.
Tambin, se observa que un proyecto de Data Warehouse involucra una serie de factores
que es necesario considerar antes de iniciar su desarrollo. El conocimiento del negocio se
convierte en un elemento esencial ya que, generalmente, un Data Warehouse afecta a
todas las reas de la organizacin y, como tal, requiere de la participacin y apoyo de
cada una de las partes involucradas. Asimismo, la calidad de la informacin y los
tiempos de respuesta son dos factores que determinan la aceptacin o rechazo del
proyecto, en ese sentido, juegan un papel fundamental la arquitectura, hardware y
herramientas de explotacin seleccionados.
En el segundo captulo se muestra el enfoque de la minera de datos como estrategia de
anlisis de informacin, de esta forma, en el Data Warehouse los datos deben
encontrarse en el nivel de detalle correcto debido a la naturaleza incipiente de la
tecnologa de minera de datos.
En las aplicaciones empresariales, la tecnologa de minera de datos se ha utilizado
principalmente en aplicaciones de comercializacin, ventas y anlisis de crdito; as
como en reas tales como la segmentacin de clientes, de mercado y anlisis de
comportamiento del cliente. Actualmente, la existencia de tres elementos importantes
conduce al crecimiento en la minera de datos:
1. La tecnologa de Data Warehouse al proporcionar un gran banco de datos bien
organizados e histricos.
2. El hardware en paralelo, los productos de base de datos y las herramientas a precios
razonables.
3. La tecnologa y las herramientas para minera de datos cada vez ms desarrolladas.
La minera de datos es una tecnologa poderosa con un gran potencial, que ayuda a las
organizaciones a concentrarse en la informacin ms importante existente en sus Data
Warehouses. Las herramientas de minera de datos predicen tendencias y
comportamientos futuros, por lo que permiten al negocio tomar decisiones proactivas
basadas en el conocimiento.
Por ltimo, el tercer captulo explica las bases de datos inteligentes, cuyo objetivo principal es
el de proporcionar informacin que responda a condiciones especializadas de bsqueda
mediante el apoyo de componentes de inteligencia artificial y sistemas expertos, tecnologas
que comnmente se consideran de forma aislada. De esta manera, adicionalmente a las
tecnologas integradas dentro de la arquitectura bsica de una base de datos inteligente,
existen otras herramientas de alto nivel que complementan su funcionalidad.

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

CAPTULO
Data Warehousing
Un Data Warehouse puede definirse como un repositorio de datos centralizado para
apoyo de las actividades de anlisis del negocio. Permite almacenar datos operacionales
y eliminar inconsistencias entre los diferentes formatos existentes en los sistemas fuente.
Adems de integrar los datos de toda la empresa, no importando su ubicacin, formato
o requerimientos de comunicacin; permite incorporar informacin adicional integrada
por el experto del negocio.

1.1 Caractersticas
De acuerdo con Bill Inmon, considerado el creador del concepto de Data Warehousing,
existen cuatro caractersticas principales que describen un Data Warehouse:
1. Orientado al sujeto. Los datos son organizados en reas especficas de estudio,
relevantes para el analista, en lugar de orientarse a una aplicacin. Un sistema OLTP
puede dividir sus datos por diferentes regiones o periodos. Un Data Warehouse
almacena la misma informacin ordenada por temas como pueden ser ventas,
embarques, clientes y productos, entre otros.
2. Integrado. Cuando los datos residen en aplicaciones separadas en el ambiente
operacional, la codificacin de los datos a menudo es inconsistente. La informacin
que contiene un Data Warehouse proviene de diferentes fuentes, y conforme es
alimentado, las inconsistencias en los datos que vienen en las fuentes son eliminadas
y se integran con un formato nico.
3. Variante en el tiempo. El Data Warehouse representa un lugar para almacenar datos
de cinco a 10 aos de antigedad, incluso ms, para utilizarse en comparaciones,
anlisis de tendencias y pronsticos. La informacin en un Data Warehouse siempre
tiene un componente tiempo. El Data Warehouse contiene datos que representan el

Mary Karina Ruiz Torres

estado del negocio en un periodo especfico. Por ejemplo, la informacin de un


inventario podra almacenarse en una serie de fotografas donde cada imagen
representa el estado del inventario en un tiempo particular.
4. No voltil. Los datos no son modificados o cambiados en forma alguna, una vez que
entran al Data Warehouse, nicamente son cargados y se puede acceder a stos.
Cuando una direccin cambia en un sistema operacional, muchas aplicaciones lo
que hacen es sobrescribir el registro. En el Data Warehouse, una vez que el dato es
almacenado, nunca cambia, excepto para corregir errores. Si una direccin cambia,
ambas direcciones, la nueva y la anterior, sern almacenadas en el Data Warehouse
y cada una reflejar el estado de una realidad en un periodo determinado.
5. Detallado y sumarizado. El Data Warehouse almacena la informacin de forma
atmica, pues describe la operacin del negocio y contiene, adems, vistas
sumarizadas del material.

1.2 Estructura de datos y flujo de datos


1.2.1 Dos enfoques: Inmon y Kimball
Dos personajes prominentes en la historia de Data Warehouse son Bill Inmon y Ralph
Kimball. El primero introdujo el trmino Data Warehouse en 1992 mientras Kimball
present sus guas de desarrollo, de ah que sean considerados los forjadores de los
enfoques principales en la construccin de un proyecto de toma de decisiones. Algunas
diferencias que se presentan entre ambos enfoques son:
Inmon describe el Data Warehouse como el lugar donde una empresa logra la integracin
de informacin, en tanto Kimball describe una arquitectura que unifica data marts, cada uno
con dimensiones y medidas que puede compartir mediante el Warehouse.
Inmon establece que el Data Warehouse debe ser la fuente de informacin para todos los
data marts. Y Kimball lo describe como un concepto virtual; cuando se observa la
arquitectura del Data Warehouse como un bus en donde se conectan todos los data
marts, se aprecia al Data Warehouse.
Inmon insiste en que el Data Warehouse debe tener un diseo normalizado, mientras
Kimball insiste en que debe ser desnormalizado.
La estructura de datos organizacional de Inmon incluye un componente llamado
Operational Data Store (ODS), similar al Data Warehouse pero que se usa para las
necesidades de anlisis de datos operacionales. Kimball no cree que el ODS deba ser
una estructura separada; las necesidades de informacin inmediatas deben ser cubiertas
por los mismos sistemas operacionales o directamente desde el Data Warehouse.
En resumen, el objetivo principal del enfoque de Inmon es tener una fuente de datos
unificada que contenga informacin de toda la empresa; en cambio, la teora de Kimball

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

tiene como objetivo hacer que la informacin se encuentre disponible para un anlisis lo
ms rpido y eficiente posible.
Ahora bien, tres directrices en las que ambas teoras coinciden son:

Un Data Warehouse debe tener un objetivo de negocio.

El sistema debe considerar las necesidades de toda la empresa.

Deben tomarse en cuenta todas las posibles fuentes de datos.


1.2.2 Conocimiento del negocio

Previo a la construccin de un Data Warehouse debe tenerse el conocimiento necesario


sobre lo que motiva a la organizacin al desarrollo de un proyecto de este tipo, en este
sentido, se sugieren algunas preguntas que se clasifican de la siguiente manera:
Propsito del negocio:

Por qu se necesita un Data Warehouse?

Por qu se requiere el anlisis OLAP?

Cmo auxiliar este proyecto al negocio?

Ayudar a incrementar las ventas?

Ayudar a reducir costos?

Permitir proporcionar un mejor servicio al cliente?

Cmo lograr que la compaa sea ms eficiente?

Necesidades especficas de las reas:

Cuntos departamentos se beneficiarn de un Data Warehouse?

En qu formas se utiliza la informacin actual en el anlisis del negocio?

El Data Warehouse puede disearse de manera que pueda usarse para


mltiples propsitos?

Fuentes de datos:

Cules son las fuentes de informacin potenciales para el Data Warehouse?

Qu sistemas operacionales tienen informacin que pueda ser utilizada? Cul


es la frecuencia con que cambia la informacin? Qu tan a menudo se integra
nuevos datos?

Qu informacin histrica puede ser incluida? Qu tan accesible estn los


datos?

Mary Karina Ruiz Torres

Qu fuentes externas de informacin pueden incluirse?

Qu tanta limpieza de datos tendr que hacerse para cada fuente?

Qu datos necesitarn combinarse?

Cul es el volumen total de datos?

1.3 Arquitecturas de sistemas


1.3.1 Sistemas OLAP
La mejor forma de describir una herramienta OLAP es explicando su funcionamiento. En
todo negocio se utilizan hojas de clculo para detallar actividades, adems de que
existen reportes mensuales que contienen pilas de hojas, con un esfuerzo significativo en
su creacin, sin embargo, su uso es difcil cuando se buscan piezas de informacin
especficas, aunado al hecho de que no incluyen informacin adicional.
Una herramienta OLAP provee al analista del negocio de millones de hojas de clculo a
un tiempo. Estas hojas se encuentran disponibles en una estructura lgica y jerrquica, de
forma tal que el analista puede moverse con rapidez a un nivel general o especfico de
detalle o bien, observar la informacin desde perspectivas sumarizadas.
Codd ha desarrollado algunas reglas o requerimientos para un sistema OLAP:

Vista multidimensional conceptual.

Transparencia.

Accesibilidad.

Desempeo.

Arquitectura cliente/servidor.

Dimensionalidad genrica.

Soporte multi-usuario.

Operaciones multidimensionales sin restriccin.

Manipulacin de datos intuitiva.

Reporteo flexible.

Dimensiones ilimitadas y niveles de agregacin.

La pregunta fundamental en este sentido es qu es un dato multidimensional y cundo


se convierte en OLAP? Esto es, esencialmente, una forma de construir asociaciones entre
piezas de informacin semejantes, mediante reglas de negocio predefinidas acerca de la
informacin que se maneja.

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Pueden identificarse tres componentes de OLAP:

Una base de datos multidimensional debe ser capaz de expresar clculos


complejos de manera sencilla. Los datos tienen que ser referenciados y definidos
matemticamente.

Navegacin intuitiva.

Respuesta instantnea, el usuario tiene la necesidad de obtener la informacin lo


ms pronto posible.

Entre las ventajas que ofrece el sistema dimensional est la libertad que ofrece al usuario
para explorar libremente los datos y recibir el tipo de reporte deseado, sin tener
restringido un formato predefinido.
1.3.2 Ejemplo
Un ejemplo de base de datos OLAP puede comprender datos de ventas, que pueden
agregarse por regin, producto y canal de venta. Una consulta tpica de OLAP puede
acceder a una base de datos con informacin de ventas de mltiples aos (bastantes
gigabytes), con la finalidad de encontrar todas las ventas de diversos productos en
diferentes regiones. Despus de revisar los resultados, un analista puede afinar
posteriormente la consulta para encontrar el volumen de ventas para cada canal de venta
clasificando la informacin por regin y producto.
Como ltimo paso, el analista puede realizar comparaciones por ao o trimestre para
cada canal de venta. Este proceso completo debe realizarse en lnea con tiempos de
respuesta rpidos, de manera que el anlisis no sea interrumpido. Las consultas OLAP
pueden representarse como transacciones en lnea las cuales:

Acceden a grandes cantidades de datos (varios aos de datos).

Analizan las relaciones entre los diversos elementos del negocio (ventas, regiones,
productos y canales de venta, entre otras).

Involucran agregacin de datos (por ejemplo, volmenes de ventas o gastos).

Comparan datos agregados contra periodos jerrquicos (mensualmente,


trimestralmente, anualmente, etctera).

Presentan los datos en diferentes perspectivas (ventas por regin, ventas por canal
de venta y por producto dentro de cada regin).

Involucran clculos complejos entre elementos de datos (ganancias esperadas,


calculadas en funcin de las ventas por cada canal de venta y regin particular).

Estn habilitadas para responder rpidamente a los requerimientos de los


usuarios, de manera que pueden perseguir un proceso analtico sin ser
bloqueados por el sistema.

Mary Karina Ruiz Torres

1.3.3 OLTP vs OLAP


On Line Transaction Processing (OLTP) hace referencia a todas las aplicaciones que
corren la operacin bsica de la organizacin. Son sistemas que usan la informacin de
la siguiente manera:

Almacenan los datos para optimizar su modificacin y consulta individual (por registro).

Generan un nmero limitado de reportes donde se resumen los eventos que han
tomado lugar.

En cambio, los sistemas On Line Analytical Process (OLAP) son creados con el propsito
de analizar datos de la organizacin:

Importan datos desde los sistemas OLTP y otras fuentes, que incluso podran ser
externas a la organizacin.

Almacenan datos en un formato que optimiza consultas analticas. Estas consultas, a


menudo, sumarizan informacin de diferentes registros de distintas tablas.

Un sistema OLAP tiene como objetivo proveer una herramienta de consulta que
permita analizar la informacin desde todas las perspectivas posibles.

Aunque el lugar ms sencillo para realizar consultas es directamente en las bases de


datos transaccionales, el rendimiento se puede ver degradado por las siguientes razones:

Los sistemas OLTP tienen que entregar resultados tan rpido como sea posible, y
las consultas de anlisis de informacin pueden afectar de forma significativa a
los sistemas operacionales debido al uso que hacen de los recursos de
procesador y memoria.

Las bases de datos OLTP tienen una estructura normalizada, que agiliza la
entrega y modificacin de registros individuales, adems de que cada pieza de
informacin se almacena una sola vez por lo que puede modificarse en una
ubicacin nica. Las consultas en una estructura OLAP responden con mayor
rapidez cuando el esquema de la base de datos se disea para consultar
mltiples registros. Esta estrategia de diseo se conoce como modelado
dimensional y el resultado es un esquema estrella.

Los sistemas OLTP son ms eficientes cuando las tablas tienen un nmero limitado de
ndices, cada uno de los cuales tiene que modificarse conforme vare la informacin;
en este caso, tener demasiados ndices puede afectar el proceso transaccional
normal de variacin de registros. Los sistemas OLAP trabajan mejor mientras ms
ndices existan, puesto que el dato no sufre modificaciones continuas.

Los valores calculados en un OLTP pierden sentido porque los registros estn
cambiando y cada vez que el registro vara, el valor calculado tiene que actualizarse.
En los sistemas OLAP se requieren grandes cantidades de datos agregados, de
manera que pueden presentarse para el analista de forma inmediata no importando
la combinacin de factores que el analista pretenda consultar.

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

El almacn de datos para un OLTP es un DBMS Relacional. Los datos utilizados


en un sistema OLAP pueden almacenarse en un DBMS Relacional, pero tambin
existe la posibilidad de ganar rendimiento guardando los datos en estructuras
multidimensionales.

La diferencia entre OLAP y OLTP se resume de la forma siguiente: los servidores OLTP
manejan datos operativos (de misin critica) a travs de consultas simples, mientras que los
servidores OLAP tienen informacin a la cual se accede a travs de una investigacin iterativa
(administracin crtica). Ambos, OLAP y OLTP, tienen requerimientos especializados y
requieren, por lo tanto, servidores especiales para los dos tipos de procesamiento.
Los servidores de las bases de datos OLAP manejan estructuras multidimensionales para
almacenar los datos y las relaciones entre stos. Las estructuras multidimensionales
pueden visualizarse como cubos de datos. Cada lado del cubo es considerado una
dimensin que representa una categora diferente como producto, regin, canal de venta
y tiempo. A su vez, cada celda dentro de la estructura multidimensional contiene datos
agregados relacionados con los elementos que se encuentran en las dimensiones. Por
ejemplo, una celda puede contener las ventas totales para un producto determinado en
una regin para un canal de venta especfico en un mes. Las bases de datos
multidimensionales son un medio compacto y fcil de entender para visualizar y
manipular elementos de datos que tienen muchas interrelaciones.
Los servidores OLAP soportan operaciones analticas que incluyen procesos de
consolidacin, drill-down y slicing and dicing:

Consolidacin. Involucra la agregacin de datos, tales como simples


solarizaciones o expresiones complejas que involucran datos interrelacionados.
Por ejemplo, las oficinas de ventas pueden ser descompuestas por distritos y los
distritos en regiones.

Drill-Down. Los servidores OLAP pueden ir en direccin inversa y desplegar de


forma automtica datos detallados que comprenden los consolidados. La
consolidacin y el drill-down son una propiedad inherente a los servidores OLAP.

"Slicing and Dicing". Se refiere a la habilidad de consultar la base de datos desde


diferentes puntos de vista, un corte (slice) de la base de datos de ventas puede
mostrar todas las ventas de un producto por regin. Otro corte puede mostrar
todas las ventas por canal de venta y producto. Slicing and dicing se realiza,
generalmente, a travs de un eje de tiempo con la finalidad de analizar
tendencias y encontrar patrones.

Los servidores OLAP almacenan datos multidimensionales, esto se logra mediante


arreglos de almacenamiento y tcnicas de compresin que maximizan el espacio utilizado
y mediante la optimizacin en el uso de espacio. Los servidores OLAP pueden minimizar
los requerimientos de espacio haciendo posible el anlisis de grandes cantidades de
datos. Adems, hace posible cargar ms datos en memoria, lo cual ayuda a mejorar de
manera significativa el rendimiento debido a la reduccin en el acceso a disco.

Mary Karina Ruiz Torres

En conclusin, los servidores OLAP organizan los datos lgicamente en mltiples


dimensiones, lo que permite a los usuarios analizar rpida y fcilmente relaciones de datos
complejas. La misma base de datos est organizada fsicamente, de tal manera que los datos
relacionados pueden recuperarse con rapidez a travs de mltiples dimensiones. Los
servidores OLAP son muy eficientes cuando almacenan y procesan datos multidimensionales.
Los RDBMSs han sido desarrollados y optimizados para manejar aplicaciones OLAP. El
diseo de una base de datos relacional se concentra en la confiabilidad y velocidad en el
procesamiento de transacciones, ms que en las necesidades de apoyo a la toma de
decisiones. Cabe mencionar, adems, que los diferentes tipos de servidores pueden
beneficiar a un amplio rango de aplicaciones de administracin.
1.3.4 Data Warehouse y sistemas OLTP
Una base de datos construida para el procesamiento de transacciones en lnea (OLTP) es
considerada, generalmente, como inadecuada para Data Warehousing, porque fue
diseada con un diferente conjunto de necesidades, como es maximizar la capacidad
transaccional y tener cientos de tablas con el objetivo de responder con mayor rapidez al
usuario. Por otro lado, un Data Warehouse se enfoca en el procesamiento de consultas,
ms que en el de transacciones.
Los sistemas OLTP no pueden ser repositorios de hechos y datos histricos para el anlisis
del negocio, ya que no pueden responder de manera rpida a consultas ad hoc, y la
recuperacin de informacin es casi imposible. Los datos podran ser inconsistentes y
cambiantes, existir registros duplicados e informacin faltante, as como la ausencia de
datos histricos, los cuales son necesarios para el anlisis de tendencias.
Bsicamente, los sistemas OLTP ofrecen grandes cantidades de datos crudos que no son
tan sencillos de entender. El Data Warehouse tiene el potencial de recuperar y analizar
informacin con mayor rapidez y facilidad.
OLTP

Data Warehouse

Propsito

Operaciones da a da.

Recuperacin de informacin y
anlisis.

Estructura

RDBMS.

RDBMS (opcional).

Modelo de datos

Normalizado.

Multidimensional.

Acceso

SQL.

SQL ms extensiones de anlisis de


datos.

Tipo de dato

Datos que utiliza el negocio


para su operacin.

Datos que analiza el negocio.

Condiciones de datos

Cambiantes, incompletos.

Histricos, descriptivos.

Ilustracin 1. Data Warehouse y OLTP.

10

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

1.4 Procesos
El primer paso que se tiene que llevar a cabo en un Data Warehouse es el de aislar los
datos operacionales actuales para preservar la seguridad e integridad de los sistemas
OLTP de misin crtica, con la finalidad de acceder a todas las bases de datos y la
resultante o Data Warehouse, puede consumir cientos de gigabytes e incluso terabytes
de espacio en disco, por lo que se requieren tcnicas de almacenamiento y recuperacin
de informacin masiva. A este respecto, las organizaciones han encontrado que los
sistemas de procesamiento paralelo ofrecen un ancho de banda suficiente.
El Data Warehouse extrae datos de una variedad de bases de datos heterogneas. Los
datos son transformados y entregados al Data Warehouse que est basado en un modelo
seleccionado previamente. Este proceso de transformacin de datos es realizado siempre
que una modificacin al Data Warehouse es requerida, de modo que la ejecucin de
estas funciones debe efectuarse de forma automtica. La informacin que describe el
modelo y la definicin de los datos fuente se llama metadato, que representa el
significado que el usuario final entender de la informacin contenida en el Warehouse y
al menos debe contener:

La estructura de los datos.

El algoritmo utilizado para las sumarizaciones.

El mapeo del ambiente operacional al Data Warehouse.

La limpieza de datos es un aspecto importante en la creacin de un Data Warehouse


eficiente porque elimina, en la medida de lo posible, las inconsistencias presentadas en
los datos operacionales. Por otro lado, esta limpieza debe ser lo ms dinmica posible
para satisfacer todos los tipos de consultas, incluyendo aqullas que pueden requerir
informacin de bajo nivel. Los datos deben extraerse de los sistemas operacionales en
intervalos regulares e integrados centralmente, pero el proceso de limpieza tiene que
remover la duplicacin y conciliar diferencias entre los distintos estilos de
almacenamiento de datos.
Una vez que los datos se limpian, son integrados al Data Warehouse que, generalmente,
es una gran base de datos almacenada en un equipo de alto desempeo como puede
ser SMP (Symmetric Multi-Processing) o MPP (Massively Parallel Processing).
Otro concepto importante en el entorno del Data Warehouse es el data mart. Los data
marts son considerados pequeos Data Warehouses, definidos para proveer
subconjuntos de informacin sumarizada del almacn principal y dependen de los
requerimientos especficos de un grupo o departamento de la organizacin.
Muchos proveedores tienen productos que satisfacen una o ms de las funciones
descritas anteriormente, sin embargo, puede tomar una cantidad de trabajo considerable
en programacin especializada para proveer la interoperabilidad necesaria entre
productos de mltiples proveedores para ejecutar los procesos del Data Warehouse.

11

Mary Karina Ruiz Torres

Ilustracin 2. Procesos de Data Warehousing.

1.5 El modelo de Data Warehouse


Data Warehousing es el proceso de extraer y transformar datos operacionales en
analticos para integrarlos en una estructura central de datos. Una vez que los datos son
cargados, se puede acceder a stos va consultas SQL o bien con el uso de herramientas
de anlisis disponibles para los tomadores de decisiones. El modelo de Data Warehouse
se ilustra en el siguiente diagrama:

Ilustracin 3. Esquema de Data Warehouse.

Los datos dentro del propio Data Warehouse tienen una estructura diferente con base en
los distintos niveles de sumarizacin manejados.

12

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Altamente
sumarizados
M
E
T
A
D
A
T
O

Ligeramente
sumarizados

Nivel de detalle
actual

Datos de detalle
anteriores
Ilustracin 4. Estructura de los datos dentro del Data Warehouse.

La importancia del nivel de detalle radica en lo siguiente:

Refleja los hechos ms recientes que, por lo general, son los de mayor inters.

Aumenta el volumen de almacenamiento conforme disminuye el nivel de


granularidad.

Generalmente, la informacin se almacena en disco para hacer ms rpido su


acceso, pero la vuelve ms costosa y difcil de administrar.

La informacin de detalle con mayor antigedad se guarda con algn proceso de


almacenamiento masivo, ya que su acceso no es tan frecuente. En cambio, la que est
sumarizada y que se obtiene del nivel de detalle, se almacena en disco la mayora de las
veces para su acceso rpido. Si se considera lo anterior, cuando se construye un Data
Warehouse se debe considerar la unidad de tiempo sobre la cual se va a sumarizar la
informacin, adems del contenido o atributos que se van a integrar, con objeto de que
los datos altamente sumarizados sean compactos y fcilmente accesibles.
El metadato es el componente final del Data Warehouse cuya funcin es:

Ayudar al analista de negocio a localizar el contenido del Data Warehouse.

Guiar el mapeo de datos conforme stos se transforman desde el ambiente


operacional al Data Warehouse.

Servir de gua para los algoritmos utilizados en la sumarizacin, entre los datos
de detalle actuales y aquellos levemente sumarizados, y tambin en la
sumarizacin entre los datos levemente y altamente sumarizados.

Un ejemplo de los niveles de sumarizacin de datos se muestra en la siguiente ilustracin:

13

Mary Karina Ruiz Torres

Ventas mensuales por


producto 1981 - 1993

Ventas nacionales por


mes 1985 - 1993
M
E
T
A
D
A
T
O

Ventas semanales por


subproducto 1985 - 1993

Ventas regionales
por semana
1983 - 1993

Detalle de ventas
1992 - 1993

Detalle de ventas
1982 - 1991
Ilustracin 5. Niveles de sumarizacin del Data Warehouse.

El diagrama anterior asume que el ao es 1993 porque los datos actuales abarcan
1992-1993. Por lo general, los datos de ventas no alcanzan el nivel actual de detalle
para las 24 horas ya que espera hasta que el sistema operacional no est disponible,
esto es, le toma 24 horas obtenerlo del Data Warehouse. En cambio, se tiene la opcin
de que el detalle de ventas sea sumarizado semanalmente por producto y regin, con
objeto de generar el nivel de detalle levemente sumarizado y posteriormente las ventas
semanales sean sumarizadas nuevamente para producir el nivel altamente sumarizado.

1.6 Modelo dimensional


El modelo dimensional es un reflejo directo de la forma como se observa un proceso de
negocio. Captura las medidas de importancia y los parmetros, a travs de los cuales
dichas medidas son descompuestas. Las medidas son referidas como hechos o mtricas,
mientras que los parmetros por los que una mtrica puede analizarse son referidos
como dimensiones.
1.6.1 El esquema Estrella
Este enfoque fue desarrollado para resolver problemas con los que el negocio se enfrenta
al utilizar modelos entidad-relacin normalizados. El nombre viene de la similitud del
diagrama con el de una estrella donde:

14

El centro de la estrella es la tabla de hechos.

Las puntas de la estrella son las tablas de dimensin.

Se implementa a travs de tecnologa de bases de datos relacionales.

Las tablas de hechos contienen indicadores o atributos que pertenecen a una


combinacin de objetos de informacin (dimensiones) y tiempo.

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

1.6.1.1 Granularidad
Cuando se disea un diagrama estrella, una de las primeras decisiones tiene que ver con
el nivel de detalle en el que sern ingresadas las mtricas, conocido como granularidad
de la tabla de hechos. En ese sentido, es crucial que cada registro en la tabla de hechos
se almacene exactamente en el mismo nivel de detalle pues, de lo contrario, se puede
destruir la funcionalidad del esquema estrella. Esto es, la informacin relevante con un
nivel de granularidad diferente debe guardarse en una segunda tabla de hechos.
En general, una tabla de hechos requiere que las llaves forneas relacionadas con un
registro nunca sean nulas; dado que una relacin opcional hacia una dimensin es un
signo de problemas de granularidad.
1.6.1.2 Dimensiones
Una vez definida la granularidad de la tabla de hechos, el objetivo siguiente ser el de
desarrollar tablas de dimensin con un gran nmero de atributos, donde se reflejen un
conjunto de detalles en torno al proceso de negocio. No es raro encontrar hasta 100 o
200 atributos en una sola dimensin.
Las relaciones entre los atributos existentes en una dimensin no necesitan ser estrechas,
es aceptable incluir un conjunto de atributos directamente relacionados con otros.
La llave primaria (PK) de una dimensin siempre es un atributo nico definido por el
sistema, causado porque el uso de llaves concatenadas degrada el desempeo y tambin
evita la dependencia hacia los sistemas operacionales al asignar una clave propia.
Cada una de las tablas de dimensin:

Contiene informacin textual descriptiva (descripcin, nombre, tamao, direccin,


etctera).

Se utiliza como una fuente para limitar las consultas.

Casi siempre es la fuente de encabezados de registros.

Contiene una relacin uno a muchos a la tabla de hechos.

Incluye un nmero limitado de registros que se incrementan lentamente con el tiempo.


1.6.1.3 La tabla de hechos

Despus de identificar la granularidad y las dimensiones, la atencin gira en torno a la


tabla de hechos la cual:

Contiene mtricas o hechos del negocio, representados por columnas numricas


que muestran la granularidad definida de los hechos almacenados en la tabla.

Incluye una llave nica compuesta de las llaves forneas hacia las dimensiones.

15

Mary Karina Ruiz Torres

Incorpora un gran nmero de registros (cientos de millones). El nivel de granularidad


definido para la tabla de hechos, determinar no slo el nivel de detalle en el que se
puede consultar la informacin, sino tambin el nmero de clculos que deben
procesarse para proveer la respuesta a una consulta. Mientras mayor detalle se
pueda consultar, aumenta el tamao de la tabla de hechos.

No es obligatorio que cada combinacin de llave fornea exista, esto es, varias
entradas a la tabla de hechos no tendrn llaves forneas hacia todas las
dimensiones asociadas.
PRODUCTO

TIEMPO

Id_prod

Id_tiempo

Nombre
Tamao
Paquete
Categora

ALMACEN
Id_almacen
Nombre
Direccin
Tamao
Gerente

HEC_VENTAS
Id_prod
Id_almacen
Id_tiempo
Id_org
Unidades_vendidas
Monto_venta
Ganancia
Costo

Da
Semana
Mes
Trimestre
Ao

ESTR_ORG
Id_org
Divisin
Regin
Mercado

Ilustracin 6. Esquema Estrella.

1.7 Factores de xito


1.7.1 El propsito del negocio
Algunas tareas indispensables en el desarrollo de un Data Warehouse del negocio se
sealan a continuacin:

16

Encontrar cules datos desean y necesitan los usuarios en su sistema OLAP.

Transformar los datos provenientes de sistemas OLTP a un esquema estrella.

Limpiar la informacin de los OLTP.

Construir cubos multidimensionales.

Invertir en hardware para la transformacin de datos, procesamiento de cubos y


almacenamiento de datos.

Construir o comprar aplicaciones OLAP cliente.

Implementar una estrategia de actualizacin de informacin.

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Capacitar a los usuarios.

Cunto costar? y cunto tiempo tomar el desarrollo?, depende de varios factores.


Puede realizarse con una inversin de 30 mil dlares, pero si se tiene una gran cantidad
de fuentes de datos que integrar y mucha limpieza de datos, el costo puede escalar
fcilmente los cientos de miles de dlares.
Ahora bien, la manera como las empresas evalan el valor de un Data Warehouse para
el xito del negocio depende del enfoque que decidan tomar, en este sentido, algunas
compaas se enfocan en el clculo del Return On Investment (ROI). Buscan cmo el
Data Warehouse ahorrar dinero, ms que reducir inventarios, disminuir el tiempo del
personal en la generacin de reportes o incrementar el nivel de ventas.
Otras compaas consideran el beneficio de un Data Warehouse en un contexto ms
general. Ellos reconocen que el conocimiento obtenido les ayuda a mejorar su negocio
en formas que no pueden ser trasladadas monetariamente de una manera tan sencilla.
Un Data Warehouse, incluso, puede apoyar en el reconocimiento de compaas rivales
para ganar ventaja competitiva.
1.7.2 Consultas rpidas
La rapidez en la obtencin de la informacin mostrada a los usuarios finales est
considerada un factor esencial para el xito de un sistema OLAP. Existe una prueba
llamada FASMI (Fast Analysis of Shared Multidimensional Information) que permite
determinar si una aplicacin califica para convertirse en una herramienta OLAP:

Fast. La presentacin debe ser rpida de manera consistente, lo que significa que
el tiempo de respuesta de cualquier consulta debe ser menor a cinco segundos. Si
una consulta tarda ms de este tiempo, el analista de negocio asumir que algo
est mal y abortar la consulta. En cambio, si la respuesta es menor a dos
segundos, se tendr la impresin de que la informacin se ha presentado de
forma inmediata.

Analisys. El sistema puede proveer funciones de anlisis de manera intuitiva, las


cuales deben tener lgica de negocio y anlisis estadstico relevante.

Shared. Los cubos deben ser capaces de soportar la concurrencia de mltiples


usuarios y manejar los requerimientos de seguridad necesarios para compartir la
informacin.

Multidimensional. Un OLAP se define por su presentacin de informacin


multidimensional.

Information. Son los datos y la informacin derivada requerida por el usuario.

17

Mary Karina Ruiz Torres

1.7.3 Estrategia de desarrollo


Cualquiera que sea el tamao del proyecto de Data Warehouse, es comn que se
convierta en algo de mayor dimensin en el futuro. El negocio cambia y aun cuando las
variaciones no sean constantes, los analistas de negocio, a menudo, desean ver la
informacin desde nuevas perspectivas. Uno de los grandes retos se presenta cuando dos
compaas se fusionan, por ello es importante tener en mente la posibilidad de agregar
nuevos requerimientos desde el diseo, de manera que se puedan atacar las solicitudes
que se enumeran a continuacin:

Incluir un nivel de detalle menor al existente.

Agregar nuevos campos.

Proveer mayor cantidad de datos calculados.

Integrar nuevas fuentes de informacin.

Aumentar el nmero de usuarios.

Distribuir la informacin de forma geogrfica.

Actualizar la informacin de los cubos con mayor frecuencia.

Almacenar mayores datos de informacin histrica.

Incluir fuentes de datos externas a la organizacin.

Proveer el acceso a los cubos va Internet / Intranet.

No siempre se puede estar preparado para solucionar todos los cambios potenciales, sin
embargo, existen algunas estrategias que permiten responder de manera efectiva cuando
stos ocurren:

18

Desarrollar una perspectiva global de la empresa.

Mantener el ms bajo nivel de detalle posible (hechos atmicos), de manera que


se pueda mostrar un mayor nmero de agregaciones en el futuro. De no incluir
datos atmicos, existir cierta informacin que siempre estar fuera de alcance y
esto significara reconstruir todo el almacn de datos.

Incluir todos los campos que pudieran ser necesarios para las transformaciones
de datos.

Utilizar llaves nicas generadas por el propio sistema.

Usar un repositorio central donde se almacene informacin acerca de las bases


de datos y las transformaciones utilizadas, con objeto de apoyar la integracin de
nuevas fuentes de datos y herramientas de software.

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Implementar el ms amplio nivel de consistencia en el significado de las


estructuras utilizadas entre los miembros de la organizacin, con la finalidad de
que la informacin pueda usarse por un mayor nmero de reas.

De forma continua, existe confusin entre aplicar una estrategia de desarrollo detallada u
optar por un desarrollo inicial rpido. El conflicto se presenta por la necesidad de
explicar conceptos generales acerca de las definiciones de datos y estructuras entre los
miembros de la organizacin; lo cual es ms un reto organizacional, poltico y de
administracin, que tcnico.
Si se espera que todos los miembros estn de acuerdo con las estructuras de datos,
probablemente el proyecto nunca tendr un inicio. Ahora, si el desarrollo comienza antes
de que todos lleguen a un consenso, surgirn problemas en el momento de hacer las
entregas de informacin a diferentes reas o bien, cuando se intente integrar el Data
Warehouse propio con algn otro que se haya construido.
Debido a que no siempre se estar en posibilidades de resolver este conflicto, lo ms
prudente es mantenerse abierto a todas las opciones. Por ejemplo, si existe desacuerdo
sobre qu fecha utilizar para indicar el cierre de una venta, entonces, se recomienda
incluir todas las opciones posibles dentro de la estructura. Si el desacuerdo radica en
cmo debe calcularse un valor (por ejemplo, la ganancia), lo ms conveniente es incluir
todos los factores que puedan ser necesarios, de manera que cada rea pueda realizar el
clculo necesario. Si el desacuerdo se refiere al nivel de detalle que debe mantenerse, se
sugiere almacenar el ms bajo nivel de detalle, ya que existen datos que los analistas no
podran considerar de su inters, solo para que estn preguntando por ellos un mes
despus.
1.7.4 Calidad de la informacin
Es todo un reto asegurar la calidad de la informacin en un Data Warehouse debido,
principalmente, al hecho de que muchos sistemas operacionales no realizan validaciones
a la informacin ingresada, de manera que la informacin podra ser inconsistente,
incorrecta y en un porcentaje faltante. Al proceso de mejoramiento de la informacin se
le llama limpieza de datos. Algunas formas en que puede ser necesario limpiar la
informacin son las siguientes:

Eliminar duplicados. Existen entidades con registros duplicados, que pueden tener
errores ortogrficos o incluso escritos exactamente igual.

Homogenizacin de datos. Diferentes sistemas fuente utilizan diferentes cdigos.

Uso de campos separados. En algunos sistemas fuente, los campos pueden


usarse para ms de un propsito.

Campos vacos/nulos. Si los valores correspondientes pueden definirse, entonces


los correctos deben ingresarse en los campos, de lo contrario debe definirse una
forma consistente de desplegar los desconocidos.

19

Mary Karina Ruiz Torres

Eliminar datos sin significado. En ocasiones, los operadores de los sistemas fuente
deben llenar un campo requerido y desconocen la informacin, por lo que
ingresan una cadena de caracteres sin significado.

Comparar datos entre fuentes. Si el dato puede ser incorrecto y se tiene la posibilidad
de verificarlo con otra fuente, entonces se eliminan posibilidades de error.

Existen tres cursos de accin generales:

Cambiar los datos en la base de datos fuente e implementar procedimientos que


eviten la ocurrencia de estos errores.

Modificar los datos conforme ingresan al Data Warehouse.

Integrar el dato tal y como se encuentra en la fuente y documentar el problema,


de forma tal que los usuarios estn conscientes de la situacin.

Ciertamente, lo mejor es corregir el problema desde los sistemas fuente pero, a menudo, no
resulta prctico. La limpieza de datos es costosa y requiere mucho tiempo; la calidad de la
informacin puede mejorarse, y sin embargo, probablemente no llegar a ser perfecta.

1.8 Metadato
Todos los elementos de un Data Warehouse deben entenderse de manera que los
usuarios sepan lo que obtienen, es decir, necesitan conocer desde dnde viene el dato y
cmo se ha modificado para depositarse en el Data Warehouse. Adems, requieren
saber la exactitud del dato y lo que se ha realizado para corregir las inconsistencias.
El metadato provee la descripcin de varios elementos del dato. Existen dos tipos de
metadato para este tipo de sistema:

Metadato tcnico. Describe completamente los datos desde la perspectiva


tcnica, es decir, es el tipo de informacin que una persona con perfil tcnico
necesita para procesar los datos de manera correcta:
1. Nombres de campos, tablas y bases de datos.
2. Nombres de niveles, jerarquas, dimensiones, cubos y bases de datos OLAP.
3. Tipos de datos.
4. Longitud de campos.
5. Valores nulos.
6. Valores por default.
7. ndices.
8. Llaves primarias y forneas.

20

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

9. Relaciones.
10. Reglas y constraints.
11. Transformaciones y mapeos.
12. Procedimientos de limpieza de datos.
13. Seguridad de la informacin.
14. Historia de la creacin y modificacin de la estructura de datos.
15. Historia de las transformaciones.

Metadato de negocio. Es la descripcin de los datos que se muestra a la persona


que consulta la informacin, sta incluye:
1. Descripciones de campos, tablas y bases de datos.
2. Descripciones de niveles, jerarquas, dimensiones, cubos y bases de datos
OLAP.
3. Descripciones de mapeos y transformaciones.
4. Descripciones de procedimientos de limpieza.
5. Reportes.
6. Referencias a los metadatos tcnicos.

Algunas razones por las cuales es necesario el metadato son:

Existen varios tipos de fuentes de datos y cada uno los define de manera
especfica. El metadato provee una forma consistente de describir las estructuras
de datos y la fuente de datos de que se trate.

Es importante tener la capacidad de describir los cambios realizados a la


informacin conforme sta se transforma, de manera tal que los analistas de la
informacin puedan tener la confianza de que el material que ven representa de
forma precisa la informacin de la organizacin.

Los usuarios de la informacin necesitan una explicacin clara sobre el


significado de cada uno de los campos, medidas, niveles y dimensiones. Una de
las partes importantes del metadato es una interfaz amigable que contenga dicha
descripcin del dato.

21

Mary Karina Ruiz Torres

Ilustracin 7. Definicin del metadato.

1.9 Estructuras de datos para el anlisis de negocio


Existe un nmero ilimitado de formas en que una empresa puede estructurar la
informacin que ser utilizada en el anlisis de negocio, por ello se mencionan tres de
las formas ms representativas:
1.9.1 Non-architected
En este tipo de estructura no existe un Data Warehouse y se compone por data marts
independientes donde no existe la intencin de analizar la informacin de todos desde
una perspectiva global. Este tipo de estructura se construye rpidamente, puesto que no
se tienen que homogeneizar conceptos sobre los distintos elementos de informacin con
las personas de otros departamentos. Las desventajas de esta estructura son:

22

Limita el objetivo de anlisis de informacin por parte del usuario, ya que va en


contra del objetivo de un Data Warehouse de tener una presentacin unificada
de la informacin del negocio.

Se vuelve muy complicado unir los data marts creados de forma independiente.

Si alguna vez se desea ver los datos de un departamento junto con los de otro, se
tienen que desarrollar transformaciones de manera que la informacin coincida
en una estructura nica, de cualquiera de los dos data marts.

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

SISTEMAS OLTP

DATA MARTS

CUBOS OLAP

F U E N T E S DE DATOS
EXTERNAS

Ilustracin 8. Estructura no-arquitectnica con data marts independientes.


SISTEMAS OLTP

CUBOS OLAP

F U E N T E S DE DATOS EXTERNAS

Ilustracin 9. Estructura no-arquitectnica con cubos como data marts.

1.9.2 Data marts dependientes


Siendo que un data mart es un subconjunto del Data Warehouse, el primero recibe su
informacin a partir del Data Warehouse, en ese sentido, se optimiza para las
necesidades de anlisis particulares del departamento para el cual ha sido creado.

23

Mary Karina Ruiz Torres

DATA WAREHOUSE

DATA MARTS

Ilustracin 10. Estructura de data marts dependientes.

1.9.3 Bus
En esta estructura, cada data mart es una parte del Data Warehouse y tambin se
encuentra conectado al bus del Data Warehouse, que contiene los elementos de
informacin comunes que son utilizados por todos los data marts. Estos elementos
constan de dimensiones y mtricas que han sido definidas por la organizacin. Si cada
data mart utiliza estos elementos comunes, el analista puede consultar todos los data
marts al mismo tiempo.
Cuando se emplea este tipo de estructura, el Data Warehouse se convierte ms en un
elemento virtual que en una realidad, todos los data marts pueden ser almacenados en
un servidor y si as fuera, el Data Warehouse estara en el mismo servidor. As mismo, los
data marts podran estar en servidores separados y el Data Warehouse tendra una
existencia virtual, ya que no es ms que la suma de todos los data marts.
CUBOS OLAP

DATA WAREHOUSE

DATA MART

DATA MART

DATA MART

Ilustracin 11. Estructura de bus.

24

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

1.10 Seleccin de un DBMS


Uno de los problemas con el software de Data Warehouse ha sido la precipitacin de las
compaas por entrar en el uso de la nueva tecnologa, al distorsionar el concepto de
Data Warehouse en productos de procesamiento transaccional tradicionales. [Chris
Erickson, presidente de Red Brick].
La compaa Red Brick Systems ha establecido un conjunto de criterios para definir
cundo un manejador de bases de datos (DBMS) es adecuado para Data Warehousing,
stos son los siguientes:

Desempeo en la carga de informacin. Un Data Warehouse requiere cargas


incrementales de nueva informacin sobre bases peridicas en ventanas de
tiempo reducidas. El desempeo en los procesos de carga debe medirse en
cientos de millones de registros y gigabytes por hora, y no debe limitarse
artificialmente el volumen de datos requerido por el negocio.

Procesamiento. Se debe efectuar un proceso para cargar o modificar datos en el


Data Warehouse, lo que incluye conversiones, filtros, dar formato, chequeo de
integridad, almacenamiento fsico, indexacin y actualizacin del metadato. Estos
pasos deben ejecutarse en una unidad de trabajo simple.

Administracin de la calidad de datos. Una de las demandas principales en la


administracin de datos es la alta calidad que se requiere. El Data Warehouse
debe asegurar la consistencia y la integridad referencial, a pesar de lo sucio de
la informacin fuente y del tamao de la base de datos. Mientras que la carga y
preparacin son pasos necesarios, no son suficientes. La respuesta a las consultas
es la medida de xito de un Data Warehouse, dado que entre ms consultas sean
respondidas, los analistas estarn con mayor motivacin para formular preguntas
creativas y profundas.

Desempeo en las consultas. Deben completarse consultas grandes y complejas


en el menor tiempo posible (en segundos), ya que el anlisis de informacin no
debe afectarse por el desempeo del DBMS.

Escalabilidad en almacenamiento. Actualmente, el tamao de un Data


Warehouse abarca desde unos cuantos cientos de gigabytes hasta terabytes. El
DBMS no debe tener limitaciones arquitectnicas, ya que es capaz de soportar la
administracin modular y paralela, asegurar su disponibilidad an en eventos de
falla con mtodos efectivos de recuperacin de informacin. As mismo, debe
soportar dispositivos de almacenamiento masivo y por ltimo, el desempeo en
las consultas no debe ser dependiente del tamao de la base, sino de la
complejidad de la consulta misma.

Escalabilidad en el nmero de usuarios. El acceso al Data Warehouse no debe


limitarse a unos cuantos usuarios, por lo que el DBMS debe soportar el acceso de
cientos e incluso miles de usuarios concurrentes, mientras se mantiene un
desempeo aceptable en la respuesta de las consultas.

25

Mary Karina Ruiz Torres

Comunicacin va red. Cuando mltiples Data Warehouses necesitan cooperar en


una red de Warehouses, el servidor debe incluir herramientas que coordinen el
movimiento de los subconjuntos de datos entre las diversas bases. Los usuarios
deben ser capaces de trabajar con los mltiples Data Warehouses desde una
estacin de trabajo nica y, por otro lado, los administradores deben realizar sus
funciones desde la misma ubicacin fsica.

Administracin del Warehouse. La naturaleza del Data Warehouse, en cuanto a


tamao y periodicidad, demanda una fcil administracin y flexibilidad. EL DBMS
debe proveer los controles indispensables para implementar lmites en el uso de
recursos y priorizacin de consultas, con objeto de direccionar las necesidades de
los diferentes usuarios. Adems, debe permitir el seguimiento de las cargas de
trabajo y afinacin, de forma tal que los recursos del sistema puedan optimizarse
para un mejor rendimiento.

Anlisis dimensional. El poder de las vistas multidimensionales es ampliamente


demandado, por lo que el soporte dimensional debe ser inherente al DBMS para
proveer el ms alto desempeo a las herramientas OLAP. El DBMS debe permitir
de forma rpida y sencilla la creacin de agregaciones precalculadas en un Data
Warehouse de gran tamao. Adems, de dotar de herramientas de
mantenimiento para automatizar la creacin de estos agregados y su clculo
dinmico, el cual debe ser consistente con las necesidades de desempeo en la
interaccin con el usuario.

Funcionalidad avanzada en las consultas. Los usuarios finales requieren de


clculos analticos avanzados, anlisis secuenciales, anlisis comparativos y
acceso consistente a datos sumarizados y detallados. Utilizar una herramienta
SQL en un ambiente cliente/servidor puede, en ocasiones, ser imprctico o
incluso imposible. EL DBMS debe proveer un conjunto completo de operaciones
analticas, incluyendo operaciones secuenciales y estadsticas.

1.11 Seleccin de hardware


Los procedimientos de transformacin de datos y construccin de cubos, son altamente
consumidores de memoria y procesamiento, a menos de que se trate de un proyecto
muy pequeo, donde se dedican recursos de hardware bajo los siguientes criterios:

26

Los servicios de transformacin de datos y OLAP son aplicaciones multihilo


(multithreaded applications), lo que implica que corrern ms rpido en
mquinas con mltiples procesadores.

Las consultas respondern en tiempos cortos, si la informacin a la que se accede


se encuentra en cach.

El espacio de almacenamiento se necesita para el almacn central (data staging


area), los data marts y los cubos; de manera que si el espacio y los tiempos de
procesamiento se encuentran disponibles, un mayor nmero de agregaciones puede
crearse, lo que incrementa la velocidad de consulta para los usuarios finales.

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Hardware para el almacenamiento de respaldos.

Si se tienen ms de 100 GB de informacin, posiblemente pueda ser una opcin


almacenar algunos de los datos ms antiguos o menos utilizados en un sistema
de almacenamiento ms econmico.

1.12 Seguridad
El objetivo de un Data Warehouse es el de obtener informacin para usuarios de todas
las reas de negocio y como tal, las cuestiones de seguridad implican un alto riesgo. Lo
anterior se debe a que los administradores de bases de datos pueden restringir permisos
de acceso, adems de la informacin que se necesita o bien, un departamento podra no
estar de acuerdo en que su informacin se encuentre visible a otros.
Un Warehouse debe ser capaz de integrar un gran nmero de requerimientos de
seguridad. Puede tener parte de la informacin que sea visible a todo tipo de usuarios,
otra que sea visible solo para empleados de un departamento y, otra ms que
nicamente est visible para empleados con permisos especiales. La seguridad se
considera con base en los siguientes elementos:

Transformaciones de datos.

Almacenamiento de datos.

Creacin de cubos OLAP.

Acceso a herramientas de consulta de los cubos OLAP.

Almacenamiento de los cubos.

1.13 Aplicaciones
1.13.1 Ventas
OLAP ha sido utilizado para el anlisis de datos de ventas ms que para cualquier otro
propsito, ya que tanto almacenes, como distribuidores y fabricantes, necesitan saber
cules productos son los que venden. La informacin de ventas puede usarse para:

Asegurar la existencia de la cantidad necesaria del producto en todo momento.

Reducir el nivel de mercanca no vendida o regresada.

Administrar canales de distribucin.

Mover mercanca entre zonas, con base en la necesidad.

Analizar tendencias para futuras ventas potenciales.

27

Mary Karina Ruiz Torres

1.13.2 Efectividad de promociones


Otro inters de los vendedores es la medicin en resultados de sus promociones, cuya
efectividad se basa en las siguientes cuestiones:

En qu porcentaje se vendi el producto antes, durante y despus de la


promocin?

Tuvieron las promociones un efecto positivo o negativo en la venta de algn otro


producto?

Cul fue el beneficio econmico positivo de la promocin en comparacin con


sus costos?

Cmo se comparan los resultados de esta promocin con otras promociones?


1.13.3 Anlisis de clientes

Por lo general, la informacin del cliente se recopila con propsitos de conocimiento de


perfiles (segmentacin de mercado), es decir, permite determinar cules grupos
demogrficos respondern de mejor manera a los esfuerzos de mercadotecnia por
realizarse. La informacin del cliente que podra considerarse valiosa incluye:

Rango de ingresos.

Ocupacin.

Estado civil.

Nmero de hijos.

Edad.

Sexo.

Ubicacin geogrfica.

Nivel de educacin.

Comportamiento previo de compras.

Toda esta informacin es til, pero lo primero que un negocio debe determinar es,
quines son sus clientes ms frecuentes? Existen muchas empresas que almacenan los
nombres y direcciones de sus clientes, pero que nunca utilizan esa informacin para
algn tipo de anlisis. Por ejemplo, si se desconoce el nivel de ingreso de un cliente, pero
se conoce su direccin, puede hacerse un tipo de anlisis basndose en el ingreso
promedio de la gente que vive en un rea geogrfica particular.
Otro punto importante es el grado de satisfaccin del cliente. El anlisis OLAP permite
identificar patrones tanto de satisfaccin como de insatisfaccin. Informacin acerca de

28

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

mercanca que es devuelta y las quejas recibidas puede capturarse y organizarse para su
anlisis. Esta informacin puede ser valiosa, vista desde las siguientes dimensiones:

Producto, lnea de producto y manufactura.

Tiempo (Las quejas se incrementan o disminuyen cuando son vistas a travs de


distintos periodos?).

Ubicacin de almacenes.

Vendedores.

Descripcin demogrfica del cliente.

De esta forma, es posible clasificar las quejas o devoluciones dentro de varias categoras
de problemas. Si un tipo particular de problema es recurrente, un conjunto de problemas
pueden ser atendidos al mismo tiempo. Adems, es importante mantener detalles
individuales de cada queja, de manera que el analista puede ver en detalle lo que dicen
los clientes con este tipo de queja en particular.
Ahora bien, para las compaas de servicios financieros o bancarios, el mayor beneficio
se da cuando se mantiene la lealtad del cliente. Uno de los retos de estas compaas es
identificar qu cuentas representan al mismo cliente. Una familia puede tener diversas
cuentas registradas con diferentes nombres, pero lo que es ms importante para un
banco es reconocer las cuentas que pertenecen a una misma familia, debido a que
desean enfocar sus esfuerzos de lealtad del cliente a nivel familiar.
Muchas compaas de servicios financieros creen que la estrategia ms efectiva para
impulsar la lealtad del cliente es hacer de cada familia, un cliente mltiple. Diferentes
estudios han demostrado que la gente est menos dispuesta a cambiar de banco, si tienen
dos o ms cuentas en una institucin. De manera adicional, este tipo de instituciones utiliza
informacin demogrfica e informacin actual de la cuenta, con la finalidad de determinar
cules servicios adicionales podran necesitarse, de forma que pueden dirigirse estrategias de
mercado para convertir una cuenta nica en cuentas mltiples.
1.13.4 Anlisis por regiones geogrficas
El anlisis OLAP puede usarse para apoyar a los distribuidores interesados en responder
cuestiones crticas acerca de ubicaciones. Por ejemplo:

Cules sucursales son ms rentables?

Qu factores son los ms importantes a considerar en la construccin de futuras


sucursales?

Qu tiendas se han convertido en ms o menos redituables?

Cmo afecta la ubicacin de un local las ventas de un producto en particular o


una lnea de producto?

29

Mary Karina Ruiz Torres

Los distribuidores siempre han reconocido el beneficio de posicionar un producto en un


lugar estratgico y poner otros cerca de ste.
1.13.5 Actividades gerenciales (administrativas)
Muchos negocios solo son redituables cuando operan a su mayor capacidad o algo
cercano a esto, como ejemplos de ello estn las aerolneas y hoteles, que pierden su
valor rpidamente si en parte no son ocupados. Todas las compaas emplean diversas
estrategias de mercadotecnia para asegurar que alcanzarn su ms alto nivel de uso.
El anlisis OLAP puede apoyar a las compaas en el alcance de dichos objetivos. Los
factores que afectan su capacidad pueden ser monitoreados y analizados. Pueden
realizarse comparaciones entre periodos similares; las tendencias pueden marcarse con
anticipacin de manera que los precios pueden elevarse o disminuirse y las estrategias de
mercado pueden modificarse de forma apropiada.
Los anlisis OLAP posteriores pueden llevarse a cabo sobre estrategias de mercado
particulares, con la finalidad de determinar cules son las ms efectivas y redituables.
1.13.6 Inventarios
El anlisis OLAP apoya el manejo de factores crticos que permiten una administracin
adecuada del inventario:

La cantidad de producto disponible en cada local.

Qu tan rpido es utilizado el producto?

Cunto tiempo ms tomar abastecer el producto?

Cunto tiempo tomar mover el producto de una ubicacin a otra?

Medir la velocidad del inventario (qu tan rpido se mueve el inventario en el


sistema de Data Warehouse).

El costo de almacenar el producto en el almacn.

El sistema OLAP permite llevar una secuencia de los productos en el almacn y, por otro
lado, define el espacio disponible en ste para que los productos puedan almacenarse y
distribuirse de forma tal que traigan el mayor beneficio al negocio.
1.13.7 Costos en procesos de fabricacin
Uno de los puntos de inters donde el OLAP puede resultar de ayuda para los fabricantes
tiene que ver con el control de inventarios mencionado en el prrafo anterior, y un
segundo punto relevante, es el anlisis de costos en el proceso de fabricacin.

30

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Si una compaa fabrica un producto en diferentes plantas o lneas dentro de una planta,
la entrada y salida para cada unidad de produccin puede examinarse y compararse. La
produccin puede compararse por varios factores de tiempo (el ao pasado contra el
ao actual, el mes pasado contra el actual, etctera), de manera que la produccin
puede ser comparada incluso, cuando individuos o diferentes grupos de individuos se
encuentren trabajando.
Si la compaa emplea un sistema de costeo, donde cada tiempo por individuo y por
mquina se agrega al costo del producto, entonces el OLAP puede usarse para
comparar la ganancia relativa de diferentes productos y procesos de manufactura.

1.14 Bases de datos para Data Warehousing


A continuacin, se presenta una lista de bases de datos que cumplen con las
caractersticas necesarias para el desarrollo del Data Warehouse y sistemas de apoyo en
la toma de decisiones.
Herramienta

Proveedor

Direccin

Alterian Nucleus

Alterian Limited

www.alterian.com

Analysis Engine

Aleri

www.aleri.com

Broadbase EPM

Broadbase Information Systems

www.broadbase.com

DB2

IBM

www.software.ibm.com/data/db
2/index.html

DEX

New York Software Company

www.nysco.co.uk

D3

Pick Systems

www.picksys.com

FAME Database

Fame Information Services

www.fame.com

GeneXus

ARTech

www.genexus.com/main/hmain.
aspx

Hilbert Engine

InMentia Technology

www.inmentia.com

HiRDB

Hitachi

www.hicam.hitachi.com

HOPS

HOPS International

www.hops.com

Informix Dynamic Server

Informix

www.informix.com

Ingres II

Computer Associates

www.cai.com

Intelligent Exploration

Synera

www.synerasystems.com

JS

ORI Software

www.orisoftware.com

Kdb

Kx Systems

www.kx.com

Linter

RelexUS

www.relexus.com

MaxScan

MaxScan

www.maxscan.com

31

Mary Karina Ruiz Torres

Herramienta

Proveedor

Direccin

meta5

Meta5

www.meta5.com

Microsoft SQL Server

Microsoft

www.microsoft.com/sql/

Mimer

Sysdeco Mimer AB

www.mimer.com

Model 204

Computer Corporation of America

www.cca-int.com

MPbase

Open Sky Technologies

www.openskytech.com

MSM

Micronetics

www.micronetics.com

Netezza Performance
Server

Netezza

NGram Transform-DB

Triada

www.triada.com

Nucleus Server

Sand Technology Systems

www.sandtechnology.com

Oracle 9i

Oracle

www.oracle.com

Polyhedra

Polyhedra

www.polyhedra.com

Rapid

Automsoft International

www.automsoft.com/index.html

Red Brick Warehouse

Informix

www.informix.com

Sahara

Integrix

www.integrix.co.uk

SAS Software

SAS

www.sas.com

Seisnt

Seisnt

www.seisnt.com

Sentences

Lazy Software

www.lazysoft.com

StorHouse/RM

FileTek

www.filetek.com

Sybase Adaptive Server,


Adaptive Server IQ

Sybase

SymfoWARE Server

Fujitsu

www.symfoware.com

Tamino

Software AG

www.softwareag.com

Teradata DBS

NCR

www.teradata.com

Thunderbolt VLDB

WhamTech

www.whamtech.com

Time Machine

Data Management Technologies


Inc.

www.dmtech.com

TimeCube

TimeCube

www.timecubeinc.com

TimesTen Data Manager

TimesTen Performance Software

www.timesten.com

Titanium

Micro Data Base Systems, Inc.

www.mdbs.com

Vision

Innovative Systems Techniques,


Inc.

www.insytenet.com

Visual Dimension

VisualMetrics Corporation

www.visualmetrics.com

WIDAS

MSI AG

www.widas.com

32

www.netezza.com

www.sybase.com

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

CAPTULO
Minera de datos
2.1 Definicin
Las dos dcadas pasadas han visto un aumento dramtico en la cantidad de informacin
o datos almacenados en formato electrnico. Esta acumulacin de datos ha tenido lugar
a un nivel explosivo. Se estima que la cantidad de informacin en el mundo se duplica
cada 20 meses, y el tamao y nmero de bases de datos crecen aun ms rpido. Los
dispositivos que permiten el acceso remoto han contribuido al aumento en el uso de
datos electrnicos.

Ilustracin 12. Crecimiento de la informacin.

El almacenamiento de datos lleg a ser ms fcil conforme descenda el costo en el


poder de procesamiento y almacenamiento, lo que haca el dato barato. Tambin
influyeron la introduccin de nuevos mtodos para la representacin del conocimiento
basado en la lgica de programacin, junto con el anlisis de datos estadstico

33

Mary Karina Ruiz Torres

tradicional. Los nuevos mtodos tienden a ser computacionalmente ms demandantes de


poder de procesamiento.
Los algoritmos de minera de datos comprenden tcnicas que han existido al menos por
10 aos, pero han sido implementadas recientemente como herramientas maduras,
redituables y entendibles que utilizan este tipo de mtodos estadsticos.
Ao
Coleccin de
datos
(1960s)
Acceso a datos
(1980s)

Data
Warehousing &
Soporte a la
toma de
decisiones
(1990s)
Minera de datos
(Actualmente)

Pregunta de
negocio

Tecnologas

Proveedores

Caractersticas

Cul fue mi
ganancia total
en los ltimos 5
aos?

Computadoras,
cintas, discos.

IBM, CDC.

Retrospectiva,
entrega de datos
esttica.

Cuntas fueron
las unidades
vendidas en el
Nuevo Len en
marzo pasado?

Bases de datos
relacionales
(RDBMS),
Lenguaje de
consulta
estructurado
(SQL), ODBC.

Oracle, Sybase,
Informix, IBM,
Microsoft.

Retrospectiva,
entrega de datos
dinmica a nivel
de registros.

Cules fueron
las unidades
vendidas en
Nuevo Len en
marzo pasado
con respecto a
Monterrey
nicamente?

Procesamiento
analtico en lnea
(OLAP), bases de
datos
multidimensional
es, Data
Warehouses.

Pilot, Comshare,
Arbor, Cognos,
Microstrategy.

Retrospectiva,
entrega de datos
dinmica a
mltiples niveles.

Cules podran
ser las unidades
vendidas en
Nuevo Len
para el siguiente
mes? Por qu?

Algoritmos
avanzados,
multiprocesamie
nto, bases de
datos masivas.

Pilot, Lockheed,
IBM, SGI,
numerosas
empresas
nuevas.

Prospectiva,
entrega de
informacin
preactiva.

Ilustracin 13. Evolucin de la minera de datos.

Ahora bien, habindose concentrado en la acumulacin de datos, el siguiente problema


de enfoque es: qu hacer con este valioso recurso? Sin duda, uno de los usos
principales que puede darse a la informacin es apoyar la operacin del negocio y dar a
los tomadores de decisiones una opcin de gran valor para ganar conocimiento del
negocio y su entorno. Los Sistemas Manejadores de Bases de Datos (DBMS) dieron
acceso a los datos almacenados, pero sta es solo una pequea parte de lo que puede
ganarse a travs de los datos; los sistemas tradicionales de procesamiento en lnea
(OLTP) estn diseados para insertar datos en las bases de datos rpida, segura y de
forma eficiente, pero no son buenos para la entrega de anlisis significativos.

34

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

El anlisis de datos puede proveer conocimiento adicional acerca del negocio, yendo
ms all de los datos explcitamente almacenados que derivan en conocimiento del
negocio. Aqu es donde la minera de datos o descubrimiento del conocimiento en bases
de datos (KDD Knowledge Discovery in Databases) tiene beneficios obvios para
cualquier empresa.
El trmino minera de datos ha sido llevado ms all de sus lmites para aplicar a
cualquier forma de anlisis de datos. Algunas de las numerosas definiciones de minera
de datos son:

Minera de datos o descubrimiento del conocimiento en bases de datos (KDD,)


como tambin se le conoce, es la extraccin no trivial de informacin
potencialmente utilizable y previamente desconocida. Esto comprende un nmero
de diferentes enfoques tcnicos tales como agrupaciones (clustering),
sumarizacin de datos, clasificacin de reglas de aprendizaje, anlisis de cambios
y deteccin de anomalas. [William J Frawley, Gregory Piatetsky-Shapiro and
Christopher J Matheus].

Minera de datos es la bsqueda de relaciones y patrones globales que existen en


grandes bases de datos pero que se encuentran escondidas entre grandes
cantidades de datos; tal como una relacin entre datos del paciente y su
diagnstico mdico, esta relacin representa conocimiento valioso acerca de la
base de datos y los objetos en ella. [Marcel Holshemier & Arno Siebes (1994)].

La analoga con el proceso de minera se describe de la siguiente manera:


Minera de datos se refiere al uso de un conjunto de tcnicas para identificar trozos de
informacin o conocimiento para la toma de decisiones en grupos de datos y extraer los
mismos, de forma tal que puedan ser puestos en uso en reas tales como apoyo a la toma de
decisiones, prediccin y estimacin. Los datos a menudo son voluminosos, pero como muchos
de ellos tienen un valor bajo y no se puede hacer uso directo de ellos, es la informacin
escondida en los datos la que es til. [Clementine User Guide, a data mining toolkit].
Bsicamente, la minera de datos se preocupa por el anlisis de datos y el uso de tcnicas de
software para encontrar patrones y regularidades en conjuntos de datos. La computadora es
la responsable de ubicar los patrones, mediante la identificacin de reglas subyacentes y
caractersticas en los datos. La idea es que es posible encontrar informacin valiosa en
lugares insospechados, conforme el software de minera de datos extrae patrones no
discernidos previamente o tan obvios que nadie los haba notado antes.
Las mejores tcnicas de minera de datos son aqullas desarrolladas con una orientacin
hacia grandes volmenes de datos, haciendo uso de la mayor cantidad de datos posible
para llegar a las conclusiones y decisiones confiables. El proceso de anlisis, inicia con
un conjunto de datos, utiliza una metodologa para desarrollar una representacin
ptima de la estructura de datos, durante la cual se adquiere conocimiento del tiempo.
Una vez que el conocimiento se adquiere, puede extenderse a grandes conjuntos de
datos asumiendo que stos tienen una estructura similar a los datos muestra tomados.

35

Mary Karina Ruiz Torres

El siguiente diagrama resume algunos de los procesos/etapas identificados en la minera


de datos y descubrimiento del conocimiento: [Usama Fayyad & Evangelos Simoudis]
Evaluacin
Minera de Datos
Conocimiento
Transformacin

Preprocesamiento

Patrones

Datos
Transformados

Seleccin

Datos

Datos
Preprocesados
Datos
Objetivo

Ilustracin 14. Fases de la minera de datos.

Las fases que se muestran inician con los datos crudos y terminan con la extraccin del
conocimiento que se ha adquirido como resultado de las siguientes etapas:

36

Seleccin. Elegir o segmentar los datos de acuerdo con los criterios establecidos,
por ejemplo, todas las personas que poseen un auto forman un subconjunto de
datos que puede definirse.

Preprocesamiento. Esta es la fase de limpieza de datos, por lo que se elimina


aquella informacin que se considera innecesaria ya que puede hacer ms lentas
las consultas, por ejemplo, es innecesario anotar el sexo de un paciente cuando
se estudia el embarazo. Adems, los datos son reconfigurados para asegurar un
formato consistente ya que provienen de diversas fuentes. Por ejemplo, el sexo
puede guardarse como M o F o bien como 0 o 1.

Transformacin. El dato no es simplemente transferido a lo largo del proceso,


sino que se transforma de manera que pueda ser utilizable y navegable.

Minera de datos. Esta etapa est relacionada con la extraccin de patrones a


partir de los datos. Un patrn puede definirse como un conjunto de hechos
(datos) F, un lenguaje L y algunas medidas de certeza C. De esta manera, un
patrn es una sentencia S en L que describe relaciones entre un subconjunto Fs

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

de F con una certeza C, de manera que S es ms simple que la enumeracin de


todos los hechos en Fs.

Interpretacin y evaluacin. Los patrones identificados por el sistema son


interpretados en conocimiento, que se puede usar como apoyo en la toma de
decisiones, prediccin y clasificacin de tareas, sumarizacin del contenido de
una base de datos o al explicar el fenmeno observado.

2.2 Campos de investigacin precedentes


La minera de datos ha aprovechado otros campos de investigacin como son el
aprendizaje inductivo, mquinas de aprendizaje y estadsticas, entre otros.
2.2.1 Aprendizaje inductivo
Induccin es la inferencia de informacin a partir de datos y el aprendizaje inductivo es el
proceso de construir modelos donde el ambiente es analizado con el objeto de encontrar
patrones. Los objetos similares son agrupados en clases, y se formulan reglas a travs de
las cuales es posible predecir las clases de objetos no vistos. Este proceso de clasificacin
identifica clases, de manera que cada una tiene un patrn especfico de valores que
forma la descripcin de la clase. La naturaleza del ambiente es dinmica ya que en
adelante el modelo debe ser adaptativo, es decir, debe ser capaz de aprender.
Por lo general, solo es posible utilizar un pequeo nmero de propiedades para caracterizar
objetos, de forma que hacemos abstracciones en aquellos que satisfacen el mismo
subconjunto de propiedades y que son mapeados a la misma representacin interna.
El aprendizaje inductivo, donde el sistema infiere conocimiento a partir de la observacin
de su ambiente, tiene dos estrategias principales:

Aprendizaje supervisado. Se realiza a partir de ejemplos, un profesor ayuda al


sistema a construir un modelo mediante la definicin de clases y proveyendo
ejemplos de cada clase. El sistema tiene que encontrar una descripcin de cada
clase, as como las propiedades comunes en los ejemplos. Una vez que la
descripcin se formula, tanto sta como la clase forman una regla que podr
usarse para predecir la clase de objetos no vistos con anterioridad.

Aprendizaje no supervisado. Se lleva a cabo considerando la observacin y el


descubrimiento. El sistema de minado de datos es alimentado con objetos, pero
no se definen clases, de manera que se tienen que observar los ejemplos y
reconocer patrones por s mismo. De este sistema resulta un conjunto de
descripciones de clases, uno para cada clase descubierta en el ambiente.

La induccin es, por lo tanto, la extraccin de patrones. La calidad del modelo producido por
los mtodos de aprendizaje inductivo es tal, que puede emplearse para predecir la venida de
situaciones futuras, en otras palabras, no slo para definir estatus encontrados sino los nunca
vistos que pueden ocurrir. El problema es que la mayora de los ambientes tienen diferentes

37

Mary Karina Ruiz Torres

estatus (cambios internos), y no siempre es posible verificar un modelo mediante la revisin


de todas las situaciones posibles. Dando un conjunto de ejemplos, el sistema puede construir
mltiples modelos, algunos de los cuales sern ms simples que otros.
2.2.2 Estadsticas
Las estadsticas tienen un fundamento terico slido, aunque los resultados pueden ser
abrumadores y difciles de interpretar conforme requieren gua por parte del usuario y la
manera en que analizan los datos. La minera de datos, sin embargo, permite que el
conocimiento del experto y las tcnicas avanzadas de anlisis en la computadora
trabajen juntas.
Los sistemas de anlisis estadsticos, tales como SAS y SPSS, se han usado por el analista
para detectar patrones inusuales y explicar patrones mediante modelos estadsticos como
los lineales. Las estadsticas tienen un papel que jugar y la minera de datos no
remplazar tales anlisis pero, en vez de ello, pueden actuar sobre anlisis ms directos
basados en los resultados de la minera de datos.
2.2.3 Mquinas de aprendizaje
La mquina de aprendizaje es la automatizacin de un proceso de aprendizaje, equivalente a
la construccin de reglas basadas en observaciones de los diferentes estatus y transiciones.
Este es un campo que incluye no slo el aprendizaje a partir de ejemplos, sino tambin el que
est reforzado con un profesor. Un algoritmo de aprendizaje toma el conjunto de datos y
su informacin relacionada como entrada y regresa una sentencia, en este caso un concepto
y muestra los resultados del aprendizaje. Una mquina de aprendizaje examina los ejemplos
previos y sus resultados, con la finalidad de aprender la manera de reproducirlos y hacer
generalizaciones acerca de nuevos casos.
Por lo general, un sistema de este tipo no utiliza observaciones simples de su ambiente sino
un conjunto completo y finito llamado el conjunto de entrenamiento, que contiene ejemplos y
debe ser finito, ya que no todos los conceptos pueden aprenderse con exactitud.
2.2.4 Diferencias entre minera de datos y mquinas de aprendizaje
La minera de datos y las mquinas de aprendizaje se complementan en los algoritmos
utilizados y los problemas en los que se enfocan. Las principales diferencias son:

38

La minera de datos se enfoca en el encuentro de conocimiento entendible,


mientras las mquinas de aprendizaje en el mejoramiento del rendimiento de un
agente. As, entrenar una red neuronal para equilibrar un polo es parte de la
mquina de aprendizaje, pero no de la minera de datos. Sin embargo, existen
esfuerzos para extraer conocimiento de las redes neuronales que son muy
relevantes para la minera de datos.

La minera de datos trabaja con grandes bases de datos, mientras que una
mquina de aprendizaje, la mayora de las veces (no siempre), busca en

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

conjuntos pequeos de datos, en ese sentido, las preguntas de eficiencia son


mucho ms importantes en la minera de datos.

La mquina de aprendizaje tiene un amplio campo que incluye, no slo el


aprendizaje a partir de ejemplos, sino tambin el reforzamiento del aprendizaje
con un profesor.

La minera de datos es parte de la mquina de aprendizaje, cuyo objetivo es encontrar


conocimiento entendible en grandes conjuntos de ejemplos del mundo real. Cuando se
integran tcnicas de las mquinas de aprendizaje a los sistemas de bases de datos para
implementar minera de datos, estas bases de datos requieren:

Algoritmos ms eficientes de aprendizaje, debido a que las bases de datos


normalmente son muy grandes y confusas. Es comn que la base de datos sea
diseada para propsitos diferentes a la minera de datos, de manera que las
propiedades o atributos que pudieran simplificar la tarea de aprendizaje no estn
presentes y tampoco pueden ser requeridas del exterior. Las bases de datos
normalmente son contaminadas con errores, de manera que el algoritmo de minera
de datos tiene que lidiar con basura mientras que la mquina de aprendizaje tiene
un tipo de laboratorio con ejemplos que son lo ms perfectos posibles.

Un mayor nmero de representaciones expresivas para ambos datos: las tuplas


en las bases de datos relacionales (las cuales representan instancias de un
problema de dominio) y reglas en un sistema basado en reglas, las cuales pueden
usarse para resolver problemas de usuarios en el dominio.

Se espera que los sistemas de minera de datos incluyan tres fases interconectadas:

La traduccin de informacin estndar de la base de datos en una forma


adecuada para emplearla en el aprendizaje.

El uso de las tcnicas de las mquinas de aprendizaje para producir bases de


conocimiento a partir de las bases de datos.

Interpretar el conocimiento producido para la solucin de problemas y/o reducir


espacios de datos, siendo stos ltimos el nmero de ejemplos.

2.3 Modelos de minera de datos


IBM ha identificado dos tipos de modelos o modos de operacin que pueden utilizarse
para desenterrar informacin de inters para el usuario.
2.3.1 Modelo de verificacin
El modelo de verificacin toma una hiptesis del usuario y prueba su validez contra los
datos. El nfasis se da con el usuario responsable de formular la hiptesis y emitir la
consulta sobre los datos para afirmar o negar la hiptesis. En una divisin de
mercadotecnia, por ejemplo, con un presupuesto limitado para una campaa de correo

39

Mary Karina Ruiz Torres

destinada a lanzar un nuevo producto sera importante identificar la seccin de la


poblacin con mayor tendencia a comprar el nuevo producto.
El usuario formula una hiptesis para identificar clientes potenciales y las caractersticas
que stos comparten. Los datos histricos acerca de las compras de los clientes y la
informacin demogrfica pueden consultarse para obtener datos comparables y las
caractersticas compartidas por aquellos compradores que, en su momento, pueden
usarse como objetivo de la campaa. La operacin completa puede refinarse por una
bsqueda ms detallada (drill down), de manera que la hiptesis reduce el conjunto,
continuando hasta llegar al lmite requerido.
El problema con este modelo es el hecho de que no se crea nueva informacin en el proceso
de recuperacin pero, en su lugar, las consultas siempre regresarn registros para verificar o
negar la hiptesis. El proceso de bsqueda es iterativo, la salida es revisada y un nuevo
conjunto de consultas o hiptesis pueden formularse para refinar la bsqueda y el proceso
completo se repite. El usuario va descubriendo los hechos acerca de los datos mediante una
variedad de tcnicas como las consultas, el anlisis multidimensional y la visualizacin que
permiten guiar la exploracin de los datos analizados.
2.3.2 Modelo de descubrimiento
En este modelo, el sistema descubre de manera automtica la informacin escondida en
los datos. El dato se refina en la bsqueda de patrones cuya ocurrencia es frecuente,
tendencias y generalizaciones acerca de los datos sin intervencin o gua por parte del
usuario. Las herramientas de minera de datos tienden a revelar grandes nmeros de
hechos acerca de los datos en el menor tiempo posible. Un ejemplo de este tipo de
modelo es una base de datos que es minada para descubrir los grupos de clientes a
quienes se orientar una campaa de mercadotecnia. Los datos se buscan sin ninguna
hiptesis, de manera que el sistema agrupe a los clientes de acuerdo con las
caractersticas comunes que ha encontrado.

2.4 Problemas de la minera de datos


Cuando los sistemas de minera de datos se alimentan de sistemas operacionales, surgen
problemas debido a que este tipo de sistemas tienden a ser dinmicos, incompletos y
grandes. Otros problemas surgen como resultado de la suficiencia y relevancia de la
informacin almacenada.
2.4.1 Informacin limitada
A menudo, una base de datos es diseada con diferentes propsitos a la minera de
datos y, en ocasiones, las propiedades o atributos que podran simplificar la tarea de
aprendizaje no estn presentes o no pueden obtenerse del mundo real. Los datos
inconclusos causan problemas debido a que si algunos atributos esenciales para el
conocimiento acerca del dominio de la aplicacin no estn presentes en los datos, esto

40

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

puede hacer imposible el descubrimiento de conocimiento significativo acerca de cierto


tema de estudio. Por ejemplo, no puede diagnosticarse malaria en una base de datos de
pacientes, cuando no contiene el conteo de clulas rojas en la sangre de los pacientes.
2.4.2 Valores faltantes y ruido
Las bases de datos generalmente son contaminadas por errores, por lo que no puede
asumirse que los datos que contienen son completamente correctos. Los atributos que
representan juicios subjetivos pueden originar errores, de manera que algunos ejemplos
pueden clasificarse de forma errnea. Los errores en valores de atributos son conocidos
como ruido. Obviamente, cuando sea posible, es deseable eliminar ese ruido de la
informacin clasificada conforme afecta la exactitud de las reglas generadas.
La informacin faltante puede tratarse por sistemas de descubrimiento en las siguientes
formas:

Ignorar los valores faltantes.

Omitir los registros correspondientes.

Inferir la informacin faltante a partir de valores conocidos.

Tratar los valores faltantes como un valor especial para incluirlos en el dominio.

Prorratear los valores faltantes.

Los datos ruidosos, en el sentido de ser imprecisos, son una caracterstica de todas las
colecciones de datos y, generalmente, caen dentro de una distribucin estadstica tal
como la de Gauss, mientras los valores faltantes son entradas completamente errneas.
Los mtodos estadsticos pueden tratar problemas de datos ruidosos y separarlos
dependiendo del tipo de ruido.
2.4.3 Incertidumbre
La incertidumbre se refiere a la severidad del error en el nivel de ruido en los datos. La
precisin es una consideracin importante en el sistema de descubrimiento de informacin.
Tamao, actualizaciones y campos irrelevantes
Las bases de datos tienden a ser grandes y dinmicas en el sentido de que su contenido
cambia de manera constante conforme se agrega, modifica o elimina informacin. Desde la
perspectiva de la minera de datos el problema es cmo asegurar que las reglas estn al da
y sean consistentes con la mayora de la informacin actual. Adems, el sistema de
aprendizaje debe ser sensitivo al tiempo conforme los datos varen en el transcurso del
tiempo, ya que el sistema de descubrimiento es afectado por la puntualidad de los datos.
Otro factor es la relevancia o irrelevancia de los campos en la base de datos para el
objetivo de descubrimiento, por ejemplo, los cdigos postales son fundamentales para

41

Mary Karina Ruiz Torres

cualquier estudio que intenta establecer una conexin geogrfica con un elemento de
inters como ocurre con las ventas de un producto.

2.5 Usuarios de la minera de datos


Los usuarios clave en perspectiva de la minera de datos son los analistas empresariales,
los peritos en estadstica y los profesionales en tecnologa de la informacin que auxilian
a los analistas. Quienes obtienen beneficios de los resultados de minera de datos son,
por ejemplo, los analistas de negocio que desean entender los factores de xito del
negocio, con base en datos completos del cliente y utilizan posteriormente este
conocimiento para afinar las estrategias de produccin, precios y comercializacin;
mejorar el nivel de xito de las estrategias e impulsar el balance.
Conducida por el
analista

Auxiliada por el
analista

Procesamiento
informtico

Procesamiento
analtico

Consultas

OLAP MDDBMS

Reportes

OLAP Relacional

Conducida por los


datos

Anlisis estadstico
de datos

Descubrimiento de
conocimiento

Ilustracin 15. Funcin del analista de negocio y de los datos.

Hasta hace poco, las empresas dependan del procesamiento informtico y analtico para
medir y comprender la estabilidad de un negocio. El procesamiento informtico
(consultas y reportes) es ms sencillo de usar pero requiere de una estrecha direccin de
los analistas, quienes preguntan cuestiones especficas y verifican las cuestiones o
hiptesis con los datos. Para este fin, los datos deben estar bien organizados. El
procesamiento analtico (OLAP) requiere de menos direccin del analista, aunque los
datos deben organizarse de una forma especial (base de datos multidimensional). En
ocasiones, se utiliza una combinacin de tcnicas de consulta y OLAP para comprender
el comportamiento del cliente o construir perfiles de segmentos de mercado; pero el
proceso de aplicar estas tcnicas es conducido, esencialmente, por el analista de
negocio. En estos casos, el proceso tambin se conoce como minera de datos.
La minera de datos auxilia a los analistas de negocio en el procesamiento de
considerables cantidades de informacin para descubrir relaciones insospechadas, como
podran ser entre productos y clientes o patrones de compra de los clientes. La meta es
descubrir revelaciones estratgicas competitivas para controlar la participacin en el
mercado y las utilidades. Los analistas tienen un conjunto de necesidades; la primera es
comprender qu est sucediendo en el negocio, la siguiente es por qu est sucediendo y
la ltima es qu puede hacerse.

42

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

El valor de un anlisis para los gerentes es ms alto cuando se genera una


recomendacin factible, comprender el comportamiento y los pronsticos de clientes y
mercados, y lo que puede hacerse son retos para las tcnicas tradicionales de anlisis.
Las consultas, reportes y anlisis multidimensionales tradicionales se concentran en lo que
sucede y, en menor medida, el porqu. La minera de datos se concentra en llenar la
necesidad de descubrir el porqu, para luego predecir y pronosticar las posibles acciones
con cierto factor de confianza para cada prediccin.
NECESIDADES
EMPRESARIALES
ACCIN?

PORQU

QU?

COMPLEJIDAD

Ilustracin 16. Minera de datos y el apoyo a la toma de decisiones.

2.6 Aplicaciones
La minera de datos tiene muchos y variados campos de aplicacin, algunos de los
cuales se mencionan a continuacin:
2.6.1 Ventas/mercadotecnia

Identificar patrones de compra de los clientes.

Encontrar asociaciones de los clientes por sus caractersticas demogrficas.

Predecir la respuesta a las campaas de mercadotecnia.

Anlisis de la canasta bsica.


2.6.2 Actividades bancarias

Identificar patrones de fraudes en el uso de tarjetas de crdito.

Identificar clientes leales.

Predecir cules clientes podran cambiar de institucin crediticia.

Encontrar relaciones ocultas entre los diferentes indicadores financieros.

Identificar las reglas de negociacin a partir de datos histricos del mercado.

43

Mary Karina Ruiz Torres

2.6.3 Seguros y salud

Anlisis de reclamos, esto es, identificar qu procedimientos mdicos son


reclamados en conjunto.

Predecir qu clientes comprarn nuevas plizas.

Identificar patrones de comportamiento en clientes riesgosos.

Reconocer comportamientos fraudulentos.


2.6.4 Transporte

Determinar la distribucin de horarios entre terminales.

Analizar patrones de carga.


2.6.5 Medicina

Caracterizar el comportamiento de los pacientes para predecir visitas.

Identificar terapias mdicas exitosas para diferentes enfermedades.

2.7 Funciones de la minera de datos


Los mtodos de minera de datos pueden clasificarse por la funcin que realizan o
considerando la clase de aplicacin en que son utilizados. Algunas de las tcnicas
principales empleadas en la minera de datos se describen en esta seccin.
2.7.1 Clasificacin
Las herramientas de minera de datos tienen que inferir un modelo a partir de la base de
datos y, en caso del aprendizaje supervisado, se requiere que el usuario defina una o
ms clases. La base de datos contiene uno o ms atributos que denotan la clase de una
tupla y se les conoce como atributos predichos (predicted attributes) mientras que los
restantes son llamados atributos predecibles (predicting attributes). A la combinacin de
valores para los atributos predichos se le denomina clase.
Cuando se aprenden las reglas de clasificacin, el sistema tiene que encontrar las que predicen
la clase a partir de los atributos predecibles, de manera que lo primero que debe hacer el
usuario es definir las condiciones para cada clase y, entonces, el sistema minero construye
descripciones para las clases. Bsicamente, el sistema debe dar un caso o tupla con ciertos
valores de atributos conocidos con la finalidad de predecir la clase a la que pertenece.
Una vez que las clases son definidas, el sistema debe inferir reglas que gobiernen la
clasificacin, por lo tanto, el sistema debe ser capaz de encontrar la descripcin de cada
clase. Las descripciones deben referirse nicamente a los atributos predecibles del
conjunto de entrenamiento, de manera que los ejemplos positivos deben satisfacer la

44

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

descripcin y no lo contrario. Se dice que una regla es correcta si su descripcin abarca


todos los ejemplos positivos y ninguno de los ejemplos negativos de la clase.
Una regla generalmente se presenta de la siguiente forma: si el lado de la mano
izquierda (LHS Left Hand Side) entonces el lado de la mano derecha (RHS Right Hand
Side), de manera que en todas las instancias donde LHS es verdadero, tambin RHS sea
verdadero, por lo que son muy probables. Las categoras de las reglas son:

Reglas exactas: no permiten excepciones, de manera que cada objeto de LHS


debe ser un elemento de RHS.

Reglas fuertes: permiten algunas excepciones, aunque tienen un lmite definido.

Reglas probabilsticas: relacionan la probabilidad condicional P (RHS|LHS) con la


probabilidad P(RHS).

Reglas de clasificacin: LHS es una condicin suficiente para clasificar objetos


que pertenecen al concepto referido en el RHS.
2.7.2 Asociaciones

Dada una coleccin de elementos y un conjunto de registros, donde cada uno contiene
un nmero de elementos de una coleccin dada, una funcin de asociacin es una
operacin contra este conjunto de registros que regresa afinidades o patrones que existen
entre la coleccin de elementos. Estos patrones pueden expresarse por reglas tales como
72% de todos los registros que contienen elementos A, B y C tambin contienen los
elementos D y E. El porcentaje especfico de ocurrencias (en este caso 72), es llamado
factor de confianza de la regla. Adems, en esta regla, se dice que A, B y C estn en el
lado opuesto de la regla a D y E. Las asociaciones pueden involucrar cualquier nmero
de elementos en diferentes lados de la regla.
Una aplicacin tpica, identificada por IBM, que puede construirse a travs de una
funcin de asociacin es el Anlisis de la Canasta Bsica de Mercado. Aqu es donde un
minorista corre un operador de asociacin sobre el log de transacciones del punto de
venta, que contiene entre otros datos, identificadores de transacciones y de productos. El
conjunto de identificadores de productos listados bajo el mismo identificador de la
transaccin constituye un registro. La salida de la funcin de asociacin es, en este caso,
una lista de afinidades de productos. As, invocando una funcin de asociacin, la
aplicacin de anlisis de la canasta bsica puede determinar afinidades tales como 20%
de las veces que una marca de tostadoras es vendida, los clientes tambin compran
guantes de cocina y aditamentos para cubrir el aparato.
Otro ejemplo del uso de asociaciones es el anlisis de las formas de reclamo ingresadas
por pacientes a una compaa de seguros mdicos. Cada forma de reclamo contiene un
conjunto de procedimientos mdicos que fueron realizados sobre un paciente
determinado durante una visita. Al definirse el conjunto de elementos que estn en la
coleccin de todos los procedimientos mdicos que pueden ser realizados en un paciente
y los registros correspondientes a cada forma de reclamo, la aplicacin puede encontrar,

45

Mary Karina Ruiz Torres

mediante la funcin de asociacin, relaciones entre los procedimientos mdicos que a


menudo se realizan juntos.
2.7.3 Patrones secuenciales/temporales
Las funciones de patrones secuenciales/temporales analizan una coleccin de registros sobre
un periodo determinado, por ejemplo, para identificar tendencias. Si la identidad de un
cliente que hizo una compra es conocida, puede hacerse un anlisis de la coleccin de
registros relacionados con la misma estructura. Los registros son relacionados por la
identificacin de un cliente que hizo compras repetidas, tal situacin es tpica de una
aplicacin de correo donde, por ejemplo, un catlogo del comercio tiene la informacin
para cada cliente del conjunto de productos que el cliente compra en cada orden. Una
funcin de patrones secuencial analizar tales conexiones de registros relacionados y
detectar los patrones que ocurren con mayor frecuencia en el transcurso del tiempo. Un
operador de patrones secuenciales puede adems usarse para descubrir, por ejemplo, el
conjunto de compras que precede con frecuencia a la compra de un horno de microondas.
Las funciones de minera de patrones secuenciales son poderosas y pueden emplearse
para detectar el conjunto de clientes asociados con algunos patrones de clientes
frecuentes. Usar estas funciones, por ejemplo, sobre un conjunto de reclamos de seguro
puede llevar a la identificacin de secuencias de procedimientos mdicos que ocurren
con frecuencia y se aplican a pacientes y, en este sentido, puede ayudar a la
identificacin de buenas prcticas mdicas as como a detectar fraudes.
2.7.4 Agrupacin/segmentacin
La agrupacin y segmentacin son los procesos de creacin de particiones, de manera que
todos los miembros de cada conjunto de la particin son similares de acuerdo con algunas
mtricas. Un grupo es un conjunto de objetos agrupados debido a su similitud o proximidad.
A menudo, los objetos pueden descomponerse en conjuntos de grupos exhaustivos y/o
mutuamente exclusivos. Agrupar de acuerdo con la similitud es una tcnica poderosa y la
llave para ello es traducir algunas medidas intuitivas similares en medidas cuantitativas.
Cuando el aprendizaje no se supervisa, el sistema tiene que descubrir sus propias clases, esto
es, agrupa los datos en la base de datos. El sistema tiene que descubrir subconjuntos de
objetos relacionados en el conjunto de entrenamiento y entonces tiene que encontrar
descripciones que definen cada uno de estos subconjuntos. Un enfoque para la formacin de
grupos consiste en definir reglas que dicten cul elemento debe ser miembro del grupo
basado en el nivel de similitudes existente.

2.8 Tcnicas de minera de datos


2.8.1 Anlisis cluster
En un ambiente de aprendizaje no supervisado, el sistema tiene que descubrir sus propias
clases y una forma de hacerlo es agrupando los datos de la base de datos, tal y como se

46

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

muestra en el siguiente diagrama. El primer paso es descubrir subconjuntos de objetos


relacionados y posteriormente encontrar descripciones D1, D2, D3, etctera, que
describen cada uno de estos subconjuntos.

Ilustracin 17. Anlisis cluster.

La agrupacin y la segmentacin, bsicamente, particionan la base de datos de manera


que cada particin o grupo es similar con base en ciertos criterios o mtricas. Agrupar de
acuerdo con similitudes es un concepto que aparece en varias disciplinas. Si una medida
de similitud se encuentra disponible, existe un nmero de tcnicas para formar los
grupos. La membresa de los grupos puede basarse en el nivel de similitud entre los
miembros y a partir de estas reglas la membresa puede definirse. Otro enfoque permite
construir un conjunto de funciones que midan algunas propiedades de particiones, esto
es, grupos o subconjuntos como funciones de algn parmetro de la particin. Este
ltimo enfoque logra lo que se conoce como particionamiento ptimo.
Muchas aplicaciones de minera de datos emplean el agrupamiento de acuerdo con
similitudes, por ejemplo, para segmentar una base de clientes. La agrupacin donde se
considera la optimizacin de funciones definidas, se utiliza en el anlisis de datos, por
ejemplo, cuando se ajustan las tarifas de seguros, los clientes pueden ser segmentados
con base en un nmero de parmetros y la tarifa ptima alcanzada en la segmentacin.
Agrupacin/segmentacin en bases de datos son los procesos de separacin de
conjuntos de datos en componentes que reflejen un patrn de comportamiento
consistente. Una vez que los patrones son establecidos pueden usarse para dividir datos
en subconjuntos ms entendibles y, adems, proveen subgrupos de una poblacin para
anlisis posteriores, los cuales son importantes cuando se trata con bases de datos de
gran tamao. Por ejemplo, una base de datos puede emplearse para la generacin de
perfiles de mercados objetivo, donde la respuesta a las campaas previas puede utilizarse
para generar un perfil de la gente que respondi y este perfil permite predecir la
respuesta y filtrar las listas de correo de las personas que tendrn una mejor respuesta.
2.8.2 Induccin
Una base de datos es un almacn de informacin, pero lo ms importante es la
informacin que puede ser inferida a partir de sta. Hay dos tcnicas principales de
inferencia disponibles, la induccin y deduccin.

47

Mary Karina Ruiz Torres

La deduccin es una tcnica para inferir informacin que es una consecuencia


lgica de la informacin en la base de datos, por ejemplo, el operador de unin
aplicado a dos tablas relacionales donde la primera trata de empleados y
departamentos, mientras que la segunda de departamentos y gerentes infiere una
relacin entre empleados y gerentes.

La induccin est descrita como la tcnica de inferencia de informacin


generalizada para la base de datos. Se refiere a informacin del ms alto nivel o
conocimiento, ya que es una sentencia general acerca de objetos en una base de
datos, por lo que se buscan patrones dentro de la base de datos.

La induccin se ha utilizado en la minera de datos en las siguientes formas:


2.8.2.1 rboles de decisin
Los rboles de decisin representan el conocimiento de forma simple y pueden clasificar
los ejemplos en un nmero de clases finito, los nodos son etiquetados con nombres de
atributos, las ramas son etiquetadas con los valores posibles para ese atributo y las hojas
son etiquetadas con diferentes clases. Los objetos son clasificados siguiendo una ruta por
el rbol mediante las ramas correspondientes.
El siguiente es un ejemplo de objetos que describen el clima en un tiempo determinado.
Los objetos contienen informacin como perspectiva, humedad, etctera. Algunos objetos
son ejemplos positivos denotados por P y otros son negativos denotados por N. La
clasificacin es, en este caso, la construccin de una estructura de rbol, ilustrada en el
siguiente diagrama que puede usarse para clasificar todos los objetos de forma correcta.

Ilustracin 18. rboles de decisin.

2.8.2.2 Reglas de induccin


Un sistema de minera de datos tiene que inferir un modelo a partir de una base de datos,
esto es, puede especificar clases tales que la base de datos contenga uno o ms atributos
que denotan la clase de una tupla, esto es, los atributos predichos, mientras los restantes son
los predecibles. Las clases pueden, entonces, definirse por la condicin en los atributos, y
cuando esto ocurre el sistema debe ser capaz de inferir las reglas que gobiernan la
clasificacin, en otras palabras, el sistema debe encontrar la descripcin de cada clase.

48

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Las reglas de produccin han sido ampliamente usadas para representar el conocimiento
en sistemas expertos y tienen la ventaja de ser fcilmente interpretadas por expertos
humanos debido a su modularidad, esto es, una regla simple puede entenderse por s
misma y no necesita referencia a otras reglas.
2.8.3 Redes neuronales
Las redes neuronales representan un enfoque computacional que involucra el desarrollo
de estructuras matemticas con la habilidad de aprender. Los mtodos son el resultado
de investigaciones acadmicas que se usan para modelar el aprendizaje del sistema
nervioso. Las redes neuronales tienen la habilidad de derivar significados a partir de
datos complicados e imprecisos, por lo que pueden emplearse para extraer patrones y
detectar tendencias demasiado complejas para ser entendidas por humanos u otras
tcnicas computacionales. Una red neuronal entrenada puede tomarse como un
experto en la categora de informacin que se le ha definido para analizar. Este experto
puede utilizarse para proveer proyecciones dando nuevas situaciones de inters y
preguntas qu pasa si que responder.
Las redes neuronales tienen un campo amplio de aplicacin en problemas de negocios
reales y han sido aplicadas con xito en varias industrias. Desde que las redes neuronales
son mejores para identificar patrones o tendencias en datos, son adecuadas para
necesidades de prediccin o pronstico que incluyen:

Pronstico de ventas.

Control de procesos industriales.

Investigacin de clientes.

Validacin de datos.

Administracin del riesgo.

Y mercadotecnia, entre otras.


Ilustracin 19. Estructura de una red neuronal.

Las redes neuronales usan un conjunto de elementos de procesamiento (o nodos) anlogos a


las neuronas en el cerebro. Estos elementos se encuentran interconectados en una red que
puede identificar patrones en datos, esto es, la red aprende de la experiencia tal y como lo
hace la gente. Esto distingue a las redes neuronales de los programas de cmputo tradicional
que, simplemente, siguen instrucciones en una secuencia fija.
El nivel inferior representa la capa de entrada, en este caso con cinco entradas
etiquetadas de la X1 a X5. Enmedio est algo llamado capa oculta, con un nmero
variable de nodos. sta es la capa oculta que realiza mucho del trabajo de la red. La
capa de salida tiene, en este caso, dos nodos: Z1 y Z2 que representan los valores de
salida que se intentan determinar a partir de las entradas. Por ejemplo, la prediccin en
ventas (la salida) a partir de ventas pasadas, precio y temporada (entrada).

49

Mary Karina Ruiz Torres

Cada nodo en la capa oculta est completamente conectado con las entradas, lo que
significa que lo aprendido en el nodo oculto se basa en todas las entradas juntas. Los
estadsticos sostienen que la red puede recoger las interdependencias en el modelo. El
siguiente diagrama muestra con mayor detalle lo que existe dentro de un nodo oculto.

Ilustracin 20. Interior de un nodo.

De forma sencilla, se realiza una suma ponderada: X1 veces W1 ms X2 veces W2 y as


de forma sucesiva, hasta X5 y W5. Esta suma se lleva a cabo por cada nodo oculto,
adems de que cada nodo de entrada y sus interacciones son representados en la red.
Saber de dnde obtiene la red los pesos que se utilizan en la ponderacin es importante,
aunque es suficiente decir que la red aprende a reducir los errores en la prediccin de
eventos ya conocidos (en la historia).
El problema de las redes neuronales se resume en lo siguiente: han sido utilizadas con xito
para la clasificacin, pero el resultado es visto como una caja negra y la falta de
explicaciones inhibe la confianza, aceptacin y resultados de la aplicacin. Otro problema es
el tiempo de aprendizaje que se vuelve ms largo conforme el volumen de datos aumenta.
Otro ejemplo de red neuronal se resume en el siguiente diagrama, donde se muestra una
red entrenada para identificar el riesgo de cncer a partir de ciertos factores.

Ilustracin 21. Ejemplo de red neuronal.

50

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

2.8.4 Procesamiento analtico en lnea


Una actividad importante en el procesamiento de informacin es cmo procesar grandes
bases de datos, que contienen datos cada vez ms complejos, sin sacrificar tiempos de
respuesta. La arquitectura cliente/servidor ofrece a las organizaciones la oportunidad de
desarrollar servicios especializados, que son optimizados para el manejo de problemas
de informacin especficos. Hasta ahora, las organizaciones han intentado utilizar
RDBMSs para el conjunto completo de aplicaciones de bases de datos.
Sin embargo, en apariencia, existen otras categoras de aplicaciones de bases de datos,
que no son atendidas de manera conveniente por los manejadores de bases de datos
relacionales. Una categora de aplicaciones, comentada en el apartado anterior, es la
llamada OLAP (On-Line Analytical Processing) que se define como de sntesis dinmica,
anlisis y consolidacin de grandes volmenes de datos multidimensionales.

2.9 Herramientas para minera de datos


Estas herramientas fueron especialmente diseadas para identificar las relaciones
significativas existentes entre las variables. Las herramientas son tiles cuando existe un
grupo de posibles relaciones, por ejemplo, una compaa puede tener 200 variables
acerca de cada cliente y esta herramienta ayudar a identificar las relaciones
significativas.
Herramienta

Proveedor

Direccin

Aira

GoDigital

www.godigital.com.br

ALICE dIsoft

Alice

www.alice-soft.com

AnswerTree

SPSS

www.spss.com

AT Sigma Data Chopper

Advanced Technologies

www.atsigma.com

Athena Knowledge Server

Triada

www.triada.com

Atlas

Sofresud

www.sofresud.com

Bayesia Lab

Bayesia

www.bayesia.com

BusinessMiner

Business Objects, Inc.

www.businessobjects.com

Capri

Mine IT Software Ltd

www.mineit.com

Castenada DMS

Girgese

www.girgese.com

CCM Data Correlation Model

Applied Technical Systems

www.apptechsys.com

C5.0

RuleQuest Research

www.rulequest.com

Clementine

SPSS

www.spss.com

Clustan

Clustan Ltd.

www.clustan.com

D-Miner

Dialogis

www.dialogis.com

Data Mining Components

Numerical Algorithms Group

www.nag.com

DataBase Mining Marksman

HNC Software Inc.

www.hncs.com

DataDetective

Sentient Machine Research

www.smr.nl

DataEngine

MIT GmbH

www.mitgmbh.de

51

Mary Karina Ruiz Torres

Herramienta

Proveedor

Direccin

DataLogic/R

REDUCT & Lobbe Technologies Inc.

ourworld.compuserve.com/ho
mepages/reduct/

DataMite

Logic Programming Associates

www.lpa.co.uk

DataX

Zaptron

www.zaptron.com

DBMiner

DBMiner Technology

www.dbminer.com

Decision Force

Pro-Action

www.proaction.gr

Decision List Learner

Schenley Park Research

www.schenley.com

Decision Series

Accrue Software

www.accrue.com

Enterprise Miner

SAS

www.sas.com

Galvano

PMSI

www.pmsi.fr

Genio Miner

Hummingbird Communications

www.hummingbird.com

GhostMiner

FQS Poland

www.fqspl.com.pl

Heatseeker

WhiteCross Systems

www.whitecross.com

iData Analyzer

Information Acumen

www.infoacumen.com

Insightful Miner

Insightful

www.insightful.com

Intellix Analyzer

Intellix

www.intellix.com

Intelligent Miner

IBM

www1.ibmlink.ibm.com

iUnderstand

BioComp Systems

www.biocompsystems.com

Kensington

InforSense

www.inforsense.com

Knowledge Access Suite

Information Discovery

www.datamining.com

Knowledge Miner

Script Software

www.scriptsoftware.com/km

Knowledge STUDIO

ANGOSS Software International

www.angoss.com

kTree Knowledge Suite

Kbase

www.angoss.com

KXEN Components

KXEN

www.kxen.com

MineLogic

Crusader Systems

www.crusader.co.za

ModelMAX Plus

Advanced Software Application

www.asacorp.com

ModelQuest Enterprise

AbTech Corporation

www.abtech.com

NGram Transform-DB

Triada

www.triada.com

Nuggets

Data Mining Technologies, Inc.

www.data-mine.com

ODBCMINE

Intelligent Systems Research

www.intsysr.com

Omega

KiQ

www.kiq.com

Oracle Data Mining Suite

Oracle

www.oracle.com

ORESME

The Galileo Company

www.terraresearch.com

Pattern

Magnify, Inc.

www.magnify.com

PolyAnalyst

Megaputer Intelligence Ltd.

www.megaputer.ru

prudsys Discoverer

Prudential Systems Software GmbH

www.prudsys.com

Rough Set Data Mining System

Sand Technology

www.sandtechnology.com

PV/FutureView

Continuum Software, Inc.

www.continuumsi.com

Scenario

Cognos

www.cognos.com

52

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Herramienta

Proveedor

Direccin

Shih

Shih BVBA

www.shih.be

SmartMiner

GRIMMER Logiciels

www.grimmersoft.com

SphinxVision

ASOC AG

www.asoc.de

SuperQuery

Azmy Thinkware Inc.

www.azmy.com

Syllogic Data Mining Tool

Syllogic

www.syllogic.nl

TeraMiner Stats

NCR

www.ncr.com

ThinkBase

Science in Finance

www.thinkbase.com

To-The-Point

Bennely Software

www.topsoft.com/main/1025/
1487292.asp

VisiRex

CorMac Technologies

www.cormactech.com

watson

Xanalys

www.xanalys.com

WizWhy

WizSoft, Inc.

www.wizsoft.com

Xaffinity

Exclusive Ore

www.exclusiveore.com

Xeno

Infocentricity

www.infocentricity.com

XML Miner

Scientio

www.metadatamining.com

Xpert Rule Analyser, Profiler

Attar Software

www.attar.com

Zoom 'n View

SkyGate Development ApS

www.skygate.dk

53

Mary Karina Ruiz Torres

CAPTULO
Bases de datos inteligentes
3.1 Concepto
Es un sistema manejador de bases de datos (DBMS) que realiza validacin y
procesamiento de datos, que de forma tradicional se ejecuta por programas aplicativos.
La mayora de los DBMSs proveen algn tipo de validacin de datos, por ejemplo:
rechazando fechas invlidas o datos alfanumricos que intentan ser ingresados en
campos de tipo monetario pero, en su mayora, el procesamiento se realiza por
aplicaciones. Sin embargo, no existe un lmite en el monto de procesamiento que puede
efectuarse por una base de datos inteligente, mientras el proceso sea una funcin
estandarizada para los datos.
Una definicin ms simple: base de datos que administra informacin de forma natural,
haciendo que la informacin sea fcil de almacenar, acceder y utilizar.
Se utiliza el trmino informacin en lugar de dato, debido a que este tipo de base de
datos no solo trata con aplicaciones como la administracin de inventarios, sino tambin
con bases de conocimiento, sistemas de descubrimiento automtico, datos textuales,
imgenes, entre otros.
Las bases de datos inteligentes tienen componentes de inteligencia artificial que proveen
ayuda con la operacin intelectual de la bsqueda. Tienen formas de representar el
conocimiento y estn basadas en modelos de redes neuronales 1.

Un modelo que asocia nueva informacin con una similar ya existente.

54

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Algunos autores coinciden en que el futuro de las bases de datos son las bases de datos
inteligentes, donde las que estn orientadas a objetos se incluyen como un subconjunto.
El nfasis en las bases de datos inteligentes se da ms en la informacin que en los datos,
debido a que incluyen no solo aplicaciones tradicionales como la administracin de
inventarios sino que tambin consideran bases de conocimiento, sistemas de
descubrimiento, etctera. Las bases de datos inteligentes proveen un enfoque comn
para el acceso y uso de la informacin en su anlisis y toma de decisiones.
Un sistema de base de datos inteligente tiene como elementos un motor de base de datos
y su modelo. El motor de la base de datos con su modelo de datos deductivo, es el
repositorio que integra aplicaciones y productos a travs de herramientas e interfaz de
usuario de alto nivel.
Los constraints, triggers y procedimientos almacenados son ejemplo de algunas tcnicas
que se usan para implementar bases de datos inteligentes.

3.2 Componentes
Existen tres componentes que hacen a una base de datos inteligente:
1. Inteligencia en herramientas de alto nivel.
2. Inteligencia en la interfaz de usuario.
3. Inteligencia en el motor de la base de datos.
3.2.1 Inteligencia en herramientas de alto nivel
Una de las caractersticas principales de las bases de datos inteligentes es que contienen
una serie de tecnologas que, comnmente, se consideran de forma aislada, esto es, de
forma adicional a las tecnologas integradas dentro de la arquitectura bsica de una
base de datos inteligente, existen otras herramientas de alto nivel que complementan la
funcionalidad de la base de datos. Estas herramientas pueden usarse por los usuarios de
la base de datos y los desarrolladores; proveen un men consistente de varias
herramientas apoyado en el hecho de que cada aplicacin tiene diferentes necesidades y
es innecesario cargar a los usuarios y aplicaciones con herramientas que no requieren.
Como herramientas de alto nivel se distinguen las siguientes:

Herramientas de descubrimiento de conocimiento (knowledge discovery). Esta


categora incluye herramientas para el anlisis de datos, anlisis estadstico y
mquina de aprendizaje. Permiten al usuario descubrir de forma automtica (y en
ocasiones de manera totalmente inesperada) relaciones que existen en una gran
base de datos (VLDB). Por ejemplo, en una base de datos que almacena reportes
de problemas de autos, un fabricante puede descubrir que para un problema
presentado, la razn se encuentra en el cableado. Ahora bien, mediante una
herramienta de aprendizaje llamada IXL, el sistema puede descubrir que un gran

55

Mary Karina Ruiz Torres

nmero de problemas se deben a un error especfico que se ha presentado en


repetidas ocasiones por un operador en el proceso. De esta manera, estas
herramientas descubren relaciones que los usuarios no habran esperado.

Herramientas de integridad de datos y control de calidad. Son necesarias por los


efectos colaterales que conllevan la cantidad y tamao de las bases de datos,
esto hace referencia al hecho de que en las organizaciones cada vez existe una
mayor dependencia hacia los datos almacenados en la bases de datos y, por otro
lado, mientras mayor informacin se almacene y el nmero de bases de datos se
incremente, el riesgo en la aparicin de errores tambin aumenta. Por lo anterior,
la funcin de las herramientas de integridad es detectar de manera automtica
los errores en las bases de datos.

Herramientas de administracin hipermedia. Ofrecen a los desarrolladores y usuarios


la posibilidad de construir sistemas de informacin hipermedia que combinan textos,
datos, imgenes, sonidos, entre otros. Esta categora refleja el hecho de que la
informacin puede expresarse de diferentes maneras y que los mtodos son
necesarios para organizar y acceder estas diferentes formas de informacin.

Herramientas de presentacin y desplegado de datos. Proveen grficos, formas y


otros tipos de presentacin de datos. Aunque esta categora de herramientas est
separada lgicamente de la anterior, en la prctica, las herramientas de
desplegado a menudo sern una extensin de las hipermedia.

Herramientas de apoyo a la toma de decisiones y anlisis de escenarios. Proveen un


tipo especial de administracin, recuperacin y uso de informacin, donde sta
ltima se organiza de manera que apoye las actividades de toma de decisiones.

Herramientas de manejo de formato de datos. Permiten la transformacin de datos


entre diferentes formatos. De esta manera, favorece que los desarrolladores y
administradores de sistemas puedan disear y mantener bases de datos inteligentes.

Herramientas de diseo inteligentes. En el pasado han estado separados el diseo de


bases de datos, diseo de sistemas de informacin y diseo de sistemas expertos, sin
embargo, la integracin de estos tres tipos de diseo es esencial para una base de
datos inteligente. As, estas herramientas le permiten a los desarrolladores disear y
mantener bases de datos inteligentes de una mejor manera.
3.2.2 Inteligencia en la interfaz de usuario

La interfaz de usuario es la parte del sistema con la que el usuario interacta y


normalmente se distinguen dos niveles:

El nivel fsico.

El nivel cognitivo.

El nivel fsico de la interfaz est formado por dispositivos de entrada y salida (por
ejemplo: teclado, mouse, etctera), mientras que el nivel cognitivo lo compone el modelo

56

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

utilizado para presentar la informacin y, por lo tanto, es lo que gua la interpretacin del
usuario y las consultas que ste formula.
La interfaz es satisfactoria cuando el usuario se sienta frente a la computadora para
realizar alguna tarea, y en cada paso del programa es obvio lo que se tiene que hacer
despus y, cuando esto sucede, la concentracin del usuario se enfoca completamente a
la tarea. Idealmente, una interfaz es transparente, para el usuario las funciones fluyen con
naturalidad y facilidad, motivo por el cual los diseadores de interfaz se refieren con el
trmino cognitivamente compatible.
De esta manera, el trmino cognitivamente compatible puede definirse como el grado en
el que el modelo de la tarea presentada por las caractersticas de entrada y salida de la
interfaz cubre las expectativas del usuario. La tecnologa de diseo de interfaz busca
desarrollar interfaces ms naturales y compatibles a travs de imgenes y sonido, voz,
respuestas asociativas y deductivas, entre otros.
Ahora bien, la palabra natural en este contexto significa que la base de datos inteligente
se comporta, tanto como sea posible, de la misma manera que nosotros. En este sentido,
algunas estrategias para incrementar la naturalidad son:

Uso de sonidos y otros medios (as como texto). Normalmente, a la gente le es


ms comprensible ver diagramas acompaando al texto.

Permitirle al usuario intercambiar vistas de los temas entre generales y particulares


(zoom-in y zoom-out).

Permitirle al usuario llevar a cabo bsquedas asociativas cuando est estudiando


un tema y desee consultar temas relacionados.

De ser posible, disear la interfaz de manera que contenga objetos y conceptos


familiares para el usuario.

No solo es presentar el material, el usuario busca informacin (respuestas)


sumarizadas de acuerdo con sus necesidades e intereses.

Permitirle al usuario operar sobre objetos presentados directamente en la interfaz,


ms que hacerlo indirectamente a travs de algn comando.

Adems de la naturalidad, una interfaz tambin puede ser inteligente, esto es, utiliza
algoritmos deductivos para interpretar lo que realmente busca el usuario o deducir la
informacin que no puede obtenerse de forma directa.
3.2.3 Inteligencia en el motor de la base de datos
La interfaz de usuario est sumamente ligada con un conjunto de capacidades de la base de
datos. Estas capacidades son los mecanismos que permiten a un sistema manejador de bases
de datos (DBMS) funcionar como lo hacen. Ejemplos de funciones especiales de bases de
datos son el procesamiento de consultas y la habilidad de realizar razonamiento deductivo.

57

Mary Karina Ruiz Torres

La inteligencia de la interfaz de usuario est determinada, en gran parte, por la


inteligencia de la aplicacin que est atrs. Existe un nmero de caractersticas de un
sistema de bases de datos que mejora toda la inteligencia del sistema:

Modelo de datos orientado a objetos, basado en el conocimiento.

Base de datos integrada y un motor de inferencia.

Bsqueda sensitiva al contexto o sensitiva a la estructura.

Soporte de mltiples medios de almacenamiento.

Administracin y recuperacin de versiones inteligentes.

Soporta la concurrencia.

Optimizacin de consultas.

Un modelo de datos orientado a objetos y basado en el conocimiento permite la


representacin de los datos de una forma que refleja la percepcin del usuario del
mundo real. Una vez formulada, la informacin puede servir como base de conocimiento
para un sistema experto.
Las bases de datos integradas y motores de inferencia surgen a partir del uso de modelos
de datos basados en el conocimiento, permiten la recuperacin deductiva en un
ambiente donde la bsqueda de informacin y la inferencia se encuentran integradas.
La bsqueda sensitiva a la estructura comprende la recuperacin del conocimiento
basado en la forma. La bsqueda sensitiva al contexto se refiere a la bsqueda de
informacin relevante basada en el contenido.
Los medios de almacenamiento mltiple permiten que la informacin de varios tipos
como son mapas, pinturas, grficas, sonidos, etctera, sean almacenados y recuperados
con eficiencia en la base de datos.
La administracin de versiones inteligente asegura que las versiones actuales y anteriores
de las bases de datos puedan recuperarse de forma eficiente. Adems, el motor de una
base de datos inteligente realiza una extensiva optimizacin de consultas, con la finalidad
de proveer las respuestas en tiempo real para consultas complejas que involucran bases
de conocimiento orientadas a objetos.

3.3 Caractersticas
Una base de datos inteligente puede tener algunas de las siguientes caractersticas:

58

Retroalimentacin. Una base de datos inteligente se adapta a la retroalimentacin


del usuario a travs de ejemplos de lo que el usuario busca y no. El sistema
permite al usuario copiar y pegar texto desde otro documento como un ejemplo
de lo que requiere, el cual se almacena como perfil de bsqueda.

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Interfaz. La interfaz est compuesta de ventanas organizadas de forma jerrquica, de


manera que el usuario puede ver las bsquedas realizadas previamente, adems de
las palabras, documentos y frases utilizados como trminos de bsqueda.

Ayuda. La ayuda se ofrece en distintas formas y niveles. Si el sistema no entiende


una consulta, cuestiona al usuario hasta que ambos estn satisfechos con lo que
se entiende. Un sistema experto est disponible para conducir al usuario a travs
de procedimientos y solucin de preguntas. El sistema utiliza un tutor inteligente
para monitorear la interaccin con el usuario con objeto de detectar cundo
necesita ayuda. Si el usuario repite comandos o trminos de bsqueda, el tutor
mostrar sugerencias.

Seleccin de trminos de bsqueda. El usuario puede reformular o expandir una


consulta a travs de palabras relevantes en bsquedas previas. Un catlogo de
trminos en lnea se encuentra disponible para el sistema y el usuario, aunque la
base de datos inteligente permite al usuario seleccionar trminos alternativos de
bsqueda, en lugar de que el sistema utilice algoritmos de seleccin de alternativas.

Desplegado de resultados de bsqueda. Despus de una bsqueda, el sistema no


slo despliega los hits sino tambin el porcentaje de relevancia de cada uno de
ellos, de forma que el usuario sabr cules documentos se encuentran ms cerca
de su perfil de bsqueda. Los prrafos ms relevantes se indican en los
documentos con las palabras de la bsqueda resaltadas. Si el usuario lo desea, el
sistema puede justificar sus resultados, esto es, puede mostrar cmo lleg o qu
condiciones utiliz para acceder a esos documentos como los ms cercanos al
perfil de bsqueda.

3.4 Tipos de bases de datos


Existen varios tipos de bases de datos entre las que se encuentran: full text, indexed
keywords e hypertext links.
3.4.1 Bases de datos full text
Estas bases de datos emplean bsquedas de cadenas de caracteres2 que coincidan con los
trminos de bsqueda ingresados por el usuario. Si la cadena no coincide exactamente con
alguna cadena en la base de datos, no regresar informacin. El usuario tendr que intentar
variaciones de la cadena como puede ser plural, singular, tiempo pasado, tiempo presente,
etctera, para ver si esa variacin existe en la base de datos.

Cadena de caracteres: combinacin de letras y nmeros.

59

Mary Karina Ruiz Torres

3.4.2 Indexed keywords


Algunas bases de datos utilizan palabras clave indexadas para catalogar sus registros.
Cuando un elemento se ingresa a la base de datos, ste se identifica por claves que el
autor o administrador de la base de datos dise. Si el usuario conoce las abreviaciones
o claves apropiadas, entonces es sumamente fcil la bsqueda en esta base de datos,
pero si las desconoce tiene que refinar su bsqueda.
3.4.3 Hypertext links
Este tipo de base de datos provee ligas en la informacin, semejantes a un ndice de
referencias cruzadas disponibles dentro del texto. Este tipo de base de datos es mejor que
las dos anteriores, sin embargo, el usuario tiene que seguir las ligas que el autor de la
base de datos ha creado, las cuales pueden o no coincidir con las ligas que el usuario
tiene en mente.

3.5 Funcionamiento
El trmino ansiedad de informacin se refiere al sentimiento producido por la distancia
existente entre lo que entendemos y lo que creemos que debemos entender. Existen
distintas situaciones que tienden a volvernos ansiosos: no entender la informacin,
sentirse saturado por la cantidad de informacin que debe entenderse, desconocer si
cierta informacin existe, ignorar en dnde encontrar la informacin o bien, saber en
dnde encontrar los datos pero no tener la clave para acceder a ellos.
Existen dos formas de reducir esta ansiedad, la primera es encontrar la informacin y la
segunda, entender los datos que se han encontrado. A este respecto, las bases de datos
inteligentes ayudan en el primer punto y quiz, en el futuro, sean capaces de contribuir a
su entendimiento.
Para ejemplificar lo mencionado hasta ahora, comparemos los siguientes casos:

Caso #1

Un estudiante necesita encontrar artculos y libros acerca de ansiedad de informacin,


de manera que acude a la biblioteca y utiliza un catlogo en lnea para llevar a cabo su
bsqueda. Inicia con el ingreso de la frase ansiedad de informacin y la bsqueda no
regresa resultado alguno. El siguiente paso es ingresar nicamente la palabra
informacin como tema y observa una lista de categoras que contienen dicha palabra.
El estudiante elige una categora que dice administracin de informacin como la ms
adecuada, esta categora arroja una amplia lista de libros y artculos, algunos de ellos
podran contener algo acerca de ansiedad de informacin, pero tendr que revisar
cada sinopsis para encontrarlo, sin embargo, puede ser que no todos los elementos
tengan una sinopsis, por lo que tendr que deducirlo nicamente por el ttulo.

60

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

El estudiante concluye que necesita limitar su bsqueda. Decide realizar su bsqueda por
palabras clave en vez de por por tema, de manera que ingresa las palabras ansiedad de
informacin, en esta ocasin la bsqueda arroja 5,153 elementos que contienen la
palabra informacin y 3,996 elementos que contienen la palabra ansiedad. Despus
de revisar algunos de estos elementos, el estudiante solicita ayuda al sistema, que le
muestra una serie de comandos que puede utilizar y el estudiante decide incluir un
condicional, ingresando: ansiedad AND informacin; esta bsqueda produce
resultados que contienen ambas palabras pero no necesariamente contiene ambas como
un concepto nico. De manera que para su sexta bsqueda, ingresa ansiedad ADJ
informacin; haciendo que el sistema despliegue nicamente los trminos que
contengan la palabra informacin adyacente a la palabra ansiedad.
Esta bsqueda finalmente es exitosa pero solamente se muestran dos elementos, de manera
que puede ser que tenga que realizarse una nueva bsqueda con base en sinnimos si es
que puede existir alguno. Para este momento, la bsqueda ya ha tomado al menos 45
minutos y lo que tiene son dos elementos posibles, por lo que la decisin posiblemente sea
anotar la ubicacin de los elementos encontrados e intentarlo posteriormente.

Caso #2

Un segundo estudiante cuya biblioteca tiene un catlogo en lnea diferente, requiere


encontrar informacin acerca del mismo trmino que nuestro estudiante del caso #1:
ansiedad de informacin. Esta vez, el sistema le permite realizar la bsqueda no solo
en el catlogo local sino en las bases de datos de otras universidades. Mediante la
bsqueda por palabras relevantes ingresa ansiedad de informacin. El sistema muestra
algunos elementos que contienen ambas palabras informacin y ansiedad e incluso
algunos otros elementos que contienen ambas palabras juntas.
Para limitar la bsqueda, el estudiante indica que ambas palabras deben estar juntas, de esta
forma, el sistema no solo despliega los elementos filtrados sino que tambin muestra una lista
de sinnimos o temas relacionados que pudieran usarse en una bsqueda futura. En este
punto, podra ser que algunos de los sinnimos no son tiles, por lo que el estudiante solicita
ayuda al sistema. El sistema experto, componente de la base de datos, simula entonces las
decisiones de un buscador de informacin y sugiere que se refine la bsqueda cuestionando
a la base de datos para que justifique sus elecciones. Ahora bien, debido a que la bsqueda
ha arrojado unos cuantos elementos relacionados con el tema, el estudiante desea que se
muestren las reglas, palabras y pesos utilizados para encontrar esos elementos.
El sistema indica que utiliz las palabras empleadas en la bsqueda sin artculos o
conjunciones y que las coloc en orden de ocurrencia; entonces compar las palabras
con todos los documentos en la base de datos y despleg aquellos que tenan un alto
nmero de coincidencias. En este punto, el estudiante decide modificar las reglas
utilizadas en la bsqueda para que elimine aquellos temas que no estn directamente
relacionados con la bsqueda, adems, incrementa el peso a ciertas frases y solicita al
sistema que busque de nuevo. Esta vez, la bsqueda despliega elementos que encajan en
mayor porcentaje con lo deseado. De esta manera, el estudiante est seguro de que los
elementos encontrados hacen referencia al tema buscado y adems tiene la opcin de

61

Mary Karina Ruiz Torres

guardar la historia de su bsqueda, de forma tal que no tendr que empezar de cero
cuando realice una bsqueda posterior. En cuanto a tiempo, esta bsqueda ha sido ms
rpida que la mencionada en el caso #1.
La diferencia entre ambos casos es que en el primero, se emple una base de datos full
texto y en la segunda, una base de datos inteligente.

3.6 Representacin del conocimiento


Conocimiento es informacin seleccionada, interpretada y transformada en un entorno
de experiencia. En el entorno computacional para almacenar, manipular y recuperar
informacin, se debe guardar de forma precisa con reglas, marcos de referencia, redes
semnticas y rboles de decisin heursticos.
3.6.1 Reglas
Las reglas son utilizadas para representar estrategias, recomendaciones, directivas y otros
modelos para la solucin de problemas. Consta de dos partes: una seccin IF que especifica
una condicin, y una seccin then que define la accin a tomar si la condicin ocurre.
Ambas partes de la regla pueden contener objetos, valores y atributos. Por ejemplo, una
regla para girar a la derecha en la luz roja podra ser: si no hay autos acercndose por la
derecha del conductor, entonces gira a la derecha. Las reglas pueden ser medidas/evaluadas
con un valor de confianza, donde se indica qu tan cerca est la regla de ser verdadera.
3.6.2 Marcos de referencia
Los marcos de referencia son usados para representar el conocimiento relacionado ya sea
con un tema especfico, conceptos o eventos. Un marco es una estructura de datos que
contiene relaciones con toda la informacin asociada a un objeto o evento. Las ligas o
relaciones pueden incluir valores por default, apuntadores a otras estructuras, conjuntos de
reglas o conjuntos de procedimientos aplicables a ciertos valores. Tambin puede contener
categoras tales como nombre, definicin, ejemplos, especializacin y analogas.
3.6.3 Redes semnticas
Las redes semnticas fueron creadas como un modelo de memoria asociativa humana.
Estas redes muestran relaciones entre objetos, que pueden ser cosas, conceptos o
eventos. Cada objeto es representado en la red por un nodo y la relacin entre ellos se
denota por una lnea que los conecta. Por ejemplo, un nodo en la red es Luna y otro
nodo es Marte; ambos nodos estn conectados por una flecha etiquetada como tiene.
Otras flechas estn etiquetadas como contiene, es una, est contenida en. La
relacin entre los dos nodos es Marte tiene una Luna.
Las redes semnticas, por lo general, son jerrquicas, ya que sin algn tipo de
organizacin, la red se vuelve enredada y difcil de descifrar. Por esta razn, una flecha
se utiliza para indicar la jerarqua de la relacin, esto es, indica quin es el padre y quin
el hijo. Decir La Luna tiene Marte no hara ningn sentido.

62

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Las redes semnticas se convierten fcilmente en rboles de decisin con los nodos
representando objetivos, y las ligas representando decisiones que resultan de relacionar
un objetivo que se relaciona con otro.
3.6.4 rboles de decisin heurstica
Los rboles de decisin son utilizados en inteligencia artificial para mostrar las posibles
consecuencias de una situacin inicial. Si un problema es demasiado complejo, un rbol
de decisin podra no ser la representacin adecuada debido a que el nmero de
posibles ramas podra ser muy grande.

3.7 Inferencia
Una de las habilidades de la inteligencia artificial es la inferencia, donde la computadora
dibuja conclusiones a partir de los hechos y reglas representados en formas que la
computadora puede utilizar. Durante el proceso de inferencia, la computadora puede
derivar nuevos hechos o reglas, es decir, la inferencia es el proceso de derivar nuevos
hechos y reglas a partir de informacin conocida.
Los programas computacionales que realizan inferencia son llamados motores de inferencia.
Los motores utilizan el conocimiento presentado y la informacin que se ingresa para dibujar
conclusiones y hacer recomendaciones acerca de un problema presentado al sistema. El
motor de inferencia debe decidir qu reglas (contenidas en la base de conocimiento) son
importantes y cmo utilizarlas, adems del orden en que deben aplicarse.
Los motores de inferencia pueden usarse con alguno de los mtodos de representacin
del conocimiento mencionados con anterioridad.
Con los rboles de decisin, la inferencia procede a lo largo de varias rutas lineales
establecidas por el desarrollador del sistema. La informacin de la base de datos debe
coincidir con alguna de las ramas del rbol de decisin para que el sistema pueda
procesarlo. En una base de conocimiento orientada a objetos (por ejemplo, una red
semntica) los patrones preestablecidos de herencia 3 disparan ciertas acciones o eventos
a ocurrir; por lo que una vez invocados, esos objetos pueden llamar funciones especficas
o reglas para alcanzar un resultado o conclusin especfica.
El proceso de probar o disparar reglas en una secuencia ptima se apoya por dos
tcnicas de inferencia: forward chaining y backward chaining.
3.7.1 Forward chaining
Es un ejemplo de razonamiento deductivo, es decir, permite construir una conclusin a
partir de datos. Cuando el motor de inferencia utiliza esta tcnica, compara la

Herencia. Un nodo en una red semntica ligado con otro nodo con una liga de tipo es un(a) hereda todas las
propiedades de su precursor. Marte es un planeta significa que Marte hereda la propiedad de ser un planeta.

63

Mary Karina Ruiz Torres

informacin en la base de datos con una parte IF de la primera regla activa en la base
de conocimiento. Si la informacin coincide con la regla, la parte THEN de la regla se
dispara, esto es, se integra informacin a la base de datos acerca de ese problema
particular y las flechas de bsqueda. Una vez que la regla se aade a la base de datos,
sta se inhabilita por esa sesin y dicho procedimiento contina hasta que el motor de
inferencia ha pasado por todas las posibles conclusiones.
Un ejemplo de este tipo de encadenamiento es un juego de computadora llamado
ANIMAL, donde la computadora realiza algunas preguntas al jugador que intenta
descubrir en cul animal est pensando. El motor de inferencia realiza preguntas como
el animal tiene aletas?, si el jugador responde no, entonces el motor busca la regla
que aplica a aletas: SI una criatura tiene aletas ENTONCES es un pez, ahora, ya que
la respuesta fue no, la parte THEN de la regla no se dispara y el motor de inferencia
realiza otra pregunta el animal tiene alas?, si a esta pregunta el jugador responde s,
el motor de inferencia encuentra la regla que aplica para alas (SI un animal tiene alas
ENTONCES es un ave) y descubre que la parte THEN de la regla aplica, de manera que
almacena la regla en la base de datos y busca preguntas pertenecientes a aves.
Eventualmente, el sistema adivina el animal del que se trata o se rinde preguntando al
jugador el nombre del animal, este dato se agrega entonces a la base de datos de
manera que la base de conocimiento crece y la siguiente vez, el motor de inferencia
tendr la capacidad de adivinar ese animal en particular.
3.7.2 Backward chaining
Esta tcnica se usa cuando el nmero de consultas a la base de datos se reduce y es
poca la informacin, lo cual se debe a que la parte THEN de la regla (objetivo) es el
punto de inicio y la seccin IF (el dato) el punto final.
Backward chaining es un ejemplo de razonamiento deductivo que inicia con una
conclusin y trata de descubrir cules son sus componentes. Toma como ejemplo el
juego ANIMAL descrito anteriormente, por lo que la tcnica de backward chaining
iniciara con un animal conocido e intentara descubrir las reglas para describirlo.

3.8 Problemas de las bases de datos inteligentes

Encontrar el primer artculo o resultado puede consumir mucho tiempo.

Problemas con el uso de palabras ambiguas y aquellas que tienen mltiples significados.

Construir la base de conocimiento con la amplitud que abarque todos los contextos.

3.9 Ejemplo de bases de datos inteligentes


3.9.1 DowQuest
La base de datos descrita en el caso de estudio #2 es DowQuest. Es un ejemplo de una base
de datos inteligente que utiliza palabras, frases y documentos del usuario como elementos de

64

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

comparacin contra lo que existe en la base de datos. Primero, la computadora pregunta al


usuario por palabras importantes o frases para crear un perfil de la informacin deseada.
Despus, intenta igualar el perfil con los existentes en los documentos de la base de datos.
Cada palabra en cada documento de la base de datos es analizado. Despus de eliminar
palabras comunes (por ejemplo los artculos, preposiciones y conjunciones), los cientos de
palabras que con mayor ocurrencia en el documento son utilizadas para armar un perfil, el
cual es comparado con el perfil ingresado por el usuario.
La comparacin se lleva a cabo mediante ocurrencias de palabras, combinacin de conteos
de diferentes palabras (utilizando bsicamente un or entre las palabras consultadas) y
tamao de los documentos. Posteriormente, DowQuest ordena los documentos por sus
conteos y despliega los encabezados en este orden. Aquellos que contengan la mayora de
las palabras consultadas tendrn un significado mayor, adems, los que tengan frases en
donde aparecen con mayor cercana las palabras consultadas, se asignan a un rango mayor
que aquellos donde las palabras consultadas se encuentran dispersas.
El usuario observa los documentos desplegados por la computadora y decide si alguno de
ellos contiene la informacin que est siendo buscada. De ser as, el usuario indica el artculo
ms apropiado y la computadora lo utiliza como ejemplo para mejorar el perfil de la
informacin que el usuario desea. Si ninguno de los artculos es adecuado, el usuario puede
agregar o cambiar palabras del perfil para que la bsqueda se realice nuevamente.
Algunas veces, al menos uno de los documentos desplegados es similar a lo que el usuario
desea, de manera que puede usarse para retroalimentar al sistema mejorando el perfil
mediante la delimitacin ms certera del perfil. Sin embargo, como ocurre con cualquier
base de datos, encontrar ese primer ejemplo puede tomar un tiempo considerable.
DowQuest es un modelo de red neuronal porque permite la alimentacin a travs de
ejemplos y realiza clasificaciones asociativas 4 y adaptativas.
3.9.2 Topic
Es otro tipo de base de datos inteligente desarrollado por Verity Inc. Este programa difiere
del DowQuest porque utiliza un enfoque ms estructurado conocido como concept
hierarchies 5, que se define como: construir un tema a partir de otros temas y patrones de
palabras... definir un concepto o la gramtica de un tema (por ejemplo eventos
terroristas) mediante el descubrimiento de componentes (por ejemplo: quin, qu,
quines, cundo, dnde, cmo ataques, vctimas, armas ) y sus detalles en
trminos de palabras especficas, conectores boleanos, y pesos o factores relevantes.
Este enfoque permite al usuario limitar la bsqueda de forma manual enfocndose en
atributos especficos.

Clasificacin asociativa. Comparacin de palabras en documentos ejemplo contra palabras en documentos


similares.
5
Concept hierarchy. Definir un concepto o tema por sus componentes y detalles.
4

65

Mary Karina Ruiz Torres

Anexo
Glosario
A
Agent

An application that searches data and sends an alert when a certain situation
occurs. (See ALERT)

Aggregate data

Individual data items, data groups, arrays, tables etc. that can be assembled
to form a whole.

Alerts and alarms

Messages sent automatically by a computer system when an AGENT identifies a


certain situation. For example, if stock of an item in a warehouse drops to a
certain level, key personnel can be immediately informed.

Algorithm

A set of statements organized to solve a problem in a finite number of steps

Analytical
processing

The usage of the computer to produce an analysis for management decision, usually
involving trend analysis, drill down analysis, demographic analysis, profiling, etc.

Architecture
phase

The establishment of the framework, scope and standards and procedures


for a Data Warehouse at the enterprise level.

Atomic level data

Data with the lowest level of granularity. Atomic level data sits in a Data Warehouse
and is time variant (i.e., accurate as of some moment in time now passed).

Attribute

A property or characteristic of an application entity. For example, the


attributes of an EMPLOYEE entity in a business application may be:
IDFirstname
Lastname
Job_Title
Email_ID
An attribute usually represents a column in a table in a relational database,
or a field in a file.

66

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Audit trail

Recording of any changes made to specific data. Details can include date
and time of change, how the change was detected, reason for the change
and before-and-after data values.

B
Binary search

A dichotomizing search with steps in which the sets of remaining items are
partioned into two equal parts.

Bit map

A specialized form of an index indicating the existence or non-existence of a


condition for a group of blocks or records.

Bus

The hardware connection that allows data to flow from one component to another.

Business
intelligence tools

Software that allows business users to see and use large amounts of complex data.

C
Canonical model

A data model that represents the inherent structure of data without regard to
either individual use or hardware or software implementation.

Cell

A single point in a CUBE.

Conceptual
schema

A consistent collection of data structures expressing the data needs of the


organization. This schema is a comprehensive, base level, and logical
description of the environment in which an organization exists, free of
physical structure and application system considerations.

Condensation

The process of reducing the volume of data managed without reducing the
logical consistency of the data.

Connector

A symbol used to indicate that one occurrence of data has a relationship


with another occurrence of data. Connectors are used in conceptual data
base design and can be implemented hierarchically, relationally, in an
inverted fashion, or by a network.

Contention

The condition that occurs when two or more programs try to access the same
data at the same time.

Cooperative
processing

The ability to distribute resources (programs, files and data bases) across the network.

Corporate
information
warehouse (CIF)

The architectural framework that houses the ODS, Data Warehouse, data marts,
i/t interface, and the operational environment. The cif is held together logically
by metadata and physically by a network such as the Internet.

Cube (also
The fundamental structure for information in an OLAP system. A structure
hypercube, multi- that stores multi-dimensional information, having one CELL for each possible
dimensional cube) combination of dimensions.
D
Data

Facts, concepts, or instructions that a computer records, stores and


processes. Used in conjunction with INFORMATION SYSTEMS, raw data is
organized in such a way that people can understand the results.

Data cleansing

Removing errors and inconsistencies from data being imported to a Data


Warehouse.

67

Mary Karina Ruiz Torres

Data dictionary

A software tool for recording the definition of data, the relationship of one category
of data to another, the attributes and keys of groups of data, and so forth.

Data driven
development

The approach to development that centers around identifying the


commonality of data through a data model and building programs that have
a broader scope than the immediate application.

Data driven
process

A process whose resource consumption depends on the data on which it


operates.

Data mart

A Department-Specific Data Warehouse.


A) Independent fed from legacy systems within the department.
B) Dependent fed from the enterprise Data Warehouse (preferred).

Data mining

The process of finding hidden patterns and relationships in data. For


instance, a consumer goods company may track 200 variables about each
consumer. There are scores of possible relationships among the 200
variables. Data mining tools will identify the significant relationships.

Data scrubbing

Removing errors and inconsistencies from data being imported into a Data Warehouse.

Data
transformation

The modification or alteration of data as it is being moved into the Data


Warehouse.

Data type

A data type defines the type of data stored in a specific database column,
such as date, numeric or character data. Significant differences in data types
exist between different platforms databases.

Data warehouse

A Data Warehouse is a subject oriented, integrated, non volatile, time


variant collection of data. The Data Warehouse contains atomic level data
and summarized data specifically structured for querying and reporting.

Data
warehousing

An enterprise-wide implementation that replicates data from the same


publication table on different servers/platforms to a single subscription table. This
implementation effectively consolidates data from multiple sources.

Database schema

The logical and physical definition of a database structure.

Date/Time stamp

A stamp added by an application that identifies a task or activity by the date


and time it was initiated and/or completed. This can appear as part of a
transaction log, message queue content in job logs.

Decentralized
database

A centralized database that has been partitioned according to a business or


end-user defined subject area. Typically ownership is also moved to the
owners of the subject area.

Decentralized
warehouse

A remote data source what users can query/access via a central gateway that
provides a logical view of corporate data in terms that users can understand.
The gateway parses and distributes queries in real time to remote data
sources and returns result sets back to users.

Decision support
systems (DSS)

Software that supports exception reporting, stop light reporting, standard


repository, data analysis and rule-based analysis. A database created for
end-user ad-hoc query processing.

Denormalization

The technique of placing normalized data in a physical location that


optimizes the performance of the system.

68

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Derived Data

Data whose values are determined by equations or algorithms.

Drill down/up

The ability to move between levels of the hierarchy when viewing data with
multiple levels.
A) Drill downchanging a view to a greater level of detail
B) Drill up changing a view to a greater level of aggregation.

E
EDI (Electronic
Is a standard format for exchanging business data.
Data Interchange)
Encryption

The transformation of data from a recognizable format to a form


unrecognizable without the algorithm used for the transformation.

ETL (Extract,
Transform and
Load)

ETL refers to the process of getting data out of one data store (extract),
modifying it (transfer), and inserting it into a different data store (load).

Executive/Enterpri Tools programmed to provide canned reports or briefing books to top-level


se Information
executives. They offer strong reporting and drill-down capabilities. Today
Systems (EIS)
these tools allow ad-hoc querying against a multi-dimensional database,
and most offer analytical applications along functional lines such as sales or
financial analysis. (Also known as Decision Support System.)
Extendibility

The ability to easily add new functionality to existing services without major
software rewrites or without redefining the basic architecture.

External schema

A logical description of a user's method of organizing and structuring data.

F
Fact table

The tables which are extracted from heterogeneous sources and used in the
Data Warehouse

Flat file

A collection of records containing no data aggregates, nested repeated data


items, or groups of data items.

Functional
decomposition

The division of operations into hierarchical functions that form the basis for
procedures.

G
Global business
models

Provides access to information scattered throughout an enterprise under the


control of different divisions or departments with different databases and
data models. This type of Data Warehouse is difficult to build because it
requires users from different divisions to come together to define a common
data model for the warehouse.

Granularity

The level of detail of the data stored in a Data Warehouse.

H
Heterogeneous
environment

Within an enterprise, a network of different types of servers and databases.

Heuristic

The mode of analysis in which the next step is determined by the results of
the current step of analysis.

Hierarchy

The organization of data into a logical tree structure.

69

Mary Karina Ruiz Torres

Homogeneous
environment

Within an enterprise, a network consisting of the same type of servers and


databases.

Horizontal
distribution

The splitting of a table across different sites by rows. With horizontal


distribution rows of a single table residing at different sites in a distributed
data base network.

Hub and spoke


configuration

A configuration of interconnected systems where a single system (the hub)


acts as the central point for exchanging data with and between the other
systems (spokes).

Huffman code

A code for data compaction in which frequently used characters are encoded
with fewer bits than infrequently used characters.

HyperCube

See CUBE.

I
Information

Data that has been processed in such a way that it can increase the
knowledge of the person who receives it.

Information systems The authoritative definition of the business rules, systems structure, technical
architecture
framework, and product backbone for business information systems.
Instance

A set of values representing a specific entity belonging to a particular entity type.

Integrity

A set of values representing a specific property of a data base that ensures that
the data contained in the data base in accurate and consistent as possible.

Intelligent data
base

A data base that contains shared logic as well as shared data and automatically
invokes that logic when the data base is accessed. Logic, constraints, and
controls relating to the use of data are represented in an intelligent data model.

Interleaved data

Data from different tables mixed into a simple table space where is
commonality of physical collocation based on a common key value.

Iterative analysis

The mode of processing in which the next step of processing depends on the
results obtained by the existing step in execution.

J
Join

An operation that takes two relations as operands and produces a new


relation by concatenating the tuples and matching the corresponding
columns when a stated condition holds between the two.

K
Key compression

A technique for reducing the number of bits in keys; used in making indexes
occupy less space.

L
Latency

Is often used to mean any delay or waiting that increases real or perceived
response time beyond the response time desired.

Lockup

The event that occurs when update is done against a data base record and
the transaction has not yet reached a commit point.

Logging

The automatic recording of data with regard to the access of the data, the
updates to the data, etc.

70

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Logical
representation

A data view or description that does not depend on a physical storage device
or a computer program.

M
Main Storage
A data base that resides entirely in main storage. Such data bases are very
Data Base (msdb) fast to access, but require special handling at the time of update. MSDB's
can only manage a small amounts of data.
Maximum
Transaction Arrival
Rate (MTAR)

The rate of arrival of transactions at the moment of peak period processing.

Metadata or
Meta Data

Metadata is data about data. Examples of metadata include data element


descriptions, data type descriptions, attribute/property descriptions,
range/domain descriptions, and process/method descriptions. The repository
environment encompasses all corporate metadata resources: database catalogs,
data dictionaries, and navigation services. Metadata includes things like the
name, length, valid values, and description of a data element. Metadata is
stored in a data dictionary and repository. It insulates the Data Warehouse from
changes in the schema of operational systems.

Metadata
synchronization

The process of consolidating, relating and synchronizing data elements with


the same or similar meaning from different systems. Metadata
synchronization joins these differing elements together in the Data
Warehouse to allow for easier access.

Metalanguage

A language used to specify other languages.

Methodology

A system of principles, practices, and procedures applied to a specific


branch of knowledge.

Mid-Tier Data
Warehouses

To be scalable, any particular implementation of the data access


environment may incorporate several intermediate distribution tiers in the
Data Warehouse network. These intermediate tiers act as source Data
Warehouses for geographically isolated sharable data that is needed across
several business functions.

Middleware

A communications layer that allows applications to interact across hardware


and network environments.

Migration

The process by which frequently used items of data are moved to more
readily accessible areas of storage and infrequently used items of data are
moved to less readily accessible areas of storage.

Multilist
organization

A chained file organization in which the chains are divided into fragments and each
fragment is indexed. This organization of data permits faster access to the data.

N
Natural join

A join in which the redundant logic components generated by the join are removed.

Network model

A data model that provides data relationships on the basis of records or


groups of records (ie. sets) in which one record is designated as the set
owner, and a single member record can belong to one or more sets.

Nonprocedural
language

Syntax that directs the computer as to what to do, not how to do it. Typical
nonprocedural languages include RAMIS,FOCUS, NOMAD, and SQL.

71

Mary Karina Ruiz Torres

Normalization

Normalization is a step-by-step process of removing redundancies and


dependencies of attributes in a data structure. The condition of the data at
completion of each step is described as a "normal form." Thus, when
normalizing we talk about data as being in the first normal form, the second
normal form, etc. Normalization theory identifies normal forms up to at least
the fifth normal form, plus an adjunct form known as Boyce-Codd Normal
Form (BCNF). The first three forms are sufficient to meet the needs of
warehousing data models.

O
OLAP (On-Line
Analytical
Processing)

Describes the systems used not for application delivery, but for analyzing the
business, e.g., sales forecasting, market trends analysis, etc. These systems
are also more conducive to heuristic reporting and often involves
multidimensional data analysis capabilities.

OLTP (OnLine
Transaction
Processing)

Describes the activities and systems associated with a company's day-to-day


operational processing and data (order entry, invoicing, general ledger, etc.).

Operational Data The form that Data Warehouse takes in the operational environment.
Store (ODS)
Operational data stores can be updated, do provide rapid and consistent
time, and contain only a limited amount of historical data.
Overflow

The condition in which a record or a segment cannot be stored in its home


because the address is already occupied.

P
Parallel data
organization

An arrangement of data in which the data is spread over independent


storage devices and is managed independently.

Parallel search
storage

A storage device in which one or more parts of all storage locations are
queried simultaneously for a certain condition or under certain parameters.

Parsing

The algorithm that translates syntax into meaningful machine instructions.


Parsing determines the meaning of statements issued in the data
manipulation language.

Partition

A segmentation technique in which data is divided into physically different


units. Partioning can be done at the application or the system level.

Performance

The length of time from the moment a request is issued until the first of the
results of the request are received.

Periodic discrete
data

A measurement or description of data taken at a regular time interval.

Prefix data

Data in a segment or a record used exclusively for system control, usually


unavailable to the user.

Primitive data

Data whose existence depends on only a single occurrence of a major


subject area of the enterprise.

Privilege descriptor

A persistent object used by a DBMS to enforce constraints on operations.

Projection

An operation that takes one relation as an operand and returns a second relation that
consists of only the selected attributes or columns, with duplicate rows eliminated.

72

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

Proposition

A statement about entities that asserts or denies that some condition holds
for those entities.

Q
Query language

A language that enables an end user to interact directly with a DBMS to


retrieve and possibly modify data managed under the DBMS.

R
Record

An aggregation of values of data organized by their relation to a common key.

Recovery

The restoration of the database to an original position or condition, often


after major damage to the physical medium.

Redundancy

The practice of storing more than one occurrence of data.

Referential
integrity

The facility of a DBMS to ensure the validity of a predefined relationship.

Replication

The physical copying of data from one database to another.

Rolling summary

A form of storing archival data where the most recent data has the lowest
level of details stored and the older data has higher levels of details stored.

S
Schema

The logical organization of data in a database.

Scope of integration The formal definition of the boundaries of the system being modeled.
Sequential file

A file in which records are ordered according to the values of one or more
key fields.

Serial file

A sequential file in which records are physically adjacent, in sequential order.

Snowflake
schema

A snowflake schema is a set of tables comprised of a single, central fact table


surrounded by normalized dimension hierarchies. Each dimension level is represented
in a table. Snowflake schema implement dimensional data structures with fully
normalized dimensions. Star schema are an alternative to snowflake schema.

Star schema

A star schema is a set of tables comprised of a single, central fact table


surrounded by de-normalized dimensions. Each dimension is represented in a
single table. Star schema implement dimensional data structures with denormalized dimensions. Snowflake schema are an alternative to star schema.

T
Table

A relation that consists of a set of columns with a heading and a set of rows.

Time variant data Data whose accuracy is relevant to some one moment in time.
Transaction
processing

The activity of executing many short, fast running programs, providing the
end user with consistent two or three second response time.

Transition data

Data possessing both primitive and derived characteristics; usually very


sensitive to the running of the business.

73

Mary Karina Ruiz Torres

Bibliografa
Data Warehouse y minera de datos

74

Jiawei Han, Micheline Kamber.


Data Mining, Concepts and Techniques.
The Morgan Kaufmann Series in
Data Management Systems, Jim Gray,
Series Editor August 2000.

W. J. Frawley, G. Piatestky-Shapiro, P. Smyth.


From Data Mining to Kowledge Discovery:
An Overview, en Advances in Knowledge
Discovery and Data Mining,
W. J. Frawley, G. Piatestky-Shapiro, P. Smyth
and Uthurusamy (eds.), AAAI Press 1996.

R. Agrawal,
Mining Association rules between sets
of items in large databases, en Prooceedings
of ACM SIGMOD International Conference
on Management of Data,
pp.207-216, Washington DC, 1993.

W. H. Inmon,
Building the DataWarehouse, Second Edition,
John Willey and Sons Inc. 1996.

W. H. Inmon J. D. Welch K. Glassey,


Managinging the DataWarehouse,
John Willey and Sons Inc. 1997.

Direccin General de Servicios de Cmputo Acadmico

DATA WAREHOUSE y minera de datos

S. Zdonik y D. Maier,
Readings in Object-Oriented Database Systems,
Morgan Kaufmann, San Mateo, California, 1991.

Nmero especial en Temporal


and Real-Time Databases,
IEEE Transactions on Knowledge
and Data Engineering,
vol. 7, n4, 1995.

Bases de datos inteligentes

Bielawski, L. & Lewand, R. (1991).


Intelligent Systems Design: Integrating Expert
Systems, Hypermedia, and Database Technologies.
John Wiley & Sons, New York.

Parsaye, K., M. Chignell, S. Khoshafian and H. Wong (1989).


Intelligent Databases: Object-Oriented,
Deductive Hypermedia Technologies.
John Wiley and Sons, New York.

Bates, M. (1991).
The Berry-Picking Search: User Interface Design.
In Interfaces for Information Retrieval
and Online Systems: the State of the Art,
ed. M. Dillon. Greenwood Press, New York.

Dillon, M., ed. (1991).


Interfaces for Information Retrieval and
Online Systems: the State of the Art.
Greenwood Press, New York.

Fallows, J. (1992).
Hidden Powers in The Atlantic,
May 1992, pp. 114-117.

Gibbons, H. (1990).
The Instructional Potential of AI.
In CBT Directions, February 1990,
Weingarten Publications, Boston.

Glossbrenner, A. (1987).
How to Look It Up Online: Get the Information
Edge with Your Personal Computer.
St. Martin's Press, New York.

75

Mary Karina Ruiz Torres

Harter, S. (1986).
Online Information Retrieval:
Concepts, Principles, and Techniques.
Academic Press, Inc., New York.

Hawkins, D. (1988).
Applications of Artificial Intelligence (AI)
and Expert Systems for Online Searching.
Online, Vol. 12:1, pp. 31-44.

McFarland, T. and Parker, R. (1990).


Expert Systems in Education and Training.
Educational Technology Publications,
Englewood Cliffs, NJ.

Wurman, R. (1989).
Information Anxiety.
Bantam Books, New York, New York.

Zuboff, S. (1988).
In the Age of the Smart Machine.
Basic Books, Inc., Publishers, New York.

Referencias electrnicas

76

Alpert Sleight, Deborah (1993).


- Intelligent Databases: Easing access information.
Michigan State University [en lnea]
<http://www.msu.edu/~sleightd/Inteldat.html >
[Consulta: noviembre de 2003]

<http://www.oracle.com >
[Consulta: noviembre de 2003]

Oracle <http://www.redbrick.com>
[Consulta: noviembre de 2003]

IBM <http://www.ibm.com>
[Consulta: noviembre de 2003]

@Simon Fraser University-.


Computing Science < http://www.cs.sfu.ca>
[Consulta: noviembre de 2003]

Direccin General de Servicios de Cmputo Acadmico

UNIVERSIDAD NACIONAL AUTNOMA DE MXICO


DR. JUAN RAMN DE LA FUENTE
Rector

LIC. ENRIQUE DEL VAL BLANCO


Secretario General

MTRO. DANIEL BARRERA PREZ


Secretario Administrativo

DRA. ROSAURA RUIZ GUTIRREZ


Secretaria de Desarrollo Institucional

MTRO. JOS ANTONIO VELA CAPDEVILA


Secretario de Servicios a la Comunidad

MTRO. JORGE ISLAS LPEZ


Abogado General

DIRECCIN GENERAL DE SERVICIOS DE CMPUTO


ACADMICO
DR. ALEJANDRO PISANTY BARUCH
Director General

MAT. CARMEN BRAVO CHAVESTE

Directora de Cmputo para la Docencia

ACT. FABIN ROMO ZAMUDIO

Subdirector de Tecnologa para la Educacin

MTRO. JESS DAZ BARRIGA ARCEO


Subdirector de Planeacin Acadmica

MTRA. HORTENSIA CANO GRANADOS


Coordinadora de Produccin Acadmica

MTRA. ALEJANDRINA SAN JUAN REYES


Coordinadora del Centro de Extensin en
Cmputo y Telecomunicaciones Nuevo Len

ING. SERGIO ALVA ARGUINZONIZ


Coordinador del Centro Mascarones

LIC. JOS LUIS MEDINA FLORES

Coordinador del Centro Coapa de Extensin


en Cmputo y Telecomunicaciones

LIC. PATRICIA ROMERO ELAS

Coordinadora del Centro Educativo


Multidisciplinario Polanco

MTRA. ALMA IBARRA OBANDO

Coordinadora del Centro San Agustn

LIC. REBECA SNCHEZ ZALDIVAR

Responsable de los cursos de Cmputo


del Palacio de la Autonoma, Fundacin UNAM

ING. PABLO DE LA O CRUZ

Coordinador del Centro Tlatelolco

LIC. JOS ANTONIO SNCHEZ YLLANEZ


Subdirector de Comunicacin

DG TOA ZIMERMAN SONABEND


Jefa del Departamento de Diseo

Guas y Textos de Cmputo


DATA WAREHOUSE y minera de datos
Octubre, 2007