Tipos Bases de Datos PDF

Características y tipos de bases de datos
Jorge Daniel Anguiano Morales (janguian@mx1.ibm.com) 30-06-2014

Consultor Certificado IM DB2 para LUW
IBM México
Durante las décadas de los 60 y 70 surge el concepto de las bases de datos; sin embargo, el objetivo
principal siempre ha sido la administración óptima de la información y el uso que se le puede dar a la
misma. Hoy, las necesidades de las empresas han cambiado y la necesidad de interactuar con diversas
fuentes de información ha desafiado a las bases de datos. Lo anterior ha provocado que los volúmenes de
información sean mayores, su formato muy diverso lo que incrementa así los tiempos de respuesta para
analizar la información y tomar decisiones.
Existe mucha información acerca de las bases de datos, por lo tanto el objetivo de este artículo no es
hacerlo un experto en el tema sino solo ser una guía de los conceptos que se manejan actualmente, conocer
brevemente las características de las bases de datos y las soluciones que existen hoy en día.
¿Qué es una base de datos?

De una manera simple, es un contenedor que permite almacenar la información de forma ordenada con
diferentes propósitos y usos. Por ejemplo, en una base de datos se puede almacenar información de
diferentes departamentos (Ventas, Recursos Humanos, Inventarios, entre otros). El almacenamiento de la
información por sí sola no tiene un valor, pero si combinamos o relacionamos la información con diferentes
departamentos nos puede dar valor. Por ejemplo, combinar la información de las ventas del mes de junio
del 2014 para el producto ‘X’ en la zona norte nos da un indicativo del comportamiento de las ventas en un
periodo de tiempo.
Tipos de bases de datos

Existen muchas empresas con diferentes giros y dependiendo del giro será el tipo de procesamiento que se le
dará a la información, esto determinará el tipo de base de datos a utilizar. Existen diferentes tipos de bases de
datos pero las más comunes son las OLTP y OLAP.
Las bases de datos de tipo OLTP (On Line Transaction Processing) también son llamadas bases de datos
dinámicas lo que significa que la información se modifica en tiempo real, es decir, se insertan, se eliminan,
se modifican y se consultan datos en línea durante la operación del sistema. Un ejemplo es el sistema de un
supermercado donde se van registrando cada uno de los artículos que el cliente está comprando y a su vez el
sistema va actualizando el Inventario.
© Copyright IBM Corporation 2014 Marcas

Características y tipos de bases de datos Pagina 1 de 25
developerWorks® ibm.com/developerWorks/ssa/
Figura 1.
Las bases de datos de tipo OLAP (On Line Analytical Processing) también son llamadas bases de datos
estáticas lo que significa que la información en tiempo real no es afectada, es decir, no se insertan, no se
eliminan y tampoco se modifican datos; solo se realizan consultas sobre los datos ya existentes para el
análisis y toma de decisiones. Este tipo de bases de datos son implementadas en Business Intelligence para
mejorar el desempeño de las consultas con grandes volúmenes de información.
Figura 2.

ibm.com/developerWorks/ssa/ developerWorks®
La necesidad de implementar un tipo u otro dependerá del giro y necesidades de cada empresa. Es muy
importante identificar el tipo de base de datos que se requiere antes de implementar un manejador de base de
datos. Por ejemplo podemos citar al manejador de base de datos “DB2 10.5 with BLU Acceleration”, la cual
proporciona una solución para la parte transaccional y para la parte de analíticos.
http://www-01.ibm.com/software/data/db2/linux-unix-windows/db2-blu-acceleration/
Tipo de información que se puede almacenar

Cuando surgen las bases de datos el tipo de información que se podía almacenar era de tipo estructurada.
La información es almacenada en un objeto llamado “Tabla” la cual nos permite organizar la información.
Por ejemplo, la tabla de “Empleados” contiene información relacionada al #Empleado, Nombre, Apellido,
#Seguro Social, etc. Cada uno de estos elementos en una base de datos recibe el nombre de “Campo” y el
conjunto de estos elementos recibe el nombre de “Registro” (También llamado Columna y Renglón, Hilera o
Fila).
Figura 3.
Los tipos de datos que se pueden almacenar son diversos, pero los más comunes son de tipo Numérico,
Decimales y tipo Texto. Conforme han evolucionado las bases de datos se han expandido los tipos de datos
que pueden almacenar. Por mencionar algunos tipos están los CLOB (Character Large Object) y BLOB
(Binary Large Object). Los CLOB son utilizados para almacenar documentos y los BLOB para almacenar
una imagen o video.
Otro tipo de dato relevante hoy en día es el tipo de dato XML. Este es un tipo de dato jerárquico porque
parte de un nodo inicial o raíz, y a su vez puede tener ‘n’ niveles y subniveles. Muchos manejadores de bases
de datos puede manipular este tipo de dato; sin embargo, no de forma nativa como lo hace DB2, es decir, el
documento es almacenado como un CLOB. La desventaja de almacenarlo como un CLOB implica dividir
el documento y guardarlo en diferentes áreas (como si fuera un rompecabezas), y para consultarlo se debe
armar para mostrar su información (lo cual implica problemas de desempeño).

Una ventaja competitiva que tiene DB2 es que los documentos XML se almacenan de forma nativa, es
decir, el documento se almacena dentro de la base de datos, lo que permite consultar la información de
forma directa y con mucho mejor desempeño. Incluso se pueden crear índices a nivel documento XML para
consultar un nodo en específico, y así acceder más rápido a la información. Otra ventaja es la compresión de
documento XML lo cual incrementa el ahorro en almacenamiento.
Figura 4.
Existen otras bases de datos que permiten almacenar diferentes tipos de documento, como por ejemplo:
Cloudant, el cual se vera más adelante.
Con la evolución en las tecnologías de la información y las nuevas necesidades en el manejo de la

información nace el concepto Big Data. Existen diferentes definiciones, pero la más sencilla es el manejo
de grandes volúmenes de información que vienen de diferentes fuentes de datos (Estructurados, No
estructurados, XML, HTML, etc.) de una manera rápida sin afectar la disponibilidad de la información y
operación de los sistemas. Las consultas hechas en Big Data ayudan al análisis y a la toma de decisiones.
http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
Otra de las ventajas competitivas que tiene las bases de datos como DB2 e Informix es que permite hacer
la explotación de la información que viene de diferentes fuentes permitiendo así la integración con otros
sistemas y lenguajes que utilizan sentencias SQL y NoSQL.
https://www.ibm.com/developerworks/ssa/library/bd-datos-sql-y-nosql-en-db2/
Información a través del tiempo

Cuando se crea una base de datos y se inicia su operación el volumen de la información es mínima y el
desempeño de la aplicación y base de datos es óptima. Sin embargo conforme pasa el tiempo el volumen de
información incrementa y en consecuencia surgen los siguientes problemas:

1. Problemas de espacio en disco.

2. Incrementos de costo en almacenamiento y procesamiento.
3. Problemas de desempeño en las consultas.
4. Fallas en el aplicativo afectando la disponibilidad de los datos.
5. Problemas con la base de datos y la pérdida de información.
De los problemas anteriores surge la necesidad de hacer mejoras a las bases de datos y/o crear arquitecturas
para dar soluciones a los problemas anteriores. Se han implementado varias soluciones a nivel Software y
Hardware.
Uno de los principales problemas a solucionar es la disponibilidad y la pérdida de la información. En DB2

existen dos soluciones, la primera evita perder la información en caso de desastres, contingencia, etc. y
la segunda evita que la disponibilidad de la información se vea afectada, es decir, la información estará
disponible 24x7 (En todo momento). Estas soluciones son:
1. HADR (High Availability and Disaster Recovery) – Alta disponibilidad

2. PureScale – Disponibilidad continua
¿Qué es HADR?
Sus siglas en inglés significan High Availability Disaster Recovery. Es una característica de replicación
de datos que brinda una solución de Alta Disponibilidad cuando surge una falla parcial o total en uno de
los servidores principales. Es una solución que soporta un Servidor como Primario y hasta tres Servidores
como Secundarios. Si el servidor primario falla, uno de los servidores secundarios tomará el control y pasará
a ser ahora el servidor primario. La replicación de la información se hace a través de los archivos log de
transacciones.
Ventajas
• Minimiza el impacto de interrupciones planeada y no planeadas.

• Permite la actualización del software sin interrumpir la operación.
• Para el aplicativo es transparente, no se requiere modificar la aplicación.
• No se requiere Hardware especializado.
• Fácil administración y configuración.

Figura 5.
¿Qué es PureScale?
Es una arquitectura basada en Clúster. Un Clúster es un conjunto de varios ordenadores unidos por una red
de alta velocidad, de tal forma que es visto como un solo computador más potente. Es una característica
de DB2 que reduce el riesgo y los costos del crecimiento del negocio al proporcionar capacidad extrema,
disponibilidad continua y transparente para el aplicativo. Capacidad extrema significa que puede crecer su
sistema como sea necesario.
Ventajas
• Evitar riesgos y costos en cambios a la aplicación.

• Diseñado para sistemas que requieren de disponibilidad continua (24x7). Si uno o varios miembros
fallan la transacción y operación del sistema continua.
• Utiliza la misma arquitectura del indiscutible estándar de Oro, los Sistemas Z.
• Agregar o quitar miembros de una manera fácil.
• No se requiere tunear la infraestructura de la base de datos.
• Balanceo automático de cargas de trabajo.
• Construido y disponible en Power Systems y servidores System x.
• El núcleo del sistema es una arquitectura de disco compartido.

Figura 6.
La implementación de HADR o PureScale dependerá de las necesidades y capacidades de cada empresa.
Otras soluciones han sido implementadas a nivel base de datos para hacer frente a los problemas
de performance. DB2 ofrece una gran variedad de alternativas para hacer frente a los problemas de
performance.
1. DPF (Database Partition Feature). Particionamiento de bases de datos.

2. Table Partitioning. Particionamiento de tablas.
3. MDC (Multi-Dimension Clustering). Convertir tablas en múltiples dimensiones.
Para tener un mejor entendimiento del tema de particionamiento se hace la analogía de la frase “divide y
vencerás”. Es el mismo principio utilizado en estas características de DB2.
Una de las ventajas de estas características es que se hace un aprovechamiento del poder de múltiples
procesadores en múltiples nodos físicos. Los datos que son consultados o modificados son descompuestos
automáticamente y ejecutados en cada una de las particiones. El uso de esta característica es transparente
para el usuario que ejecuta sentencias SQL.
Ventajas
• Menores Entradas/Salidas a disco.

• Se centra en un subconjunto de datos.
• Porciones pequeñas dividida en más procesadores.
• Disponibilidad de datos más rápido.
• Mejor administración.
• Mantenimiento fácil para pequeñas porciones de datos.

¿Qué es DPF (Data Partitioning Feature)?

Es una característica de DB2, la cual permite hacer el particionamiento de base de datos. Con esta
característica se mejora el desempeño y la escalabilidad de grandes bases de datos. Cuando existen grandes
volúmenes de información en una base de datos, esta es una de las soluciones a implementar. Cada partición
de base de datos tiene su propio conjunto de recursos informáticos incluyendo CPU, Memoria y unidades
de almacenamiento. En un ambiente DPF los registros de cada tabla son distribuidos en las diferentes
particiones (DB2 utiliza un algoritmo para determinar en qué partición deberá estar la información). DPF es
una característica de escalabilidad.
Figura 7.
DPF acepta diferentes configuraciones:
1. Discos compartidos.
2. Discos dedicados.
3. Permite el uso de particiones lógicas y físicas.
4. Los comandos para la administración de la base de datos son ejecutados en cada una de las particiones
de forma automática y transparente.
5. Es transparente para el aplicativo.

Figura 8.
¿Qué es Table Partitioning?

Es el mismo concepto que DPF solo que esto aplica para tablas dentro de una base de datos, es decir, es el
particionamiento de los datos de una tabla en un subconjunto de datos. En la mayoría de los casos las bases
de datos conservan información de muchos años atrás (históricos) lo que provoca que al ejecutar consultas
sobre esa tabla el desempeño se vea afectado y el consumo de los recursos sea mucho mayor.
Por ejemplo, si se ejecuta una consulta sobre un millón de registros tardará más que si se realiza sobre
100,000 registros. Supongamos que tenemos la tabla de Ventas la cual contiene 10 millones de registros
correspondiente a las ventas de 10 años (2004, 2005...2014). Si consultamos información del año 2005
probablemente el tiempo de espera para mostrar la información será alto. En cambio si se hace un
particionamiento de las ventas por año, al consultar la información del año 2005 el manejador de la base
de datos solo consultará sobre un millón de registros y no sobre los 10 millones de registros. Dicho de otra
manera el motor de la base de datos consultará solo la partición donde se encentran las ventas del año 2005.
Figura 9.

Ventajas
• Incrementa el desempeño de las consultas.

• Mejor optimización para los costos de almacenamiento.
• Rápida creación y/o eliminación de particionamiento de datos.
• No afecta la disponibilidad de los datos al agregar o quitar particiones.
• Incrementa el tamaño de las tablas. Las tablas están limitadas en almacenar un monto máximo de datos,
utilizando Table Partitioning podemos incrementar el tamaño de la tabla mediante el uso de diferentes
particiones.
¿Qué es MDC (Multi-Dimension Clustering)?

Proporciona un método elegante para permitir que los datos de una tabla puedan ser agrupados físicamente
en varias dimensiones simultáneamente de una manera flexible y automática. Esto puede mejorar mucho el
desempeño de las consultas.
Ventajas
• Reduce el gasto de mantenimiento en los datos tales como reorganizaciones y mantenimiento de

índices durante la creación, eliminación y actualización de datos.
• Pensado inicialmente para Data Warehouse y bases de datos con grandes volúmenes de información,
pero también puede ser utilizado en bases de datos de tipo OLTP.
En ambientes Data Warehouse normalmente las consultas se hacen sobre grandes volúmenes de información
lo que conlleva a tener problemas en los tiempos de respuesta. Las consultas que se realizan siempre van
relacionadas con fechas, cálculos, productos, regiones, tipos, áreas geográficas, etc. Por ejemplo, si nuestras
consultas de Ventas siempre son por “Fecha”, “Tipo de producto” y “Forma de pago” entonces podemos
hacer el uso de MDC para la tabla de Ventas para poder tener un mejor desempeño durante las consultas.
Cuando nosotros realicemos una consulta filtrando por “Fecha del producto” el manejador de la base de
datos utilizará solo una dimensión (un segmento de datos). Si en nuestra consulta utilizamos los filtros por
“Fecha de venta” y “Tipo de producto” entonces el manejador de la base de datos utilizará dos dimensiones
(dos Segmentos de datos) y así sucesivamente. Similar a DPF el motor de la base de datos consultará
segmentos específicos de datos incrementando el desempeño en las consultas.
Figura 10.

Es importante mencionar que podemos hacer una combinación de todas estas características para enfrentar
a los problemas que nos enfrentamos cuando hacemos consultas sobre grandes volúmenes de información.
Hoy en día ya existen otras optimizaciones que se han hecho al motor de DB2, el cual se podrá ver más
adelante.
El segundo punto importante son los problemas comunes a los que se enfrentan las bases de datos y las
empresas, el incremento de los volúmenes de información. Del lado de las bases de datos implica problemas
de desempeño al hacer consultas sobre grandes volúmenes de información y del lado de la compañía
implica incrementos en los costos de almacenamiento. De aquí surge la necesidad de implementar nuevos
mecanismos para reducir los tiempos y costos, y es aquí donde surge el tema de la compresión de datos.
¿Qué es la Compresión de datos?

Es básicamente la reducción del volumen de información utilizando la menor cantidad posible de espacio.
Hay muchas técnicas y algoritmos que se han implementando en las bases de datos, sin embargo una ventaja
competitiva de DB2 es que adicionalmente incluye la compresión de los distintos tipos de objetos.
1. Compresión de registros.
2. Compresión de tablas.
3. Compresión de Índices.
4. Compresión de tablas temporales.
5. Compresión de objetos e imágenes.
6. Compresión de documentos XML.
7. Compresión de Log de transacciones.
8. Compresión de backup.
En este tema se ha avanzado mucho pero DB2 tiene el liderazgo. Ahora con el nuevo concepto de bases
de datos en memoria y con almacenamiento por columnas se puede lograr mayores tasas de compresión,
mejores a las que ya se venían obteniendo en versiones previas.
http://www.ibm.com/developerworks/ssa/data/library/DB2BLU/
Ventajas
• Reduce los costos de almacenamiento.

• Incrementa el performance en las consultas.
• Reduce la Entrada/Salida al disco.
• Reducción de costos de energía.
• Trabajar con datos en memoria y con datos comprimidos.
En la siguiente figura se muestra un ejemplo de cómo se realiza la compresión con base a patrones
de repetición. Para la compresión de datos se utiliza un diccionario donde se almacenará un digito en
hexadecimal que representará los datos que se repiten. Estos dígitos en hexadecimal reemplazarán a los
datos en la tabla.

Figura 11.
Uno de los costos más altos y relevantes es cuando consultamos información con acceso a discos.
Dependiendo de las características del disco será la velocidad con que los datos serán recuperados por la
base de datos y devueltos al usuario final. Al comprimir datos se reducen las Entradas/Salidas al disco,
debido a que con menos acceso al disco se obtendrán mayores volúmenes de información. Existen diferentes
tipos de discos, los discos duros o también llamados discos rígidos que son discos de almacenamiento
de datos no volátil que emplean un sistema de grabación magnética para almacenar datos digitales; y los
discos de estado sólido conocidos como SSD (Solid State Disk) que es un dispositivo de almacenamiento
de datos que puede estar construido con memoria volátil y no volátil. Estos discos son muy rápidos y
consumen menos energía y la tendencia indica que en un futuro sustituirán a los discos duros. Su principal
inconveniente es que son caros.
¿Qué es un Data Warehouse?

Es un almacén de datos que es utilizado para explotar grandes volúmenes de información (entre ellos
información histórica) para efectos de análisis que ayuden a la toma de decisiones en las grandes empresas.
Las bases de datos orientadas a Data Warehouse no contienen datos actuales, es decir, no es una base de
datos transaccional OLTP, es un tipo de base de datos OLAP. Se ha mencionado que las bases de datos
tienen muchos retos y uno de ellos es que no se puede utilizar la misma base de datos para transacciones y
para efectos de análisis. Esto no se puede realizar por las limitantes que se pueden tener con el Hardware,
Software, Memoria, dispositivos de almacenamiento, procesadores, etc. Debido a lo anterior se debe
especificar qué tipo de base de datos debemos utilizar (OLTP u OLAP).
Con las nuevas necesidades y el avance tecnológico se han modificado las bases de datos y también se
han creado nuevas arquitecturas de solución (DB2 10.5 with BLU Acceleration, Informix, PureData for
Analytics entre otros).
Las empresas cuando toman la decisión de crear un Data Warehouse deben realizar un profundo análisis
de la información que desean analizar y conocer cuales serán los datos a migrar. Los datos que alimentan

a un Data Warehouse pueden venir de diferentes fuentes e incluso de diferentes proveedores de bases de
datos. Para hacer la integración de la información se requieren de herramientas que nos permitan hacer la
concentración de la información en el Data Warehouse. Las herramientas son variadas y existen diferentes
proveedores, estas son conocidas como herramientas ETL.
¿Qué es un ETL?
Sus siglas en inglés significan Extract Transform Load. Extract es el proceso de extraer la información que
puede venir de diferentes fuentes de datos o bases de datos de distintos proveedores. Por ejemplo, consolidar
los presupuestos de México y Canadá, cuya información está almacenada en una base de datos Informix y
MySQL respectivamente. A través de una conexión vía ODBC puede hacer la extracción de la información
para concentrarla en el Data Warehouse.
Transform es el proceso de transformar los datos que se están extrayendo antes de ser almacenados
en el Data Warehouse. Tomando el ejemplo anterior, la transformación sería hacer los cálculos de los
presupuestos de México y Canadá por año, mes y región.
Por último, el Load es el proceso de la carga de los datos ya transformados hacia el Data Warehouse. En el
ejemplo anterior estamos almacenando los presupuestos ya calculados de las regiones México y Canadá por
año, mes y región.
Figura 12.
Una herramienta que ayuda en este tipo de actividades es el producto de IBM InfoSphere DataStage.
http://www-03.ibm.com/software/products/en/ibminfodata/
¿Qué es un Data Mart?

Es simplemente un subconjunto de datos de un Data Warehouse para un área específica. En un Data
Warehouse se tiene la información concentrada de una empresa y de todos los departamentos. Los Data
Mart nos permiten hacer una separación de los datos para funciones específicas, usuarios específicos y
áreas específicas. La información que alimenta a un Data Mart también pueden provenir de una base datos
transaccional. Esta es una de las nuevas características del producto DB2 10.5 with BLU Acceleration. La

administración simple de DB2 10.5 with BLU Acceleration permite generar Data Mart de una forma rápida
para ser capaz de reaccionar a los requerimientos del negocio. DB2 también permite la ejecución de reportes
analíticos en tiempo real para ayudar a la toma de decisiones.
Figura 13.
http://www-01.ibm.com/software/data/db2/linux-unix-windows/db2-blu-acceleration/
¿Qué modelo de datos se utiliza en un Data Warehouse o Data Mart?

El modelo de datos que se utiliza en una base de datos de tipo OLTP es un modelo relacional donde
existe una relación de datos de cero a uno, de uno a uno y de uno a muchos. Para relacionar y explotar la
información en un modelo relacional se requiere de la creación de índices primarios y compuestos que en un
ambiente Data Warehouse no es viable por el volumen de información que se utiliza. Los bases de datos para
Data Warehouse o Data Mart manejan muchos volúmenes de información y dependiendo del diseño de cada
una de estas, los datos ya estarán calculados o precalculados lo que permite que los tiempos de respuestas
sean mucho mejor. Uno de los modelos comúnmente utilizados es el modelo Star Schema o un esquema
en estrella. Un esquema en estrella es aquel que tiene una tabla de hechos también llamada Fact Table y
alrededor sus dimensiones. Las dimensiones están relacionadas a la tabla de hechos a través de una llave
primaria. Este tipo de esquema es ideal para bases de datos de tipo OLAP y Data Mart por su simplicidad y
la velocidad para hacer análisis. DB2 tiene muchas optimizaciones internas para hacer el uso de este tipo de
esquemas. Por ejemplo ha implementado el uso del nuevo método Zigzag.

Figura 14.
Informix Warehouse Accelerator - IWA

Sus siglas en inglés son Informix Warehouse Accelerator el cual es un optimizador de cargas de
trabajo que permite la integración en los procesos operacionales para conducir estrategias ganadoras.
Acelera las consultas con tiempos de respuestas sin precedentes. El IWA es una tecnología de
vanguardia para mejorar el performance y ofrece las siguientes capacidades:
1. Compresión extrema necesaria porque la memoria RAM es el factor limitante.

2. Base de datos por renglón para cargas de datos transaccionales (OLTP) y por Columna para accesar a
datos vía el acelerador para OLAP.
3. Tercera generación de bases de datos en memoria. Evita la Entrada/Salida al disco debido a que la
compresión permite tener los datos residentes en memoria.
4. Frecuencia de particionamiento. Habilitado para el acceso efectivo de los datos comprimidos.
5. Paralelismo masivo. Todos los procesadores son utilizados en las consultas.
6. Evaluación de predicados con datos comprimidos lo que incrementa el desempeño en las consultas.
7. Actualización automática a nivel de partición lo cual permite refrescar en los Data Mart solo los datos
que han cambiado.
8. Soporte para datos de series de tiempos. Se pueden analizar en memoria los datos que vienen de
censores inteligentes, medidas, localización GPS, u otros dispositivos en tiempo real.

Figura 15.
¿Qué son los PureSystem?

Son una nueva clase de sistemas integrados expertos que están diseñados, prefabricados, configurados y
optimizados para ejecutar cargas de trabajo muy complejas y especificas. Las ventajas que ofrecen este tipo
de sistemas son:
1. Construido con base a la colección de conocimientos colectivos de miles de implementaciones, mejores

practicas, experiencia de socios de negocios y proveedores.
2. Integrados por diseño. Todos los componentes de Hardware y Software están perfectamente integrados
y sincronizados para las cargas de trabajo que va a ejecutar.
3. Proporciona una perfecta sincronía entre el Hardware y Software ya que vienen previamente diseñados,
integrados, configurados. Al instalarlo y conectarlo a la red usted tiene un sistema listo para operar.
4. Se obtiene valor en cuestión de días ya que la experiencia de los expertos está incorporada junto con la
integración de los sistemas.
Familia de los PureSystem

Existen tres familias de PureSystem los cuales están diseñados para dar solución a los problemas que
enfrentan los diferentes tipos de cargas de trabajo, cambiando la economía y la experiencia de las
tecnologías de la información.
• PureFlex: Estos sistemas proporcionan servicios de infraestructura y permiten construir su propia

aplicación o entornos de infraestructura en un entorno escalable, de alta disponibilidad y fácil de
mantener. Si hay solo una plataforma y desea construir cualquier aplicación independientemente de los
sistemas que tenga, PureFlex es la solución.

• PureApplications: Esta basado en los mismos principios de PureFlex y proporciona servicios de

plataforma. Se integra todo el Software y las herramientas que se necesitan para construir una
plataforma de aplicaciones altamente escalable. El objetivo es ofrecer una plataforma de aplicaciones
tipo Web. Si usted tiene aplicaciones Web o aplicaciones que utilizan memoria y tienen interacción con
la base de datos entonces PureApplications es la solución.
• PureData: Por ultimo, estos sistemas son desarrollados para ofrecer servicios de datos a las aplicaciones
independientemente de que se trate de aplicaciones transaccionales como punto de venta o CRM, o
sistemas de análisis como perdida de clientes y/o administración de campañas. Para datos específicos,
aplicaciones OLTP, aplicaciones y sistemas de análisis profundo entonces PureData es la solución.
Cuando hablamos de los sistemas PureData tenemos diferentes dispositivos PureData, porque sus
aplicaciones de datos, el acceso a los tipos de datos y las transacciones son muy diferentes. Y es aquí donde
se ofrecen nuevos dispositivos.
Figura 16.
Sistemas PureData para Hadoop

Este dispositivo está optimizado para almacenar, catalogar, analizar y transformar grandes volúmenes
de información en muchos formatos diferentes. También se puede utilizar para mantener mayores datos
relacionados que se acceden con menor frecuencia desde un Data Warehouse, por lo tanto mantiene un fácil
acceso sin ocupar espacio y recursos en el Data Warehouse. Optimizado también para el analizar archivos en
línea.

http://www-01.ibm.com/software/data/puredata/hadoop/
Sistemas PureData para transacciones

Este dispositivo está diseñado para el comercio electrónico, comercio Web transaccional. Como por
ejemplo, las aplicaciones puntos de venta donde se escanea un código y a través de ese él se determina su
precio. También conocido como servicios de cluster de bases de datos optimizado para el rendimiento y
escalabilidad transaccional.
http://www-01.ibm.com/software/data/puredata/transactions/
Sistemas PureData para analíticos

Este dispositivo tiene una optimización diferente debido a que hay una interacción con la base de datos, con
la memoria, y optimiza de forma diferente las cargas de trabajo para análisis y Data Warehouse. Esto es para
aplicaciones como el análisis de clientes, análisis predictivo, alta velocidad de análisis en datos (petabyte)
con la máxima simplicidad. Esto está desarrollado con la Tecnología de Netezza. El sistema N200x sigue
ofreciendo:
1. Mismas optimizaciones para grandes volúmenes de datos.

2. Ninguna administración táctil.
3. Más de 150 funciones analíticas optimizadas.
4. Rendimiento optimizado de análisis de Big Data.
5. Administración sencilla para un despliegue rápido y fácil.
6. Tres veces más rápido que el modelo N1001.
7. 50% más de capacidad de datos por rac. Esto ayuda a optimizar la eficiencia del Data Center sin
incrementar la potencia o los requisitos de refrigeración.
http://www-01.ibm.com/software/data/puredata/analytics/
Sistemas PureData para análisis de operaciones

Este dispositivo da una solución como mezcla de la información de lo que usted tiene, lo que usted sabe
y los análisis, pero usted tiene búsquedas puntuales. Por ejemplo, si usted esta buscando la detección de
un fraude en tiempo real en el que está haciendo profundas exploraciones a muchos datos e identifica que
puede haber problema en algunos registros, usted luego realiza una búsqueda puntual a esos registros. Está
optimizado para equilibrar el alto rendimiento para el análisis de datos y optimizado para equilibrar el
rendimiento operativo en tiempo real.
http://www-01.ibm.com/software/data/puredata/operationalanalytics/
Cuando se tiene un número de consultas puntuales de tipo transaccional se debe inclinar hacia los sistemas
PureData para Análisis de Operaciones. Si necesita consultas muy complejas de alta velocidad entonces se
debe inclinar por PureData para Analíticos (Este es el sistema basado en Netezza).
La tendencia – Bases de datos en Memoria

Como hemos visto, conforme pasa el tiempo las necesidades del negocio cambian y crecen, por lo tanto
se han agregado nuevas características a las bases de datos para hacer frente a los problemas de alta

disponibilidad, desempeño, seguridad, ahorros en almacenamiento, etc. Uno de los recursos más costoso
es el almacenamiento de la información y hoy con el nuevo concepto de Big Data la necesidad de manejar
grandes volúmenes de información se ha incrementado. El acceso a disco es el acceso más lento para obtener
la información. Actualmente el costo de la memoria ha disminuido y la tendencia es hacer un mejor uso
de la misma porque se ha demostrado que el área principal de una base de datos para obtener un mejor
desempeño es la memoria, al tener los datos en memoria, el acceso a la información se realiza de una manera
más rápida. Las bases de datos cuando buscan la información en el disco para después subirla a memoria
genera cuellos de botella, esto dependerá también del tipo de disco que se tenga. En la sección previa se
comentó que el uso de discos de estado sólido SSD es también la tendencia, pero por el momento son muy
costosos y no es una solución viable para muchas empresas.
Para hacer frente al mejor uso de la memoria y entregar mejores resultados en bases de datos OLAP, en
DB2 e Informix se han agregado nuevas características que permiten no solo tener los datos en memoria
sino que también permite obtener mayores tasas de compresión de datos, lo cual permite manipular mayores
volúmenes de información. La tendencia es tener más datos en memoria de manera comprimida, con lo
anterior se reduce el acceso a disco y se incrementa el desempeño para el análisis de la información.
http://www-01.ibm.com/common/ssi/cgi-bin/ssialias
Tipos de OLAP
ROLAP
Sus siglas en inglés significan Relational OLAP. En ROLAP los datos son almacenados en un Star Schema
con tablas de Hechos y Dimensiones. Las consultas SQL analíticas tienen un gran número de Joins, Scan y
enormes cantidades de datos agregados. Por ejemplo DB2 Cube Views y Cognos Framework Manager with
Relational Datasource.
Figura 17.
MOLAP
Sus siglas en inglés significan Multidimentional OLAP. Es la descripción de un servidor OLAP que
almacena el cubo completo OLAP en memoria. Normalmente las agregaciones son precalculas y
almacenadas en memoria. Esto trae como resultado respuestas muy rápidas a consultas de datos y permite
una alta concurrencia en ejecución de consultas. Ejemplo Cognos Power Cubes, Cognos TM1 y Essbase.

Figura 18.
HOLAP
Sus siglas en inglés significan Hybrid OLAP. Como sus siglas lo indican es una combinación de ROLAP Y
MOLAP. Combina muchas de las características de ROLAP Y MOLAP donde no existe límite del tamaño
de datos como ROLAP y proporciona todas las capacidades para obtener detalles de la información, con una
alta concurrencia y alto rendimiento para los datos solicitados. Si los datos solicitados están en cache no se
realiza la consulta en la base de datos, de lo contrario la consulta se ejecutará en la base de datos. Ejemplos
Cognos 10.1.1 DMR y Cognos Dynamic Cubes.
Figura 19.

¿Qué es IBM BLU Acceleration for Cloud?

Es una solución de Data Warehouse y Análisis en la Nube. El concepto de Nube de una manera simple son
los servicios informáticos que se ofrecen a través de Internet. Una de las ventajas de estas arquitecturas
es que las empresas ya no requieren de una infraestructura propia y permite a los usuarios accesar a las
aplicaciones desde cualquier punto donde se encuentren. Para los programadores permite el rápido desarrollo
de aplicaciones.
http://bluforcloud.com/
¿Qué es Cloudant?
Es una base de datos de como servicio (DBaaS) la cual permite centrarse en el desarrollo rápido de
aplicaciones en Internet y aplicaciones móviles en lugar de preocuparse por la expansión y gestión de la
base de datos por su cuenta. Tiene alta disponibilidad, es duradera y contiene amplias funciones. El almacén
de datos se construye para la escalabilidad y está optimizada para lecturas y escritura de datos simultáneas.
Maneja también una amplía variedad de tipos de datos estructurados y no estructurados entre ellos JSON,
textos completos y geoespacial.
Figura 20.
https://cloudant.com/
La base de datos Cloudant es la primera plataforma de gestión de datos para aprovechar la disponibilidad,
escalabilidad, y el alcance de la Nube para crear una red de distribución global de datos (DDN) que permita
a las aplicaciones estar disponibles para los usuarios donde quiera que se encuentre.
Figura 21.
¿Qué es JSON?
Sus nomenclaturas en inglés significan JavaScript Object Notation, el cual es un formato ligero para el
intercambio de datos. JSON está basado en un subconjunto del lenguaje de programación JavaScript. Su
simplicidad ha hecho que su uso se esté ampliando, algo similar al manejo de datos tipo XML donde es

fácil de implementar, de leer y de utilizar. También es independiente del lenguaje de programación ya que
muchos lenguajes tienen características para mapear con JSON. Se emplea en ambientes donde el flujo
de los datos es de vital importancia como por ejemplo Google, Yahoo, etc. que atienden a millones de
usuarios. JSON está soportado en DB2 10.5 e Informix 12.1 con el cual se permite guardar, consultar y
actualizar documentos. Combina datos desde otros sistemas con datos tradicionales en la misma base de
datos, como por ejemplo las aplicaciones Web o móviles. JSON da el poder a los programadores de reducir
la dependencia de las tecnologías de la información, es decir, no se necesitan crear esquemas y tampoco
tablas. Ejemplo de un simple documento:
{
"nombre" :"Daniel",
"apellido" :"Anguiano",
"edad" : "40",
"direccion":
{
"calle" :"Prados 100",
"ciudad :"Mexico",
"cp" :"52034"
},
"telefono" :
[
{
"tipo" :"celular",
"numero" :"5564239823"
}
{
"tipo" :"trabajo",
"numero" :"5553706234"
}
]
}
La importancia de JSON es que ayuda a habilitar la nueva era de aplicaciones móviles, sociales y Nube
convirtiéndose así en uno de los lenguajes para la Web. Solo soporta seis tipos de valores y son:
1. Cadena (String)
2. Numérico
3. Booleano
4. Valores especiales como el valor “nulo”
5. Objetos
6. Arreglos
No soporta estructuras de datos cíclicos, es decir, utilizar un conjunto de acciones que se pueden ejecutar una
o varias veces (Para “For 1 to 10…” , Mientras “While v_cont 100…”, Repetir “Repeat … ” ).
Internet de las cosas (IoT)

Hoy, el mundo esta híper conectado con diferentes fuentes de información (redes sociales, unidades móviles,
censores y todo lo que está a nuestro alrededor) lo que está provocando estar en contacto con mucha
información. Todo este mundo de información hace el Internet de cosas creando nuevas oportunidades en
muchas áreas. El objetivo no es almacenar grandes volúmenes de información sino actuar sobre la misma a
través del análisis de una forma rápida para el aprovechamiento de la misma. El objetivo es darle valor a la
información para ofrecer lo que quiere el consumidor, para identificar fraudes, optimizar reabastecimiento

de inventarios, etc. El Internet esta accesible 24x7 los 365 días del año y la información está ahí como una
oportunidad de hacer negocio. Este mundo de información no puede ser explotada por cualquier manejador
de base de datos lo cual hace complicado el manejo y análisis de este mundo de información. Las razones
son las siguientes:
1. Los datos son generados de diferentes sistemas, con formatos complejos, diferentes fuentes y tipos de
datos, estructurados, no estructurados y vienen de diferentes contextos.
2. Son difíciles de analizar por el volumen de información, requieren más procesamiento, modelado de
datos, análisis complejo de textos y correlación de datos a través de los distintos.
3. Usted necesita ser capaz de visualizar la información para actuar sobre ella. Se requieren sofisticados
algoritmos de búsqueda para tomar decisiones.
IBM Informix – Base de datos inteligente para IoT

IBM Informix es una base de datos inteligente para resolver los problemas de IoT. Sus características
únicas le permiten que funcione en dispositivos periféricos y también en la Nube. En la Nube, Informix
tiene la escalabilidad y el rendimiento para servir como plataforma de análisis avanzados que consolidan
la información de millones de dispositivos. También tiene la capacidad de proporcionar inteligencia local:
Consolidación de datos locales, análisis y toma de decisiones locales, tiene el almacenamiento en cache
si es necesario, el control y la replica a la nube para copias de seguridad y recuperación. Donde quiera
implementarlo obtendrá facilidad de uso, estabilidad y un conjunto de características que la convierten en la
solución de base de datos “Simplemente Potente” para Internet.
Figura 22.
Conclusión
El tema de bases de datos es muy amplio de explorar y difícil de seleccionar cuál es la mejor arquitectura
a utilizar. Normalmente se separan las bases de datos para operaciones Transaccionales y para Analíticos.

Es necesario hacer un buen análisis del tipo de operación que se va a ejecutar en la base de datos para
poder elegir la arquitectura más adecuada y así realizar un buen uso de las capacidades de las bases de
datos para obtener los mejores resultados. Para las compañías es difícil mantener un equilibrio entre
invertir en Hardware y Software. Ya hemos visto diferentes tipos de soluciones que se adaptan a los
distintos giros de empresas. La compresión de datos, el manejo de grandes volúmenes de información
(Estructurados y No Estructurados), datos en memoria, lenguajes de programación que utilizan sentencias
SQL y NoSQL, sistemas híbridos (Transaccionales y Analíticos), reducción de costos de almacenamiento
y los tiempos mínimos de respuesta para obtener un resultado han sido los motivos para el desarrollo de
nuevas arquitecturas a nivel Software y Hardware.
Referencias
Information Center DB2 10.5
DB2 with BLU Acceleration
DB2 PureScale
DB2 High Availability
Data Warehouse Analytics
Big Data and Analytics
PureSystem

Sobre el autor
Jorge Daniel Anguiano Morales
Jorge Daniel Anguiano M. se desempeña como Database Migration Specialist para

Information Management en IBM para México y Latinoamérica y ha trabajado 17 años
con distintas Tecnologías de la Información como Analista, Diseñador, Desarrollador e
Implementador de Sistemas. Cuenta con certificaciones en IBM DB2 para LUW de la versión
9.7 - 10.1, IBM IT Specialist, OPEN Group Master IT Specialist y OCP en Oracle. Para
contactar al autor envíe correo a janguian@mx1.ibm.com
© Copyright IBM Corporation 2014

(www.ibm.com/legal/copytrade.shtml)
Marcas
(www.ibm.com/developerworks/ssa/ibm/trademarks/)

Tipos Bases de Datos PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Tipos Bases de Datos PDF

Hochgeladen von

Copyright:

Verfügbare Formate

Características y tipos de bases de datos

Jorge Daniel Anguiano Morales (janguian@mx1.ibm.com) 30-06-2014

¿Qué es una base de datos?

Tipos de bases de datos

© Copyright IBM Corporation 2014 Marcas

Características y tipos de bases de datos Pagina 2 de 25

Tipo de información que se puede almacenar

Características y tipos de bases de datos Pagina 3 de 25

Con la evolución en las tecnologías de la información y las nuevas necesidades en el manejo de la

Información a través del tiempo

Características y tipos de bases de datos Pagina 4 de 25

1. Problemas de espacio en disco.

Uno de los principales problemas a solucionar es la disponibilidad y la pérdida de la información. En DB2

1. HADR (High Availability and Disaster Recovery) – Alta disponibilidad

• Minimiza el impacto de interrupciones planeada y no planeadas.

Características y tipos de bases de datos Pagina 5 de 25

• Evitar riesgos y costos en cambios a la aplicación.

Características y tipos de bases de datos Pagina 6 de 25

La implementación de HADR o PureScale dependerá de las necesidades y capacidades de cada empresa.

1. DPF (Database Partition Feature). Particionamiento de bases de datos.

• Menores Entradas/Salidas a disco.

Características y tipos de bases de datos Pagina 7 de 25

¿Qué es DPF (Data Partitioning Feature)?

DPF acepta diferentes configuraciones:

Características y tipos de bases de datos Pagina 8 de 25

¿Qué es Table Partitioning?

Características y tipos de bases de datos Pagina 9 de 25

• Incrementa el desempeño de las consultas.

¿Qué es MDC (Multi-Dimension Clustering)?

• Reduce el gasto de mantenimiento en los datos tales como reorganizaciones y mantenimiento de

Características y tipos de bases de datos Pagina 10 de 25

¿Qué es la Compresión de datos?

• Reduce los costos de almacenamiento.

Características y tipos de bases de datos Pagina 11 de 25

¿Qué es un Data Warehouse?

Características y tipos de bases de datos Pagina 12 de 25

¿Qué es un Data Mart?

Características y tipos de bases de datos Pagina 13 de 25

¿Qué modelo de datos se utiliza en un Data Warehouse o Data Mart?

Características y tipos de bases de datos Pagina 14 de 25

Informix Warehouse Accelerator - IWA

1. Compresión extrema necesaria porque la memoria RAM es el factor limitante.

Características y tipos de bases de datos Pagina 15 de 25

¿Qué son los PureSystem?

1. Construido con base a la colección de conocimientos colectivos de miles de implementaciones, mejores

Familia de los PureSystem

• PureFlex: Estos sistemas proporcionan servicios de infraestructura y permiten construir su propia

Características y tipos de bases de datos Pagina 16 de 25

• PureApplications: Esta basado en los mismos principios de PureFlex y proporciona servicios de

Sistemas PureData para Hadoop

Características y tipos de bases de datos Pagina 17 de 25

Sistemas PureData para transacciones

Sistemas PureData para analíticos

1. Mismas optimizaciones para grandes volúmenes de datos.

Sistemas PureData para análisis de operaciones

La tendencia – Bases de datos en Memoria

Características y tipos de bases de datos Pagina 18 de 25

Características y tipos de bases de datos Pagina 19 de 25

Características y tipos de bases de datos Pagina 20 de 25

¿Qué es IBM BLU Acceleration for Cloud?

Características y tipos de bases de datos Pagina 21 de 25

Internet de las cosas (IoT)

Características y tipos de bases de datos Pagina 22 de 25