Sie sind auf Seite 1von 46

IBM InfoSphere DataStage

Versin 9 Release 1

Introduccin a IBM InfoSphere


DataStage



GC11-8311-00
IBM InfoSphere DataStage
Versin 9 Release 1

Introduccin a IBM InfoSphere


DataStage



GC11-8311-00
Nota
Antes de utilizar esta informacin y el producto al que da soporte, lea la informacin de la seccin Avisos y marcas
registradas en la pgina 31.

Copyright IBM Corporation 2011, 2012.


Contenido
Captulo 1. Visin general de InfoSphere Planificacin de trabajos . . . . . . . . . . 19
DataStage . . . . . . . . . . . . . . 1 Supervisin de trabajos . . . . . . . . . . 19
Restablecer trabajos. . . . . . . . . . . . 20
Gestin del rendimiento de trabajos . . . . . . 20
Captulo 2. Estudios de casos . . . . . 3 Resolucin de problemas de trabajos . . . . . . 21
InfoSphere DataStage proporciona datos precisos . . 3
InfoSphere DataStage proporciona una imagen
completa. . . . . . . . . . . . . . . . 4
Captulo 6. Visin general de
InfoSphere DataStage proporciona contexto para los arquitectura . . . . . . . . . . . . 23
datos . . . . . . . . . . . . . . . . . 5
InfoSphere DataStage ofrece un mayor conocimiento Captulo 7. Recursos adicionales . . . 25
de los datos . . . . . . . . . . . . . . 6
Accesibilidad de los productos . . . . 27
Captulo 3. Conceptos clave . . . . . . 9
Etapas . . . . . . . . . . . . . . . . 9 Acceso a la documentacin del
Enlaces . . . . . . . . . . . . . . . . 9
producto y envo de comentarios . . . 29
Trabajos . . . . . . . . . . . . . . . 10
Trabajos de secuencia . . . . . . . . . . . 11
Definiciones de tablas . . . . . . . . . . . 12 Avisos y marcas registradas . . . . . 31
Contenedores . . . . . . . . . . . . . . 13
Proyectos . . . . . . . . . . . . . . . 13 Cmo ponerse en contacto con IBM . . 35

Captulo 4. Diseo de trabajos . . . . 15 ndice . . . . . . . . . . . . . . . 37


Diseo de flujo de datos . . . . . . . . . . 16
Diseo de proceso paralelo . . . . . . . . . 16

Captulo 5. Procesos de ejecucin de


trabajos . . . . . . . . . . . . . . 19

Copyright IBM Corp. 2011, 2012 iii


iv Introduccin a IBM InfoSphere DataStage
Captulo 1. Visin general de InfoSphere DataStage
IBM InfoSphere DataStage es una solucin de integracin de datos que recopila,
transforma y distribuye grandes volmenes de datos, con estructuras de datos que
oscilan entre simples y muy complejas.

InfoSphere DataStage integra datos mediante una infraestructura paralela de alto


rendimiento, la gestin de metadatos ampliados y la conectividad de la empresa.
Tambin da soporte a la integracin de datos en tiempo real y ofrece una
plataforma escalable que permite a las empresas a solucionar problemas
empresariales a gran escala a travs del proceso de alto rendimiento de volmenes
masivos de datos.

Con InfoSphere DataStage, puede conseguir estos objetivos:


v Crear flujos de datos en secuencia visuales utilizando un modelo de flujo de
datos de arriba a abajo para crear y ejecutar aplicaciones. Una paleta grfica
simple pero potente permite representar grficamente el flujo de datos a travs
de su entorno utilizando componentes de diseo de la interfaz de usuario de
arrastrar y soltar.
v Disear flujos de datos que extraen informacin de varios sistemas de origen,
transformar esa informacin de una forma que los datos sean ms valiosos y
luego entregar los datos a una o ms bases de datos o aplicaciones de destino.
v Conectar una amplia variedad de orgenes de datos y aplicaciones utilizando un
conjunto comn de herramientas y habilidades, lo que le permite maximizar la
velocidad, flexibilidad y eficacia en la construccin, el despliegue, la
actualizacin y la gestin de la infraestructura de integracin de datos.
v Aprovechar el cdigo externo utilizando la adaptabilidad y la potencia de un
lenguaje de scripts verstil, potentes funciones de depuracin y una interfaz de
programacin de aplicaciones (API) abierta.

Para iniciar el aprendizaje sobre InfoSphere DataStage, revise los casos de estudio,
conceptos, procesos y arquitectura.

Copyright IBM Corp. 2011, 2012 1


2 Introduccin a IBM InfoSphere DataStage
Captulo 2. Estudios de casos
Los estudios de casos son tiles para obtener informacin sobre InfoSphere
DataStage porque proporcionan ejemplos que muestran cmo se utiliza el producto
en situaciones reales. Tambin exhiben algunas de las formas en que las empresas
se basan en InfoSphere DataStage para lograr sus objetivos empresariales.

InfoSphere DataStage proporciona datos precisos


Las empresas pueden confiar en la amplia gama de conectividad que InfoSphere
DataStage ofrece para suministrar datos precisos de una forma rpida y
estandarizada.

En la economa global, sacar provecho de la informacin se ha convertido en la


clave para el xito de la competencia. Sin embargo, si se intenta gestionar
manualmente un volumen de datos que est almacenado en silos dificultar que
las empresas aprovechen al mximo la informacin para obtener una ventaja
competitiva.

Una empresa de seguro mdico de gran tamao conoce muy bien este desafo. La
misin de la empresa es mejorar el suministro de servicios mdicos haciendo que
la informacin del paciente est disponible en el lugar de atencin mdica. Para
ello, es necesario consolidar, estandarizar y gestionar rpidamente informacin de
diversos socios externos que utilizan una amplia gana de orgenes de datos y
estructuras de datos. Estos socios incluyen compaas aseguradoras, laboratorios,
centros de proceso de informacin de frmacos recetados y proveedor de servicios
sanitarios.

El personal que es responsable de la integracin de datos y de las soluciones de


inteligencia empresarial han desarrollado programas personalizados utilizando
COBOL para facilitar el proceso de integracin. Sin embargo, la codificacin
manual de aplicaciones para llevar a cabo la integracin de datos y los controles de
calidad era muy lenta.

En previsin de que iba a casi duplicar el nmero de pacientes soportados, la


empresa necesitaba una plataforma de integracin de datos que pudiera crear
perfiles, limpiar e integrar informacin de forma rpida y rentable,
independientemente del formato o del origen. Si utiliza InfoSphere DataStage junto
con otros componentes de IBM InfoSphere Information Server la organizacin
podr crear un solo origen de informacin fiable y preciso para llenar su
repositorio de registro de atencin sanitaria, portal clnico y depsito de datos.

El equipo ha podido aprovechar el repositorio de metadatos comn y la interfaz de


usuario de InfoSphere Information Server para combinar los procesos de
extraccin, transformacin y carga (ETL) de InfoSphere DataStage con las funciones
de anlisis de la informacin de InfoSphere Information Analyzer y las
caractersticas de calidad de datos de InfoSphere QualityStage. De esta forma les
permite optimizar sus resultados e implementar una solucin en slo algunas
semanas.

Puesto que esta solucin puede ejecutar procesos en paralelo, el personal puede
realizar anlisis de datos de toda una tabla de base de datos formada por millones
de filas y cientos de columnas en menos de dos horas. Anteriormente esta tarea

Copyright IBM Corp. 2011, 2012 3


habra tardado ms de 24 horas en llevarse a cabo. Entonces la empresa utiliza
InfoSphere DataStage para recopilar, integrar y transformar datos de sus socios y
hacer que los datos estn disponibles para los proveedores, aprovechando las
prestaciones de proceso paralelo de las plataformas de hardware del
multiprocesador para gestionar de forma rpida grandes volmenes de datos.

Poder integrar de forma efectiva informacin independientemente de su origen o


estructura ayuda a esta empresa de servicios sanitarios a prosperar. Como
resultado, esperan hacer realidad un crecimiento de ingresos significativo,
crecimiento que el equipo de inteligencia empresarial podr manejar sin tener que
realizar una gran inversin en recursos.

InfoSphere DataStage proporciona una imagen completa


Las empresas pueden facilitar la toma de decisiones utilizando InfoSphere
DataStage para reconciliar informacin relacionada en una vista nica y global.

Un fabricante de ropa que es una pieza importante en el sector de ropa de alta


costura necesitaba informacin ms rpida y ms procesable para acelerar la toma
de decisiones y para mantener sus procesos en sincronizacin con el mercado que
cambia rpidamente. Para asegurarse de que tienen la mezcla de productos
adecuada en la tienda de venta al detalle en cualquier momento, los fabricantes de
ropa de alta costura no tiene slo que sentir los cambios en los patrones de venta,
sino que tambin necesitan convertir rpidamente esa inteligencia en una serie de
decisiones coordinadas que vayan directamente a la cadena de suministro. Estas
decisiones oscilan entre saber cundo y cunto aumentar o reducir en la
produccin de algunos estilos, tamaos y colores para elegir la combinacin
correcta de modalidades de transporte para equilibrar el apremio en la entrega y el
coste.

Agrupar la informacin que se necesita para tomar decisiones clave era un ejercicio
arduo y que necesitaba mucho tiempo. Los orgenes primarios de los datos estaban
en cinco sistemas distintos en los que la empresa se basaba para ejecutar sus
negocios. Otro origen de datos clave eran los informes de transacciones de
actividades de productos estandarizados que la empresa reciba de su canal
mayorista. Para unificar esta informacin en una imagen coherente y completa de
la situacin, los empleados de distintos departamentos deban integrar
manualmente los datos en hojas de clculo. Slo entonces podan los gestores
tomar decisiones bsicas tales como qu productos enviar a cada tienda, qu
productos solicitar a los proveedores y la mejor manera de obtener nuevos envos
del extranjero.

La ineficacia inherente de este enfoque slo era el principio del problema. Haba
limitaciones en la capacidad de la compaa para tomar decisiones, porque
despus de que los sistemas principales de la compaa generaran los datos,
podran transcurrir hasta dos das para que gestores tuvieran la informacin en un
formato en el que pudieran actuar. Adems de la puntualidad y la transparencia, el
informe privaba a los gestores de los granularidad que era necesaria para tomar
decisiones que podran optimizar sus operaciones de negocio.

Guiar muchas de estas decisiones fue la importancia primordial de alcanzar


compromisos con los minoristas. Para minimizar el riesgo de que se produjeran
entregas con retraso, los gestores a menudo pasaban al transporte areo, que es tres
veces ms caro que el transporte por barco. Adems, las decisiones de
reaprovisionamiento de la tienda fueron obstaculizados por la falta de
granularidad, haciendo que fuera imposible ajustar el producto y la mezcla de

4 Introduccin a IBM InfoSphere DataStage


tallas que se enviaba a las tiendas basndose en las diferencias en patrones de
ventas de tienda en tienda o de regin a regin.

La empresa implement una solucin que utiliza InfoSphere DataStage y otros


productos IBM para mover datos de sus aplicaciones principales a su depsito de
datos. La informacin en tiempo real sobre ventas, inventario y envos se captura
directamente en los sistemas transaccionales principales de la empresa, y la
informacin transaccional de cinco plataformas principales distintas se estandariza
e integra en una nica infraestructura de informes.

La empresa tiene un mtodo de toma de decisiones ms rpido e inteligente a


travs de la disponibilidad de ventas en tiempo real, inventario e informacin de
logstica. El ciclo de suministro de datos se ha reducido de dos das a unos pocos
minutos, y la cadena de suministro y los costes logsticos se han reducido un 30%.
Las ventas han aumentado debido a la capacidad de proporcionar una mezcla de
productos optimizada en la venta al detalle y la marca aparece reforzada gracias al
aumento en la capacidad de respuesta de la empresa en relacin a los cambios en
la moda.

InfoSphere DataStage proporciona contexto para los datos


Las empresas que pueden eliminar la resolucin de problemas redundante
utilizando la simple interfaz de usuario de arrastrar y soltar de InfoSphere
DataStage para entregar informacin relevante en el tiempo real, cundo y dnde
es necesario.

Una empresa de tecnologas y servicios de sistemas importante proporciona un


servicio de mantenimiento que es la oferta clave para ayudar a sus clientes a
alcanzar el nivel ms alto de disponibilidad de la red. Mediante este servicio, los
problemas de la red se reparan en 2,5 horas o menos despus de una notificacin
de anomala.

Un reto al minimizar el tiempo medio para reparar problemas en la red y para


maximizar la productividad del personal ha sido la dificultad para acceder a la
informacin de respuesta de anomala del pasado. Sin tener informacin sobre
problemas anteriores, el personal a menudo ha tenido que diagnosticar problemas
repetitivos a partir de cero. Adems, debido a que la gestin de las partes y el
sistema de asignacin tcnico han funcionado de forma independiente y no estaban
enlazados orgnicamente, las notaciones de cada aplicacin podra variar, causando
ms retrasos.

Al agregar informacin en un solo repositorio ayudar a esta empresa a dotar a


sus tcnicos de informacin fundamental que podra acelerar los tiempos de
reparacin. Para crear un nico depsito de datos, el personal ha tenido que
agregar y gestionar un amplio rango de informacin de varios orgenes. Al mismo
tiempo, los ejecutivos planean utilizar los mismos datos para agilizar los procesos
de distribucin de componentes con los socios comerciales.

Al utilizar InfoSphere Information Server como su plataforma de integracin y


InfoSphere DataStage para implementar el depsito de datos, la empresa ha
logrado sus objetivos en slo cuatro meses.

Al utilizar InfoSphere DataStage, se proporciona informacin, y sta se comparte,


entre las aplicaciones utilizadas en cada tarea. Esta informacin incluye datos sobre
anomalas en la red, informacin de cliente y componentes. Adicionalmente,
InfoSphere DataStage permite compartir instrucciones de distribucin de

Captulo 2. Estudios de casos 5


componentes de mantenimiento, informacin de distribucin y otra informacin
con un socio de distribucin externo. Este intercambio de datos con el socio de
distribucin es crtico y ayuda a garantizar que los materiales de mantenimiento
apropiados lleguen puntualmente al sitio del cliente. Por ejemplo, mediante el uso
de InfoSphere DataStage, el proceso de instrucciones de envo de material de
mantenimiento ahora se produce en tiempo real cercano. Como resultado, el
tiempo de entrega de componentes de sustitucin en el sitio del cliente ha
disminuido de dos horas a una hora, lo que ayuda a reducir el tiempo medio
global necesario para reparar problemas en la red.

Si se utiliza InfoSphere DataStage como parte de una plataforma de integracin de


datos que puede agregar informacin entre varios orgenes de datos y aplicaciones
de destino, esta empresa ha reducido su tiempo medio en reparar problemas en la
red asegurndose de que los tcnicos tengan acceso a informacin del cliente
precisa y completa.

InfoSphere DataStage ofrece un mayor conocimiento de los datos


Las empresas pueden aprovechar la escalabilidad y el rendimiento de InfoSphere
DataStage para derivar el significado de la informacin a medida que dicha
informacin cambia.

Imagine tener un pulso diario en su empresa y saber inmediatamente qu


promociones de ventas funcionan, qu productos han proporcionado la mayor
rentabilidad y qu ubicaciones son ms prometedoras para las nuevas tiendas. Los
ejecutivos en una cadena familiar de tiendas de comestibles saban que este tipo de
informacin podra ayudarles a incrementar el negocio hasta llegar a una empresa
de a 1.000 millones de dlares (USD). Sin embargo, con ms de 6 terabytes de
datos de productos y clientes repartidos entre distintos sistemas y bases de datos,
no podan evaluar fcilmente las operaciones en cada tienda.

La empresa ha utilizado InfoSphere DataStage para integrar datos entre sus 15


tiendas y los sistemas corporativos para permitir compartir informacin fiable y
obtener ms informacin en operaciones. Al hacerlo ahora permite al personal de
la empresa revisar rpidamente y diariamente los niveles de inventario, las ventas
de la tienda y el coste de la mercanca para ver qu productos se estn vendiendo,
cules son ms rentables y qu promociones son ms exitosas. Por ejemplo, si se
utiliza InfoSphere DataStage, los datos de cada sistema de punto de venta en cada
tienda se cargan diariamente en el sistema de consolidacin de ventas basado en
IBM Informix de la empresa, y ayuda a los ejecutivos de la empresa a detectar ms
rpidamente la creciente demanda de productos especficos.

Debido a que el gobierno local de comestibles autoriza precios para muchos


alimentos bsicos, como leche, huevos y pan, la empresa materializa otro beneficio
del flujo uniforme de informacin entre su SAP y los sistemas de punto de venta:
son capaces de actualizar rpidamente los precios en todas las tiendas, segn sea
necesario y confirmar ms fcilmente el cumplimiento de las normativas
gubernamentales.

Al integrar informacin en toda la empresa, la cadena de comestibles ha


materializado un incremento de casi un 30% en los ingresos y un aumento de 7
millones de dlares (USD) en la rentabilidad anual. El director de sistemas (CIO)
atribuye estos aumentos a una mejor gestin del inventario y a la posibilidad de
ajustarse ms rpidamente a las condiciones cambiantes del mercado. Por ejemplo,

6 Introduccin a IBM InfoSphere DataStage


la empresa ha evitado prdidas en alrededor de un 35% de sus productos ahora
que puede planificar las reducciones de precios para vender productos perecederos
antes de que se echen a perder.

Tambin se materializan ahorros con la mejora en la productividad del personal.


Anteriormente, el personal de finanzas poda tardar casi un mes en recopilar
manualmente la informacin de impuestos sobre la venta. Ahora, la informacin
est disponible inmediatamente en el sistema SAP con una simple consulta (una
mejora de ms de un 98%).

Adems, la nueva perspectiva ha ayudado al personal corporativo a comprender


mejor las ventas por ubicacin para determinar dnde construir ms tiendas. De
hecho, la empresa ha abierto satisfactoriamente cuatro nuevas ubicaciones, incluido
un nuevo "supercenter" basndose en los patrones de comportamiento y de
compra.

Captulo 2. Estudios de casos 7


8 Introduccin a IBM InfoSphere DataStage
Captulo 3. Conceptos clave
InfoSphere DataStage proporciona los elementos necesarios para crear flujos de
transformacin e integracin de datos. Estos elementos incluyen etapas, enlaces,
trabajos, definiciones de tablas, contenedores, trabajos de secuencia y proyectos.

Etapas
Las etapas son componentes bsicos de los trabajos de InfoSphere DataStage, y
cada una proporciona un slido conjunto de operadores que ejecutan funciones
especficas. Utilice estas etapas para conectarse a orgenes de datos para leer
archivos o grabar en archivos, as como para procesar datos. Cada etapa es una
representacin grfica de los datos propiamente dichos, o de una transformacin
de los datos.

Las etapas contienen lgica de la aplicacin para determinar cmo se procesan los
datos. Puede especificar las propiedades de cada etapa para definir cmo procesa
la etapa los datos de entrada y salida. Una etapa normalmente tiene al menos una
entrada de datos y una salida de datos. Algunas etapas, como la etapa Lookup,
aceptan varias entradas. Otras etapas, como la etapa Transformer, pueden tener
varias salidas.

IBM InfoSphere DataStage and QualityStage Designer incluye un conjunto de


etapas predefinidas que puede arrastrar de la paleta al lienzo. Estas etapas
predefinidas proporcionan la mayora de la lgica de aplicacin que se utiliza para
desarrollar trabajos ETL. Sin embargo, puede crear sus propias etapas
personalizadas utilizando un kit de herramientas escrito en C++. Adems, el
producto incluye varios tipos de etapas que puede utilizar como plantillas para
crear etapas personalizadas.
Informacin relacionada:
Lista alfabtica de las etapas
Tipos de etapas

Enlaces
Los enlaces unen las etapas de un trabajo y representan el flujo de datos. Los
enlaces son los conductos por los que los datos se mueven de una etapa a otra.

Los enlaces especifican cmo los datos fluyen de una etapa a otra. En los trabajos,
el proceso de datos se produce en los enlaces que conectan cada etapa, de modo
que los valores (incluidos los metadatos que elija) se quedan con el enlace si se
aaden o suprimen etapas. InfoSphere DataStage utiliza cuatro tipos de enlaces:
Enlaces de entrada
Los enlaces de entrada conectan orgenes de datos con etapas, lo que
indica un flujo de datos primario. Los enlaces de entrada se visualizan
como una lnea slida.
Enlaces de salida
Los enlaces de salida transportan datos procesados de una etapa a otra
etapa, base de datos u otro archivo de salida otros. Los enlaces de salida se
visualizan como una lnea slida.

Copyright IBM Corp. 2011, 2012 9


Enlaces de referencia
Los enlaces de referencia son un tipo de enlace de salida, lo que indica que
se estn produciendo bsquedas de la tabla. Estos enlaces son
normalmente de entrada para las etapas Transformer y Lookup, que
definen donde existe la tabla de bsqueda. Los enlaces de referencia se
visualizan como lneas de puntos.
Enlaces de rechazo
Los enlaces de rechazo son un tipo de enlace de salida que direccionan los
datos rechazados a una etapa de destino. Estos enlaces son tiles para
identificar los errores o para capturar datos que no cumplen la lgica
empresarial que ha definido en el trabajo. Los enlaces de rechazo se
visualizan como una lnea con guiones.
Informacin relacionada:
Utilizacin de enlaces
Enlace de etapas

Trabajos
Los trabajos incluyen los objetos de diseo y elementos compilados mediante
programa que pueden conectarse a orgenes de datos y, a continuacin, extraer,
transformar y cargar los datos en un sistema de destino. Los trabajos se crean
dentro de un paradigma visual que promueve la comprensin del objetivo del
trabajo.

Puede combinar etapas y enlaces en los trabajos para representar el flujo de datos a
travs de InfoSphere DataStage. En un trabajo, las etapas representan orgenes de
datos (entrada), las transformaciones necesarias y el destino del destino de datos
(salida). Los enlaces indican la va de acceso de los datos desde la entrada, a travs
de cada transformacin, hasta la salida. Los trabajos pueden tener varias entradas,
transformaciones y salidas.

origen de destino
transformacin de datos
datos

Figura 1. Un ejemplo de un trabajo simple

10 Introduccin a IBM InfoSphere DataStage


Informacin relacionada:
Iniciacin a los trabajos
Creacin de un trabajo nuevo
Creacin de un trabajo a partir de una plantilla

Trabajos de secuencia
Los trabajos de secuencia son un tipo de trabajo que se utiliza para crear un flujo
de trabajos que ejecuta trabajos en un orden especfico. Este tipo de trabajo se ha
llamado anteriormente una secuencia de trabajos.

Utilizando trabajos de secuencia puede crear diseos de trabajos ms complejos.


Por ejemplo, puede completar las siguientes actividades utilizando los trabajos de
secuencia:
v Compilar controles mediante programa, como ramificaciones o bucles
v Especificar distintos procedimientos a realizar en funcin de si un trabajo del
trabajo de secuencia es satisfactorio o falla
v Ejecutar mandatos del sistema o enviar correos electrnicos
v Manejar excepciones para anomalas del trabajo, como transferir el control a una
rama de flujo de trabajo especfico si algn trabajo de la secuencia falla

Algunos de los componentes que se utilizan en un trabajo de secuencia difieren de


los componentes que se utilizan en un trabajo tpico. Por ejemplo, puede utilizar
etapas para crear un trabajo. En un trabajo de secuencia, puede utilizar las
actividades, como trabajos paralelos o de servidor. De forma similar, puede utilizar
enlaces en un trabajo, pero en un trabajo de secuencia utilizar desencadenantes
para definir el flujo de control.

La figura siguiente representa un trabajo de secuencia simple que contiene tres


actividades de trabajo. Cada una de estas actividades representa un trabajo o un
flujo de trabajos. La primera actividad, Demo, est enlazada a otras dos
actividades. Si el trabajo Demo se ejecuta satisfactoriamente, desencadenar la
actividad OvernightRun. Si el trabajo Demo falla, desencadena la actividad de
trabajo Failure.

Captulo 3. Conceptos clave 11


Overnightrun
satisfactorio

Demo error

Failure

Figura 2. Un ejemplo de un trabajo de secuencia

Puede crear trabajos de secuencia ms complejos que incluyen ms condiciones.


Tambin puede crear una rutina de control de trabajo que controle otros trabajos
desde el trabajo actual. Por ejemplo, puede crear una rutina de control de trabajo
que planifica dos trabajos, espera a que terminen de ejecutarse, prueba su estado y
despus planifica la ejecucin de un tercer trabajo.
Informacin relacionada:
Creacin de secuencias de trabajo
Creacin de una secuencia de trabajos
Actividades
Desencadenantes

Definiciones de tablas
Las definiciones de tabla contienen informacin sobre los datos de origen y de
destino, como por ejemplo el nombre y la ubicacin de las tablas o los archivos
que contienen los datos. Puede conectar definiciones de tabla a enlaces, que
tambin contienen metadatos sobre los datos que se mueve entre etapas.

Las definiciones de tablas tambin contienen informacin sobre la estructura de los


datos. Dentro de una definicin de tabla hay definiciones de columnas, que
contienen informacin sobre los nombres de columna, la longitud de columna, el
tipo de datos, y otras propiedades de columna, tales como claves y valores nulos.

Las definiciones de tablas se almacenan en el repositorio de metadatos y se pueden


utilizar en varios trabajos de InfoSphere DataStage. Tambin puede utilizar
metadatos de definicin de tabla para facilitar la gestin de datos. Por ejemplo,
cuando los usuarios empresariales o de tecnologas de la informacin necesitan
comprender cmo fluyen los datos a travs de los sistemas de la empresa, puede

12 Introduccin a IBM InfoSphere DataStage


realizar un anlisis de impacto para identificar cambios relevantes para la
infraestructura de tecnologas de la informacin y la filiacin de datos.
Informacin relacionada:
Configuracin de propiedades para definiciones de tabla
Definiciones de tabla dentro de trabajos paralelos

Contenedores
Los contenedores son objetos reutilizables que se crean para contener agrupaciones
de etapas y enlaces. Los contenedores promueven la reutilizacin lo que permite
utilizar el mismo conjunto de lgica varias veces a la vez que se reduce el
mantenimiento. Si utiliza contenedores, puede simplificar el diseo de trabajos
sustituyendo secciones complejas de un trabajo por un solo contenedor.

Cuando los requisitos empresariales se implementan mediante varias etapas, los


contenedores pueden ayudar a centrarse en subconjuntos del diseo de trabajos y
permiten profundizar en ese detalle.

Si el trabajo tiene varias etapas y enlaces, puede crear contenedores para describir
una secuencia concreta de pasos dentro del trabajo. Los contenedores se enlazan
con otras etapas o contenedores del trabajo mediante las etapas de entrada y de
salida.

InfoSphere DataStage da soporte a dos tipos de contenedores. Puede utilizar una


mezcla de estos contenedores dentro del mismo trabajo.
Contenedores locales
Los contenedores locales simplifican el diseo de trabajos, aunque se
pueden utilizar nicamente en un trabajo. Sin embargo, puede tener ms
de un solo contenedor local dentro de un trabajo.
Contenedores compartidos
Los contenedores compartidos facilitan la reutilizacin porque se pueden
utilizar para hacer que los componentes de trabajo comunes estn
disponibles en todo el proyecto. Por ejemplo, puede crear un contenedor
compartido que contenga una etapa y sus metadatos asociados, y despus
aadir el contenedor compartido a la paleta. A continuacin, podr utilizar
este contenedor compartido en otros trabajos.
Puede crear un contenedor compartido a partir de cero, o puede colocar un
conjunto de etapas y enlaces existentes dentro de un contenedor
compartido. Al igual que los contenedores locales, puede tener uno o ms
contenedores compartidos dentro de un trabajo.
Informacin relacionada:
Contenedores locales
Contenedores compartidos
Desarrollo modular

Proyectos
Los proyectos son un mtodo de organizar el trabajo. Puede especificar archivos de
datos, definir etapas y construir trabajos en un proyecto especfico.

Captulo 3. Conceptos clave 13


Un proyecto puede contener uno o ms trabajos, incluidos los metadatos asociados
a cada trabajo. Cualquiera de los objetos de metadatos de un proyecto (como
trabajos o definiciones de tabla) pueden agruparse lgicamente y organizarse en
carpetas.

Puede definir seguridad en el nivel de proyecto de modo que slo los usuarios que
estn autorizados para el proyecto puedan acceder a los trabajos. Las necesidades
de seguridad de la organizacin estipulan el acceso a los proyectos.
Informacin relacionada:
Pgina Proyectos
Configuracin de un proyecto

14 Introduccin a IBM InfoSphere DataStage


Captulo 4. Diseo de trabajos
Puede utilizar un trabajo para extraer, transformar, cargar o comprobar la calidad
de los datos. La creacin de trabajos en InfoSphere DataStage empieza con un buen
diseo que se basa en una buena comprensin de los requisitos de integracin de
datos.

Un diseo de trabajo son los metadatos que definen los orgenes y destinos que se
utilizan dentro de un trabajo y la lgica que opera en los datos asociados. Un
diseo de trabajo est formado por etapas y los enlaces entre esas etapas. Es decir,
cada origen de datos y cada paso de transformacin son etapas en el diseo del
trabajo, y las etapas se conectan mediante enlaces para mostrar el flujo de datos.

El flujo bsico en el diseo y desarrollo de un trabajo incluye los pasos siguientes:


1. Aadir las etapas de entrada y salida.
2. Aadir etapas de transformacin.
3. Utilizar enlaces para conectar las etapas.
4. Cargar definiciones de tablas en etapas de origen y otras etapas, segn sea
necesario.
5. Aadir propiedades de archivo de origen de datos.
6. Aadir propiedades de archivo de destino de datos.
7. Editar etapas de transformacin segn sea necesario, en funcin de sus tipos.
8. Guardar y compilar el trabajo.
9. Ejecutar y supervisar el trabajo.
10. Revisar el registro.

Antes de empezar a disear un trabajo, considere cuidadosamente los siguientes


puntos:
Entender la finalidad del trabajo
Para utilizar InfoSphere DataStage, es importante aplicar una metodologa
estructurada para recopilar requisitos.
Un requisito puede ser tan simple como la carga de un archivo en una
base de datos. Un requisito distinto podra ser eliminar los registros
duplicados del archivo antes de cargarlos en la base de datos. Un requisito
ms complejo podra ser unir datos de tres bases de datos distintas,
realizar una serie de tareas de limpieza de datos sobre los datos, volver a
formatearlos datos en un esquema de estrella, y, a continuacin, cargar el
esquema de estrella junto con tres agregados distintos en un conjunto de
tablas.
Como puede ver, estos requisitos son muy diferentes y le permiten disear
trabajos que tambin son muy diferentes. Por ejemplo, para el requisito
ms complejo, podra crear un conjunto de trabajos de secuencia, mientras
podra crear nicamente un trabajo individual para el requisito ms simple.
Debe evaluar cada requisito para determinar la mejor manera de desglosar
el trabajo y luego disear subconjuntos lgicos de diseo que mejor
satisfagan el requisito.
Entender la estructura de datos
Antes de empezar a disear un trabajo, tenga en cuenta:

Copyright IBM Corp. 2011, 2012 15


v El nmero y el tipo de orgenes de datos que necesita para acceder en el
trabajo.
v La ubicacin de los datos. Puede elegir acceder a los datos de forma
distinta en funcin del tipo de sistema en el que se almacenan los datos.
v El contenido de los datos. Piense en las columnas que estn en los datos
y, a continuacin, determine si puede importar las definiciones de tabla
o entrarlas manualmente. Tenga en cuenta que las definiciones de tabla
pueden no ser coherentes entre los distintos orgenes de datos.
Entender las transformaciones
Determine qu aspecto tendrn los datos de salida una vez que se han
ejecutado las transformaciones y que se han cargado los datos en el
sistema de destino. Decida si trabajar con algunas o todas las columnas de
los datos de origen. Adems, considere si es necesario agregar o convertir
los datos antes de pasar a la siguiente etapa.
Informacin relacionada:
Consejos para el diseo de trabajos
Diseo de trabajos de InfoSphere DataStage and QualityStage

Diseo de flujo de datos


Al disear el flujo de los datos, considere qu orgenes de datos necesita utilizar el
trabajo, qu tipo de proceso desea realizar en los datos y donde desea almacenar
los datos de salida. Este mtodo le ayuda a crear y utilizar componentes en todos
los trabajos, minimizando la codificacin que es necesaria para definir incluso el
proceso de integracin ms complejo y difcil.

Al empezar a construir su trabajo, empiece utilizando etapas y enlaces para hacer


un esbozo del flujo de datos. Es posible que existan trabajos que tienen similitudes
con el trabajo que necesita construir. Si ese es el caso, investigue si los elementos
de los trabajos existentes pueden reutilizarse en su trabajo y, a continuacin,
planifique cmo puede incorporar los elementos.

Como alternativa, es posible que necesite ms de un trabajo para lograr su


objetivo. Es posible que pueda conseguir ms fcilmente el resultado deseado
combinando trabajos existentes con nuevos trabajos que cree. Es necesario evaluar
y determinar qu trabajos existentes podran contribuir al objetivo y qu trabajos
necesita crear y luego considerar el orden, o la secuencia, ms eficaz en el que
colocar los trabajos.
Informacin relacionada:
Diseo para un buen rendimiento

Diseo de proceso paralelo


InfoSphere DataStage aporta el poder del proceso paralelo al proceso de extraccin
y transformacin de datos. Los trabajos de InfoSphere DataStage heredan
automticamente las funciones de interconexin de datos y particin de datos,
permitindole disear un proceso de integracin sin preocuparse de los volmenes
de datos ni las limitaciones de tiempo, y sin ningn requisito de codificacin
manual.

Los trabajos de InfoSphere DataStage utilizan dos tipos de proceso paralelo:

16 Introduccin a IBM InfoSphere DataStage


Interconexin de datos
La interconexin de datos es el proceso de extraer los registros del sistema
de origen de datos y moverlos por la secuencia de funciones de proceso
que se han definido en el flujo de datos definido por el trabajo. Puesto que
los registros estn fluyendo a travs de la interconexin, pueden procesarse
sin grabar los registros en disco.
Particin de datos
La particin de datos es un enfoque para el paralelismo que implica
dividir los registros en particiones o subconjuntos de registros.
Generalmente, la particin de datos proporciona un incremento lineal del
rendimiento de las aplicaciones.
Al disear un trabajo, debe seleccionar el tipo de datos del algoritmo de
particionamiento que desea utilizar (hash, rango, mdulo, etc.). A
continuacin, durante la ejecucin InfoSphere DataStage utiliza esa
seleccin para el nmero de grados de paralelismos que se especifican
dinmicamente durante la ejecucin a travs del archivo de configuracin.
Informacin relacionada:
Fundamentos de paralelismo
Entornos de proceso paralelo

Captulo 4. Diseo de trabajos 17


18 Introduccin a IBM InfoSphere DataStage
Captulo 5. Procesos de ejecucin de trabajos
En InfoSphere DataStage, ejecute los trabajos en un entorno de desarrollo para
analizar todos los problemas antes de planificarlos o ejecutarlos en un entorno de
produccin.

Al ejecutar un trabajo, tienen lugar los pasos reales de extraccin, transformacin y


carga de datos. Un trabajo normalmente se ejecuta sin ningn lmite en el nmero
de filas que se procesan. Adems, normalmente no hay lmites en el nmero de
avisos que se visualizan. Sin embargo, si lo desea puede establecer lmites.
Informacin relacionada:
Ejecucin de trabajos de InfoSphere DataStage

Planificacin de trabajos
Puede planificar trabajos para que se ejecuten una vez o peridicamente.

Puede planificar la frecuencia con la que se ejecuta un trabajo. Por ejemplo, puede
planificar que se ejecute hoy, maana, cada da o un da especfica.

La planificacin en InfoSphere DataStage utiliza la funcionalidad del sistema


operativo, de modo que la planificacin est sujeta a las mismas reglas que el
sistema operativo impone. Por ejemplo, en sistemas UNIX, slo el usuario root
puede ver las planificaciones de otros usuarios, por lo tanto, se recomienda utilizar
un nico ID para planificar todos los trabajos.
Informacin relacionada:
Planificacin de trabajos
Planificacin de un trabajo

Supervisin de trabajos
Puede supervisar trabajos en InfoSphere DataStage.

Puede utilizar InfoSphere DataStage and QualityStage Director o la Consola de


operaciones para acceder a informacin sobre los trabajos, la actividad de trabajos
y los recursos del sistema. La Consola de operaciones proporciona muchas
funciones analticas para el rendimiento de la ejecucin de trabajo, los recursos del
sistema y el estado del motor.

Puede realizar otras funciones de supervisin en InfoSphere DataStage. Por


ejemplo:
v La supervisin de trabajos proporciona una instantnea til del rendimiento de
un trabajo en un momento de la ejecucin.
v El anlisis del rendimiento proporciona un conocimiento ms profundo del
comportamiento de trabajos en el tiempo de ejecucin. Este anlisis se lleva a
cabo visualizando diagramas que interpretan el rendimiento del trabajo y la
utilizacin de los recursos del sistema.
v Puede estimar y predecir la utilizacin de recursos de las ejecuciones de trabajos
paralelos creando modelos y realizando proyecciones.

Copyright IBM Corp. 2011, 2012 19


v Puede crear un seguimiento de auditora de sucesos relacionados con la
seguridad, incluidos todos los cambios de valores relacionados con la seguridad
y las operaciones de inicio y cierre de sesin del usuario.
Informacin relacionada:
Introduccin a la supervisin de trabajos
Supervisin de trabajos y ejecuciones de trabajos mediante la ejecucin del
trabajo
Clculo de recursos
Configuracin de registros de auditora

Restablecer trabajos
Puede restablecer un trabajo si hubo problemas cuando se ejecut.

El restablecimiento se utiliza cuando un trabajo o trabajo de secuencia ha fallado o


finalizado inesperadamente. En estos casos, el trabajo se dejar en un estado
terminado anormalmente para que el desarrollador o el operador sea consciente
de que se ha producido un problema y que es necesario abordarlo. El trabajo debe
restablecerse antes de poder ejecutarse de nuevo. La accin de restablecimiento
devuelve la informacin de supervisin del trabajo al estado en el que estaba antes
de ejecutar el trabajo. Una vez que se ha ejecutado el trabajo, es estado del trabajo
aparece como se ha restablecido.

Hay una excepcin al requisito de restablecimiento de un trabajo antes de poder


ejecutarlo de nuevo. Cuando un trabajo de secuencia que utiliza la caracterstica de
punto de comprobacin/reinicio falla, el estado se muestra como terminado
anormalmente/reiniciable. Dicho trabajo de secuencia puede ejecutarse de nuevo
sin ser restablecido. El proceso empieza en el paso siguiente al ltimo punto de
comprobacin completado. No obstante, si lo desea puede elegir restablecer el
trabajo de secuencia. En este caso, los puntos de comprobacin se borran y la
siguiente ejecucin del trabajo de secuencia comienza en el primer paso del flujo
de trabajo.
Informacin relacionada:
Restablecimiento de un trabajo

Gestin del rendimiento de trabajos


Puede ver el estado de todos los trabajos de un proyecto.

Durante la ejecucin de un trabajo podr ver los detalles de cmo se lleva a cabo
el trabajo. Una vez que el trabajo se ha completado, puede ver los detalles sobre su
ejecucin. Puede ver informacin para cada etapa activa en el trabajo y para cada
uno de los enlaces de entrada y salida de un trabajo.

Puede ver las siguientes clases de informacin:


v Si una etapa se ha compilado, est en ejecucin, ha finalizado, ha finalizado con
avisos o se ha producido una anomala
v El nmero de filas que la etapa ha procesado o que han pasado por un enlace
v La hora en que la etapa comenz el proceso de datos
v La cantidad de tiempo en que la etapa ha procesado datos de forma activa
v El nmero de filas que se estn procesando por segundo

20 Introduccin a IBM InfoSphere DataStage


v El porcentaje de CPU que un proceso est utilizando

Estos detalles pueden ser tiles para entender la capacidad de un trabajo para
procesar los datos de forma eficaz. Por ejemplo, al visualizar el nmero de filas
que se han procesado y el estado de la etapa, puede determinar si el trabajo se est
ejecutando en la forma prevista.
Informacin relacionada:
Detalles del estado de trabajo
Vista Estado del trabajo

Resolucin de problemas de trabajos


Los archivos de registro se generan al ejecutar un trabajo. Puede utilizar IBM
InfoSphere DataStage and QualityStage Designer para acceder a los archivos de
registro. Puede utilizar archivos de registro para resolver los problemas que se
producen en los trabajos.

Los registros varan entre los distintos trabajos, en funcin de los tipos de etapas
que se utilizan en un trabajo. Un trabajo tpico puede contener mensajes acerca de
variables de entorno, informacin de soporte multilingstico, inicio y finalizacin
de informacin, informacin de la base de datos, y as sucesivamente.

El archivo de registro puede contener mensajes de muchas ejecuciones,


validaciones y restablecimientos, por lo que puede llegar a tener un gran tamao.
Los trabajos que tienen varias instancias aumentan el archivo de registro an ms,
porque cada instancia comparte el mismo archivo de registro. Puede depurar el
registro de vez en cuando para reducir el espacio de almacenamiento que se
necesita. Puede optar por depurar automticamente el registro en basa a un
determinado nmero de ejecuciones o un nmero de das predeterminado.
Informacin relacionada:
Registro del trabajo
Vista Registro del trabajo

Captulo 5. Procesos de ejecucin de trabajos 21


22 Introduccin a IBM InfoSphere DataStage
Captulo 6. Visin general de arquitectura
InfoSphere DataStage forma parte de un conjunto ms grande de productos
denominados InfoSphere Information Server, que es una plataforma integral
unificada para arquitecturas de informacin de empresa.

InfoSphere Information Server es capaz de escalar para satisfacer cualquier


requisito de volumen de informacin para que las empresas puedan ofrecer
resultados empresariales ms rpidos y de mayor calidad. InfoSphere Information
Server proporciona una sola plataforma unificada que permite a las empresas
entender, limpiar, transformar y proporcionar proporcionar informacin fidedigna
y de contexto.

Puede instalar mdulos de producto de InfoSphere Information Server, incluido


InfoSphere DataStage, en capas lgicas. Una capa es un grupo lgico de
componentes dentro de InfoSphere Information Server y los sistemas en los que
estn instalados esos componentes. Las capas proporcionan servicios, ejecucin de
trabajos, metadatos y otros tipos de almacenamiento de datos para los mdulos de
producto.

Cada capa incluye un subgrupo de los componentes que forman los mdulos de
producto de InfoSphere Information Server. Los mdulos de producto de
InfoSphere Information Server tambin comparten muchos componentes comunes,
como los servicios administrativos y de seguridad; herramientas de diseo,
desarrollo y despliegue, los activos de metadatos y las prestaciones de supervisin.

Capa de
ciente Nube

Datos

Capa de Capa de
servicios motor

Archi-
vos

Capa de repositorio
de metadatos
Otros
Other

Figura 3. Arquitectura por capas de InfoSphere Information Server

La tabla siguiente describe cada una de las capas.

Copyright IBM Corp. 2011, 2012 23


Tabla 1. Capas
Capa Descripcin
Capa de cliente La capa de cliente incluye los programas de cliente y consolas que
se utilizan para el desarrollo y la administracin, y los sistemas
donde estn instalados.
Capa de motor La capa de motor incluye el grupo lgico de componentes (los
componentes de motor de InfoSphere Information Server, los
agentes de servicio, etc.) y el sistema donde estn instalados estos
componentes. El motor ejecuta trabajos y otras tareas para
mdulos de producto.
Capa de servicios La capa de servicios incluye el servidor de aplicaciones, los
servicios comunes y los servicios del producto para la suite y los
mdulos de producto, y el sistema donde estn instalados esos
componentes. La capa de servicios suministra servicios comunes
(por ejemplo, metadatos y registro) y servicios especficos de
determinados mdulos de producto. En la capa de servicios,
WebSphere Application Server aloja los servicios. La capa de
servicios tambin alberga las aplicaciones de InfoSphere
Information Server que estn basados en web.
Capa de repositorio de La capa de repositorio de metadatos incluye el repositorio de
metadatos metadatos, la base de datos de anlisis de InfoSphere Information
Analyzer (si est instalada) y el sistema donde estn instalados
estos componentes. El repositorio de metadatos contiene los
metadatos compartidos, los datos y la informacin de
configuracin de los mdulos de producto de InfoSphere
Information Server. La base de datos de anlisis almacena los
datos de anlisis ampliados para InfoSphere Information Analyzer.

Informacin relacionada:
Introduccin a IBM Information Server
Capas y componentes
Relaciones entre capas
Servicios compartidos

24 Introduccin a IBM InfoSphere DataStage


Captulo 7. Recursos adicionales
Visite estos productos para obtener ms informacin sobre InfoSphere DataStage.
v Diseo de trabajos y flujo de datos de InfoSphere DataStage : describe la
implementacin del flujo de datos y el diseo de trabajos de InfoSphere
DataStage.
v Glosario de InfoSphere DataStage: Trminos y definiciones de InfoSphere
DataStage.
v Hoja de ruta informativa de InfoSphere DataStage: enlaza a recursos de
informacin adicionales que estn disponibles para InfoSphere DataStage.

Copyright IBM Corp. 2011, 2012 25


26 Introduccin a IBM InfoSphere DataStage
Accesibilidad de los productos
Puede obtener informacin sobre el estado de accesibilidad de los productos de
IBM.

Los mdulos y las interfaces de usuario de los productos de IBM InfoSphere


Information Server no son totalmente accesibles. El programa de instalacin instala
los siguientes mdulos y componentes del producto:
v IBM InfoSphere Business Glossary
v IBM InfoSphere Business Glossary Anywhere
v IBM InfoSphere DataStage
v IBM InfoSphere FastTrack
v IBM InfoSphere Information Analyzer
v IBM InfoSphere Information Services Director
v IBM InfoSphere Metadata Workbench
v IBM InfoSphere QualityStage

Para obtener informacin sobre el estado de accesibilidad de los productos de IBM,


consulte la informacin de accesibilidad de productos de IBM en
http://www.ibm.com/able/product_accessibility/index.html.

Documentacin accesible

Se proporciona documentacin accesible sobre los productos de InfoSphere


Information Server en un Information Center. El Information Center presenta la
documentacin en formato XHTML 1.0, que se puede ver en la mayora de
navegadores web. El formato XHTML permite establecer propiedades de
visualizacin en el navegador. Tambin permite utilizar lectores de pantalla y otras
tecnologas de asistencia para acceder a la documentacin.

La documentacin que haya en el Information Center tambin se proporciona en


archivos PDF, que no son completamente accesibles.

IBM y la accesibilidad

Consulte el IBM Human Ability and Accessibility Center para obtener ms


informacin sobre el compromiso de IBM con respecto a la accesibilidad.

Copyright IBM Corp. 2011, 2012 27


28 Introduccin a IBM InfoSphere DataStage
Acceso a la documentacin del producto y envo de
comentarios
La documentacin se proporciona en diversas ubicaciones y formatos, tambin en
la ayuda que se abre directamente desde la interfaz del producto, en un
Information Center para toda la suite y en manuales en archivos PDF.

El Information Center se instala como un servicio comn con IBM InfoSphere


Information Server. El Information Center contiene una ayuda para la mayora de
interfaces del producto, as como documentacin completa para todos los mdulos
de productos de la suite. Puede abrir el Information Center desde el producto
instalado o bien desde un navegador Web.

Acceso a Information Center

Puede utilizar los mtodos siguientes para abrir el Information Center instalado.
v Pulse el enlace Ayuda de la parte superior derecha de la interfaz de cliente.

Nota: Desde IBM InfoSphere FastTrack e IBM InfoSphere Information Server


Manager, el elemento Ayuda principal abre un sistema de ayuda local.
Seleccione Ayuda > Abrir Information Center para abrir el Information Center
de toda la suite.
v Pulse la tecla F1. La tecla F1 abre generalmente el tema que describe el contexto
actual de la interfaz de cliente.

Nota: La tecla F1 no funciona en clientes Web.


v Utilice un navegador Web para acceder al Information Center instalado, aunque
no haya iniciado sesin en el producto. Especifique la siguiente direccin en un
navegador Web: http://host_name:port_number/infocenter/topic/
com.ibm.swg.im.iis.productization.iisinfsv.home.doc/ic-homepage.html. El
nombre_host es el nombre del sistema de capa de servicios en el que est
instalado en Information Center, y nmero_puerto es el nmero de puerto para
InfoSphere Information Server. El nmero de puerto predeterminado es 9080.
Por ejemplo, en un sistema Microsoft Windows Server denominado iisdocs2, la
direccin Web tendr este formato: http://iisdocs2:9080/infocenter/topic/
com.ibm.swg.im.iis.productization.iisinfsv.nav.doc/dochome/
iisinfsrv_home.html.

Tambin hay disponible un subconjunto del Information Center, que se renueva


peridicamente, en el sitio web de IBM http://publib.boulder.ibm.com/infocenter/
iisinfsv/v8r7/index.jsp.

Obtener la documentacin en PDF y en copia impresa


v Tambin puede disponer de un subconjunto de manuales en archivos PDF
mediante el instalador de software de InfoSphere Information Server y el soporte
de distribucin. El resto de manuales en archivos PDF est disponible en lnea y
pueden accederse desde este documento de soporte: https://www.ibm.com/
support/docview.wss?uid=swg27008803&wv=1.
v Tambin puede solicitar publicaciones de IBM en formato impreso, ya sea en
lnea o a travs de su representante local de IBM. Para solicitar publicaciones en

Copyright IBM Corp. 2011, 2012 29


lnea, vaya al Centro de publicaciones de IBM en http://www.ibm.com/e-
business/linkweb/publications/servlet/pbi.wss.

Cmo aportar comentarios sobre la documentacin

Sus comentarios ayudarn a IBM a ofrecer informacin de calidad. Puede utilizar


cualquiera de los mtodos siguientes para enviar sus comentarios:
v Para realizar comentarios acerca del Information Center, pulse el enlace
Comentarios situado en la parte superior derecha de cualquiera de los temas del
Information Center.
v Enve sus comentarios utilizando el formulario de comentarios del lector que
encontrar en www.ibm.com/software/awdtools/rcf/.
v Enve sus comentarios por correo electrnico a comments@us.ibm.com. Incluya
el nombre y el nmero de versin del producto, as como el nombre y el nmero
de pieza de la informacin (si es pertinente). Si su comentario es sobre un texto
especfico, incluya la ubicacin del texto (por ejemplo, un ttulo, un nmero de
tabla o un nmero de pgina).
v Puede proporcionar comentarios generales sobre productos mediante la encuesta
de consumo en el sitio web www.ibm.com/software/data/info/consumability-
survey

30 Introduccin a IBM InfoSphere DataStage


Avisos y marcas registradas
La presente informacin se ha desarrollado para productos y servicios ofrecidos en
Estados Unidos.

Avisos

Es posible que IBM no comercialice en otros pases los productos, servicios o


caractersticas que se describen en este manual. Consulte al representante local de
IBM para obtener informacin sobre los productos y servicios que actualmente
pueden adquirirse en su zona. Cualquier referencia a un producto, programa o
servicio de IBM no pretende afirmar ni implicar que slo se pueda utilizar dicho
producto, programa o servicio de IBM. En su lugar se puede utilizar cualquier
producto, programa o servicio funcionalmente equivalente que no vulnere ninguno
de los derechos de propiedad intelectual de IBM. Sin embargo, es responsabilidad
del usuario evaluar y verificar el funcionamiento de cualquier producto, programa
o servicio que no sea de IBM.

IBM puede tener patentes o solicitudes de patentes en tramitacin que afecten al


tema tratado en este documento. La posesin de este documento no otorga
ninguna licencia sobre dichas patentes. Puede enviar consultas sobre licencias, por
escrito, a la siguiente direccin:

IBM Director of Licensing


IBM Corporation
North Castle Drive
Armonk, NY 10504-1785 EE. UU.

Para formular consultas relacionadas con el juego de caracteres de doble byte


(DBCS), pngase en contacto con el departamento de la propiedad intelectual de
IBM de su pas o enve las consultas, por escrito, a la siguiente direccin:

Intellectual Property Licensing


Legal and Intellectual Property Law
IBM Japan Ltd.
1623-14, Shimotsuruma, Yamato-shi
Kanagawa 242-8502 Japn

El prrafo siguiente no es aplicable al Reino Unido ni a ningn pas en donde


tales disposiciones sean incompatibles con la legislacin local:
INTERNATIONAL BUSINESS MACHINES CORPORATION PROPORCIONA
ESTA PUBLICACIN TAL CUAL, SIN GARANTA DE NINGUNA CLASE, NI
EXPLCITA NI IMPLCITA, INCLUIDAS, PERO SIN LIMITARSE A ELLAS, LAS
GARANTAS IMPLCITAS DE NO VULNERACIN DE DERECHOS,
COMERCIALIZACIN O IDONEIDAD PARA UN FIN DETERMINADO. Algunos
estados no permiten la declaracin de limitacin de responsabilidad de garantas
expresas o implcitas en determinadas transacciones. Por consiguiente, es posible
que esta declaracin no se aplique en su caso.

Esta informacin podra contener imprecisiones tcnicas o errores tipogrficos. La


informacin de este documento est sujeta a cambios peridicos; dichos cambios se
incorporarn en nuevas ediciones de la publicacin. Es posible que IBM realice

Copyright IBM Corp. 2011, 2012 31


mejoras o efecte cambios en el(los) producto(s) y/o el(los) programa(s) descritos
en esta publicacin en cualquier momento sin previo aviso.

Las referencias hechas en esta publicacin a sitios Web que no son de IBM se
proporcionan slo para la comodidad del usuario y no constituyen un aval de esos
sitios Web. La informacin contenida en estos sitios Web no forma parte de la
informacin del presente producto IBM, y el usuario es responsable de la
utilizacin de dichos sitios.

IBM puede utilizar o distribuir cualquier informacin que se le facilite de la


manera que considere adecuada, sin contraer por ello ninguna obligacin con el
remitente.

Los licenciatarios de este programa que deseen obtener informacin sobre l con el
fin de habilitar: (i) el intercambio de informacin entre programas creados de
forma independiente y otros programas (incluido ste) y (ii) el uso mutuo de la
informacin intercambiada, deben ponerse en contacto con:

IBM Corporation
J46A/G4
555 Bailey Avenue
San Jos, CA 95141-1003 EE.UU.

Dicha informacin puede estar disponible, sujeta a los trminos y condiciones


apropiados, incluido en algunos casos el pago de una tarifa.

El programa bajo licencia descrito en este documento y todo el material bajo


licencia asociado a l los proporciona IBM segn los trminos del Acuerdo de
Cliente de IBM, el Acuerdo Internacional de Programas Bajo Licencia de IBM o
cualquier acuerdo equivalente entre el usuario e IBM.

Los datos de rendimiento contenidos en este documento se obtuvieron en un


entorno controlado. Por consiguiente, es posible que los resultados obtenidos en
otros entornos operativos varen de forma significativa. Algunas mediciones
pueden haberse efectuado en sistemas a nivel de desarrollo, y no existe ninguna
garanta de que dichas mediciones sean las mismas en sistemas de disponibilidad
general. Adems, es posible que algunas mediciones se hayan estimado mediante
extrapolacin. Los resultados reales pueden variar. Los usuarios de este documento
deben verificar los datos aplicables a su entorno especfico.

La informacin relacionada con productos ajenos a IBM se ha obtenido a partir de


los proveedores de dichos productos, los anuncios que han publicado u otras
fuentes de dominio pblico. IBM no ha probado dichos productos ni puede
confirmar la precisin del rendimiento, la compatibilidad ni ninguna otra
afirmacin sobre productos ajenos a IBM. Las preguntas sobre las prestaciones de
productos que no son de IBM deben dirigirse a los proveedores de esos productos.

Todas las declaraciones de intenciones de IBM estn sujetas a cambio o cancelacin


sin previo aviso, y slo representan objetivos.

Esta informacin slo tiene como objeto la planificacin. La informacin de este


documento est sujeta a cambios antes de que los productos descritos estn
disponibles.

Este manual contiene ejemplos de datos e informes que se utilizan en operaciones


comerciales diarias. Para ilustrarlos de la forma ms completa posible, los ejemplos

32 Introduccin a IBM InfoSphere DataStage


incluyen nombres de personas, empresas, marcas y productos. Todos estos
nombres son ficticios y cualquier similitud con nombres y direcciones utilizados
por una empresa real es totalmente fortuita.

LICENCIA DE COPYRIGHT:

Esta informacin contiene programas de aplicacin de ejemplo en cdigo fuente


que ilustran tcnicas de programacin en diferentes plataformas operativas. Puede
copiar, modificar y distribuir estos programas de ejemplo de cualquier forma, sin
pagar a IBM, con la finalidad de desarrollar, utilizar o distribuir programas de
aplicacin que se ajusten a la interfaz de programacin de aplicaciones para la
plataforma operativa para la que se han escrito los programas de ejemplo. Estos
ejemplos no se han probado bajo todas las condiciones posibles. IBM, por lo tanto,
no puede garantizar ni dar por sentada la fiabilidad, la capacidad de
mantenimiento ni el funcionamiento de dichos programas. Los programas de
ejemplo se suministran "TAL CUAL", sin garanta de ninguna clase. IBM no se
hace responsable de los daos que se hayan podido causar debido al uso de los
programas de ejemplo.

Todas las copias o partes de estos programas de ejemplo, o cualquier trabajo


derivado, debern incluir un aviso de copyright como el siguiente:

(nombre de la empresa) (ao). Partes de este cdigo provienen de programas de


ejemplo de IBM Corp. Copyright IBM Corp. _entrar el ao o los aos_.
Reservados todos los derechos.

Si est visualizando esta informacin en copia software, es posible que las


fotografas o las ilustraciones en color no aparezcan.

Marcas registradas

IBM, el logotipo de IBM e ibm.com son marcas comerciales o marcas registradas de


International Business Machines Corp., registradas en muchos pases del mundo.
Otros nombres de productos y servicios pueden ser marcas registradas de IBM u
otras empresas. Encontrar una lista actualizada de las marcas registradas de IBM
en www.ibm.com/legal/copytrade.shtml.

Los trminos siguientes son marcas registradas de otras compaas:

Adobe es una marca registrada de Adobe Systems Incorporated en los Estados


Unidos y/o en otros pases.

Intel e Itanium son marcas comerciales o marcas registradas de Intel Corporation o


de sus filiales en los Estados Unidos y en otros pases.

Linux es una marca registrada de Linus Torvalds en los Estados Unidos y/o otros
pases.

Microsoft, Windows y Windows NT son marcas registradas de Microsoft


Corporation en los Estados Unidos y/o en otros pases.

UNIX es una marca registrada de The Open Group en Estados Unidos y en otros
pases.

Java y todas las marcas registradas y logotipos basados en Java son marcas
registradas de Oracle y/o sus afiliadas.

Avisos y marcas registradas 33


El servicio postal de los Estados Unidos (United States Postal Service) es
propietario de las siguientes marcas registradas: CASS, CASS Certified, DPV,
LACSLink, ZIP, ZIP + 4, ZIP Code, Post Office, Postal Service, USPS y United States
Postal Service. IBM Corporation tiene titularidad no exclusiva de licencias de DPV
y LACSLink de United States Postal Service.

Otros nombres de empresas, productos o servicios pueden ser marcas registradas o


marcas de servicio de otros.

34 Introduccin a IBM InfoSphere DataStage


Cmo ponerse en contacto con IBM
Puede ponerse en contacto con IBM para obtener soporte al cliente, servicios de
software, informacin sobre el producto e informacin general. Tambin puede
facilitar comentarios a IBM acerca de productos y documentacin.

La siguiente tabla enumera los recursos para soporte al cliente, servicios de


software, formacin, e informacin de productos y soluciones.
Tabla 2. Recursos de IBM
Recurso Descripcin y ubicacin
Portal de soporte de IBM Puede personalizar la informacin de
soporte seleccionando los productos y los
temas que sean de su inters en
www.ibm.com/support/entry/portal/
Software/Information_Management/
InfoSphere_Information_Server
Servicios de software Puede encontrar informacin sobre servicios
de software, de tecnologas de la
informacin y de consultora empresarial en
el sitio de soluciones, en
www.ibm.com/businesssolutions/
Mi IBM Puede gestionar enlaces a sitios web de IBM
y a informacin que satisfaga sus
necesidades especficas de soporte tcnico
creando una cuenta en el sitio Mi IBM:
www.ibm.com/account/
Formacin y certificacin Puede obtener informacin sobre formacin
tcnica y servicios de educacin diseados
para personas, empresas y organizaciones
pblicas, a fin de adquirir, mantener y
optimizar sus habilidades de TI en
http://www.ibm.com/software/sw-
training/
Representantes de IBM Puede contactar con un representante de
IBM para obtener informacin sobre
soluciones en www.ibm.com/connect/ibm/
us/en/

Copyright IBM Corp. 2011, 2012 35


36 Introduccin a IBM InfoSphere DataStage
ndice
A interconexin de datos 16

accesibilidad de los productos


accesibilidad 27
agrupar etapas y enlaces 13 M
arquitectura 9 marcas registradas
avisos legales 31 lista 31
mensajes 21
motor, paralelo 16
C motor paralelo 16

capa de cliente 23
capa de motor 23
capa de repositorio de metadatos 23 O
capa de servicios 23 organizar datos 14
capas 23
compartir flujo de trabajo 13
conectividad 5 P
conocimiento de datos 6 paquete de despliegue 19
contenedor compartido 13 particin de datos 16
contenedor local 13 planificacin de trabajos 19
contenedores 13 proceso paralelo 16
crear trabajos 15 proyectos 14

D R
datos precisos 3 recopilar requisitos 15
definiciones de columnas 12 registros 21
definiciones de tablas 12 registros de trabajos 21
detalles de trabajo 20 requisitos 15
disear trabajos 15 restablecer trabajos 20
diseo de flujo de datos 16
diseo de trabajo 15, 16
documentacin del producto
acceder 29 S
secuencias de trabajos 11
servicios de software
E contactar 35
soluciones 3
ejecutar trabajos 15, 19 soporte
enlaces cliente 35
enlaces de entrada 9 soporte al cliente
enlaces de rechazo 9 contactar 35
enlaces de referencia 9 soporte de destino 4
enlaces de salida 9 soporte de origen 4
escalable 1, 4 supervisar trabajos 19
escenarios 3 supervisin de trabajos 19
estado de trabajo 20
estudios de casos 3

T
H tipos de registros 21
trabajo de secuencia 11
herramienta de integracin de datos 1 trabajos complejos 11
trabajos de servidor
visin general de trabajos 10
I trabajos de sistema principal
InfoSphere DataStage visin general de trabajos 10
enlaces 9 trabajos paralelos 16
etapas 9 visin general de trabajos 10
trabajos 10
InfoSphere Information Server 9, 23

Copyright IBM Corp. 2011, 2012 37


38 Introduccin a IBM InfoSphere DataStage


Impreso en Espaa

GC11-8311-00

Das könnte Ihnen auch gefallen