Beruflich Dokumente
Kultur Dokumente
Versin 9 Release 1
GC11-8311-00
IBM InfoSphere DataStage
Versin 9 Release 1
GC11-8311-00
Nota
Antes de utilizar esta informacin y el producto al que da soporte, lea la informacin de la seccin Avisos y marcas
registradas en la pgina 31.
Para iniciar el aprendizaje sobre InfoSphere DataStage, revise los casos de estudio,
conceptos, procesos y arquitectura.
Una empresa de seguro mdico de gran tamao conoce muy bien este desafo. La
misin de la empresa es mejorar el suministro de servicios mdicos haciendo que
la informacin del paciente est disponible en el lugar de atencin mdica. Para
ello, es necesario consolidar, estandarizar y gestionar rpidamente informacin de
diversos socios externos que utilizan una amplia gana de orgenes de datos y
estructuras de datos. Estos socios incluyen compaas aseguradoras, laboratorios,
centros de proceso de informacin de frmacos recetados y proveedor de servicios
sanitarios.
Puesto que esta solucin puede ejecutar procesos en paralelo, el personal puede
realizar anlisis de datos de toda una tabla de base de datos formada por millones
de filas y cientos de columnas en menos de dos horas. Anteriormente esta tarea
Agrupar la informacin que se necesita para tomar decisiones clave era un ejercicio
arduo y que necesitaba mucho tiempo. Los orgenes primarios de los datos estaban
en cinco sistemas distintos en los que la empresa se basaba para ejecutar sus
negocios. Otro origen de datos clave eran los informes de transacciones de
actividades de productos estandarizados que la empresa reciba de su canal
mayorista. Para unificar esta informacin en una imagen coherente y completa de
la situacin, los empleados de distintos departamentos deban integrar
manualmente los datos en hojas de clculo. Slo entonces podan los gestores
tomar decisiones bsicas tales como qu productos enviar a cada tienda, qu
productos solicitar a los proveedores y la mejor manera de obtener nuevos envos
del extranjero.
La ineficacia inherente de este enfoque slo era el principio del problema. Haba
limitaciones en la capacidad de la compaa para tomar decisiones, porque
despus de que los sistemas principales de la compaa generaran los datos,
podran transcurrir hasta dos das para que gestores tuvieran la informacin en un
formato en el que pudieran actuar. Adems de la puntualidad y la transparencia, el
informe privaba a los gestores de los granularidad que era necesaria para tomar
decisiones que podran optimizar sus operaciones de negocio.
Etapas
Las etapas son componentes bsicos de los trabajos de InfoSphere DataStage, y
cada una proporciona un slido conjunto de operadores que ejecutan funciones
especficas. Utilice estas etapas para conectarse a orgenes de datos para leer
archivos o grabar en archivos, as como para procesar datos. Cada etapa es una
representacin grfica de los datos propiamente dichos, o de una transformacin
de los datos.
Las etapas contienen lgica de la aplicacin para determinar cmo se procesan los
datos. Puede especificar las propiedades de cada etapa para definir cmo procesa
la etapa los datos de entrada y salida. Una etapa normalmente tiene al menos una
entrada de datos y una salida de datos. Algunas etapas, como la etapa Lookup,
aceptan varias entradas. Otras etapas, como la etapa Transformer, pueden tener
varias salidas.
Enlaces
Los enlaces unen las etapas de un trabajo y representan el flujo de datos. Los
enlaces son los conductos por los que los datos se mueven de una etapa a otra.
Los enlaces especifican cmo los datos fluyen de una etapa a otra. En los trabajos,
el proceso de datos se produce en los enlaces que conectan cada etapa, de modo
que los valores (incluidos los metadatos que elija) se quedan con el enlace si se
aaden o suprimen etapas. InfoSphere DataStage utiliza cuatro tipos de enlaces:
Enlaces de entrada
Los enlaces de entrada conectan orgenes de datos con etapas, lo que
indica un flujo de datos primario. Los enlaces de entrada se visualizan
como una lnea slida.
Enlaces de salida
Los enlaces de salida transportan datos procesados de una etapa a otra
etapa, base de datos u otro archivo de salida otros. Los enlaces de salida se
visualizan como una lnea slida.
Trabajos
Los trabajos incluyen los objetos de diseo y elementos compilados mediante
programa que pueden conectarse a orgenes de datos y, a continuacin, extraer,
transformar y cargar los datos en un sistema de destino. Los trabajos se crean
dentro de un paradigma visual que promueve la comprensin del objetivo del
trabajo.
Puede combinar etapas y enlaces en los trabajos para representar el flujo de datos a
travs de InfoSphere DataStage. En un trabajo, las etapas representan orgenes de
datos (entrada), las transformaciones necesarias y el destino del destino de datos
(salida). Los enlaces indican la va de acceso de los datos desde la entrada, a travs
de cada transformacin, hasta la salida. Los trabajos pueden tener varias entradas,
transformaciones y salidas.
origen de destino
transformacin de datos
datos
Trabajos de secuencia
Los trabajos de secuencia son un tipo de trabajo que se utiliza para crear un flujo
de trabajos que ejecuta trabajos en un orden especfico. Este tipo de trabajo se ha
llamado anteriormente una secuencia de trabajos.
Demo error
Failure
Definiciones de tablas
Las definiciones de tabla contienen informacin sobre los datos de origen y de
destino, como por ejemplo el nombre y la ubicacin de las tablas o los archivos
que contienen los datos. Puede conectar definiciones de tabla a enlaces, que
tambin contienen metadatos sobre los datos que se mueve entre etapas.
Contenedores
Los contenedores son objetos reutilizables que se crean para contener agrupaciones
de etapas y enlaces. Los contenedores promueven la reutilizacin lo que permite
utilizar el mismo conjunto de lgica varias veces a la vez que se reduce el
mantenimiento. Si utiliza contenedores, puede simplificar el diseo de trabajos
sustituyendo secciones complejas de un trabajo por un solo contenedor.
Si el trabajo tiene varias etapas y enlaces, puede crear contenedores para describir
una secuencia concreta de pasos dentro del trabajo. Los contenedores se enlazan
con otras etapas o contenedores del trabajo mediante las etapas de entrada y de
salida.
Proyectos
Los proyectos son un mtodo de organizar el trabajo. Puede especificar archivos de
datos, definir etapas y construir trabajos en un proyecto especfico.
Puede definir seguridad en el nivel de proyecto de modo que slo los usuarios que
estn autorizados para el proyecto puedan acceder a los trabajos. Las necesidades
de seguridad de la organizacin estipulan el acceso a los proyectos.
Informacin relacionada:
Pgina Proyectos
Configuracin de un proyecto
Un diseo de trabajo son los metadatos que definen los orgenes y destinos que se
utilizan dentro de un trabajo y la lgica que opera en los datos asociados. Un
diseo de trabajo est formado por etapas y los enlaces entre esas etapas. Es decir,
cada origen de datos y cada paso de transformacin son etapas en el diseo del
trabajo, y las etapas se conectan mediante enlaces para mostrar el flujo de datos.
Planificacin de trabajos
Puede planificar trabajos para que se ejecuten una vez o peridicamente.
Puede planificar la frecuencia con la que se ejecuta un trabajo. Por ejemplo, puede
planificar que se ejecute hoy, maana, cada da o un da especfica.
Supervisin de trabajos
Puede supervisar trabajos en InfoSphere DataStage.
Restablecer trabajos
Puede restablecer un trabajo si hubo problemas cuando se ejecut.
Durante la ejecucin de un trabajo podr ver los detalles de cmo se lleva a cabo
el trabajo. Una vez que el trabajo se ha completado, puede ver los detalles sobre su
ejecucin. Puede ver informacin para cada etapa activa en el trabajo y para cada
uno de los enlaces de entrada y salida de un trabajo.
Estos detalles pueden ser tiles para entender la capacidad de un trabajo para
procesar los datos de forma eficaz. Por ejemplo, al visualizar el nmero de filas
que se han procesado y el estado de la etapa, puede determinar si el trabajo se est
ejecutando en la forma prevista.
Informacin relacionada:
Detalles del estado de trabajo
Vista Estado del trabajo
Los registros varan entre los distintos trabajos, en funcin de los tipos de etapas
que se utilizan en un trabajo. Un trabajo tpico puede contener mensajes acerca de
variables de entorno, informacin de soporte multilingstico, inicio y finalizacin
de informacin, informacin de la base de datos, y as sucesivamente.
Cada capa incluye un subgrupo de los componentes que forman los mdulos de
producto de InfoSphere Information Server. Los mdulos de producto de
InfoSphere Information Server tambin comparten muchos componentes comunes,
como los servicios administrativos y de seguridad; herramientas de diseo,
desarrollo y despliegue, los activos de metadatos y las prestaciones de supervisin.
Capa de
ciente Nube
Datos
Capa de Capa de
servicios motor
Archi-
vos
Capa de repositorio
de metadatos
Otros
Other
Informacin relacionada:
Introduccin a IBM Information Server
Capas y componentes
Relaciones entre capas
Servicios compartidos
Documentacin accesible
IBM y la accesibilidad
Puede utilizar los mtodos siguientes para abrir el Information Center instalado.
v Pulse el enlace Ayuda de la parte superior derecha de la interfaz de cliente.
Avisos
Las referencias hechas en esta publicacin a sitios Web que no son de IBM se
proporcionan slo para la comodidad del usuario y no constituyen un aval de esos
sitios Web. La informacin contenida en estos sitios Web no forma parte de la
informacin del presente producto IBM, y el usuario es responsable de la
utilizacin de dichos sitios.
Los licenciatarios de este programa que deseen obtener informacin sobre l con el
fin de habilitar: (i) el intercambio de informacin entre programas creados de
forma independiente y otros programas (incluido ste) y (ii) el uso mutuo de la
informacin intercambiada, deben ponerse en contacto con:
IBM Corporation
J46A/G4
555 Bailey Avenue
San Jos, CA 95141-1003 EE.UU.
LICENCIA DE COPYRIGHT:
Marcas registradas
Linux es una marca registrada de Linus Torvalds en los Estados Unidos y/o otros
pases.
UNIX es una marca registrada de The Open Group en Estados Unidos y en otros
pases.
Java y todas las marcas registradas y logotipos basados en Java son marcas
registradas de Oracle y/o sus afiliadas.
capa de cliente 23
capa de motor 23
capa de repositorio de metadatos 23 O
capa de servicios 23 organizar datos 14
capas 23
compartir flujo de trabajo 13
conectividad 5 P
conocimiento de datos 6 paquete de despliegue 19
contenedor compartido 13 particin de datos 16
contenedor local 13 planificacin de trabajos 19
contenedores 13 proceso paralelo 16
crear trabajos 15 proyectos 14
D R
datos precisos 3 recopilar requisitos 15
definiciones de columnas 12 registros 21
definiciones de tablas 12 registros de trabajos 21
detalles de trabajo 20 requisitos 15
disear trabajos 15 restablecer trabajos 20
diseo de flujo de datos 16
diseo de trabajo 15, 16
documentacin del producto
acceder 29 S
secuencias de trabajos 11
servicios de software
E contactar 35
soluciones 3
ejecutar trabajos 15, 19 soporte
enlaces cliente 35
enlaces de entrada 9 soporte al cliente
enlaces de rechazo 9 contactar 35
enlaces de referencia 9 soporte de destino 4
enlaces de salida 9 soporte de origen 4
escalable 1, 4 supervisar trabajos 19
escenarios 3 supervisin de trabajos 19
estado de trabajo 20
estudios de casos 3
T
H tipos de registros 21
trabajo de secuencia 11
herramienta de integracin de datos 1 trabajos complejos 11
trabajos de servidor
visin general de trabajos 10
I trabajos de sistema principal
InfoSphere DataStage visin general de trabajos 10
enlaces 9 trabajos paralelos 16
etapas 9 visin general de trabajos 10
trabajos 10
InfoSphere Information Server 9, 23
Impreso en Espaa
GC11-8311-00