Beruflich Dokumente
Kultur Dokumente
Instalacin de Spoon
Para instalar Spoon seguir las siguientes instrucciones:
1. Instalar Java Runtime Environment (JRE) de Sun Microsystems, versin 1.5 o superior.
JRE se puede descargar libre y gratuitamente de http://www.javasoft.com/.
2. Descargar Kettle, desde la siguiente
direccin: http://sourceforge.net/projects/pentaho/files/Data%20Integration/
3. Descomprimir el archivo recientemente descargado, en un directorio de su eleccin. Por
ejemplo: "/home/datos/programas/".
4. En ambientes tipo Unix (Solaris, GNU/Linux, MacOS, por ejemplo), se debe hacer que los
scripts en shell sean ejecutables. Para ello se debe hacer lo siguiente
cd /home/datos/programas/data-integration
chmod +x *.sh
Iniciar Spoon
Los siguientes scripts permiten iniciar Spoon en diferentes plataformas:
spoon.bat: inicia Spoon en la plataforma Window$. En esta plataforma basta con ejecutar
el archivo .bat para iniciar Spoon.
spoon.sh: inicia Spoon en una plataforma tipo Unix, tal como GNU/Linux, Apple OSX, y
Solaris. En este caso debemos ejecutar la siguiente sentencia:
cd /home/datos/programas/data-integration
sh spoon.sh
Para crear un acceso directo en la plataforma Window$, se proporciona un icono. Utilizar
"spoon.ico" para establecer el icono correcto. El acceso directo apunta al archivo spoon.bat.
Plataformas soportadas
La GUI de Spoon es soportada en las siguientes plataformas:
Problemas conocidos
La siguiente es una lista de problemas conocidos que estn asociados con Spoon:
GNU/Linux
Bloqueo ocasional de la JVM corriendo SuSE Linux y KDE. Corriendo bajo Gnome no presenta
problemas (detectado en SUSE Linux 10.1 pero versiones anteriores tambin tienen el mismo
problema).
FreeBSD
Problemas con arrastrar y soltar. Utilizar el men contextual del clic derecho sobre el lienzo como
solucin.
Consultar las listas de seguimiento en http://jira.pentaho.com para encontrar informacin
actualizada sobre los problemas recientemente descubiertos.
La pestaa "Objetos Principales" en el panel izquierdo de Spoon contiene los pasos disponibles
para construir la Transformacin (entrada, salida, bsqueda, transformar, uniones, scripting, etc) o
el Trabajo (general, mail, scripting, etc), dependiendo el caso.
Error
Minimal
Basic
Detailed
Debug
Rowlevel Logging detallado a nivel de fila. Advertencia: esto genera una prdida de datos.
-rep=nombreCatalogo
La opcin anterior permite conectar a un catlogo.
Nota: Se deben especificar las opciones -user, -pass y -trans/-job que se describirn ms adelante.
Los detalles del catlogo se cargan desde el archivo "repositories.xml" del directorio local o del
directorio de Kettle:
En Window$, Pentaho avisa que se debe utilizar el formato /opcin:valor para evitar
problemas cuando el Intrprete de comandos del MS-DOS analice la lnea de comandos
introducida.
Los campos en itlica representan los valores que utilizan las opciones.
Utilizar comillas simples o comillas dobles si hay espacios en los valores de las opciones;
las comillas aseguran que los valores de las opciones permanecen juntos.
Catlogo
Spoon permite almacenar los archivos de las Transformaciones y Trabajos en el sistema de
archivos local o en un catlogo de Kettle, que puede ser alojado en cualquier base de datos
relacional. Para cargar una Transformacin o Trabajo desde un catlogo de base de datos, debe
conectarse a ese catlogo.
Al iniciar Spoon se debe definir la conexin al catlogo de base de datos que se desea utilizar, tal
como se muestra a continuacin, o bien seleccionar la opcin "Sin catlogo" para trabajar con el
Licencia
Desde la versin 2.2.0, Kettle fue liberado al dominio pblico bajo la licencia LGPL. Por favor
consultar el Appendix A para ver el texto completo de esta licencia.
Nota: Pentaho Data Integration es referenciado como "Kettle" en el siguiente texto
Copyright (C) 2006 Pentaho Corporation
Kettle es software libre; se puede redistribuir y/o modificar bajo los trminos de la GNU Lesser
General Public License publicada por la Free Software Foundation; ya sea la versin 2.1 de la
Licencia, o (a eleccin) cualquier versin posterior.
Kettle se distribuye con la esperanza de que ser til, pero SIN NINGUNA GARANTA; incluso sin
la garanta implcita de COMERCIALIZACIN o IDONEIDAD PARA UN PROPSITO
PARTICULAR. Ver la GNU Lesser General Public License para ms detalles.
Ud. debera haber recibido una copia de la GNU Lesser General Public License junto con la
distribucin de Kettle; si no es as, escriba a la Free Software Foundation, Inc., 51 Franklin St, Fifth
Floor, Boston, MA 02110-1301 USA.
Definiciones de Transformacin
La siguiente tabla contiene una lista de definiciones de Transformacin:
Transformacin Descripcin
Valor
Valores que forman parte de una fila y que pueden contener cualquier tipo de datos:
cadenas, nmeros de punto flotante, nmeros grandes de precisin ilimitada, enteros,
fechas o valores booleanos.
Fila
Flujo de
Entrada
Salto
Nota
Definiciones de Trabajo
La siguiente tabla contiene una lista de definiciones de Trabajo:
Trabajo
Descripcin
Entrada de
Trabajo
Salto
Nota
Icono
Descripcin
Transformacin Trabajo
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
NO
SI
SI
SI
NO
SI
NO
SI
NO
SI
NO
SI
NO
SI
SI
SI
SI
SI
SI
SI
SI
Opciones de Kettle
Las opciones de Kettle permiten personalizar las propiedades asociadas con el comportamiento y
apariencia de la GUI. Por ejemplo, se incluyen opciones de inicio para mostrar o no los consejos y
la pgina de bienvenida de Kettle, y tambin se incluyen opciones de interfaz de usuari@, como
fuentes y colores.
Para acceder a las opciones de este cuadro de dilogo, se debe seleccionar en la barra de men:
"Editar -> Opciones..."
Al realizar esto, se abrir una nueva ventana que posee dos pestaas: General y Apariencia.
Pestaa General:
Caracterstica
Descripcin
Nmero de lneas por defecto Permite cambiar la cantidad de lneas por defecto solicitadas a un paso
en el dilogo de vista previa
durante transformaciones previas.
Mximo nmero de lneas en
la ventana de logueo
Mostrar pgina de
bienvenida al iniciar?
Preguntar si reemplazar
conexiones existentes al
abrir/importar?
Dividir saltos
automticamente?
Mostrar dilogo de
repositorio al iniciar?
Pestaa Apariencia:
Caracterstica
Descripcin
Fuente de ancho
variable
La fuente que se utiliza en los cuadros de dilogo, los rboles, campos de entrada, etc.
Fuente en el
La fuente que se utiliza en la vista grfica.
espacio de trabajo
Fuente para notas La fuente a utilizar en las notas que se muestran en la vista grfica.
Color de fondo
Tamao de conos Afecta el tamao de los conos en la vista grfica. El tamao original de un cono es de
en espacio de
32x32 pixeles. Los mejores resultados (grficamente) se consiguen con tamaos de
trabajo
16, 24, 32, 48, 64 y otros mltiplos de 16.
Ancho de lnea en Afecta al ancho de lnea de los saltos en la vista grfica y los bordes alrededor de los
espacio de trabajo pasos.
Tamao de la
Si este tamao es mayor que 0, en el lienzo se dibuja una sombra a pasos, saltos, y
sombra en el
notas, haciendo parecer que la transformacin flota sobre el lienzo.
espacio de trabajo
Porcentaje medio
del dilogo
Por defecto, un parmetro se dibuja al 35% del ancho del dilogo, contado desde la
izquierda, pero este valor puede modificarse desde esta opcin. La correcta
configuracin de este porcentaje puede ser til en los casos en donde se utiliza
excepcionalmente fuentes grandes.
Grid size
Anti alias de
lienzo?
Utilizar
apariencia de SO?
Tildando esta opcin en Window$ permite utilizar la configuracin por defecto del
sistema para Fuentes y colores en Spoon.
Mostrar grficos
de marca
Lenguaje
Preferido
Lenguaje
Alternativo
Bsqueda de Metadatos
Se accede a esta caracterstica seleccionando en la barra de men: Editar -> Buscar Meta
Informacin.
Esta opcin buscar la cadena especificada en el campo Filtro, en cualquier campo disponible,
conector o nota de todas las transformaciones y trabajos cargados. La bsqueda de metadatos
devuelve un conjunto detallado de resultados que muestra la ubicacin de todas las coincidencias
encontradas.
En este caso se crearon dos variables de entorno, con sus respectivos valores, que sern
utilizados en un paso de envio de mail.
La forma de utilizar las variables de entorno es la siguiente:
GNU/Linux: home/<nombreUsuario>/.kettle/
Window$: C:\Documents and Settings\<nombreUsuario>\ .kettle\
Para crear las variables en este archivo, solo basta con hacer lo siguiente:
nombreVariable = valor
En este caso sera simplemente aadir al final del archivo las siguientes lneas
mail.puerto.gmail = 465
mail.server.gmail = smtp.gmail.com
En todo momento se pueden ver los valores que poseen las variables de entorno, a travs de la
siguiente opcin: Editar -> Mostrar Variables de Entorno.
Tal y como puede observarse estas variables son utilizadas en la sesin del usuari@ actual.
Las variables de entorno, permiten centralizar y reutilizar valores, que se irn repitiendo en las
diferentes Transformaciones y Trabajos, por ejemplo: nombre de bases de datos, puertos, url de
conexin, etc.
Nota: Por defecto, el registro de log de un trabajo o transformacin tambin se abre cada vez que
se ejecuta el archivo.
Repetir
Esta opcin puede accederse a travs de la barra de men, seleccionando: Transformacin ->
Repetir
o seleccionando el icono
de la barra de herramientas.
La caracterstica Repetir permite volver a ejecutar una Transformacin que ha fallado. Repetir se
implementa funcionalmente para "Entrada Archivo de Texto" y "Salida Excel".
Permite enviar los archivos que contenan errores de nuevo a la fuente y que se corrijan los datos.
Si un archivo .line est presente, slo se procesan las lneas que no fallaron durante la
reproduccin. La caracterstica Repetir utiliza la fecha del archivo .line para que coincida con la
fecha ingresada en Repetir.
Pero tambin puede hacerse de manera ms directa a travs de la opcin "Generar mapa contra
este paso destino". A continuacin se expondr un ejemplo que permitir apreciar cmo se utiliza
esta opcin.
Ejemplo:
El siguiente es un ejemplo de una Transformacin simple en la que se busca generar el mapeo de
los correspondientes flujos de datos a una tabla de salida:
*1) Hacer clic derecho sobre el paso Salida Tabla y seleccionar "Generar mapa contra este paso
destino":
*2) Agregar todos los mapeos necesarios usando las herramientas de "Editar Mapeo" mostradas
anteriormente y hacer clic en OK. Ahora ver que se agrega automticamente al lienzo un nuevo
paso "Selecciona/Renombra Valores" con el nombre "Mapeo Salida Tabla":
*3) Colocar el nuevo paso entre los dos pasos iniciales y configurar los saltos de la siguiente
manera:
Como se puede observar, esta opcin permite realizar de forma sencilla y grficamente las
correspondencias entre el flujo de datos de entrada y salida.
Modo seguro
Es recomendable utilizar el "Modo seguro" cuando se mezclan filas de muchas fuentes para
asegurarse de que todas las filas tengan el mismo diseo en todas las condiciones.
La opcin "Modo seguro" est disponible en la ventana que se despliega al ejecutar una
Transformacin/Trabajo:
Cuando se ejecuta en modo seguro, la transformacin verifica cada fila que pasa y asegura que
todos los diseos sean idnticos. Si una fila no tiene el mismo diseo que la que la primera fila, se
genera e informa un error.
Esta opcin har entonces que la ejecucin de la Transformacin/Trabajo sea ms lenta, por lo
cual solo debe utilizarse para pruebas y deteccin de errores.
Nota: Esta opcin tambin est disponible en Pan.
Pgina de bienvenida
La pgina de Bienvenida se muestra al iniciar Spoon 3.2; proporciona enlaces a informacin
adicional sobre
PDI: