Sie sind auf Seite 1von 11

Pentaho

Pentaho BI Suite es un conjunto de programas libres para generar inteligencia empresarial (Business Intelligence). Incluye herramientas integradas para generar informes, minera de datos, ETL, etc.

Descripcin[editar]
Pentaho se define a si mismo como una plataforma de BI orientada a la solucin y centrada en procesos que incluye todos los principales componentes requeridos para implementar soluciones basados en procesos y ha sido concebido desde el principio para estar basada en procesos. Las soluciones que Pentaho pretende ofrecer se componen fundamentalmente de una infraestructura de herramientas de anlisis e informes integrado con un motor de workflow de procesos de negocio. La plataforma ser capaz de ejecutar las reglas de negocio necesarias, expresadas en forma de procesos y actividades y de presentar y entregar la informacin adecuada en el momento adecuado. Su modelo de ingresos parece estar orientado a los servicios (soporte, formacin, consultora y soporte a ISVs y distribuciones OEM) aunque en alguno de los documentos y pginas que hemos examinado aparece mencionado algunas funcionalidades Premium que hacen pensar en ingresos por futuras versiones o funcionalidades de pago. En su web presenta una organizacin por productos: Reporting, Analysis, Dahsboards y Data Mining, acompaado por dos introducciones: a la plataforma y a los productos. En dichas introducciones se hace mencin especfica al workflow como una de las capacidades BI claves de la plataforma.

Productos[editar]
Pentaho Analysis Services: cuyo nombre cdigo Mondrian es una servidor OLAP (procesamiento analtico en lnea) escrito en Java. Es compatible con el MDX (expresiones multidimensionales) y el lenguaje de consulta XML para el Anlisis y especificaciones de la interfaz olap4j. Pentaho Reporting: Consiste en un motor de presentacin, capaz de generacin de informes programticos sobre la base de un archivo de definicin XML. Sobre esta solucin se han desarrollado muchas herramientas, por ejemplo informes, diseadores de interfaz grfica de usuario, y asistentes tipo wizard. Un uso notable de esta herramienta es el Generador de informes para OpenOffice.org Pentaho Data Mining: Es una envoltura alrededor del proyecto Weka. Es una suite de software que usa estrategias de aprendizaje de mquina, aprendizaje automtico y minera de datos. Cuenta con series de clasificacin, regresin, reglas de asociacin, y algoritmos de clustering, as apoyar las tareas de anlisis predictivo.

Pentaho Dashboard: Es una plataforma integrada para proporcionar informacin sobre sus datos, donde se pueden ver informes, grficos interactivos y los cubos creados con las herramientas Pentaho Report Designer. Pentaho para Apache Hadoop: Es un conector de bajo nivel para facilitar el acceso a MUY grandes volmenes manejados en el proyecto Apache Hadoop, la Suite de Pentaho BI para Hadoop permite abordar los mayores desafos que experimentan los usuarios de Hadoop - , sobre su empinada curva de aprendizaje tcnico, la falta de personal tcnico cualificado y la falta de disponibilidad de las aplicaciones de desarrollo y despliegue para llevar a cabo la integracin de datos e inteligencia de negocios con Hadoop.

Persistencia MOLAP, ROLAP, HOLAP


Los cubos, las dimensiones y las jerarquas son la esencia de la navegacin multidimensional del OLAP. Al describir y representar la informacin en esta forma, los usuarios pueden navegar intuitivamente en un conjunto complejo de datos. Sin embargo, el solo describir el modelo de datos en una forma ms intuitiva, hace muy poco para ayudar a entregar la informacin al usuario ms rpidamente.

Un principio clave del OLAP es que los usuarios deberan obtener tiempos de respuesta consistentes para cada vista de datos que requieran. Dado que la informacin se colecta en el nivel de detalle solamente, el resumen de la informacin es usualmente calculado por adelantado. Estos valores precalculados son la base de las ganancias de desempeo del OLAP. En los primeros das de la tecnologa OLAP, la mayora de las compaas asuma que la nica solucin para una aplicacin OLAP era un modelo de almacenamiento no relacional. Despus, otras compaas descubrieron que a travs del uso de estructuras de base de datos (esquemas de estrella y de copo de nieve), ndices y el almacenamiento de agregados, se podran utilizar sistemas de administracin de bases de datos relacionales (RDBMS) para el OLAP.

Estos vendedores llamaron a esta tecnologa OLAP relacional (ROLAP). Las primeras compaas adoptaron entonces el trmino OLAP multidimensional (MOLAP), estos conceptos, MOLAP y ROLAP, se explican con ms detalle en los siguientes prrafos. Las implementaciones MOLAP normalmente se desempean mejor que la tecnologa ROLAP, pero tienen problemas de escalabilidad. Por otro lado, las implementaciones ROLAP son ms escalables y son frecuentemente atractivas a los clientes debido a que aprovechan las inversiones en tecnologas de bases de datos relacionales preexistentes.

Sistemas MOLAP
La arquitectura MOLAP usa unas bases de datos multidimensionales para proporcionar el anlisis, su principal premisa es que el OLAP est mejor implantado almacenando los datos multidimensionalmente. Por el contrario, la arquitectura ROLAP cree que las capacidades OLAP estn perfectamente implantadas sobre bases de datos relacionales Un sistema MOLAP usa una base de datos propietaria multidimensional, en la que la informacin se almacena multidimensionalmente, para ser visualizada en varias dimensiones de anlisis. El sistema MOLAP utiliza una arquitectura de dos niveles: la bases de datos multidimensionales y el motor analtico. La base de datos multidimensional es la encargada del manejo, acceso y obtencin del dato. El nivel de aplicacin es el responsable de la ejecucin de los requerimientos OLAP. El nivel de presentacin se integra con el de aplicacin y proporciona un interfaz a travs del cual los usuarios finales visualizan los anlisis OLAP. Una arquitectura cliente/servidor permite a varios usuarios acceder a la misma base de datos multidimensional. La informacin procedente de los sistemas operacionales, se carga en el sistema MOLAP, mediante una serie de rutinas por lotes. Una vez cargado el dato elemental en la Base de Datos multidimensional (MDDB), se realizan una serie de clculos por lotes, para calcular los datos agregados, a travs de las dimensiones de negocio, rellenando la estructura MDDB. Tras rellenar esta estructura, se generan unos ndices y algoritmos de tablas hash para mejorar los tiempos de accesos a las consultas. Una vez que el proceso de compilacin se ha acabado, la MDDB est lista para su uso. Los usuarios solicitan informes a travs de la interfase, y la lgica de aplicacin de la MDDB obtiene el dato. La arquitectura MOLAP requiere unos clculos intensivos de compilacin. Lee de datos precompilados, y tiene capacidades limitadas de crear agregaciones dinmicamente o de hallar ratios que no se hayan precalculados y almacenados previamente.

Sistemas ROLAP
La arquitectura ROLAP, accede a los datos almacenados en un datawarehouse para proporcionar los anlisis OLAP. La premisa de los sistemas ROLAP es que las capacidades OLAP se soportan mejor contra las bases de datos relacionales. El sistema ROLAP utiliza una arquitectura de tres niveles. La base de datos relacional maneja los requerimientos de almacenamiento de datos, y el motor ROLAP proporciona la funcionalidad analtica. El nivel de base de datos usa bases de datos relacionales para el manejo, acceso y obtencin del dato. El nivel de aplicacin es el motor que ejecuta las consultas multidimensionales de los usuarios. El motor ROLAP se integra con niveles de presentacin, a travs de los cules los usuarios realizan los anlisis OLAP. Despus de que el modelo de datos para el datawarehouse se ha definido, los datos se cargan desde el sistema operacional. Se ejecutan rutinas de bases de datos para agregar el dato, si as es requerido por el modelos de datos. Se crean entonces los ndices para optimizar los tiempos de acceso a las consultas. Los usuarios finales ejecutan sus anlisis multidimensionales, a travs del motor ROLAP, que transforma dinmicamente sus consultas a consultas SQL. Se ejecutan estas consultas SQL en las bases de datos relacionales, y sus resultados se relacionan mediante tablas cruzadas y conjuntos multidimensionales para devolver los resultados a los usuarios. La arquitectura ROLAP es capaz de usar datos precalculados si estos estn disponibles, o de generar dinmicamente los resultados desde los datos elementales si es preciso. Esta arquitectura accede directamente a los datos del datawarehouse, y soporta tcnicas de optimizacin de accesos para acelerar las consultas. Estas optimizaciones son, entre otras, particionado de los datos a nivel de aplicacin, soporte a la desnormalizacin y joins mltiples.

Sistemas MOLAP
Un desarrollo un poco ms reciente ha sido la solucin OLAP hbrida (HOLAP), la cual combina las arquitecturas ROLAP y MOLAP para brindar una solucin con las mejores caractersticas de ambas: desempeo superior y gran escalabilidad. Un tipo de HOLAP mantiene los registros de detalle (los volmenes ms grandes) en la base de datos relacional, mientras que mantiene las agregaciones en un almacn MOLAP separado.

Introduccin. HTML (Hypertex Markup Language) se ha convertido en un lenguaje de marcas de inmensa popularidad durante estos ltimos aos. Tambin debemos anotar que nos hemos encontrado con sus propias limitaciones, que algunas de ellas se han querido subsanar con la incrustacin de scripts, javascripts, Active X, HTML dinmico, hojas de estilo en cascada (CSS). Todo esto es insuficiente para crear unaarquitectura abierta de tipo cliente/servidor, con lo que el W3C (Word Wide Web Consortium), organismo que vela por el desarrollo de la Word Wide Web, se ha replanteado crear un nuevo estndar llamado XML (eXtensible Markup Language), que parte de las amplias especificaciones del SGML (Standard Generalized Markup Language). XML fue desarrollndose por el Grupo de Trabajo XML desde 1996 (en estos primeros aos llamado SGML Editorial Review Board). La especificacin XML 1.0 ha sido ratificada por la W3C el 10 de febrero de 1998, e interpretado como "un sistema para definir, validar y compartir formatos de documentos en la Web". 2. Qu es XML?.

Concepto: XML es un lenguaje de metamarcado que ofrece un formato para la descripcin de datos estructurados. Esto facilita unas declaraciones de contenido ms precisas y unos resultados de bsquedas ms significativos en varias plataformas. Adems, XML habilitar una nueva generacin de aplicaciones para ver y manipular datos basadas en el Web. Representacin estructural de los datos: XML ofrece una representacin estructural de los datos que se puede implementar ampliamente y es fcil de distribuir. XML es un subconjunto de SGML optimizado para el Web. Definido por el World Wide Web Consortium (W3C) (en ingls), XML garantiza que los datos estructurados sean uniformes e independientes de aplicaciones o fabricantes. La interoperabilidad resultante est creando rpidamente una nueva generacin de aplicaciones de comercio electrnico en la Web. XML, que proporciona un estndar de datos que puede codificar el contenido, la semntica y los esquemas de una gran variedad de casos, desde los ms simples a los ms complejos, sirve para marcar lo siguiente: Un documento normal. Un registro estructurado, como un registro de citas o un pedido de compra. Un objeto con datos y mtodos, como el formulario permanente de un objeto Java o de un control ActiveX. Un registro de datos, como el conjunto de resultados de una consulta. Metacontenido sobre un sitio Web, como el formato de definicin de canal (CDF). Representaciones grficas, como la interfaz de usuario de una aplicacin. Entidades y tipos de esquema estndar. Todos los vnculos entre datos y personas que hay en el Web. Cuando los datos llegan al escritorio del cliente, se pueden manipular, editar y presentar en varias vistas, sin tener que regresar al servidor. Ahora los servidores pueden ser ms escalables, gracias a la reduccin de las cargas de ancho de banda y computacin. Adems, dado que los datos se intercambian en el formato XML, se pueden combinar fcilmente desde distintas fuentes. XML es muy valioso para Internet, as como para los entornos de intranets corporativas de gran tamao, pues proporciona interoperabilidad mediante un formato basado en estndares flexible y abierto, con formas nuevas de acceso a las bases de datos existentes y de entregar datos a clientes de Web. Las aplicaciones se pueden generar ms rpidamente, su mantenimiento es ms sencillo y pueden ofrecer fcilmente varias vistas de los datos estructurados.

En un principio, no rivalizarn HTML y XML, estos se complementarn el uno al otro, anudndose ambas gramticas. Este Lenguaje de marcas extensible (XML) es una versin abreviada del SGML (Standard Generalized Markup Language). Algunos de los objetivos planteados por el Grupo de Trabajo XML y el W3C son: XML debe ser directamente utilizable sobre Internet. XML debe soportar una amplia variedad de aplicaciones. XML debe ser compatible con SGML. Debe ser fcil la escritura de programas que procesen documentos XML. El nmero de caractersticas opcionales en XML debe ser absolutamente mnimo, idealmente cero. Los documentos XML deben ser legibles por los usuarios de este lenguaje y razonablemente claros. El diseo de XML debe ser formal, conciso y preparado rpidamente. Los documentos XML deben ser fcilmente creables. La brevedad en las marcas XML es de mnima importancia. A estos fines se le une unos estndares como el Unicode e ISO/IEC 10646 para caracteres, el Internet RCF 1766 para identificacin de lenguajes, ISO 639 para cdigos de nombres de lenguajes y tambin el ISO 3166 para cdigos de nombres de pases, para la normal comprensin de esta versin de XML.
3. Estructura de XML.

Un documento XML tiene dos estructuras, una lgica y otra fsica. Fsicamente, el documento est compuesto por unidades llamadas entidades. Una entidad puede hacer referencia a otra entidad, causando que esta se incluya en el documento. Cada documento comienza con una entidad documento, tambin llamada raz. Lgicamente, el documento est compuesto de declaraciones, elementos, comentarios, referencias a caracteres e instrucciones de procesamiento, todos los cuales estn indicados por una marca explcita. Las estructuras lgica y fsica deben encajar de manera adecuada: Los documentos XML se dividen en dos grupos, documentos bien formados y documentos vlidos. Un objeto textual o documento XML se dice que est bien formado si, considerndolo como conjunto, encaja con las especificaciones XML de produccin, lo que implica: Contiene uno o ms elementos. Hay exactamente un elemento, llamado raz o elemento documento, de forma que ninguna parte del mismo aparece en el contenido de ningn otro elemento. Para todos los dems elementos, si la etiqueta inicial est en el contenido de otro elemento, la etiqueta final forma parte del contenido del mismo elemento. Dicho de forma ms clara, los elementos, delimitados por una etiqueta de inicio y otra de final, se encuentran anidados correctamente. Cumple todas las restricciones que proporciona su especificacin a travs del DTD. Si no se utiliza DTD, el documento debe comenzar con un Declaracin de Documento nico (SDD, Standalone Document Declaration) que indique: <?XML version="1.0" standalone="yes"?> Cada una de sus partes procesadas esta bien formada. Todas las etiquetas deben estar balanceadas: esto es, todos los elementos que contengan datos de tipo carcter deben tener etiquetas de principio y fin (no est permitida la omisin excepto para los elementos vacos.); Todos los valores de los atributos deben ir entrecomillados (el carcter comilla simple [el apstrofe] puede utilizarse si el valor contiene caracteres comillas dobles, y viceversa): si necesitas ambos, utiliza &apos; y &quot; Cualquier elemento VACO (p.e. aquellos que no tienen etiqueta final como <IMG>, <HR>, y <BR> y otros de HTML) deben terminar con '/>' o debes hacerlos no VACOS aadindoles una etiqueta de fin; Ejemplo: <BR> se convertir en <BR/> o en <BR></BR>.

No debe haber etiquetas aisladas (< &) en el texto (p.e. debe darse como &lt; y &amp;), y la secuencia ]]> debe darse como ]]&gt; si no ocurre esto como final de una seccin marcada como CDATA; Los elementos deben anidar dentro de s sus propiedades (no se deben sobreponer etiquetas, como en el resto de SGML); Los Archivos bien-formados sin-DTD pueden utilizar atributos en sus elementos, pero stos deben ser todos del tipo CDATA, por defecto. De un documento bien formado, se dice adems que es vlido, si tiene DTD como el resto de aplicaciones SGML. Un archivo XML vlido comienza como cualquier otro archivo SGML, con una Declaracin de Tipo de Documento: <?xml version="1.0"?> <!DOCTYPE anuncio SYSTEM "http://www.foo.org/ad.dtd"> <anuncio> <titulo>...<foto/>...</titulo> <texto>...</texto> </anuncio> Dado que XML est diseado para ser un subconjunto de SGML, cualquier documento XML vlido debe ser tambin un documento SGML vlido.

EL PAPEL DEL ANALISTA DE SISTEMAS El analista de sistemas


generalmente valora la manera que funcionan los negocios examinando laentrada, el procesamiento de datos y la salida de informacin con el propsito de mejorar losprocesos organizacionales.Muchas mejoras involucran mejor apoyo para las funciones de los negocios por medio del uso desistemas de informacin computarizados. Esta definicin enfatiza un enfoque sistem tico ymetdico para analizar, y posiblemente mejorar, lo que est sucediendo con el contexto especificocreado por un negocio.Se requiere que los analistas de sistemas desempeen muchos paquetes en el curso de sutrabajo. Algunos de estos papeles son:1.Consultores externos para negocios.2.Experto de soporte dentro de un negocio.3.Agente de cambio en situaciones tanto internas como externas.Los analistas poseen un amplio rango de habilidades. La primera y principal es que le analistasoluciona problemas, le gusta el reto de analizar un problema y encontrar una respuesta funcional.Los analistas de sistemas requieren habilidades de comunicacin que les permitan relacionarse enforma significativa con muchos tipos de gente diariamente, as como habilidades de computacin.Para su xito es necesario que se involucre el usuario final.Los analistas proceden sistemticamente. El marco de referencia para su enfoque sistemtico esproporcionado por lo que es llamado el ciclo de vida del desarrollo de sistemas (SDLC). Este puedeser dividido en siete fases secuenciales, aunque en realidad las fases estn interrelacionadas yfrecuentemente se llevan a cabo simultneamente. Las siete fases son:1.Identificacin de problemas.2.Oportunidades y objetivos3.Determinacin de los requerimientos de informacin4.Anlisis de las necesidades de sistemas5.Diseo del sistema recomendado6.Desarrollo y documentacin del software7.Prueba y mantenimiento del sistema e implementacin del mismo.Los paquetes de software basados en microcomputadora automatizado para el anlisis y diseo desistemas son llamados herramientas CASE. Las cuatro razones para la adopcin de herramientasCASE son:1.El incremento de la productividad del analista2.La mejora de la comunicacin entre analistas y usuarios3.La integracin de actividades del ciclo de vida y el anlisis.4.La valoracin del impacto de los cambios por mantenimiento.Los analistas tambin usan enfoque CARE (Reingeniera Asistida por Computadora) para hacer ingeniera inversa y reingeniera de software para extender la vida del software legado.Un enfoque nuevo y diferente al anlisis y diseo de sistemas es el anlisis y diseo de sistemasorientados a objetos (O-O). Estas tcnicas estn basadas en conceptos de programacin orientadaa objetos en los cuales los objetos, que son creados incluyen no solamente cdigo acerca de losdatos sino tambin instrucciones acerca de las operaciones que se pueden realizar con ellos

Cuando la situacin organizacional lo demanda, el analista puede apartarse del SDLC para intentar una metodologa alterna, tal como la elaboracin de prototipos, ETHICS, el enfoque de campende proyecto, la metodologa Soft Systems o Multiview.

COMPRENSIN DE LOS ESTILOS, ORGANIZACIONES Y SU IMPACTO SOBRE LO SSISTEMAS DE INFORMACIN Hay tres amplios puntos fundamentales de las organizaciones a considerar cuando se analizan ydisean sistemas de informacin. Estos son el concepto de la organizacin. Esos son el conceptode la organizacin como sistema, los diversos niveles de administracin y la cultura organizacionalgeneral.Las organizaciones son sistemas completos compuestos de sub sistemas interrelacionados einterdependientes. Adems, los sistemas y subsistemas

estn caracterizados por su ambienteinterno, en un continuo que va desde abiertos a cerrados. Un sistema abierto permite el paso librede recursos (personas, informacin y materiales) a travs de su frontera. Los sistemas cerrados nopermiten el libre flujo de entrada o salida.Los diagramas entidad-relacin ayudan a que le analista de sistemas comprenda las entidades yrelaciones que comprende el sistema organizacional. Los cuatro tipos diferentes de relaciones enlos diagramas E-R son: relacin uno a uno, relacin uno a muchos, relacin muchos a uno yrelacin muchos a muchos.Los tres niveles de control administrativo son: operacional, medio y estratgico. El horizonte detiempo para la toma de decisiones es diferente para cada nivel.Las culturas y subculturas organizacionales son determinantemente importantes sobre la maneraen que las personas usan la informacin y los sistemas de informacin. Apoyando los sistemas deinformacin y los sistemas de informacin. Apoyando los sistemas de informacin en el contexto dela organizacin como un sistema ms grande, es posible darse cuenta que numerosos factores sonimportantes y deben ser tomados en cuenta cuando se determinen los requerimien tos deinformacin y se disea e implementa los sistemas de informacin.

DETERMINACIN DE LA FACTIBILIDAD Y EL MANEJO DE LAS ACTIVIDADES DE ANLISIS Y DISEO Los cuatro puntos fundamentales del proyecto que el analista de sistemas debe manejar son:1.Iniciacin del proyecto2.Determinacin de la factibilidad del proyecto3.Calendarizacin del proyecto4.Administracin de los miembros del equipo del anlisis de sistema.Los proyectos pueden ser solicitados por muchas personas diferentes dentro del negocio o por losmismos analistas de sistema.La seleccin de un proyecto es una decisin difcil, debido a que sern solicitados ms proyectosde los que pueden ser hechos. Cinco criterios importantes para la seleccin de proyectos son:1.Que el proyecto solicitado este respaldado por la administracin.2.Que tenga el tiempo adecuado para la asignacin de recursos.3.Que mueva al negocio hacia la obtencin de sus objetivos.4.Que sea practicable. 5.Que sea lo suficientemente importante para ser considerado en vez de otrosproyecto s posibles.Si un proyecto solicitado satisface estos criterios, entonces puede ser elaborado un estudio de lafactibilidad de sus mritos operacionales, tcnicos y econmicos. Por medio del estu dio defactibilidad los analistas de sistemas recopilan datos que permiten a la administracin decidir sicontinan con un estudio de sistema completo.La planeacin del proyecto incluye la estimacin del tiempo requerido por cada una de lasactividades del analista, su calendarizacin y la agilizacin de ellas, si es necesario para asegurar que un proyecto sea terminado a tiempo. Una tcnica de que dispone el analista de sistemas parala calendarizacin de tareas es la grfica de Gantt, que despliega actividades en forma de barrasen una grfica.La calendarizacin de proyectos basada en computadora, usando microcomputadoras, es ahoraprctica comn, debido principalmente al uso de interfaces de usuario grficas. Adicionalmente. Sepueden usar los administradores de informacin personales (PIM) por los analistas para planear,crear deposito de nmeros telefnicos y de fax y hasta para ejecutar otros programas.Una segunda tcnica, llamada PERT (evaluacin

de programas y tcnicas de revisin), despliegalas actividades como flechas en una red. El PERT ayuda a que el analista determine la ruta crticay el tiempo de holgura, que es la informacin requerida para el control efectivo del proyecto.Cuando es necesario terminar un proyecto en menor tiempo, el analista puede reducir la duracintotal del proyecto identificacin y agilizando las actividades principales.Una vez que un proyecto ha sido juzgado factible, el analista de sistemas debe administrar a losmiembros del equipo, sus actividades, tiempo y recursos. La mayor parte de esto se logra mediantela comunicacin con los miembros del equipo. Los equipos estn constantemente buscando unbalance entre el trabajar sobre las tareas y el mantener las relaciones con el equipo. Deben ser solucionadas las tensiones que suceden al intentar lograr este balance. Frecuentemente emergendos lderes en un equipo, un lder de tarea y un lder socioemocional. Los miembros deben valorar peridicamente las normas del equipo para asegurarse de que sean funcionale s en vez dedisfuncionales para el logro de los objetivos del equipo.Es importante que le equipo de anlisis de sistemas ponga objetivos de productividad razonablespara las salidas tangibles y las actividades del proceso. Las fallas del proyecto pueden ser evitadas, por lo general, examinando las motivaciones de los proyectos solicitados, as como losmotivos del equipo para recomendar o evitar un proyecto particular. Actividades obligatorias: o Describa cuales son las habilidades del analista de sistemas. o Mencione las siete fases secuenciales. o Explique cada una de los tres puntos fundamentales de las organizaciones aconsidera r cuando se analizan y disean sistemas de informacin. o Cules son las cuatro razones para la adopcin de las herramientas CASE? o Explique en qu consiste la tcnica PERT. o Cmo se determina la factibilidad del proyecto?

Das könnte Ihnen auch gefallen