Sie sind auf Seite 1von 4

ETL Extrao, Transformao e Carga de Dados Blog do Lito Data Warehouse /...

Page 1 of 4

ETL Extrao, Transformao e Carga de Dados


janeiro 13, 2010 Carlos Alberto Lorenzi Lima Uma Etapa crtica do Data Warehouse!

Fase extremamente critica de um Data Warehouse, pois envolve a movimentao dos dados de origem nossistemas transacionais e/ou sistemas legados, obedecendo as regras de negcio.A mesma se d basicamente em trs passos, extrao (E), transformao (T) e carga (L Loader)dos dados, esses so os mais trabalhosos, complexos e tambm muito detalhados, embora tenhamos vrias ferramentas (falaremos mais abaixo) que nos auxiliam na execuo desse trabalho. O primeiro passo a ser tomado no processo de ETL: a definio das fontes de dados e fazer a extrao deles. As origens deles podem ser vrias e tambm em diferentes formatos, onde poderemos encontrar desde os sistemas transacionais das empresas at planilhas, flat files (arquivos textos) , dados do Mainframe, etc. Osegundo passo:transformarelimparessesdados.Mas,oque,afinalde contas,isso? muito comum, na obteno dos dados que, no mais das vezes, so antigos e desconhecidos, encontrarmosmuito lixo einconsistncias. Por exemplo. Quando um vendedor de linhas telefnicas for executar uma venda, ou inscrio, ele est preocupado em vender, e no na qualidade dos dados que est inserindo na base, ento se por acaso o cliente no tiver o nmero do CPF a mo, ele cadastra um nmero qualquer, desde que o sistema aceite, um dos mais utilizados o 999999999-99. Agora imagine um diretor de uma companhia telefnica consultar o seu Data Warehouse (DW) para ver quais so os seus maiores clientes, e aparecer em primeiro lugar o cliente que tem o CPF 999999999-99 ? Seria no mnimo estranho. Por isso, nessa fase do DW, fazemos a limpeza desses dados, para haver compatibilidade entre eles. Alm da limpeza, temos de fazer na maioria das vezes uma transformao, pois os dados provm de vrios sistemas, e por isso, geralmente uma mesma informao tem diferentes formatos, por exemplo: Em alguns sistemas a informao sobre o sexo do cliente pode estar armazenada no seguinte formato : M para Masculino e F para Feminino, porm em algum outro sistema est guardado como H para Masculino e M para Feminino, em outro ainda, podemos encontrar 1 para Masculino e 2 para Feminino, e assim sucessivamente. Quando levamos esses dados para o DW, deve-se ter uma padronizao

http://litolima.wordpress.com/2010/01/13/etl-extracao-transformacao-e-carga-de-dados/

16/8/2011

ETL Extrao, Transformao e Carga de Dados Blog do Lito Data Warehouse /... Page 2 of 4

deles, ou seja, quando o usurio for consultar o DW, ele no pode ver informaes iguais em formatos diferentes. Assim sendo, quando fazemos o processo de ETL, transformamos esses dados e deixamos num formato uniforme sugerido pelo prprio usurio, como por exemplo M para Masculino e F para Feminino. No DW, teremos somente M e F, fato esse que facilitar a anlise dos dados que sero recuperados pela ferramenta OLAP. Alm desses exemplos acima, ns podemos integrar todas fontes de dados num nico banco. Com isso no existiro mais ilhas de dados, mas sim teremos informaes ricas e totalmente

integradas. Como o volume de dados muito grande, h muitos casos que no temos condies de processar as extraes e transformaes na janela de tempo em que o DW no est sendo usado, ento temos de fazer uso do que chamamos de staging rea para conseguirmos executar os processos com sucesso. Segundo Kimball, a Staging Area parte do Data Warehouse responsvel por receber a extrao, transformao e carga (ETL) das informaes dos sistemas transacionais legados, para posterior gerao dos Data Marts de destino, com as caractersticas: A Staging Area considerada rea fora do acesso dos usurios. A Staging Area no deve suportar queries dos Usurios. Ela pode ser composta por flat files (arquivos textos) ou tabelas de banco de dados na terceira forma normal (normalizadas). A seguir so apresentados alguns dos fatores que devem ser analisados antes de comear a fase de extrao dos dados: A extrao de dados do ambiente operacional para o ambiente de data warehouse demanda uma mudana na tecnologia. Os dados so transferidos de bancos de dados hierrquicos, tal como o adabas, ou de bases do grande porte, como o DB2, para uma nova estrutura de SGBD relacional para Data Warehouse, tal como o DB2 UDB, Oracle, Teradata e etc; A seleo de dados do ambiente operacional pode ser muito complexa, pois muitas vezes necessrio selecionar vrios campos de um sistema transacional para compor um nico campo no data warehouse; Outro fator que deve ser levado em conta que dificilmente h o modelo de dados dos sistemas antigos, e se existem no esto documentados;

http://litolima.wordpress.com/2010/01/13/etl-extracao-transformacao-e-carga-de-dados/

16/8/2011

ETL Extrao, Transformao e Carga de Dados Blog do Lito Data Warehouse /... Page 3 of 4

Os dados so reformatados. Por exemplo: um campo data do sistema operacional do tipo DD/MM/AAAA pode ser passado para o outro sistema do tipo ano e ms como AAAA/MM; Quando h vrios arquivos de entrada, a escolha das chaves deve ser feita antes que os arquivos sejam intercalados. Isso significa que se diferentes estruturas de chaves so usados nos diferentes arquivos de entrada, ento deve-se optar por apenas uma dessas estruturas; Os arquivos devem ser gerados obedecendo a mesma ordem das colunas estipuladas no ambiente de data warehouse; Podem haver vrios resultados. Dados podem ser produzidos em diferentes nveis de resumo pelo mesmo programa de gerao das cargas; Valores default devem ser fornecidos. As vezes pode existir um campo no data warehouse que no possui fonte de dados, ento a soluo definir um valor padro para estes campos. O data warehouse espelha as informaes histricas necessrias, enquanto o ambiente operacional focaliza as informaes pontuais correntes.Apartedecargadosdadostambmpossuiuma enorme complexidade, e os seguintes fatores devem ser levados em conta: A parte de Integridade dos dados. No momento da carga necessrio checar os campos que so chaves estrangeiras com suas respectivas tabelas para certificar-se de que os dados existentes na tabela da chave estrangeira esto de acordo com a tabela da chave primria; Se a tabela deve receber uma carga incremental ou a carga por cima dos dados. A carga incremental normalmente feita para tabelas fatos e a carga por cima dos dados feita em tabelas dimenses onde o analista ter que deletar os dados existentes e inclu-los novamente. Mas em alguns casos poder acontecer que as tabelas de dimenses tem de manter o histrico, ento o mesmo dever ser mantido (slowly change dimension); Apesar de existirem ferramentas de ETL como o DTS (Data Transformation Service), Data Stage, ETI, Business Objects Data Integration, Sunopsis atual Oracle Data Integrator, Oracle Warehouse Builder e o Informtica, ainda tem-se a necessidade de criar rotinas de carga para atender determinadas situaes que podero ocorrer. Pode ser em shell script, SQL puro ou em C, quando precisa de performance.

http://litolima.wordpress.com/2010/01/13/etl-extracao-transformacao-e-carga-de-dados/

16/8/2011

ETL Extrao, Transformao e Carga de Dados Blog do Lito Data Warehouse /... Page 4 of 4

As ferramentas de ETL mais utilizadas no mercado so o Data Stage da IBM, o ETI da ETI Corporation, Sagent da Group 1 Software, Informtica Power Center da Informtica, DTS da Microsoft, Pentaho (Open Source), Talend (Open Source), Sunopsis e o Oracle Warehouse Builder da Oracle. Todos tem os seus diferenciais e cada um poder ser utilizado dependendo do caso de cada empresa. Algumas ferramentas tem a curva de aprendizado mais suave, outras um pouco mais ngrime, mas em certos casos mesmo sendo uma ferramenta de difcil aprendizado exigindo maiores investimentos em pessoal, sero compensados com a performance e flexibilidade da mesma. H outras ferramentas que tem custo zero de aquisio pois, vem embutida junto com um SGBD (Sistema Gerenciador de Banco de Dados), mas em contrapartida so bastante limitadas no tocante a extrao de dados e exigem uma maior codificao dos processos de ETL, em relao as outras e por fim tem as open source que, dependendo do porte do projeto, podem atender satisfatoriamente. O que vale dizer que uma ferramenta de ETL tem grande valia, principalmente se os sistemas OLTP (transacionais) so muitos, pois elas so uma poderosa fonte de gerao de metadados, e que contribuiro muito para a produtividade da sua equipe, porm deve-se tomar muito cuidado ao escolhe-la. Seja minucioso, teste o mximo de ferramentas que puder e veja qual a mais adequada ao seu caso, pois elas exigem um alto investimento, tanto em capacitao, quanto na prpria aquisio. Em alguns casos interessante o auxlio de profissionais externos para a escolha. O fato verdadeiro que os benefcios sero bastante vistosos e a produtividade aumentar consideravelmente.

http://litolima.wordpress.com/2010/01/13/etl-extracao-transformacao-e-carga-de-dados/

16/8/2011

Das könnte Ihnen auch gefallen