Sie sind auf Seite 1von 7

18.

Qualidade de Dados em Data Warehouse - Objetivos e Sucesso Uma das caractersticas das Cincias Exatas a preciso das informaes obtidas; a segurana dos dados extrados nos processos usados. Clculos fsicos e matemticos nos do retornos numricos precisos. Usando-se frmulas fsicas e matemticas, espera-se exatido nos resultados de problemas. Atravs de procedimentos qumicos, pode-se mensurar o tempo de reao dos componentes e realizar previses sobre os resultados que podero ser alcanados. Essa caracterstica tem razo de ser. As cincias, alm de terem seus conceitos bsicos bem sedimentados, possuem mtricas; unidades de medidas que padronizam seu campo de atuao. A mtrica que fornece o sentido de exatido. Contudo, para se ter o conceito de Cincia Exata, no basta apenas estabelecer uma unidade de medida, preciso tambm que se tenha um mtodo de medio, um processo de se mensurar de forma segura. A preocupao com a melhoria dos processos sempre existiu. A busca por produtividade e qualidade, porm, est pressionando os envolvidos na produo a atingirem excelncia em seus produtos e servios. Atravs de metodologias e tcnicas, so implantados programas de qualidade/ produtividade para se atingir o objetivo. Um problema enfrentado pela rea de TI, ainda hoje, o pouco uso de metodologias e tcnicas no desenvolvimento. No caso de um Data Warehouse, o qual muito mais que um sistema, mas um ambiente complexo envolvendo vrios componentes o problema de se medir qualidade bem mais difcil, sobretudo, quando a qualidade dos processos est ligada qualidade dos resultados obtidos. Um ambiente de Data Warehouse responsvel pela disseminao do conhecimento do negcio, criando assim, inteligncia competitiva para a mesma. Com isso, a introduo de medidas de qualidade torna-se imprescindvel. A implantao de um processo de qualidade em Data Warehouse deve cobrir todas as fases, desde o levantamento dos requisitos,o mapeamento dos campos oriundos dos legados, o desenvolvimento do ETL (Extraction, Transformation and Load), a criao de um modelo multidimensional corporativo, a disposio das informaes atravs de ferramentas OLAP, at a validao dos dados apresentados. Contudo, sem o emprego de metodologias de qualidade e sem o uso de mtricas, no podemos estimar os custos de desenvolvimento, estabelecer previses de entrega, mensurar o esforo de implementao e no podemos realizar um acompanhamento qualitativo da produo, vital para um Data

Warehouse j que um ambiente em constante evoluo. Segundo David Card, um programa de mtricas deve estar focado em duas questes: quais dados devem ser coletados e o que fazer com eles. Uma vez equacionadas estas questes, um programa de qualidade e de estabelecimento de mtricas, deve seguir alguns passos bsicos, como definir o objeto da medio, identificar os atributos a serem medidos, especificar o uso dos resultados, coletar os dados, seguindo os passos anteriores, e verificar e modificar o modelo, baseado na anlise e experincia de aplicaes com os dados coletados. Entretanto, o uso de uma metodologia para implantao de um programa de qualidade no modifica os modelos existentes, nem tampouco os processos, apenas nos auxiliam na gerncia do Data Warehouse, fornecendo informaes que daro base para a tomada de decises para os rumos do projeto. Deve ficar claro que mtricas no substituem bons mtodos, apenas podem nos ajudar a assegurar bons projetos e processos de desenvolvimento eficientes. Um dos principais objetivos de um Data Warehouse eliminar problemas relativos ao negcio da corporao como, perda de receita, altos custos de produo, incapacidade de manter seus clientes fiis, perda de market share, dentre outros. Para realizar esse desejo, um projeto de Data Warehouse deve estabelecer alguns objetivos de curto e longo prazo. Os de curto prazo so relativos a cada iterao do Data Warehouse e beneficiam diretamente os usurios. Os de longo prazo so alcanados durante o tempo de vida do mesmo e a principal questo nesse sentido alinhar os pontos focais do Data Warehouse s metas estratgicas da empresa. Para tanto, devemos responder as seguintes questes: quais so os principais problemas da empresa relativos ao negcio, os objetivos do Data Warehouse esto endereados a esses problemas e, por ltimo, como o Data Warehouse pode ajudar a eliminar tais problemas. Um dos objetivos melhorar a qualidade dos dados, que um problema srio em todas as grandes corporaes, em especial, nos seus sistemas legados. De um lado, o Data Warehouse se prope a fornecer dados limpos, integrados e consistentes, provenientes de fontes de dados heterogneas. Por outro lado, temos o cronograma de implantao, que para grandes corporaes, tem em mdia um tempo longo. quase impossvel alcanar ambos os objetivos sem assumir alguns compromissos de implantao. Faz parte desse compromisso um conjunto de procedimentos teis, dentre os quais esto os exemplos abaixo. Nunca tente limpar todos os dados, apesar de querermos apresentar sempre dados perfeitamente limpos, no objetivo do Data Warehouse corrigir os dados do legado e sim mostrar suas inconsistncias, alm do que, na maioria das vezes, o custo dessa

limpeza excessiva muito alta em relao ao seu benefcio. Em contra-partida, nunca limpe nenhum dado, uma vez que o processo de transformao no ETL deve garantir a integridade das informaes e, para tanto, alguns dados necessitaro de higienizao, alm disso, o Data Warehouse se prope a oferecer dados mais limpos que os oferecidos pelos sistemas legados. Determine os benefcios da limpeza dos dados, levantando questes referentes a disponibilizao de relatrios ou vises incoerentes, e o motivo pelo qual eles se encontram assim, se por dados sujos ou erros nos processos. Analogamente, determine o custo da limpeza, analisando os prejuzos causados pelos dados sujos, o custo dos algoritmos para limp-los, a inconsistncia gerada entre os dados limpos no Data Warehouse e sujos no legado e o tratamento diferenciado a esses dados pelos diferentes sistemas da empresa, causando assim, incompatibilidade de conceitos. Compare ento os custos da limpeza dos dados com relao aos benefcios que eles proporcionaro estando limpos e os prejuzos que traro se permanecerem sujos. Priorize os dados sujos que so considerados como objetivo de limpeza pelo Data Warehouse e caso a lista de dados a serem limpos fique grande, priorize esta lista. Para cada dado sujo priorizado, avalie as chances de sucesso de sua limpeza, bem como o grau de dificuldade para limp-lo. A higiene de dados uma questo corporativa e, portanto, avalie a possibilidade de criar um projeto de limpeza de dados corporativo, estabelecendo regras nicas para a limpeza dos dados onde quer que eles se encontrem em relao aos sistemas legados e unificao dos conceitos relativos a eles. A criao de um repositrio central traz benefcios significativos para a empresa, no s em relao higiene dos dados, mas tambm na deduplicao das informaes espalhadas pelos sistemas. Isso pode fazer com que os vrios relacionamentos entre as entidades do modelo corporativo se tornem mais consistentes. A forma como os dados so disponibilizados tambm pode trazer inconsistncias nos relatrios e nas vises do Data Warehouse. Portanto, certifique-se que os dados disponibilizados sejam os mesmos que representam os desejos do usurio. No obstante, alguns dados podem ser incongruentes, e a regra de formao das mtricas disponibilizadas pelo Data Warehouse deve ser validada com a rea usuria, evitando assim, inconsistncias na disseminao da inteligncia do negcio da empresa. Todas as informaes que possam possuir dados em disputa, ou seja, dados opositivos, devem ser identificadas e, ento, deve ser estabelecido o custo de resoluo dessa disputa na formao das mtricas que iro para os relatrios e vises. No caso de uma lista de dados opositivos, priorize aqueles que obstruem o andamento do projeto. Uma maneira eficiente de evitar dualidades e desentendimentos

nos conceitos/ regras usados na formao das mtricas dispostas pelo Data Warehouse a criao de um metadados. O metadados deve prover informaes a respeito das informaes contidas no Data Warehouse, bem como as regras de negcio usadas para a composio das medidas e indicadores de performance. Essas informaes devem ser compartilhadas pela equipe tcnica e pelas reas usurias, compondo assim um metadados tcnico e um de negcios. O metadados corporativo deve possuir acessibilidade e fcil navegao, ajudando a disseminar conhecimento por toda a corporao. Um ponto que pode afetar o nvel de qualidade das informaes a integrao das diversas fontes de dados que servem de insumo para o Data Warehouse. Cada uma dessas fontes possui, em seus arquivos ou tabelas, uma chave de identificao unvoca prpria, e que deve de alguma forma estar associada s informaes do Data Warehouse. Esse sincronismo importante para garantir a consistncia dos dados e deve ser realizado na etapa de ETL. Contudo, o Data Warehouse deve permanecer independente dos sistemas legados e, para tanto, necessrio criar-se chaves de identificao unvoca para o prprio Data Warehouse e essas chaves, chamadas de IDs, devem estar por sua vez associadas s chaves naturais dos sistemas legados, mantendo desta forma, o sincronismo j mencionado. Existem medidas de sucesso que devem ser estabelecidas para acompanhar o projeto de Data Warehouse em seu ciclo de vida. Esses indicadores ajudaro os gerentes de projeto a tomar decises quanto ao direcionamento das manutenes corretivas e das evolutivas, dado que os mercados esto cada vez mais competitivos e a funo do Data Warehouse acompanh-lo. Um dos primeiros indicadores a ser implantado o grau de uso do Data Warehouse, verificando o nmero de usurios total que o acessam, o nmero de usurios concorrentes, a quantidade e o tipo das consultas e o montante de relatrios gerados. Essas medidas indicaro o caminho que o Data Warehouse deve seguir no seu ciclo de vida, indo de encontro s necessidades do usurio e estando sempre atualizado, no que refere inteligncia do negcio. O estabelecimento e o acompanhamento dessas mtricas far com que o Data Warehouse seja sempre til ao usurio, permitindo que ele tome decises de negcio baseado em dados consistentes, integrados e atuais. Assim, um outro indicador que se deve estabelecer relativo aos prazos de entrega. Como um ambiente de Data Warehouse est em contnua evoluo, retratando sempre um momento do mercado e no os perdendo, mantendo assim sua caracterstica temporal as solicitaes de mudana sero constantes e, por conseqncia, suas implementaes devero se dar em prazos factveis, para que os usurios possam usufruir dessas evolues em tempo hbil. Essas entregas devem se dar cumprindo os

oramentos planejados, no onerando o projeto todo. A incorporao dessas mtricas, seu acompanhamento e, sobretudo, o cumprimento das mesmas, far com que o Data Warehouse seja um agente de mudanas nas estratgias de negcio da corporao, fazendo com que as oportunidades de mercado sejam aproveitadas nos momentos corretos, tornando as decises gerenciais mais precisas. Como todo projeto, a implementao de um Data Warehouse possui alguns fatores crticos de sucesso e, dentre eles, os principais esto ligados ao relacionamento com os usurios. Assim, as expectativas dos clientes internos devem ser acompanhadas, atravs de um eficiente canal de comunicao entre a rea de TI e as reas usurias. Com isso, os usurios devem ser envolvidos no processo de levantamento de requisitos, na elaborao das regras de negcio e na validao dos dados a serem apresentados pelo Data Warehouse. Entretanto, um dos maiores fatores crticos a ser superado a escolha de um bom patrocinador. Este patrocinador far com que a rea usuria se torne parte integrante e atuante, dentro do processo do Data Warehousing. Citando outros fatores crticos de sucesso, esses mais intuitivos que os primeiros, existe a necessidade de capacitao da equipe, o estabelecimento de um cronograma factvel, a escolha de ferramentas de software alinhadas com o parque de hardware, o controle do andamento do projeto, a unificao dos conceitos de negcio da empresa, o estabelecimento correto das regras de negcio, o treinamento apropriado dos usurios e, principalmente, a divulgao e disseminao da cultura relativa ao ambiente de Data Warehouse, sua potencialidade, seus objetivos e seus benefcios. Independente das metodologias disponveis e das mtricas que se possa implantar, Data Warehouse se trata de dados e, portanto, um programa de qualidade em Data Warehouse deve ser focado nos dados. O primeiro passo para se estabelecer um bom gerenciamento dos dados manipulados pelo Data Warehouse entender o seu mapeamento com os sistemas legados, tentando desta forma, sanar o caos informacional que se d nesses diferentes sistemas isoladamente, com estruturas distintas e bases heterogneas. Esses diferentes sistemas fonte geram redundncia de dados e, o que pior, inconsistncia. Uma das metodologias para resolver esse problema a criao de uma rea de staging centralizada, gerenciada e controlada pelos processos de ETL. Contudo, essa rea deve estar intimamente relacionada a um modelo lgico de dados consistente e integrado. Esse modelo de dados far a integrao lgica entre as diversas fontes de informao e o processo de ETL garantir a consistncia dessa integrao, atravs de um correto mapeamento para a extrao, de um eficiente

conjunto de programas de converso para a transformao dos dados e, por fim, da carga desses dados para o modelo fsico. O segundo passo o uso de ferramentas corretas para a disposio dos dados. Do modelo de dados para a entrega das informaes, existe um novo processo de ETL, agregando, sumarizando e transformando-os, de acordo com as vises gerenciais pedidas pelos usurios. Sendo assim, as ferramentas OLAP usadas para a disseminao da inteligncia do negcio devem proporcionar um correto entendimento das mtricas e variveis disponveis. Pior do que no ter informao, t-la errada. Para melhorar a qualidade dos dados alguns pontos devem ser observados. Para um dado ser correto, seu valor deve estar inserido dentro de um domnio, discreto ou contnuo e, para tanto, o ETL deve possuir programas para a validao desses domnios. Um dado pode estar correto, porm, no acurado, isto , pode estar dentro de um domnio esperado mas no ter significado vlido. Portanto, pode-se estabelecer programas de anlise de amostras para verificao da acuracidade das informaes. Os dados devem ainda respeitar as regras de negcio estabelecidas para o Data Warehouse como, por exemplo, a data de desativao de um terminal no pode ser anterior a sua ativao. A verificao e validao desse tipo de informao, tambm pode estar contemplada no processo de ETL. Por fim, os dados devem ser completos, consistentes e integrados, fazendo com que as informaes necessrias para as anlises gerenciais estejam disponveis e que os relacionamentos entre as diversas variveis relacionadas s mtricas estejam corretas. Uma vez que um conjunto de programas estejam prontos para validar os dados entrados no Data Warehouse, uma questo que se levanta o que fazer com os dados incorretos. Devemos limp-los ou no? Existem alguns tipos de sujeira que podem ser tratadas e algumas regras de cleasing devem ser estabelecidas. Os valores dummy inseridos em diversos sistemas legados podem ser tratados no ambiente do Data Warehouse. Situaes como CPF igual 999.999.999/99 podem ser convertidos em nulo ou em valores de domnio que identifiquem seu preenchimento incorreto, para que estas incorrees possam ser tratadas nos sistemas fonte. Analogamente, os valores missing prejudicam as anlises gerenciais e a minerao dos dados, uma vez que as informaes perdidas nos sistemas legados (como sexo, data de nascimento, profisso) so de extrema importncia para a definio de modelos preditivos. Assim, deve-se analisar a possibilidade de derivao de dados a partir de outros como, por exemplo, o sexo definido a partir do nome. Dados criptografados tambm constituem um problema, uma vez que seus cdigos sem significado claro podem mascarar informaes importantes para o Data Warehouse. Nesse caso, os programas de ETL devem converter seus contedos em valores de domnio com significado

claro. Assim, todo projeto de Data Warehouse deve estabelecer alguns compromissos de qualidade para que sua implantao se torne um caso de sucesso, no apenas no uso de metodologias que incrementem qualidade no gerenciamento e na entrega dos dados, mas tambm, na definio e acompanhamento de indicadores de qualidade durante o ciclo de vida do projeto. Cada uma das fases do desenvolvimento deve estar inserida em um contexto de qualidade, como o ETL, no correto mapeamento dos dados e suas respectivas transformaes, a criao de um modelo lgico de dados consistente e integrado e a entrega e distribuio das informaes gerenciais. Autor: Carlos Andr Reis Pinheiro Biografia: Carlos Andr Reis Pinheiro ps-graduado em Cincia da Computao pelo Instituto de Computao da UFF e autor do livro Aplicaes de Banco de Dados em Delphi.

Das könnte Ihnen auch gefallen