Monografia Roger Pauer Formatada - Final

UNIVERSIDADE FUMEC FACULDADE DE CINCIAS EMPRESARIAIS - FACE
ROGER PAUER ROCHA VIANA
DATA MINING: Auxiliando na tomada de decises estratgicas nas empresas
BELO HORIZONTE 2013
Projeto de pesquisa realizado na Universidade FUMEC, no curso de Cincia da Computao, apresentado disciplina Trabalho de Concluso de Curso. Orientadores: Professor Leonardo Arruda Ribas Professor Osvaldo Manoel Corra Convidado: Hudson Ludgero
BELO HORIZONTE 2013
Trabalho de Concluso de Curso realizado na Universidade FUMEC, no curso de Cincias da Computao, apresentado disciplina Trabalho de Concluso de Curso.
____________________________________________________ Professor Osvaldo Manoel Corra (TCC) Universidade Fumec ____________________________________________________ Professor Leonardo Arruda Ribas (Orientador) Universidade Fumec
BELO HORIZONTE 2013
Primeiramente a Deus por me dar foras nessa caminhada difcil, aos meus pais pela vida e por tudo que fizeram e ainda fazem por mim. Aos meus orientadores que me apoiaram em todos os momentos, especialmente o Leonardo Ribas que foi muito solidrio e participativo. Roger Pauer Rocha Viana.
RESUMO
Atualmente cada vez mais empresas investem em sistemas para auxiliar na dinmica do seu negcio. Esses sistemas alimentam bases de dados com transaes que so a realidade cotidiana do negcio daquela empresa. Esses dados so sempre compartilhados por especialistas em sistemas, disponibilizando-os para fcil acesso visando a rpida recuperao por quem necessite de alguma informao sobre os mesmos. O que ocorre na maioria das vezes que ao se ver um grande volume de dados as pessoas no conseguem interpret-los de forma correta, pois isso requer um nvel de capacidade tcnica e analtica muito grande at mesmo para especialistas envolvidos. Dessa forma, se faz necessrio o uso de tcnicas e ferramentas que possam extrair dessas bases de dados informaes e conhecimento para que usurios possam utiliz-las visando o benefcio empresarial, buscando oportunidades, riscos e tambm realizar planejamentos de mdio e longo prazo. E nesse contexto que as tcnicas de Data mining se aplicam. Este trabalho visa demonstrar o Business Intelligence conceitualmente e tecnicamente, bem como o processo de descoberta de informaes em base de dados com enfoque na exposio ampla do data mining, falando sobre suas principais fases e algortmos Aps o conhecimento das tcnicas, pode se destacar os benefcios obtidos pelas empresas que se utilizam das ferramentas de inteligncia de negcios (Business Intelligence), sobre tudo o data mining, no auxlio da tomada de deciso.
Palavras chave: Inteligncia de negcio, Data mining, Business Intelligence, Banco de dados, KDD.
ABSTRACT
Currently more and more companies invest in systems to assist in the dynamics of your business. These systems feed databases with transactions that are the daily reality of the business of that company. These data are always shared by experts in systems, making them available for easy access for the rapid recovery for those who need some information about them. What happens most often is that when we see a large amount of data people can not interpret them correctly, because it requires a level of technical and analytical ate very large even for experts involved. Thus, it is necessary to use techniques and tools that can extract information such databases and knowledge so that users can use them in order to benefit business, seeking opportunities, risks, and also conduct planning for medium and long term. It is in this context that the data mining techniques are applied. This paper seeks to describe the overall Business Intelligence demonstrating it conceptually and technically, as well as perform the approach of the aspects of the process of knowledge discovery in databases, data mining exhibiting widely and their algorithms. After knowing the techniques can highlight the benefits obtained by companies that use the business intelligence tools, especially data mining, as an aid in decision making. Key words: Business Intelligence, Data mining, Data Base, KDD.
LISTA DE FIGURAS
FIGURA - Esquema de um Data Mart ..................................................................................... 18 FIGURA - Modelo Star Schema .............................................................................................. 19 FIGURA - Modelo SnowFlake ................................................................................................ 20 FIGURA - Etapas operacionais do processo de KDD. ............................................................. 26 FIGURA - Principais fases do processo de KDD..................................................................... 27 FIGURA - Viso geral dos diversos espaos de conhecimento ............................................... 30 FIGURA - Arquitetura de uma rede neural artificial. .............................................................. 31 FIGURA - Algortmo Genrico ................................................................................................ 33 FIGURA 9 - Conjunto dos clientes que receberam crdito. ..................................................... 35 FIGURA 10 - Resultado do K-NN. .......................................................................................... 35 FIGURA 11 - rvore de deciso. ............................................................................................. 38 FIGURA 12 - Diviso da serie temporal em conjuntos nebulosos. ......................................... 40 FIGURA 13 - A importncia da informao na tomada de deciso. ........................................ 42
LISTA DE TABELAS
TABELA 1 - Evoluo dos Sistemas de Informao. .............................................................. 15 TABELA 2 - Caractersticas dos sistemas OLAP e OLTP ...................................................... 21
LISTA DE SIGLAS
B.I D.W DOLAP Business Intelligence DataWarehouse (Armazm de dados) Desktop On-Line Analytical Processing (Processamentoanalticodesktoponline) EIS ETL HOLAP IBM Enterprise Information System (Sistemas de informao empresarial) Extracttransformandload (Extrao Transformao Carga) Hybrid On-Line AnalyticalProcessing (Processamento analtico hbrido online) International Business Machines ( uma empresa estadunidense voltada para a rea de informtica) KDD Knowledge Discovery in Databases (Descoberta de conhecimento em base de dados) K-NN KPI MOLAP K-NearestNeighbors (K-Vizinhos mais Prximos) Key Performance Indicador (Indicadores Chave de Desempenho) Multidimensional On-Line AnalyticalProcessing (Processamento analtico multidimensional online) OLAP OLTP ROLAP On-line AnalyticalProcessing (Processamento analtico online) On-line TransactionProcessing (Processamento de transaes online) Relational On-Line AnalyticalProcessing (Processamento analtico relacional online) SAC S.I Servio de Atendimento ao Consumidor Sistemas de informao
SUMRIO
INTRODUO .................................................................................................................................... 12 CAPTULO I DESCREVENDO O BUSINESS INTELLIGENCE. ................................................. 14 1.1. 1.2. 1.3. 1.4. 1.5. HISTRICO DO BUSINESS INTELLIGENCE (B.I.) ................................................................... 14 CONCEITOS DE BUSINESS INTELLIGENCE ............................................................................ 16 DATA WAREHOUSE .............................................................................................................. 17 DATA MART ......................................................................................................................... 18 OLAP ................................................................................................................................... 20 Origem ............................................................................................................................. 20
1.5.1.
1.5.2. OLAP x OLTP .................................................................................................................... 20 1.5.3. Multidimensionalidade ....................................................................................................... 22 1.5.4. Arquiteturas ........................................................................................................................ 22 1.6. ETL ...................................................................................................................................... 23
CAPTULO II DATA MINING SOBRE O ASPECTO TCNICO .................................................. 25 2.1 KDD ......................................................................................................................................... 25 2.1.1 Definio e histrico............................................................................................................ 25 2.1.2 Processo ............................................................................................................................... 25 2.1.3 Fases principais do processo de KDD ................................................................................. 26 2.2. DEFININDO O DATA MINING ...................................................................................................... 29 2.3 MTODOS DE DATA MINING ....................................................................................................... 30 2.3.1 Redes Neurais ...................................................................................................................... 30 2.3.2 Algortmos Genricos .......................................................................................................... 32 2.3.3 Algortmos baseados em Instncias ..................................................................................... 34 2.3.4 Mtodos Estatsticos ............................................................................................................ 36 2.3.4.1 Classificador Bayeasiano.................................................................................................. 36 2.3.5 Mtodos Especficos ............................................................................................................ 37 2.3.6 Mtodos baseados em induo de rvores de deciso ......................................................... 37 2.3.7 Mtodos baseados em Lgica Nebulosa .............................................................................. 39 CAPTULO III DATA MINING NO AUXILIO NA TOMADA DE DECISO ESTRATGICA NAS EMPRESAS ................................................................................................................................. 41 3.1 O PROCESSO DE TOMADA DE DECISO NAS ORGANIZAES ...................................................... 41 3.2 INTELIGNCIA COMPETITIVA E A UTILIZAODO DATA MINING ................................................ 42 3.3 BENEFCIO DA UTILIZAO DO DATA MINING COM INDICADORES GENRICOS. ......................... 45 3.4 CASOS DE SUCESSO NO USO DE B.I E TCNICAS DE DATA MINING. ............................................. 46 CONCLUSO ...................................................................................................................................... 48
REFERNCIAS .................................................................................................................................... 49
12
INTRODUO
Na atualidade em todos os segmentos comerciais o mercado esta cada vez mais competitivo. So milhares de empresas ofertando produtos e servios semelhantes buscando mais clientes para se consolidar, crescer ou sair de uma crise. Dados e mais dados dessas empresas esto armazenados em suas bases de dados que so de importncia histrica e revelam o dia a dia do negcio. Mas e se todo esse montante de dados pudesse se transformar em informao que respondesse questes como: Qual o prximo passo a tomar? Qual produto deve ser intensificado a produo? Qual estratgia utilizar em determinada regio? Qual produto deve ser retirado de produo? Visando extrair essas informaes surgiu o processo de B.I sendo que uma das suas principais tcnicas o data mining essa a qual possibilita anlise de grande volume de dados atravs de sub tcnicas e ferramentas. Atravs do data mining grandes empresas mundo a fora tem conseguido se destacar e sair na frente dos concorrentes prevendo tendncias, moldando seus produtos ou servios conforme perfil de consumo dos mesmos e acima de tudo maximizando seus lucros. Com as tcnicas de data mining podemos proporcionar uma inteligncia competitiva a nvel empresarial que um diferencial frente aos concorrentes podendo levar a empresa a atingir suas metas mais rapidamente. So inmeras as empresas nacionais e internacionais que se utilizam dessa tcnica nos dias atuais, dentre elas podemos citar grandes corporaes como: Telefnica, Sprint, Ita, Golden Cross, dentre outras. Assim sendo, este trabalho aborda o Business Intelligence de uma forma geral descrevendo mais detalhadamente as tcnicas de data mining, buscando analisar os benefcios obtidos pelas mesmas no processo de tomada de deciso empresarial e inteligncia competitiva. Este trabalho est dividido em trs captulos, no primeiro captulo foi trabalhado o Business Intelligence como um todo, descrevendo seu conceito, histrico, tcnicas de armazenamento de dados e modelagem multidimensional. O segundo captulo apresenta a parte tcnica do data mining, descrevendo seus conceitos, histrico, algortmos e tambm o processo de descoberta de conhecimento em base de dados.
13
O terceiro captulo busca demonstrar os benefcios da utilizao do data mining no processo de tomada de deciso, alm dos seus diferencias gerados para proporcionar uma maior inteligncia competitiva nas empresas que o utilizam. Ao final deste captulo so citados exemplos de sucesso de empresas que deixaram de perder clientes ou aumentaram seus lucros utilizando-se de data mining. Pretende-se com este trabalho promover no s a atualizao de conhecimento sobre o tema, mas destacar os benefcios gerados para uma gesto empresarial mais eficiente, baseado em informaes obtidas por data mining.
14
CAPTULO I DESCREVENDO O BUSINESS INTELLIGENCE.
1.1. Histrico do Business Intelligence (B.I.)

No atual ambiente computacional das empresas vemos uma grande massa de dados sendo gerada todos os dias, essa massa trs as informaes cotidianas do negcio e suas regras especficas, mas essas mesmas informaes se trabalhadas da forma correta podem nos trazer dados novos levando a ter uma certa percepo das pessoas responsveis por gerir as empresas. Para entendermos melhor esse cenrio devemos destacar a revoluo do conhecimento e da informao que se iniciou na virada do sculo XX e que evolui gradativamente. A Tabela abaixo demonstra os detalhes da evoluo dos Sistemas de Informao (S.I.) ao longo dos anos:
Perodo 1950 a 1960
Caracterstica dos S.I. Processamento de Dados (nfase Mudanas Tcnicas)
1960 a 1970
Relatrios Administrativos (nfase Controle Gerencial)
1970 a 1980
Apoio a Deciso (nfase Controle Gerencial)
1980 a 1990
Apoio Estratgico ao Usurio Final (nfase Atividades Institucionais Essenciais)
Papel dos S.I.nos s Sistemas de Processamento Eletrnico de Dados Processamento de transaes, manuteno de registros e aplicaes contbeis tradicionais. Sistemas de informao gerencial-Relatrios administrativos de informaes pr-estipuladas para apoio a tomada dedeciso. Sistemas de Apoio a Deciso Apoio interativo e ad hoc ao processo de tomada de deciso gerencial. Sistemas de computao do usurio final Apoio direto a computao para a produtividade do usurio final e colaborao de grupos de trabalho. Sistemas de informao executiva (EIS) Informaes crticas para a alta administrao. Sistemas especialistas Conselho especializado baseado no conhecimentopara os usurios finais.
15
A partir de 1990
Empresa e Conexo em Rede Global (nfase Atividades Institucionais Essenciais)
Sistemas de informao estratgica-Produtos e servios estratgicos paravantagem competitiva. Sistemas de informao interconectados Para o usurio final, a empresa e acomputao, comunicaes ecolaborao Interorganizacional, incluindooperaes e administrao globais na Internet, intranets, extranets e outras redes empresariais e mundiais.
Tabela 1: Evoluo dos Sistemas de Informao. Fonte: Adaptado de LAUDON e LAUDON; O BRIEN (2001; 2001 apud SILVA JUNIOR, 2006).
A histria do Business Intelligence, da maneira conhecida por ns atualmente, iniciada na dcada de 70 quando os primeiros produtos de B.I. foram disponibilizados para os analistas de negcios. Barbieri, (2001, p. 2), nos relata Seymour Pappert, um do grandes professores do MIT (Instituto de tecnologia do Massachussets), que na dcada referida j dizia que os dados e seus correlatos seriam responsveis por uma revoluo na sociedade, comparvel at mesmo com a imprensa inventada por Gutemberg. O maior problema dos primeiros produtos de B.I. era a necessidade de uma intensa e exaustiva programao, no disponibilizando a informao em tempo hbil e nem de uma forma muito flexvel, tambm se exigia um alto custo de implantao. Serain (2007) Aps o surgimento dos sistemas gerenciadores de banco de dados relacionais, micro computadores e interfaces grficas, vieram ento os produtos realmente direcionados aos analistas de negcio, possibilitando uma maior rapidez e flexibilidade de anlise sobre as informaes. Apos o entendimento do breve histrico do B.I. pode se adentrar melhor no assunto conhecendo seus conceitos.
16
1.2. Conceitos de Business Intelligence

A competitividade do mercado atual deixa o cliente com diversas opes de produtos e servios similares. cada vez mais importante que as empresas comecem a levantar informaes sobre os dados dos seus sistemas transacionais, buscando encontrar respostas para melhorar um produto, criar ofertas etc. Desta forma uma empresa que conseguir se beneficiar de informaes que antecipem a viso do cliente poder conquistar uma preferncia no seu segmento de negocio, buscando com isso uma consolidao, expanso ou afastar uma possvel crise. Conhecer a produo, custo de determinado produto ou servio, o volume de vendas, etc., so exemplos simples de controle que s vezes muitas empresas no conseguem mensurar o que as faz perder dinheiro e tempo. Nesse cenrio que o B.I.se encaixa sendo um ramo computacional que visa extrair todas as informaes das bases de dados transacionais e transform-las em informao para que os profissionais dos setores gerenciais possam retirar vantagem e obter a inteligncia de negcio. Barbieri conceitua B.I. como:
O conceito de BI de forma mais ampla pode ser entendido com utilizao de variadas fontes de informaes para se definir estratgias de competitividade dos s da empresa. O Universo hoje padece de um mal clssico. Possui uma montanha de dados, mas enfrenta grande dificuldade na extrao de informaes a partir dela. (BARBIERI, 2001, p. 34)
B.I. pode se constituir de uma vasta categoria de tcnicas e ferramentas para extrao, armazenamento e transformao de dados. Estas tecnologias acabam produzindo um ambiente de conhecimento onde h produo sistemtica de informao gil e consistente. Para um melhor entendimento dos processos de B.I, no podemos prosseguir no assunto sem antes termos uma idia sobre banco de dados relacional. Bancos de dados so ferramentas que armazenam conjuntos de registros dispostos em estrutura regular, dificultando assim o tratamento dessa informao. Nos prximos tpicos ser abordado de forma mais ampla alguns conceitos como data warehouse, data mart, OLAP.
17
1.3. Data Warehouse

Barbieri define DataWarehouse da seguinte forma:
Data warehouse, cuja traduo literal armazm de dados, pode ser definido como um banco de dados destinado a sistemas de apoio a deciso e cujos dados foram armazenados em estruturas logicas dimensionais, possibilitando o seu processamento analtico por ferramentas especiais. (BARBIERI, 2001, p. 51)
O D.W.tem por caractersticas: a) Baseia-se em assuntos: o D.W. organizado em torno de assuntos macro de uma organizao, tais como clientes, vendas e produtos e no em funo de processos ou operaes cotidianas. O D.W. foca em modelar os dados para o processo de tomada de deciso; b) Integrado: construdo integrando diversos tipos de bases de dados, que em muitas vezes so heterogneas, de forma a tornar as informaes consistentes; c) Varia conforme o tempo: armazena as informaes numa perspectiva histrica. Para termos um melhor entendimento sobre D.W.podemos fazer uma comparao entre o mesmo e os bancos de dados transacionais, que armazenam as informaes cotidianas da empresa, esses so utilizados por todos os funcionrios para registrar os dados atendendo a regras de negcio, por isso seus dados podem sofrer constantes mudanas. Por no ocorrer redundncia nos dados e as informaes histricas serem geralmente armazenadas em dispositivos de backup e apagadas, este tipo de banco de dados reduz a capacidade de armazenamento se tratando de dados histricos. J em D.W. so gerados dados analticos, destinados s necessidades da gerncia no processo de tomada de decises. Isto pode envolver consultas complexas que necessitam acessar um grande nmero de registros. Um D.W.armazena informaes histricas de muitos anos e por isso deve ter uma grande capacidade de processamento e armazenamento dos dados que se encontram de uma forma mais sinttica. Carlos Barbieri (2001, p. 51) nos diz que: A idia de D.W. armazenar os dados em vrios graus de relacionamento e sumarizao, de forma a facilitar e agilizar os processos de tomada de deciso por diferentes nveis gerenciais. Aps o conhecimento de D.W faz se necessrio falar sobre os seus subconjuntos, os data marts.
18
1.4. Data Mart

Data marts so subconjuntos de dados de um Data warehouse. Geralmente so dados referentes a um assunto ou rea mais especifico como departamento de vendas, departamento de Estoque, etc.; ou ento em diferentes nveis de sumarizao como, por exemplo: Vendas trimestrais, Vendas mensais, Vendas semestrais. Barbieri, (2001, p. 50), define Data Mart como: O termo Data Mart (mercado de dados) significa, deposito de dados que atende a certas reas especificas da empresa e voltados (tambm) para o processo decisrio gerencial. Seus dados so provenientes do D.W, desnormalizados e passam por um processo de indexao para suportando assim intensa pesquisa. Numa viso comparativa dos dados, onde devemos considerar os requisitos escopo, integrao, tempo, agregao, anlise e dados volteis, percebemos que a diferenciao est no requisito de escopo, pois enquanto o DW pensado para atender a empresa como um todo, o data mart criado para atender um subconjunto da empresa. Atender um subconjunto da empresa pode ser a reunio de dados de outros setores, j que, poucas vezes um nico setor contm ou gera toda informao que a empresa necessita.
Figura 1: Esquema de um Data Mart Fonte: Disponvel em <http://www.dataprix.net/files/uploads/250image/HEFESTO%20v2_0/data%20mart%20%20top%20down.png>. Acesso em: 21 abr. 2013.
19
Antes de se implementar um DW necessrio a realizao seu projeto em termos de definio e modelagem dos dados, nesse quesito atualmente dois modelos so os mais dominantes, so eles o Star Schema e SnowFlake. Segundo Moreira, (MOREIRA, 2006), o modelo star schema como um modelo em formato de estrela, onde todas as tabelas relacionam-se diretamente com a tabela de fatos. Sendo assim as tabelas dimensionais devem conter todas as descries que so necessrias para definir uma classe como Produto, Tempo ou Loja nela mesma, ou seja, as tabelas de dimenses no so normalizadas no modelo estrela, ento campos como categoria, departamento, marca contm suas descries repetidas em cada registro. (MOREIRA, 2006) Desta forma as tabelas dimenso tem seu tamanho aumentado pela repetio das descries de forma textual em todos os registros. Nas tabelas dimenso temos as principais caractersticas de um evento e nas tabelas fato, os fatos ocorridos, geralmente com as mtricas e as chaves para as caractersticas correspondentes das tabelas dimensionais. Na figura abaixo vemos a representao do modelo star schema:
Figura 2: Modelo Star Schema Fonte. Disponvel em: <http://conteudo.imasters.com.br/3836/03.gif>. Acesso em: 24 abr. 2013.
Para Moreira (MOREIRA, 2006), no modelo Snowflake tem se o relacionamento das tabelas dimenso com as tabelas fatos, porem algumas das dimenses relacionam-se apenas entre si, isto acontece com intuito de normalizao dessas tabelas dimensionais, buscando diminuir o espao ocupado por estas tabelas.
20
Figura 3: Modelo SnowFlake Fonte. Disponvel em: <http://conteudo.imasters.com.br/3836/04.gif>. Acesso em: 24 abr. 2013.
Aps os assuntos descritos faz se necessrio falar sobre outro tema muito importante em B.I que OLAP.
1.5. OLAP 1.5.1. Origem

De acordo com Cynthia Aurora Anzanello, (2005, p.5), bases de anlise Multidimensional para OLAP no so uma nova tecnologia. A IBM desenvolveu e implementou a primeira linguagem com anlise multidimensional, no fim da dcada de 1960, esta linguagem foi chamada de APL. Esta ferramenta foi definida matematicamente, baseando-se em smbolos gregos, foi utilizada por usurios finais e grande consumidora de recursos, sendo muito usada entre as dcadas de 1980 e 1990 em aplicaes de apoio a negcios. Acompanhando a evoluo dos sistemas, na dcada de 1990, uma nova classe de ferramentas foi introduzida no mercado, essas ferramentas foram nomeadas de OLAP. Ferramentas de OLAP tem a maioria dos princpios introduzidos pela linguagem APL, mas, com maior integrao na utilizao dos dados fontes.
1.5.2. OLAP x OLTP

Antes de adentramos mais no mundo OLAP necessrio o entendimento das suas diferenas perante um ambiente OLTP
21
De acordo com Henrique (2012), o OLTP (On-line Transaction Processing) faz a captura das transaes de um sistema e armazena no banco de dados. Bases desse tipo so utilizadas em sistemas que registram pequenas transaes realizadas em tempo real e que ocorrem frequentemente sendo de forma rpida. Por salvar apenas um curto histrico dos dados, no recomendado seu uso como base de dados adequada para ajudar na tomada de decises. Kimball (2002), apud Henrique (2012), diz que os sistemas OLTP tem sua modelagem relacional que visam eliminar ao mximo a redundncia, de forma que uma transao que gere alteraes no estado do banco de dados, atue o mais precisamente possvel. Com isso os dados normalizados esto distribudos em diversas tabelas, o que traz uma considervel complexidade criao de uma consulta por um usurio final. Sendo assim, esta prtica no parece ser a ideal para o projeto de D.W, onde estruturas mais simples, com menor nvel de normalizao devem ser buscadas. O OLAP (On-line Analytical Processing) destinado tomada de decises, oferecendo uma visualizao dos dados orientada anlise, alm de uma navegao mais flexvel e rpida. O OLAP recebe dados do OLTP para que se possam ser feitas as anlises, contm dados atuais e histricos. (Henrique, 2012) Atravs de pesquisa e um estilo de navegao simplificado, usurios finais podem rapidamente analisar inmeros panoramas, gerar relatrios, identificar tendncias e fatos relevantes sem se preocupar com tamanho, complexidade, e fonte dos dados. Henrique, (2012), nos diz que o setor gerencial de uma empresa utiliza-se do OLAP para as tomadas de decises, e assim feito o planejamento estratgico. A tabela 2 abaixo demostra as principais caractersticas entre OLAP e OLTP:
Caractersticas Operao Tpica Telas Nvel de Dados Idade dos Dados Recuperao Orientao Modelagem
OLTP Atualizao Imutvel Atomizado Presente Poucos registros Registro Processo
OLAP Anlise Definida pelo Usurio Altamente Sumarizado Histrico, Atual e Projetado Muitos registros Arrays Assunto
Tabela 2: Caractersticas dos sistemas OLAP e OLTP Fonte. Disponvel em: <http://social.technet.microsoft.com/wiki/contents/articles/6934.oltp-x-olap-pt-br.aspx>. Acesso em: 27 abr. 2013.
22
1.5.3. Multidimensionalidade
De acordo com Anzanello, (2005, p. 6), a viso multidimensional composta por consultas que proporcionam dados sobre medidas de desempenho, decompostas por uma ou mais dimenses dessas medidas. Podendo tambm serem selecionadas pelas dimenses ou pelo valor da medida. As vises multidimensionais disponibilizam as tcnicas bsicas para clculo e anlise necessrios pelas aplicaes de B.I. Para se obter a viso multidimensional, Anzanello (2005, p. 6), nos diz que necessrio compreender outras caractersticas: a) Cubo: Estrutura que guarda os dados em formato multidimensional, tornando sua anlise mais fcil. b) Dimenso: Unidade de anlise que rene dados relacionados. As dimenses vm a se transformar em cabealho de colunas e linhas, como exemplo perodos temporais, linhas de produto, regies de venda. c) Hierarquia: Formada por todos os nveis de uma dimenso, pode ou no ser balanceada. Na hierarquia balanceada os nveis mais baixos so correspondentes entre si, no entanto isto no acontece nas hierarquias no balanceadas no qual a equivalncia hierrquica no existe. Podemos exemplificar com uma dimenso geografia, onde o nvel pas no contm um subnvel Estado para um determinado elemento e contm para outro. d) Membro: Pode ser definido como subconjunto em uma dimenso. Cada nvel hierrquico tem elementos adequados aquele nvel. Anzanello (2005, p. 6)
1.5.4. Arquiteturas
Anzanello (2005), nos descreve os tipos de OLAP mais utilizados, sendo apresentados a seguir: a) MOLAP (Multidimensional On-Line Analytical Processing) o armazenamento de dados feito de forma multidimensional, implementado de conforme a ferramenta OLAP utilizada, sendo regularmente implementado em bancos de dados relacionais, no entanto no na terceira forma normal. Alm disso, o acesso aos dados acontece de forma direta no banco de dados do servidor multidimensional.
23
b) ROLAP (Relational On-Line Analytical Processing) os dados so armazenados no modelo relacional como tambm suas consultas so processadas pelo gerenciador do banco relacional. c) DOLAP (Desktop On-Line Analytical Processing) uma alterao existente para disponibilizar a portabilidade dos dados. A vantagem oferecida arquitetura e a reduo do trfico na rede. d) A arquitetura mais atual a HOLAP (Hybrid On-Line Analytical Processing), na qual ocorre uma mistura entre ROLAP e MOLAP. A vantagem que com a combinao de tecnologias pode-se obter o que h de melhor em ambas, o alto desempenho do MOLAP e a escalabilidade do ROLAP. Anzanello (2005) Tendo se visto o OLAP pode ser abordado um outro processo tambm muito importante em B.I. que o ETL
1.6. ETL
Para Ribeiro (2011), ETL vindo do ingls Extract Transform Load, (Extrao, Transformao e Carga) o processo que tem como objetivo a realizao de toda a parte de extrao de dados de fontes diversas, transformao para atender s necessidades de negcios e carga dos dados em um D.W. Os projetos de D.W consolidam dados de diferentes fontes, a maioria dessas fontes tendem a ser bancos de dados relacionais ou arquivos de texto, mas podem existir outros tipos de fontes tambm como planilhas Excel, etc; um sistema ETL precisa ter a capacidade de comunicao com todo o tipo de fonte de dados. Lima (2010), nos diz que uma fase extremamente crtica de um D.W, envolvendo a movimentao dos dados de origem das diversas fontes existentes. Como j falado anteriormente as etapas do processo so extrao, transformao e carga dos dados. A extrao, conforme IBL (2003), busca a captao de dados de fontes diversas, no qual cada sistema pode utilizar diferentes formatos de dados, um formato dos mais comuns, conforme j dito, so os arquivos texto. De acordo com Lima (2010), o processo de transformao contm tambm o processo de limpeza dos dados. Na limpeza so removidas as inconsistncias obtidas entre diversificadas fontes de dados participantes do processo de ETL. Na transformao feita a padronizao dos dados oriundos de vrios sistemas com formatos diferentes.
24
IBL (2003), nos diz que o estgio de transformao dos dados onde devemos aplicar regras ou funes nos dados extrados para que no venham a ocorrer problemas em sua carga nas bases de dados de destino. O processo de transformao ainda pode conter regras como: a) Seleo de algumas, ou nenhuma, colunas para carregar. b) Padronizao de valores codificados como, por exemplo, se o sistema fonte tem a definio de 1 e 2 para sexo masculino e feminino respectivamente, mas o D.W opta pelo armazenamento de M e F para masculino e feminino. c) Dados derivados ou calculados. d) Unificao ou juno de dados de fontes heterogneas. e) Sumarizao ou agregao dos dados. f) Gerao de chaves substitutas (surrogate keys). g) Operaes de pivot, transformao de linhas em colunas e vice-versa. h) Quebra de uma ou mais colunas em varias outras colunas. Como o volume de dados pode ser muito grande, segundo Lima (2010), h muitos casos que no temos condies de processar as extraes e transformaes em uma janela de tempo no qual o D.W. no est sendo utilizado, fazendo-se necessrio o uso das chamada staging reas, para que possamos executar os processos com sucesso. A Staging Area uma parte do D.W responsvel por receber o ETL das informaes dos sistemas transacionais legados, para posterior gerao dos Data Marts de destino. Tem como principais caractersticas possuir uma estrutura similar as fontes de dados de origem (visando um ETL mais rpido), ser fora do acesso dos usurios para consulta, dentre outras. A fase de carga faz o carregamento dos dados para o D.W.e dependendo das necessidades da organizao esse processo tende a variar. Em Alguns D.Ws pode haver a substituio dos dados existentes semanalmente por dados atualizados, enquanto outros adicionam os dados a um tempo pr-determinado. IBL (2003). Conforme visto, foi descrito neste captulo o business intelligence de uma forma geral, fazendo a sua conceituao, histrico e demonstrando suas principais metodologias para uma correta armazenagem e consulta aos dados de forma rpida e eficiente. Todo esse contedo de grande importncia se tratando de inteligncia de negcios, ficando pendente a exposio de uma tcnica muito relevante e que se bem aplicada permite ganhos fantsticos paras as empresas: O data mining. Este ser retratado no prximo captulo sobre um aspecto mais tcnico.
25
CAPTULO II DATA MINING SOBRE O ASPECTO TCNICO
Este captulo visa abordar o data mining de uma forma mais tcnica, mas antes necessrio falar sobre o processo de descoberta de informao em base de dados (KDD), no qual o data mining uma de suas etapas.
2.1 KDD 2.1.1 Definio e histrico

KDD (Knowledge Discovery in Databases) cuja traduo descoberta de conhecimento em base de dados, o procedimento de extrao de informaes de base de dados, que cria relaes de interesse para serem analisadas pelos especialistas, bem como o auxilio da validao de conhecimento extrado. O termo KDD possui varias etapas relacionadas, sendo elas: seleo, prprocessamento, transformao, data-mining e interpretao enquanto que data mining usado apenas para a fase de descoberta do processo de KDD. Goldschmidt e Passos, (2005, p.2), mencionam que o data mining dentro de um processo de KDD apenas uma etapa. O termo KDD surgiu no final da dcada de 1980, mais precisamente em 1989, sendo um novo ramo da computao, visando com a extrao de conhecimento, uma maneira automatizada de explorar as crescentes bases de dados e reconhecer os padres existentes atravs da modelagem de fenmenos do mundo real. (Goldschmidt e Passos, 2005, p. 3)
2.1.2 Processo
O processo de KDD dinmico, apesar de ter uma definio parecida a de data mining, deve ser composto de vrias etapas em sequncia, podendo haver retorno a etapas anteriores, isto , as descobertas realizadas (ou a falta delas). Ocasionalmente, este processo leva a novas hipteses e descobrimentos. Neste caso, o usurio tem a escolha de se decidir pela retomada dos processos de minerao, ou uma nova escolha de atributos, por exemplo, para comprovar as hipteses que apareceram ao longo do processo. O processo de KDD de descoberta de dados composto por varias etapas operacionais, a figura 4 nos apresenta essas etapas.
26
Segundo Goldschmidt e Passos, (2005, p.2), para um melhor entendimento do processo necessrio primeiro uma apresentao dos principais elementos das aplicaes de KDD que so: a) O problema onde o processo de KDD vai ser aplicado. Esse problema pode ter como caracterstica 3 elementos: conjunto de dados envolvido no problema , o especialista com domnio da aplicao e objetivos da aplicao. b) Os recursos disponveis para resoluo dos problemas descritos, entre eles pode se ressaltar: o especialista em KDD, as ferramentas de KDD e a plataforma computacional disponvel. c) Resultados conseguidos com a aplicao dos recursos no problema. Abrange os modelos de conhecimento encontrados ao longo da aplicao de KDD e o histrico das aes feitas.
Figura 4: Etapas operacionais do processo de KDD. Fonte: Goldschmidt e Passos, 2005, p. 3.
No tpico seguinte sero detalhadas as principais fases do processo de KDD.
2.1.3 Fases principais do processo de KDD

Para Prass (2012), as principais fases do processo de KDD so: seleo, prprocessamento e limpeza, transformao, data mining, interpretao e avaliao. A figura 6 a seguir nos demonstra as fases descritas dentro do processo.
27
Figura 5: Principais fases do processo de KDD. Fonte: Prass, Fernando Sarturi, 2012. Disponvel em:< http://fp2.com.br/blog/wpcontent/uploads/2012/08/kdd.png>. Acesso em: 30 Abr. 2013
Vamos ento descrever detalhadamente as fases demonstradas na figura 5: a) Seleo: Esta fase, no qual selecionamos os dados, a primeira no processo de descobrimento de informao e possui um impacto significativo sobre a qualidade do resultado final no processo de KDD, sendo que nesta fase escolhemos o conjunto de dados que iro conter todas as possveis variveis (podendo ser denominadas de caractersticas ou atributos) e tambm os registros (podendo ser denominados de casos ou observaes) a serem analisados. A escolha dos dados geralmente fica a critrio de um especialista do domnio, algum que entende do assunto tratado. De acordo com Prass (2012), o processo de seleo bem complexo, onde os dados podem vir de diversas fontes (D.W, planilhas, sistemas legados) e podem possuir formatos diversos. b) Pr-processamento e Limpeza: O Pr-processamento e limpeza dos dados uma parte fundamental em um processo de KDD, pois a qualidade dos dados vai ser determinante na eficincia dos algortmos de data mining. Segundo Goldschmidt e Passos (2005), nesta etapa devero ser realizadas atividades que eliminem os dados redundantes e inconsistentes, realizem a recuperao dos dados incompletos, e ainda avaliem dados possivelmente discrepantes ao conjunto. A participao de um especialista do domnio essencial, pois na maioria dos casos somente algum que entende do assunto capacitado a dizer se um dado discrepante ao conjunto ou simplesmente um erro de digitao. Nesta fase tambm utilizamos mtodos de reduo ou transformao para diminuir o nmero de variveis envolvidas no processo de KDD, objetivando com isto melhorar a performance do algortmo de anlise.
28
Prass nos diz que:
Identificar de dados inapropriados dentro do conjunto selecionado problemtico, e isto dificulta a automatizao desta fase. Definir um dado como ruim dentro do conjunto depende da estrutura do mesmo e tambm de que aplicao dada a ele. (PRASS, 2012)
c) Transformao dos Dados: Transformar os dados a fase do KDD anterior a fase de Data Mining. Aps ser realizada a seleo, limpeza e pr-processados, os dados tem a necessidade de serem armazenados e formatados corretamente para que os algortmos possam ser utilizados. Prass (2012), nos diz que em grandes corporaes comum encontrar computadores executando diferentes sistemas gerenciadores de Bancos de Dados (SGDB), onde estes dados dispersos devem ser agrupados em um repositrio nico. Tambm, nesta fase, h possibilidade de obteno de dados faltantes atravs do processo de transformar ou combinar outros dados, assim esses dados obtidos so chamados de dados derivados. Um simples exemplo de um dado que pode ser calculado a partir de outro dado a idade de um indivduo, podendo ser encontrada a partir de sua data de nascimento. d) Data Mining: Goldschmidt e Passos (2005), nos descrevem essa etapa dentro do processo de KDD como sendo a principal, onde ocorre uma busca efetiva por conhecimentos novos e teis a partir dos dados utilizando-se de algortmos, que so fundamentados em tcnicas que buscam, segundos determinados paradigmas, produzir modelos de conhecimento atravs da explorao dos dados. O objetivo da etapa de data mining, como j dito anteriormente, fornecer informaes s corporaes que as possibilitem montar melhores estratgias de marketing, vendas, suporte, melhorando assim os seus negcios. Essa fase o assunto principal desse captulo, aps esse tpico continuaremos a detalh-la melhor. e) Interpretao e Avaliao: o data mining trs com ele uma srie de idias e tcnicas para uma variedade de campos. Estatsticos, pesquisadores de Inteligncia Artificial e administradores de bancos de dados utilizam se de tcnicas diferentes para interpretar e avaliar os resultados obtidos com o data mining para chegar a um fim: a informao. Aps conceituado e conhecido o processo de KDD, pode-se ento adentrar na abordagem do data mining, comeando pela sua definio logo a adiante.
29
2.2. Definindo o Data Mining

Data mining, ou minerao de dados trata-se do processo de anlise de dados utilizando se de tcnicas para explorao, de forma a descobrir novos padres e relaes interessantes podendo representar informaes de grande relevncia. Devido ao grande montante de dados esses padres dificilmente seriam descobertos com mtodos mais tradicionais como consultas a base de dados ou relatrios. Os padres podem ser definidos como sendo uma afirmao sobre uma distribuio de probabilidade, podendo ser expressos na forma de regras, sejam elas por frmulas e funes, entre outras.
Os conceitos de garimpagem de dados (Data Mining) esto relacionados com a nova tendncia (para aplicaes comerciais) de se buscar correlaes escondidas em altos volumes de dados, nem sempre evidentes, principalmente no tratamento cotidiano dos sistemas de informaes. (BARBIERI, 2001, p. 178)
O interesse existente por este tipo de informao se d principalmente ao fato de que as instituies esto coletando e armazenando cada vez mais dados e como consequncia do baixo valor de meios de armazenamento e computadores e tambm do aumento da capacidade de ambos. Com a maior utilizao de D.W, tende a aumentar a quantidade de informaes disponveis. Conforme j mencionado anteriormente, mtodos tradicionais de anlise de dados, no so apropriados para grandes volumes de dados, pois podem criar relatrios informativos sobre os dados, mas no conseguem analisar o contedo destes relatrios a fim de obter conhecimentos importantes. Para Barbieri (2001, p. 178), o Data Mining uma forma de se capitalizar em cima de informaes, na tentativa de descobrir padres de comportamento de clientes ou estilos de aes fraudulentas em cartes de credito, seguradoras etc. A tcnica de mining buscar algo a mais que somente interpretao dos dados existentes, almejando principalmente a realizao de previses com possveis fatos e correlaes no explicitadas em um D.W. ou D.M. No fundo, com as tcnicas de Data Mining visamos identificar atributos e indicadores capazes de melhor definir uma situao especifica. Barbieri (2001, p. 179), nos cita o exemplo de uma empresa de seguros no qual as ferramentas de OLAP nos responderiam perguntas do tipo: Qual o valor mdio de pagamentos de seguros de vida para no fumantes, na regio sul do estado, em agosto de
30
determinada data?. O uso das ferramentas de Mining para o exemplo acima nos trariam melhores atributos de clientes, capazes de ajudarem como previsores de possveis acidentes de automvel. A figura 6 nos demonstra uma viso dos exemplos de atributos tratados por tcnicas de data mining em um ambiente diversificado de B.I.
Figura 6: Viso geral dos diversos espaos de conhecimento Fonte: Barbieri, 2001, p. 180
Feita a definio, o passo seguinte falar sobre as principais metodologias para aplicao de data mining.
2.3 Mtodos de Data Mining 2.3.1 Redes Neurais

De acordo com Goldschmidt e Passos (2005, p.175), redes neurais artificias so modelos matemticos que se baseiam nos princpios de funcionamento dos neurnios biolgicos e na estrutura do crebro humano. Modelos esses que tem a capacidade de adquirir, armazenar e utilizar conhecimento experimental e viso uma simulao computacional da habilidade dos seres humanos como generalizao, aprendizado, associao e abstrao. Segundo Goldschmidt e Passos (2005, p.176), suas principais caractersticas so: a) Busca paralela: Nas redes neurais o contedo fica distribudo pela estrutura das redes, desta forma a busca pela informao ocorre de uma forma paralela e no sequencial.
31
b) Aprendizado por experincia: As redes neurais buscam aprender padres sobre os dados explorados utilizando-se de um processo de repetidas apresentao dos dados a rede, procurando assim abstrair modelos de conhecimento. c) Generalizao: Redes neurais tem a capacidade de generalizar seu conhecimento com base em exemplos anteriores permitindo a mesma lidar com rudos e distores nos dados. d) Abstrao: Capacidade em perceber quais so caractersticas relevantes em um conjunto de dados de entrada. e) Robustez e degradao gradual: Com essa caracterstica a perda de um conjunto de neurnios artificias no causa necessariamente um mal funcionamento desta rede, pois a informao fica distribuda em toda a rede. Numa rede neural artificial os neurnios artificiais so arranjados em camadas conectas. A figura 7 abaixo nos demonstra a estrutura de uma rede neural simples. Os crculos tendem a representar os neurnios e as linhas representam as conexes.
Figura 7: Arquitetura de uma rede neural artificial. Fonte: Goldschmidt e Passos, 2005, p. 176.
A camada que recebe os dados denominada camada de entrada e a que exibe o resultado camada de sada. Nas camadas internas ocorre o processamento da rede, uma rede neural pode ter vrias camadas internas dependendo da complexidade do problema.
32
Para Goldschmidt e Passos (2005, p. 85), a topologia da rede neural varia em funo do problema e da representao adotada para os dados, no geral aplicaes de data mining a camada de entrada recebe os dados pr- processados de uma base de dados. A rede processa esses dados produzindo uma sada variando conforme a aplicao. A seguir ser descrito alguns algortmos de aprendizado mais utilizados em redes neurais. a) Back-Propagation: Goldschmidt e Passos (2005, p. 85), nos descrevem que esse um algortmo de aprendizado supervisionado, suja aplicao adequada a tarefas dentro do data mining como classificao, regresso ou previso de series temporais. Seu objetivo principal minimizar a funo de erro entre a sada gerada pela rede neural e a sada real esperada. Utilizando o mtodo do gradiente descendente. b) Kohonen: Geralmente ele baseado em uma forma de competio entre os elementos processadores, suas principais aplicaes so as tarefas de clusterizao (agrupa dados em conjuntos semelhantes) e deteco de regularidades (o sistema deve extrair caractersticas relevantes nos padres de entrada dos dados).
2.3.2 Algortmos Genricos

Goldschmidt e Passos nos definem algortmos genricos da seguinte forma:
Algortmos genricos so modelos computacionais de busca e otimizao de solues em problemas complexos, inspirados nos princpios evolutivos de Charles Darwin e tambm na reproduo gentica. Resumidamente, algortmos genricos so tcnicas que procuram obter boas solues para problemas complexos por meio da evoluo de populaes de solues codificadas em cromossomas artificiais. (GOLDSCHMIDT e PASSOS, 2005, p. 195)
Para Muniz (2008), algortmos genticos possuem uma soluo potencial para um problema especfico numa estrutura parecida a de um cromossomo humano, fazendo uso de operadores de seleo e cross-over a essas estruturas mantendo informaes crticas referentes soluo do problema. Para compreender de uma melhor forma como trabalha os algortmos genticos, vamos verificar um modelo matemtico, a maximizao da funo f(x) = x2 ir ajudar a compreender todo o seu processo. Vamos maximizar f(x) = x2 no intervalo de 0 a 31. Iniciamos a populao de cromossomos com 4 escolhidos aleatoriamente.
33
x1 = 13, x2 = 24, x3 = 8, x4 = 19
Realizando o calculo da funo de adaptao (f(x) = x2) para cada termo teremos:
f(x1) = 169, f(x2) = 576, f(x3) = 64, f(x4) = 361
Podemos ver que a melhor soluo nesta gerao x2. Muniz (2008) A adaptao geral vem a sero somatrio de todas as adaptaes de cada cromossomo, 1170. Percentualmente temos x1 tem participao de 14%, x2 de 49%, x3 de 6% e x4 de 31%. Vamos sortear 4 nmeros aleatrios entre 0 e 100 para verificamos em que ponto da reta entre 0 e 100 esses nmeros encontram-se e ento realizar a cpia dos cromossomos. O cromossomo x1 ser copiado uma vez, o cromossomo x2 vai ser reproduzido duas vezes, o cromossomo x3 no deve reproduzido, pois nenhum sorteio aleatrio caiu dentro da faixa de 6% entre 64% e 69% e o cromossomo x4 ser reproduzido tambm uma vez. Muniz (2008)
Figura 8: Algortmo Genrico Fonte: Muniz, Vander Emiro, 2008. Disponvel em:<http://www.devmedia.com.br/imagens/10-072007pic03.jpg>. Acesso em: 28 Abr. 2013
A nova gerao aps a reproduo ser de: x1 = 13, x2 = 24, x3 = 24 e x4 = 19. De acordo com Muniz (2008), pode se notar que x2 = x3 nesta nova gerao e que o x3 da gerao anterior no se reproduziu, pelo motivo da pouca adaptao, desta forma no h nenhum representante seu nesta nova gerao. A nova gerao mostra a mescla das solues bem-sucedidas da gerao anterior que se uniram e se reproduziram.
34
H possibilidade continuar o processo de evoluo, mas ele pode ser interrompido se o valor for considerado suficiente ou at atingir o valor mximo da funo f(x) no intervalo de 0 a 31.
2.3.3 Algortmos baseados em Instncias

De acordo com Goldschmidt e Passos (2005, p. 98), a expresso de mtodo baseado em instncia, indica que o mtodo leva em considerao as instncias ou os registros existentes na base de dados. Um dos principais mtodos que se baseiam em instncias denominado de K-NN. Esse mtodo frequentemente utilizado em aplicaes envolvendo a tarefa de classificao pois trata-se de um mtodo de fcil entendimento e implementao. No seu processamento o algortmo K-NN considera os seguintes passos: a) Clculo da distncia do novo registro a cada um dos registros na base de referncia. b) Identificao dos k registros na base de referncia que demonstraram menor intervalo em relao ao novo registro. c) Verificao da classe mais frequente entre os k registros identificados no passo anterior. d) Comparao da classe apurada com a classe real, computando erro ou acerto do algortmo. Este passo deve apenas ser utilizado quando as classes dos novos registros so conhecidas e se quer avaliar o desempenho do mtodo K-NN na base de dados em questo. Caso contrario no deve ser utilizado. Goldschmidt e Passos (2005, p. 99) Considerando o exemplo em um contexto de analise de credito avaliando-se a possibilidade de concesso ou no do credito a clientes. A base de dados de referencia encontra-se na figura 9 abaixo. O conjunto est dividido em duas classes: os negligentes representados por *, representados por esto os no negligentes.
35
Figura 9: Conjunto dos clientes que receberam crdito. Fonte: Goldschmidt e Passos, 2005, p. 99.
Apresentando-se um novo registro, representado por *, faz se o clculo da distncia entre este novo registro e todos os registros j existentes na base de dados. Considerando que o numero de k de vizinhos mais prximos seja 3, apenas os 3 registros com menor distncia ao novo sero considerados. Assim avaliando os resultados na figura 10 abaixo, observamos que a classe com maior ocorrncia dentro da rea delimitada pelo algortmo K-NN foi cliente entre no negligentes. Pela aplicao do algortmo K-NN no exemplo apresentado, o credito seria concedido ao cliente solicitante. Goldschmidt e Passos (2005, p. 99)
Figura 10: Resultado do K-NN. Fonte: Goldschmidt e Passos, 2005, p. 100.
36
2.3.4 Mtodos Estatsticos

Segundo Goldschmidt e Passos (2005, p. 100), vrios so os algortmos de data mining que se utilizam de princpios estatsticos, dentre eles podemos citar: a) Classificador Bayeasiano; b) K-Means; c) K-Modes; d) K-Prototypes; e) K-Medoids; Descrever cada um tornaria esse captulo muito extenso, vamos descrever apenas o classificador Bayeasiano.
2.3.4.1 Classificador Bayeasiano

Pichiliani (2006), nos diz que este algortmo tem essa nomenclatura porque baseado na teoria da probabilidade de Bayes. Seu objetivo o calculo da probabilidade, de que um novo dado faa parte de alguma classe estabelecida previamente. Ainda segundo Pichiliani (2006), essa ao preventiva pode ser nomeada como classificao estatstica, porque baseada completamente em probabilidades. Esta classificao tambm pode ser denominada de simples ou ingnua, a mesma leva em considerao que o efeito do valor de um atributo sobre uma determinada classe independente dos valores dos demais atributos. Uma caracterstica deste tipo de algortmo que ele necessita de um conjunto de dados j classificado previamente, ou seja, ele voltado para tarefas preditivas. Com base neste conjunto de dados prvio, chamado tambm de conjunto de treinamento, o algortmo recebe como entrada uma nova amostra desconhecida, e retorna como sada a classe mais provvel para esta amostra com base em clculos probabilsticos. De acordo com Pichiliani (2006), seu funcionamento pode ser explicado da seguinte forma: Inicialmente, cada classe do conjunto de treinamento tem sua probabilidade calculada. O clculo feito dividindo-se o nmero de dados de determinada classe pelo nmero total de dados do conjunto de treinamento. Feito isso, calcula-se a probabilidade da insero de um novo dado para cada classe que existe. Na sequncia, feita a multiplicao do valor obtido pela probabilidade da
37
classe calculada inicialmente na etapa de treinamento. Com as probabilidades para cada classe calculada, verifica-se qual a classe que possui maior probabilidade de conter o novo dado.
2.3.5 Mtodos Especficos

Goldschmidt e Passos (2005, p. 105), nos dizem so algortmos desenvolvidos especificamente para implementar alguma tarefa de data mining.Vamos dar nfase nesse tpico ao algortmo Apriori, que um algortmo de descoberta de associaes. Apriori um algortmo tradicional no aprendizado de regras associativas, sendo utilizado com bases de dados que possuem transaes. Sendo comum em data mining associativo, dado conjuntos de itens, o algortmo tenta achar subconjuntos semelhantes que se encontrem acima do nvel de confiana que o usurio definiu. Para Pichiliani (2008), o algortmo Apriori utiliza uma aproximao botton-up, no qual subconjuntos so estendidos um item por vez, mtodo tambm chamado de gerao de candidatos, e grupos de candidatos so submetidos a teste a partir de bases de dados. O algortmo finaliza quando extenses vlidas no so mais achadas. Apriori utiliza busca em largura e uma estrutura de rvore hash para contar com eficcia conjuntos de itens candidatos, criando conjuntos de itens candidatos de tamanho k baseando se em conjuntos de itens de tamanho k-1. Goldschmidt e Passos (2005, p. 105), nos dizem que: ... Um k-itemset somente pode ser frequente se todos os seus (k-1) itemsets forem frequentes. O algortmo exclui os candidatos que no possuem um sub-padro frequente,o conjunto candidato contm todos os conjuntos de itens frequentes de tamanho k. Em seguida ele faz uma busca na base de dados relacional determinando conjuntos de itens regulares entre os candidatos. utilizada a rvore hash para guardar conjuntos candidatos, se utilizando da mesma para apontar quais so os itens de maior frequncia. A rvore hash tem conjuntos de itens nas folhas e tabelas hash nos ns internos.
2.3.6 Mtodos baseados em induo de rvores de deciso

Segundo Muniz (2008), rvores de deciso so representaes grficas no qual os ns significam amostras e as folhas significam categorias. Uma rvore de deciso aponta uma classe numrica para uma entrada padro filtrando a amostra por testes feitos na rvore. Cada teste tem mutualmente resultados exaustivos e exclusivos. Muniz (2008)
38
Quando uma amostragem de uma populao est sendo estudada com o objetivo de realizar alguma deduo indutiva, rvores de deciso so os modelos mais usados. Muniz (2008)
Abaixo tem se o exemplo de uma rvore de deciso, para um sistema de aprovao escolar na figura 11 abaixo.
Figura 11: rvore de deciso. Fonte: Aula de eng. de software -14/11. Disponvel em:<http://turmadeasg.files.wordpress.com/2008/11/arvore-de-decisao1.jpg >. Acesso em: 28 Abr. 2013
De acordo Pichiliani (2006), para se implementar um algortmo baseado em rvore de decises devemos incialmente gerar o n raiz da rvore, nessa fase cada classe do conjunto de treinamento possui a sua probabilidade calculada. Devemos agora encontrar os nos da rvore que ainda podem ser divididos para gerao de novos ns, se no houver mais nenhum n que possa ser dividido o algortmo finaliza. Para cada n do conjunto de ns que podem ser divididos se deve realizar a escolha de um atributo que melhor qualifica os dados,nesta escolha deve-se excluir todos os atributos que no foram utilizados ainda no caminho que comea deste o n raiz at o n que ser dividido. Alm de considerar os atributos que j foram utilizados, tambm devemos fazer uma analise quantitativa de ns folha que o atributo gera e a quantidade de ns no folhas optando pelo atributo que mais gere ns folha e que menos gere ns divisveis.
39
Aps a escolha do atributo, criado e desenhado o n e as suas ramificaes de acordo com todos os valores possveis para o atributo. A criao das ramificaes gera novos ns que devem verificados em seguida.
2.3.7 Mtodos baseados em Lgica Nebulosa

Para Goldschmidt e Passos (2005, p. 183), a Lgica Nebulosa objetiva modelar o modo aproximado de raciocnio humano, buscando criar sistemas computacionais capazes de tomar decises racionais em um ambiente incerto e impreciso. A Lgica Nebulosa disponibiliza um mecanismo de manipulao das informaes imprecisas, como os conceitos de pequeno, alto, muito, pouco, bom, ruim, quente, frio, etc, fornecendo assim uma resposta prxima a uma questo baseada em conhecimentos no exatos, incompletos ou parcialmente confiveis. Diversos mtodos de data mining foram adaptados de forma a incorporar a flexibilidade proporcionada pela Lgica Nebulosa, sendo um deles o algortmo de WangMendel, concebido para aplicao na tarefa de previso de series temporais. Segundo Goldschmidt e Passos (2005, p. 113), O mtodo Wang-Mendel consiste em abstrair regras nebulosas a partir de conjuntos de dados histricos, utilizamos esses dados para definir os antecedentes de os consequentes das regras nebulosas. Temos que considerar ento X(k), K=1,2,... uma srie temporal, em que X(k)[U;U+] em m conjuntos nebulosos de comprimento igual, devendo m ser um valor impar. Pode ser visto na figura 12 abaixo a ilustrao de uma serie temporal sendo dividida em 7 conjuntos nebulosos.
40
Figura 12: Diviso da serie temporal em conjuntos nebulosos. Fonte: Goldschmidt e Passos, 2005, p. 114.
Foram demonstrados vrios algortmos utilizados em tcnicas de data mining, bem como suas principais caractersticas e definies. Todo esse contedo abordado foi necessrio para um melhor entendimento do data mining sobretudo num aspecto tcnico. Assim pode se concluir que o data mining uma importante etapa no processo de descoberta de conhecimento em base de dados, nos trazendo informaes preciosas que se bem usadas podem trazer um grande auxilio na tomada de deciso estratgica nas empresas. Assunto esse que ser discutido no captulo seguinte.
41
CAPTULO III DATA MINING NO AUXILIO NA TOMADA DE
DECISO ESTRATGICA NAS EMPRESAS

3.1 O processo de tomada de deciso nas organizaes
Segundo Porto (2008), o atual paradigma que as organizaes esto inseridas est mais dinmico, exercendo grande influncia nas mesmas. Mediante a isso, necessrio que os gestores tenham a percepo do que os ambientes interno e externo da organizao tem a indicar quanto a oportunidade e ameaas, visando fazer escolhas com base na realidade organizacional. Porto (2008), ainda nos diz que fatores como globalizao, avano tecnolgico, desenvolvimento das telecomunicaes e o menor tempo de processamento das informaes tornam o ambiente de uma organizao mais complexo, fazendo com que os gestores tenham sempre que reavaliar o processo de tomada de deciso, exigindo assim uma viso sistemtica e cautela. Para Raskin (2009), o aperfeioamento no processo de tomada de deciso deve ser um constante pensamento das organizaes, a busca de novas informaes para a avaliao de novas possibilidades ajuda os gestores nesse processo. O grande montante de dados gerados diariamente nos sistemas transacionais das organizaes um desafio para os gestores na rdua tarefa de se converter bits em informao til. Fazer uso da informao que est contida implicitamente em todo o volume de dados dos sistemas legados de uma corporao de extrema utilidade, para isso devemos nos utilizar de solues de data mining. Raposo (2010) Raposo (2010), ainda nos afirma que a utilizao do Data mining nos possibilita uma analise dos dados na busca de padres de que gerem valor para organizao, sendo o cada vez mais utilizado por revelar estruturas de conhecimento que auxiliam na tomada de deciso. Com o uso do data mining surge uma gama de oportunidades, gerando aprendizado e dados adicionais que podem gerar influncia na criao de estratgias organizacionais, garantindo vantagem competitiva e possibilitando melhoras nos produtos e servios.As tcnicas de data mining podem vir a ser um pilar nas empresas modernas. Raposo (2010)
42
A figura 13 logo abaixo demostra que a informao primaria, a base da tomada de deciso.
Figura 13: A importncia da informao na tomada de deciso. Fonte: Cabenaet ai, 1997 & Tyson, 1998citado por Quoniam , Tarapanoff, Jnior, Alvares, 2001, p. 20
Desta forma, segundo Porto (2008), uma deciso de qualidade e acertada se baseia no adequado uso da informao em um processo decisrio, levando a escolha de opes que gerem resultados benficos a organizao.
3.2 Inteligncia Competitiva e a utilizaodo data mining

De acordo com Hilsdorf (2010), Inteligncia competitiva uma maneira proativa de se obter e articular informaes que gerem valor para a organizao atravs de anlises de tendncias e cenrios, sendo que essas informaes podem ser referentes ao comportamento da concorrncia, clientes e do mercado em geral. A inteligncia de negcios objetiva a melhoria e ampliao das condies de competitividade. Seu uso reorienta modelos de negcios, metas, planejamentos e tem um ganho em termos evolutivos do negcio da organizao frente aos seus concorrentes, isso ocorre atravs da antecipao das tendncias de mercado com informaes obtidas de fontes mistas. Hilsdorf (2010) Em uma era no qual o conhecimento e inovao so fatores base para competitividade, a inteligncia competitiva permite aes proativas ou invs de aes reativas, que so muito comuns no mundo dos negcios.
43
Um exemplo, conforme Hilsdorf (2010), de como o mercado em geral reativo se trata da maneira da obteno de informaes pelas empresas de clientes e concorrentes atravs da mdia, clientes em geral, dentre outros. As organizaes que tem essa postura s tomam conhecimentos dos fatos de relevncia quando os mesmos j ocorreram ou esto ocorrendo. Isso um cenrio que a inteligncia de negcios busca reverter atravs de um modelo preditivo de administrao, procurando oportunizar condies ofertadas pelas tendncias observadas antevendo os movimentos das empresas concorrentes. Seguindo essa linha de raciocnio Montini (2009), nos diz que o data mining atualmente bastante utilizado para a deteco de comportamento de clientes, perfis de utilizao de carto de crdito, perfis de telespectadores, perfis de pacientes que tem doenas especficas, dente outros, o que auxilia na elaborao de campanhas de marketing. Hilsdorf (2010), nos diz que as 500 maiores empresas norte americanas possuem setor ou profissionais exclusivamente empenhados no monitoramento das aes de empresas concorrentes, coletando dados sobre seus erros e acertos, e observando minuciosamente seus passos e a estratgia das mesmas para no serem surpreendidos. Para Hilsdorf (2010) as vantagens que a inteligncia competitiva trs consigo so: a) Diminuio das surpresas em relao s aes das organizaes concorrentes. b) Apontamento de oportunidades e ameaas. c) Formulao de planejamento baseado em conhecimento obtido atrs de informaes. d) Aprendizado atravs do acompanhamento de aes assertivas e errnias dos concorrentes. e) Entendimento do impacto de aes estratgicas sobre o mercado f) Reviso, realinhamento das estratgias. g) Verificao e melhora da sustentabilidade do nosso negcio. Calegari (2012), citado por Oliveira (2012), nos diz que com as informaes implcitas obtidas pelas tcnicas de data mining,a empresa vai encontrar conhecimentos que no so bvios nem triviais, sendo um passo a frentes e tratando de estratgia analtica. As tcnicas de data mining geram informaes que possibilitam a realizao de uma comunicao mais adequada conforme o publico, tendo um maior entendimento dos clientes, definindo tambm rentabilidade de produtos e planejamento de produo. Montini (2009) Desta forma segundo Hilsdorf (2010), as empresas que fazem o bom uso da inteligncia competitiva tem um aprendizado mais rpido e maior eficincia nas mudanas
44
perante seus concorrentes, sendo vistas com bons olhos pelos clientes e como inovadoras perante o mercado. De acordo com Calegari (2012), citado por Oliveira (2012), as empresas se utilizam de data mining pela preocupao com a competitividade, sendo que uma rpida avaliao das informaes um fator de diferenciao. A IDC (2012), citado por Oliveira (2012), tem uma projeo de 20% de crescimento at 2015 do seu setor estratgico, que engloba as tcnicas de data mining. Lucro e reduo de custos, alm do melhor entendimento das necessidades do cliente, so fatores da aplicao do data mining nas organizaes. Alessandra (2012), apud Oliveira (2012). Varejo, telecom, transporte e internet encontraram no data mining uma forma de surpreender o cliente e tambm achar consumidores propensos a inadimplncia,bem como auxilio na definio de estratgias de cobranas . Esse setores tambm so pioneiros na utilizao do data mining, pois lidam com grandes bases de dados estruturadas e no e estruturadas, sendo alta a competitividade nesses ramos. Oliveira (2012) Montini (2012), descreve varias aplicabilidades do data mining, que auxiliam a inteligncia competitivaem diversos setores: a) Varejo e-commerce: faz uso da tcnica para realizar a um cruzamento da cesta de compras com produtos do perfil do cliente, estimulando assim as vendas. b) Setor bancrio: realiza anlises sobre possveis fraudadores de carto de credito, risco de pagamentos, perfis de investidores e os indica aplicaes. c) Varejo supermercadista: cria estratgias promocionais atravs do perfil de dados obtido pelo cruzamento das vendas, buscando assim a aumento das mesmas. d) Pequenas e mdias empresas: determinar perfil de clientes no seu segmento, mix de venda de produtos etc. e) Agricultura: previso e planejamento de vendas para o mercado interno e externo bem como gesto de estoque. Conforme nos diz a Oracle (2012), apud Oliveira (2012), tem ocorrido uma maior procura nos ltimos tempos pela sua ferramenta de data mining, denominada Oracle Data Mining. Isso ocorreu pela exigncia de respostas mais rpidas do mercado a dvidas e tambm pelo amadurecimento das organizaes perante a anlise de dados. Conforme visto, vrios so benefcios da utilizao do data mining pelas empresas, se faz necessrio ainda ver os ganhos da sua utilizao, obtendo indicadores genricos empresariais como churn, cross-selling, dentre outros.
45
3.3 Benefcio da utilizao do data mining com indicadores genricos.

Segundo a StatSoft, a utilizao de ferramentas de data mining nos trs vantagens em obteno de indicadores de KPI comumente analisados em ambiente empresarial. Segue abaixo o detalhamento desses benefcios nos indicadores: a) Churn Analysis: o entendimento do cliente se tornou um fator crucial no atual mercado competitivo e globalizado. No uma tarefa trivial definir o comportamento de um cliente. Podemos levantar questo simples como: Como prever a migrao de clientes para empresas concorrentes? A StatSoft, nos define Churn Analysis como sendo o estudo da previso ao cliente que esteja em eminente ameaa de deixar de consumir determinado produto ou servio em detrimento do consumo de outro produto ou servio similar de outra empresa. Utilizamos das tcnicas de data mining rvore de classificao, redes neurais dentre outras para obteno de informaes de churn b) Market Basket Analysis: o objetivo do Market Basket Analysis, conforme nos diz a StatSoft, uma cesta de produtos mais rentvel. Questes importantes so tratadas por esse indicador como associao de venda de produtos, disposio dos produtos de maneira que estimula um maior consumo, fidelizao de clientes, etc. c) ClusteringAnalysis (Identificao de grupos e perfis de clientes): para StatSoft, so tcnicas para agrupamento de clientes em grupos de caractersticas ou perfis similares em uma populao analisada, descobrindo assim possibilidades de novas oportunidades para produtos e servios, ou como melhor direcion-los para cada conjunto. rvore de deciso, K-NN dentre outros so exemplos de tcnicas de data mining utilizadas para obteno desse indicador. Sendo assim um grande ganho com as informaes obtidas do Clustering Analysis o direcionamento mais preciso de aes de marketing. d) Cross-selling-Up-selling: permite-nos analisar preventivamente custos, uso, dentre outros comportamento dos clientes com o benefcio de maximizao de vendas fortalecimento do relacionamento com o mesmo. Essa informao obtida atravs do prprio montante de dados dos sistemas utilizados pelas organizaes. StatSoft e) Conhecimento para concesso de crdito: De acordo com StatSoft, a concesso de crdito envolve perigo eminente ao processo de emprstimo financeiro. feita uma anlise atravs das tcnicas de data mining utilizando mtodos estatsticos, para prever
46
esse risco com base em cruzamento de dados histricos do cliente solicitante. Gerando assim estimativas considerveis aceitveis para deciso do emprstimo ou no. f) Risk Management: Para StatSoft a gerncia de riscos de forma previsiva, atravs de abordagens efetivas de custos reduzindo ameaas a empresa. g) Text Mining: se trata do agrupamento e classificao de informaes de texto atravs de tcnicas de data mining muito utilizado em dados referentes SAC. Geralmente feita uma anlise em dados no estruturados os transformando em dados estruturados. StatSoft Empresas de telefonia, por exemplo, podem se utilizar desses indicadores para analisar uma base de dados sobre reclamaes, sugestes e elogios conseguindo verificar o nvel de satisfao melhorando assim o servio. StatSoft A utilizao correta das informaes contidas nos indicadores apresentados nesse tpico bem como tcnicas de B.I em si pode fazer toda diferena para o sucesso ou ampliao de uma empresa, ento devemos conhecer alguns desses casos de sucesso.
3.4 Casos de sucesso no uso de B.I e tcnicas de data mining.

De acordo com Gurovitz (1997), uma gigante do varejo norte americano descobriu em sua massa de dados que a venda de fraldas descartveis estava relacionada a venda de cerveja. O perfil de consumir deste cenrio foi de homens que saiam a noite para comprar fraldas e tambm levavam algumas unidade de cerveja. Foi realizada uma nova disposio dos produtos os colocando prximos maximizando a venda de ambos. Gurovitz (1997), nos diz que o banco Ita, que pioneiro no uso de D.W. no Brasil, tinha um percentual bem baixo (apenas 2%) de respostas em cima de envios, superiores a milhes, de malas diretas para seus correntistas. Foi realizada uma mudana nesse processo emitindo cartas somente a clientes cuja a anlise dos dados filtram os que tem uma maior chance de resposta. O retorno das malas enviadas aumentou em 30%, o que alm da reduo de custo de correspondncia (cerca de 75%), aumentou a efetividade do servio. A empresa de Telefonia norte americana Sprint, conseguiu prever com 61% de segurana a troca operadora de telefonia dos consumidores em um perodo de 2 meses. Baseado nessas informaes elaborou estratgias de marketing conseguindo evitar a perda de 120.000 de seus clientes, o que representam 35 milhes de dlares em faturamento.Gurovitz (1997)
47
A Telefnica, companhia do ramo de telecomunicaes, manteve sua receita anual de 150 milhes de dlares ao detectar atravs, de tcnicas de B.I, que mais da metade das ligaes de manuteno eram originadas de empresas rivais. Assim, fez reparos imediatos mantendo milhares de clientes insatisfeitos. Gurovitz (1997) De acordo com Gurovitz (1997), o governo do estado de Massachusetts, no Estados Unidos, processava informaes financeiras atravs da impresso das telas dos terminais de grande porte. Aps a utilizao de D.W conseguiu otimizar o processo reduzindo tempo e custo. Somente com papel a economia foi de 250.000 dlares. A Golden Gross conseguiu verificar que os usurios que mais cancelavam os seus planos de sade eram os que menos utilizavam, realizando aes de marketing direcionadas nesse publico alvo. Gurovitz (1997) Ao findar este captulo possvel dimensionar a grande diferena que informaes conseguidas num processo de data mining podem proporcionar para quem as utiliza corretamente. Seus benefcios mudam rumos em uma empresa, podendo alterar inclusive seu planejamento estratgico, lucros e posio de mercado. Todos os contedos expostos levam a crer que o data mining uma pea chave para as empresas que querem se destacar em um mercado cada vez mais competitivo.
48
CONCLUSO
No mercado competitivo atual tem se visto cada vez menos empresas oferecerem servios ou produtos inovadores. Muitas vezes a concorrncia to rdua entre as empresas de determinado setor que faz o cliente ver esse mercado de uma forma muito homognea, levando o mesmo a no optar por esta ou aquela empresa. Desta forma, difcil uma expanso ou consolidao empresarial sem a inteligncia adequada. Muitos profissionais de gerncia no se atentam que ter o conhecimento do prprio negcio, e principalmente antever o cliente uma forma muito eficaz de se conseguir uma inteligncia que faa a empresa se destacar, estando sempre um passo a frente das demais. Esse conhecimento est contido no grande montante de dados gerados diariamente pelos sistemas transacionais legados, que escondem informaes vitais principalmente sobre o comportamento dos clientes. Sendo assim, surge no ramo computacional o B.I, que conforme descrito no primeiro captulo, uma cincia que tem tcnicas e metodologias de correta armazenagem e consulta aos dados de forma mais rpida e eficiente, visando sobretudo a inteligncia empresarial. Sua tcnica mais relevante o data mining que proporciona o encontro das informaes ocultas atravs de algortmos que baseiam em tendncias, associaes, simulaes artificias da inteligncia humana, para uma anlise dos dados. Assim, possvel obter benefcios como criao de perfis de clientes, podendo se direcionar com mais eficcia as campanhas de marketing, fazer o reposicionamento de produtos ou o aperfeioamento de processos deficientes garantindo a melhoria em aes estratgicas e maximizando lucros. Em uma sociedade que se baseia cada vez mais em informao o uso de tcnicas de data mining vem a ser um fator primordial na busca de inteligncia competitiva em ambientes empresariais. Com base no que foi exposto nesse documento, principalmente pela nfase dos exemplos citados, pode-se dizer que o data mining uma tcnica fundamental para o processo de tomada de deciso e crescimento das empresas.
49
REFERNCIAS
ANZANELLO, Cynthia Aurora. OLAP conceitos e utilizao. Instituto de Informtica, UFRGS. Disponvel em: <http://www.inf.ufrgs.br/~clesio/cmp151/cmp15120021/artigo_ cynthia.pdf>. Acesso em 02 set. 2011. GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: Um guia pratico. So Paulo: Editora Campus, 2005. BARBIERI, Carlos. BI: Modelagem e tecnologia. Rio de Janeiro: Axcel Books do Brasil, 2001. GUROVITZ, Helio. O que cerveja tem a ver com fraldas? Disponvel em: <http://exame.abril.com.br/revista-exame/edicoes/0633/noticias/o-que-cerveja-tem-a-vercom-fraldas-m0053931>. Acesso em 26 Maio 2013 HENRIQUE, Ozimar. OLTP x OLAP. Disponvel em: <http://social.technet.microsoft.com/wiki/contents/articles/6934.oltp-x-olap-pt-br.aspx>. Acesso em 24 abr. 2013. HILSDORF, Carlos. O que inteligncia competitiva? Disponvel em: <http://www.administradores.com.br/artigos/administracao-e-negocios/o-que-e-inteligenciacompetitiva/44824/>. Acesso em 29 Maio 2013 IBL - Informatica Brasileira LTDA. Conceito Extrao, Transformao e Carga. Disponvel em: <http://www.infobras.com.br/portugues/produtos_conceito_etl.asp>. Acesso em 30 Abr. 2013 INMON, W.H; TERDEMAN, R.H; IMHOFF, Claudia. Data Warehousing: Como transformar informaes em oportunidades de s. So Paulo: Editora Berkeley, 2001. LANA, Rogrio Adilson. Inteligncia competitiva: Fator- Chave para o sucesso das organizaes no novo milnio. Disponvel em: <http://www.abraic.org.br/v2/artigos_detalhe.asp?c=793>. Acesso em 02 set. 2011. LAUDON,K.C.; LAUDON, J.P.Sistemas de informao gerenciais:Administrando a empresa digital. 5. ed. So Paulo: Pearson Prentice Hall, 2004. LIMA, Carlos Alberto Lorenzi. ETL Extrao, Transformao e Carga de dados. Disponvel em: <http://litolima.com/2010/01/13/etl-extracao-transformacao-e-carga-dedados/>. Acesso em 30 Abr. 2013 MONTINI, Alessandra. O poder do data mining para o avano dos negcios. Disponvel em: <http://www.administradores.com.br/noticias/administracao-e-negocios/o-poder-do-datamining-para-o-avanco-dos-negocios/26135/>. Acesso em 30 Maio 2013
50
MONTINI, Alessandra. Varejo e bancos so os setores que mais utilizam data mining. Disponvel em: <http://www.metaanalise.com.br/inteligenciademercado/index.php?option=com_content&vie w=article&id=6425:varejo-e-bancos-sao-os-setores-que-mais-utilizam-o-data-mining&catid=8:carreira&Itemid=358>. Acesso em 30 Maio 2013 MOREIRA,Eduardo. Modelo Dimensional para Data Warehouse Disponvel em: < http://imasters.com.br/artigo/3836/gerencia-de-ti/modelo-dimensional-paradata-warehouse/>. Acesso em 24 abr. 2013. MUNIZ, Vander Emiro. Data Mining: conceitos e casos de uso na rea da sade. Disponvel em: < http://www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-dasaude/5945 >. Acesso em 28 Abr. 2013 O BRIEN, J. A. Sistemas de Informao e as decises gerenciais na era daInternet. So Paulo: Saraiva, 2001. OLIVEIRA, Dborah. Data mining ganha espao na estratgia empresarial. Disponvel em: <http://computerworld.uol.com.br/tecnologia/2012/03/16/data-mining-ganha-espaco-naestrategia-empresarial/>. Acesso em 30 Maio 2013 PICHILIANI, Mauro. Data Mining na Prtica: Classificao Bayesiana. Disponvel em: <http://imasters.com.br/artigo/4926/sql-server/data-mining-na-pratica-classificacaobayesiana/>. Acesso em 30 Abr. 2013 PICHILIANI, Mauro. Data Mining na Prtica: Regras de Associao. Disponvel em: <http://imasters.com.br/artigo/7753/sql-server/data-mining-na-pratica-regras-de-associacao/>. Acesso em 30 Abr. 2013 PICHILIANI, Mauro. Data Mining na Prtica: rvores de deciso. Disponvel em: <http://imasters.com.br/artigo/5130/sql-server/data-mining-na-pratica-arvores-de-decisao/>. Acesso em 30 Abr. 2013 PORTO, Maria Alice. Tomada de deciso nas organizaes.Disponvel em: <http://www.artigos.com/artigos/sociais/administracao/tomadas-de-decisao-nas-organizacoes3412/artigo/#.UbC4xPm1EmN>. Acesso em 28 Maio 2013 PRASS, Fernando Sarturi.Uma viso geral sobre as fases doKnowledge Discovery in Databases (KDD). Disponvel em:<http://fp2.com.br/blog/index.php/2012/um-visao-geralsobre-fases-kdd/>. Acesso em 24 Abr. 2013 RAPOSO, Marcel Antunes. A importncia do data mining na tomada de decises. Disponvel em: <http://dbrain.com.br/2010/06/a-importancia-do-data-mining-na-tomada-dedecisoes/>. Acesso em 30 Maio 2013 RASKIN, Sara Fichman. Tomada de deciso e aprendizado organizacional. Disponvel em: <http://www.batebyte.pr.gov.br/modules/conteudo/conteudo.php?conteudo=1121>. Acesso em 28 Maio 2013
51
RIBEIRO, Viviane. O que ETL? Disponvel em: <http://vivianeribeiro1.wordpress.com/2011/06/28/o-que-e-etl-2/>. Acesso em 30 Abr. 2013 SERAIN, Joo Sidemar. Por que business intelligence. Disponvel em: <http://imasters.com.br/artigo/5415/gerencia-de-ti/por-que-business-intelligence/>. Acesso em 28 abr. 2013 SILVA JUNIOR, Ovdio F. P. Modelo de informaes estratgicas aplicadas asistemas de inteligncia organizacional na gesto pblica de pesquisaagropecuria: o caso da EPAGRI. 2006, 233 f. Tese (Doutorado em Engenharia deProduo) Universidade de Santa Catarina, Florianpolis, 2006. STATSOFT StatSoft South Amrica LTDA. Solues empresariais Avanadas. Disponvel em: <http://www.statsoft.com.br/pt/conteudo.php?con=0000000016>. Acesso em 30 Maio 2013

Monografia Roger Pauer Formatada - Final

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Monografia Roger Pauer Formatada - Final

Hochgeladen von

Copyright:

Verfügbare Formate

UNIVERSIDADE FUMEC FACULDADE DE CINCIAS EMPRESARIAIS - FACE

ROGER PAUER ROCHA VIANA

DATA MINING: Auxiliando na tomada de decises estratgicas nas empresas

BELO HORIZONTE 2013

ROGER PAUER ROCHA VIANA

DATA MINING: Auxiliando na tomada de decises estratgicas nas empresas

BELO HORIZONTE 2013

ROGER PAUER ROCHA VIANA

DATA MINING: Auxiliando na tomada de decises estratgicas nas empresas

BELO HORIZONTE 2013

CAPTULO I DESCREVENDO O BUSINESS INTELLIGENCE.

1.1. Histrico do Business Intelligence (B.I.)

Perodo 1950 a 1960

Caracterstica dos S.I. Processamento de Dados (nfase Mudanas Tcnicas)

Relatrios Administrativos (nfase Controle Gerencial)

Apoio a Deciso (nfase Controle Gerencial)

Apoio Estratgico ao Usurio Final (nfase Atividades Institucionais Essenciais)

Empresa e Conexo em Rede Global (nfase Atividades Institucionais Essenciais)

1.2. Conceitos de Business Intelligence

1.3. Data Warehouse

1.4. Data Mart

1.5. OLAP 1.5.1. Origem

1.5.2. OLAP x OLTP

OLTP Atualizao Imutvel Atomizado Presente Poucos registros Registro Processo

CAPTULO II DATA MINING SOBRE O ASPECTO TCNICO

2.1 KDD 2.1.1 Definio e histrico

Figura 4: Etapas operacionais do processo de KDD. Fonte: Goldschmidt e Passos, 2005, p. 3.

No tpico seguinte sero detalhadas as principais fases do processo de KDD.

2.1.3 Fases principais do processo de KDD

Prass nos diz que:

2.2. Definindo o Data Mining

2.3 Mtodos de Data Mining 2.3.1 Redes Neurais

2.3.2 Algortmos Genricos

f(x1) = 169, f(x2) = 576, f(x3) = 64, f(x4) = 361

2.3.3 Algortmos baseados em Instncias

Figura 10: Resultado do K-NN. Fonte: Goldschmidt e Passos, 2005, p. 100.

2.3.4 Mtodos Estatsticos

2.3.4.1 Classificador Bayeasiano

2.3.5 Mtodos Especficos

2.3.6 Mtodos baseados em induo de rvores de deciso

2.3.7 Mtodos baseados em Lgica Nebulosa

CAPTULO III DATA MINING NO AUXILIO NA TOMADA DE

DECISO ESTRATGICA NAS EMPRESAS

3.2 Inteligncia Competitiva e a utilizaodo data mining

3.3 Benefcio da utilizao do data mining com indicadores genricos.

3.4 Casos de sucesso no uso de B.I e tcnicas de data mining.

Das könnte Ihnen auch gefallen