RT Inf - 001 09 PDF

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas
Cssio Oliveira Camilo Joo Carlos da Silva
Technical Report
RT-INF_001-09 2009 -
Relatrio Tcnico
August
Agosto
The contents of this document are the sole responsibility of the authors. O contedo do presente documento de nica responsabilidade dos autores.
Instituto de Informtica Universidade Federal de Gois

www.inf.ufg.br

Cssio Oliveira Camilo
cassio@inf.ufg.br
Joo Carlos da Silva

jcs@inf.ufg.br
Abstract. This work will be presented the key concepts of Data Mining, main tasks and methods. Besides the traditional methods, some variations and new approaches will be discussed. Finally, a list of the main tools to work with mining. Keywords: Data Mining, Tasks, Methods, Tools. Resumo. Neste trabalho sero apresentados os conceitos fundamentais da Minerao de Dados, principais tarefas e mtodos. Alm dos mtodos tradicionais, algumas variantes e novas abordagens sero discutidas. Ao nal ser apresentada uma lista das principais ferramentas para se trabalhar com minerao. Palavras-Chave: Minerao de Dados, Tarefas, Mtodos, Ferramentas.
Introduo
Desde o surgimento dos sistemas computacionais, um dos principais objetivos das organizaes tem sido o de armazenar dados. Nas ltimas dcadas essa tendncia cou ainda mais evidente com a queda nos custos para a aquisio de hardware, tornando possvel armazenar quantidades cada vez maiores de dados. Novas e mais complexas estruturas de armazenamento foram desenvolvidas, tais como: banco de dados, Data Warehouses , Bibliotecas Virtuais, Web e outras [16] [27]. Bramer [6], exemplica o enorme volume de dados gerado pelas aplicaes atuais: Os satlites de observao da NASA geram cerca de um terabyte de dados por dia; O projeto Genoma armazena milhares de bytes para cada uma das bilhes de bases genticas; Instituies mantm repositrios com milhares de transaes dos seus clientes; Com o volume de dados armazenados crescendo diariamente, responder uma questo tornou-se crucial [39]: O que fazer com os dados armazenados? As tcnicas tradicionais de explorao de dados no so mais adequadas para tratar a grande maioria dos repositrios. Com

Mestrando em Cincia da Computao - INF/UFG Orientador - INF/UFG
a nalidade de responder a esta questo, foi proposta, no nal da dcada de 80, a Minerao de Dados, do ingls Data Mining. A Minerao de Dados uma das tecnologias mais promissoras da atualidade. Um dos fatores deste sucesso o fato de dezenas, e muitas vezes centenas de milhes de reais serem gastos pelas companhias na coleta dos dados e, no entanto, nenhuma informao til identicada [39]. Em seu trabalho, Han [27] refere-se a essa situao como "rico em dados, pobre em informao". Alm da iniciativa privada, o setor pblico e o terceiro setor (ONGts) tambm podem se beneciar com a Minerao de Dados [84]. Witten et al. [88], Olson et al. [58] e Bramer [6] apresentam algumas das reas nas quais a Minerao de Dados aplicada de forma satisfatria: Reteno de clientes: identicao de pers para determinados produtos, venda cruzada; Bancos: identicar padres para auxiliar no gerenciamento de relacionamento com o cliente; Carto de Crdito: identicar segmentos de mercado, identicar padres de rotatividade; Cobrana: deteco de fraudes; Telemarketing: acesso facilitado aos dados do cliente; Eleitoral: identicao de um perl para possveis votantes; Medicina: indicao de diagnsticos mais precisos; Segurana: na deteco de atividades terroristas e criminais [48] [15]; Auxlio em pesquisas biomtricas [38]; RH: identicao de competncias em currculos [9]; Tomada de Deciso: ltrar as informaes relevantes, fornecer indicadores de probabilidade. Segundo Ponniah [65], o uso da Minerao de Dados permite, por exemplo, que: Um supermercado melhore a disposio de seus produtos nas prateleiras, atravs do padro de consumo de seus clientes; Uma companhia de marketing direcione o envio de mensagens promocionais, obtendo melhores retornos; Uma empresa area possa diferenciar seus servios oferecendo um atendimento personalizado; Empresas planejem melhor a logstica de distribuio dos seus produtos, prevendo picos nas vendas; Empresas possam economizar identicando fraudes; Agncias de viagens possam aumentar o volume de vendas direcionando seus pacotes a clientes com aquele perl; Alguns casos de sucesso da Minerao de Dados esto relatados em Ye [91], Han et al. [27], Myatt et al. [54] e Hornick et al. [30].
Descoberta de Conhecimento
Segundo Fayyad [20], o modelo tradicional para transformao dos dados em informao (conhecimento), consiste em um processamento manual de todas essas informaes por especialistas que, ento, produzem relatrios que devero ser analisados. Na grande maioria das situaes, devido ao grande volume de dados, esse processo manual torna-se impraticvel. Ainda segundo Fayyad, o KDD (Knowledge Discovery in Databases ou Descoberta de Conhecimento nas Bases de Dados) uma tentativa de solucionar o problema causado pela chamada "era da informao": a sobrecarga de dados. Ainda no consenso a denio dos termos KDD e Data Mining. Em Rezende [69], Wang [83] e Han et al. [27] eles so considerados sinnimos. Para Cios et al. [16] e Fayyad [20] o KDD refere-se a todo o processo de descoberta de conhecimento, e a Minerao de Dados a uma das atividades do processo. No entanto, todos concordam que o processo de minerao deve ser iterativo, interativo e divido em fases. Na gura 1 podemos ver uma representao do processo de KDD.
Figura 1: Figura representando o processo de KDD [20] Uma das denies mais utilizadas para o termo KDD de Fayyad [20], que o dene como "um processo no trivial de identicao de novos padres vlidos, teis e compreensveis". Atualmente diversos processos denem e padronizam as fases e atividades da Minerao de Dados. Apesar das particularidades, todos em geral contm a mesma estrutura. Neste trabalho, escolhemos o CRISP-DM (Cross-Industry Standard Processo of Data Mining) [14] como modelo, devido vasta literatura disponvel e por atualmente ser considerado o padro de maior aceitao [39] [28]. Um ranking do uso dos principais processos pode ser encontrado em [32]. Como arma Olson et al. [58], o processo CRISP-DM consiste de seis fases organizadas de maneira cclica, conforme mostra a gura 2. Alm disto, apesar de ser composto por fases, o uxo no unidirecional, podendo ir e voltar entre as fases.
Figura 2: Figura representando o processo CRISP [39] As fases do processo CRISP-DM so: 1. Entendimento dos Negcios: Nessa etapa, o foco entender qual o objetivo que se deseja atingir com a minerao de dados. O entendimento do negcio ir ajudar nas prximas etapas. 2. Entendimento dos Dados: As fontes fornecedoras dos dados podem vir de diversos locais e possurem diversos formatos. Segundo Olson et al. [58], aps denir os objetivos, necessrio conhecer os dados visando: Descrever de forma clara o problema; Identicar os dados relevantes para o problema em questo; Certicar-se de que as variveis relevantes para o projeto no so interdependentes. Normalmente as tcnicas de agrupamento e de explorao visual tambm so utilizadas nesta etapa [58]. 3. Preparao dos Dados: Devido s diversas origens possveis, comum que os dados no estejam preparados para que os mtodos de Minerao de Dados sejam aplicados diretamente. Dependendo da qualidade desses dados, algumas aes podem ser necessrias. Este processo de limpeza dos dados geralmente envolve ltrar, combinar e preencher valores vazios. 4. Modelagem: nesta fase que as tcnicas (algoritmos) de minerao sero aplicadas. A escolha da(s) tcnica(s) depende dos objetivos desejados [48].
5. Avaliao: Considerada uma fase crtica do processo de minerao, nesta etapa necessria a participao de especialistas nos dados, conhecedores do negcio e tomadores de deciso. Diversas ferramentas grcas so utilizadas para a visualizao e anlise dos resultados (modelos). Testes e validaes, visando obter a conabilidade nos modelos, devem ser executados (cross validation, suplied test set, use training set, percentage split) e indicadores para auxiliar a anlise dos resultados precisam ser obtidos (matriz de confuso, ndice de correo e incorreo de instncias mineradas, estatstica kappa, erro mdio absoluto, erro relativo mdio, preciso, F-measure, dentre outros) [27] [88]. 6. Distribuio: Aps executado o modelo com os dados reais e completos necessrio que os envolvidos conheam os resultados. Constantemente, novos processos so propostos para se trabalhar com a Minerao de Dados. Aranda et al. [23], prope um modelo envolvendo o processo RUP e o CRISP-DM. Pechenizkiy et al. [61], prope um processo baseado no modelo dos Sistemas de Informaes.
Os Dados
Conhecer o tipo dos dados com o qual se ir trabalhar tambm fundamental para a escolha do(s) mtodo(s) mais adequado(s). Pode-se categorizar os dados em dois tipos: quantitativos e qualitativos. Os dados quantitativos so representados por valores numricos. Eles ainda podem ser discretos e contnuos. J os dados qualitativos contm os valores nominais e ordinais (categricos). Em geral, antes de se aplicar os algoritmos de minerao necessrio explorar, conhecer e preparar os dados. Nesse sentido, uma das primeiras atividades obter uma visualizao dos dados, de forma que se possa ter uma viso geral, para depois decidir-se quais as tcnicas mais indicadas. Diversas so as tcnicas utilizadas para a visualizao dos dados. Simoff [78], Rezende [69], Myatt [53], Myatt et al. [54], NIST [56] e Canada [10] apresentam diversas abordagens para as visualizaes. Keim [33], apresenta um estudo sobre as diversas tcnicas de visualizao. A gura 3 mostra a evoluo dessas tcnicas.
Figura 3: Evoluo das tcnicas de visualizao [33] Com uma viso inicial dos dados denida, necessrio explor-los, buscando, alm de mais conhecimento sobre os mesmos, encontrarmos valores que possam comprometer sua quali-
dade, tais como: valores em branco ou nulo, valores viciados, variveis duplicadas, entre outras. medida em que problemas vo sendo encontrados e o entendimento vai sendo obtido, ocorre a preparao dos dados para que os algoritmos de minerao possam ser aplicados. Segundo Olson et al. [58], o processo de preparao dos dados na maioria dos projetos de minerao, compreende at 50% de todo o processo. Para McCue [48], est etapa pode compreender at 80%. Han e Kamber [27], descrevem vrias tcnicas estatsticas de anlise de disperso (Quartiles, Varincia) e de medida central (mdia, mediana, moda e faixa de valores) combinadas com grcos (Histogramas, Frequncia, Barra, BoxPlot, Disperso) so usadas para a explorao dos dados. Myatt [53], utiliza a tcnica de Anlise Exploratria dos Dados (EDA - Exploratory Data Analisis) para auxiliar nessa atividade. O processo de preparao dos dados para a minerao, tambm chamado de prprocessamento, segundo Han et al. [27], consiste principalmente em:
Figura 4: Atividades do pr-processamento [27] Limpeza dos dados: Frequentemente, os dados so encontrados com diversas inconsistncias: registros incompletos, valores errados e dados inconsistentes. A etapa de limpeza dos dados visa eliminar estes problemas de modo que eles no inuam no resultado dos algoritmos usados. As tcnicas usadas nesta etapa vo desde a remoo do registro com problemas, passando pela atribuio de valores padres, at a aplicao de tcnicas de agrupamento para auxiliar na descoberta dos melhores valores. Devido ao grande esforo exigido nesta etapa, Han et al. [27] propem o uso de um processo especco para a limpeza dos dados. Integrao dos dados: comum obter-se os dados a serem minerados de diversas fontes: banco de dados, arquivos textos, planilhas, data warehouses, vdeos, imagens, entre outras. Surge ento, a necessidade da integrao destes dados de forma a termos um repositrio nico e consistente. Para isto, necessria uma anlise aprofundada dos dados observando redundncias, dependncias entre as variveis e valores conitantes (cat-
egorias diferentes para os mesmos valores, chaves divergentes, regras diferentes para os mesmos dados, entre outros). Transformao dos dados: A etapa de transformao dos dados merece destaque. Alguns algoritmos trabalham apenas com valores numricos e outros apenas com valores categricos. Nestes casos, necessrio transformar os valores numricos em categricos ou os categricos em valores numricos. No existe um critrio nico para transformao dos dados e diversas tcnicas podem ser usadas de acordo com os objetivos pretendidos. Algumas das tcnicas empregadas nesta etapa so: suavizao (remove valores errados dos dados), agrupamento (agrupa valores em faixas sumarizadas), generalizao (converte valores muito especcos para valores mais genricos), normalizao (colocar as variveis em uma mesma escala) e a criao de novos atributos (gerados a partir de outros j existentes). Reduo dos dados: O volume de dados usado na minerao costuma ser alto. Em alguns casos, este volume to grande que torna o processo de anlise dos dados e da prpria minerao impraticvel. Nestes casos, as tcnicas de reduo de dados podem ser aplicadas para que a massa de dados original seja convertida em uma massa de dados menor, porm, sem perder a representatividade dos dados originais. Isto permite que os algoritmos de minerao sejam executados com mais ecincia, mantendo a qualidade do resultado. As estratgias adotadas nesta etapa so: criao de estruturas otimizadas para os dados (cubos de dados), seleo de um subconjunto dos atributos, reduo da dimensionalidade e discretizao. Dentre as diversas tcnicas, a PCA - Principal Components Analysis, desempenha um papel muito importante na reduo da dimensionalidade [77] [79]. Outra tcnica muito utilizada a Discretizao Baseada na Entropia [27]. Geralmente, os repositrios usados possuem milhares de registros. Neste contexto, o uso de todos os registros do repositrio para a construo do modelo de Minerao de Dados invivel. Assim, utiliza-se uma amostra (mais representativa possvel) que dividida em trs conjuntos: 1. Conjunto de Treinamento (Training Set): conjunto de registros usados no qual o modelo desenvolvido; 2. Conjunto de Testes (Test Set): conjunto de registros usados para testar o modelo construdo; 3. Conjunto de Validao (Validation Set): conjunto de registros usados para validar o modelo construdo; Essa diviso em grupos necessria para que o modelo no que dependente de um conjunto de dados especco e, ao ser submetido a outros conjuntos (com valores diferentes dos usados na construo e validao do modelo), apresente resultados insatisfatrios. Este efeito chamado de efeito Bias. A medida que se aumenta a preciso do modelo para um conjunto de dados especco, perde-se a preciso para outros conjuntos. Apesar da grande maioria dos repositrios conterem um volume alto de registros, em alguns casos o que ocorre o inverso. Neste caso, algumas estratgias foram desenvolvidas para gerar conjunto de dados a partir dos registros existentes [6] [88] [85]. importante destacar que, apesar de existir um volume muito grande de dados nas empresas, estes dados raramente so disponibilizados para ns de pesquisas. Assim, muitas vezes,
novos algoritmos so criados de forma terica em ambientes acadmicos e, pela falta de dados, no se consegue uma avaliao em um ambiente mais prximo do real. Para auxiliar nas pesquisas, repositrios comuns e pblicos com diversas bases de dados foram criados por diversas instituies. Um dos mais conhecidos repositrios, com bases de diferentes negcios, tamanhos e tipos, pode ser encontrado em [64].
Minerao de Dados
Por ser considerada multidisciplinar, as denies acerca do termo Minerao de Dados variam com o campo de atuao dos autores. Destacamos neste trabalho trs reas que so consideradas como de maior expresso dentro da Minerao de Dados: Estatstica, Aprendizado de Mquina e Banco de Dados. Em Zhou [96], feita uma anlise comparativa sobre as trs perspectivas citadas. Em Hand et al. [28], a denio dada de uma perspectiva estatstica: "Minerao de Dados a anlise de grandes conjuntos de dados a m de encontrar relacionamentos inesperados e de resumir os dados de uma forma que eles sejam tanto teis quanto compreensveis ao dono dos dados". Em Cabena et al. [8], a denio dada de uma perspectiva de banco de dados: "Minerao de Dados um campo interdisciplinar que junta tcnicas de mquinas de conhecimentos, reconhecimento de padres, estatsticas, banco de dados e visualizao, para conseguir extrair informaes de grandes bases de dados". Em Fayyad et al. [20], a denio dada da perspectiva do aprendizado de mquina: "Minerao de Dados um passo no processo de Descoberta de Conhecimento que consiste na realizao da anlise dos dados e na aplicao de algoritmos de descoberta que, sob certas limitaes computacionais, produzem um conjunto de padres de certos dados." Apesar das denies sobre a Minerao de Dados levar a crer que o processo de extrao de conhecimento se d de uma forma totalmente automtica, sabe-se hoje que de fato isso no verdade [39]. Apesar de encontrarmos diversas ferramentas que nos auxiliam na execuo dos algoritmos de minerao, os resultados ainda precisam de uma anlise humana. Porm, ainda assim, a minerao contribui de forma signicativa no processo de descoberta de conhecimento, permitindo aos especialistas concentrarem esforos apenas em partes mais signicativa dos dados.
4.1
Tarefas
A Minerao de Dados comumente classicada pela sua capacidade em realizar determinadas tarefas [39]. As tarefas mais comuns so: Descrio (Description) a tarefa utilizada para descrever os padres e tendncias revelados pelos dados. A descrio geralmente oferece uma possvel interpretao para os resultados obtidos. A tarefa de descrio muito utilizada em conjunto com as tcnicas de anlise exploratria de dados, para comprovar a inuncia de certas variveis no resultado obtido.
Classicao (Classication) Uma das tarefas mais comuns, a Classicao, visa identicar a qual classe um determinado registro pertence. Nesta tarefa, o modelo analisa o conjunto de registros fornecidos, com cada registro j contendo a indicao qual classe pertence, a m de aprender como classicar um novo registro (aprendizado supervisionado). Por exemplo, categorizamos cada registro de um conjunto de dados contendo as informaes sobre os colaboradores de uma empresa: Perl Tcnico, Perl Negocial e Perl Gerencial. O modelo analisa os registros e ento capaz de dizer em qual categoria um novo colaborador se encaixa. A tarefa de classicao pode ser usada por exemplo para: Determinar quando uma transao de carto de crdito pode ser uma fraude; Identicar em uma escola, qual a turma mais indicada para um determinado aluno; Diagnosticar onde uma determinada doena pode estar presente; Identicar quando uma pessoa pode ser uma ameaa para a segurana. Estimao (Estimation) ou Regresso (Regression) A estimao similar classicao, porm usada quando o registro identicado por um valor numrico e no um categrico. Assim, pode-se estimar o valor de uma determinada varivel analisando-se os valores das demais. Por exemplo, um conjunto de registros contendo os valores mensais gastos por diversos tipos de consumidores e de acordo com os hbitos de cada um. Aps ter analisado os dados, o modelo capaz de dizer qual ser o valor gasto por um novo consumidor. A tarefa de estimao pode ser usada por exemplo para: Estimar a quantia a ser gasta por uma famlia de quatro pessoas durante a volta s aulas; Estimar a presso ideal de um paciente baseando-se na idade, sexo e massa corporal. Predio (Prediction) A tarefa de predio similar s tarefas de classicao e estimao, porm ela visa descobrir o valor futuro de um determinado atributo. Exemplos: Predizer o valor de uma ao trs meses adiante; Predizer o percentual que ser aumentado de trfego na rede se a velocidade aumentar; Predizer o vencedor do campeonato baseando-se na comparao das estatsticas dos times. Alguns mtodos de classicao e regresso podem ser usados para predio, com as devidas consideraes. Agrupamento (Clustering) A tarefa de agrupamento visa identicar e aproximar os registros similares. Um agrupamento (ou cluster) uma coleo de registros similares entre si, porm diferentes dos outros registros nos demais agrupamentos. Esta tarefa difere da classicao pois no necessita que os registros sejam previamente categorizados (aprendizado no-supervisionado). Alm disso, ela no tem a pretenso de classicar, estimar ou predizer o valor de uma varivel, ela apenas identica os grupos de dados similares, conforme mostra a gura 5. Exemplos: Segmentao de mercado para um nicho de produtos; Para auditoria, separando comportamentos suspeitos;
10
Reduzir para um conjunto de atributos similares registros com centenas de atributos.
Figura 5: Registros agrupados em trs clusters [27] As aplicaes das tarefas de agrupamento so as mais variadas possveis: pesquisa de mercado, reconhecimento de padres, processamento de imagens, anlise de dados, segmentao de mercado, taxonomia de plantas e animais, pesquisas geogrcas, classicao de documentos da Web, deteco de comportamentos atpicos (fraudes), entre outras [57]. Geralmente a tarefa de agrupamento combinada com outras tarefas, alm de serem usadas na fase de preparao dos dados. Associao (Association) A tarefa de associao consiste em identicar quais atributos esto relacionados. Apresentam a forma: SE atributo X ENTO atributo Y. uma das tarefas mais conhecidas devido aos bons resultados obtidos, principalmente nas anlises da "Cestas de Compras"(Market Basket), onde identicamos quais produtos so levados juntos pelos consumidores. Alguns exemplos: Determinar os casos onde um novo medicamento pode apresentar efeitos colaterais; Identicar os usurios de planos que respondem bem a oferta de novos servios.
4.2
Mtodos (ou Tcnicas)
Tradicionalmente, os mtodos de minerao de dados so divididos em aprendizado supervisionado (preditivo) e no-supervisionado (descritivo) [16] [20] [27]. Apesar do limite dessa diviso ser muito tnue (alguns mtodos preditivos podem ser descritivos e vice-versa), ela ainda interessante para ns didticos [20]. J existem variaes entre os dois tipos de aprendizados. Seliya [73] e Wang [83], so propostas abordagens semi-supervisionadas. A diferena entre os mtodos de aprendizado supervisionados e no-supervisionados reside no fato de que os mtodos no-supervisionados no precisam de uma pr-categorizao
11
para os registros, ou seja, no necessrio um atributo alvo. Tais mtodos geralmente usam alguma medida de similaridade entre os atributos [48]. As tarefas de agrupamento e associao so consideradas como no-supervisionadas. J no aprendizado supervisionado, os mtodos so providos com um conjunto de dados que possuem uma varivel alvo pr-denida e os registros so categorizados em relao a ela. As tarefas mais comuns de aprendizado supervisionado so a classicao (que tambm pode ser no-supervisionado) e a regresso [48]. Durante o processo de minerao, diversas tcnicas devem ser testadas e combinadas a m de que comparaes possam ser feitas e ento a melhor tcnica (ou combinao de tcnicas) seja utilizada [48]. Na gura 6 podemos ver um exemplo de combinao dessas tcnicas.
Figura 6: Processo de comparao com algumas tcnicas [48] Os autores classicam os diversos mtodos de formas diferentes. Neste trabalho usaremos a classicao adotada por Han et al. [27] para descrever os principais mtodos. Nela, os mtodos so classicados de acordo com as tarefas que realizam. Associaes uma das tcnicas mais conhecidas de minerao de dados, devido ao problema da Anlise da Cesta de Compras. Consiste em identicar o relacionamento dos itens mais frequentes em um determinado conjunto de dados, e permite obter resultados do tipo: SE compra leite e po TAMBM compra manteiga. Esta construo recebe o nome de Regra de Associao (Association Rules). Na gura 7 pode ser visto um exemplo de algumas regras.
Figura 7: Regra de associao [27] Minerao de Itens Frequentes (Frequent Itemset Mining) Introduzido por Agrawal, Imielinski e Swami [1], essa tcnica pode ser visualizada em duas etapas: primeiro, um conjunto de itens frequentes (Frequent Itemset) criado, respeitando um valor mnimo de frequncia para os itens. Depois, as regras de associao so geradas pela minerao desse conjunto. Para garantir resultados vlidos, os conceitos de suporte e conana so utilizados em cada regra produzida. A medida de suporte indica o percentual de registros (dentre todo o conjunto de dados) que se encaixam nessa regra. J a conana mede o percentual de registros que atendem especicamente
12
a regra, por exemplo, o percentual de quem compra leite e po e tambm compra manteiga. Para uma regra ser considerada forte, ela deve atender a um certo grau mnimo de suporte e conana. Um dos mais tradicionais algoritmos de minerao utilizando a estratgia de itens frequentes o Apriori [2]. Diversas variaes deste algoritmo, envolvendo o uso de tcnicas de hash, reduo de transaes, particionamento e segmentao podem ser encontrados [2]. Mannila [44] apresentada uma variao onde as regras no necessrias so eliminadas. Casanova [11], usa o Algoritmo da Conana Inversa junto com a Lgica Nebulosa para gerar regras mais precisas. Outros algoritmos tambm so encontrados: FP-growth e ECLAT (Equivalence CLASS Transformation) [93]. Borgelt [4], apresenta uma implementao do FP-growth e faz a comparao dele com outros trs algoritmos, dentre eles o Apriori e o ECLAT. Em [60], proposto o mtodo CBMine (Compressed Binary Mine) que, segundo os testes, apresentou melhores resultados que os algoritmos tradicionais. Muyeba et all. propem dois frameworks usando lgica nebulosa para a minerao de regras de associao com pesos [52] e para a minerao de itens compostos, chamado CFARM (Composite Fuzzy ARM ) [51]. Possas et al. [66] propem uma variao do algoritmo Apriori a m de que um nmero menor de regras seja gerado. Os resultados apresentaram at 15% de reduo. Vasconcelos [81] mostra o uso do Apriori para minerao de dados da Web. A abordagem para a minerao de bases em que so gerados muitas regras (colossais), chamada Pattern-Fusion apresentada por Zhu et al. [97]. Classicaes As tcnicas de classicao podem ser supervisionadas e no-supervisionadas. So usadas para prever valores de variveis do tipo categricas. Pode-se, por exemplo, criar um modelo que classica os clientes de um banco como especiais ou de risco, um laboratrio pode usar sua base histrica de voluntrios e vericar em quais indivduos uma nova droga pode ser melhor ministrada. Em ambos os cenrios um modelo criado para classicar a qual categoria um certo registro pertence: especial ou de risco, voluntrios A, B ou C. rvores de Deciso (Decision Trees) O mtodo de classicao por rvore de Deciso, funciona como um uxograma em forma de rvore, onde cada n (no folha) indica um teste feito sobre um valor (por exemplo, idade > 20). As ligaes entre os ns representam os valores possveis do teste do n superior, e as folhas indicam a classe (categoria) a qual o registro pertence. Aps a rvore de deciso montada, para classicarmos um novo registro, basta seguir o uxo na rvore (mediante os testes nos ns no-folhas) comeando no n raiz at chegar a uma folha. Pela estrutura que formam, as rvores de decises podem ser convertidas em Regras de Classicao. O sucesso das rvores de deciso, deve-se ao fato de ser uma tcnica extremamente simples, no necessita de parmetros de congurao e geralmente tem um bom grau de assertividade. Apesar de ser uma tcnica extremamente poderosa, necessrio uma anlise detalhada dos dados que sero usados para garantir bons resultados. Quinlan [67] apresenta diversas tcnicas para reduzir a complexidade das rvores de deciso geradas. Em um artigo recente Yang et al. [90] apresentam um algoritmo para extrair regras acionveis, ou seja, regras que so realmente teis
13
para a tomada de decises. Um exemplo de rvore de deciso pode ser visto na gura 8.
Figura 8: rvore de Deciso [27] No nal da dcada de 70, incio da dcada de 80, J. Ross Quinlan desenvolve o ID3 (Iterative Dichotomiser), um algoritmo para gerao de rvores de deciso. Depois Quinlan desenvolveu o C4.5 (uma verso otimizada do ID3), e que at hoje serve como benchmark para novos mtodos supervisionados [68]. Foi na mesma poca (1984) que um grupo de estatsticos (L. Breiman, J. Friedman, R. Olshen e C. Stone), sem conhecer o trabalho de Quinlan, desenvolveram um algoritmo e publicaram um livro chamado Classication and Regression Trees (CART) [7]. Ambos algoritmos so considerados precursores e diversas variaes surgiram deles. Eles utilizam a estratgia de dividir-e-conquistar recursiva aplicada de cima para baixo (top-down). Com o argumento de que os algoritmos tradicionais de rvore de deciso precisam carregar todo o conjunto de dados na memria, novos algoritmos capazes de acessar repositrios persistentes foram desenvolvidos: SLIQ [49] e SPRINT [74]. Milagres [50] apresenta uma ferramenta que implementa esses dois algoritmos. Gehrke apresenta um framework para auxiliar na execuo de algoritmos de classicao e separ-los de questes relativas a escalabilidade [22]. O BOAT (Bootstrapped Optimistic Algorithm for Tree Construction) utiliza-se de uma estratgia chamada de "bootstrapping"[21]. Chandra apresenta uma otimizao do BOAT [12] e uma variao usando lgica nebulosa para o SLIQ [13]. Classicao Bayesiana (Bayesian Classication) uma tcnica estatstica (probabilidade condicional) baseada no teorema de Thomas Bayes [87]. Segundo o teorema de Bayes, possvel encontrar a probabilidade de um certo evento ocorrer, dada a probabilidade de um outro evento que j ocorreu: Probabilidade(B dado A) = Probabilidade(A e B)/Probabilidade(A). Comparativos mostram que os algoritmos Bayesianos, chamados de naive Bayes, obtiveram resultados compatveis com os mtodos de rvore de deciso e redes neurais. Devido a sua simplicidade e o alto poder preditivo, um dos algoritmos mais utilizados [95]. O algoritmo de naive Bayes parte do princpio que no exista relao de dependncia entre os atributos. No entanto, nem sempre isto possvel. Nestes casos, uma variao conhecida como Bayesian Belief Networks, ou Bayesian Networks [55], deve ser utilizada. Em [26], proposta uma combinao dos algoritmos de naive Bayes e rvore de Deciso para realizar a classicao. Mazlack [47] expe uma fragilidade na tcnica naive Bayes.
14
Classicao Baseada em Regras (Rule-Based Classication) A classicao baseada em regras segue a estrutura: SE condio ENTO concluso (semelhante as regras de associao). Esse tipo de construo geralmente recuperado de uma rvore de deciso (em estruturas com muitas variveis, a interpretao dos resultados somente pela rvore de deciso muito complexa). Uma nova estratgia na obteno das regras atravs de algoritmos de Cobertura Sequencial (Sequential Covering Algorithm), diretamente aplicados nos conjuntos de dados. AQ, CN2 e RIPPER so exemplos desses algoritmos. Uma outra forma de obteno desses regras atravs de algoritmos de Regras de Associao. Redes Neurais (Neural Networks) uma tcnica que tem origem na psicologia e na neurobiologia. Consiste basicamente em simular o comportamento dos neurnios. De maneira geral, uma rede neural pode ser vista como um conjunto de unidades de entrada e sada conectados por camadas intermedirias e cada ligao possui um peso associado. Durante o processo de aprendizado, a rede ajusta estes pesos para conseguir classicar corretamente um objeto. uma tcnica que necessita de um longo perodo de treinamento, ajustes nos dos parmetros e de difcil interpretao, no sendo possvel identicar de forma clara a relao entre a entrada e a sada. Em contrapartida, as redes neurais conseguem trabalhar de forma que no sofram com valores errados e tambm podem identicar padres para os quais nunca foram treinados. Um dos algoritmos mais conhecidos de redes neurais o backpropagation [17], popularizado na dcada de 80, que realiza o aprendizado pela correo de erros. Na gura 9 podemos ver um exemplo de uma rede neural.
Figura 9: Rede Neural [27] SVM (Support Vector Machines) Apesar de relatos dos anos 60 sobre a tcnica de SVM, foi em 1992 que um primeiro artigo foi apresentado por Vladimir Vapnik, Bernhard Boser e Isabelle Guyon [5]. Apesar de ser uma tcnica nova, tem chamado muita ateno pelos seus resultados: obtm altos ndices de assertividade, permite modelar situaes no-lineares complexas gerando modelos de simples interpretao, pode ser usada para relaes lineares e no-lineares, entre outros. utilizado tanto para tarefas de classicao quanto de predio. Atualmente um dos problemas da tcnica de SVM o tempo utilizado no aprendizado. Muitas pesquisas tem se concentrado neste aspecto. Classicao por Regras de Associao (Classication by Association Rule) Recentemente, as tcnicas de Regras de Associao esto sendo usadas para a classicao. A ideia geral buscar por padres de associaes fortes entre
15
os itens (utilizando-se do conceito de frequncia) e as categorias. Basicamente consiste em dois passos: primeiro, os dados de treinamento so analisados para que se obtenha os itens mais frequentes. Em seguida, estes itens so usados para a gerao das regras. Alguns estudos demostraram que esta tcnica tem apresentado mais assertividade do que algoritmos tradicionais, como o C4.5. Alguns exemplos de algoritmos de classicao so: CBA (Classication-Based Association) [42], CMAR (Classication based on Multiple Association Rules) [40] e CPAR [92]. [86] mostra uma nova abordagem chamada de CARM (Classication Association Rule Mining). Aprendizado Tardio (Lazy Learners) As tcnicas de classicao descritas at agora usam um conjunto de dados de treinamento para aprender a classicar um novo registro. Assim, quando so submetidas a um novo registro elas j esto prontas, ou seja, j aprenderam. Existe, no entanto, uma outra categoria de mtodos, que somente realizam esse aprendizado quando solicitado para a classicao de um novo registro. Neste caso, o aprendizado considerado tardio. Apesar de necessitar de um tempo menor de treinamento, esses mtodos so muito dispendiosos computacionalmente, pois necessitam de tcnicas para armazenar e recuperar os dados de treinamento. Por outro lado, esses mtodos permitem um aprendizado incremental. O algoritmo conhecido como kNN (k - Nearest Neighbor), descrito na dcada de 50, s tornou-se popular na dcada de 60, com o aumento da capacidade computacional. Basicamente, esse algoritmo armazena os dados de treinamento e quando um novo objeto submetido para classicao, o algoritmo procura os k registros mais prximos (medida de distncia) deste novo registro. O novo registro classicado na classe mais comum entre todos os k registros mais prximos. No algoritmo chamado de Case-Based Reasoning (CBR), ao invs de armazenar os dados de treinamento, ele armazena os casos para a soluo dos problemas. Para a classicao de um novo objeto, a base de treinamento analisada em busca de uma soluo. Caso no encontre, o algoritmo sugere a soluo mais prxima. Esse algoritmo tem sido bastante utilizado na rea de suporte aos usurios, Mdica, Engenharia e Direito. Algoritmo Gentico (Genetic Algorithm) A ideia dos algoritmos genticos segue a teoria da evoluo. Geralmente, no estgio inicial uma populao denida de forma aleatria. Seguindo a lei do mais forte (evoluo), uma nova populao gerada com base na atual, porm, os indivduos passam por processos de troca gentica e mutao. Este processo continua at que populaes com indivduos mais fortes sejam geradas ou que atinga algum critrio de parada. Conjuntos Aproximados (Rought Set) uma tcnica que consegue realizar a classicao mesmo com dados impreciso ou errados e utilizada para valores discretos. A ideia geral destes algoritmos a de classe de equivalncia: eles consideram que os elementos de uma classe so indiscernveis e trabalham com a ideia de aproximao para a criao das categorias. Por exemplo, uma estrutura (chamada Rought Set [25]) criada para uma classe C. Esta estrutura cercada por dois outros conjuntos de aproximao (chamados de baixo e alto). O conjunto de baixa aproximao de C contm os registros que certamente so desta classe. O conjunto de alta aproximao contm os registros que no podem ser denidos como no pertencentes classe C. Um novo registro classicado mediante a aproximao com um destes conjuntos. Busse [24] faz uma comparao do algoritmo MLEM2 (Modied Learning from Examples Module, version 2)) com duas variaes. Uma representao dos
16
conjuntos aproximados pode ser vista na gura 10.
Figura 10: Conjuntos Aproximados [27] Conjuntos Nebulosos (Fuzzy Set) A classicao baseada em regras apresenta um problema relacionado s variveis contnuas. Elas necessitam de um ponto de corte bem denido, o que s vezes ruim ou impossvel. Por exemplo, SE salario > 4.000 ENTO credito = ok. Porm, registros com salrio de 3.999 no sero contemplados. Proposta por Lot Zadeh em 1965, a ideia dos conjuntos Fuzzy de que, ao invs de realizar um corte direto, essas variveis sejam discretizadas em categorias e a lgica nebulosa aplicada para denio dos limites destas categorias. Com isso, ao invs de se ter as categorias com limites de corte bem denido, tem-se um certo grau de exibilidade entre as categorias. Na gura 11 pode-se ver um exemplo de um conjunto nebuloso.
Figura 11: Conjuntos Nebulosos [27] Predies Numricas Os mtodos de predio visam descobrir um possvel valor futuro de uma varivel. As predies numricas visam prever valores para variveis contnuas. Para a predio de variveis discretas, as tcnicas de classicao j apresentadas podem ser aplicadas. Os mtodos mais conhecidos para predio numrica so as regresses, desenvolvidas por Sir Frances Galton (1822 1911). Alguns autores tratam as predies numricas e as regresses como sinnimos, porm, como vimos, alguns mtodos de classicao tambm fazem predies. As tcnicas de regresso modelam o relacionamento de variveis independentes (chamadas preditoras) com uma varivel dependente (chamada resposta). As variveis preditoras so os atributos dos registros, e a resposta o que se quer predizer. Regresso Linear As regresses so chamadas de lineares quando a relao entre as variveis preditoras e a resposta segue um comportamento linear. Neste caso, possvel criar um modelo no qual o valor de y uma funo linear de x. Exemplo:
17
y = b + wx. Pode-se utilizar o mesmo princpio para modelos com mais de uma varivel preditora. Na gura 12 tem-se um exemplo de uma regresso linear.
Figura 12: Regresso Linear [27] Regresso No-Linear Nos modelos de regresso no-linear, a relao entre as variveis preditoras e a resposta no segue um comportamento linear. Por exemplo, a relao entre as variveis pode ser modelada como uma funo polinomial. Ainda, para estes casos (Regresso Polinomial), possvel realizar uma converso pra uma regresso linear. Outros modelos tambm so encontrados na literatura: Logistic Regression, Poisson Regression e Log-Linear Models. Agrupamento As tcnicas de agrupamento so consideradas como no supervisionadas. Dado um conjunto de registros, so gerados agrupamentos (ou cluster), contendo os registros mais semelhantes. Em geral, as medidas de similaridade usadas so as medidas de distncias tradicionais (Euclidiana, Manhattan, etc). Os elementos de um cluster so considerados similares aos elementos no mesmo cluster e dissimilares aos elementos nos outros clusters. Por trabalhar com o conceito de distncia (similaridade) entre os registros, geralmente necessrio realizar a transformao dos diferentes tipos de dados (ordinais, categricos, binrios, intervalos) para uma escala comum, exemplo [0.0, 1.0]. Podemos classicar os algoritmos de agrupamento nas seguintes categorias: Mtodos de Particionamento (Partitioning Methods) Dado um conjunto D de dados com n registros e k o nmero de agrupamentos desejados, os algoritmos de particionamento organizam os objetos em k agrupamentos, tal que k <= n. Os algoritmos mais comuns de agrupamento so: k-Means e k-Medoids. k-Means Esse algoritmo usa o conceito da centroide. Dado um conjunto de dados, o algoritmo seleciona de forma aleatria k registros, cada um representando um agrupamento. Para cada registro restante, calculada a similaridade entre o registro analisado e o centro de cada agrupamento. O objeto inserido no agrupamento com a menor distncia, ou seja, maior similaridade. O centro do cluster recalculado a cada novo elemento inserido. Diferentes variaes surgiram: implementando otimizaes para escolha do valor do k, novas medidas de dissimilaridade e estratgias para o clculo do centro do agrupamento. Uma variao bem conhecida do k-Means o k-Modes. Nesse caso, ao invs de calcular o centro do agrupamento atravs da mdia de distncia dos registros, ele usa a moda.
18
k-Medoids uma variao do k-Means. Neste algoritmo, ao invs de calcular o centro do agrupamento e us-lo como referncia, trabalha-se com o conceito do objeto mais central do agrupamento. As variaes mais conhecidas so os algoritmos PAM (Partitioning Around Medoids) e CLARA (Clustering LARge Applications). Mtodos Hierrquicos (Hierarchical Methods) A ideia bsica dos mtodos hierrquicos criar o agrupamento por meio da aglomerao ou da diviso dos elementos do conjunto. A forma gerada por estes mtodos um dendrograma (grco em formato de rvore, conforme gura 13). Dois tipos bsicos de mtodos hierrquicos podem ser encontrados: Aglomerativos e Divisivos.
Figura 13: Exemplo de um dendrograma [57] Aglomerativos Adotam uma estratgia bottom-up onde, inicialmente, cada objeto considerado um agrupamento. A similaridade calculada entre um agrupamento especco e os outros agrupamentos. Os agrupamentos mais similares vo se unindo e formando novos agrupamentos. O processo continua, at que exista apenas um agrupamento principal. Os algoritmos AGNES (AGglomerative NESting) e CURE (Clustering Using Representatives) utilizam esta estratgia. Divisivos Adotam uma estratgia top-down, onde inicialmente todos os objetos esto no mesmo agrupamento. Os agrupamentos vo sofrendo divises, at que cada objeto represente um agrupamento. O algoritmo DIANA (DIvisive ANAlysis) utiliza esta estratgia. Mtodos Baseados na Densidade (Density-Based Methods) Os mtodos de particionamento e hierrquicos geram agrupamentos de formato esfricos (distribuio dos valores dos dados mais esparsa). No entanto, existem situaes em que essa distribuio mais densa e que tais mtodos no apresentam resultados satisfatrios. Os mtodos baseado na densidade conseguem melhores resultados. Destacamos os algoritmos: DBSCAN (A Density-Based Clustering Method Based on Connected Regions with Sufciently High Density), OPTICS (Ordering Points to Identify the Clustering Structure) e DENCLUE (DENsity-based CLUstEring). Em [19], proposta uma tcnica usando a estratgia do Simulated Annealing. Mtodos Baseados em Grade (Grid-Based Methods) Mtodos baseado em grades, utilizam-se da estrutura de grades e dividem os registros nas clulas desta grade. Apresentam um tempo de processamento bem rpido. Os principais algoritmos so o STING (STatistical INformation Grid) e o WaveCluster (Clustering UsingWavelet Transformation).
19
Mtodos Baseados em Modelos (Model-Based Methods) Os mtodos baseados em modelos criam um modelo para cada agrupamento e tentam identicar o melhor modelo para cada objeto. Este mtodo parte da ideia de que os dados so gerados por uma srie de probabilidade de distribuies. Os algoritmos EM (ExpectationMaximization), uma variao do k-Means, COBWEB e CLASSIT implementam o mtodo de agrupamento baseado em modelos. Apesar de cada mtodo possuir suas peculiaridades e apresentar melhor resultado com um certo tipo de dado, no existe uma classicao nica para a escolha e aplicao destes mtodos [20].
Limitaes
Apesar da grande potencialidade oferecida pela Minerao de Dados, alguns fatores devem ser analisados. Wang et all. [85] discutem como alguns desses fatores podem prejudicar as tcnicas de minerao: As relaes entre os atributos precisam ser muito bem denidas, caso contrrio os resultados podem ser mal interpretados; Permitir que o processo de treinamento execute por muito tempo, at que se consiga obter indcios que possam levar concluses factveis; Gerar subsdios para uma concluso errada tornando-a mais plausvel. Porm, uma interpretao falha pode disfarar as falhas nos dados; Usar um grande nmero de variveis. Alguns outros autores mencionam trs outros fatores: o alto conhecimento exigido dos usurios, a escolha do repositrio e o uso de muitas variveis. Wang et al. categorizam os problemas encontrados na minerao de dados em quatro grupos [85]: estatsticos, preciso dos dados e padronizaes, tcnicos (problemas encontrados em diversos mtodos, tais como Redes Neurais, rvores de Deciso, Algoritmos Genticos e Lgica Nebulosa) e organizacionais. Segundo [72], a Minerao de Dados apesar de revelar padres e relacionamentos, no os explica. Alm disto, alguns relacionamentos e padres casuais no so capturados. Outra questo que trs grande impacto na utilizao da Minerao de Dados refere-se privacidade e legislao. Trabalhar com dados sobre o indivduo trs implicaes que precisam ser consideradas e analisadas [27]. Seifert [72], mostra que o Congresso Americano j aprova leis para gerir o uso da Minerao de Dados e as questes de privacidade ligadas a elas. Zhan et all. [94] apresentam um modelo para se trabalhar a privacidade dos dados. Em [20], alguns desaos que precisam ser superados so apresentados: Tcnicas para lidar com base de dados cada vez maiores, chegando a casa dos Terabytes; Cada vez mais as tabelas possuem mais atributos, aumentando o espao de busca (alta dimensionalidade); Os modelos so construdos usando um conjunto limitado de dados, que podem no conter todos os padres e com isto, ao serem submetidos a novos dados, se comportam de maneira errnea;
20
A velocidade com que os dados mudam faz com que os modelos gerem resultados invlidos; O problema da baixa qualidade dos dados; Complexidade dos relacionamentos entre os atributos; Tornar os padres descobertos mais legveis, facilitando o entendimento e a interpretao pelo usurio; A baixa interao e a diculdade de insero de conhecimento prvio nos modelos; Os sistemas cada vez mais dependem de outros sistemas, gerando problemas de integrao.
Minerao de Estruturas Complexas
A Minerao de Dados foi inicialmente concebida para utilizar-se de repositrios estruturados de dados (Banco de Dados, Data Warehouse, Arquivos, etc). Porm, atualmente os dados so representados por diversos formatos: No estruturado, Espacial e Temporal, Multimdia, Web, entre outros. E cada vez mais, existe a necessidade da minerao nestes tipos de dados. Com isto, uma rea que vem sendo bastante pesquisada a Minerao de Dados em estruturas complexas. Em Han et al. [27], algumas dessas estruturas so abordadas: Minerao de Fluxo de Dados Algumas aplicaes trafegam um volume altssimo de dados, temporalmente ordenados, volteis e potencialmente innito. Minerar estas informaes aps terem sido armazenadas uma tarefa invivel. Ao invs disso, a minerao ocorre medida em que os dados so lidos. Kid et all. [34] propem um framework para extrao de padres temporais de uxos de dados. Koh et all. [36] propem um algoritmo chamado appearing-bit-sequence-based incremental mining para um reconhecimento incremental dos padres em uxos de dados. Minerao de Sries Temporais Bases de Sries Temporais so aquelas que armazenam informaes de um certo evento em um intervalo de tempo denido. Por exemplo, bases que armazenam o valor das aes de um mercado, velocidade do vento, medidas da atmosfera. O processo de identicao de padres em bases desse tipo envolve outras tcnicas e anlises. Em [29], apresentado um trabalho para a deteco de fatores de risco na rea mdica usando a minerao de sries temporais atravs de algoritmos de agrupamento. Minerao de Grafos Grafos so muito importantes na modelagem de estruturas complexas, como circuitos, imagens, protenas, redes biolgicas, redes sociais, etc. Variaes de algoritmos tradicionais e novos algoritmos tem sido desenvolvido para esse m [41]. Minerao de Relacionamentos As redes sociais representam o relacionamento (link) entre as entidades envolvidas (similar a uma estrutura de grafos). Nas ltimas dcadas elas tem chamado muita ateno pela riqueza de padres que podem ser extrados. Matsuo [46] apresenta uma abordagem para a minerao de redes sociais na internet. Minerao de Dados Multirelacionais A grande maioria das bases relacionais armazena seus dados de forma normalizada e distribuda. As tabelas que compem essa base so ento relacionadas entre si. No entanto, as tcnicas tradicionais de Minerao de Dados
21
utilizam-se de estruturas mais simples. Devido a isso, as diversas tabelas devem ser agrupadas e simplicadas. Esse processo gera diversos problemas, tais como: variveis desnecessrias ou duplicadas, complexidade dos dados, tempo de anlise e entendimento, etc. A Minerao de Dados Multirelacionais visa criar algoritmos que utilizam as estruturas originais das bases, sem a necessidade de uma converso. Minerao de Objetos Diferente das bases relacionais, que armazenam os dados de uma forma estruturada (tabelas), as bases orientadas a objetos, guardam os dados em forma de objetos (formados por um identicador, atributos e mtodos). Minerao de Dados Espaciais Bases espaciais envolvem um conjunto de dados relacionados s questes espaciais, tais como mapas. Possuem informaes de topologia e distncia organizadas de forma totalmente diferente das bases relacionais. A minerao espacial visa identicar os padres armazenados nesses dados de uma forma implcita. Minerao de Dados Multimdia Bases de dados multimdia armazenam dados em formato de udio, vdeo, imagens, grcos, texto, etc. Em [89], tem-se um survey de reconhecimento de padres faciais em imagens. Malerba [43] apresenta uma proposta para gerao de regras de associao de documentos textuais escaneados. Minerao de Textos Grande parte dos dados de uma instituio armazenada de forma semiestruturada e no-estruturada, atravs de textos, e-mail, artigos, documentos (atas, memorandos, ocios), etc. A busca de padres e conhecimento nestes documentos muito comum. Porm, na maioria das vezes, o resultado obtido falho: documentos no relacionados, volume muito alto de informaes dispensveis, entre outros. A minerao de textos, visa ajudar neste processo. Minerao da Internet A minerao da Internet tem sido alvo de recentes pesquisas, pois ela rene em seu ambiente, quase a totalidade dos tipos de estruturas complexas e simples que existem. Alm disso, possui um volume de dados gigantesco. Atende s diversas necessidades e possui os mais diversos contedos. A Minerao da Internet (ou Web Mining), consiste em minerar as estruturas de ligao, o contedo, os padres de acesso, classicao de documentos, entre outras. Em [75], os conceitos da minerao na internet podem ser analisados. Shimada et all. [76] propem um mtodo para minerar a opinio das pessoas sobre determinados produtos. Em [45], proposta uma abordagem para a gerao de um mapa de tpicos de pginas da internet.
Ferramentas
Diversas ferramentas foram desenvolvidas no intuito de tornar a aplicao da Minerao de Dados uma tarefa menos tcnica, e com isto possibilitar que prossionais de outras reas possam fazer usa dela. Neste sentido, o mercado de ferramentas de minerao de dados tem se tornado bastante atraente. Clementine Uma das ferramentas lder de mercado, desenvolvida pela SPSS o Clementine suporta o processo CRISP-DM, alm de possuir outras facilidades [80]. SAS Enterprise Miner Suite Ferramenta desenvolvida pela empresa SAS. uma das ferramentas mais conhecidas para minerao. Possui modulos para trabalhar em todas as etapas do processo de minerao [70].
22
SAS Text Miner Ferramenta da SAS para minerao de textos [71]. WEKA uma das melhores ferramentas livre. Possui uma srie de algoritmos para as tarefas de minerao. Os algoritmos podem ser aplicados diretamente da ferramenta, ou utilizados por programas Java. Fornece as funcionalidades para pr-processamento, classicao, regresso, agrupamento, regras de associao e visualizao [82]. Atualmente faz parte da ferramenta de BI OpenSource Pentaho [62]. Em [88] a ferramenta apresentada em detalhes. Oracle Data Mining (ODM) uma ferramenta para a Minerao de Dados desenvolvida pela Oracle para o uso em seu banco de dados ORACLE [59]. KXEN Analytic Framework Ferramenta de Minerao de Dados comercial que utiliza conceitos do Professor Vladimir Vapnik como Minimizao de Risco Estruturada (Structured Risk Minimization ou SRM) e outros [37]. IBM Intelligent Miner Ferramenta de minerao da IBM para a minerao de dados no banco de dados DB2 [31]. Pimiento Ferramenta livre para minerao de textos [63]. MDR Ferramenta livre em Java para deteco de interaes entre atributos utilizando o mtodo da multifactor dimensionality reduction (MDR) [18]. LingPipe Ferramenta de minerao livre voltada para anlise lingustica [3]. KNIME Plataforma de minerao de dados aberta, que implementa o paradigma de pipelining de dados [35].
Consideraes Finais
A Minerao de Dados tornou-se uma ferramenta de apoio com papel fundamental na gesto da informao dentro das organizaes. A manipulao dos dados e a anlise das informaes de maneira tradicional tornou-se invivel devido ao grande volume de dados (coletados diariamente e armazenados em bases histricas). Descobrir padres implcitos e relacionamentos em repositrios que contm um grande volume de dados de forma manual, deixou de ser uma opo. As tcnicas de minerao passaram a estar presentes no dia a dia. Os dados so considerados hoje como o principal ativo de um projeto de software. Isso se deve, alm da reduo nos custos de aquisio de hardware e software, ao desenvolvimento de tcnicas capazes de extrair, de forma otimizada, a informao contida, e muitas vezes implcita, nestes dados. Apesar dos bons resultados obtidos com aplicao da Minerao de Dados, os desaos ainda so muitos. Diversos problemas relativos ao uso da minerao (tais como a segurana dos dados e a privacidade dos indivduos), juntamente com o aumento na complexidade das estruturas de armazenamento, criam cenrios complexos e desaadores. Alm disso, novas tendncias como a Web Semntica, exigem que variaes dos algoritmos tradicionais sejam desenvolvidas. A Minerao de Dados atualmente caminha para uma popularizao. As ferramentas, cada vez mais amigveis e fceis de serem usadas por usurios que no sejam especialistas em
23
minerao, desempenham um papel fundamental nesse sentido. Esta popularizao fundamental para o crescimento e a consolidao da Minerao de Dados. No resta dvida de que essa uma rea extremamente promissora e que, apesar dos resultados j obtidos, ainda tem muito para oferecer.
Agradecimentos
Ao Prof. Dr. Cedric Luiz de Carvalho, pela avaliao do presente texto e pelas sugestes feitas, as quais muito contriburam para a melhoria do texto original.
Referncias
[1] AGRAWAL, R; IMIELINSKI, T; SWAMI, A. Mining association rules between sets of items in large databases. Proc. of the ACM SIGMOD, p. 207216, 1993. [2] AGRAWAL, R; SRIKANT, R. Fast algorithms for mining association rules. 20th International Conference on Very Large Data Bases, p. 487499, 1994. [3] ALIAS-I. LingPipe. http://alias-i.com/lingpipe/, acessado em Maio de 2009. [4] BORGELT, C. An implementation of the FP-growth algorithm, 2005. [5] BOSER, B. E; GUYON, I. M; VAPNIK, V. N. A training algorithm for optimal margin classiers. In: PROCEEDINGS OF THE 5TH ANNUAL ACM WORKSHOP ON COMPUTATIONAL LEARNING THEORY, p. 144152. ACM Press, 1992. [6] BRAMER, M. Undergraduate Topics in Computer Science - Principles of Data Mining. Springer, 2007. [7] BREIMAN, L; FRIEDMAN, J; OLSHEN, R; STONE, C. Classication and Regression Trees. Chapman and Hall/CRC, 1984. [8] CABENA, P; HADJINIAN, P; STADLER, R; JAAPVERHEES; ZANASI, A. Discovering Data Mining: From Concept to Implementation. Prentice Hall, 1998. [9] CABRAL, L. S; SIEBRA, S. A. Identicao de competncias em currculos usando ontologias: uma abordagem terica, 2006. [10] CANADA, S. Statistics: Power from Data! http://www.statcan.gc.ca/edu/ power-pouvoir/toc-tdm/5214718-eng.htm, acessado em abril de 2009. [11] CASANOVA, A. A; LABIDI, S. Algoritmo da Conana Inversa para Minerao de Dados Baseado em Tcnicas de Regras de Associao e Lgica Nebulosa. XXV Congresso da Sociedade Brasileira de Computao, 2005. [12] CHANDRA, B; VARGHESE, P. On improving efciency of sliq decision tree algorithm. International Joint Conference on Neural Networks - IJCNN, p. 6671, 2007. [13] CHANDRA, B; VARGHESE, P. Fuzzy sliq decision tree algorithm. IEEE Transactions on Cybernetics, 38:12941301, 2008.
24
[14] CHAPMAN, P; CLINTON, J; KERBER, R; KHABAZA, T; REINARTZ, T; SHEARER, C; WIRTH, R. CRISP-DM 1.0. CRISP-DM consortium, 2000. [15] Chen, H; Reid, E; Sinai, J; Silke, A; Ganor, B, editors. Terrorism Informatics - Knowledge Management and Data Mining for Homeland Security. Springer, 2008. [16] CIOS, K. J; PEDRYCZ, W; SWINIARSKI, R. W; KURGAN, L. A. Data Mining - A Knowledge Discovery Approach. Springer, 2007. [17] CROCHAT, P; FRANKLIN, D. An introduction to bayesian networks and their contemporary applications. http://ieee.uow.edu.au/~daniel/software/ libneural/BPN_tutorial/BPN_English/BPN_English/, acessado em Maio de 2009. [18] DARTMOUTH. MDR. http://www.multifactordimensionalityreduction. org/, acessado em Maio de 2009. [19] DUCZMAL, L; ASSUNO, R. A simulated annealing strategy for cluster detection. [20] FAYYAD, U; PIATETSKY-SHAPIRO, G; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. American Association for Articial Intelligence, 1996. [21] GEHRKE, J; GANTI, V; RAMAKRISHNAN, R; LOH, W.-Y. BoatUoptimistic decision tree construction. Proceedings of the 1999 ACM SIGMOD, p. 169180, 1999. a framework for fast [22] GEHRKE, J; RAMAKRISHNAN, R; GANTI, V. Rainforest U decision tree construction of large datasets. Data Mining and Knowledge Discovery, 4:127162, 2000. [23] GONZLEZ-ARANDA, P; MENASALVAS, E; RUIZ, S. M. C; SEGOVIA, J. Towards a methodology for data mining project development: The importance of abstraction. In: STUDIES IN COMPUTATIONAL INTELLIGENCE, p. 165U178. Springer-Verlag, 2008. [24] GRZYMALA-BUSSE, J. W. Mlem2 rule induction algorithms: With and without merging intervals. In: STUDIES IN COMPUTATIONAL INTELLIGENCE, p. 153U164. Springer-Verlag, 2008. [25] GRZYMALA-BUSSE, J. W. Three approaches to missing attribute values: A rough set perspective. In: STUDIES IN COMPUTATIONAL INTELLIGENCE, p. 139U152. Springer-Verlag, 2008. [26] HALL, M; FRANK, E. Combining naive bayes and decision tables. In 2008 FLAIRS Conference - AAAI, 2008. [27] HAN, J; KAMBER, M. Data Mining: Concepts and Techniques. Elsevier, 2006. [28] HAND, D; MANNILA, H; SMYTH, P. Principles of Data Mining. MIT Press, 2001. [29] HIRANO, S; TSUMOTO, S. Detection of risk factors as temporal data mining. In: PAKDD WORKSHOPS, p. 143156. Springer-Verlag, 2008.
25
[30] HORNICK, M. F; MARCAD, E; VENKAYALA, S. Java Data Mining: Strategy, Standard, and Practice A Practical Guide for Architecture, Design, and Implementation. Elsevier, 2007. [31] IBM. Intelligent Miner. http://www-01.ibm.com/software/data/ iminer/, acessado em Maio de 2009. [32] KDNUGGETS.COM. KDNuggets. http://KDNuggets.com, acessado em Maio de 2009. [33] KEIM, D. A. Information visualization and visual data mining. IEEE Transactions on Visualization and Computer Graphics, p. 18, 2002. [34] KIDA, T; SAITO, T; ARIMURA, H. Flexible framework for time-series pattern matching over multi-dimension data stream. In: PAKDD WORKSHOPS, p. 112. Springer-Verlag, 2008. [35] KNIME.COM. KNIME. http://www.knime.org/, acessado em Maio de 2009. [36] KOH, J.-L; CHOU, P.-M. Incrementally mining recently repeating patterns over data streams. In: PAKDD WORKSHOPS, p. 2637. Springer-Verlag, 2008. [37] KXEN. KXEN. http://www.aexis.com/KXEN-Analytic-Framework.htm, acessado em Maio de 2009. [38] LADEIRA, M; OLIVEIRA, M. G; ARAJO, M. E. C. Lupa Digital: Agilizao da Busca Decadactilar na Identicao Criminal Atravs de Minerao de Dados. XXV Congresso da Sociedade Brasileira de Computao, 2005. [39] LAROSE, D. T. Discovering Knowledge in Data: An Introduction to Data Mining. John Wiley and Sons, Inc, 2005. [40] LI, W; HAN, J; PEI, J. Cmar: Accurate and efcient classication based on multiple class-association rules, 2001. [41] LI, W; NG, W.-K; ONG, K.-L. Graph-Based Data Mining, chapter XI, p. 291307. Idea Group Inc., 2007. [42] LIU, B; HSU, W; MA, Y. Integrating classication and association rule mining. AAAI Workshop of Knowledge Discovery in Databases, 1998. [43] MALERBA, D; BERARDI, M; CECI, M. Discovering Spatio-Textual Association Rules in Document Images, chapter VIII, p. 176197. IGI, 2008. [44] MANNILA, H; TOIVONEN, H; VERKAMO, A. I. Efcient algorithms for discovering association rules. AAAI Workshop of Knowledge Discovery in Databases, 1994. [45] MASE, M; YAMADA, S; NITTA, K. Extracting topic maps from web pages. In: PAKDD WORKSHOPS, p. 169180. Springer-Verlag, 2008. [46] MATSUO, Y; MORI, J; ISHIZUKA, M. Social Network Mining from the Web, chapter VII, p. 149175. IGI, 2008.
26
[47] MAZLACK, L. J. Naive rules do not consider underlying causality. In: STUDIES IN COMPUTATIONAL INTELLIGENCE, p. 213U229. Springer-Verlag, 2008. [48] MCCUE, C. Data Mining and Predictive Analysis - Intelligence Gathering and Crime Analysis. Elsevier, 2007. [49] MEHTA, M; AGRAWAL, R; RISSANEN, J. Sliq: A fast scalable classier for data mining. Procs. of the 5th EDBT, p. 18U32, 1996. [50] MILAGRES, R; SANTOS, L. F; PLASTINO, A. Midas-uff: Uma ferramenta para minerao de dados. http://www.ic.uff.br/~lsantos/publ/sims2004. pdf, acessado em Maio de 2009, 2004. [51] MUYEBA, M; KHAN, M. S; COENEN, F. A framework for mining fuzzy association rules from composite items maybin. In: PAKDD WORKSHOPS, p. 6274. SpringerVerlag, 2008. [52] MUYEBA, M; KHAN, M. S; COENEN, F. Fuzzy weighted association rule mining with weighted support and condence framework. In: PAKDD WORKSHOPS, p. 4961. Springer-Verlag, 2008. [53] MYATT, G. J. Making Sense of Data - A Practical Guide to Exploratory Data Analysis and Data Mining. John Wiley and Sons, Inc, 2007. [54] MYATT, G. J; JOHNSON, W. P. Making Sense of Data II - A Practical Guide to Data Visualization, Advanced Data Mining Methods, and Applications. John Wiley and Sons, Inc, 2009. [55] NIEDERMAYER, D. An introduction to bayesian networks and their contemporary applications. http://en.wikipedia.org/wiki/Thomas_Bayes, acessado em Maio de 2009., 1998. [56] NIST/SEMATECH. NIST/SEMATECH e-Handbook of Statistical Methods. http: //www.itl.nist.gov/div898/handbook/, acessado em abril de 2009. [57] OLIVEIRA, R. R; CARVALHO, C. L. Algoritmos de agrupamento e suas aplicaes. Technical report, Universidade Federal de Gois, 2008. [58] OLSON, D. L; DELEN, D. Advanced Data Mining Techniques. Springer, 2008. [59] ORACLE. Oracle. http://www.oracle.com/technology/products/bi/ odm/index.html, acessado em Maio de 2009. [60] PALANCAR, J; LEN, R; PAGOLA, J. M; HECHAVARRA, A. A compressed vertical binary algorithm for mining frequent patterns. In: STUDIES IN COMPUTATIONAL INTELLIGENCE, p. 197U211. Springer-Verlag, 2008. [61] PECHENIZKIY, M; PUURONEN, S; TSYMBAL, A. Does relevance matter to data mining research? In: STUDIES IN COMPUTATIONAL INTELLIGENCE, p. 251U275. Springer-Verlag, 2008. [62] PENTAHO. Pentaho BI Tools. http://www.pentaho.org, acessado em Maio de 2009.
27
[63] PIMIENTO. Pimiento. http://erabaki.ehu.es/jjga/pimiento/, acessado em Maio de 2009. [64] PM, M; DW, A. UCI Repository of Machine Learning Databases. http://www. ics.uci.edu/, acessado em abril de 2009. [65] PONNIAH, P. Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals. John Wiley and Sons, Inc, 2001. [66] PSSAS, B; JR., W. M; CARVALHO, M; RESENDE, R. Using quantitative information for efcient association rule generation. ACM SIGMOD Record, 29:19 25, 2000. [67] QUINLAN, J. R. Simplifying decision trees. Technical report, Massachusetts Institute of Technology, 1986. [68] QUINLAN, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc., 1992. [69] REZENDE, S. O. Minerao de Dados. XXV Congresso da Sociedade Brasileira de Computao, 2005. [70] SAS. Enterprise Miner Suite. http://www.sas.com/technologies/ analytics/datamining/miner/index.html, acessado em Maio de 2009. [71] SAS. SAS Text Miner. http://www.sas.com/technologies/analytics/ datamining/textminer/index.html, acessado em Maio de 2009. [72] SEIFERT, J. W. Crs report for congress - data mining: An overview. Technical report, Congressional Research Service, 2004. [73] SELIYA, N; KHOSHGOFTAAR, T. M. Software Quality Modeling With Limited Apriori Defect Data, chapter Chapter 1, p. 116. Idea Group Publishing, 2007. [74] SHAFER, J; AGRAWAL, R; MEHTA, M. Sprint: A scalable parallel classier for data mining. Procs. of the 22nd VLDB, p. 544U555, 1996. [75] SHI, Z; MA, H; HE, Q. Web Mining: Extracting Knowledge from the World Wide Web, chapter XIV, p. 197208. Springer, 2009. [76] SHIMADA, K; HASHIMOTO, D; ENDO, T. A graph-based approach for sentiment sentence extraction. In: PAKDD WORKSHOPS, p. 3848. Springer-Verlag, 2008. [77] SHLENS, J. A Tutorial on Principal Component Analysis. Salk Insitute for Biological Studies and University of California, 2 edition, December 2005. [78] Simoff, S. J; Bhlen, M. H; Mazeika, A, editors. Visual Data Mining - Theory, Techniques and Tools for Visual Analytics. Springer, 2008. [79] SMITH, L. I. A tutorial on Principal Components Analysis, February 2002. [80] SPSS. Clementine. http://www.spss.com.br/clementine/index.htm, acessado em Maio de 2009. [81] VASCONCELOS, L. M. R; CARVALHO, C. L. Aplicao de regras de associao para minerao de dados na web. Technical report, Universidade Federal de Gois, 2004.
28
[82] WAIKATO, U. O. WEKA. http://www.cs.waikato.ac.nz/ml/weka/, acessado em Maio de 2009. [83] Wang, J, editor. Encyclopedia of Data Warehousing and Mining. Idea Group Reference, 2005. [84] WANG, J; HU, X; ZHU, D. Data Mining in Public Administration, chapter XVIII, p. 556567. IGI, 2008. [85] WANG, J; HU, X; ZHU, D. Minimizing the Minus Sides of Mining Data. In: Taniar, D, editor, DATA MINING AND KNOWLEDGE DISCOVERY TECHNOLOGIES, p. 254 279. IGI Publishing, 2008. [86] WANG, Y. J; XIN, Q; COENEN, F. Mining efciently signicant classication as sociation rules. In: STUDIES IN COMPUTATIONAL INTELLIGENCE, p. 443U467. Springer-Verlag, 2008. [87] WIKIPEDIA. Thomas bayes. http://en.wikipedia.org/wiki/Thomas_ Bayes, acessado em Maio de 2009. [88] WITTEN, I. H; FRANK, E. Data Mining - Practical Machine Learning Tools and Techniques. Elsevier, 2005. [89] YANG, M.-H; KRIEGMAN, D. J; AHUJA, N. Detecting faces in images: A survey. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 24(1), January 2002. [90] YANG, Q; YIN, J; LING, C; PAN, R. Extracting actionable knowledge from decision trees. IEEE Transactions on Knowledge and Data Engineering, 19(1):4356, 2007. [91] YE, N. THE HANDBOOK OF DATA MINING. LAWRENCE ERLBAUM ASSOCIATES, 2003. [92] YIN, X; HAN, J. Cpar: Classication based on predictive association rules, 2001. [93] ZAKI, M. J. Scalable algorithms for association mining. In: IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, volume 12 de 3, p. 372390, May 2000. [94] ZHAN, J; CHANG, L; MATWIN, S. How to prevent private data from being disclosed to a malicious attacker. In: STUDIES IN COMPUTATIONAL INTELLIGENCE, p. 517528. Springer-Verlag, 2008. [95] ZHANG, H. The optimality of naive bayes. In 2004 FLAIRS Conference - AAAI, 2004. [96] ZHOU, Z.-H. Three perspectives of data mining. Articial Intelligence Journal, p. 139146, 2003. [97] ZHU, F; YAN, X; YU, J. H; CHENG, P. H. Mining colossal frequent patterns by core pattern fusion. IEEE 23rd International Conference on Data Engineering, 2007. (to appear).

RT Inf - 001 09 PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

RT Inf - 001 09 PDF

Hochgeladen von

Copyright:

Verfügbare Formate

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Cssio Oliveira Camilo Joo Carlos da Silva

Instituto de Informtica Universidade Federal de Gois

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Joo Carlos da Silva

Mestrando em Cincia da Computao - INF/UFG Orientador - INF/UFG

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Reduzir para um conjunto de atributos similares registros com centenas de atributos.

Mtodos (ou Tcnicas)

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

conjuntos aproximados pode ser vista na gura 10.

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Estruturas Complexas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas

Das könnte Ihnen auch gefallen