Sie sind auf Seite 1von 31

Descoberta de conhecimento em bases de dados pblicas: uma proposta de estruturao metodolgica*

Jair Sampaio Soares Junior** Rogrio Hermida Quintella***

S U M R I O : 1. Introduo; 2. Referencial terico; 3. Descoberta de conhecimento em bancos de dados; 4. Pobreza e desigualdade social: conceitos e mensurao; 5. Procedimentos metodolgicos; 6. Avaliao dos resultados; 7. Consideraes finais. S U M M A R Y : 1. Introduction; 2. Theoretical framework; 3. Knowledge discovery in databases; 4. Poverty and social inequitiy: concepts and mesurement; 5. Methodological procedures; 6. Result assessment; 7. Final remarks. P A L A V R A S - C H A V E : descoberta de conhecimento; bases de dados; minerao de dados; sistema de apoio deciso; gesto do conhecimento; pobreza. K E Y W O R D S : knowledge discovery; databases; data mining; decision support system; knowledge management; povertry. O mundo contemporneo assiste ao crescimento acentuado de dois fenmenos que motivam este artigo. O primeiro deles a difuso das tecnologias digitais e o segundo, o crescimento da parcela de sua populao que vive em condies de pobreza. A humanidade gera e armazena dados e informaes em uma velocidade at recentemente inimaginvel. Este artigo analisa a transformao de dados pblicos em conhecimento de valor social com o uso da descoberta de conhecimento em bases de dados (DCBD ou knowledge discovery in databases KDD) com dois objetivos: criar uma proposta para utilizao da DCBD em bases de dados pblicas

* Artigo recebido em set. e aceito em out. 2005. ** Doutorando em administrao na NPGA/UFBA. Endereo: NPGA/UFBA Avenida Reitor Miguel Calmon, s/n Vale do Canela CEP 40110-110, Salvador, BA, Brasil. E-mail: jairsoaresjr@ yahoo.com.br. *** Professor titular na NPGA/UFBA Endereo: NPGA/UFBA Avenida Reitor Miguel Calmon, s/n Vale do Canela CEP 40110-110, Salvador, BA, Brasil. E-mail: npga@ufba.br.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1078

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

e demonstrar que o uso dessa metodologia pode gerar conhecimento til a polticas de combate pobreza. A partir de uma reflexo terico-metodolgica foi elaborado um modelo completo de KDD, aplicado na minerao de dados domiciliares coletados pelo IBGE no censo de 2000. Neste processo, o fenmeno da pobreza foi tratado com as abordagens heurstica e estatstica, resultando em uma representao multidimensional baseada nas caractersticas dos domiclios e de seus moradores. Essa abordagem permitiu a criao de uma tipologia da pobreza para a cidade de Salvador, sendo os respectivos tipos georreferenciados em seguida. Knowledge discovery in public databases: a methodological structure proposal The contemporary world experiences a considerable growth of two phenomena that motivate this article. The first is the diffusion of digital technologies and the second is the growth of the share of its population that lives in poverty. Modern society generates and stores data and information in a very large scale. This article analyzes the transformation of public data in socialy valuable knowledge through the use of KDD (knowledge discovery in databases) with two main objectives: to propose a model for use of KDD in public databases and to demonstrate that the use of this methodology can generate useful knowledge for policies related to poverty relief. A complete model of KDD was elaborated and applied in the mining of Salvadors domiciliary data collected in the Brazilian census for the year 2000. In this process, the phenomenon of poverty was treated through a heuristical and statistical approach, resulting in a multidimensional representation based upon the characteristics of the domiciles and their inhabitants. This process allowed the creation of a tipology of poverty for the city of Salvador.

1. Introduo
No final do sculo passado, a tecnologia da informao (TI) na esfera pblica deixou de ter um papel restrito ao suporte administrativo, passando a participar, tambm, em aplicaes estratgicas nas tomadas de deciso, auxiliando, por exemplo, na implementao e avaliao de polticas governamentais. O processo de globalizao, a internet e, no Brasil, a consolidao da democracia tornaram os cidados mais exigentes, ao mesmo tempo o mercado tornou-se mais competitivo e o cidado passou a demandar mais do poder pblico em defesa de seus direitos. O aumento da procura por informaes e a necessidade legal de maior transparncia nas aes do gestor pblico culminaram em uma crescente disponibilizao de informaes por parte dos principais rgos de governo na esfera federal, levando gradativamente as unidades da Federao a tambm estruturarem e disponibilizarem mais informaes sociedade.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1079

Entre os movimentos recentes da tecnologia da informao na esfera pblica, est o desenvolvimento de sistemas que permitem anlises e tomada de decises a partir de bases de dados disponibilizadas na internet. Assim, este artigo pretende:
t

propor, a partir da anlise do referencial terico que se segue, uma padronizao de procedimentos que, em seu conjunto, configure um modelo atual e simples para descoberta de conhecimento em bases de dados pblicas (DCBDp ou knowledge discovery in public databases KDDp); elaborar e georreferenciar uma tipologia de pobreza para a cidade de Salvador.

2. Referencial terico
Em geral, a gesto do conhecimento pode ser definida como o conjunto de processos para identificar o conhecimento que est presente nas pessoas e proporcionar condies adequadas para sua transferncia, utilizao e criao (Liebowitz e Beckman, 1998; Beckman, 1999). J para Davenport e Prusak (1998), a gesto do conhecimento o conjunto de atividades relacionadas com a gerao, codificao e transferncia do conhecimento. A discusso sobre o conhecimento, apesar de sua aparente modernidade, na realidade milenar. Ainda que no se possa traar um paralelo direto, h uma aparente relao da viso do primeiro grupo de autores com a linha do racionalismo de Plato, enquanto a conceituao de Davenport e Prusak encontraria maior respaldo no empirismo de Aristteles. Davenport e Prusak (1998) afirmam que a gesto do conhecimento (GC) deve ter os seguintes objetivos: criar um repositrio de conhecimento constitudo por conhecimento externo e conhecimento interno estruturado; melhorar o acesso ao conhecimento; desenvolver um ambiente e uma cultura organizacional propcios criao, transferncia e ao uso do conhecimento e tratar o conhecimento como um recurso mensurvel. A literatura apresenta diversas outras definies sobre gesto do conhecimento. Claramente, pode-se perceber, na atualidade, a existncia de duas correntes principais: a do suporte tecnolgico e a do comportamento. Na corrente tecnolgica parece haver um predomnio de autores com formao na rea de tecnologia da informao. Eles enfocam mais os conceitos de armazenamento, reaproveitamento e descoberta do conhecimento em detrimento de uma abordagem mais comportamental relacionada ao elemento humano adotada no segundo grupo. Assim, parece, novamente, ser possvel perceber maiores relaes do primeiro grupo o da TI com o empirismo (de Aris-

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1080

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

tteles na antigidade e Davenport e Prusak na atualidade), enquanto, por outro lado, a corrente do comportamento encontraria maior suporte no racionalismo de Plato (na antigidade) e em autores contemporneos (Liebowitz e Beckman, 1998; Beckman, 1999). Nonaka e Takeuchi (1997), talvez os mais importantes autores da GC na atualidade, classificam o conhecimento humano em dois tipos: o conhecimento explcito, que pode ser articulado na linguagem formal, inclusive em afirmaes gramaticais, expresses matemticas, especificaes e manuais, entre outros, e o conhecimento tcito, mais difcil de ser expresso na linguagem formal. Esta segunda corrente, identificada por Nonaka e Takeuchi, claramente melhor se coaduna com a corrente racionalista do pensamento grego e, dentro desta, na abordagem do comportamento com os trabalhos, por exemplo, de Liebowitz e Beckman. Com base na discusso apresentada, pode-se classificar o presente artigo na linha de pensamento do empirismo de Aristteles e da tecnologia de Davenport e Prusak. Em um esforo para tornar ainda mais clara a insero da presente pesquisa no vasto campo da GC, considerou-se o trabalho de ODell e Grayson Jr. (2000). Estes autores dividem a aplicao das ferramentas de tecnologia na gesto do conhecimento em duas subclasses: transmisso e troca de conhecimento e anlise de dados e suporte ao desempenho. Considerando-se as duas subclasses de ODell e Grayson Jr., este artigo tem foco no segundo grupo, mais especificamente em explorao de dados, suporte deciso e anlise de dados, que tido por esses autores o territrio inexplorado da gesto do conhecimento (ODell e Grayson Jr., 2000:124).

Sistemas de informao
De acordo com Laudon e Laudon (1994), o estudo de sistemas de informao (SI) constitui um campo multidisciplinar. Este novo campo lida com questes e reflexes derivadas de disciplinas como sociologia, economia e psicologia, no comportamento, e disciplinas como cincias da computao, pesquisa operacional e cincias da administrao, nas abordagens tcnicas. O conceito de sistemas de informao (SI) tem evoludo substancialmente, fugindo de uma viso puramente tcnica para uma viso social, mesmo que a palavra social ainda tenha um sentido vago na cincia da computao (Ivanov, 1998). importante lembrar, tambm, que esta evoluo e as orientaes de pesquisa se diferenciam significativamente de um pas para outro, e de uma escola de pensamento para outra, no havendo, portanto, um paradigma universal de pesquisa em informtica social.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1081

Mltiplas perspectivas contribuem para a formao do conceito de informtica social como rea de estudo dos diferentes aspectos sociais das atividades computadorizadas nas organizaes. Para Friedman e Kahan Jr. (1999), as preocupaes ticas e sociais devem ser partes integrantes do desenvolvimento de sistemas de computadores. Portanto, se a tecnologia da informao tem um grande potencial para alterar nossas vidas, o desenvolvimento da informtica social uma oportunidade que no podemos simplesmente ignorar (Schuler, 1994).

Sistema de apoio deciso


O avano tecnolgico propiciou a reduo dos custos e a difuso dos computadores. Conseqentemente, houve um aumento da capacidade de coleta e armazenamento de dados no ocorrendo um aumento simultneo e equivalente na capacidade de utilizar esses dados. Em meio a essa dinmica, cresceu a demanda por diferentes sistemas de informao para apoiar a tomada de decises, surgindo assim os chamados sistemas de suporte deciso (SSDs), aqui denominados sistemas de apoio deciso (SADs). As definies de SSD e SAD podem ser reunidas em dois extremos conceituais: o de escopo mais amplo, onde os SADs [...] so aqueles que contribuem de alguma forma para a tomada de deciso, e o de interpretao mais restrita, pelo qual, SADs so sistemas baseados em computador, interativos, que auxiliam gerentes na utilizao de dados atravs de modelos para resolver problemas no-estruturados (Sprague e Watson, 1991:78). A definio de SAD adotada neste artigo : sistemas que utilizam TI para tratar dados ou informaes pouco estruturadas, de forma sistemtica, visando transform-las em conhecimento ou informaes mais estruturadas destinadas a apoiar a tomada de decises. Dhar e Stein (1997 segundo Laudon e Laudon, 1994) reconhecem dois tipos bsicos de SAD, o primeiro, chamado de SAD guiado por modelo , caracteriza os sistemas desenvolvidos de maneira isolada dos principais sistemas de informao da organizao. Esses sistemas so baseados numa forte teoria ou modelo que se combina com uma boa interface, facilitando a execuo pelo decisor por simulaes e outros tipos de anlises. J o segundo tipo de SAD, o guiado por dados, mais recente e voltado para a extrao de informaes teis previamente desconhecidas independentemente da existncia de um modelo prvio. Neste grupo, podem ser encontradas ferramentas como Olap e data mining.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1082

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

Caractersticas dos sistemas de apoio deciso


Apesar de haver grande concordncia entre as definies adotadas neste artigo e os conceitos mais amplamente utilizados na literatura de sistemas de informao, propese aqui uma abordagem distinta daquela feita por alguns importantes autores. Por exemplo, para Damiani (1998), os sistemas de informao podem ser divididos em trs categorias bsicas: de apoio gesto estratgica, de apoio gesto ttica e de apoio deciso de nvel operacional. Segundo este autor, a aplicao de SAD ocorre apenas no nvel ttico. Diferentemente do que preconiza Damiani e de acordo com a definio aqui adotada, entende-se que tambm o nvel estratgico, e no apenas o ttico, requer sistemas de apoio deciso. Outra distino entre a abordagem de Damiani e a aqui adotada a clara dicotomia entre os trs nveis de gesto assumida pelo referido autor. Tal dicotomia parece, hoje, um tanto quanto extempornea, j que no paradigma da administrao estratgica (no qual se insere o presente artigo) se pressupe que mesmo a gesto operacional deve ser vinculada e sincrnica s grandes estratgias organizacionais. Com base nas definies acima, optou-se, neste artigo, por uma perspectiva sistmica, a qual engloba todo o processo de descoberta de conhecimento til em bases de dados. Visando oferecer uma melhor percepo dos principais conceitos relacionados a este artigo, procurou-se identificar a relao existente entre: gesto do conhecimento; sistema de informao; sistema de apoio deciso; descoberta de conhecimento em base de dados e data mining . Essas relaes so ilustradas na figura 1. Conforme foi definido anteriormente, a corrente do suporte tecnolgico na gesto do conhecimento pode utilizar os sistemas de informao que, por seu turno, possuem um tipo mais especfico que o SAD. Esse tipo de sistema incorpora ferramentas analticas avanadas, possibilitando simulaes e elaborao de cenrios. Assim, os SADs envolvem, mas no limitam, o processo de KDD, metodologia que, por sua vez, utiliza o data mining (DM) como uma de suas ferramentas ou tcnicas. Observa-se, por fim, que o data mining pode ser utilizado em processos outros que no o KDD, no estando portanto por ele limitado, conforme mostra a figura 1.

Figura 1

Gesto do conhecimento, sistemas de informao, sistemas de apoio deciso, knowledge discovery

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1083

in databases , data mining e suas interfaces

Fonte: Adaptado de Quintella e Soares Jr. (2003:10).

3. Descoberta de conhecimento em bancos de dados


O crescimento rpido do volume e da dimenso das bases de dados criou a necessidade e a oportunidade de se extrair sistematicamente o conhecimento nelas contido e de se produzir novos conhecimentos. Neste contexto, surge, no final da dcada de 1980, um novo ramo da computao, a descoberta de conhecimento em bases de dados (DCBD), com o objetivo principal de encontrar uma maneira estruturada de, com o uso da TI, explorar essas bases de dados e reconhecer os padres existentes pela modelagem de fenmenos do mundo real (Fayyad et al., 1996). O KDD engloba, portanto, as etapas que produzem conhecimentos a partir de dados relacionados e sua principal caracterstica a extrao no-trivial de informaes e conhecimentos implicitamente contidos em uma base de dados. Essas informaes e conhecimentos so, usualmente, de difcil deteco por mtodos tradicionais de anlise, sendo tambm tpica e potencialmente teis na tomada de decises (Frawley, Piatetsky-Schapiro e Matheus, 1992; Fayyad et al., 1996). Assim, enquanto os mtodos tradicionais so capazes de tratar apenas as informaes explcitas, o KDD capaz de detectar informaes armazenadas nas bases de dados, transformando-as em conhecimento. O processo de KDD iterativo e, embora apresente uma definio semelhante tambm ao DM, deve ser composto de uma srie de etapas seqenciais, podendo haver retorno a etapas anteriores, isto , s descobertas realizadas (ou falta delas). Esse

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1084

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

processo conduz, eventualmente, a novas hipteses e descobertas. Neste caso, o usurio pode decidir pela retomada dos processos de DM ou uma nova seleo de atributos, por exemplo, para validar as hipteses que tenham surgido ao longo do processo.

Funcionamento do KDD
O processo do KDD, diferentemente do data mining, exige trs atores de distintas habilidades: o usurio, o especialista do domnio e o analista de dados. O usurio o demandante do trabalho, que ir potencialmente desfrutar os resultados obtidos. O especialista do domnio quem conhece o tema que ser estudado, normalmente um pesquisador ou profissional com larga experincia. O analista de dados, por sua vez, quem deve executar o processo de verificao (tese) ou anulao das hipteses (anttese) criadas pelo especialista do domnio (eventualmente em conjunto com o usurio), que, por sua vez, ir entrar no ciclo de reformular as hipteses (sntese) para que sejam novamente testadas, seguindo uma trajetria em espiral rumo finalizao do processo. Observa-se que na abordagem de Inmon, Terdeman e Imhoff (2001) no h distino formal entre usurio e especialista do domnio.

Etapas da descoberta de conhecimento em bancos de dados


O KDD composto por um conjunto de etapas que, em geral, podem ser reunidas em trs fases: preparao, anlise e interpretao (Adriaans e Zantige, 1996; Brachman e Anand, 1996; Fayyad et al., 1996; Han e Kamber, 2000). Todas essas fases so crticas, sendo usualmente a fase de anlise a mais complexa. Ela compreende, entre outras, a etapa de minerao de dados, que tem como objetivo encontrar padres nos dados armazenados. Esta etapa freqentemente confundida na literatura com o prprio processo de KDD (Han e Kamber, 2000). O primeiro registro descritivo dos processos de KDD data de 1996 no artigo intitulado The KDD process for extracting useful knowledge from volumes of data, de autoria dos pesquisadores Usama Fayyad, Gregory Piatetsky-Shapiro e Padhraic Smyth do Massachusetts Institute of Technology (MIT). Ele demonstra a preocupao dos autores em sistematizar as etapas do processo KDD, j que, segundo eles: A maioria dos trabalhos anteriores sobre o tema dava nfase etapa de data mining . No entanto, os outros passos so igualmente, se no mais, importantes para o sucesso da aplicao de KDD na prtica. Em um outro importante trabalho sobre o tema, Han e Kamber (2000) alertam para a importncia de um data warehouse previamente concebido. Esses autores apresentam o processo KDD dividindo-o em sete etapas: limpeza dos dados;

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1085

integrao; seleo dos dados; transformao; data mining; avaliao de padres e disseminao do conhecimento. Adriaans e Zantige (1996) se diferenciam dos demais autores apresentados por evidenciarem a necessidade de um dinamismo para o processo, pois, segundo eles, em qualquer etapa os dados podem ser includos, alterados ou descartados. Por outro lado, somente depois de selecionados os dados que os autores propem o incio da etapa de codificao, com o objetivo de format-los e recodific-los de forma a atender s exigncias dos algoritmos da etapa seguinte, o data mining. Para eles nesta etapa, com uso intensivo de recursos computacionais, que efetivamente se extrai o conhecimento. Estes autores afirmam que 80% do conhecimento so extrados com uma anlise menos trivial por consultas ad hoc com o uso de ferramentas SQL, s ento se devendo utilizar tcnicas mais avanadas. Entre as abordagens revisadas na literatura, Amaral (2001) apresenta uma das mais simplificadas. O autor procura descrever e agrupar todo processo em duas fases principais. A primeira delas envolveria a preparao dos dados e a segunda, a minerao propriamente dita. Durante este processo, cada resultado encontrado seria registrado em relatrios de descobertas e, com o auxlio de tcnicas de visualizao, os analistas de minerao procurariam interpretar as informaes para, s ento, obter o conhecimento. Vale ainda ressaltar a contribuio de Reinartz (1999). O autor, em seu trabalho, evidencia a importncia de documentar a experincia adquirida durante todo o processo. Na literatura brasileira da rea, o que se observa uma quase total ausncia de trabalhos com abordagem de KDD. Praticamente, toda a pesquisa nacional tem sido desenvolvida com enfoque em minerao de dados e business inteligence. Uma exceo o trabalho em que Quintella e Soares Jr. (2003:89) descrevem o KDD de forma muito simplificada como o processo no-trivial para gerao de conhecimento a partir da busca sistemtica de padres em grandes volumes de dados. Tal definio confunde-se com o entendimento geral do que o data mining, assunto tratado a seguir.

Minerao de dados data mining


Como j mencionado, o data mining tratado como uma das etapas da descoberta de conhecimento em bases de dados. Reconhece-se, no entanto, que nem todo processo de DM conduzido em um contexto de KDD. Segundo Cabena e colaboradores (1998:36), data mining a tcnica de extrair informao, previamente desconhecida e de mxima abrangncia a partir de bases de dados, para us-la na tomada de deciso. Han e Kamber (2000:8), por sua

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1086

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

vez, conceituam a tcnica de forma mais detalhada e coincidentemente mais alinhada com os objetivos deste artigo. Para eles, data minning uma etapa na descoberta do conhecimento em bancos de dados que consiste no processo de analisar grandes volumes de dados sob diferentes perspectivas, a fim de descobrir informaes teis que normalmente no esto sendo visveis. Por outro lado, de acordo com Harrison (1998), o data mining contempla a explorao e a anlise, por meios analticos ou semi-analticos, de grandes quantidades de dados para descobrir modelos e regras significativas, conceito semelhante ao utilizado por Frawley, PiatetskySchapiro e Matheus (1992:214). Uma vez apresentados diferentes definies e conceitos, discute-se, a seguir, as tcnicas de operacionalizao do DM e suas inter-relaes.

Tcnicas e funes do data mining


As tcnicas empregadas em DM podem ser divididas em dois grandes grupos: heursticas e matemticas. Entre as heursticas, as redes neuronais artificiais so as que mais se destacam, seguidas da inteligncia artificial simbolista. Dentro do grupo da matemtica, por sua vez, destacam-se a anlise estatstica e a modelagem matemtica. Os algoritmos de DM mais empregados so comumente divididos em cinco funes: classificao; regresso; associao e modelos de dependncia e anlise de seqncia; clustering; e sumarizao. Estas funes so descritas resumidamente a seguir.

C LASSIFICAO Para Carvalho (2001) a classificao uma das funes mais utilizadas no DM, simplesmente porque uma das tarefas cognitivas humanas mais utilizadas na busca da compreenso do ambiente em que vivemos. Ela pressupe caractersticas que definem grupos especficos e associa ou classifica um item em uma ou vrias classes predefinidas (Fayyad et al., 1996). Os algoritmos clssicos empregados na funo classificao baseiam-se em rvores de deciso, regras de deciso e anlise discriminante, recomendada para identificar as variveis (explicativas) que melhor discriminam grupos previamente identificados (variveis explicadas). A maioria desses algoritmos utiliza a funo discriminante de Fischer para dois ou mais grupos.

R EGRESSO

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1087

A funo regresso similar classificao, diferencia-se desta por objetivar a predio de um valor real em vez de um atributo nominal ou uma categoria. Com a popularizao do computador, os cientistas sociais passaram a utilizar tcnicas de regresso at ento impossveis de serem operacionalizadas (Inmon, Terdeman e Imhoff, 2001). Atualmente, as ferramentas de anlise de regresso so encontradas nos diversos nveis de plataformas de computao, at mesmo no popular MSExcel. Existem, no entanto, outros modelos de regresso mais complexos, envolvendo maior nmero de variveis explicativas e relacionamentos no-lineares, e entre eles destacam-se a regresso mltipla1 (RLM), probito e a regresso no-linear.

ASSOCIAO Identifica relaes significativas existentes entre os eventos ocorridos em determinada ocasio (relaes entre campos de um banco de dados) baseada em modelos de dependncia. Esses modelos procuram descrever dependncias significantes entre variveis (Agrawal, 1995), podendo ser divididos em dois nveis: o estrutural e o quantitativo. Nos modelos de dependncia estruturais, so especificadas as variveis localmente dependentes umas das outras, enquanto nos modelos de dependncia quantitativos so utilizadas escalas numricas para determinar as foras das dependncias entre as variveis. Cabena e colaboradores (1998) descrevem a funo associao como o processo de interconexo de objetos, na tentativa de expor caractersticas e tendncias. Os principais mtodos so regras de associao e caracterstica seqencial.2

A regresso mltipla o mtodo de anlise mais apropriado quando o problema de pesquisa envolve mais de duas variveis. Na anlise de regresso clssica, h uma nica varivel dependente e mltiplas variveis de predio (independentes). Quando se procura mensurar a probabilidade de ocorrncia dos resultados entre uma varivel resposta (explicada) do tipo dicotmica e as variveis explicativas so categricas ou contnuas, utilizada a regresso logstica ou modelo logstico. No jargo estatstico, os modelos de predio com classificao e com regresso so chamados, respectivamente, rvore de classificao e rvore de regresso. Para as rvores de regresso devem ser considerados os aspectos relacionados ao ajuste do modelo e sua verificao, bem como a seleo de variveis explicativas que faro parte do modelo. 2 Uma regra de associao possui como grande vantagem sua simplicidade. Diferentemente da tcnica caracterstica seqencial, exige um grande nmero de registros para assegurar a representatividade dos resultados. Da mesma forma, procura determinar a freqncia de combinao de cada transao que pode ser produzida nas seqncias de registros. Por fim, a anlise de seqncia procura identificar desvios e tendncias no tempo. Tem comportamento semelhante associao, diferenciando-se apenas pelo fato de que a relao existe durante um dado perodo de tempo.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1088

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

C LUSTERING OU AGRUPAMENTO Diferentemente da classificao, em que os grupos so predefinidos, os clusters so definidos por agrupamentos dos dados baseados em medidas de semelhana ou modelos de densidade de probabilidade. Os grupos so sugeridos pelos dados, e no predefinidos. A fase de clustering ou agrupamento tambm chamada de anlise de classificao, taxonomia numrica ou anlise Q (Malhotra, 2001). A funo clustering freqentemente est presente tambm nas primeiras fases da minerao de dados, com o intuito de reunir os registros em grupos com caractersticas em comum para serem utilizados nas fases seguintes. Procura identificar, baseada em modelos probabilsticos ou em medidas de similaridade, grupos (clusters ) que compartilham de uma caracterstica especfica. O objetivo da funo agrupamento classificar, com base em um conjunto de variveis considerado, os indivduos pertencentes a uma populao em subconjuntos (clusters) relativamente homogneos. Os principais algoritmos utilizados nessa funo j so antigos na estatstica, mas s foram disseminados aps a difuso dos computadores. Entre os vrios algoritmos usados na funo clustering, merecem destaque aqueles baseados na teoria de conjuntos nebulosos, particularmente apropriados para este fim: o fuzzy c-means , o extended fuzzy c-means e o algoritmo de agrupamento participativo (Silva, 2003).

SUMARIZAO Engloba a organizao e o resumo dos dados. utilizada em uma fase preliminar aos demais modelos ou funes. Visa, principalmente, orientar e motivar anlises posteriores mais complexas. Pode ser relacionada estatstica, mais especificamente, anlise exploratria de dados ou estatstica descritiva. Principalmente nos processos de DM, a sumarizao utiliza as funes complementares de caracterizao e visualizao para observar a presena de alguma caracterstica estrutural nos dados. A visualizao um poderoso recurso de anlise de dados, sendo muitas vezes suficiente para obter as respostas necessrias. J a caracterizao permite a generalizao de qualidades relevantes dos dados atravs de anlises quantitativas que propiciam descries compactas. Como um exerccio da aplicao do KDD, elegeu-se neste artigo a temtica referente mensurao e distribuio da pobreza na cidade de Salvador, utilizandose os dados do Censo Demogrfico do ano 2000. A possibilidade de conhecer o comportamento deste fenmeno e visualizar sua distribuio espacial com o uso de ferramentas de geoprocessamento torna este estudo bastante desafiador.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1089

4. Pobreza e desigualdade social: conceitos e mensurao


Nesta parte do artigo, buscou-se fazer um breve levantamento acerca de algumas questes que envolvem os conceitos e as formas de mensurao da pobreza, sem pretenso de abarcar, muito menos esgotar a discusso. O propsito desta seo apenas o de subsidiar o entendimento do tema utilizado neste artigo, como exemplo de aplicao dos processos e sistemas de KDD em bases de dados pblicas.

A pobreza no Brasil
O elevado grau de pobreza da populao brasileira remonta aos primrdios de sua formao histrica, tendo se mantido presente ao longo do tempo, resistindo ao crescimento da economia e aparente ampliao das polticas sociais (Schwartzman, 1996). Por outro lado, apesar de no ser novo, o tema vem ganhando importncia e visibilidade nos ltimos anos. Esta afirmao pode ser ilustrada pelo exemplo de polticas pblicas como o Comunidade Solidria e, mais recentemente, o Programa Fome Zero. Devido complexidade do problema, a tentativa de mensurao ou de apreenso de situaes de pobreza no uma tarefa fcil. Diversas questes conceituais e metodolgicas se interpem no percurso daqueles que se propem a estudar tal questo (Lima, 2004). O termo pobreza encontra a sua origem no adjetivo pauper-eris. Sua interpretao tem sofrido variaes ao longo dos anos. Atualmente, a compreenso mais comum sobre o conceito de pobreza associada falta de renda e ao estado de privao e incapacidade de mobilizar esforos para satisfazer s necessidades bsicas do cidado (Sen, 1992). Ainda no sculo XIX autores ingleses (Booth, 1889, 1892; e Rowntree, 1901, segundo Ciaris, 2003) estabeleceram valores mnimos para a questo alimentar humana, em uma abordagem biofisiolgica do fenmeno por eles atribudo ao carter desigual da propriedade dos meios de produo e distribuio de riquezas. Recentemente esta viso j no to amplamente aceita. Por exemplo, na abordagem de Max-Neef, Elizalde e Hopenhayn (1996) pobres so aqueles que no tm atendidas suas necessidades existenciais nas esferas do ser, ter, fazer e interagir, alm de suas necessidades axiolgicas de subsistncia, liberdade, identidade, participao, cio, proteo e afeto. Em funo da complexidade da temtica, consenso que seja difcil mensurar a pobreza. Neste artigo foi adotado um conceito de carter operacional para a medio do fenmeno, definido como a privao do indivduo ao acesso ao bemestar. De forma sincrnica a essa definio, o fenmeno ser analisado neste artigo

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1090

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

a partir de uma proxy da renda e de indicadores socioeconmicos selecionados, reunindo assim elementos de diferentes correntes de pensamento e aliando-se ao enfoque usado por Sen (1992). Entre outros objetivos, este artigo pretende, atravs do KDD, mensurar a pobreza a partir de bases de dados pblicas. Para isso, ser utilizado um conjunto de indicadores diretos de pobreza e uma srie de fatores que, presumivelmente, tm um impacto (mesmo que indireto) sobre a situao de privao. Ambos sero descritos e discutidos na seo relativa s escolhas metodolgicas a seguir.

5. Procedimentos metodolgicos
O objeto do estudo aqui descrito a descoberta de conhecimento em bases de dados, mais especificamente em bases de dados pblicas (DCBDp), tendo como recorte sua aplicao ao estudo da pobreza na cidade de Salvador. Este recorte foi escolhido por ser foco de ateno cada vez maior por parte dos governos, organizaes no-governamentais nacionais e internacionais e, naturalmente, institutos de pesquisa e estatstica. J o recorte geogrfico pode ser justificado por tratar-se da terceira maior regio metropolitana do pas, simultnea e paradoxalmente uma das mais pobres. Observase ainda que no h literatura suficiente (nem em qualidade nem em quantidade) tratando de aplicaes de KDD na rea pblica no Brasil. Nos poucos trabalhos existentes, observa-se a falta de uma estruturao especfica de fases do processo KDD para bases de dados pblicas. So apresentadas, a seguir, as opes feitas neste artigo em termos de estrutura, mtodos e tcnicas de pesquisa apropriados ao contexto do trabalho.

Etapas do KDD
A bibliografia descreve diversas abordagens para o KDD, algumas delas com um encadeamento linear e sucessivo das fases, procedimento este que nesta pesquisa no foi possvel, j que as fases aconteceram muitas vezes de maneira simultnea ou, em alguns casos, fora da ordem proposta pelos principais autores. Dessa forma, para esse estudo, optou-se por um modelo hbrido derivado das semelhanas e diferenas observadas nas propostas encontradas na literatura e na experincia dos autores deste trabalho. Aqui so descritas as duas fases principais, prospeco e minerao de dados, empregadas durante realizao da pesquisa que originou o presente artigo (figura 2).

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1091

Conforme pode ser visto na figura, as etapas identificadas para a fase de prospeco foram respectivamente: identificao de objetivos; levantamento (identificao e classificao das fontes existentes e definio do modelo de anlise); reunio; seleo e criao das bases de dados; consistncia (limpeza ou eliminao de rudo e enriquecimento) das bases de dados e compatibilizao das bases de dados. A fase de minerao compreende as etapas: transformao dos dados; funo; tcnicas e algoritmos e avaliao dos resultados. Comungando com o pensamento de Reinartz (1999) foi feita a documentao de todo o processo, porm, com o objetivo de tornar a leitura mais agradvel, optouse por apresentar neste artigo apenas uma sntese dos principais procedimentos adotados em cada etapa.

Figura 2

Fases e etapas em um processo de descoberta de conhecimento em bases de dados pblicas (DCBDp)

Objetivo Levantamento
Identificao Classificao Modelo de anlise

Transformao Funo
Sumarizao Caracterizao Vizualizao Classificao Associao Regresso Clustering

Reunio Seleo Criao Consistncia


Limpeza Enriquecimento

Tcnicas e algoritmos
Heursticas Matemticas

Compatibilizao

Avaliao dos resultados

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1092
Prospeco

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

Em um processo de descoberta de conhecimento em bases de dados, a fase de prospeco inicialmente destina-se delimitao das perguntas de pesquisa, definio dos objetivos, organizao da equipe de trabalho e planejamento das atividades a serem executadas.

O BJETIVOS No contexto deste artigo, o emprego do KDD tem como objetivos: propor um modelo de mensurao para o fenmeno pobreza; delimitar e estruturar uma base de dados de porte e relevncia social para uso do KDD para fins do estudo da pobreza na cidade de Salvador; formular uma tipologia de pobreza e mapear a distribuio da pobreza na cidade de Salvador.
Prospeco Minerao

L EVANTAMENTO Nesta etapa foi feita a identificao e classificao das principais fontes de informao pblicas visando identificar bases de dados com capacidade para suprir as necessidades da pesquisa. A identificao das bases de dados disponveis, que se enquadram no recorte proposto neste artigo, no foi tarefa das mais difceis, j que no Brasil apenas o Instituto Brasileiro de Geografia e Estatstica (IBGE) dispe de dados com as caractersticas e recortes desejados. Assim, para consecuo dos objetivos desta pesquisa foi utilizado o arquivo Agregado de Setores Censitrios 2000 (ASC2000), disponibilizado pelo IBGE no site <www.ibge.gov.br>. No arquivo ASC2000, os dados esto agrupados por unidades da Federao totalizando 215.811 setores censitrios para todo territrio nacional, 15.342 setores para a Bahia e 2.523 setores para a cidade de Salvador. A base de dados analisada , portanto, relevante, pois, alm de ser oficial e pblica, abrange informaes de todas as pessoas residentes e seus domiclios na cidade de Salvador no ano de realizao do ltimo censo. Para finalizar a etapa de levantamento preciso definir o modelo de anlise e seus respectivos indicadores. A partir dessa estruturao, buscou-se medir, com um nico indicador, um fenmeno de carter multidimensional a pobreza, elegendo-se para isso dimenses focadas nas caractersticas dos domiclios, de seus responsveis e de seus residentes. As razes para esta opo sero descritas a seguir.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1093

Para elaborar a tipologia da pobreza para os setores censitrios e atender ao modelo de anlise, foram selecionados 12 indicadores de privao relativos s caractersticas bsicas dos domiclios e de seus moradores. Em sintonia com o que preconizado na literatura (Sen, 1992; Rocha, 2000 e 2001; Jarman 1983 segundo Lacerda, Calvo e Freitas, 2002; Lopes, 2003; Townsend, 1993), os indicadores de pobreza e desigualdade social foram selecionados a partir das piores condies identificadas nas variveis existentes no rol disponibilizado pela base ASC2000. A escolha desse conjunto de indicadores considerou alguns critrios pragmticos defendidos por Tironi e colaboradores (1991), Quintella e Soares Jr. (2003), Jannuzzi (2001) e Trzesniak (1998). Entre os principais critrios observados destacam-se: relevncia, gradao de intensidade, univocidade, padronizao, rastreabilidade, estabilidade, representatividade e simplicidade. Para operacionalizao do modelo de anlise proposto foram construdos indicadores correspondentes s dimenses de anlise detalhadas a seguir. Domiclio. A dimenso domiclio composta pelos indicadores abastecimento de gua (1), esgotamento sanitrio (2), destino do lixo (3) e moradia ( 4). A escolha dos trs primeiros indicadores justificada pelas prticas da Organizao Internacional do Trabalho (OIT) e da Organizao das Naes Unidas (ONU) que consideram, entre outros, gua, esgotamento sanitrio e coleta de lixo como necessidades mnimas de uma famlia (Lopes, 2003). J o quarto indicador (moradia) visa identificar os setores censitrios com maior nmero de pessoas por domiclio, o que, em princpio, sugere um maior compartilhamento dos recursos (Merrick, 2002). Pessoa responsvel. Para representar esta dimenso foram selecionados os dados referentes aos moradores em domiclio particular permanente, em funo da relao existente entre cada pessoa e o responsvel pelo domiclio. A dimenso composta pelos indicadores instruo ( 5 e 6) e renda do responsvel ( 7; 8; 9 e 10 ). O indicador instruo oferece a possibilidade de identificar maiores concentraes de famlias cerceadas do acesso educao. Segundo Lopes (2003), entre vrios outros autores, a educao um bem imprescindvel para que os indivduos possam levar vidas saudveis e ter chances de insero na sociedade. A renda do responsvel, por sua vez, , entre os indicadores que integram o modelo de mensurao da pobreza aqui proposto, o mais universalmente aceito, sendo selecionado com o objetivo de identificar a concentrao da populao carente, pois, segundo Rocha (2003), em sociedades modernas urbanizadas, boa parte do bem-estar est associada renda de que as pessoas dispem para ter acesso a bens e servios adquiridos no mercado. Diversos estudos, a exemplo de Schwartzman (1996), Torres e colaboradores (2003) e outros, sinalizam para a correlao entre a pobreza e famlias chefiadas por

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1094

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

mulheres. A opo de distinguir os responsveis do sexo feminino (9; 10 ) tambm pode ser justificada pela observao de que, famlias chefiadas por mulheres com baixa escolaridade apresentam altas correlaes com renda familiar baixa e presena de apenas um provedor adulto (Torres et al., 2003:24). Pessoas residentes . Mingione (1999), fundamentado em inmeras pesquisas, relaciona o aumento da freqncia de crianas nas famlias situao de pobreza. Em sintonia com esta constatao a terceira e ltima dimenso do modelo proposto composta pelos indicadores: alta incidncia de crianas com idade at seis anos no domiclio ( 11). Por outro lado, como j mencionado, notrio que a ausncia da educao possui forte associao com a pobreza. Assim sendo, o outro indicador que compe esta dimenso a elevada proporo de pessoas residentes no-alfabetizadas com mais de 10 anos ( 12). Uma vez estabelecidos os objetivos, feita a identificao e classificao das fontes, definido o modelo de anlise a ser utilizado com suas respectivas dimenses, selecionados, avaliados e justificados os indicadores, deu-se incio criao da base de dados efetiva jazida de dados 3 que serviu ao processo KDD. A partir deste ponto, os dados das fontes selecionadas foram trabalhados com o objetivo de estruturar a jazida de dados para atender fase da minerao de dados.

R EUNIO , SELEO E CRIAO O emprego do KDD pressupe que sero trabalhadas bases de dados j existentes (dados secundrios), freqentemente essas bases so provenientes da agregao de outras bases de dados.4 Antes da etapa de reunio, normalmente os registros e as variveis de interesse para o estudo esto dispersos em vrios arquivos e em diferentes formatos, no caso desta pesquisa a base de dados ASC2000 utilizada estava estruturada em matrizes sob a forma de planilhas agrupadas por unidades da Federao e subdivididas em quatro pastas: domiclio; pessoas caractersticas gerais; pessoas instruo e responsvel pelo domiclio.

A denominao alternativa para base de dados adotada neste texto (jazida de dados) origina-se da mesma metfora tradicionalmente adotada pelos usurios da minerao de dados, ou seja, o forte paralelismo existente entre as atividades de quem busca conhecimento em bases de dados e daqueles que buscam por minrios em bases territoriais. 4 Eventualmente podem ser, tambm, usados dados primrios agregando-os s bases preexistentes para o emprego do KDD.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1095

Para efeito de processamento do KDD, na etapa de seleo foram apurados os dados referentes apenas ao municpio de Salvador. Em seguida, foram excludos 21 setores censitrios5 considerados reas no-urbanas. Visando uma melhor aproximao do fenmeno, optou-se por trabalhar apenas com os domiclios particulares permanentes construdos para servir exclusivamente habitao. Foram excludos da base de dados os domiclios particulares improvisados6 e coletivos.7 A populao da pesquisa, portanto, foi constituda de todos os setores comuns ou no-especiais e seus respectivos domiclios e moradores residentes na rea urbanizada da cidade de Salvador em 1 de agosto de 2000. Por fim, o emprego da etapa de criao possibilitou a elaborao de um arquivo em formato compatvel com o conjunto de softwares empregados. Este procedimento de manter apenas um arquivo, em um nico formato, com todos os dados que foram trabalhados, favoreceu significativamente as etapas seguintes, tanto em relao performance quanto praticidade das operaes subseqentes. A partir do subset de dados oriundos das fases de reunio, seleo e criao, deu-se incio fase de consistncia com dados de todos os domiclios de Salvador, totalizando 2.502 setores censitrios. A base de dados resultante foi composta por 103 variveis, das 527 disponveis nos quatro arquivos originais.

CONSISTNCIA A principal vantagem de se trabalhar com bases de dados provenientes de estatsticas oficiais decorre do fato de que estas, usualmente, passaram previamente por um processo de consistncia. Como na presente pesquisa utilizou-se de dados procedentes do IBGE, as subetapas de limpeza ou eliminao de rudo j haviam sido executadas, tornando-se necessria apenas uma rpida verificao para tratar os registros incompletos. As-

5 reas

no-urbanizadas de cidade; reas urbanas isoladas; aglomerados rurais de extenso urbana; aglomerados rurais isolados tais como zonas rurais existentes em algumas ilhas pertencentes ao municpio. 6 Para o IBGE o domiclio particular improvisado foi aquele localizado em unidade no-residencial que no tinha dependncias destinadas exclusivamente moradia, mas que, na data de referncia, estava ocupado por morador. So enquadrados nesta definio as lojas, fbricas, os prdios em construo, vages de trem, carroas, tendas, barracas, grutas etc. 7 O domiclio coletivo caracterizado quando a relao entre as pessoas que nele habitavam restrita a normas de subordinao administrativa. Ficam includos nesta definio os hotis, penses, presdios, cadeias, penitencirias, quartis, postos militares, asilos, orfanatos, conventos, hospitais e clnicas (com internao), alojamento de trabalhadores, motis, campings etc.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1096

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

sim como, em funo da inexistncia de outra base de dados com a abrangncia e nvel de detalhe (granularidade) dos dados utilizados, tambm no foi possvel realizar a etapa de enriquecimento.

C OMPATIBILIZAO A fase de compatibilizao envolve a unificao das diferentes bases de dados originais j consistidas, resultando na jazida de dados. Nas abordagens tradicionais de KDD, a fase de compatibilizao poderia tambm resultar no data warehouse. Aps a etapa de compatibilizao, a jazida de dados passa a ter o formato requerido para as transformaes sintticas e semnticas que compem o incio da minerao de dados.

Minerao
Aps o desenlace do processo de prospeco, d-se incio minerao de dados. Observa-se aqui que este segundo processo mais complexo que o primeiro, embora, paradoxalmente, seja o que exige menor tempo para sua execuo. No KDD, assim como na pesquisa mineral, freqentemente dedica-se mais tempo delimitao da jazida que sua explotao. No decorrer da minerao de dados realizada durante esta pesquisa, foram executadas as tarefas de transformao dos dados; escolha da funo de minerao; tcnica e algoritmo de busca e avaliao dos resultados.

T RANSFORMAO Durante esta etapa a jazida de dados sofre uma transformao sinttica e semntica. A transformao sinttica aquela que no altera o significado dos dados, visa apenas atender os requisitos das ferramentas de minerao utilizadas nas etapas subseqentes. J a transformao semntica busca atender, com o clculo de indicadores, o modelo de anlise previamente definido.

FUNES E ALGORITMOS

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1097

Aps todo o trabalho de prospeco e de posse da jazida de dados transformada, d-se incio escolha da funo ou conjunto de funes, no caso desta pesquisa, sumarizao, associao, regresso e clustering. A seleo da funo determina a maneira como feita a busca por reconhecimento de padres e relacionamentos complexos, o sucesso desta seleo, para Diniz e Louzada Neto (2000:28), est diretamente ligado experincia e intuio do analista. Neste artigo, o conjunto de funes selecionadas para esta etapa foi:
t

anlise preliminar dos dados pela sumarizao; clculo da matriz de correlaes para os indicadores (variveis) selecionados pela funo associao e reduo de dimensionalidade com a anlise de componentes principais; emprego da funo regresso para obteno do ndice de pobreza para cada setor censitrio estudado; aplicao da funo cluster para posterior emprego na construo da tipologia proposta para o fenmeno da pobreza em Salvador; sumarizao e suas funes complementares: caracterizao e visualizao dos clusters encontrados na etapa anterior.

Definido o conjunto de funes e seu respectivo encadeamento, partiu-se ento para a busca do grupo de tcnicas e algoritmos mais apropriados para cada funo. Nesta pesquisa optou-se por trabalhar com algoritmos derivados da anlise estatstica. Descreve-se a seguir cada uma dessas etapas.

SUMARIZAO Foi aplicada em dois momentos. No primeiro, buscou-se um estudo preliminar dos indicadores selecionados e armazenados na jazida de dados, bem como a orientao quanto escolha das tcnicas para as funes de minerao subseqentes. No segundo momento, aps as funes associao , regresso e clustering, foi possvel elaborar uma sntese dos tipos de pobreza descobertos durante o processo. Nos dois momentos foi aplicada a funo complementar caracterizao, optando-se por estatstica descritiva por mera questo de disponibilidade de software. Cabe ressaltar que tambm poderiam ser utilizadas as tcnicas de SQL tradicional ou Olap, entre outras.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1098

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

A funo complementar visualizao, por sua vez, teve maior participao no segundo momento. Este importante recurso de anlise contribuiu de forma significativa para a interpretao dos resultados. Alm dos tradicionais grficos de anlise, foram utilizados recursos de geoprocessamento, principalmente na elaborao de cartogramas da tipologia obtida. Foram construdos grficos, tabelas e cartogramas dos resultados obtidos durante e aps a concluso da etapa de cluster.

A SSOCIAO Para atender a esta funo, foi escolhido o mtodo de reduo de dimensionalidades anlise de componentes principais (ACP) para reduzir o nmero de variveis. Com a ACP foi possvel identificar um subconjunto de 12 indicadores correlacionados com pobreza nas 527 variveis dos 2.502 setores censitrios. Dessa forma, contribuindo para confirmao das dimenses selecionadas domiclio, famlia e pessoa conforme o modelo de anlise proposto na fase de levantamento do processo de prospeco.

R EGRESSO A partir dos 12 indicadores validados durante a etapa de associao foi utilizada a funo regresso para obter os escores fatoriais de cada setor censitrio, com o objetivo de construir o ndice de pobreza. A construo do ndice com a tcnica estatstica regresso possibilitou caracterizar e hierarquizar os setores censitrios segundo as dimenses de anlise da pobreza estudadas.

A GRUPAMENTO Aps a modelagem do fenmeno da pobreza obtida nas fases anteriores e de acordo com o ndice de pobreza construdo, foi aplicada a funo clustering com o objetivo de particionar os setores censitrios e reuni-los em grupos homogneos de pobreza e assim permitir formular uma tipologia do fenmeno. Conforme orienta Hair Jr. e colaboradores (1992:269), a aplicao da funo clustering foi dividida em trs diferentes estgios: particionamento, interpretao e validao. Este procedimento auxiliou na identificao dos setores censitrios pertencentes a cada uma das classes homogneas e mutuamente exclusivas de pobreza, bem como a descrever as caractersticas de cada uma delas.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1099

6. Avaliao dos resultados


Esta seo tem o objetivo de apresentar os principais resultados da aplicao do KDD nas bases de dados pblicas trabalhadas, visando identificao e mensurao da pobreza na cidade de Salvador. Assim como na etapa de avaliao de resultados do processo do KDD em sua fase de minerao, sero aqui apresentadas as funes utilizadas, bem como as respectivas verificaes de adequao das tcnicas e algoritmos empregados e os principais resultados encontrados (conhecimento descoberto). Os resultados da fase de minerao devem ser avaliados sob quatro aspectos: adequao do modelo de anlise, convenincia das funes, adequao das tcnicas e algoritmos escolhidos para process-las e principalmente os achados e descobertas de conhecimento resultantes da fase de minerao e, conseqentemente, de todo o processo de KDD. Deve-se observar que enquanto para a fase de prospeco o produto final a jazida de dados, na fase de minerao os resultados esperados podem ser representados, de maneira simplificada, como: resultado = f(a, b, c, d).

Sumarizao da base de dados


Descreve-se brevemente nesta subseo apenas a sumarizao de cunho exploratrio da jazida de dados transformada. A maior parte da funo sumarizao realizada, no entanto, deu-se na descrio dos clusters que compuseram a tipologia desenvolvida, no sendo aqui apresentada por no fazer parte dos objetivos deste artigo. Foram estudados 2.439.255 habitantes distribudos em 651.051 domiclios particulares permanentes das zonas urbanas da cidade de Salvador. Segundo os dados investigados, no ano 2000 existiam na capital baiana 51.030 domiclios em condies de privao no abastecimento de gua; 107.949 domiclios em condio de privao de esgotamento sanitrio; 42.871 apresentando privao de coleta de lixo e 51.425 domiclios em condies precrias de moradia. Ao analisar a dimenso famlia, constata-se que 214.971 chefes de famlia, em agosto de 2000, possuam menos de quatro anos de estudo, sendo que, entre estes, 91.227 so do sexo feminino. No que tange renda a situao mais alarmante, 338.841 chefes de famlia declararam-se sem rendimentos ou com rendimentos iguais ou inferiores a dois salrios mnimos, destes 153.387 so mulheres. Por fim, 293.707 habitantes estudados so crianas com idade at seis anos e 124.517 so pessoas residentes no-alfabetizadas com mais de 10 anos. A partir de uma primeira sumarizao dos dados possvel obter um panorama mais geral dos resultados e tambm verificar a ocorrncia de violao das premissas

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1100

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

que muitas tcnicas exigem, como por exemplo a normalidade, homocedasticidade e linearidade, e, dessa maneira, considerar a possibilidade de aplicar ou no certos algoritmos.

Resultado da associao
Com o objetivo de testar a convenincia da tcnica fatorial, os dados foram submetidos ao teste de esfericidade de Bartlett, sendo, em seguida, calculada a medida de Kaiser-Meyer-Olkin (KMO) para todos os 2.502 setores censitrios da capital baiana. Os resultados encontrados demonstraram que a anlise fatorial apropriada e que pode, portanto, ser utilizada na minerao desses dados. O resultado da medida KMO foi 0,848, o que pode ser considerado muito bom, j o teste de esfericidade de Bartlett, com significncia 0 para um qui-quadrado 43.932,969 com 66 graus de liberdade foi aceito. Assim sendo, a etapa de anlise fatorial contribuiu para a seleo dos indicadores mais relevantes para o estudo e posterior validao do modelo de anlise a ser empregado. Resumidamente, a verificao de adequao do modelo de anlise proposto consistiu em dois passos: seleo dos indicadores significantes aps a extrao pelo mtodo da anlise das componentes principais, todos os indicadores apresentaram comunalidade maior que 50%, ratificando a presena de todos os indicadores no modelo de mensurao da pobreza; determinao do nmero de dimenses de anlise selecionadas utilizando o critrio adotado por vrios autores, entre eles Johnson e Wichern (1998) e Hair Jr. e colaboradores (1992), foram aceitas apenas duas dimenses para compor o modelo, visto que a primeira e segunda dimenses possuem autovalores, 7,954 e 1,497 respectivamente, ambos superiores unidade preconizada pelos autores.

Diante dos resultados encontrados, conclui-se que a construo abstrata, feita a partir das definies e convenes terminolgicas sobre o conceito da pobreza discutido ao longo deste artigo, pode representar a realidade atravs de apenas duas dimenses (no caso, domiclio e famlia) em vez das trs (domiclio, responsvel e residentes) inicialmente propostas. A anlise dos resultados para os 12 indicadores (definidos na etapa de levantamento) permite observar, aps a rotao pelo mtodo Varimax, que as duas dimenses de anlise selecionadas para o modelo permitem explicar 78,76% da varincia total dos indicadores.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1101

Confirmado o modelo de anlise para mensurao da pobreza em Salvador, contemplando duas dimenses (domiclio e famlia), foi calculado o ndice de pobreza atravs da funo regresso, conforme apresentado na prxima subseo.

Resultado da regresso
A construo do ndice de pobreza (IP) foi motivada pela necessidade de classificar os setores censitrios segundo a condio de pobreza encontrada. Dessa forma, foi possvel avaliar a condio do setor censitrio como um todo e assim identificar aqueles setores com maior probabilidade de se encontrar moradores e domiclios em condies de privao. O ndice de pobreza foi construdo a partir dos valores dos escores fatoriais para cada setor censitrio. Concluda essa funo e de posse da hierarquizao dos setores censitrios, obtida a partir dos ndices de pobreza, foi dado prosseguimento anlise de agrupamento com a funo cluster.

Resultado do agrupamento
Com o objetivo de evidenciar as associaes entre as variveis, permitindo o agrupamento segundo suas similitudes, optou-se pela utilizao funo cluster da minerao de dados. Mais uma vez recorreu-se tcnica estatstica, mais especificamente anlise de agrupamentos. Foi selecionado o algoritmo hierrquico para executar a funo cluster e o nmero de classes foi definido a partir da anlise do dendograma obtido. Esta anlise ofereceu a possibilidade de subdividir os 2.502 setores censitrios em nove ou cinco tipos (grupos). Diante das dificuldades de se especificar as caractersticas distintivas entre nove grupos, optou-se por trabalhar com a segunda opo, acreditando-se que esta representaria de maneira satisfatria a distribuio do fenmeno estudado.

Tipologia da pobreza
Para construir uma tipologia de pobreza para os setores censitrios da cidade de Salvador foi necessrio classific-los segundo suas caractersticas, descritas no modelo de anlise e sintetizadas atravs do ndice de pobreza (IP) calculado. A elaborao da tipologia aqui proposta foi feita utilizando uma fuso de dois mtodos: o conceitual-analtico (heurstico) e a taxonomia numrica (matemtico). O que norteou toda construo da tipologia aqui proposta foi a finalidade qual a pesquisa se prestava a atender: mapear a distribuio da pobreza.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1102

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

Os setores censitrios foram classificados como de pobreza muito alta se seu ndice de pobreza (IP) for superior a 0,700 nesta condio encontram-se 111 setores censitrios. J os 517 setores com IP at 0,180 ficam situados no tipo de pobreza muito baixa. O tipo mais numeroso, de pobreza moderada, rene os setores com ndice entre 0,410 e 0,494. Os demais tipos pobreza alta e pobreza baixa possuem IP entre 0,580 e 0,628, e IP entre 0,180 e 0,311 respectivamente. O resultado final dessas escolhas e procedimentos (mapeamento) descrito a seguir.

7. Consideraes finais
Foi possvel observar que a aplicao do KDD em bases de dados pblicas permitiu identificar, mesmo com as limitaes impostas pelas bases de dados utilizadas, quais indicadores, em termos de saneamento bsico, educao, condies de moradia, renda etc., esto associados aos altos nveis de pobreza em Salvador, resultando na elaborao de um ndice de pobreza que reflete as mltiplas dimenses que envolvem o fenmeno. A visualizao integrada desse resultado est sintetizada na figura 3.
Figura 3

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1103

Distribuio da tipologia da pobreza por setor censitrio Salvador, 2005

Neste artigo diversas contribuies foram apresentadas ao estudo do KDD ou mais especificamente do KDDp, entre as principais destacam-se: elaborao de uma proposta de estruturao e sistematizao de etapas para o processo KDD em bases de dados pblicas; a modelagem do fenmeno social da pobreza, oferecendo ao gestor pblico a possibilidade de ajustar a poltica de acordo com as caractersticas de cada grupo; o mapeamento do fenmeno (que oferece uma anlise ampla e sistmica da pobreza e poder ser til no desenvolvimento de aes antipobreza); outra importante contribuio que esta pesquisa traz est relacionada demonstrao da importncia do KDD na construo de ndices baseados em dados socioeconmicos pela elaborao de modelos multidimensionais de anlise e dos mtodos utilizados para aglutinao dos indicadores; o estudo demonstrou a possibilidade de utilizao

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1104

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

das informaes de bases de dados pblicas, especialmente do IBGE na identificao de grupos homogneos de pobreza na capital baiana (a utilizao do KDD e a facilidade e rapidez do acesso a dados secundrios, potencializam o seu uso como instrumento de planejamento). Os resultados deste estudo demonstram para os analistas de dados e especialistas do domnio que a utilizao dos algoritmos disponveis nos softwares de DM ou estatstica exige, alm de uma postura responsvel, o conhecimento aprofundado de cada etapa do processo, bem como do domnio que est sendo estudado. Espera-se que este artigo contribua para uma reflexo acerca da forma com que essas bases de dados pblicas vm sendo utilizadas.

Referncias bibliogrficas
ADRIAANS, P.; ZANTIGE, D. Data mining. Harlow: Addison-Wesley, 1996. AGRAWAL, R. et al. Fast discovery of association rules. In: FAYYAD, U. M. et al. (Eds.). Advances in knowledge discovery and data mining . Menlo Park: AAAI/MIT Press, 1995. AMARAL, Fernanda Cristina. Data mining: tcnicas e aplicaes para o marketing direto. So Paulo: Berkeley Brasil, 2001. ANDERBERG, Michael R. Cluster analysis for applications. New York: Academic Press, 1973. BECKMAN, T. The current state of knowledge management. In: LIEBOWITZ, J. (Ed.). Knowledge management handbook . New York: CRC Press, 1999. BRACHMAN, Ronald J.; ANAND, Tej. The process of knowledge discovery in databases. In: Advances in knowledge discovery and data mining. Menlo Park: AAAI Press, 1996. BUSSAB, W. de O.; MIAZAKI, E. S.; ANDRADE, D. F. Introduo anlise de agrupamentos. In: SIMPSIO NACIONAL DE PROBABILIDADE E ESTATSTICA, 9., 1990. Anais... So Paulo. Associao Brasileira de Estatstica. CABENA P. et al. Discovering data mining: from concept to implementation. Englewood Cliffs: Prentice Hall, 1998. CARVALHO, Lus Alfredo Vidal de. A minerao de dados no marketing . So Paulo: rica, 2001. CIARIS (CENTRO DE APRENDIZAGEM E DE RECURSOS PARA A INCLUSO SOCIAL). Uma questo terminolgica? 2003. Disponvel em: <http://ciaris.ilo.org/portugue/frame/r12.htm>. Acesso em: 20 jun. 2004.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1105

DAMIANI, W. B. Estudo do uso de sistemas de apoio ao executivo (EIS Executive Information Systems). In: ENCONTRO ANUAL DA ANPAD, 22., Foz do Iguau, 1998. Anais... Foz do Iguau: Enanpad, 1998. DAVENPORT, T. H.; PRUSAK, L. Conhecimento empresarial : como as organizaes gerenciam o seu capital intelectual. Rio de Janeiro. Campus, 1998. DINIZ, Carlos Alberto R.; LOUZADA NETO, Francisco. Data mining: uma introduo. So Paulo: ABE, 2000. FAYYAD, Usama M. et al. Advances in knowledge discovery and data mining . Menlo Park: AAAI Press, 1996. ; PIATETSKY-SHAPIRO, G.; SMYTH, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, New York: ACM Press, v. 39, n. 11, p. 27-34, Nov. 1996. FRAWLEY, W.; PIATETSKY-SCHAPIRO, G.; MATHEUS, C. Knowledge discovery in databases: an overview. AI Magazine , p. 213-228, Fall 1992. FRIEDMAN, Batya; KAHAN Jr.; Peter H. Educating computer scientists: inking the social and the technical. Communications of the ACM , v. 37, n. 1, p. 65-70, Jan. 1999. HAIR JR., Joseph F. et al. Multivariate data analysis. 5. ed. Upper Saddle River (NJ): Prentice Hall, 1992. HAN, J.; KAMBER, M. Data mining : concepts ans techiniques. New York: Morgan Kaufmann, 2000. HARRISON, Thomas H. Intranet data warehouse. So Paulo: Berkeley, 1998. INMON, W. H.; TERDEMAN, R. H.; IMHOFF, Claudia. Data warehousing: como transformar informaes em oportunidades de negcios. So Paulo: Berkeley, 2001. IVANOV, K. Strategies and design for information technology : Eastern or neo-romantic wholes, and the return to Western systems. Aix-en-Provence: University of Aix-Marseille III, 1998. JANNUZZI, P. M. Repensando a prtica de uso de indicadores sociais na formulao e avaliao de polticas pblicas municipais. In: ENCONTRO NACIONAL DA ANPAD, 25., Campinas, 2001. Anais.. . Campinas: Anpad, 2001. JOHNSON, Richard A.; WICHERN, Dean W. Applied multivariate statistical analysis. 4. ed. Saddle River: Prentice Hall, 1998. LACERDA, Josimari Telino de; CALVO, Maria Cristina Marino; FREITAS, Srgio Fernando Torres de. Intra-urban differentials in Florianpolis, Santa Catarina State, Brazil, and their potential use in health services planning. Cad. Sade Pblica, v. 18, n. 5, p. 1331-1338, Sept./Oct. 2002. Disponvel em: <www.scielosp.org>. Acesso em: 10 dez. 2004.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

1106

Jair Sampaio Soares Junior e Rogrio Hermida Quintella

LAUDON, K. C.; LAUDON, J. P. Management information systems: organization and technology. 3. ed. New York: McMillan, 1994. LIEBOWITZ, J.; BECKMAN, T. Knowledge organizations: what every manager should know. Boca Raton: CRC Press, 1998. LIMA, Ana Luiza M. de Codes. Mensurao da pobreza: uma reflexo sobre a necessidade de articulao de diferentes indicadores. Caderno CRH, Salvador, n. 1, 2004. LOPES, Marra Helger. Anlise de pobreza com indicadores multidimensionais : uma aplicao para Brasil e Minas Gerais. 2003. Dissertao (Mestrado em Economia) Faculdade de Economia, Universidade de Minas Gerais, Belo Horizonte. MALHOTRA, Naresh K. Pesquisa de marketing: uma orientao aplicada. 3. ed. Porto Alegre: Bookman, 2001. MAX-NEEF, M.; ELIZALDE, A.; HOPENHAYN, M. Desarrollo a escala humana una opcin para el futuro. Cepaur, Fundacin Dag Hammarskjld. Medelln, Colombia: Proyecto 20 Editores, 1996. MERRICK, B. G. The ethics of hiring in the new workplace: men and women managers face changing stereotypes discover correlative patterns for success. Indiana: Competitiveness Review, 2002. MINGIONE, Enzo. Urban poverty in the advanced industrial world: concepts, analysis and debates. In: . Urban poverty and the underclass. New York: Blackwell, 1999. NONAKA, I.; TAKEUCHI, H. Criao de conhecimento na empresa : como as empresas japonesas geram a dinmica da inovao. So Paulo: Campus, 1997. ODELL, Carla; GRAYSON Jr., C. Jackson; ESSAIDES, Nilly. Ah. Se soubssemos antes o que sabemos agora : as melhores prticas gerenciais ao alcance de todos. So Paulo: Futura, 2000. QUINTELLA, Rogrio Hermida; SOARES JUNIOR, Jair Sampaio. Sistemas de apoio deciso e descoberta de conhecimento em bases de dados: uma aplicao potencial em polticas pblicas. Organizaes e Sociedade , Salvador, v. 28, p. 83-98, 2003. REINARTZ, Thomas. Focusing solution for data mining: analytical studies and experimental results in real-world domains. New York: Springer-Verlag, 1999. ROCHA, S. Estimao de linhas de indigncia e de pobreza: opes metodolgicas no Brasil. In: HENRIQUES, R. O. (Ed.). Desigualdade e pobreza no Brasil . Rio de Janeiro: Ipea, 2000. p. 109-127. . Medindo a pobreza no Brasil: evoluo metodolgica e requisitos de informao bsica. In: LISBOA, M. B.; MENEZES-FILHO, N. A. (Orgs.). Microeconomia e sociedade no Brasil . Rio de Janeiro: Contra Capa, 2001. p. 51-78. . Pobreza no Brasil : afinal, de que se trata? Rio de Janeiro: FGV, 2003.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Descoberta de Conhecimento em Bases de Dados Pblicas

1107

SCHULER, D. Social computing. Communications of the ACM , New York: ACM Press. v. 37, n. 1, p. 28-29, Jan. 1994. SCHWARTZMAN, Simon. As diversas faces da pobreza no Brasil . 1996. Disponvel em: <www.schwartzman.org.br/simon/pobreza.htm>. Acesso em: 10 out. 2004. SEN, A. Inequality reexamined. New York: Russell Sage, 1992. SILVA, L. Aprendizagem participativa em agrupamento nebuloso de dados. 2003. Dissertao (Mestrado em Engenharia) Faculdade de Engenharia Eltrica e de Computao, Unicamp, Campinas. SOARES JUNIOR, Jair Sampaio; QUINTELLA, Rogrio Hermida. Indicadores sociais de baixo custo e sua utilidade na gesto da interface entre os governos estadual e municipal. Organizaes e Sociedade, Salvador, v. 25, p. 45-60, 2002. TORRES, Haroldo da Gama; MARQUES, Eduardo; FERREIRA; Maria Paula; BITAR, Sandra. Pobreza e espao: padres de segregao em So Paulo. Estudos Avanados, So Paulo, v. 17, n. 47, p. 97-128, 2003. SPRAGUE, R. H.; WATSON, H. J. Sistema de apoio deciso . Rio de Janeiro: Campus, 1991. TIRONI, L. F. et al. Critrios para gerao de indicadores de qualidade e produtividade no servio pblico. Braslia: Ipea/MEFP, 1991. TOWNSEND, P. Conceptualising poverty. In: . The international analysis of poverty . London: Harvester Wheatsheaf, 1993. TRZESNIAK, P. Indicadores quantitativos: reflexes que antecedem seu estabelecimento. Revista de Cincia da Informao, Braslia, v. 27, n. 2, p. 159-164, maio/ago. 1998.

RAP

Rio de Janeiro 39(5):1077-1107, Set./Out. 2005

Das könnte Ihnen auch gefallen