Sie sind auf Seite 1von 5

Anais VI Simpsio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

ANLISE ESPACIAL DOS NDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TCNICAS DE MINERAO DE DADOS Fbio Abrantes Diniz1, Fabiano Rosemberg de Moura Silva2, Roberto Douglas da Costa3, Thiago Reis da Silva4, thalo Bruno Grigrio de Moura5, Anglica Felix Castro6
1 Mestrando em Cincia da Computao, UERN/UFERSA, Mossor - RN, fabio.abrantes.diniz@gmail.com Mestrando em Cincia da Computao, UERN/UFERSA, Mossor - RN, fabiano.rosemberg.silva@gmail.com 3 Mestrando em Cincia da Computao, UERN/UFERSA, Mossor - RN, robertodcosta@gmail.com 4 Mestrando em Cincia da Computao, UERN/UFERSA, Mossor - RN, trsilva.si@gmail.com 5 Mestrando em Cincia da Computao, UERN/UFERSA, Mossor - RN, ithalobgm @gmail.com 6 Professora Doutora do Departamento de Informtica da UFERSA, Mossor RN, angelicafcastro@ gmail.com 2

RESUMO: O Rio Grande do Norte (RN) um estado rico em recursos naturais, apresenta um desenvolvimento educacional concentrado em algumas regies. Diante dessa realidade, este trabalho descreve a distribuio da educao na populao do RN, mostrando a sua disparidade entre seus municpios. Logo, foram utilizados alguns indicadores da educao do Instituto Brasileiro de Geografia e Estatstica (IBGE), juntamente com o Sistema de Informao Geogrfico (SIG) TerraView para a elaborao de mapas, utilizando tcnicas do geoprocessamento e da estatstica. Alm disto, tambm foram utilizadas tcnicas de Minerao de Dados (MD) para identificar padres que ajudam a caracterizar a qualidade do sistema educacional do RN, mostrando assim, a desigualdade entre seus municpios e evidenciando um desenvolvimento educacional concentrado em algumas regies. Por fim, os resultados mostram que a maioria dos municpios do RN apresenta qualidade educacional abaixo da meta e que a situao pior em regies do estado que possuem pequenas atividades econmicas. PALAVRAS-CHAVE: Sistema de informao geogrfico, Minerao de dados, rvore de deciso. INTRODUO: O RN composto por 167 municpios, que se agrupam em quatro mesorregies e 19 microrregies (IBGE 2012). De acordo com a Secretaria de Estadual de Educao e Cultura (SEEC), o RN possui 16 Diretorias Regionais de Educao (DIRED) que direcionam as instituies educacionais e mantm uma rede de 3.175 escolas do Ensino Fundamental das quais 620 so estaduais, 2 084 so municipais, 470 so particulares e uma federal. O ensino mdio foi ministrado em 420 estabelecimentos, com a matrcula de 152.326 alunos. Dos 152.326 discentes, 133.369 estavam nas escolas pblicas e 18.957 nas particulares (SEEC, 2012). Diante dessa realidade, este artigo tem por objetivo analisar as caractersticas do sistema educacional do RN, que enfatizam as diferenas sociais e econmicas entre as regies mais ricas e as menos desenvolvidas do estado. Para realizar este trabalho foram utilizados os indicadores demogrficos e educacionais do RN obtidos atravs do IBGE, tais como: populao em idade escolar, nmero de matrculas, taxa de escolaridade, aprovao, abandono, reprovao e os ndices de desenvolvimento de educao bsica (IDEB). Alguns desses indicadores so utilizados na elaborao de algumas anlises espaciais, a fim de mostrar a qualidade e a equidade da educao nas redes pblicas e privadas em todo o estado do RN. A minerao de dados definida como um processo de descoberta de padres nos dados (Fayyad, 1996). Desta forma, sua utilizao neste trabalho visa encontrar um padro comportamental de variveis que descrevem a distribuio da educao na populao do RN. Portanto, para a realizao desse estudo aplicou o uso de tcnicas de Minerao de Dados (MD) para estimar alguns resultados que demonstram relaes significativas entre a educao e o desenvolvimento local. Juntamente, utilizou-se uso das tcnicas e ferramentas de geoprocessamento, contida no Sistema de informao Geogrfica (SIG) TerraView. Nesta ferramenta foram utilizados os recursos de visualizao dos dados espaciais para dar subsdios em tomadas de decises no setor educativo. A fim de ajudar o Governo

Anais VI Simpsio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

em decises para cumprir e otimizar as metas e objetivos na melhoria do servio de educao do estado do RN. MATERIAS E MTODOS: A rea de estudo o Estado do Rio Grande do Norte, com uma rea de aproximadamente 53.000 km2, dividido politicamente em 167 municpios, com mais de trs milhes de habitantes (IBGE, 2012). Foram utilizadas 167 amostras (nmero de municpios do RN), com seus respectivos dados de educacionais, como o conjunto de treinamento para gerao da rvore de deciso. Atravs da rvore selecionada foi possvel extrapolar a estimativa da distribuio da qualidade da educao. Cada amostra possui atributos que trazem informaes polticos, sociais e educacionais, referentes ao Estado do RN. As informaes referentes ao Estado do RN tais como rea, municpios, micro e mesorregies, populao, ndice de Desenvolvimento Humano (IDH), renda domiciliar per capita, entre outras, foram obtidas do Censo Demogrfico 2010, atravs da pgina do IBGE na Internet. Os atributos utilizados, referentes educao, foram: as taxas de abandono escolar, aprovao, desempenho mdio, o ndice de Desenvolvimento da Educao Bsica (IDEB), entre outros, todos obtidos da pgina da SEEC na Internet e do Censo Escolar 2010. Tambm foram obtidos, da pgina do IBGE, os mapas nos quais foram utilizadas tcnicas de agrupamento - quantil (equipartio de amostras em 5,4 e 3 intervalos, com dos valores da amostra em cada intervalo). Neste estudo, foram utilizadas tcnicas de geoprocessamento (BRETERNITZ, 2010) atravs do software TerraView 4.1.0 e dados disponibilizados pelo IBGE e pela SEEC sobre o Estado do RN (SEEC, 2012). O TerraView um SIG desenvolvido pelo Instituto Nacional de Pesquisas Espaciais (INPE) sobre a biblioteca de geoprocessamento do TerraLib, tambm desenvolvida pelo INPE e tem como seus principais objetivos oferecer comunidade um fcil visualizador de dados geogrficos com recursos de consulta e anlise de dados (INPE 2012). As rvores de deciso so um dos modelos mais simples e mais usados em inferncia indutiva. Estas rvores so treinadas de acordo com um conjunto de dados de treinamento previamente classificadas e posteriormente, usa essa rvore para classificar a exatido do classificador num conjunto de teste. Existem vrios algoritmos de classificao que utilizam rvores de deciso. Dependendo do problema, um algoritmo pode ser mais eficiente do que o outro. Dentre os algoritmos, os mais usados so: o ID3, ASSISTANT, C4.5 e CART (Classification and Regression Trees) (DINIZ et. al. 2011). Nesse trabalho foi utilizado o algoritmo C4.5, pois trabalha com valores indisponveis, com valores contnuos, poda rvores de deciso e no depende de suposies sobre a distribuio dos valores das variveis ou da independncia entre si das variveis (FAYYAD; PIATESKY-SHAPIRO; SMYTH, 1996). Caractersticas cruciais quando se usa dados de SIG juntamente com dados de imagem. A ferramenta utilizada para aplicar a tcnica de minerao de dados foi o denominado Weka ( Waikato Environment for Knowledge Analysis), da Universidade de Waikato, Nova Zelndia. O pacote Weka possui uma sute que contm diversas tcnicas de minerao de dados, totalmente gratuito por ser um software livre (WEKA, 2012). O Weka usa arquivos de dados de treinamento onde devem ser explicitadas quais variveis so permitidas para uma relao especfica, bem como o tipo de dado de cada varivel (isto , nominal ou valor numrico). O Weka pode detectar padres em dados que podem ser explorados mediante regras. Das tcnicas disponveis, foi utilizado o algoritmo de induo de rvore de deciso C4.5 desenvolvido por (Quilan 1993) e implementado em sua verso para linguagem Java, no Weka, com o nome J4.8, para gerar rvores de deciso (WEKA, 2012). Para a utilizao do conjunto de dados, foi feito um pr-processamento nos dados a fim de torn-los compatveis com o formato da ferramenta utilizada. O algoritmo de classificao do Weka necessita de atributos preditivos para representar os padres a serem classificados. Foram utilizados quatro

Anais VI Simpsio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

atributos para a descoberta do modelo nesse trabalho, tais como: o IDH, a renda domiciliar per capita, a taxa de abandono escolar e o IDEB. Todos so atributos preditivos que influenciam direta e indiretamente na qualidade da educao em uma determinada regio. Alm disso, o algoritmo de classificao do Weka precisa de uma varivel nominal denominada atributo-classe que classificam os dados. Portanto, foi criado, a partir dos valores dos atributos preditivos, o atributo-classe MetaqualEd (Meta da qualidade da Educao) o qual possui trs categorias de valores (acima, media, abaixo) que classifica o nvel da meta da qualidade educacional do RN. Caracterizando as instncias da base de dados como acima, abaixo ou na mdia da meta nacional, estipulada pelo governo do RN para o nvel da qualidade da educao para o ano de 2010. RESULTADOS E DISCUSSO: Como mencionado, a ferramenta Weka foi utilizada como apoio durante a execuo da etapa de MD. As classificaes com pequeno nmero de instncias (167) evidenciadas na base de dados, a rvore de deciso alcanou 87,5% das instncias classificadas corretamente. Uma estimativa vlida que pode no ter sido a melhor devido ao nmero reduzido de informao, alm do fato de existirem poucas instncias com prevalncia muito alta em relao s outras classes. O classificador foi testado utilizando-se o mtodo de validao cruzada 10- Fold-CrossValidation para obteno da proporo de acertos (acurcia). Com a Minerao de Dados, foi possvel analisar as diferenas no padro do conjunto de reaes das variveis em relao melhora da meta da qualidade da educao nos municpios do RN. Para avaliao das classificaes foi utilizada a estatstica de Kappa que um mtodo estatstico que serve para medir a concordncia entre diferentes medidas (LANDIS; KOCH, 1977), sendo muito usada para avaliao da preciso, determinada por uma matriz de confuso. Sua grande vantagem que para o seu clculo no se incluem somente os elementos da diagonal principal e sim todos os elementos da matriz de erro (MOREIRA, 2001). A classificao desse trabalho gerou um ndice de Kappa de aproximadamente 73%. O algoritmo J4.8 possui regras deciso e uma matriz de confuso. Nesse trabalho foi elaborada uma matriz de confuso durante os treinamentos e testes das instncias (Tabela 1). Analisando a matriz, foram detectados possveis problemas na classificao e tambm na separabilidade entre as classes. Tabela 1. Matriz de confuso. Classe Prevista Classe = acima Classe = media Acima (28) 22 5 Media (23) 4 13 Abaixo (116) 1 4

Classe Real

Classe = abaixo 1 6 111

Observa-se tambm na Tab. 2 que das 167 instncias, 146 (111+22+13) so classificadas corretamente, sendo que 21 (4+1+4+5+6+1) instncias so classificadas incorretamente, 19 (4+4+5+6) foram classificadas com um erro de classe e 2 (1+1) classificada com dois erros. Para um total de 28 instncias com classe real rotulada como acima, tiveram 22 instncias (78,9%) classificadas corretamente, 5 instncias (17,9%) foram classificadas como media e somente 1 (3,5%) foi classificada como abaixo. Esse resultado pode ser considerado satisfatrio, uma vez que os recursos para o melhoramento da educao de uma regio so pequenos, e com essa classificao pode transferir boa parte dos recursos da educao destinados a municpios que tiveram uma qualidade da educao acima da meta estipulada para municpios que esto com uma qualidade educacional abaixo do esperado. J com as instncias com classe real mdia, um pouco a mais da metade (56,5%) delas so classificadas corretamente. Esse resultado mostra que mesmo que essas reas estejam alcanando a mdia de qualidade da educao, ainda precisam de ateno na melhora do seu sistema educacional, pois podem sofrer baixas se no tiverem o investimento necessrio. J para a classe de prevalncia

Anais VI Simpsio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

abaixo, foram classificadas corretamente 111 das 116 amostras (96%), sendo que 4 amostras (3,4%) foram classificas como media e apenas 1 amostra (0,6%) de prevalncia foi classificada como acima. Esse resultado evidencia a comprovao do padro, mostrando que o RN precisa melhorar tanto a qualidade do ensino e a infraestrutura da educao como a diminuio da desigualdade social, provando que melhorando a qualidade da educao melhora a qualidade de vida. O algoritmo J4.8 determina a varivel com maior quantidade de informao e a coloca na raiz da rvore de deciso. Em cada n da rvore, foi feita a diviso em conjuntos cada vez mais homogneos. A varivel colocada na raiz da rvore foi IDEBEFfin09 (ndice de Educao Bsica do Ensino Funda mental final de 2009), correspondendo diviso em dois grupos: para valores desta varivel menores ou iguais a 3.2 e maiores que 3.2. A Figura 1 mostra a rvore de deciso (obtida a partir do algoritmo J4.8 do Weka) para a prevalncia da meta da qualidade da educao em relao a algumas variveis preditivas que foram selecionadas pelo Weka por conterem maior quantidade de informao. Foram ainda selecionado outras variveis tais como: ndices de desenvolvimento humano ( IDH2000), renda domiciliar (renda) e taxa de abandono (TAbanEMed10).

Figura 1: rvore de deciso obtida a partir do algoritmo J4.8 do Weka. O resultado da classificao gerado pela rvore de deciso, acima, pode ser considerado coerente em relao realidade. Pela anlise da rvore vemos a qualidade da educao do Estado do RN esta abaixo da mdia estabelecida. Dos 167 municpios 115 esto com a qualidade abaixo da mdia. Seguindo o ramo da rvore at a folha que apresenta o maior nmero de classes abaixo, os 115 municpios se caracterizam com um IDEB menor que 3.2, IDH menor que 0.7 e taxa de abandono maior que 11.1%. Contrario as metas estabelecidas os quais so possuir um IDEB maior que 3.2, taxa de abandono menor que 10% e IDH na mdia da nacional que 0.78. apresentado na Figura 2, os dados classificados atravs das regras da rvore de deciso espacializados num mapa temtico utilizando o aplicativo TerraView.

Figura 2: Meta da qualidade da educao estimada atravs da rvore de deciso.

Anais VI Simpsio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS.

Logo, podemos ver que as vantagens de rvore de deciso incluem a capacidade de lidar com dados que esto em diferentes escalas de medidas, no serem necessrias suposies sobre as distribuies de frequncia dos dados em cada uma das classes, a flexibilidade e a capacidade de lidar com relaes no lineares entre variveis e classes. E a simplicidade para encontrar os padres torna essa tcnica muito til nesse trabalho. CONCLUSES E TRABALHOS FUTUROS: Esse trabalho demonstrou que o uso de rvore de deciso fundamental na descoberta de padres, pois lida com dados de diferentes escalas de medidas e tm a flexibilidade e a capacidade de trabalhar com relaes no lineares entre variveis e classes. Foi possvel constatar que a maioria dos municpios Estado do RN apresenta qualidade educacional abaixo da meta e que a situao pior em regies do Estado que possuem pequenas atividades econmicas, pois esses municpios apresentam as mais baixas rendas familiares e IDH, alm dos investimentos educacionais serem baixos. Como trabalho futuro prope-se integrar as tcnicas de geoprocessamento com a explorao desta base de dados utilizando outras tcnicas de minerao de dados, tais como: Clusterizao e Mquinas de Vetores de Suporte (SVM). A fim de identificar novos padres ou tendncias de desenvolvimento e deficincias educacionais dos municpios do Estado do RN, e melhorar a preciso dos resultados. AGRADECIMENTOS: Os autores agradecem a CAPES pela concesso das bolsas de pesquisa. REFERNCIAS: Breternitz, V. J. Sistemas de informaes geogrficas: uma viso para administradores e profissionais de tecnologia da informao. 2010. IBGE. Instituto Brasileiro de Geografia e Estatstica. Disponvel em: <http://www.ibge.gov.br/home>. Acesso em: ago. 2012. INPE. Manual do Sistema de Processamento de Informaes Georreferenciados verso 4.3 (SPRING-4.3). Diviso de Processamento de Imagens, INPE- So Jos dos Campos. Disponvel em: <http://www.dpi.inpe.br/cursos>. Acesso em: jul. 2012. Diniz, F. A.; Costa, R. D.; Silva, F. R. M.; Castro, A. F.; Silva, M. P. S. O Uso do Geoprocessamento na Anlise dos ndices Educacionais do Rio Grande Norte. In: Escola Potiguar de Computao e Suas Aplicaes EPOCA 2011. Natal RN. Fayyad, U.; Piatesky-Shapiro, G.; Smyth, P. From Data Mining to Knowledge Discovery: An Overview. Cambridge: AAAI Press,1996. Landis, J. R.; Koch, G. G. The measurement of observer agreement for categorical data in Biometrics. v. 33, p. 159 174, 1977. Moreira, M. A. Fundamentos de Sensoriamento Remoto. Instituto Brasileiro de Pesquisas Espaciais, So Paulo: So Jos dos Campos, 2001. Quinlan, J. R. C4.5: Programs For Machine Learning. Morgan Kaufmann, Los Altos, 1993. SEEC. Secretaria de Estado da Educao e da Cultura. Disponvel em: <http://www.educacao.rn.gov.br/contentproducao/aplicacao/seec/principal/enviados/index.asp>, Acesso em: jul. 2012. WEKA. Waikato Environment for Knowledge Analysis. Disponvel em: <http://www.cs.waikato.ac.nz/ml/weka/>, Acesso em: jul. 2012. .

Das könnte Ihnen auch gefallen