You are on page 1of 13

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM): consideraes metodolgicas e prticas

Gilvan Ramalho Guedes* Andr Junqueira Caetano** Carla Jorge Machado*** Eduardo Sonewend Brondzio**** O mtodo Grade of Membership (GoM) tem sido cada vez mais utilizado por demgrafos brasileiros e tem a vantagem de possuir um parmetro que mensura a heterogeneidade individual, com base nas correlaes no-observveis entre as categorias de resposta das variveis de interesse, gerando um medida do grau de pertencimento de cada indivduo a perfis extremos. Alguns autores, contudo, chamam ateno para questes importantes na calibragem dos modelos finais que utilizam o programa GoM verso 3.4, como o problema de identificabilidade solues mltiplas para parmetros estimados. Neste artigo, sugerido um procedimento capaz de identificar um modelo final com soluo nica que descreva os tipos puros mais fidedignos base de dados, em uma tentativa de otimizao. Para ilustrar esse processo, utilizou-se uma base de dados correspondente a um levantamento econmico e sociodemogrfico de uma populao de pequenos agricultores residentes ao longo da Rodovia Transamaznica, no Estado do Par. Tambm identificou-se a existncia de instabilidade nos parmetros estimados pelo programa GoM 3.4, sendo proposto um mtodo de estabilizao de seus valores. Com esses procedimentos combinados, os usurios do programa GoM 3.4 podero descrever sua base de dados de forma mais adequada e responder s crticas sobre questes de identificabilidade e estabilidade dos modelos resultantes. Essas solues empricas so relevantes por afetarem clculos de prevalncia e de incidncia de eventos de interesse, alm de trazerem consequncias importantes sobre o ponto e o momento corretos para intervenes de polticas pblicas ou de planejamento prospectivo em anlises de projeo. Palavras-chave: Grade of Membership. Identificabilidade. Estabilidade. Mximo global. Conjuntos nebulosos. Introduo A necessidade de procurar padres frequentes e extrair grupamentos em bancos de dados se faz presente em muitas reas do conhecimento. O rpido crescimento da complexidade, multidimensionalidade e quantidade de dados em todas as reas, bem como a necessidade de extrair informaes teis de dados coletados, a motivao bsica para a procura de algoritmos variados para a minerao de dados (data mining)

* Doutor em Demografia, pesquisador residente do Environmental Change Initiative / Brown University. ** Ph.D in Sociology, professor adjunto III da Pontifcia Universidade Catlica de Minas Gerais. *** Ph.D in Population Dynamics, professora adjunta III da Universidade Federal de Minas Gerais. **** Ph.D in Anthropology, professor de antropologia, professor adjunto de Cincias Ambientais e chefe de Departamento

na Indiana University.

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

com a finalidade de descobrir conhecimentos (knowledge discovery database) implcitos em bases de dados (VELOSO et al., 2001). Do mesmo modo, o uso de tipologias para caracterizao e categorizao social tem sido historicamente uma ferramenta analtica til, porm controversa, nas cincias sociais. Tipologias, quantitativas ou qualitativas, permitem simplificar e generalizar um determinado continuum, embora promovam categorias estanques que podem mascarar a heterogeneidade interna de grupos. O mtodo Grade of Membership (GoM), ao parametrizar a heterogeneidade individual, tende a superar a necessidade de criao de tipologias arbitrrias, reduzindo, portanto, os contedos implcitos. Ao contrrio, os parmetros representativos dos graus de pertencimento individual aos perfis extremos expandem as associaes implcitas ao dado, uma vez que consideram essas associaes no nvel da categoria de cada varivel, e no entre os indivduos, como nas tcnicas de agrupamento baseadas em lgica binria (MANTON et al., 1994). Ou seja, assume-se que a variao ocorre entre os indivduos e que no meramente aleatria. O mtodo GoM vem sendo amplamente utilizado na demografia latino-americana, em especial entre os demgrafos brasileiros (SAWYER et al., 2002; DRUMOND et al., 2007; MELO, 2007; ALVES et al., 2008; GUEDES et al., 2009a, 2009b, 2009c). Os trabalhos que utilizam o GoM tm em comum contextos em que encontrar estruturas implcitas nos dados essencial, ou seja, estruturas que revelem os padres de ocorrncias conjuntas de valores especficos de variveis grupamentos (MIRANDA-

RIBEIRO et al., 2007; GUIMARES et al., 2008). O modelo, alm de permitir que sejam definidos padres chamados perfis extremos capazes de sintetizar grande parte da informao contida na base de dados para os indivduos que a compem, tambm possibilita a avaliao das proximidades medidas por escores de grau de pertencimento dos indivduos a cada um dos perfis extremos (GILES, 1988; MANTON et al., 1994). Um perfil extremo definido apenas para os indivduos cujos escores a esse perfil sejam iguais a 1 (indivduos com total pertencimento, chamados tipos puros), sendo caracterizado por um conjunto de probabilidades de resposta l do indivduo i (tipo puro) ao perfil k na varivel j, kjl. Cabe observar (e justificar) que, embora os perfis possam sintetizar grande parte da informao contida para os indivduos, muitos deles podem, naturalmente, apresentar caractersticas de mais de um perfil, em decorrncia da heterogeneidade existente nas populaes. O GoM utiliza um procedimento iterativo, que busca a convergncia de resultados, mas depende de uma matriz de probabilidades iniciais (kjl iniciais) como insumo para que o algoritmo possa ser executado. Consequentemente, dependendo da matriz inicial de valores fornecida pelo pesquisador1 ou gerada pelo programa (aleatoriamente ou de alguma outra forma especificada2), os resultados finais para os parmetros estimados podem variar em sucessivas execues. Essa constatao faz emergir uma preocupao natural do pesquisador interessado em encontrar uma descrio correta e fidedigna de seus dados: obter um modelo

1 O fornecimento de uma matriz de probabilidades iniciais pode ser derivado de instrumentos qualitativos, para minimizar a chance de se obter um modelo de mximo local. A matriz de probabilidade pode ser informada por tcnicas de entrevistas semiestruturadas ou resultante de discusses levantadas por grupos focais, baseando-se nas variveis de interesse. Nesse caso, espera-se que as probabilidades iniciais sejam direcionadas por prevalncias obtidas empiricamente. 2 H outras formas de definio da matriz inicial de probabilidades. Um procedimento til, em especial quando se deseja estabelecer perfis que guardem entre si uma estrutura de hierarquia, definir que a matriz seja gerada por PURE1, disponvel no programa GoM verso 3.4. Com esse procedimento, os componentes do perfil extremo 1, num modelo de K perfis, ter os valores mais baixos das categorias das J variveis internas utilizadas na definio do modelo final (GUEDES et al., 2009c). Finalmente, ressalte-se que h outros programas, como o DSI GOM (Decision System Inc. s.d), que utilizam outros procedimentos para dar incio ao processo de convergncia. No caso do DSI GOM, so muitas as restries impostas pelo programa, pois tanto a matriz de probabilidades iniciais quanto o nmero de perfis so condicionados por uma varivel denominada varivel indicadora, que previamente definida pelo pesquisador.

22

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

que seja identificvel, isto , com uma nica soluo. Com efeito, ao se empregar o procedimento de seleo aleatria para os primeiros kjl probabilidades representativas dos perfis extremos , pode-se chegar a resultados que correspondem a mximos locais, em vez de mximos globais (CAETANO; MACHADO, 2009). Isso ocorre porque o processo iterativo utilizado pelo algoritmo do programa GoM verso 3.4 no garante, por si s, a obteno de perfis extremos que representem de forma tima os tipos puros reais presentes na amostra. Em algumas circunstncias, no entanto, dado um modelo de K perfis, a mudana na localizao de um perfil extremo de sua posio k = 1 para k = 3, por exemplo, ocorre independentemente da questo da identificabilidade. Como a matriz inicial de probabilidades pode ser definida de modo aleatrio, possvel um perfil extremo k em uma execuo r qualquer estar localizado em outro k = k, quando analisado um modelo distinto com mesmo K, estimado em uma execuo r = r. Esse reposicionamento ocorre com muita frequncia ao longo das execues. Segundo Guedes et al. (2009a), durante a classificao da hierarquia urbana na Amaznia, Belm, frequentemente modificava sua posio nos perfis extremos. Trabalhando com um modelo de trs perfis extremos, na maioria das execues o terceiro perfil era o que concatenava as reas urbanas municipais de maior hierarquia. Em um nmero no desprezvel de execues, no entanto, a capital do Par e todas as demais reas urbanas municipais correlatas passavam a pertencer ao perfil extremo 2 ou 1. Assim, o perfil extremo 3 deixava, para aquela execuo, de incluir as reas urbanas de maior posio hierrquica. O problema da identificabilidade, portanto, no tem relao com a localizao do perfil extremo em sucessivas execues, mas refere-se dificuldade de se encontrar um perfil extremo que, independente da sua localizao (do seu k em um modelo de K perfis), represente uma soluo nica que

descreva as caractersticas definidoras dos tipos puros reais. Em adio ao reposicionamento dos perfis extremos em sucessivas execues aleatrias, o problema da convergncia parcial, como ser visto neste trabalho, interfere no somente na identificabilidade, mas tambm na estabilidade dos parmetros estimados pelo GoM. Assim, qualquer aplicao emprica do modelo GoM deve ser capaz de atender a essas duas propriedades: identificabilidade e estabilidade estrutural. Neste estudo, procurou-se avanar a questo de identificabilidade do modelo iniciada por Caetano e Machado (2009) , utilizando um procedimento operacionalmente simples que sugere a localizao emprica do modelo de mximo global. Tambm sugerida uma rotina que estabiliza os parmetros estimados, solucionando a questo da instabilidade desses. Tais procedimentos combinados procuram facilitar, ao usurio final, a seleo da melhor execuo que descreva seus dados. Em busca de uma medida de identificabilidade do modelo de mximo global O algoritmo 3 utilizado no programa GoM, verso 3.4, baseado em processo iterativo, gera dois problemas empricos principais: a identificabilidade do modelo no garantida (CAETANO; MACHADO, 2009); e existe instabilidade estrutural dos parmetros finais estimados. A identificabilidade refere-se estimao do modelo que melhor descreva tanto os perfis extremos (conjunto de kjl) quanto a heterogeneidade presente nos dados (gik). Quanto identificabilidade, os parmetros (gik e kjl) deveriam ter soluo nica, uma vez que, segundo Manton et al. (1994), os perfis extremos definidos com base em um conjunto convexo com a menor dimensionalidade capaz de incorporar toda a densidade de probabilidade so vrtices nicos e fixos no espao convexo (simplex). Na prtica, no entanto, os modelos finais em sucessivas execues variam, descrevendo vrtices

3 O algoritmo utilizado na verso 3.4 do programa GoM foi proposto por Woodbury e Clive (1974).

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

23

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

no-estveis, levando a aparentes mximos, ou mximos locais (no globais). O mximo global, portanto, deve representar, de alguma forma, os vrtices mais estveis e que melhor descrevam a heterogeneidade total da amostra. A instabilidade dos parmetros, por seu turno, est associada sua no-convergncia aos valores estveis aps a primeira soluo para o mximo da funo de verossimilhana, mais detalhada a seguir. Dados e procedimento para verificao emprica da convergncia e estabilidade Neste trabalho, sugere-se um procedimento operacional para que um modelo de mximo global possa ser identificado entre diversos modelos gerados, tendo como ponto de partida uma mesma base de dados. Para tanto, utilizou-se uma base de dados com informaes sobre classes de uso/cobertura do solo, estoque de gado e

produo agrcola entre pequenos agricultores residentes no entorno das cidades de Altamira, Brasil Novo, Medicilndia e Uruar, no Estado do Par (GUEDES et al., 2009d; VANWEY et al., 2008). Os dados referem-se a 2005 e a amostra selecionada com informaes vlidas totalizou 293 lotes rurais caracterizados por 28 variveis. Seguindo sugesto operacional de Caetano e Machado (2009), foram efetuadas aproximadamente 30 execues com seleo aleatria dos primeiros kjl (a matriz inicial de probabilidades utilizadas como valores de entrada durante o processo iterativo). Como existe o problema de identificabilidade, efetuaram-se 30 execues aleatrias para K = 2, K = 3, K = 4, K = 5 e, somente aps a obteno dos mximos globais para cada modelo de K variando de 1 a k perfis, calculou-se a estatstica AIC (Akaike Information Criterion) (AKAIKE, 1973) e compararam-se seus valores finais4 (Tabela 1).

TABELA 1 Valores do Critrio de Informao de Akaike (AIC), segundo nmero de perfis extremos dos sistemas de uso do solo Regio de estudo (1) 2005

Fonte: Dados de survey conduzido em Altamira (2005). (1) Compreende o entorno das cidades de Altamira, Brasil Novo, Medicilndia e Uruar, no Estado do Par. Nota: Frmula do AIC = 2p 2ln(L). L = funo de mxima verossimilhana.

4 Na verdade, o clculo do AIC para seleo final do modelo com o melhor nmero de perfis extremos foi efetuado so-

mente aps a identificao do mximo global com estabilidade dos parmetros (implementando o procedimento sugerido mais adiante, de autoalimentao dos valores de convergncia dos kjl como valores iniciais a cada nova execuo, at que a variao entre um kjl de uma execuo anterior e da seguinte fosse nula entre todas as estimativas, kjl, ao longo de todos os k perfis extremos). A seleo desse modelo final ao longo de vrios K no abordada aqui, trata-se do problema de seleo para K fixo.

24

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

O procedimento para identificao quantitativa do mximo global sugerida neste trabalho o seguinte: efetuar de 20 a 30 execues utilizando a matriz aleatria de parmetros iniciais de e kjl e gik; essas execues aleatrias devem ser realizadas para vrios modelos com K variando de 2 a aproximadamente 5 perfis extremos, ou at que o AIC atinja o ponto mnimo. Por exemplo, se AICK=4>AICK=5, devese tentar identificar um modelo com K = 6 e observar se AICK=6>AICK=5. Na prtica, o AIC mnimo encontrado antes de K = 5 (CAETANO; MACHADO, 2009).5 Neste trabalho, utilizou-se um modelo emprico para efeito ilustrativo, no qual o ponto de AIC mnimo ocorreu com K = 3, ou seja, um modelo com trs perfis extremos. A regra geral utilizar o modelo AICK que atenda restrio: AICK-1>AICK<AICK+1; para cada execuo com matriz inicial aleatria fixando K perfis, obtm-se o nmero de parmetros kjl igual a K multiplicado por J multiplicado por L (K*J*L). Por exemplo, em um modelo com L = 4, J = 30 e K = 3, tem-se um total de 360 estimativas de kjl; em r execues aleatrias, para uma mesma categoria l, de uma varivel j pertencente a um mesmo perfil k, obtm-se r probabilidades de resposta kjl. Assim, possvel calcular a mdia dessas probabilidades obtidas ao longo das r execues aleatrias, especfica por categoria de uma varivel em cada um dos perfis extremos e, ento, obter uma estatstica de desvio em relao mdia (DM), ao subtrair

cada uma destas probabilidades a mdia da distribuio:

onde: DMkjl,r o desvio da probabilidade estimada (kjl) na r-sima execuo em relao mdia das probabilidades em r execues; kjl a probabilidade de resposta l da varivel j no perfil k, definida para os k tipos puros; r o nmero de execues; em situao de convergncia para um mesmo valor em execues aleatrias sucessivas, o somatrio de DMkjl,r, ao longo de todas as execues, seria zero em mdulo. Na prtica, contudo, o nmero de vezes em que o desvio da mdia de uma categoria de uma varivel em um perfil especfico igual a zero sempre menor que r, resultando somatrio no nulo. Para encontrar qual a posio dos desvios em termos de hierarquia do menor para o maior desvio mdio a cada execuo r, por perfil k, possvel estabelecer uma estatstica de contagem ao longo das l categorias das variveis j, ou seja, o nmero de vezes em que o desvio calculado para cada um dos k perfis igual a zero. A estatstica de desvio contabilizada ao longo das categorias, l, por execuo, e no mais ao longo das execues; a condio anterior fornece uma distribuio de nmero de vezes em que o desvio mdio igual a zero para cada execuo. importante ressaltar que o K aqui corresponde ao nmero de perfis

5 Isso nem sempre verdade quando se utiliza o critrio da razo de mxima verossimilhana. Vrios estudos empricos

(CASSADY et al., 2001; WOODBURY; CLIVE, 1974), baseando-se no teste da razo de mxima verossimilhana, chegaram a modelos finais com 10 a 15 perfis extremos. A vantagem de utilizar a estatstica AIC que ela penaliza um modelo com mais perfis, pois considera o nmero de parmetros, ao contrrio do teste da razo de mxima verossimilhana, que se baseia somente no valor final de L entre dois modelos aninhados.

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

25

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

previamente definido. Ou seja, se K = 2, ento tem-se o clculo das estatsticas DM para k = 1 e k = 2. Importante lembrar que o valor de DM influenciado por trs fatores: nmero de execues (r); relao (kjl - kjl(mdio)); e nmero de categorias (l); para cada conjunto de probabilidades kjl, para um dado k, pode-se definir a classificao do nmero de vezes em que o desvio mdio foi igual a zero (r = 1, ... , 30). Quanto maior o nmero de desvios nulos, maior a posio em termos de classificao para aquela execuo r especfica; no entanto, em um modelo com trs perfis, por exemplo, k = 1, 2, 3, a execuo aleatria de maior posio em termos de desvio mdio pode diferir entre os perfis. Assim, para a obteno do mximo global, necessrio que as 30 execues (r = 1, ..., 30) sejam classificadas, em ordem crescente, para cada perfil (com 1 representando a melhor

posio e 30 a inferior). A aplicao do procedimento aos sistemas de uso do solo, na regio de Altamira, Par (VANWEY et al., 2008) deu origem classificao apresentada na Tabela 2, com k=1, 2, 3 perfis extremos definidos; a Tabela 2 explicita que, para cada perfil extremo, k, a execuo aleatria, r, com o nmero mximo de desvios nulos difere. Por exemplo, para k = 1, r(DMmx) = R05; para k = 2, r(DMmx) = R09; e, por fim, para k = 3, r(DMmx) = R20. Para encontrar o melhor ajuste final ao longo dos k perfis, pode-se reordenar cada perfil k ascendentemente pela execuo, r, e alcanar a mdia entre as posies obtidas nos K perfis (Tabela 3); para identificar o mximo global, portanto, basta selecionar a execuo cuja classificao mdia foi menor (ltima coluna da Tabela 3). No exemplo, a execuo contendo o mximo global, no caso de trs perfis extremos, foi a R05.

TABELA 2 Classificao da somatria de DMkjl,r= 0 (# DM), por perfil e execuo Regio de estudo (1) 2005 (n=293)

(continua)

26

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

(continuao)

Fonte: Dados de survey conduzido em Altamira (2005). (1) Compreende o entorno das cidades de Altamira, Brasil Novo, Medicilndia e Uruar, no Estado do Par.

TABELA 3 Classificao da somatria de DMkjl,r= 0 (# DM), por perfil e execuo e classificao mdia da somatria de DMkjl,r= 0(# DM) por execuo Regio de estudo (1) 2005 (n=293)

Fonte: Dados de survey conduzido em Altamira (2005). (1) Compreende o entorno das cidades de Altamira, Brasil Novo, Medicilndia e Uruar, no Estado do Par

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

27

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

A aplicao dessa rotina deve ser feita com cautela, devido ao reposicionamento dos tipos puros ao longo de execues sucessivas conforme j mencionado. Considerando que o mesmo tipo puro real pode mudar de posio k = n para k = m, com n m, em R execues, na prtica tem-se observado que a frmula do desvio mdio deve ser aplicada com a devida preocupao de reordenao dos K perfis, de modo que k = 1 (por exemplo) tenha estrutura semelhante de kjl em todas as R execues. Ou seja, perfis extremos com conjuntos de probabilidades semelhantes devem estar na mesma posio e esta ordenao cabe ao pesquisador, especialmente no caso de matrizes de probabilidades aleatrias (o programa no sabe esta ordem). Esse procedimento evita que um falso problema de identificabilidade penalize, de forma indevida, a posio (ranking) daquele modelo ao longo das R execues. Estabilidade dos parmetros num modelo de mximo global Uma vez solucionado o problema de identificabilidade, importante observar a estabilidade estrutural dos parmetros esti-

mados pelo modelo GoM quando utilizado o programa GoM verso 3.4. Tendo em vista que o programa utiliza um algoritmo baseado em processo iterativo6 (WOODBURY; CLIVE, 1974) para obter o valor mximo da funo de mxima verossimilhana, seria esperado que os valores finais de kjl e gik fossem estveis. Em outras palavras, se utilizarmos os kjl e gik estimados (aps o processo iterativo com base em probabilidade designada aleatoriamente) como valores iniciais para uma nova execuo do modelo (dentro do sistema de iterao dos parmetros), seria esperado que esses parmetros convergissem sempre para os mesmos nveis. Na prtica, no entanto, o processo iterativo do programa GoM verso 3.47 no estabiliza os parmetros completamente, restando pequenas diferenas em relao aos valores estveis finais. A ocorrncia dessa instabilidade resulta do fato de a verso GoM 3.4 (e a anterior 3.3) no suprimir os valores iniciais de kjl estimados na primeira iterao (quando kjl estimados de uma rodada anterior so providos), embora o faa para os parmetros gik, reduzindo a chance de replicar perfeitamente as probabilidades estimadas finais (Tabela 4).

TABELA 4 Valores absolutos da mdia da mudana nas probabilidades estimadas por categoria de variveis utilizadas no delineamento dos perfis extremos Regio de estudo (1) 2005

Fonte: Dados de survey conduzido em Altamira (2005). (1) Compreende o entorno das cidades de Altamira, Brasil Novo, Medicilndia e Uruar, no Estado do Par.

6 A partir do programa GoM 3.1 j era possvel utilizar um mtodo de soluo alternativo, chamado de mtodo gradiente. 7 Considerando o mtodo padro de entrada dos parmetros gamma (g ). O mtodo padro assume que todos os graus ik

A diferena entre o mtodo tradicional e o gradiente est no processo e no no resultado da otimizao. de pertencimento iniciais aos perfis extremos sejam idnticos, ou seja: .

28

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

Sugere-se, portanto, que, para cada execuo aleatria utilizada na identificao do mximo global, sejam efetuadas R execues no-aleatrias (utilizando valores de kjl previamente estimados) at que os valores de ljk se estabilizem a partir de cada execuo aleatria inicial. Com os valores estabilizados, deve-se proceder a segunda execuo aleatria e repetir o procedimento, at obter as 30 rodadas utilizadas na obteno do mximo global, porm com valores dos parmetros estabilizados nos seus valores finais. Uma forma prtica para identificar a rodada final com os parmetros estveis utilizar o seguinte procedimento: para cada execuo, r, com mtodo de incluso inicial de lambda aleatrio ( random input lambda procedure), tomar os valores finais de kjl estimados aps o processo iterativo e utiliz-los como insumo inicial para uma nova execuo. Dessa vez, em vez de empregar o procedimento de incluso inicial de probabilidades aleatrias, o usurio estar partindo das probabilidades estimadas anteriormente. Esses valores utilizados, como j passaram por um processo iterativo no programa GoM verso 3.4, deveriam ser estveis, mas no o so; o usurio dever continuar utilizando sempre os valores estimados de kjl aps a convergncia da funo de verossimilhana no seu valor mximo at que: para A execuo r - 1, em que a condio acima for atendida, representa o modelo com estabilidade estrutural

dos parmetros finais estimados pelo GoM. A partir dessa execuo, as subsequentes devero atender condio mencionada. Esse procedimento deve ser repetido no caso de instabilidade estrutural dos graus de pertencimento (gik). Consideraes finais O modelo de GoM, mais especificamente o software GoM verso 3.4, tem sido utilizado por vrios pesquisadores pelas mais variadas razes, porm, h dvidas e lacunas que permanecem quanto implementao de todos os passos na busca do modelo mais fidedigno e, desejavelmente, nico (identificvel). Neste artigo, avanouse acerca da discusso da identificabilidade do modelo Grade of Membership e da estabilidade dos parmetros estimados por processo iterativo. A importncia da identificabilidade j foi discutida em trabalho anterior (CAETANO; MACHADO, 2009). Contudo, os autores no propuseram uma rotina operacional para a localizao emprica de um modelo de mximo global. Foi proposto, aqui, um procedimento simples de identificao quantitativa de um modelo de mximo global, ou seja, um modelo identificvel em que seus parmetros, kjl e gik, possuem soluo nica. A variabilidade presente na estatstica de identificao sugerida (DM) ocorre em razo de dois possveis fatores: erros de medio das variveis, que podem ser repassados para o modelo final;8 e instabilidade estrutural dos parmetros. Assim, tambm sugeriu-se um procedimento que estabilize os parmetros obtidos por meio de processo iterativo. O critrio utilizado para identificao do mximo global pode ser influenciado pelo

8 Erros na medio de uma varivel em particular podem gerar imprecises nas associaes que se desejam estudar.

Por exemplo, utilizar uma varivel como autopercepo de sade para relacionar com a ocorrncia de uma determinada doena pode levar a concluses esprias, devido aos vieses j estabelecidos na medio desta varivel (SILVEIRA et al., 2002). O mtodo GoM, que atua por meio da gerao de novas variveis contnuas com base nas associaes presentes entre um grupo de variveis, ameniza este problema, gerando uma varivel latente, por exemplo, sade, que agrega caractersticas de todas as variveis relacionadas ao conceito de sade.

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

29

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

nmero de execues (r). Possivelmente, quanto maior o nmero de execues, mais certamente chegar-se- prximo do mximo global. Experincias com diferentes bases de dados dos autores deste estudo indicam que, em simulaes com 20, 30, 50 e 100 execues aleatrias iniciais, o mximo global tendia a se repetir a partir de 30 execues, consideradas o nmero mnimo necessrio de execues. As vantagens e desvantagens relativas ao uso do software GoM 3.4 j foram descritas em trabalhos prvios (ver, por exemplo, PEREIRA et. al., 2007). Os procedimentos aqui sugeridos pretendem tornar a utilizao emprica do modelo Grade of Membership mais intuitiva para os usurios finais. Tendo em vista a necessidade de uma matriz inicial para que o processo de convergncia ocorra, procurou-se explicitar claramente o que fazer para se obter um modelo final que seja adequado, estabelecendo um conjunto de etapas a serem seguidas. Alm disso, importante que os pesquisadores tomem conhecimento de como responder a crticas em relao identificabilidade, uma potencial fonte de resistncia aplicao de modelagem baseada no GoM. A aplicao emprica do GoM na rea das cincias sociais tem-se resumido construo de perfis e anlise de prevalncias. Alguns estudos recentes avanaram utilizando o mtodo para definio de hierarquias (GARCIA et al., 2007; GUEDES et al., 2009a, b e d). O modelo GoM, no entanto, ainda possui potenciais inexplorados nas reas de cincias sociais aplicadas, como a anlise de prognsticos (MANTON et al., 1994). Para as cincias sociais, o mtodo GoM uma ferramenta estratgica, uma vez que da natureza desse campo do conhecimento trabalhar com variveis categricas e/ou com a categorizao das variveis contnuas para anlise comparativa. A maioria dos mtodos de anlise multivariada demanda variveis contnuas, o que torna o mtodo GoM atrativo. Ademais, o GoM pode ter outros fins alm da identificao de padres de associao que tipifiquem os elementos de um conjunto de forma mais condizente com a complexidade da realidade social,

na qual a dicotomia pertencimento-no pertencimento a um determinado conjunto de caractersticas especficas raramente vlida. Os perfis delineados podem ser utilizados, por exemplo, para estabelecer os critrios para o recrutamento da participao em grupos focais ou entrevistas em profundidade (MIRANDA-RIBEIRO et al., 2007) e para a identificao de variveis relevantes na composio de indicadores sintticos. Essas qualidades fazem do GoM uma alternativa vivel para anlise de bancos de dados de complexidade varivel, alm de oferecer suporte para estudos interdisciplinares colaborativos que incluem abordagens quantitativas e qualitativas. Cabe observar que os procedimentos aqui propostos constituem um primeiro passo em direo busca de um modelo estvel. necessrio que os usurios conheam as potencialidades, limitaes e procedimentos necessrios para a construo de um modelo que descreva as associaes implcitas e revele os padres mais frequentes dos dados de forma fidedigna. Trabalhos futuros poderiam enfatizar a possibilidade de se gerar uma estimativa de intervalo de confiana para a identificabilidade. Uma ideia seria que, conhecendo os valores de jl para cada categoria em vrias execues (r) para um mesmo perfil (k), basta que se calcule o erro-padro de DM e se estime o intervalo de confiana. Assim, pode-se obter o mximo global baseando-se nos valores inferior e superior do intervalo de confiana a 5% de significncia. Finalmente, importante observar que este trabalho possui uma limitao. Os procedimentos tcnicos sugeridos foram aplicados a apenas uma base de dados e seria de grande utilidade empregar estas tcnicas a outras bases empricas. Com efeito, existem situaes nas quais, naturalmente, no seria possvel encontrar grupos ou perfis, no caso de bancos de dados com entropia mxima, em que cada indivduo na amostra seria to diferente que a convergncia em torno de um conjunto de probabilidades estimadas definidoras de tipos puros no poder-se-ia concretizar (PEREIRA et al., 2007). Nestes casos, a procura de agrupamentos no seria uma estratgia de anlise adequada.

30

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

Referncias AKAIKE, H. Information theory and an extension of the maximum likelihood principle. In: PETROV, B. N.; CSAKI, F. (Eds.). Second International Symposium on Information Theory. Budapest: Akademia Kiado, 1973, p. 267-281. ALVES, L. C.; LEITE, I. C.; MACHADO, C. J. Perfis de sade dos idosos no Brasil: anlise da Pesquisa Nacional por Amostra de Domiclios de 2003 utilizando o mtodo Grade of Membership. Cadernos de Sade Pblica, v. 24, n. 3, p. 535-546, 2008. CAETANO, A. J.; MACHADO, C. J. Consistncia e identificabilidade no modelo Grade of Membership: uma nota metodolgica. Revista Brasileira de Estudos de Populao, v. 26, n. 1, p. 145-149, 2009. CASSADY, F.; PIEPER, C. F.; CARROL, B. J. Subtypes of mania determined by Grade of Membership Analysis. Neuropsychopharmacology, v. 25, n. 3, p. 373-383, 2001. DRUMOND, E. F.; MACHADO, C. J.; FRANCA, E. bitos neonatais precoces: anlise de causas mltiplas de morte pelo mtodo Grade of Membership. Cadernos de Sade Pblica, v. 23, n. 1, p. 157-166, 2007. DECISION SYSTEMS INC, s.d. Disponvel em: <http://www.dsisoft.com/grade_of_ membership.html>. Acesso em: 15 mar. 2009. GARCIA, R. A.; SOARES-FILHO, B. S.; SAWYER, D. O. Socioeconomic dimensions, migration, and deforestation: an integrated model of territorial organization for the brazilian Amazon. Ecological Indicators, v. 7, n. 3, p. 719-730, 2007. GILES, R. The concept of Grade of Membership. Fuzzy Sets and Systems, v. 25, n. 3, p. 297-323, 1988. GUEDES, G. R.; COSTA, S. M.; BRONDIZIO, E. S. Revisiting the hierarchy of urban areas in the brazilian Amazon: a multilevel approach. Population & Environment , v. 30, p. 159-192, 2009a. GUEDES, G. R.; COSTA, S. M.; BRONDIZIO, E. S. Hierarchy of urban areas in the brazilian Amazon and its environmental implications. UGEC Viewpoints , n. 2, p. 25-27, 2009b. GUEDES, G. R.; QUEIROZ, B. L.; VANWEY, L . K. Transferncias intergeracionais privadas na Amaznia rural brasileira. Nova Economia, v. 19, n.2, 2009c. GUEDES, G. R.; RESENDE, A. C.; BRONDIZIO, E. S.; PENNA-FIRME, R. P .; CAVALLINI, I. Poverty dynamics and income inequality in the eastern brazilian Amazon: a multidimensional approach. In: XXVI IUSSP CONFERENCE. Anais... Marrakesh, Marrocos, 2009d. Guimares, M. D. C.; Oliveira, H. N.; Campos, L. N.; Santos, C. A.; Gomes, C. E. R.; Oliveira, S. B.; FREITAS, M. I. F.; ACURCIO, F. A.; MACHADO, C. J. Reliability and validity of a questionnaire on vulnerability to sexually transmitted infections among adults with chronic mental illness: PESSOAS Project. Revista Brasileira de Psiquiatria, v. 30, n. 1, p. 55-59, 2008. MANTON, K. G.; WOODBURY, M. A.; TOLLEY, H. D. Statistical application using fuzzy sets. Nova York: John Wiley & Sons, 1994. MELO, F. L. B. Casais na Grande So Paulo: investigando a diversidade. Nova Economia, v. 17, n.2, p. 207-240, 2007. MIRANDA-RIBEIRO, P .; SIMO, A. B.; CAETANO, A. J.; PERPTUO, I. H. O.; LACERDA, M. A.; TORRES, M. E. A. Acesso contracepo e ao diagnstico do cncer de colo uterino em Belo Horizonte: uma contribuio metodolgica aos estudos quanti-quali. Revista Brasileira de Estudos de Populao, v. 24, p. 341-344, 2007. PEREIRA, C. C. A.; MACHADO, C. J.; RODRIGUES, R. N. Perfis de causas mltiplas de morte relacionadas ao HIV/AIDS nos municpios de So Paulo e Santos, Brasil, 2001. Cadernos de Sade Pblica, v. 23, n. 3, p. 645-655, 2007.

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

31

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

SAWYER, D. O.; LEITE, I. C.; ALEXANDRINO, R. Perfis de utilizao de servios de sade no Brasil. Cincia e Sade Coletiva, v. 7, n. 4, p. 757-776, 2002. SILVEIRA, M. F.; BERIA, J.; HORTA, B. L.; TOMASI, E. Self-assessment of STD/AIDS vulnerability among women, Brazil. Rev. Sade Pblica, v. 36, n. 6, p. 670-677, 2002. VANWEY, L. K.; GUEDES, G. R.; DANTONA, A. O. Land use trajectories after migration and land turnover. In: POPULATION ASSOCIATION OF AMERICA ANNUAL MEETING. Anais New Orleans, 2008. Resumen

VELOSO, A. A.; SIQUEIRA, G. M.; PSSAS, B. A. V. E.; MEIRA JUNIOR, W.; CARVALHO, M. L. B. Minerao incremental de regras de associao. In: XVI SBBD SIMPSIO BRASILEIRO DE BANCO DE DADOS. Anais... Rio de Janeiro, 2001. WOODBURY, M. A.; CLIVE, J. Clinical pure types as a fuzzy partition. Journal of Cybernetics and Systems, v. 4, n. 3, p. 111-121, 1974.

Identificabilidad y estabilidad de los parmetros en el mtodo Grade of Membership (GoM): Consideraciones metodolgicas y prcticas El mtodo Grade of Membership (GoM) ha sido cada vez ms utilizado por los demgrafos brasileos y tiene la ventaja de poseer un parmetro que mide la heterogeneidad individual, sobre la base de las correlaciones no observables entre las categoras de respuesta de las variables de inters, generando una medida del grado de pertenencia de cada individuo a perfiles extremos. Algunos autores, sin embargo, destacan cuestiones importantes en la calibracin de los modelos finales que utiliza el programa GoM versin 3.4, como el problema de identificabilidad soluciones mltiples para parmetros estimados. En este artculo, se sugiere un procedimiento capaz de identificar un modelo final con una solucin nica que describa los tipos puros de mayor fidelidad con respecto a la base de datos, con una intencin de optimizacin. Para ilustrar este proceso, se utiliz una base de dados correspondiente a un relevamiento econmico y socio-demogrfico de una poblacin de pequeos agricultores residentes a lo largo de la Autopista Transamaznica, en el Estado de Par. Tambin se identific la existencia de inestabilidad en los parmetros estimados por el programa GoM 3.4, y se propuso un mtodo de estabilizacin de sus valores. Con esos procedimientos combinados, los usuarios del programa GoM 3.4 podrn describir su base de dados en forma ms adecuada y responder a las crticas sobre cuestiones de identificabilidad y estabilidad de los modelos resultantes. Estas soluciones empricas son relevantes porque afectan clculos de superioridad y de incidencia de eventos de inters, adems de traer consecuencias importantes sobre el punto y el momento correctos para las intervenciones de polticas pblicas o de planificacin prospectiva en anlisis de proyeccin. Palabras-clave: Grade of Membership. Identificabilidad. Estabilidad. Mximo global. Conjuntos nebulosos. Abstract Identifiability and stability of standards in the Grade of Membership (GoM) method: methodological and practical considerations The Grade of Membership (GoM) method has been increasingly employed by Brazilian demographers, and has the advantage of including a parameter that measures individual heterogeneousness on the basis of non-observable correlations among the categories of

32

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

Guedes, G.R. et al.

Identificabilidade e estabilidade dos parmetros no mtodo Grade of Membership (GoM)

responses to variables of interest. The parameter shows each individuals degree of membership to extreme profiles. Several authors, however, have called attention to important issues in adjusting the final models that use 3.4 Version of the GoM Program, such as the problem of identifiability multiple solutions for estimated parameters. In this article a procedure is discussed that is able to identify a final model with a single solution that describes the pure types that are the most reliable for the database, in an attempt at streamlining. To illustrate this process, a database was used with data corresponding to an economic and sociodemographic study of a population of small farmers living along the TransAmazon Highway, in the northern State of Par, Brazil. The existence of instability in the parameters estimated by the GoM 3.4 Program was also identified and a method of stabilization of its values was proposed. With these combined procedures, users of the GoM 3.4 Program will be able to describe their databases more adequately and respond to criticisms regarding the identifiability and stability of the resulting models. These empirical solutions are significant. Not only do they affect calculations of prevalence and incidence of events of interest, they also bring about important consequences at the correct point and correct moment for interventions of public policies or of prospective planning in projection analyses. Keywords: Grade of Membership Method. Identifiability. Stability. Global maximum. Fuzzy sets. Recebido para publicao em 23/12/2009 Aceito para publicao em 31/03/2010

R. bras. Est. Pop., Rio de Janeiro, v. 27, n. 1, p. 21-33, jan./jun. 2010

33