Beruflich Dokumente
Kultur Dokumente
espacializao de probabilidades
EDUARDO M. VENTICINQUE1*
JULIANA STROPP CARNEIRO2
MARCELO PAUSTEIN MOREIRA2
LEANDRO FERREIRA3
1
2
3
RESUMO
Neste trabalho discute-se o uso de modelos de regresso logstica em anlises espaciais,
fazendo uma breve introduo sobre regresses logsticas e usando estudos de casos da aplicao desta tcnica em estudos ecolgicos, utilizando aplicativos de Sistemas de Informao
Geogrfica.
ABSTRACT
In this chapter we discussed the use of logistic regression models in spatial analyses, doing a brief
introduction on logistic regression and your application in some study cases related to ecology
studies using with tools the Geographic Information System.
I NTRODUO
A regresso logstica vem sendo utilizada nas mais diversas reas da cincia. Este mtodo, assim como as
regresses lineares e mltiplas, estuda a relao entre
uma varivel resposta e uma ou mais variveis independentes. A diferena entre estas tcnicas de regresso se deve ao fato de que na regresso logstica as
variveis dependentes esto dispostas em categorias,
enquanto na regresso linear estas variveis so dados
contnuos ou discretos. Outra diferena que na regresso logstica a resposta expressa por meio de uma
probabilidade de ocorrncia, enquanto que na regresso simples obtm-se um valor numrico (Penha, 2002).
assumido que y representa uma distribuio de probabilidades, ou quando simplesmente expresso como
uma medida binria que estamos tentando predizer.
Apesar da diferena entre os dois grficos, o modelo
linear e o logstico so variantes um ao outro. Assumindo a varivel preditora (x), o modelo linear :
y = xb + e,
onde y um vetor de observaes, x uma matriz
dos preditores, e e um vetor de erros.
Enquanto que o modelo logstico :
TIPO
NMERO DE
CATEGORIAS
CARACTERSTICAS
Binria
Dois nveis
Ordinal*
3 ou +
Nominal*
3 ou +
Coeficientes e constantes
Podemos avaliar os coeficientes obtidos pela regresso
logstica de forma parecida com a que fazemos em uma
regresso linear. No entanto, sua interpretao diferente. O coeficiente da regresso logstica indica o
quanto aumenta a probabilidade de ocorrncia de um
evento para o aumento de uma unidade na varivel
independente. O coeficiente pode ser positivo ou negativo. No caso de um coeficiente positivo, quanto
maior for seu valor, maior ser o poder preditivo da
varivel independente sobre a probabilidade de ocorrncia de um evento. No entanto, a probabilidade de
0 a 1 resultado de uma funo no linear da probabilidade de ocorrncia de um evento.
muito importante lembrar o que quer dizer, em
termos de interpretao, uma funo no linear. Na regresso linear o acrscimo (ou decrscimo) do valor de
y em funo do acrscimo de x constante ao longo de
toda escala de valores de x. J na regresso logstica
isto no acontece, havendo reas onde essa mudana
mais pronunciada e outras onde ela nem ocorre. As reas
onde pequenas variaes nos valores de x causam grandes mudanas nos valores de y representam reas de
maior probabilidade de mudana de estado da varivel
y em funo de x.
Na Figura 2 podemos visualizar o efeito da variao dos valores da constante e dos coeficientes sobre
a curva de probabilidade estimada a partir de regresso logstica. O grfico da Figura 2a foi obtido somente
com a troca dos valores da constante (intercepto) e
podemos notar que as formas das curvas so exatamente as mesmas e a nica mudana sua localizao
no eixo x. Em outras palavras, todo modelo de regresso logstica tem seus limites entre 0 e 1, s que muitas vezes estes limites esto fora do nosso intervalo
de amostragem ou mesmo no so plausveis de acontecer, por exemplo, como valores negativos de distncia. Neste caso, no possvel visualizar em que
intervalo de x as probabilidades alcanam valores
prximos de 1. J na Figura 2b temos uma situao
distinta, onde a alterao dos coeficientes com uma
constante fixa causa mudanas evidentes na distribuio da probabilidade de ocorrer um evento em funo da mudana de valores no eixo x. Podemos notar
que quanto maior o coeficiente, maior a mudana
na probabilidade estimada em funo de mudanas
no x. De forma simplificada, podemos dizer que o coeficiente modela a curva enquanto que a constante a
localiza em funo do x.
27
(a)
(b)
FIGURA 2 Modelos de regresso logstica obtidos com
alteraes somente na constante (a) e no coeficiente (b).
T ESTES
OBSERVAES
Rho2 de McFadden
Rho2 de McFadden uma transformao da estatstica
de LR para imitar um R2 da regresso linear. Seus valores esto sempre entre 0 e 1 e, quanto mais alto, melhor o ajuste do modelo aos resultados. Entretanto, o
Rho2 de McFadden tende a ser muito mais baixo que R2.
Porm, baixos valores no implicam, necessariamente,
num ajuste pobre. Valores entre 0,2 e 0,4 so considerados satisfatrios (Hensher & Johnson, 1981).
Pearson
Mede quo bem a observao prevista pelo modelo.
Observaes que no se ajustam bem ao modelo tm
um alto valor de Pearson.
Hosmer-Lemeshow
Este teste avalia o modelo ajustado, comparando as freqncias observadas e as esperadas. O teste associa os
dados s suas probabilidades estimadas, da mais baixa
mais alta, e ento faz um teste qui-quadrado para determinar se as freqncias estimadas esto prximas das
freqncias observadas (Hosmer & Lemeshow, 1989).
Diagnsticos de regresso
Na regresso logstica, a representao grfica permite
visualizar vrios testes de ajuste, sendo que h grficos relacionados probabilidade do evento e outros
relacionados alavancagem (que diz se uma observao um ponto extremo e possui uma forte influncia
na determinao da reta de regresso, o que diminui a
capacidade de anlise do modelo). A inspeo grfica
realizada com base nos pontos extremos de influncia
(ou outliers). Em alguns casos, o ponto que foi identificado como extremo deve ser excludo da amostra e,
em seguida, deve ser novamente calculada a equao e
o grfico. Quando os coeficientes desta nova equao
forem muito diferentes dos coeficientes da antiga, significa que aquele era um ponto de influncia. Se o contrrio ocorrer, significa que aquele ponto era apenas
um ponto extremo. A deciso de se remover dados da
amostra deve ser procedida com muito critrio e cuidado. Geralmente, existem informaes importantes
nestes pontos discrepantes. Por exemplo, os grficos
do delta qui-quadrado (DELPSTAT) versus probabilidade
do evento identificam os pontos que no se ajustam
bem aos modelos.
Em diversos pacotes estatsticos pode-se criar um
arquivo para elaborar diagnsticos da regresso logstica (Pregibon, 1981; Cook & Weisberg, 1984; Steinberg
& Colla, 1998). No caso do programa SYSTAT, o arquivo
contm as variveis apresentadas na Tabela 2.
Podemos entender a varivel: LEVERAGE (1) como
uma medida da influncia de uma observao no ajuste
do modelo, e a varivel DELBETA (1) como uma medida
da mudana no vetor do coeficiente devido quela observao. Por exemplo, os grficos de PEARSON,
DEVIANCE, LEVERAGE (1), DELPSTAT, com o CASO, destacam pontos de dados diferenciados. Para discusso
adicional e interpretao de grficos de diagnstico,
veja o Captulo 5 de Hosmer & Lemeshow (1989).
29
LEGENDA
Valor da varivel dependente
Valor predito (1 ou 0)
Probabilidade predita
Elemento diagonal da matriz
chapu de Pregibon
Componente de LEVERAGE (1)
Resduo de observao de Pearson
Varincia de resduo de Pearson
Resduo de Pearson padronizado
Desvios Residuais
Mudana no x2 de Pearson
Mudana padronizada em Beta
Mudana padronizada em Beta
Mudana padronizada em Beta
Validao do modelo
Assim como a maioria dos mtodos, a regresso logstica necessita de novos dados (nova amostra) ou de uma
amostra reservada dos dados para verificar se o mesmo
modelo pode ser satisfatoriamente ajustado a estes
novos dados. Ou seja, preciso determinar se os coeficientes e os erros-padro obtidos a partir dos dados
utilizados para elaborao do modelo so similares aos
obtidos para os dados de validao.
O uso de regresso logstica na anlise espacial
Fizemos uma consulta bibliogrfica (www.webofscience.
com) a partir das palavras-chave regresso logstica e
Sistemas de Informao Geogrfica e obtivemos 93
trabalhos publicados ao longo de 58 anos. O uso das
regresses logsticas associado a Sistemas de Informao Geogrfica comeou a ser mais praticado a partir
de 1990 (Figura 3). De 1999 at 2003 foram publicados, em mdia, 14 trabalhos por ano.
E XEMPLOS
Aqui vamos citar trs exemplos onde tcnicas de regresso logstica simples so utilizadas. O leitor poder reparar que o uso pode ter variao na escala
espacial empregada, podendo ser usada desde a deteco de respostas de Odonata proporo de florestas circundando igaraps na Amaznia central at
modelos de desflorestamento em funo da malha
viria na Amaznia Legal. Outra caracterstica relevante diz respeito s diferentes formas com que estes
modelos podem ser usados. H casos, como no exemplo da probabilidade de ocorrncia de espcies de
Odonata em funo da quantidade de floresta, onde
os resultados no so reprojetados, ou seja, no h
espacializao das probabilidades, pois estvamos interessados simplesmente em saber se h influncia da
quantidade de floresta preservada ao longo dos pequenos cursos dgua sobre a ocorrncia de determinadas espcies.
No estudo realizado com distribuio de rvores na
Mil Madeireira Itacoatiara Ltda, as probabilidades de
ocorrncia de cada espcie foram projetadas no espao,
utilizando como base os mapas de altitude e declividade (variveis independentes). Neste caso, foi utilizada
uma regresso logstica mltipla e o modelo pode ser
considerado espacialmente explcito, pois podemos localizar, no espao, todas as probabilidades.
Outro exemplo em que o espao continua implcito,
mas as probabilidades no so projetadas no mapa, o
trabalho sobre a importncia das unidades de conservao e terras indgenas, ajudando a conter o desmatamento na Amaznia brasileira. Nesse caso, a regresso
logstica foi utilizada para entender a probabilidade de
uma rea florestada ser convertida em rea desflorestada, considerando se est localizada dentro ou fora
de uma terra indgena ou unidade de conservao, e a
distncia que est da malha viria.
O que tentamos aqui, por meio destes exemplos,
oferecer ao leitor um panorama geral de alguns usos
que podemos ter com regresso logstica, e tambm
chamar ateno para o uso da tcnica com problemas
espaciais.
Mudanas na fauna de odonatas em igaraps
amaznicos, em funo de alteraes na cobertura
vegetal
Este estudo, realizado na Amaznia central, estima a
probabilidade de ocorrncia de espcies de odonatas
em funo da quantidade de floresta. Neste estudo, o
pesquisador Dr. Paulo de Marco estava interessado em
saber se existe influncia da quantidade de floresta preservada ao longo dos pequenos cursos de gua sobre a
ocorrncia de determinadas espcies de odonatas. O
resultado ajuda a avaliar se a largura da mata ripria
prevista no Cdigo Florestal Brasileiro suficiente para
manter o conjunto de espcies de odonatas.
Probabilidade de ocorrncia de uma espcie =
exp ( % de cobertura florestal * coeficiente +
Intercepto + erro) / [1 + exp (% de cobertura florestal
* coeficiente + Intercepto+ erro)]
31
(Carneiro, 2004). Este trabalho teve como objetivo elaborar modelos preditivos de ocorrncia de Aniba
roseaodora (pau-rosa), Cariniana micrantha, Caryocar
villosum, Dinizia excelsa, Dipteryx odorata, Goupia
glabra, Manilkara bidentata, Manilkara huberi, Parkia
multijuga, Parkia pendula, Peltogyne paniculata e
Pseudopiptadenia psilostachya em funo da topografia. Estimamos a probabilidade de ocorrncia dos indivduos com regresso logstica mltipla, sendo a varivel dicotmica a presena e a ausncia dos indivduos,
e as variveis contnuas a altitude e a declividade do
terreno. As informaes sobre a ocorrncia das rvores
foram cedidas pela Mil Madeireira Itacoatiara Ltda. Os
dados sobre a ocorrncia dos indivduos arbreos foram coletados pela empresa durante a prospeco e o
mapeamento das rvores com DAP 40 cm. As informaes sobre a ocorrncia das rvores consistem em
um arquivo do tipo pontos, em formato shapefile, com
a lista de espcies e as coordenadas da localizao dos
indivduos em UTM. Convertemos esse arquivo para o
formato matricial e obtivemos um arquivo do tipo GRID,
com clulas de 93 m. Elaboramos o Modelo Digital do
Terreno a partir dos dados do Shuttle Radar Topography
Mission (SRTM) e adquirimos os dados sobre altitude
no site http://seamless.usg.gov. Para a correo geomtrica, utilizamos como base uma imagem Landsat
TM 7 (rbita/ponto 230/62) georreferenciada (projeo
UTM zona 21; datum WGS 84). Posteriormente, coregistramos a imagem SRTM com a base dos igaraps
da rea de interesse digitalizada. Para obter os parmetros da regresso logstica, exportamos os dados do
ArcView 3.2 e os analisamos em um pacote estatstico.
Posteriormente, aplicamos as equaes obtidas nos
modelos logsticos aos temas de altitude e declividade
e obtivemos os mapas de probabilidade de ocorrncia
de indivduos (ver anexo). Deste modo, estes mapas
expressam a probabilidade de ocorrncia dos indivduos em clulas de 93 m, dada a altitude e declividade
daquela clula.
COEFICIENTE BO
% DE MATA
X2 (VALOR DE p)
Argia sp.1
-1,086 (1,138)
2,305 (1,631)
2,145 (0,143)
Argia sp. 2
2,665 (1,461)
-3,233 (1,861)
3,656 (0,050)
Chalcopteryx scintilans
-0,782 (1,114)
1,490 (1,549)
0,954 (0,329)
Dicterias atrosanguinea
-0,080 (1,094)
-0,181 (1,504)
0,014 (0,904)
resposta = Pi ,
onde Pi a probabilidade estimada para as clulas de
presena;
referncia = Pj ,
onde Pj a probabilidade estimada para as clulas de
ausncia;
resposta
,
Ni
referncia
,
Nj
33
Altitude
45.556 - 54.593
54.593 - 63.63
63.63 - 72.667
72.667 - 81.704
81.704 - 90.741
90.741 - 99.778
99.778 - 108.815
108.815 - 117.852
117.852 - 125.889
Declividade
Regresso Logstica
8.75 - 9.839
7.661 - 8.75
6.571 - 7.661
5.482 - 6.571
4.392 - 5.482
3.303 - 4.392
2.213 - 3.303
1.124 - 2.213
0.034 - 1.124
Parkia
multijuga
1 presena
0 ausncia
Espacializao
Probabilidade
de ocorrncia
0.000
0.098
0.196
0.294
0.392
0.490
0.588
0.686
0.784
0.882
0.980
0.196
0.294
0.392
0.490
0.588
0.686
0.784
0.882
0.980
FIGURA 5 Mapa de probabilidade de ocorrncia de Parkia multijuga, obtido a partir dos dados de ocorrncia dos indivduos,
altitude e declividade, na rea da Mil Madeireira Itacoatiara Ltda.
- 66
- 63
- 60
Rondnia
-9
- 12
Limites do Estado
Estradas
Proteo integral
Uso sustentvel
Terras indgenas
reas desmatadas
- 57
- 54
- 51
- 48
Par
0
-3
-6
-9
- 63
- 60
- 57
- 54
- 51
-6
- 48
Mato Grosso
-9
- 12
- 15
- 18
FIGURA 6 Proporo de rea desmatada em funo da distncia das estradas, dentro (tracejado) e fora (contnua) de reas
protegidas, em Rondnia, no Par e no Mato Grosso.
35
AGRADECIMENTOS
Agradecemos Mil Madeireira Itacoatiara Ltda. pela disponibilizao da base de dados, ao Projeto Dinmica
Biolgica de Fragmentos Florestais (PDBFF), ao WWF
Brasil, Projeto Experimento de Grande Escala da
Biosfera-Atmosfera da Amaznia (LBA) e ao Projeto
Geoma, pelo suporte financeiro (Bolsa de Marcelo
Moreira). Marina Antongiovanni, Amanda Mortati e
Ana Albernaz pela reviso do texto. Ao Dr. Paulo De
Marco por nos autorizar a usar seus dados em um dos
exemplos.
REFERNCIAS BIBLIOGRFICAS
Carneiro, J.S. 2004. Mapeamento preditivo da vegetao: uso
de SIG para modelar a distribuio espacial de espcies
arbreas na Amaznia central. 2004. Dissertao de Mestrado. Instituto Nacional de Pesquisas da Amaznia (INPA),
Manaus.
Cook, D.R. & S. Weisberg. 1984. Residuals and influence in
regression. Chapman and Hall, New York.
Cox, D.R. 1970. The analysis of binary data. Methuen, Londres.
Hensher, D. & L.W. Johnson. 1981. Applied discrete choice
modelling. Croom Helm, London.
Hosmer, D.W. & S. Lemeshow. 1989. Applied logistic regression.
John Wiley & Sons, Inc., New York.
INPE. 2003. Disponvel em: http://www.obt.inpe.br/prodes
(acessado em janeiro 2007).
Penha, R.N. 2002. Um estudo sobre regresso logstica binria.
Disponvel em: http://www.iem.efei.br/dpr/td/producao2002/
PDF/Renata.PDF (acessado em novembro de 2003).
Pitman, N.C.A., J. Terborgh, M.R. Silman, P.V. Nez, D.A. Neill,
C.E. Cern, W.A. Palacios & M. Aulestia. 2001. Dominance
and distribution of tree species in upper Amazonian terra
firme forests. Ecology 82: 2101-2117.
Pregibon, D. 1981. Logistic regression diagnostics. Annals of
Statistics 9: 705-724.
Steinberg, D. & P. Colla. 1998. Logistic regression. In: Wilkinson,
L. (ed). SYSTAT 8.0 Statistics. pp. 517-584. Chicago.
Tuomisto, H. & K. Ruokolainen. 1994. Distribution of Pteridophyta and Melastomataceae along an edaphic gradient in an
Amazonian rain forest. Journal of Vegetation Science 5: 25-34.
ANEXO
Como espacializar regresso logstica no ArcView
verso 3.2
A espacializao da regresso logstica no ArcView 3.2
se inicia pela determinao dos temas a serem relacionados. Para isso, define-se o tema que contm a varivel dependente binria (1/0 presena e ausncia
Obteno dos valores da varivel contnua nas clulas de presena do evento de interesse:
[GRID varivel contnua] [GRID varivel categrica
campo presena =1]
Obteno dos valores da varivel contnua nas clulas de ausncia do evento de interesse:
[GRID varivel contnua] [GRID varivel categrica
campo ausncia=1]
Os GRIDs gerados por essas operaes devem ser
exportados no formato ASCII Raster (opo disponvel
no menu do programa). A planilha da primeira operao contm os valores das variveis contnuas nos pixels
referentes presena e a da segunda, os valores referentes ausncia. O valor -9999 atribudo ausncia de dados.
As planilhas podem ser editadas no Excel. Sugerimos a elaborao de uma nica planilha com duas
colunas: uma contendo a varivel contnua e outra a
informao de presena e ausncia. No caso da regresso logstica mltipla, a planilha pode conter trs ou
mais colunas. A partir dessas planilhas possvel se
obter os parmetros necessrios para espacializao da
regresso logstica em um pacote estatstico.
Espacializao da regresso logstica no ArcView 3.2
A equao da regresso logstica simples pode ser
espacializada no ArcView 3.2 a partir das seguintes
operaes:
([GRID varivel contnua]) * coeficiente - > [GRID A]
([GRID A] + Constante) - > [GRID B]
([GRID B] .Exp) - > [GRID C]
([GRID C] + 1) - > [GRID D]
([GRID C] / [GRID D]) - > [GRID E]
J para a equao da regresso logstica mltipla,
sua espacializao feita com as operaes indicadas
abaixo.
([GRID varivel contnua 1] * (coeficiente 1)) + ([GRID
varivel contnua 2] * (coeficiente 2)) - > A
([GRID A] + Constante) - > [GRID B]
([GRID B] .Exp) - > [GRID C]
([GRID C] + 1) - > [GRID D]
([GRID C] / [GRID D]) - > [GRID E]
Todas essas operaes podem ser realizadas a partir
da funo MAP CALCULATOR do mdulo Spatial Analyst
do ArcView 3.2.
37
FIGURA 7 Tabela de atributos do arquivo formato GRID da varivel dependente. Os pontos eram um arquivo que estava em
formato vetorial que foi transformado para GRID. Os pixels em vermelho correspondem a pelo menos uma presena e os pixels
em verde s ausncias.
(B)
(A)
Varivel contnua
117,852 - 126,889
108,815 - 117,852
99,778 - 108,815
90,741 - 99,778
81,704 - 90,741
=
Presena e ausncia
72,667 - 81,704
63,63 - 72,667
54,593 - 63,63
45,556 - 54,593
0 ausncia
1 presena
117,852 - 126,889
108,815 - 117,852
99,778 - 108,815
90,741 - 99,778
81,704 - 90,741
(B1)
(A1)
Varivel contnua
117,852 - 126,889
108,815 - 117,852
99,778 - 108,815
90,741 - 99,778
81,704 - 90,741
(C)
(C1)
=
Presena e ausncia
72,667 - 81,704
63,63 - 72,667
54,593 - 63,63
45,556 - 54,593
72,667 - 81,704
63,63 - 72,667
54,593 - 63,63
45,556 - 54,593
No Data
0 presena
1 ausncia
72,667 - 81,704
63,63 - 72,667
54,593 - 63,63
45,556 - 54,593
No Data
FIGURA 8 Representao das operaes para obteno dos valores das variveis contnuas nas clulas de ausncia e presena
do evento de interesse. A e A1 so variveis contnuas; B a varivel dicotmica com valor 1 para presena; B1 a varivel
dicotmica com 1 para ausncia; C so os valores das clulas da camada digital da varivel contnua com presena e C1 a
mesma operao para as clulas com ausncia.