Sie sind auf Seite 1von 10

Cincias Naturais e Exatas

Regresso logstica
politmica: reviso terica e
aplicaes
Hlio Radke Bittencourt

Resumo
O tradicional modelo de regresso logstica tornou-se um mtodo padro de anlise na rea
das cincias da sade, especialmente Epidemiologia, pois capaz de estabelecer uma relao de
dependncia entre uma nica varivel-resposta binria e um conjunto de variveis independentes
quantitativas ou qualitativas. A tcnica considerada uma abordagem parcialmente no-paramtrica,
no exigindo suposies sobre o comportamento probabilstico dos dados de entrada. Neste traba-
lho uma extenso da regresso logstica para variveis-resposta politmicas apresentada, bem
como uma reviso sobre os aspectos tericos mais importantes e aplicaes da tcnica com a
utilizao de bancos de dados reais.
Palavras-chave: Regresso Logstica, Anlise Discriminante.

Abstract
The traditional logistic regression model became a standard method in the medical and biological
sciences, especially in epidemiology, because allows modeling of binary response variables only
and a set of quantitative or qualitative independent variables. Logistic regression can be regarded as
a partially parametric approach, since it assumes nothing about the probability distribution of variables.
This paper describes an extension of the logistic regression to polytomous response variables, as well
as presents a revision about the most important theoretical aspects and gives some results obtained
when using real databases.
Key-Words: Logistic Regression, Discriminant Analysis.

excede dois. muito comum a utilizao


1 Introduo de tabelas de contingncia para verifica-
Variveis qualitativas nominais so o de associao entre variveis nominais
aquelas que mais limitam a possibilidade que, geralmente, so acompanhadas do
de utilizao de tcnicas estatsticas, espe- bem conhecido teste Qui-quadrado. A pro-
cialmente quando o nmero de categorias va no-paramtrica do Qui-quadrado, as-

Hlio Radke Bittencourt - Laboratrio de Eestatstica - Ulbra

ACTA SCIENTIAE Canoas v.5 n.1 p. 77 - 86 jan./jun. 2003


ACTA SCIENTIAE v.5 n.1 jan./jun. 2003 77
sim como as medidas de associao deri-
vadas, pode ser adequada para um grande
P (Y 1)

exp 0 1 x1 p x p
nmero de casos, entretanto s permite a
1 exp 0 1 x1 p x p
anlise simultnea de duas variveis e, no
e, conseqentemente,
caso de variveis quantitativas, necess-
ria a prvia categorizao, implicando em P(Y 0) 1 P(Y 1)
1 .
perda de informao.
1 exp 0 1 x1 p x p
De acordo com Allison (1999) existem onde so os parmetros do mode-
pesquisadores utilizando inadequadamente a i
lo, estimados pelo mtodo de mxima ve-
tcnica de regresso linear para tratamento de
rossimilhana.
variveis-resposta qualitativas nominais e
ordinais o que, na sua opinio, se deve ao des- A transformao que est por trs do
conhecimento de tcnicas mais avanadas. modelo logstico a chamada transforma-
O presente estudo inicia com uma re- o logit, denotada por g(x). uma funo
viso do modelo de regresso logstica tra- linear nos parmetros , contnua e que
dicional e, em seguida, apresentada a pode variar de - a + :
extenso da tcnica para variveis
politmicas, resultados prticos e as con- P( Y 1 )
sideraes finais. logit( x ) g( x ) ln
1 P( Y 1 )
0 1 x1 p x p
2 O modelo de regres-
Hosmer e Lemeshow (1989) dizem
so logstica tradicional que h pelo menos duas razes para utili-
De acordo com Hosmer e Lemeshow zao do modelo logstico na anlise de
(1989) a regresso logstica, em sua forma variveis-resposta dicotmicas: 1) de um
tradicional, consiste de um modelo que re- ponto de vista matemtico, extremamente
laciona um conjunto de p variveis indepen- flexvel e fcil de ser utilizado; 2) permite
dentes X1 , X2, ... , Xp a uma varivel depen- uma interpretao de resultados bastante
dente Y que assume apenas dois possveis rica e direta. A Figura 1 apresenta a funo
estados, digamos 0 ou 1. O modelo logstico logstica com o seu caracterstico formato
permite a estimao direta da probabilida- em S e a relao linear entre uma nica
de de ocorrncia de um evento (Y=1): varivel x e o logit g(x).

Funo logstica Logit (funo linear)

1,0

0,8
logit(x)=g(x)
P(Y=1)

0,6

0,4

0,2

-
X X

Figura 1: Funo logstica e a relao logit

78 ACTA SCIENTIAE v.5 n.1 jan./jun. 2003


Anderson (1982) enfatiza que a dis- A literatura sobre regresso logstica
criminao logstica pode ser aplicada a muito vasta, tendo apresentado um cresci-
uma grande variedade de famlias de dis- mento muito rpido. Alm das inmeras
tribuies, pois a suposio de linearidade aplicaes na rea da sade, a regresso
do logit vlida numa grande quantidade logstica tambm tem sido utilizada no cam-
de funes de distribuio de probabilida- po da econometria, administrao e edu-
de, como por exemplo, a distribuio nor- cao. Por esse motivo, encontramos arti-
mal multivariada. gos envolvendo regresso logstica em pe-
2. 1 Hi strico do Modelo ridicos de diversas reas.
Logstico e Principais Aplica-
es
difcil precisar exatamente o ano no 3 Regresso logstica
qual o modelo logstico foi utilizado pela politmica
primeira vez, mas Cox e Snell (1989) e
Hosmer e Lemeshow (1989) concordam O modelo de regresso logstica, ori-
que o modelo de regresso logstica ganhou ginalmente desenvolvido para variveis-
reconhecimento aps o trabalho de Truett, resposta binrias, extensvel para vari-
Cornfield e Kennel (1967) que analisava o veis-resposta politmicas (trs ou mais
risco de doena coronria em um grande categorias). O entendimento da regres-
projeto conhecido por Framingham heart so logstica politmica fica mais simples
study. Esse trabalho ganhou fama e at se for ut ilizad o com o exem plo
hoje considerado um marco inicial dos introdutrio um modelo cuja varivel-
estudos envolvendo regresso logstica nas resposta Y assume apenas trs nveis, di-
reas da sade. McLachlan (1992) tambm gamos 0, 1 e 2, assim como descrito em
afirma que as primeiras aplicaes do mo- Hosmer e Lemeshow (1989). Agora, o
delo logstico foram em estudos modelo logstico ter duas funes logit:
prospectivos de doenas coronrias. Con- a razo entre Y=1 e Y=0 e a razo entre
tudo, nessas aplicaes, os autores realiza- Y=2 e Y=0. Nesse caso, o nvel Y=0 foi
ram o processo de estimao de parmetros assumido como base.
sob a suposio de normalidade, que se
torna desnecessria quando a estimao P( Y 1 )
g1 ( x ) ln
feita por mxima verossimilhana via m- P( Y 0 )
todos numricos. O procedimento de esti-
mao em um contexto mais genrico foi 10 11 x1 1 p x p
proposto por Day and Kerridge (1967) e
por Walker and Duncan (1967). P( Y 2 )
Hosmer e Lemeshow (1989) afirmam g 2 ( x ) ln
que o modelo de regresso logstica tornou- P( Y 0 )
se um mtodo padro de anlise de regres- 20 21 x1 2 p x p
so de dados dicotmicos, especialmente
nas cincias da sade. De fato, aplicaes A partir das funes lineares g i(x),
da regresso logstica so comumente en- cujos parmetros so estimados por mxi-
contradas em peridicos da rea de sade, ma verossimilhana, possvel calcular as
tais como The American Journal of probabilidades condicionais de ocorrncia
Epidemiology, The American Journal of Public de cada categoria da varivel-resposta Y
Health, The International Journal of dado um vetor de observaes x, confor-
Epidemiology e The Journal of Chronic me segue:
Diseases.

ACTA SCIENTIAE v.5 n.1 jan./jun. 2003 79


Considerando y1, y2,..., yk categorias
1 exaustivas e exclusivas da varivel Y, pode-
P( Y 0 | x ) g1 x
1 e e g2 x
k
mos afirmar que
P( yi | x ) 1 . Portan-
e g1 x i 1
P( Y 1 | x ) to, a probabilidade de uma observao x
1 e g1 x e g2 x pertencer a classe yk, denotada por P(yk|x),
pode ser obtida por diferena:

e g2 x k 1
P( Y 2 | x ) P y k | x 1 P( yi | x )
1 e g1 x e g2 x i 1
A utilizao do modelo logstico para
Krzanowski (1988) afirma que, no mo- discriminao de classes pode ser direta.
mento em que as probabilidades a posteriori A regra de classificao para alocar uma
P(Y=y|x) do modelo logstico so utiliza- observao x numa das classes yi muito
das para se estabelecer uma regra de simples:
alocao, a abordagem chamada de discri-
minao logstica. Na rea de Reconhecimento x yi se P( yi | x ) P( y j | x ) ji
de Padres esse o termo mais utilizado,
conforme se pode verificar em McLachlan O modelo logstico necessita da esti-
(1992) e Bittencourt e Clarke (2002). mao de k-1 vetores de parmetros
A generalizao do modelo logstico
para variveis-resposta com k nveis (k>2)
'i 1 , 2 , , p , correspondentes a k-
direta, permitindo sua utilizao para dis- 1 categorias da varivel Y. A k-sima cate-
criminao entre k classes. Na regresso goria assumida como base. O processo
logstica politmica a probabilidade de uma de estimao dos parmetros em regresso
dada observao x pertencer a uma das logstica est baseado na maximizao da
classes yi estimada diretamente por meio funo de verossimilhana (x, ) . Para
da seguinte expresso: tornar possvel a realizao desse procedi-
mento so necessrias n amostras de trei-
expg i ( x )
P( Y y i | x ) k 1 namento x1 , x 2 , , x n , cujas classes a que

1 exp g j ( x ) pertencem so conhecidas.
j 1 Os vetores soluo bi que maximizam
i 1, 2, , k-1 a funo (x, ) so aqueles que tornam
mxima a probabilidade da particular
onde a funo logit, assumindo o n-
vel yk como base, dada por amostra de treinamento x1 , x 2 , , x n ter
sido selecionada. Sendo assim, sob a hip-
P( Y y i | x ) tese da amostra ser representativa da po-
g i ( x ) ln pulao em estudo, obtm-se um modelo
P( Y y k | x ) que maximiza as chances de classificar to-
i 0 i1 x1 ip x p das observaes da populao nas classes
yi as quais realmente pertencem. Como as
i 1, 2, , k-1 equaes derivadas da funo de verossi-
g k x 0 . milhana so no lineares, h necessidade
da utilizao de mtodos numricos para

80 ACTA SCIENTIAE v.5 n.1 jan./jun. 2003


encontrar uma soluo. Esses processos so conhecida estatstica de Wald, onde a hi-
iterativos e esto disponveis em alguns ptese nula a de que o particular coefici-
softwares estatsticos. No presente estudo foi ente igual a zero. A estatstica W de
utilizado o procedimento Multinomial ij
Logistic Regression disponvel no software Wald definida como o quadrado da razo
SPSS verso 10.0 e que se encontra-se des- entre a estimativa de mxima verossimi-
crito em Norusis e SPSS Inc. (1999). O lhana para o coeficiente e seu respectivo
procedimento CATMOD do sistema SAS erro-padro (EP). Essa estatstica tem uma
tambm pode ser utilizado. distribuio assintoticamente qui-quadra-
3.1 Testes de do com um nico grau de liberdade:
Significncia
O primeiro teste de significncia im- 2
portante na regresso logstica o teste da ij
W ~ 12
razo de verossimilhana, onde a hiptese
de que pelo menos um dos parmetros
EP
ij

ij diferente de zero (exceto os As sadas dos programas estatsticos
SPSS e SAS apresentam os testes da razo
interceptos parmetros i 0 ) testada. de verossimilhana e de Wald.
Esse teste faz uma comparao entre o va- 3.2 Interpretao de
lor da funo de verossimilhana para o
parmetros
modelo contendo apenas os interceptos e
a verossimilhana do modelo final com to- A interpretao dos parmetros estima-
dos os parmetros estimados. A estatstica dos no modelo de regresso logstica torna-
de teste D, chamada de deviance, tem uma se similar ao caso da regresso mltipla tra-
distribuio qui-quadrado e calculada da dicional. No caso de uma varivel resposta
seguinte forma: com k nveis, o k-simo nvel ser assumi-
do como base e, portanto, pode-se estabe-
lecer k-1 funes logit, contrastando cada
( 0 ) nvel contra o nvel base, conforme segue:
D 2 ln 2 ln ( 0 ) 2 ln (x, )
( x, )
~ 2 P yi | x `
(k 1) p g i ( x ) ln i0 i x
onde, P y k | x
( 0 ) o valor da funo de verossi- 1 i k 1
milhana apenas com os interceptos
Aplicando a funo exponencial nos
(x , ) o valor da funo de veros- dos lados da igualdade:
similhana para o modelo final
k o nmero de categorias da vari-
vel-resposta Y P yi | x i0 i x
egi ( x ) e
p o nmero de variveis indepen- P yk | x
dentes (x) includas no modelo
1 i k 1
Para a realizao de testes de Assim, um incremento de uma uni-
significncia individuais para os parmetros dade na varivel xj causar um aumento
ij , bastante comum a utilizao da bem- de e ij unidades na razo entre as proba-

ACTA SCIENTIAE v.5 n.1 jan./jun. 2003 81


bilidades da observao x pertencer a clas- mesma regio da Itlia, mas derivados de
se yi em relao classe yk. Portanto, quan- trs diferentes cultivares (y1, y2 y3) Um total
do xj aumenta em uma unidade, a classe yi de 13 caractersticas de cada amostra de vi-
nho foi analisado. Os tamanhos amostrais
torna-se ij vezes mais provvel que yk.
e para os trs diferentes tipos de cultivares so
59, 71 e 48, considerados suficientes para
estimativas confiveis.
4 Aplicaes Por razes didticas, apenas trs vari-
veis, dentre as 13 disponveis, sero con-
Nos itens subsequentes so apresenta- sideradas no presente exemplo (x1: teor
dos dois exemplos de aplicao da regresso alcolico, x2: total de fenis e x3: intensi-
logstica politmica, enfatizando a utilizao dade da cor). A sada do software SPSS 10.0
prtica e a interpretao dos modelos esti- apresentada na Figura 2.
mados. Os bancos de dados utilizados foram O teste da razo de verossimilhana
encontrados a partir do trabalho de resultou altamente significativo
Aeberhard et al. (1994) que fez um compa- (Deviance=67,257) indicando que o mo-
rativo entre uma grande quantidade de m- delo estimado pode ser til na discrimi-
todos de reconhecimento de padres utili- nao dos trs tipos de cultivares. Os va-
zando dados reais e simulados. lores Pseudo R-Square so uma espcie de
4.1 Reconhecimento de Vi- coeficiente de determinao (R2), mas
nhos (Aplicao no 1) com uma interpretao mais complexa,
O banco de dados Wine Recognition entretanto segue a regra bsica: quanto
Data encontra-se disponvel na home page do maior, melhor o ajuste do modelo. Den-
Departamento de Informao e Cincias da tre as trs medidas apresentadas d-se
Computao da Universidade da Califrnia preferncia a de Nagelkerke, visto ser uma
Irvine e deve-se a Forina et al. (1988). Tra- medida no intervalo [0;1]. Nesse caso a
ta-se do resultado de uma anlise qumica medida resultou 0,941, muito prxima do
realizada com vinhos provenientes de uma valor mximo.
Model Fitting Information

-2 Log
Model Likelihood Chi-Square df Sig.
Intercept Only 386,630
Final 67,257 319,372 6 ,000

Pseudo R-Square

Cox and Snell ,834


Nagelkerke ,941
McFadden ,826

Parameter Estimates

95% Confidence Interval for


Exp(B)
CLASS B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound
1 Intercept -29,539 15,974 3,419 1 ,064
ALCOHOL 1,558 1,255 1,541 1 ,214 4,749 ,406 55,566
PHENOLS 7,757 1,909 16,515 1 ,000 2338,084 55,477 98538,407
COLOR -1,413 ,508 7,729 1 ,005 ,243 8,987E-02 ,659
2 Intercept 33,421 14,621 5,225 1 ,022
ALCOHOL -2,471 1,196 4,270 1 ,039 8,454E-02 8,116E-03 ,880
PHENOLS 6,208 1,829 11,524 1 ,001 496,881 13,790 17903,238
COLOR -2,919 ,668 19,093 1 ,000 5,397E-02 1,457E-02 ,200

Classification

Predicted
Percent
Observed 1 2 3 Correct
1 54 5 0 91,5%
2 3 65 3 91,5%
3 1 2 45 93,8%
Overall Percentage 32,6% 40,4% 27,0% 92,1%

Figura 2 Sada da regresso logstica politmica no software SPSS 10.0 para o exemplo do Reconhecimento de Vinhos

82 ACTA SCIENTIAE v.5 n.1 jan./jun. 2003


As estimativas para os parmetros do
modelo tambm so apresentadas na Figu- P(Y y1 | x) 0,135
ra 2. O nmero de parmetros a ser esti- P(Y y 2 | x) 0,740
mado de (k-1)(p+1) parmetros. No
exemplo h trs classes e trs variveis P(Y y3 | x) 0,125 .
(k=p=3), o que leva a um total de oito
parmetros. As duas funes logit estima- Portanto, um vinho com tais caracte-
das foram as seguintes: rsticas seria classificado como provenien-
te do Cultivar Tipo 2. A Figura 2 apresen-
ta a tabela de classificao utilizando to-
g1 x 29,539 1,558 x1 7,757 x2 1,413x3 das as 178 observaes do conjunto de
(Cultivar Tipo 1) dados, onde percebe-se uma habilidade
g 2 x 33,421 2, 471x1 6, 208 x2 2,919 x3 satisfatria do modelo para classificao,
(Cultivar Tipo 2). com taxa de acerto de 92,1%.
Ainda explorando a Figura 2, perce-
O Cultivar Tipo 3 foi considerado be-se a presena da coluna Exp(B) e seu
respectivo intervalo de confiana. Numa
como base e, portanto, g x 0 . De acor- rpida inspeo visual percebe-se que os
3
do com o teste de Wald apenas dois intervalos de confiana so muito amplos,
parmetros estimados no resultaram sig- ocasionados pelos grandes erros-padro
nificativos ao nvel de 5% (Sig.>0,05), en- das estimativas. Por meio da interpretao
tretanto verifica-se que todas as variveis da coluna Exp(B) chega-se a interpretaes
tm coeficientes significativos em pelo do tipo: a cada aumento de uma unidade
menos uma das equaes, o que constitui na graduao alcolica, espera-se um au-
uma situao altamente desejvel. Geral- mento de 0,406 a 55,566 vezes na probabi-
mente no h interesse nos testes de hip- lidade do vinho ser proveniente do Culti-
teses das constantes (bi0). A aplicao do var Tipo 1 em relao probabilidade do
modelo simples, sendo necessrio inse- vinho pertencer ao Cultivar Tipo 3.
rir os valores de x nas funes logit para 4.2 As ris de Fisher (Aplica-
obteno das probabilidades de pertencer o no 2)
as classes:
O banco de dados das ris de Fisher
expg1( x ) , sem dvida, um dos mais famosos con-
P( Y y1 | x ) juntos de observaes na rea de classifi-
1 expg1( x ) expg 2 ( x )
cao e discriminao e encontra-se dis-
ponvel em diversas pginas da Internet.
expg 2 ( x ) Esse sucesso deve-se ao importante traba-
P( Y y 2 | x ) lho publicado por Fisher (1936) no qual a
1 expg1( x ) expg 2 ( x )
anlise discriminante foi abordada. Trata-
se de um caso onde h trs espcies de flo-
P( Y y3 | x ) 1 P( Y y1 | x ) P( Y y 2 | x ) res (y1: ris Setosa, y2: ris Versicolor e y3:
ris Virgnica) e quatro variveis indepen-
dentes (x1: comprimento da spala, x2: lar-
De acordo com o modelo estimado, gura da spala, x3: comprimento da pta-
um vinho com graduao alcolica de la, x4: largura da ptala). O banco de da-
12,0o, fenis totais de 2,5 e intensidade da dos composto de 150 observaes, sen-
cor de 6,0 x=[12,0 ; 2,5 ; 6,0] teria as do 50 para cada tipo de flor. A sada do
seguintes probabilidades de classificao: software SPSS 10.0 para esse problema
apresentada na Figura 3.

ACTA SCIENTIAE v.5 n.1 jan./jun. 2003 83


O teste da razo de verossimilhana ris Setosa, o que comprometeu a parte
resultou altamente significativo inferencial do modelo (testes de
(Deviance=11,899) indicando que pelo me- significncia) provocando erros padro vi-
nos uma das quatro caractersticas pode ser sivelmente inflados. Tambm verificou-se
utilizada para discriminao dos trs tipos alta correlao entre as variveis indepen-
de flores. O valor do coeficiente de deter- dentes o que provoca aumento nos erros
minao de Nagelkerke foi praticamente padres e prejudica o procedimento de es-
mximo: 0,99. timao. Verifica-se que, apesar da ocorrn-
As estimativas para os dez parmetros cia de tais problemas, as estimativas encon-
do modelo tambm so apresentadas na Fi- tradas continuam sendo teis, como prova
gura 3. Ocorreram problemas numricos a taxa de classificao correta de 98,7% apre-
devido a uma separao completa da classe sentada na tabela de classificao.
Mode l Fitting In formation

-2 Log
Model L ikelihood Chi-Squa re df Sig.
Intercept Only 329,584
Final 11,899 317 ,685 8 ,000

Pse udo R -Squa re


C ox a nd Snell ,88 0
N agelkerke ,99 0
M cF adden ,96 4

Para mete r Estim at es

95% Co nfidence Interval for


Exp(B)
Class B Std. Error Wald df Sig. Exp( B) Low er Bound Upper Bound
Iris Setosa Inte rcept 30,291 2272547 ,0 00 1 1,000
SEP_LEN 14,670 667745,9 ,0 00 1 1,000 235 05 69 ,000 ,a
SEP_WID 14,474 313392,1 ,0 00 1 1,000 193 15 22 ,000 ,a
PET_LEN -31,522 310957,5 ,0 00 1 1,000 2,043E-14 ,000 ,a
PET_ WID -43,107 ,000 , 1 , 1,900E-19 1 ,9 00 E- 19 1,900 E-19
Iris Versico lour Inte rcept 42,638 25,708 2,751 1 ,0 97
SEP_LEN 2,465 2,394 1,060 1 ,3 03 11 ,7 66 ,108 1284,293
SEP_WID 6,681 4,480 2,224 1 ,1 36 797,026 ,123 518 18 47,602
PET_LEN -9 ,4 29 4,737 3,962 1 ,0 47 8,033E-05 7 ,4 57 E- 09 ,865
PET_ WID -18,286 9,743 3,523 1 ,0 61 1,144E-08 5 ,8 28 E- 17 2,246
a. Flo at ing po int overflo w occurred while computing this stat istic. Its value is therefore set to syste m missing.

Classificatio n

Pre dicted
I ris Percent
O bserved Iris Setosa Versico lour Iris Virginica C orrect
Iris Seto sa 50 0 0 100 ,0 %
Iris Versicolo ur 0 49 1 98 ,0 %
Iris Virginica 0 1 49 98 ,0 %
O verall Perce ntage 33 ,3 % 33 ,3 % 33 ,3 % 98 ,7 %

Figura 3 Sada da regresso logstica politmica no software SPSS 10.0 para o exemplo Fisher Iris Data

As duas funes logit estimadas foram nesse caso, uma flor com tais caracte-
as seguintes: rsticas seria classificada como ris
g1 x 30,291 14,670x1 14,474x2 31,522 x3 43,107 x4
Versicolor porque a maior probabilidade
(Setosa) est associada classe y2.
g 2 x 42,638 2,465 x1 6,681x2 9,429 x3 18,286 x4
(Versicolor).
Considerando uma observao x=[4 5 Consideraes finais
; 3,5 ; 4 ; 2], obtm-se as seguintes proba-
bilidades: A regresso logstica politmica con-
siste de uma poderosa ferramenta para
P( Y y1 | x ) 0 anlise de variveis qualitativas nominais,
apresentando algumas caractersticas bas-
P( Y y 2 | x ) 0,831 tante interessantes e desejveis em tcni-
P( Y y3 | x ) 0,169 cas de modelagem estatstica. A primeira

84 ACTA SCIENTIAE v.5 n.1 jan./jun. 2003


caracterstica refere-se ao fato da regresso cilmente resolvido com a excluso de uma
logstica no fazer suposies sobre o com- ou duas variveis. No item 4.1 tem-se um
portamento probabilstico das variveis in- exemplo bem-comportado onde no
dependentes. A segunda consiste da pos- ocorreram problemas e, portanto, toda
sibilidade de estimao direta da probabi- parte inferencial pode ser aproveitada.
lidade de uma observao pertencer a de- Como ltima considerao, sugere-se
termina classe. Por fim, possvel testar a que a regresso logstica seja utilizada sem-
significncia de um grande nmero de va- pre que houver necessidade de entender
riveis independentes e, assim, eleger as algum fenmeno onde a varivel indepen-
variveis que contribuem mais para a dente do nvel nominal. No caso de ocor-
separabilidade entre as classes. rncia de problemas o pesquisador pode
Como em todas tcnicas estatsticas, optar por tcnicas mais simples, caso no
tambm h problemas na regresso logstica haja como resolv-los, porque a parte
politmica, conforme se pode observar no inferencial ser necessariamente sacrificada.
item 4.2. Um dos principais problemas se Se o interesse for nico e exclusivamente
d em casos de separabilidade completa de discriminao entre classes, a amostra
entre as classes, o que inviabiliza uma solu- pode ser dividida em duas partes: uma para
o nica nas equaes de verossimilhan- estimao e outra para validao. Mesmo
a. Segundo Hosmer e Lemeshow (1989) havendo problemas numricos o modelo
esse problema ocorre principalmente com pode ser respaldado pelos resultados da
amostras pequenas acompanhadas de um amostra de validao.
grande nmero de variveis independentes,
sendo muito improvvel haver separao
completa em modelos estimados a partir de Referncias
amostras substanciais. Uma forma simples
de identificar o problema verificar se h bibliogrficas
presena de erros padro exageradamente AEBERHARD, S; COOMANS, D. e DE VEL, O.
grandes nas estimativas. Outro problema (1994) Comparative Analysis of Statistical
que ocorre freqentemente chamado de Pattern Recognition Methods in High
colinearidade e se refere presena de cor- Dimensional Settings. Pattern Recognition.
relao entre as variveis independentes. A
Vol. 27, No. 8, p. 1065-77.
colinearidade facilmente identificada
ALLISON, P. D. (1999) Logistic Regression using
numa matriz de correlao. Uma soluo
the SAS System: Theory and Application. Cary,
eficiente para o problema escolher ape-
NC: SAS Institute Inc.
nas uma varivel quando houver um par
ANDERSON, J. A. (1982) Logistic Discrimination.
de variveis altamente correlacionadas. A
In Handbook of Statistics (Vol. 2) P. R. Krishnaiah
presena de colinearidade tambm ocasio-
and L. Kanal (Eds.) Amsterdam: North-
na erros-padro grandes.
Holland, p. 169-191.
No item 4.2 os dois problemas men-
BITTENCOURT, H. R. e CLARKE, R.T. (2002) Use
cionados foram identificados e, realmen-
te, os erros padro das estimativas, especi- of Logistic Discrimination to Classify
almente para a classe ris Setosa, foram Remotely-Sensed -Digital Images. In.: 12TH
muito exagerados. Percebe-se que, mesmo PORTUGUESE CONFERENCE ON PATTERN
com a ocorrncia dos problemas, o mode- RECOGNITION. Proceedings... Aveiro, Portu-
lo apresentou boa habilidade preditiva. No gal: Associao Portuguesa de Reconhecimen-
h como resolver o problema da to de Padres. BULL, S. and DONNER, A.
separabilidade completa entre as classes, (1987) The efficiency of multinomial logistic
mas o problema da colinearidade seria fa- regression compared with multiple group

ACTA SCIENTIAE v.5 n.1 jan./jun. 2003 85


discriminant analysis. Journal of the American Applied Logistic Regression. New York: John
Satistical Association. vol. 82, p. 1118-1122. Wiley & Sons.
COX, D.R. and SNELL, E. J. (1989). The Analysis KRZANOWSKY, W. J. (1988) Principles of
of Binary Data. Second Edition. London: Multivariate Analysis. Oxford: Clarendon Press.
Chapman and Hall. McLACHLAN, G. (1992) Discriminant Analysis
DAY, N. and KERRIDGE, D. (1967) A general and Statistical Pattern Recognition. New York:
maximum likelihood discriminant. Biometrics, John Wiley & Sons.
vol. 23, p. 313-324. NORUSIS, M. J. and SPSS Inc. (1999) SPSS
FISHER, R. A. (1936) The use of multiple Regression Models 10.0. Chicago, IL: SPSS Inc.
measures in taxonomic problems. Annals TRUETT, J. CORNFIELD, J. and KANNEL, W.
Eugenica, vol. 7(II), p. 179-188. (1967) A multivariate analysis of the risk
FORINA, M. LEARD, R. ARMANINO C. LAUTER, of coronary heart disease in Framinghan.
S. (1988) Parvus an extendible package for Journal of Chronic Diseases. v. 20, p. 511-524.
data exploration, classification and correlation. WALKER, S. H. and DUNCAN, D. B. (1967)
Institute of Pharmaceutical and Food Estimation of the probability of an event
Analysis and Technologies, Genoa Italy. as a function of several independent
HOSMER, D. and LEMESHOW, S.. (1989) variables. Biometrika vol. 54, p. 167-169.

86 ACTA SCIENTIAE v.5 n.1 jan./jun. 2003

Das könnte Ihnen auch gefallen