Beruflich Dokumente
Kultur Dokumente
Regresso logstica
politmica: reviso terica e
aplicaes
Hlio Radke Bittencourt
Resumo
O tradicional modelo de regresso logstica tornou-se um mtodo padro de anlise na rea
das cincias da sade, especialmente Epidemiologia, pois capaz de estabelecer uma relao de
dependncia entre uma nica varivel-resposta binria e um conjunto de variveis independentes
quantitativas ou qualitativas. A tcnica considerada uma abordagem parcialmente no-paramtrica,
no exigindo suposies sobre o comportamento probabilstico dos dados de entrada. Neste traba-
lho uma extenso da regresso logstica para variveis-resposta politmicas apresentada, bem
como uma reviso sobre os aspectos tericos mais importantes e aplicaes da tcnica com a
utilizao de bancos de dados reais.
Palavras-chave: Regresso Logstica, Anlise Discriminante.
Abstract
The traditional logistic regression model became a standard method in the medical and biological
sciences, especially in epidemiology, because allows modeling of binary response variables only
and a set of quantitative or qualitative independent variables. Logistic regression can be regarded as
a partially parametric approach, since it assumes nothing about the probability distribution of variables.
This paper describes an extension of the logistic regression to polytomous response variables, as well
as presents a revision about the most important theoretical aspects and gives some results obtained
when using real databases.
Key-Words: Logistic Regression, Discriminant Analysis.
1,0
0,8
logit(x)=g(x)
P(Y=1)
0,6
0,4
0,2
-
X X
e g2 x k 1
P( Y 2 | x ) P y k | x 1 P( yi | x )
1 e g1 x e g2 x i 1
A utilizao do modelo logstico para
Krzanowski (1988) afirma que, no mo- discriminao de classes pode ser direta.
mento em que as probabilidades a posteriori A regra de classificao para alocar uma
P(Y=y|x) do modelo logstico so utiliza- observao x numa das classes yi muito
das para se estabelecer uma regra de simples:
alocao, a abordagem chamada de discri-
minao logstica. Na rea de Reconhecimento x yi se P( yi | x ) P( y j | x ) ji
de Padres esse o termo mais utilizado,
conforme se pode verificar em McLachlan O modelo logstico necessita da esti-
(1992) e Bittencourt e Clarke (2002). mao de k-1 vetores de parmetros
A generalizao do modelo logstico
para variveis-resposta com k nveis (k>2)
'i 1 , 2 , , p , correspondentes a k-
direta, permitindo sua utilizao para dis- 1 categorias da varivel Y. A k-sima cate-
criminao entre k classes. Na regresso goria assumida como base. O processo
logstica politmica a probabilidade de uma de estimao dos parmetros em regresso
dada observao x pertencer a uma das logstica est baseado na maximizao da
classes yi estimada diretamente por meio funo de verossimilhana (x, ) . Para
da seguinte expresso: tornar possvel a realizao desse procedi-
mento so necessrias n amostras de trei-
expg i ( x )
P( Y y i | x ) k 1 namento x1 , x 2 , , x n , cujas classes a que
1 exp g j ( x ) pertencem so conhecidas.
j 1 Os vetores soluo bi que maximizam
i 1, 2, , k-1 a funo (x, ) so aqueles que tornam
mxima a probabilidade da particular
onde a funo logit, assumindo o n-
vel yk como base, dada por amostra de treinamento x1 , x 2 , , x n ter
sido selecionada. Sendo assim, sob a hip-
P( Y y i | x ) tese da amostra ser representativa da po-
g i ( x ) ln pulao em estudo, obtm-se um modelo
P( Y y k | x ) que maximiza as chances de classificar to-
i 0 i1 x1 ip x p das observaes da populao nas classes
yi as quais realmente pertencem. Como as
i 1, 2, , k-1 equaes derivadas da funo de verossi-
g k x 0 . milhana so no lineares, h necessidade
da utilizao de mtodos numricos para
-2 Log
Model Likelihood Chi-Square df Sig.
Intercept Only 386,630
Final 67,257 319,372 6 ,000
Pseudo R-Square
Parameter Estimates
Classification
Predicted
Percent
Observed 1 2 3 Correct
1 54 5 0 91,5%
2 3 65 3 91,5%
3 1 2 45 93,8%
Overall Percentage 32,6% 40,4% 27,0% 92,1%
Figura 2 Sada da regresso logstica politmica no software SPSS 10.0 para o exemplo do Reconhecimento de Vinhos
-2 Log
Model L ikelihood Chi-Squa re df Sig.
Intercept Only 329,584
Final 11,899 317 ,685 8 ,000
Classificatio n
Pre dicted
I ris Percent
O bserved Iris Setosa Versico lour Iris Virginica C orrect
Iris Seto sa 50 0 0 100 ,0 %
Iris Versicolo ur 0 49 1 98 ,0 %
Iris Virginica 0 1 49 98 ,0 %
O verall Perce ntage 33 ,3 % 33 ,3 % 33 ,3 % 98 ,7 %
Figura 3 Sada da regresso logstica politmica no software SPSS 10.0 para o exemplo Fisher Iris Data
As duas funes logit estimadas foram nesse caso, uma flor com tais caracte-
as seguintes: rsticas seria classificada como ris
g1 x 30,291 14,670x1 14,474x2 31,522 x3 43,107 x4
Versicolor porque a maior probabilidade
(Setosa) est associada classe y2.
g 2 x 42,638 2,465 x1 6,681x2 9,429 x3 18,286 x4
(Versicolor).
Considerando uma observao x=[4 5 Consideraes finais
; 3,5 ; 4 ; 2], obtm-se as seguintes proba-
bilidades: A regresso logstica politmica con-
siste de uma poderosa ferramenta para
P( Y y1 | x ) 0 anlise de variveis qualitativas nominais,
apresentando algumas caractersticas bas-
P( Y y 2 | x ) 0,831 tante interessantes e desejveis em tcni-
P( Y y3 | x ) 0,169 cas de modelagem estatstica. A primeira