You are on page 1of 40

Regresso Logstica

Daniel Arajo Melo - dam2@cin.ufpe.br


Graduao
1

Introduo
Objetivo
Encontrar o melhor modelo para descrever a relao entre
varivel de sada (varivel dependente) e variveis independentes (preditoras ou explanatrias)

Varivel de sada binria ou dicotmica


(1 ou 0) Reflete no modelo paramtrico

Segue os mesmos princpios da regresso linear

Exemplo

Scatterplot

Tabela de Frequncia

Relao entre CHD e Idade


S-Shaped > distribuio cumulativa

Funo de Resposta
Considerando Modelo de Regresso Simples:

(1) Valor esperado: E (Yi ) = 0 + 1 X i Considere Y uma v.a. Bernoulli com distribuio de probabilidade

Funo de Resposta(2)
Pela definio de valor esperado, obtemos:: E (Yi ) = i (2) Igualando (1) e (2)
E (Yi ) = 0 + 1 X i = i (3)

A resposta mdia, quando a varivel resposta uma


varivel binria, sempre representa a probabilidade de Y = 1, para o nvel da varivel preditora x.

Funo de Resposta
E(Y) 1

E (Y ) = 0 + 1 X

0 X
9

Funo Resposta logstica


Este modelo freqentemente no representa bem a situao em estudo. Ao invs, um modelo onde as probabilidades 0 e 1 so encontradas assintoticamente, como mostra a figura a seguir, , de modo geral, mais apropriada.

Graduao

10

Funo Resposta Logstica

Graduao

11

Funo Resposta logstica

Graduao

12

Modelo de Regresso
Razes em utilizar distribuio logstica
Funo de fcil utilizao e extremamente flexvel Interpretao razovel

Transformao logit
Possui parmetros lineares; Pode ser contnua; Varia de - a + de acordo com
valores de x

13

Modelo de Regresso
Erros no seguem distribuio normal
P/ Y=1
=1-(x) com probabilidade (x)

P/ Y=0
=-(x) com probabilidade 1-(x)

possui distribuio com mdia 0 e varincia igual a (x)[1-(x)]

Varincia heterognea; Varivel de sada segue distribuio binomial com


probabilidade dada pela mdia condicional (x);

Erro segue distribuio binomial


14

Adequao do Modelo
Quando mtodo dos mnimos quadrados aplicado a um modelo com sada dicotmica os estimadores no possuem mesmas propriedades estatsticas como na Regresso Linear

15

Estimao de Parmetros
Funo de vizinhana (FV)
Baseada na mxima verossimilhana usada na Regresso
Linear

Expressa a probabilidade do dado observado como funo


dos parmetros desconhecidos

Para pares(xi,yi), onde:


yi=1, contribuio para FV (xi); yi=0,contribuio para FV 1-(xi).

Contribuio de um par(xi,yi): Como observaes independentes:

16

Estimao de Parmetros
Log Verossimilhana

Para encontrar valores de que maximiza L()


diferenciamos L() por 0 e 1:

encontrado chamado estimador da maximoverossimilhana ^

17

Modelo Exemplo

Z:
Razo entre coeficientes estimados e erros padro
estimados

18

Significncia dos Coeficientes


O modelo que inclui uma determinada varivel diz mais sobre sobre varivel resposta do que o modelo sem a varivel?
Goodness-of-fit

Variao no explicada:
Soma dos Quadrados dos Resduos

Variao explicada

19

Significncia dos Coeficientes


Teste daTaxa de verossimilhana (Desvio)
Comparao entre valores observados e preditos; Baseada na log verossimilhana
Modelo saturado Contm tantos parmetros quanto observaes. Utiliza-se 2 vezes o log para obter quantidade cuja distribuio seja conhecida e possa ser utilizada em um testes de hipteses,onde i=(xi)

Mesmo papel da soma dos quadrados dos resduos na


regresso linear.
20

Significncia dos Coeficientes


Teste daTaxa de verossimilhana (Desvio)
Em modelos saturados verossimilhana =1 Logo: Para testar significncia de varivel:
G possui mesmo papel do que numerador do teste parcial de F na regresso linear. Como a verossimilhana do modelo saturado a mesma nos 2 modelos:

21

Significncia dos Coeficientes


Teste daTaxa de verossimilhana (Desvio)
Para caso de nica varivel regressora (independente),
quando a varivel no est no modelo:
^0=ln(n1/n0), onde n1=Eyi, n0=E(1-yi), e valor predito constante,n1/n.

Na hiptese que 1=0, G segue chi-quadrado com 1 grau


de liberdade
22

Significncia dos Coeficientes


Desvio do exemplo:

Rejeira Hiptese que 1 igual a zero - h evidncias que a


varivel AGE significante para o modelo.

23

Significncia dos Coeficientes


Testes equivalentes:
Teste de Wald
Resultado sobre a hiptese que 1=0 segue distribuio normal Baixa preciso, pode falhar em rejeitar hiptese nula quando varivel significante.

Teste Score
Baseado na teoria de distribuio das derivadas de log verossimilhana

24

Intervalo de Confiana
Baseados no Teste Wald

25

Intervalo de Confiana
Exemplo:

26

Regresso Logstica

Regresso Logstica Mltipla

27

Modelo de Regresso Logstica Mltipla

Considere coleo de variveis independentes denotadas pelo vetor:


x'=(x1,x2,...xp) g(x)=0+1x1+2x2+...+pxp
Se variveis dependentes so discretas, inadequado inclu-las no modelo como se fossem variveis escalares. Deve-se utilizar variveis de design (ou dummy). Se uma varivel discreta possui k valores possveis, sero necessrias k-1 variveis dummy.

28

Modelo de Regresso Logstica Mltipla

29

Adequao do Modelo
Mtodo de estimao semelhante ao caso univariado
Existem p+1 equaes de vizinhana obtidas pela
diferenciao da funo de log verossimilhana com respeito aos p+1 coeficientes.

Estimadores so obtidos atravs da matriz das segundas


derivadas parciais da funo de log verossimilhana

30

Adequao do Modelo
Matriz de informao observada
Matriz (p+1)(p+1), denominada I() contendo o negativo
dos termos encontrados nas equaes:

Varincias e Covarincias dos coeficientes estimados so


obtidos atravs da matriz inversa Var()= I-1()

31

Adequao do Modelo
Matriz de informao observada

32

Modelo Exemplo

33

Significncia dos Coeficientes


De forma similar ao caso univariado utiliza-se a estatstica de teste G
Os valores adequados, ^Pi, no modelo so baseados em
um vetor contendo p+1 parmetros, ^B

Sob a hioptese nula que os p parmetros so iguais a


zero, G segue a chi-quadrado com p graus de liberdade.

Para o exemplo: Rejeina hiptese nula e conclui que ao menos um dos


parmetros significante

34

Significncia dos Coeficientes


Teste Wald
Sob a hiptese que um coeficiente individual zero, segue
distribuio normal

35

Intervalo de Confiana
Estimao para coeficientes similara ao caso univariado;

36

Intervalo de Confiana
Exemplo

37

Intervalo de Confiana
Exemplo

38

Interpretao do Modelo

39

Bibliografia
Applied Logistic Regression
Hosmes, David W. Lemeshow, Stanley

Material de Aula
Pinto, Rogrio de M. C. www.inf.ufsc.br/~ogliari/arquivos/

40