Sie sind auf Seite 1von 62

RENDIBILIDADE DE TRANSACES

DE CRDITO PESSOAL COM RECURSO


A ANLISE DE SOBREVIVNCIA
Alberto Filipe Neves Correia
MESTRADO EM ENGENHARIA MATEMTICA
ABRIL 2007
Tese submetida Faculdade de Cincias da
Universidade do Porto para obteno do grau de
Mestre em Engenharia Matemtica
Dissertao realizada sob a superviso da
Professora Doutora Maria do Carmo Guedes
Departamento de Matemtica Aplicada
Faculdade de Cincias da Universidade do Porto
Abril de 2007
dedicado minha me, Luclia
Agradecimentos
Gostaria de agradecer Professora Doutora Maria do Carmo Guedes pela sua orientao e
sugestes que muito ajudaram a realizar esta dissertao.
Tambm gostaria de agradecer ao Dr. Manuel Gonalves que, pela sua inspirao e experin-
cia no negcio bancrio, sempre me forneceu valiosos conselhos e apoio neste trabalho. Os
agradecimentos estendem-se naturalmente instituio de crdito de que faz parte, nomeada-
mente no que respeita cedncia dos dados usados experimentalmente.
Por ltimo, e no menos importante, agradeo minha famlia, amigos e colegas de trabalho
pela sua pacincia, disponibilidade e recomendaes que me foram dando ao longo deste
trabalho. Muito obrigado a todos.
ii
Resumo
Actualmente as instituies nanceiras classicam os seus clientes baseando-se em sistemas
de scoring de crdito, avaliando o perl de risco dos clientes que, por sua vez, utilizado
na deciso de crdito. Este trabalho pretende mostrar que a rendibilidade das transaces de
crdito ou, mais propriamente, a rendibilidade esperada, pode ser outro indicador de apoio
deciso de crdito e pode ainda ser utilizado para calcular o pricing das transaces.
O pagamento antecipado e o incumprimento so acontecimentos que afectam negativamente
a rendibilidade das transaces de crdito. O primeiro acontecimento implica a perda de
juros e o segundo implica no s os juros, mas tambm o capital. Mais do que saber se
estes acontecimentos vo ocorrer, para o clculo da rendibilidade mais importante saber
quando que vo ocorrer. A anlise de sobrevivncia e, em particular, os modelos de vida
acelerada ou de hazards proporcionais permitem estimar funes de sobrevivncia que, neste
caso, se traduzem como probabilidades das transaces sobreviverem aos acontecimentos
referidos em funo do tempo e com base num conjunto de variveis explicativas. Essas
funes so depois utilizadas de forma determinante no clculo da rendibilidade esperada
como probabilidades de receber as componentes de capital e juro das prestaes de cada
transaco de crdito.
Palavras-chave: Rendibilidade esperada; anlise de sobrevivncia; modelos de vida acele-
rada; modelos de hazards proporcionais; pricing.
iii
Abstract
Financial institutions currently establish customers classication using credit scoring sys-
tems that evaluate their risk prole which in turn will be used in credit decisions. This study
intends to show that protability of loans or, more specically, the expected prot, can be
another indicator supporting credit decisions and can also be used to calculate loan pricing.
Early repayment and default effect the protability of loans negatively. The former implies
the loss of interest and the latter implies not only the loss of interest, but of capital also. For
protability computation, better than knowing if these events will occur, is knowing when
they will occur. Survival analysis and, in particular, accelerated life models or proportional
hazard models permit the estimation of survival functions which, in this case, are the loan
survival probabilities to the referred events as function of time and based on a given set of
variables. These functions are then used in the computation of expected prot as probabilities
of receiving the capital and interest of the instalments of each loan.
Keywords: Expected prot; survival analysis; accelerated life models; proportional hazard
models; pricing
iv
Contedo
Agradecimentos ii
Resumo iii
Abstract iv
Contedo vi
Introduo 1
1 Anlise de sobrevivncia 4
1.1 O que a anlise de sobrevivncia? . . . . . . . . . . . . . . . . . . . . . 4
1.2 Funes de sobrevivncia e de hazard . . . . . . . . . . . . . . . . . . . . 6
1.3 Estimao no paramtrica de funes de sobrevivncia . . . . . . . . . . . 7
1.4 Modelos paramtricos de funes de sobrevivncia . . . . . . . . . . . . . 9
1.5 Modelos de vida acelerada e hazards proporcionais . . . . . . . . . . . . . 11
1.6 Mxima verosimilhana e verosimilhana parcial . . . . . . . . . . . . . . 14
1.7 Diagnstico dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.8 Medidas de discriminao: curvas ROC . . . . . . . . . . . . . . . . . . . 19
2 Aplicao dos modelos de anlise de sobrevivncia 22
2.1 Dados da anlise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Estimativas no paramtricas das funes de sobrevivncia . . . . . . . . . 25
2.3 Regresso com modelos paramtricos . . . . . . . . . . . . . . . . . . . . 28
2.4 Regresso com o modelo de hazards proporcionais de Cox . . . . . . . . . 32
v
2.5 Hazards proporcionais e regresso logstica . . . . . . . . . . . . . . . . . 36
3 Rendibilidade de transaces de crdito 38
3.1 Clculo da rendibilidade esperada com funes de sobrevivncia . . . . . . 39
3.2 Resultados do clculo da rendibilidade esperada . . . . . . . . . . . . . . . 42
3.3 Pricing com base na rendibilidade esperada . . . . . . . . . . . . . . . . . 46
Concluso 48
Bibliograa 50
A Capital e juros em emprstimos de prestao xa 52
vi
Introduo
Actualmente as instituies de crdito baseiam as decises de concesso de crdito no perl
de risco dos seus clientes. Os pareceres dos decisores de crdito com base em regras como
os cinco Cs referidos por Thomas [11] (carcter do cliente, capital pedido, colateral, capaci-
dade nanceira e condies do mercado) manifestam-se claramente insucientes quando
falamos de mercados muito grandes e heterogneos como o retalho, em que a consistncia e
o tempo das decises so aspectos decisivos.
A soluo passa pelos chamados sistemas de scoring de crdito. Trata-se de processos de
modelao estatstica que permitem prever o comportamento futuro dos clientes com base no
seu desempenho no passado. Atravs da seleco de um conjunto de variveis explicativas
e de mtodos estatsticos possvel atribuir um score que classica o cliente em termos de
risco e que est relacionado com a sua probabilidade de incumprimento.
Num ambiente competitivo como o das instituies de crdito, os desaos actuais so
cada vez mais exigentes. Espera-se conseguir aumentar o volume de vendas e rendimento,
logo o lucro, reduzindo despesas operacionais e perdas resultantes de inadimplemento. Tudo
isto melhorando os nveis de servio e promovendo a boa relao com o cliente.
Os bancos comeam a perceber que h vantagens em considerar como principal objec-
tivo a maximizao do lucro em vez da minimizao do risco. Quer isto dizer que, mantendo
as perdas sob controlo, possvel ainda abranger um grupo de clientes que possuem fac-
tores de risco mais elevados, mas que ainda assim podero dar lucro ao banco, permitindo
instituio expandir o seu porteflio de crdito [1]. Pretende-se deste modo olhar para as
transaces de crdito no s sob o ponto de vista de risco, mas tambm sob o ponto de vista
da rendibilidade que podero proporcionar ao banco.
A rendibilidade das transaces de crdito est dependente de diversos factores como
1
o montante pedido, prazo, taxas de juro, probabilidades de pagamento antecipado e de in-
cumprimento, etc. Estes dois ltimos factores so acontecimentos que podem ocorrer em
determinada altura do emprstimo causando perdas para o banco. Essas perdas sero tanto
maiores quanto mais cedo esses acontecimentos ocorrerem, da ser necessrio modelar, no
se estes acontecimentos vo acontecer, mas quando.
Este trabalho invoca por isso um tipo de anlise estatstica conhecido como anlise de
sobrevivncia, cujos modelos permitem estimar funes de sobrevivncia, eventualmente
sob inuncia de variveis explicativas, em funo do tempo. Essas funes so probabi-
lidades de sobreviver a determinados acontecimentos, que neste caso sero o pagamento
antecipado e o incumprimento.
Cada transaco de crdito dever ter associada uma funo de sobrevivncia para o
pagamento antecipado, que indica a probabilidade de receber a componente de juros de cada
prestao, e uma funo de sobrevivncia para o incumprimento, que indica a probabilidade
de receber cada prestao (capital e juro). Com base no montante, prazo, taxas de juro e as
probabilidades de receber as componentes de capital e juro em cada prestao, possvel
obter uma forma de calcular a rendibilidade esperada das transaces de crdito.
O trabalho encontra-se estruturado em trs captulos, sendo o primeiro uma introduo
anlise de sobrevivncia, nomeadamente aos seus termos e conceitos, estimao no-
paramtrica de funes de sobrevivncia e aos modelos de vida acelerada e hazards pro-
porcionais. O segundo captulo faz uma aplicao da anlise de sobrevivncia a dados re-
ferentes a crdito pessoal. Mais especicamente, so estimadas funes de sobrevivncia
para o pagamento antecipado e para o incumprimento, com base num conjunto de variveis
explicativas. So depois analisados vrios modelos paramtricos e o modelo de hazards pro-
porcionais de Cox (semi-paramtrico), sendo este ltimo bastante competitivo, em termos de
poder discriminante, com a tradicional regresso logstica.
No terceiro captulo explicita-se o papel das funes de sobrevivncia no clculo da ren-
dibilidade esperada das transaces de crdito. Pode ver-se ainda a evoluo das rendibi-
lidades mdias e acumuladas em funo das probabilidades de pagamento antecipado e de
incumprimento, podendo identicar-se cut-offs capazes de diferenciar transaces de crdito
com maior ou menor rendibilidade.
2
O clculo da rendibilidade esperada pode ainda ser utilizada para o clculo de pricing
associado s transaces de crdito. Em vez de se querer saber a rendibilidade esperada
de uma dada transaco, a questo agora saber que taxa juro deve ser cobrada de modo
a proporcionar determinado nvel de rendibilidade ao banco. Dado que difcil saber
partida a rendibilidade esperada de uma determinada transaco, a ideia torn-la relativa,
por exemplo, rendibilidade mxima esperada, isto , a rendibilidade obtida no caso de no
haver pagamento antecipado nem incumprimento. Esta questo deixada em aberto, mas
seguramente uma aplicao do clculo da rendibilidade esperada.
3
Captulo 1
Anlise de sobrevivncia
1.1 O que a anlise de sobrevivncia?
A anlise de sobrevivncia um conjunto de mtodos e tcnicas estatsticas que analisam
uma varivel aleatria positiva. Tipicamente essa varivel o tempo at ocorrncia de um
determinado acontecimento de interesse, tambm chamado tempo de sobrevivncia.
As suas origens esto associadas aos campos da Biologia e Medicina e ao uso de tabelas
de mortalidade (o acontecimento usual era a morte do indivduo), mas estas tcnicas no
se restringem apenas a estes campos e encontram aplicaes em reas to diversas como
Cincias Sociais e Econmicas ou Engenharias.
Alm da varivel tempo, os dados de sobrevivncia podem ainda conter um conjunto
de variveis independentes relacionadas com a varivel aleatria. Nesse caso, o objectivo
passa por modelar a distribuio associada ao tempo at o acontecimento e estabelecer uma
dependncia desse tempo com as variveis independentes atravs de uma regresso.
Uma caracterstica deste tipo de anlise a possibilidade de ter dados censurados, que
fornecem apenas informao parcial da varivel aleatria de interesse. o que se tem no
caso do acontecimento no ser observado durante o perodo de estudo, podendo eventual-
mente acontecer no futuro. So dados que tm grande importncia na anlise e no podem
ser simplesmente ignorados, uma vez que, alm de muitas outras consideraes, os indiv-
duos com maior tempo de sobrevivncia tm tambm maior probabilidade de ter os dados
censurados.
4
De acordo com Miller [4], a censura pode ser classicada em vrios tipos : tipo I, quando
existe um tempo t
c
a partir do qual todos os dados esto censurados; tipo II, quando a partir
de determinada ordem n
c
(indivduos ordenados por tempo de sobrevivncia) todos os da-
dos esto censurados; tipo III ou censura aleatria, quando a censura no est relacionada
com o tempo de sobrevivncia e ocorre de forma aleatria. As razes para considerar este
ltimo tipo de censura prendem-se com a chegada ao m do estudo ou por outro qualquer
motivo, no relacionado com o tempo de sobrevivncia, que impossibilite a recolha de mais
informao.
Figura 1.1: Tipos de censura. Os esquemas mostram que os dados podem estar censurados a partir de um
determinado tempo t
c
(Tipo I), a partir de determinada ordem, n
c
, de tempos de sobrevivncia (Tipo II), ou
aleatoriamente (Tipo III).
Existem ainda outros tipos de censura. Estes que j foram referidos inserem-se na classe
da censura direita. No entanto tambm pode acontecer censura esquerda, por exemplo,
quando a varivel de interesse muito grande e no possvel observar o seu incio.
Para aplicao da maior parte dos resultados condio essencial que a censura seja no
informativa ou independente (censura aleatria). Segundo Allison [2], um indivduo com
censura num tempo t
c
deve ser representativo de todos os outros indivduos com o mesmo
conjunto de variveis explicativas que sobreviveu at t
c
.
5
1.2 Funes de sobrevivncia e de hazard
Seja T uma varivel que representa o tempo de um acontecimento de interesse, isto , o
tempo medido desde um instante inicial at ocorrncia desse acontecimento. Podemos
ento descrever a varivel T de trs formas que acabam por ser equivalentes:
A funo de distribuio e a funo de sobrevivncia dadas por
F(t) = P(T t) e S(t) = 1 F(t) (1.1)
A funo densidade de probabilidade (fdp) denida por
f(t) = lim
t0
P(t T < t + t)
t
(1.2)
A funo hazard denida por
h(t) = lim
t0
P(t T < t + t | T t)
t
(1.3)
Esta ltima forma bastante popular na anlise de sobrevivncia e dene-se como o
limite da probabilidade de umacontecimento ocorrer numintervalo muito pequeno de tempo,
[ t, t + t [ , por unidade de tempo, assumindo que esse acontecimento no ocorreu at ao
incio desse intervalo. A funo h(t) referida por Lee [3] como uma forma de quanticar
o risco instantneo de um acontecimento ocorrer por unidade de tempo, desempenhando um
papel importante na anlise de sobrevivncia.
Allison [2] exibe o seguinte exemplo para claricar a noo de hazard (chamemos-lhe
risco para facilitar o texto): suponhamos que o risco de um determinado acontecimento
ocorrer 0, 1 com o tempo medido em meses. Isto signica que num ms espera-se obter o
acontecimento 0, 1 vezes. Se o risco for agora de 1, 3 com o tempo medido em anos, isto quer
dizer que num ano o acontecimento dever ocorrer 1, 3 vezes (assumindo o risco constante
ao longo do perodo de referncia).
Alternativamente, a funo hazard tambm se pode expressar em funo de f(t) e da
funo de sobrevivncia
h(t) =
f(t)
S(t)
(1.4)
6
onde tambm se tem que
f(t) =
dF(t)
dt
=
dS(t)
dt
(1.5)
o que implica
h(t) =
d
dt
log S(t) (1.6)
A funo cumulativa de hazard pode ento escrever-se para t > 0 como
H(t) =
_
t
0
h(u)du = log S(t) (1.7)
possvel ainda relacionar as funes de sobrevivncia de probabilidade atravs das
expresses
S(t) = exp
_

_
t
0
h(u) du
_
(1.8)
donde se obtm naturalmente que
f(t) = h(t) exp
_

_
t
0
h(u) du
_
(1.9)
Convm notar que, ao contrrio do que acontece com as funes de distribuio e so-
brevivncia, F(t) e S(t), respectivamente, a funo cumulativa de hazard, H(t), no uma
probabilidade. De facto, apesar de no tomar valores negativos, pode tomar valores superio-
res a 1, uma vez que
lim
t+
F(t) = 1 lim
t+
S(t) = 0 lim
t+
H(t) = + (1.10)
1.3 Estimao no paramtrica de funes de sobrevivn-
cia
O mtodo de Kaplan-Meier o mais utilizado para estimar a funo de sobrevivncia, e no
mais do que um mtodo de mxima verosimilhana no-paramtrico.
O mtodo simples e intuitivo. Se no houver dados censurados,

S(t) apenas a pro-
poro de indivduos com tempo de sobrevivncia maior que t.
7
A situao ligeiramente diferente no caso de haver dados censurados. Suponhamos
que existem t
1
, . . . , t
m
tempos de sobrevivncia distintos. Em cada tempo pode dizer-se que
h n
j
indivduos em risco (que no tiveram o acontecimento ou censura) antes de t
j
. Seja
d
j
o nmero de indivduos que tiveram o acontecimento t
j
. Nestes termos o estimador de
Kaplan-Meier dado por

S(t) =

j:t
j
t
_
1
d
j
n
j
_
, para t
1
t t
m
(1.11)
Resumindo, para umdado tempo t, basta tomar todos os tempos de sobrevivncia menores
que t, calcular para cada um deles a quantidade entre parnteses da frmula, que se inter-
preta como probabilidade condicionada de sobreviver at t
j+1
, dado que sobreviveu at t
j
, e
multiplic-las entre si. Note-se que para t < t
1
(o menor tempo de sobrevivncia),

S(t) = 1.
Para t > t
m
(o maior tempo de sobrevivncia)

S(t) = 0, se no houver dados censurados
maiores que t
m
.
Considere-se um caso meramente ilustrativo deste estimador. Os valores seguintes repre-
sentam tempos de sobrevivncia de 10 indivduos, dos quais 4 esto censurados (assinalados
com o sinal +):
1
2
3
4
+
3
4
+
3
4
1
2
+
3
4
1
4
3
4
1
3
8
+
Figura 1.2: Na gura da esquerda esquematizaram-se 10 tempos de sobrevivncia dos quais 4 se encontram
censurados. Na gura da direita est representada a respectiva funo de sobrevivncia estimada pelo mtodo
Kaplan-Meier.
8
Neste caso, obtm-se os seguintes valores da funo de sobrevivncia:
S(0) = 1
S(
1
4
) =
_
1
1
10
_
= 0, 9
S(
1
2
) =
_
1
1
10
_ _
1
1
8
_
= 0, 7875
S(
3
4
) =
_
1
1
10
_ _
1
1
8
_ _
1
3
6
_
= 0, 39375
S(1) = 0
1.4 Modelos paramtricos de funes de sobrevivncia
Seguidamente so apresentados alguns exemplos de modelos paramtricos bastante utiliza-
dos na anlise de sobrevivncia. Para cada modelo so exibidas as funes de sobrevivncia,
S, e de densidade de probabilidade, f. A parametrizao sugerida relativamente s dis-
tribuies Exponencial, Weibull, Gama e Loglogstica no corresponde dos parmetros
estimados nas seces posteriores
1
.
1. Exponencial
Este modelo assume o risco constante, isto , a funo hazard dada por h(t) = , com
> 0, o que equivale a dizer que a funo hazard cumulativa dada por H(t) = t.
Deste modo, as funes de sobrevivncia e densidade de densidade de probabilidade
so dadas por
S(t) = e
t
(1.12)
f(t) = e
t
(1.13)
Tem-se ainda que mdia e varincia so dados por
1

e
1

2
, respectivamente.
2. Weibull
Omodelo de Weibull uma generalizao do modelo exponencial. Afuno de hazard
1
No entanto, para os modelos Exponencial, Weibull e LogLogstico possvel fazer uma reparametrizao
fazendo = e

e =
1

, sendo e parmetros estimados nas seces posteriores


9
cumulativa dada por H(t) = (t)

para , > 0. Pode-se ento expressar as funes


de sobrevivncia e probabilidade por
S(t) = e
(t)

(1.14)
f(t) = (t)
1
e
(t)

(1.15)
A mdia e a varincia so dadas respectivamente por
1

_
1 +
1

_
e
1

2
_

_
1 +
2

2
_
1 +
1

__
em que () a funo Gama
2
denida por
() =
_

0
u
1
e
u
du (1.16)
3. Gama
O modelo Gama outra generalizao do modelo exponencial. A sua funo de den-
sidade de probabilidade dada por
f(t) =
(t)
1
e
t
()
(1.17)
e sua funo de sobrevivncia por
S(t) = 1
_
t
0

()
(x)
1
e
x
dx (1.18)
= 1
1
()
_
t
0
u
1
e
u
du
= 1 I(t, )
onde () est denido em (1.16) e
I(s, ) =
1
()
_
s
0
u
1
e
u
du (1.19)
a chamada funo Gama incompleta.
A mdia e varincia so dadas por

2
respectivamente.
2
Para inteiro positivo tem-se que ( + 1) = ! .
10
4. Lognormal
Como sugere o prprio nome da distribuio, assumindo que log T N(,
2
),
as funes de sobrevivncia e de densidade de probabilidade podem exprimir-se do
seguinte modo:
S(t) = 1
_
log t

_
(1.20)
f(t) =
1
t

2
exp
_

1
2
_
log t

_
2
_
(1.21)
onde a funo de distribuio cumulativa da distribuio normal.
5. Log-logstico
Quando X = log T segue uma distribuio logstica dada por F(x) =
e
x
1+e
x
com mdia
e varincia
2
, diz-se que a distribuio de T tem uma distribuio log-logstica dada
pela expresso F(z) =
z
1+z
em que z = exp
_
log t

_
. Fazendo =
1

e = e

pode
obter-se as seguintes funes de sobrevivncia e de densidade de probabilidade
S(t) =
1
1 + (t)

(1.22)
f(t) =
(t)
1
(1 + (t)

)
2
(1.23)
Relativamente a estes modelos paramtricos, a Figura 1.3 exibe algumas formas tpicas
de funes hazard.
1.5 Modelos de vida acelerada e hazards proporcionais
Acontece muitas vezes que o tempo de sobrevivncia inuenciado por variveis que tra-
duzem determinadas caractersticas dos indivduos. Elas devem ser consideradas de alguma
forma no modelo de modo a potenciar o seu poder preditivo.
Os modelos considerados no captulo anterior podem facilmente ser adaptados de forma
a permitir a inuncia destas variveis explicativas atravs de um vector de covariveis,
x = (x
1
, x
2
, . . . , x
k
)

, e de parmetros, = (
1
,
2
, . . . ,
k
)

. O vector de covariveis pode


11
Figura 1.3: Diversos grcos de funes hazard dos modelos paramtricos Weibull, Gama, Log-logstico e
Log-normal. [Fonte: Allison, Survival Analysis using SAS]
ser obtido fazendo x = y y, onde y um vector de valores de referncia (eventualmente
a mdia) das variveis dadas por y = (y
1
, y
2
, . . . , y
k
)

. Stepanova e Thomas [5] sugerem


alternativamente que cada varivel seja dividida em subgrupos, sendo depois substitudos
por variveis binrias 0/1.
Na anlise de sobrevivncia salientam-se duas classes de modelos no relacionamento das
covariveis com os tempos de sobrevivncia: modelos de hazards proporcionais e modelos
de vida acelerada (conhecidos como Accelerated Life models ou Accelerated Failure Time
Models - AFT Models).
Nos modelos de vida acelerada a funo hazard dada por
h(t) = e

x
h
0
(t.e

x
) (1.24)
em que h
0
uma funo base de hazard que se obtm no caso das covariveis serem todas
zero. Em termos da funo de sobrevivncia ca estabelecida a relao S(t) = S
0
(t), onde
= e

x
e S
0
a funo de sobrevivncia associada funo de hazard h
0
da expresso
(1.24). Banasik [7] refere que neste caso as covariveis tm o papel de acelerar ou tornar
12
mais lento o processo de vida do sistema.
Os parmetros deste tipo de modelos podem ser estimados de forma semelhante ao que
acontece com a regresso linear usual. Seja T
i
a varivel aleatria denotando o tempo de
sobrevivncia do i-simo indivduo e x
i
= (x
i1
, . . . , x
ik
)

o vector de covariveis associado


a esse mesmo indivduo. O modelo dado por
log T
i
= +
1
x
i1
+ . . . +
k
x
ik
+
i
(1.25)
onde ,
1
, . . . ,
k
e so parmetros estimados e
i
o termo de perturbao aleatria.
Nos modelos de hazards proporcionais tem-se que a funo hazard dada por
h(t) = e

x
h
0
(t) (1.26)
As covariveis tm neste caso um efeito multiplicador na funo base de hazard. Re-
lativamente funo de sobrevivncia tem-se que S(t) = [S
0
(t)]

, onde = e

x
e S
0
a
funo de sobrevivncia associada funo de hazard h
0
na expresso (1.26).
A razo de se chamar hazards proporcionais vem do facto de nestes modelos o quociente
das funes de hazard de dois indivduos i e j ser constante.
h
i
(t)
h
j
(t)
= exp (
1
(x
i1
x
j1
) + . . . +
k
(x
ik
x
jk
)) (1.27)
Como consequncia, os grcos dos logaritmos das funes hazard em funo do tempo
devero ser paralelos (Figura 1.4).
log h
i
(t) = log h
0
(t) +
1
x
i1
+ . . . +
k
x
ik
(1.28)
Figura 1.4: Grcos do logaritmo de hazards proporcionais. [Fonte: Allison, Survival Analysis using SAS]
A diferena entre as duas classes de modelos que nos modelos de hazards proporcio-
nais os que esto mais em risco permanecem sempre mais em risco ao longo do tempo,
13
enquanto que nos modelos de vida acelerada o risco pode ser varivel com o tempo. Em
1980, Kalbeisch e Prentice mostraram que as nicas distribuies que so simultaneamente
hazards proporcionais e vida acelerada so as Exponencial e Weibull [7].
Ciampi e Etezadi-Amoli [18] propuseram ainda um outro modelo mais geral que acaba
por ser uma mistura destes j referidos, sendo a funo de hazard dada por
h(t) = e

x
h
0
(t.e

x
) (1.29)
onde e so vectores de parmetros e h
0
a funo base de hazard. Obtm-se o modelo
de vida acelerada quando = e o modelo hazards proporcionais quando = 0.
1.6 Mxima verosimilhana e verosimilhana parcial
Os modelos paramtricos utilizados na anlise de sobrevivncia so estimados por mxima
verosimilhana. Este mtodo j bastante conhecido, mas requer algum cuidado na sua
aplicao em dados de sobrevivncia, no que respeita s observaes censuradas.
Suponhamos por um momento a inexistncia de observaes censuradas. Admitindo a
independncia das n observaes tem-se que a funo de verosimilhana seria dada por
L() =
n

i=1
f(t
i
|x
i
) (1.30)
em que um vector composto por todos os parmetros a estimar (inclui os parmetros das
covariveis e da distribuio da varivel aleatria) e x
i
o vector de covariveis do i-simo
indivduo.
Considerando a presena de dados censurados (censura aleatria), a funo de verosimi-
lhana seria dada por
L() =
n

i=1
[f(t
i
|x
i
)S
C
(t
i
|x
i
)]

i
[f
C
(t
i
|x
i
)S(t
i
|x
i
)]
1
i
(1.31)
onde

i
=
_
_
_
1 se dados no esto censurados
0 se os dados esto censurados
em que f(t
i
|x
i
) e S(t
i
|x
i
) so as funes de densidade e sobrevivncia do tempo at ocor-
rncia do acontecimento de interesse, respectivamente, e f
C
(t
i
|x
i
) e S
C
(t
i
|x
i
) so as funes
14
de densidade e sobrevivncia do tempo at censura, respectivamente. Como referido por
Miller [4], no estando a censura relacionada com o tempo at ocorrncia do evento de in-
teresse, os produtos

n
i=1
[S
C
(t
i
|x
i
)]

i
e

n
i=1
[f
C
(t
i
|x
i
)]
1
i
no envolvem os parmetros
a estimar, de modo que podem ser tratados como constantes na maximizao da funo de
verosimilhana, podendo simplicar-se a expresso anterior
L() =
n

i=1
[f(t
i
|x
i
)]

i
[S(t
i
|x
i
)]
1
i
=
n

i=1
[h(t
i
|x
i
)]

i
S(t
i
|x
i
) (1.32)
Note-se que a segunda forma para a funo de verosimilhana dada em (1.32) permite
exprim-la unicamente em termos da funo de hazard (a funo de sobrevivncia est rela-
cionada com a funo de hazard conforme (1.8)). O mtodo de mxima verosimilhana
consiste depois em encontrar estimativas de , que maximizam o logaritmo de L() (desig-
nada por Loglikelihood)
log L() =
n

i=1

i
log h(t
i
|x
i
) + log S(t
i
|x
i
) (1.33)
atravs de um sistema de equaes
log L()
()
= 0 (1.34)
cuja resoluo requer normalmente a utilizao de processos iterativos, como o mtodo de
Newton-Raphson.
Um outro mtodo, designado de partial likelihood ou verosimilhana parcial, foi pro-
posto em1972 por Sir David Cox [9] para estimar os parmetros do modelo semi-paramtrico
de hazards proporcionais (que, no entanto, permitia uma fcil generalizao para modelos de
no-proporcionalidade). Essa forma de estimao permitia obter os parmetros dados pelo
vector = (
1
,
2
, . . . ,
k
)

sem ter de especicar a funo base de hazard h


0
(t), dada em
(1.26). O seu mtodo baseava-se na ordenao, ou ranking, dos tempos de sobrevivncia.
Deste modo, alteraes ao tempo como somar ou multiplicar por uma constante, ou mesmo
tomar o seu logaritmo, no produzia efeito sobre o valor dos parmetros.
Uma funo de verosimilhana tpica o produto das verosimilhanas de todos os indi-
vduos da amostra. No caso da verosimilhana parcial e para n indivduos da amostra tem-se
15
que
L() =
n

i=1
_
h
i
(t)

n
j=1
Y
ij
h
j
(t)
_

i
=
n

i=1
_
e

x
i

n
j=1
Y
ij
e

x
j
_

i
(1.35)
onde
Y
ij
=
_
_
_
1 se t
j
t
i
0 caso contrrio
e
i
=
_
_
_
1 se dados no esto censurados
0 se os dados esto censurados
A introduo de Y
ij
na expresso permite, de forma conveniente, excluir do denomina-
dor os indivduos que j tiveram o acontecimento de interesse, e
i
serve para excluir as
observaes com censura.
Cox sugere que se trate a funo dada em (1.35) como uma funo de verosimilhana
ordinria, podendo ser maximizada relativamente a . Como normalmente acontece, mais
conveniente maximizar o logaritmo da verosimilhana, ou seja,
log L() =
n

i=1

i
_

x
i
log
_
n

j=1
Y
ij
e

x
j
__
(1.36)
A funo de verosimilhana anterior assume que no h empates (tied data) nos tem-
pos de sobrevivncia, ou seja, que possvel estabelecer uma ordem nica desses tempos.
Mas em muitos casos a varivel aleatria discreta ou est agrupada (por exemplo, quando
o tempo dado em meses ou anos) e a ordenao dos tempos no clara, tendo a funo de
verosimilhana que incluir todas as ordens possveis. Seguidamente usada a notao dada
por Stepanova e Thomas [5] para simplicar a expresso de L(): considere-se a ordenao
t
(1)
< t
(2)
< . . . < t
(m)
dos tempos de sobrevivncia e R(t
(i)
) o conjunto de observaes em
risco em t
(i)
; seja d
i
o nmero de acontecimentos no tempo t
i
e seja R(t
(i)
; d
i
) o conjunto
de todos os subconjuntos constitudos pelas d
i
observaes que poderiam ter tido o aconte-
cimento de interesse em t
(i)
; seja R R(t
(i)
; d
i
) o conjunto das observaes que poderiam
ter tido o acontecimento em t
(i)
e seja s
R
=

lR
x
l
a soma dos vectores das covariveis
das observaes em R; denote-se por D
i
o conjunto dos indivduos d
i
que tiveram o aconte-
cimento em t
i
, e seja s
D
i
=

lD
i
x
l
a soma dos vectores de covariveis destes indivduos.
Deste modo, a funo de verosimilhana dada por:
16
L
Cox
() =
m

i=1
exp(

s
D
i
)
_

RR(t
(i)
;d
i
)
exp(

s
R
)
_ (1.37)
Segundo Miller [4], o denominador da expresso (1.37) pode gerar um nmero excessivo
de combinaes possveis e que pode ser muito pouco eciente a nvel computacional. Por
essa razo so consideradas aproximaes propostas por Breslow (1974) e Efron (1977),
sendo esta ltima, segundo Allison [2], mais rigorosa custa de um pouco mais de tempo
computacional.
L
Breslow
() =
m

i=1
exp(

s
D
i
)
_

lR(t
(i)
)
exp(

x
l
)
_
d
i
(1.38)
L
Efron
() =
m

i=1
exp(

s
D
i
)

d
i
j=1
_

lR(t
(i)
)
exp(

x
l
)
j1
d
i

lD
i
exp(

x
l
)
_ (1.39)
Outra forma de lidar com os empates considerar o tempo de sobrevivncia como uma
varivel discreta. Cox sugeriu mesmo a substituio de h(t) = e

x
h
0
(t) pela expresso de
um modelo logstico discreto dado por
h(t)
1 h(t)
= e

x
h
0
(t)
1 h
0
(t)
(1.40)
1.7 Diagnstico dos modelos
Ao utilizar um modelo matemtico devemos questionar se este est correctamente ajustado
ao problema. No caso dos modelos de hazards proporcionais quer-se ver se vericado o
pressuposto de proporcionalidade, se algumas covariveis requerem algum tipo de transfor-
mao ou se h outliers (observaes com um tempo de sobrevivncia muito diferente do
esperado) que podem ter impacto indesejado nos resultados.
O resduo de Cox-Snell denido por
r
C
i
= exp(

x
i
)

H
0
(t
i
) =

H
i
(t
i
) = log

S
i
(t
i
) (1.41)
em que, para o i-simo indivduo, se tem que

e x
i
so os vectores de parmetros estimados
e covariveis, respectivamente. Para o tempo de sobrevivncia observado t
i
, tem-se que as
17
funes

H
0
,

H
i
e

S
i
so as funes estimadas de base de hazard cumulativa, de hazard
cumulativa e de sobrevivncia, respectivamente. Pode mostrar-se que log S(t
i
) tem uma
distribuio exponencial de mdia unitria
3
, independentemente da forma da funo S [17].
Se o modelo estiver correctamente ajustado, a funo de sobrevivncia estimada ser seme-
lhante e ter as mesmas propriedades de S(t). Assim, ser de esperar que log

S(t
i
) = r
C
i
tenha tambm uma distribuio exponencial de mdia unitria. Para vericar esta pro-
priedade calculam-se estimativas para

S(r
C
i
), por exemplo atravs do mtodo de Kaplan-
Meier. Conforme referido por Stepanova [5], o ajuste do modelo ser tanto maior quanto
maior a proximidade do grco de log(log

S(r
C
)) em funo de log(r
C
) a uma recta com
declive unitrio que passa pela origem.
O resduo de Schoenfeld calculado para cada covarivel e especialmente importante
no que respeita investigao da proporcionalidade de hazard, de eventuais covariveis de-
pendentes do tempo ou transformaes de covariveis. Podem ser denidos segundo o vector
r
S
i
considerando as k covariveis do modelo para o i-simo indivduo.
r
S
i
= (r
S
i1
, . . . , r
S
ik
) (1.42)
onde
r
S
ip
= x
ip
E(x
ip
|R
i
) , p = 1, . . . , k (1.43)
Para um dado indivduo i, o resduo de cada covarivel calculado fazendo a diferena
entre o valor da covarivel x
ik
e o seu valor esperado, condicionado ao conjunto de risco
R
i
, isto , o conjunto de indivduos que no tiveram o acontecimento at t
i
. Farrington
[14] refere que os resduos no devem mostrar nenhum tipo de padro sistemtico se for
vlido o pressuposto dos hazards proporcionais. Caso contrrio, se ao longo do tempo esse
3
Assumindo a existncia da funo de sobrevivncia inversa e considerando a varivel aleatria positiva T
com funo de sobrevivncia S (contnua) e Y = log S(T) tem-se que
P(Y > y) = P(log S(T) > y) = P(S(T) < exp(y))
= P(T > S
1
(exp(y))) = S(S
1
(exp(y)))
= exp(y)
18
pressuposto no se vericar, o(s) grco(s) dos resduos devero reectir uma tendncia
positiva (negativa) conforme aumente (diminua) a razo de hazard .
1.8 Medidas de discriminao: curvas ROC
Quando a varivel de sada dicotmica (por exemplo: 0/1, sim/no, bom/mau, etc) e as
previses so probabilidades de ocorrncia de um acontecimento, os modelos podem ser
avaliados segundo dois conceitos gerais: discriminao e calibrao.
A discriminao refere-se capacidade do modelo distinguir correctamente as classes
de sada enquanto que a calibrao avalia a proximidade numrica entre as probabilidades
previstas e as reais. Apesar de, num modo geral, um modelo com boa discriminao possuir
boa calibrao e vice-versa, DAgostino [13] refere que sempre prefervel obter um modelo
com bom poder discriminante, uma vez que este pode sempre ser recalibrado.
Uma das medidas de discriminao mais usadas para um modelo a rea debaixo da
curva ROC (Receiver Operating Characteristic). Vejamos como construir uma curva deste
tipo para um modelo de regresso.
Estado classicado

Estado a b
real c d
Tabela 1.1: Matriz entre os estados reais e classicados.
Suponhamos que temos n indivduos. Atravs da regresso possvel estimar e or-
denar as probabilidades de ocorrncia de um determinado acontecimento (Q
1
, Q
2
, . . . , Q
n
)
de modo que Q
i
Q
i+1
, para todo i = 1, . . . , n 1. Sob a regra de se classicar como po-
sitivos () todos os que vericarem Q
i
> Q

, para um valor Q

(cut-off ), e como negativos


() os que no vericarem a regra, pode apresentar-se o resultado segundo uma matriz 2 2
como a da Tabela 1.1.
Daqui pode calcular-se a sensibilidade dada por
a
a+b
e a especicidade dada por
d
c+d
, que
no mais do que a razo dos que se prevm positivos relativamente ao total de positivos e
19
a razo dos que se esperam negativos relativamente ao total de negativos, respectivamente.
Se seleccionarmos todos os valores possveis de cut-off e desenharmos o grco da sensibi-
lidade em funo de 1 especicidade obtm-se curvas como as da Figura 1.5.
Figura 1.5: Exemplos de curvas ROC Receiver Operating Characteristic utilizadas na comparao do poder
discriminante de modelos. No exemplo da gura, um modelo que estivesse representado pela curva B teria
maior poder discriminante que um outro representado pela curva A.
A rea debaixo desta curva, conhecida por AUROC (Area Under ROC) ou estatstica C
uma medida de discriminao e pode ser interpretada como a probabilidade estimada da
classicao positiva ser maior que a classicao negativa, isto ,
estatstica C =

P(Q

> Q

) (1.44)
onde Q

so as probabilidades estimadas dos que tiveram os acontecimentos e Q

so as
probabilidades dos que no tiveram os acontecimentos.
O valor da estatstica C pode variar entre 0, 5, no caso de no haver discriminao, e
1, no caso de discriminao perfeita, e est relacionado unicamente com a ordenao das
probabilidades previstas.
Esta forma de avaliar o poder discriminante de um modelo tambm pode ser aplicado
aos modelos de hazards proporcionais de Cox. A maiores probabilidades de ocorrncia
de determinado acontecimento correpondero certamente menores tempos de sobrevivncia,
da ser possvel estabelecer uma ordem dos valores previstos. Para se obter algum tipo de
concluso ser conveniente comparar com outros mtodos (p.e. regresso logstica) com a
20
condio de no considerar nessa anlise comparativa os dados censurados (caracterstica
dos modelos de anlise de sobrevivncia).
21
Captulo 2
Aplicao dos modelos de anlise de
sobrevivncia
2.1 Dados da anlise
Os dados seleccionados para esta anlise consistem em cerca de 58.000 transaces de
crdito pessoal de uma instituio bancria de referncia, subdivididas em dois conjuntos
de treino e teste na proporo 50/50. A informao recolhida at Ago06 (transaces ini-
ciadas no perodo Ago03 - Dez05) contempla caractersticas relativas a cada transaco e
ao cliente. Parte dessa informao ser utilizada como variveis nos modelos deste trabalho,
a saber, o prazo original (entre 12 e 36 meses), o montante pedido, a idade do cliente, tempo
de permanncia no banco (esta varivel binria apenas serve para diferenciar se se trata de
um cliente recente ou no), indicador de telefone e, nalmente, um score interno do banco
(traduz o perl de risco do cliente ou a sua probabilidade de incumprir baseado num modelo
comportamental).
Outro tipo de informao que importante para qualquer modelo de anlise de sobrevi-
vncia o j referido tempo de sobrevivncia que vai desde o incio da transaco de crdito
at ao primeiro incumprimento (conceito a denir), ou at ao pagamento antecipado (se hou-
ver), ou at se deixar de ter mais informao (censura), ou, simplesmente, at ao nal do
prazo.
Neste trabalho, uma transaco de crdito ser considerada com incumprimento quando
22
Descritivo Nome Designao
Prazo original prazo x
1
Montante original montante x
2
Idade do cliente idade x
3
Antiguidade na instituio (varivel binria) antiguidade x
4
Indicador de telefone (varivel binria) telefone x
5
Score comportamental interno do banco score x
6
Tabela 2.1: Descrio dos dados utilizados.
tiver trs ou mais prestaes em atraso consecutivas, ainda que entretanto essa situao seja
regularizada. Este o critrio elegido por Thomas [11], tambm mencionado em bastante
bibliograa sobre o assunto e adoptado por inmeras instituies nanceiras. Quanto ao
pagamento antecipado, este ser considerado quando a transaco de crdito for totalmente
liquidada (e no parcialmente).
Como j foi referido, a anlise de sobrevivncia permite a introduo de dados censu-
rados. Neste caso tratam-se de transaces de crdito de clientes que at data do m do
estudo ainda no tinham acabado de pagar o emprstimo sem que tivessem tido algum dos
acontecimentos: pagamento antecipado ou incumprimento.
Figura 2.1: Representao de tempos de sobrevivncia das transaces de crdito. O primeiro esquema
mostra que podem ter incios em diferentes alturas do tempo, mas que podem ser comparadas assumindo o
mesmo instante inicial, conforme se mostra no segundo esquema. O terceiro esquema representa uma alterao
na escala do tempo, visando homogeneizar os diferentes prazos, de modo a terem o mesmo instante inicial e
nal (terico).
O facto das transaces terem incios diferentes (primeiro esquema da Figura 2.1) no
23
constitui problema porque pode sempre assumir-se que comeam ao mesmo tempo (segundo
esquema). No entanto, h uma particularidade diferente dos dados tradicionais de anlise de
sobrevivncia. As transaces de crdito pessoal tm um prazo associado, isto , teorica-
mente sabe-se quando que eles vo terminar. Uma forma de as poder comparar, apesar
de haver diferentes prazos, foi de proceder sua homogeneizao numa mesma escala de
tempo, de modo a que todas tivessem o mesmo incio e o mesmo m (terceiro esquema).
Basta para isso dividir o tempo de sobrevivncia de cada emprstimo pelo seu prazo origi-
nal, cujo resultado dever ser um nmero entre 0 e 1 (por convenincia pode ser multiplicado
por 100). Nos resultados apresentados no decorrer deste trabalho a escala de tempo conside-
rada ser entre 0 e 100 para indicar o incio e m (terico) do emprstimo, respectivamente.
Por exemplo, se num emprstimo com prazo de 2 anos se registar incumprimento ao m de
1 ano, ento o incumprimento car registado em t = 50; se, em vez disso, tiver antecipado
o pagamento do emprstimo ao m de 6 meses, ento o pagamento antecipado registar-se-
em t = 25.
No m do estudo pode assim observar-se um dos seguintes casos em cada transaco:
- Teve incumprimento pela primeira vez numa dada altura do tempo;
- Foi pago antecipadamente (sem incumprimento) numa dada altura do tempo;
- Foi pago (sem incumprimento nem pagamento antecipado) no nal do prazo;
- Ainda no foi totalmente pago (sem ter tido incumprimento nem pagamento anteci-
pado).
A razo de se distinguir os acontecimentos pagamento antecipado e incumprimento
bvia: ambos tm impacto negativo sobre a rendibilidade das operaes, mas, de um modo
geral, o segundo acarreta muito mais prejuzo para o banco do que o primeiro.
Na anlise de sobrevivncia uma forma de lidar com dois (ou mais) acontecimentos de
interesse no mesmo conjunto de dados considerar separadamente a anlise de cada um,
tomando o(s) outro(s) como censura, conforme sugesto de Stepanova e Thomas [5]. Assim,
no caso do incumprimento, consideram-se censurados os tempos de sobrevivncia relativos a
pagamento antecipado e os que j estariam censurados partida. O procedimento anlogo
24
no caso do pagamento antecipado. Sem grandes modicaes a nvel tcnico relativa-
mente simples fazer esta dupla anlise aos dados, incluindo um indicador (ag) em cada
observao que identica se o tempo de sobrevivncia est censurado (flag = 0), se refere
a incumprimento (flag = 1), ou pagamento antecipado (flag = 2).
2.2 Estimativas no paramtricas das funes de sobrevi-
vncia
Fazendo uma anlise aos dados, nomeadamente estimando a funo de sobrevivncia atravs
do mtodo Kaplan-Meier possvel obter representaes de S(t) para os acontecimentos
pagamento antecipado e incumprimento.
Figura 2.2: Funes de sobrevivncia estimadas pelo mtodo Kaplan-Meier dos acontecimentos pagamento
antecipado (esquerda) e incumprimento (direita).
Analisando os grcos pode vericar-se que h mais clientes que antecipam o pagamento
do que aqueles que incumprem. Nota-se ainda que o pagamento antecipado acontece com
mais frequncia nos ltimos
3
4
do tempo de vida da transaco, ou seja, quando t > 25. No
caso do incumprimento, a ocorrncia deste acontecimento aparenta ser constante ao longo
do tempo. Apesar dos grcos baseados nas funes de sobrevivncia serem bastante teis,
tambm no de desprezar os grcos das funes de hazard, pois permitem identicar
propriedades interessantes dos acontecimentos em questo.
25
Figura 2.3: Funes hazard alisadas por um processo de mdias mveis conhecido por kernel smoothing
(descrito por Ramlau-Hansen em 1983) para os dois tipos de acontecimentos considerados.
O grco das funes de hazard permitem investigar o risco instantneo de determinado
acontecimento ocorrer. Na Figura 2.3 constata-se que o risco do pagamento antecipado ,
de um modo geral, crescente ao longo do tempo, com uma ligeira quebra na parte nal da
transaco de crdito. No que respeita ao risco do incumprimento, este parece ser apenas
ligeiramente crescente com o decorrer do tempo, contrariando neste caso a noo preconce-
bida de que "se uma transaco de crdito vai correr mal, ento ela vai correr mal cedo"[7].
Segundo este grco o risco de ocorrncia de incumprimento no mais elevado na fase ini-
cial do emprstimo, o que sugere haver boas decises de crdito nas transaces de crdito
consideradas para este trabalho. Se o risco de incumprimento fosse mais elevado na fase
inicial, isso poderia ser indicador de que o banco estaria a decidir mal o seu crdito e que os
seus modelos de classicao poderiam no estar a discriminar bem.
Um primeiro passo na anlise dos dados encontrar a distribuio do tempo de sobrevi-
vncia. A relao entre as covariveis explicativas e esse tempo pode ser investigada prelimi-
narmente atravs de subgrupos de covariveis. Consideremos, por exemplo, as transaces
de crdito divididas em dois subgrupos relativamente ao prazo original. O primeiro sendo
constitudo por transaces com prazo inferior a 30 meses, e as restantes no segundo sub-
26
grupo (poder-se-ia ter escolhido outros subgrupos quaisquer).
O efeito em termos de funes de sobrevivncia e a anlise da proporcionalidade de
hazards pode ser observada gracamente.
Figura 2.4: Em cima: Funes de sobrevivncia estimadas pelo mtodo Kaplan-Meier dos acontecimentos
pagamento antecipado (esquerda) e incumprimento (direita) para os dois subgrupos. Em baixo: Grcos de
log(log(S)) em funo de log(t) para pagamento antecipado (esquerda) e incumprimento (direita) para os
dois subgrupos.
Os grcos da Figura 2.4 referentes s funes de sobrevivncia (em cima) evidenciam
que as transaces com prazo inferior a 30 meses tendem a pagar antecipadamente e a in-
cumprir menos do que as restantes. Por outro lado, se se quiser vericar a proporcionalidade
de hazards, os grcos de log(log S(t)) em funo de log(t) (em baixo) desses subgru-
27
pos devero ser linhas paralelas
1
. O paralelismo dos grcos mais evidente no caso do
incumprimento do que no caso do pagamento antecipado.
Se o modelo de Weibull for apropriado (cuja funo de sobrevivncia foi j dada na
expresso (1.14)), tem-se que log(log S(t)) = log + log t, ou seja, os grcos de
log(log S(t)) em funo de log(t) devero ser linhas rectas. No pagamento antecipado e
no incumprimento observa-se um comportamento aproximadamente linear, donde se conclui
que o modelo de Weibull poder ser uma opo vlida.
2.3 Regresso com modelos paramtricos
Aanlise de sobrevivncia permite tambmefectuar regresso combase numconjunto de co-
variveis explicativas. Alm das diferenas em termos de sobrevivncia entre grupos, o pro-
grama SAS

permite estudar o efeito das covariveis no tempo de sobrevivncia. Mais pro-


priamente, so calculadas estatsticas de
2
de Wald
2
que testama hiptese nula do parmetro
ser zero. Ou, por outras palavras, que a varivel correspondente no tem grande efeito so-
bre o tempo de sobrevivncia, dado que as outras variveis esto no modelo. A Tabela 2.2
apresenta esses resultados para o conjunto de covariveis x = (x
1
, x
2
, x
3
, x
4
, x
5
, x
6
)

.
Pagamento antecipado Incumprimento
Wald Wald
Effect Chi-Square Pr > ChiSq Chi-Square Pr > ChiSq
x
1
(prazo) 496,0894 <,0001 137,7454 <,0001
x
2
(montante) 25,4640 <,0001 15,8935 <,0001
x
3
(idade) 184,8070 <,0001 40,1365 <,0001
x
4
(antiguidade) 8,9992 0,0027 2,9499 0,0859
x
5
(telefone) 2,6863 0,1012 0,0085 0,9265
x
6
(score) 106,5811 <,0001 485,5781 <,0001
Tabela 2.2: Teste
2
de Wald para vericar o efeito das covariveis. Esta estatstica testa a hiptese nula de
cada coeciente ser zero, calculando o quadrado do quociente entre o parmetro estimado e o seu erro estimado.
1
Basta pensar que para dois subgrupos A e B em que se verique o pressuposto de hazards propor-
cionais tem-se que S
A
(t) = [S
B
(t)]

, donde se obtm naturalmente que log(log S


A
(t)) = log() +
log(log S
B
(t)).
2
O teste
2
de Wald tambm permite testar a hiptese nula global H
0
: = 0. Sob condies gerais, esta
estatstica tem uma distribuio assimpttica de
2
com k graus de liberdade (sendo k a dimenso de ), dada
a hiptese nula [22, SAS

PHREG Procedure]:
2
Wald
=

[V (

)]
1

.
28
A hiptese nula deve ser rejeitada quando o nvel de signicncia inferior a 0, 05 (valor
usualmente utilizado). Analisando os valores pode concluir-se que no pagamento antecipado
a covarivel x
5
no vai de encontro a este critrio, enquanto que no incumprimento so as
variveis x
4
e x
5
. Deste modo, estas covariveis no faro parte da estimao dos parmetros
nos modelos apresentados.
Alm de identicar as variveis mais signicativas, o programa SAS

permite obter
estimativas para os parmetros das covariveis e dos modelos atravs de mxima verosimi-
lhana. A Tabela 2.3 mostra os resultados obtidos com modelo Weibull para o pagamento
antecipado e o incumprimento (no output do SAS

tm-se as designaes = Intercept e


= Scale).
Pagamento antecipado
Standard 95% Condence Chi-
Parameter Estimate Error Limits Square Pr > ChiSq
(Intercept) 5,0908 0,0120 5,0672 5,1144 178967 <,0001

1
(prazo) -0,0208 0,0009 -0,0226 -0,0190 496,21 <,0001

2
(montante) -0,0097 0,0019 -0,0134 -0,0059 25,76 <,0001

3
(idade) 0,0088 0,0006 0,0075 0,0100 186,93 <,0001

4
(antiguidade) -0,1638 0,0547 -0,2709 -0,0566 8,98 0,0027

6
(score) 0,0025 0,0002 0,0020 0,0030 108,12 <,0001
(Scale) 0,5722 0,0066 0,5595 0,5852
d (Shape) 1,7475 0,0200 1,7087 1,7873
Incumprimento
Standard 95% Condence Chi-
Parameter Estimate Error Limits Square Pr > ChiSq
(Intercept) 6,5206 0,0643 6,3945 6,6467 10267,9 <,0001

1
(prazo) -0,0312 0,0027 -0,0364 -0,0260 136,36 <,0001

2
(montante) 0,0274 0,0069 0,0139 0,0409 15,80 <,0001

3
(idade) 0,0114 0,0018 0,0077 0,0150 38,05 <,0001

6
(score) 0,0157 0,0007 0,0143 0,0171 493,70 <,0001
(Scale) 0,7039 0,0186 0,6684 0,7413
d (Shape) 1,4207 0,0375 1,3490 1,4962
Tabela 2.3: Estimativas com SAS

dos parmetros para o modelo de Weibull relativamente ao pagamento


antecipado e incumprimento.
Os valores apresentados incluem estimativas dos parmetros e respectivos erros asso-
ciados, limites para intervalos de conana dos parmetros e estatsticas
2
que testam a
hiptese nula do valor do parmetro ser zero. O valor da coluna Chi-Square representa as-
sim a signicncia das covariveis e obtido calculando o quadrado do quociente entre o
parmetro estimado e o respectivo erro.
29
Pode conrmar-se que no pagamento antecipado as covariveis x
1
, x
3
, x
6
, x
2
e x
4
(por
ordem decrescente de signicncia) tm nveis de signicncia inferiores a 0, 05. Isto
tambm vericado no caso do incumprimento, mas a ordem de signicncia das variveis
diferente, a saber, x
6
, x
1
, x
3
e x
2
(por ordem decrescente de signicncia).
Pagamento antecipado Incumprimento
Log- Log- Log- Log-
Parameter Weibull Gama logistic normal Weibull Gama logistic normal
(Intercept) 5,0908 5,1004 4,9482 5,0909 6,5206 7,1222 6,4370 7,0030

1
(prazo) -0,0208 -0,0209 -0,0209 -0,0205 -0,0312 -0,0335 -0,0316 -0,0330

2
(montante) -0,0097 -0,0093 -0,0095 -0,0085 0,0274 0,0288 0,0276 0,0285

3
(idade) 0,0088 0,0093 0,0091 0,0098 0,0114 0,0119 0,0115 0,0118

4
(antiguidade) -0,1638 -0,1660 -0,1645 -0,1639

6
(score) 0,0025 0,0027 0,0027 0,0029 0,0157 0,0185 0.0161 0,0178
(Scale) 0,5722 0,7988 0,5272 1,0500 0,7039 2,0284 0,6845 1,5847
d (Shape) 1,7475 0,4958 1,4207 -0,4520
Log
Likelihood -16636 -16600 -16605 -16645 -5079 -5038 -5072 -5041
Tabela 2.4: Estimativas com SAS

dos parmetros para os modelos de Weibull, Gama, Loglogstico e


Lognormal dos acontecimentos pagamento antecipado e incumprimento.
Os resultados obtidos com outros modelos foram bastante semelhantes em termos do
valor dos parmetros, conforme a Tabela 2.4. Os modelos que melhor se ajustam aos da-
dos tm menores valores absolutos de Loglikelihood dada na expresso (1.33). No entanto,
quando se verica uma proximidade muito grande entre os modelos, a escolha normalmente
recai sobre aquele que matematicamente mais simples. Segundo o critrio de simplicidade
prefervel o modelo Weibull at por ser um modelo de hazards proporcionais.
Outra forma de avaliar o ajuste do modelo tem a ver com o resduo de Cox-Snell dado em
(1.41). Conforme referido anteriormente, os modelos que melhor se ajustam aos dados so
aqueles cujo grco de log

H(r
C
) = log(log

S(r
C
)) em funo de log(r
C
) se aproxima de
uma recta que passa pela origem com declive unitrio. Note-se que as guras referentes aos
resduos de Cox-Snell da Figura 2.5 revelam um desvio relativamente a essa recta de refe-
rncia. Este desvio pode ser justicado pela diminuio do risco de pagamento antecipado
e incumprimento quando a transaco de crdito se encontra prxima de chegar ao m do
prazo (visvel na Figura 2.3). No pois de estranhar que os modelos paramtricos acabem
por no se ajustar muito bem a esta quebra nal de tendncia de monotonia . No entanto,
cerca de 99% das observaes tm valores de log(r
C
) superiores a 5 (apenas um nmero
30
Figura 2.5: Grcos relativos aos modelos paramtricos Weibull, Gama, Log-logstico e Lognormal relati-
vamente aos acontecimentos pagamento antecipado (esquerda) e incumprimento (direita). Em cima: Resduos
de Cox-Snell; No centro: Funes de hazard (note-se que o eixo das ordenadas so diferentes nos dois acon-
tecimentos); Em baixo: Funes de sobrevivncia.
31
reduzido de observaes responsvel por esse desvio), onde o ajuste dos modelos recta
referida bastante melhor.
Com base nos parmetros estimados destes quatro modelos possvel ainda obter gr-
cos para as funes base de hazard e de sobrevivncia tambm apresentadas na Figura 2.5.
As diferenas entre os modelos so bastante mais visveis nos grcos das funes de hazard
do que nas funes de sobrevivncia, em que quase no possvel distingu-las.
2.4 Regresso com o modelo de hazards proporcionais de
Cox
O modelo de hazards proporcionais de Cox um modelo semi-paramtrico e os parmetros
estimados por verosimilhana parcial referem-se apenas s covariveis do modelo (como foi
visto anteriormente, este mtodo no depende da funo base de hazard).
Pagamento antecipado
Standard Chi- Hazard 95% Haz. Ratio
Parameter Estimate Error Square Pr>ChiSq Ratio Conf. Limits

1
(prazo) 0,0314 0,00165 361,51 <,0001 1,032 1,029 1,035

2
(montante) 0,0169 0,00332 26,10 <,0001 1,017 1,010 1,024

3
(idade) -0,0151 0,00110 187,12 <,0001 0,985 0,983 0,987

4
(antiguidade) 0,2542 0,09443 7,24 0,0071 1,289 1,072 1,552

6
(score) -0,0041 0,00042 95,20 <,0001 0,996 0,995 0,997
Incumprimento
Standard Chi- Hazard 95% Haz. Ratio
Parameter Estimate Error Square Pr>ChiSq Ratio Conf. Limits

1
(prazo) 0,0400 0,00383 109,06 <,0001 1,041 1,033 1,049

2
(montante) -0,0392 0,00974 16,17 <,0001 0,962 0,943 0,980

3
(idade) -0,0161 0,00258 38,87 <,0001 0,984 0,979 0,989

6
(score) -0,0221 0,00085 677,00 <,0001 0,978 0,977 0,980
Tabela 2.5: Estimativas com SAS

dos parmetros do modelo hazards proporcionais para pagamento ante-


cipado (tabela superior) e incumprimento (tabela inferior). As trs colunas da direita dizem respeito chamada
hazard ratio que dada por e

i
, onde
i
o valor do parmetro estimado, e respectivos limites inferior e
superior com 95% de conana.
semelhana dos resultados obtidos com os modelos paramtricos, na Tabela 2.5 obtida
pelo SAS
3
so apresentadas estimativas dos parmetros e respectivos erros associados
3
Apenas est apresentado parte do output exibido pelo software. Arestante informao respeita a estatsticas
dos dados e convergncia dos algoritmos, que tm interesse meramente tcnico.
32
e estatsticas
2
sob a hiptese nula de cada parmetro ser zero, onde se constata que a
ordem de signicncia das covariveis se mantm. As magnitudes dos parmetros esti-
mados so normalmente pouco informativas, mas uma transformao simples permite dar
uma interpretao bastante til e intuitiva. Sendo
i
o parmetro associado i-sima co-
varivel, o valor e

i
est representado na coluna Hazard ratio e pretende indicar o au-
mento/diminuio de risco por acrscimo de uma unidade na covarivel. Por exemplo, o
aumento de 1 unidade na covarivel x
1
(aumento de 1 ms no prazo) est associado a um au-
mento de (e
0,0314
1) 3, 2% do risco (ou hazard) da ocorrncia de pagamento antecipado,
mantendo as outras covariveis constantes.
O sinal dos parmetros das covariveis tambm d informao acerca do tempo de so-
brevivncia. Um sinal positivo (negativo) indica que um aumento da covarivel conduz a
menores (maiores) tempos de sobrevivncia.
Comparativamente aos parmetros estimados com os modelos paramtricos, os respec-
tivos sinais so recprocos. Isso no surpreendente atendendo prpria formulao dos
modelos (conforme as expresses (1.25) e (1.28)). Nos modelos paramtricos ou de vida
acelerada os parmetros esto num formato de log-tempo, enquanto nos hazards proporcio-
nais o formato log-hazard.
Pagamento antecipado Incumprimento
Weibull Weibull Cox semi- Weibull Weibull Cox semi-
Parmetro paramtrico paramtrico paramtrico paramtrico paramtrico paramtrico
(Log-Tempo) (Log-Hazard) (Log-Hazard) (Log-Tempo) (Log-Hazard) (Log-Hazard)

1
(prazo) -0,0208 0,0364 0,0314 -0,0312 0,0443 0,0400

2
(montante) -0,0097 0,0170 0,0169 0,0274 -0,0389 -0,0392

3
(idade) 0,0088 -0,0154 -0,0151 0,0114 -0,0162 -0,0161

4
(antiguidade) -0,1638 0,2863 0,2542

6
(score) 0,0025 -0,0044 -0,0041 0,0157 -0,0223 -0,0221
Tabela 2.6: Comparao entre parmetros estimados pelo modelo Weibull (paramtrico) e pelo modelo de
Cox (semi-paramtrico), ambos hazards proporcionais, para pagamento antecipado e incumprimento.
Dos modelos paramtricos experimentados, o de Weibull o nico que tambm um
modelo de hazards proporcionais. A Tabela 2.6 permite avaliar a semelhana entre os valo-
res dos parmetros estimados atravs do modelo de Weibull e do modelo semi-paramtrico
de hazards proporcionais de Cox. No entanto, as estimativas obtidas pelo modelo Weibull
necessitam de uma transformao para serem directamente comparveis com as estimativas
33
do modelo semi-paramtrico. Essa transformao consiste em fazer

i
=

, sendo
i
e
parmetros estimados pelo modelo de Weibull.
Figura 2.6: Resduos de Schoenfeld das covariveis x
1
, x
2
, x
3
, x
4
e x
6
relativamente ao pagamento anteci-
pado (grupo superior) e das variveis x
1
, x
2
, x
3
e x
6
relativamente ao incumprimento (grupo inferior).
34
Os resduos de Schoenfeld permitem detectar possveis desvios do pressuposto de ha-
zards proporcionais e so calculados apenas para as observaes no censuradas. Exami-
nando os grcos de r
S
estes no devem apresentar nenhum tipo de padro sistemtico. Se
no se vericar esse pressuposto e se a razo de hazard se alterar ao longo do tempo, esse
efeito ser reectido no grco destes resduos.
Observando os residdos de Schoenfeld da Figura 2.6 pode constatar-se que a varivel x
4
apresenta um aspecto distintamente diferente da usual nuvem de pontos (caracterstica das
variveis contnuas), mas isso decorre unicamente por se tratar de uma varivel binria.
Na mesma gura pode contatar-se que a covarivel x
1
apresenta uma tendncia sis-
temtica positiva nos dois tipos de acontecimentos, sugerindo que esta covarivel esteja de
alguma forma relacionada com o tempo.
J anteriormente foi referido que o modelo de Cox pode utilizado em casos de no pro-
porcionalidade de hazards. Acontece que um modelo de hazards proporcionais assume que
o efeito de cada covarivel o mesmo em todas as alturas do tempo. Allison [2] refere que
esse pressuposto dicilmente vericado e uma ou mais covariveis tm de facto algum tipo
de interaco com o tempo. Quando se utiliza um modelo de hazards proporcionais em que o
pressuposto seja violado numa dada covarivel (suprimindo a sua interaco com o tempo),
o parmetro estimado acaba por reectir um efeito mdio dessa interaco com o tempo.
Segundo o mesmo autor, isso no constitui um caso assim to problemtico, uma vez que
prtica comum ao efectuar-se uma regresso no considerar as dependncias do tempo. No
entanto, em casos em que a interaco com o tempo muito forte, capaz de produzir resul-
tados substancialmente diferentes, ou em casos em que o investigador esteja explicitamente
interessado nessa interaco, torna-se necessrio levar em considerao essa dependncia.
Num exemplo dado por Stepanova, caso o modelo s tivesse uma covarivel, z
1
, poder-
se-ia averiguar se esta varivel estaria relacionada com o tempo incluindo no modelo uma
outra varivel, z
2
= z
1
t, representando a interaco da varivel z
1
com o tempo. Neste caso
particular, o modelo dado por h(t) = e

1
z
1
h
0
(t) seria alterado para h(t) = e

1
z
1
+
2
z
2
h
0
(t) =
e
(
1
+
2
t)z
1
h
0
(t). Se o parmetro estimado referente varivel dependente do tempo,
2
, fosse
signicante, ento o pressuposto dos hazards proporcionais no se vericaria.
35
2.5 Hazards proporcionais e regresso logstica
Tradicionalmente a regresso logstica utilizada para estimar a probabilidade de ocorrncia
de determinado acontecimento. No que diz respeito deciso de crdito, o acontecimento
que tem merecido maior ateno o incumprimento, sendo a probabilidade de incumpri-
mento o principal indicador de risco dos clientes.
O modelo logstico relaciona a probabilidade de incumprir, p, com uma combinao
linear de variveis x = (x
1
, x
2
, . . . , x
k
)

e parmetros = (
1
,
2
, . . . ,
k
)

, atravs da
expresso
log
_
p
1 p
_
= +
1
x
1
+
2
x
2
+ . . . +
k
x
k
(2.1)
ou, equivalentemente,
p =
exp( +

x)
1 + exp( +

x)
(2.2)
Aregresso logstica tenta prever a probabilidade de umacontecimento ocorrer, enquanto
que o modelo de hazards proporcionais estima o tempo de sobrevivncia, isto , o tempo de
ocorrncia do acontecimento. Em todo o caso sempre possvel estabelecer uma ordenao
das observaes, quer seja atravs probabilidade de ocorrncia de um acontecimento, quer
seja do tempo estimado de sobrevivncia. Espera-se, por exemplo, que a maiores probabi-
lidades de incumprimento correspondam menores tempos de sobrevivncia (analogamente
para pagamento antecipado). Deste modo possvel comparar estes modelos relativamente
ao seu poder discriminante entre as classes bom e mau. Para cada um dos acontecimen-
tos (pagamento antecipado e incumprimento) estas classes servem apenas para classicar de
bons o facto de no terem o respectivo acontecimento e de maus caso contrrio.
Note-se que os dados censurados no so tratveis pela regresso logstica usual, ao
contrrio do que acontece nos modelos de anlise de sobrevivncia, pelo que se optou por
exclu-los desta anlise comparativa. Seguidamente fez-se uma partio do conjunto de da-
dos na proporo 60/40 para os chamados conjuntos de treino e de teste. O primeiro serviu
para estimar os parmetros constituintes dos modelos logstico e de hazards proporcionais e
o segundo serviu para testar o desempenho desses modelos com base nos parmetros entre-
tanto estimados.
36
Figura 2.7: Curvas ROC relativamente ao pagamento antecipado (esquerda) e incumprimento (direita). A
maior proximidade da linha diagonal indicador de reduzido poder discriminante dos modelos.
Uma forma simples de avaliar e comparar o desempenho destes modelos atravs das
curvas ROC, cuja descrio foi dada no captulo anterior e se apresentam na Figura 2.7.
Neste caso, o poder discriminante dos modelos idntico, quer no caso do pagamento
antecipado, quer no caso do incumprimento, uma vez que as curvas de cada grco so muito
semelhantes. Isto refora a ideia que os modelos de hazards proporcionais so competitivos
com a regresso logstica na classicao das classes bom e mau, isto , tm um poder
discriminante bastante semelhante, com a vantagem do primeiro poder ser utilizado para es-
timar o tempo de ocorrncia dos acontecimentos, importante para o clculo da rendibilidade
das transaces de crdito.
37
Captulo 3
Rendibilidade de transaces de crdito
As instituies de crdito sempre tiveram preocupaes relativamente deciso e acompa-
nhamento de crdito em funo do perl de risco dos clientes ou, mais propriamente, na
sua probabilidade de incumprir. No entanto, vrios autores salientam inmeras vantagens na
passagem da minimizao do risco para a maximizao do lucro, contrapondo o tradi-
cional Credit Scoring ao chamado Prot Scoring. Apesar do advento das ferramentas de
data mining e de sistemas mais completos de data warehouse, essa transio no to fcil
como se poderia julgar. Na realidade, enquanto que a taxa de incumprimento depende prin-
cipalmente das decises de concesso, limites e recuperao de crdito, Thomas [11] aponta
ainda outras decises que afectam o lucro e que incluem os nveis de servio, marketing e
pricing.
Neste captulo apresenta-se o clculo da rendibilidade esperada de transaces de crdito
pessoal recorrendo a mtodos de anlise de sobrevivncia e mostrar que este pode ser um
indicador til na deciso de crdito, podendo ainda ser utilizado para o clculo de pricing
deste tipo de transaces.
A utilizao da anlise de sobrevivncia apresenta grandes vantagens. Do ponto de vista
matemtico, proporciona facilidades em lidar com dados censurados e variveis dependentes
do tempo, relativamente aos mtodos tradicionais. Alm disso, e no contexto deste trabalho,
Banasik [7] salienta outras vantagens deste tipo de anlise:
- uma melhor estimativa da rendibidade da operao;
38
- previso dos nveis de incumprimento e pagamento antecipado como funo do tempo;
- as decises podem levar em conta o tempo previsto da transaco de crdito;
- maior facilidade na incorporao de estimativas de factores econmicos.
Espera-se assim poder prever, no se vai ocorrer o incumprimento, mas quando. Alm
do incumprimento, o pagamento antecipado outra causa da perda de rendibilidade das
operaes que interessa considerar e que dever estar includa no modelo.
3.1 Clculo da rendibilidade esperada com funes de so-
brevivncia
O clculo da rendibilidade das transaces de crdito pessoal necessitar de alguns pressu-
postos para simplicar a formulao do problema. Deste modo, todas as transaces sero
consideradas com pagamentos mensais de prestaes xas, postcipadas e sem perodo de
carncia (como acontece na maior parte dos casos). As taxas de juros sero consideradas
xas ao longo do emprstimo e as despesas operacionais, de manuteno e comisses no
sero incorporadas no modelo.
Dadas as condies referidas e no caso ideal das transaces de crdito seguirem sempre
o plano de pagamentos, a rendibilidade das operaes seria fcil de calcular. Isto , no caso
de no haver nem pagamento antecipado nem incumprimento, um emprstimo de montante
L e prazo de T meses com uma taxa de juro nominal mensal r e taxa de funding ou de custo
de capital r

, deveria proporcionar ao banco um lucro de


P
max
=
T

k=1
V
k
(1 + r

)
k
L
=
T

k=1
c
k
+ j
k
(1 + r

)
k
L (3.1)
em que V
k
a prestao do emprstimo que pode ser subdividida nas componentes de capital
e juro
1
, c
k
e j
k
, respectivamente.
1
No caso das prestaes xas (ver apndice para mais detalhe) tem-se que
V
k
= V = rL
(1 +r)
T
(1 +r)
T
1
, c
k
= rL
(1 +r)
k1
(1 +r)
T
1
, j
k
= rL
(1 +r)
T
(1 +r)
k1
(1 +r)
T
1
39
Na realidade o que acontece que nem todos os emprstimos seguem esse plano, porque
alguns clientes pagam antecipadamente e, pior do que isso, incumprem. Estes factores re-
presentam perdas para o banco. Mais precisamente, o pagamento antecipado implica a perda
do pagamento dos juros referentes s prestaes remanescentes do emprstimo, enquanto o
incumprimento implica no s a perda dos juros mas tambm do capital. Note-se que as
perdas nunca so totais, uma vez que o pagamento antecipado pode ter penalizaes e, em
caso de incumprimento, muitas vezes possvel recuperar o montante em dvida. No entanto
isso tambm no vai ser considerado no modelo.
Incorporando agora os factores de pagamento antecipado e incumprimento nas prestaes
tem-se que o lucro esperado (expresso adaptada de Stepanova e Thomas [6]) seria dado por
P
exp
=
T

k=1
c
k
S
D
k
+ j
k
_
S
E
k
+ S
D
k
1
_
(1 + r

)
k
L (3.2)
onde, relativamente k-sima prestao, se tem que c
k
e j
k
so as componentes de capital e
juro da prestao, S
E
k
e S
D
k
so as funes de sobrevivncia para pagamento antecipado e in-
cumprimento
2
, respectivamente. Note-se que pela forma como se deniu os acontecimentos
pagamento antecipado (E) e incumprimento (D) no possvel que ambos ocorram em
simultneo porque so acontecimentos incompatveis. Por essa razo a componente de juros
da expresso (3.2) multiplicada pela probabilidade de no ter pagamento antecipado nem
incumprimento.
P(E D) = 0 P(

E

D) = P(

E) + P(

D) 1
Por outras palavras, o lucro a soma das parcelas de capital e juro de cada prestao
multiplicadas pelas probabilidades de as receber (atravs das funes de sobrevivncia), ac-
tualizadas para o instante inicial, menos o montante original.
Assumindo o modelo de hazards proporcionais, tem-se que a expresso (3.2) pode ser
alterada para
P
exp
=
T

k=1
c
k
(S
D
0k
)

D
+ j
k
_
(S
E
0k
)

E
+ (S
D
0k
)

D
1
_
(1 + r

)
k
L (3.3)
2
A notao E e D vem do ingls Early repayment e Default.
40
onde, relativamente k-sima prestao, S
E
0k
e S
D
0k
so as funes de sobrevivncia base
para pagamento antecipado e incumprimento (isto , quando as covariveis so todas zero),

E
= exp(

E
x) e
D
= exp(

D
x).
Esta forma de calcular a rendibilidade esperada enfrenta um problema que comum s
tcnicas j conhecidas e utilizadas do scoring de crdito. Uma vez que os parmetros do mo-
delo so estimados com base numa amostra de transaces aceites pela instituio de crdito,
os resultados podem sofrer um enviesamento quando aplicados a todas as transaces (in-
clusivamente as rejeitadas). O problema da inferncia de rejeio foi investigado por Crook
e Banasik [16] que utilizaram uma amostra rara concedida por uma instituio de crdito
que ocasionalmente atribua o crdito a virtualmente toda a procura de crdito. Uma das
tcnicas testadas, re-weighting, baseava-se no facto de haver uma desproporo de clientes
com determinadas caractersticas, dada a seleco ser manifestamente no-aleatria (p.e.
clientes desempregados dicilmente seriam aceites). Este efeito poderia ser compensado
pela atribuio de pesos mais elevados s transaces com caractersticas mais frequente-
mente rejeitadas. Outra tcnica referida pelos autores, extrapolao, consistia em estimar
um modelo inicial com as transaces aceites pela instituio. Aplicando esse modelo s
transaces rejeitadas seria possvel classic-las nas categorias bom-mau e, a partir da,
estimar um modelo nal envolvendo todas as transaces (aceites e rejeitadas). Os resulta-
dos dos autores, porm, mostraram no haver uma grande melhoria nos modelos ao incluir-
se uma tcnica de inferncia de rejeio, em especial se a taxa de rejeio ou recusa for
reduzida.
Um outro mtodo de inferncia de rejeio proposto por Sohn e Shin [15] recorre aos
mesmos mtodos j utilizados neste trabalho, a anlise de sobrevivncia. A partir da amostra
de transaces aceites constri ummodelo de sobrevivncia para o incumprimento aplicando-
o depois s transaces rejeitadas. Se o limite inferior de um intervalo de conana de 90%
do tempo de sobrevivncia mediano (poderia ser outro percentil) da transaco rejeitada for
maior que o tempo de sobrevivncia mediano das transaces aceites, considerar-se-ia que a
transaco seria aceite.
41
3.2 Resultados do clculo da rendibilidade esperada
A rendibilidade esperada dada pela expresso (3.2) ser agora calculada com base nos re-
sultados obtidos em seces anteriores. O modelo de hazards proporcionais de Cox (semi-
paramtrico) necessita de uma funo base de sobrevivncia. Optou-se pela funo base
dada pelo modelo de Weibull por este ser um modelo de hazards proporcionais e por j se
ter mostrado que o ajuste aos dados era bastante aceitvel.
Mais exactamente, utilizando os parmetros estimados do modelo de Weibull (Tabela
2.3) para as funes base de sobrevivncia referente ao pagamento antecipado e incumpri-
mento tem-se que
S
E
0k
= exp((e
5,0908

k
T
100)
1
0,5722
)
S
D
0k
= exp((e
6,5206

k
T
100)
1
0,7039
)
Utilizando tambm os parmetros estimados pelo modelo de hazards proporcionais de Cox
(Tabela 2.5) relativamente s covariveis para os mesmos acontecimentos tem-se que

E
= e

E
x
= e
0,0314x
1
+0,0169x
2
0,0151x
3
+0,2542x
4
0,0041x
6

D
= e

D
x
= e
0,0400x
1
0,0392x
2
0,0161x
3
0,0221x
6
Os valores

E
x e

D
x representam assim uma espcie de preditor linear, ou score, para
cada emprstimo relativamente aos acontecimentos em anlise. Quanto maior for o valor
destes scores maior ser a probabilidade de pagamento antecipado e incumprimento, respec-
tivamente.
A Figura 3.1 exibe vrios grcos, relativamente a pagamento antecipado (esquerda) e
incumprimento (direita), incluindo a distribuio das transaces de crdito em funo de
intervalos dos scores (em cima) e referentes rendibilidade mdia em funo desses scores,
considerando o custo de capital igual a zero (ao centro) e igual a 4% (em baixo). Claro que
os valores de rendibilidade so mais elevados quando r

= 0, por isso o segundo valor dever


ser uma aproximao mais realista. Comparam-se a mdia da rendibilidade esperada calcu-
ladas atravs da expresso (3.3), com a mdia da rendibilidade mxima calculada atravs da
expresso (3.1) e com a mdia da rendibilidade actual. Esta ltima corresponde que se
vericou de facto, assumindo a perda dos juros a partir do momento em que se registasse o
42
Figura 3.1: Em cima: Nmero de emprstimos por intervalos de score

E
x e

D
x para pagamento an-
tecipado (esquerda) e incumprimento (direita), respectivamente. Ao centro: Rendibilidade mdia em funo
dos scores com o custo de capital igual a zero. Em baixo: Rendibilidade mdia em funo dos scores com o
custo de capital igual a 4%. A rendibilidade mxima obtida quando no h incumprimento nem pagamento
antecipado; a rendibilidade esperada o valor estimado pelo modelo; a rendibilidade actual ou real foi a que se
vericou de facto.
43
pagamento antecipado e a perda do capital e juros a partir do momento em que se registasse
o incumprimento
3
.
Relativamente ao pagamento antecipado nota-se que scores mais elevados, onde a proba-
bilidade deste acontecimento ocorrer maior, esto associadas maiores mdias de rendibili-
dade mxima, enquanto que as mdias da rendibilidade esperada atingem um mximo e vo
decrescendo. No caso do incumprimento, para valores de score mais elevados, onde a proba-
bilidade deste acontecimento ocorrer maior, as mdias da rendibilidade mxima tendem a
permanecer constantes, enquanto que as mdias da rendibilidade esperada so notoriamente
decrescentes com o aumento do score.
Uma explicao para as diferenas entre os grcos destes acontecimentos poder ter a
ver comas variveis explicativas. Oprazo a varivel mais explicativa no caso do pagamento
antecipado (emprstimos mais longos tm maior probabilidade de liquidao antecipada),
enquanto que o incumprimento tem como varivel mais explicativa o score interno do banco
para classicao do risco do cliente (independente do prazo do emprstimo). Alm disso,
convm notar que os valores mais extremados dos scores

E
x e

D
x possuem muito menor
nmero de emprstimos (como se v nos grcos de barras) e so por isso mais susceptveis
de sofrer variaes nos valores mdios das rendibilidades.
Consideremos agora, no a rendibilidade mdia, mas a rendibilidade acumulada em
funo dos scores subdividida em dois grupos em termos de montante (mais ou menos que
10.000e) e prazo (mais ou menos que 30 meses).
A Figura 3.2 mostra que os emprstimos de montante inferior a 10.000e proporcionam
maior rendibilidade que os restantes, mas isso est relacionado como facto de estes seremem
nmero superior aos outros. Em termos de prazo evidencia-se uma caracterstica peculiar.
Pode ver-se que, ao contrrio do que acontece com o montante, os grcos da rendibilidade
para diferentes prazos se intersectam. Este resultado, tambm constatado por Stepanova e
Thomas [6], justicado pelo facto da rendibilidade das transaces de crdito de montantes
semelhantes ter de levar em conta, quer o score, quer o prazo.
Emtodo o caso os grcos permitemidenticar cut-offs a partir dos quais j no se regista
3
No caso dos dados censurados considerou-se a rendibilidade esperada a partir do momento em que se
registasse o tempo censurado.
44
Figura 3.2: Rendibilidade esperada acumulada em funo dos scores de pagamento antecipado

E
x (es-
querda) e de incumprimento

D
x (direita) para dois subgrupos em termos de montante (em cima) e prazo (em
baixo), coniderando o custo de capital igual a 4%.
aumentos de rendibilidade.
A Tabela 3.1 mostra uma comparao do que poderia ser a deciso com base na rendi-
bilidade esperada das transaces de crdito. A partir da amostra de teste, constituda por
29.041 transaces de crdito pessoal, fez-se uma simulao do que poderiam ser as decises
automticas de aprovao com base no risco do cliente, isto , com base num score para a
probabilidade de incumprimento. Segundo este mtodo correntemente utilizado, assume-se
que uma transaco dever ser rentvel () no caso do cliente ser considerado bom por
esse score e no rentvel () no caso contrrio. Utilizando a rendibilidade esperada para o
mesmo efeito, considera-se rentvel uma transaco com rendibilidade esperada positiva e
45
no rentvel no caso contrrio.
Valores actuais Risco do cliente Rend. esperada
Rendibilidade Nmero Montante Nmero Montante Nmero Montante
- prevista 26.644 100,0 23.518 89,7 24.422 96,1
- prevista 0 0,0 3.126 10,3 2.222 3,9
- prevista 0 0,0 1.045 -20,0 934 -24,4
- prevista 2.397 -32,5 1.352 -12,5 1.463 -8,1
Tabela 3.1: Comparao entre uma classicao baseada no risco do cliente e outra baseada na rendibilidade
esperada das transaces de crdito em termos de nmero e montante (unidades monetrias).
Os resultados apresentados mostram que considerando o risco do cliente para deciso
de crdito seriam aprovadas 24.563 transaces, das quais 1.045 no seriam rentveis para
o banco. Atravs da rendibilidade esperada seriam aprovadas 25.356, das quais 934 no
seriam rentveis para o banco. Nota-se uma ligeira vantagem ltimo mtodo que pode
ainda ser comprovado pelas respectivas rendibilidades. No primeiro caso a rendibilidade
das transaces seria de 69,7 unidades monetrias
4
(u.m.), enquanto que no segundo caso a
rendibilidade ascenderia a 71,7 u.m.
Note-se que os valores apresentados no devem ser considerados valores absolutos, mas
relativos. Os resultados foram efectuados segundo pressupostos muito especcos que sim-
plicaramos clculos, ignorando ainda a possibilidade de overrides, isto , a possibilidade de
existirem factores impeditivos da aprovao automtica, apesar do modelo assim o indicar.
3.3 Pricing com base na rendibilidade esperada
Opricing baseado no risco, conhecido por Risk-based pricing, uma modalidade de atribuio
de preos diferenciados que tende a reectir o risco ou rendibilidade potencial das transaces
de crdito. Logicamente, isto leva a atribuir taxas de juros mais baixas aos melhores clientes
e mais elevadas aos piores. Este processo est longe de ser simples e tem subjacente vrios
desaos. Por exemplo, o fenmeno da seleco adversa pode estar presente quando a taxa
de juro oferecida a um cliente mais elevada que a taxa standard. Aqueles que a aceitam
no so de uma amostra aleatria da populao, mas sim de um grupo de risco elevado, pois
4
Para estes efeitos comparativos optou-se por relativizar o montante envolvido, considerando-se unidades
monetrias (u.m.) em vez de, por exemplo, milhares ou milhes de euros.
46
no conseguiram uma taxa mais baixa noutro stio. Signica que dever-se-ia usar uma taxa
ainda maior para compensar esse risco, o que agravaria mais a situao, e que levaria a uma
escalada ascendente da taxa de juro.
Uma outra situao pode ocorrer com os bons clientes, porque ao atribuir um preo
mais reduzido que o cliente consideraria aceitvel, na realidade est a perder-se alguma da
rendibilidade possvel de obter. Estes exemplos servem para referir que, mais do que atribuir
um preo com base no risco, igualmente importante conhecer e compreender as condies
do mercado e da concorrncia e tambm saber interagir e explicar ao cliente as razes da
taxa de juro serem diferentes do standard. Edelman [1] sugere alternativamente que, em
vez de ajustar o preo ao risco do cliente, pode ajustar-se o risco ao preo. Por exemplo,
para os melhores (piores) clientes poder-se-ia ser menos (mais) exigente nas requisies de
garantias, colateral ou provas documentais.
O objectivo deste trabalho no est propriamente no clculo do pricing das transaces
de crdito, mas esta uma possvel aplicao. Dado que a rendibilidade afectada pelo
montante, prazo, taxas de juro, bem como outros factores econmicos que muitas vezes
so difceis de obter, dever-se-ia considerar uma medida que fosse relativa rendibilidade
mxima.
Hoadley [12] prope uma medida chamada lucro holstico (holistic prot), e que o quo-
ciente entre o lucro e o lucro obtido sob discriminao perfeita. Aqui o contexto um pouco
diferente mas a medida sugerida tem um paralelo com o quociente entre a rendibilidade
esperada e a rendibilidade mxima. A razo entre as expresses 3.2 e 3.1,
P
racio
=
P
exp
P
max
(3.4)
permite responder questo de encontrar a taxa de juro de uma transaco de crdito, ad-
mitindo que o banco est disposto a ganhar uma determinada percentagem da sua rendibi-
lidade mxima, P
racio
. Isso corresponde a resolver a equao 3.4 em ordem taxa de juro
r, implicitamente envolvida no clculo das componentes de capital, c
k
, e juro, j
k
, de cada
prestao V
k
das expresses (3.1) e (3.2).
47
Concluso
As anlises efectuadas nas seces anteriores permitiram reconhecer potencialidades nos
mtodos de anlise de sobrevivncia quando aplicados ao scoring de crdito, atravs do
clculo da rendibilidade esperada das transaces de crdito pessoal.
A rendibilidade das transaces de crdito determinantemente condicionada pela ocor-
rncia de pagamento antecipado e incumprimento, entre outros factores. Neste trabalho foi
possvel a modelao destes dois acontecimentos utilizando modelos de anlise de sobrevi-
vncia.
O mtodo de Kaplan-Meier (no paramtrico) permitiu estimar funes de sobrevivn-
cia para estes dois acontecimentos em funo do tempo. Vrios modelos de vida acelerada
(paramtricos) foram experimentados, incorporando j variveis explicativas, obtendo-se es-
timativas para os parmetros dos modelos. Anlises comparativas com base nos resduos
de Cox-Snell mostram que o desempenho dos modelos relativamente semelhante, sendo o
modelo de Weibull aquele que matematicamente mais simples. Com o modelo de hazards
proporcionais de Cox (semi-paramtrico) foi possvel obter estimativas para os parmetros
das covariveis, uma vez que o modelo no depende da funo base de hazard. Esses valo-
res estimados atravs de verosimilhana parcial revelaram-se bastante prximos dos obtidos
com o modelo paramtrico de Weibull, tambm um modelo de hazards proporcionais. Alm
disso, o poder discriminante do modelo de Cox mostrou-se bastante competitivo com o mo-
delo de regresso logstica tradicional, quando avaliado atravs das curvas ROC.
O clculo da rendibilidade esperada das transaces de crdito utilizou as funes de
sobrevivncia estimadas para o pagamento antecipado e incumprimento sob inuncia das
variveis explicativas. O valor encontrado foi depois comparado com a rendibilidade m-
xima (quando no ocorre nem pagamento antecipado nem incumprimento) e a rendibilidade
48
real. A comparao destas rendibilidades foi exibida gracamente, calculando os seus res-
pectivos valores mdios em funo de scores para pagamento antecipado e incumprimento,
obtidos pelo modelo de hazards proporcionais. Analisando tambm os valores acumulados
da rendibilidade esperada foi ainda possvel identicar cut-offs a partir dos quais no se de-
ver esperar um aumento da rendibilidade das transaces. Por isso este poder tambm ser
um factor a considerar na deciso de crdito.
Uma anlise comparativa de deciso de crdito com base no risco do cliente (corrente-
mente utilizado) e com base na rendibilidade esperada, evidenciou uma ligeira vantagem
deste ltimo mtodo em nmero (aumento de cerca 3% na taxa de aprovao) e montante.
O clculo da rendibilidade esperada pode ter outra aplicao bastante til. Trata-se de
calcular o pricing das transaces de crdito assumindo que se espera obter determinado
nvel de rendibilidade, isto , uma determinada percentagem da rendibilidade mxima das
transaces.
49
Bibliograa
[1] THOMAS, L. C., EDELMAN, D.B., CROOK, J. N., Credit Scoring and its Applica-
tions, SIAM (2002)
[2] ALLISON, P., Survival Analysis using SAS

: a practical guide, Wiley & Sons (1995)


[3] LEE, E., Statistical Methods for Survival Data Analysis, Wiley & Sons (1992)
[4] MILLER, R. G., Survival Analysis, Wiley & Sons (1981)
[5] STEPANOVA, M. e THOMAS, L. C., Survival analysis methods for personal loan data,
Proc. Credit Scoring and Credit Control VI, Credit Research Centre, University of
Edimburgh, Operations Research (1999) 52, 277-289
[6] STEPANOVA, M. e THOMAS, L. C., PHAB scores: proportional hazards analysis be-
havioural scores, Journal of the Operational Research Society (2001) 52, 1007-1016
[7] BANASIK, J., CROOK, J. N. e THOMAS, L. C., Not if but when will borrowers default,
Journal of the Operational Research Society (1999) 50, 1185-1190
[8] COX, D. R., Regression models and life-tables (with discussion), J R Stat Soc Ser B
(1972) 74, 187-220
[9] COX, D. R., Partial likelihood, Biometrika (1975) 62, 187-202
[10] THOMAS, L. C., HO, J. e SCHERER, W. T., Time will tell: behavioural scoring and the
dynamics of consumer credit assessment, IMA Journal of Management Mathematics
(2001) 12, 89-103
50
[11] THOMAS, L. C., A survey of credit and behavioural scoring: forecasting nancial risk
of lending to consumers, International Journal of Forecasting (2000) 16, 149-172
[12] HOADLEY, B. e OLIVER,R.M., Business measures of scorecards benet, IMA Journal
of Mathematics Applied in Business & Industry (1998) 9, 55-64
[13] DAGOSTINO, R. B. e NAM, B. H., Evaluation of the performance of survival analysis
models: discrimination and calibration measures, Handbook of Statistics - Elsevier
(2004) Vol. 23
[14] FARRINGTON, C. P., Residuals for Proportional Hazards Models with interval-
censored survival data, Biometrics (2002) 56, 473-482
[15] SOHN, S. Y. e SHIN, H. W., Reject inference in credit operations based on survival
analysis, Expert Systems with Applications (2006) 31, 26-29
[16] CROOK, J. e BANASIK, J., Does reject inference really improve the performance of
application scoring models?, Journal of Banking & Finance (2004) 28, 857-874
[17] COLLET, D., Modelling Survival Data in Medical Research, Chapman & Hall, Lon-
don, U.K. (1994)
[18] ROCHA, C., Anlise de Sobrevivncia, Apresentao do IV Congresso Anual da So-
ciedade Portuguesa de Estatstica (1996)
[19] OLIVER, R. M. e WELLS, E., Efcient frontier cutoff policies in credit portfolios,
Journal of the Operational Research Society (2001) 52, 1025-1033
[20] KALAPODAS, T., Credit risk assessment: a challenge for nancial institutions, IMA
Journal of Management Mathematics (2006) 17, 25-46
[21] MCNAB, H. e WYNN, A., Principles and practice of consumer credit risk management,
Institute os nancial services UMIST
[22] SAS

, Help , SAS Institute Inc., Cary, NC, USA. (2002)


51
Apndice A
Capital e juros em emprstimos de
prestao xa
A amortizao de um emprstimo segue, de uma forma geral, um regime de juro composto.
O modelo mais frequente que se encontra (existem muitas variantes) o de uma prestao
xa ao longo do tempo de vida do emprstimo dividida em duas componentes: capital e
juros.
Se num dado instante for concedido um emprstimo de valor L com pagamento em n
termos ou prestaes e uma taxa de juro r (geralmente uma taxa nominal) tem-se a seguinte
relao para o clculo das prestaes:
L =
n

k=1
V
k
(1 + r)
k
(A.1)
e, se a prestao for xa,
L =
n

k=1
V (1 + r)
k
(A.2)
ou ainda
1
L = V
1 (1 + r)
n
r
= V a
nr
(A.3)
A prestao xa de um determinado emprstimo pode assim ser calculada dado o mon-
tante pedido, prazo e taxa de juro.
1
Da soma dos n primeiros termos de uma progresso geomtrica:

n
k=1
(1 +r)
k
= (1 +r)
1

1(1+r)
n
1(1+r)
1
=
1(1+r)
n
r
= a
nr
52
A k-sima prestao de um emprstimo pode sempre subdividir-se nas componentes de
capital e juro, c
k
+j
k
. Estas componentes podem ser calculadas dados o montante do emprs-
timo L, o prazo p e a taxa referente ao perodo de pagamento r, sendo V =
L
a
pr
= rL
(1+r)
p
(1+r)
p
1
a prestao (xa). A seguir esto calculadas as componentes de capital e juro das primeiras
quatro prestaes. O raciocnio anlogo para o clculo das restantes.
j
1
= rL c
1
= V j
1
= rL
1
(1+r)
p
1
j
2
= r(L c
1
) = rL
(1+r)
p
(1+r)
(1+r)
p
1
c
2
= V j
2
= rL
(1+r)
(1+r)
p
1
j
3
= r(L c
1
c
2
) = rL
(1+r)
p
(1+r)
2
(1+r)
p
1
c
3
= V j
3
= rL
(1+r)
2
(1+r)
p
1
j
4
= r(L c
1
c
2
c
3
) = rL
(1+r)
p
(1+r)
3
(1+r)
p
1
c
4
= V j
4
= rL
(1+r)
3
(1+r)
p
1
Mostremos por induo que
j
k
= rL
(1 + r)
p
(1 + r)
k1
(1 + r)
p
1
(A.4)
ou equivalentemente, que c
k
= V j
k
= rL
(1+r)
k1
(1+r)
p
1
.
Para k = 1 a hiptese trivialmente vericada. Mostremos que a hiptese hereditria:
j
k+1
= r
_
L
k

i=1
(c
i
)
_
= r
_
L
k

i=1
rL
(1 + r)
k1
(1 + r)
p
1
_
, por hiptese
= r
_
L rL
1
(1 + r)
p
1
k

i=1
(1 + r)
i1
_
= r
_
L rL
1
(1 + r)
p
1
(1 + r)
k
1
r
_
= rL
_
1
(1 + r)
k
1
(1 + r)
p
1
_
= rL
(1 + r)
p
(1 + r)
k
(1 + r)
p
1
Em concluso, a k-sima prestao (xa) tem componentes de capital e juro dadas por
V = rL
(1 + r)
p
(1 + r)
p
1
= rL
(1 + r)
k1
(1 + r)
p
1
. .
Capital
+rL
(1 + r)
p
(1 + r)
k1
(1 + r)
p
1
. .
Juro
(A.5)
53
Plano de amortizaes
Termo CapAmort Prest Cap Juro CapAc JurAc %CapAc %JurAc
1 1000,00 88,85 78,85 10,00 78,85 10,00 8% 15%
2 921,15 88,85 79,64 9,21 158,49 19,21 16% 29%
3 841,51 88,85 80,43 8,42 238,92 27,63 24% 42%
4 761,08 88,85 81,24 7,61 320,16 35,24 32% 53%
5 679,84 88,85 82,05 6,80 402,21 42,04 40% 64%
6 597,79 88,85 82,87 5,98 485,08 48,01 49% 73%
7 514,92 88,85 83,70 5,15 568,78 53,16 57% 80%
8 431,22 88,85 84,54 4,31 653,32 57,48 65% 87%
9 346,68 88,85 85,38 3,47 738,70 60,94 74% 92%
10 261,30 88,85 86,24 2,61 824,93 63,56 82% 96%
11 175,07 88,85 87,10 1,75 912,03 65,31 91% 99%
12 87,97 88,85 87,97 0,88 1000,00 66,19 100% 100%
Tabela A.1: Exemplo de um plano de amortizaes; Legenda: CapAmort - capital a amortizar; Prest -
valor da prestao; Cap - componente de capital da prestao; Juro - componente de juro da prestao; CapAc -
capital amortizado acumulado; JurAc - juros acumulados pagos; %CapAc - percentagem de capital amortizado;
%JurAc - percentagem de juros pagos.
ATabela A.1 mostra umexemplo de umplano de amortizaes subdividindo cada prestao
nas componentes de capital e juro (ignorando comisses e outras despesas adicionais do em-
prstimo). Para o efeito considerou-se um emprstimo de montante L = 1000 e em p = 12
meses com uma taxa de juro anual nominal de r = 12% (1% ao ms) com prestaes xas
de valor igual a V = 1000/a
121
.
54

Das könnte Ihnen auch gefallen