Beruflich Dokumente
Kultur Dokumente
_
t
0
h(u) du
_
(1.8)
donde se obtm naturalmente que
f(t) = h(t) exp
_
_
t
0
h(u) du
_
(1.9)
Convm notar que, ao contrrio do que acontece com as funes de distribuio e so-
brevivncia, F(t) e S(t), respectivamente, a funo cumulativa de hazard, H(t), no uma
probabilidade. De facto, apesar de no tomar valores negativos, pode tomar valores superio-
res a 1, uma vez que
lim
t+
F(t) = 1 lim
t+
S(t) = 0 lim
t+
H(t) = + (1.10)
1.3 Estimao no paramtrica de funes de sobrevivn-
cia
O mtodo de Kaplan-Meier o mais utilizado para estimar a funo de sobrevivncia, e no
mais do que um mtodo de mxima verosimilhana no-paramtrico.
O mtodo simples e intuitivo. Se no houver dados censurados,
S(t) apenas a pro-
poro de indivduos com tempo de sobrevivncia maior que t.
7
A situao ligeiramente diferente no caso de haver dados censurados. Suponhamos
que existem t
1
, . . . , t
m
tempos de sobrevivncia distintos. Em cada tempo pode dizer-se que
h n
j
indivduos em risco (que no tiveram o acontecimento ou censura) antes de t
j
. Seja
d
j
o nmero de indivduos que tiveram o acontecimento t
j
. Nestes termos o estimador de
Kaplan-Meier dado por
S(t) =
j:t
j
t
_
1
d
j
n
j
_
, para t
1
t t
m
(1.11)
Resumindo, para umdado tempo t, basta tomar todos os tempos de sobrevivncia menores
que t, calcular para cada um deles a quantidade entre parnteses da frmula, que se inter-
preta como probabilidade condicionada de sobreviver at t
j+1
, dado que sobreviveu at t
j
, e
multiplic-las entre si. Note-se que para t < t
1
(o menor tempo de sobrevivncia),
S(t) = 1.
Para t > t
m
(o maior tempo de sobrevivncia)
S(t) = 0, se no houver dados censurados
maiores que t
m
.
Considere-se um caso meramente ilustrativo deste estimador. Os valores seguintes repre-
sentam tempos de sobrevivncia de 10 indivduos, dos quais 4 esto censurados (assinalados
com o sinal +):
1
2
3
4
+
3
4
+
3
4
1
2
+
3
4
1
4
3
4
1
3
8
+
Figura 1.2: Na gura da esquerda esquematizaram-se 10 tempos de sobrevivncia dos quais 4 se encontram
censurados. Na gura da direita est representada a respectiva funo de sobrevivncia estimada pelo mtodo
Kaplan-Meier.
8
Neste caso, obtm-se os seguintes valores da funo de sobrevivncia:
S(0) = 1
S(
1
4
) =
_
1
1
10
_
= 0, 9
S(
1
2
) =
_
1
1
10
_ _
1
1
8
_
= 0, 7875
S(
3
4
) =
_
1
1
10
_ _
1
1
8
_ _
1
3
6
_
= 0, 39375
S(1) = 0
1.4 Modelos paramtricos de funes de sobrevivncia
Seguidamente so apresentados alguns exemplos de modelos paramtricos bastante utiliza-
dos na anlise de sobrevivncia. Para cada modelo so exibidas as funes de sobrevivncia,
S, e de densidade de probabilidade, f. A parametrizao sugerida relativamente s dis-
tribuies Exponencial, Weibull, Gama e Loglogstica no corresponde dos parmetros
estimados nas seces posteriores
1
.
1. Exponencial
Este modelo assume o risco constante, isto , a funo hazard dada por h(t) = , com
> 0, o que equivale a dizer que a funo hazard cumulativa dada por H(t) = t.
Deste modo, as funes de sobrevivncia e densidade de densidade de probabilidade
so dadas por
S(t) = e
t
(1.12)
f(t) = e
t
(1.13)
Tem-se ainda que mdia e varincia so dados por
1
e
1
2
, respectivamente.
2. Weibull
Omodelo de Weibull uma generalizao do modelo exponencial. Afuno de hazard
1
No entanto, para os modelos Exponencial, Weibull e LogLogstico possvel fazer uma reparametrizao
fazendo = e
e =
1
(1.14)
f(t) = (t)
1
e
(t)
(1.15)
A mdia e a varincia so dadas respectivamente por
1
_
1 +
1
_
e
1
2
_
_
1 +
2
2
_
1 +
1
__
em que () a funo Gama
2
denida por
() =
_
0
u
1
e
u
du (1.16)
3. Gama
O modelo Gama outra generalizao do modelo exponencial. A sua funo de den-
sidade de probabilidade dada por
f(t) =
(t)
1
e
t
()
(1.17)
e sua funo de sobrevivncia por
S(t) = 1
_
t
0
()
(x)
1
e
x
dx (1.18)
= 1
1
()
_
t
0
u
1
e
u
du
= 1 I(t, )
onde () est denido em (1.16) e
I(s, ) =
1
()
_
s
0
u
1
e
u
du (1.19)
a chamada funo Gama incompleta.
A mdia e varincia so dadas por
2
respectivamente.
2
Para inteiro positivo tem-se que ( + 1) = ! .
10
4. Lognormal
Como sugere o prprio nome da distribuio, assumindo que log T N(,
2
),
as funes de sobrevivncia e de densidade de probabilidade podem exprimir-se do
seguinte modo:
S(t) = 1
_
log t
_
(1.20)
f(t) =
1
t
2
exp
_
1
2
_
log t
_
2
_
(1.21)
onde a funo de distribuio cumulativa da distribuio normal.
5. Log-logstico
Quando X = log T segue uma distribuio logstica dada por F(x) =
e
x
1+e
x
com mdia
e varincia
2
, diz-se que a distribuio de T tem uma distribuio log-logstica dada
pela expresso F(z) =
z
1+z
em que z = exp
_
log t
_
. Fazendo =
1
e = e
pode
obter-se as seguintes funes de sobrevivncia e de densidade de probabilidade
S(t) =
1
1 + (t)
(1.22)
f(t) =
(t)
1
(1 + (t)
)
2
(1.23)
Relativamente a estes modelos paramtricos, a Figura 1.3 exibe algumas formas tpicas
de funes hazard.
1.5 Modelos de vida acelerada e hazards proporcionais
Acontece muitas vezes que o tempo de sobrevivncia inuenciado por variveis que tra-
duzem determinadas caractersticas dos indivduos. Elas devem ser consideradas de alguma
forma no modelo de modo a potenciar o seu poder preditivo.
Os modelos considerados no captulo anterior podem facilmente ser adaptados de forma
a permitir a inuncia destas variveis explicativas atravs de um vector de covariveis,
x = (x
1
, x
2
, . . . , x
k
)
, e de parmetros, = (
1
,
2
, . . . ,
k
)
x
h
0
(t.e
x
) (1.24)
em que h
0
uma funo base de hazard que se obtm no caso das covariveis serem todas
zero. Em termos da funo de sobrevivncia ca estabelecida a relao S(t) = S
0
(t), onde
= e
x
e S
0
a funo de sobrevivncia associada funo de hazard h
0
da expresso
(1.24). Banasik [7] refere que neste caso as covariveis tm o papel de acelerar ou tornar
12
mais lento o processo de vida do sistema.
Os parmetros deste tipo de modelos podem ser estimados de forma semelhante ao que
acontece com a regresso linear usual. Seja T
i
a varivel aleatria denotando o tempo de
sobrevivncia do i-simo indivduo e x
i
= (x
i1
, . . . , x
ik
)
x
h
0
(t) (1.26)
As covariveis tm neste caso um efeito multiplicador na funo base de hazard. Re-
lativamente funo de sobrevivncia tem-se que S(t) = [S
0
(t)]
, onde = e
x
e S
0
a
funo de sobrevivncia associada funo de hazard h
0
na expresso (1.26).
A razo de se chamar hazards proporcionais vem do facto de nestes modelos o quociente
das funes de hazard de dois indivduos i e j ser constante.
h
i
(t)
h
j
(t)
= exp (
1
(x
i1
x
j1
) + . . . +
k
(x
ik
x
jk
)) (1.27)
Como consequncia, os grcos dos logaritmos das funes hazard em funo do tempo
devero ser paralelos (Figura 1.4).
log h
i
(t) = log h
0
(t) +
1
x
i1
+ . . . +
k
x
ik
(1.28)
Figura 1.4: Grcos do logaritmo de hazards proporcionais. [Fonte: Allison, Survival Analysis using SAS]
A diferena entre as duas classes de modelos que nos modelos de hazards proporcio-
nais os que esto mais em risco permanecem sempre mais em risco ao longo do tempo,
13
enquanto que nos modelos de vida acelerada o risco pode ser varivel com o tempo. Em
1980, Kalbeisch e Prentice mostraram que as nicas distribuies que so simultaneamente
hazards proporcionais e vida acelerada so as Exponencial e Weibull [7].
Ciampi e Etezadi-Amoli [18] propuseram ainda um outro modelo mais geral que acaba
por ser uma mistura destes j referidos, sendo a funo de hazard dada por
h(t) = e
x
h
0
(t.e
x
) (1.29)
onde e so vectores de parmetros e h
0
a funo base de hazard. Obtm-se o modelo
de vida acelerada quando = e o modelo hazards proporcionais quando = 0.
1.6 Mxima verosimilhana e verosimilhana parcial
Os modelos paramtricos utilizados na anlise de sobrevivncia so estimados por mxima
verosimilhana. Este mtodo j bastante conhecido, mas requer algum cuidado na sua
aplicao em dados de sobrevivncia, no que respeita s observaes censuradas.
Suponhamos por um momento a inexistncia de observaes censuradas. Admitindo a
independncia das n observaes tem-se que a funo de verosimilhana seria dada por
L() =
n
i=1
f(t
i
|x
i
) (1.30)
em que um vector composto por todos os parmetros a estimar (inclui os parmetros das
covariveis e da distribuio da varivel aleatria) e x
i
o vector de covariveis do i-simo
indivduo.
Considerando a presena de dados censurados (censura aleatria), a funo de verosimi-
lhana seria dada por
L() =
n
i=1
[f(t
i
|x
i
)S
C
(t
i
|x
i
)]
i
[f
C
(t
i
|x
i
)S(t
i
|x
i
)]
1
i
(1.31)
onde
i
=
_
_
_
1 se dados no esto censurados
0 se os dados esto censurados
em que f(t
i
|x
i
) e S(t
i
|x
i
) so as funes de densidade e sobrevivncia do tempo at ocor-
rncia do acontecimento de interesse, respectivamente, e f
C
(t
i
|x
i
) e S
C
(t
i
|x
i
) so as funes
14
de densidade e sobrevivncia do tempo at censura, respectivamente. Como referido por
Miller [4], no estando a censura relacionada com o tempo at ocorrncia do evento de in-
teresse, os produtos
n
i=1
[S
C
(t
i
|x
i
)]
i
e
n
i=1
[f
C
(t
i
|x
i
)]
1
i
no envolvem os parmetros
a estimar, de modo que podem ser tratados como constantes na maximizao da funo de
verosimilhana, podendo simplicar-se a expresso anterior
L() =
n
i=1
[f(t
i
|x
i
)]
i
[S(t
i
|x
i
)]
1
i
=
n
i=1
[h(t
i
|x
i
)]
i
S(t
i
|x
i
) (1.32)
Note-se que a segunda forma para a funo de verosimilhana dada em (1.32) permite
exprim-la unicamente em termos da funo de hazard (a funo de sobrevivncia est rela-
cionada com a funo de hazard conforme (1.8)). O mtodo de mxima verosimilhana
consiste depois em encontrar estimativas de , que maximizam o logaritmo de L() (desig-
nada por Loglikelihood)
log L() =
n
i=1
i
log h(t
i
|x
i
) + log S(t
i
|x
i
) (1.33)
atravs de um sistema de equaes
log L()
()
= 0 (1.34)
cuja resoluo requer normalmente a utilizao de processos iterativos, como o mtodo de
Newton-Raphson.
Um outro mtodo, designado de partial likelihood ou verosimilhana parcial, foi pro-
posto em1972 por Sir David Cox [9] para estimar os parmetros do modelo semi-paramtrico
de hazards proporcionais (que, no entanto, permitia uma fcil generalizao para modelos de
no-proporcionalidade). Essa forma de estimao permitia obter os parmetros dados pelo
vector = (
1
,
2
, . . . ,
k
)
i=1
_
h
i
(t)
n
j=1
Y
ij
h
j
(t)
_
i
=
n
i=1
_
e
x
i
n
j=1
Y
ij
e
x
j
_
i
(1.35)
onde
Y
ij
=
_
_
_
1 se t
j
t
i
0 caso contrrio
e
i
=
_
_
_
1 se dados no esto censurados
0 se os dados esto censurados
A introduo de Y
ij
na expresso permite, de forma conveniente, excluir do denomina-
dor os indivduos que j tiveram o acontecimento de interesse, e
i
serve para excluir as
observaes com censura.
Cox sugere que se trate a funo dada em (1.35) como uma funo de verosimilhana
ordinria, podendo ser maximizada relativamente a . Como normalmente acontece, mais
conveniente maximizar o logaritmo da verosimilhana, ou seja,
log L() =
n
i=1
i
_
x
i
log
_
n
j=1
Y
ij
e
x
j
__
(1.36)
A funo de verosimilhana anterior assume que no h empates (tied data) nos tem-
pos de sobrevivncia, ou seja, que possvel estabelecer uma ordem nica desses tempos.
Mas em muitos casos a varivel aleatria discreta ou est agrupada (por exemplo, quando
o tempo dado em meses ou anos) e a ordenao dos tempos no clara, tendo a funo de
verosimilhana que incluir todas as ordens possveis. Seguidamente usada a notao dada
por Stepanova e Thomas [5] para simplicar a expresso de L(): considere-se a ordenao
t
(1)
< t
(2)
< . . . < t
(m)
dos tempos de sobrevivncia e R(t
(i)
) o conjunto de observaes em
risco em t
(i)
; seja d
i
o nmero de acontecimentos no tempo t
i
e seja R(t
(i)
; d
i
) o conjunto
de todos os subconjuntos constitudos pelas d
i
observaes que poderiam ter tido o aconte-
cimento de interesse em t
(i)
; seja R R(t
(i)
; d
i
) o conjunto das observaes que poderiam
ter tido o acontecimento em t
(i)
e seja s
R
=
lR
x
l
a soma dos vectores das covariveis
das observaes em R; denote-se por D
i
o conjunto dos indivduos d
i
que tiveram o aconte-
cimento em t
i
, e seja s
D
i
=
lD
i
x
l
a soma dos vectores de covariveis destes indivduos.
Deste modo, a funo de verosimilhana dada por:
16
L
Cox
() =
m
i=1
exp(
s
D
i
)
_
RR(t
(i)
;d
i
)
exp(
s
R
)
_ (1.37)
Segundo Miller [4], o denominador da expresso (1.37) pode gerar um nmero excessivo
de combinaes possveis e que pode ser muito pouco eciente a nvel computacional. Por
essa razo so consideradas aproximaes propostas por Breslow (1974) e Efron (1977),
sendo esta ltima, segundo Allison [2], mais rigorosa custa de um pouco mais de tempo
computacional.
L
Breslow
() =
m
i=1
exp(
s
D
i
)
_
lR(t
(i)
)
exp(
x
l
)
_
d
i
(1.38)
L
Efron
() =
m
i=1
exp(
s
D
i
)
d
i
j=1
_
lR(t
(i)
)
exp(
x
l
)
j1
d
i
lD
i
exp(
x
l
)
_ (1.39)
Outra forma de lidar com os empates considerar o tempo de sobrevivncia como uma
varivel discreta. Cox sugeriu mesmo a substituio de h(t) = e
x
h
0
(t) pela expresso de
um modelo logstico discreto dado por
h(t)
1 h(t)
= e
x
h
0
(t)
1 h
0
(t)
(1.40)
1.7 Diagnstico dos modelos
Ao utilizar um modelo matemtico devemos questionar se este est correctamente ajustado
ao problema. No caso dos modelos de hazards proporcionais quer-se ver se vericado o
pressuposto de proporcionalidade, se algumas covariveis requerem algum tipo de transfor-
mao ou se h outliers (observaes com um tempo de sobrevivncia muito diferente do
esperado) que podem ter impacto indesejado nos resultados.
O resduo de Cox-Snell denido por
r
C
i
= exp(
x
i
)
H
0
(t
i
) =
H
i
(t
i
) = log
S
i
(t
i
) (1.41)
em que, para o i-simo indivduo, se tem que
e x
i
so os vectores de parmetros estimados
e covariveis, respectivamente. Para o tempo de sobrevivncia observado t
i
, tem-se que as
17
funes
H
0
,
H
i
e
S
i
so as funes estimadas de base de hazard cumulativa, de hazard
cumulativa e de sobrevivncia, respectivamente. Pode mostrar-se que log S(t
i
) tem uma
distribuio exponencial de mdia unitria
3
, independentemente da forma da funo S [17].
Se o modelo estiver correctamente ajustado, a funo de sobrevivncia estimada ser seme-
lhante e ter as mesmas propriedades de S(t). Assim, ser de esperar que log
S(t
i
) = r
C
i
tenha tambm uma distribuio exponencial de mdia unitria. Para vericar esta pro-
priedade calculam-se estimativas para
S(r
C
i
), por exemplo atravs do mtodo de Kaplan-
Meier. Conforme referido por Stepanova [5], o ajuste do modelo ser tanto maior quanto
maior a proximidade do grco de log(log
S(r
C
)) em funo de log(r
C
) a uma recta com
declive unitrio que passa pela origem.
O resduo de Schoenfeld calculado para cada covarivel e especialmente importante
no que respeita investigao da proporcionalidade de hazard, de eventuais covariveis de-
pendentes do tempo ou transformaes de covariveis. Podem ser denidos segundo o vector
r
S
i
considerando as k covariveis do modelo para o i-simo indivduo.
r
S
i
= (r
S
i1
, . . . , r
S
ik
) (1.42)
onde
r
S
ip
= x
ip
E(x
ip
|R
i
) , p = 1, . . . , k (1.43)
Para um dado indivduo i, o resduo de cada covarivel calculado fazendo a diferena
entre o valor da covarivel x
ik
e o seu valor esperado, condicionado ao conjunto de risco
R
i
, isto , o conjunto de indivduos que no tiveram o acontecimento at t
i
. Farrington
[14] refere que os resduos no devem mostrar nenhum tipo de padro sistemtico se for
vlido o pressuposto dos hazards proporcionais. Caso contrrio, se ao longo do tempo esse
3
Assumindo a existncia da funo de sobrevivncia inversa e considerando a varivel aleatria positiva T
com funo de sobrevivncia S (contnua) e Y = log S(T) tem-se que
P(Y > y) = P(log S(T) > y) = P(S(T) < exp(y))
= P(T > S
1
(exp(y))) = S(S
1
(exp(y)))
= exp(y)
18
pressuposto no se vericar, o(s) grco(s) dos resduos devero reectir uma tendncia
positiva (negativa) conforme aumente (diminua) a razo de hazard .
1.8 Medidas de discriminao: curvas ROC
Quando a varivel de sada dicotmica (por exemplo: 0/1, sim/no, bom/mau, etc) e as
previses so probabilidades de ocorrncia de um acontecimento, os modelos podem ser
avaliados segundo dois conceitos gerais: discriminao e calibrao.
A discriminao refere-se capacidade do modelo distinguir correctamente as classes
de sada enquanto que a calibrao avalia a proximidade numrica entre as probabilidades
previstas e as reais. Apesar de, num modo geral, um modelo com boa discriminao possuir
boa calibrao e vice-versa, DAgostino [13] refere que sempre prefervel obter um modelo
com bom poder discriminante, uma vez que este pode sempre ser recalibrado.
Uma das medidas de discriminao mais usadas para um modelo a rea debaixo da
curva ROC (Receiver Operating Characteristic). Vejamos como construir uma curva deste
tipo para um modelo de regresso.
Estado classicado
Estado a b
real c d
Tabela 1.1: Matriz entre os estados reais e classicados.
Suponhamos que temos n indivduos. Atravs da regresso possvel estimar e or-
denar as probabilidades de ocorrncia de um determinado acontecimento (Q
1
, Q
2
, . . . , Q
n
)
de modo que Q
i
Q
i+1
, para todo i = 1, . . . , n 1. Sob a regra de se classicar como po-
sitivos () todos os que vericarem Q
i
> Q
, para um valor Q
> Q
) (1.44)
onde Q
so as
probabilidades dos que no tiveram os acontecimentos.
O valor da estatstica C pode variar entre 0, 5, no caso de no haver discriminao, e
1, no caso de discriminao perfeita, e est relacionado unicamente com a ordenao das
probabilidades previstas.
Esta forma de avaliar o poder discriminante de um modelo tambm pode ser aplicado
aos modelos de hazards proporcionais de Cox. A maiores probabilidades de ocorrncia
de determinado acontecimento correpondero certamente menores tempos de sobrevivncia,
da ser possvel estabelecer uma ordem dos valores previstos. Para se obter algum tipo de
concluso ser conveniente comparar com outros mtodos (p.e. regresso logstica) com a
20
condio de no considerar nessa anlise comparativa os dados censurados (caracterstica
dos modelos de anlise de sobrevivncia).
21
Captulo 2
Aplicao dos modelos de anlise de
sobrevivncia
2.1 Dados da anlise
Os dados seleccionados para esta anlise consistem em cerca de 58.000 transaces de
crdito pessoal de uma instituio bancria de referncia, subdivididas em dois conjuntos
de treino e teste na proporo 50/50. A informao recolhida at Ago06 (transaces ini-
ciadas no perodo Ago03 - Dez05) contempla caractersticas relativas a cada transaco e
ao cliente. Parte dessa informao ser utilizada como variveis nos modelos deste trabalho,
a saber, o prazo original (entre 12 e 36 meses), o montante pedido, a idade do cliente, tempo
de permanncia no banco (esta varivel binria apenas serve para diferenciar se se trata de
um cliente recente ou no), indicador de telefone e, nalmente, um score interno do banco
(traduz o perl de risco do cliente ou a sua probabilidade de incumprir baseado num modelo
comportamental).
Outro tipo de informao que importante para qualquer modelo de anlise de sobrevi-
vncia o j referido tempo de sobrevivncia que vai desde o incio da transaco de crdito
at ao primeiro incumprimento (conceito a denir), ou at ao pagamento antecipado (se hou-
ver), ou at se deixar de ter mais informao (censura), ou, simplesmente, at ao nal do
prazo.
Neste trabalho, uma transaco de crdito ser considerada com incumprimento quando
22
Descritivo Nome Designao
Prazo original prazo x
1
Montante original montante x
2
Idade do cliente idade x
3
Antiguidade na instituio (varivel binria) antiguidade x
4
Indicador de telefone (varivel binria) telefone x
5
Score comportamental interno do banco score x
6
Tabela 2.1: Descrio dos dados utilizados.
tiver trs ou mais prestaes em atraso consecutivas, ainda que entretanto essa situao seja
regularizada. Este o critrio elegido por Thomas [11], tambm mencionado em bastante
bibliograa sobre o assunto e adoptado por inmeras instituies nanceiras. Quanto ao
pagamento antecipado, este ser considerado quando a transaco de crdito for totalmente
liquidada (e no parcialmente).
Como j foi referido, a anlise de sobrevivncia permite a introduo de dados censu-
rados. Neste caso tratam-se de transaces de crdito de clientes que at data do m do
estudo ainda no tinham acabado de pagar o emprstimo sem que tivessem tido algum dos
acontecimentos: pagamento antecipado ou incumprimento.
Figura 2.1: Representao de tempos de sobrevivncia das transaces de crdito. O primeiro esquema
mostra que podem ter incios em diferentes alturas do tempo, mas que podem ser comparadas assumindo o
mesmo instante inicial, conforme se mostra no segundo esquema. O terceiro esquema representa uma alterao
na escala do tempo, visando homogeneizar os diferentes prazos, de modo a terem o mesmo instante inicial e
nal (terico).
O facto das transaces terem incios diferentes (primeiro esquema da Figura 2.1) no
23
constitui problema porque pode sempre assumir-se que comeam ao mesmo tempo (segundo
esquema). No entanto, h uma particularidade diferente dos dados tradicionais de anlise de
sobrevivncia. As transaces de crdito pessoal tm um prazo associado, isto , teorica-
mente sabe-se quando que eles vo terminar. Uma forma de as poder comparar, apesar
de haver diferentes prazos, foi de proceder sua homogeneizao numa mesma escala de
tempo, de modo a que todas tivessem o mesmo incio e o mesmo m (terceiro esquema).
Basta para isso dividir o tempo de sobrevivncia de cada emprstimo pelo seu prazo origi-
nal, cujo resultado dever ser um nmero entre 0 e 1 (por convenincia pode ser multiplicado
por 100). Nos resultados apresentados no decorrer deste trabalho a escala de tempo conside-
rada ser entre 0 e 100 para indicar o incio e m (terico) do emprstimo, respectivamente.
Por exemplo, se num emprstimo com prazo de 2 anos se registar incumprimento ao m de
1 ano, ento o incumprimento car registado em t = 50; se, em vez disso, tiver antecipado
o pagamento do emprstimo ao m de 6 meses, ento o pagamento antecipado registar-se-
em t = 25.
No m do estudo pode assim observar-se um dos seguintes casos em cada transaco:
- Teve incumprimento pela primeira vez numa dada altura do tempo;
- Foi pago antecipadamente (sem incumprimento) numa dada altura do tempo;
- Foi pago (sem incumprimento nem pagamento antecipado) no nal do prazo;
- Ainda no foi totalmente pago (sem ter tido incumprimento nem pagamento anteci-
pado).
A razo de se distinguir os acontecimentos pagamento antecipado e incumprimento
bvia: ambos tm impacto negativo sobre a rendibilidade das operaes, mas, de um modo
geral, o segundo acarreta muito mais prejuzo para o banco do que o primeiro.
Na anlise de sobrevivncia uma forma de lidar com dois (ou mais) acontecimentos de
interesse no mesmo conjunto de dados considerar separadamente a anlise de cada um,
tomando o(s) outro(s) como censura, conforme sugesto de Stepanova e Thomas [5]. Assim,
no caso do incumprimento, consideram-se censurados os tempos de sobrevivncia relativos a
pagamento antecipado e os que j estariam censurados partida. O procedimento anlogo
24
no caso do pagamento antecipado. Sem grandes modicaes a nvel tcnico relativa-
mente simples fazer esta dupla anlise aos dados, incluindo um indicador (ag) em cada
observao que identica se o tempo de sobrevivncia est censurado (flag = 0), se refere
a incumprimento (flag = 1), ou pagamento antecipado (flag = 2).
2.2 Estimativas no paramtricas das funes de sobrevi-
vncia
Fazendo uma anlise aos dados, nomeadamente estimando a funo de sobrevivncia atravs
do mtodo Kaplan-Meier possvel obter representaes de S(t) para os acontecimentos
pagamento antecipado e incumprimento.
Figura 2.2: Funes de sobrevivncia estimadas pelo mtodo Kaplan-Meier dos acontecimentos pagamento
antecipado (esquerda) e incumprimento (direita).
Analisando os grcos pode vericar-se que h mais clientes que antecipam o pagamento
do que aqueles que incumprem. Nota-se ainda que o pagamento antecipado acontece com
mais frequncia nos ltimos
3
4
do tempo de vida da transaco, ou seja, quando t > 25. No
caso do incumprimento, a ocorrncia deste acontecimento aparenta ser constante ao longo
do tempo. Apesar dos grcos baseados nas funes de sobrevivncia serem bastante teis,
tambm no de desprezar os grcos das funes de hazard, pois permitem identicar
propriedades interessantes dos acontecimentos em questo.
25
Figura 2.3: Funes hazard alisadas por um processo de mdias mveis conhecido por kernel smoothing
(descrito por Ramlau-Hansen em 1983) para os dois tipos de acontecimentos considerados.
O grco das funes de hazard permitem investigar o risco instantneo de determinado
acontecimento ocorrer. Na Figura 2.3 constata-se que o risco do pagamento antecipado ,
de um modo geral, crescente ao longo do tempo, com uma ligeira quebra na parte nal da
transaco de crdito. No que respeita ao risco do incumprimento, este parece ser apenas
ligeiramente crescente com o decorrer do tempo, contrariando neste caso a noo preconce-
bida de que "se uma transaco de crdito vai correr mal, ento ela vai correr mal cedo"[7].
Segundo este grco o risco de ocorrncia de incumprimento no mais elevado na fase ini-
cial do emprstimo, o que sugere haver boas decises de crdito nas transaces de crdito
consideradas para este trabalho. Se o risco de incumprimento fosse mais elevado na fase
inicial, isso poderia ser indicador de que o banco estaria a decidir mal o seu crdito e que os
seus modelos de classicao poderiam no estar a discriminar bem.
Um primeiro passo na anlise dos dados encontrar a distribuio do tempo de sobrevi-
vncia. A relao entre as covariveis explicativas e esse tempo pode ser investigada prelimi-
narmente atravs de subgrupos de covariveis. Consideremos, por exemplo, as transaces
de crdito divididas em dois subgrupos relativamente ao prazo original. O primeiro sendo
constitudo por transaces com prazo inferior a 30 meses, e as restantes no segundo sub-
26
grupo (poder-se-ia ter escolhido outros subgrupos quaisquer).
O efeito em termos de funes de sobrevivncia e a anlise da proporcionalidade de
hazards pode ser observada gracamente.
Figura 2.4: Em cima: Funes de sobrevivncia estimadas pelo mtodo Kaplan-Meier dos acontecimentos
pagamento antecipado (esquerda) e incumprimento (direita) para os dois subgrupos. Em baixo: Grcos de
log(log(S)) em funo de log(t) para pagamento antecipado (esquerda) e incumprimento (direita) para os
dois subgrupos.
Os grcos da Figura 2.4 referentes s funes de sobrevivncia (em cima) evidenciam
que as transaces com prazo inferior a 30 meses tendem a pagar antecipadamente e a in-
cumprir menos do que as restantes. Por outro lado, se se quiser vericar a proporcionalidade
de hazards, os grcos de log(log S(t)) em funo de log(t) (em baixo) desses subgru-
27
pos devero ser linhas paralelas
1
. O paralelismo dos grcos mais evidente no caso do
incumprimento do que no caso do pagamento antecipado.
Se o modelo de Weibull for apropriado (cuja funo de sobrevivncia foi j dada na
expresso (1.14)), tem-se que log(log S(t)) = log + log t, ou seja, os grcos de
log(log S(t)) em funo de log(t) devero ser linhas rectas. No pagamento antecipado e
no incumprimento observa-se um comportamento aproximadamente linear, donde se conclui
que o modelo de Weibull poder ser uma opo vlida.
2.3 Regresso com modelos paramtricos
Aanlise de sobrevivncia permite tambmefectuar regresso combase numconjunto de co-
variveis explicativas. Alm das diferenas em termos de sobrevivncia entre grupos, o pro-
grama SAS
.
Pagamento antecipado Incumprimento
Wald Wald
Effect Chi-Square Pr > ChiSq Chi-Square Pr > ChiSq
x
1
(prazo) 496,0894 <,0001 137,7454 <,0001
x
2
(montante) 25,4640 <,0001 15,8935 <,0001
x
3
(idade) 184,8070 <,0001 40,1365 <,0001
x
4
(antiguidade) 8,9992 0,0027 2,9499 0,0859
x
5
(telefone) 2,6863 0,1012 0,0085 0,9265
x
6
(score) 106,5811 <,0001 485,5781 <,0001
Tabela 2.2: Teste
2
de Wald para vericar o efeito das covariveis. Esta estatstica testa a hiptese nula de
cada coeciente ser zero, calculando o quadrado do quociente entre o parmetro estimado e o seu erro estimado.
1
Basta pensar que para dois subgrupos A e B em que se verique o pressuposto de hazards propor-
cionais tem-se que S
A
(t) = [S
B
(t)]
PHREG Procedure]:
2
Wald
=
[V (
)]
1
.
28
A hiptese nula deve ser rejeitada quando o nvel de signicncia inferior a 0, 05 (valor
usualmente utilizado). Analisando os valores pode concluir-se que no pagamento antecipado
a covarivel x
5
no vai de encontro a este critrio, enquanto que no incumprimento so as
variveis x
4
e x
5
. Deste modo, estas covariveis no faro parte da estimao dos parmetros
nos modelos apresentados.
Alm de identicar as variveis mais signicativas, o programa SAS
permite obter
estimativas para os parmetros das covariveis e dos modelos atravs de mxima verosimi-
lhana. A Tabela 2.3 mostra os resultados obtidos com modelo Weibull para o pagamento
antecipado e o incumprimento (no output do SAS
1
(prazo) -0,0208 0,0009 -0,0226 -0,0190 496,21 <,0001
2
(montante) -0,0097 0,0019 -0,0134 -0,0059 25,76 <,0001
3
(idade) 0,0088 0,0006 0,0075 0,0100 186,93 <,0001
4
(antiguidade) -0,1638 0,0547 -0,2709 -0,0566 8,98 0,0027
6
(score) 0,0025 0,0002 0,0020 0,0030 108,12 <,0001
(Scale) 0,5722 0,0066 0,5595 0,5852
d (Shape) 1,7475 0,0200 1,7087 1,7873
Incumprimento
Standard 95% Condence Chi-
Parameter Estimate Error Limits Square Pr > ChiSq
(Intercept) 6,5206 0,0643 6,3945 6,6467 10267,9 <,0001
1
(prazo) -0,0312 0,0027 -0,0364 -0,0260 136,36 <,0001
2
(montante) 0,0274 0,0069 0,0139 0,0409 15,80 <,0001
3
(idade) 0,0114 0,0018 0,0077 0,0150 38,05 <,0001
6
(score) 0,0157 0,0007 0,0143 0,0171 493,70 <,0001
(Scale) 0,7039 0,0186 0,6684 0,7413
d (Shape) 1,4207 0,0375 1,3490 1,4962
Tabela 2.3: Estimativas com SAS
1
(prazo) -0,0208 -0,0209 -0,0209 -0,0205 -0,0312 -0,0335 -0,0316 -0,0330
2
(montante) -0,0097 -0,0093 -0,0095 -0,0085 0,0274 0,0288 0,0276 0,0285
3
(idade) 0,0088 0,0093 0,0091 0,0098 0,0114 0,0119 0,0115 0,0118
4
(antiguidade) -0,1638 -0,1660 -0,1645 -0,1639
6
(score) 0,0025 0,0027 0,0027 0,0029 0,0157 0,0185 0.0161 0,0178
(Scale) 0,5722 0,7988 0,5272 1,0500 0,7039 2,0284 0,6845 1,5847
d (Shape) 1,7475 0,4958 1,4207 -0,4520
Log
Likelihood -16636 -16600 -16605 -16645 -5079 -5038 -5072 -5041
Tabela 2.4: Estimativas com SAS
1
(prazo) 0,0314 0,00165 361,51 <,0001 1,032 1,029 1,035
2
(montante) 0,0169 0,00332 26,10 <,0001 1,017 1,010 1,024
3
(idade) -0,0151 0,00110 187,12 <,0001 0,985 0,983 0,987
4
(antiguidade) 0,2542 0,09443 7,24 0,0071 1,289 1,072 1,552
6
(score) -0,0041 0,00042 95,20 <,0001 0,996 0,995 0,997
Incumprimento
Standard Chi- Hazard 95% Haz. Ratio
Parameter Estimate Error Square Pr>ChiSq Ratio Conf. Limits
1
(prazo) 0,0400 0,00383 109,06 <,0001 1,041 1,033 1,049
2
(montante) -0,0392 0,00974 16,17 <,0001 0,962 0,943 0,980
3
(idade) -0,0161 0,00258 38,87 <,0001 0,984 0,979 0,989
6
(score) -0,0221 0,00085 677,00 <,0001 0,978 0,977 0,980
Tabela 2.5: Estimativas com SAS
i
, onde
i
o valor do parmetro estimado, e respectivos limites inferior e
superior com 95% de conana.
semelhana dos resultados obtidos com os modelos paramtricos, na Tabela 2.5 obtida
pelo SAS
3
so apresentadas estimativas dos parmetros e respectivos erros associados
3
Apenas est apresentado parte do output exibido pelo software. Arestante informao respeita a estatsticas
dos dados e convergncia dos algoritmos, que tm interesse meramente tcnico.
32
e estatsticas
2
sob a hiptese nula de cada parmetro ser zero, onde se constata que a
ordem de signicncia das covariveis se mantm. As magnitudes dos parmetros esti-
mados so normalmente pouco informativas, mas uma transformao simples permite dar
uma interpretao bastante til e intuitiva. Sendo
i
o parmetro associado i-sima co-
varivel, o valor e
i
est representado na coluna Hazard ratio e pretende indicar o au-
mento/diminuio de risco por acrscimo de uma unidade na covarivel. Por exemplo, o
aumento de 1 unidade na covarivel x
1
(aumento de 1 ms no prazo) est associado a um au-
mento de (e
0,0314
1) 3, 2% do risco (ou hazard) da ocorrncia de pagamento antecipado,
mantendo as outras covariveis constantes.
O sinal dos parmetros das covariveis tambm d informao acerca do tempo de so-
brevivncia. Um sinal positivo (negativo) indica que um aumento da covarivel conduz a
menores (maiores) tempos de sobrevivncia.
Comparativamente aos parmetros estimados com os modelos paramtricos, os respec-
tivos sinais so recprocos. Isso no surpreendente atendendo prpria formulao dos
modelos (conforme as expresses (1.25) e (1.28)). Nos modelos paramtricos ou de vida
acelerada os parmetros esto num formato de log-tempo, enquanto nos hazards proporcio-
nais o formato log-hazard.
Pagamento antecipado Incumprimento
Weibull Weibull Cox semi- Weibull Weibull Cox semi-
Parmetro paramtrico paramtrico paramtrico paramtrico paramtrico paramtrico
(Log-Tempo) (Log-Hazard) (Log-Hazard) (Log-Tempo) (Log-Hazard) (Log-Hazard)
1
(prazo) -0,0208 0,0364 0,0314 -0,0312 0,0443 0,0400
2
(montante) -0,0097 0,0170 0,0169 0,0274 -0,0389 -0,0392
3
(idade) 0,0088 -0,0154 -0,0151 0,0114 -0,0162 -0,0161
4
(antiguidade) -0,1638 0,2863 0,2542
6
(score) 0,0025 -0,0044 -0,0041 0,0157 -0,0223 -0,0221
Tabela 2.6: Comparao entre parmetros estimados pelo modelo Weibull (paramtrico) e pelo modelo de
Cox (semi-paramtrico), ambos hazards proporcionais, para pagamento antecipado e incumprimento.
Dos modelos paramtricos experimentados, o de Weibull o nico que tambm um
modelo de hazards proporcionais. A Tabela 2.6 permite avaliar a semelhana entre os valo-
res dos parmetros estimados atravs do modelo de Weibull e do modelo semi-paramtrico
de hazards proporcionais de Cox. No entanto, as estimativas obtidas pelo modelo Weibull
necessitam de uma transformao para serem directamente comparveis com as estimativas
33
do modelo semi-paramtrico. Essa transformao consiste em fazer
i
=
, sendo
i
e
parmetros estimados pelo modelo de Weibull.
Figura 2.6: Resduos de Schoenfeld das covariveis x
1
, x
2
, x
3
, x
4
e x
6
relativamente ao pagamento anteci-
pado (grupo superior) e das variveis x
1
, x
2
, x
3
e x
6
relativamente ao incumprimento (grupo inferior).
34
Os resduos de Schoenfeld permitem detectar possveis desvios do pressuposto de ha-
zards proporcionais e so calculados apenas para as observaes no censuradas. Exami-
nando os grcos de r
S
estes no devem apresentar nenhum tipo de padro sistemtico. Se
no se vericar esse pressuposto e se a razo de hazard se alterar ao longo do tempo, esse
efeito ser reectido no grco destes resduos.
Observando os residdos de Schoenfeld da Figura 2.6 pode constatar-se que a varivel x
4
apresenta um aspecto distintamente diferente da usual nuvem de pontos (caracterstica das
variveis contnuas), mas isso decorre unicamente por se tratar de uma varivel binria.
Na mesma gura pode contatar-se que a covarivel x
1
apresenta uma tendncia sis-
temtica positiva nos dois tipos de acontecimentos, sugerindo que esta covarivel esteja de
alguma forma relacionada com o tempo.
J anteriormente foi referido que o modelo de Cox pode utilizado em casos de no pro-
porcionalidade de hazards. Acontece que um modelo de hazards proporcionais assume que
o efeito de cada covarivel o mesmo em todas as alturas do tempo. Allison [2] refere que
esse pressuposto dicilmente vericado e uma ou mais covariveis tm de facto algum tipo
de interaco com o tempo. Quando se utiliza um modelo de hazards proporcionais em que o
pressuposto seja violado numa dada covarivel (suprimindo a sua interaco com o tempo),
o parmetro estimado acaba por reectir um efeito mdio dessa interaco com o tempo.
Segundo o mesmo autor, isso no constitui um caso assim to problemtico, uma vez que
prtica comum ao efectuar-se uma regresso no considerar as dependncias do tempo. No
entanto, em casos em que a interaco com o tempo muito forte, capaz de produzir resul-
tados substancialmente diferentes, ou em casos em que o investigador esteja explicitamente
interessado nessa interaco, torna-se necessrio levar em considerao essa dependncia.
Num exemplo dado por Stepanova, caso o modelo s tivesse uma covarivel, z
1
, poder-
se-ia averiguar se esta varivel estaria relacionada com o tempo incluindo no modelo uma
outra varivel, z
2
= z
1
t, representando a interaco da varivel z
1
com o tempo. Neste caso
particular, o modelo dado por h(t) = e
1
z
1
h
0
(t) seria alterado para h(t) = e
1
z
1
+
2
z
2
h
0
(t) =
e
(
1
+
2
t)z
1
h
0
(t). Se o parmetro estimado referente varivel dependente do tempo,
2
, fosse
signicante, ento o pressuposto dos hazards proporcionais no se vericaria.
35
2.5 Hazards proporcionais e regresso logstica
Tradicionalmente a regresso logstica utilizada para estimar a probabilidade de ocorrncia
de determinado acontecimento. No que diz respeito deciso de crdito, o acontecimento
que tem merecido maior ateno o incumprimento, sendo a probabilidade de incumpri-
mento o principal indicador de risco dos clientes.
O modelo logstico relaciona a probabilidade de incumprir, p, com uma combinao
linear de variveis x = (x
1
, x
2
, . . . , x
k
)
e parmetros = (
1
,
2
, . . . ,
k
)
, atravs da
expresso
log
_
p
1 p
_
= +
1
x
1
+
2
x
2
+ . . . +
k
x
k
(2.1)
ou, equivalentemente,
p =
exp( +
x)
1 + exp( +
x)
(2.2)
Aregresso logstica tenta prever a probabilidade de umacontecimento ocorrer, enquanto
que o modelo de hazards proporcionais estima o tempo de sobrevivncia, isto , o tempo de
ocorrncia do acontecimento. Em todo o caso sempre possvel estabelecer uma ordenao
das observaes, quer seja atravs probabilidade de ocorrncia de um acontecimento, quer
seja do tempo estimado de sobrevivncia. Espera-se, por exemplo, que a maiores probabi-
lidades de incumprimento correspondam menores tempos de sobrevivncia (analogamente
para pagamento antecipado). Deste modo possvel comparar estes modelos relativamente
ao seu poder discriminante entre as classes bom e mau. Para cada um dos acontecimen-
tos (pagamento antecipado e incumprimento) estas classes servem apenas para classicar de
bons o facto de no terem o respectivo acontecimento e de maus caso contrrio.
Note-se que os dados censurados no so tratveis pela regresso logstica usual, ao
contrrio do que acontece nos modelos de anlise de sobrevivncia, pelo que se optou por
exclu-los desta anlise comparativa. Seguidamente fez-se uma partio do conjunto de da-
dos na proporo 60/40 para os chamados conjuntos de treino e de teste. O primeiro serviu
para estimar os parmetros constituintes dos modelos logstico e de hazards proporcionais e
o segundo serviu para testar o desempenho desses modelos com base nos parmetros entre-
tanto estimados.
36
Figura 2.7: Curvas ROC relativamente ao pagamento antecipado (esquerda) e incumprimento (direita). A
maior proximidade da linha diagonal indicador de reduzido poder discriminante dos modelos.
Uma forma simples de avaliar e comparar o desempenho destes modelos atravs das
curvas ROC, cuja descrio foi dada no captulo anterior e se apresentam na Figura 2.7.
Neste caso, o poder discriminante dos modelos idntico, quer no caso do pagamento
antecipado, quer no caso do incumprimento, uma vez que as curvas de cada grco so muito
semelhantes. Isto refora a ideia que os modelos de hazards proporcionais so competitivos
com a regresso logstica na classicao das classes bom e mau, isto , tm um poder
discriminante bastante semelhante, com a vantagem do primeiro poder ser utilizado para es-
timar o tempo de ocorrncia dos acontecimentos, importante para o clculo da rendibilidade
das transaces de crdito.
37
Captulo 3
Rendibilidade de transaces de crdito
As instituies de crdito sempre tiveram preocupaes relativamente deciso e acompa-
nhamento de crdito em funo do perl de risco dos clientes ou, mais propriamente, na
sua probabilidade de incumprir. No entanto, vrios autores salientam inmeras vantagens na
passagem da minimizao do risco para a maximizao do lucro, contrapondo o tradi-
cional Credit Scoring ao chamado Prot Scoring. Apesar do advento das ferramentas de
data mining e de sistemas mais completos de data warehouse, essa transio no to fcil
como se poderia julgar. Na realidade, enquanto que a taxa de incumprimento depende prin-
cipalmente das decises de concesso, limites e recuperao de crdito, Thomas [11] aponta
ainda outras decises que afectam o lucro e que incluem os nveis de servio, marketing e
pricing.
Neste captulo apresenta-se o clculo da rendibilidade esperada de transaces de crdito
pessoal recorrendo a mtodos de anlise de sobrevivncia e mostrar que este pode ser um
indicador til na deciso de crdito, podendo ainda ser utilizado para o clculo de pricing
deste tipo de transaces.
A utilizao da anlise de sobrevivncia apresenta grandes vantagens. Do ponto de vista
matemtico, proporciona facilidades em lidar com dados censurados e variveis dependentes
do tempo, relativamente aos mtodos tradicionais. Alm disso, e no contexto deste trabalho,
Banasik [7] salienta outras vantagens deste tipo de anlise:
- uma melhor estimativa da rendibidade da operao;
38
- previso dos nveis de incumprimento e pagamento antecipado como funo do tempo;
- as decises podem levar em conta o tempo previsto da transaco de crdito;
- maior facilidade na incorporao de estimativas de factores econmicos.
Espera-se assim poder prever, no se vai ocorrer o incumprimento, mas quando. Alm
do incumprimento, o pagamento antecipado outra causa da perda de rendibilidade das
operaes que interessa considerar e que dever estar includa no modelo.
3.1 Clculo da rendibilidade esperada com funes de so-
brevivncia
O clculo da rendibilidade das transaces de crdito pessoal necessitar de alguns pressu-
postos para simplicar a formulao do problema. Deste modo, todas as transaces sero
consideradas com pagamentos mensais de prestaes xas, postcipadas e sem perodo de
carncia (como acontece na maior parte dos casos). As taxas de juros sero consideradas
xas ao longo do emprstimo e as despesas operacionais, de manuteno e comisses no
sero incorporadas no modelo.
Dadas as condies referidas e no caso ideal das transaces de crdito seguirem sempre
o plano de pagamentos, a rendibilidade das operaes seria fcil de calcular. Isto , no caso
de no haver nem pagamento antecipado nem incumprimento, um emprstimo de montante
L e prazo de T meses com uma taxa de juro nominal mensal r e taxa de funding ou de custo
de capital r
k=1
V
k
(1 + r
)
k
L
=
T
k=1
c
k
+ j
k
(1 + r
)
k
L (3.1)
em que V
k
a prestao do emprstimo que pode ser subdividida nas componentes de capital
e juro
1
, c
k
e j
k
, respectivamente.
1
No caso das prestaes xas (ver apndice para mais detalhe) tem-se que
V
k
= V = rL
(1 +r)
T
(1 +r)
T
1
, c
k
= rL
(1 +r)
k1
(1 +r)
T
1
, j
k
= rL
(1 +r)
T
(1 +r)
k1
(1 +r)
T
1
39
Na realidade o que acontece que nem todos os emprstimos seguem esse plano, porque
alguns clientes pagam antecipadamente e, pior do que isso, incumprem. Estes factores re-
presentam perdas para o banco. Mais precisamente, o pagamento antecipado implica a perda
do pagamento dos juros referentes s prestaes remanescentes do emprstimo, enquanto o
incumprimento implica no s a perda dos juros mas tambm do capital. Note-se que as
perdas nunca so totais, uma vez que o pagamento antecipado pode ter penalizaes e, em
caso de incumprimento, muitas vezes possvel recuperar o montante em dvida. No entanto
isso tambm no vai ser considerado no modelo.
Incorporando agora os factores de pagamento antecipado e incumprimento nas prestaes
tem-se que o lucro esperado (expresso adaptada de Stepanova e Thomas [6]) seria dado por
P
exp
=
T
k=1
c
k
S
D
k
+ j
k
_
S
E
k
+ S
D
k
1
_
(1 + r
)
k
L (3.2)
onde, relativamente k-sima prestao, se tem que c
k
e j
k
so as componentes de capital e
juro da prestao, S
E
k
e S
D
k
so as funes de sobrevivncia para pagamento antecipado e in-
cumprimento
2
, respectivamente. Note-se que pela forma como se deniu os acontecimentos
pagamento antecipado (E) e incumprimento (D) no possvel que ambos ocorram em
simultneo porque so acontecimentos incompatveis. Por essa razo a componente de juros
da expresso (3.2) multiplicada pela probabilidade de no ter pagamento antecipado nem
incumprimento.
P(E D) = 0 P(
E
D) = P(
E) + P(
D) 1
Por outras palavras, o lucro a soma das parcelas de capital e juro de cada prestao
multiplicadas pelas probabilidades de as receber (atravs das funes de sobrevivncia), ac-
tualizadas para o instante inicial, menos o montante original.
Assumindo o modelo de hazards proporcionais, tem-se que a expresso (3.2) pode ser
alterada para
P
exp
=
T
k=1
c
k
(S
D
0k
)
D
+ j
k
_
(S
E
0k
)
E
+ (S
D
0k
)
D
1
_
(1 + r
)
k
L (3.3)
2
A notao E e D vem do ingls Early repayment e Default.
40
onde, relativamente k-sima prestao, S
E
0k
e S
D
0k
so as funes de sobrevivncia base
para pagamento antecipado e incumprimento (isto , quando as covariveis so todas zero),
E
= exp(
E
x) e
D
= exp(
D
x).
Esta forma de calcular a rendibilidade esperada enfrenta um problema que comum s
tcnicas j conhecidas e utilizadas do scoring de crdito. Uma vez que os parmetros do mo-
delo so estimados com base numa amostra de transaces aceites pela instituio de crdito,
os resultados podem sofrer um enviesamento quando aplicados a todas as transaces (in-
clusivamente as rejeitadas). O problema da inferncia de rejeio foi investigado por Crook
e Banasik [16] que utilizaram uma amostra rara concedida por uma instituio de crdito
que ocasionalmente atribua o crdito a virtualmente toda a procura de crdito. Uma das
tcnicas testadas, re-weighting, baseava-se no facto de haver uma desproporo de clientes
com determinadas caractersticas, dada a seleco ser manifestamente no-aleatria (p.e.
clientes desempregados dicilmente seriam aceites). Este efeito poderia ser compensado
pela atribuio de pesos mais elevados s transaces com caractersticas mais frequente-
mente rejeitadas. Outra tcnica referida pelos autores, extrapolao, consistia em estimar
um modelo inicial com as transaces aceites pela instituio. Aplicando esse modelo s
transaces rejeitadas seria possvel classic-las nas categorias bom-mau e, a partir da,
estimar um modelo nal envolvendo todas as transaces (aceites e rejeitadas). Os resulta-
dos dos autores, porm, mostraram no haver uma grande melhoria nos modelos ao incluir-
se uma tcnica de inferncia de rejeio, em especial se a taxa de rejeio ou recusa for
reduzida.
Um outro mtodo de inferncia de rejeio proposto por Sohn e Shin [15] recorre aos
mesmos mtodos j utilizados neste trabalho, a anlise de sobrevivncia. A partir da amostra
de transaces aceites constri ummodelo de sobrevivncia para o incumprimento aplicando-
o depois s transaces rejeitadas. Se o limite inferior de um intervalo de conana de 90%
do tempo de sobrevivncia mediano (poderia ser outro percentil) da transaco rejeitada for
maior que o tempo de sobrevivncia mediano das transaces aceites, considerar-se-ia que a
transaco seria aceite.
41
3.2 Resultados do clculo da rendibilidade esperada
A rendibilidade esperada dada pela expresso (3.2) ser agora calculada com base nos re-
sultados obtidos em seces anteriores. O modelo de hazards proporcionais de Cox (semi-
paramtrico) necessita de uma funo base de sobrevivncia. Optou-se pela funo base
dada pelo modelo de Weibull por este ser um modelo de hazards proporcionais e por j se
ter mostrado que o ajuste aos dados era bastante aceitvel.
Mais exactamente, utilizando os parmetros estimados do modelo de Weibull (Tabela
2.3) para as funes base de sobrevivncia referente ao pagamento antecipado e incumpri-
mento tem-se que
S
E
0k
= exp((e
5,0908
k
T
100)
1
0,5722
)
S
D
0k
= exp((e
6,5206
k
T
100)
1
0,7039
)
Utilizando tambm os parmetros estimados pelo modelo de hazards proporcionais de Cox
(Tabela 2.5) relativamente s covariveis para os mesmos acontecimentos tem-se que
E
= e
E
x
= e
0,0314x
1
+0,0169x
2
0,0151x
3
+0,2542x
4
0,0041x
6
D
= e
D
x
= e
0,0400x
1
0,0392x
2
0,0161x
3
0,0221x
6
Os valores
E
x e
D
x representam assim uma espcie de preditor linear, ou score, para
cada emprstimo relativamente aos acontecimentos em anlise. Quanto maior for o valor
destes scores maior ser a probabilidade de pagamento antecipado e incumprimento, respec-
tivamente.
A Figura 3.1 exibe vrios grcos, relativamente a pagamento antecipado (esquerda) e
incumprimento (direita), incluindo a distribuio das transaces de crdito em funo de
intervalos dos scores (em cima) e referentes rendibilidade mdia em funo desses scores,
considerando o custo de capital igual a zero (ao centro) e igual a 4% (em baixo). Claro que
os valores de rendibilidade so mais elevados quando r
E
x e
D
x para pagamento an-
tecipado (esquerda) e incumprimento (direita), respectivamente. Ao centro: Rendibilidade mdia em funo
dos scores com o custo de capital igual a zero. Em baixo: Rendibilidade mdia em funo dos scores com o
custo de capital igual a 4%. A rendibilidade mxima obtida quando no h incumprimento nem pagamento
antecipado; a rendibilidade esperada o valor estimado pelo modelo; a rendibilidade actual ou real foi a que se
vericou de facto.
43
pagamento antecipado e a perda do capital e juros a partir do momento em que se registasse
o incumprimento
3
.
Relativamente ao pagamento antecipado nota-se que scores mais elevados, onde a proba-
bilidade deste acontecimento ocorrer maior, esto associadas maiores mdias de rendibili-
dade mxima, enquanto que as mdias da rendibilidade esperada atingem um mximo e vo
decrescendo. No caso do incumprimento, para valores de score mais elevados, onde a proba-
bilidade deste acontecimento ocorrer maior, as mdias da rendibilidade mxima tendem a
permanecer constantes, enquanto que as mdias da rendibilidade esperada so notoriamente
decrescentes com o aumento do score.
Uma explicao para as diferenas entre os grcos destes acontecimentos poder ter a
ver comas variveis explicativas. Oprazo a varivel mais explicativa no caso do pagamento
antecipado (emprstimos mais longos tm maior probabilidade de liquidao antecipada),
enquanto que o incumprimento tem como varivel mais explicativa o score interno do banco
para classicao do risco do cliente (independente do prazo do emprstimo). Alm disso,
convm notar que os valores mais extremados dos scores
E
x e
D
x possuem muito menor
nmero de emprstimos (como se v nos grcos de barras) e so por isso mais susceptveis
de sofrer variaes nos valores mdios das rendibilidades.
Consideremos agora, no a rendibilidade mdia, mas a rendibilidade acumulada em
funo dos scores subdividida em dois grupos em termos de montante (mais ou menos que
10.000e) e prazo (mais ou menos que 30 meses).
A Figura 3.2 mostra que os emprstimos de montante inferior a 10.000e proporcionam
maior rendibilidade que os restantes, mas isso est relacionado como facto de estes seremem
nmero superior aos outros. Em termos de prazo evidencia-se uma caracterstica peculiar.
Pode ver-se que, ao contrrio do que acontece com o montante, os grcos da rendibilidade
para diferentes prazos se intersectam. Este resultado, tambm constatado por Stepanova e
Thomas [6], justicado pelo facto da rendibilidade das transaces de crdito de montantes
semelhantes ter de levar em conta, quer o score, quer o prazo.
Emtodo o caso os grcos permitemidenticar cut-offs a partir dos quais j no se regista
3
No caso dos dados censurados considerou-se a rendibilidade esperada a partir do momento em que se
registasse o tempo censurado.
44
Figura 3.2: Rendibilidade esperada acumulada em funo dos scores de pagamento antecipado
E
x (es-
querda) e de incumprimento
D
x (direita) para dois subgrupos em termos de montante (em cima) e prazo (em
baixo), coniderando o custo de capital igual a 4%.
aumentos de rendibilidade.
A Tabela 3.1 mostra uma comparao do que poderia ser a deciso com base na rendi-
bilidade esperada das transaces de crdito. A partir da amostra de teste, constituda por
29.041 transaces de crdito pessoal, fez-se uma simulao do que poderiam ser as decises
automticas de aprovao com base no risco do cliente, isto , com base num score para a
probabilidade de incumprimento. Segundo este mtodo correntemente utilizado, assume-se
que uma transaco dever ser rentvel () no caso do cliente ser considerado bom por
esse score e no rentvel () no caso contrrio. Utilizando a rendibilidade esperada para o
mesmo efeito, considera-se rentvel uma transaco com rendibilidade esperada positiva e
45
no rentvel no caso contrrio.
Valores actuais Risco do cliente Rend. esperada
Rendibilidade Nmero Montante Nmero Montante Nmero Montante
- prevista 26.644 100,0 23.518 89,7 24.422 96,1
- prevista 0 0,0 3.126 10,3 2.222 3,9
- prevista 0 0,0 1.045 -20,0 934 -24,4
- prevista 2.397 -32,5 1.352 -12,5 1.463 -8,1
Tabela 3.1: Comparao entre uma classicao baseada no risco do cliente e outra baseada na rendibilidade
esperada das transaces de crdito em termos de nmero e montante (unidades monetrias).
Os resultados apresentados mostram que considerando o risco do cliente para deciso
de crdito seriam aprovadas 24.563 transaces, das quais 1.045 no seriam rentveis para
o banco. Atravs da rendibilidade esperada seriam aprovadas 25.356, das quais 934 no
seriam rentveis para o banco. Nota-se uma ligeira vantagem ltimo mtodo que pode
ainda ser comprovado pelas respectivas rendibilidades. No primeiro caso a rendibilidade
das transaces seria de 69,7 unidades monetrias
4
(u.m.), enquanto que no segundo caso a
rendibilidade ascenderia a 71,7 u.m.
Note-se que os valores apresentados no devem ser considerados valores absolutos, mas
relativos. Os resultados foram efectuados segundo pressupostos muito especcos que sim-
plicaramos clculos, ignorando ainda a possibilidade de overrides, isto , a possibilidade de
existirem factores impeditivos da aprovao automtica, apesar do modelo assim o indicar.
3.3 Pricing com base na rendibilidade esperada
Opricing baseado no risco, conhecido por Risk-based pricing, uma modalidade de atribuio
de preos diferenciados que tende a reectir o risco ou rendibilidade potencial das transaces
de crdito. Logicamente, isto leva a atribuir taxas de juros mais baixas aos melhores clientes
e mais elevadas aos piores. Este processo est longe de ser simples e tem subjacente vrios
desaos. Por exemplo, o fenmeno da seleco adversa pode estar presente quando a taxa
de juro oferecida a um cliente mais elevada que a taxa standard. Aqueles que a aceitam
no so de uma amostra aleatria da populao, mas sim de um grupo de risco elevado, pois
4
Para estes efeitos comparativos optou-se por relativizar o montante envolvido, considerando-se unidades
monetrias (u.m.) em vez de, por exemplo, milhares ou milhes de euros.
46
no conseguiram uma taxa mais baixa noutro stio. Signica que dever-se-ia usar uma taxa
ainda maior para compensar esse risco, o que agravaria mais a situao, e que levaria a uma
escalada ascendente da taxa de juro.
Uma outra situao pode ocorrer com os bons clientes, porque ao atribuir um preo
mais reduzido que o cliente consideraria aceitvel, na realidade est a perder-se alguma da
rendibilidade possvel de obter. Estes exemplos servem para referir que, mais do que atribuir
um preo com base no risco, igualmente importante conhecer e compreender as condies
do mercado e da concorrncia e tambm saber interagir e explicar ao cliente as razes da
taxa de juro serem diferentes do standard. Edelman [1] sugere alternativamente que, em
vez de ajustar o preo ao risco do cliente, pode ajustar-se o risco ao preo. Por exemplo,
para os melhores (piores) clientes poder-se-ia ser menos (mais) exigente nas requisies de
garantias, colateral ou provas documentais.
O objectivo deste trabalho no est propriamente no clculo do pricing das transaces
de crdito, mas esta uma possvel aplicao. Dado que a rendibilidade afectada pelo
montante, prazo, taxas de juro, bem como outros factores econmicos que muitas vezes
so difceis de obter, dever-se-ia considerar uma medida que fosse relativa rendibilidade
mxima.
Hoadley [12] prope uma medida chamada lucro holstico (holistic prot), e que o quo-
ciente entre o lucro e o lucro obtido sob discriminao perfeita. Aqui o contexto um pouco
diferente mas a medida sugerida tem um paralelo com o quociente entre a rendibilidade
esperada e a rendibilidade mxima. A razo entre as expresses 3.2 e 3.1,
P
racio
=
P
exp
P
max
(3.4)
permite responder questo de encontrar a taxa de juro de uma transaco de crdito, ad-
mitindo que o banco est disposto a ganhar uma determinada percentagem da sua rendibi-
lidade mxima, P
racio
. Isso corresponde a resolver a equao 3.4 em ordem taxa de juro
r, implicitamente envolvida no clculo das componentes de capital, c
k
, e juro, j
k
, de cada
prestao V
k
das expresses (3.1) e (3.2).
47
Concluso
As anlises efectuadas nas seces anteriores permitiram reconhecer potencialidades nos
mtodos de anlise de sobrevivncia quando aplicados ao scoring de crdito, atravs do
clculo da rendibilidade esperada das transaces de crdito pessoal.
A rendibilidade das transaces de crdito determinantemente condicionada pela ocor-
rncia de pagamento antecipado e incumprimento, entre outros factores. Neste trabalho foi
possvel a modelao destes dois acontecimentos utilizando modelos de anlise de sobrevi-
vncia.
O mtodo de Kaplan-Meier (no paramtrico) permitiu estimar funes de sobrevivn-
cia para estes dois acontecimentos em funo do tempo. Vrios modelos de vida acelerada
(paramtricos) foram experimentados, incorporando j variveis explicativas, obtendo-se es-
timativas para os parmetros dos modelos. Anlises comparativas com base nos resduos
de Cox-Snell mostram que o desempenho dos modelos relativamente semelhante, sendo o
modelo de Weibull aquele que matematicamente mais simples. Com o modelo de hazards
proporcionais de Cox (semi-paramtrico) foi possvel obter estimativas para os parmetros
das covariveis, uma vez que o modelo no depende da funo base de hazard. Esses valo-
res estimados atravs de verosimilhana parcial revelaram-se bastante prximos dos obtidos
com o modelo paramtrico de Weibull, tambm um modelo de hazards proporcionais. Alm
disso, o poder discriminante do modelo de Cox mostrou-se bastante competitivo com o mo-
delo de regresso logstica tradicional, quando avaliado atravs das curvas ROC.
O clculo da rendibilidade esperada das transaces de crdito utilizou as funes de
sobrevivncia estimadas para o pagamento antecipado e incumprimento sob inuncia das
variveis explicativas. O valor encontrado foi depois comparado com a rendibilidade m-
xima (quando no ocorre nem pagamento antecipado nem incumprimento) e a rendibilidade
48
real. A comparao destas rendibilidades foi exibida gracamente, calculando os seus res-
pectivos valores mdios em funo de scores para pagamento antecipado e incumprimento,
obtidos pelo modelo de hazards proporcionais. Analisando tambm os valores acumulados
da rendibilidade esperada foi ainda possvel identicar cut-offs a partir dos quais no se de-
ver esperar um aumento da rendibilidade das transaces. Por isso este poder tambm ser
um factor a considerar na deciso de crdito.
Uma anlise comparativa de deciso de crdito com base no risco do cliente (corrente-
mente utilizado) e com base na rendibilidade esperada, evidenciou uma ligeira vantagem
deste ltimo mtodo em nmero (aumento de cerca 3% na taxa de aprovao) e montante.
O clculo da rendibilidade esperada pode ter outra aplicao bastante til. Trata-se de
calcular o pricing das transaces de crdito assumindo que se espera obter determinado
nvel de rendibilidade, isto , uma determinada percentagem da rendibilidade mxima das
transaces.
49
Bibliograa
[1] THOMAS, L. C., EDELMAN, D.B., CROOK, J. N., Credit Scoring and its Applica-
tions, SIAM (2002)
[2] ALLISON, P., Survival Analysis using SAS
k=1
V
k
(1 + r)
k
(A.1)
e, se a prestao for xa,
L =
n
k=1
V (1 + r)
k
(A.2)
ou ainda
1
L = V
1 (1 + r)
n
r
= V a
nr
(A.3)
A prestao xa de um determinado emprstimo pode assim ser calculada dado o mon-
tante pedido, prazo e taxa de juro.
1
Da soma dos n primeiros termos de uma progresso geomtrica:
n
k=1
(1 +r)
k
= (1 +r)
1
1(1+r)
n
1(1+r)
1
=
1(1+r)
n
r
= a
nr
52
A k-sima prestao de um emprstimo pode sempre subdividir-se nas componentes de
capital e juro, c
k
+j
k
. Estas componentes podem ser calculadas dados o montante do emprs-
timo L, o prazo p e a taxa referente ao perodo de pagamento r, sendo V =
L
a
pr
= rL
(1+r)
p
(1+r)
p
1
a prestao (xa). A seguir esto calculadas as componentes de capital e juro das primeiras
quatro prestaes. O raciocnio anlogo para o clculo das restantes.
j
1
= rL c
1
= V j
1
= rL
1
(1+r)
p
1
j
2
= r(L c
1
) = rL
(1+r)
p
(1+r)
(1+r)
p
1
c
2
= V j
2
= rL
(1+r)
(1+r)
p
1
j
3
= r(L c
1
c
2
) = rL
(1+r)
p
(1+r)
2
(1+r)
p
1
c
3
= V j
3
= rL
(1+r)
2
(1+r)
p
1
j
4
= r(L c
1
c
2
c
3
) = rL
(1+r)
p
(1+r)
3
(1+r)
p
1
c
4
= V j
4
= rL
(1+r)
3
(1+r)
p
1
Mostremos por induo que
j
k
= rL
(1 + r)
p
(1 + r)
k1
(1 + r)
p
1
(A.4)
ou equivalentemente, que c
k
= V j
k
= rL
(1+r)
k1
(1+r)
p
1
.
Para k = 1 a hiptese trivialmente vericada. Mostremos que a hiptese hereditria:
j
k+1
= r
_
L
k
i=1
(c
i
)
_
= r
_
L
k
i=1
rL
(1 + r)
k1
(1 + r)
p
1
_
, por hiptese
= r
_
L rL
1
(1 + r)
p
1
k
i=1
(1 + r)
i1
_
= r
_
L rL
1
(1 + r)
p
1
(1 + r)
k
1
r
_
= rL
_
1
(1 + r)
k
1
(1 + r)
p
1
_
= rL
(1 + r)
p
(1 + r)
k
(1 + r)
p
1
Em concluso, a k-sima prestao (xa) tem componentes de capital e juro dadas por
V = rL
(1 + r)
p
(1 + r)
p
1
= rL
(1 + r)
k1
(1 + r)
p
1
. .
Capital
+rL
(1 + r)
p
(1 + r)
k1
(1 + r)
p
1
. .
Juro
(A.5)
53
Plano de amortizaes
Termo CapAmort Prest Cap Juro CapAc JurAc %CapAc %JurAc
1 1000,00 88,85 78,85 10,00 78,85 10,00 8% 15%
2 921,15 88,85 79,64 9,21 158,49 19,21 16% 29%
3 841,51 88,85 80,43 8,42 238,92 27,63 24% 42%
4 761,08 88,85 81,24 7,61 320,16 35,24 32% 53%
5 679,84 88,85 82,05 6,80 402,21 42,04 40% 64%
6 597,79 88,85 82,87 5,98 485,08 48,01 49% 73%
7 514,92 88,85 83,70 5,15 568,78 53,16 57% 80%
8 431,22 88,85 84,54 4,31 653,32 57,48 65% 87%
9 346,68 88,85 85,38 3,47 738,70 60,94 74% 92%
10 261,30 88,85 86,24 2,61 824,93 63,56 82% 96%
11 175,07 88,85 87,10 1,75 912,03 65,31 91% 99%
12 87,97 88,85 87,97 0,88 1000,00 66,19 100% 100%
Tabela A.1: Exemplo de um plano de amortizaes; Legenda: CapAmort - capital a amortizar; Prest -
valor da prestao; Cap - componente de capital da prestao; Juro - componente de juro da prestao; CapAc -
capital amortizado acumulado; JurAc - juros acumulados pagos; %CapAc - percentagem de capital amortizado;
%JurAc - percentagem de juros pagos.
ATabela A.1 mostra umexemplo de umplano de amortizaes subdividindo cada prestao
nas componentes de capital e juro (ignorando comisses e outras despesas adicionais do em-
prstimo). Para o efeito considerou-se um emprstimo de montante L = 1000 e em p = 12
meses com uma taxa de juro anual nominal de r = 12% (1% ao ms) com prestaes xas
de valor igual a V = 1000/a
121
.
54