Econometria Financeira: Modelos de Média

Econometria Financeira
João Nicolau
ISEG/UTL e CEMAPRE
Abril 2011
(Versão preliminar e incompleta)
2
Notas Prévias
Comentários são bem vindos (nicolau@iseg.utl.pt). Neste documento abordam-se métodos

econométricos relevantes para finanças. Veremos algumas aplicações financeiras, mas a ên-
fase deste documento está na componente econométrica. A leitura deste documento supõe
conhecimentos sobre inferência estatística e o modelo de regressão linear múltiplo, no que
diz respeito à estimação e à inferência estatísticas sob as hipóteses clássicas.
Notação e Convenções
Escreve-se f (x) para designar a função densidade de probabilidade (fdp) de uma variável
aleatória X. Quando estão em causa duas variáveis aleatórias X e Y; escreve-se, geralmente,
fx e fy para designar, respectivamente, as fdp de X e Y (f (x) e f (y) é, em princípio,
incorrecto). O uso simultâneo das notações f (x) (fdp de X) e f (x; y) (fdp conjunta de
(X; Y )) é conflituoso, pois f ou é uma aplicação de R em R+ ou é uma aplicação de R2
em R+ (e, portanto, f não poderá designar simultaneamente ambas as aplicações). A rigor
deverá escrever-se fx e fx;y : No entanto, se não existir perigo de confusão, opta-se pela
notação mais simples e habitual f (x) e f (x; y). Escreve-se também f (yj x) ou fyjx para
designar a fdp condicionada de Y dado X = x: Em suma, nesta versão do documento,
adoptam-se as notações que se entendem necessárias e convenientes de forma a não causar
confusão. Por exemplo, num certo contexto, pode escrever-se f (x; y) e, noutro diferente,
pode escrever-se fy;x :
O processo estocástico fyt ; t = 1; 2; :::g escreve-se indiferentemente como fyt g ou y:
a := b significa, a é igual a b por definição. Por exemplo, se quisermos identificar a letra
como a média de X; escrevemos := E (X). Para este tipo de relações, certos autores
usam E (X) :
Em séries temporais usamos os termos “amostra grande” (ou “amostra pequena”) para
identificar séries temporais longas (ou curtas).
3
Acrónimos e Siglas Frequentemente Usados
a d
An N - An tem distribuição aproximadamente normal (usamos ! para a convergên-
cia em distribuição).
EE - Estritamente estacionário.
EDF - Equação às diferenças Finitas.
EQM - Erro Quadrático Médio.
ESO - Estacionário de segunda ordem ou Estacionaridade de Segunda Ordem.
FAC - Função de Autocorrelação.
FACP - Função de Autocorrelação Parcial.
fdp - Função Densidade de Probabilidade.
HC- Heterocedasticidade Condicional.
IC - Intervalo de Confiânça (ou de previsão, consoante o contexto).
i.i.d. - Independente e Identicamente Distribuído.
RB - Ruído Branco.
v.a. - Variável Aleatória.
4
Conteúdo
I Introdução 13
1 Objecto e Método da Econometria Financeira 15
2 Preços e Retornos 17
2.1 Retornos Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Retorno Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2 Retorno Multi-Períodos . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.3 Retornos de Portfolios . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.4 Retornos Ajustados aos Dividendos . . . . . . . . . . . . . . . . . 22
2.1.5 Retornos Ajustados à Inflação . . . . . . . . . . . . . . . . . . . . 22
2.1.6 Retornos Anualizados . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Retornos Contínuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Retorno Multi-Períodos . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.2 Retornos de Portfolio . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.3 Retornos Ajustados aos Dividendos . . . . . . . . . . . . . . . . . 27
2.2.4 Retornos Ajustados à Inflação . . . . . . . . . . . . . . . . . . . . 27
2.2.5 Retornos Anualizados . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 Retornos Contínuos vs. Retornos Discretos . . . . . . . . . . . . . . . . . 30
2.A Outra Interpretação de rt . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.B Notas Técnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.B.1 Retorno Multi-Períodos como Função dos Retornos Simples . . . . 32
2.B.2 r e R: Série de Taylor . . . . . . . . . . . . . . . . . . . . . . . . 32
3 Factos Empíricos Estilizados de Séries Temporais Financeiras 33

3.1 Regularidade Empíricas relacionadas com a Distribuição Marginal . . . . . 33
3.1.1 Prémio de Risco Positivo . . . . . . . . . . . . . . . . . . . . . . . 34
5
3.1.2 Desvios Padrão Diferentes Consoante os Activos . . . . . . . . . . 35
3.1.3 Retornos de Acções e de Índices tendem a Apresentar Assimetria
Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.4 Retornos Apresentam Distribuições Leptocúrticas . . . . . . . . . . 37
3.1.5 Aumento da Frequência das Observações Acentua a Não Normali-
dade das Distribuições . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.6 Efeitos de Calendário . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.7 Distribuições Teóricas para os Retornos . . . . . . . . . . . . . . . 47
3.1.8 Estimação Não Paramétrica da Função Densidade de Probabilidade 54
3.2 Regularidade Empíricas relacionadas com a Distribuição Condicional . . . 55
3.2.1 Autocorrelações Lineares Baixas entre os Retornos . . . . . . . . . 55
3.2.2 Volatility Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2.3 Forte Dependência Temporal da Volatilidade . . . . . . . . . . . . 60
3.2.4 Efeito Assimétrico . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2.5 Aumento da Frequência das Observações Acentua a Não Linearidade 64
3.2.6 Co-Movimentos de Rendibilidade e Volatilidade . . . . . . . . . . 64
4 Processos Estocásticos: Revisões 67

4.1 Processo Estocástico e Filtração . . . . . . . . . . . . . . . . . . . . . . . 67
4.2 Valores Esperados Condicionais: Principais Resultados . . . . . . . . . . . 68
4.3 Distribuição Condicional versus Distribuição Marginal . . . . . . . . . . . 72
4.4 Processos Estocásticos Elementares, Estacionaridade e Fraca Dependência . 77
4.4.1 Processos Estocásticos Elementares . . . . . . . . . . . . . . . . . 77
4.4.2 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.4.3 Fraca Dependência . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.5 Processos Ergódicos e Estritamente Estacionários . . . . . . . . . . . . . . 87
4.5.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.5.2 Modelos Não Lineares do tipo yt = g (yt 1 ; yt 2 ; :::; yt p ) + ut . . . 96
4.5.3 Estabilidade em EDF . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.5.4 Modelos Não Lineares do tipo yt = At yt 1 +Bt . . . . . . . . . . 100
4.5.5 Modelos Não Lineares do tipo yt = g (yt 1 ; ut ) . . . . . . . . . . . 104
4.A Demonstrações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6
II Modelos 109
5 O Problema da Especificação 111

5.1 O Axioma da Correcta Especificação do Modelo . . . . . . . . . . . . . . . 111
5.2 Modelação da Média Condicional e Modelos Dinamicamente Completos . . 113
5.2.1 Modelos Dinamicamente Completos . . . . . . . . . . . . . . . . . 113
5.2.2 Média Condicional Não Linear . . . . . . . . . . . . . . . . . . . . 115
5.3 Modelação da Variância Condicional . . . . . . . . . . . . . . . . . . . . . 116
5.4 Distribuição de Condicional . . . . . . . . . . . . . . . . . . . . . . . . . 116
6 Modelação da Média: Abordagem Linear 119

6.1 Definições Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.1.1 Autocorrelação de Ordem s (FAC) . . . . . . . . . . . . . . . . . . 120
6.1.2 Autocorrelação Parcial de Ordem s (FACP) . . . . . . . . . . . . . 120
6.1.3 Operador de Diferença e de Atraso . . . . . . . . . . . . . . . . . . 122
6.2 Processos Lineares Estacionários . . . . . . . . . . . . . . . . . . . . . . . 123
6.2.1 Processos Média Móvel . . . . . . . . . . . . . . . . . . . . . . . 123
6.2.2 Processos Autoregressivos . . . . . . . . . . . . . . . . . . . . . . 127
6.2.3 Processos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.3 Processos Lineares Não Estacionários . . . . . . . . . . . . . . . . . . . . 139
6.3.1 Não Estacionaridade na Média . . . . . . . . . . . . . . . . . . . . 139
6.3.2 Não Estacionaridade na Variância . . . . . . . . . . . . . . . . . . 146
6.4 Modelação ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.5 Variáveis Impulse-Dummy em Modelos de Regressão: Cuidados a Observar 154
6.5.1 Inconsistência do Estimador . . . . . . . . . . . . . . . . . . . . . 154
6.5.2 Inconsistência do Teste-t . . . . . . . . . . . . . . . . . . . . . . . 156
6.5.3 Uma Solução para ensaiar H0 : =0 . . . . . . . . . . . . . . . . 156
6.5.4 Impulse-dummies e a matriz de White . . . . . . . . . . . . . . . . 157
6.5.5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
6.6 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.6.2 Previsão Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.6.3 Intervalos de Previsão I . . . . . . . . . . . . . . . . . . . . . . . . 168
7
6.6.4 Intervalos de Previsão II - Variância do Erro de Previsão no modelo
ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
6.6.5 Previsão de (muito) Longo Prazo . . . . . . . . . . . . . . . . . . 177
6.6.6 Qualidade da Previsão . . . . . . . . . . . . . . . . . . . . . . . . 180
6.6.7 Outros Métodos de Previsão Lineares . . . . . . . . . . . . . . . . 188
6.A Método para Obter a FACP . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6.B Transformação de um Processo MA(1) Não Invertível num Invertível . . . 191
6.C Invertibilidade de Processos MA (exemplos) . . . . . . . . . . . . . . . . . 192
6.D Estacionaridade de 2a Ordem do Processo AR(1) . . . . . . . . . . . . . . 195
6.E Estacionaridade de 2a Ordem do Processo AR(p) . . . . . . . . . . . . . . 198
6.F Processos ARMA Sazonais . . . . . . . . . . . . . . . . . . . . . . . . . . 199
6.G Demonstração da Proposição 6.5.1 . . . . . . . . . . . . . . . . . . . . . . 203
6.H Uma Nota sobre Intervalos de Confiança . . . . . . . . . . . . . . . . . . . 204
6.I UE + UV + UC = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
7 Modelação da Média: Abordagem Não Linear 207

7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
7.2 Estabilidade em Equações às Diferenças Finitas Determinísticas . . . . . . 210
7.2.1 Pontos Fixos e Estabilidade de Sistemas Lineares . . . . . . . . . . 211
7.2.2 Estabilidade de Sistemas Não Lineares . . . . . . . . . . . . . . . 217
7.2.3 Pontos Periódicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
7.3 Modelo Limiar Autoregressivo (Threshold AR - TAR) . . . . . . . . . . . 234
7.3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
7.3.2 Soluções Periódicas . . . . . . . . . . . . . . . . . . . . . . . . . 236
7.3.4 Exemplo (Bounded Random Walk) . . . . . . . . . . . . . . . . . . 241
7.3.5 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
7.3.6 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
7.4 Modelo Markov-Switching . . . . . . . . . . . . . . . . . . . . . . . . . . 248
7.4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
7.4.2 Cadeias de Markov em tempo discreto com espaço de estados dis-
cretos finito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
7.4.3 Modelos Markov-Switching . . . . . . . . . . . . . . . . . . . . . 254
8
7.4.4 Função densidade de probabilidade de y . . . . . . . . . . . . . . . 255
7.4.5 Probabilidades Associadas aos Regimes . . . . . . . . . . . . . . . 256
7.4.7 Estimação e Inferência . . . . . . . . . . . . . . . . . . . . . . . . 263
7.4.8 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
7.4.9 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
8 Modelação da Heterocedasticidade Condicionada - Caso Univariado 269

8.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
8.1.1 Por que razão a volatilidade não é constante? . . . . . . . . . . . . 269
8.1.2 Processos Multiplicativos . . . . . . . . . . . . . . . . . . . . . . 272
8.1.3 Distribuições de Caudas Pesada . . . . . . . . . . . . . . . . . . . 273
8.1.4 O papel da Média Condicional e o Modelo de Heterocedasticidade
Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
8.1.5 Vantagens dos modelos de Heterocedasticidade Condicionada . . . 274
8.2 Modelo ARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
8.2.1 Dois Primeiros Momentos de ut . . . . . . . . . . . . . . . . . . . 277
8.2.2 Representação AR de um ARCH . . . . . . . . . . . . . . . . . . . 277
8.2.3 Estacionaridade de Segunda Ordem do ARCH(q) . . . . . . . . . . 278
8.2.4 FAC e FACP de um u2t e Identificação do Processo ARCH(q) . . . . 279
8.2.5 Características da Distribuição Marginal de ut . . . . . . . . . . . . 280
8.2.6 Momentos e Distribuição de y . . . . . . . . . . . . . . . . . . . . 282
8.2.7 Volatilidade: Definições . . . . . . . . . . . . . . . . . . . . . . . 283
8.3 Modelo GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
8.3.1 GARCH(p,q) representa um ARCH(1) . . . . . . . . . . . . . . . 284
8.3.2 Representação ARMA de um GARCH . . . . . . . . . . . . . . . 286
8.4 Modelo IGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
8.4.1 Persistência na Variância . . . . . . . . . . . . . . . . . . . . . . . 290
8.4.2 Alterações de Estrutura e o IGARCH . . . . . . . . . . . . . . . . 293
8.4.3 EWMA (Exponential Weighted Moving Averages) . . . . . . . . . 294
8.5 Modelo CGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
8.6 Modelo GJR-GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
8.7 Modelo GARCH-M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
9
8.8 Modelo de Heterocedasticidade Condicionada com Variáveis Explicativas . 301
8.9 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
8.9.1 Estimador de Máxima Verosimilhança . . . . . . . . . . . . . . . . 304
8.9.2 Estimador de Pseudo Máxima Verosimilhança . . . . . . . . . . . . 309
8.9.3 Método da Máxima Verosimilhança com Distribuições Não Normais 310
8.10 Ensaios Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
8.10.1 Ensaios Pré-Estimação . . . . . . . . . . . . . . . . . . . . . . . . 313
8.10.2 Ensaios Pós-Estimação . . . . . . . . . . . . . . . . . . . . . . . . 316
8.11 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
8.11.1 Previsão da Variância Condicional . . . . . . . . . . . . . . . . . . 321
8.11.2 A Previsão da Variável Dependente y . . . . . . . . . . . . . . . . 324
8.11.3 Intervalos de Confiança para y e para a Volatilidade baseados em
Boostrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
8.12 Problema dos Erros de Especificação na Média Condicional . . . . . . . . 329
8.13 Modelos Não Lineares na Média combinados com o GARCH . . . . . . . . 331
8.13.1 Modelo Limiar Autoregressivo com Heterocedasticidade Condicionada331
8.13.2 Modelo Markov-Switching com Heterocedasticidade Condicionada 333
8.A Estabilidade de EDF e a Estacionaridade (Caso modelo ARCH) . . . . . . 335
9 Modelação da Heterocedasticidade Condicionada - Caso Multivariado 339

9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
9.2 Densidade e Verosimilhança . . . . . . . . . . . . . . . . . . . . . . . . . 341
9.3 Modelo VECH (ou VEC) . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
9.4 Modelo Diagonal VECH . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
9.5 Modelo BEKK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
9.6 Modelo de Correlações Condicionais Constantes . . . . . . . . . . . . . . 349
9.7 Modelo DCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
9.8 Modelo “Triangular” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
9.8.1 Introdução e Formalização do Modelo . . . . . . . . . . . . . . . . 352
9.8.2 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
9.8.3 Testes e Rácios de Variância . . . . . . . . . . . . . . . . . . . . . 359
9.8.4 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
9.9 GARCH Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
10
9.10 Testes de Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
10 Regressão Não Paramétrica 371

10.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
10.2 Estimação Não Paramétrica da Função Densidade de Probabilidade . . . . 371
10.2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
10.2.2 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
10.2.3 Escolha de h . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
10.2.4 Estimação localmente linear da Média Condicional . . . . . . . . . 376
10.2.5 Estimação localmente linear da Variância Condicional . . . . . . . 382
10.A Demonstrações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
III Aplicações 389
11 Eficiência do Mercado de Capitais 391

11.1 Introdução e Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
11.2 Teste à Eficiência Fraca de Mercado . . . . . . . . . . . . . . . . . . . . . 392
11.2.1 Testes de Autocorrelação . . . . . . . . . . . . . . . . . . . . . . . 394
11.2.2 Regras de Compra e Venda e a Análise Técnica . . . . . . . . . . . 395
11.3 Teste à Eficiência Semi-Forte de Mercado . . . . . . . . . . . . . . . . . . 400
11.3.1 Reacção do Mercado à Chegada de Informação . . . . . . . . . . . 401
12 Selecção de Portfolios 405

12.1 Portfolio Baseado em Momentos Marginais . . . . . . . . . . . . . . . . . 405
12.1.1 Todos os Activos Envolvem Risco . . . . . . . . . . . . . . . . . . 406
12.1.2 Modelo com Activo Sem Risco . . . . . . . . . . . . . . . . . . . 411
12.2 Portfolio Baseado em Momentos Condicionais . . . . . . . . . . . . . . . 413
13 Risco de Mercado e o Valor em Risco 417

13.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
13.2 Abordagem Não Paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . 419
13.3 Abordagem Paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
13.3.1 Modelo Gaussiano Simples . . . . . . . . . . . . . . . . . . . . . 424
13.3.2 Modelo RiskMetrics . . . . . . . . . . . . . . . . . . . . . . . . . 425
11
13.3.3 Modelo ARMA-GARCH . . . . . . . . . . . . . . . . . . . . . . . 426
13.4 Generalização: Portfolio com m Activos . . . . . . . . . . . . . . . . . . . 431
13.5 Abordagem pela Teoria dos valores Extremos . . . . . . . . . . . . . . . . 432
13.5.1 Introdução à Teoria e Estimação. VaR Marginal . . . . . . . . . . . 433
13.5.2 VaR Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
13.6 Avaliação do VaR (Backtesting) . . . . . . . . . . . . . . . . . . . . . . . 438
12
Parte I
Introdução
13
Página em branco
14
Capítulo 1
Objecto e Método da Econometria

Financeira
(Última actualização: 11/2009)
Entende-se que “Financial econometrics is simply the application of econometric tools to

financial data” (Engle, 2001). A econometria financeira é, portanto, uma disciplina econométrica
(baseada em métodos estatísticos e matemáticos) vocacionada para analisar dados finan-
ceiros. Esta análise serve de suporte a variadíssimos estudos como por exemplo,
avaliação do risco (por exemplo, através do Value at Risk);
avaliação de obrigações, opções, etc.;
previsão da volatilidade;
gestão de portfolios;
análise da previsibilidade e eficiência dos mercados, etc.
Sendo a econometria financeira a aplicação de métodos econométricos adequados a da-

dos financeiros, todos os métodos estatísticos que de uma forma ou outra se apliquem a dados
financeiros, interessam à econometria financeira. De todo o modo, a área proeminente em
econometria financeira é a das séries temporais. Estuda-se, por exemplo, a evolução tempo-
ral das cotações, taxas de câmbio, taxas de juro, etc. Por esta razão, este documento analisa
essencialmente métodos econométricos para séries temporais, sobretudo os métodos que de
alguma forma se adequam às característica próprias das séries financeiras (como sejam, a
não linearidade e a não normalidade).
15
É conveniente distinguir séries temporais de natureza macroeconómica das de natureza
financeira. As principais diferenças são as seguintes:
dados de natureza macroeconómica (consumo, produto, taxa de desemprego) podem

ser observados mensalmente, trimestralmente ou anualmente; dados financeiros, como
por exemplo, retornos de acções ou taxas de câmbio podem ser observados com uma
frequência muito superior; nalguns casos, com intervalos de minutos ou segundos entre
duas observações consecutivas;
como consequência do ponto anterior, o número de observações disponíveis de dados

financeiros situa-se na ordem das centenas de milhares. Normalmente, prefere-se tra-
balhar com dados diários (evitando-se os problemas das microestruturas de mercado);
nestes casos trabalham-se com algumas unidades de milhares de observações. Com
as séries macroeconómicas raramente se passam das poucas centenas de observações
(quando, na melhor das hipóteses, se têm observações mensais);
os dados macroeconómicos são menos fiáveis, i.e., estão mais sujeitos a erros de
medição. Com efeito, os valores apurados não resultam de valores efectivamente ob-
servados no mercado, como sucede com a generalidade das séries financeiras, mas
antes de valores apurados de acordo com certa metodologia e decorrentes de inquéri-
tos preliminares;
todavia, a principal diferença qualitativa decorre das propriedades estatísticas dos dois
tipos de séries. Ao contrário das séries macroeconómicas, as séries financeiras exibem
habitualmente fortes efeitos não lineares e distribuições não normais. As propriedades
estatísticas das séries financeiras serão estudadas no capítulo 3.
16
Capítulo 2
Preços e Retornos
O ponto de partida para a análise estatística é normalmente uma série de preços (por
exemplo, a série das cotações de fecho do Banco XYZ num certo intervalo de tempo). De
uma forma geral, o preço pode ser, por exemplo, o valor a que um intermediário financeiro
informa estar disposto a pagar pela compra de um determinado activo, opção ou futuro (bid
price), o valor a que um intermediário financeiro informa estar disposto a receber pela venda
de um determinado activo, opção ou futuro (ask price), o valor final da transacção, o valor
definido num mercado de futuros, entre outros.
O intervalo de tempo entre dois preços consecutivos é uma variável aleatória com valores
em R+ . Isto significa que se poderia considerar uma sucessão de preços fPt1 ; Pt2 ; :::; Ptn g
com i = ti ti 1 não constante. Não obstante, prefere-se normalmente trabalhar com
uma periodicidade fixa. Por exemplo, se análise empírica de certo fenómeno aconselha o
tratamento diário dos preços, a sucessão pertinente passará a ser fP1 ; P2 ; :::; Pn g onde Pt
representa habitualmente o valor de fecho no dia t: O tratamento estatístico do caso em que
i = ti ti 1 é encarado como uma variável aleatória, é um pouco mais delicada, e insere-se
na área dos modelos de muita alta-frequência.
Depois de coligidos os preços, calculam-se os retornos associados (veremos nos pon-
tos seguintes duas fórmulas alternativas de cálculo). Na figura 2-1 apresentam-se preços e
retornos da Microsoft no período Janeiro de 1988 a Fevereiro de 2006.
Prefere-se geralmente a sucessão dos retornos ou das rendibilidades à sucessão dos preços.
Por um lado, a sucessão dos retornos fornece tanta informação sobre a oportunidades de in-
vestimento quanto a sucessão dos preços. Deste ponto de vista é indiferente trabalhar-se
17
60 Preços Microsoft
50
40
30
20
10
Jan-88
Jan-90
Jan-92
Jan-94
Jan-96
Jan-98
Jan-00
Jan-02
Jan-04
Jan-06
0.2 Retornos Microsoft
0.15
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
Jan-88
Jan-90
Jan-92
Jan-94
Jan-96
Jan-98
Jan-00
Jan-02
Jan-04
Jan-06
Figura 2-1: Preços e Retornos diários da Microsoft no período Jan 88 a Fev 06
com qualquer das sequências. Há, todavia, uma razão de peso para se preferir a sucessão
dos retornos: esta é mais fácil de modelar. Veremos adiante, com mais pormenor, que a
sucessão dos preços é quase sempre não estacionária, ao passo que a sucessão dos retornos
é tendencialmente estacionária (facilitando, por isso, a aplicação de resultados essenciais,
como sejam, a lei dos grande números e o teorema do limite central)1 .
Há duas formas de obtermos o retorno associado ao preço que descreveremos a seguir.
2.1 Retornos Discretos

Seja Pt a cotação de um certo activo no momento t: Suponhamos que P é observado nos
momentos t = 1; 2; :::; n (podemos supor que temos n observações diárias).
1
Taxas de câmbio real e taxas de juro podem ser analisadas nos níveis e não nas primeiras diferenças, se
existir evidência de estacionaridade.
18
2.1.1 Retorno Simples
O retorno simples em tempo discreto de um certo investimento no momento t (retorno do

dia t 1 para o dia t) é definido como
Pt Pt 1 Pt
Rt = = 1 (2.1)
Pt 1 Pt 1
(na literatura anglo-saxónica Rt é designado por simple net return e 1 + Rt = Pt =Pt 1 como
simple gross return). Naturalmente, também se tem
P t = Pt 1 (1 + Rt ) :
Esta última expressão mostra que Rt representa, efectivamente, a taxa de rendibilidade de um

certo investimento, adquirido por Pt 1 e vendido por Pt : Se Pt 1 representa o preço unitário
de um activo financeiro e K o número de acções adquiridas em t 1, a taxa de rendibilidade
do investimento de valor KPt 1 é também, naturalmente, Rt ; pois Pt = Pt 1 (1 + Rt ) ,
Pt K = Pt 1 K (1 + Rt ).
2.1.2 Retorno Multi-Períodos
Suponha-se que fP1 ; P2 ; :::; Pn g é a sucessão de preços diários. Podemos estar interessados,
por exemplo, no retorno semanal e, para o efeito, basta considerar
Pt Pt 5
Rt (5) =
Pt 5
(admitindo que se observam cinco preços por semana). De uma forma geral,
Pt Pt m Pt
Rt (m) = = 1: (2.2)
Pt m Pt m
Para calcular Rt (m) basta atender à expressão (2.2). Suponhamos, no entanto, que Pt e
Pt m não são conhecidos. A questão é, como calcular Rt (m) a partir dos retornos simples
em t = 1; 2; ...? Pode-se provar (ver apêndice 2.B.1)
Pt Pt m
Y
t
Rt (m) = = (1 + Rj ) 1:
Pt m j=t m+1
19
2.1.3 Retornos de Portfolios
Admita-se que o capital em t 1 é igual K (unidades monetárias) e existem dois activos

A e B; cujas taxas de rendibilidade são, respectivamente, RA;t e RB;t : Um certa fracção do
capital, ! A ; é investido em A e, a parte restante, ! B = 1 ! A ; é investido em B: Desta
forma, o valor do investimento no período seguinte, t; é igual a
K (! A (1 + RA;t ) + ! B (1 + RB;t ))
e o retorno do portfolio é
K (! A (1 + RA;t ) + ! B (1 + RB;t )) K
Rp;t =
K
= ! A (1 + RA;t ) + ! B (1 + RB;t ) 1
= ! A RA;t + ! B RB;t :
Com m activos, tem-se ! 1 + ::: + ! m = 1 e
Rp;t = ! 1 R1;t + ! 2 R2;t + ::: + ! m Rm;t

Xm
= ! i Ri;t : (2.3)
i=1
Conclui-se portanto que o retorno de um portfolio é igual a uma média ponderada dos vários
retornos do portfolio.
A variância do retorno de um portfolio tende a ser inferior à variância dos retornos do
portfolio. Para analisar esta questão, considere-se
!
X
m X
m X1
m X
m
Var (Rp;t ) = Var ! i Ri;t = Var (! i Ri;t ) + 2 Cov (! i Ri;t ; ! i j Ri j;t )
i=1 i=1 j=1 i=j+1
X
m X1
m X
m
= ! 2i Var (Ri;t ) + 2 !i!i j Cov (Ri;t ; Ri j;t ) :
i=1 j=1 i=j+1
Simplifique-se esta expressão. Admita-se que os retornos têm variância igual, Var (Ri;t ) =
2
e que os pesos são iguais, ! i = 1=m (estas hipóteses significam que se tomam títulos com
idêntica variabilidade e com o mesmo peso na carteira). Seja
Pm 1 Pm
j=1 i=j+1 Cov (Ri;t ; Ri j;t )
^= m(m 1)
2
20
a “covariância média”, isto é, a média aritmética dos valores de todas as covariâncias distintas
(que são em número de m (m 1) =2). Sob estas hipóteses, vem
2 2
1 ^ N (m 1) ^ (m 1)
Var (Rp;t ) = +2 = + :
m m2 2 m m
2
Nestas circunstâncias, é fácil verificar que Var (Rp;t ) < Var (Ri;t ) é equivalente a > ^.
Assim, se a variabilidade dos activos (tomados isoladamente) for superior à média aritmética
dos valores de todas as covariâncias distintas, o retorno do portfolio apresenta menor variân-
2
cia do que a dos activos que a constituem. A desigualdade > ^ verifica-se trivialmente
se os retornos forem independentes (^ = 0) ou se as covariâncias forem negativas (^ < 0).
2
A desigualdade > ^ tende a verificar-se quando as covariâncias são baixas e/ou existem
várias covariâncias negativas. Deve notar-se que a hipótese de independência é inverosímil,
pois os activos partilham aspectos comuns relacionados com o comportamento geral do mer-
cado (risco de mercado).
Uma forma mais convincente de sugerir Var (Rp;t ) < Var (Ri;t ) é a seguinte. Assuma-
2
se: (i) os retornos têm variância igual, Var (Ri;t ) = ; (ii) os pesos são iguais, ! i = 1=m e
(iii) as covariâncias são iguais. Resulta por construção que a Var (Rp;t ) < Var (Ri;t ) : Com
2
efeito, comece-se por observar que Cov (Ri;t ; Ri j;t ) = ( é o coeficiente de correlação).
P 1 Pm
Nestas condições vem m j=1 i=j+1
2
= 2 m (m 1) =2 e, portanto,
2 2
1 m (m 1)
Var (Rp;t ) = +2 :
m m2 2
Verifica-se agora que Var (Rp;t ) < Var (Ri;t ) é equivalente a < 1: Como, por definição é
menor do que 1, a desigualdade Var (Rp;t ) < Var (Ri;t ) verifica-se sempre, sob as hipóteses
assumidas. Claro que, na prática, nenhuma das hipóteses (i), (ii) e (iii) se verifica de forma
exacta, mas é seguro dizer-se que, em condições gerais, a diversificação (i.e. m > 1) baixa a
variabilidade do portfolio.
21
2.1.4 Retornos Ajustados aos Dividendos
Se no período t (ou se algures entre t 1 e t) há lugar ao pagamento de dividendos, o retorno

deve reflectir esse acréscimo de rendimento. O retorno total vem
Pt + Dt Pt 1
Rt =
Pt 1
P t Pt 1 Dt
= +
Pt 1 Pt 1
onde (Pt Pt 1 ) =Pt 1 é, por vezes, referido como capital gain e Dt =Pt 1 como dividend
yield.
2.1.5 Retornos Ajustados à Inflação
Até agora considerámos retornos nominais. Em certos estudos, sobretudo de carácter macro-
económico, tem interesse analisar o retorno real. Para obtermos este retorno, é necessário
expurgar do ganho de capital o “efeito do crescimento geral de preços”. Suponhamos que
a inflação foi de 4% e o retorno (anualizado) foi de 3%. Houve ganho real no investimento
realizado? Se atendermos ao efeito “crescimento geral de preços” a resposta é negativa. É
tentador dizer que a perda real é de 1%. Efectivamente é quase 1%, mas não chega, como
se mostra a seguir. Para obtermos o retorno real, Rtreal (ajustado, portanto, da inflação),
considera-se
Ptreal Ptreal1 Pt
Rtreal = ; Ptreal =
Ptreal1 IP Ct
sendo IP Ct o índice de preços ao consumidor (índice construído pelo INE, Instituto Na-
cional de Estatística). Observe-se que Ptreal é o preço deflacionado ou simplesmente o preço
real do activo. Simples álgebra, permite concluir que
Ptreal Ptreal1 Pt IP Ct 1 Rt t
Rtreal = real
= 1=
Pt 1 Pt 1 IP Ct t +1
onde t = (IP Ct IP Ct 1 ) =IP Ct 1 . Retomemos o exemplo acima, com Rt = 0:03 e

t = 0:04; logo,
0:03 0:04
Rtreal = = 0:0096
0:04 + 1
isto é, os retornos reais caiem aproximadamente 1%, para sermos mais exactos, caiem 0.96%.
Quando a inflação é relativamente baixa (por exemplo, se Rtreal são retornos reais mensais) é
22
válida a aproximação,
Rtreal ' Rt t:
Como o IPC está, no máximo, disponível mensalmente, não é possível calcular-se retornos
reais diários.
2.1.6 Retornos Anualizados
Para compararmos, por exemplo, o retorno diário do investimento A com o retorno mensal
do investimento B, é necessário converter as diferentes taxas de rendibilidades a um mesmo
período. Toma-se normalmente como período de referência o ano pelo que, as taxas de
rendibilidade depois de convertidas em rendibilidades anuais dizem-se anualizadas. Supon-
hamos que um certo investimento de valor P0 foi realizado no momento 0. Ao fim de T anos
(T pode ser por exemplo 0.5, isto é, 6 meses) o mesmo investimento vale Pn : A questão que
deveremos colocar é a seguinte: qual é a taxa de rendibilidade anual, RA ; tal que, aplicada
a um investimento P0 permite ao fim de T anos obter o investimento Pn ? Ou seja, qual é o
valor RA que resolve a equação
P0 (1 + RA )T = Pn ?
Tomando RA como incógnita, facilmente se obtém
1
Pn T
RA = 1: (2.4)
P0
Se os preços P0 ; P1 ; :::Pn são diários e se admitirmos que num ano se observam 250 preços,
então T = n=250 (por exemplo, com n = 500 observações diárias, o período de investimento
corresponde a dois anos, T = 500=250 = 2). Nestas condições, a fórmula (2.4) pode-se
reescrever na forma 250
Pn n
RA = 1:
P0
Em termos gerais, se num ano se observam N preços (por exemplo, N = 12 se as obser-
vações são mensais) e dispomos de n observações sobre os preços, então T = n=N e
N
Pn n
RA = 1: (2.5)
P0
23
Exemplo 2.1.1 Queremos comparar os seguintes investimentos:
O investimento 1 foi adquirido ao preço 1.5. Ao fim de 800 dias (isto é, 800=250 = 3:2
anos) valia 1.9.
O investimento 2 foi adquirido ao preço 105. Ao fim de 50 meses (isto é, 50=12 = 4:17
anos) valia 121.
Questão: qual dos investimento foi preferível? Para os investimento 1 e 2, as taxa de

rendibilidade anualizadas foram respectivamente de
250
1:9 800
RA;1 = 1 = 0:0766
1:5
e,
12
121 50
RA;2 = 1 = 0:034;
105
ou seja de 7.66% para o investimento 1 e 3.4% para o investimento 2. O investimento 1 foi,
portanto, preferível.
Quando o período de observação dos preços é relativamente curto as taxas de rendibili-

dade anualizadas podem fornecer valores aberrantes. Por exemplo, se numa semana, devido
à variabilidade dos preços, se observar P0 = 1 e P5 = 1:1; a taxa anualizada é de 1046.7%.
2.2 Retornos Contínuos

Sejam P0 e P1 ; respectivamente o capital inicial e o capital ao fim de um período. Se o
capital se valorizou continuamente nesse período, qual é a taxa de rendibilidade instantânea
associada? Para discutirmos esta questão, admita-se, para simplificar, que o período é o ano.
Se a capitalização fosse anual, a taxa de rendibilidade Ra resultaria da resolução da equação
P1 = P0 (1 + Ra ) em ordem a Ra : Se a capitalização fosse semestral, a taxa de rendibilidade
(semestral) Rs resultaria da resolução da equação
2
Rs Rs Rs
P1 = P 0 1 + 1+ = P0 1 +
2 2 2
em ordem a Rs . De igual forma, numa capitalização trimestral, ter-se-ia P1 = P0 (1 + Rtr =4)4 :

Se a capitalização é contínua (capitalização minuto a minuto, segundo a segundo, etc.) então
24
0.4
0.3
0.2
0.1 R
0 r
-0.1
-0.2
-0.3
Jul-00
Jul-01
Jul-02
Jul-03
Jul-04
Jul-05
Jan-00
Jan-01
Jan-02
Jan-03
Jan-04
Jan-05
Figura 2-2: Retornos mensais da IBM
o capital P1 pode interpretar-se como o limite de
r n
P1 = lim P0 1 + :
n!1 n
r n
Como limn!1 1 + n
= er ; a taxa de rendibilidade instantânea r resulta da resolução da
equação P1 = P0 er em ordem a r (pode-se obter P1 = P0 er resolvendo a equação diferencial
Pt0 = rPt - veja-se o apêndice 2.A). Logaritmizando a equação e resolvendo em ordem a r;
obtém-se
r = log P1 log P0 :
Considere-se agora uma sucessão de preços fP1 ; P2 ; :::; Pn g : Define-se a taxa de rendibili-
dade instantânea ou simplesmente o retorno contínuo de um certo investimento no momento
t como
rt = log Pt log Pt 1 :
Naturalmente esta expressão é equivalente a
Pt Pt
rt = log Pt log Pt 1 = log = log 1 + 1 = log (1 + Rt ) :
Pt 1 Pt 1
Para dados diários, semanais ou mensais pode assumir-se rt ' Rt (ver apêndice 2.B.2). Na
figura 2-2 as diferenças entre Rt e rt são relativamente pequenas. Se os dados fossem diários
as diferenças seriam ainda mais pequenas.
25
2.2.1 Retorno Multi-Períodos
Suponha-se que fP1 ; P2 ; :::; Pn g é a sucessão de preços diários. Podemos estar interessados,
por exemplo, no retorno semanal e, para o efeito, basta considerar
Pt
rt (5) = log
Pt 5
(admitindo que se observam cinco preços por semana). De uma forma geral,
Pt
rt (m) = log = log (Pt ) log (Pt m) :
Pt m
Seguindo o mesmo raciocínio que vimos atrás, suponhamos, no entanto, que Pt e Pt m
não são conhecidos. A questão é, como calcular rt (m) a partir dos retornos contínuos em
t = 1; 2; ...? Para exemplificar, suponha-se que se têm retornos diários e procura-se o retorno
semanal, i.e., admita-se o seguinte:
retorno 2a feira r1 = log P1 log P0

retorno da semana log P5 log P0 = r1 + r2 + ::: + r5
A tabela anterior sugere que o retorno da semana é igual à soma dos retornos da semana.
Com efeito,
log P5 log P0 = log P5 log P4 + log P4 log P3 + log P3 log P2

| {z } | {z } | {z }
r5 r4 r3
+log P2 log P1 + log P1 log P0
| {z } | {z }
r2 r1
(observe-se que no lado direito da expressão anterior, apenas os termos log P5 e P0 não
cancelam). Em termos gerais,
rt (m) = rt + rt 1 + ::: + rt m+1 :
26
2.2.2 Retornos de Portfolio
Pode imaginar-se o retorno contínuo do portfolio como sendo o valor rp;t tal que, aplicado
ao capital inicial K (i.e., Kerp;t ) permite obter o valor do portfolio calculado através dos m
P P
retornos (i.e., K m i=1 ! i e
ri;t
). Assim, rp;t é tal que K mi=1 ! i e
ri;t
= Kerp;t : Resolvendo
P
esta equação em função de rp;t obtém-se rp;t = log ( m i=1 ! i e
ri;t
) : Tendo em conta que
P
ri;t = log (1 + Ri;t ) e m i=1 ! i = 1; podemos ainda escrever
! ! !
X
m X
m X
m
rp;t = log ! i eri;t = log ! i (1 + Ri;t ) = log 1 + ! i Ri;t = log (1 + Rp;t ) :
i=1 i=1 i=1
Ao contrário dos retornos discretos, o retorno contínuo do portfolio não é igual à soma
Pn
ponderada dos retornos contínuos dos vários activos, i.e., rp;t 6= i=1 ! i ri;t : Este facto
constitui uma desvantagem da versão contínua dos retornos. No entanto, quando Rp;t não é
muito alto, rp;t Rp;t :
2.2.3 Retornos Ajustados aos Dividendos
O retorno contínuo ajustado aos dividendos é definido como
Pt + Dt
rt = log = log (Pt + Dt ) log (Pt 1 ) :
Pt 1
Note-se também:
Pt + Dt Pt 1
rt = log (1 + Rt ) ; Rt = :
Pt 1
2.2.4 Retornos Ajustados à Inflação
O retorno contínuo ajustado à inflação é definido como
Pt =IP Ct Pt IP Ct
rtreal = log = log log = rt t
Pt 1 =IP Ct 1 Pt 1 IP Ct 1
onde agora a taxa de inflação t é definida como t = log (IP Ct =IP Ct 1 ). Note-se também:
rtreal = log 1 + Rtreal :
27
2.2.5 Retornos Anualizados
Tal como no caso dos retornos discretos, também no caso dos retornos contínuos é possível
obter uma taxa de rendibilidade (agora instantânea) anualizada ou simplesmente retorno an-
ualizado, rA . Pode começar-se por perguntar: qual é a taxa de rendibilidade anual, rA ; tal
que, aplicada a um investimento P0 permite ao fim de T anos (de valorização contínua) obter
o investimento Pn ? Ou seja, qual é o valor rA que resolve a equação
P0 erA T = Pn ?
Tomando rA como incógnita, facilmente se obtém
1 Pn
rA = log : (2.6)
T P0
Também se chega a esta expressão a partir da definição habitual rA = log (1 + RA ) :

Com efeito,
1
! 1
!
Pn T Pn T 1 Pn
rA = log (1 + RA ) = log 1 + 1 = log = log
P0 P0 T P0
(T representa o número de anos do investimento).

Se os preços P0 ; P1 ; :::Pn são diários e se admitirmos que num ano se observam 250
preços, então deduz-se a relação T = n=250. Nestas condições, a fórmula (2.6) pode-se
reescrever na forma
250 Pn
rA = log :
n P0
Em termos gerais, se num ano se observam N preços (por exemplo, N = 12 se as obser-
vações são mensais) e dispomos de n observações sobre os preços, então T = n=N e
N Pn
rA = log :
n P0
Em muitas aplicações estuda-se uma sucessão de retornos fr1 ; r2 ; :::; rn g e obtém-se de

seguida um conjuntos de estatísticas, como por exemplo a média empírica dos retornos,
1X
n
r= ri :
n i=1
28
Uma questão interessante consiste em obter rA como função de r: Tendo em conta que
P
log (Pn =P0 ) = ni=1 ri tem-se
NX
n
N Pn
rA = log = ri = N r:
n P0 n i=1
Uma forma alternativa de obtermos rA = N r e que tem a vantagem de fornecer também

uma medida para o valor da volatilidade anualizada é a seguinte. Suponha-se, tal como
anteriormente, que num ano é possível observar N preços. Então, a variável aleatória que
representa o retorno anual é dado por
X
N
X = log PN log P0 = rt :
t=1
Supondo E (r1 ) = E (r2 ) = ::: = E (rN ) ; tem-se que o retorno médio anual é dado por
E (X) = N E (rt ) :
Logo, uma estimativa de E (X) é, precisamente, rA = N r : Por outro lado, suponha-se que
2
a sucessão frt g é não autocorrelacionada e que Var (rt ) = : Nestas condições, a variância
anual (i.e., a variância associada a rt (N )) é dada por
!
X
N
2
Var (X) = Var rt =N : (2.7)
t=1
Resulta da equação (2.7) a famosa square root of time rule segundo a qual, a volatilidade
p
anual de um activo, obtém-se a partir da regra N onde é o desvio padrão associado
a um medida intra anual (assume-se o desvio padrão como medida da volatilidade). Por
p
exemplo, se os dados são diários, a regra estabelece 250 d ( d é o desvio padrão associado
p
aos dados diários); se os dados são mensais, vem 12 m ( m é o desvio padrão associado
aos dados mensais). A informação anualizada pode ser dada em percentagem:
p
Nr 100%; N 100%:
Com efeito o retorno anual em percentagem é X 100 pelo que E (X 100) = N E (rt )
p p
100 e Var (X 100) = N 2 1002 ) Var (X 100) = N 100:
Note-se, finalmente, que o retorno anualizado na versão discreta é uma função do retorno
29
anualizado na versão contínua, dada pela expressão RA = erA 1 (veja a equação (2.5)).
2.3 Retornos Contínuos vs. Retornos Discretos

Neste documento dá-se preferência à análise dos retornos contínuos. Por várias razões:
A esmagadora maioria dos investigadores usa rt : Se queremos que os nossos resultados

sejam comparáveis devemos usar rt :
Como vimos, os retornos contínuos multi-períodos são aditivos (por exemplo, o re-
torno contínuo entre o período 5 e 0 é igual à soma dos retornos contínuos entre o
período 5 e 0). Já os retornos discretos multi-períodos não são. Em certas aplicações é
necessário modelar retornos multi-períodos a partir do conhecimento das distribuições
de r ou R: Neste caso, prefere-se interpretar o retorno na sua versão contínua, pois a
modelação de uma soma
X
t
log Pt log P0 = ri
i=1
é bem mais fácil do que a modelação de um produto
Pt P0 Y
t
= (1 + Rj ) 1:
P0 j=1
Pt
Além disso, a soma i=1 ri preserva propriedades que podem ser interessantes. Por
exemplo, se fri g é uma sucessão de v.a. i.i.d. com distribuição N ( ; 2 ), segue-se
P
imediatamente que log Pt log P0 = ti=1 ri tem ainda distribuição normal N (t ; t 2 ) :
Já no caso discreto, se fRi g é uma sucessão de v.a. i.i.d. com distribuição normal, a
Yt
v.a. (Pt P0 ) =P0 = (1 + Rj ) 1 não tem distribuição normal.
j=1
O facto dos retornos discretos não ser aditivos pode conduzir a conclusões erradas.
Considere-se o seguinte exemplo (veja-se a tabela 2.1). No momento t = 0 um certo
activo vale 100, depois em t = 1 vale 110 e, finalmente, em t = 2 volta a valer 100.
Obviamente que o retorno de t = 0 para t = 2 é zero, quer se considere a fórmula
(P2 P0 )=P0 ou log P2 log P0 : No entanto, a média empírica dos retornos discretos
é positiva, podendo sugerir, incorrectamente, que o activo se valorizou entre o período
t = 0 e t = 2: Já a média empírica dos retornos contínuos traduz correctamente a
valorização do activo.
30
Pt Pt 1
t Pt Rt = Pt 1
rt = log Pt log Pt 1
0 100
1 110 0.10 (10%) 0.0953
2 100 -0.0909 (-9.09%) -0.0953
media >0 =0
Tabela 2.1: Retornos discretos não são aditivos - mais um exemplo
O retorno discreto aplicado a um investimento inicial pode sugerir que o investimento

possa vir negativo. Isto é uma impossibilidade. Suponha-se P0 = 100: O pior cenário
no período 1 é P1 = 0 (perde-se todo o investimento). Mas, aplicando o retorno
discreto pode-se obter P1 < 0 se R1 < 1: Por exemplo, se R1 = 1:05 tem-se
P1 = (1 1:05) P0 = 0:05 100 = 5:
É um impossibilidade obter-se P1 < 0 e, este facto, traduz uma fraqueza teórica do

modelo de retorno discreto. No caso do retorno contínuo, não há possibilidade de P1
ser negativo, pois, r1 = log (P1 ) log (P0 ) implica P1 = P0 er > 0; por definição.
O retorno discreto conserva, no entanto, uma vantagem apreciável: o retorno discreto

do portfolio é igual à soma ponderada dos retornos discretos dos vários activos e, esta pro-
priedade, não é partilhada, como vimos, pelo retorno contínuo do portfolio.
2.A Outra Interpretação de rt

Seja Pt o valor de um certo capital no momento t (podemos convencionar: t = 1 representa
um ano). Se o capital se valoriza em tempo discreto, a variação do capital Pt num certo
intervalo de tempo > 0 pode ser traduzida pela igualdade (Pt+ Pt ) =Pt = r (r é a
taxa de retorno) ou seja
Pt+ Pt
= rPt
Se o capital se valoriza continuamente, i.e., se assumirmos ! 0; o lado esquerdo da

equação anterior é a derivada de P em ordem a t; i.e., P 0 . Desta forma tem-se a equação
diferencial linear de primeira ordem (determinística)
Pt0 = rPt (2.8)
31
que estabelece a forma como Pt evolui em tempo contínuo. Pode-se provar que a solução
geral de (2.8) é
Pt = cert ; c2R
(c depende do capital inicial). Com o capital inicial P0 ; a solução particular é Pt = P0 ert :

Ao fim de um período t = 1 o capital vale P1 = P0 er : Resolvendo esta equação em ordem a
r vem r = log (P1 =P0 ) = log P1 log P0 .
2.B Notas Técnicas
2.B.1 Retorno Multi-Períodos como Função dos Retornos Simples
Como calcular Rt (m) a partir dos retornos simples em t = 1; 2; ...? Basta considerar
Pt Pt m
Rt (m) =
Pt m
Pt Pt 1 Pt m+1
= ::: 1
Pt 1 Pt 2 Pt m
Pt Pt 1 Pt m+1
= 1+ 1 1+ 1 ::: 1 + 1 1
Pt 1 Pt 2 Pt m
= (1 + Rt ) (1 + Rt 1 ) ::: (1 + Rt m+1 ) 1
Y t
= (1 + Rj ) 1:
j=t m+1
2.B.2 r e R: Série de Taylor
A série de Taylor da função log (1 + Rt ) em torno de Rt = 0 é, como se sabe,
1 2 1 3 Rtn
rt = log (1 + Rt ) = Rt R + R ::: ( 1)n 1
+ :::
2 t 3 t n
Este desenvolvimento em série de potência de Rt é válido para todo o Rt tal que jRt j <
1. Quando Rt é relativamente pequeno, os termos Rt2 ; Rt3 ; etc., são ainda mais pequenos
(por exemplo, Rt = 0:005 implica Rt2 = 2:5 10 5 , Rt3 = 1:25 10 7 ; etc.) pelo que,
nestas circunstâncias, Rt2 ' 0; Rt3 ' 0; etc., e, assim, rt ' Rt : Se os dados são diários,
semanais ou mensais as rendibilidades R são geralmente pequenas (quando comparadas com
as rendibilidades anuais). Assim, para este tipo de rendibilidades, pode assumir-se rt ' Rt :
32
Capítulo 3
Factos Empíricos Estilizados de Séries

Temporais Financeiras
Vários estudos empíricos têm documentado que há um conjunto de regularidades em-

píricas que são partilhadas por um leque grande de séries temporais financeiras observadas
com frequência elevada (diária ou semanal). Essas regularidades têm a ver com caracterís-
ticas das distribuições marginais e condicionais que são comuns a muitas séries temporais
financeiras.
3.1 Regularidade Empíricas relacionadas com a Distribuição

Marginal
Comece-se por considerar a fdp marginal1 f de um certo retorno rt . Estamos interessados
em saber algo sobre f (que é geralmente desconhecida). Obtém-se alguma informação sobre
f calculando vários momentos da amostra. É este o procedimento que começaremos por
seguir. Pelo método dos momentos, os parâmetros populacionais desconhecidos,
p E (r )3 E (r )4
= E (r) ; = Var (r); sk = 3
; k= 4
1
Para simplificar, admite-se que f é homogénea com respeito ao tempo, i.e., não depende de t. Desta forma,
f (rt ) = f (rt 1 ) = ::: = f (r1 ). Como consequência é indiferente escrever f (rt ) ou simplesmente f (r) (e,
por um raciocínio similar, é indiferente escrever E (rt ) ou simplesmente E (r)).
33
podem ser estimados de forma consistente (sob certas condições de regularidade), respecti-
vamente, pelos estimadores
s
Pn Pn
t=1 rt t=1 (rt r)2
r = ; ^= ;
n n
Pn 3 Pn
c = n 1
(r t r) n 1
t=1 (rt r)4
sk t=1
3 ; k^ = :
^ ^4
Os factos empíricos estilizados que descreveremos a seguir envolvem explicitamente estes

momentos. Concretamente, mostraremos a seguir que
r tende a ser maior do que o retorno do investimento sem risco;
^ depende da natureza do activo financeiro;
c tende a ser negativo;

sk
k^ tende a ser superior a 3.
3.1.1 Prémio de Risco Positivo
De acordo com a teoria financeira o valor esperado do retorno de um investimento no mer-

cado de capitais deve exceder, no longo prazo, o retorno do investimento sem risco. A essa
diferença designa-se prémio de risco (Equity Risk Premia). Este prémio deve ser positivo
pois, caso contrário, não haveria motivação para aceitar um investimento com retornos in-
certos, quando a alternativa é um retorno garantido.
A estimação do prémio de risco deve envolver um período relativamente longo (o retorno
de um investimento no mercado de capitais é estável no médio/longo prazo, mas instável
no curto prazo - pode até ser fortemente negativo em curtos períodos de tempo). Dim-
son, Marsh e Staunton (2002) fizeram o seguinte exercício, com base em dados financeiros
norte-americanos: se tivesse sido investido 1 dólar em acções norte americanas (digamos,
num índice representativo do mercado de acções norte-americano) e 1 dólar em bilhetes do
tesouro (investimento sem risco), ambos no início do ano 1900, quais seriam os retornos
desses investimentos ao fim de 101 anos (i.e. se fossem levantados no final do ano 2000).
Os resultados apurados mostram que o investimento de 1 dólar em acções seria vendido
por 16797 dólares em 2000 (apesar das inúmeras crises económicas e financeiras durante
o século, como por exemplo, as duas guerras mundiais, a grande depressão, os choques
34
c P^ (jrt rj>3^ )
rA % Â% sk k^ P (jZj>3)
Cotações de Acções
Microsoft (01-88 a 7-05) 23.9% 36.3% -.097 6.8 3.85
Coca-Cola (11-86 a 12-05) 7.2% 33.2% -0.97 18.1 4.53
PT (6-95 a 12-05) 12.3% 33.2% -0.06 6.39 5.02
Índices Bolsistas
Dax (11-90 a 11-05) 8.4% 22.1% -0.196 6.66 5.79
CAC40 (03-90 a 11-05) 5.7% 20.5% -0.101 5.77 5.61
Nikkei225 (01-84 a 11-05) 1.6% 20.5% -0.116 10.77 3.71
FTSE100 (04-84 a 11-05) 7.3% 15.8% -0.545 11.12 2.44
PSI20 (01-93 a 03-06) 8.6% 15.8% -0.61 10.9 5.99
Taxas de Câmbio
USD/EUR(12-98 a 11-05) 0.1% 7.9% -0.05 4.86 4.55
YEN/USD (1-71 a 7-05) -3.4% 9.4% -0.78 p 14.2 1.67
Na última coluna assume-se que Z N (0; 1) ; ^ A % = 250^ 100%
Tabela 3.1: Estatísticas Descritas de Algumas Acções, índices e Taxas de Câmbio
petrolíferos, etc.), enquanto os bilhetes de tesouro seriam vendidos por 119 dólares. Os
retornos anualizados (usando a fórmula RA ) seriam de 10.1% para as acções, i.e.
1
RA 100% = (16797) 101 1 100% = 10:1%
e de 4.8% para os bilhetes do tesouro (valores nominais, i.e. não descontando a inflação).
Ver Taylor (2005) para mais detalhes sobre o prémio de risco.
3.1.2 Desvios Padrão Diferentes Consoante os Activos
A tabela 3.1 mostra que os activos com maior variabilidade (e, portanto com maior risco
associado) são os títulos de empresas, seguidos dos índices bolsistas e taxas de câmbio (bil-
hetes do tesouro - resultados não apresentados - apresentam a menor variabilidade). No
âmbito dos títulos de acções, vários estudos indicam (ver por exemplo, Taylor, 2005) que a
variabilidade dos retornos tende a diminuir à medida que a dimensão das empresas aumenta
(títulos de empresas pequenas apresentam maior variabilidade).
3.1.3 Retornos de Acções e de Índices tendem a Apresentar Assimetria

Negativa
A assimetria de uma distribuição é normalmente aferida através do coeficiente de assimetria

sk anteriormente definido. Diz-se que a distribuição de r é assimétrica negativa (positiva) se
35
sk < 0 (> 0). Se sk = 0 a distribuição é simétrica (em relação à média populacional).
c negativa se as variações negativas fortes forem mais
Podemos ter uma estimativa sk
acentuadas do que as variações positivas fortes. Quando assim sucede, os desvios negativos
P
(rt r)3 < 0 tendem a dominar os desvios positivos (rt r)3 > 0 na soma (rt r)3 e,
c é negativa. Observe-se ainda que os desvios cúbicos são divididos
por isso, a estimativa sk
por ^ 3 ; desta forma, elimina-se a possibilidade do coeficiente depender das unidades em que
a variável é observada (por exemplo, se multiplicarmos r por 100, para termos uma medida
c não sofre alteração).
em percentagem, sk
A tabela 3.1 mostra que as distribuições empíricas das rendibilidades de acções e índice
bolsistas em análise são assimétricas negativas. Existe, portanto, evidência empírica de que
as fortes variações dos preços são maioritariamente de sinal negativo. Estas variações são
obviamente crashes bolsistas. Sublinhe-se, no entanto, que alguns retornos de títulos, por
registarem episódios de fortes variações positivas, apresentam distribuições assimétricas pos-
itiva. A assimetria negativa não é, portanto, uma característica universal das distribuições de
retornos, embora, geralmente, tendam a apresentar assimetria negativa.
Sob certas hipóteses, incluindo frt g é uma sucessão de v.a. homocedásticas com dis-
tribuição normal, a estatística de teste
c
p sk
Z1 = np
6
tem distribuição assimptótica N (0; 1) : A hipótese nula H0 : sk = 0 pode ser testada a par-
tir deste resultado2 . Mas as hipóteses de partida, normalidade e homocedasticidade, são
relativamente severas. Na prática, isto significa que a rejeição de H0 pode dever-se à ausên-
cia de normalidade e/ou homocedasticidade e não necessariamente à falha de simetria da
distribuição. Desta forma, é necessário ter algum cuidado na interpretação dos resultados
quando H0 é rejeitada.
c é por vezes criticado por não ser robusto face à presença de valores
O estimador sk
extremos. Na verdade, em certos casos, a ocorrência de apenas uma única variação negativa
c (os títulos que incluem na
excepcionalmente forte pode resultar num valor negativo para sk
sua amostra o crash do dia 19 de Outubro de 1987 tendem a apresentar um valor estimado
para sk negativo). Por esta razão, é aconselhável usar-se medidas de assimetria robustas
2
A única hipótese nula possível é H0 : sk = 0: Por exemplo, não faria sentido testar H0 : sk = 1 porque
a estatística de teste é obtida sob a hipótese de normalidade e sk = 1 é claramente incompatível com essa
hipótese.
36
contra a presença de outliers. Uma medida nestas condições é proposta por Groeneveld and
Meeden (1984)
E (r) q0:5
skGM =
E (jr q0:5 j)
onde q0:5 é o quantil de ordem 0.5, o que significa que q0:5 é a mediana. O parâmetro
E (jr q0:5 j) fornece uma medida de dispersão dos dados. Esta medida tem a vantagem
de variar entre -1 e 1, i.e. 1 < skGM < 1: Sob certas condições, skGM pode ser estimado
de forma consistente através da estatística
[ r m
skGM = P
n 1 nt=1 jrt mj
sendo m a mediana empírica. Outra medida robusta é o coeficiente de assimetria de Pearson,
E (r) q0:5
skP = :
Note-se, finalmente, que para as taxas de câmbio não há razão especial para esperar
sk > 0 ou sk < 0: Com efeito, suponha-se que St é a taxa de câmbio do Dólar/Euro e
rt = log (St =St 1 ) : Se a distribuição de rt é assimétrica negativa então a distribuição dos
retornos associados à taxa de câmbio do Euro/Dólar, 1=St (seja r~t esse retorno) é assimétrica
positiva, pois
1=St St
r~t = log = log = rt
1=St 1 St 1
(note-se: se x tem distribuição com assimetria negativa, x tem distribuição com assimetria
positiva). Assim a assimetria positiva ou negativa nas taxas de câmbio depende da forma
como a taxa de câmbio está definida (não podendo, portanto, inferir-se qualquer regularidade
empírica).
3.1.4 Retornos Apresentam Distribuições Leptocúrticas
O achatamento de uma distribuição é normalmente aferida através do coeficiente de achata-

mento k (também designado por kurtosis ou curtose). Diz-se que a distribuição f é mesocúr-
tica se k = 3; platicúrtica se k < 3 e leptocúrtica se k > 3: O valor de referência 3 é o
que resulta da distribuição normal (assim, a distribuição normal ou Gaussiana é mesocúr-
tica). Valores altos de k^ (acima de 3) indicam que certos valores da amostra se encontram
muitos afastados da média, comparativamente aos demais valores da amostra. Observe-se
37
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
1 2 3 4 5 6 7 8 9
Y1 Y2
Figura 3-1: Qual das duas séries tem kurtosis estimada mais alta?
que os desvios (rt r)4 são muito sensíveis aos valores extremos da amostra. Por exemplo,
^ Para ilustrar o impacto dos outliers no
a existência de outliers faz aumentar a estatística k:
^ considere-se a figura 3-1. Pode-se observar que variância da série y1
valor da estatística k;
é menor do que a da série y2 . No entanto, o valor k^ da série y2 é de apenas 1.5, ao passo
que o da série y1 é de 5.5. Os valores da série y2 não se encontram, em termos relativos,
muitos afastados da sua média. Já na série y1 há um valor que se destaca dos demais e que
^ Para compararmos graficamente duas séries é necessário
é responsável pelo valor alto de k.
estandardizá-las (isto é transformá-las em séries de média zero e variância 1). Continuando
o exemplo, considere-se agora as mesmas variáveis estandardizadas:
y1 y1 y2 y2
z1 = ; z2 = :
^ y1 ^ y2
Na figura 3-2 ambas as séries possuem a mesma variância, mas agora é claro o valor extremo
da série y1
Observa-se para a generalidade das séries financeiras que os retornos muitos altos e muito
baixos ocorrem com maior frequência do que seria de esperar se os retornos seguissem uma
distribuição normal. Uma forma de confirmar esta ideia consiste em comparar a estimativa
do coeficiente de kurtosis (curtose) dos retornos com o valor 3, que é o valor de kurtosis da
distribuição normal.
Na generalidade dos casos o coeficiente k estimado vem quase sempre (bastante) acima
de 3, o que sugere que a distribuição dos retornos (de cotações, índice, taxas de câmbio e
mesmo taxas de juro) é leptocúrtica. Nas figuras 3-3 e 3-4 (esta última é uma ampliação
da figura 3-3) mostra-se a diferença entre uma distribuição mesocúrtica (k = 3) e uma
38
3
-1
-2
1 2 3 4 5 6 7 8 9
Z1 Z2
Figura 3-2: Séries y1 e y2 estandardizadas (ver figura 3-1)
distribuição leptocúrtica (k > 3). A figura 3-4 mostra claramente por que razão a distribuição
leptocúrtica é também designada de “distribuição de caudas pesadas”. O ensaio H0 : k =
3 [y N ormal & y é i:i:d] pode ser conduzido pela estatística de teste
^
p k 3 d
Z1 = n p ! N (0; 1) :
24
Por exemplo, para a Microsoft (tabela 3.1) e sabendo que no período considerado se obser-
0.5
0.4
0.3 Normal
0.2 Leptoc.
0.1
0
-7 -4.5 -2 0.5 3 5.5
Figura 3-3: Comparação de duas densidades (normal vs. leptocúrtica)
varam 4415 dados diários (n = 4415) tem-se
p (6:8 3)
z1 = 4415 p = 51:54:
24
O valor-p é P (jZ1 j > 51:54) 0: Existe forte evidência contra H0 .
39
0.01
0.008
0.006 Normal
0.004 Leptoc.
0.002
0
-7 -4.5 -2 0.5 3 5.5
Figura 3-4: Ampliação da figura 3-3
Podemos também confirmar a existência de caudas pesadas calculando o rácio
P^ (jrt rj > 3^ )
: (3.1)
P (jZj > 3)
Se Z N (0; 1) então P (jZj > 3) = 0:0027: Esta é, aproximadamente, a probabilidade

associada a eventos extremos quando Z tem distribuição N (0; 1). Se a distribuição de rt
possuísse caudas normais deveríamos esperar que
P (jrt E (rt )j = > 3) ' P (jZj > 3)
(observe-se que (rt r) =^ são os retornos estandardizados) e, portanto, o rácio (3.1) deveria
ser aproximadamente igual a um. No entanto, a tabela 3.1 mostra que esse rácio tende a ser
significativamente superior a um. Isto sugere que os retornos muitos altos e muito baixos
tendem a ocorrer com maior frequência do que seria de esperar se a variável seguisse uma
distribuição normal.
Observação 3.1.1 Como estimar a probabilidade P (jrt E (rt )j = > 3)? Primeiro sub-
p
stituímos E (rt ) e = Var (rt ) pelas respectivas estimativas consistentes, r e : Depois,
calculamos a proporção de vezes (na amostra) em que ocorre jrt rj = > 3. Obtém-se
assim uma estimativa para P (jrt E (rt )j = > 3) : Em termos analíticos:
1X
n
P^ (jrt rj = > 3) = Ifjrt rj= >3g
n t=1
onde Ifjrt rj= >3g = 1 se ocorre jrt rj = > 3 e zero no caso contrário.
40
R Z
.2 20
.1 10 Bandas (-3,3)
.0 0
-.1 -10
-.2 -20
-.3 -30
30 40 50 60 70 80 90 00 10 30 40 50 60 70 80 90 00 10
Figura 3-5: Painel Esquerdo: retornos diários do Dow Jones no período 02/10/1928 a
3/02/2011 (20678 observações). Painel direito retornos estandardizados, zt = (rt r) =^
Apresenta-se a seguir mais um exemplo envolvendo o rácio (3.1). No painel esquerdo

da figura 3-5 apresentam-se os retornos diários do Dow Jones no período 02/10/1928 a
3/02/2011 (20678 observações). No painel direito da mesma figura apresentam-se os re-
tornos estandardizados juntamente com as rectas -3 e 3. Se os retornos seguissem uma
distribuição normal seria de esperar que zt = (rt r) =^ excedesse os limiares 3 e 3 em
cerca de 0.27% das vezes, tendo em conta, como já vimos, que P (jZj > 3) = 0:0027;
supondo Z N (0; 1). Ora, na verdade zt excede os limiares 3 e -3 em cerca de 1:73% das
observações (zt excede os limiares 359 vezes, em 20678 observações).
Tem-se assim
P^ (jrt rj > 3^ ) 0:017
= = 6:29
P (jZj > 3) 0:0027
Finalmente, podemos ainda testar a hipótese conjunta H0 : k = 3 & sk = 0 [assumindo
r N ormal & r é i:i:d] através da estatística de Bera-Jarque
0 2
1
^ 2
2 2 B k 3 c C d
sk 2
Z1 + Z2 = n @ + A ! (2)
24 6
Gráfico QQ-Plot
Outra forma de compararmos a distribuição normal com a distribuição dos retornos consiste
em analisar o gráfico QQ-plot. O gráfico QQ-plot é o gráfico dos pares ordenados
f(q ; q~ ) ; 2 (0; 1)g
41
8
Quantis Normal
0
-4
-8
-12
-12 -8 -4 0 4 8
Quantis retornos PSI20
Figura 3-6: QQ Plot (retornos do PSI20 normalizados)
onde q é o quantil de ordem da distribuição Z N (0; 1) (eventualmente outra) e q~ é o

quantil da distribuição empírica associada à variável estandardizada
rt r
xt = ;
isto é
q : P (Z < q ) = ; Z N (0; 1)
q~ : P~ (xt < q~ ) = ; xt :
Assim, se xt tem a mesma distribuição de Z; então q q~ e o gráfico f(q ; q~ ) ; 2 (0; 1)g

é uma recta de 45o . Se, pelo contrário, as distribuições de xt e Z são diferentes o grá-
fico afasta-se da recta de 45o (poderíamos também comparar a distribuição de xt com outra
qualquer). A figura 3-6 permite concluir que a distribuição dos retornos é leptocúrtica e as-
simétrica. O gráfico sugere, por exemplo, que P (Z < 3:9) ' P (xt < 8). A distribuição
é leptocúrtica pois o gráfico tem a forma de um “S” sobre a recta de 45o . A distribuição é
assimétrica porque o “S” não é simétrico sobre a recta de 45o .
42
r ^ c
sk k^
Retornos Diários
Frankfurt 0.00035 0.0123 -0.946 15.0
Hong Kong 0.00057 0.0169 -5.0 119.24
Londres 0.00041 0.0092 -1.59 27.4
Nova York 0.00049 0.0099 -4.30 99.68
Paris 0.00026 0.0120 -0.53 10.56
Tóquio 0.00005 0.0136 -0.213 14.798
Retornos Semanais
Frankfurt 0.00169 0.0264 -1.06 8.09
Hong Kong 0.00283 0.0370 -2.19 18.25
Londres 0.00207 0.0215 -1.478 15.54
Nova York 0.00246 0.0206 -1.37 11.25
Paris 0.0028 0.0284 -0.995 9.16
Tóquio 0.00025 0.0288 -0.398 4.897
Tabela 3.2: Índices Bolsistas (6-Jan-86 a 31-Dez-97)
3.1.5 Aumento da Frequência das Observações Acentua a Não Normal-

idade das Distribuições
Diz-se que a frequência das observações aumenta quando, se passa, por exemplo, de obser-
vações mensais para observações semanais ou destas para diárias. A tabela 3.2 mostra que o
coeficiente de kurtosis aumenta quando se passa de observações semanais para observações
diárias. Assim, a distribuição marginal dos retornos diários apresenta um maior afastamento
face à distribuição normal. É possível fazer um raciocínio inverso: a diminuição da frequên-
cia das observações (por exemplo, quando se passa de observações diárias para observações
semanais ou mensais) atenua o afastamento da distribuição dos retornos relativamente à dis-
tribuição normal. Uma possível explicação teórica para este facto é descrita a seguir.
Sejam P0 ; P1 ; P2 ; ::: os preços diários. Se a frequência de observações baixa, passamos
a observar P0 ; Ph ; P2h ; ::: sendo h um inteiro maior do que 1. Por exemplo, se passarmos
para dados semanais (h = 5) passamos a observar P0 ; P5 ; P10 ; ::: (imagine-se que t = 0 é
uma segunda-feira; passados 5 dias observa-se a segunda-feira seguinte que corresponde a
t = 5). Neste caso, os retornos semanais são:
log Ph log P0 ; log P2h log Ph ; ::: com h = 5

| {z } | {z }
retorno 1a semana retorno 2a semana
Para h geral, o primeiro retorno observado é r~1 = log Ph log P0 : Como os retornos contín-
43
uos são time-additive, resulta
X
h
r~1 (h) = log Ph log P0 = r1 + r2 + ::: + rh = ri
i=1
(ri são os retornos diários). Mesmo que ri não tenha distribuição normal, o retorno associa-
dos a uma frequência de observação mais baixa, r~ (h) ; tenderá a ter distribuição normal pelo
teorema do limite central. Com efeito, sob certas condições (relacionadas com a variância
de ri e a memória temporal de r) tem-se
Ph Ph
i=1 ri E i=1 ri d
r ! N (0; 1)
Ph
Var i=1 ri
quando h ! 13 . Para h suficientemente alto resulta4

! !!
X
h
a
X
h X
h
ri N E ri ; Var ri :
i=1 i=1 i=1
Assim, espera-se que a diminuição da frequência amostral atenue a não normalidade obser-
vada nas séries de retornos de alta frequência.
3.1.6 Efeitos de Calendário
Designamos “efeitos de calendário” quando a rendibilidade e/ou a volatilidade varia com

o calendário. Por exemplo, se certo título regista maior rendibilidade e/ou volatilidade às
segundas-feiras, temos um efeito de calendário (efeito dia da semana). Tem-se estudado a
forma como a rendibilidade e a volatilidade varia com o dia da semana, dia do mês, com o
mês do ano e com a proximidade dos feriados. Certos autores qualificam estes efeitos de
calendário como “anomalias”. Com efeito, se o mercado é “eficiente” todas as “anomalias”
depois de detectadas são rapidamente incorporadas nas decisões dos investidores e, tendem,
por isso, a desaparecer. Para ilustrar a ideia, suponha-se, por exemplo, que a rendibilidade
do título ABC tende a aumentar às 14h de todas as terças-feiras. Todos os investidores que
3
Ph Ph 2
Se for possível garantir que E i=1 ri = n E (ri ) e Var i=1 ri =h então este resultado pode
p d
escrever-se na forma habitual h (r E (ri )) = ! N (0; 1) (quando h ! 1):
4 d
Observe-se: zn ! N (0; 1) se no limite, quando n ! 1; z1 tem distribuição N (0; 1) : Assim, para n
a
razoavelmente alto, zn tem distribuição aproximadamente normal, i.e. zn N (0; 1) :
44
detectem essa anomalia vendem o título da empresa ABC às terças-feiras às 14h. Como
resultado o preço da empresa ABC tenderia a cair por volta dessa hora e a anomalia desa-
parecia. De uma forma geral, se os investidores são racionais e dispõem de toda a informação
passada sobre o mercado, as anomalias relacionadas com as rendibilidades dependentes do
calendário, tendem a desaparecer, logo que sejam detectadas. Na prática, subsistem certas
anomalias que não desaparecem mas que, em geral, não permitem obter rendibilidades anor-
mais, depois de deduzidos os custos de informação e transacção. Podem assim permanecer
no mercado “anomalias” ou “ineficiências” para as quais o benefício de explorar essas inefi-
ciências não compensa os custos adicionais associados.
Dia da Semana
À partida espera-se que os retornos à segunda-feira sejam um pouco mais altos face aos
demais dias da semana, pois a posse de títulos à segunda-feira representa um investimento
de 72 horas face à última sexta-feira, tendo em conta que o mercado fecha aos fins-de-
semana. Analiticamente observe-se que se o retorno diário rt tem média então, para um
investimento de 3 dias (de sexta a segunda-feira) o retorno associado, rt + rt+1 + rt+2 ;
deverá ter média 3 : Assim, o retorno à segunda feira deveria ser, em média, três vezes
superior ao retorno dos demais dias da semana. Taylor (2005) reporta vários estudos com
conclusões contraditórias (para certos títulos e para determinados períodos é possível que o
retorno à segunda-feira seja mais elevado, mas não se pode concluir em geral que o retorno
às segundas seja necessariamente superior ao dos demais dias da semana).
Por outro lado, um investimento a 3 dias deve ser mais volátil do que um investimento
2
a um dia. Se rt tem variância e frt g é uma sucessão de v.a. não autocorrelacionadas,
rt + rt+1 + rt+2 ; tem variância igual a 3 2 : Portanto, espera-se que às segundas feiras o
retorno apresente maior variabilidade. No entanto, argumenta-se que a (verdadeira) variância
2
associada aos retornos de segunda-feira não pode ser tão alta como o valor 3 sugere, pois
durante o fim-de-semana as notícias que movimentam o mercado (e produzem volatilidade)
são, em geral, escassas e pouco relevantes. De todo o modo, regista-se, para um número
considerável de activos, um aumento de volatilidade à segunda-feira.
A melhor forma de testar estes efeitos passa pela modelação ARCH (cap. 8). Uma forma
menos eficiente de testar estes efeitos consiste em calcular a média e a variância dos retornos
nos vários dias da semana. Por exemplo, para analisar se as médias dos retornos são iguais
45
nos vários dias da semana, faz-se a regressão,
rt = + 1 tert + 2 quat + 3 quit + 4 sext + ut (3.2)
onde ter; qua; etc. são variáveis dummy que assumem o valor um se t corresponde, respec-
tivamente, a uma terça-feira, quarta-feira, etc. (note-se que o “grupo base” é a segunda-
feira). Sendo o “grupo base” a segunda-feira, é a média do retorno à segunda feira
(E (rt j segt = 1) = ). Por outro lado, i, para i = 1; :::; 4 representam as diferenças da
média do retorno dos outros dias face à segunda-feira (por exemplo, se 3 = 0:01 então o
retorno médio à quinta-feira é igual a 0:01 e 3 representa a diferença face à segunda-
feira).
O ensaio H0 : 1 = 2 = ::: = 4 = 0 corresponde a testar a não existência de diferenças
nas médias dos retornos dos vários dias da semana. A estatística habitual para o caso em
análise (em que H0 estabelece a nulidade de todos os parâmetros com excepção do termo
constante) é
R2 = (k 1)
F =
(1 R2 ) =(n k)
onde k é o número de regressores (incluindo o termo constante) e R2 é o coeficiente de de-
terminação. Sob H0 (homocedasticidade e ausência de autocorrelação) a estatística F tem
distribuição F (k 1; n k). Na presença de heterocedasticidade, os teste t e F habitu-
ais são inválidos. Uma solução para este problema consiste na estimação da equação (3.2)
através dos modelos da família ARCH (veremos este aspecto no capítulo 8). Outra solução
passa pela utilização de erros padrão robustos (ou da estatística F robusta) contra a presença
de heterocedasticidade5 .
Em Taylor (2005) descrevem-se outras “anomalias” associadas ao calendário.
5 d ^
Erros padrão (de White) robustos contra heterocedasticidade obtêm-se a partir da matrix Var =
1 1
(X0 X) X0 WX (X0 X) ^21 ; :::; u
onde W é uma matriz diagonal com elementos u ^2n : A estatística ro-
0 1
busta, na versão do teste de Wald, para ensaiar H0 : R = r; é R ^ r d ^ R0
RVar R^ r ;e
2
tem distribuição assimptótica onde q é o numero de restrições. Nota sobre o programa EVIEWS (versão 6
(q)
e 7): a opção “White” em “Heteroskedasticity consistent coefficient covariance” que aparece depois de se se-
leccionar Quick/Estimate/Options fornece no output erros padrão robustos, mas não, infelizmente, a estatística
F robusta. É possível obter esta estatística robusta fazendo o seguinte: escolhe-se a opção “White” em “Het-
eroskedasticity consistent coefficient covariance” e estima-se o modelo. Em seguida realiza-se o teste Wald
seleccionando View/Coefficient Tests/Wald, introduzindo-se depois as restrições a ensaiar.
46
3.1.7 Distribuições Teóricas para os Retornos
Distribuição t-Student
É bem conhecida a distribuição t-Student com v graus de liberdade, t (v) : A fdp é
v+1
v+1
2 x2 2
f (x) = p v
1+ :
v 2
v
Como se sabe, se X t (v) ; então E (X) = 0; Var (X) = v= (v 2), sk = 0 e k =

3 + 6= (v 4) : Como k > 3 conclui-se que a distribuição t (v) tem caudas pesadas. Por
vezes tem interesse trabalhar com uma variável aleatória " com distribuição t-Student de
média zero mas variância igual a um. Se X t (v) a solução passa pela transformação
p
"=X (v 2) =v:
6
É fácil constatar que Var (") = 1; k" = kx = 3 + v 4
: Note-se que a fdp de " é
v+1
v+1
1 2 x2 2
g (x) = p v
1+ :
(v 2) 2
v 2
Quando mais baixo for o número de graus de liberdade mais pesadas são as caudas. No
caso v = 4 o momento de ordem 4 não existe e, portanto, também não existe o coeficiente
R
de kurtosis (quer dizer, neste caso, o integral impróprio R x4 g (x) dx não é finito porque a
expressão x4 g (x) não tende para zero com suficiente rapidez).
Mistura de Normais
2
Considere-se uma distribuição mistura de normais: 100% de N ( 1 ; 1) e (1 ) % de
2
N ( 2; 2) : Por exemplo, imagine-se que se faz uma extracção de números aleatórios da
seguinte forma: atira-se uma moeda ao ar. Se cair caras simula-se uma variável X1 com
2 2
distribuição N ( 1 ; 1) ; se cair coroas, simula-se X2 com distribuição N ( 2 ; 2) : De uma
forma geral, a variável X; que representa a mistura de normais, pode escrever-se da seguinte
forma:
X = U X1 + (1 U ) X2 ;
onde U tem distribuição de Bernoulli. Sejam f; fu e fxju respectivamente a fdp de X; a

função de probabilidade de U e a fdp condicional de X dado U = u: Para obter a fdp
47
0.010
f(x)
0.009
0.008
0.007
0.006
0.005
0.004
0.003
0.002
0.001
-8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8
x
Figura 3-7: Abas da t-Student (– v = 4:1; - - v = 5; v = 30)
P1
de X usa-se a expressão bem conhecida da estatística: f (x) = u=0 fxju (xju) fu (u). A
distribuição de X dado U = u é imediata, tendo em conta que uma soma de normais é ainda
uma normal:
XjU = u N (E (XjU = u) ; Var (XjU = u)) ;
onde
E (XjU = u) = u 1 + (1 u) 2
Var (XjU = u) = u2 2
1 + (1 u)2 2
1 + 2u (1 u) Cov (X1 ; X2 )
Assim, fxju (xju) é a função de densidade da normal de média E (XjU = u) e variância

Var (XjU = u). Desta forma,
f (x) = fxju (xj0) + (1 ) fxju (xj1) ; 0 1
2 2
sendo fxju (xj0) a fdp da distribuição N ( 1 ; 1) e fxju (xj1) a fdp da distribuição N ( 2 ; 2 ).
No exemplo da “moeda ao ar”, é 0.5. É interessante observar que uma mistura de normais
conduz a uma distribuição não normal. Em particular a mistura pode ser assimétrica e lep-
tocúrtica. Com efeito, pode-se mostrar que,
E (X) = 1 + (1 ) 2;
2 2 2
Var (X) = 1 + (1 ) 2 + (1 )( 1 2) ;
48
f(x) 1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
-5 -4 -3 -2 -1 0 1 2 3 4 5
x
Figura 3-8: Mistura de Normais
3 2 2 2
E (X E (X)) = (1 )( 1 2) (1 2 )( 1 2) + 3( 1 + 2) ;
)( 2 2
3 (1 2
1 2 )
k =3+ 2 2
> 3 supondo, para simplificar, que 1 = 2 = 0:
( 2 +(1
1 ) 2 )
Na figura 3-8 representa-se f (x) para = 0:5; 1 = 1; 2 = 1; 1 = 1=5; 2 = 5: A

fdp traçada é assimétrica e leptocúrtica.
Distribuição com Caudas de Pareto
A fdp de Pareto é
( +1)
g (y) = c y ; y > c:
À primeira vista pode parecer que esta distribuição não serve pois o nosso objectivo é mod-
elar os retornos e o espaço de estados desta variável é claramente R (os retornos podem as-
sumir qualquer valor em R). Ora, sucede que g apenas está definida para y > c (e, portanto,
não atribui probabilidades quando y < c). No entanto, o que procuramos neste momento
é caracterizar probabilisticamente os eventos extremos, i.e. os eventos que se encontram
bem afastados da média. Estamos, portanto, concentrados nas abas da distribuição e, para o
efeito, o que é relevante é o que se passa para y > c:
Diz-se que uma fdp f (y) tem distribuição com caudas de Pareto (mesmo que não seja
uma distribuição de Pareto) se
( +1)
f (y) Cy ; >0
49
0.07
fdp
0.06
0.05
0.04
0.03
0.02
0.01
0.00
2.0 2.5 3.0 3.5 4.0 4.5 5.0
y
Figura 3-9: Cauda de Pareto vs. Cauda Gaussiana
(C é uma constante). O sinal “ ” significa aqui que
( +1)
lim f (y) =Cy = 1:
y!1
Esta última equação diz-nos que para valores grandes de y, f (y) é “praticamente igual” a
( +1)
Cy (no limite é igual). Para valores “pequenos” de y, f (y) pode ser completamente
( +1)
diferente de Cy : A similaridade está nas caudas, quando y ! 1 (existem definições
mais gerais, baseadas em funções slowly varying at 1). Pode-se concluir que f (y) tem um
decaimento polinomial para zero (decaimento lento para zero) e, portanto, caudas pesadas. Já
a distribuição normal tem um decaimento exponencial (recorde-se que no caso Gaussiano,
f (y) = C exp f y 2 =2g) e a fdp tende para zero muito rapidamente quando y tende para
1. A figura 3-9 compara uma cauda Gaussiana com uma cauda de Pareto.
( +1)
Uma vez que a fdp com caudas pesadas do tipo f (y) Cy não tende rapidamente
para zero, certos valores esperados podem não existir. De facto, se < k então os momentos
de ordem igual ou superior a k não existem. Com efeito, seja D o espaço de estados de yt
50
(valores que y pode assumir). Para um certo c 2 D e c > 0; vem:
Z
k
E jyt j = jyjk f (y) dy
ZD1
jyjk f (y) dy
Zc 1
= jyjk Cy ( +1)
dy
c
Z 1
1+k
= C jyj dy = 1
c
se 1+k > 1; ou seja, se < k: Por exemplo, Var (yt ) não existe se < 2:
( +1)
Estimador de Hill Suponha-se f (y) Cy : Como estimar ? Antes de propormos
um estimador para ; admita-se um cenário mais simples: f (y) tem distribuição (exacta) de
Pareto, y P areto (c; ) ; ou seja
c
f (y) = +1
; y > c:
y
Assuma-se que fyt ; t = 1; 2; :::; ng é uma sucessão de v.a. i.i.d. com distribuição de P areto ( ; c) :
A função de log-verosimilhança corresponde à expressão
X
n X
n
log L ( ; c) = log f (yt ) = n log ( ) + n log (c) ( + 1) log (yt ) :
t=1 t=1
Diferenciando log L com respeito a e igualando a zero obtém-se
n
^ = Pn : (3.3)
t=1 log (yt =c)
p d
^ n é maximizante, pois @ 2 log L=@ 2 = n= 2
< 0: Tem-se ainda n (^ n ) !
1
N 0; I ( ) onde
@ 2 log f (yt ) 1
I( 0) = E = :
@ 2 2
O estimador de máxima verosimilhança de c é c^ = mint=1;:::;n fyt g6

( +1)
Retome-se agora a hipótese f (y) Cy : Se uma distribuição tem caudas de Pareto,
mas não é uma distribuição de Pareto, então o estimador para acima apresentado não pode
6
Embora a derivada da função log L (c; ) com respeito a c não se anule (verifique), pode-se concluir que no
intervalo de valores admissíveis de c, isto é, c mint=1;:::;n fyt g ; a função log L (fixado ) atinge o máximo
em c^ = mint=1;:::;n fyt g :
51
ser utilizado. Nestas circunstâncias, se estamos apenas interessados em estimar o índice
de cauda (supondo que y tem distribuição com caudas de Pareto, mas não segue essa dis-
tribuição), devemos aparar a amostra fyt ; t = 1; 2; :::; ng ; por exemplo, considerando apenas
os dados yt tais que yt > q (onde q pode ser interpretado como um quantil de y; geralmente
um quantil de ordem superior a 0.95). Analisa-se, portanto, o comportamento de y apenas
para os valores muitos altos (ou muito baixos) de y.
O estimador de ; designado por estimador de Hill, para a aba direita da distribuição é
n (q) X
n
^ (q) = Pn ; n (q) = Ifyt >qg (3.4)
t=1 log (yt =q) Ifyt >qg t=1
onde Ifyt >qg = 1 se yt > q e Ifyt >qg = 0 no caso contrário. Pode-se pensar neste estimador
como se fosse o estimador (3.3), mas aplicado apenas aos valores da amostra que verificam
yt > q:
O estimador de para a aba esquerda da distribuição é o que resulta da equação (3.4) de-
pois de se substituir Ifyt >qg por Ifyt <qg , sendo q agora um quantil de ordem 0.05 ou inferior.
Pode-se mostrar
p d 2
n (q) (^ (q) (q)) ! N 0; ;
2
quando n ! 1, n (q) ! 1 e n (q) =n ! 0: Observe-se Var (^ (q)) = =n (q) : Como
é desconhecido podemos tomar como estimador de Var (^ (q)) a expressão ^ 2 =n (q) : Estes
resultados assimptóticos são obtidos num contexto i.i.d. Kearns e Pagan (1997) mostram
todavia que a variância assimptótica de ^ aumenta consideravelmente na presença de de-
pendência.
Exemplo 3.1.1 Resulta do quadro seguinte que ^ (0:01) = 3=5:193 = 0:577

yt Ifyt >0:01g log (yt =0:01) Ifyt >0:01g
-0.110 0 0
0.090 1 2.197
0.100 1 2.303
-0.100 0 0
0.020 1 0.693
0.005 0 0
P
3 5.193
Qual é o valor do threshold q que devemos escolher? Temos um dilema de enviesamento
52
versus variância:
se q é alto a estimação de ^ (q) é baseada em poucas observações, i.e., n (q) é baixo,

2
pelo que a variância de ^ (q) é alta (observe-se Var (^ (q)) = =n (q));
( +1)
se q é baixo, perde-se a hipótese f (y) Cy e, como consequência, o estimador
^ (q) é enviesado e mesmo inconsistente (recorde-se que ^ (q) é baseado na hipótese
( +1)
f (y) Cy ).
Exemplo 3.1.2 Na tabela seguinte apresentam-se estimativas do índice da cauda de re-

tornos bolsistas sectoriais do mercado norte-americano no período 03/1/1994 a 21/01/2011
(4292 observações).
Aba Esquerda Aba Direita
^ (q0:0:025 ) ^ (q0:975 ) Retorno Volat. Skew. Kurt.
no obs. efect. usadas: 108 108 Anualiz. Anualiz.
Petróleo e Gás 2.29 3.16 9.45% 25.79% -0.25 13.98

Matérias-Primas 2.81 3.15 6.77% 25.90% -0.29 10.32
Indústria 2.91 3.00 7.42% 21.90% -0.25 8.441
Consumo (bens) 3.37 2.93 2.34% 19.82% -0.15 9.025
Saúde 2.90 3.52 7.12% 17.29% -0.08 11.44
Comunicações 3.10 3.26 1.37% 22.31% 0.09 9.962
Utilities 3.06 2.78 1.86% 19.10% 0.04 14.19
Financeiras 2.68 2.37 5.02% 29.02% -0.10 15.58
Tecnologia 3.77 3.07 9.42% 30.44% 0.16 7.065
Fonte: Datastream
Algumas conclusões podem ser retiradas:
Em todos os casos é razoável admitir que a variância existe. Os momentos de ordem

4 podem não existir.
Os índices de cauda estimados são relativamente baixos o que sugere que existe uma
massa de probabilidade considerável associada a valores extremos na amostra.
53
Figura 3-10: Estimativa da fdp dos retornos do DowJones no período Out/1988-Jan/2010 e
fdp normal de média e variância estimadas a partir dos retornos
3.1.8 Estimação Não Paramétrica da Função Densidade de Probabili-

dade
A forma mais simples de estimar f (x) consiste em obter o histograma das frequências relati-
vas. Existem, no entanto, estimadores preferíveis. Uma estimativa não paramétrica de f (x)
pode ser dada por
1 X
n
x xi
f^ (x) = K
nh i=1 h
onde K (u) é uma fdp (ver detalhes no ponto 10.2). Sob certas condições, incluindo h !
p
0; n ! 1; nh ! 1 pode-se provar f^ (x) ! f (x) : Na figura 3-10 apresenta-se uma es-
timativa não paramétrica da fdp marginal dos retornos do Dow Jones no período Out/1988-
Jan/2010 (na verdade, estão representadas várias estimativas: f (x1 ) ; f (x2 ) ; :::; f (xk ) ;
sendo fxk g uma sucessão de valores igualmente espaçado no intervalo ( 0:07; 0:06) - veja-
se o eixo das abcissas da figura 3-10). Na figura representa-se também a fdp da N r; ^ 2
onde r e ^ 2 são as estimativas dos dois primeiros momentos dos retornos do Dow Jones no
período considerado.
Comparando f^ com a densidade normal, conclui-se que f^ atribui maior massa de prob-
abilidade na vizinhança da média empírica e nos intervalos associados aos valores extremos
da amostra, e atribui reduzida massa de probabilidade no intervalo dos valores moderados da
54
amostra, digamos no intervalo ( 0:03; 0:01) e (0:01; 0:03).
3.2 Regularidade Empíricas relacionadas com a Distribuição

Condicional
Neste ponto discutimos regularidades que envolvem especificações dinâmicas relacionadas
com a distribuição condicional dos retornos ou de uma função dos retornos (por exemplo,
veremos como o retorno depende dos seus valores passados, ou como o quadrado dos re-
tornos depende do quadrado dos retornos passados, entre outras especificações).
3.2.1 Autocorrelações Lineares Baixas entre os Retornos
A correlação entre as variáveis X e Y é dada por
Cov (X; Y )
=p ; 1 1:
Var (X) Var (Y )
O coeficiente mede o grau de associação linear entre Y e X. Quanto mais alto for j j maior
é a relação entre X e Y: Podemos também medir a associação linear entre yt e yt 1 ou entre
yt e yt 2 etc.
Cov (yt ; yt s )
s =p
Var (yt ) Var (yt s )
Como s pode ser visto como uma função de s; s é designado por função de autocorrelação
(FAC) (ou ACF em inglês). Se assumirmos Var (yt ) = Var (yt s ) vem
Cov (yt ; yt s ) Cov (yt ; yt s ) Cov (yt ; yt s )

s =p = q = .
Var (yt ) Var (yt s ) Var (yt )
(Var (yt ))2
Pelo método dos momentos, a estimação de s pode fazer-se através do estimador
1
Pn
n s t=s+1 (yt y) (yt s y)
^s = Pn .
1
n t=1 (yt y)2
O coeficiente s pode ser também obtido no contexto do modelo de (auto)regressão
yt = c + s yt s + ut
55
Figura 3-11: Funções de autocorrelação dos retornos diários (Microsoft 1986-2006)
onde se admite que fut g é uma sucessão de v.a. independentes e E (ut j yt s ) = 0. O rácio-t
associado à estimativa de s permite ensaiar H0 : s = 0: Em alternativa temos os seguintes
testes standard válidos sob a hipótese i.i.d.
Teste Kendal e Stuart H0 : k =0
p d 1 1
n (^k + 1=n) ! N (0; 1) ; ^k N ;p
n n
p
Rejeita-se H0 ao n.s. de (aprox.) 5% se j^k j > 2= n (supondo 1=n 0).
Teste Ljung-Box H0 : 1 = ::: = m =0
X
m
1 d
Qm = n (n + 2) ^2k ! 2
(m)
k=1
n k
Em geral os coeficientes de autocorrelação dos retornos são baixos. Na figura 3-11 as

estimativas da FAC dos retornos diários da Microsoft 1986 a 2006 são relativamente baixas.
Imagine-se uma situação hipotética em que se tem um coeficiente de correlação nega-
tivo e alto (em módulo), por exemplo, 1 = 0:9; para dados diários. Suponha-se ainda,
para simplificar a análise, que E (rt ) = 0. Se o retorno hoje é positivo, amanhã o retorno
tenderá a ser negativo e vice-versa. Nestas circunstâncias, se o retorno hoje é alto vende-se
56
hoje e compra-se amanhã. Existe, portanto, uma forte possibilidade de ganho (arbitragem)
com base na observação passada dos preços. Se outros participantes do mercado compram
e vendem com base neste padrão de autocorrelação, o processo de arbitragem reduzirá rapi-
damente a correlação (se o retorno hoje é alto e positivo muitos participantes vendem hoje e
compram amanhã; como consequência o preço tenderá a diminuir hoje e aumentar amanhã
e a correlação tenderá a esbater-se). Portanto, não é credível, supor-se 1 = 0:9:
Retome-se a figura 3-11. A coluna Q-Stat fornece os valores de Qm para m = 1; :::; 20:
Fixe-se por exemplo, m = 20: Tem-se Q20 = 36:613: O valor-p associado é zero, isto é,
P (Q20 > 36:613) = 0:013: Logo existe evidência contra a hipótese nula H0 : 1 = ::: =
20 = 0: Esta conclusão parece contraditória com a ideia de baixas autocorrelações dos

retornos. No entanto, é preciso observar o seguinte:
em amostras muito grandes, como é aquela que analisamos, qualquer pequeno desvio
face à hipótese nula implica a sua rejeição;
os coeficientes estimados embora (pareçam) estatisticamente significativos estão, ainda

assim, muito perto de zero e não oferecem informação suficiente para realizar mais-
valias anormais (depois de deduzidos os custos de transacção e informação);
os testes foram utilizados sob a hipótese irrealista de os retornos serem i.i.d. Esta su-
posição não é válida sobretudo devido à presença de heterocedasticidade condicionada.
Uma forma de mitigar a presença de heterocedasticidade consiste em estandardizar os

retornos,
rt r
rt =
^t
onde ^ t é uma estimativa da volatilidade no momento t (rt pode ser encarado como os “re-
tornos” expurgados de heterocedasticidade). Como obter ^ t ? Discutiremos esta questão com
alguma profundidade no capítulo 8. É suficiente agora usar uma especificação relativamente
simples (mas “subóptima”):
^ 2t = (1 ) rt2 1 + ^ 2t 1 ; = 0:96
Na figura 3-12 apresentam-se os coeficientes de autocorrelação de rt : Observa-se que os co-

eficientes de autocorrelação continuam muitos baixos mas agora não existe evidência contra
a a hipótese 1 = ::: = 20 = 0:
57
Figura 3-12: Funções de autocorrelação dos retornos diários estandardizados (Microsoft
1986-2006)
Séries macroeconómicas geralmente exibem moderada ou forte autocorrelação. Veja-se,

por exemplo, a figura 3-13 onde se representa a FAC de yt = log (GN Pt =GN Pt 1 ) sendo
GNP (Gross National Product) o PIB dos EUA (dados trimestrais de 1947 a 2003).
3.2.2 Volatility Clustering
Já vimos que valores muitos altos e muito baixos ocorrem frequentemente (com maior fre-
quência do que seria de esperar se as variáveis seguissem uma distribuição normal). Este
valores extremos não ocorrem isoladamente: tendem a ocorrer de forma seguida (volatility
clustering). Na figura 3-14 representam-se os retornos diários associados ao índice Dow
Jones (1926-2006). Na figura 3-15 apresentam-se os mesmos retornos mas agora dispostos
por ordem aleatória no tempo. Algumas estatísticas destas duas sucessões são obviamente
iguais (média, desvio padrão, coeficientes de assimetria e de achatamento). No entanto ex-
istem diferenças significativas. Só no verdadeiro cronograma (figura 3-14) aparece uma
das propriedades mais importantes dos retornos: fortes (baixas) variações são normalmente
seguidas de fortes (baixas) variações em ambos os sentidos (volatility clustering)
Se fortes (baixas) variações são normalmente seguidas de fortes (baixas) variações em
58
Figura 3-13: Funções de autocorrelação de yt = log (GN Pt =GN Pt 1 ) onde GNP é o PIB
dos EUA (dados trimestrais de 1947 a 2003).
0.2
0.15
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
-0.25
-0.3
Oct-28
Dec-35
Jul-39
Nov-53
Jun-57
Jan-61
Mar-68
Oct-71
Dec-78
Jul-82
Nov-96
Jun-00
Jan-04
May-32
Feb-43
May-75
Feb-86
Sep-46
Sep-89
Apr-50
Apr-93
Aug-64
Figura 3-14: Retornos diários do Dow Jones (1928-2006)
0.2
0.15
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
-0.25
-0.3
Figura 3-15: Retornos diários do Dow Jones dispostos por ordem aleatória
59
Figura 3-16: Funções de autocorrelação dos quadrados dos retornos (Dow JOnes)
ambos os sentidos, então rt2 deve estar correlacionado7 com rt2 i (i = 1; 2; :::).
A figura 3-16, onde se apresentam as funções de autocorrelação de rt2 ; onde r é o retorno
associado ao índice Dow Jones, confirma esta ideia.
Nesta secção identifica-se o quadrado do retorno com a volatilidade. Não é inteiramente
correcta esta analogia, embora seja admissível associar-se momentos de grande (baixa) volatil-
idade a valores altos (baixos) de rt2 : De qualquer forma, a principal conclusão mantém-se:
fortes (baixas) variações são normalmente seguidas de fortes (baixas) variações em ambos
os sentidos e identificamos este fenómeno como volatility clustering.
3.2.3 Forte Dependência Temporal da Volatilidade
Nos pontos precedentes observámos o seguinte: (1) valores muitos altos e muito baixos
ocorrem frequentemente e (2) estes valores extremos aparecem de forma seguida (volatility
clustering). Neste ponto reforça-se a ideia de volatility clustering: não só os valores extremos
tendem a aparecer de forma seguida como também há alguma persistência neste fenómeno.
7
Esta correlação poderia, em princípio, dever-se à presença de uma média condicional não constante. Por
exemplo, se rt seguisse um MA(1), rt = rt 1 + ut ; onde ut é um ruído branco, então, por construção,
ter-se-ia Corr rt2 ; rt2 1 > 0: Se fosse este o caso, a melhor forma de continuarmos com o nosso argumento
seria centrar rt ; usando a média condicional, i.e. tomaríamos r~t = rt ~t2 ; r~t2 1 = 0 se
t : Viria agora Corr r
2 2
rt fosse genuinamente um MA(1); no caso contrário, se Corr r~t ; r~t 1 > 0; teríamos evidência em favor do
nosso argumento. Todavia, a centragem r~t = rt t é desnecessária, pois em séries financeiras de acções ou
de índices de acções a média condicional é, geralmente, aproximadamente igual a uma constante.
60
0.2
0.15
0.1
0.05
-0.05
-0.1
-0.15
Oct-28
Oct-33
Oct-38
Oct-43
Oct-48
Oct-53
Oct-58
Oct-63
Oct-68
Oct-73
Oct-78
Oct-83
Oct-88
Oct-93
Oct-98
Oct-03
Apr-31
Apr-36
Apr-41
Apr-46
Apr-51
Apr-56
Apr-61
Apr-66
Apr-71
Apr-76
Apr-81
Apr-86
Apr-91
Apr-96
Apr-01
Figura 3-17: Retornos diários do Dow Jones (Jan-1928 a Fev-2006)
Isto é, se a volatilidade é alta (baixa), então é razoável esperar que a volatilidade se mantenha
alta (baixa) durante bastante tempo. Na figura 3-17 apresentam-se os retornos diários do Dow
Jones no período Janeiro de 1928 a Fevereiro de 2006. Estão identificados alguns períodos
de grande volatilidade. Estes períodos prolongam-se por vários anos!
Para confirmarmos a ideia de forte dependência temporal da volatilidade deveríamos
calcular a FAC da volatilidade. Como a estimação da volatilidade cabe num capítulo poste-
rior, tomamos agora como proxy da volatilidade o valor absoluto dos retornos jrt j (também
poderíamos considerar rt2 ; como fizemos no ponto precedente). Calcule-se, assim, a FAC
associado aos valores absolutos dos retornos do Dow Jones no período acima considerado.
A figura 3-18 mostra que a FAC de jrt j apresenta um decaimento lento para zero, sugerindo
forte dependência temporal da volatilidade. É interessante observar que a autocorrelação en-
tre, por exemplo, jrt j e jrt 500 j se situe ainda próximo de 0.1 (observe-se que o desfasamento
corresponde aproximadamente a dois anos).
Para processos ARMA e processos de Markov em geral, o decaimento da FAC é do tipo
j kj Cak ; 0 < C < 1; 0 < a < 1.
Tem-se, portanto, um decaimento exponencial8 . A figura 3-18 não sugere um decaimento

exponencial; sugere antes um decaimento hiperbólico da FAC que é uma característica de
8
Pode parecer estranho dizer-se que a função Cak apresenta um decaimento exponencial para 0 < C < 1 e
k
0 < a < 1: Mas observe-se, para C = 1 (simplificando), que ak = elog a = ek log a e tem-se assim um
decaimento exponencial, em função de k; dado que log a < 0:
61
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
1 76 151 226 301 376 451 526 601 676 751 826 901 976
Figura 3-18: FAC de jrt j onde rt é o retorno diário do Dow Jones (Jan. 1928 a Fev. 2006)
1.0
Rho
0.8
0.6
0.4
0.2
0.0
0 10 20 30 40 50 60 70 80 90 100
k
Figura 3-19: Decaimento Exponencial (0:9k ) vs. Hiperbólico (k 0:5

)
processos de memória longa. Concretamente, um decaimento hiperbólico da FAC é do tipo
j kj C jkj ; >0
Por exemplo, com k = 1=k ( = 1) tem-se um decaimento hiperbólico (veja-se a figura

3-19).
3.2.4 Efeito Assimétrico
Tem-se observado existir alguma correlação entre a volatilidade e a ocorrência de perdas

significativas nos mercados de capitais. Designa-se esta relação por efeito assimétrico (ou
leverage effect).
Concretamente, quando rt 1 < 0 espera-se, em média, um aumento de volatilidade para
o período seguinte. Se tomarmos como proxy da volatilidade a variável jrt j ou rt2 devemos
62
Índices Bolsistas d (rt 1 ; rt2 )
Corr
Amesterdão -0.049
Frankfurt -0.095
Hong Kong -0.081
Nova York -0.199
Taxas de Câmbio
Libra Britânica 0.074
Dólar Canadiano 0.041
Yen -0.008
Franco Suíço 0.014
Tabela 3.3: Efeito Assimétrico
esperar que Corr (rt 1 ; jrt j) < 0 ou Corr (rt 1 ; rt2 ) < 0: A tabela 3.3 parece confirmar a
existência de um efeito assimétrico apenas para índices bolsistas (e, por extensão, também
para cotações de acções) mas não para taxas de câmbio (a justificação pode ver-se no ponto
3.1.3).
Veremos no capítulo 8 uma forma bastante mais eficiente de estimar o efeito assimétrico
e de testar se os coeficientes são ou não estatisticamente significativos. Não obstante, uma
forma expedita de verificar se os coeficientes são estatisticamente significativos consiste em
fazer a regressão de rt2 sobre rt 1 ,
rt2 = 0 + 1 rt 1 + ut (3.5)
e depois ensaiar H0 : 1 = 0 contra H1 : 1 < 0. Com efeito, na equação anterior, 1
representa 1 = Cov (rt 1 ; rt2 ) = Var (rt 1 ) : Desta forma, 1 < 0 implica Corr (rt 1 ; rt2 ) <
0.
Como a heterocedasticidade está invariavelmente presente nas séries temporais finan-
ceiras, convém empregar erros padrão robustos contra heterocedasticidade (uma possibili-
dade neste sentido é a utilização da matriz de White). Recorda-se que, sob condições gerais,
a heterocedasticidade não afecta a consistência do estimador OLS (afecta sim, como vimos,
os erros padrão).
O efeito assimétrico é, por vezes identificado como leverage effect depois de Black em
1976 ter notado que a volatilidade aumenta quando o mercado cai e o rácio de endividamento
(leverage ratio) aumenta. No entanto, vários autores têm salientado que o leverage é muito
reduzido quando comparado com o efeito assimétrico. Várias explicações têm sido propostas
para o efeito assimétrico.
63
Uma explicação designada por volatility feedback effect baseia-se na seguinte ideia.
Quando a volatilidade de uma activo aumenta, o risco agrava-se, e a rendibilidade
exigida para esse activo aumenta. Isto significa que o activo é menos atractivo e,
portanto, a sua procura diminui, fazendo cair o respectivo preço. Esta explicação pres-
supõe que o aumento da volatilidade precede a queda do preço (isto é, esquematica-
2
mente, " t 1 )# Pt , podendo t aqui ter uma interpretação intra-diária). Contudo, o
2
facto estilizado envolve a implicação contrária, # Pt 1 )" t (a diminuição do preço
é que precede o aumento da volatilidade).
Outra explicação sustenta que o efeito assimétrico deve-se à existência de investidores

naives (uninformed traders) que vendem os seus títulos quando o mercado está cair.
Este comportamento conduz não só a uma queda mais acentuada do preço como tam-
bém a um aumento de volatilidade.
Outra possibilidade é a seguinte. A diminuição do preço aumenta o risco de mercado

(dado que o centro de gravidade da distribuição condicional dos retornos de desloca
para a esquerda). O aumento do risco obriga a ajustamentos imediatos no portfolio
(através de compras e vendas de activos que façam a cobertura do risco perdido). Este
acréscimo da actividade nos mercados financeiros aumenta a volatilidade. Já variações
positivas nos preços não têm o mesmo impacto sobre o risco e, como tal, ajustamentos
no portfolio não são prementes.
3.2.5 Aumento da Frequência das Observações Acentua a Não Lineari-

dade
Vários estudos indicam que os coeficientes de autocorrelações de rt2 e de jrt j tendem a au-
mentar com o aumento da frequência das observações.
3.2.6 Co-Movimentos de Rendibilidade e Volatilidade
Ao se analisarem duas ou mais séries financeiras de retornos ao longo do tempo, geralmente

observam-se co-movimentos de rendibilidade e volatilidade, isto é, quando a rendibilidade
e a volatilidade de uma série aumenta (diminui), a rendibilidade e a volatilidade das outras
tende, em geral, a aumentar (diminuir). Estas características são relativamente evidentes nas
figuras 3-20 e 3-21. A figura 3-20 mostra que os índices sobem e descem em sintonia (co-
64
CAC DAX
7000 9000
8000
6000
7000
5000
6000
4000 5000
4000
3000
3000
2000
2000
1000 1000
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
DJ EURO STOXX 50 FTSE 100

6000 7000
5000 6000
4000 5000
3000 4000
2000 3000
1000 2000
0 1000
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
PSI20 S&P 500

16000 1600
14000 1400
12000 1200
10000 1000
8000 800
6000 600
4000 400
2000 200
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
Figura 3-20: Índices Bolsistas
CAC DAX DJ EURO 50 FTSE 100 PSI 20 S&P 500

CAC 1
DAX 0.78 1
DJ EURO 50 0.92 0.89 1
FTSE 100 0.79 0.70 0.81 1
PSI 20 0.52 0.50 0.57 0.47 1
S&P 500 0.43 0.47 0.46 0.41 0.25 1
Tabela 3.4: Matriz de correlações dos retornos diários (Jan 90-Nov 06)
movimento de rendibilidade). A tabela 3.4, onde se apresentam os coeficientes de correlação

(marginal) dos retornos diários, corrobora o co-movimento de rendibilidade. A figura 3-21
mostra que os períodos de alta e baixa volatilidade são aproximadamente coincidentes (co-
movimento de volatilidade). A tabela 3.5, onde se apresentam os coeficientes de correlação
(marginal) dos retornos ao quadrado, corrobora o co-movimento de volatilidade.
65
CAC DAX
.08 .08
.04
.04
.00
.00
-.04
-.04
-.08
-.08 -.12
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
DJ EURO STOXX 50 FTSE 100

.08 .06
.04
.04
.02
.00 .00
-.02
-.04
-.04
-.08 -.06
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
PSI20 S&P 500

.08 .06
.04
.04
.02
.00
.00
-.02
-.04
-.04
-.08
-.06
-.12 -.08
1990 1992 1994 1996 1998 2000 2002 2004 2006 1990 1992 1994 1996 1998 2000 2002 2004 2006
Figura 3-21: Retornos de Índices
CAC DAX DJ EURO 50 FTSE 100 PSI 20 S&P 500

CAC 1
DAX 0.74 1
DJ EURO 50 0.91 0.85 1
FTSE 100 0.77 0.66 0.78 1
PSI 20 0.39 0.39 0.43 0.30 1
S&P 500 0.38 0.44 0.41 0.35 0.21 1
Tabela 3.5: Matriz de correlações dos retornos diários ao quadrado (Jan 90-Nov 06)
66
Capítulo 4
Processos Estocásticos: Revisões
4.1 Processo Estocástico e Filtração

Um processo estocástico é um modelo matemático para descrever, em cada momento, de-
pois de um instante inicial, um fenómeno aleatório. Este fenómeno é definido num es-
paço de probabilidade ( ; F; P ), onde, é o conjunto de todos os estados da natureza
(ou cenários de mercado), F é uma -álgebra de subconjuntos de e P é uma proba-
bilidade sobre F. Um processo estocástico é então uma colecção de variáveis aleatórias
y = fyt (!) ; t 2 Z; ! 2 g ; definidas sobre um espaço de probabilidade ( ; F; P ) : Para
cada t; yt ( ) é uma variável aleatória. Para cada ! 2 (cenário) fixo, y (!) é uma tra-
jectória ou realização do processo. Para simplificar escreve-se yt em lugar de yt (!). A
observação de um fenómeno ao longo do tempo conduz normalmente à observação de uma
particular trajectória do processo. Uma sucessão cronológica é apenas uma trajectória entre
as infinitas possíveis.
F tem estrutura de -álgebra no seguinte sentido: (i) se A 2 F ) Ac 2 F; (ii) se
S
Ai 2 F ) A 2 F; (iii) ; ; 2 F: O estudo dos processos estocásticos faz-se, usual-
i
mente, incluindo o conceito de -álgebra: Por um lado, as probabilidades são definidas so-
bre -álgebras e as variáveis aleatórias, assume-se, são mensuráveis com respeito a essas
-álgebras:
Existe, no entanto, uma razão não técnica para incluir o estudo das -álgebras no estudo
dos processos estocásticos: os processos estocásticos, ao descreverem a evolução estocástica
de um fenómeno ao longo do tempo, sugerem que, em cada momento t = 0, é possível
67
falar de um ”passado”, ”presente” e ”futuro”. Um observador do fenómeno, pode falar da
”história” do processo, daquilo que observa no presente e daquilo que poderá observar no
futuro. Com vista, a caracterizar o quanto se sabe sobre o processo, é usual, equipar o
espaço ( ; F; P ) com uma filtração, i.e., uma família fFt ; t = 0g de sub -álgebras de F:
Fs Ft F para 0 5 s < t < 1:
Ft = (ys ; s t) pode ser identificado como a “história” do processo y até ao momento
t: Certos autores, para simplificar, escrevem
Ft = fyt ; yt 1 ; :::; y1 g ou Ft = fyt ; yt 1 ; :::g :
4.2 Valores Esperados Condicionais: Principais Resulta-

dos
Começamos com um resultado trivial: E (yt j Ft ) = yt : Com efeito, yt pertence ao conjunto
Ft 1 (também se diz, yt é mensurável com respeito a Ft ), logo yt pode ser tratado como uma
constante dado Ft .
Proposição 4.2.1 Suponha-se que Y é uma v.a. tal que E (jY j) < 1; Z é uma v.a. mensu-
rável com respeito a G e E (jZY j) < 1 então com probabilidade um tem-se
E (ZY j G) = Z E (Y j G) :
Exemplo 4.2.1 Considere-se yt = xt yt 1 +ut ; onde fut g é uma sucessão v.a. i.i.d. de média
nula. Suponha-se Ft = (xs ; ys ; s t) : Então
E (yt j Ft 1 ) = E (xt yt 1 j Ft 1 ) = yt 1 E (xt j Ft 1 ) :
Note-se que yt 1 é mensurável com respeito a Ft 1 mas xt não (Ft 1 “desconhece” os

acontecimentos ocorridos em t).
Exemplo 4.2.2 No âmbito da estatística clássica também se sabe que
E (XY j X = x) = x E (Y j X = x) .
1
Em termos técnicos, o evento (ou cenário de mercado) ! 2 que determinou yt é que pertence a Ft .
Para simplificar, assume-se Ft = fyt ; yt 1 ; :::; y1 g ou Ft = fyt ; yt 1 ; :::g e, neste caso, já pode-se dizer “yt
pertence a Ft ”:
68
Com efeito,
Z Z
E (XY j X = x) = xyfyjx (yj x) dy = x yfyjx (yj x) dy = x E (Y j X = x) :
Proposição 4.2.2 Seja g : R ! R uma função convexa num intervalo B R e Y uma v.a.
tal que P (Y 2 B) = 1: Se E (jY j) < 1 e E (jg (Y )j) < 1 então
E (g (y)j G) g (E (yj G)) :
Se g é côncava então
E (g (Y )j G) g (E (Y j G)) : (4.1)
Dem. (esboço) Prove-se E (g (y)) g (E (y)) e suponha-se (para simplificar) que g 0 é

continua em B. Como g é convexa e g 0 é continua, tem-se
g (x) g (a) + g 0 (a) (x a) ; 8x; a 2 B:
Escolha-se para a a constante E (Y ) ; onde Y uma v.a. tal que P (Y 2 B) = 1: Resulta,
g (x) g (E (Y )) + g 0 (E (Y )) (x E (Y ))
ou
g (Y ) g (E (Y )) + g 0 (E (Y )) (Y E (Y )) :
Como o lado direito da desigualdade é uma função linear em Y (g (E (Y )), g 0 (E (Y )) e

E (Y ) são constantes), tem-se, aplicando o operador de valor esperado a ambos os termos da
desigualdade,
0
E (g (Y )) E (g (E (Y )) + g (E (Y )) (Y E (Y ))) = g (E (Y )) :
Observação 4.2.1 Nas condições da proposição 4.2.2 tem-se:

g é convexa ) E (g (Y )) g (E (Y )) ;
g é côncava ) E (g (Y )) g (E (Y )) :
Exemplo 4.2.3 Atendendo à observação anterior conclui-se:
69
g (x) Conc./Conv. Desigualdade
x2 convexa E (Y 2 ) (E (Y ))2
1 1 1
x
,x>0 convexa E Y E(Y )
log x, x > 0 côncava E (log (Y )) log (E (Y ))
Também se conclui E (Y 2 ) (E (Y ))2 a partir da igualdade Var (Y ) = E (Y 2 )

(E (Y ))2 pois, por definição, Var (Y ) 0:
Proposição 4.2.3 (Lei do Valor Esperado Iterado I) Suponha-se E (jY j) < 1. Então
E (Y ) = E (E (Y j G)) :
Também se tem
E (Y ) = E (E (Y j X)) .
Com efeito, identificando fx ; fy ; fyjx e fy;x como as funções de densidade de probabilidade,

respectivamente de X; Y , Y jX e (Y; X) ; tem-se,
Z Z
E (E (Y j X)) = yfyjx (yj x) dy fx (x) dx
Z Z
= y fyjx (yj x) fx (x) dx dy
Z Z
= y fy;x (y; x) dx dy
Z
= yfy (y) dy
= E (Y ) .
Exemplo 4.2.4 Suponha-se que Y dado X tem distribuição condicional de Poisson de parâmetro
= X: Suponha-se ainda que X tem distribuição do Qui-Quadrado com um grau de liber-
dade. Logo, pela proposição 4.2.3, vem
E (Y ) = E (E (Y j X)) = E ( X) = :
Exemplo 4.2.5 Considere-se o modelo yt = xt + ut : Seja FtX = fxt ; xt 1 ; :::g : Suponha-
70
se E ut j FtX = 0. Como se sabe E yt j FtX = xt : Logo
E (yt ) = E E xt + ut j FtX
= E E xt j FtX + E E ut j FtX
= E (xt ) :
Neste exemplo, também se obtém esta expressão considerando E (yt ) = E ( xt + ut ) =

E (xt ) :
Exemplo 4.2.6 Considere-se yt = a + xt yt 1 + ut . Suponha-se que E (ut j Ft 1 ) = 0;

E (xt j Ft 1 ) = x e E (yt ) = E (yt 1 ) : Obtenha-se E (yt ). Tem-se, pela lei do valor esper-
ado iterado,
E (yt ) = E (E (yt j Ft 1 ))
= E (E (a + xt yt 1 + ut j Ft 1 ))
= E (a + E (xt yt 1 j Ft 1 ) + E (ut j Ft 1 ))
= E (a + yt 1 E (xt j Ft 1 ) + 0)
= E (a + yt 1 x)
= a+ x E (yt 1 ) = a + x E (yt )
Logo E (yt ) = a + x E (yt ) ) E (yt ) = a= (1 x) :
Um resultado mais geral é dado pela proposição seguinte.
Proposição 4.2.4 (Lei do Valor Esperado Iterado II) Suponha-se E (jY j) < 1 e G H.
Então
E (Y j G) = E ( E (Y j H)j G) :
Exemplo 4.2.7 Considere-se yt = a + yt 1 + ut ; j j < 1 onde fut g é uma sucessão v.a.
71
i.i.d. de média nula. Obtenha-se E (yt j Ft 2 ) : Como Ft 2 Ft 1 ; tem-se
E (yt j Ft 2 ) = E ( E (yt j Ft 1 )j Ft 2 )
= E (a + yt 1 j Ft 2 )
= a + E (yt 1 j Ft 2 ) (note-se agora yt 1 = a + yt 2 + ut 1 )
= a + E (a + yt 2 + ut 1 j Ft 2 )
= a + (a + E (yt 2 j Ft 2 ))
= a + (a + yt 2 )
2
= a+ a+ yt 2 .
Facilmente se conclui serem válidas relações do tipo
E (yt j Ft 3 ) = E ( E (yt j Ft 2 )j Ft 3 )
= E ( E ( E (yt j Ft 1 )j Ft 2 )j Ft 3 )
E (yt j F 1) = E (E ( E ( E (yt j Ft 1 )j Ft 2 )j Ft 3 ) :::) :
4.3 Distribuição Condicional versus Distribuição Marginal

Seja f (yt j Ft 1 ) a fdp condicionada2 de yt dada toda informação até ao momento t 1:
Comparativamente à fdp marginal (ou não condicional), f (yt ), a fdp f (yt j Ft 1 ) é bastante
mais “informativa”, pois esta última usa toda a informação disponível Ft 1 ; ao passo que a
distribuição marginal, por definição, ignora a informação Ft 1 . A fdp f (yt j Ft 1 ) pode ser
entendida como uma reavaliação de f (yt ) perante a evidência Ft 1 :
Considere-se a amostra fy1 ; :::; yn g : Um elemento da amostra escolhido ao acaso tem
fdp f (y) : Mas observando Ft 1 ; a v.a. yt tem fdp f (yt j Ft 1 ) :
Na figura 4-1 traçam-se duas hipotéticas fdp condicionadas. Para se discutir a figura,
suponha-se que y é governado genericamente por dois atributos: (1) yt 1 e yt ; para todo o
t; tendem a estar “próximos”; por exemplo, se yt 1 é “alto”, yt tenderá também a ser “alto”
(trata-se de uma forma de dependência temporal) e (2) yt “reverte” para zero, E (yt ) = 0.
Suponha-se ainda que y é estacionário. A fdp marginal é constante ao longo do tempo.
No entanto, as densidades condicionais variam. Considere-se a fdp f (y2 j F1 ) traçada na
2
Certos autores identificam f ( yt j Ft 1) como f ( yt j yt 1 ; yt 2 ; :::; y1 ).
72
f (y 6 F5 )
8
6 f (y 2 F1 )
4
2
0
-2 1 2 3 4 5 6
-4
-6
Figura 4-1: A fdp f (yt j Ft 1 ) varia ao longo do tempo
figura 4-1. Esta função atribui probabilidades associadas à variável y2 dado F1 : Perante a
observação y1 (e ainda sem se conhecer a realização y2 ), a fdp f (y2 j F1 ) tem moda aprox-
imadamente igual a y1 : é natural esperar que o valor de y2 venha “próximo” de y1 - dada
a hipótese (1); a fdp f (y6 j F5 ) usa a informação disponível no momento t = 5: Como,
y5 > 0; a densidade desloca-se um pouco na direcção de y5 ; pois y6 tenderá a estar “próx-
imo” de y5 : Todavia, como y reverte para zero, é mais provável o evento fy6 < y5 j y5 g do
que fy6 > y5 j y5 g ; i.e., y6 deverá em princípio aproximar-se do valor para o qual y reverte,
E (yt ) = 0: Nestas condições, a fdp f (y6 j F5 ) embora se desloque na direcção de y5 ; con-
tinua a atribuir massa de probabilidade significativa a intervalos próximos de zero.
Dois parâmetros fundamentais de f (yt j Ft 1 ) são
Z
t = E (yt j Ft 1 ) = yt f (yt j Ft 1 ) dyt
Z
2 2
t = Var ( yt j Ft 1 ) = (yt t ) f (yt j Ft 1 ) dyt :
Valem as seguintes propriedades.
Proposição 4.3.1 A melhor previsão de yn+1 dado Fn ; de acordo com Erro Quadrático
Médio, é E (yn+1 j Fn ) ; i.e.
2
E (yn E (yn+1 j Fn )) E (yn g (Fn ))2
onde g (Fn ) é um qualquer outro previsor Fn mensurável (i.e. que usa também toda a
informação disponível até ao momento n).
73
Dem. Tem-se
E (yn g (Fn ))2 = E (yn E (yn+1 j Fn ) + E (yn+1 j Fn ) g (Fn ))2

2
= E (yn E (yn+1 j Fn )) + E (E (yn+1 j Fn ) g (Fn ))2
+ E [(yn E (yn+1 j Fn )) (E (yn+1 j Fn ) g (Fn ))]
Como o terceiro termo é zero (deixa-se como exercício essa demonstração) vem
E (yn g (Fn ))2 = E (yn E (yn+1 j Fn ))

2
+ E (E (yn+1 j Fn ) g (Fn ))2
2
E (yn E (yn+1 j Fn )) :
O valor E (yn+1 ) é também um previsor não enviesado de yn+1 mas, como não usa a infor-
mação disponível Ft 1 ; pode demonstrar-se que é bastante menos preciso do que o previsor
E (yn+1 j Fn ).
Pode-se também provar
2 2
E (yn+h E (yn+h j G)) E (yn+h E (yn+h j H)) ; H G.
Esta desigualdade resulta do facto de em G existir mais informação. É natural esperar que
um previsor que use mais informação face a um outro, tenha um EQM inferior. Têm-se ainda
os seguintes casos limites quando o previsor é um valor esperado condicionado.
2
G = F = F 1 ) E (yn+h E (yn+h j G)) = E (yn+h yn+h )2 = 0
2 2
H =? ) E (yn+h E (yn+h j H)) = E (yn+h E (yn+h )) :
Exemplo 4.3.1 Considere: A) Tem-se uma sucessão de retornos do PSI20 e retira-se aleato-
riamente um elemento da sucessão. Suponha-se que a média e a variância desse retorno são
conhecidas. B) Suponha que os retornos do PSI20 registaram “hoje” uma forte quebra e
uma forte volatilidade. Q1: Qual é a informação mais relevante se o objectivo é prever os
retornos do PSI20 e a volatilidade para o dia de amanhã? A ou B? Q2: Neste caso, qual é
a fdp que interessa estudar? f (yt j Ft 1 ) ou f (yt )? Q3: Qual é a informação relevante se o
objectivo é conhecer as características gerais da série dos retornos (ou prever os retornos e
74
a volatilidade para um horizonte de vários anos)? Q4: Neste caso, qual é a fdp que interessa
estudar? f (yt j Ft 1 ) ou f (yt )?
Considere o modelo de séries temporais,
yt = c + yt 1 + ut ; j j<1
2
onde fut g é uma sucessão de v.a. i.i.d. com distribuição N (0; ) : Determine-se a dis-
tribuição de yt j Ft 1 : Dado Ft 1 ; yt 1 pode ser tratado como uma constante. Logo yt j Ft 1
tem distribuição normal,
yt j Ft 1 N (E (yt j Ft 1 ) ; Var ( yt j Ft 1 ))
onde
E (yt j Ft 1 ) = c + yt 1
2
Var (yt j Ft 1 ) = E (yt E (yt j Ft 1 )) Ft 1 = E u2t Ft 1 = 2
:
Assim,
2
yt j Ft 1 N c + yt 1 ; : (4.2)
Determine-se a distribuição marginal. No modelo em análise verifica-se E (yt ) = E (yt 1 ) :

Logo
c
E (yt ) = c + E (yt ) ) E (yt ) =
1
e, seguindo um raciocínio similar,
2
Var (yt ) = 2:
1
Atendendo à representação MA(1) do processo AR(1)3 ,
c 2
yt = + ut + ut 1 + ut 2 + :::
1
imediatamente se conclui que y tem distribuição marginal normal (uma soma de v.a. nor-
mais tem distribuição normal). Também se conclui, a partir da representação MA(1), que
3
A forma mais intuitiva de obter este resultado, consiste em aplicar o método recursivo (iterando yt ad
infinitum). Por exemplo, yt = c + yt 1 + ut = c + (c + yt 2 + ut 1 ) + ut ; e assim sucessivamente.
75
2 2
E (yt ) = c= (1 ) e Var (yt ) = = 1 : Assim, a distribuição marginal de y é
2
c
yt N ; 2 : (4.3)
1 1
Exemplo 4.3.2 Considere-se yt = 0:9yt 1 + ut ; onde ut N (0; 1) : Sabendo que no

período t 1 se observou yt 1 = 2 e tendo em conta (4.2) e (4.3) tem-se
yt N (0; 5:26)
yt j Ft 1 N ( 1:8; 1) :
Procura-se avaliar a probabilidade de yt assumir um valor positivo. Assim,
P (yt > 0) = 0:5
P (yt > 0j Ft 1 ) = P (yt > 0j yt 1 = 2) = 0:0359.
As probabilidade são bem diferentes. Com efeito, no período t 1 registou-se yt 1 = 2:

Como a autocorrelação é forte ( é alto) é natural esperar que no período t o valor de yt
ainda se encontre abaixo de zero. Por esta razão, a probabilidade condicional confere pouca
evidência ao evento fyt > 0g : Pelo contrário, a probabilidade marginal, ignora o aconteci-
mento fyt 1 = 2g e, por isso, atribui uma probabilidade razoável ao evento fyt > 0g :
Exemplo 4.3.3 Retome-se o exemplo 4.3.2 e suponha-se que se têm n observações e se pre-
tende obter uma previsão para o período n + 1: Podemos usar uma infinidade de previsores,
mas analisem-se apenas os seguintes:
E (yn+1 j Fn ) = 0:9yn
E (yn+1 ) = 0:
De acordo com a discussão anterior, o previsor E (yn+1 j Fn ) é mais “preciso” do que

E (yn+1 ) : A precisão é aqui aferida através do erro quadrático médio (EQM) e, com efeito,
observa-se que
2
2 2 2
E (yn+1 E (yn+1 j Fn )) = = 1 < E (yn+1 E (yn+1 )) = 2 = 5:263
1
76
A B
40 5
30
20 3
10
1
0
-10
-1
-20
-30 -3
-40
-50 -5
1 26 51 76 101 126 151 176 1 26 51 76 101 126 151 176
C D
30 15
25 10
20
5
15
0
10
5 -5
0 -10
-5 -15
1 26 51 76 101 126 151 176 1 26 51 76 101 126 151 176
Figura 4-2: Qual é a trajectória do processo ruído branco?
4.4 Processos Estocásticos Elementares, Estacionaridade e

Fraca Dependência
4.4.1 Processos Estocásticos Elementares
Definição 4.4.1 u é um processo4 ruído branco (RB) se
E (ut ) = 0
Var (ut ) = E u2t = 2
E (ut us ) = 0; 8s 6= t
Procure identificar o processo ruído branco na figura 4-2.
4
Recorde-se a notação u = fut g = fut ; t = 1; 2; :::g :
77
Definição 4.4.2 u é um processo ruído branco independente se
E (ut ) = 0;
2 2
E ut = ;
ut e us são independentes 8s 6= t
2
Se adicionalmente ut N (0; ) então ut um ruído branco Gaussiano.
O processo fut g pode ser não autocorrelacionado, i.e., Corr (ut ; us ) = 0; 8s 6= t e,

mesmo assim, ut e us não serem independentes. Por exemplo, pode suceder Corr (u2t ; u2s ) 6=
0 e, neste caso, existe uma óbvia ligação entre os valores u2t e u2s . Contudo, existe um caso
notável onde E (ut us ) = 0; 8s 6= t implica independência. É o caso de ruídos brancos com
distribuição Gaussiana.
Definição 4.4.3 u é um processo diferença de martingala se
E (jut j) < 1;
E (ut j Ft 1 ) = 0:
Proposição 4.4.1 Se u é uma diferença de martingala, então E (ut ) = 0 e E (ut us ) = 0;

8s 6= t:
Dem. Deixa-se como exercício concluir que E (ut ) = 0: Suponha-se, sem perda de
generalidade que s < t: Tem-se
E (ut us ) = E (E (ut us j Fs )) (pela proposição 4.2.3)

= E (us E (ut j Fs ))
= E (us E ( E (ut j Ft 1 )j Fs )) (pela proposição 4.2.4)
= E (us E (0j Fs )) = 0:
Definição 4.4.4 u é um processo passeio aleatório (random walk ou RW) se
yt = yt 1 + ut
e ut é um RB. yt diz-se um processo passeio aleatório com deriva (random walk with drift)
78
120 1200
100
1000
80
800
60
RW
40 600
Var
20
400
0
1 101 201 301 401 501 601 701 801 901 200
-20
-40 0
d (yt ) = Pt (yi
Figura 4-3: Processo RW e Var yt )2 =t
i=1
se
yt = yt 1 + + ut ; 6= 0:
Pode-se provar (veja o apêndice 6.D) que um random walk verifica:
E (yt j Ft 1 ) = yt 1 ;
2 2 2 2
E (yt ) = E (y0 ) ; E yt = E y0 + t; E (yt yt k ) = (t k) :
d (yt ) = Pt (yi
Na figura 4-3 apresenta-se um processo RW e Var yt )2 =t:
i=1
4.4.2 Estacionaridade
Definição 4.4.5 y é um processo estacionário de segunda ordem (ESO) se
E (yt ) = ; (não depende de t)

2
Var (yt ) = ; (não depende de t)
Cov (yt ; yt h) = (h) (não depende de t):
Na definição de processo ESO está implícito não só que os momentos não dependem de
t como também são finitos. Por exemplo, se Var (yt ) = 1; então yt não é ESO. Um RB,
RB independente ou um RB Gaussiano são processos estacionários de segunda ordem. Uma
diferença de martingala pode ser ou não um processo ESO. É um processo ESO se o segundo
momento for finito e não depender de t: Identifique na figura 4-2 as trajectórias de processos
79
f(x) 0.3
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4
x
Figura 4-4: Função densidade de probabilidade de Cauchy
aparentemente não estacionários.

Naturalmente o processo passeio aleatório não é ESO.
Geralmente entende-se que um processo não é ESO quando a média, a variância ou as
covariâncias dependem de t: Mas a estacionaridade de segunda ordem (ESO) pode também
falhar se não existir a média e/ou a variância. Por exemplo, considere o processo yt = 10+ut ,
onde fut g é uma sucessão de v.a. i.i.d. com distribuição de Chauchy. A função densidade
de probabilidade (fdp) de Cauchy é
1
f (x) = .
(1 + x2 )
y não é um processo ESO porque E (jut j) não existe. Com efeito,

Z Z
1
E (jut j) = jxj f (x) dx = jxj dx
R R (1 + x2 )
não converge e, portanto, E (jut j) não está definido (i.e. não existe). Na figura 4-4 traça-se
a função f (x) : Como a fdp tem abas muitos pesadas atribui uma massa de probabilidade
considerável para valores muito afastados da média. Isto significa que embora o centro de
gravidade da fdp seja zero, valores muito afastados de zero podem ocorrer com probabilidade
não nula (veja-se a figura 4-5).
Definição 4.4.6 y é um processo estritamente estacionário (EE) se a distribuição conjunta

de (y1 ; y2 ; :::; ys ) é igual à distribuição conjunta de (yk+1 ; yk+2 ; :::; yk+s ) ; para qualquer
s 2 N e k 2 Z.
80
800
600
400
200
0
-200
-400
-600
-800
-1000
-1200
-1400
1 101 201 301 401 501 601 701 801 901 1001 1101 1201 1301 1401
Figura 4-5: Uma trajectória simulada do processo yt = 10 + ut , onde fut g é uma sucessão
de v.a. i.i.d. com distribuição de Chauchy
Na secção 4.5 discute-se com maior profundidade este conceito.
Observação 4.4.1 Um processo estritamente estacionário deve verificar, em particular, a

seguinte condição:
fy1 (x) = fy2 (x) = ::: = fyn (x) = f (x) (4.4)
(as densidade marginais de y1 ; y2 ,..., yn são iguais para todo o t). Esta condição decorre da
aplicação da definição anterior para s = 1. Resulta de (4.4) que se E (jg (yt )j) < 1; então
E (jg (yt )j) é constante e não depende de t; pois
Z Z
E (jg (yt )j) = jg (x)j fyt (x) dx = jg (x)j f (x) dx; 8t:
Ambas as definições de estacionaridade basicamente exigem que a estrutura probabilís-

tica se mantenha constante ao longo do tempo. No entanto, enquanto a estacionaridade estrita
exige que toda a estrutura probabilística se mantenha constante ao longo do tempo, a ESO
apenas faz essa exigência para os dois primeiros momentos e para a autocovariância.
Exemplo 4.4.1 Considere-se o processo,
yt = 0:2yt 1 + ut ; j j<1 (4.5)
onde 8
< se t 2000
t
ut = q (4.6)
: k 2
se t > 2000
k t
81
iid iid
sendo t e s independentes para todo o t e s e t N (0; 1) e s t(k) . Para t 2000
tem-se
E (ut ) = E ( t ) = 0;
Var (ut ) = Var ( t ) = 1
e para t > 2000;

r !
k 2
E (ut ) = E t = 0;
k
r !
k 2 k 2 k
Var (ut ) = Var t = = 1:
k k k 2
Como a autocovariância de ut não depende de t (na verdade é zero, para qualquer t) e E (ut )
e Var (ut ) são constantes, para todo o t; conclui-se que fut g é um processo ESO. No entanto,
não é EE, pois a distribuição marginal de ut para t 2000 não coincide com a distribuição
marginal de ut para t > 2000 (no primeiro caso é normal; no segundo é t-Student). Não se
cumpre assim a condição (4.4). A mesma conclusão se aplica a y: é ESO mas não EE. Na
figura 4-6 representa-se uma trajectória simulada a partir das equações (4.5) e (4.6), com
k = 3 (graus de liberdade). Observe-se que a partir de t = 2000 começam a aparecem
valores muito altos e muitos baixos (“outliers”) já que os erros passam a ter distribuição
t-Student com 3 graus de liberdade (embora a variância dos erros se mantenha sempre igual
a 1). Observa-se, portanto, uma alteração da estrutura probabilística do processo a partir
de t > 2000 que implica a não estacionaridade estrita do processo.
Alguns factos:
Se E (yt2 ) < 1 e y é estritamente estacionário (EE), então y é ESO.
Com efeito, tem-se fyt (y) = f (y) ; 8t (por hipótese) e, portanto,

Z Z
E (yt ) = xfyt (x) dx = xf (x) dx = E (y) ;
Z Z
2 2
Var (yt ) = (x E (yt )) fyt (x) dx = (x E (y)) f (x) dx = Var (y) :
Por outro lado, fyt ;yt+h (x; y) = fys ;ys+h (x; y) ; 8t; s (por hipótese) e, portanto, a ex-
82
Figura 4-6: Uma trajectória simulada a partir de um processo estacionário de segunda
ordem mas não estritamente estacionário - confiram-se as equações (4.5) e (4.6)
pressão
Z Z
E (yt yt+h ) = xyfyt ;yt+h (x; y) dxdy
Z Z
= xyfys ;ys+h (x; y) dxdy = E (ys ys+h ) :
não depende de t (nem de s).
Se y é ESO e tem distribuição normal, então y é EE.
A estacionaridade estrita é geralmente uma condição mais forte do que a ESO, mas
não implica necessariamente ESO. Por exemplo, se yt = 10 + ut onde fut g é uma
sucessão de v.a. com distribuição de Cauchy, y não é, como vimos, ESO; no entanto,
pode-se provar que y é EE: a estrutura probabilística mantém-se imutável ao longo do
tempo.
4.4.3 Fraca Dependência
A propriedade “fraca dependência” é crucial para se invocar resultados limites como sejam
a lei dos grandes números e o teorema do limite central. Considere-se, por exemplo, a média
P
empírica yn = n 1 nt=1 yt : Sob certas condições, a lei fraca dos grandes números estabelece
p
yn ! E (y) : Este resultado pode ser provado da seguinte forma: se limn E (yn ) = E (y) e
83
p
limn Var (yn ) = 0 então yn ! E (y) : Exigir que a variância de yn convirja para zero (no
limite yn reduz-se a uma constante) envolve a suposição de que a sucessão fyt g é fracamente
dependente num sentido que precisaremos a seguir. Com efeito,
!
1 Xn
Var (yn ) = Var yt
n2 t=1
!
1 X
n X
n 1 X
n
= Var (yt ) + 2 Cov (yi ; yi j ) :
n2 t=1 j=1 i=j+1
Sem hipóteses adicionais não é garantido que estas duas somas convirjam. Comece-se por
assumir que fyt g é ESO. Nestas condições a covariância Cov (yi ; yi j ) só depende de j =
i (i j) e não de i (veja a definição 4.4.5). Assim, pode-se escrever, Cov (yi ; yi j ) = (j).
Vem,
!
1 X
n 1 X
n
2
Var (yn ) = n +2 (j)
n2 j=1 i=j+1
2 X X
2 n 1 n
= + (j) 1 ( (j) não depende de i)
n n2 j=1 i=j+1
2 X
2 n 1
= + 2 (j) (n j)
n n j=1
2X
2 n 1
j
= + (j) 1 :
n n j=1 n
2
O primeiro termo =n converge para zero, mas o segundo termo pode convergir ou não. É
necessário não só que (j) convirja para zero, mas também que essa convergência seja rela-
tivamente rápida. Note-se de passagem que a estacionaridade não garante fraca dependência.
As condições de aplicação do teorema do limite central são ainda mais exigentes. Sob
p d
certas condições tem-se, como se sabe, n (yn E (y)) ! N (0; 2 ) ; onde 2 uma con-
p p
stante finita, definida como 2 = limn Var ( n (yn E (y))) = limn Var ( nyn ) : Se fyt g
é estacionário, tem-se
p X
n 1
j
2
Var nyn = +2 (j) 1
j=1
n
e, agora, comparativamente ao caso anterior, (j) tem de convergir ainda mais rapidamente
P
para zero para que a soma Sn = nj=11 (j) 1 nj convirja. Por exemplo, uma função de
84
autocorrelação do tipo (j) = 1=j resulta numa soma Sn divergente. A soma converge se a
função de autocorrelação for, por exemplo, do tipo (j) = aj ; com jaj < 1.
Existem várias definições de processos fracamente dependentes envolvendo os chama-
dos mixing coefficients ( -mixing, -mixing, -mixing entre outros) que permitem avaliar
e medir o grau de dependência recorrendo a diferentes interpretações do conceito de in-
dependência. Vamos adoptar uma definição alternativa para caracterizarmos um processo
fracamente dependente baseada na definição de Wooldridge (1994):
p
Definição 4.4.7 y é um processo fracamente dependente se limn Var ( nyn ) = c > 0:
Infelizmente esta definição tem a seguinte desvantagem: se y é fracamente dependente

no sentido da definição 4.4.7, e g é uma função com “boas propriedades”, não é possível
concluir, em termos gerais, que zt = g (yt ) é ainda um processo fracamente dependente. Já
se yt é -mixing é possível inferir, sob certas condições gerais, que zt = g (yt ) é ainda
-mixing (digamos, a transformação g preserva a propriedade de fraca dependência do
processo quando baseada no conceito dos mixing coefficients).
Comentários Finais
Por que razão é importante o estudo da estacionaridade e da fraca dependência (em séries
temporais)? Apontam-se algumas razões:
A aplicação do teorema central e a lei dos grandes números são dois pilares da infer-
ência estatística. Considere-se, por exemplo,
1X
n
yn = yt :
n t=1
Sob certas condições, a aplicação da lei dos grandes números e do teorema do limite
central, permite obter, respectivamente
p y E (y) d
yn ! E (y) , pn ! N (0; 1) :
Var (yn )
No entanto, se y não é estacionário e fracamente dependente não é possível invocar

estes resultados clássicos (e a inferência assimptótica habitual não pode ser utilizada).
De uma forma geral, se a estrutura probabilística se altera ao longo do tempo (i.e., se y

não é estacionário), todas as conclusões que se retirem para um certo período não são
“extrapoláveis” para o futuro.
85
A estacionaridade também é relevante no âmbito da previsão: processos estacionários
são limitados em probabilidade e a amplitude dos intervalos de previsão não diverge
quando o horizonte de previsão tende para mais infinito. Pelo contrário, processos não
estacionários, por exemplo, I (1) ; são extremamente difíceis de prever no longo prazo,
dado que a amplitude dos intervalos de previsão aumenta com o horizonte de previsão.
Em termos de política económica é também relevante saber se um processo é esta-

cionário ou não. Medidas de política económica que tenham como objectivo alterar
a trajectória de processos estacionários, estão em geral condenadas ao fracasso, pelo
menos no médio/longo prazo, pois choques induzidos em processos dessa natureza
tendem a se autocorrigir ao longo do tempo (e a “reverterem” para a uma medida de
tendência central).
Convém sublinhar o seguinte. Embora muitas séries temporais sejam não estacionárias,
é possível, na maior parte dos casos, estacionarizá-las, mediante transformações apropriadas
do processo.
***
Para terminar esta secção, tecem-se algumas considerações críticas aos modelos de séries
temporais baseados em pressupostos estacionários.
Serão as séries temporais financeiras e económicas verdadeiramente estacionárias? Como
já argumentámos, a estacionaridade envolve uma determinada hipótese de estabilidade da
estrutura probabilística do processo. Esta estrutura depende de uma miríade de factores,
como por exemplo, dos agentes económicos (privados e públicos) e das suas relações, da
tecnologia, da informação, do puro acaso (entre outros factores). Apenas o puro acaso
pode ser considerado imutável ao longo do tempo; tudo o resto evolui ao longo do tempo,
pelo que é um mito supor-se que a estrutura probabilística de uma série temporal finan-
ceira ou económica permanece constante ou aproximadamente constante ao longo do(s)
tempo(s). Suponha-se que se estuda a taxa de variação relativa anual do PIB português
(yt = log (P IBt ) log (P IBt 1 )). Aparentemente, y é estacionário se o período de referên-
cia forem alguns dezenas de anos (isto é, praticamente todos os testes estatísticos disponíveis,
apontariam nessa direcção). Mas, se alargarmos a amostra para várias centenas de anos
(supondo que tal era possível), é extremamente implausível y ser estacionário (a história
86
diz-nos que as condições e os factores de produção evoluem ou sofrem rupturas ao longo
do tempo). Sob esta perspectiva, não existem processos de natureza económica e financeira
estacionários. Poderemos então concluir que a análise da estacionaridade acaba por ser in-
útil? Embora, em termos rigorosos, o conceito de estacionaridade envolva o passado e o
futuro distante (o “ 1” e o “+1”), normalmente limitamos o período de análise. Para esse
período, assume-se que a série apresenta características estacionárias e a previsão relevante
que estabelecemos aplica-se, supostamente, a um futuro próximo, governado, no essencial,
pelas mesmas leis que determinaram o processo no período amostral. Com esta ressalva, a
estacionaridade é importante, porque assegura uma forma de estabilidade probabilística que
é essencial na inferência estatística.
4.5 Processos Ergódicos e Estritamente Estacionários

Nesta secção, retomam-se alguns conceitos já abordados, relacionados com a estacionar-
idade, e exploram-se novas definições que serão úteis no estudo dos processos não lin-
eares. Concretamente, é objectivo deste ponto estabelecer condições suficientes para que
um processo de Markov não linear seja ergódico e EE.
4.5.1 Definições
O ponto de partida baseia-se na definição de processo de Markov: se y é um processo de

Markov então, para estabelecer, no momento s; probabilidades sobre a evolução futura do
processo, toda a informação anterior a s é desnecessária se o estado do processo no momento
s for conhecido5 . Formalmente,
Definição 4.5.1 y é um processo de Markov se
P (yt < j Ft 1 ) = P (yt < j yt 1 )
onde Ft 1 = fy1 ; :::; yt 1 g :
5
Considere-se, por exemplo, uma partícula suspensa num meio homogéneo. Se no momento s, a posição
e a velocidade da partícula forem conhecidas, torna-se desnecessário considerar toda a trajectória anterior da
partícula com vista a estabelecer a sua evolução provável a partir do momento s. Observe-se que não basta
conhecer só a posição ou só a velocidade. Por vezes sucede que determinado processo não é de Markov, mas
esse processo juntamente com outro pode definir um processo de Markov. O exemplo que se apresenta a seguir
(AR(2)) também mostra que é possível obter a propriedade Markoviana através da “expansão” do espaço de
estados.
87
(O caso multivariado y adapta-se facilmente). O processo AR(2), yt = 1 yt 1 + 2 yt 2 +
ut ; não é de Markov pois
P (yt < j y1 ; :::; yt 1 ) = P (yt < j yt 2 ; yt 1 ) 6= P (yt < j yt 1 ) :
No entanto, é possível representá-lo na forma Markoviana. Considerem-se as mudanças de

variável
y1;t = yt ; y2;t = yt 1 :
Assim,
y1;t = 1 y1;t 1 + 2 y2;t 1 + ut
y2;t = y1;t 1
ou ainda
0 1 0 10 1 0 1
y1;t 1 2 y1;t 1 ut
@ A = @ A@ A+@ A;
y2;t 1 0 y2;t 1 0
| {z } | {z }| {z } | {z }
yt yt 1 ut
yt = yt 1 + ut :
O processo vectorial fyt g é agora de Markov. Este procedimento generaliza-se facil-

mente para o caso AR(p).
Também o processo não linear do tipo
yt = g (yt 1 ; yt 2 ; :::; yt p ) + ut
onde fut g é uma sucessão de v.a. i.i.d. e independentes de yt k ; k 1; admite uma repre-
sentação Markoviana. Com efeito, defina-se
0
yt = (yt ; yt 1 ; :::; yt p+1 ) ; ut = (ut ; 0; :::; 0)0
e
x = (x1 ; x2 ; :::; xp )0 ; g (x) = (g (x) ; x1 ; :::; xp 1 )0 :
88
Segue-se que fyg é um processo de Markov definido por
yt = g (yt 1 ) + ut :
Por exemplo, seja

yt = cos (yt 1 ) + sen (yt 2 ) + ut :
Tem-se 0 1 0 1
yt y1;t
yt = @ A := @ A
yt 1 y2;t
e 0 1 0 1 0 1
y1;t cos (y1;t 1 ) + sen (y2;t 1 ) ut
@ A=@ A+@ A:
y2;t y1;t 1 0
| {z } | {z } | {z }
yt g(yt 1) ut
Para simplificar, na discussão que se segue trabalha-se com processos estocásticos uni-
variados Markovianos; contudo, está subjacente que se o processo y não de Markov será
sempre possível representá-lo na forma multivariada como um processo de Markov.
A função de distribuição condicional a n passos de um processo de Markov é
P (yn+k < yj yk )
(observe-se que é desnecessário escrever P (yn+k < yj Fk ) ; pois y é um processo de Markov).

Por seu lado, a função densidade condicional (também designada por densidade de tran-
sição), caso exista, é dada por
@P (yn+k < yj yk )
fn (yj x) = :
@y
Definição 4.5.2 y é um processo homogéneo se
P (yn+k < j yk = x) = P (yn+s < j ys = x) ; (n 2 N)
para todo o k e s 2 Z:
Se y é um processo homogéneo, para avaliar probabilidades condicionadas do processo,

não interessa o momento em que essas probabilidades são calculadas. Por exemplo, no caso
P (yn+k < j yk = x) as probabilidades são calculadas no momento no k (ou com base na
89
informação do momento k) e dizem respeito ao intervalo de valores que y pode assumir no
momento n + k: Se y é homogéneo, o momento ou instante k é irrelevante; apenas interessa
conhecer o hiato de tempo n + k k = n (para processos estacionários de segunda ordem,
exige-se a mesma propriedade para a covariância: Cov (yn+k ; yk ) = (n) apenas deverá
depender de n = n + k k). Nestas circunstâncias, tem-se por exemplo,
P (y10 < j y0 = x) = P (y100 < j y90 = x) = P (y1250 < j y1240 = x) :
Se o processo y é homogéneo, toma-se para a função de distribuição condicional a n passos

a expressão6
Fn (yj x) := P (yn+k < yj yk = x) :
O exemplo 4.5.2 ilustra o conceito de homogeneidade. Convém, no entanto, começar

com o
Exemplo 4.5.1 Considere-se
yt = yt 1 + ut ; j j<1
2
onde ut é um ruído branco N (0; ) : Vamos obter ft (yj x) (função de densidade condi-
cional a t passos) e Ft (yj x) (função de distribuição condicional a t passos). Comece-se
por obter f1 (yj x) (esta função é habitualmente escrita simplesmente na forma f (yj x)) e
F1 (yj x). Tem-se,
E (yt j yt 1 ) = E ( yt 1 + ut j yt 1 ) = yt 1
Var (yt j yt 1 ) = E (yt yt 1 )2 yt 1 = E u2t yt 1 = 2
2
Como yt j yt 1 N ( yt 1 ; ) resulta
1 1
f1 (yj yt 1 ) = p exp (y yt 1 )2 ;
2 2 2 2
Z y
F1 (yj yt 1 ) = f1 (uj yt 1 ) du:
1
6
A notação usada para Fn ( yj x) ; sublinha que se tem uma função de transição a n passo (daí o índice n),
que a condição inicial apenas depende de x; e que o processo é homogéneo (caso contrário Fn ( yj x) deveria
depender também do momento em que é calculada).
90
Para obter E (yt j y0 ) ; Var (yt j y0 ) e ft (yj y0 ) é necessário representar yt como função de
y0 . Tem-se
yt = yt 1 + ut
2
= ( yt 2 + ut 1 ) + ut = yt 2 + ut 1 + ut
= :::
t t 1 t 2
= y0 + u1 + u2 + ::: + ut 1 + ut :
Tendo em conta as propriedades de u; conclui-se que yt , dada a condição y0 , tem distribuição

condicional normal de parâmetros
t
E (yt j y0 ) = y0
t 2
Var (yt j y0 ) = E yt y0 y0
t 1 t 2 2
= E u1 + u2 + ::: + ut 1 + ut y0
2 2 2(t 1)
= 1+ + ::: + (soma geométrica)
2t
2 1
= 2 .
1
Isto é,
2t
t 2 1
yt j y0 N y0 ; 2 ,
1
1 1 2
ft (yj y0 ) = p exp (y E (yt j y0 )) ;
2 Var ( yt j y0 ) 2 Var (yt j y0 )
Z y
Ft (yj y0 ) = ft (uj y0 ) du:
1
Para processos não lineares, conhece-se geralmente f1 (yj y0 ) (uma vez especificada a
distribuição dos erros), mas não ft (yj y0 ), para t > 1:
91
Exemplo 4.5.2 Retome-se o exemplo 4.5.1. Facilmente se constata que
2n
n 2 1
yn+k j yk = x N x; 2
1
2n
n 2 1
yn+s j ys = x N x; 2
1
e, assim, o processo y é homogéneo.
Um processo em que pelo menos um dos momentos condicionais depende do momento

em que é calculado (por exemplo, E (yt j yt 1 ) = yt 1 =t) não pode ser certamente um
processo homogéneo. A homogeneidade é uma condição necessária, mas não suficiente
para garantir estacionaridade (estrita ou de segunda ordem). O exemplo seguinte esclarece
este ponto.
2
Exemplo 4.5.3 Seja yt = yt 1 + ut ; onde ut é um ruído branco N (0; ) : Tem-se,
X
n+k
2
yn+k = yk + ui yk = x N x; n
i=k+1
X
n+s
2
yt+s = ys + ui y s = x N x; n :
i=s+1
Logo o processo passeio aleatório é homogéneo. No entanto, sabe-se que não é estacionário.
Para processos de Markov homogéneos, a equação de Chapman-Kolmogorov (numa das

suas várias versões) é Z
Fn (yj x) = F1 (yj u) Fn 1 (duj x) :
Caso exista a fdp condicionada, a equação de Chapman-Kolmogorov pode também ser es-
crita na forma Z
fn (yj x) = f1 (yj u) fn 1 (uj x) du: (4.7)
A definição de ergodicidade (à “Harris”)7 que se apresenta a seguir envolve um conceito de

proximidade entre duas funções de distribuição, H e G; baseada na norma de variação total
k:k que, caso existam as funções densidades associadas a H e G; é dada por
Z
kH Gk = jh (x) g (x)j dx:
7
A definição de ergodicidade varia bastante na literatura. Usaremos a definição que se designa por “ergodi-
cidade à Harris”. Veja-se, por exemplo, Fan e Yao (2005).
92
Exemplo 4.5.4 Seja g a fdp associada à distribuição N (0; 1) e hn a fdp associada à dis-
tribuição t (n) (t-Student, com n graus de liberdade). Para n fixo, a variação total kHn Gk
é positiva, mas kHn Gk ! 0 quando n ! 1: A demonstração é a seguinte. Em primeiro
lugar, faça-se
n (x) = jhn (x) g (x)j :
Como hn (x) converge uniformemente em R para g (x), i.e., limn!1 supx2R n (x) = 0 (este
resultado é bem conhecido da estatística e, normalmente, é apresentado numa forma mais
fraca, limn!1 hn (x) = g (x) ; para cada x 2 R), então n (x) converge uniformemente
em R para zero, pelo que, o operador de limite pode trocar com o operador de integração.
Assim,
Z
lim kH Gn k = lim jhn (x) g (x)j dx
n!1 n!1
Z
lim sup jhn (x) g (x)j dx
n!1 x
Z
= lim sup jhn (x) g (x)j dx
n!1 x
= 0:
Considere-se o processo estocástico y com função de distribuição condicional a n passos

dada por Fn (yj x).
Definição 4.5.3 Se existir uma função de distribuição F e uma constante 2 (0; 1) tal que
n
kFn (yj x) F (y)k ! 0 (4.8)
para todo o y e o x; então y é ergódico se = 1 e geometricamente ergódico se < 1: F é

a função de distribuição estacionária.
Se a densidade fn (yj x) existe, a definição acima pode ser apresentada da seguinte forma:
se existir uma função de densidade f e uma constante 2 (0; 1) tal que
Z
n
jfn (yj x) f (y)j dy ! 0 (4.9)
para todo o x; então y é ergódico se = 1 e geometricamente ergódico se < 1: f é a

função de densidade estacionária.
93
A definição adoptada de ergodicidade à Harris, permite efectivamente relacionar a ergod-
icidade com estacionaridade estrita (Chan 1990, 1993), tal como consta da
Proposição 4.5.1 Suponha-se que y é ergódico. Então existe uma distribuição estacionária
F tal que o processo y; inicializado com a distribuição F; é EE.
Dem. Apêndice 4.A.

Para processos nas condições da proposição anterior, a lei forte dos grandes números
verifica-se sempre:
Proposição 4.5.2 Suponha-se E (jh (y)j) < 1: Nas condições da proposição 4.5.1 verifica-
se
1X
n
qc
h (yt ) ! E (h (y)) ;
n t=1
(qc: convergência quase certa ou com probabilidade 1) qualquer que seja o valor inicial do
processo y.
Por exemplo, se y é ergódico e EE e se E (eyt ) < 1; então
1 X yt qc
n
e ! E (ey )
n t=1
(naturalmente também se tem convergência em probabilidade). Note-se que o processo pode

não ser fracamente dependente no sentido da definição 4.4.7 - i.e., verificando-se a lei dos
grandes números de acordo com a proposição anterior, pode não se garantir, ainda assim, a
aplicação do teorema do limite central.
Outra propriedade interessante para processos estritamente estacionários é a seguinte:
Proposição 4.5.3 Seja g uma função com domínio no espaço de estados de y: Se fyt g é EE
então fzt g ; definido por zt = g (yt ; yt 1 ; :::) ; é também EE.
A proposição anterior permite concluir, por exemplo, que se fyt g é EE, então os proces-
sos fyt2 g ; fyt + eyt 1 g ; etc., são também estritamente estacionários. A proposição ante-
rior não se aplica naturalmente a processos estacionários de segunda ordem. Para ilustrar,
suponha-se que y é um processo ESO sem 4o momento. Resulta que fzt g ; onde z é definido
por zt = yt2 ; não é um processo ESO, pois Var (zt ) não existe.
Em geral, é difícil verificar directamente as equações (4.8) e (4.9), a não ser para casos
relativamente simples, como o do exemplo que se apresenta a seguir. Iremos ver, no entanto,
94
que é possível, em certas circunstâncias, provar-se (4.8) ou (4.9) de forma indirecta, através
de resultados auxiliares. Antes de entramos nesta questão no ponto seguinte, veja-se um caso
em que a aplicação directa de (4.9) é relativamente simples.
Exemplo 4.5.5 Retome-se o exemplo 4.5.1, mas use-se agora a densidade condicional a n
passos (poderia ser também a t passos). Concluímos que
2n
n 2 1
yn j y0 = x N x; 2
1
( )
2
1 (yn E (yn j x))
fn (yj x) = p exp :
2 Var (yn j x) 2 Var (yn j x)
Note-se que
n
lim E (yn j x) = lim x = 0;
n!1 n!1
2n 2
2 1
lim Var ( yn j x) = lim 2 = 2;
n!1 n!1 1 1
8 9
1 < y 2 =
lim fn (yj x) = r exp = f (y) :
n!1 2 : 2 2 ;
2 1 2 1 2
n
R
É razoável admitir que f (y) verifica o limite jfn (yj x) f (y)j dy ! 0: Efectiva-
mente, pode mostrar-se esse resultado e, nessas condições, y é um processo EE, com dis-
tribuição estacionária dada por f (y) e momentos estacionários E (y) = 0 e Var (y) =
2 2
= 1 :
2
Para exemplificar, considere-se x = 2; = 0:7 e = 0:8: A distribuição estacionária é
dada por
0:7
y N 0; = N (0; 1:944) :
1 0:82
Se o processo for inicializado no valor x = 2, ao fim de alguns períodos (digamos n = 10),
yt comporta-se como um processo y N (0; 1:944) : Por outras palavras, um elemento re-
tirado ao acaso da sucessão fy10 ; y11 ; :::g ; por exemplo y100 ; tem distribuição estacionária
N (0; 1:944) : Naturalmente, se o valor anterior y99 for observado e usarmos essa infor-
mação para prever y100 ; a distribuição pertinente passa a ser a distribuição condicional
habitual (a um passo). Na figura 4-7 mostra-se a convergência da sucessão de funções
ffn (yj x = 2) ; n = 1; 2; 3; 8g para a distribuição estacionária f (y) : A distribuição esta-
cionária, que coincide com a distribuição marginal do processo, é relevante porque mostra
95
0.6
0.5
0.4
0.3
0.2
0.1
0
-5.0 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 5.0
Dist. Est n=1 n=2 n=3 n=8
Figura 4-7: Sucessão de funções ffn (yj x = 2) ; n = 1; 2; 3; 8g e distribuição estacionária

f (y)
o comportamento “geral” do processo. Dá ainda uma medida do tempo de permanência do

processo em cada um dos subintervalos do espaço de estados. Para os valores fixados para
e ; ficamos a saber a partir da inspecção da distribuição estacionária que, por exemplo,
y dificilmente sairá do intervalo ( 5; 5) e que, durante a maior parte do tempo, estará no
intervalo (digamos) ( 2; 2) :
Termina-se esta secção notando que a densidade estacionária (caso exista) coincide com
a densidade marginal (quando o processo é inicializado em condições estacionárias).
4.5.2 Modelos Não Lineares do tipo yt = g (yt 1 ; yt 2 ; :::; yt p ) + ut
Proposição 4.5.4 Considere-se o processo fyg definido por
yt = g (yt 1 ; :::; yt p ) + ut
onde g : Rp ! R; fut g é uma sucessão de v.a. i.i.d. e independentes de yt k ; k 1; com

função de densidade positiva e E (ut ) = 0: O processo fyg é geometricamente ergódico se
qualquer uma das seguintes condições se verificar:
(a) g é uma função limitada em conjuntos limitados,
jg (x) (b1 x1 + ::: + bp xp )j

lim =0
kxk!1 kxk
e as raízes do polinómio 1 b1 z ::: bp z p estão fora do circulo unitário.
96
(b) Existe uma constante 2 (0; 1) e c tal que
jg (x)j max fjx1 j ; :::; jxp jg + c:
(c) Existe uma constante 2 (0; 1) ; c e ai 0 e a1 + ::: + ap = 1 tal que
jg (x)j (a1 jx1 j + ::: + ap jxp j) + c:
Exemplo 4.5.6 Considere-se o processo AR(2),
yt = 1 yt 1 + 2 yt 2 + ut
onde u é um ruído branco Gaussiano. A função g é naturalmente
g (x1 ; x2 ) = 1 x1 + 2 x2 :
A condição (a) da proposição 4.5.4 verifica-se se, com b1 = 1 e b2 = 2; as raízes de

1 b1 z b2 z 2 estiverem fora do circulo unitário. Esta é, como se sabe, a condição necessária
e suficiente para que o processo AR(2) seja ESO. A proposição anterior vai mais longe: sob
as condições estabelecidas, y é EE.
Exemplo 4.5.7 Considere-se o processo
yt2 1
yt = + ut
1 + yt2 1
onde u é um ruído branco Gaussiano. Tem-se
x2
g (x) =
1 + x2
Como g (x) é uma função limitada em R; mais concretamente, jg (x)j < ~ < 1;
conclui-se
jg (x)j jxj + ~
para 2 (0; 1) : Verificam-se as condições (b) e (c) e, assim, y é um processo ergódico.
97
8
< 0:5yt + ut se yt <0
1 1
yt =
: 0:5y + ut se yt 0:
t 1 1
onde u é um ruído branco Gaussiano. Este modelo pode ser reescrito na forma:
yt = t yt 1 + "t ;
onde t = 0:5Ifyt 1 <0g + 0:5Ifyt 1 0g : Tem-se g (x) = 0:5Ifx<0g + 0:5Ifx 0g x:

Vem
jg (x)j 0:5Ifx<0g + 0:5Ifx 0g jxj
jxj
com = 0:5 2 (0; 1) : Assim, y é um processo ergódico. Neste caso muito particular, y
pode também escreve-se na forma yt = 0:5 jyt 1 j + "t e a aplicação da proposição 4.5.4 é
imediata.

8
< 1 + 0:5y + u yt <0
t 1 t 1
yt =
: 1 0:5y + u yt 0:
t 1 t 1
onde u é um ruído branco Gaussiano. A função g é
g (x) = Ifx<0g + 0:5xIfx<0g Ifx 0g 0:5xIfx 0g
= Ifx<0g Ifx 0g + 0:5Ifx<0g 0:5Ifx 0g x:
Assim,
jg (x)j 1 + 0:5Ifx<0g 0:5Ifx 0g jxj
1 + 0:5 jxj
e a proposição 4.5.4 aplica-se imediatamente com c = 1 e = 0:5 (ou = 0:5), pelo que y
é um processo ergódico.
98
4.5.3 Estabilidade em EDF
Chamamos equação às diferenças finitas (não estocásticas) EDF (de primeira ordem, para
simplificar) à equação
yt = g (yt 1 ) ; y0 = (condição inicial). (4.10)
A solução desta equação não tem componente aleatória e a sua dinâmica é completamente
determinada pela condição inicial e pela função g: Tong (1990) chama a g o esqueleto do
processo estocástico. O estudo qualitativo da EDF envolve, por exemplo, a análise do com-
portamento assimptótico de yt :
Seja
g (t) (x) = g(:::g(g (x)))
| {z }
t vezes
(por exemplo, g (2) (x) = g (g (x))). O estudo da função g (t) (x) é essencial na análise quali-
tativa das soluções. Concretamente, yt = g (t) (y0 ) fornece o valor de y no momento t como
função do valor inicial y0 : Sabendo g (t) podemos, por exemplo, estudar a sensibilidade da
solução face aos valores iniciais; permite também estudar o comportamento assimptótico
da solução quando t ! 1: Em certos casos, a estacionaridade e ergodicidade podem ser
deduzidas a partir da análise qualitativa das equações às diferenças finitas determinísticas
(EDFs). Por exemplo, considere-se a proposição 4.5.4 condição (c), no caso univariado
(g : R ! R), posta na forma jg (x)j < jxj (com c = 0). Resulta,
jg (y0 )j jy0 j
g (2) (y0 ) = jg (g (y0 ))j jg (y0 )j 2

jy0 j
:::
g (t) (y0 ) t
jy0 j
e, portanto, yt = g (t) (y0 ) ! 0 quando t ! 1; independentemente do valor inicial. Diz-

se nestes casos que o valor 0 é um ponto assimptoticamente estável8 . Observe-se que a
mesma condição que assegura a estacionaridade estrita no âmbito dos processos estocásticos,
assegura também a estabilidade assimptótica do ponto zero no âmbito das EDF (veja-se o
8
Na verdade, a definição é menos exigente: o valor zero é um ponto fixo assimptoticamente estável se existir
(t)
um 0 > 0 tal que a desigualdade jy0 j 0 implica g (y0 ) ! 0 quando t ! +1:
99
ponto 7.2).
4.5.4 Modelos Não Lineares do tipo yt = At yt 1 +Bt
Suponha-se que se analisa o modelo AR com coeficiente aleatório,
yt = ( t ) yt 1 + ut (4.11)
onde t é uma variável aleatória. Os principais resultados apresentados na secção anterior

não se aplicam, pois a equação (4.11) não pode ser representada na forma yt = g (yt 1 ; yt 2 ; :::; yt p )+
ut . A teoria assimptótica está especialmente desenvolvida para a seguinte classe de modelos
AR com coeficientes aleatórios:
Definição 4.5.4 Uma equação vectorial autoregressiva de dimensão d com coeficientes aleatórios
i.i.d. não negativos é uma equação da forma
y t = At y t 1 + Bt (4.12)
d
onde f(At ; Bt ) ; t 2 Zg é uma sucessão i.i.d. com valores em M+
d d (R+ ) :
Observe-se que M+
d d é o espaço das matrizes quadradas de ordem d de elementos todos
positivos.
Inúmeros processos não lineares podem ser representados na forma (4.12), como mostra
o
Exemplo 4.5.10 Considere-se o processo ut com heterocedasticidade condicionada de or-

dem (2; 1) ; (GARCH(2,1))
ut = t "t
2 2 2 2 2
t = !+ 1 ut 1 + 2 ut 2 + 1 t 1 + 2 t 2; !; i; i > 0:
Procure-se representar este processo na forma (4.12). Para o efeito, observe-se que
2 2 2 2 2 2 2
t = !+ 1 t 1 "t 1 + 2 t 2 "t 2 + 1 t 1 + 2 t 2
2 2 2 2
= !+ 1 "t 1 + 1 t 1 + 2 ut 2 + 2 t 2:
100
Tem-se 0 1 0 10 1 0 1
2 2 2
t 1 "t 1 + 1 2 2 t 1 !
B C B CB C B C
B C B CB C B C
B 2
t 1 C=B 1 0 0 CB 2t 2 C + B 0 C:
@ A @ A@ A @ A
u2t 1 "2t 1 0 0 u2t 2 0
| {z } | {z }| {z } | {z }
yt At yt 1 Bt
A matriz aleatória At e o vector Bt estão nas condições da definição 4.5.4.
A estacionaridade do processo (4.12) está discutida, por exemplo, em Basrak et al.

(2002). O resultado principal é dado pela
Proposição 4.5.5 Assuma-se, no âmbito da definição 4.5.4, E (log kA1 k) < 0 e E log+ kB1 k <
1 (log+ x = max (log x; 0)). Então o processo definido por (4.12) converge (com probabil-
idade um) e a sua solução é estritamente estacionária.
Na proposição anterior, as condições de estacionaridade apenas envolvem A1 e B1 ; e

não toda a sucessão fAt g e fBt g ; porque se admite que fAt g e fBt g são sequências i.i.d.
e, portanto, a avaliação de um elemento qualquer da sucessão é suficiente para estabelecer o
resultado desejado.
Uma versão (ligeiramente) mais geral da proposição anterior é apresentada Basrak et al.
(2002). Como habitualmente, kAk é a norma da matriz ou vector A:
Corolário 4.5.1 No caso escalar, d = 1;
yt = At yt 1 + Bt ;
+
assuma-se 1 E (log jA1 j) < 0 e E log jB1 j < 1: Então y converge (com probabili-
dade um) e a sua solução é estritamente estacionária.
Exemplo 4.5.11 Discuta-se a estacionaridade do processo
yt = j j yt 1 + jut j ;
onde u é ruído branco Gaussiano. No contexto do corolário 4.5.1 tem-se
At = j j ; Bt = jut j :
101
A condição E log+ jB1 j < 1 verifica-se imediatamente, tendo em conta a distribuição
assumida para u:9 Relativamente à outra condição, vem
E (log jA1 j) = E (log j j) = log j j :
Se log j j < 0; i.e., j j < 1 o processo é EE.
Exemplo 4.5.12 Discuta-se a estacionaridade do processo
+et
yt = e yt 1 + jut j (4.13)
onde é uma constante e et e ut são ruídos brancos Gaussianos com variância igual a 1, e
independentes entre si. No contexto do corolário 4.5.1 tem-se
+et
At = e ; Bt = jut j :
Como fAt g é uma sucessão positiva de v.a. i.i.d., a equação (4.13) respeita a definição
4.5.4 (e, assim, o corolário 4.5.1 é aplicável). A condição E log+ jB1 j < 1 verifica-
se imediatamente, tendo em conta a distribuição assumida para u: Relativamente à outra
condição, vem
+e1
E (log jA1 j) = E log e = E ( + e1 ) = :
Se < 0 então o processo y é EE.
Exemplo 4.5.13 Considere-se o processo ut com heterocedasticidade condicionada de or-

dem (1; 1) ; (GARCH(1,1))
ut = t "t
2 2 2
t = !+ 1 ut 1 + 1 t 1 !; 1; 1 > 0:
2
onde " é um ruído branco EE e independente de ut k ; k 2 N. O processo t pode escrever-se
na forma
2 2 2 2 2 2
t =!+ 1 t 1 "t 1 + 1 t 1 =!+ 1 "t 1 + 1 t 1:
9
Se u N (0; 1) ; então E (log juj) = 0:635: Pode mostrar-se que log juj função densidade de probabil-
e2y
+y
p
idade 2e 2 = 2 :
102
Tem-se assim
2
At = 1 "t 1 + 1 ; Bt B = !:
2
Verifica-se que (At ; B) é uma sucessão de v.a. positivas i.i.d. Para que t admita uma
solução estritamente estacionária é suficiente (pode mostrar-se que é também necessário)
+
que se verifiquem as condições do corolário 4.5.1, 1 E (log jA1 j) < 0 e E log jB1 j <
1: A segunda condição verifica-se imediatamente; a primeira estabelece
2
E (log jA1 j) = E log 1 "0 + 1 < 0: (4.14)
Nelson (1990) obteve esta condição10 , mas sem recorrer à proposição 4.5.5. Tem-se assim
2
que t é um processo EE. E quanto a ut ? Felizmente, não é necessário estudar directamente
ut ; pois sabe-se que se o processo f( 1t ; 2t )g é EE, uma qualquer função (mensurável) de
1t e 2t é ainda estritamente estacionária. Assim, se f( 2t ; "t )g é EE, então o processo u

definido por ut = t "t é também EE.
Exemplo 4.5.14 Retome-se o exemplo 4.5.10. Suponha-se que " é um ruído branco com
distribuição N (0; 1) : Considerando a norma
!
X
n
kAk = max jaij j ;
1 i n
j=1
tem-se
0 0 1 1
2
1 "0 + 1 2 2
B B C C
B B C C
log kA1 k = log B B 1 0 0 C C
@ @ A A
"20 0 0
1
2 2
= log max 1 "0 + 1 +j 2j +j 2 j ; 1; j"0 j
= max log 2
1 "0 + 1 +j 2j +j 2j ; 0; log j"0 j2 :
10
O valor esperado E log 1 "20 + 1 tem expressão conhecida, por exemplo, quando "0 N (0; 1) : O
programa Mathematica permite obter
r !
2
E log 1 "0 + 1 = er + log EulerGamma
2 2
3
HypergeometricPFQ f1; 1g ; 2; 2 ;2
:
A explicação destas funções pode ver-se no programa Mathematica.
103
Como E log j"0 j2 = 1:27036 < 0 e todos os parâmetros são positivos, a condição
E (log kA1 k) < 0 resume-se a
2
E log 1 "0 + 2 + 1 + 2 < 0:
No caso 2 = 2 = 0; obtém-se a condição já estabelecida (4.14).
4.5.5 Modelos Não Lineares do tipo yt = g (yt 1 ; ut )
Os modelos mais gerais são do tipo yt = g (yt 1 ; ut ) : No ponto anterior, a função g

decompõe-se na forma At yt 1 (fixando At ; g é linear no seu argumento) e no caso yt =
g (yt 1 )+ut , anteriormente tratado, g; dado yt 1 ; não depende de uma componente aleatória.
O próximo resultado envolve os conceitos de aperiodicidade e irredutibilidade. Suponha-
se que o espaço de estados de y é f1; 2; 3g. Imagine-se que o processo tem início no estado
1. Se y retorna ao estado 1 sempre em dois passos (por exemplo, visita 2 e volta a 1, ou visita
3 e volta a 1) o processo não é aperiódico. Irredutibilidade significa, grosso modo, que um
processo pode visitar qualquer estado qualquer que seja o estado em que se encontre.
Para processos com espaço de estados contínuo, a seguinte proposição assegura a irre-
dutibilidade (Mokkadem, 1985):
Proposição 4.5.6 Suponha-se que para qualquer conjunto A RN com medida de Lebesgue
não nulo e qualquer conjunto compacto B; existe um inteiro t > 0 tal que
inf P (yt 2 Aj y0 = x) > 0: (4.15)

x2B
Então o processo y é irredutível.
1
Defina-se kyt kq := E (kyt kq ) q :
Proposição 4.5.7 Considere-se o processo multivariado fyg definido por
yt = g (yt 1 ; ut )
onde fut g é uma sucessão de vectores i.i.d.. Suponha-se que y é um processo aperiódico e
irredutível. Suponha que existem escalares K > 0, 2 (0; 1) e q > 0 tal que g está bem
104
definida e é contínua com respeito ao primeiro argumento e
kg (x; u1 )kq < kxk ; kxk > K:
Então fyt g é geometricamente ergódico e EE.
Exemplo 4.5.15 Retome-se o exemplo 4.5.13,
2 2 2
t =!+ 1 "t 1 + 1 t 1
supondo " é um ruído branco Gaussiano com variância igual a 1. A proposição 4.5.5 é
a mais adequada para tratar este caso. No entanto, também 4.5.7 pode ser invocada. O
processo é obviamente aperiódico, tendo em conta a distribuição de ": Não é fácil verificar-
se (4.15), pois as probabilidades de transição a n passos não são conhecidas. É no entanto
2
pacífico assumir-se que t; para algum t > 0; pode atingir qualquer conjunto A; qualquer
2
que seja a condição inicial. Assuma-se, assim, que t é irredutível. Tem-se,
2
g (x; u1 ) = ! + 1 "1 + 1 x
e escolha-se, no contexto da proposição 4.5.7, q = 1: Assim,
2
kg (x;"1 )k1 = E ! + 1 "1 + 1 x :
Em que circunstâncias se verifica
2
E !+ 1 "1 + 1 x < jxj ; jxj > K ?
Para jxj suficientemente grande, tal que jxj > K; o valor de ! é irrelevante11 . Assuma-se
assim ! = 0: Vem
2 2
E 1 "1 + 1 x =E 1 "1 + 1 x < jxj ; jxj > K
2
se e só se E (j 1 "1 + 1 j) < 2 (0; 1) : A condição de estacionaridade estrita está encon-
11
Considere-se, por exemplo, j! + 0:98xj < 0:99 jxj : Esta desigualdade não se verifica para todo o x 2 R.
No entanto, para qualquer valor de !; existe certamente um K tal que jxj > K ) j! + 0:98xj < 0:99 jxj :
105
trada:
2
E 1 "1 + 1 < 1:
2
Atendendo a 1 "1 + 1 > 0 e E ("21 ) = 1; a condição pode reescrever-se na forma
2
E 1 "1 + 1 = 1 + 1 < 1: (4.16)
2
Esta condição não é equivalente à obtida no exemplo 4.5.13, E (log ( 1 "0 + 1 )) < 0 (as
proposições 4.5.5 e 4.5.7, em geral, conduzem a condições suficientes, mas não necessárias).
Estas duas condições são discutidas no ponto 8.4.
4.A Demonstrações
Demonstração da proposição 4.5.1
@
Para simplificar, suponha-se que existe a densidade fn (yj x) = F
@y n
(yj x) : Considere-
se n ! 1 em ambos os lados da equação (4.7). Como fn (yj x) f (y) converge para zero
na norma kk, a equação (4.7) com n ! 1 é
Z
f (y) = f1 (yj u) f (u) du: (4.17)
Por hipótese, y0 (valor inicial) tem densidade estacionária fy0 = f: Resulta de (4.17) que y1
também tem densidade estacionária f; pois
Z Z
fy1 (y) = f1 (yj u) fy0 (u) du = f1 (yj u) f (u) du = f (y) :
Por indução, conclui-se que fyt (y) = f (y) qualquer que seja t. Por outro lado, devido à
homogeneidade e à propriedade de Markov, a densidade conjunta de (yn ; yn 1 ; :::; y1 ; y0 )
fyn ;yn 1 ;:::;y1 ;y0 (xn ; xn 1 ; :::; x1 ; x0 ) = f1 (xt j xt 1 ) f1 (xt 1 j xt 2 ) :::fy0 (x0 )
é igual à densidade conjunta de (yn+k ; yn+k 1 ; :::; yk+1 ; yk )
fyn+k ;yn+k 1 ;:::;yk+1 ;yk

(xn ; xn 1 ; :::; x1 ; x0 ) = f1 (xt j xt 1 ) f1 (xt 1 j xt 2 ) :::fyk (x0 ) ;
pois f1 (yj x) não depende do momento em que é calculada (apenas depende dos argumentos
106
y e x) e fy0 (x0 ) = fyk (x0 ) = f (x0 ).
107
Página em branco
108
Parte II
Modelos
109
Página em branco
110
Capítulo 5
O Problema da Especificação
5.1 O Axioma da Correcta Especificação do Modelo

Seja yt o valor de uma variável económica no momento t: Em termos abstractos temos
a sucessão (ou colecção) de variáveis aleatórias fyt ; t 2 Zg ou fyt ; t 2 N0 g : Uma série
económica é apenas uma subsucessão de fyt ; t 2 N0 g : A série económica depende de in-
úmeros factores: leis económicas, choques externos, puro acaso, etc.
O verdadeiro comportamento de yt é desconhecido. Pode ser caracterizado por aquilo
a que se chama data generation process (DGP) e é definido como a lei de probabilidade
conjunta de fyt ; yt 1 ; :::g:
Ft0 (yt ; yt 1 ; :::) ou ft0 (yt ; yt 1 ; :::) :
A distribuição conjunta ou a densidade conjunta (que se admite existir) descrevem comple-

tamente a sucessão em termos probabilísticos (incorpora tudo o que influencia yt ). Note-se
que as funções Ft0 ou ft0 são desconhecidas. Além disso, dependem de t; porque se admite
a possibilidade de y ser não estacionário. O DGP pode ser equivalentemente descrito pelas
densidades condicionais (supondo que existem)
ft0 (yt j Ft 1 ) ; t = :::; 1; 0; 1; :::
111
Com efeito (usando a propriedade P (A \ B) = P (Aj B) P (B));
ft0 (yt ; yt 1 ; :::) = ft0 (yt j yt 1 ; :::) ft0 1 (yt 1 ; yt 2 :::) (5.1)
= ft0 (yt j yt 1 ; :::) ft0 1 (yt 1 j yt 2 ; :::) ft0 2 (yt 2 ; yt 3 :::)
= ...
= ft0 (yt j yt 1 ; :::) ft0 1 (yt 1 j yt 2 ; :::) :::f10 (y1 j y0 ; :::) :::
Logo a sucessão fft0 (yt j Ft 1 )g fornece a mesma informação que f 0 (yt ; yt 1 ; :::). Por ex-
emplo, suponha-se que se simula o seguinte modelo:
y1 N (0; 1)
yt = 0:5yt 1 + "t ; "t é um ruído branco N (0; 1) ; t = 2; 3
Logo, o DGP da simulação é
f 0 (y3 ; y2 ; y1 ) = f 0 (y3 j y2 ; y1 ) f 0 (y2 ; y1 )
= f 0 (y3 j y2 ; y1 ) f 0 (y2 j y1 ) f 0 (y1 )
= f 0 (y3 j F2 ) f 0 (y2 j F1 ) f 0 (y1 ) ;
e, portanto, pode ser completamente caracterizado pela distribuição condicional yt j Ft 1
N (0:5yt 1 ; 1) e pela distribuição do valor inicial (se o processo fosse iniciado em t = 1

o DGP seria caracterizado apenas pela distribuição condicional).
Um modelo econométrico é definido pelo investigador e procura aproximar o melhor
possível o DGP através de um modelo
M (yt ; yt 1 ; :::; dt ; )
onde é um vector de parâmetros e dt inclui variáveis não aleatórias que procuram modelar
alterações no DGP ao longo do tempo (como por exemplo, variáveis artificiais determinísti-
cas, tendências, etc.).
Este modelo encerra uma hipótese quanto à fdp condicional, ft (yt j dt ; Ft 1 ; ) e, por-
tanto, quanto aos momentos condicionais, como por exemplo E (yt j dt ; Ft 1 ; ) e Var (yt j dt ; Ft 1 ; ) :
O axioma da correcta especificação do modelo M traduz-se da seguinte forma: existe um 0
112
tal que
ft (yt j dt ; Ft 1 ; 0) = ft0 (yt j Ft 1 ) :
De forma análoga, os dois primeiros momentos condicionais estão correctamente especifi-

cados se existir um 0 tal que
Z
E (yt j dt ; Ft 1 ; ) = yft0 (yj Ft 1 ) dy
Z Z 2
Var (yt j dt ; Ft 1 ; ) = y 2 ft0 (yj Ft 1 ) dy yft0 (yj Ft 1 ) dy :
Na prática, a hipótese da correcta especificação é implausível, embora seja geralmente

conveniente invocá-la como forma de estruturar e interpretar os resultados estatísticos. De
todo o modo, o objectivo é claro: devemos procurar uma fdp ft (yt j dt ; Ft 1 ; 0) que esteja
o mais próximo possível da verdadeira mas desconhecida densidade f 0 (yt j Ft 1 ).
5.2 Modelação da Média Condicional e Modelos Dinami-

camente Completos
5.2.1 Modelos Dinamicamente Completos
Generalize-se a análise e admita-se que a yt depende dos valores correntes e passados de

xt . Seja It = Ft 1 [ FtX onde FtX é o conjunto de informação contendo todas as variáveis
explicativas até ao período t: Assim, It = fyt 1 ; yt 2 ; :::; xt ; xt 1 ; :::g. O primeiro passo na
construção do modelo M é o da definição da média condicional, o que significa que devemos
identificar todas as variáveis explicativas de yt . Por exemplo, suponha-se que as variáveis
relevantes para explicar um certo fenómeno yt são xt e yt 1 : Normalmente expressamos esta
nossa convicção sobre o poder explicativo xt e yt 1 escrevendo yt = 1+ 2 xt + yt 1 + ut ;
sendo ut é o termo de erro. É importante sublinhar que nada de relevante é dito sobre
o modelo se não adiantarmos uma hipótese sobre o comportamento de ut : Se dissermos
que E (ut ) = 0 apenas podemos concluir que E (yt ) = 1 + 1 E (xt ) + E (yt 1 ) : Se
adicionalmente dissermos que Cov (ut ; xt ) = Cov (ut ; yt 1 ) = 0 então (pode-se provar que)
1 + 2 xt + yt 1 é o melhor previsor linear de yt : Se a nossa hipótese é E (ut j It ) = 0

acrescentamos bastante mais informação: de facto, reclamamos que a média condicional é
E (yt j It ) = 1 + 2 xt + yt 1 : Todavia, nenhuma suposição é feita quanto a distribuição
113
condicional de yt :
Seja xt o vector das variáveis explicativas. No exemplo anterior tem-se xt = (xt ; yt 1 ) ;
e pode-se verificar que E (yt j xt ) = E (yt j It ) : De uma forma geral, quando é válida a
igualdade E (yt j xt ) = E (yt j It ) diz-se que o modelo é dinamicamente completo. Veja um
caso onde o modelo não é dinamicamente completo. Considere-se,
yt = 1 + 2 xt + 3 yt 1 + ut ; ut = 2 ut 2 + "t (5.2)
sendo f"t g um RB. Este modelo não é dinamicamente completo, pois
E (yt j It ) = 1 + 2 xt + 3 yt 1 + ut 2
não coincide com
E (yt j xt ) = E (yt j xt ; yt 1 ) = 1 + 2 xt + 3 yt 1 :
No entanto, é fácil obter um modelo dinamicamente completo a partir de (5.2). Como
ut = yt ( 1 + 2 xt + 3 yt 1 ) )
ut 2 = yt 2 ( 1 + 2 xt 2 + 3 yt 3 )
tem-se, a partir da representação (5.2),
yt = 1 + 2 xt + 3 yt 1 + ut
= 1 + 2 xt + 3 yt 1 + 2 ut 2 + "t
= 1 + 2 xt + 3 yt 1 + 2 (yt 2 ( 1 + 2 xt 2 + 3 yt 3 )) + "t
= 1 1 2 + 2 xt + 3 yt 1 + 2 yt 2 2 2 xt 2 3 2 yt 3 + "t :
A equação anterior pode ainda escrever-se na forma
yt = 1 + 2 xt + 3 yt 1 + 4 yt 2 + 5 xt 2 + 6 yt 3 + "t : (5.3)
O vector xt passa agora a ser xt = (xt ; yt 1 ; yt 2 ; xt 2 ; yt 3 ) e o modelo (5.3) é dinamica-
114
mente completo pois
E (yt j It ) = E (yt j xt ) = 1 + 2 xt + 3 yt 1 + 4 yt 2 + 5 xt 2 + 6 yt 3 :
Num modelo dinamicamente completo, o conjunto das variáveis explicativas xt capta toda
a dinâmica do processo, de tal forma que os erros não são autocorrelacionados (vale a pena
acrescentar que um modelo dinamicamente completo não pode ter erros autocorrelaciona-
dos).
Que diferenças existem entre os modelos (5.2) e (5.3)? O estimador OLS aplicado a
(5.3) é consistente; mas aplicado a (5.2) é inconsistente, pois o regressor yt 1 está correla-
cionado com os erros ut (E (ut j xt ) 6= 0). Claro que no modelo (5.2) deve usar-se um
método de estimação consistente, como por exemplo, o método FGLS ou o método da máx-
ima verosimilhança. Quando são usados métodos de estimação apropriados, do ponto de
vista estatístico - por exemplo, previsão ou ajustamento - os modelos acima discutidos são
(quase) equivalentes (e, portanto, é indiferente usar-se um ou o outro). Do ponto de vista da
interpretação económica o modelo (5.3) pode ser preferível, pois identifica claramente todos
os regressores “influentes” na explicação das variações de y: Mas, também pode suceder
o contrário! Suponha-se que a teoria económica postula para certo fenómeno a relação
yt = 1 + 2 xt + ut : É esta a relação que queremos estimar, mesmo que ut possa exibir
autocorrelação.
5.2.2 Média Condicional Não Linear
Suponha-se que a média condicional é dada por
E (yt j Ft 1 ) = g (yt 1 ; yt 2 ; ::; yt p ; ut 1 ; ut 2 ; :::ut q )
(não estando presente a variável explicativa xt ; a -algebra relevante é Ft e não It ; como no

exemplo anterior). Diz-se que o modelo yt = g (yt 1 ; yt 2 ; ::; yt p ; ut 1 ; ut 2 ; :::ut q ) + ut
é não linear na média se g é uma função não linear dos seus argumentos. Vejamos alguns
exemplos. No caso
yt = yt 1 + log 1 + yt2 1 + ut ; E (ut j Ft 1 ) = 0;
115
tem-se um modelo não linear na média, pois, E (yt j Ft 1 ) = yt 1 + log 1 + yt2 1 é uma
função não linear de yt 1 : Também
y t = u t 1 ut 2 + ut ; E (ut j Ft 1 ) = 0
é um modelo não linear, pois E (yt j Ft 1 ) = ut 1 ut 2 é não linear nos valores passados de
ut : Outro exemplo é Modelo Threshold
8
<
1 yt 1 + ut se yt 1 >k
yt =
:
2 yt 1 + ut se yt 1 k:
com E (ut j Ft 1 ) = 0: Desenvolveremos modelos não lineares com algum detalhe no ponto
7.
5.3 Modelação da Variância Condicional

Definida a média condicional, pode haver interesse em explicar a variabilidade de yt ao longo
do tempo. No modelo clássico de séries temporais assume-se que a variância condicional é
constante ao longo do tempo. Essa hipótese não é credível em séries temporais financeiras.
No ponto 8 discutiremos esta questão em detalhe. Uma forma de introduzir um modelo
de variância condicional não constante consiste em definir o termo de erro da equação yt =
E (yt j Ft 1 ) + ut da seguinte forma ut = t "t ; onde "t é um ruído branco de variância igual a
1 ou, mais geralmente, uma diferença de martingala (com variância finita igual a 1). Resulta
2
Var (yt j Ft 1 ) = Var (ut j Ft 1 ) = Var ( t "t j Ft 1 ) = t:
2
A tarefa do investigador é a de definir uma função adequada para t: No ponto 8 aborda-se
de forma detalhada esta questão.
5.4 Distribuição de Condicional

Definida a média condicional e a variância condicional e, eventualmente, outros momentos
condicionais de ordem superior, pode haver interesse em modelar toda a estrutura probabilís-
tica do processo. Para o efeito é necessário no contexto da equação yt = E (yt j Ft 1 ) + ut
116
com ut = t "t ; especificar uma distribuição para "t : Por exemplo, se a proposta do investi-
gador é "t N (0; 1) ; resulta que distribuição condicional de yt é
yt j Ft 1 N (E (yt j Ft 1 ) ; Var ( yt j Ft 1 )) ;
e toda a estrutura probabilística fica definida. No contexto do ponto 5.1, a densidade definida
para yt j Ft 1 representa a função ft (yt j dt ; Ft 1 ; ).
117
Página em branco
118
Capítulo 6
Modelação da Média: Abordagem Linear
Neste capítulo vamos focar modelos lineares na média. Considere-se o modelo
yt = t + ut (6.1)
onde ut são os erros e t = g (yt 1 ; yt 2 ; ::; yt p ; ut 1 ; ut 2 ; :::ut q ) é a média condicional.

De acordo com a regra adoptada adiante, entende-se que o modelo (6.1) é linear na média se
a função g é linear nos seus argumentos. Por exemplo, a especificação t = yt 1 + ut 1
é linear (a função g é g (x1 ; x2 ) = x1 + x2 ) ao passo que t = yt2 1 (g (x) = x2 ) é não

linear.
Toma-se como variável dependente y (pode ser um retorno de um título, a variação
da taxa de câmbio, uma taxa de juro, etc.). Começaremos por admitir que a única infor-
mação que dispomos sobre y é a própria série. Como explicar yt a partir da informação
Ft 1 = fyt 1 ; yt 2 ; :::g? Se yt não está correlacionado de alguma forma com os seus valores
passados yt 1 ; yt 2 ; ::: a abordagem de séries temporais é inútil. Pelo contrário, se existe ev-
idência de autocorrelação, então os valores passados da série podem explicar parcialmente o
movimento de y e um modelo linear na média pode ser apropriado. Na prática, teremos de es-
colher um modelo concreto. Por exemplo, yt = c+ yt 1 +ut ou yt = c+ 1 yt 1 + 2 yt 2 +ut
ou yt = c + 1 ut 1 + ut entre muitos outros. Como seleccionar o modelo apropriado? A au-

tocorrelação (total) e autocorrelação parcial são dois conceitos chave na fase da identificação
do modelo. Iremos analisá-los de seguida.
119
6.1 Definições Preliminares
6.1.1 Autocorrelação de Ordem s (FAC)
Suponha-se que y é um processo ESO. Para medir a associação linear entre yt e yt s já vimos
que se toma o coeficiente de autocorrelação de ordem s;
Cov(yt ; yt s )
s =p
Var (yt ) Var (yt s )
onde
Cov(yt ; yt s ) = E ((yt E (yt )) (yt s E (yt s )))

= E (yt yt s ) E (yt ) E (yt s ) :
Convencione-se chamar s a Cov (yt ; yt s ) e 0 a Var (yt ) 1 : Como Var (yt ) = Var (yt s )
vem
Cov(yt ; yt s )
s =p = ps 2 = s
:
Var (yt ) Var (yt s ) 0 0
Naturalmente, devido à desigualdade de Chaucy-Schwarz2 , tem-se
j sj 1.
6.1.2 Autocorrelação Parcial de Ordem s (FACP)
Quando se calcula a correlação entre, por exemplo, yt e yt 2 ; por vezes sucede que a cor-
relação detectada se deve ao facto de yt estar correlacionado com yt 1 ; e yt 1 ; por sua vez,
estar correlacionado com yt 2 : Com a autocorrelação parcial procura-se medir a correlação
entre yt e yt s eliminando o efeito das variáveis intermédias, yt 1 ; :::; yt s+1 : A análise desta
forma de autocorrelação é importante na medida em que permite, juntamente com a FAC,
identificar o processo linear subjacente.
No âmbito do modelo de regressão linear, sabe-se que uma forma de medir a associação
parcial ceteris paribus entre, por exemplo, y e x1 consiste em considerar a regressão y =
0 + 1 x1 + 2 x2 +:::+ k xk +u: Com este procedimento 1 representa o efeito ceteris paribus
1
Na verdade, adoptando a convenção s = E ((yt E (yt )) (yt s E (yt s ))) resulta, por definição, 0 =
E ((yt E (yt )) (yt E (yt ))) = Var (yt ) :
1=2 1=2
2 2 2 2 2
Suponha-se que E jXj < 1 e E jY j < 1: Então E (jXY j) E jXj E jY j :
120
de uma variação unitária de x1 sobre y: Mede-se, portanto, o impacto de x1 sobre y depois
do efeito das variáveis x2 ; :::; xk ter sido removido ou fixo. Para obtermos as autocorrelações
parciais seguimos um procedimento similar.
Considere-se:
yt = c + 11 yt 1 + t
yt = c + 21 yt 1 + 22 yt 2 + t
yt = c + 31 yt 1 + 32 yt 2 + 33 yt 3 + t
:::
yt = c + s1 yt 1 + s2 yt 2 + ::: + ss yt s + t
A autocorrelação parcial de ordem i é dada pelo coeficiente ii : Por exemplo, a autocorre-

lação parcial de ordem 2 é dada pelo coeficiente 22 na regressão
yt = c + 21 yt 1 + 22 yt 2 + t: (6.2)
Podemos usar o OLS para obter ^ 22 : Este coeficiente mede a relação entre yt e yt 2 depois
do efeito de yt 1 ter sido removido. kk também pode ser estimado através da expressão
P
^ kk = Pt rt;k yt
2
t rt;k
onde rt;k é o resíduo da regressão linear de yt k sobre um termo constante e (yt 1 ; :::; yt k+1 ) :
Os resíduos rt;k podem ser interpretados como a variável yt k depois dos efeitos das variáveis
(yt 1 ; :::; yt k+1 ) terem sido removidos. Donde ^ kk mede o efeito entre yt e yt k depois do
efeito das variáveis intermédias ter sido removido.
Uma outra forma alternativa de obter ii (como função dos 0 s) está descrita no apêndice
6.A. Sob H0 : kk =0
p d
Z= n ^ kk ! N (0; 1) :
121
6.1.3 Operador de Diferença e de Atraso
O operador diferença é bem conhecido:
yt = yt yt 1 ;
2
yt = ( yt ) = (yt yt 1 ) = yt yt 1
= yt yt 1 (yt 1 yt 2 ) = yt 2yt 1 + yt 2 :
O operador de atraso ou de desfasamento L (lag) define-se como
Lyt = yt 1 :
Resulta da definição,
L2 y t = L (Lyt ) = Lyt 1 = yt 2 ;
Lp yt = yt p ;
Lp ut = ut p :
Naturalmente, podemos combinar os operadores. Por exemplo,
L yt = L (yt yt 1 ) = yt 1 yt 2 :
Com o operador L podemos escrever, por exemplo,
yt 1 yt 1 2 yt 2 = + 1 ut 1 + ut
na forma,
2
yt 1 Lyt 2 L yt = + 1 Lut + ut
2
1 1L 2L yt = + (1 + 1 L) ut
2 (L) yt = + 1 (L) ut :
2
Obs.: 2 (L) = 1 1L 2L e 1 (L) = 1 + 1L são polinómios em L: Certos autores,
sobretudo da área das sucessões cronológicas, preferem a letra B (backshift) para designar o
mesmo operador de atraso.
122
6.2 Processos Lineares Estacionários
A decomposição de Wold fornece uma motivação para os modelos de médias móveis (ver a
seguir). Wold mostrou que um processo y ESO pode escrever-se na forma
yt = Vt + ut + 1 ut 1 + 2 ut 2 + ::: (6.3)
P1 2
onde ut é um RB, Vt é um processo determinístico e i=1 i < 1:
A decomposição destaca que qualquer processo ESO (linear ou não linear) tem uma
representação linear nos erros de regressão (podemos também dizer, nos erros de previsão)
ocorridos no passado. No entanto, o modelo (6.3) não pode ser implementado porque exis-
tem infinitos parâmetros para estimar.
Vamos procurar representações lineares parcimoniosas, inspiradas em (6.3).
Exemplos:
y t = ut + 1 ut 1 ( 1 = 1; 2 = 3 = ::: = 0)
y t = ut + 1 ut 1 + 2 ut 2 ( 1 = 1; 2 = 2; 3 = 4 = ::: = 0)
Veremos que os processos do tipo
yt = c + yt 1 + ut
podem também escrever-se na forma (6.3) (com restrições sobre os i ). Veremos tam-
bém que a melhor aproximação linear parcimoniosa que podemos efectuar à estrutura (6.3),
supondo Vt = 0; baseia-se no chamado modelo ARMA.
6.2.1 Processos Média Móvel
Processo M A (1)
O processo MA(1) é dado por
yt = + ut 1 + ut = + (1 + L) ut
onde ut é um ruído branco. Este modelo representa yt como uma combinação linear de
choques aleatórios (ut 1 e ut ). Outra forma de interpretarmos o modelo consiste em imaginar
123
que yt resulta de um mecanismo de correcção: podemos utilizar o erro cometido no período
anterior, ut 1 ; como regressor (i.e., como variável explicativa) do modelo (por exemplo,
veremos que a previsão de y baseia-se, em parte, no erro de previsão cometido no período
anterior). Este modelo é indicado para modelar fenómenos de memória muito curta pois a
autocorrelação de y extingue-se muito rapidamente, como veremos a seguir.
Momentos Marginais
Os primeiros momentos marginais (ou não condicionais) são
E (yt ) = E ( + ut 1 + ut ) =
2 2 2
Var (yt ) = Var ( + ut 1 + ut ) = + :
Covariâncias e Autocorrelações
1 = Cov (yt ; yt 1 ) = E ((yt ) (yt 1 ))
= E (( ut 1 + ut ) ( u t 2 + ut 1 ))
2
= E ut 1 ut 2 + u2t 1 + u t ut 2 + ut ut 1
2
= 0+ +0+0
Pode-se provar
s = 0 para s > 1:
O processo yt é ESO pois E (yt ) e Var (yt ) são constantes e s não depende de t. Conclui-
se agora que as autocorrelações são dadas por
2
1
1 = = 2 2 2
= 2 .
0 + +1
s = 0 para s > 1:
Relativamente às autocorrelações parciais tem-se
11 = 1 = 2 ,
+1
e (pode-se provar)
s 2
1
ss = 2(s+1)
:
1
Momentos Condicionais
124
Os momentos condicionais são imediatos:
E (yt j Ft 1 ) = E ( + ut 1 + ut j Ft 1 ) = + ut 1 :
2
Var (yt j Ft 1 ) = E (yt E (yt j Ft 1 )) Ft 1 = E u2t Ft 1 = 2
:
Se ut é um ruído branco Gaussiano então
2
yt j Ft 1 N + ut 1 ; :
Invertibilidade
Considere-se um processo MA(1) (sem perda de generalidade) de média nula, yt =
ut 1 + ut ; onde ut é um ruído branco. Naturalmente, y pode escrever-se na forma
1
yt = (1 + L) ut ou yt (1 + L) = ut
Atendendo ao desenvolvimento em série de potência de (1 + L) 1 ,
1 2
=1 L+ L2 :::; j j<1
1+ L
tem-se, para j j < 1,
1
yt (1 + L) = ut
2
yt 1 L+ L2 ::: = ut
2
yt = yt 1 yt 2 + ::: + ut : (6.4)
Diz-se neste caso, com j j < 1 que yt é invertível, isto é, tem representação autoregressiva3 .
O facto do processo MA(1) (e, mais geralmente, o processo MA(q)) ter representação do
tipo (6.4) explica por que razão a função de autocorrelação parcial ii é não nula para todo o
i (porquê?).
A invertibilidade é uma propriedade exigível na previsão: garante que a informação re-
mota sobre o processo é irrelevante. Imagine-se o caso contrário, i.e. o processo não in-
vertível. Isto significa que j j > 1 e, pela equação (6.4), a informação mais atrasada tem
mais peso na previsão y (a rigor a representação (6.4) não está bem definida no caso j j > 1;
3 2
No caso yt = + ut 1 +ut , j j < 1; a representação autoregressiva é yt = 1+ + yt 1 yt 2 +:::+ut :
125
no entanto, a ideia essencial mantém-se).
Um processo não invertível pode transformar-se num processo invertível com funções de
autocorrelação e autocorrelações parciais iguais (ver apêndice 6.B).
Processo M A (q)
O processo MA(q) é dado por
yt = + 1 ut 1 + 2 ut 2 + ::: + q ut q + ut ;
q
= + (1 + 1L + ::: + q L ) ut
= + q (L) ut .
O processo yt continua a representar-se como uma combinação linear de choques aleatórios,

desta vez, em função de ut q ; ::: ut . Pode-se provar:
E (yt ) =
2 2 2
Var (yt ) = 1+ 1 + ::: + q
8
< =
6 0 se k = 1; 2; :::; q
k =
: 0 se k = q + 1; q + 2; :::
Pode-se provar ainda:
kk 6= 0, mas kk ! 0; quando k ! 1:
Proposição 6.2.1 yt é invertível se as raízes de q (L) (i.e. as soluções de q (L) = 0) são em

módulo superiores a um (ou fora do circulo unitário no plano complexo). Equivalentemente,
yt é invertível se as raízes inversas de q (L) (i.e. 1=L onde L são as soluções de q (L) = 0)
são em módulo inferiores a um (ou dentro do circulo unitário no plano complexo).
No caso MA(1) a proposição 6.2.1 é equivalente a exigir j 1 j < 1 (ou j1= 1 j > 1).
Observe-se que 1= 1 é solução de 1 + 1L = 0: No caso MA(2)
2
yt = + 1 ut 1 + 2 ut 2 + ut = + 1+ 1L + 2L ut
126
a proposição 6.2.1 traduz-se da seguinte forma: yt é invertível se
1 + 2 > 1; 1 2 < 1; 1< 2 < 1:
No caso MA(q), q > 2 é necessário calcular as raízes de q (L) :

O apêndice 6.C fornece alguns exemplos e refere-se ao programa EVIEWS.
6.2.2 Processos Autoregressivos
Processo AR(1)
O processo AR(1) é dado por
yt = c + yt 1 + ut (6.5)
onde ut é ruído branco independente de yt 1 . Este modelo é muito importante porque repro-
duz razoavelmente a dinâmica de muitas séries económicas e financeiras.
Momentos Marginais
Comece-se por calcular a média marginal
E (yt ) = E (c + yt 1 + ut ) = c + E (yt 1 ) :
(temos uma equação recorrente em E (yt ): este valor esperado depende de E (yt 1 ) que, por
sua vez, depende de E (yt 2 ) e assim sucessivamente). Se assumirmos à partida a condição
de ESO (implicando E (yt ) = E (yt 1 ) = E (y)) vem
c
E (y) = c + E (y) ) E (y) =
1
Seguindo um raciocínio idêntico vem:
2
Var (yt ) = Var (c + yt 1 + ut ) = Var (yt 1 ) + Var (ut )
2 2
= Var (yt 1 ) +
Sob a hipótese de ESO, tem-se Var (yt ) = Var (yt 1 ) = Var (y) e, portanto,
2
2 2
Var (yt ) = Var (y) + ) Var (y) = 2:
1
127
Covariâncias e Autocorrelações
Calcule-se agora as covariâncias. Como estas não dependem da média de yt , simplifique-
se fazendo c = 0: Suponha-se j j < 1: A covariância 1 é dada por
1 = Cov (yt ; yt 1 ) = E (yt yt 1 )
= E (E (yt yt 1 jFt 1 )) = E (yt 1 E (yt jFt 1 ))
= E (yt 1 E ( yt 1 + ut jFt 1 )) =E yt2 1

2
= 2:
1
A covariância de ordem k é
k = E (yt yt k ) = E (E (yt yt k jFt k )) = E (yt k E (yt jFt k ))
Para desenvolvermos a expressão precisamos de calcular primeiro E (yt jFt k): Ora
yt = yt 1 + ut
= ( yt 2 + ut 1 ) + ut
2
= yt 2 + ut 1 + ut
k k 1 k 2
= ::: = yt k + ut k+1 + ut k+2 + ::: + ut 1 + ut
pelo que
k
E (yt j Ft 1 ) = yt k
(todos os outros termos são nulos). Tem-se assim,
2
k k 2 k k
k = E yt k yt k = E yt k = 2 = 0:
1
Uma forma alternativa de obter este valor é a seguinte. Multiplique-se ambos os termos da
equação (6.5) por yt k (sem perda de generalidade, considere-se c = 0). Resulta
yt yt k = yt 1 yt k + ut yt k :
128
Tomando o valor esperado e tendo em conta que E (ut yt k ) = 0; obtém-se
k = k 1:
Logo,
1 = 0;
2
2 = 1 = 0
:::
k
k = 0:
Finalmente,
k
k 0 k
k = = = .
0 0
Tendo em conta a definição de autocorrelação parcial, tem-se:
yt = c + 11 yt 1 + t ) 11 = 1
yt = c + 21 yt 1 + 22 yt 2 + t ) 22 =0
Assim, 8
< se k = 1
1
kk =
: 0 se k > 1
Os dois primeiros momentos condicionais são
E (yt j Ft 1 ) = E (yt j yt 1 ) = E ( yt 1 + ut j yt 1 ) = yt 1 ,
Var (yt j Ft 1 ) = E (yt yt 1 )2 yt 1 = E u2t yt 1 = 2

:
Se ut é um ruído branco Gaussiano então
2
yt j Ft 1 N yt 1 ; .
Pode-se provar que a condição de estacionaridade do processo AR(1) é (ver apêndice

6.D)
j j < 1:
129
Invertibilidade
O processo AR é sempre invertível (por definição já tem representação autoregressiva).
Reversão para a Média
Processos estacionários com média finita são, por vezes, designados por processos com
reversão para a média. Exemplifique-se com o processo AR(1)
yt = c + yt 1 + ut ; j j < 1.
c
Como = 1
)c= (1 ) (note-se que é a média de y; E (yt )) podemos reescrever
o AR(1) na seguinte forma:
yt = (1 ) + yt 1 + ut
yt = (1 )+( 1) yt 1 + ut
= ( 1) (yt 1 ) + ut
Esta última equação permite estabelecer as seguintes relações:
(yt 1 ) > 0 ) E ( yt j Ft 1 ) < 0
(yt 1 ) < 0 ) E ( yt j Ft 1 ) > 0:
Por exemplo, se num certo período (digamos t 1) o valor de y está acima da sua média
de longo prazo (i.e. y está relativamente alto) no período seguinte y tenderá a diminuir de
valor pois E ( yt j Ft 1 ) < 0. Quando é positivo (esta é a situação habitual em aplicações),
é possível concluir que quanto mais alto for (sem, contudo ultrapassar o valor 1) mais
lenta é a velocidade de ajustamento de y em direcção à sua média de longo prazo. Suponha
que o processo y sofre um choque aleatório considerável (ou que é inicializado num valor
afastado da sua média de longo prazo). Como é que y evolui nos períodos seguintes? Tende a
aproximar-se rapidamente ou lentamente de ? (pode mesmo suceder que não haja qualquer
efeito de reversão para uma medida de tendência central se, no limite, = 1). Na figura 6-1
estão representados quatro processos AR(1) simulados de acordo com o modelo
2
yt = 100 (1 ) + yt 1 + ut ; ut ruído branco Gaussiano =1
Em todos os casos, o valor de inicialização é y0 = 0 e usam-se os mesmos erros u. Quanto
130
120
100
80
fhi=0.1
60
y fhi=0.8
40
fhi=0.98
20 fhi=1
0
-20
1 26 51 76 101 126 151 176
Figura 6-1: Simulação de quatro processos AR(1) (choques aleatórios ut iguais e valor de
inicialização y0 = 0)
mais alto é o valor mais lento é o ajustamento de y face à média de longo prazo y: No caso
= 1 não existe reversão para ; embora o processo possa cruzar = 100 (assim como
qualquer outro valor do espaço de estado de y) algures no tempo.
Representação MA(1)
Um processo AR(1) (ou mais geralmente um AR(p)) estacionário pode representar-se
como um MA(1). Já vimos
yt = yt 1 + ut
t t 1 t 2
= y0 + u1 + u2 + ::: + ut 1 + ut
Podemos continuar o procedimento recursivo:
t t 1 t 2
yt = ( y 1 + u0 ) + u1 + u2 + ::: + ut 1 + ut
t+1 t t 1 t 2
= y 1 + u0 + u1 + u2 + ::: + ut 1 + ut
= ::: 2 ut 2 + ut 1 + ut :
Para obtermos este resultado podemos tomar um caminho alternativo. Considere-se
1
yt = yt 1 + ut , yt (1 L) = ut , yt = ut .
1 L
131
Supondo j j < 1 tem-se
1 2
=1+ L+ L2 + :::
1 L
Logo
1
yt = ut = 1 + L + 2 L2 + ::: ut
1 L
= ut + ut 1 + 2 ut 2 + :::
Processo AR(p)
Um processo AR(p) é uma simples generalização do AR(1):
yt = c + 1 yt 1 + ::: + p yt p + ut :
Este modelo pode ainda representar-se nas seguintes formas alternativas:
p
1 1L ::: pL yt = c + ut ; ou
p (L) yt = c + ut :
Momentos Marginais (ou não condicionais)

Assumindo a condição de ESO, vem
E (yt ) = E c + 1 yt 1 + ::: + p yt p + ut = c + 1 E (yt 1 ) + ::: + p E (yt p )
c
E (y) = c + 1 E (y) + ::: + p E (y) ) E (y) = .
1 1 ::: p
Para obtermos a variância é útil considerar (sem perda de generalidade faça-se c = 0 )

E (y) = 0):
yt = 1 yt 1 + ::: + p yt p + ut
yt2 = 1 yt 1 yt + ::: + p yt p yt + ut yt
2
E yt = 1 E (yt 1 yt ) + ::: + p E (yt p yt ) + E (ut yt )
2 2
E yt = 1 1 + ::: + p p +
2
0 = 1 1 + ::: + p p + :
132
As covariâncias são obtidas de forma similar (sem perda de generalidade faça-se c = 0 )
E (y) = 0):
yt = 1 yt 1 + ::: + p yt p + ut
yt yt k = 1 yt 1 yt k + ::: + p yt p yt k + ut yt k
E (yt yt k ) = 1 E (yt 1 yt k ) + ::: + p E (yt p yt k ) + E (ut yt k )
k = 1 k 1 + ::: + p k p
k k 1 k p
= 1 + ::: + p
0 0 0
k = 1 k 1 + ::: + p k p k 1:
Pode-se provar que a solução geral da equação às diferenças finitas (determinística)4 é da

forma
k = c1 r1k + ::: + cp rpk ;
onde ci constante arbitrárias e ri = 1=zi e zi são raízes do polinómio p (L). Pode-se provar
que sob a condição de ESO os coeficientes de autocorrelação k não se anulam mas tendem
para zero quando k ! 0:
Estacionaridade
Proposição 6.2.2 O processo AR(p) é estacionário sse as raízes da equação p (L) = 0 são
em módulo superiores a um (ou fora do circulo unitário no plano complexo) (apêndice 6.E).
No caso AR(1) a raiz de (L) = 0 é fácil de obter:
1
(1 L) = 0 ) L =
Devemos exigir
1
> 1 ) j j < 1:
No caso AR(2) pode-se provar que a condição de ESO é:
1 + 2 < 1; 2 1 < 1; 1< 2 <1
4
Quase diríamos que esta equação é um processo AR(p) não fosse o facto de não possuir termo aleatório.
De forma rigorosa, podemos dizer que é uma equação (linear) às diferenças finitas, de ordem p (de coeficientes
constantes). Esta terminologia é usada na área dos sistemas dinâmicos em tempo discreto.
133
1 1
FAC FACP
0.5 0.5
0 0
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
-0.5 -0.5
-1 -1
1 1
FAC FACP
0.5 0.5
0 0
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
-0.5 -0.5
-1 -1
1 1
FAC FACP
0.5 0.5
0 0
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
-0.5 -0.5
-1 -1
1 1
FAC FACP
0.5 0.5
0 0
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
-0.5 -0.5
-1 -1
Figura 6-2: FAC e FACP teóricas associadas aos seguintes cenários (de cima para baixo): (a)
1 > 0; 2 > 0; (b) 1 < 0; 2 > 0; (c) 1 > 0; 2 < 0; (d) 1 < 0; 2 < 0:
(estas condições baseiam-se evidentemente na proposição anterior).

No caso AR(p) com p > 2 não temos outra alternativa senão calcular (por exemplo,
através do programa Mathematica) as raízes de p (L) = 0:
Suponha-se que y é ESO. Nestas condições, pode-se provar:
k = 1 k 1 + 2 k 2 + ::: + p k p; k 1
k não se anulam mas k ! 0 quando k ! 1.

8
< 6= 0 se k = 1; 2; :::; p
kk =
: 0 se k = p + 1; p + 2; :::
É óbvio que kk = 0 se k > p: Por exemplo p+1;p+1 = 0 porque
yt = 1 yt 1 + ::: + p yt p + 0yt p 1 + ut
134
6.2.3 Processos ARMA
Por que não combinar os dois processos AR e MA? É isso que se propõe com o modelo
ARMA. No caso geral ARMA(p,q) (i.e. AR(p) + MA(q)) o modelo representa-se em qual-
quer uma das seguintes formas alternativas:
yt = 1 yt 1 + ::: + p yt p + 1 ut 1 + ::: + q ut q + ut
yt 1 yt 1 ::: p yt p = ut + 1 ut 1 + ::: + q ut q
p q
1 1L ::: pL yt = (1 + 1L + ::: + qL ) ut
p (L) yt = q (L) ut
q (L)
yt = ut :
p (L)
Ainda outra alternativa baseia-se no desenvolvimento em série de potências de L da função

racional q (L) = p (L). Obtém-se
yt = ut + 1 ut 1 + 2 ut 2 + :::
0
Esta expressão não corresponde à decomposição de Wold (porque estes s estão sujeitos
a restrições), mas constitui a melhor aproximação linear à decomposição, baseada numa
estrutura linear (a qualidade da aproximação aumenta quando p e q aumentam).
A estacionaridade depende da estrutura AR. Concretamente, o processo ARMA(p,q) é
estacionário sse as raízes da equação p (L) = 0 estão todas fora do círculo unitário no plano
complexo. A invertibilidade depende da estrutura MA. Concretamente, o processo ARMA é
invertível sse as raízes de q (L) estão todas fora do circulo unitário no plano complexo. Na
tabela 6.1 apresenta-se um quadro resumo das principais propriedades do modelos AR, MA
e ARMA.
Nas figuras 6-3 e 6-4 encontram-se as FAC e FACP de vários processos lineares simula-
dos (n = 50000). Procure identificá-los5 .
A tabela 6.2 identifica os processos simulados nas figuras 6-3 e 6-4.
5
Observe que as FAC e FACP são obtidas a partir dos processos simulados e, portanto, não correspondem
às funções teóricas; por esta razão, embora alguns coeficientes populacionais sejam zero, os respectivos coe-
ficientes estimados podem não ser iguais a zero (de facto, é uma impossibilidade virem exactamente iguais a
zero). Assuma que os coeficientes estimados muito baixos não são estatisticamente significativos.
135
AR(p) MA(q) ARMA(p,q)
1 1
Modelo p (L) yt = ut p (L) yt = ut p (L) p (L) yt = ut
em yt Série finita em yt Série infinita em yt Série infinita em yt
Modelo yt = p 1 (L) ut yt = p (L) ut yt = p 1 (L) p (L) ut
em ut Série infinita em ut Série finita em ut Série infinita em ut
Estac. Raízes p (L) = 0 Sempre Raízes p (L) = 0
fora do círc. unitár. estacionários fora do círc. unitár.
Invertib. Sempre Raízes p (L) = 0 Raízes p (L) = 0
invertíveis fora do círc. unitár. fora do círc. unitár.
FAC Decaimento expo- Decaimento brusco Decaimento expo-
nencial e/ou sinu- para zero a partir de nencial e/ou sinu-
soidal para zero k =q+1 soidal para zero
FACP Decaimento brusco Decaimento expo- Decaimento expo-
para zero a partir de nencial e/ou sinu- nencial e/ou sinu-
k =p+1 soidal para zero soidal para zero
Fonte: Murteira et al. (1993), pág. 69
Tabela 6.1: Resumo das principais propriedades dos modelos AR, MA e ARMA
MA AR
1 2 3 4 1 2 3 4 Modelo
Figura 6-3
1 :4 :4 :1 0 0 0 0 0 MA(3)
2 0 0 0 0 :4 :2 0 0 AR(2)
3 :4 0 :4 0 0 0 0 0 MA(3)
4 0 0 0 0 :4 :2 :2 0 AR(3)
5 0 0 0 0 1 0 0 0 AR(1)
6 1 0 0 0 0 0 0 0 MA(1)
7 0 0 :5 0 0 0 0 0 MA(3)
Figura 6-4
1 0 0 0 0 0 0 0 :9 AR(4)
2 :8 0 0 0 :8 0 0 0 ARMA(1,1)
3 0 0 0 :8 0 0 0 :8 ARMA(4,4)
4 0 0 0 0 :4 :2 :1 :1 AR(4)
5 0 0 0 0 0 0 0 0 RBranco
6 :5 0 0 0 :5 0 0 0 RBranco
Tabela 6.2: Soluções das questões colocadas nas duas figuras anteriores
136
0.1 0.1
FAC FACP
0 0
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10 -0.1
-0.1
-0.2
-0.2
-0.3
-0.3 -0.4
0.6 0.6
FAC FACP
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
1 2 3 4 5 6 7 8 9 10 -0.1 1 2 3 4 5 6 7 8 9 10
0.2 0.1
FAC FACP
0.1 0
0 1 2 3 4 5 6 7 8 9 10
-0.1
1 2 3 4 5 6 7 8 9 10
-0.1
-0.2
-0.2
-0.3 -0.3
-0.4 -0.4
0.5 0.6
FAC FACP
0.4 0.4
0.3
0.2
0.2
0
0.1
1 2 3 4 5 6 7 8 9 10
0 -0.2
-0.1 1 2 3 4 5 6 7 8 9 10
-0.4
1 1.2
FAC FACP
0.9998 1
0.9996 0.8
0.9994 0.6
0.9992 0.4
0.999 0.2
0.9988 0
1 2 3 4 5 6 7 8 9 10 -0.2 1 2 3 4 5 6 7 8 9 10
0.6 0.6
FAC FACP
0.5
0.4
0.4
0.3 0.2
0.2 0
0.1 1 2 3 4 5 6 7 8 9 10
-0.2
0
-0.1 1 2 3 4 5 6 7 8 9 10 -0.4
0.5 0.5
FAC 0.4
FACP
0.4
0.3
0.3
0.2
0.2 0.1
0.1 0
-0.1 1 2 3 4 5 6 7 8 9 10
0
-0.2
-0.1 1 2 3 4 5 6 7 8 9 10 -0.3
Figura 6-3: FAC e FACP de 7 processos simulados a partir de n = 50000 observações. Qual
é a ordem p e q dos processos? (A resposta a esta questão encontra-se na tabela 6.2)
137
1 1
FAC FACP
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
-0.2 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
-0.2
1 1
FAC FACP
0.8
0.5
0.6
0.4 0
0.2 1 2 3 4 5 6 7 8 9 10
-0.5
0
1 2 3 4 5 6 7 8 9 10 -1
1 1
FAC FACP
0.8
0.5
0.6
0.4 0
0.2 1 2 3 4 5 6 7 8 9 10
-0.5
0
1 2 3 4 5 6 7 8 9 10 -1
0.7 0.8
0.6
FAC FACP
0.6
0.5
0.4 0.4
0.3
0.2 0.2
0.1
0
0
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10 -0.2
0.4 0.4
FAC FACP
0.2 0.2
0 0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
-0.2 -0.2
-0.4 -0.4
0.4 0.4
FAC FACP
0.2 0.2
0 0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
-0.2 -0.2
-0.4 -0.4
Figura 6-4: Continuação da figura anterior
138
6.3 Processos Lineares Não Estacionários
No âmbito dos processos lineares é usual identificar dois tipos de não estacionaridade:
não estacionaridade na média: E (yt ) não é constante ou E (yt ) = 1;
não estacionaridade na variância: Var (yt ) não é constante ou Var (yt ) = 1:
6.3.1 Não Estacionaridade na Média
Seja yt um processo não estacionário linear. A ‘estacionarização da média’ faz-se usualmente

a partir do operador diferença
d
yt = | {z::: }yt
d vezes
onde d é um inteiro positivo.

Este procedimento sugere que:
se o logaritmo do PIB não é estacionário (na média) então a taxa de variação do PIB
(d = 1) poderá ser estacionária;
se a taxa de desemprego não é estacionária então a variação da taxa de desemprego

(d = 1) poderá ser estacionária;
se o logaritmo do IPC (dados anuais, para simplificar) não é estacionário e se a inflação

não é estacionária (d = 1) então a variação da inflação (d = 2) poderá ser estacionária.
Normalmente uma diferenciação (d = 1) é suficiente e raramente se considera d = 2 (a

não ser para certos índices de preços).
Definição 6.3.1 Um processo yt diz-se um ARIMA(p,d,q) se
d
p (L) yt = c + q (L) ut
onde p; d e q são inteiros positivos.
Assim, se yt ARIMA(p,d,q), então yt é um processo não estacionário que depois de

diferenciado d vezes é um processo ARMA(p,q), isto é,
d
yt ARM A (p; q) :
139
A letra I em “ARIMA” designa integrated. Diz-se que um processo y é integrado de ordem
d se o polinómio autoregressivo de y possui d raízes (múltiplas) iguais a um. Por exemplo, o
polinómio autoregressivo associado ao processo passeio aleatório, yt = yt 1 + ut ; (L) =
1 L; possui uma raiz unitária, pois a solução de 1 L = 0 é obviamente L = 1:
yt = (1 + ) yt 1 yt 2 + ut
1 = 1+ ; 2 = ; 0< <1
Não se tem um processo ESO pois uma das condições seguintes não é satisfeita
1 + 2 < 1; 2 1 < 1; 1< 2 <1
Considere-se yt = yt yt 1 : Tem-se
yt = (1 + ) yt 1 yt 2 + ut
yt yt 1 = yt 1 yt 2 + ut
yt = yt 1 + ut :
Logo yt é um processo estacionário (AR(1) com j j < 1). De forma equivalente, yt é um

ARIMA(1,1,0).
Este exemplo indica o caminho a seguir quando y é não estacionário. Em lugar de se anal-
isar y; analisa-se yt . Esta transformação envolve a perda de uma observação na amostra,
mas vários resultados para y (como por exemplo a previsão) podem ser facilmente recuper-
ados a partir da especificação e estimação do modelo para yt .
Exemplo 6.3.2 No caso,
yt = 2yt 1 yt 2 + ut ; ut RB
y não é estacionário. Porquê? Uma diferenciação produz:
yt = yt 1 + ut :
140
Logo yt é um processo AR(1) com = 1: Assim d = 1 não é suficiente para estacionarizar
o processo. Uma nova diferenciação produz:
yt yt 1 = ut
2
yt = ut :
2 2
Assim yt é um processo estacionário (neste caso é um RB). (Recorde-se: yt = yt
2yt 1 + yt 2 ). De forma equivalente, yt é um ARIMA(0,2,0).
Exemplo 6.3.3 O processo ARIMA(1,1,1) escreve-se nas seguintes formas equivalentes:
(1 L) (1 L)yt = c + (1 + L) ut
| {z }
(1 L) (yt y t 1 ) = c + ut + u t 1
yt yt 1 yt 1 + yt 2 = c + ut + ut 1
yt = yt 1 + yt 1 yt 2 + c + ut + u t 1 :
Processos com tendência determinística

Considere-se, por exemplo,
yt = + t + ut ; ut ruído branco.
Este processo não é estacionário pois E (yt ) = + t depende de t: A não estacionari-

dade nestes casos não é tão ‘grave’ como no caso anterior (por exemplo, a variância de y é
constante). A literatura por vezes designa estes processos como estacionários em tendência,
pois removendo a tendência o processo resulta estacionário. O operador diferença também
estacionariza o processo. Com efeito,
yt = + t + ut ( + (t 1) + ut 1 ) = + ut ut 1 .
Esta transformação envolve um custo: cria-se artificialmente um erro MA(1) não invertível.
A solução preferível foi já sugerida no parágrafo anterior: basta remover a tendência e, para
o efeito, estima-se o modelo pelo método dos mínimos quadrados. Claro que a estimação
não é feita no quadro clássico (porque falha a hipótese de estacionaridade) mas, neste caso
141
20
10
-10
-20
-30
-40
500 1000 1500 2000
Figura 6-5: Passeio Aleatório
muito concreto, pode-se provar que o estimador dos mínimos quadrados é consistente6 .
Na prática, como detectamos a existência de um processo não estacionário na média?7
O gráfico da série pode sugerir a presença de um processo não estacionário. Na

figura 6-5 traça-se uma trajectória de um processo passeio aleatório. Observe-se que o
processo parece “vaguear” sem rumo no intervalo ( 40; 20) : Não é nítido a existência
de um efeito de reversão para qualquer medida de tendência central. Além disso, a
ocorrência de choques mais fortes parece fazer deslocar o processo para outro nível
(“os choques são persistentes”).
Como se sabe a FAC do processo yt = yt 1 + ut é
k
t;k =1 ' 1:
t
Assim, se FAC (estimada) de um certo processo, apresentar, nos primeiros lags, val-
6
Na verdade é mais do que isso: o estimador é superconsistente (converge para o verdadeiro parâmetro a
uma taxa mais alta do que o habitual). Por exemplo, o estimador OLS para verifica
p d
n ^ ! 0; n3=2 ^ ! N ormal:
Enquanto a variância do estimador OLS habitual é proporcional a 1=n a do estimador superconsistente acima
referido, é proporcional a 1=n3 :
7
Por que não estimar logo o modelo e verificar depois se as raízes do polinómio (L) = 0 satisfazem a
proposição 6.2.2? Este procedimento não é aconselhável. Como as raízes são estimativas, devemos ensaiar a
hipótese subjacente à proposição 6.2.2 (as raízes devem ser em modulo maiores do que um para o processo
ser estacionário). Todavia, sob H0 o processo é não estacionário e as distribuições assimptóticas habituais não
são válidas. Felizmente, existem testes adequados como, por exemplo, o teste Dickey-Fuller. Para concluir:
é preferível, na fase da estimação, termos um processo já estacionário (ou, por outras palavras, a análise da
estacionaridade precede a estimação do modelo).
142
Figura 6-6: FAC (e FACP) estimada do processo passeio aleatório representado na figura
6-5.
ores muito altos (próximos de um), poderemos suspeitar que o processo não é esta-
cionário. A figura 6-20 ilustra a ideia: apresenta-se a FAC estimada associada ao
passeio aleatório representado na figura 6-5
Faz-se um teste de raiz unitária (por exemplo o teste ADF).
Teste ADF (Augmented Dickey-Fuller)

Faz-se um breve resumo dos principais procedimentos.
(1) Teste DF for random walk without drift
Considere-se yt = yt 1 + ut onde ut é um RB. Já se sabe que este processo (passeio
aleatório) não é estacionário. Assim faria sentido testar H0 : = 1 vs. H1 : j j < 1 na
especificação yt = yt 1 + ut (se existisse evidência a favor de H0 concluiríamos, ao nível
de significância fixado, que o processo não é estacionário). Como yt = yt 1 + ut se pode
escrever na forma
yt = y t 1 + ut
com = 1; ensaiar H0 : = 1 é equivalente a ensaiar H0 : = 0: Observe-se ainda

que, sob H0 ; o processo y possui uma raiz unitária. Isso é óbvio, tendo em conta que a raiz
do polinómio AR, (L) = 1 L; é igual a 1.
143
Parece óbvio a construção do teste estatístico: calcula-se o rácio-t ^ =^ e depois consulta-
se a tabela da t-Student. Este procedimento é incorrecto. Com efeito, sob H0, y não é
estacionário pelo que o rácio-t ^ =^ não tem distribuição t-Student nem mesmo distribuição
assimptoticamente normal. A hipótese de estacionaridade é aqui crucial. Se o processo não
é estacionário as distribuições assimptóticas habituais não são válidas8 .
Como devemos proceder? Temos de consultar os valores críticos nas tabelas apropriadas
(são construídas a partir da distribuição da estatística de teste sob H0 que, por ser descon-
hecida para n finito, tem de ser obtida através de simulações de Monte Carlo9 ). A maioria das
tabelas está preparada para fornecer o valor crítico da distribuição de ^ =^ (daí trabalhar-se
sobretudo com a especificação yt = y t 1 + ut e não com yt = yt 1 + ut ). A maioria
dos programas de estatística calcula o valor-p aproximado associado à hipótese nula (y não
é estacionário). Assim, se o valor-p for superior ao nível de significância previamente estab-
elecido (normalmente 0.05) não se rejeita H0 e conclui-se que o processo é não estacionário.
Existem outras variantes:
(2) Teste DF for random walk with drift H0 : =0
yt = + yt 1 + ut :
(3) Teste DF for random walk with drift and trend H0 : =0
yt = + t + yt 1 + ut :
Na prática, só muito raramente ut é um RB. Quando ut exibe autocorrelação os testes DF

não são válidos. Nestes casos deve-se ‘branquear’ ut , adicionando à regressão, a componente
1 yt 1 +:::+ p yt p ; com valor p adequado de forma que ut se apresente como um ruído
branco. Assim,
(1) Teste ADF for random walk without drift H0 : =0
yt = y t 1 + 1 yt 1 + ::: + p yt p + ut :
8
De facto, pode-se provar que, sob H0 ; n^ tem distribuição assimptótica igual à distribuição da variável
2
(1=2) W (1) 1
R1 2
;
0
W (u) du
onde W é um processo de Wiener padrão ou movimento Browniano.

9
Para n infinito, a distribuição é conhecida. Ver o pé-de-página anterior.
144
(2) Teste ADF for random walk with drift H0 : =0
yt = + yt 1 + 1 yt 1 + ::: + p yt p + ut :
(3) Teste ADF for random walk with drift and trend H0 : =0
yt = + t + yt 1 + 1 yt 1 + ::: + p yt p + ut :
Sobre a escolha do parâmetro p veja o exemplo 6.3.5.
Exemplo 6.3.4 Seja

yt = 0:1 0:01 yt 1 ; n = 50
(0:004)
H0 : = 0 vs. H1 : < 0. Uma tabela apropriada deverá fornecer como valor crítico ao
n.s. de 5% aproximadamente o valor -2.92. Como ^ =^ = 0:01=0:004 = 2:5 > vc =
2:92 não se rejeita H0 ao n.s. de 5%.
Exemplo 6.3.5 Seja lnp = log P onde P é o índice PSI20. Neste exemplo recorre-se ao
programa EVIEWS (versão 5) para analisar a estacionaridade de lnp. Os resultados estão
apresentados na figura 6-7. Tendo em conta a regressão efectuada
log pt = + log pt 1 + 1 log pt 1 + ut ; (p = 1)
pode-se concluir que se escolheu a opção “(2) Teste ADF for random walk with drift H0 :
= 0”
yt = + yt 1 + 1 yt 1 + ut ; (p = 1)
(note-se que a regressão envolve a constante C; equivalente ao nosso ). Deixámos o pro-

grama escolher a ordem p: Esta ordem é escolhida automaticamente e baseia-se no valor
do critério de informação SIC seguindo o princípio ‘general-to-specific’. O programa es-
colheu p = 1: Interessa o valor-p associado à hipótese nula que é 0.3078. Sendo este valor
superior a 0.05, não se pode rejeitar a hipótese = 0; ao nível de significância de 5%.
Existe, portanto, forte evidência empírica a favor da hipótese nula (não estacionaridade). É
aconselhável diferenciar-se o processo. A diferenciação conduz ao processo frt g ; onde
rt = log Pt log Pt 1 :
145
Null Hypothesis: LNP has a unit root
Exogenous: Constant
Lag Length: 1 (Automatic based on SIC, MAXLAG=27)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -1.953504 0.3078

Test critical values: 1% level -3.432388
5% level -2.862326
10% level -2.567233
*MacKinnon (1996) one-sided p-values.
Augmented Dickey-Fuller Test Equation

Dependent Variable: D(LNP)
Method: Least Squares
Sample (adjusted): 3 2936

Included observations: 2934 after adjustments
Variable Coefficient Std. Error t-Statistic Prob.
LNP(-1) -0.000919 0.000470 -1.953504 0.0509

D(LNP(-1)) 0.156283 0.018227 8.574451 0.0000
C 0.008356 0.004143 2.016704 0.0438
R-squared 0.025826 Mean dependent var 0.000320

Adjusted R-squared 0.025161 S.D. dependent var 0.010694
S.E. of regression 0.010559 Akaike info criterion -6.262717
Sum squared resid 0.326764 Schwarz criterion -6.256598
Log likelihood 9190.406 F-statistic 38.85062
Durbin-Watson stat 1.991441 Prob(F-statistic) 0.000000
Figura 6-7: Análise da estacionaridade do logaritmo do PSI20
6.3.2 Não Estacionaridade na Variância
Se yt é um processo passeio aleatório então Var (yt ) é proporcional a t (veja-se o apêndice

6.D). A diferenciação de yt produz um processo estacionário com variância constante, e o
problema da não estacionaridade fica resolvido com a referida transformação. A diferenci-
ação normalmente resolve o problema da não estacionaridade na média e, em certos casos,
também da não estacionaridade da variância. Supomos agora que a diferenciação apenas
resolve a não estacionaridade da média; supomos, assim, que a variância, mesmo depois da
diferenciação, continua a ser uma função de t. Admita-se:
yt é não estacionário na média, i.e., t = E (yt ) varia ao longo do tempo;
Var (yt ) = h ( t ) (a variância é uma função da média).
146
h (x) T (x)
R 1 p
Var (yt ) _ t x p dx = 2 x
R 1x
Var (yt ) _ 2
t x2 R x1dx = log 1x
Var (yt ) _ 4
t x4 x2
dx = x
Tabela 6.3: Algumas transformações habituais
O objectivo consiste em encontrar uma transformação sobre yt ; T (yt ) tal que Var (T (yt ))
seja constante. Pode-se provar que a transformação apropriada10 é
Z
1
T (x) = p dx.
h (x)
Alguns exemplos são fornecidos na tabela 6.3

Para concretizar, suponha-se que Var (yt ) é proporcional ao quadrado da média (e escreve-
se neste caso, Var (yt ) _ 2
t ). A transformação que permite tornar (aproximadamente) con-
stante a variância é T (x) = log x e, assim, os dados devem ser logaritmizados. Como a
transformação só está definida, em geral, para certos valores de x (por exemplo, no caso
log x tem de se assumir x > 0) é preciso primeiro aplicar T (x) e só depois se verifica
se é necessário diferenciar (já que uma prévia diferenciação impossibilitaria a aplicação da
transformação (veja-se o exemplo a seguir).
Na figura 6-8 representa-se a série de preços do Dow Jones de 1969 a 2004. A variância
(assim como a média) não é constante.
Se se começasse por diferenciar P; a variância continuaria a ser uma função de t: Veja-
se, com efeito, o gráfico de f Pt g ( Pt = Pt Pt 1 ) representado na figura 6-9. A figura
mostra claramente que a variância aumenta com t: Assim, antes de se diferenciar o processo,
10
Pela fórmula de Taylor, tem-se T (yt ) T ( t ) + T 0 ( t ) (yt t ). Assim,
T (yt ) T ( t) T 0 ( t ) (yt t)
2 0 2 2
(T (yt ) T ( t )) (T ( t )) (yt t)
2 2
Var (T (yt )) (T 0 ( t )) Var (yt ) = (T 0 ( t )) h ( t )
2
Imponha-se Var (T (yt )) = c, i.e, (T 0 ( t )) h ( t ) = c ou
c
T 0 ( t) = p :
h ( t)
Esta equação diferencial tem solução imediata:

Z
1
T (x) = p dx (c = 1):
h (x)
147
14005 P (preços)
12005
10005
8005
6005
4005
2005
5
Sep-69 Sep-74 Sep-79 Sep-84 Sep-89 Sep-94 Sep-99 Sep-04
Figura 6-8: Série de Preços do Dow Jones (1969-2004)
600 Preços Diferenciados
400
200
-200
-400
-600
-800
Jan-69 May-73 Sep-77 Jan-82 May-86 Sep-90 Jan-95 May-99 Sep-03
Figura 6-9: Série de preços diferenciados, f Pt g ; onde Pt = Pt Pt 1 ; do Dow Jones

(1969-2004)
148
4000 1.40E+07
3500 1.20E+07
3000
1.00E+07
2500
8.00E+06 media(t)
2000
6.00E+06 var(t)
1500
4.00E+06
1000
500 2.00E+06
0 0.00E+00
Sep-69 Aug-77 Jul-85 Jun-93 May-01
Figura 6-10: Média e Variância estimada ao longo do tempo da séries diária do Dow Jones
(1969 a 2004)
10 log(P)
9.5
9
8.5
8
7.5
7
6.5
6
5.5
5
Figura 6-11: Série de log-Preços do Dow Jones (1969-2004)
estacionarize-se primeiro a variância. Na figura 6-10 apresenta-se
1X X
t t
b (yt ) =
E d (yt ) = 1
Pi ; Var Pi b (yt )
E
2
t i=1 t i=1
d (yt ) são estimativas para a média e a variância de y no

b (yt ) e Var
ao longo do tempo, onde E
momento t: A figura sugere que a variância de yt é proporcional ao quadrado da média, i.e.,
Var (yt ) _ 2
t: De acordo com a tabela 6.3 deve-se usar a transformação logarítmica para
estacionarizar a variância.
A figura 6-11 sugere que a variância é constante ao longo do tempo, mas não a média.
Faça-se então a diferenciação da variável log Pt :
rt = log (Pt ) log (Pt 1 )
cuja representação gráfica é dada na figura 6-12. É interessante verificar que a série dos
retornos deve ser estudada não só devido às razões invocadas no ponto 2.3 mas também
149
0.15
0.1
0.05
0
-0.05
-0.1
-0.15
-0.2
-0.25
-0.3
Figura 6-12: Série dos retornos do Dow Jones
Escolha de um
Etapa 1: Identificação modelo
Etapa 2: Estimação Estimação dos

parâmetros
NÃO
Etapa 3: Avaliação do Adequação do

diagnóstico modelo escolhido
Utilização do Modelo
SIM
modelo satisfatório
Figura 6-13: Metodologia de Box-Jenkins
porque as transformações estacionarizantes discutidas neste ponto conduzem precisamente à

variável rt = log (Pt ) log (Pt 1 ) :
6.4 Modelação ARMA

O objectivo fundamental da modelação ARMA é o de definir um modelo parcimonioso (em
termos de parâmetros) que exiba boas propriedades estatísticas e descreva bem a série em
estudo. Para alcançarmos esse objectivo podemos seguir a metodologia de Box-Jenkins.
Propõe três etapas: identificação, estimação e avaliação do diagnóstico (veja-se a figura 6-
13).
150
Etapa 1: Identificação
Estacionarização da série;
Identificação da ordem p e q através da FAC e FACP.
Etapa 2: Estimação
Uma vez seleccionado, na primeira etapa, o modelo ARMA(p,q), é necessário estimar os
parâmetros desconhecidos (pelo método da máxima verosimilhança11 ).
Etapa 3: Avaliação do Diagnóstico

É necessário analisar os seguintes aspectos:
significância estatística dos parâmetros;
invertibilidade e estacionaridade (dispensa-se este último aspecto se y for um processo

estacionário);
análise da matriz de correlação dos estimadores;
redundância entre as estimativas;
branqueamento dos resíduos;
se existir mais do que um modelo que cumpra as condições anteriores é necessário

seleccionar o melhor (à luz de determinado critério).
Remete-se a questão da análise da matriz de correlação dos estimadores para Murteira et

al. (1993). A significância estatística dos parâmetros é óbvia e a questão da invertibilidade
foi já tratada.
O problema da redundância ocorre quando (L) e (L) partilham raízes comuns. Por
exemplo, no caso
(1 0:8L) yt = (1 0:8L) ut (6.6)
ambos os polinómio possuem a mesma raiz (1/0.8). Observe-se que os polinómios cancelam
um com o outro:
(1 0:8L) yt = (1 0:8L) ut , yt = ut
11
Veja-se, no ponto 8.9, a aplicação do método a um modelo mais geral.
151
e, portanto, o processo y definido por (6.6) é, de facto, um ruído branco e não um ARMA(1,1),
como se poderia pensar. Na presença de redundância pode provar-se que a matriz de infor-
mação de Fisher é singular. Em aplicações, é uma impossibilidade as raízes dos polinómios
AR e MA estimados (respectivamente, ^ (L) e ^ (L)) virem exactamente iguais. De qualquer
forma, se existirem raízes do polinómio AR aproximadamente iguais às do polinómio MA,
surge um problema de quase redundância, e a matriz de Fisher embora invertível, apresenta
um determinante próximo de zero. Como consequência, os erros padrão das estimativas
vêm muitos baixos, as estatísticas-t muito altas e o determinante da matriz de variâncias-
covariâncias (estimada) aproximadamente de zero. É fácil cair-se em problemas de (quase)
redundância que, naturalmente, devem ser evitados.
Veja-se agora a questão do “branqueamento dos resíduos”. Considere-se o ARMA(1,1)
yt = yt 1 + 1 ut 1 + ut :
Suponha-se que se estima (por engano) o AR(1)
yt = yt 1 + t
onde t representa o erro da equação anterior. Como detectar o erro de especificação? Como
t = 1 ut 1 + ut é natural esperar que os resíduos ^t venham autocorrelacionados.

É muito importante que os resíduos venham branqueados, i.e. não exibam autocorre-
lações; caso contrário, parte da média condicional não foi modelada.
Apresentam-se de seguida, sem comentários, os ensaios habituais os testes de significân-
cia dos coeficientes de autocorrelação dos resíduos:
Teste Kendal e Stuart H0 : k (^
u) = 0
p d 1 1
u) + 1=n) ! N (0; 1) ;
n (^k (^ ^k (^
u) N ;p :
n n
p
Rejeita-se H0 ao n.s. de (aprox.) 5% se j^k (^
u)j > 2= n (supondo 1=n 0)
Teste Ljung-Box H0 : 1 (^
u) = ::: = m (^
u) = 0
X
m
1 d
Q = n (n + 2) ^2k (^
u) ! 2
(m p q) :
k=1
n k
152
Teste Jenkis e Daniels H0 : kk (^
u) = 0
p d 1
n ^ kk (^
u) ! N (0; 1) ; ^
kk (^
u) N 0; p :
n
p
Rejeita-se H0 ao n.s. de (aprox.) 5% se ^ kk (^
u) > 2= n
Finalmente, discuta-se a última questão. Pode suceder que dois ou mais modelos cumpram
as condições anteriores. Como seleccionar o ‘melhor’? Se o objectivo da modelação é
a previsão, pode-se avaliar a qualidade preditiva dos vários modelos concorrentes e de-
pois selecciona-se o que apresentar melhores resultados (discutiremos esta questão no ponto
6.6.6). Outra abordagem consiste em escolher o modelo mais preciso (melhor ajustamento)
com o menor no de parâmetros (parcimónia). Há certamente um trade-off a resolver: maior
precisão implica menor parcimónia.
O coeficiente de determinação ajustado é, provavelmente, o indicador mais utilizado. É
um bom indicador no âmbito do modelo de regressão linear clássico, com distribuição nor-
mal. Mais gerais são os critérios de informação de Akaike e de Schwarz porque se baseiam
no valor da função de verosimilhança.
Seja
X
n
log Ln = log f (yt j Ft 1 )
t
o valor (máximo) da função log-verosimilhança e k o número de parâmetros estimados. O

critério de informação de Akaike (AIC) é dado pela expressão
log Ln 2k
AIC = 2 + :
n n
O critério de Schwarz é dado pela expressão
log Ln k
SC = 2 + log n:
n n
Tendo em conta que o modelo é tanto mais preciso quanto mais alto for log Ln ; e tanto
mais parcimonioso quanto menor for o número de parâmetros, k; conclui-se que deve dar-se
preferência ao modelo que minimiza as estatísticas AIC e SC (note que os modelos só são
comparáveis se as variáveis se encontrarem na mesma unidade - por exemplo, não devemos
comparar um modelo em y e outro em log y).
Em certos casos, um modelo pode minimizar apenas um dos critérios (por exemplo, um
153
modelo A minimiza o AIC e o modelo B minimiza o SC). Como proceder nestes casos?
Vários estudos têm revelado o seguinte:
o critério SC, em grandes amostras tende a escolher o modelo correcto; em peque-

nas/médias amostras pode seleccionar um modelo muito afastado do modelo correcto;
o critério AIC, mesmo em grandes amostras tende a seleccionar o modelo errado,

embora não seleccione modelos muito afastados do correcto.
Como consequência, para grandes amostras o SC pode ser preferível.

Naturalmente, estes critérios podem clarificar a identificação da ordem p e q do modelo
ARMA. Por exemplo, suponha-se que os modelos ARMA(1,1) e AR(3) são bons à luz de
vários critérios. Os critérios de informação, podem contudo sugerir o ARMA(1,1) e, desta
forma, p = 1; q = 1:
6.5 Variáveis Impulse-Dummy em Modelos de Regressão:

Cuidados a Observar
As variáveis dummy ou variáveis artificiais são, como temos visto, bastante úteis pois per-
mitem estimar o impacto de certas variáveis qualitativas ou de eventos sobre a variável de-
pendente. No entanto, há cuidados a ter no uso destas variáveis.
Num modelo de previsão o uso de variáveis artificiais (VA) estocásticas associados a
eventos que podem ocorrer no futuro deve ser evitado se as probabilidades condicionais da
VA forem desconhecidas. Com efeito, que sentido faz especificar yt = + dt + ut (d é
uma VA) se depois, no período de previsão, o comportamento probabilístico da variável d é
completamente desconhecido?
Um caso especialmente delicado ocorre com as chamadas impulse-dummies no âmbito
da inferência estatística12 .
12
Algumas das conclusões que seguem foram-me transmitidas pelo Prof. João Santos Silva em comunicação
privada. Veja-se também Hendry e Santos (2005).
154
6.5.1 Inconsistência do Estimador
Impulse-dummies são VAs que assumem o valor 1 apenas uma vez na amostra. Para ilustrar
a situação considere-se o modelo
yt = + dt + ut ; t = 1; 2; :::; n
i:i:d: 2
onde ut N (0; ) e dt é uma impulse-dummy
8
< 1 t=t
dt =
: 0 t=
6 t:
Seja 2 3
1 0
6 7
6 7
6 1 0 7
6 7
6 .. .. 7
6 . . 7
6 7
6 7 2 3 2 P 3
6 1 0 7
6 7 n 1 n
6 7 t=1 yt 5
X =6 1 1 7; X0 X = 4 5; X0 y = 4
6 7 1 1 yt
6 7
6 1 0 7
6 7
6 .. .. 7
6 . . 7
6 7
6 7
6 1 0 7
4 5
1 0
É fácil observar que o estimador OLS é
2 3 2 3 1 2 P 3 2 32 P 3
n 1 1 n
^ n 1 y y
^ = 4 5=4 5 4 t=1 t 5 = 4 n 1 n 1 5 4 t=1 t 5
1 n
^ 1 1 yt n 1 n 1
yt
2 Pn 3 2 Pn 3
yt
t=1 yt t=1;t6=t yt
= 4 n 1
Pn
n 1 5=4 n 1 5: (6.7)
1 n n
n 1 t=1 yt + n
y
1 t n 1
(y yt )
Tem-se
h i h i h i h i
^ 1 1 1
E = E (X0 X) 0
X y = E (X X) 0 0
X (X + u) = 0
E (X X)
0
Xu =
2 3
h i 1 1
1 4 5:
Var ^ = 2 0
(X X) = 2 n 1 n 1
1 n
n 1 n 1
155
p
Não se verifica ^ ! porque
2 n 2
lim Var [^ ] = lim =
n!1 n!1 n 1
ou seja, ^ é centrado mas não é consistente (a precisão de ^ não melhora quando n aumenta
e depende da variância do ruído). Este resultado deve-se ao facto de ser usada apenas uma
observação para estimar . A propriedades do estimador para ^ não são afectadas.
6.5.2 Inconsistência do Teste-t
O rácio-t associado a ^ (supondo conhecido) é
n
^ (y yt ) n 1
^ = p = p n
Var [^ ] n 1
r
n yt y yt y
= ' :
n 1
yt y
Ora a distribuição de depende da distribuição dos erros. No caso do modelo de re-
gressão habitual, mesmo que os erros não tenham distribuição normal, o rácio-t para grandes
amostras tem distribuição aproximadamente normal, pelo teorema do limite central, e a in-
ferência habitual pode fazer-se sem problemas. No entanto, o rácio-t associado a variáveis
impulse-dummies depende da distribuição dos erros. Assim, se a distribuição dos erros é
desconhecida não é possível usar-se os testes t habituais. Mesmo que se possa usar o rácio-t
i:i:d: 2
(por exemplo, se houver garantias que ut N (0; )) o teste-t é inconsistente no seguinte
sentido: para qualquer valor crítico com nível de significância ;
P (j ^ j > c j H1 : 6= 0) não tende para 1
quando n ! 1: A situação habitual (por exemplo, no âmbito do modelo de regressão linear

clássico) é a seguinte: quando n ! 1 a probabilidade de rejeitar H0 quando H1 é verdadeira
tende para 1 (se H1 é verdadeira, um teste consistente acaba sempre, para amostras suficien-
temente grandes, por decidir correctamente a favor de H1 ). Mas, com impulse-dummies isto
não sucede.
156
6.5.3 Uma Solução para ensaiar H0 : =0
Uma forma de testar H0 : = 0 no caso em que a distribuição dos erros é desconhecida

envolve a aplicação de procedimentos bootstrap. Quando a amostra é grande o ensaio H0 :
= 0 vs. por exemplo H1 : > 0 pode ser conduzido da seguinte forma, muito simples
(equivalente ao bootstrap): estima-se o modelo de regressão
yt = x0t + "t
(onde x0t é um vector linha das variáveis explicativas) sem dummy e obtém-se o resíduo ^"t
associado ao momento t = t : Se este resíduo é elevado (em módulo) então é provável que
no momento t tenha ocorrido uma “quebra de estrutura”; neste caso a variável dummy d
será, em princípio, importante na explicação de y (no momento t ). Para grandes amostras
não só a estimativa ^ associada ao modelo
yt = x0t + dt + ut
é (aproximadamente) igual ^"t como também, sob H0 : = 0; a distribuição do estimador

^ é (aproximadamente) igual à distribuição de "t ; assim, a avaliação da significância de
ao nível de 100%; equivale a verificar se ^"t está acima do quantil de ordem 1 da
distribuição de "t (recorde-se que H1 : > 0): Como a distribuição de "t é desconhecida usa-
se a distribuição empírica dos resíduos ^"t - este é o princípio do bootstrap. Concretamente,
rejeita-se H0 : = 0 em favor de H1 : > 0 ao nível de significância de 100% se ^"t for
maior do que o quantil de ordem 1 da distribuição empírica dos resíduos. A proposição
seguinte fundamenta o procedimento.
Proposição 6.5.1 Considerem-se os modelo de regressão em notação matricial
y=X 1 + d + u; y=X 0 +"
onde d = (dt ) ; dt = 1; dt = 0 para t 6= t e X é a matriz das variáveis explicativas

fortemente exógena. Suponha-se
X0 X p
! Q (definida positiva).
n
p p
Então a) ^ ! + ut e b) ^ =^"t ! 1:
157
Dem. Apêndice 6.G.
6.5.4 Impulse-dummies e a matriz de White
Um caso que conduz a conclusões incorrectas ocorre quando se usa simultaneamente impulse-
dummies com a matriz de White.
Para simplificar considere-se novamente o modelo
yt = + dt + ut ; t = 1; 2; :::; n
i:i:d: 2
onde ut N (0; ) e dt é uma impulse-dummy
8
< 1 t=t
dt =
: 0 t=
6 t:
Se é razoável assumir normalidade e ausência mas não heterocedasticidade pode argumentar-

se que a significância estatística de pode ser avaliada usando o rácio-t baseado na matriz
de White. Esta suposição é incorrecta e traduz provavelmente o caso mais grave dos vários
que analisámos. Como se sabe a matriz de White tem a forma
h i
d ^ = (X0 X)
Var
1
X0 WX (X0 X)
1
u21 ; :::; u^2n g : No caso mais simples que

onde W é uma matriz diagonal com elementos f^
analisamos a matriz de White correspondente a ^ é
Pn 2
d [^ ] = Pt=1 di d u^t :
Var n 2
t=1 di d
Deixa-se como exercício verificar que

Pn
d u^2t Xn
d t=1 di 1
Var [^ ] = Pn 2 = u^2t :
n (n 1)
t=1 di d t=1
Assim, atendendo a (6.7) o rácio-t associado a ^ é
n n
^ n 1
(yt y) n 1
(yt y)
^ = q = q P = q
1 n 2 ^2
d [^ ]
Var n(n 1) t=1 u
^ t n
n p yt y p yt y
= n ' n :
n 1 ^ ^
158
Embora (yt y) =^ possa ter distribuição aproximadamente N (0; 1) para amostras grandes
p
n (yt y) =^ não têm certamente distribuição N (0; 1) : Se (yt y) =^ tem distribuição
p
aproximadamente normal então n (yt y) =^ terá distribuição N (0; n) : Este resultado
sugere que se for usada a matriz de White numa amostra razoavelmente grande, qualquer
impulse-dummy é sempre interpretada como significativa à luz da distribuição habitual do
p
rácio-t (observe-se n (yt y) =^ ! 1 quando n ! 1).
6.5.5 Conclusão
O uso de impulse-dummies envolve vários problemas (inconsistência do estimador, incon-

sistência do teste t, e quando usado simultaneamente com a matriz de White, os rácio-t são
inflacionados). Quer isto dizer que o uso de impulse-dummies é inapropriado? A resposta
é negativa. Vimos que o estimador OLS do parâmetro da impulse-dummy é centrado. Por
outro lado, existem procedimentos válidos que poderão ser usados para testar a significân-
cia do parâmetro da impulse-dummy. Finalmente, o uso impulse-dummy em modelos de
regressão é importante quando se pretende estimar o efeito de um acontecimento isolado,
mantendo todas as demais variáveis explicativas constantes.
Exemplo 6.5.1 Suponha-se que se pretende analisar o efeito de um anúncio público no dia
t sobre as cotações da empresa ABC. Suspeita-se que o efeito é positivo sobre a empresa
ABC e nulo ou irrelevante para o mercado. Pretende-se, assim, verificar se o valor esperado
do retorno da empresa ABC no dia t é positivo. Suponha-se ainda que, nesse dia t , o
mercado em geral observou uma forte queda. Para testar esse efeito uma possibilidade
consiste em considerar a regressão
rt = 0 + d t + ut
onde rt é o retorno da empresa ABC e dt é uma impulse-dummy

8
< 1 t=t
dt =
: 0 t=
6 t:
Contudo, poderá suceder, atendendo à quebra do mercado, que venha negativo ou não
significativo. Concluir-se-ía que o anúncio teve um impacto negativo ou nulo sobre o retorno
da empresa ABC. Mas esta conclusão pode ser errónea porque o efeito do mercado não é
159
levado em conta. Assim, é necessário controlar ou fixar o efeito do mercado através da
regressão
rt = 0 + 1 rt;m + d t + ut
onde rt;m é o retorno do mercado (retorno associado a um índice abrangente de cotações do

mercado).
6.6 Previsão
6.6.1 Introdução
Temos um modelo M (yt ; yt 1 ; :::; ) para y baseado em n observações fy1 ; y2 ; :::; yn g : O

objectivo agora é:
prever y para n + 1; n + 2; :::;
estabelecer intervalos de confiança para as previsões.
Que propriedades devemos exigir a um previsor para yn+h ? Seja ~ n+h;n um previsor para
yn+h . Devemos exigir:
E ~ n+h;n = E (yn+h ) (propriedade do não enviesamento).
Var ~ n+h;n = Var (yn+h ) (~ n+h;n deve reproduzir a variabilidade de yn+h );
forte correlação entre ~ n+h;n e yn+h .
Para não haver “batota” o previsor ~ n+h;n para yn+h deve ser Fn -mensurável, isto é, se
prevemos y para o instante n+h e o momento em que efectuamos a previsão é n; só podemos
utilizar informação até n.
Em certos casos podemos permitir algum enviesamento do estimador desde que outras
propriedades mais do que compensem esse enviesamento. Na figura 6-14, qual é o previsor
preferível? O previsor 1 é enviesado; o previsor 2 não é. No entanto, o previsor 1 parece
preferível pois os erros de previsão são, na maior parte das vezes, inferiores.
Seja e~ (h) = yn+h ~ n+h;n o erro de previsão. O erro quadrático médio (EQM) de
previsão E e~ (h)2 pondera os três aspectos acima expostos: enviesamento, variabilidade e
160
12
10
8
Observado
6 Previsor 1
Previsor 2
4
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Figura 6-14: Qual dos dois previsores é preferível?
correlação. Com efeito, prova-se a seguinte decomposição do EQM de previsão E e~ (h)2 =

2
E yn+h ~ n+h;n :
2 2 2
E e~ (h) = E (yn+h ) E ~ n+h;n +( y ~) +2 y 1 y;~ : (6.8)
O primeiro termo do lado direito mede o enviesamento, o segundo, compara a variabili-

dade entre y e ~ e o terceiro mede a correlação entre yn+h e ~ n+h;n (quanto mais baixa a
correlação maior é o EQM). Na figura 6-14, o previsor 1, embora apresente um enviesa-
2 2
mento elevado (i.e., E (yn+h ) E ~ n+h;n é alto), os valores dos termos ( y ~) e
2 y 1 y;~ são relativamente baixos. O previsor 2 apresenta um valor baixo na com-
2
ponente E (yn+h ) E ~ n+h;n (enviesamento reduzido ou nulo) mas valores altos em
2
( y ~) e2 y 1 y;~ : Graficamente parece que o estimador 1 é preferível, isto é,
ponderando todos os aspectos, o gráfico sugere que o EQM do previsor 1 é inferior ao EQM
do previsor 2.
Será possível definir um previsor óptimo, à luz do EQM, qualquer que seja o modelo em
análise? A resposta é afirmativa.
Proposição 6.6.1 O previsor com EQM mínimo é
E (yn+h j Fn )
i.e., verifica-se
2 2
E (yn+h E (yn+h j Fn )) E yn+h ~ n+h;n
161
onde ~ n+h;n 2 Fn é um outro qualquer previsor Fn -mensurável.
(A demonstração é similar à da proposição 4.3.1). Usaremos também a notação n+h;n
para E (yn+h j Fn ) : A proposição 6.6.1 permite concluir que o previsor E (yn+h j Fn ) min-
imiza os três termos do lado direito da equação (6.8), no conjunto de todos os previsores
Fn -mensuráveis; em particular, o primeiro termo é zero.
Recorda-se do capítulo 4 que
2 2
E (yn+h E (yn+h j G)) E (yn+h E (yn+h j H)) ; H G.
Como referimos, esta desigualdade resulta do facto de em G existir mais informação. É

natural esperar que um previsor que use mais informação face a um outro, tenha um EQM
inferior.
6.6.2 Previsão Pontual
Tendo em conta a proposição 6.6.1, vamos utilizar como previsor para yn+h a expressão
E (yn+h j Fn ) : O procedimento geral para obter a previsão pontual de yn+h é:
1. Definir o modelo yn+h (com base no modelo especificado).
2. Calcular E (yn+h j Fn ) :
Vamos ver alguns exemplos.
MA(2)
Previsão a um passo h = 1
yn+1 = + 1 un + 2 un 1 + un+1
Tem-se
E (yn+1 j Fn ) = + 1 un + 2 un 1
Previsão a dois passos h = 2
yn+2 = + 1 un+1 + 2 un + un+2
162
Tem-se
E (yn+2 j Fn ) = + 2 un :
Previsão a h passos (h > 2)
yn+h = + 1 un+h 1 + 2 un+h 2 + un+h
Tem-se
E (yn+h j Fn ) =
MA(q)
Deixa-se como exercício verificar:
8
< Pq
+ i=h i un+h i para h = 1; :::; q
E (yn+h j Fn ) =
: para h = q + 1; :::
Sugestão: comece por verificar que, para h = q + 1; q + 2; ::: tem-se E (yn+h j Fn ) = :
AR(1)
Na previsão dos processos AR, é útil considerar-se a previsão já realizada nos passos
intermédios. Considere-se novamente a notação n+h;n (igual por definição a E (yn+h j Fn )):
yn+1 = c + 1 yn + un+1
n+1;n = E (yn+1 j Fn ) = E (c + 1 yn + un+1 j Fn ) = c + 1 yn :
yn+2 = c + 1 yn+1 + un+2
n+2;n = E (yn+2 j Fn ) = E (c + 1 yn+1 + un+2 j Fn ) = c + 1 E (yn+1 j Fn )

= c+ 1 n+1;n
Previsão a h passos
yn+h = c + 1 yn+h 1 + un+h
163
n+h;n = E (yn+h j Fn )
= E (c + 1 yn+h 1 + un+2 j Fn ) = c + 1 n+h 1;n
Conclui-se que o modelo de previsão no modelo AR(1) (h > 1) é
n+h;n =c+ 1 n+h 1;n (6.9)
Observação 6.6.1 Podemos reescrever a equação (6.9) como função do valor observado em
n: Por exemplo, a previsão a dois passos (h = 2) é
n+2;n =c+ 1 n+1;n : (6.10)
Como, por sua vez, a previsão a um passo é n+1;n = c+ 1 n;n = c+ 1 yn podemos

substituir n+1;n = c+ 1 yn na equação (6.10). Assim a previsão a dois passos pode ser
escrita na forma
n+2;n = c+ 1 n+1;n
= c+ 1 (c + 1 yn )
2
= c+c 1 + 1 yn :
De igual forma, a previsão a três passos é
n+3;n = c+ 1 n+2;n
2
= c+ 1 c+c 1 + 1 yn
2 2
= c+c 1 +c 1 + 1 yn :
Seguindo este raciocínio conclui-se que
2 h 1 h
n+h;n =c+c 1 +c 1 + ::: + c 1 + 1 yn : (6.11)
Do ponto de vista prático é irrelevante prever o modelo com base no modelo (6.9) ou com
base em (6.11), pois as expressões são equivalentes. No âmbito dos modelos dinâmicos,
a equação (6.9) designa-se por equação às diferenças finitas linear de primeira ordem (a
equação de juros compostos é também uma equação do tipo) cuja solução, dada a condição
164
inicial n;n = yn ; é precisamente a equação (6.11). Atendendo a que
h
2 h 1 1
1+ 1+ 1 + ::: + 1 = (soma de uma progressão geométrica)
1
podemos dar um novo aspecto às equação (6.11):
2 h 1 h
n+h;n = c 1+ 1 + 1 + ::: + 1 + 1 yn
h
1 h
= c + 1 yn : (6.12)
1
Em suma, para obter n+h;n é indiferente considerar (6.9), (6.11) ou (6.12).
AR(2)
yn+1 = c + 1 yn + 2 yn 1 + un+1
n+1;n = E (yn+1 j Fn )
= E (c + 1 yn + 2 yn 1 + un+1 j Fn ) = c + 1 yn + 2 yn 1
yn+2 = c + 1 yn+1 + 2 yn + un+2
n+2;n = E (yn+2 j Fn )
= E (c + 1 yn+1 + 2 yn + un+2 j Fn ) = c + 1 E (yn+1 j Fn ) + 2 yn
= c+ 1 n+1;n + 2 yn
yn+h = c + 1 yn+h 1 + 2 yn+h 2 + un+h
165
Dependent Variable: Y
Sample: 3 1000
Included observations: 998
C 10.81186 1.196611 9.035402 0.0000
Y(-1) 0.469309 0.030095 15.59406 0.0000
Y(-2) 0.314900 0.030098 10.46238 0.0000
S.E. of regression 0.499762 Akaike info criterion 1.453631
Sum squared resid 248.5130 Schwarz criterion 1.468378
Log likelihood -722.3618 F-statistic 543.0800
Figura 6-15: Estimação de um AR(2)
= E (c + 1 yn+h 1 + 2 yn+h 2 + un+2 j Fn )
= c+ 1 n+h 1;n + 2 n+h 2;n
Conclui-se que o modelo de previsão no modelo AR(2) (para h > 2) é
n+h;n =c+ 1 n+h 1;n + 2 yn+h 2;n :
Exemplo 6.6.1 Estimou-se um processo AR(2), cujos resultados estão apresentados na figura
6-15.
Tem-se n = 1000 e sabe-se que yn 1 =50.4360, yn =50.0207. Pretende-se obter uma
previsão para y para os período 1001, 1002 e 1003 (previsão a um passo, a dois passos e a
três passos).
Previsão a um passo:
n+1;n = c+ 1 yn + 2 yn 1
^ n+1;n = 10:81186 + 0:469309 50:0207 + 0:3149 50:436 = 50:169:
Previsão a dois passos:
n+2;n = c+ 1 n+1;n + 2 yn
^ n+2;n = 10:81186 + 0:469309 50:169 + 0:3149 50:0207 = 50:108:
166
Previsão a três passos:
n+3;n = c+ 1 n+2;n + 2 n+1;n
^ n+2;n = 10:81186 + 0:469309 50:108 + 0:3149 50:169 = 50:126:
AR(p)
yn+1 = c + 1 yn + ::: + p yn+1 p + un+1
E (yn+1 j Fn ) = E c + 1 yn + ::: + p yn+1 p + un+1 Fn
= c+ 1 yn + ::: + p yn+1 p
yn+2 = c + 1 yn+1 + ::: + p yn+2 p + un+2
E (yn+1 j Fn ) = E c + 1 yn+1 + ::: + p yn+1 p + un+2 Fn
= c+ 1 E (yn+1 j Fn ) + ::: + p yn+1 p
= c+ 1 n+1;n ::: + p yn+1 p
Previsão a h passos (h > p)
yn+h = c + 1 yn+h 1 + ::: + p yn+h p + un+h
= E c+ 1 yn+h 1 + ::: + p yn+h p + un+h Fn
= c+ 1 n+h 1;n + 2 yn+h 2;n + ::: + p n+h p;n
ARMA(1; 1)
167
yn+1 = c + 1 yn + un+1 + 1 un
n+1;n = E (yn+1 j Fn )
= E (c + 1 yn + un+1 + 1 un j Fn )
= c+ 1 yn + 1 un
yn+2 = c + 1 yn+1 + un+2 + 1 un+1
n+2;n = E (yn+2 j Fn )
= E (c + 1 yn+1 + un+2 + 1 un+1 j Fn )
= c+ 1 n+1;n
yn+h = c + 1 yn+h 1 + un+h + 1 un+h 1
= E (c + 1 yn+h 1 + un+h + 1 un+h 1 j Fn )
= c+ 1 n+h 1;n
6.6.3 Intervalos de Previsão I
Vimos até agora a chamada previsão pontual. Vamos agora estabelecer um intervalo de
confiança, IC, (ou de previsão) para yn+h : Um IC para yn+h a 95% baseia-se na probabilidade
P (l1 < yn+h < l2 j Fn ) = 0:95:
168
O intervalo de confiança é portanto (l1 ; l2 ) ; ou seja, yn+h estará no intervalo (l1 ; l2 ) com 0.95
de probabilidade dado Fn . Como determinar l1 e l2 ? Assuma-se que
yn+n j Fn N (E (yn+h j Fn ) ; Var ( yn+h j Fn ))
ou seja,
yn+h E (yn+h j Fn )
Z= p Fn N (0; 1) :
Var (yn+h j Fn )
Tem-se assim,
P (l1 < yn+h < l2 j Fn ) = 0:95

!
l1 E (yn+h j Fn ) yn+h E (yn+h j Fn ) l2 E (yn+h j Fn )
,P p < p < p Fn = 0:95
Var ( yn+h j Fn ) Var ( yn+h j Fn ) Var ( yn+h j Fn )
e, portanto,
l1 E (yn+h j Fn ) p
p = 1:96 ) l1 = E (yn+h j Fn ) 1:96 Var (yn+h j Fn )
Var (yn+h j Fn )
l2 E (yn+h j Fn ) p
p = 1:96 ) l2 = E (yn+h j Fn ) + 1:96 Var ( yn+h j Fn )
Var (yn+h j Fn )
Assim, um IC a 95% para yn+h é
p
E (yn+h j Fn ) 1:96 Var ( yn+h j Fn ):
Em termos gerais, um IC a (1 ) 100% é
p
E (yn+h j Fn ) z1 =2 Var (yn+h j Fn )
onde z1 =2 é tal que P Z z1 =2 = 1 =2 e Z N (0; 1) : É também habit-

ual apresentar-se o IC a partir da variável erro de previsão a h passos, en (h) = yn+h
E (yn+h j Fn ). Como Var (en (h)) = Var (yn+h j Fn ) e usando a notação n+h;n = E (yn+h j Fn ) ;
o IC a 95% para yn+h pode apresentar-se também na forma
p
n+h;n 1:96 Var (e (h)): (6.13)
169
Na prática n+h;n é desconhecido, pois envolve parâmetros desconhecidos. Em lugar de
n+h;n devemos usar ^ n+h;n (por exemplo, na previsão a um passo do modelo AR(1), em
lugar de n+1;n = c+ 1 yn deve-se considerar ^ n+1;n = c^ + ^ 1 yn ): A substituição de
n+h;n por ^ n+h;n aumenta a variância do erro de previsão numa quantidade proporcional
a 1=n (no apêndice 6.H discute-se esta questão). Para amostra grandes pode-se assumir
1=n ' 0 e, assim, podemos continuar a usar a expressão (6.13), substituindo os parâmetros
desconhecidos pela respectivas estimativas consistentes. Vamos ver alguns exemplos.
MA(2)
yn+1 = + 1 un + 2 un 1 + un+1
Tem-se
E (yn+1 j Fn ) = + 1 un + 2 un 1
2
en (1) = yn+1 E (yn+1 j Fn ) = un+1 N 0; :
2
Logo Var (en (1)) = e, assim, um IC a 95% é
p
+ 1 un + 2 un 1 1:96 Var (en (1)) i.e.,
+ 1 un + 2 un 1 1:96
yn+2 = + 1 un+1 + 2 un + un+2
Tem-se
E (yn+2 j Fn ) = + 2 un
2 2
yn+2 E (yn+2 j Fn ) = 1 un+1 + un+2 N 0; 1 +1
2 2
Logo Var (en (2)) = 1 +1 e, assim, um IC a 95% é
q
2 2
+ 2 un 1:96 1 +1
170
Sample(adjusted): 1950:04 2005:05
Included observations: 662 after adjusting endpoints
C 10.01857 0.042397 236.3054 0.0000
MA(1) 0.373267 0.037900 9.848702 0.0000
MA(2) -0.231256 0.037917 -6.099047 0.0000
Inverted MA Roots .33 -.70
Figura 6-16: Estimação de um MA(2)
Exemplo 6.6.2 Estimou-se um MA(2) (dados mensais), cujos resultados estão apresentados
na figura 6-16. A última observação, yn ; reporta-se ao período 2005:05 (Maio de 2005, na
notação do EVIEWS). Tem-se ainda a seguinte informação: u^n 1 = 0:655 e u^n = 0:055:
As estimativas dos parâmetros são13 :
^1 = 0:37326; ^2 = 0:231256:
Pretende-se um intervalo de previsão para 2005:6 (yn+1 ) e 2005:7 (yn+2 ) a 95%, supondo
inovações (erros) normais. Previsão a um passo:
n+1;n = + 1 un + 2 un 1
^ n+1;n = ^ + ^1 u^n + ^2 u^n 1
= 10:01857 + 0:37326 0:055 0:231256 ( 0:655)
= 10:191
13
O output do EVIEWS apresenta as raízes invertidas do polinómio MA. Desta forma, o modelo é invertível
sse as raízes invertidas são em módulo inferiores a um. Como as raízes são em módulo inferiores a um conclui-
se que o processo é invertível. Outra forma de chegarmos a esta conclusão consiste em verificar se as seguintes
condições são válidas:
1+ 2 > 1; 1 2 < 1; 1 < 2 < 1:
Também por aqui se conclui que o modelo é invertível verificando as desigualdades:
^1 + ^2 = 0:37326 0:231256 > 1;
^1 ^2 = 0:37326 + 0:231256 < 1;
1 < 0:231256 < 1:
171
13
12
11
10
7
2005:06 2005:07
YF ± 2 S.E.
Figura 6-17: Previsão do modelo MA(2) fornecida pelo EVIEWS
IC para yn+1 a 95%:
+ 1 un + 2 un 1 1:96
10:191 1:96 0:955072 ou (8:32; 12:06) :
Previsão a dois passos:
n+2;n = + 2 un
^ n+2;n = ^ + ^2 un
= 10:01857 0:231256 0:055
= 10:005
IC para yn+2 a 95%:
q
2 2
+ 2 un 1:96 1+1
p
10:005 1:96 (0:373262 + 1) 0:9550722 ou (8:01; 12:00) :
No EVIEWS o gráfico da previsão a dois passos é dada pela figura 6-17 (há uma ligeira
diferença entre os IC acima calculados e os IC fornecidos pelo EVIEWS. Porquê?)
MA(q)
172
Deixa-se como exercício verificar:
8
< Pq
+ i=h i un+h i para h = 1; :::; q
E (yn+h j Fn ) =
: para h = q + 1; :::
X
h 1
en (h) = yn+h E (yn+h j Fn ) = i un+h i , ( 0 = 1)
i=0
Tem-se
X
h 1
2
E e2n (h) = 2
i (6.14)
i=0
e, assumindo normalidade, o IC a 95% é

v
q u
X u X
h 1
+ i un+h i 1:96t 2 2
i
i=h i=0
AR(1)
A determinação dos intervalos de previsão não é imediata nos processos AR e ARMA
em geral.
yn+1 = c + 1 yn + un+1
n+1;n = E (yn+1 j Fn )
= E (c + 1 yn + un+1 j Fn ) = c + 1 yn
en (1) = un+1
yn+2 = c + 1 yn+1 + un+2
n+2;n = E (yn+2 j Fn )
= E (c + 1 yn+1 + un+2 j Fn ) = c + 1 E (yn+1 j Fn )

= c+ 1 n+1;n
173
en (2) =?
Para determinar en (h) e consequentemente os IC a ideia consiste em representar yn+h

na forma MA. Precisamos, portanto, de uma fórmula geral que forneça en (h) e Var (en (h))
(veremos isso a seguir).
6.6.4 Intervalos de Previsão II - Variância do Erro de Previsão no mod-

elo ARMA
Para determinarmos en (h) considere-se o ARMA(p; q)
p (L) yn+h = q (L) un+h

1
yn+h = p (L) q (L) un+h (6.15)
X
1
= j un+h j ( 0 = 1).
j=0
A expressão E (yn+h j Fn ) pode ser obtida recursivamente como vimos no caso AR(p) com
h = 2 : Agora interessa-nos representar E (yn+h j Fn ) numa outra forma equivalente para
que possamos obter en (h) :
Como
X
1
yn+h = j un+h j
j=0
tem-se
E (yn+h j Fn )
!
X1
= E j un+h j Fn
j=0
= E 0 un+h + 1 un+h 1 + ::: + h 1 un+1 + h un + h+1 un 1 + ::: Fn
= h un + h+1 un 1 + :: :
174
Logo
en (h) = yn+h E (yn+h j Fn )

= 0 un+h + 1 un+h 1 + ::: + h 1 un+1 + h un + h+1 un 1 + :::
h un h+1 un 1 :::
= 0 un+h + 1 un+h 1 + ::: + h 1 un+1

X
h 1
= j un+h j :
j=0
Portanto,
E (en (h)) = 0
X
h 1
2
Var (en (h)) = E e2n (h) = 2
j; 0 =1 (6.16)
j=0
No processo MA(q) tem-se i = i e, com esta igualdade, confirma-se a equação (6.14).
Exemplo 6.6.3 Retome-se o exemplo 6.6.1:
Sample: 3 1000
Included observations: 998
C 10.81186 1.196611 9.035402 0.0000
Y(-1) 0.469309 0.030095 15.59406 0.0000
Y(-2) 0.314900 0.030098 10.46238 0.0000
Vimos:
^ n+1;n = 50:169; ^ n+2;n = 50:108; ^ n+3;n = 50:126:
Sabendo que
1
= 1 + 0:469L + 0:535L2 + 0:399L3 + :::
1 0:469309L 0:31490L2
determine um IC a 95% para as previsões em n + 1; n + 2 e n + 3: Vimos que a expressão
175
geral do IC a 95% (com erros Gaussianos) é dada pela expressão
p
E (yn+h j Fn ) 1:96 Var (en (h))
ou
p
n+h;n 1:96 Var (en (h))
ou q
^ n+h;n d (en (h))
1:96 Var
No caso dos modelos MA a expressão Var (en (h)) determina-se facilmente, como vimos
atrás. No caso dos modelos AR (ou ARMA) temos de usar a expressão (6.16)
X
h 1 X
h 1
Var (en (h)) = 2 2 d (en (h)) = ^ 2
ou Var ^2
j j
j=0 j=0
Um IC a 95% para a previsão yn+1 (h = 1) é

q
^ n+1;n d (en (1))
1:96 Var
Ora ^ n+1;n = 50:169 e
X
1 1 X
0
d (en (1)) = ^ 2
Var ^ 2 = ^2 ^ 2 = ^2 ^ 2 = ^2:
j j 0
j=0 j=0
Assim
p
^ n+1;n 1:96 ^ 2
50:169 1:96 0:499762:

q
^ n+2;n d (en (2)):
1:96 Var
176
Ora ^ n+2;n = 50:108 e
X
2 1
d (en (2)) =
Var ^ 2 ^ 2 = ^2 1 + ^ 2
j 1
j=0
= 0:4997622 1 + 0:4692 = 0:30470:
Assim
q
^ n+2;n d (en (2))
1:96 Var
p
50:108 1:96 0:30470:

q
^ n+3;n d (en (3)):
1:96 Var
Ora ^ n+2;n = 50:126 e
X
3 1
d (en (2)) =
Var ^2 ^ 2 = ^2 1 + ^ 2 + ^ 2
j 1 2
j=0
= 0:4997622 1 + 0:4692 + 0:5352
= 0:37619:
Assim
q
^ n+3;n d (en (3))
1:96 Var
p
50:126 1:96 0:37619:
6.6.5 Previsão de (muito) Longo Prazo
Previsão de longo prazo significa tomar h muito alto. Qual é a previsão de yn+h quando
h ! 1? Isto é, qual o valor de
lim E (yn+h j Fn )?
h!1
Quando n + h é muito alto, quando comparado com n, a informação Fn é praticamente

irrelevante (é qualquer coisa como prever o retorno do PSI20 para daqui a 20 anos, tendo
177
disponível apenas a informação do retorno de hoje). Assim, nestas condições, E (yn+h j Fn )
é praticamente igual a E (yn+h ) (quer dizer, podemos dispensar Fn ). Tudo isto é verdade se,
obviamente, o processo for estacionário.
Assim, se o processo for estacionário tem-se
lim E (yn+h j Fn ) = E (yn+h ) = E (y) :

h!1
Outra questão tem a ver com os intervalos de previsão. Vimos que os intervalos de previsão
dependem da variância do erro de previsão
X
h 1
2 2
Var (en (h)) = j
j=0
1
onde i são os coeficientes que se obtêm da relação p (L) q (L) ; Recorde-se,
X
1
1
yt = p (L) q (L) ut = j ut j :
j=0
2
Ph 1 2
Qual é o valor da expressão Var (en (h)) = j=0 j quando h tende para 1? Temos de
avaliar
X
h 1
2 2
lim j:
h!1
j=0
P1 2
Se o processo y é ESO pode-se provar que j=0 j é finito14 e, portanto, Var (en (1)) é
14
Vimos em que condições se estabelece a estacionaridade. Outra forma alternativa consiste em considerar
a representação MA(1) do ARMA. Vimos
1
X
1
yt = p (L) q (L) ut = j ut j :
j=0
Tem-se
E (yt ) = 0
0 1
X1 1
X
Var (yt ) = Var @ j ut j
A= 2 2
j
j=0 j=0
P1 P1
Assim se y é E2O devemos ter Var (yt ) = 2 j=0 2j < 1: Logo devemos exigir j=0 2
j < 1 e, portanto,
P1 2
j=0 j < 1 é condição necessária para que y seja estacionário. Nestas condições
h
X1
2
Var (en (h)) = E e2n (h) = 2
j ! Var (yt ) :
j=0
178
finito. Para que valor tende? Pode-se provar (veja-se o último pé-de-página) que
Var (en (1)) = Var (y) :
Assim, se y é estacionário e Gaussiano, um intervalo de confiança a 95% para yn+h com h

muito alto (ou h ! 1) é
p
E (y) 1:96 Var (y)
O que acontece se y não é estacionário?
Exemplo 6.6.4 Considere-se o ARIMA(0; 1; 1)
yt = yt 1 + ut + 1 ut 1 :
A previsão a um passo é
n+1;n = E (yn+1 j Fn ) = yn + 1 un :
A dois passos é
n+2;n = E (yn+2 j Fn ) = E (yn+1 + un+2 + 1 un+1 j Fn )
= E (yn+1 j Fn ) = yn + 1 un
A h passos é
n+h;n = yn + 1 un :
2
Ph 1 2
Calcule-se agora a variância do erro de previsão Var (en (h)) = j=0 j: Temos de
calcular os i e, para o efeito, começamos por reescrever o processo na forma
(1 L) yt = (1 + 1 L) ut ou
(1 + 1 L)
yt = ut
1 L
179
Para determinar i:
(1 + 1 L)
= 1 + 1 L + 2 L2 + :::
1 L
1 + 1 L = 1 + 1 L + 2 L2 + ::: (1 L)
2 2 3
= 1 L+ 1L 1L + 2L 2L + :::
2
= 1+( 1 1) L + ( 2 1) L + :::
Resulta: 8 8
>
> = 1 >
> =1+
>
> 1 1 >
> 1 1
>
> >
>
< 0= < =1+
2 1 2 1
,
>
> 0= 3 >
> =1+
>
> 2 >
> 3 1
>
> >
>
: ::: : :::
(alternativa: série de Taylor ou melhor fórmula de Taylor...).

Logo
(1 + 1 L)
= 1 + (1 + 1 )L + (1 + 1 )L2 + :::
1 L | {z } | {z }
1 2
e, portanto,
X
h 1
2 2
Var (en (h)) = j
j=0
2 2 2
= 1 + (1 + 1) + ::: + (1 + 1)
2 2
= 1 + (h 1) (1 + 1)
Quando h ! 1 ) Var (en (h)) ! 1 (a amplitude dos IC aumenta com h).
6.6.6 Qualidade da Previsão
Podemos comparar a qualidade de previsão de dois modelos diferentes (por exemplo um AR

versus um MA) comparando a variância do erro de previsão Var (en (h)) dos dois modelos.
Esta é a abordagem paramétrica. Temos uma outra forma, mais eficaz, de avaliarmos a
previsão de um (ou mais) modelo(s) e que é descrita a seguir.
O período de observação da série é dividido em dois sub-períodos: o primeiro é des-
ignado por in-sample estimation period e o segundo por out-of sample forecast. Fixe-se o
período de estimação, por exemplo, de 1 a t1 (veja-se a figura 6-18). Embora as observações
180
Out-of sample
forecast
In-sample estimation period evaluation period
1 t1 n
Figura 6-18: In-Samples Estimation Period vs. Out-of Sample Forecast Period
disponíveis sejam y1 ; :::; yt1 ; :::; yn o modelo é estimado apenas para o período de 1 a t1 :
Com base no modelo estimado no período in-sample estimation, geram-se depois as pre-
visões para o período out-of sample forecast e, finalmente comparam-se as previsões com
os valores observados mas não utilizados na estimação. O esforço de previsão no período
pós-estimação é equivalente ao de uma previsão verdadeira15 .
Seja
e (h) = et1 (h) = yt1 +h E (yt1 +h j Ft1 )

yhp = E (yt1 +h j Ft1 )
yho = yt1 +h
(com t1 + h = n).
Avaliação da Previsão I
Tendo-se calculado os erros e (1) ; e (2) ; :::; e (h) ; podemos agora avaliá-los através das
seguintes medidas:
Erro Médio de Previsão
1X o 1X
h h
EM P = (y yip ) = e (h)
h i=1 i h i=1
15
Também se definem as previsões in-sample forecast. Tratam-se de previsões geradas no período de esti-
mação do modelo. Por exemplo, previsões a h-passos
E ( yt+h j Ft ) ; t+h t1 :
O esforço de previsão é baixo porque o modelo de previsão usa estimativas ^ baseadas nas observações
y1 ; :::; yt1 (a qualidade da previsão a um passo, h = 1; pode ser avaliada através dos critérios habituais de
ajustamento R2 ; ^ ; etc.).
A avaliação da qualidade da previsão deve basear-se nas previsões out-of-sample.
181
Raiz do Erro Quadrático Médio (REQM ou RMSE)
v v
u h u h
u1 X u1 X
REQM = t (y o yi ) = t
p 2
e (h)2
h i=1 i h i=1
Erro Absoluto Médio (EAM ou MAE)
1X o 1X
h h
EAM = jy yip j = je (h)j
h i=1 i h i=1
Erro Percentual Absoluto Médio (EPAM ou MAPE)
1 X yio yip 1 X e (h)

h h
EP AM = o
=
h i=1 yi h i=1 yio
Coeficiente de Theil
REQM
U=q P q P ; 0 U 1
1 h p 2 1 h o 2
h i=1 (y i ) + h i=1 (y i )
EQM penaliza fortemente os erros maiores. A grande maioria das previsões pode ser ex-
celente mas o EQM pode ser alto se existir uma previsão má ou muito má. O EAM não
é tão severo neste aspecto. Se a grande maioria das previsões for boa então o EAM vem
relativamente baixo.
Relativamente ao coeficiente de Theil, quanto mais baixo U melhor é a previsão. O
caso U = 1 é o pior cenário (por exemplo, prever sistematicamente zero quando os valores
observados são diferentes de zero, ou prever sempre valores positivos quando os valores
observados são sempre negativos, etc.).
As estatísticas anteriores avaliam a magnitude do erro de previsão e, com excepção do
EMP, não levam em conta se o erro de previsão é positivo ou negativo. Em certos casos, o
sinal do erro de previsão é importante. Para ilustrar esta situação, considere-se o seguinte
exemplo. Seja y a hora de partida do avião, y p a previsão da hora de chegada ao aeroporto
(para embarcar) e e = y y p o erro de previsão. Se e > 0; ele ou ela chega adiantado; se
e < 0 chega atrasado e perde o avião. Como poderemos avaliar o erro de previsão? Função
quadrática do tipo EQM? (penalizar de igual forma chegar cedo ou tarde?). Uma função de
182
avaliação poderia ser 8
< 999 e < 0
L (e) = (6.17)
: ke e > 0; k > 0:
Assim, chegar atrasado envolveria uma “perca” de 999 (valor que supomos muito alto), ao
passo que chegar adiantado e unidades de tempo, envolveria uma “perca” proporcional a e
(supondo 999 > ke). Uma estatística de avaliação da qualidade da previsão baseada em
(6.17) é
1X
h
999Ife(i)<0g + ke (i) Ife(i)>0g : (6.18)
h i=1
Escolhe-se o modelo que minimiza (6.18).

Outro caso em que a função perca L (e) é não simétrica aplica-se a modelos de previsão
que visam definir regras de compra e venda. Seja yhp a previsão do retorno a h passos e yho o
correspondente valor observado. Considera-se uma previsão correcta quando yhp apresenta o
mesmo sinal que yho : A função perca é
8
< 1 yp yo < 0
h h
L (e) = (6.19)
: 0 y p y o > 0:
h h
Observe-se: se a previsão é correcta yhp e yho apresentam o mesmo sinal e, portanto, o produto
yhp yho é positivo. Uma estatística de avaliação da qualidade da previsão baseada em (6.19) é
1X
h
I p o : (6.20)
h i=1 fyi yi <0g
A equação (6.20) representa a proporção de previsões com sinal incorrecto. Pode-se preferir,
todavia, trabalhar com a proporção de previsões com sinal correcto:
1X
h
P P SC = I p o :
h i=1 fyi yi >0g
Avaliação da Previsão II
Os erros de previsão podem devem-se, basicamente, às seguinte razões:
As previsões estão quase sempre acima ou abaixo dos valores observados (exemplo:
valores observado: 10, 11, 9, 12; previsões: 15, 16, 13, 16);
A variabilidade das previsões é diferente da variabilidade dos valores previstos (exem-
183
plo: valores observados: 10, 11, 9, 12; previsões: 2, 18, 5, 20).
As previsões estão pouco correlacionadas com os valores observados.
Na metodologia que se segue procura-se identificar estas várias fontes de erro.

Considere-se
1X o 1X p
h h
s2o = (y o 2
y ) ; s2p = (y y p )2
h i=1 i h i=1 i
Ph
1
h i=1 (yio y o ) (yip yp)
r=
s0 sp
e defina-se
(y o y p )2 (so sp )2 2 (1 r) s0 sp
UE = ; UV = ; UC = ;
EQM EQM EQM
respectivamente a proporção do enviesamento, da variância e da covariância. Note-se EQM =

Ph
1
h
o
i=1 (yi yip )2 : A estatística U E mede o erro sistemático, U V mede a capacidade de y p
reproduzir a variabilidade de y o e U C mede o erro não sistemático. A situação ideal (yio 6= yip )
é U V = U E = 0 e U C = 1: Note-se que U V + U E + U C = 1 (demonstração no apêndice
6.I).
Ao contrário do EMP, da REQM e do EAM as estatísticas EPAM, U de Theil, U V ; U E e
U C não dependem da escala da variável. Por exemplo, se a variável em estudo for “entrada de
turistas na fronteira (unidade: no de indivíduos)” e depois resolvermos passar para “entrada
de turistas na fronteira (unidade: milhares de indivíduos)”, as estatísticas EPAM, U de Theil,
U V ; U E e U C não sofrem alteração (porque não dependem da escala da variável).
Exemplo 6.6.5 Na figura seguinte apresentam-se estatísticas referentes a três modelos de

previsão. Analise a qualidade das previsões com base nas estatísticas REQM, U de Theil,
U E , U V ; U C e Corr (entre os valores observados e previstos).
Recursive Forecasting vs. Rolling Window

Suponha-se que estamos incumbidos de criar um modelo de previsão a 5 passos. Por
exemplo, podemos estar a trabalhar com dados diários e o nosso objectivo é definir um
modelo de previsão semanal. A qualidade da previsão a h passos, com h 6= 5 não nos
interessa (só nos interessa a qualidade da previsão a 5 passos). A avaliação da previsão
184
Observado Modelos de Previsão erro quadráticos de previsão
h y yp1 yp2 yp3 modelo1 modelo2 modelo3
1 1 2 2 1 1 1 0
2 2 3 3 3 1 1 1
3 3 2 3 4 1 0 1
4 2 4 4 4 4 4 4
5 4 4 5 7 0 1 9
6 5 5 6 2 0 1 9
7 6 5 7 9 1 1 9
8 7 7 8 3 0 1 16
9 5 4 9 9 1 16 16
10 9 10 10 11 1 1 4
Média 4.4 4.6 5.7 5.3 1 2.7 6.9
Variância 5.64 5.24 6.81 10.61 1.2 20.61 31.29
corr(y,ypi) 0.9124 0.9230 0.6567
UE 0.0400 0.6259 0.1174
UV 0.0074 0.0204 0.1129
UC 0.9526 0.3537 0.7698
U 0.0986 0.1458 0.2341
12
10
8 y
yp1
6
yp2
4 yp3
0
1 2 3 4 5 6 7 8 9 10
Figura 6-19: Três modelos em confronto
feita nos pontos anteriores não serve porque as estatísticas REQM, Coeficiente de Theil,
etc., avaliam a qualidade da previsão a vários passos, ponderando de igual forma esses erros.
Como fazer? Para avaliar a qualidade da previsão a 5 passos fazemos variar t1 (veja-se a
figura 6-18). Podemos ainda ter a chamada “previsão recursiva” (recursive forecasting) ou a
“janela móvel” (rolling window). Exemplifica-se a seguir.
Recursive forecasting
Estima-se o modelo entre as observações 1 a 1000 e prevê-se para 1005;
Estima-se o modelo entre as observações 1 a 1002 e prevê-se para 1007; etc.
Rolling window
Estima-se o modelo entre as observações 3 a 1002 e prevê-se para 1007; etc.
185
Em ambos os casos, em cada iteração, faz-se sempre uma previsão a 5 passos. Todavia,
com o método rolling window, o período de estimação contém sempre 1000 observações (o
esforço de estimação é constante). Na primeira hipótese o esforço de estimação vai dimin-
uindo à media que se acrescentam mais observações no período da estimação. Ao fim de
várias iterações temos uma amostra de valores observados e valores previstos a 5 passos,
que podemos comparar usando as estatísticas já estudadas (EQM, EAM, etc.). Em termos
re
formais, seja,Yki = fyk ; yk+1 ; :::; yi g ; yh;i := E (yi+h j Y1i ) a previsão a h passos usando o
ro
método recursive forecasting, yh;i := E yi+h j Yii k ; i > k; a previsão a h passos usando
o método rolling window e yio := yi+h os valores observados. Com base em s previsões
out-of-sample, podemos calcular, por exemplo,
1X o 1X o
s s
re re 2 re re
EQM (h) = y yh;i ; EAM (h) = y yh;i
s i=1 i s i=1 i
1X o 1X o
s s
2
EQM ro (h) = y ro
yh;i ; EAM re (h) = y ro
yh;i :
s i=1 i s i=1 i
Em geral, devemos esperar
REQM re (1) REQM re (2) ::: REQM re (h)
EAM re (1) EAM re (2) ::: EAM re (h)
Previsão no EVIEWS
A previsão no EVIEWS é definida na janela “forecast”. Para obter previsões out-of-
sample é necessário, em primeiro lugar, encurtar a amostra na fase da estimação. Para
concretizar, suponha-se que estão disponíveis 1100 observações da série y. Se o período
out-of-sample forecast for 1001-1100, o período de estimação é obviamente 1-1000. Assim,
na opção de estimação deve-se escrever na caixa “sample” 1 1000 (veja-se a figura 6.6.6).
Depois de estimado o modelo, escolhe-se a opção “forecast” e na caixa “Forecast sample”
escreve-se 1001 1100 (veja-se a figura 6-20).
A opção “Dynamic forecast” faz a previsão de y ignorando os valores observados de y no
período 1001-1100 (segue a metodologia exposta em “Avaliação da Previsão I”). Por exem-
plo, no caso da previsão AR(1) usa-se a fórmula ^ n+h;n = c^ + ^ 1 ^ n+h 1;n . A opção “Static
forecast” segue o espírito da metodologia “Recursive Forecasting vs. Rolling Window” para
h = 1 com a seguinte diferença: o período de estimação mantém sempre fixo. No exem-
186
Figura 6-20: Previsão no EVIEWS
187
plo em análise o período de estimação é sempre 1-1000. A previsão AR(1) para o período
1001 é c^ + ^ 1 y1000 ; para o período 1002 é c^ + ^ 1 y1001 ; etc. Os parâmetros estimados c^ e ^ 1
baseiam-se sempre na amostra 1-1000. Em qualquer destas opções o EVIEWS calcula várias
estatísticas a partir dos erros de previsão e (i) ; i = 1; 2; ::: Por razões óbvias a previsão para
além do período de observação da variável (no exemplo em estudo, 1101-) só pode fazer-se
usando a opção “Dynamic forecast”.
6.6.7 Outros Métodos de Previsão Lineares
Médias Móveis
Para “tendências localmente constantes” a previsão de y; para o período n + 1; n + 2; :::,
baseada na informação fy1 ; :::; yn g é
p yn + yn 1 + ::: + yn N +1
yn+h = ; h = 1; 2; :::
N
onde N é o no de obs. incluídas em cada média (período da média móvel). A previsão é

constante.
Para “tendência localmente lineares” pode-se usar o método das “médias móveis duplas”
(médias móveis de médias móveis usadas depois numa estrutura linear ...). Estes métodos
podem ser replicados através dos métodos de alisamento exponencial.
Alisamento Exponencial
Para “tendências localmente constantes” a previsão de y; para o período n + 1; n + 2; :::
, baseada na informação fy1 ; :::; yn g é
p
yn+h = Sn ; h = 1; 2; :::
Sn = yn + (1 ) Sn 1 ; 0< <1
188
Pode-se provar que o alisamento exponencial é uma média ponderada de y1 ; :::; yn e S0 16 :
Sn = yn + (1 ) yn 1+ (1 )2 yn 2 + ::: + (1 )n 1
y1 + (1 )n S0 : (6.21)
Para “tendências localmente lineares” pode-se usar o método de Holt.

Estes métodos podem ser encarados como casos particulares dos modelos ARIMA. Por
exemplo, a previsão do modelo ARIMA(0,1,1) é equivalente à previsão do modelo
Sn = yn + (1 ) Sn 1 :
Dem. Uma forma de provar esta afirmação consiste em mostrar que, se yt segue um
ARIMA(0,1,1)
yt = yt 1 ut 1 + ut ; t = yt 1 ut 1
então, a previsão para yn+1 pode-se escrever na forma da equação (6.21)17 . Uma demon-
stração alternativa é a seguinte. No modelo ARIMA(0,1,1) a previsão para yn+1 é E (yn+1 j Fn ) =
16
Com efeito,
Sn = yn + (1 ) Sn 1
= yn + (1 ) ( yn 1 + (1 ) Sn 2)
2
= yn + (1 ) yn 1 + (1 ) Sn 2
2
= yn + (1 ) yn 1 + (1 ) ( yn 2 + (1 ) Sn 3)
2 3
= yn + (1 ) yn 1 + (1 ) yn 2 + (1 ) Sn 3
= :::
2 n 1 n
= yn + (1 ) yn 1 + (1 ) yn 2 + ::: + (1 ) y1 + (1 ) S0 :
O alisamento exponencial é uma média ponderada de y1 ; :::; yn e S0 .

17
Com efeito, a previsão para yn+1 ; n+1;n ; é
n+1;n = yn un
= yn (yn n)
= yn yn + n
= (1 ) yn + (yn 1 un 2)
2
= (1 ) yn + yn 1 un 2
2
= (1 ) yn + yn 1 (yn 2 un 3)
= (1 ) yn + (1 ) yn 1 + un 3
= :::
2 n 1 n
= (1 ) yn + (1 ) yn 1 + (1 ) yn 2 + ::: + (1 ) y1 + y0 :
Para verificar que a previsão do modelo ARIMA(0,1,1) é equivalente à previsão do modelo Sn = yn +

(1 ) Sn 1 basta comparar a expressão obtida para n+1;n com (6.21). Estas expressões são iguais para
= (1 ) (admitindo que S0 = y0 ). É fácil observar que a previsão para yn+h ; h 1; em ambos os
modelos, é Sn = n+1;n :
189
n+1;n : Verifique-se agora que
t = yt 1 ut 1
= yt 1 yt 1 t 1
= (1 ) yt 1 + t 1:
Logo, no modelo ARIMA(0,1,1), tem-se
n+1;n = (1 ) yn + n
ou, redefinindo, Sn = n+1;n e =1 ; vem
Sn = yn + (1 ) Sn 1 ;
que é precisamente a expressão do alisamento exponencial.

Como conclusão: os modelos ARIMA são (muito) mais gerais do que modelos concor-
rentes vistos neste ponto.
6.A Método para Obter a FACP

Considere a regressão linear
yt+s = s1 yt+s 1 + s2 yt+s 2 + ::: + ss yt + t+s
e suponha-se que Var (yt ) = 1 e E (yt ) = 0 (a correlação parcial e total é independente da

origem e da escala das variáveis). Multiplicando ambos os termos por yt+s j ; j = 1; 2; :::; s;
tomando os valores esperados e dividindo por 0 obtém-se o sistema,
j = s1 j 1 + ::: + ss j s j = 1; 2; :::; s: (6.22)
Para obter 11 considera-se a equação (6.22) para s = 1;
1 = 11 0 ( 0 = 1).
190
Donde,
11 = 1:
Para obter 22 considera-se o sistema (6.22) com s = 2;

8
< = +
1 21 22 1
: = +
2 21 1 22
e resolve-se em ordem a 22 (e em ordem a 21 ). Aplicando, por exemplo, a regra de Cramer

obtém-se
1 1
2
1 2 2 1
22 = = 2
:
1 1 1
1
1 1
Utilizando o mesmo procedimento pode-se concluir que
1 1 1
1 1 2
3 2 2
2 1 3 3 2 1 2 + 1 + 1 2 1 3
33 = = :
1 2 21 2
2
2 2 21 + 1
1 2
1 1 1
2 1 1
6.B Transformação de um Processo MA(1) Não Invertível

num Invertível
Mostra-se a seguir que um processo não invertível pode transformar-se num processo in-
vertível com funções de autocorrelação e autocorrelações parciais iguais.
Associado a um processo MA(1) não invertível existe sempre um outro processo MA(1)
invertível com a mesma FAC e FACP. Por exemplo, considere-se o processo MA(1) não
invertível.
yt = 4ut 1 + ut ; = 4: (6.23)
Este modelo não serve para previsão pois a representação autoregressiva não está bem definida.
191
O processo (6.23) verifica:
4 4
1 = 2 = =
+1 42 +1 17
s = 0 para s > 1
4
11 = 1 = 2 =
+1 17
s 2
1 4s
ss = 2(s+1)
= 15
1 1 42s+2
Ora o processo
1 ~= 1
y~t = u~t 1 + u~t ;
4 4
tem a mesma FAC e FACP do processo y: Com efeito,
~ 1
4
~1 = ~ 11 = 2 = = =
~ +1 1 2 2
+1 17
+1
1 s 1 2
1 4s
~ = = 15 :
ss
1 2(s+1) 1 42s+2
1
Na prática, qual é o alcance deste resultado? Se não ocorrer invertibilidade na fase da es-
timação devemos definir outros valores iniciais para os parâmetros. Por exemplo, se o pro-
grama fornece como estimativa ^ = 4 devemos definir outros valores iniciais até que o
software encontre a estimativa 1=4 para o parâmetro do processo MA. Convém lembrar que
a estimação de processos MA envolve problemas de optimização não linear. Por vezes, a
solução do problema de optimização é um extremante local (e não global, como é dese-
jável). Poderão existir outros extremantes que serão detectados se definirmos outros valores
de inicialização.
6.C Invertibilidade de Processos MA (exemplos)

p
Observação 6.C.1 Se uma raiz r é complexa, i.e. r = a + bi; o módulo é jrj = a2 + b 2 :
Exemplo 6.C.1 yt = (1 0:5L + 0:1L2 0:5L3 ) ut é invertível?
3 (L) = 1 0:5L + 0:1L2 0:5L3 :
192
Resolvendo 3 (L) = 0 em ordem a L (através de um qualquer software) obtêm-se as
seguintes raízes
0:42 + 1:3i; 0:42 1:3i; 1:05
Como
p
j 0:42 + 1:3ij = :422 + 1:32 > 1 , j1:05j > 1
conclui-se que o processo yt = (1 0:5L + 0:1L2 0:5L3 ) ut é invertível. O método dos

coeficientes indeterminados permite determinar os parâmetros i que figuram do lado direito
da expressão
1 2
=1+ 1L + 2L + :::
1 0:5L + 0:1L2 0:5L3
Multiplicando ambos os termos por (1 0:5L + 0:1L2 0:5L3 ) tem-se
1= 1 0:5L + 0:1L2 0:5L3 1+ 1L + 2L

2
+ ::: :
Depois de se multiplicarem e reordenarem todos os termos do lado direito da expressão

anterior vem,
2
1=1+( 1 0:5) L + (0:1 0:5 1 + 2) L + :::
Desta equação resulta: 8

>
> 0:5 = 0
>
< 1
0:1 0:5 + =0
>
>
1 2
>
: :::
Da primeira equação sai 1 = 0:5; da primeira e da segunda sai, 2 = 0:15; etc. Em suma
1
1 0:5L + 0:1L2 0:5L3 = 1 + 0:5L + 0:15L2 + 0:52 L3
+0:49L4 + 0:27L5 + :::
e, portanto,
yt = 0:5yt 1 0:15yt 2 0:52yt 3 0:49yt 4 0:27yt 5 :::
Nota final: o programa Mathematica (entre outros) calcula facilmente os parâmetros i: A

instrução é
1
Series[ ,{L,0,5}].
1 0:5L + 0:1L2 0:5L3
193
O programa EVIEWS apresenta as raízes invertidas do polinómio q (L). Nestas condições,
o processo y é invertível se as raízes invertidas q (L) forem em módulo inferiores a um (ou
dentro do circulo unitário no plano complexo). Segue-se a explicação. Suponha-se que o
polinómio MA é (L) = (1 0:2L + 0:4L2 ) : As raízes de (L):
(L) = 0 ) L1 = 0:25 1:56i; L2 = 0:25 + 1:56i
As raízes estão fora do círculo unitário, pois
q
jL1 j = 0:252 + ( 1:56)2 = 1:58 > 1; jL2 j = ::: = 1:58 > 1:
Logo o processo yt = (L) ut é invertível. O programa EVIEWS apresenta as raízes inver-

tidas. No exemplo em análise, (L) = (1 0:2L + 0:4L2 ) ; o EVIEWS não apresenta L1 e
L2 mas sim
1 1
e :
L1 L2
Quando as raízes são reais é óbvio que jLj > 1 implica j1=Lj < 1: Quando as raízes são
complexas pode-se provar que jLj > 1 , j1=Lj < 1: Com efeito, suponha-se que uma raiz
p
de (L) é a + bi: Esta raiz está fora do círculo unitário se ja + bij = a2 + b2 > 1: Se a
raiz a + bi é invertida, tem-se
1 a b
= 2 i
a + bi a + b2 a2 + b2
e s
2 2
1 a b 1
= + =p :
a + bi a + b2
2 a + b2
2
a2+ b2
Conclui-se, portanto, que
p 1 1
ja + bij = a2 + b 2 > 1 , =p < 1:
a + bi a + b2
2
Retomando o exemplo (L) = (1 0:2L + 0:4L2 ) o EVIEWS apresenta
1
= 0:100 16 + 0:624 97i
0:25 1:56i
1
= 0:100 16 0:624 97i:
0:25 + 1:56i
194
p
Como 0:100 162 + 0:624 972 = 0:632 95 < 1 o processo yt = (L) ut é invertível. Em
suma, no programa EVIEWS as raízes invertidas q (L) devem ser em módulo inferiores a
um (ou dentro do circulo unitário no plano complexo). Veremos ainda que as raízes invertidas
do polinómio AR (L) devem também ser em módulo inferiores a um (ou dentro do circulo
unitário no plano complexo) para que o processo seja ESO.
Exemplo 6.C.2 Retome-se o exemplo 6.C.1. O programa EVIEWS em lugar de fornecer as

raízes
0:42 + 1:3i; 0:42 1:3i; 1:05
fornece as raízes invertidas, i.e., o lado direito das seguintes expressões:
1
= 0:225 0:696i;
0:42 + 1:3i
1 1
= 0:225 + 0:696i; = 0:952:
0:42 1:3i 1:05
Assim, no programa EVIEWS as raízes invertidas de q (L) devem ser em módulo inferiores
a um (ou dentro do circulo unitário no plano complexo). Verifique que j 0:225 0:696ij <
1; j 0:225 + 0:696ij < 1; j0:952j < 1:
6.D Estacionaridade de 2a Ordem do Processo AR(1)

A ESO pode ser discutida a partir de vários conceitos. Para processos lineares é relativamente
fácil estudar a ESO. Considere-se (com c = 0) o processo AR(1)
t t 1 t 2
yt = yt 1 + ut = y0 + u1 + u2 + ::: + ut 1 + ut (6.24)
(tendo-se admitido que o processo teve início em t0 ). Questão: para que valores de a
média, a variância e a covariância não dependem de t? A média é
t
E (yt ) = E (E (yt j F0 )) = E (y0 ) :
Claramente, se j j > 1 então E (yt ) ! 1 e o processo não é ESO. Se = 1 vem
t
E (yt ) = E (y0 ) = E (y0 ) :
195
t
Nada se pode dizer, por enquanto. Se j j < 1 vem E (yt ) = E (y0 ) ! 0 quando t ! 1:
Para simplificar admite-se que o processo y é inicializado em condições estacionárias i.e.,
admite-se E (y0 ) = 0: Nestas condições
t
E (yt ) = E (y0 ) = 0:
Por outro lado, o segundo momento é
2
E yt = E E yt2 F0
t t 1 t 2 2
= E E y0 + u1 + u2 + ::: + ut 1 + ut F0
2t 2 2(t 1) 2 2(t 2) 2 2 2
= E E y0 + u1 + u2 + ::: + ut 1 + u2t + ::: F0
2t 2 2(t 1) 2 2(t 2) 2 2 2 2
= E y0 + + + ::: + +
2t 2 2 2(t 1) 2(t 2) 2
= E y0 + + + ::: + +1 :
2t
2t 21
Se = 1 vem E (yt2 ) = E (y02 )+ 2
t ! 1: Se j j > 1 vem E (yt2 ) = E (y02 )+ 1 2 !
2t 2
2t 21
1: Se j j < 1 vem E (yt2 ) = E (y02 ) + 1 2 ! 1 2 :
2
Teoricamente pode-se definir E (y02 ) 6= 1 2 e, neste caso, com j j < 1; o processo é
apenas ESO assimptoticamente. Se o processo é inicializado em “condições estacionárias”
2
i.e. E (y02 ) = 1 2 , então, no caso j j < 1; resulta imediato que
2 2t 2
2 2t 21
E yt = 2 + 2 = 2 (constante 8t).
1 1 1
Relativamente às covariâncias. Suponha-se y0 = 0 (para simplificar). No caso j j < 1 já

k k
vimos que k = 0 e k = : Suponha-se agora = 1. Tem-se, a partir de (6.24),
yt = u1 + u2 + ::: + ut 1 + ut
196
e, assim,
E (yt yt k ) = E (E (yt yt k jFt k )) = E (yt k E (yt jFt k ))
= E ((u1 + u2 + ::: + ut k ) E (yt jFt k ))
= E ((u1 + u2 + ::: + ut k ) (u1 + u2 + ::: + ut k ))
= E u21 + u22 + ::: + u2t k + E (termos cruzados)

2
= (t k) (depende de t)
= t;k
Correlações (ainda o caso = 1):
2
t;k (t k) t k k
= 2t
= =1 = t;k
0;k t t
(depende de t). Coligindo todos resultados conclui-se que a média, a variância e a covariân-
cia não dependem de t se j j < 1: Em suma,
j j < 1 , yt é ESO
(supondo que a condição inicial tem distribuição estacionária ou que o processo foi iniciado
num passado remoto).
Outra forma de analisar a questão em estudo é a seguinte18 . Considere-se novamente o
AR(1)
yt = c + yt 1 + ut
O esqueleto da equação anterior é a equação às diferenças finitas
y~t = f (~
yt 1 ) = c + y~t 1 ; f (x) = c + x
Satisfeitas outras condições (ver Tong, 1990) o processo y é EE se o ponto fixo y da EDF
y~t = c + y~t 1 é assimptoticamente estável. O ponto fixo y da equação às diferenças finitas
18
Apenas para o leitor que tenha estudado o problema da estabilidade no âmbito das equações às diferenças
finitas determinísticas.
197
(determinística) é o que resulta de
y = f (y)
c
y = c+ y )y = :
1
Como se sabe, a condição jf 0 (y)j < 1 implica que y é assimptoticamente estável. Ora
f 0 (x) = : Portanto, se j j < 1; y é assimptoticamente estável e y é EE.
Pode-se também recorrer às proposições 4.5.1 e 4.5.4 notando que, no caso AR(1) a
função g é g (x) = x e imediatamente se verifica que jg (x)j < jxj se j j < 1: Nas
condições das proposições referidas, o processo é EE. É ESO se o momento de segunda
ordem existir. Facilmente se verifica que existe. Nestas condições, o processo AR(1), com
j j < 1; é EE e ESO.
6.E Estacionaridade de 2a Ordem do Processo AR(p)

A ESO pode ser analisada convertendo a equação yt = 1 yt 1 +:::+ p yt p +ut num sistema
de equações lineares mediante as seguintes mudanças de variáveis:
y1;t = yt ; y2;t = yt 1 ; :::; yp;t = yt p+1 :
Tem-se
y1;t = c + 1 yt 1 + ::: + p yt p + ut
y2;t = y1;t 1
..
.
yp;t = yp 1;t:
198
De forma compacta, tem-se uma estrutura de um processo vectorial AR(1), habitualmente
designado por VAR(1) (vector AR), yt = c + Ayt 1 +gt , i.e.
0 1 0 10 1 0 1
y1;t y ut
B C B 1 2 n 1 n CB 1;t 1 C B C
B C B CB C B C
B y2;t C B 1 0 0 0 CB y2;t 1 C B 0 C
B C B CB C+B C
B .. C = B .. .. ... .. .. CB .. C B .. C
B . C B . . . . CB . C B . C
@ A @ A@ A @ A
yp;t 0 0 1 0 yp;t 1 0
| {z } | {z }| {z } | {z }
yt A yt 1 gt
Resolvendo recursivamente o sistema yt = Ayt 1 +gt (dada a condição inicial Y0 ) obtém-se
yt = At y0 +At 1 g1 +At 2 g2 +::: + Agt 1 +gt :
É relativamente óbvio que devemos exigir At ! O (matriz nula) quando t ! 1: Por

exemplo se At ! O quando t ! 1 então
t
E (yt j F0 ) = A y0 ! 0 (vector nulo)
(isto é E (yt j F0 ) converge para a sua média marginal, se At ! O). Seja = diag ( 1 ; :::; n)
a matriz dos valores próprios de A e P a matriz dos vectores próprios associados (admitem-
se linearmente independentes). Como se sabe da álgebra linear, verifica-se a igualdade
t
At = P P 1 . Logo devemos exigir que todos os valores próprios de A sejam em mó-
dulo menores do que um. Só nestas condições se tem At ! O: Pode-se provar que esta
condição é equivalente à seguinte: o processo AR(p) é estacionário sse as raízes da equação
p (L) = 0 estão todas fora do círculo unitário no plano complexo.
6.F Processos ARMA Sazonais

Neste apêndice faz-se uma breve análise dos processos ARMA sazonais ou SARMA.
Muitas sucessões envolvem uma componente sazonal ou periódica de período S (número
de observações por período). Exemplos:
199
yt Frequência S
Entrada de Turistas Mensal 12
Entrada de Turistas Trimestral 4
Retornos de um Título Diários 5
Crédito Total ao Consumo EUA

0.04
0.03
0.02
0.01
0.00
-0.01
-0.02
1980 1981 1982 1983 1984 1985
Considere-se, yt - entrada de turistas na fronteira, dados mensais. É natural esperar:
yt 12 “alto”) yt “alto”
yt 12 “baixo”) yt “baixo”
Se só existisse a componente sazonal teríamos:
yt = 1 yt 12 + ut ; ou
yt = 1 yt 12 + 1 yt 24 + ut :
Processo AR(P)S
AR(1)S yt = 1 yt S + ut ut ruído branco
AR(2)S yt = 1 yt S + 2 yt 2S + ut
AR(P)S yt = 1 yt 12 + 2 yt 2s + ::: + P yt P s + ut ou,
S 2S PS
1 1L 2L ::: PL yt = ut
P LS yt = ut :
200
Para um AR(1)S , yt = 1 yt S + ut , deixa-se como exercício verificar que
X
1
j
yt = 1 ut jS ; E (yt ) = 0;
j=0
X
1
2j
2
2 2
Var (yt ) = 1 = 2
( = Var (ut ) ),
j=0
1 1
Relativamente à covariância pode-se concluir:
X
1 X
1
j
i
Cov (yt ; yt+1 ) = 1 1 E (ut iS ut+1 jS ) =0
i=0 j=0
Cov (yt ; yt+2 ) = Cov (yt ; yt+3 ) = Cov (yt ; yt+S 1 ) = 0
X1 X1 X1
1
i j+1 2 j j+1 2
Cov (yt ; yt+S ) = 1 1 E (ut iS ut jS ) = 1 1 = 2
:
i=0 j=0 i=0
1 1
Donde 8
< m
k = mS; m = 0; 1; 2; :::
1
k =
: 0 k 6= mS; m = 0; 1; 2; :::
Também se pode concluir 8

< k=S
1
kk =
: 0 k 6= S:
Na figura seguinte apresenta-se a FAC e FACP (teóricas) de um processo AR(1)S=12 com

1 = 0:5:
1
0.9
FAC
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 12 24 36 48
1
0.9
FACP
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 12 24 36 48
O processo AR(P)S tem o mesmo comportamento básico do processo AR(P).
Processo MA(Q)S
MA(1)S yt = 1 ut S + ut ; ut ruído branco;
201
MA(2)S yt = 1 ut S 2 ut 2S + ut ;
MA(Q)S yt = 1 ut S 2 ut 2S ::: Q ut QS + ut ou,
S 2S Qs
yt = 1 1L 2L ::: QL ut
yt = Q LS ut
Para um MA(1)S , yt = 1 ut S + ut , deixa-se como exercício verificar que
E (yt ) = 0;
2 2 2
Var (yt ) = 1+ 1 ( = Var (ut ) ).
Também se pode concluir: 8

< 1
2 k=S
1+
k = 1
: 0 k 6= S
e 8
< 1
2 k=S
1+ 1
=
1 ( )
kk m 1 2
: 1
2(m+1) k 6= S:
1 1
Na figura seguinte apresenta-se a FAC e FACP (teóricas) de um processo MA(1)S=12 com

1 = 0:5
1
FAC
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 12 24 36 48
1
FACP
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 12 24 36 48
O processo MA(Q)S tem o mesmo comportamento básico do processo MA(Q).
Processos Multiplicativos ARMA(p,q)(P,Q)S

Componentes não sazonal e sazonal (modelo ARMA(p,q)(P,Q)S ):
p (L) P LS y t = q (L) Q LS ut
202
Exemplo 6.F.1 Modelo ARMA(2,1)(1,0)12
2 12
1 1L 2L 1 1L yt = (1 + 1 L) ut
2 12 13 14
1 1L 2L 1L + 1 1L + 2 1L yt = ut + 1 ut 1
yt = 1 yt 1 + 2 yt 2 + 1 yt 12 1 1 yt 13 2 1 yt 14 + ut + 1 ut 1
Corresponde a um modelo ARMA(14,1) com restrições (não lineares) entre os parâmetros

(incluindo restrições de nulidade).
6.G Demonstração da Proposição 6.5.1

Dem. a) Dado o modelo y = X 1 + d + u; o estimador OLS de é
1 1
^ = (d0 Md) d0 My; M=I X (X0 X) X0
1
= (d0 Md) d0 M (X 1 + d + u)
1
= + (d0 Md) d0 Mu:
1
Analise-se a convergência em probabilidade dos termos (d0 Md) e d0 M u (note-se que
p p p
^ ! e^ ! implica ^^ ! ). Tem-se
1
d0 Md = d0 I X (X 0 X) X0 d
1
= d0 d d0 X (X 0 X) X0 d
1
= 1 x0t (X0 X) xt
1
x0t X0 X
= 1 xt :
n n
X0 X 1 p
Tendo em conta que x0t =n ! 0 e n
!Q 1
facilmente se conclui que
p
d0 Md ! 1: (6.25)
203
Por outro lado,
1
d0 Mu = d0 I X (X0 X) X0 u
1
= d0 u d0 X (X0 X) X0 u
1
X0 X X0 u
= ut d0 X
n n
e, usando um raciocínio idêntico, conclui-se que
p
d0 Md ! ut : (6.26)
Devido a (6.25) e (6.26) resulta:
1 p
^ = + (d0 Md) d0 Mu ! + ut :
b) Considere-se
y=X 0 + "; ^"t = d0 My:
Tem-se
! 1
1
x0t XX 0
^ = 1 xt d0 My
n n
! 1
1
x0t X0 X
= 1 xt ^"t
n n
e, !
1 1
^ x0t X0 X
= 1 xt :
^"t n n
^ p
Resulta "t
^
!1
6.H Uma Nota sobre Intervalos de Confiança

Considere-se novamente a equação (6.13). Argumentámos que a substituição de n+h;n por
^ n+h;n aumenta a variância do erro de previsão numa quantidade proporcional a 1=n. Veja-se
esta questão mais em pormenor.
204
Quando n+h;n é desconhecido, a variável yn+h definida em
P (l1 < yn+h < l2 j Fn ) = 0:95;
deve ser centrada usando-se ^ n+h;n (e não n+h;n ) Observe-se que a variável yn+h ^ n+1;n
continua a possuir distribuição normal de média zero. No entanto, a variância de yn+h
^ n+1;n é agora,
Var yn+h ^ n+h;n Fn = Var yn+h n+h;n + ^ n+h;n n+h;n Fn
= Var yn+h n+h;n Fn + Var ^ n+h;n n+h;n Fn
= Var (e (h)) + Var ^ n+h;n n+h;n Fn
(observe-se que yn+h n+h;n é independente de ^ n+h;n n+h;n ; pois yn+h n+h;n envolve
apenas erros aleatórios posteriores a n; enquanto ^ n+h;n n+h;n envolve variáveis até ao
período n). Como consequência, o IC a 95% construído a partir de ^ n+h;n é
q
^ n+h;n 1:96 Var (e (h)) + Var ^ n+h;n n+h;n Fn :
Pode-se provar que Var ^ n+h;n n+h;n Fn é uma quantidade de ordem O (1=n); assim,
para amostra grandes, Var ^ n+h;n n+h;n Fn é uma quantidade “pequena” quando com-
parada com Var (e (h)) e pode ser negligenciada. A quantidade Var ^ n+h;n n+h;n Fn
pode ser estimada a partir de uma equação auxiliar. Para exemplificar considere-se a previsão
a um passo de um AR(1). A estimativa de c da equação
yt = c + 1 (yt 1 yn ) + ut
fornece uma estimativa para n+1;h (i.e., fornece ^ n+1;n ) pois y^n+1 = c^ + ^ 1 (yn yn ) = c^:
Por outro lado, o erro padrão de c^ = ^ n+1;n é uma estimativa para
Var ^ n+1;n n+1;n Fn = Var ^ n+1;n Fn :
205
6.I UE + UV + UC = 1
Veja-se em primeiro lugar que o EQM pode-se decompor em várias parcelas. Considere-se:
1X o
h
EQM = (y yip )2
h i=1 i
1X o
h
= (y yo + yo yip + y p y p )2
h i=1 i
1X o
h
= ((yi yo) (yip y p ) + (y o y p ))2
h i=1
1X o 1X p
h h
= (y o 2
y ) + (y y p )2
h i=1 i h i=1 i
| {z } | {z }
2 2
o p
1X o
h
+ (y o y p )2 2 (y y o ) (yip yp)
h i=1 i
| {z }
0 p
= 2
o + 2
p + (y o y p )2 2 0 p
2
= ( o p) + (y o y p )2 + 2 (1 ) 0 p
Assim
2
EQM = ( o p) + (y o y p )2 + 2 (1 ) 0 p
e, portanto, dividindo ambos os termos pelo EQM, obtém-se
EQM
1 =
EQM
2
( o p) (y o y p )2 2 (1 ) 0 p
= + +
EQM EQM EQM
| {z } | {z } | {z }
UV UE UC
206
Capítulo 7
Modelação da Média: Abordagem Não

Linear
7.1 Introdução
Ao longo das últimas décadas os modelos ARMA têm dominado a abordagem de séries tem-
porais (os primeiros trabalhados datam de 1927 com os modelos autoregressivos estudados
por Yule). Existem razões para o sucesso dos modelos ARMA Gaussianos:
simplicidade: as equações às diferenças finitas são fáceis de tratar;
o modelo ARMA Gaussiano é completamente caracterizado pela média, variância e

pelas autocorrelações;
são fáceis de aplicar e implementar (a maioria dos programas de estatísticas possui um

módulo para tratar os modelos ARMA);
a teoria está completamente desenvolvida: as principais questões, relacionadas com a

estimação, inferência e previsão estão resolvidas;
apesar da simplicidade são relativamente flexíveis e úteis na previsão.
Todavia, os modelos ARMA apresentam limitações:
não são apropriados para dados que exibam súbitas alterações em períodos irregulares;
207
não são apropriados para dados que exibam forte assimetria e achatamento;
os coeficiente de autocorrelação e autocorrelação parcial de ordem k são apenas um

dos aspectos da distribuição conjunta de (yt ; yt k ) : Pode suceder k e kk serem
baixos, mas existir uma forte relação não linear entre yt e yt k : Por exemplo k (y 2 ) =
Corr yt2 ; yt2 k pode ser alto;
não modelam dados que exibam “soluções periódicas estáveis”. Retomaremos este
tema mais à frente.
Discuta-se um pouco mais em detalhe a primeira limitação mencionada. Um modelo

ARMA Gaussiano estacionário possui momentos de todas as ordens, i.e., E jyt jk < 1
para qualquer k 2 N: Este facto implica que a probabilidade de y assumir (transitoriamente)
valores muito altos ou muito baixos é praticamente nula e, neste sentido, os modelos ARMA
não são apropriados para dados que exibam súbitas alterações em períodos irregulares. Para
esclarecer este ponto, assuma-se que E (y) = 0 e recorde-se que se y possui o momento de
ordem k; então (pela desigualdade de Markov) vem, para c > 0
k
P (jyj > c) O c
A expressão anterior estabelece que P (jyj > c) é proporcional (ou menos do que propor-
cional) a c k . Como c k
tende para zero quando c ! 1; P (jyj > c) tende também para
zero nas mesmas condições, e relativamente depressa se k é uma valor alto. Logo, a possi-
bilidade de jyj assumir um valor arbitrariamente grande é praticamente nula. Se y possuir
apenas o primeiro ou segundo momento, P (jyj > c) continua a tender para zero, mas a uma
taxa muito mais baixa, e y pode assumir valores “moderadamente” altos. A existência de
todos os momento como no caso do modelo ARMA Gaussiano, pode, em certos casos, não
ser uma propriedade desejável, pois em última análise impede que o modelo capte dados que
exibam súbitas alterações, excluindo portanto, os casos em que y assume transitoriamente
valores muito altos ou muito baixos.
Enquanto os modelos lineares são definidos apenas pela representação ARMA, o número
de especificações não lineares é virtualmente infinito. Embora a literatura dos modelos não
lineares esteja ainda na sua infância, existem já muitos modelos não lineares propostos na
literatura. Vamos apenas focar alguns modelos não lineares mais utilizados. Mas afinal, o
que é um modelo não linear?
208
Uma forma simples (mas não geral) de introduzir modelos não lineares consiste em ap-
resentar a não linearidade através dos momentos condicionais. Considere-se o modelo
yt = t + ut ; ut = t "t
onde "t é um ruído branco, t = g (yt 1 ; yt 2 ; ::; yt p ; ut 1 ; ut 2 ; :::ut q ) é a média condi-

2
cional de yt e t = h (yt 1 ; yt 2 ; :::; yt p~; ut 1 ; ut 2 ; :::; ut q~) > 0 é a variância condicional
de yt . O modelo é não linear na média se g é uma função não linear dos seus argumentos1 .
O modelo é não linear na variância se t é não constante ao longo do tempo pois, neste caso,
o processo fut g, definido por ut = t "t , é não linear, por ser um processo multiplicativo.
Vejamos alguns exemplos. No caso
yt = yt 1 + log 1 + yt2 1 + ut
tem-se um processo não linear na média, pois, t = yt 1 + log 1 + yt2 1 é uma função
não linear de yt 1 : Também
y t = u t 1 ut 2 + ut
é um processo não linear, pois t = ut 1 ut 2 é não linear nos valores passados de ut :

Os modelos não lineares na variância mais conhecidos são os modelos do tipo ARCH;
serão discutidos no capítulo 8.
Uma classe importante de processos não lineares na média baseiam-se na ideia de regime-
switching. Podem ser usados em duas circunstâncias gerais:
existem alterações bruscas e inesperadas nas trajectórias dos processos (e.g., ataques
especulativos, crashes bolsistas, anúncios públicos de medidas do governo, eventos
políticos e, em geral, eventos extraordinários não antecipados).
existem alterações da dinâmica do processo sem alterações bruscas nas trajectórias.

Por exemplo, a taxa de juro no período 1993 a 2006 exibe dois períodos com com-
portamento bem diferenciado: no primeiro, as taxas de juro e a volatilidade são rel-
ativamente altas e o processo evidencia uma tendência de reversão para uma média,
seguindo-se, depois de 1995, um período de baixas taxas de juro, baixa volatilidade e
1
Dizemos que uma função é não linear se não for uma função linear afim, i.e., se não verificar a relação
f (x1 ; :::; xn ) = a0 + a1 x1 + ::: + an xn , onde ai 2 R:
209
ausência de reversão para uma média. Outro exemplo é a taxa de inflação no período
1974-2006 (basta verificar os níveis de inflação e volatilidade nos anos 70/80 e nos
anos 90).
Para este tipo de fenómenos, os modelos com alterações (estocásticas) de regime (ou
regime-switching) podem ser, no essencial, de dois tipos:
a mudança de regime é função de uma variável observável; são exemplos, modelos

com variáveis impulso (dummy), os modelos limiares ou threshold AR (TAR), os mod-
elos onde os coeficientes associados às componentes AR são funções não lineares dos
valores passados y (STAR, smoothed transition AR), entre outros;
a mudança de regime não é observada, incluindo-se, nesta classe, os modelos onde os

regimes são independentes entre si (como, por exemplo, os modelos simple switching
ou de Bernoulli) e os modelos onde existe dependência entre os regimes (como por
exemplo, os modelos MS, Markov-Switching).
Antes de entrarmos nos processos estocásticos não lineares, faz-se, na próxima secção,
uma breve incursão sobre os sistemas autónomos do tipo
yt = g (yt 1 )
(determinísticos). O estudo da estabilidade deste tipo de sistemas é relevante para um estudo

mais aprofundado dos processos estocásticos do tipo yt = g (yt 1 )+ut (ou, mais geralmente,
yt = g (yt 1 ; yt 2 ; :::; yt p ) + ut ), pois parte da dinâmica subjacente ao processo estocástico
depende da função g (ou g no caso multivariado).
7.2 Estabilidade em Equações às Diferenças Finitas Deter-

minísticas
Nesta secção vamos analisa-se o sistema autónomo yt = g (yt 1 ) onde y é um vector de
tipo m 1 e g é uma função real2 g : Rm ! Rm : O modelo é determinístico (a condição
inicial é determinística - i.e. é conhecida).
2
O domínio de g poderá ser S Rm mas neste caso devemos exigir que S g (S) (suponha-se que esta
condição não se verifica - então poderia suceder que 2 S e y1 = g ( ) 2
= S e não seria possível agora
continuar com y2 = g (y1 ) = g (g ( )) pois g ( ) 2
= S).
210
7.2.1 Pontos Fixos e Estabilidade de Sistemas Lineares
Definição 7.2.1 (Ponto Fixo de f ) Um vector y é designado por ponto fixo de g se g (t; y) =
y; para todo o t.
No ponto fixo o sistema dinâmico discreto não varia (está em equilíbrio). Com efeito,
se yt 1 = y e y é um ponto fixo, a variação da solução, yt ; é nula, i.e., y t = yt
yt 1 = g (yt 1 ) yt 1 = y y = 0:
Por exemplo, considere-se y0 = 2 e a equação às diferenças finitas (EDF)3 yt = (1=2) yt 1 +
1 (note-se m = 1). Iterando a equação é fácil verificar que y1 = 2; y2 = 2; ::: Logo y = 2 é
o ponto fixo de g (x) = (1=2) x + 1: Para calcular o ponto fixo de g basta resolver a equação
(1=2) y + 1 = y em ordem a y:
Exemplo 7.2.1 Considere-se yt = 2yt 1 (1 yt 1 ) : Tem-se g (x) = 2x (1 x) : Os pontos

fixos (de g) calculam-se a partir da relação g (y) = y; i.e., 2y (1 y) = y: Os pontos fixos
são portanto y = 0 e y = 1=2:
Exemplo 7.2.2 Considere-se o sistema não linear

0 1 0 1
y1t y2t 1
@ A=@ A:
y2t 1
y2t y1t 1
Tem-se, portanto 00 11 0 1
x1 x2
g @@ AA = @ A
x2
x2 x1
com domínio 80 1 9
< x =
@ 1 A 2 R2 : x1 6= 0 :
: x ;
2
Determinem-se os pontos fixos de g: Para o efeito, resolve-se g (x) = x, i.e.,

0 1 0 1
x2 x1
@ A=@ A:
x2
x1
x2
3
O ramo da matemática que estuda a dinâmica de sistemas determísticos usa, por vezes, uma linguagem um
pouco diferente da que estamos habituados. Por exemplo, a equação yt = yt 1 é designada por equação às
diferenças finitas homogénas de primeira ordem linear. Mantemos a designação “equação às diferenças finitas”
ou “sistema de equações às diferenças finitas” (consoante o caso) para identificar a equação yt = g (yt 1 ) :
211
yt Linha 45º
4
2 c b f(x)
e
d
a
-4 -2 2 4 yt-1
-2
-4
Figura 7-1: Gráfico Teia de Aranha do PVI yt = 0:5yt 1 ; y0 = 4
É fácil verificar que o único ponto fixo é

0 1
1
@ A:
1
Proposição 7.2.1 Seja S um intervalo fechado e g : S ! R uma função contínua. Se

S g (S) então g tem um ponto fixo em S:
Dem. Nicolau (2004).

Quando m = 1 e a EDF é autónoma é muito útil o gráfico teia de aranha no estudo da
estabilidade. Para ilustrar a interpretação do gráfico representa-se na figura 7-1 o gráfico
teia de aranha associado à equação yt = 0:5yt 1 , com valor inicial y0 = 4 (ponto a). No
momento 1 tem-se y1 = 0:5 4 = 2 (ponto b ou c). Este valor, y1 = 2; pode ser interpretado
como o valor inicial com respeito a y2 ; assim, poderíamos colocar y1 = 2 no eixo das
abcissas. Em alternativa, o valor y1 ”parte” da linha de 450 (ponto c) e o procedimento é
repetido iterativamente. Assim, no momento 2 tem-se y2 = 0:5 2 = 1 (ponto e) e assim
sucessivamente. O gráfico mostra que limt!1 yt = 0:
Na figura 7-2 representa-se o gráfico teia de aranha da EDF yt = yt2 1 (o que sucede
quando o valor inicial se encontra no intervalo (1; 1) ? E no intervalo (0; 1)? E ainda no
intervalo( 1; 0)?)
212
Figura 7-2: Gráfico Teia de Aranha da Aplicação f (x) = x2 (estão traçadas duas órbitas
com valores inicias -1.1 e 0.9)
Seja yt = yt (y0 ) a solução da EDF (ou do sistema de EDF) yt = g (t; yt 1 ) ; dada a

condição inicial y0 (para simplificar admite-se, sem perda de generalidade, que t0 = 0). A
expressão yt (y0 ) define a solução como uma função explícita da condição inicial y0 . No
caso da EDF autónomas é usual considerar-se a notação yt = g t (y0 ) em lugar de yt = yt (y0 )
onde
g t (x) := g(:::g(g (x))):
| {z }
t vezes
1
Exemplo 7.2.3 Se g (x) = 1+x
; então
1 1
g 2 (x) = g (g (x)) = g = 1 ;
1+x 1 + 1+x
!
1 1 1
g 3 (x) = g (g (g (x))) = g g =g 1 = 1 :
1+x 1 + 1+x 1+ 1
1+ 1+x
1
Dada a EDF yt = 1+yt 1
; o valor y3 dado y0 = 1 é
1 3
g 3 (1) = 1 = :
1+ 1
1+ 1+1
5
Naturalmente, podemos obter este valor considerando o procedimento iterativo,
1 1 1 2 1 3
y1 = = ; y2 = 1 = ; y3 = 2 = :
1+1 2 1+ 2
3 1+ 3
5
A expressão g t (y0 ) representa o valor de yt dada a condição y0 :
Definição 7.2.2 (Estabilidade - Caso g : R ! R) O ponto fixo y diz-se estável se para cada
" > 0 existe um = (t0 ; ") tal que, para cada qualquer solução yt (y0 ) a desigualdade
213
jy0 yj implica jyt (y0 ) yj < " para todo o t t0 : O ponto fixo y diz-se assimptot-
icamente estável se é estável e se existe um 0 > 0 tal que a desigualdade jy0 yj 0
4
implica jyt (y0 ) yj ! 0 quando t ! 1: O ponto fixo y diz-se instável se não é estável.
(A definição adapta-se facilmente ao caso multivariado - basta trocar j j por k k e ajustar

as notações). Grosso modo, um ponto fixo y é estável se yt = yt (y0 ) permanecer “perto” de
y para todo o t sempre que y0 se encontrar “perto” de y: O ponto fixo y é assimptoticamente
estável se for estável e toda a solução inicializada perto de y converge para y:
Exemplo 7.2.4 Considere-se yt = yt 1 +c, com c 6= 0: Tem-se g (x) = x+c. Resolvendo

g (y) = y; i.e., y + c = y conclui-se que o (único) ponto fixo é y = c= (1 ). No
caso = 1 não existe ponto fixo (a equação x + c = x é impossível, com c 6= 0). A
estabilidade do ponto fixo y pode, no caso presente, ser discutida directamente a partir g t
(na generalidade dos casos não lineares não é possível obter g t ). Tem-se, com a condição
t
inicial y0 ; yt = g t (y0 ) = y0 t
+ c 11 . Assim
t
t 1 c t c
g t (y0 ) y = y0 +c = y0
1 1 1
c
g t (y0 ) y = j jt y0 = j jt jy0 yj :
1
Impondo jg t (y0 ) yj < " vem j jt jy0 yj < ". Se j j < 1 então y é estável. Basta
considerar um tal que jy0 yj < ": Nestas condições tem-se jg t (y0 ) yj < " para
todo o t > 0: Se j j > 1 o termo jg t (y0 ) yj tende para 1 o que significa que não existe
um > 0 nos termos da definição de ponto fixo estável; logo y é instável. Analise-se a
estabilidade assimptótica. Tem-se para 6= 1
8
1 t < c
= y se j j < 1
t t 1
lim g (y0 ) = lim y0 +c =
t!1 t!1 1 : 1 se j j > 1
Assim, se j j < 1 o ponto fixo y é assimptoticamente estável; se j j > 1; y é instável.
Exemplo 7.2.5 Retome-se o exemplo 7.2.1 (yt = 2yt 1 (1 yt 1 )): Vimos que os pontos
fixos são y = 0 e y = 21 . Discute-se agora a estabilidade a partir do gráfico teia de aranha
- ver a figura 7-3. Estão representados três valores iniciais. É fácil concluir que qualquer
ponto que se encontre numa vizinhança do ponto fixo 1/2 (por exemplo ponto A ou B) não
4
Se a EDF é autónoma leia-se g t (y0 ) em lugar de yt (y0 ) :
214
0.6
0.4
0.2
C A B
-0.5 -0.25 0.25 0.5 0.75 1
-0.2
-0.4
Figura 7-3: Gráfico Teia de Aranha da equação yt = 2yt 1 (1 yt 1 ) (representados três

valores iniciais).
só não se afasta de 1/2 como também converge para y = 1=2. Este ponto fixo é portanto
assimptoticamente estável. O ponto fixo zero é instável. Basta observar o que sucede quando
y é inicializado no ponto C.
Considere-se um sistema de m equações lineares yt = Ayt 1 com a condição inicial y0

e seja
r = max fj i j : i é um valor próprio de A (i = 1; :::; m)g : (7.1)
A estabilidade de um sistema de equações lineares é estabelecida na seguinte
Proposição 7.2.2 (a) Se r < < 1 então existe uma constante C > 0 tal que
t
kyt k C ky0 k
para t 0, para qualquer y0 2 R: Além disso verifica-se limt!1 kyt k = 0:(b) Se r > 1
então algumas soluções do sistema tendem para 1. (c) Se r 1 e se a multiplicidade
algébrica de todos os valores próprios que verificam j j = 1 for igual a um então existe uma
constante C > 0 tal que kyt k C ky0 k para t 0:

p
2 2
Notar que se é número complexo então j j = j + ij = + :
Resulta da proposição anterior que o ponto fixo y = 0 é, assimptoticamente estável se
r < 1; instável se r > 1; e estável se r 1 e se a multiplicidade algébrica de todos os
215
12
10
6
y1
4
y2
2
0
0 1 2 3 4 5 6 7 8 9 10 11
-2
-4
Figura 7-4: Trajectórias y1t e y2t
valores próprios que verificam j j = 1 for igual a um.
Exemplo 7.2.6 Estude-se a estabilidade do sistema

0 1 0 10 1
y1t 1 5 y1t 1
@ A=@ A@ A:
y2t 0:25 1 y2t 1
1
Os valores próprios são 2
i: Logo r = 12 . Como r < 1 conclui-se que o ponto fixo y = 0
é assimptoticamente estável. Nas figuras seguintes analisa-se graficamente a dinâmica do
sistema admitindo y0 = (10; 1)T : Na figura 7-4 apresentam-se as trajectórias y1t e y2t : A
figura 7-4 é elucidativa quanto à estabilidade do sistema. Em ambos os casos se observa
y1t ! 0, y2t ! 0 quanto t ! 0.
Exemplo 7.2.7 Considere-se o sistema de EDF

0 1
cos sen
yt = @ A yt 1 :
sen cos
p
Os valores próprios são = cos i sin e jcos i sin j = jcos + i sin j = cos2 + sin2 =
1: Como a multiplicidade algébrica de todos os valores próprios que verificam j j = 1 é
igual a um conclui-se que o ponto fixo y = 0 é estável.
216
7.2.2 Estabilidade de Sistemas Não Lineares
Linearização
A proposição seguinte fornece um método para analisar a estabilidade assimptótica no caso

escalar (EDF autónomas).
Proposição 7.2.3 Suponha-se que g : R!R tem derivada de primeira ordem contínua num
intervalo aberto contendo o ponto fixo y: Então (a) se jg 0 (y)j < 1; y é assimptoticamente
estável; (b) se jg 0 (y)j > 1; y é instável.
Dem. (a) Dado que, por definição,
jg (x) g (y)j jg (x) yj

lim = lim = jg 0 (y)j
x!y jx yj x!y jx yj
então existe uma vizinhança V" (y) de raio " > 0; tal que, para jg 0 (y)j < < 1;
jg (x) yj < jx yj ; x 2 V" (y) :
Resulta que x 2 V" (y) ) g (x) 2 V" (y) (pela desigualdade anterior, constata-se que g (x)
está mais "perto"de y do que x está de y; por um factor de ordem < 1). É imediato verificar
que g (x) 2 V" (y) ) g 2 (x) 2 V" (y) : Repetindo o argumento conclui-se g t (x) 2 V" (y) :
Logo,
g 2 (x) y = jg (g (x)) yj < jg (x) yj < 2
jx yj :
Por indução, conclui-se jg t (x) yj < t

jx yj. Como t
! 0 segue-se que y é assimp-
toticamente estável. (b) Utilizando argumentos idênticos conclui-se que g t (x) se afasta cada
vez mais de y à medida que t ! 1:
Exemplo 7.2.8 Retome-se os exemplos 7.2.1 e 7.2.5. Com g (x) = 2x (1 x) tem-se g 0 (x) =
2 4x e, portanto, pela proposição 7.2.3, o ponto fixo 0 é instável pois jg 0 (0)j = 2 > 1 e o
ponto 1/2 é assimptoticamente estável pois jg 0 (1=2)j = 0 < 1:
Analise-se agora a estabilidade de sistemas de EDF. Uma forma de abordar a estabilidade

de sistemas de EDF consiste em linearizar g (x) em torno do ponto fixo y (o caso escalar ap-
resentado atrás baseia-se também no método da linearização). Suponha-se que g (x) possui
derivadas de segunda ordem contínuas. Então, pela fórmula de Taylor vem
217
@gi (y) 1 @gi2 (z)
T
gi (x) = gi (y) + (x y) + (x y) (x y) ; i = 1; :::; m
@xT 2 @x@xT
ou, mais compactamente,
g (x) = g (y) + g0 (y) (x y) + h (x) (7.2)
Note-se que g0 (y) é o Jacobiano de g no ponto y (é uma matriz de constantes). Reescreva-se

a equação (7.2) na forma
g (x) = Ax + h (x)
onde
0 1
@g1 (y) @g1 (y)
B @x1 @xm C
0 B .. .. .. C
A = g (y) = B . . . C; (7.3)
@ A
@gm (y) @gm (y)
@x1 @xm
0 1
@g12 (z)
(x y)T @x@x (x y)
1B C
T
0 B .. C
h (x) = g (y) g (y) y + B . C
2@ A
2 (z)
(x y)T @gm
@x@xT
(x y)
(note-se que z varia com x). Tem-se agora:
Proposição 7.2.4 Suponha-se que g : Rm !Rm tem derivadas de segunda ordem contínuas
num conjunto aberto contendo o ponto fixo y: Dado
r = max fj i j : i é um valor próprio de A (i = 1; :::; m)g
e A é dada pela equação (7.3) tem-se, (a) se r < 1 então y é assimptoticamente estável; (b)
se r > 1 então y é instável.
Dem. Kelley e Peterson, (1991), p. 180.

Obviamente esta proposição generaliza a proposição 7.2.3.
218
Exemplo 7.2.9 Considere-se o seguinte modelo presa-predador,
y1t 1 y2t 1
y1t = (1 + ) y1t 1 0:001
1 + 0:0001y1t 1
y1t 1 y2t 1
y2t = (1 ) y2t 1 + 0:00003
1 + 0:0001y1t 1
onde y1t e y2t representa, respectivamente, o número de presas e o número de predadores no

momento t; é a diferença entre a taxa de nascimento e a taxa de mortalidade das presas e
é a taxa de mortalidade dos predadores. Suponha-se que = 0:1 e = 0:01: Tem-se
0 1 0 1
x1 x2
g1 (x1 ; x2 ) 1:1x1 0:001 1+0:0001x
g (x1 ; x2 ) := @ A=@ 1 A:
x1 x2
g2 (x1 ; x2 ) 0:99x2 + 0:00003 1+0:0001x 1
Os pontos fixos resultam da resolução do sistema g (x1 ; x2 ) = (x1 ; x2 ) : Obtém-se dois

pontos fixos, 0 1 0 1
0 344:828
y1 = @ A; y2 = @ A:
0 103:448
Estude-se a estabilidade do ponto fixo y2 ; recorrendo-se à proposição 7.2.4. Para o efeito

determina-se 0 1
@g1 (y2 ) @g1 (y2 )
A = g0 (y2 ) = @ @x1 @xm A:
@gm (y2 ) @gm (y2 )
@x1 @xm
Depois de alguns cálculos obtém-se

0 1
1:003 0:3333
A=@ A:
0:0029 1
Os valores próprios são 1; 2 = 1:00167 0:0310466i: Donde
p
j 1 j = j1:00167 + 0:0310466ij = 1:001672 + 0:03104662 = 1: 002;
p
j 1 j = j1:00167 0:0310466ij = 1:001672 + 0:03104662 = 1: 002;
pelo que r = 1:002 > 1 e, portanto, o ponto fixo y2 é instável. A figura 7-5 ilustra o
comportamento dinâmico do sistema.
219
550
450
350
y1
250
y2
150
50
-50 0 100 200 300 400 500 600 700
Figura 7-5: Trajectórias y1t e y2t (t = 0; 1; :::; 800)
Método Directo de Liapunov
Veja-se agora o chamado “Método Directo de Liapunov”. Considere-se um sistema de EDF

yt = g (yt 1 ) com a condição inicial y0 e seja y um ponto fixo de g. Considere-se uma
função real V de m variáveis nas seguintes condições: V é contínua numa vizinhança V" (y) ;
V (x) > 0 se x 6= y em V" (y) e V (y) = 0. Uma função nestas condições designa-se por
função Liapunov. Defina-se
V (x) := V (g (x)) V (x)
em V" (y) (não confundir a função V com a vizinhança de z de raio "; V" (z)).
Proposição 7.2.5 (Método Directo de Liapunov) Seja y um ponto fixo de g e assuma-se

que g é contínua numa certa vizinhança de y. Se (a) V (x) 0 para todo o x 2 V" (y)
então a solução y é estável; se (b) V (x) < 0 para todo o x 2 V" (y) e x 6= y então a
solução y é assimptoticamente estável; se (c) V (x) > 0 para todo o " > 0 e x 2 V" (y) e
x 6= y então a solução y é instável.
Apresenta-se uma explicação heurística do resultado (no caso escalar). Imagine-se a

função V (x) como uma distância entre x e y com x 2 V" (y) : Considere-se 0 < < ":
Por hipótese y0 2 V (y) e, como, V (g (y0 )) V (y0 ) o ponto y1 = g (y0 ) não se afasta
de y (y1 não está mais distante de y do que y0 está de y). Logo y1 2 V (y) : Seguindo o
mesmo raciocínio tem-se que V (g (y1 )) V (y1 ) implica y2 2 V (y) : Iterando, conclui-
se que yt 2 V (y) V" (y) : Logo a solução y é estável. Suponha-se agora a desigual-
dade estrita V (g (x)) < V (x) : Por hipótese y0 2 V" (y) e V (g (y0 )) < V (y0 ) implica
220
jg (y0 ) yj < jy0 yj, 0 < < 1: Por seu lado, a desigualdade V (g (y1 )) < V (y1 ) im-
2
plica jy2 yj = jg (y1 ) yj < jg (y0 ) yj < jy0 yj : Iterando, conclui-se jyt yj <
t
jg (y0 ) yj ! 0 quando t ! 1:
Exemplo 7.2.10 Considere-se yt = yt 1 yt3 1 : O único ponto fixo é y = 0: A proposição

7.2.3 é inconclusivo, pois com g (x) = x x3 ; tem-se jg 0 (0)j = 1. Considere-se a função
V (x) = x2 : Vem
2
V (x) = x x3 x2 = x 6 2x4 = x4 x2 2 <0
p
no conjunto x : jxj < 2 = Vp2 (y) : Logo o ponto fixo y = 0 é assimptoticamente
estável.
Exemplo 7.2.11 Retome-se o exemplo 7.2.7,

0 1
cos sen
yt = @ A yt 1
sen cos
com ponto fixo, 0 1

0
y=@ A:
0
Defina-se 00 11
x1
V @@ AA = x21 + x22 :
x2
Facilmente se verifica V (y) = 0 e V (x) > 0 para x 6= y: Tem-se

00 11 00 11
x1 cos + x2 sen x1
V (x) = V @@ AA V @@ AA
x1 sen + x2 cos x2
= (x1 cos + x2 sen )2 + ( x1 sen + x2 cos )2 x21 x22
= 0:
Consequentemente o ponto fixo é estável.
Bacia do Escoadouro
Na literatura é usual designar-se um ponto fixo assimptoticamente estável como um escoad-

ouro (sink) e um ponto fixo instável como fonte (source). A designação escoadouro sugere
221
que o sistema dinâmico inicializado numa vizinhança do escoadouro converge para o escoad-
ouro. Utiliza-se também a designação bacia do escoadouro (basin of the skin) para definir
o conjunto de pontos W tal que se y0 2 W então yt = gt (y0 ) ! y (onde y é um es-
coadouro). Analiticamente escreve-se: W (y) = fy0 2 Rm : gt (y0 ) ! yg5 : No exemplo
7.2.5, onde g (x) = 2x (1 x) ; vimos que o ponto 1/2 é um escoadouro: qualquer ponto
na vizinhança de 1/2 converge para 1/2. Uma inspecção da figura 7-3 sugere que a bacia do
escoadouro é o conjunto (0; 1) ; i.e., W (1=2) = (0; 1) :
A proposição seguinte tem aplicação no caso de EDF autónomas (não lineares).
Proposição 7.2.6 Seja E = fx : jg (x) yj jx yj ; 0 < < 1g : Se existe um "1 > 0

tal que V"1 (y) E então
yt = g t (y0 ) ! y
para todo o y0 2 V"1 (y) :

A proposição 7.2.6 não fornece toda a bacia do escoadouro. Na figura 7-6 a função g (x) ;
com ponto fixo y = 1; está definida na região V para x < 1 e na região III para x > 1. Apenas
os pontos x pertencentes ao intervalo (A; 1) verificam jg (x) yj < jx yj : Concretamente,
E = fx : jg (x) yj < jx yj ; 0 < < 1g = (A; 1) mas não existe um " > 0 tal que
V" (y) = V" (1) E e, portanto, a proposição 7.2.6 não é aplicável. Também a proposição
7.2.3 não é aplicável, pois jg 0 (1)j = 1 (admitindo que g 0 (x) existe numa vizinhança de
1). Verifica-se, no entanto, por simples inspecção gráfica, que o sistema dinâmico definido
por g (x) converge para y = 1 se o valor inicial pertencer a (A; 1) : Além disso, qualquer
ponto do intervalo (1; B) tem como aplicação um ponto de (A; 1) : Ou seja, embora não se
verifique jg (x) yj < jx yj quando x 2 (1; B) ; os ponto de (1; B) movem-se para (A; 1)
onde aqui se tem jg (x) yj < jx yj para x 2 (A; 1) : Assim, a bacia do escoadouro é
(A; 1) [ (1; B) [ f1g = (A; B) :
A discussão precedente sugere uma forma de se determinar a bacia do escoadouro.
Suponha-se que E1 é um conjunto de pontos y0 tais que gt (y0 ) ! y e y0 2 E1 (este
conjunto pode determinar-se através da proposição 7.2.6). Num segundo passo determina-se
o conjunto E2 = fx : g (x) 2 E1 g e, por recorrência, Ei+1 = fx : g (x) 2 Ei g : Se em dado
momento Ek+1 = Ek então a bacia do escoadouro é dado pela união dos conjuntos Ei0 s.
5
No caso não autónomo deve ler-se W (y) = fy0 2 Rn : yt (y0 ) ! yg :
222
2.5
2 VI I
1.5
1 V II
0.5
IV III
A B
-0.5 0.5 1 1.5 2 2.5
f(x)
-0.5
Figura 7-6: Bacia do Escoadouro
Exemplo 7.2.12 Considere-se g (x) = (3x x3 ) =2 (figura 7-7). Os pontos fixos são 1; 0; 1:
p
Analise-se o ponto 1: É fácil verificar que E1 = (0; b) = 0; 1=2 1 + 17 W (1) (a
proposição 7.2.6 é aplicável: numa vizinhança do ponto 1, a função g (x) encontra-se nas
regiões II e V; no entanto, a proposição fornece um primeiro conjunto contido em E1 ). Tem-
se agora
E2 = fx : g (x) 2 E1 g = fx : 0 < g (x) < bg = (e; c) [ (b; d) W (1)
p p
onde e = 2; 11569; c = 3; d = 3: Este procedimento pode ser continuado com
E3 = fx : g (x) 2 E2 g, E4 ; etc.
Exemplo 7.2.13 Considere-se g (x) = tan x; =2 < x < =2: O ponto fixo é y = 0 (pois
g (0) = 0). Na figura 7-8 verifica-se que a função g (x) não se encontra nem na região II
nem na região V (neste caso concreto, qualquer que seja o valor inicial, o sistema dinâmico
afasta-se cada vez mais de y = 0). Assim, y = 0 não é escoadouro.
Exemplo 7.2.14 Considere-se g (x) = 3x (1 x) : Verifica-se que os pontos fixo são 0 e

2=3. Na figura 7-9 analisa-se o ponto fixo 2=3 (tendo-se representado para o efeito as
curvas x e x + 2y = x + 4=3). A proposição 7.2.3 não esclarece a natureza do ponto
fixo y = 2=3 pois jg 0 (2=3)j = 1: Também a proposição 7.2.6 não é aplicável pois embora
E = fx : jg (x) 2=3j < jx 2=3jg = (0; 2=3) não existe um " > 0 tal que V" (2=3)
E: Também não se pode concluir imediatamente que o intervalo (0; 2=3) pertence à bacia
223
VI I
V
II
a e c 1 b
d
III
IV
Figura 7-7: Bacia do Escoadouro da Aplicação f (x) = (3x x3 ) =2
1.5
VI I
1
0.5
V II
-1 -0.5 0.5 1
-0.5
-1
III
IV
-1.5
Figura 7-8: g (x) = tg x
224
1.5
VI I
V
II
0.5
IV III
0.2 0.4 0.6 0.8 1
-0.5
Figura 7-9: g (x) = 3x (1 x)
Figura 7-10: Trajectória de yt = 3yt 1 (1 yt 1 ), y0 = 0:5 (t = 1; :::; 50)
do escoadouro (verifique-se isso através de inspecção gráfica). Este exemplo mostra as

limitações das proposições 7.2.3 e 7.2.6. Pode-se provar que o ponto 2=3 não é de facto
um escoadouro6 (i.e. um ponto fixo assimptoticamente estável) pelo que não há lugar à
determinação da bacia do escoadouro. Na figura representa-se a trajectória yt com t =
1; :::; 50:
Um resultado que ultrapassa, em certas circunstâncias, as limitações apontadas às proposições

7.2.3 e 7.2.6 e, além disso, é directamente aplicável a sistemas de equações às diferenças
consiste no seguinte.
6
Prova-se que não existe um " > 0 tal que f (2=3 ") 2=3 > 2=3 f 2 (2=3 ") :
225
Proposição 7.2.7 Admitam-se as condições da proposição 7.2.5 e suponha-se V (x) < 0
para todo o x 2 V" (y) e x 6= y. Se y0 2 V" (y) então gt (y0 ) ! y quando t ! 1:
Logo V" (y) W (y) :
2 2
y1t = y2t 1 y2t 1 y1t 1 + y2t 1
2 2
y2t = y1t 1 y1t 1 y1t 1 + y2t 1 :
Estude-se a estabilidade do ponto fixo y = (0; 0)T e determine-se a respectiva bacia do

escoadouro. Para o efeito tome-se a função V (x1 ; x2 ) = x21 + x22 : Vem
2 2
V (x) = x2 x2 x21 + x22 + x1 x1 x21 + x22 x21 + x22
= :::
2
= x21 + x22 2 + x21 + x22
< 0
n p p o
no conjunto (x1 ; x2 ) : x21 + x22 < 2 = Vp2 (y) W (y) :
Exemplo 7.2.16 Retome-se o exemplo 7.2.10, yt = yt 1 yt3 1 : Resulta óbvio que Vp2 (y)
W (y) :
Exemplo 7.2.17 Retome-se o exemplo 7.2.12, yt = 3yt 1 yt2 1 =2: Analise-se a bacia
do escoadouro do ponto y = 1 e, para o efeito, considere-se V (x) = (x 1)2 : Tem-se
2
V (x) = 3x x2 =2 1 (x 1)2
9 2 3 3 1 4
= x x x + x
4 2 4
1
= (x 4) (x 1)2 x:
4
A função V (x) está representada na figura 7-11, a qual permite concluir que V1 (1) =
fx : jx 1j < 1g W (1) : No exemplo 7.2.12 foi-se um pouco mais longe. De facto,
observou-se que V1 (1) W (1).
A terminar esta secção mostra-se que se um ponto pertence a uma certa bacia de escoad-
ouro então esse ponto não pode pertencer a outra bacia de escoadouro. Assim;
226
2
0
-0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0
-1
-2
-3
-4
Figura 7-11: Gráfico da função V (x) = 14 (x 4) (x 1)2 x
Proposição 7.2.8 Se y1 e y2 são escoadouros e y1 6= y2 então W (y1 ) \ W (y2 ) = ;:
Dem. Mostra-se que W (y1 ) \ W (y2 ) 6= ; ) y1 = y2 : Seja y0 2 W (y1 ) \ W (y2 ) :

Então para cada " > 0 existe um n1 2 N tal que t n1 implica kgt (y0 ) y1 k < "=2 e
existe um n2 2 N tal que t n2 implica kgt (y0 ) y2 k < "=2: Logo as duas desigual-
dades verificam-se simultaneamente para o maior dos n0 s; i.e. definindo n3 = max fn1 ; n2 g
tem-se que t n3 implica kgt (y0 ) y1 k < "=2 e kgt (y0 ) y2 k < "=2: Utilizando a
desigualdade triangular para t n3 vem
ky1 y2 k = y1 gt (y0 ) y2 gt (y0 )
y1 gt (y0 ) + y2 gt (y0 )
" "
< + = ":
2 2
Como a distância entre y1 e y2 é menor do que " para cada " > 0; deverá ter-se y1 = y2 :
7.2.3 Pontos Periódicos
Definições
Definição 7.2.3 Um vector p 2 Rm é um ponto periódico de período k se
gk (p) = p (7.4)
e k é o menor inteiro positivo tal que (7.4) se verifica (i.e., gs (p) 6= p para s = 1; 2; :::; k
1). A órbita de valor inicial p diz-se uma órbita periódica de período k:
227
Note-se que se p é um ponto periódico de período 2 então p é um ponto fixo de g2 : O
recíproco não é verdade. Por exemplo, um ponto fixo de g2 pode ser também um ponto fixo
de g e, neste caso, de acordo com a definição, este ponto tem período 1:
Considere-se uma órbita de valor inicial p; i.e., fp; g (p) ; g2 (p) ; :::g : Se p é um ponto
periódico de período 3, p deve repetir-se de três em três iterações. Por exemplo, fp; g (p) ; g2 (p) ; p; :::g :
Mas g (p) e g2 (p) também se repetem de três em três iterações, f::; p; g (p) ; g 2 (p) ; p; g (p) ; g 2 (p) ; p:::g :
Neste exemplo, é suficiente identificar a órbita de período 3 através dos três elementos
fp; g (p) ; g 2 (p)g (se p é ponto fixo de g e, portanto, ponto periódico de período 1, en-
tão a órbita periódica de período 1 é constituída apenas pelo elemento fpg). Naturalmente,
b = g (p) e c = g 2 (p) são também pontos periódicos de período 3. A proposição seguinte
estabelece este resultado.
Proposição 7.2.9 Seja p um ponto periódico de g de período k: Então
g (p) ; g2 (p) ; :::; gk 1

(p)
são também pontos periódicos de período k:
Dem. Considere-se um ponto genérico do conjunto g (p) ; g2 (p) ; :::; gk 1

(p) , pi =
gi (p) ; com i = 1; 2; :::; k 1: Mostra-se em primeiro lugar que pi não é um ponto fixo de
gs com s < k; caso contrário pi não poderia ser candidato a ponto periódico de período k
(definição 7.2.3): Suponha-se no entanto que pi é ponto fixo de gs : Viria
gs (pi ) = pi , gs gi (p) = gi (p) , gs+i (p) = gi (p)
o que significa que p repete de s em s iterações, ou seja que p é ponto fixo de gs : Esta
conclusão contradiz a hipótese de p ser ponto periódico de período k > s (i.e., a primeira
vez que p se repete é após k iterações). Basta agora ver que pi = gi (p) é ponto fixo de gk :
Vem
gk (pi ) = gk gi (p) = gi gk (p) = gi (p) = pi :
Exemplo 7.2.18 Considere-se a equação yt = ayt 1 (1 yt 1 ) : Tem-se portanto g (x) =

ax (1 x) : Investigue-se se existem pontos periódicos de período 2. Determine-se g 2 (x)
g 2 (x) = g (g (x)) = a (g (x)) (1 g (x)) = a (ax (1 x)) (1 ax (1 x)) :
228
Poderíamos também obter g 2 (x) considerando
yt = ayt 1 (1 yt 1 )
= a (ayt 2 (1 yt 2 )) (1 (ayt 2 (1 yt 2 )))
o que permitiria deduzir g 2 (x) = a (ax (1 x)) (1 ax (1 x)) : Para determinar eventu-
ais pontos periódicos resolve-se a equação g 2 (x) = x em ordem a x: Factorizando g 2 (x) x
obtém-se
x (1 a + a x) 1 + a ax a2 x + a2 x2 = 0
pelo que se conclui que os pontos fixos de g 2 são
1
p
1+a + 1a + 1
( 3 2a + a2 )
x1 = 0; x2 = ; x3 = 2 2 2
; (7.5)
a
p a
1
2
+ 21 a 1
2
( 3 2a + a2 )
x4 = : (7.6)
a
Estes valores serão pontos periódicos de período 2 se não forem pontos fixos de g. Ora
resolvendo
g (x) = x
1+a
sai y = 0 e y = a
: Retome-se os pontos fixos apresentados em (7.5) e (7.6). Conclui-se
que os pontos 0 e ( 1 + a) =a não são pontos periódicos de período 2 pois eles são pontos
fixos de g (e, portanto são pontos periódicos de período 1). Relativamente a x3 conclui-se
que p
1
2
+ 12 a + 1
2
( 3 2a + a2 ) 1+a
=
a a
se a = 1; e p
1
2
+ 12 a + 1
2
( 3 2a + a2 )
=0
a
se a = 1: Logo x3 é ponto periódico de período 2 se a 6= 1 e a 6= 1: Seguindo o
mesmo raciocínio conclui-se que x4 é ponto periódico de período 2 se a 6= 3 e a 6= 1:
1+a
Para concretizar suponha-se que a = 3:3: Tem-se y = 0, y = a
= : 696 97; x3 = :
823 6 e x4 = : 479 43: Na figura 7-12 é evidente que f0: 823 6; 0:47943g forma uma órbita
de período 2.
Outra forma (embora pouco eficiente) de confirmarmos as conclusões emergentes da
figura 7-12 consiste em se calcular iterativamente a trajectória y: A tabela seguinte fornece
229
y
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1 t
0
1 8 15 22 29 36 43
Figura 7-12: Trajectória de yt = 3:3yt 1 (1 yt 1 ) ; y0 = 0:1

t: 0 1 2 3 4 5 6 7 8 9 10 11 12 13
yt: 0.1000 0.2970 0.6890 0.7071 0.6835 0.7139 0.6740 0.7251 0.6577 0.7429 0.6303 0.7690 0.5863 0.8004
t: 14 15 16 17 18 19 20 21 22 23 24 25 26 27
yt: 0.5271 0.8226 0.4816 0.8239 0.4788 0.8235 0.4796 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236
t: 28 29 30 31 32 33 34 35 36 37 38 39 40 41
yt: 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236 0.4794 0.8236
Figura 7-13: Sucessão yt = 3:3yt 1 (1 yt 1 ) ; y0 = 0:1; t = 1; :::; 41
os valores de yt ao longo do tempo, com y0 = 0:1: É óbvio, a partir de certo valor de t

(digamos, a partir de t = 20) yt repete os valores .8236 e .4794 de duas em duas iterações.
É também interessante confirmarmos que :823 6 e :47943 são pontos periódico de período
2 a partir do gráfico teia de aranha, figura 7-14.
Exemplo 7.2.19 Retome-se o exemplo 7.2.2. Tem-se

0 00 111 00 11 0 1 0 1
x2 x2
x1 x2
g2 (x) = g @g @@ AAA = g @@ AA = @ x1
x2 A=@ x1 A
x2 x1 1
x2 x1 x2 x1
e
0 0 00 1111 00 11 0 1 0 1
x2 1 1
x1 x1
g3 (x) = g @g @g @@ AAAA = g @@ x1 AA = @ 1
x1
A=@ x1 A:
1 1
x2 x1
x2
x2
x1
Deixa-se como exército verificar que não existem ponto periódicos de período 2 e existem
três pontos periódicos de período 3.
Um modelo que pode gerar pontos periódico é o modelo linear por troços (ou, simples-
mente, modelo limiar). Assume-se um comportamento diferenciado do sistema dinâmico
consoante o estado do sistema no momento t 1; concretamente, consoante yt 1 se encontre
230
0.8
0.6
0.4
0.2
-0.5 -0.25 0.25 0.5 0.75 1
-0.2
-0.4
Figura 7-14: Gráfico Teia de Aranha da equação yt = 3:3yt 1 (1 yt 1 )
abaixo ou acima de certo limiar : No caso mais simples o modelo corresponde a

8
< c +
1 1 yt 1 ; yt 1 <
yt =
: c +
2 2 yt 1 ; yt 1 :
A função g (x) pode não ser contínua (no limiar ), como o exemplo precedente mostra.
O modelo seguinte, com c1 = ( 2 1) + c2 ; define uma função contínua no ponto :
8
< ( 2 1) + c2 + 1 yt 1 ; yt 1 <
yt =
: c +
2 2 yt 1 ; yt 1 :
A função g (x) é portanto

8
< ( 2 1) + c2 + 1 x; x<
g (x) =
: c +
2 2 x; x :
Logo g ( ) = c2 + 2 e limx" g (x) = ( 2 1 ) + c2 + 1 = c2 + 2: Podemos ainda

exigir a existência de um ponto fixo no ponto fazendo
2 + 1 c2
( 2 1) + c2 + 1x = x; Solução: x =
1 1
c2
c2 + 2x = x; Solução: x =
2 1
231
2+ c2 c2
e, agora resolvendo, 1
1
= 1
, sai c2 = (1 2) : Assim, tem-se
1 2
8
< ( 2 1) + (1 2) + 1 x; x<
g (x) =
: (1 2) + 2 x; x :
ou 8
< (1 1) + 1 x; x<
g (x) =
: (1 2) + 2 x; x :
Veja-se que
g( ) = (1 2) + 2 =
e
lim g (x) = (1 1) + 1 = :
x"
Estabilidade dos Pontos Periódicos
Tal como no caso dos pontos fixos de g; pontos periódicos podem ser estáveis ou instáveis.
Intuitivamente, um ponto periódico de período k é estável se qualquer trajectória iniciada
numa vizinhança desse ponto não se afasta desse ponto de k em k iterações, para todo o t (da
mesma forma se interpreta ponto periódico assimptoticamente estável e instável). O facto
essencial é que um ponto periódico de g de período k é um ponto fixo de gk : Desta forma,
a definição de estabilidade para pontos periódicos pode basear-se na definição 7.2.2, sendo
que agora deverá ler-se gk em lugar de g (gt deverá ler-se gkt ). Em geral são aplicáveis as
proposições precedentes, desde que se procedam às necessárias adaptações. Por exemplo, a
proposição 7.2.3 estabelece que y é assimptoticamente estável se jg 0 (y)j < 1 e instável no
caso contrário. Se as condições da proposição 7.2.3 se aplicarem, e fazendo h (x) = g k (x) ;
podemos estabelecer que o ponto periódico p de período k é assimptoticamente estável se
jh0 (p)j < 1 e instável no caso contrário.
Vimos na proposição 7.2.9 que, se p é ponto periódico de período k então a aplicação
g admite adicionalmente k 1 pontos periódicos. Se p exibe uma certa característica qual-
itativa que conclusões podemos tirar para os demais pontos periódicos? A proposição e a
demonstração seguintes mostra que todos os pontos periódicos partilham das mesmas pro-
priedades qualitativas. Desta forma pode-se falar de órbitas periódicas estáveis e instáveis
(em alternativa a pontos periódicos estáveis e instáveis).
232
Proposição 7.2.10 Seja g uma aplicação de classe C 1 em R e seja fp1 ; p2 ; :::; pk g uma órbita
periódica de período k: Então fp1 ; :::; pk g é assimptoticamente estável (escoadouro) se
jg 0 (pk ) :::g 0 (p1 )j < 1
e instável (fonte) se
jg 0 (pk ) :::g 0 (p1 )j > 1:

Pode-se provar que se pi é um ponto periódico assimptoticamente estável (instável) da
órbita fp1 ; :::pk g então pj é também um ponto periódico assimptoticamente estável (instável).
Exemplo 7.2.20 Considere-se a EDF yt = 3:5x (1 x) : Utilizando-se um programa de

Matemática obtiveram-se os seguintes resultados:
k Pontos Fixos de g k (os pontos periódicos estão em negrito)

1 f0; 0:714286g
2 f0; 0:714286; 0:428571; 0:857143g
3 f0; 0:714286g
4 f0; 0:714286; 0:428571; 0:857143; 0:38282; 0:500884; 0:826941; 0:874997g
Analisa-se agora a estabilidade dos pontos periódicos na tabela seguinte.
k Análise da Estabilidade dos Pontos Periódicos (proposição 7.2.10)

1 jg 0 (0)j = 3:5; jg 0 (0; 0:714286)j = 1:5
2 g 0 (0:428571) g 0 (0:857143)0 = 1:25
3
4 jg 0 (0:38282) g 0 (0:500884) g 0 (0:826941) g 0 (0:874997)j = 0:03
Os resultados apresentados na tabela anterior podem também ser obtidos da seguinte

forma
0 0
g 2 (0:428571) = g 2 (0:857143) = 1:25
0 0 0 0
g 4 (0:38282) = g 4 (0:500884) = g 4 (0:826941) = g 4 (0:874997) = 0:03:
233
f
1
0.8
0.6
0.4
0.2
x
0.2 0.4 0.6 0.8 1
Figura 7-15: Gráfico Teia de Aranha da equação yt = 3:5yt 1 (1 yt 1 )
Naturalmente esta segunda alternativa é bastante mais trabalhosa. Conclui-se que todos os
pontos periódicos de período k = 4 são assimptoticamente estáveis; todos os outros pontos
em análise são instáveis. O gráfico 7-15 permite identificar um comportamento periódico
de período k = 4:
Tem interesse ainda observar o gráfico teia de aranha do modelo g 4 (x) - ver figura 7-16.
Observe-se (talvez com alguma dificuldade) que a função g 4 corta o eixo de 45o oito vezes
(considerando também o ponto zero). Este facto corrobora a primeira tabela deste exemplo
(última linha).
7.3 Modelo Limiar Autoregressivo (Threshold AR - TAR)
7.3.1 Introdução
Como argumentámos na introdução deste capítulo, uma classe importante de processos não
lineares na média baseia-se na ideia de regime-switching. Nesta secção apresentam-se vários
modelos onde a mudança de regime depende de uma variável observável. Provavelmente o
modelo mais conhecido desta família (onde os regimes dependem de variáveis observáveis)
é o modelo Threshold AR ou TAR. Para exemplificar, considere-se um modelo TAR com
234
1.0
y
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x
Figura 7-16: Gráfico Teia de Aranha do Modelo g 4 (x)
dois regimes 8
< +
10 11 yt 1 + ut qt d <
yt = (7.7)
:
20 + 21 yt 1 + ut qt d >
onde é o valor do limiar (threshold values), qt d é a variável limiar e d > 0 é um inteiro.

No caso especial em que qt d = yt d o modelo (7.7) designa-se por Self-Exciting TAR ou
SETAR (é o próprio processo y que determina a mudança de regime).
A ideia principal do modelo pode ser exposta da seguinte forma. Se certo fenómeno y
é não linear na média, então é incorrecto assumir que y se comporta linearmente em todo o
seu domínio. A solução que está implícita no modelo TAR consiste em assumir linearizações
diferenciadas, consoante o valor de y: Em lugar de se ter uma aproximação linear global, têm-
se várias linearizações em sub-intervalos do espaço de estados7 . Por exemplo, no modelo
(7.7), com qt d = yt 1 ; pode admitir-se que a representação linear 10 + 11 yt 1 + ut é uma
boa aproximação para o comportamento de yt quando yt 1 < : Todavia, quando yt 1 sai do
intervalo ( 1; ) ; yt passa a ser melhor caracterizado pelo segundo ramo da especificação
(7.7).
7
A este respeito a fórmula de Taylor é instrutiva. Suponha-se que f : R ! R possui derivada contínua
2
de primeira ordem. Pela fórmula de Taylor tem-se f (x) = f (a) + f 0 (a) (x a) + O jx aj : Esta
fórmula diz-nos que f (x) pode ser arbitrariamente bem aproximada através da expressão linear (em x) f (a) +
f 0 (a) (x a). Note-se que a; f (a) e f 0 (a) são constantes e o erro envolvido na aproximação é de ordem
2
jx aj : Se procuramos aproximar f (x) quando x se afasta de a a aproximação piora significativamente,
2
tendo em conta o erro envolvido O jx aj . Assim, podemos usar a fórmula de Taylor na forma linear,
repetidamente, para vários valores de a; e assim obter boas aproximações de f em todo o seu domínio. É este
o princípio que está subjacente ao modelo TAR.
235
Outra interpretação do TAR é sugerida pela seguinte representação equivalente de (7.7):
yt = 10 Ifqt d g + 11 Ifqt d g yt 1
+ 20 Ifqt d> g + 21 Ifqt d> g yt 1 + ut :
= 10 Ifqt d g + 20 Ifqt d> g + 11 Ifqt d g + 21 Ifqt d> g yt 1 + ut

| {z } | {z }
0 (yt 1 ) 1 (yt 1 )
= 0 (qt d ) + 1 (qt d ) yt 1 + ut :
Observa-se, assim, que o modelo TAR pode ser interpretado como um processo AR de coe-
ficientes aleatórios com dependência em qt d :
7.3.2 Soluções Periódicas
Considere-se o processo linear, yt = c + yt 1 + ut ; j j < 1: Recorde-se que o esqueleto

da equação estocástica é a correspondente equação determinística com ut 0; i.e., y~t =
c + y~t 1 : De acordo com a definição 7.2.1, o ponto fixo da equação yt = g (yt 1 ) é o valor
y tal que g (y) = y: No caso linear, g (x) = c + x; a solução de g (y) = y é y = c= (1 ):
Recorda-se que se y~t for inicializado no ponto fixo, y~t permanece no valor do ponto fixo
para todo o t . Com efeito, se yt 1 = y e y é um ponto fixo, a variação da solução, yt ; é
nula, i.e., yt = yt yt 1 = g (yt 1 ) yt 1 =y y = 0: Se a solução não é inicializada
numa vizinhança do ponto fixo, mas j j < 1, então y~t tenderá para y; quando t ! 1.
Quando a equação é linear (de primeira ordem) existe apenas o ponto fixo y = c= (1 ),
que poderá ser ou não assimptoticamente estável (dependendo do valor de ). Uma das
características dos processos não lineares é o de admitirem esqueletos com vários pontos
fixos e com periodicidade superior a um. Esta possibilidade permite modelar dados que
exibam “soluções periódicas estáveis”.
Para concretizar considere-se o exemplo:
8
< 1 + 0:5y + u yt <0
t 1 t 1
yt = (7.8)
: 1 0:5y + u yt 0:
t 1 t 1
O esqueleto da equação é
8
< 1 + 0:5~
yt 1 ; yt <0
1
y~t = (7.9)
: 1 0:5~ yt 1 ; y t 0
1
236
4
-4 -2 2 4
yt = 1 + 0.5 yt −1
-2 yt = −1 − 0.5 yt −1
-4
Figura 7-17: Gráfico Teia de Aranha do modelo (7.9). Os valores 0.4 e -1.2 são pontos
periódicos de período 2
6 y
5
4
3
2
1 t
0
-1
-2
-3
-4
1 6 11 16 21 26 31
Figura 7-18: Trajectória de (7.10) com y0 = 5
e a função g (x) representa-se na forma

8
< 1 + 0:5x x < 0
g (x) = (7.10)
: 1 0:5x x 0:
As figuras 7-17 e 7-18 mostram que os valores 0.4 e -1.2 são pontos periódicos8 de período
2. Estes pontos são assimptoticamente estáveis. Qualquer que seja o valor de inicialização,
a solução y~t é atraída para a órbita f0:4; 1:2g :
Não faz sentido falar-se em soluções periódicas do modelo estocástico definido em (7.8).
8
É possível obter estes pontos resolvendo g (g (x)) = x em ordem a x:
237
Figura 7-19: Gráfico dos pares (yt 1 ; yt ) após se ter gerado uma trajectória do processo 7.8
(traçam-se também as rectas 1 + :5x e 1 0:5x)
A componente estocástica impede, de facto, que yt possa oscilar entre os pontos 0.4 e -1.2.
Todavia, o comportamento periódico subjacente ao esqueleto está parcialmente presente no
modelo estocástico, tal como mostra a figura 7-19, onde se apresenta o gráfico scatter (i.e. o
gráfico dos pares (yt 1 ; yt )) depois de se ter simulado uma trajectória.
Como o processo é EE (veja-se o exemplo 4.5.9), pode também indagar-se que tipo
de distribuição estacionária define o processo. A expressão analítica desta distribuição é
desconhecida, mas pode estimar-se de várias formas. Provavelmente o procedimento mais
simples consiste em gerar uma trajectória suficientemente longa e, depois de se desprezarem
os primeiros valores9 (digamos os primeiros 10), estima-se a função de densidade marginal
f (x) através do estimador
n
1 X S
x yi
f^ (x) = K (7.11)
nS h i=1 h
onde h é a bandwidth, nS é o número de observações simuladas usadas na estimação e K

é, por exemplo, o Kernel (ou núcleo) Gaussiano (para uma discussão alargada do estimador
p
f^ ver o ponto 10.2). Sob certas condições sabe-se que f^ (x) ! f (x) onde f não é mais
do que a densidade estacionária. Naturalmente, é necessário considerar vários valores de
9
A justificação: o valor incial y0 ; a partir da qual é gerada a trajectória, não é obtido em condições esta-
cionárias porque estas são desconhecidas.
238
Figura 7-20: Densidade Estacionária de 7.8 estimada a partir de 50000 observações simu-
ladas.
x na expressão (7.11) para se ter uma ideia do comportamento de f no espaço de estados

da variável. Como ns está sob nosso controle, a função f pode ser estimada de forma ar-
bitrariamente precisa. Na figura 7-20 apresenta-se a densidade estacionária estimadaf^ (x) :
A existência de duas modas acaba por não surpreender tendo em conta a estrutura do es-
queleto (recorde-se a existência de dois pontos periódicos). Já a assimetria da distribuição
não é clara (pelo menos à primeira vista). A probabilidade de y se encontrar abaixo de zero
P
é cerca de 0.562 (' b (y) = 0:333: O gráfico teia de aranha talvez possa
Ifyt 0g =n) e E
explicar estes valores. Observe-se que na estrutura determinística, um valor negativo inferior
a 2 é seguido por outro valor negativo, enquanto um valor positivo passa imediatamente
a negativo. Este facto explica por que razão a probabilidade de y se encontrar abaixo de
zero é superior a 0.5 e, de certa forma, também explica a existência de uma média marginal
negativa.
239
A estacionaridade estrita pode ser analisada no contexto das proposições apresentadas no

ponto 4.5. Por exemplo, no modelo mais geral
8
>
> +
>
< 10 11 yt 1 + ::: + 1p yt p + ut yt d < 1
yt = ::: :::
>
>
>
:
k0 + k1 yt 1 + ::: + kp yt p + ut y t d > k
Pp
se a condição max1 i k j=1 ji < 1 se verificar, então o processo é EE, atendendo
à proposição 4.5.4. Esta condição é apenas suficiente, mas não necessária. Como tal,
pode ser demasiado exigente. Para certos modelos particulares são conhecidas as condições
necessárias e suficientes. É o caso do modelo
8
>
> c +
>
< 1 1 yt 1 + ut yt d < 1
yt = c2 + 2 yt 1 + ut yt d (7.12)
>
>
1 2
>
: c +
3 3 yt 1 + ut yt d > 2
Proposição 7.3.1 O processo fyt g definido pelo sistema (7.12) é EE sse qualquer uma das
seguintes condições se verificar:
(i) 1 < 1; 3 < 1; 1 3 < 1;
(ii) 1 = 1; 3 < 1; c1 > 0;
(iii) 1 < 1; 3 = 1; c3 < 0;
(iv) 1 = 1; 3 = 1; c3 < 0 < c1 ;
(v) 1 3 = 1; 1 < 1; c1 + 3 c1 > 0;
O resultado apresentado não envolve qualquer restrição sobre o regime 2. Mesmo no

caso de k regimes AR(1), o teorema acima continua a aplicar-se (neste caso o regime 3 é
encarado como o último regime).
240
7.3.4 Exemplo (Bounded Random Walk)
Um caso muito interessante é o seguinte:

8
>
> c + 1 yt 1 + ut yt <
>
< 1 1 1
yt = c2 + yt 1 + ut yt 1 (7.13)
>
>
1 2
>
: c + y +u
3 3 t 1 t yt 1 > 2
Assuma-se j 1 j < 1 e j 3 j < 1: Observe-se que o processo no regime 2 é integrado de ordem

1; i.e., exibe o comportamento de um random walk. No entanto y é EE, pela proposição
7.3.1.
Se P ( 1 yt 2) é uma probabilidade alta, então durante a maior parte do tempo
y comporta-se como um random walk. Sempre que os limiares 2 ou 1 são atingidos o
processo passa a exibir reversão para uma certa média e, deste modo, y é globalmente esta-
cionário e, portanto, limitado em probabilidade (ou contrário do random walk). Na figura
7-21 apresenta-se uma trajectória simulada a partir do processo
8
>
> 0:9yt 1 + ut yt < 3
>
< 1
yt = y t 1 + ut 3 yt 1 3 (7.14)
>
>
>
: 0:9y + u
t 1 t yt 1 >3
onde fut g é uma sucessão de v.a. i.i.d. com distribuição N (0; 0:22 ) :
Processos do tipo (7.14) confundem-se facilmente com passeios aleatórios. Por esta
razão, o teste Dickey-Fuller tende a não rejeitar a hipótese nula de raiz unitária quando a
alternativa é um processo estacionário do tipo (7.14); por outras palavras, o teste Dickey-
Fuller é pouco potente contra alternativas do tipo (7.14). No contexto do modelo (7.13),
pode mostrar-se que a potência do teste Dickey-Fuller diminui quando 1 é baixo e 2 é alto
ou 1; 2 < 1 são altos ou Var (ut ) é baixa.
7.3.5 Estimação
Considere-se, sem perda de generalidade, o modelo com dois regimes:

8
< +
10 11 yt 1 + ::: + 1p yt p + ut qt d
yt = (7.15)
:
20 + 21 yt 1 + ::: + 2p yt p + ut qt d >
241
Figura 7-21: Trajectória Simulada a partir do Processo (7.14)
2
onde se assume que fut g é um ruído branco com Var (ut ) = : Os parâmetros desconheci-
0 0
2 0 0
dos são d; ; e = 1 2
onde i = i0 i1 ::: ip
. Reescreva-se (7.15)
na forma
yt = 10 + 11 yt 1 + ::: + 1p yt p Ifqt d g
+ 20 + 21 yt 1 + ::: + 2p yt p Ifqt d> g + ut :
Seja x0t = (1; yt 1 ; :::; yt p ) : Observe-se que cada um dos “ramos” pode escrever-se como
10 + 11 yt 1 + ::: + 1p yt p Ifqt d g = 1 yt 1 ::: yt p 1 Ifqt d g

| {z }
x0t
= x0t 1 Ifqt d g
20 + 21 yt 1 + ::: + 2p yt p Ifqt d> g = 1 yt 1 ::: yt p 2 Ifqt d> g

| {z }
xt
= x0t 2 Ifqt d> g:
242
Assim, (7.15) pode ainda escrever-se na forma
yt = x0t 1 Ifqt d g + x0t 2 Ifqt d>

+ ut
g
0 1
1
= x0t Ifqt g x0t IIfq @ A + ut
d g
t d>
2
ou ainda, com xt ( )0 = x0t Ifqt d g x0t IIfq g

t d>
yt = xt ( )0 + ut :
Se fut g é um ruído branco Gaussiano então
yt j Ft 1 N xt ( )0 ; 2
e o método da máxima verosimilhança é equivalente ao método dos mínimos quadrados

condicionados. Assim, o estimador para ; dado ; é
1
^ ( ) = X ( )0 X ( ) X( )y (7.16)
onde X ( ) é a matriz das variáveis “explicativas” endógenas desfasadas (dado ), tendo

por linha genérica o vector-linha xt ( )0 e y é o vector das observações fyt g : Claro que o
estimador ^ ( ) depende de ; que é desconhecido. Como estimar ? Seja
Pn 2
t=1 yt xt ( )0 ^ ( )
^2 ( ) =
n
a soma dos quadrados dos resíduos. Supondo d conhecido, toma-se para estimativa de o
valor que minimiza ^ 2 ( ) ; i.e.,
^ = arg min ^ 2 ( ) : (7.17)

2
O conjunto é o espaço do parâmetro (todos os valores que pode assumir). Claramente

= R: Como a derivada de ^ 2 ( ) em ordem a não está definida, o problema de esti-
mação (7.17) é não standard. Uma forma expedita de obter a sua solução consiste em fazer
percorrer no conjunto e, depois, seleccionar o valor que minimiza ^ 2 ( ) : Felizmente, a
243
escolha dos valores relevantes para é relativamente pequena. Sejam y(1) ; y(2) ; :::; y(n) são
as estatística de ordem tais que
y(1) y(2) ::: y(n) :
Como ^ 2 ( ) não se altera quando varia entre duas estatísticas de ordem, o problema de
optimização (7.17) é equivalente a
^ = arg min ^ 2 ( ) ; ~ = y(1) ; :::; y(n) (7.18)

2~
ou seja, para obter ^ basta percorrer no conjunto ~ e seleccionar, depois aquele que mini-
miza ^ 2 ( ). Na prática, impõe-se que cada regime possua pelo menos uma certa fracção
de observações (efectivamente, não faz sentido, tomar ^ = y(1) ou ^ = y(n) ). Assim, deve
restringir-se o conjunto ~ ; passando a ser y(( (n 1))) ; :::; y((1 )(n 1)) onde (:) representa a
parte inteira do número. Neste novo conjunto ~ não fazem parte as 100% mais baixas nem
as (1 ) 100% mais altas.
Falta-nos ainda tratar a estimação de d; que é também não standard tendo em conta que
d 2 N: Como ^ 2 depende de d; escolhe-se d num certo conjunto D = f1; 2; :::; d g de forma
a minimizar ^ 2 : Logo,
^ ; d^ = arg min ^ 2 ( ; d)
2 ~ ;d2D
onde, agora,
X
n
2
2
^ ( ; d) = n 1
yt xt ( ; d)0 ^ ( ; d)
t=1
e
1
^ ( ; d) = X ( ; d)0 X ( ; d) X ( ; d) y:
Em suma, os passos na estimação dos parâmetros são o seguintes:
1. para cada 2 ^ e para cada d 2 D; construir X ( ; d) e estimar ^ ( ; d) e ^ 2 ( ; d);
2. tomar para estimativa de e de d o par ( ; d) que minimiza ^ 2 ( ; d); seja esse par
dado por ^ ; d^ :
3. tomar para estimativa de , o valor ^ ^ ; d^ :
244
Exemplo 7.3.1 Considere
8
<
1 yt 1 + ut se yt d
yt =
:
2 yt 1 + ut se yt d >
2
com Var [ut ] = : Suponha que os resultados na fase da estimação são:
Valores de ^ 2 em função de ed
d!
1 2
#
-1 15.5 16
-0.7 12.4 13.5
-0.1 12.1 12.3
-.001 3.5 2.5
0.0 1.2 2.4
1.2 2.5 2.8
1.5 5.5 7
Resulta do quadro (veja o valor a negrito) que ^ = 0; d^ = 1 e ^ 2 = 1:2: Por outras
palavras
(0; 1) = arg min ^ 2 ( ; d) e min ^ 2 (0; 1) = 1:2.
Para ilustrar a matriz X ( ; d), suponha que os dois últimos valores de y são yn 1 = 1:5
e yn = 1:5; então a última linha da matriz X ( ; d) é
0 h i h i
xn ^ ; d^ = yn 1 Ifyn 1 0g yn 1 Ifyn 1 >0g
= 0 1:5
(o valor yn = 1:5 não entra na matriz X).
7.3.6 Inferência
Pode mostrar-se que o estimador para d é super-consistente, isto é, possui uma variância pro-
porcional a 1=n com > 1 (os estimadores habituais possuem uma variância proporcional
a 1=n). A distribuição assimptótica é também conhecida (Hansen, 2000). Dada a super-
consistência de d^ podemos, para efeitos de inferência estatística sobre os demais parâmetros,
assumir que d é conhecido.
245
Inferência sobre
Sob certas condições (incluindo estacionaridade estrita) tem-se
p d 1
n ^ (^ ) 0 ! N 0; I ( 0 ) ; (7.19)
2
onde I ( 0 ) = E (xt ( 0 ) xt ( 0 )) ( 0 e 0 são, de acordo com a notação habitual, os
verdadeiros, mas desconhecidos valores dos parâmetros e ). Supomos, naturalmente, que
^ é um estimador consistente para 0: A matriz I ( 0 ) é estimada consistentemente por
1X
n
xt (^ ) xt (^ )0 :
n t=1
O resultado (7.19) indica-nos que, em grandes amostras, a inferência estatística sobre os

parâmetros ij conduz-se da forma habitual.
Inferência sobre a existência de Threshold
Uma questão importante é saber se o modelo TAR é preferível ao simples AR. Para o efeito,
testa-se H0 : 1 = 2 pois, sob esta hipótese, o TAR reduz-se ao AR. Aparentemente, o
resultado (7.19) permite ensaiar H0 ; no quadro do teste de Wald. Esta ideia é incorrecta,
pois sob a hipótese nula o parâmetro não identificável. Este é um problema que ocorre
tipicamente em modelos não lineares (veja-se, por exemplo, o modelo Markov-switching,
no ponto 7.4). Observe-se que, sob a hipótese nula, a função de verosimilhança deixa de
depender do parâmetro (é indiferente o valor que assume)10 . Nestas circunstâncias, a
matriz de informação é singular e não é possível usar os resultados assimptóticos habituais.
Hansen (2000) sugere o seguinte procedimento:
1. obter Fn = n ~ 2n ^ 2n =^ 2n onde ~ 2n é a variância dos erros de regressão do modelo

AR (sob H0 ) e ^ 2n resulta de (7.18);
2. simular ut ; t = 1; :::; n com distribuição i.i.d. N (0; 1) ;
3. yt = ut ;
4. fazer a regressão de yt sobre xt = 1 yt 1 ::: yt p e obter ~ n2
10
Veja-se mais um exemplo. No caso yt = x + ut ; x > 0; ocorre uma situação similar com H0 : = 0
ou com H0 : = 0: Por exemplo, sob a hipótese = 0; desaparece da especificação; como consequência, a
verosimilhança deixa de depender de . Já o ensaio H0 : = 0 com 0 6= 0 não levanta problemas.
246
5. obter ^ = arg min 2~ ^ n2 ( ) onde ^ n2 ( ) resulta da regressão de yt sobre xt ( );
6. obter Fn = n ~ n2 ^ n2 =^ n2
7. repetir os passos 2-6 B vezes
8. valor-p = percentagem de vezes (em B) em que Fn Fn .
A fundamentação do teste baseia-se na prova segundo a qual Fn possui a mesma dis-

tribuição assimptótica de Fn ; sob H0 . Observe-se, com efeito, que Fn é construída sob a
hipótese de ausência de threshold. Assim, existe indício de violação da hipótese nula quando
~ 2n é significativamente superior a ^ 2n ; de tal forma que Fn tende a ser geralmente alto quando
comparado com Fn : Nestas circunstâncias raramente ocorre Fn Fn (nas B simulações) e
o valor-p vem baixo.
Inferência sobre o threshold
Seja
^ 2n ( ) ^ 2n (^ )
Fn ( ) = n : (7.20)
^ 2n (^ )
Sabe-se que (Hansen, 1997)
d
Fn ( 0 ) !
x=2 2
onde P ( x) = 1 e : Com base neste resultado, Hansen (1997) recomenda o
seguinte procedimento para a construção de um intervalo de confiança para :
1. Calcular Fn ( ) para 2~
2. Determinar o conjunto C = : Fn ( ) q onde q é o quantil da distribuição de

(inclui, portanto, todos os tais que Fn ( ) é menor ou igual a q ):
Como P ( 0 2C )! (quando n ! 1), o intervalo de confiança a 100% é precisa-

mente C :
Usando a função de distribuição de ; tem-se q0:90 = 5:94; q0:95 = 7:35 e q0:99 = 10:59:
Ilustre-se o procedimento com o seguinte exemplo artificial. Admita-se que se obser-
vam os valores da tabela 7.1. Note-se que a estimativa para é ^ = 1:2 pois Fn (1:2) =
0: Tendo em conta que q0:95 = 7:35; o intervalo de confiança para a 95% é C0:95 =
f : 1:15 1:45g :
247
Fn
1 12.2
1.1 10.2
1.15 7.35
1.2 0
1.35 6.31
1.45 7.35
1.6 15
Tabela 7.1: Intervalo de Confiança para o Threshold: Ilustração do método de Hansen
7.4 Modelo Markov-Switching
7.4.1 Introdução
Outro modelo importante baseado na ideia de regime switching é o modelo Markov-Switching

(MS). Nos modelos apresentados no ponto anterior a mudança de regime é baseada em var-
iáveis observáveis. No modelo MS a mudança de regime não é observável.
Considere-se o modelo
yt = c1 + 1 dt + yt 1 + ut (7.21)
onde dt é uma variável dummy

8
< 1 se evento A ocorre
dt =
: 0 se o evento A não ocorre.
Sabemos exactamente quando o evento A ocorre. Por exemplo, o evento A pode represen-
tar “segunda-feira”. Trata-se de um evento obviamente determinístico. Suponhamos agora
que A não é observável. Como modelar, estimar e prever y? São estas as questões que
abordaremos ao longo deste ponto.
Para trabalharmos com alguma generalidade, admita-se que estão definidos N regimes.
Por exemplo, um modelo relativamente simples com dois regimes, N = 2; é
8
< c + y +u se yt está no regime 1
1 t 1 t
yt = (7.22)
: c + + y + u se y está no regime 2
1 1 t 1 t t
O regime 1 pode estar associado, por exemplo, ao evento “A não ocorre” e o regime 2 “A
ocorre”. Este modelo é, em vários aspectos, similar ao modelo (7.21); há, no entanto, um
diferença apreciável: agora não se sabe quando é que y está no regime 1 ou 2. Seja St o
248
regime em que o processo y se encontra no momento t (assim, se St = i, então yt está
no regime i). No modelo anterior, equação (7.22), S pode assumir os valores St = 1 ou
St = 2: A sucessão fSt g é claramente um processo estocástico com espaço de estados
(finito) E = f1; 2; :::; N g.
É necessário, naturalmente, especificar um modelo para St . Admita-se E = f1; 2g : Se
o valor que S assume em t nada tem a ver com o valor que S assume em t 1; t 2;
:::; então fSt g é uma sucessão de v.a. i.i.d. com distribuição de Bernoulli de parâmetro
p que pode ser identificado com o regime 1, isto é, P (St = 1) = p. O processo y vai
“saltando” entre os regimes 1 e 2 de forma independente de acordo com a probabilidade
p. Num dado momento t; y está no regime 1 com probabilidade p (independentemente do
regime anterior assumido). Na prática, a independência entre os sucessivos valores de St não
é apropriada para um grande número de aplicações. Por exemplo, suponha-se que y é a taxa
de crescimento do produto. Admita-se ainda que y se comporta diferentemente consoante a
economia está em expansão ou em recessão. Temos, assim dois regimes St = 1 (recessão),
St = 2 (expansão). A sucessão fSt g não é provavelmente independente: se a economia, num
certo momento, está em expansão (St 1 = 2), é mais provável que no momento seguinte a
economia se encontre em expansão do que em recessão. Formalmente,
P (St = 2j St 1 = 2) > P (St = 1j St 1 = 2) :
Logo fSt g é formado por uma sucessão de v.a. dependentes. Uma sucessão ou trajectória de
S; poderá ser, por exemplo, f1; 1; 1; 1; 2; 2; 2; 2; 1; 1; 1; :::g :
7.4.2 Cadeias de Markov em tempo discreto com espaço de estados dis-

cretos finito
Um modelo conveniente para caracterizar fSt g ; num cenário de dependência temporal, é

a cadeia de Markov homogénea em tempo discreto com espaço de estados discretos finito.
A teoria das cadeias de Markov tem aplicações em muitas áreas, como por exemplo, em
modelos de inventário, em genética, em filas de espera, etc. Iremos apresentar as ideias
principais.
Uma cadeia de Markov é um processo de Markov no seguinte sentido:
P (St = jj St 1 = i; :::; S0 = i0 ) = P (St = jj St 1 = i)
249
isto é, St é independente de St 2 ; St 3 ; :::; S0 dado St 1 .
Uma cadeia de Markov é completamente caracterizada pela chamada matriz de probabil-
idades de transição a um passo (ou simplesmente matriz de probabilidades de transição) e,
eventualmente, por uma condição inicial. No caso de dois regimes, E = f1; 2g ; esta matriz
define-se da seguinte forma
0 1 0 1
P (St = 1j St 1 = 1) P (St = 2j St 1 = 1) p11 p12
P=@ A=@ A:
P (St = 1j St 1 = 2) P (St = 2j St 1 = 2) p21 p22
No caso geral (N regimes) tem-se

0 1
p p1N
B 11 C
B . ... .. C
P = B .. . C:
@ A
pN 1 pN N
A matriz P respeita as condições:
0 pij 1; (i; j = 1; :::; N ) ;

PN
j=1 pij = 1; (i = 1; :::; N ) (as linhas soma 1).
Exemplo 7.4.1 Convencione-se que St = 1 representa o estado “economia em recessão no

momento t”; St = 2 representa o estado “economia em expansão no momento t”. Suponha-
se que a matriz de probabilidades de transição é
0 1
0:7 0:3
P=@ A:
0:2 0:8
Se a economia está em expansão no período t 1; i.e., St 1 = 2; a probabilidade da

economia se encontrar ainda em expansão no período t é 0.8 e a probabilidade de ela passar
para recessão é 0.2.
Podemos estar interessados em calcular uma probabilidade de transição a dois passos,

por exemplo,
P (St = 1j St 2 = 2) :
250
Neste caso, pela lei das probabilidades totais, vem com N = 2
X
2
P (St = 1j St 2 = 2) = P (St = 1; St 1 = ij St 2 = 2)
i=1
X2
= P (St = 1j St 1 = i; St 2 = 2) P (St 1 = ij St 2 = 2)
i=1
X2
= P (St = 1j St 1 = i) P (St 1 = ij St 2 = 2)
i=1
= elemento (2; 1) da matriz P 2 = P P:
Relativamente ao exemplo 7.4.1, calcule-se a matriz P 2 : Tem-se:

0 10 1 0 1
0:7 0:3 0:7 0:3 0:55 0:45
@ A@ A=@ A:
0:2 0:8 0:2 0:8 0:3 0:7
Assim, P (St = 1j St 2 = 2) = 0:3 (elemento (2; 1) da matriz P 2 ).

O resultado geral é dado pelas designadas equações de Chapman-Kolmogorov:
#E
X
P (Sm+n = jj S0 = i) = P (Sm = kj S0 = i) P (Sm+n = kj Sm = j) :
k=1
Deduz-se da expressão anterior que
P (Sn+h = jj Sn = i) = elemento (i; j) da matriz P h . (7.23)
Note-se ainda o seguinte:
P (St = 1j St k = 2) = P (St+k = 1j St = 2) :
Não interessa o momento em que a probabilidade é calculada. O que é relevante é o des-

fasamento temporal entre as variáveis. Na equação anterior o desfasamento é k. Esta pro-
priedade resulta de se ter uma matriz de probabilidades de transição que não depende de t.
Diz-se nestes casos que a matriz de probabilidades de transição é homogénea.
Em certos problemas é importante obter probabilidades relacionadas com eventos a longo
prazo. No exemplo 7.4.1, é interessante saber a probabilidade da economia se encontrar
em expansão (ou recessão) no longo prazo, dado que no momento presente a economia se
251
encontra em expansão. Formalmente, a questão é
lim P (St+n = 2j St = 2) : (7.24)

n!1
Tendo em conta a observação anterior, a probabilidade em questão corresponde ao elemento

(2; 2) da matriz limite 0 1n
0:7 0:3
lim @ A :
n!1
0:2 0:8
Observe-se
0 110 0 1
0:7 0:3 0:40059 0:59941
@ A = @ A
0:2 0:8 0:39961 0:60039
0 120 0 1
0:7 0:3 0:4 0:6
@ A = @ A
0:2 0:8 0:4 0:6
0 140 0 1
0:7 0:3 0:4 0:6
@ A = @ A:
0:2 0:8 0:4 0:6
É intuitivo admitir-se que

0 1n 0 1
0:7 0:3 0:4 0:6
lim @ A =@ A:
n!1
0:2 0:8 0:4 0:6
Logo limn!1 P (St+n = 2j St = 2) = 0:6; mas também limn!1 P (St+n = 2j St = 1) =

0:6: Isto é, a probabilidade da economia se encontrar em expansão (ou recessão) no longo
prazo é independente do estado inicial, o que é bastante intuitivo (no longo prazo é irrelevante
saber se hoje a economia está ou não em expansão).
Nem todas as cadeias de Markov admitem estas probabilidades limites. Sob certas
condições pode-se provar a
Proposição 7.4.1 Se S é recorrente11 positiva aperiódica com espaço de estados finito f1; 2; :::; N g12
11
Um regime ou estado i é recorrente sse, depois de o processo se iniciar em i; a probabilidade de retornar
a i, ao fim de algum tempo finito, é igual a um. Se S é contável e se todos os estados comunicam, então todos
os estados são recorrentes ou transientes (Taylor e Karlin, 1984).
12
O caso infinito adapta-se facilmente.
252
então, o vector (linha) das probabilidades estacionárias
= 1 2 N
onde
i = lim P (St+n = ij St = j) (para qualquer j)

n!1
= P (St = i) 0
satisfaz as equações
X
N
= P; i = 1:
i=1
f i ; i = 1; 2; :::; N g é a distribuição estacionária da cadeia S:
Exemplo 7.4.2 Considere-se o exemplo 7.4.1,

0 1
0:7 0:3
P=@ A:
0:2 0:8
O vector das probabilidades estacionárias pode ser determinar da seguinte forma:

0 1
0:7 0:3
1 2 = 1 2
@ A
0:2 0:8
1 2 = 0:7 1 + 0:2 2 0:3 1 + 0:8 2
Tem-se, 8 8
>
> = 0:7 + 0:2 >
> = 0:4
>
< 1 1 2 >
< 1
2 = 0:3 1 + 0:8 2 , 2 = 0:6

>
> >
>
>
: >
:
1 + 2 =1 1 + 2 = 1:
Exemplo 7.4.3 Considere
0 1
p11 1 p11
@ A; 0 < p11 ; p22 < 1:
1 p22 p22
Pela proposição 7.4.1 é fácil concluir que as probabilidades estacionárias são dadas por
1 p22 1 p11
1 = ; 2 = :
2 p11 p22 2 p11 p22
253
Retomando o exemplo 7.4.2, facilmente se obtém:
1 0:8 1 0:7
1 = = 0:4; 2 = = 0:6:
2 0:7 0:8 2 0:7 0:8
Observação 7.4.1 Um método para determinar Pn é o seguinte. Como se sabe, quando os

1
vectores próprios de P são independentes verifica-se P = V V onde V é a matriz dos
vectores próprios de P e é a matriz diagonal dos valores próprios. Ora se V 1 é vector
próprio de P e 1 é o valor próprio associado V 1 então V 1 é ainda vector próprio de P n
n
e 1 é o valor próprio associado. Logo P n = V n
V permite obter facilmente P n :
7.4.3 Modelos Markov-Switching
Seja y a variável dependente. Um exemplo de um modelo MS com dois regimes E = f1; 2g

é, por exemplo, 8
< c +
1 1 yt 1 + 1 "t se St = 1
yt = (7.25)
: c +
2 2 yt 1+ 2 "t se St = 2
onde St é uma cadeia de Markov homogénea (escondida ou latente por St não ser observável)
com matriz de probabilidades de transição
0 1
p11 p12
P=@ A:
p21 p22
Uma representação equivalente é
yt = c1 + (c2 c1 ) IfSt =2g + 1 +( 2 1 ) IfSt =2g yt 1
+ 1 +( 2 1 ) IfSt =2gt "t :
Outra representação sugestiva:
yt = c (St ) + (St ) yt 1 + (St ) "t (7.26)
onde
8 8 8
< c se S = 1 < se St = 1 < se St = 1
1 t 1 1
c (St ) = ; (St ) = ; (St ) =
: c se S = 2 : se St = 2 : se St = 2:
2 t 2 2
254
A representação (7.26) sugere que o modelo MS (7.25) pode ser escrito como um processo
AR(1) com coeficientes aleatórios (vários outros modelos não lineares podem também ser
representados como um AR(1) com coeficientes aleatórios).
7.4.4 Função densidade de probabilidade de y
Vamos caracterizar a fdp f (yt j Ft 1 ) que é essencial no âmbito da estimação, inferência e

previsão.
Retome-se o modelo
8
< c +
1 1 yt 1 + 1 "t se St = 1
yt =
: c +
2 2 yt 2 + 2 "t se St = 2:
Se assumirmos "t N (0; 1) então as fdp condicionadas associadas aos regimes 1 e 2

(N = 2) são respectivamente
1 1
2 2
(yt c1 1 yt 1 )
2
f (yt j Ft 1 ; St = 1) = p 2
e 1
12
1 1
2 2
(yt c2 2 yt 1 )
2
f (yt j Ft 1 ; St = 2) = p 2
e 2 :
22
Como obter f (yt j Ft 1 )? Recordando a regra da probabilidade total
X
P (A) = P (Aj Bi ) P (Bi )
i
P
(ou fx (x) = i fxjy (xj yi ) fy (yi ) no caso em que y é uma v.a. discreta) tem-se que fdp
condicionada de y é
f (yt j Ft 1 ) = f (yt j Ft 1 ; St = 1) P (St = 1j Ft 1 )
+f (yt j Ft 1 ; St = 2) P (St = 2j Ft 1 )
1 2
2 1=2 (yt c1 1 yt 1 )
2 2
= 12 e 1 P (St = 1j Ft 1 )
1 2
2 1=2 (yt c2 2 yt 1 )
2 2
+ 22 e 2 P (St = 2j Ft 1 ) :
Se identificarmos, para simplificar, f (yt j Ft 1 ; St = i) = fit tem-se
f (yt j Ft 1 ) = f1t P (St = 1j Ft 1 ) + f2t P (St = 2j Ft 1 ) :
255
Claro que P (St = 1j Ft 1 )+P (St = 2j Ft 1 ) = 1: É interessante observar que a fdp condi-
cionada é igual à média ponderada das fdp condicionadas associadas aos vários regimes. Os
ponderadores são naturalmente P (St = 1j Ft 1 ) e P (St = 1j Ft 1 ) (e somam 1). Por ex-
emplo, se num determinado momento, P (St = 1j Ft 1 ) é muito alto (perto de 1) a função
f (yt j Ft 1 ) dependerá sobretudo de f1t e pouco de f2t :
No caso geral com N regimes, a expressão da fdp é
X
N
f (yt j Ft 1 ) = fit P (St = ij Ft 1 ) : (7.27)
i=1
7.4.5 Probabilidades Associadas aos Regimes
A expressão (7.27) envolve as probabilidades P (St = ij Ft 1 ) ; i = 1; 2; :::; N que são

necessário caracterizar.
Regimes Independentes
No caso mais simples em que fSt g é uma sucessão de v.a. independentes (não só dos seus
valores passados e futuros como também de Ft 1 ) tem-se
P (St = ij Ft 1 ) = P (St = i) = pi (7.28)
e, portanto,
X
N
f (yt j Ft 1 ) = fit pi :
i=1
Esta hipótese é conhecida pelo menos desde 1972 com os trabalhos de Goldfeld e Quandt,
entre outros.
O caso de regimes independentes é um caso particular da cadeia de Markov. Notando
que
P (St = ij St 1 = j) = P (St = i)
para qualquer i e j 2 E; conclui-se que este caso induz uma matriz de probabilidades de
256
transição com colunas iguais,
0 1
P (St = 1) P (St = 2) P (St = N )
B C
B C
B P (St = 1) P (St = 2) P (St = N ) C
P=B
B .. .. .. ..
C:
C
B . . . . C
@ A
P (St = 1) P (St = 2) P (St = N )
A probabilidade de atingir, por exemplo, o regime 1 é sempre igual a P (St = 1) não im-
portando o regime em que S se encontre no período anterior (ou seja, o evento St = 1 é
independente de St 1 ).
Regimes Seguem uma Cadeia de Markov
Sob esta hipótese, St dado St 1 ; não depende de Ft 1 : Isto é,
P (St = ij St 1 = j; Ft 1 ) = P (St = ij St 1 = j) = pji : (7.29)
Tem-se, pela regra da probabilidade total, com N = 2
P (St = 1j Ft 1 ) = P (St = 1j St 1 = 1; Ft 1 ) P (St 1 = 1j Ft 1 )
+P (St = 1j St 1 = 2; Ft 1 ) P (St 1 = 2j Ft 1 )
= P (St = 1j St 1 = 1) P (St 1 = 1j Ft 1 )
+P (St = 1j St 1 = 2) P (St 1 = 2j Ft 1 )
= p11 P (St 1 = 1j Ft 1 ) + p21 P (St 1 = 2j Ft 1 ) :
De uma forma geral,
X
N
P (St = ij Ft 1 ) = pj1 P (St 1 = ij Ft 1 ) (7.30)
j=1
Estas expressões envolvem uma estrutura recursiva que iremos expor a seguir. Tendo em
conta a expressão (7.30), calcule-se P (St 1 = ij Ft 1 ) : Observe-se, em primeiro lugar, que
g (yt 1 ; St 1 = 1j Ft 2 )
P (St 1 = 1j Ft 1 ) = P (St 1 = 1j yt 1 ; Ft 2 ) = :
f (yt 1 j Ft 2 )
A primeira igualdade verifica-se por definição. A segunda envolve a regra P (Aj B; C) =
257
P (A; Bj C) =P (Bj C) ; sendo g a função de probabilidade conjunta de (yt 1 ; St 1 ) : Tem-se
assim, pela regra das probabilidades totais (com N = 2)
g (yt 1 ; St 1 = 1j Ft 2 )
P (St 1 = 1j Ft 1 ) =
f (yt 1 j Ft 2 )
f (yt 1 j Ft 2 ; St 1 = 1) P (St 1 = 1j Ft 2 )
= PN : (7.31)
j=1 f (yt 1 j Ft 2 ; St 1 = j) P (St 1 = jj Ft 2 )
Para simplificar, defina-se
pit = P (St = ij Ft 1 )
pi;t 1 = P (St 1 = ij Ft 2 )
fi;t 1 = f (yt 1 j Ft 2 ; St 1 = i) :
Em suma, com N = 2; a expressão da fdp é
f (yt j Ft 1 ) = f1t p1t + f2t p2t = f1t p1t + f2t (1 p1t )
onde
p1t = p11 P (St 1 = 1j Ft 1 ) + p21 P (St 1 = 2j Ft 1 )
= p11 P (St = 1j Ft 1 ) + p21 (1 P (St 1 = 1j Ft 1 ))

1
f1;t 1 p1;t 1
= p11 (7.32a)
f1;t 1 p1;t 1 + f2;t 1 (1 p1;t 1 )
f1;t 1 p1;t 1
+p21 1 : (7.32b)
f1;t 1 p1;t 1 + f2;t 1 (1 p1;t 1 )
Observe-se a estrutura recursiva: dadas as condições iniciais
f1;0 ; f2;0 e p1;0 ;
obtém-se (para t = 1) p1;1 e depois f (y1 j F0 ) : Com os valores
f1;1 ; f2;1 e p1;1
obtém-se (para t = 2) p1;2 e depois f (y2 j F1 ) : O procedimento recursivo é repetido até se

obter f (yn j Fn 1 ) :
258
Regimes dependentes de St 1 e de Ft 1
Assume-se para simplificar N = 2: Sob esta hipótese a cadeia de Markov é não homogénea
(varia ao longo do tempo). Desta forma, as probabilidades P (St = 1j St 1 = 1; Ft 1 ) e
P (St = 2j St 1 = 2; Ft 1 ) dependem de Ft 1 : Suponha-se, para simplificar, que estas prob-
abilidades dependem apenas de yt 1 : Uma forma de relacionarmos as probabilidades com
yt 1 consiste, por exemplo, em formular uma representação probit para as probabilidades:
P (St = 1j St 1 = 1; Ft 1 ) = ( 0 + 1 yt 1 ) ,
P (St = 2j St 1 = 2; Ft 1 ) = ( 0 + 1 yt 1 )
onde é a função de distribuição normal (como é usual na representação probit). A matriz

de probabilidades de transição é agora
2 3 2 3
p11t p12t ( 0+ 1 yt 1 ) 1 ( 0+ 1 yt 1 )
Pt = 4 5=4 5
p21t p22t 1 ( 0 + 1 yt 1 ) ( 0 + 1 yt 1 )
O procedimento anterior (ponto “Regimes Seguem uma Cadeia de Markov”) mantém-se

válido, havendo apenas que substituir pij por pijt :
Regimes dependentes apenas de Ft 1
Assume-se para simplificar N = 2: Sob esta hipótese, St dado Ft 1 ; não depende de St 1 :

Por exemplo, suponha-se que St depende de yt 1 : Desta forma, a probabilidade P (St = ij Ft 1 )
pode ser estimada no quadro do modelo probit ou logit. Considerando a representação probit,
tem-se
P (St = 1j Ft 1 ) = ( 0 + 1 yt 1 ) : (7.33)
Esta hipótese, mais restritiva do que a precedente, simplifica consideravelmente a cal-

culatória já que a função densidade de probabilidade condicional pode agora expressar-se
P2
simplesmente na forma f (yt j Ft 1 ) = i=1 fit P (St = ij Ft 1 ) = f1t ( 0 + 1 yt 1 ) +
f2t (1 ( 0 + 1 yt 1 )) :
259
Considere-se
8
>
> c1 +
>
< 11 yt 1 + ::: + 1p yt p + ut se St = 1
yt = ::: (7.34)
>
>
>
: c +
N N 1 yt 1 + ::: + N p yt p + ut se St = N
onde ut é um ruído branco e S é uma cadeia de Markov estacionária com vector de proba-
bilidades estacionárias ( 1 ; 2) : O modelo anterior pode escrever-se na forma
yt = c (St ) + 1 (St ) yt 1 + ::: + p (St ) yt p + ut
ou ainda na forma Markoviana

0 1 0 10 1 0 1
yt 1 (St ) 2 (St ) p (St ) 1 yt c (St ) + ut
B C B CB C B C
B C B CB C B C
B yt 1 C B 1 0 0 CB yt 2 C B 0 C
B C B CB C B C
B C B CB C B C
B yt 2 C=B 0 1 0 CB yt 3 C+B 0 C:
B C B CB C B C
B .. C B .. .. .. .. CB .. C B C
B . C B . . . . CB . C B 0 C
@ A @ A@ A @ A
yt p+1 0 0 0 yt p 0
| {z } | {z }| {z } | {z }
yt At yt 1 Ct
(7.35)
Stelzer (2009) estabelece a seguinte
Proposição 7.4.2 Considere-se o processo (7.34) na representação (7.35) e assuma-se: fug

é um processo EE, E log+ kA0 k < 1, E log+ kC0 k < 1 e
= lim 1= (n + 1) E log+ kA0 A 1 :::A t k < 0:

n!1
Então y é EE. Além disso, se fAt g é um processo EE então E log+ kA0 k < 0 implica
< 0:
Proposição 7.4.3 Considere-se yt = c (St ) + 1 (St ) yt 1 + ut com dois regimes N = 2: Se-

jam 1 e 2 as probabilidades estacionárias da cadeia de Markov S. Se fut g é um processo
1 2
EE com segundo momento finito e j 11 j j 21 j < 1 então y é EE.
260
Dem. Considerando a norma Euclidiana e a desigualdade de Jensen, tem-se
q
+ + 1 + 2 2
E log kC0 k = E log c2 (St ) + u2t = E log c (St ) + ut
2
1
log E c2 (St ) + E u2t < 1:
2
Como a cadeia de Markov é estritamente estacionária (tem distribuição estacionária =

( 1; 2 ), segue-se que fAt g é um processo EE, pelo que basta verificar E log+ kA0 k < 0:
No caso em análise a “matriz” A0 reduz-se ao elemento A0 = 1 (St ) : Tem-se
8
< log j
11 j St = 1
log j 1 (St )j =
: log j
21 j St = 2
e, portanto,
+
E log kA0 k = E (log j 1 (St )j)
= P (St = 1) log j 11 j + P (St = 2) log j 21 j
= 1 log j 11 j + 2 log j 21 j
1 2
= log (j 11 j j 21 j ):
Segue-se que j 11 j
1
j 21 j
2
< 1 implica E log+ kA0 k < 0:

8 0 1
< 2y + u se S = 1 0:1 0:9
t 1 t t
yt = P =@ A (7.36)
: 0:6y + u se S = 2 0:2 0:8
t 1 t t
onde ut é um processo ruído branco. Um processo AR(1) com coeficente = 2 não só é não
estacionário como é explosivo (tende para mais infinito em tempo finito). No entanto, yt é
EE. Com efeito, a partir de P obtém-se 1 = 0:1818 e 2 =1 1 = 0:8182 (conferir a
proposição 7.4.1 e o exemplo 7.4.3). Por outro lado, invocando a proposição 7.4.3, tem-se
j 11 j
1
j 21 j
2
= 20:1818 0:60:8182 = 0:746 < 1: Logo y é EE. Este resultado é interessante.
De facto poderíamos pensar que o comportamento explosivo de yt no regime 1 implicaria
um processo não estacionário. Isto não sucede porque a probabilidade do sistema estar num
dado momento no regime estável é relativamente elevada. O processo pode, episodicamente,
entrar no regime 1 e atingir valores extremamente elevados, mas num intervalo de tempo
261
Figura 7-22: Simulação de uma trajectória do processo (7.36) onde ut N (0; 1) (10000
observações)
relativamente curto o process reentra no regime 2 com probabilidade elevda, e o valor do

processo retorna ao intervalo dos valores “moderados” do processo (diríamos ao centro de
gravidade da distribuição estacionária). A figura apresenta uma trajectória simulado do
processo.
No contexto dos modelos MS com heterocedasticidade condicional, Bauwens et al. (2006)

o seguinte modelo 8
>
> c1 +
> 1t "t se St = 1
<
yt = :::
>
>
>
: c +
N N t "t se St = N
onde
2 2 2
it = !i + i ut 1 + i t 1:
Supõe-se ainda que a cadeia St depende de yt 1 ;
P (St = ij Ft 1 ) = pit yt2 1 ; i = 1; 2; :::; N
Sem perda de generalidade, seleccione-se o regime 1 como sendo o regime “estável”, 1 +
1 < 1: Bauwens et al. (2006) estabelecem a
262
Proposição 7.4.4 Suponha-se: (a) f"t g é uma sucessão de v.a. i.i.d. de média zero e variân-
cia um, com função de densidade contínua em R; (b) i > 0; i > 0; para i = 1; 2; :::; N ;
(c) 1 + 1 < 1 e (d) p1t yt2 1 > 0 e pit yt2 1 ! 1 quando yt2 1 ! 1: Então y é EE.
A proposição assegura que o processo retorna ao regime estável sempre que yt tende a
assumir valores muito altos (alínea d)).
No caso especial em que as probabilidades são constantes, pit = i; é válido a seguinte
Proposição 7.4.5 Suponham-se verificadas as condições (a) e (b) da proposição anterior.

Se
X
N
j j + j <1
j=1
então é EE.
7.4.7 Estimação e Inferência
Comece-se por analisar o modelo (7.25) e seja o vector dos parâmetros a estimar. Como ha-
Pn
bitualmente, o estimador de máxima verosimilhança é dado por ^n = arg max t=1 lt ( ) ;
onde
lt ( ) = log f (yt j Ft 1 ; ) = log (f1t p1t + f2t (1 p1t )) :
Se os regimes são independentes, p1t é dado pela equação (7.28); se seguem uma cadeia de
Markov, p1t é dada por (7.32a); finalmente, se os regimes são Ft 1 mensuráveis, p1t é dado
por (7.33) ou (??).
Pode-se mostrar:
p d 1
n ^n 0 ! N 0; I ( 0 )
onde I ( 0 ) é a matriz de informação de Fisher. Verifica-se I ( 0 ) = A ( 0 ) = B ( 0 ) onde
@ 2 lt ( ) @lt ( ) @lt ( )
A( ) = E ; B( )=E :
@ @ 0 @ @ 0
Estimadores consistentes de A e B são
2 ^
1 X @ lt n
n
p
A^n = ! A ( 0)
n t=1 @ @ 0
X @lt n ^n @lt ^n
^n = 1
B
p
! B ( 0) :
0
n t=1 @ @
263
Os ensaios individuais para os parâmetros da média e da variância condicional (GARCH)
podem ser feitos como habitualmente. Isto é, podem basear-se no resultado
î;n a
N ( i ; vîi )
1
onde i é o parâmetro (escalar) i; e vii é o elemento ii da matriz I ( 0 ) =n:
No ensaio, um regime versus dois regimes, H0 : c1 = c2 ; 1 = 2; 1 = 2; H1 : H0 é
falsa, a situação é similar ao do ensaio H0 : 1= 2 no contexto do modelo TAR: os testes
assimptóticos habituais (rácio de verosimilhanças, Wald e multiplicador de Lagrange) não
podem ser empregues. Sob a hipótese nula (um regime) vários parâmetros não são identi-
ficáveis (o score com respeito a estes parâmetros é identicamente nulo e a matriz informação
de Fisher resulta singular). Uma forma de lidar com este tipo de ensaio não standard é
proposto por Davies (1987), que obtém um limite superior para o nível de significância do
teste rácio de verosimilhança quando q parâmetros apenas são identificáveis sob a hipóteses
alternativa:
2
P (sup LR > LRobs ) P q > LRobs
(7.37)
(q 1)=2 2 q=2
+V:LRobs : exp f LRobs g (q=2)
:
onde é a função gama, LRobs = 2 (log L1n log L0n ) e L1n e L0n são os valores da função de
log-verosimilhança sob H1 e H0 , respectivamente. Se a função o rácio de verosimilhanças
p
admite um máximo global então V = 2 LRobs . Os passos para implementar o teste no
contexto do modelo (7.25) são os seguintes:
1. Estimar o modelo AR(1) e obter L0n ;
2. Estimar o MS (7.25) e obter L1n ;
2
3. Calcular LRobs ; P q > LRobs ; V; etc.;
4. Calcular o limite superior de P (sup LR > LRobs ) usando a expressão (7.37).
Suponhamos que se obtém P (sup LR > LRobs ) 0:02: Então rejeita-se H0 ao n.s. de
5% pois o verdadeiro p-value é inferior a 0.02. Suponhamos que P (sup LR > LRobs )
0:06: Nada se pode concluir ao n.s. de 5% pois o verdadeiro p-value pode ser 0.04 ou 0.055.
Tudo o que sabemos é que é inferior a 0.06.
Outro teste, designado por teste-J, é proposto por Garcia e Perron (1996) e baseia-se na
264
significância estatística do parâmetro (teste-t) da regressão
Xt = (1 ^ t(1) + X
)X ^ t(2) + "t
^t (1) ^t(2)
onde X eX são os previsores dos modelos com um e dois regimes, respectivamente (o
^ t(1) é o previsor do modelo com menos
teste generaliza-se imediatamente ao caso em que X
regimes). Assim, a rejeição de H0 : = 0 mostra evidência a favor do modelo com mais
regimes.
7.4.8 Previsão
Suponha-se que y segue um modelo MS com dois regimes e estão disponíveis em n ob-
servações de y; fy1 ; y2 ; :::; yn g : Usando, como previsor para yn+h a função E (yn+h j Fn ) ;
tem-se
E (yn+h j Fn ) = E (yn+h j Fn ; Sn+h = 1) P (Sn+h = 1j Fn )

+ E (yn+h j Fn ; Sn+h = 2) P (Sn+h = 2j Fn )
onde E (yn+h j Fn ; Sn+h = i) é, como já vimos, a média condicional do regime i (no contexto
do modelo (7.25) tem-se E (yn+h j Fn ; Sn+h = 1) = E (c1 + 1 yn+h 1 j Fn )). A probabili-
dade P (Sn+h = ij Fn ) depende da hipótese que se tem sobre S: Se admitirmos que S segue
uma cadeia de Markov, vem
X
2
P (Sn+h = 1j Fn ) = P (Sn+h = 1; Sn = ij Fn )
i=1
X2
= P (Sn+h = 1j Sn = i; Fn ) P (Sn = ij Fn )
i=1
X2
= P (Sn+h = 1j Sn = i) P (Sn = ij Fn ) :
i=1
Tendo em conta (7.23), resulta
h
P (Sn+h = jj Sn = i) = Pi;j = elemento (i; j) da matriz P h :
265
Finalmente, tendo em conta a equação (7.31),
f (yn j Sn = i; Fn 1 ) P (Sn = ij Fn 1 )
P (Sn = ij Fn ) = PN :
j=1 f (yn j Sn = j; Fn 1 ) P (Sn = jj Fn 1 )
7.4.9 Aplicação
Analisa-se a taxa de juros FED fund13 (EUA) no período Julho de 1954 a Outubro de 2006
(628 observações mensais).
A literatura dos modelos de taxas de juro (a um factor) sugere que a volatilidade da taxa
de juro depende do nível da taxa de juro. Um dos modelos mais usados em matemática
financeira (tempo contínuo) é o processo CIR (devido a Cox, Ingersoll e Ross):
p
drt = ( rt ) dt + rt dWt ; ; ; >0 (7.38)
onde rt é a taxa de juro spot instantânea e W é o chamado processo de Wiener. Todos

os parâmetros podem ser estimados consistente e eficientemente pelo método da máxima
verosimilhança. A discretização do processo (i.e. a passagem para um processo em tempo
discreto que aproximadamente traduz a dinâmica de (7.38)) simplifica a análise (embora no
caso presente não seja necessário). A discretização pelo esquema de Euler (supondo para
simplificar que o hiato entre duas observações consecutivas, ; é constante e igual a um)
conduz ao modelo,
p
rt = c + rt 1 + rt 1 "t (7.39)
onde c = ; = (1 ). Esta discretização de Euler envolveu a troca de drt por rt rt 1 ,

p
dt por = 1, e dWt por "t : Estas trocas representam apenas aproximações e envolvem,
por isso, erros.
Resultados preliminares mostram que existe forte presença de heterocedasticidade e que
a sua dinâmica é compatível com a que está subjacente ao modelo (7.39).
A estimação dos parâmetros do modelo (7.39), pelo método da máxima verosimilhança,
assumindo normalidade, conduziu aos resultados que se apresentam na figura 7-23.
Vários autores têm sugerido a existência de diferentes dinâmicas ou regimes no compor-
tamento da taxa de juro (veja-se, por exemplo, Gray, 1996). Concretamente, argumenta-se o
seguinte: quando as taxas de juro são altas (anos 80) a volatilidade é alta e o processo exibe
13
É oficialmente designada por Federal funds effective rate, com maturidade overnight.
266
Mean log-likelihood -1.07420
Number of cases 628
Covariance of the parameters computed by the following method:

QML covariance matrix
Parameters Estimates Std. err. Gradient

------------------------------------------------------------------
c 0.0764 0.0394 0.0000
fhi 0.9878 0.0091 0.0000
sigma 0.0355 0.0052 0.0000
Figura 7-23: Resultados da estimação do modelo (7.39)

Mean log-likelihood -0.767141
Number of cases 628
Covariance of the parameters computed by the following method:

Inverse of computed Hessian
Parameters Estimates Std. err. Gradient

------------------------------------------------------------------
c1 0.0937 0.0508 0.0000
fhi1 0.9848 0.0077 0.0000
sigma1 0.5497 0.0183 0.0000
c2 0.2100 0.1357 0.0000
fhi2 0.9697 0.0157 0.0000
sigma2 0.0866 0.0093 0.0000
p11 0.9976 0.0024 0.0000
p22 0.9912 0.0083 0.0000
Figura 7-24: Resultados da estimação do modelo (7.39)
reversão para uma média de longo prazo; quando as taxas de juro são baixas, a volatilidade
é baixa e observa-se ausência de reversão para uma média. Este argumento sugere a existên-
cia de dois regimes: um regime de altas taxas de juro e alta volatilidade e um regime de
baixas taxas de juro e baixa volatilidade. Depois de vários ensaios seleccionou-se o seguinte
modelo: 8
< c1 + 1 yt 1
+ 1 "t se St = 1
yt = (7.40)
: c + y + py " se S = 2
2 2 t 1 2 t 1 t t
cujos resultados de estimação, pelo método da máxima verosimilhança, assumindo normali-

dade, estão apresentados na figura 7-24.
n o
^
A figura 7-25 apresenta a sucessão das probabilidades estimadas P (St = 1j Ft 1 ) ; t = 2; :::; n :
Recorde-se que P (St = 1j Ft 1 ) é a probabilidade de y se encontrar no regime 1 no mo-
mento t; dado Ft 1 : Podemos observar, a partir da figura 7-25, que o processo y se encontrou,
com alta probabilidade, no regime 1 durante as décadas de 80 e 90. Durante os anos 2003-
2005 o processo encontrou-se, com alta probabilidade no regime 2. Em 2006, o processo
não está totalmente em nenhum dos regimes.
267
Figura 7-25: Taxa de juro e probabilidades P (St = 1j Ft 1 ) estimadas
Página em branco
268
Capítulo 8
Modelação da Heterocedasticidade
Condicionada - Caso Univariado
8.1 Introdução
Vimos no capítulo 3 que fortes variações dos retornos são normalmente seguidas de fortes
variações dos retornos em ambos os sentidos, e que baixas variações dos retornos são normal-
mente seguidas de baixas variações dos retornos, também, em ambos os sentidos (veja-se,
por exemplo, a figura 3-17). Este facto estilizado indica muito claramente que a volatilidade
não é constante ao longo do tempo. Uma forma mais subtil de mostrar que a volatilidade
não é constante consiste em constatar que a série dos quadrados dos resíduos (ou mesmo os
quadrados dos retornos) é autocorrelacionada.
8.1.1 Por que razão a volatilidade não é constante?
Uma parte da volatilidade pode ser relacionada com a especulação. Em certos mode-
los distingue-se duas classes de investidores: investidores racionais que tendem a “em-
purrar” o preço dos activos na direcção do valor fundamental ou intrínseco da empresa
(normalmente formalizado como o valor actual dos fluxos financeiros que o investidor
espera vir a receber no futuro) e especuladores que baseiam as suas decisões em in-
formações estatísticas geradas pelo mercado, como por exemplo, os preços passados
e o volume de transacções. Quando a proporção de especuladores é alta e os sinais
269
de mercado são interpretados de forma análoga pela maior parte dos especuladores,
formam-se tendências fortes de compra ou de venda que se reflectem no preço e na
volatilidade.
Episódios de extrema volatilidade ocorrem quando uma “bolha especulativa” rebenta,

i.e., quando depois de um período considerável de crescimento dos preços, sucede
uma repentina e inesperada quebra do mercado. Estas “bolhas especulativas” estão
normalmente associadas a uma nova tecnologia (por exemplo, o boom da electrónica
nos anos 60, da biotecnologia nos anos 80 ou da internet no fim dos anos 90) ou
a um novo negócio (mais uma vez o caso da internet no fim dos anos 90). Gera-
se um ambiente de euforia em torno dos títulos associados a uma certa tecnologia
e/ou negócio e emerge um comportamento irracional de grupo totalmente desligado
do valor intrínseco dos títulos.
Graves crises económicas e políticas também explicam momentos de alta volatilidade.
Uma outra explicação (em certa medida complementar com as precedentes) relaciona
a volatilidade com a chegada de informação aos mercados. Suponha-se, num cenário
ideal ou hipotético, que o mercado está em equilíbrio (não há flutuação dos preços).
Quando chega informação ao mercado os agentes reavaliam as suas carteiras (perante
a nova informação, deixam de ser “óptimas”); tenderão, por conseguinte, a vender
ou a comprar activos até que se atinja um novo equilíbrio. A acção de comprar e
vender títulos tende a alterar os preços. A hipótese crucial é a de que a informação não
chega de forma homogénea e contínua ao mercado. Quando a chegada de informação
é reduzida e pouco relevante os mercados tenderão a exibir baixa volatilidade; pelo
contrário, quando a informação é intensa e relevante, poderão ocorrer períodos de
forte volatilidade. A informação relevante aqui deve ser entendida como a informação
que, de alguma forma, afecta a rendibilidade dos activos. Por exemplo, a libertação de
notícias relacionadas com inflação, taxas de juro, PIB, etc., geralmente têm impacto
sobre a volatilidade e sobre os preços.
O modelo que se apresenta a seguir procura replicar o fenómeno de volatilidade não

constante a partir do conceito de chegada de informação. Seja Nt o número de notícias no
dia t: Quando uma notícia chega ao mercado supõe-se que existe uma revisão do preço de um
certo activo. Essa revisão traduz-se numa variação do preço numa quantidade aleatória dada
270
por "i;t (i = 1; :::; Nt ). Se existir uma notícia (relevante) num certo dia t; o logaritmo do preço
no dia t é representado por log Pt = log Pt 1 + + "1;t ; se existirem duas notícias o modelo
passa a ser representado por log Pt = log Pt 1 + + "1;t + "2;t (e assim sucessivamente).
2
Assuma-se que f"i;t ; i = 1; 2; :::; Nt g é uma sucessão de v.a. i.i.d. com distribuição N (0; )
e independentes de Nt : Tem-se assim que o retorno do activo é dado por
X
Nt
rt = + "i;t : (8.1)
i=1
Resulta do modelo que a variância de rt dado Nt é não constante, pois
2
Var (rt j Nt = nt ) = nt
(de acordo com este modelo, quanto maior é o número de notícias que chegam ao mercado,
maior é a volatilidade). É razoável admitir-se uma distribuição de Poisson de parâmetro
para a v.a. Nt ; i.e., Nt P ( t ). Podemos ainda refinar o modelo, incorporando persistência
em Nt , i.e. permitindo que Nt seja alto (baixo) sempre que Nt 1 é alto (baixo). Por outras
palavras, o volume de informação tende a ser alto (baixo) em períodos seguidos. Nestas
circunstâncias, passa a assumir-se Nt P ( t ) com t = Nt 1 + 1 (o número médio de
notícias no dia t é igual ao número de informações do período anterior mais uma unidade)
(adiciona-se uma unidade para evitar que t = 0 para algum t). Na figura 8-1 representa-se
uma trajectória simulada de (8.1) para = 0; = 0:0015 e Nt P ( t) ; t = Nt 1 + 1:
Podemos observar que a trajectória simulada replica algumas das características típicas das
séries financeiras.
Retome-se a equação (8.1). Esta equação sugere a especificação
rt = + ut ; ut = t "t :
2
O essencial nesta equação é a ideia de que ut tem variância condicional t não constante.
2 2
Suponha-se de agora em diante que t é Ft 1 -mensurável (i.e., t depende apenas de var-
iáveis observadas no momento t 1)1 .
1 2 2
No exemplo anterior, t = nt não é Ft 1 -mensurável.
271
0.03
0.025
0.02
0.015
0.01
0.005
0
-0.005
-0.01
-0.015
-0.02
-0.025
1 101 201 301 401 501 601 701 801 901
t
Figura 8-1: Simulação de uma trajectória de rt ; assumindo = 0; = 0:0015 e Nt P ( t)

onde t = Nt 1 + 1:
8.1.2 Processos Multiplicativos
Considere-se ut = t "t e as seguintes hipóteses:
H1 f"t g é uma sucessão de v.a. i.i.d. com E ("t ) = 0 e Var ("t ) = 1;
H2 "t é independente de ut k ; k 2 N;
H3 t é Ft 1 mensurável.
Tem-se:
E (ut j Ft 1 ) = E ( t "t j Ft 1 ) = t E ("t j Ft 1 ) = 0

Var ( ut j Ft 1 ) = E u2t Ft 1 =E 2 2
t "t Ft 1 = 2
t
2
E "t Ft 1 = 2
t:
Assim, processos multiplicativos do tipo ut = t "t , com t não constante, são processos het-
erocedásticos (variância não constante). Este tipo de modelos estão presentes na abordagem
tradicional da heterocedasticidade. Por exemplo, se zt 1 > 0 é exógena e ut = z t 1 "t ;
2 2
então a expressão Var (ut j zt 1 ) = zt 1 não é constante.
Processos estocásticos com heterocedasticidade condicional (HC) (variância não con-
stante ao longo do tempo), são também definidos a partir de um processo multiplicativo do
2
tipo ut = t "t mas, comparativamente ao caso tradicional, a forma como t é especificado
2
varia substancialmente, como veremos a seguir. Que função especificar para t ou t ? Vimos
que uma das características das séries financeiras é exibir volatility clustering: fortes vari-
ações são normalmente seguidas de fortes variações em ambos os sentidos, devendo ocorrer,
272
portanto, Corr u2t 1 ; u2t > 0. Suponha-se, por um momento que ut representa a série fi-
nanceira. Portanto, se u2t 1 é um valor alto (baixo), em média, u2t será também um valor alto
2
(baixo). Nestas circunstâncias, faz sentido escrever o seguinte modelo para t :
2 2
t =!+ 1 ut 1 ; ! > 0; 1 0: (8.2)
Com efeito, tem-se esquematicamente:
u2t 1 é “alto” ) 2
t é “alto” ) u2t é “alto” (recorde-se ut = t "t ).
No caso clássico de heterocedasticidade, a variância depende da evolução de uma ou mais

variáveis exógenas, determinadas fora do modelo (zt 1 no exemplo anterior); no modelo de
2
HC, a volatilidade t é uma variável aleatória função de choques aleatórios determinada
dinamicamente, a partir do próprio modelo:
u2t 1 ! 2
t ! u2t ! 2
t+1 ! :::
Se ut é encarado como uma v.a. residual do modelo
yt = t + ut
é fácil ver que a heterocedasticidade definida em ut é transmitida a yt :
2 2
Var ( yt j Ft 1 ) = E (yt t) Ft 1 = Var (ut j Ft 1 ) = t:
8.1.3 Distribuições de Caudas Pesada
Uma característica muito importante dos modelos de HC é o de implicar (sob certas condições)
distribuições marginais leptocúrticas. Retome-se o modelo ut = t "t sob as hipóteses H1-
H3. Admita-se ainda que o choque aleatório "t tem distribuição N (0; 1) : Tem-se
E (ut ) = 0
Var (ut ) = E u2t = E 2
t
3
E ut = 0 ) skweness = 0.
273
Mostre-se que a distribuição marginal de u é leptocúrtica. Para o efeito, calcule-se o coefi-
ciente de kurtosis de u;
E (u4t )
ku = 2
E (u2t )
e verifique-se que ku > 3: Ora
4 4 4 4 4 2 2 4
E ut = E t "t =E t E "t = E t E "t
2 2 4 2 2 4 2 2
> E t E "t = E ut E "t = E ut 3
pelo que
2
E (u4t ) E (u2t ) 3
ku = 2 > 2 = 3:
E (u2t ) E (u2t )
Este resultado sugere que um modelo de HC pode ser adequado para modelar retornos, pois
acomoda uma das características mais importantes das séries financeiras que é a dos retornos
seguirem uma distribuição leptocúrtica.
8.1.4 O papel da Média Condicional e o Modelo de Heterocedasticidade

Condicionada
Vimos que fortes variações de y são normalmente seguidas de fortes variações em ambos os
sentidos. Teoricamente, este efeito pode ser modelado através da média condicional. Esta
seria a situação ideal. Se a média condicional modelasse este efeito, conseguiríamos prever
razoavelmente as variações de y e, nestas circunstâncias, não só o erro ut = yt t seria
baixo como também a volatilidade de y poderia ser baixa e mesmo constante ao longo do
período. No entanto, vimos que a média condicional é geralmente uma componente muito
fraca do modelo (recorde-se a questão dos mercados eficientes). Isto é, se considerarmos o
modelo yt = t + ut ; a média condicional t (representada, por exemplo, por um AR ou
MA), é uma componente pouco explicativa do modelo. Assim, quando yt2 é alto, u2t também
é alto (porque a média condicional não acompanha as flutuações de yt ) e, consequentemente,
espera-se que u2t esteja fortemente correlacionado com u2t 1 .
8.1.5 Vantagens dos modelos de Heterocedasticidade Condicionada
Antes do artigo seminal de Engle (1982) as dependências temporais nos momentos superi-
ores a um eram tratadas como simples ruído. Engle mostrou que as dependências temporais
274
do segundo momento, podem explicar razoavelmente a evolução da volatilidade ao longo do
tempo. A volatilidade condicional (doravante volatilidade) da série pode ser identificada com
2
a variância condicional, t; ou, simplesmente, com t (em princípio, é preferível identificar
a volatilidade com t, pois t está na escala da variável).
Iremos ver que os modelos de HC permitem:
modelar a volatilidade (e as covariâncias condicionais, no caso multivariado); como

se sabe, a volatilidade é uma variável fundamental na análise do risco de mercado, na
construção de portfolios dinâmicos, na valorização de opções, etc.;
estimar de forma mais eficiente os parâmetros definidos na média condicional (por

exemplo, se um processo ARMA exibir heterocedasticidade condicional, a estimação
conjunta dos parâmetros da média e dos parâmetros da variância permite estimar efi-
cientemente os parâmetros da média);
estabelecer intervalos de confiança correctos para y: Isto é, se y exibe HC e esta é neg-

ligenciada, os intervalos de previsão para y são incorrectos. Observe-se, com efeito,
que os intervalos de confiança dependem da variância do erro de previsão e o erro de
previsão depende (entre outros aspectos) da variância (condicional) da v.a. residual.
8.2 Modelo ARCH

Considere-se o seguinte modelo
yt = t + ut ;
t = E (yt j Ft 1 ) média condicional
ut = t "t
Assumam-se as hipóteses H1-H3.
Definição 8.2.1 ut segue um modelo ARCH(q) (ou tem representação ARCH(q)) se
ut = t "t
2 2 2
t = !+ 1 ut 1 + ::: + q ut q ; ! > 0; i 0
275
retornos Panel (a) volatilidade retornos Panel (b) volatilidade
4 20 15 20
10
2 15 15
5
0 10 0 10
-5
-2 5 5
-10
-4 0 -15 0
r(t) sigma(t) r(t) sigma(t)
retornos Panel (c) volatilidade retornos Panel (d) volatilidade

15 20 30 20
10 20
15 15
5 10
0 10 0 10
-5 -10
5 5
-10 -20
-15 0 -30 0
r(t) sigma(t) r(t) sigma(t)
Figura 8-2: Simulação de 4 trajectórias ARCH de acordo com o modelo (8.3).
2
É importante constatar que t 2 Ft 1 .
Como a volatilidade exibe forte dependência temporal, raramente se considera q =
1: Discute-se a seguir esta questão através de um exercício de simulação. Na figura 8-2
apresenta-se as trajectórias simuladas para o retorno (rt ) e t considerando diferentes val-
ores para os parâmetros i: O modelo simulado é
rt = ut ; ( t = 0)
ut = t "t ; "t RB Gaussiano com variância 1 (8.3)

2 2 2
t = !+ 1 ut 1 + ::: + 8 ut 8 :
Em todos os casos ! = 1: Na figura 8-2 tem-se:
Painel (a) ARCH(0) 1 = ::: = 8 = 0;
Painel (b) ARCH(1) 1 = 0:8; 2 = ::: = 8 = 0;
Painel (c) ARCH(3) 1 = 0:3; 2 = 0:3; 3 = 0:2; 4 = ::: = 8 = 0;
Painel (d) ARCH(8) 1 = 0:2; 2 = ::: = 8 = 0:1
276
Na figura 8-2 os gráficos que mais fielmente reproduzem o fenomeno de volatility clus-
tering (volatilidades altas (baixas) são geralmente seguidas por volatilidades altas (baixas))
e exibem alguma persistência no comportamento da volatilidade (tal como vimos nos pontos
3.2.2 e 3.2.3), correspondem aos painéis (c) e (d). A simulação sugere que é mais apropriado
em aplicações empíricas considerar-se um q elevado (não obstante, veremos adiante que é
problemático estimar-se um modelo com q elevado).
8.2.1 Dois Primeiros Momentos de ut

2
Como "t é independente de ut k ; k 2 N; segue-se que t (que é uma função de ut k ; k 2 N)
é independente de "t : Logo,
E (ut ) = E ( t "t ) = E ( t ) E ("t ) = 0,
Var (ut ) = E u2t = E 2 2

t "t =E 2
t
2
E "t = E
2
t : (8.4)
Por outro lado, como fut g é uma diferença de martingala, pois E (jut j) < 1 e E (ut j Ft 1 ) =
0; resulta pela proposição 4.4.1, que ut é não autocorrelacionado, i.e. Cov (ut ; ut k ) = 0.
8.2.2 Representação AR de um ARCH
Vimos, já por várias ocasiões, que existem dependências no segundo momento do processo.
A representação autoregressiva do processo ARCH mostra exactamente esse aspecto. Tem-
se,
2 2
t = !+ 1 ut 1
u2t + 2
t = !+ 2
1 ut 1 + u2t
u2t = ! + 2
1 ut 1 + u2t 2
| {z }t
vt
u2t = !+ 2
1 ut 1 + vt
Como E (vt j Ft 1 ) = E (u2t 2

t j Ft 1 ) = E (u2t j Ft 1 ) 2
t = 0, conclui-se pela definição
4.4.3, que fvt g (admitindo que E (jvt j) < 1) é uma diferença de martingala e, portanto,
um processo não autocorrelacionado (E (vt ) = 0 e Cov (vt ; vt k ) = 0). Logo, tem-se o
importante resultado: se ut segue um modelo ARCH(1) então u2t segue um processo AR(1).
277
Esquematicamente:
ut ARCH(1) ) u2t AR(1):
Assim, o processo u2t é autocorrelacionado (se 1 > 0) e apresenta as características básicas

de um processo AR(1). De igual forma se conclui:
ut ARCH(q) ) u2t AR(q):
8.2.3 Estacionaridade de Segunda Ordem do ARCH(q)
Estude-se a ESO de u. Vimos que E (ut ) e Cov (ut ; ut k ) são finitos e não dependem de t;
só falta estudar Var (ut ). Em que condições Var (ut ) = E (u2t ) não depende de t e é finita?
Considere-se o ARCH(1) na sua representação autoregressiva:
u2t = ! + 2
1 ut 1 + vt ; 1 0:
Da estrutura autoregressiva conclui-se que a condição j 1j < 1 (ou equivalentemente: a raiz

do polinómio AR (1 1 L) = 0 é, em módulo, superior a um) implica E (u2t ) = 2
<
1: Se adicionarmos a esta condição, a restrição 1 0; a condição de ESO passa a ser
simplesmente,
0 1 < 1:
Se u é um processo ESO vem
2 2
E ut = !+ 1 E ut 1
2 2 2 !
E ut = !+ 1 E ut ) E ut =
1 1
Considere-se agora o ARCH(q) na sua representação autoregressiva:
u2t = ! + 2
1 ut 1 + ::: + 2
q ut q + vt ; i 0:
q
Da estrutura autoregressiva conclui-se que, se as raízes do polinómio AR (1 1L ::: qL ) =
0; estiverem todas fora do circulo unitário (complexo), então E (u2t ) = 2
< 1: Se adicion-
armos a esta condição, as restrições i 0; a condição de ESO simplifica-se e, pode-se
provar, é igual a
1 + 2 + ::: + q < 1; ( i 0).
278
Neste caso, depois de algumas contas, obtém-se
!
Var (ut ) = E u2t = :
1 ( 1 + 2 + ::: + q)
Observação 8.2.1 Embora a expressão Var ( ut j Ft 1 ) seja variável, Var (ut ) é constante.
Assim: ut é condicionalmente heterocedástico (heterocedasticidade condicional) mas em
termos não condicionais ou marginais, ut é homocedástico. De forma análoga, também
num processo estacionário, a média condicional é variável e a não condicional é constante.
Por exemplo, num processo AR(1) estacionário, a média condicional é variável ao longo do
tempo e dada por t = c + yt 1 ; no entanto, a média marginal c= (1 ) é constante.
8.2.4 FAC e FACP de um u2t e Identificação do Processo ARCH(q)
Suponha-se que o momento de ordem quatro de u é finito não depende de t. A FAC de u2t é
dada por
Cov u2t ; u2t k 2

k u2 = k =q ; Var u2t = E u4t 2
E ut
Var (u2t ) Var u2t k
Vimos que se ut segue um ARCH(q), então u2t segue um AR(q). Assim, a FAC e a FACP
teóricas de u2 exibem o comportamento típico de um AR:
(FAC) não se anula e k ! 0;

k
8
< não se anula se k = 1; 2; :::; q
(FACP) kk =
: 0 se k = q + 1; q + 2; :::
Em particular, tem-se num ARCH(1):
k
k = 1; k 1
11 = e kk = 0; k 2:
Observação 8.2.2 Num ARCH(1) o 4o momento existe se 3 2

1 < 1 i.e. se 1 < 0:5774 e esta
condição é, na prática, um pouco severa.
Passos para a identificação da ordem q de um processo ARCH(q)
2
1. Estima-se o modelo yt = t + ut supondo t constante;
279
0.5 FAC de u^2 0.5 FACP de u^2
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
-0.1 -0.1
1 5 9 13 17 21 25 29 1 5 9 13 17 21 25 29
Figura 8-3: Simulou-se (n = 5000) um ARCH(q). Qual a ordem de q?
2. Obtêm-se os resíduos u^t = yt ^ t ; t = 1; :::; n;
3. Calcula-se u^2t ; t = 1; :::; n;
4. Calcula-se a FAC e a FACP de u^2t e identifica-se a ordem q:
Na figura 8-3 simulou-se um ARCH(q) com n = 5000 observações. Qual a ordem de q?
8.2.5 Características da Distribuição Marginal de ut
Suponha-se que "t é um ruído branco Gaussiano N (0; 1) : Então a distribuição condicional
2 2
de ut é N (0; ) ; i.e., ut = t "t j Ft 1 N (0; t): Sob certas condições, a distribuição
marginal de ut ; f (ut ), é dada pela expressão
f (ut ) = lim f (ut j Fs ) :

s! 1
Como na prática não se consegue obter a expressão para o limite anterior, f é geralmente
desconhecida; podemos ainda assim investigar algumas propriedades de f calculando alguns
momentos:
E (ut ) = 0
!
Var (ut ) = E u2t =
1 ( 1 + ::: + q )
3
E ut = 0 ) skweness = 0
E (u4t )
ku = 2 > k" = 3 (já vimos).
E (u2t )
Tem-se a seguinte importante conclusão: ku k" : A distribuição de u tem caudas mais

pesadas do que a distribuição de ": Se, como habitualmente, se assumir "t N (0; 1) ; então
280
25
kurtosis
20
15
10
0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
alfa 1
Figura 8-4: Valor de kurtosis como função do parâmetro 1; associada a um ARCH(1)
a distribuição marginal de u é leptocúrtica! Note-se, em esquema:
2
ut j Ft 1 = t "t j Ft 1 N 0; t ) ut Dist:Leptocurtica:
Podemos obter uma expressão exacta para ku . Por exemplo, suponha-se ut ARCH(1);
i.i.d. 2
"t N (0; 1) e 3 1 < 1: Deixa-se como exercício mostrar que
4 4
E ut = 3 E t ,
2
! (1 + 1 )
4
E t = ;
(1 1 ) (1 3 21 )
E (u4t ) 3 (1 2
1) 6 21
ku = 2 = = 3 + > 3:
E (u2t ) 1 3 21 1 3 2
1
Vimos que a distribuição de u tem caudas mais pesadas do que a distribuição de ": A
proposição seguinte caracteriza as caudas da distribuição marginal.
2
Proposição 8.2.1 Seja ut = t "t onde "t é um ruído branco Gaussiano N (0; 1) e t =
2
!+ 1 ut 1 . Suponha-se 1 2 (0; 2e ) onde é a constante de Euler, ' 0:5772: Seja
> 0 a solução única da equação
2 (2 1 ) 1
1 E Z =1, p + =1 (8.5)
2
onde é a função Gama e Z N (0; 1) : Então quando x ! 1; a probabilidade P (ut > x)
281
converge para
c 2
x ; c > 0:
2
A proposição 8.2.1 basicamente estabelece que as abas da fdp f (x) de ut têm caudas de
Pareto (i.e., para x suficientemente “grande” P (ut > x) - como função de x - e f (x) apre-
sentam um decaimento polinomial). Este resultado está de acordo com os factos estilizados
analisados no capítulo 3. É interessante verificar, mais uma vez, que embora a distribuição
condicional seja normal a distribuição marginal é leptocúrtica e apresenta caudas pesadas
(light-value input causes heavy-tailed output). O parâmetro obtém-se da resolução da
equação (8.5). Não há, no entanto, uma solução explícita para (em função de 1) -a
equação (8.5) deve resolver-se numericamente.
Algumas conclusões:
Embora fut g seja um processo não autocorrelacionado, fut g não é uma sucessão
de variáveis independentes (basta observar, por exemplo, E u2t u2t 1 6= 0 ou que
E (u2t j Ft 1 ) depende de u2t 1 );
Mesmo que ut seja condicionalmente Gaussiano a distribuição marginal não é Gaus-

siana. Em particular, se ut é condicionalmente Gaussiano então a distribuição marginal
é leptocúrtica.
8.2.6 Momentos e Distribuição de y
Seja
yt = t + ut
ut = t "t
(assumem-se as hipóteses habituais para "t ). Deixa-se como exercício verificar que:
E (yt j Ft 1 ) = t;
2
Var ( yt j Ft 1 ) = t;
2
Se "t é Gaussiano então yt j Ft 1 N ( t; t);
E (yt ) = E ( t ) ;
Var (yt ) = Var (E (yt j Ft 1 )) + E (Var ( yt j Ft 1 )) = Var ( t ) + E ( 2t ) :
282
4 Retorno A 4 Retorno B
3 3
2 2
1 1
0 0
-1 -1
-2 -2
-3 -3
-4 t -4 t
Figura 8-5: Qual é o retorno mais volátil?
8.2.7 Volatilidade: Definições
A volatilidade condicional no momento t (= t) é uma medida da magnitude das variações

(ou flutuações) não explicadas dos preços no momento t. No entanto, como t é quase
sempre uma componente pouco explicativa de y (i.e. t 0; pelo menos para dados de
frequência alta - dados semanais ou diários) podemos dizer (sem grande margem de erro)
que a volatilidade condicional é uma medida da magnitude das variações (ou flutuações)
dos preços no momento t. Esta é a definição usual de volatilidade do ponto de vista das
instituições financeiras:
“[. . . ] practitioners often refer to the term volatility when speaking of movements
in financial prices and rates.” RiskMetrics
Um título A pode exibir, comparativamente a um outro título B, maior volatilidade condi-

cional em certos momentos do tempo mas, globalmente A pode ser menos volátil do que
B. Nas figuras 8-5 o retorno A exibe episódios de grande volatilidade, mas B é (global-
mente) mais volátil (i.e. considerando o período todo).
Definimos volatilidade não condicional (ou marginal) como uma medida da magnitude
das variações (ou flutuações) dos preços num hiato de tempo (meses ou anos) (que não são
explicadas). Pode ser medida através da estatística
Pn
d (ut ) = t=1 u^t 2
Var :
n
ou se yt ARCH(q)
d (ut ) = !
^
Var ; ( 1 + 2 + ::: + q < 1):
1 (^ 1 + ::: + ^ q )
283
No exemplo acima, a volatilidade marginal de B é maior do que a de A, embora B exiba
volatilidade constante.
8.3 Modelo GARCH

Tendo em conta a forte dependência temporal da volatilidade, era usual, nas primeiras apli-
cações, considerar-se um ARCH de ordem elevada. Um ARCH de ordem elevada levanta
problemas de estimação (mais concretamente, de convergência dos algoritmos de optimiza-
ção) e, não raras vezes obtêm-se máximos locais (e não globais, como é desejável). Como
consequência, alguns das estimativas dos parâmetros podem vir desprovidos de significado
(por exemplo, podem vir negativos)2 . Para superar este problema, foram tentadas várias
soluções (a maioria ad-hoc e sem muita relevância). Contudo, a melhor solução apareceu
com o modelo GARCH. Veremos adiante este aspecto.
Definição 8.3.1 ut segue um modelo GARCH(p,q) (ou tem representação GARCH(p,q)) se
ut = t "t
2 2 2 2 2
t = !+ 1 ut 1 + ::: + q ut q + 1 t 1 + :: + p t p
! > 0; i 0; 0 (ver no entanto a observação 8.3.1).
2 2 2
Surpreendentemente, o modelo mais simples GARCH(1,1), t =!+ 1 ut 1 + 1 t 1;
veio a revelar-se suficiente em muitas aplicações.
8.3.1 GARCH(p,q) representa um ARCH(1)
Considere-se o GARCH(p,q):
2 2 2 2 2
t =!+ 1 ut 1 + ::: + q ut q + 1 t 1 + ::: + p t p
2 q 2 P 2
t = ! + ( 1 L + ::: + q L )ut + 1L + ::: + pL t
| {z } | {z }
A(L) B(L)
2
(1 B (L)) t = ! + A (L) u2t :
2
No método dos mínimos quadrados (OLS) a estimação é relativamente simples e imediata, mesmo que o
número de parâmetros a estimar seja alto. Afinal, o “algoritmo de optimização” converge numa única iteração.
Já no âmbito dos modelos ARCH a estimação é mais complicada pois a função a minimizar é altamente não
linear e os estimadores não podem ser escritos através de uma fórmula “fechada”.
284
Assim,
2
(1 B (L)) t = ! + A (L) u2t
2 ! A (L) !
t = + u2t = + D (L) u2t
1 B (L) 1 B (L) 1 B (L)
2 !
t = + d1 L + d2 L2 + ::: u2t
1 B (1)
! X
1
= + di u2t i :
1 B (1) i=1
Em suma, o modelo GARCH(p,q) pode ser representado como um ARCH(1):
2 !
t = + d1 u2t 1 + d2 u2t 2 + :::
1 1 ::: p
Os parâmetros di podem ser determinados pelo método dos coeficientes indeterminados3 ou

a partir da fórmula de Taylor (veja-se o exemplo seguinte).
Exemplo 8.3.1 Represente-se o GARCH(1,2) num ARCH(1). Tem-se
2 2 2 2
t = !+ 1 ut 1 + 2 ut 2 + 1 t 1
2
t = !+ 1L + 2 L2 u2t + ( 1 L) 2t :
| {z } | {z }
A(L) B(L)
Assim, o GARCH(1,2) pode representar-se na forma
2
2 ! A (L) ! 1L + 2L
t = + u2t = + u2t :
1 B (1) 1 B (L) 1 1 1 1L
Podemos obter os primeiros termos do desenvolvimento em série (de potências de L) de

2
1 L+ 2 L
1
no programa Mathematica através da instrução
1L
2
1L + 2L
Series[ ; fL; 0; 7g]:
1 1L
3
Considere-se
A (L)
= D (L)
1 B (L)
2 q
1 L + 2 L + ::: + q L
, P
= d1 L + d2 L2 + :::
1 1L ::: pL
2 q
, 1L + 2L + ::: + qL = d1 L + d2 L2 + ::: 1 1L ::: pL
P
:
A partir da última equação igualam-se os coeficientes homólogos e resolvem-se as igualdades obtidas em ordem
a di :
285
O output do programa fornece:
2
1L + 2L 2 2
= 1L +( 2 + 1 1) L + 2 1 + 1 1 L3
1 1L
2 3 3 4
+ 2 1 + 1 1 L4 + 2 1 + 1 1 L5
4 5 5 6
+ 2 1 + 1 1 L6 + 2 1 + 1 1 L7 + :::
Assim,
2
d1 = 1; d2 = 2 + 1 1; d3 = 2 1 + 1 1; etc:
Em geral di = 1 di 1 , i = 3; 4:::
Observação 8.3.1 A condição ! > 0; i 0; 0 certamente implica 2t > 0 mas não

P
é necessário exigir tanto. Vimos atrás que 2
t = 1
!
B(1)
+ 1 2
i=1 di ut i : Logo, para se ter
2
t > 0 basta exigir
! > 0 e di 0; i = 1; 2; :::
Por exemplo, no GARCH(1,2) vimos:
d1 = 1; d2 = 2 + 1 1; di = 1 di 1
Assim, temos apenas de garantir
1 0; 1 0; 2 1 1
(verifique que os valores 1 = 0:2; 2 = 0:05; 1 = 0:5 são admissíveis).
8.3.2 Representação ARMA de um GARCH

2 2 2
Para simplificar considere-se o GARCH(1,1): t =!+ 1 ut 1 + 1 t 1: Some-se a ambos
os termos a variável u2t :
u2t + 2
t =!+ 2
1 ut 1 + u2t + 2
1 t 1;
286
isole-se u2t no lado esquerdo da equação e simplifique-se a equação até se obter o ARMA
implícito:
u2t = ! + 2
1 ut 1 + 2
1 t 1 + u2t 2
| {z }t
vt
2 2 2 2
= !+ 1 ut 1 + 1 t 1 + 1 ut 1 1 ut 1 + vt
2
= !+( 1 + 1 ) ut 1 1 u2t 1
2
t 1 + vt
| {z }
vt 1
2
= !+( 1 + 1 ) ut 1 1 vt 1 + vt :
Como E (vt ) = 0 e Cov (vt ; vt k ) = 0 conclui-se: u2t ARM A(1; 1). No caso geral
pode-se mostrar
ut GARCH(p,q) ) u2t ARMA(max fp; qg ; p):
Por exemplo,
ut GARCH(1,2) ) u2t ARMA(2,1)
Em geral é problemático identificar o GARCH a partir das FAC e FACP de u2t . Por duas
razões: 1) o GARCH implica uma estrutura ARMA para u2t e, como se sabe, no ARMA,
nenhuma das funções de autocorrelação (FAC ou FACP) é nula a partir de certa ordem em di-
ante (e, é esta característica que facilita a identificação das ordens do AR ou do MA, mas não
do ARMA); 2) não existe uma correspondência perfeita entre a estruturas ARMA e GARCH
(por exemplo, um ARMA(2,2) para u2t pode ser um GARCH(2,1) ou um GARCH(2,2) para
ut ). Quer isto dizer que as funções de autocorrelação não são interessantes nesta fase? De
forma alguma, por duas razões: 1) se FAC e a FACP de u2t não apresentarem coeficientes
significativos então não existe efeito ARCH; 2) a existência de vários coeficientes de auto-
correlação e de autocorrelação parcial significativos é indício forte da presença de efeitos
ARCH4 .
4
Coeficientes de autocorrelação de u2t estatisticamente significativos podem ainda dever-se a um erro de es-
pecificação do modelo (veremos isso adiante) ou à presença de outros modelos não lineares, como por exemplo,
o modelo bilinear.
287
Como regra geral, não devemos usar o ARCH; o GARCH é preferível. A identificação
das ordens p e q do GARCH faz-se na fase da estimação.
Estacionaridade de Segunda Ordem num GARCH(p,q)
Como se sabe E (ut ) = Cov (ut ; ut k ) = 0; 8k 2 N: Assim, para discutir a ESO do
processo u; basta analisar E (u2t ) :
Vimos
ut GARCH(p,q) ) u2t ARMA(max fp; qg ; p).
De facto, pode-se mostrar
q p p
X X X
u2t = ! + 2
i ut i +
2
i ut i i vt i + vt
i=1 i=1 i=1
maxfp;qg p
X X
2
= !+ ( i + i ) ut i i vt i + vt
i=1 i=1
= ! + (A (L) + B (L)) u2t i + (1 B (L)) vt :
Tem-se assim
(1 A (L) B (L)) u2t = ! + (1 B (L)) vt :
A ESO de ut depende das raízes do polinómio autoregressivo, (1 A (L) B (L)). Conc-

retamente, para que se tenha E (u2t ) = 2
< 1 é necessário e suficiente que as raízes do
polinómio autoregressivo estejam fora do circulo unitário. Se adicionarmos a esta condição,
as restrições i 0e i 0; a condição de ESO simplifica-se e, pode-se provar, é igual a
q p
X X
i + i < 1:
i=1 i=1
8.4 Modelo IGARCH

Definição 8.4.1 ut segue um modelo IGARCH(p,q) (ou tem representação IGARCH(p,q)) se
ut = t "t
2 2 2 2 2
t = !+ 1 ut 1 + ::: + q ut q + 1 t 1 + :: + p t p
e
q p
X X
i + i =1
i=1 i=1
288
0 0
i.e., a soma dos parâmetros se s é igual a um.
2 2 2
Vamos analisar apenas o IGARCH(1,1): t =!+ 1 ut 1 + 1 t 1; onde 1 + 1 = 1:
A designação Integrated GARCH resulta do facto de u2t possuir uma raiz unitária:
u2t = ! + ( 1 + 2
1 )ut 1 1 vt 1 + vt
| {z }
1
u2t = ! + u2t 1 1 vt 1 + vt
(1 L) u2t = ! 1 vt 1 + vt
(logo u2t é um ARIMA(0,1,1)). Nestas condições ut não é ESO. Durante algum tempo
pensou-se que ut seria também não estacionário em sentido estrito. Daniel Nelson mostrou
que um IGARCH poderia ser estritamente estacionário (EE). Concretamente mostrou: 1) a
condição necessária e suficiente para que ut seja EE5 é
2
E log 1 + 1 "t < 0;
2) e que esta condição acaba por ser menos exigente que a condição de ESO, 1 + 1 < 1.
2
Se E (log ( 1 + 1 "t )) < 0; então a distribuição conjunta de (u1 ; u2 ; :::; uk ) é igual à
distribuição conjunta de (ut ; ut+1 ; :::; ut+k ) para todo o t e k e, em particular, as funções
densidade de probabilidade são constantes no tempo f (ut ) = f (us ) ; 8t; s; pode-se ainda
2
mostrar que t é uma variável aleatória limitada em probabilidade (não tende para 1; como
2 p 2 2
à primeira vista poderíamos pensar) e t ! (!) ( (!) é uma v.a.) (embora não
exista o segundo momento). Vários estudos mostram que os testes assimptóticos habituais
permanecem válidos6 . Para assentar ideias, suponha-se "t N (0; 1) : Então:
se 1 + 1 < 1 ) ut é ESO;
se 1 + 1 < 1 vem, pela desigualdade de Jensen,
2 2
E log 1 + 1 "t log E 1 + 1 "t = log ( 1 + 1) <0
2
e, portanto, 1 + 1 < 1 ) log E ( 1 + 1 "t ) < 0; isto é, se o processo é ESO então
5
Na proposição 4.5.5 e exemplo 4.5.13 aborda-se, do ponto de vista teórico, esta questão.
6
Esta conclusão contrasta com o processos integrados na média, por exemplo do tipo, yt = yt 1 + "t que,
como se sabe, não são nem estacionários de segunda ordem nem estritamente estacionários e onde os testes
habituais não são válidos.
289
β1
α 1 + β1 > 1
[ (
E log β1 + αε t2 > 0 )]
α 1 + β1 > 1
α 1 + β1 < 1
[ ( )]
E log β1 + αε t2 < 0
[ ( )]
E log β1 + αε t2 < 0
α1
1 3
Figura 8-6: Regiões no espaço dos parâmetros ( 1; 1) onde o processo fut g é E2O e EE
é também EE;
2
pode-se provar que 1 + 1 = 1 ) E (log ( 1 + 1 "t )) < 0 (este valor esperado
pode ser calculado de forma exacta7 ). Como referimos, o processo IGARCH é EE. A
condição de ESO acaba por ser mais exigente do que a condição de EE. A primeira
exige a existência do momento de segunda ordem enquanto EE exige que toda a es-
trutura probabilística (leia-se função de distribuição finita) seja estável ao longo do
tempo, independentemente dos momentos serem finitos ou não.
2
E (log ( 1 + 1 "t )) < 0 6) 1 + 1 <1
A figura 8-6 mostra três regiões no espaço dos parâmetros ( 1; 1 ). Na região f( 1; 1) 2 R2 : 1 + 1 <
o processo fut g é ESO e EE. Na região f( 1; 1) 2 R2 : 1 + 1 > 1; E (log ( + "2 )) < 0g
o processo fut g não é ESO mas é EE. Na região f( 1; 1) 2 R2 : 1 + 1 > 1; E (log ( + "2 )) > 0g
o processo fut g não é ESO nem EE.
8.4.1 Persistência na Variância
Certos processos exibem reversão para a média; outros não (e.g. RW). É usual chamar a estes
últimos processos persistentes no sentido em que choques nas inovações exercem um efeito
7
Com efeito, a variável aleatória Z = log 1 + 1 "2 tem distribuição conhecida. Por exemplo, basta
fazer uma transformação de variável e atender ao facto de "2 2
(1) :
290
fhi = 0.1 fhi = 0.8
120 120
115 115
110 110
105 105
100 100
95 95
90 90
85 85
80 80
1 26 51 76 101 126 151 176 1 26 51 76 101 126 151 176
fhi = 0.98 fhi = 1

120 120
115
110
110
105 100
100
95 90
90
80
85
80 70
1 26 51 76 101 126 151 176 1 26 51 76 101 126 151 176
Figura 8-7: Persistência e o processo AR(1)
persistente no nível do processo. Na literatura, variam não só as definições de persistência

como também as ferramentas estatísticas usadas para a avaliar.
Considere-se por exemplo o AR(1)
yt = (1 ) + yt 1 + "t ; ut ruído branco
Uma medida de persistência pode basear-se em : Se = 1 o processo é persistente. Se j j <

1 não é persistente. Poderíamos ainda discutir “níveis de persistência” (quanto mais perto
estiver de 1 maior é a “persistência”). Na figura 8-7 mostram-se 4 trajectórias simuladas de
yt = (1 ) + yt 1 + "t ; ("t ruído branco Gaussiano) para = 100; y0 = 80: Apenas
varia (tudo o resto é igual, incluindo as inovações "t ). Consideram-se os casos = 0:1;
= 0:8; = 0:98 e = 1: Procura-se verificar a velocidade da reversão do processo
face à sua média de longo prazo (no caso = 1 não existe média de longo prazo) dada uma
condição inicial y0 = 80 relativamente afastada da média de longo prazo. Isto é, tende ou não
o processo rapidamente para a sua média de longo prazo? A figura mostra que quanto maior
é o valor do parâmetro mais lenta é a reversão e, portanto, maior é o nível de persistência.
291
Existem outras medidas de persistência. Por exemplo a half-life é o valor de h tal que
1
E (yt+h j Ft ) (yt ); (supondo yt > )
2
Suponha-se que em t existe um desvio de y face à sua média de longo prazo igual a yt :
Questão: quantos períodos são necessários para que metade desse desvio seja eliminado (em
média)? Ou, em quanto tempo o processo elimina metade do desvio yt ? A resposta é h:
Para exemplificar, considere-se o processo AR(1), yt = yt 1 + ut (note-se, = 0).
Como se viu atrás
h
E (yt+h j Ft ) = yt :
h
Assim, a half-life é o valor de h tal que yt = 21 yt : Logo
h 1 log (1=2)
yt = yt ) h = :
2 log
Se temos dados diários (t = 1 corresponde a uma dia) e, por exemplo, = 0:8; então
h = log (1=2) = log (0:8) = 3:1 é o número de dias necessários para que, em média, metade
do desvio de y face à sua média de longo prazo seja eliminado. Valores altos de h indicam
maior persistência (o processo demora mais tempo a eliminar desvios face à média de longo
prazo e, neste caso, o processo exibe uma reversão para a média mais lenta). No caso !
1 ) h ! 1 e o processo é persistente. Obviamente, se E (yt+h j Ft ) não converge quando
h ! 1 o processo y é persistente.
Tradicionalmente, o conceito de persistência aplica-se à média do processo. Com o
GARCH surgiu a ideia da persistência em variância. Choques na variância são rapidamente
2
eliminados e t tende rapidamente para E ( 2t ) ou, pelo contrário, os choques têm um efeito
duradouro na variância?
Podemos também definir uma half-life para a variância. Trata-se do valor de h tal que
2 2 1 2 2 2 2
E t+h Ft t (supondo t > )
2
2
onde = E ( 2t ) : Para exemplificar, considere-se o GARCH(1,1). Vem 2
= != (1 1 1)
e
2 2 h 2 2
E t+h Ft = ( 1 + 1) t
(este resultado mostra-se no capítulo da previsão). Assim a half-life é o valor de h tal que
292
h
( 1 + 1) ( 2
t
2
) = 12 ( 2
t
2
) : Logo
h 2 2 1 2 2 log (1=2)
( 1 + 1) t = t )h= :
2 log ( 1 + 1 )
Quando 1+ 1 tende para 1; h tende para mais infinito e o processo é persistente na variância
(ou a volatilidade é persistente).
Uma das dificuldades na análise dos processos GARCH em geral, e dos IGARCH em
particular, é o de que certos processos podem ser persistentes num certo modo de convergên-
cia e não ser num outro modo de convergência. Pode-se provar que os IGARCH, emb-
2 2
ora persistentes de acordo com a medida E t+h Ft não são persistentes no modo
de convergência designado “quase certamente” ou “com probabilidade 1” (como notámos
2 q:c: 2 2
t ! (!) ; i.e. t converge quase certamente para uma variável aleatória, apesar de
E ( 2t ) não existir).
Em muitas aplicações empíricas observa-se que a estimativa para 1 + 1 se encontra
muito perto de um, sugerindo que a volatilidade pode ser persistente (forte dependência
temporal) e que Var (yt ) pode não existir. Este facto está de acordo com os factos estilizados
discutido no ponto no capítulo 3.
Um modelo estacionário mas em que a volatilidade exibe memória longa é o FIGARCH
(GARCH fraccionário).
8.4.2 Alterações de Estrutura e o IGARCH
Modelos aparentemente IGARCH podem também dever-se a alterações de estrutura (tal

como processos aparentemente do tipo yt = yt 1 + ut podem dever-se a alterações de estru-
tura). Por exemplo, considere-se a seguinte simulação de Monte Carlo:
yt = ut ; ut = t "t ; t = 1; 2; :::; 1000

2
t = ! + u2t 1 + 2t 1 ; (8.6)
8
< 0:5 t = 1; 2; :::; 500
= 0:1; = 0:6; ! =
: 1:5 t = 501; 502; :::; 1000
Este modelo foi simulado 500 vezes. Na figura 8-8 representa-se uma das 500 trajectórias
simuladas.
Em cada simulação (ou trajectória simulada) estimaram-se os parâmetros. Embora o
293
10
8
6
4
2
0
-2
-4
-6
-8
1 101 201 301 401 501 601 701 801 901
Figura 8-8: Uma trajectória simulada de acordo com o modelo 8.6
modelo simulado não seja claramente um IGARCH (note-se que + = 0:7), concluiu-se
que:
em 83% das simulações a soma dos parâmetros ^ + ^ esteve acima de 0.99;
em 99.6% das simulações a soma dos parâmetros ^ + ^ esteve acima de 0.95;
em todos os casos ^ + ^ esteve acima de 0.9.
Este exercício de simulação ilustra o impacto de alterações de estrutura sobre os coefi-

cientes e : A mensagem é clara: num aplicação empírica, se ^ + ^ estiver próximo de
um, convém verificar se o modelo subjacente é de facto um IGARCH ou, pelo contrário, se
existem alterações de estrutura que causem um falso IGARCH . Não obstante, quer se veri-
fique + = 1 ou o caso de ! não ser constante ao longo da amostra, o processo subjacente
é sempre não estacionário de segunda ordem. No primeiro caso a variância não é finita; no
segundo não é constante. Quebras de estrutura ocorrem frequentemente quando o período
de análise é muito extenso. Nestes casos, ou se modela a quebra de estrutura (em princípio
é a melhor estratégia) ou se encurta o período de observação (se os objectivos da aplicação
empírica assim o permitirem).
8.4.3 EWMA (Exponential Weighted Moving Averages)
Considere-se a seguinte estimativa para a volatilidade no momento t
1X 2
h
2 1 2
t (h) = yt i = y + yt2 + ::: + yt2
h i=1 h t 1 2 h
294
0.0007
0.0006
0.0005
Vol30
0.0004 Vol60
0.0003 Vol120
0.0002 Vol240
0.0001
0
Jan-89
Jun-90
Nov-91
Jul-97
Mar-03
Dec-98
Oct-01
Jan-06
Feb-96
May-00
Sep-94
Apr-93
Aug-04
Figura 8-9: Estimativas da volatilidade do índice Dow Jones ao longo do período, baseadas
no estimador 2 (h) para diferentes valores de h (e.g., Vol30 = 2t (30) ; Vol60 = 2t (60) ;
etc.)
(supomos E (yt j Ft 1 ) = 0).

Na figura 8-9 mostram-se várias estimativas da volatilidade do índice Dow Jones ao longo
2 2
do período, baseadas no estimador (h) para diferentes valores de h (e.g., Vol30 = t (30) ;
2
Vol60 = t (60) ; etc.)
2
O estimador t (h) levanta as seguintes questões e objecções:
qual o melhor valor de h? É um pouco arbitrária a escolha de h;
2
o estimador t (h) implica que todas as observações no período (t h; t 1) têm o
2
mesmo peso na determinação do valor de t (h) : Por exemplo, com
1 X 2
240
2 1
t (240) = yt i = yt2 1 + yt2 2 + ::: + yt2 240
240 i=1 240
todas as observações têm um peso de 1/240. No entanto, seria preferível dar mais peso
às observações mais recentes;
2
o estimador t (h) implica que todas as observações fora do período (t h; t 1)
têm peso zero. Como consequência, pode suceder o seguinte. Se na janela amostral
(t h; t 1) existir uma observação extrema, a volatilidade é sobrestimada; quando
essa observação sai da janela amostra, a volatilidade estimada cai depois abruptamente.
O estimador Exponential Weighted Moving Averages (EWMA, proposto pela J.P. Mor-
gan) resolve algumas das fragilidades dos estimador acima descrito, dando mais peso às
295
observações mais recentes:
X
1
2 i 1 2
t = (1 ) yt i ; 0< <1
i=1
2 2
= (1 ) yt2 1 + yt2 2 + yt 3 + ::: :
Quanto mais alto for ; mais peso o estimador dá às observações mais antigas (o decréscimo
dos ponderadores é, no entanto, sempre exponencial).
i
Os ponderadores, ! i = (1 ) ; somam 1,
X
1
2
! i = (1 ) 1+ + + ::: = 1
i=1
(recorde-se a soma de uma progressão geométrica). Por exemplo, com = 0:5 vem
2 2 2
t = (1 ) yt2 1 + yt2 2 + yt 3 + :::
= 0:5 yt2 1 + 0:5yt2 2 + 0:25yt2 3 + 0:125yt2 4 + ::: :
2
A expressão de t pode ser reescrita de uma forma mais sugestiva. Notando que
2 2 2
t 1 = (1 ) yt2 2 + yt2 3 + yt 4 + :::
temos
2
t = (1 ) yt2 1 + 2
t 1: (8.7)
Qual a relação entre o IGARCH e o EWMA? Considere-se um processo y com média

condicional igual a zero e com especificação IGARCH(1,1): yt = ut ; ut = t "t : Vem
2 2 2
t = !+ 1 ut 1 + 1 t 1; 1 + 1 =1
2 2
= ! + (1 1 ) yt 1 + 1 t 1:
Se ! = 0 conclui-se que um IGARCH(1,1) corresponde ao modelo EWMA. Assim, o mod-

elo EWMA é um caso muito particular do IGARCH.
296
8.5 Modelo CGARCH
Considere-se o GARCH(1,1):
2 2 2
t = !+ 1 ut 1 + 1 t 1
= !+ 1 u2t 1
2
+ 1
2
t 1
2
+ 1
2
+ 1
2
2 2 2
= (1 1 1) + 1 + 1 + 1 u2t 1
2
+ 1
2
t 1
2
2
= + 1 u2t 1
2
+ 1
2
t 1
2
2
Esta equação relaciona t com a respectiva média de longo prazo e mostra como se processa
2 2
a dinâmica de ajustamento de t face à constante :
O Component GARCH model (CGARCH) permite representar:
2
t = qt + 1 u2t 1 qt 1 + 1
2
t 1 qt 1 (8.8)
2 2
qt = + qt 1 + u2t 1
2
t 1
2
onde = E ( 2t ) : O ajustamento de curto prazo de 2
t faz-se agora em relação à v.a. qt ,
2
a qual tende, no “longo prazo”, para : A primeira equação é designada de componente
transitória e a segunda equação de componente de longo prazo. O modelo CGARCH é um
GARCH(2,2) com restrições sobre os parâmetros. Com efeito, substituindo
2
(1 )+ u2t 1 2
t 1
qt =
(1 L)
na equação (8.8) vem

!
2
2 (1 )+ u2t 1 2
t 1
2
(1 )+ u2t 2 2
t 2
t = + 1 u2t 1
(1 L) (1 L)
!
2
2 (1 )+ u2t 2 2
t 2
+ 1 t 1 = ::: =
(1 L)
2
= (1 1 1 ) (1 ) +( 1 + ) u2t 1 ( 1 +( 1 + 1) ) u2t 2
2 2
+( 1 + ) t 1 + (( 1 + 1) 1 ) t 2:
Atendendo à condição de ESO do GARCH(p,q) é fácil concluir que o processo CGARCH é
297
ESO sse
(1 1 1) + 1 + 1 < 1:
Nestas circunstâncias,
2
(1 1 1 ) (1 ) 2
Var (ut ) = = :
1 ( (1 1 1) + 1 + 1)
A principal vantagem do CGARCH está na interpretação da dinâmica de ajustamento, e não

necessariamente no ajustamento da variância (um GARCH(2,2), sem restrições nos parâmet-
ros, ajusta melhor, i.e., o valor da função de verosimilhança não decresce).
O caso = 0 sugere a presença de um GARCH(1,1). Com efeito, se = 0; vem
2 2 2 2
qt = + (qt 1 ) : Para simplificar, suponha-se que q0 = : Se = 0 ) qt =
2 2
(verifique!). No caso q0 6= tem-se qt ! (se j j < 1). Esta convergência é deter-
2
minística (a velocidade de ajustamento depende de ). Em qualquer dos casos (q0 = ou
2
q0 6= ), e supondo j j < 1; tem-se, ao fim de algum tempo, um ajustamento dinâmico, de
2 2
acordo com o modelo t = + 1 u2t 1
2
+ 1
2
t 1
2
: Assim, o caso = 0;
sugere a presença de um GARCH(1,1).
2
O parâmetro está associado à reversão de qt para : Quanto mais alto (mais próximo
de um) mais lenta é a velocidade de reversão e, portanto, maior é o nível de persistência na
2 2 2
variância condicional. Note-se que a reversão de t para é feita através de qt ; i.e., t !
2
qt ! :
8.6 Modelo GJR-GARCH

O modelo GJR-GARCH é devido a Glosten, Jagannathan e Runkle. Uma das característi-
cas das séries de retornos de títulos é o Leverage Effect (i.e. momentos de maior volatili-
dade são despoletados por variações negativas nos preços). Vimos no ponto 3.2.4 que este
efeito pode ser detectado através da medida (naive) Cov (yt2 ; yt 1 ) < 0: Veremos agora uma
forma bastante mais eficiente de estimar esse efeito. Comece-se por observar que o mod-
elo ARCH/GARCH apenas detecta o chamado “efeito magnitude”. Isto é, a volatilidade só
responde à magnitude do valor de ut . Em esquema:
" u2t 1 )" 2

t (efeito magnitude)
298
Para modelar o efeito assimétrico é necessário que a volatilidade responda assimetricamente
ao sinal de ut : Mais precisamente, a volatilidade deve aumentar mais quando ut < 0 (“má
notícia”) do que quando ut > 0 (“boa notícia”).
O modelo GJR-GARCH (assim como o EGARCH, AARCH, etc.) modela não só o efeito
magnitude como também o efeito assimétrico. A especificação mais simples (suficiente para
um grande número de aplicações) é
2 2
t =!+ 1 ut 1 + 1 2t 1 + 1 u2t 1 Ifut 1 <0g ;
8
< 1 se u < 0
t 1
Ifut 1 <0g =
: 0 se u 0:
t 1
2
De acordo com o efeito assimétrico devemos esperar 1 > 0: Como é que t varia como
resposta a uma variação em ut 1 ? Uma forma de visualizar esta relação consiste em fixar
2 2 2
t 1 = (variância marginal) e depois traçar t como função de ut 1 : Este gráfico designa-
se por news impact curve (NIC). NIC é portanto uma função de ut 1 . No caso GARCH,
tem-se
2 2 2
N IC (ut 1 ) = ! + 1 + 1 ut 1 = const: + 1 ut 1 (8.9)
e, no caso do modelo GJR-GARCH, a NIC é
2 2 2
N IC (ut 1 ) = ! + 1 + 1 ut 1 + 1 ut 1 Ifut 1 <0g (8.10)
2 2
= const: + 1 ut 1 + 1 ut 1 Ifut 1 <0g
Por exemplo, admita-se 1 = 0:2; 1 = 0:5; ! = 0:1; 1 = 0:4: Para estes valores as
NIC (8.9) e (8.10) estão representadas na figura 8.6. Como seria de esperar, a NIC associada
ao modelo (8.10) é assimétrica e aba esquerda é mais inclinada, traduzindo o facto de que a
299
volatilidade é comparativamente maior quando ut 1 < 0:
12
10
8
Vol(t)
6 NIC GARCH
GJR-GARCH
4
0
-4 -3 -2 -1 0 1 2 3 4
u(t-1)
NIC GARCH e GJR-GARCH para 1 = 0:2; 1 = 0:5; ! = 0:1; 1 = 0:4
Para ensaiar o efeito assimétrico podemos considerar o ensaio H0 : 1 = 0 (através, por

exemplo, do teste de Wald). Pode-se provar que a condição de ESO (no caso em que a
distribuição de " é simétrica) é 1 + 1 =2 + 1 < 1: Nesta circunstâncias,
2 !
Var (ut ) = E t =
1 ( 1 + 1 =2 + 1)
Este modelo é designado por TGARCH no EVIEWS.
8.7 Modelo GARCH-M

A teoria financeira postula uma relação entre rendimento esperado e o risco associado. Em
geral deve-se esperar que os activos com maior risco estejam associados aos activos com
maior rendimento.
2 2 2 2
yt = c + g t + ut ; ut = t "t ; t =!+ 1 ut 1 + 1 t 1:
Especificações mais utilizadas:
2 2
g t = t; g t = log t
300
Dada a estreita relação entre os parâmetros da média e da variância condicional, um erro de
especificação da variância condicional afecta a consistência dos estimadores dos parâmetros
da média condicional.
8.8 Modelo de Heterocedasticidade Condicionada com Var-

iáveis Explicativas
Considere-se um modelo GARCH(1,1) (poderia ser outro modelo qualquer) com variáveis
explicativas:
yt = t + ut
ut = t "t
2 2 2
t = !+ 1 ut 1 + 1 t 1 + g (xt )
2
onde a função g é tal que t > 0 (com probabilidade 1). Que variáveis poderemos considerar
para xt ? Vejamos alguns exemplos:
Dias da semana (ou qualquer outro efeito de calendário):
2 2 2 a u
t =!+ 1 ut 1 + 1 t 1 + 1 St + 2 Tt + 3 Qt + 5 Qt
2
onde St = 1 se t é uma segunda-feira, etc. (deverá ter-se ! +min f i g > 0 ) t > 0).
Ocorrência de factos, notícias significativas. Por exemplo8 ,
2 2 2
t =!+ 1 ut 1 + 1 t 1 + 1 goodt + 2 badt
8
< 1 t = são divulgados resultados da empresa ABC acima do esperado
goodt =
: 0 0
8
< 1 t = são divulgados resultados da empresa ABC abaixo do esperado
badt =
: 0 0
8
A chamada “armadilha das variáveis artificiais” não ocorre no exemplo (embora pareça) pois as notícias
podem ser “boas”, “más” ou simplesmente não ocorrerem (e, neste caso, vem goodt = badt = 0).
301
Variação do preço do crude.
Medida de volatilidade de outro activo/mercado
Volume de transacções:
2 2 2
t =!+ 1 ut 1 + 1 t 1 + 1 volt 1
volt 1
onde volt 1 pode ser especificada como volt 1 = vol
ou volt 1 = log (volt 1 ) ou
volt 1 = volt 1 =volt 2 , sendo vol o volume de transacções. Observe-se que o vol-
ume de transacções pode ser considerado como uma variável proxy da variável não
observada “chegada de informação”.
Qualquer outra variável (estacionária) que supostamente afecte a volatilidade.
No ponto 7.4.9 vimos que o modelo em tempo discreto, compatível com o processo CIR,
p
em tempo contínuo, drt = ( rt ) dt + rt dWt conduz ao modelo,
rt = c + rt 1 + ut
ut = t "t
2 2
t = rt 1
Inspirados nesta especificação, certos autores modelam a taxa de juro em tempo discreto
combinando as características do GARCH com as características do processo de difusão
(modelo CIR):
rt = c + rt 1 + ut
ut = t "t
2 2 2
t = !+ 1 ut 1 + t 1 + rt 1 :
O ensaio H0 : = 0 vs. H1 : > 0 permite analisar se a nível da taxa de juro influencia pos-
itivamente a volatilidade. Geralmente conclui-se > 0. A figura 8-10 sugere (claramente)
> 0:
302
18
16
14
12
10
8
6
4
2
0
Jan-54
May-56
Jan-61
May-63
Jan-68
May-70
Jan-75
May-77
Jan-82
May-84
Jan-89
May-91
Jan-96
May-98
Jan-03
May-05
Sep-58
Sep-65
Sep-72
Sep-79
Sep-86
Sep-93
Sep-00
Figura 8-10: Taxa de Juro (Bilhetes do Tesouro a 3 meses -EUA)
8.9 Estimação
Seja yt = t +ut onde ut = t "t : Suponha-se que v.a. "t tem distribuição conhecida (normal,
t-Student ou outra) de média zero e variância um. O vector dos parâmetros desconhecidos,
, envolve parâmetros definidos na média condicional e na variância condicional.
A média condicional t pode depender de uma variável xt (esta variável pode ser encar-
ada também como um vector de variáveis explicativas). Por exemplo, podemos ter,
yt = 0 + 1 xt + 1 yt 1 + ut
ut = t "t ; "t N (0; 1)

2 2
t = !+ 1 ut 1
0
= ( 0; 1; 1 ; !; 1) :
A estimação do vector poderia ser feita da seguinte forma (tome-se como referência o
modelo acima apresentado):
Passo 1 Estimação OLS de 0; 1 e 1 com base na equação yt = 0 + 1 xt + 1 yt 1 + ut :
Passo 2 A partir do passo 1, obtêm-se os resíduos u^2t : Como 2

t = !+ 2
1 ut 1 implica
2 2
uma representação AR(1) para t = !+ 1 ut 1 , ou seja, u2t = ! + 2
1 ut 1 + vt
(vejam-se os pontos 8.2.2 e 8.3.2), os parâmetros ! e 1 estimam-se a partir da equação
u^2t = ! + ^2t 1
1u + vt ; considerando o estimador OLS.
303
O procedimento acima descrito envolve estimadores consistentes mas altamente inefi-
cientes, pois em ambos os casos os erros das equações são heterocedásticos (no caso da
estimação ! e 1; a situação é particularmente grave, pois, pode mostra-se, vt tende a exibir
forte heterocedasticidade).
O método de estimação mais utilizado é o método da máxima verosimilhança (o GMM
também pode ser utilizado) que se descreve a seguir.
8.9.1 Estimador de Máxima Verosimilhança
Assuma-se que todos os parâmetros de interesse, incluídos em ; apenas aparecem na densi-

dade conjunta condicional f (Yn j Xn ; ) ; onde Yn = (yn ; yn 1 ; :::; y1 ) e Xn = (xn ; xn 1 ; :::; x1 ) :
Para simplificar a exposição, admite-se (sem perda de generalidade) que as condições inici-
ais Y0 são conhecidas. Tem-se assim, que a densidade relevante, para a estimação de ; é
f (Yn j Y0 ; Xn ; ) :
Proposição 8.9.1 Se yt é condicionalmente independente de (xn ; :::; xt+1 ) (n > t) dado

(Yt 1 ; Xt ), i.e.,
f (yt j Yt 1 ; Xn ) = f (yt j Yt 1 ; Xt ) ;
então
f (Yn j Y0 ; Xn ; ) = f (yn j Yn 1 ; Xn ; ) f (yn 1 j Yn 2 ; Xn 1 ; )
::: f (y1 j Y0 ; x1 ; )
Y
n
= f (yt j Yt 1 ; Xt ; ) (8.11)
t=1
Dem. (esboço) Tem-se
f (Yn j Y0 ; Xn ; ) = f (yn j Yn 1 ; Xn ; ) f (Yn 1 j Y0 ; Xn ; ) (8.12)

| {z }
( )
Desenvolva-se a expressão (*):
f (Yn 1 j Y0 ; Xn ; ) = f (yn 1 j Yn 2 ; Xn ; ) f (Yn 2 j Y0 ; Xn ; )
= f (yn 1 j Yn 2 ; Xn 1 ; )f (Yn 2 j Y0 ; Xn ; ) (8.13)

| {z }| {z }
por hipótese ( )
304
Desenvolva-se a nova expressão (*):
f (Yn 2 j Y0 ; Xn ; ) = f (yn 2 j Yn 3 ; Xn ; ) f (Yn 3 j Y0 ; Xn ; )
= f (yn 2 j Yn 3 ; Xn 2 ; )f (Yn 3 j Y0 ; Xn ; ) (8.14)

| {z }| {z }
por hipótese ( )
A nova expressão (*) pode ser desenvolvida de forma similar. Coligindo as equações (8.12)-
(8.14), obtém-se (8.11).
A hipótese definida na proposição anterior, estabelece que yt não depende dos valores
futuros xt+1 ; xt+2 dado It = Yt 1 [ Xt ou, por outras palavras, xt dado Xt 1 não depende
de Yt 1 (ou ainda, y não causa à Granger x). Doravante assume-se esta hipótese.
A função de verosimilhança (supondo que as condições iniciais Y0 são dadas) é
Y
n
Ln ( ) = f (Yn j Y0 ; Xn ; ) = f (yt j It ; ) (8.15)
t=1
onde It = Yt 1 [ Xt (na prática, se a ordem máxima do desfasamento das variáveis definidas

na média condicional for p, deverá ler-se no produtório, “t = p + 1” e não “t = 1”; para
simplificar, continue a assumir-se “t = 1”).
O estimador de máxima verosimilhança é, como habitualmente,
Y
n X
n
^n = arg max log Ln ( ) = arg max log f (yt j It ; ) = arg max log f (yt j It ; ) :
t=1 t=1
Sob certas hipóteses, incluindo, f(yt ; xt )g é um processo estacionário e fracamente depen-

dente, o estimador de máxima verosimilhança é consistente e assimptoticamente eficiente.
A sua distribuição é dada por
p d 1
n ^n 0 ! N 0; I ( 0 )
onde I ( 0 ) é a matriz de informação de Fisher. Verifica-se I ( 0 ) = A ( 0 ) = B ( 0 ) onde
@ 2 lt ( ) @lt ( ) @lt ( )
A( ) = E ; B( )=E
@ @ 0 @ @ 0
lt ( ) = log f (yt j It ; ) :
305
Sob certas condições, A e B podem ser estimados consistentemente por
2 ^
1 X @ lt n
n
p
A^n = ! A ( 0)
n t=1 @ @ 0
X @lt n ^n @lt ^n
^n = 1
B
p
! B ( 0) :
0
n t=1 @ @
A aplicação do método da máxima verosimilhança exige (em princípio) o conhecimento

da fdp condicional de yt dado It ; ou seja, é necessário conhecer-se f (yt j It ) : Num modelo
de heterocedasticidade condicional do tipo yt = t + ut onde ut = t "t ; a fdp f resulta
i:i:d
imediatamente da distribuição dos erros ": Por exemplo, suponha-se "t N (0; 1) : Logo,
2 2
ut j It = t "t j It N 0; t ) yt j It N t; t :
e, portanto,
1 1 1
log f (yt j It ; ) = log (2 ) log 2
t ( ) 2
(yt t ( ))2 : (8.16)
2 2 2 ( )
t
Implementação no programa EVIEWS

Considere-se, a título de exemplo, o modelo
yt = 0 + 1 xt + 1 yt 1 + ut
ut = t "t ; "t N (0; 1)

2 2 2 2
t =!+ 1 ut 1 + 1 ut 2 + 1 t 1 + 0 segt + volumet 1
onde segt é uma variável dummy que assume 1 se t corresponde a uma segunda feira. Para
estimar o modelo no EVIEWS, através do método da máxima verosimilhança, basta selec-
cionar “estimate” e depois “ARCH"em method. Ver a figura 8-11.
Escolhendo 1 em “Threshold order” poderia estimar-se o GJR-GARCH.
Eficiência do Estimador de MV vs. Estimador OLS

Considere-se o modelo de regressão linear
i:i:d
yt = x0t + ut ; ut = "t t ; "t N (0; 1)
306
Figura 8-11: Estimação do GARCH no EVIEWS
onde x0t = 1 x1t xkt : Como fut g é não autocorrelacionado e marginalmente

1
homocedástico resulta que o estimador OLS ~ n = (X0 X) X0 y é BLUE (best linear unbi-
ased estimator). Significa que é o melhor estimador? Não. O estimador de MV (não linear)
para ; ^ n ; é assimptoticamente mais eficiente. Pode-se provar que a matrix
Var ~ n Var ^ n
é semidefinida positiva. Isto implica, em particular, que as variâncias dos estimadores OLS
são maiores ou iguais às correspondentes variâncias dos estimadores de máxima verosimil-
hança. Para confirmarmos esta ideia, simulou-se 1000 vezes o modelo
i:i:d
yt = 1 + 2 xt + ut ; xt N (0; 1) ; t = 1; :::; 1000
1 = 10; 2 = 5;
i:i:d
ut = "t t ; "t N (0; 1)
2
t = 0:05 + 0:2u2t 1 + 0:75 2
t 1
Em cada simulação estimaram-se os 1 e 2 pelo método OLS e pelo método da MV (us-

ando este último método estimaram-se ainda os parâmetros da variância condicional). Os
resultados estão presentes na tabela 8.1. Por exemplo, o erro quadrático médio do estimador
307
1 2
(1) OLS (2) MV (1)/(2) (3) OLS (4) MV (3)/(4)
Erro Quad.Médio 0.001 0.0006 1.667 0.0011 0.0006 1.833
Tabela 8.1: Eficiência do Estimador OLS vs. Estimador de MV
Figura 8-12: Distribuições do Estimadores OLS e de MV de 2 (obtidas a partir de uma

simulação Monte Carlo)
OLS relativamente ao parâmetro 1 é
1 X ~ (i)
1000
2
1 10
1000 i=1
(i)
e ~ 1 é a estimativa OLS para 1 obtida na i-ésima simulação).
A tabela 8.1 sugere que o estimador ML é substancialmente mais preciso do que o esti-
mador OLS. Com base nas 1000 estimativas OLS e de MV do parâmetro 2; apresenta-se na
figura 8-12 as fdp estimadas (não parametricamente) dos estimadores OLS e de MV.
A figura 8-12 confirma a tabela 8.1: o estimador de MV é mais eficiente do que o esti-
mador OLS (i.e., é mais preciso ou apresenta menor variabilidade). A figura 8-12 também
sugere que ambos os estimadores são asimptoticamente centrados.
Prova-se (sob as condições usuais de regularidade) que o estimador de máxima verosim-
ilhança apresenta as propriedades habituais, isto é, é consistente, assimptoticamente eficiente
e tem distribuição assimptótica normal (como vimos). O estimador OLS é consistente para
308
os parâmetros da média condicional mas, como vimos, não é assimptoticamente eficiente.
8.9.2 Estimador de Pseudo Máxima Verosimilhança
Na prática, a distribuição de "t não é conhecida. Podemos ainda assim supor, por exemplo,
"t N (0; 1) ou "t t (n)? A resposta é afirmativa no seguinte sentido: mesmo que a
verdadeira distribuição seja desconhecida, podemos ainda assim “trabalhar” com a hipótese
"t N (0; 1) ou "t t (n) e obter, sob certas condições, estimadores consistentes. Seja
yt = t (yt 1 ; yt 2 ; :::; xt ; xt 1 ; :::; ) + ut
ut = t (ut 1 ; ut 2 ; :::; ) "t "t ?
Suponhamos que a verdadeira mas desconhecida fdp condicional de " é f . O estimador de

máxima verosimilhança
X
n
^n = arg max log f (yt j It ; )
t=1
não pode ser implementado, pois a função f é desconhecida. O estimador de pseudo máxima
verosimilhança usa como pseudo verdadeira fdp a função h (que na generalidade dos casos
é diferente de f ),
X
n
^pmv
n = arg max log h (yt j xt ; :::x1 ; yt 1 ; yt 2 ; :::y1 ; )
t=1
Sob certas condições, mesmo que h 6= f; o estimador de pseudo máxima verosimilhança

apresenta boas propriedades. As condições são:
h pertence à família das densidades exponenciais quadráticas (a normal e a t-Student,

entre muitas outras distribuições, pertencem a esta família);
R
yh (yj It ) dy = t (a média condicional está bem especificada);
R 2 2
(y t) h (yj It ) dy = t (a variância condicional está bem especificada).
Pode-se provar, sob estas condições:
^pmv
n
p
! 0
p
n ^pmv
n 0
d
! N 0; A ( 0 ) 1
B ( 0) A ( 0) 1
309
Se, por acaso, a função h é a própria função f , i.e., f = h, então o estimador de pseudo
máxima verosimilhança é o estimador de máxima verosimilhança e, neste caso, tem-se
1 1 1
A ( 0 ) = B ( 0 ) e, portanto, A ( 0 ) B ( 0) A ( 0) =A ( 0) :
Em suma, mesmo que a distribuição de "t não seja conhecida podemos supor, por exem-
plo, "t N (0; 1) (ou "t D tal que a densidade h satisfaça as condições estabelecidas),
pmv
porque ^n é, ainda assim, um estimador consistente (embora não assimptoticamente efi-
ciente) e tem distribuição assimptótica normal. O único cuidado adicional é tomar como
1 1
matriz de variâncias-covariâncias (assimptótica) a expressão9 A ( 0 ) B ( 0) A ( 0) e
não I ( 0 ) 1 .
8.9.3 Método da Máxima Verosimilhança com Distribuições Não Nor-

mais
No âmbito do método da máxima (ou da pseudo máxima) verosimilhança, normalmente

assume-se "t N (0; 1). Contudo, verifica-se habitualmente que os resíduos estandardiza-
dos, ^" = u^t =^ t apresentam um valor de kurtosis quase sempre acima do valor 3, i.e., k^" > 3.
Este resultado é, até certo ponto, inesperado. O que é habitual é ter-se ku^ > 3. Quando u^t
são ponderados por ^ t seria natural esperar-se uma redução significativa do valor da kurtosis
pois os valores muito altos e muito baixos de u^t serão ponderados por valores altos de ^ t :
Embora ocorra uma redução do valor da estatística de kurtosis quando se passa de u^t para
^"t = u^t =^ t ; normalmente observa-se ainda k^" > 3 (embora k^" < ku^ ). Assim, também a
distribuição condicional ut j Ft 1 (e não só a marginal) é leptocúrtica.
Já vimos uma forma de lidar com este problema: basta tomar o estimador de pseudo
máxima verosimilhança. Uma alternativa consiste em formular uma distribuição leptocúrtica
para "t tal que E ("t ) = 0 e Var ("t ) = 1. É importante assegurar E ("t ) = 0 e Var ("t ) = 1:
2 2 2
Com efeito, suponha-se que Var ("t ) = 6= 1: Vem então Var ( ut j Ft 1 ) = t e deix-
2
amos de poder identificar a variância condicional como t: Vejamos algumas distribuições
habitualmente consideradas na literatura.
Hipótese: "t t-Student(v)

A implementação desta distribuição envolve uma (pequena) dificuldade: se X t-
Student(v) então Var (X) = v= (v 2) : Mas deverá ter-se Var ("t ) = 1 (pois só assim
9
Esta opção no EVIEWS é dada por “heteroskedasticity consistent covariance (Bollerslev-Wooldrige)” no
menu “options” da estimação.
310
2 2
Var ( ut j Ft 1 ) = t - caso contrário ter-se-á Var ( ut j Ft 1 ) = t v= (v 2)). A solução é
simples. Basta reparametrizar a variável:
p 6
"t = X (v 2) =v ) Var ("t ) = 1; k" = kx = 3 +
v 4
Considere-se assim a distribuição t-Student T(0,1) (de média zero e variância 1):
v+1
v+1
1 2 x2 2
g (x) = p v
1+ :
(v 2) 2
v 2
Para aplicar o método da máxima verosimilhança é necessário conhecer-se f (yt j It 1 ) :

Pode-se provar10
0 2
1 v+1
2
yt t
v+1
1 yt t 1 1 2 B t C
f (yt j It ) = g = p v @1 + A :
t t t (v 2) 2
v 2
Pn
Assim, o estimador de máxima verosimilhança é ^n = arg max t=1 lt ( ) ; ( inclui
v) onde
0 2
1 v+1
2
yt t
v+1
1 2 B t C
lt ( ) = log f (yt j It ) = log p v @1 + A
2
t (v 2) 2
v 2
1 2 1 1
= log t log log (v 2)
2 2 2 !
v+1 2
2 v+1 1 (yt t)
+ log v
log 1 + 2
2
2 v 2 t
Hipótese: "t GED (Generalized Error Distribution)
10
Rx
Seja g (x) a fdp de " e G (x) = 1
g (x) dx a respectiva função de distribuição. Qual é a fdp de
yt = t + t "t condicionada a Ft 1 ; sabendo que (1) a fdp de "t é dada pela função g e (2) t e t são
conhecidos dado Ft 1 (ou It )? Trata-se de um problema clássico de mudança de variáveis. Comece-se por
analisar a função de distribuição condicional
y t y t
P ( yt yj Ft 1) =P( t + t "t yj Ft 1) =P "t Ft 1 =G
t t
Logo, a fdp de yt condicionada a Ft 1 é, pelo teorema da derivada da função composta, dada pela expressão
y
dP ( yt yj Ft d t
1) 0 y t t y t 1
f ( yj Ft 1) = =G =g :
dy t y t t
311
2.5
g(x)
2.0
1.5
1.0
0.5
-3 -2 -1 0 1 2 3
x
Figura 8-13: Distribuição GED no caso v = 1=2
Diz-se que "t tem distribuição GED se a sua fdp é dada por
s
1 "t v
v exp 2 2 2=v (1=v)
g ("t ) = (1+1=v) (1=v)
; função Gama, =
2 (3=v)
Pode-se provar E ("t ) = 0 e V ar ("t ) = 1: Se v = 2 ) distribuição normal padronizada, se

v < 2 ) g é leptocúrtica. Na figura 8-13 traça-se a g com v = 1=2:
Considere-se, a título de exemplo, o modelo
yt = 0 + 1 xt + 1 yt 1 + ut
ut = t "t ; "t t (v)

2 2 2 2
t =!+ 1 ut 1 + 1 ut 2 + 1 t 1 + 0 segt + volumet 1
onde segt é uma variável dummy que assume 1 se t corresponde a uma segunda feira. Para
estimar o modelo no EVIEWS, através do método da máxima verosimilhança, basta selec-
cionar “Student’s t” em “Error distribution”. Ver a figura 8.9.3. O output fornece também
uma estimativa para o número de graus de liberdade da distribuição t-Student. Esta estima-
tiva é interessante pois fornece informação sobre o achatamento da distribuição condicional.
8.10 Ensaios Estatísticos

Há basicamente dois momentos de interesse na realização de ensaios estatísticos. Num
primeiro momento, interessa verificar se existe evidência do efeito ARCH. Posteriormente,
depois da estimação, haverá que analisar a adequabilidade do modelo estimado.
312
8.10.1 Ensaios Pré-Estimação
Teste ARCH (teste multiplicador de Lagrange)

Considere-se
yt = t + ut
ut = t"
2 2 2
t = !+ 1 ut 1 + ::: + q ut q .
Existe efeito ARCH se pelo menos um parâmetro i for diferente de zero. Se todos forem
zero, não existe efeito ARCH. Pode-se provar, sob a hipótese H0 : 1 = 2 = ::: = q =0
que
d
nR2 ! 2
(q)
onde R2 é o coeficiente de determinação da regressão de u^2t sobre as variáveis
1 u^2t 1 ::: u^2t q

(8.17)
2
u é o resíduo supondo
(^ t constante). Suponha-se que q é elevado e a hipótese nula é
rejeitada. Então é conveniente considerar o GARCH. Na verdade, pode-se provar que o teste
multiplicador de Lagrange do efeito GARCH baseia-se também na regressão de u^2t sobre as
variáveis u^2t i :
313
Para a realização do teste os passos são:
2
1. Estima-se o modelo yt = t + ut supondo t constante;
2. obtêm-se os resíduos u^t = yt ^ t ; t = 1; :::; n; (resíduos OLS, depois da regressão

OLS de y sobre as variáveis explicativas, ou resíduos ARMA);
3. regressão OLS de u^2t sobre as variáveis definidas em (8.17);
4. obtenção de R2 da equação anterior e cálculo do valor-p
2
P (q) nR2 :
FAC de u^2t
Como se viu, a existência de um processo GARCH implica a correlação das variáveis u2t
e u2t k : O teste Ljung-Box é assimptoticamente equivalente ao teste ARCH. A sua hipótese
nula é H0 : 1 u2t ) = ::: =
(^ m u2t ) = 0; sendo
(^ i u2t ) o coeficiente de autocorrelação entre
(^
u^2t e u^2t i : Sob H0 tem-se
X
m
1 d
Q = n (n + 2) ^2i u^2t ! 2
(m k)
i=1
n i
onde k é o número de parâmetros estimados menos o termo constante. Evidência contra a

hipótese nula sugere a existência de um efeito ARCH.

O programa EVIEWS fornece o valor-p do teste multiplicador de Lagrange. Para obter
esse valor é necessário estimar primeiro o modelo sem efeito ARCH. No exemplo a seguir
(figura 8-14) considerou-se
yt = c + u t 1 + ut :
onde y são os retornos do PSI20 (Jan 93 a Out 04). O modelo foi estimado através da in-
strução y c ma(1). Uma vez estimado o modelo, o programa EVIEWS oferece a opção
“ARCH LM test...” em “view”-“Residual Tests”. A figura 8-14 mostra que o valor-p é zero,
pelo que existe forte evidência contra a hipótese nula; por outras palavras, existe forte ev-
idência da presença de efeito ARCH. O teste Ljung-Box (ver a figura 8-15) corrobora as
conclusões do teste ARCH.
314
ARCH Test:
F-statistic 23.58130 Probability 0.000000

Obs*R-squared 218.9822 Probability 0.000000
Test Equation:
Dependent Variable: RESID^2
C 5.64E-05 8.24E-06 6.840992 0.0000

RESID^2(-1) 0.183900 0.018517 9.931537 0.0000
RESID^2(-2) 0.058698 0.018824 3.118322 0.0018
RESID^2(-3) 0.019230 0.018745 1.025890 0.3050
RESID^2(-4) 0.040301 0.018739 2.150692 0.0316
RESID^2(-5) 0.004380 0.018741 0.233690 0.8152
RESID^2(-6) 0.036872 0.018741 1.967414 0.0492
RESID^2(-7) 0.032363 0.018739 1.727034 0.0843
RESID^2(-8) 0.109910 0.018745 5.863338 0.0000
RESID^2(-9) -0.020103 0.018824 -1.067965 0.2856
RESID^2(-10) 0.029723 0.018517 1.605224 0.1086

Log likelihood 18918.62 F-statistic 23.58130
Figura 8-14: Output do EVIEWS associado ao teste multiplicador de Lagrange H0 : 1 =

2 = ::: = 10 = 0 (o p-value está destacado)
Figura 8-15: FAC de u^2t (e valores-p da estatística Ljung-Box)
315
Existem muitos outros testes para ensaiar efeitos e modelos específicos (ver por exemplo,
Franses e van Dijk, 2000). Estes testes têm como objectivo sugerir a especificação da estru-
2
tura de t e, portanto, são realizados antes da fase da estimação (final) do modelo. Como
alternativa, podemos discutir esses efeitos específicos (por exemplo, efeito assimétrico) na
fase da estimação, a partir dos ensaios habituais de significância e dos critérios SC e AIC.
Por exemplo, suponha-se que se pretende ensaiar a presença do efeito assimétrico. Em
alternativa aos testes apresentados em Franses e van Dijk (2000), pode-se ensaiar a hipótese
1 = 0 (já na fase da estimação) no contexto do modelo

8
< 1 se u <0
2 2 2 2 t 1
t =!+ 1 ut 1 + 1 t 1 + 1 ut 1 Ifut 1 <0g ; Ifut 1 <0g =
: 0 se u 0:
t 1
8.10.2 Ensaios Pós-Estimação
Depois do modelo estimado (pelo método da máxima (ou da pseudo) verosimilhança) há

interesse em testar determinada suposição envolvendo os parâmetros ou em analisar a ade-
quabilidade do modelo. Os três testes assimptóticos, rácio de verosimilhanças, multiplicador
de Lagrange ou teste de Wald, podem naturalmente ser usados. Uma aplicação do teste
multiplicador de Lagrange foi já vista (teste ARCH).
Teste de Wald
O teste de Wald é muito fácil de usar no programa EVIEWS. Veja-se primeiro um esboço
da teoria. Já concluímos que
p d
n ^n 0 ! N (0; V0 ) (8.18)
onde
8
< I( ) 1 = A( ) 1 se ^n é o est. de máxima verosimilhança
0 0
V0 =
: A( ) 1B( )A( ) 1
se ^n é o est. de pseudo máxima verosimilhança
0 0 0
Suponha-se que se pretende ensaiar H0 : R 0 = r onde R é uma matriz de tipo q k

(recorde-se que é um vector coluna de dimensão k) e r é um escalar. Por exemplo, se
316
k = 5 e H0 : 4 +2 5 = 3 tem-se q = 1 e
0 1
1
B C
B C
B 2 C
B C
B C
4 +2 5 =3, 0 0 0 1 2 B 3 C = |{z}
3 :
| {z }B
B
C
C r
R B 4 C
@ A
5
| {z }
Para obter a estatística de teste associada a H0 : R 0 = r considera-se, a partir de (8.18),
p d
n R^n r ! N (0; RV0 R0 )
e, consequentemente11 ,
0 d
1
n R^n r (RV0 R0 ) R^n r ! 2
(q) : (8.19)
O programa EVIEWS permite aplicar de forma muito fácil o teste de Wald. No exemplo
anterior, e depois de estimado o modelo GARCH, bastaria seleccionar “view”-“coefficient
tests”-“Wald” e depois escrever “c(4)+2*c(5)=3”. É possível também ensaiar relações não
lineares entre os parâmetros, como por exemplo, “c(4)^2+c(5)^2=1”.12
Testes individuais (por exemplo, do tipo H0 : 2 = 0) baseiam-se na relação
!
a
^0
V
^n N 0;
n
devido a (8.18) (para n finito mas suficientemente alto, ^n tem distribuição aproximadamente
igual a N ( 0 ; V0 =n)). Assim, para ensaiar, por exemplo, H0 : 2 = 0 considera-se o rácio-t
^n;2
t^n;2 =
se ^n;2
com distribuição N (0; 1) onde se ^n;2 é o erro padrão de ^n;2 (é a raiz quadrada do ele-
11
Note-se que se X é um vector aleatório dimensão q 1 com distribuição N ( ; ) ; então
0 1 2
(x ) (x ) (q) :
12
Neste caso não linear seria necessário adaptar a estatística de teste (8.19). Observe-se que R 0 expressa
uma relação linear.
317
^ 0 =n). O programa EVIEWS fornece automaticamente os rácios-t.
mento (2,2) da matriz V
Testes de Diagnóstico
O modelo em análise é
yt = t + ut ; ut = t "t :
e as hipóteses são E ("t ) = 0; Var ("t ) = 1 (verificam-se sempre, por construção), f"t g é um
processo diferença de martingala ou ruído branco e f"t g é um processo homocedástico.
Nestas circunstância, se o modelo está bem especificado, deve ter-se: f"t g deve ser não
autocorrelacionado e f"t g deve ser condicionalmente homocedástico.
Assim, se
(a) y é, por exemplo, um ARMA e a média condicional não captar esta estrutura, os proces-
sos fut g e f"t g exibirão autocorrelação;
(b) de igual forma, se y segue um GARCH e a variância condicional não captar esta estrutura
"2t = u2t = 2
t exibirá autocorrelação;
(c) finalmente, se " segue uma distribuição leptocúrtica então k^" > 3:
Para analisar (a) e (b), devemos:
1. estimar um modelo ARMAX+GARCH;
2. obter os resíduos u^t ;
3. obter os resíduos estandardizados ^"t = u^t =^ t ;
4. (Análise da questão (a)). Efectuar o teste Ljung-Box tomando como hipótese nula,
H0 : 1 (^"t ) = ::: = m (^"t ) = 0 ( i (^"t ) é o coeficiente de autocorrelação entre ^"t e
^"t i ) e estatística de teste
X
m
1 d
Q = n (n + 2) ^2i (^"t ) ! 2
(m k)
i=1
n i
onde k é o número de parâmetros AR e MA estimados. Evidência contra a hipótese

nula sugere que ^"t é autocorrelacionado. Neste caso é necessário rever a especificação
da média condicional.
318
5. (Análise da questão (b)). Efectuar o teste Ljung-Box tomando como hipótese nula,
H0 : 1 ^"2t = ::: = m ^"2t = 0 ( i ^"2t é o coeficiente de autocorrelação entre ^"2t e
^"2t i ) e estatística de teste
X
m
1 d
Q = n (n + 2) ^2i ^"2t ! 2
(m k)
i=1
n i
onde k é o número de parâmetros estimados (McLeod e Li, 1983, sugere que k pode
ser apenas o número de parâmetros dinâmicos estimados na variância condicional; por
exemplo, 2 no GARCH(1,1)). Evidência contra a hipótese nula sugere que ^"2t é auto-
correlacionado. Neste caso é necessário rever a especificação da variância condicional.
Taylor (2005), p. 258, aponta outros procedimentos alternativos.
Teste Alternativo
Uma forma alternativa de analisar a questão (b) atrás referida consiste em verificar a
presença de efeitos ARCH remanescentes através da especificação (Franses e van Dijk, 2000,
e Lundbergh e Teräsvirta, 2002):
yt = t + ut
ut = t "t
q
2 2
"t = e t 1+ 1 "t 1 + ::: + m "t m
Sob H0 : 1 = 2 = ::: = m = 0 (não existem efeitos ARCH remanescentes), tem-se
d
nR2 ! 2
(m)
onde R2 é o coeficiente de determinação da regressão de ^"2t sobre as variáveis
1 ^"2t 1 ::: ^"2t m x^t
onde
1 @ ^ 2t
x^t =
^t @ 0
@ 2
0 2 2 2
e é o vector de parâmetros especificados em t. Calcule-se @
t
0 no caso t = !+ 1 ut 1 +
319
2
1 t 1: Tem-se
2 2
@ t @ t @ 2t @ 2 @ 2
0
= = t t :
@ @! @ 1 @ 1
@ ! 1 1
@ 20
Suponha-se @!
= 0: Vem
2 2
@ 2t @ t 1 @ t 2
= 1+ 1 =1+ 1 1+ 1 = ::: =
@! @! @!
X
t
1
2 t 1 i 1 t
= 1+ 1 + 1 + ::: + 1 = 1 = 1 1 :
i=1 1 1
Deixa-se como exercício verificar que
@ 2
t Pt i 1 Pt i 1 2 Pt i 1 2
0
= i=1 1 i=1 1 u^t i i=1 1 ^t i :
@
Nota: O programa EVIEWS “esquece o vector x^t ”. Como consequência, o valor da

estatística nR2 apurado no EVIEWS depois da estimação ARCH/GARCH está subestimado
e, assim, a probabilidade P (rejeitar H0j H1 é verdadeira) vem baixa. Tenderemos a concluir
quase sempre que o modelo está bem especificado, mesmo nos casos em que ainda existem
efeitos ARCH remanescentes. No EVIEWS, é bem mais simples considerar o teste Ljung-
Box (aplicado a ^"2t ).
8.11 Previsão
A previsão no contexto do modelo ARCH/GARCH envolve habitualmente a previsão de yt
2
e de t: Todavia, em várias aplicações, como por exemplo, estimação do risco de mercado,
construção de portfolios dinâmicos, valorização de opções, etc., a previsão da volatilidade é
mais importante do que a previsão de yt :
2
Vamos analisar a previsão de yt e de t e estabelecer os respectivos intervalos de con-
fiança (ICs) ou de previsão. Concretamente, temos um modelo do tipo ARMA+GARCH,
baseado em n observações, fy1 ; y2 ; :::; yn g e procura-se,
prever yn+1 ; yn+2 ; :::;
estabelecer ICs para yn+1 ; yn+2 ; :::;
320
2 2
prever n+1 ; n+2 ; :::;
2 2
estabelecer ICs para n+1 ; n+2 ; :::;
8.11.1 Previsão da Variância Condicional
Vimos que o previsor com EQM mínimo para yn+h (dada a informação em Fn ) é E (yn+h j Fn ) :
2
De igual forma, o previsor com EQM mínimo para n+h (dada a informação em Fn ) é (nat-
uralmente)
2
E n+h Fn :
Note-se que E u2n+h Fn = E 2 2

n+h "n+h Fn = E 2
n+h Fn . Para facilitar a notação
2 2
considere-se n+h;n := E n+h Fn : Vejam-se os exemplos seguintes.
2 2
Modelo ARCH(1) t =!+ 1 ut 1
2 2
Como n+1 =!+ 1 un tem-se
2 2 2
n+1;n =E !+ 1 un Fn = ! + 1 un
(na prática, como 2

n+1;n é desconhecido deve considerar-se ^ 2n+1;n = !
^ + ^ 1 u^2n ).
2 2
Como n+2 =!+ 1 un+1 tem-se
2 2
n+2;n = E !+ 1 un+1 Fn
2
= !+ 1 E un+1 Fn
2
= !+ 1 E n+1 Fn
2
= !+ 1 n+1;n
2
Podemos ainda escrever n+2;n como função do valor u2n : Basta substituir na expressão an-
2 2
terior, n+1;n por ! + 1 un : Vem
2 2
n+2;n = !+ 1 n+1;n
2
= !+ 1 !+ 1 un
2
= ! (1 + ) + 1 un
321
2 2
n+h;n = E !+ 1 un+h 1 Fn
2
= !+ 1 E un+h 1 Fn
2
= !+ 1 E n+h 1 Fn
2
= !+ 1 n+h 1;n :
2
Tal como anteriormente, podemos escrever n+h;n como função de u2n : Pode-se provar que
h
2 2 1 1 h 2
n+h;n =!+ 1 n+h 1;n =! + 1 un
1 1
Se 0 1 < 1; conclui-se
2 !
n+h;n ! = Var (ut ) (quando h ! 1).
1 1
O caso 1 = 1 é analisado adiante, no contexto do GARCH.
2 2 2
Modelo GARCH(1,1) t =!+ 1 ut 1 + 1 t 1
2 2 2
Como n+1 =!+ 1 un + 1 n tem-se
2 2 2 2 2
n+1;n =E !+ 1 un + 1 n Fn = ! + 1 un + 1 n
(na prática, como 2

n+1;n é desconhecido deve considerar-se ^ 2n+1;n = !
^ + ^ 1 u^2n + 2
1 ^ n ).

2 2 2
Como n+2 =!+ 1 un+1 + 1 n+1 tem-se
2 2 2
n+2;n = E !+ 1 un+1 + 1 n+1 Fn
2 2
= !+ 1 E un+1 Fn + 1 E n+1 Fn
2
= !+( 1 + 1) n+1;n
322
2 2 2
n+h;n = E !+ 1 un+h 1 + 1 n+h 1 Fn
2 2
= !+ 1 E un+h 1 Fn + 1 E n+h 1 Fn
2
= !+( 1 + 1) n+h 1;n
Um pouco à semelhança do que fizemos para a previsão no ARCH, a expressão
2 2
n+h;n =!+( 1 + 1) n+h 1;n (8.20)
pode ser reescrita, como função de u2n e 2

n: Pode-se provar que a solução da equação (8.20),
2 2 2
sob a condição 0 1 + 1 < 1 (e dada a condição inicial n+1;n =!+ 1 un + 1 n) é
h
! 1 ( 1 + 1)
2 h 1 2 2
n+h;n = +( 1 + 1) 1 un + 1 n :
1 1 1
Assim, no caso 1 + 1 < 1; tem-se
2 !
n+h;n ! = Var (ut ) (quando h ! 1).
1 1 1
No caso 1 + 1 = 1 (IGARCH(1,1)) vem
2 2
n+2;n = !+ n+1;n
2 2 2 2
n+3;n = !+ n+2;n =!+ !+ n+1;n = 2! + n+1;n
:::
2 2
n+h;n = (h 1) ! + n+1;n
e, portanto,
2 2
n+h;n = n+1;n , se ! = 0
2
n+h;n ! 1, se ! > 0 (quando h ! 1).
2
Para além da estimação pontual de n+h;n ; há interesse também em estabelecer ICs. Esta
questão é tratada no ponto 8.11.3.
323
8.11.2 A Previsão da Variável Dependente y
Qualquer que seja o modelo para y; o previsor de yn+h com EQM mínimo, baseia-se, como
vimos, no valor esperado condicionado de y. Assim, a previsão pontual de yn+h não envolve
qualquer novidade face ao que foi já exposto no ponto 6.6. Todavia, a estimação por inter-
valos deve agora reflectir a presença de heterocedasticidade condicional. Seja (l1 ; l2 ) o IC a
(1 ) 100% associado a yn+h ; i.e, l1 e l2 são tais que
P (l1 < yn+h < l2 j Fn ) = 1 ,

!
l1 E (yn+h j Fn ) yn+1 E (yn+h j Fn ) l2 E (yn+h j Fn )
P p < p < p Fn =1 :
Var ( yn+h j Fn ) Var (yn+h j Fn ) Var (yn+h j Fn )
p
Seja Zn+h = (yn+h E (yn+h j Fn )) = Var ( yn+h j Fn ) e q1 =2 o quantil de ordem 1 =2
da distribuição da v.a. Zn+h j Fn : Como também se tem
P q1 =2 < Zn+h < q1 =2 Fn = 1
(supondo que a distribuição de Zj Fn é simétrica) conclui-se
l1 E (yn+h j Fn ) l2 E (yn+h j Fn )
p = q1 =2 ep = q1 =2 :
Var ( yn+h j Fn ) Var (yn+h j Fn )
Resolvendo estas igualdades em ordem a l1 e a l2 ;
p p
l1 = E (yn+h j Fn ) q1 =2 Var (yn+h j Fn ); l2 = E (yn+h j Fn )+q1 =2 Var (yn+h j Fn )
obtém-se o seguinte IC13 a (1 ) 100% para yn+h :
p
E (yn+h j Fn ) q1 =2 Var (yn+h j Fn )
13
Note-se que Var ( yn+h j Fn ) = Var ( en (h)j Fn ) onde en (h) = yn+h E ( yn+h j Fn ) é o erro de previsão
a h passos. Assim, o IC (1 ) 100% pode ser também apresentado da seguinte forma:
p
E ( yn+h j Fn ) q1 =2 Var ( en (h)j Fn ):
324
Por exemplo, assuma-se que yn+h j Fn tem distribuição N (E (yn+h j Fn ) ; Var ( yn+h j Fn ))
e, portanto, Zn+h j Fn N (0; 1). Nestas condições, o IC a 95% para yn+h é
p
E (yn+h j Fn ) 1:96 Var ( yn+h j Fn ):
Infelizmente esta expressão só está correcta para h = 1: O problema é o de que yn+h j Fn

para h > 1 não tem geralmente distribuição normal na presença de efeitos ARCH/GARCH,
mesmo que as inovações "t sejam Gaussianas e, portanto, mesmo que yn+1 j Fn tenha dis-
tribuição normal. No ponto 8.11.3 apresentamos um procedimento de bootstrap que permite
obter IC correctos para yn+h ; com h 1.
Outro caso de interesse é o da previsão de longo prazo. Se o processo é ESO (e ergódico),
2
a previsão de yt e de t no longo prazo, i.e. quando t ! 1 é, respectivamente, E (y) =
limh!1 E (yn+h j Fn ) e Var (y) = limh!1 Var (yn+h j Fn ) (tratam-se afinal dos momentos
marginais da distribuição de y). O IC a (1 ) 100% para a previsão de longo prazo de y é,
desta forma,
p
E (y) 1 =2 Var (y)
onde 1 =2 é o quantil de ordem 1 =2 da distribuição marginal de y. Este quantil pode

ser estimado a partir da distribuição empírica da sucessão de valores observados fy1 ; :::; yn g :
Analise-se nesta secção apenas a previsão a um passo e deixe-se o caso da previsão a
h > 1 passos para o ponto 8.11.3
Exemplo 8.11.1 Considere-se o modelo AR(1)+GARCH(1,1)
yt = c + yt 1 + ut ;
2 2 2
t =!+ 1 ut 1 + 1 t 1:
2
p
Se ut j Ft 1 N (0; t ) então um IC a 95% para yn+1 é E (yn+h j Fn ) 1:96 Var ( yn+h j Fn )
ou seja
p
c + yn 1:96 ! + 2 2
1 un + 1 n:
Modelo de Regressão
Considere-se o modelo de regressão
yt = x0t + ut
325
onde x0t é um vector linha de dimensão k e vector coluna de dimensão k: Supomos que u e
2
X são independentes e ainda que ut j Ft 1 N (0; t): O previsor de yn+1 de EQM mínimo
é
0
E (yn+1 j Fn ; xn+1 ) = xn+1
Por que razão o valor esperado é condicionado também a xn+1 ? A razão é a seguinte: a
previsão de y no momento n + 1 depende de xn+1 ; e, portanto, xn+1 tem de ser conhecido.
Na prática, só em casos muito especiais se conhece xn+1 no momento n (mesmo assim,
podemos estar interessados em prever yn+1 admitindo um dado cenário ou hipótese para
xn+1 ).
Assim, um IC para yn+1 a 95% é
p
x0n+1 1:96 Var ( yn+1 j Fn ) , x0n+1 1:96 n+1;n :
Analise-se agora uma questão que é normalmente descurada no âmbito das séries tempo-
rais (mas não na área da econometria). O intervalo de previsão acima estabelecido assume
que é conhecido. Ao substituirmos pela respectiva estimativa, introduz-se uma nova
fonte de variabilidade, que deve ser incorporada no intervalo de previsão. Para se ter em
conta a variabilidade de ^ ; é necessário obter a distribuição da variável yn+1 x0n+1 ^ : A
representação
yn+1 x0n+1 ^ = x0n+1 + un+1 x0n+1 ^ = un+1 + x0n+1 ^ = en (1)
permite concluir que yn+1 x0n+1 ^ tem distribuição normal de média E (en (1)j Fn ; xn+1 ) =
0 e variância
Var ( en (1)j Fn ; X) = Var x0n+1 ^ + un+1 Fn ; xn+1
= x0n+1 Var ^ Fn ; xn+1 xn+1 + E u2n+1 Fn ; xn+1
= x0n+1 Var ^ xn+1 + 2

n+1;n
(assumindo-se E (un+1 j X) = 0). Considerando (1 ) 100% = 95% tem-se
P (l1 < yn+h < l2 j Fn ) = 0:95 ,

!
l1 x0n+1 ^ yn+1 x0n+1 ^ l2 x0n+1 ^
P p <p <p Fn = 0:95:
Var (en (1)j Fn ; xn+1 ) Var ( en (1)j Fn ; xn+1 ) Var ( en (1)j Fn ; xn+1 )
326
Obtém-se assim o seguinte IC a 95% para yn+1 :
r
x0n+1 ^ 1:96 x0n+1 Var ^ xn+1 + 2
n+1;n : (8.21)
Para amostra grandes podemos continuar a usar a aproximação x0n+1 ^ 1:96^ n dado que
x0n+1 Var ^ xn+1 é aproximadamente proporcional a 1=n e, portanto, tende para zero as-
simptoticamente (por outras palavras, é uma quantidade “pequena” quando comparada com
2
n+1;n ).
8.11.3 Intervalos de Confiança para y e para a Volatilidade baseados

em Boostrap
Vimos até agora as seguintes questões:
intervalos de confiança para yn+1 ;
2
previsão de t para os períodos n + 1; n + 2; :::;
Estas questões são relativamente simples tratar. Já a obtenção de intervalos de confiança

2
para yn+h ; h > 1 e para n+h ; h 1 é problemática, pois não são conhecidas as distribuições
de interesse. Estas questões resolvem-se de forma muito satisfatória recorrendo ao bootstrap.
Para exemplificar considere-se o modelo
8
>
> y = c + yt 1 + ut
>
< t
ut = t "t (8.22)
>
>
>
: 2 = ! + u2 + 2
t t 1 t 1:
onde " tem distribuição desconhecida de média nula e variância um. O algoritmo é o
seguinte:
1. Estimar o modelo (8.22) e obter
u^t
f^"t ; t = 1; :::; ng ; onde ^"t =
^t
!
^ c^
^2 = ; ^=
1 ^ ^ 1 ^
0
^ = c^; ^ ; !
^; ^; ^
327
2. Simular o modelo 8
>
> y = c^ + ^ yt 1 + ut
>
< t
u t = t "t (8.23)
>
>
>
: 2=!
t ^ + û 2 + ^ t 1
2
t 1
com os seguintes valores iniciais: 0

2
= ^ 2 e y0 = ^ : Os valores de "t são retirados
aleatoriamente com reposição do conjunto f^"1 ; :::; ^"n g :
3. Estimar o modelo (8.23) e obter as seguintes previsões:

8
< y ^ + ^ yn+h 1
n+h = c
: ^ 2 =! 2
^ + ^ un+h ^ ^ 2
n+h 1+ n+h 1
0
Note-se que ^ = c^ ; ^ ; !
^ ;^ ;^ é o vector das estimativas obtidas no contexto
do modelo simulado (8.23).
4. Repetir os passos 2 e 3 B vezes. Com este procedimento obtêm-se as seguintes séries:
n o
(1) (2) (B)
yn+j ; yn+j ; :::; yn+j ; j = 1; :::; h;
n o
2 (1) 2 (2) 2 (B)
^ n+j ; ^ n+j ; :::; ^ n+j ; j = 1; :::; h:
5. Um intervalo de previsão a (1 ) 100% para yn+j é
q 2 ; q1 2
n o
(1) (2) (B)
onde q 2 e q1 2
são os quantis empíricos da amostra yn+j ; yn+j ; :::; yn+j :
2
6. Um intervalo de previsão a (1 ) 100% para n+j é
q 2 ; q1 2
n o
2 (1) 2 (2) 2 (B)
onde agora q 2 e q1 2
são os quantis empíricos da amostra ^ n+j ; ^ n+j ; :::; ^ n+j :
Com o passo 3 incorpora-se a variabilidade do estimador de ^ na construção dos ICs (esta

ideia é idêntica à que conduz a considerar o valor x0n+1 Var ^ xn+1 na expressão 8.21).
Para mais pormenores veja-se Pascuala et al. (2006).
328
8.12 Problema dos Erros de Especificação na Média Condi-
cional
Considere o modelo
2 2
yt = t + ut ; E ut Ft 1 = constante
Em aplicações desconhece-se a verdadeira função t: Suponha-se que se propõe (errada-

mente) para a média condicional a especificação mt 6= t. Ou seja propõe-se
yt = mt + vt ;
onde vt é tomada como a v.a. residual. Nestas condições pode existir um efeito ARCH
espúrio.
Para exemplificar, suponha-se que o verdadeiro processo é
2
yt = c + yt 1 + ut ; ut RB Gaussiano N 0;
Por erro de especificação supõe-se mt = c. Nestas condições existe um efeito ARCH es-
púrio. O modelo considerado (erradamente) é
yt = c + vt ; vt = yt 1 + ut
onde vt é tomada como a v.a. residual. Ora
vt2 = ( yt 1 + ut )2 = 2 2
yt 1 + u2t + 2 yt 1 ut
= 2
(c + vt 1 )2 + u2t + 2 yt 1 ut
2 2 2 2 2
= c + 2cvt 1 + vt 1 + u2t + 2 yt 1 ut :
Tomando o valor esperado condicional e reagrupando os termos vem:
2 2 2
E vt Ft 1 = c1 + c2 vt 1 + vt 1 :
Significa que vt exibe um efeito do tipo ARCH, apesar do modelo inicial ser condicional-
mente homocedástico.
329
Considere-se agora um caso mais geral.
Modelo Verdadeiro : yt = t + ut ;
Modelo Especificado Incorrectamente : yt = mt + vt ;
com mt 6= t. Tem-se vt = t mt +ut : Como t e mt pertencem a Ft 1 e E (ut j Ft 1 ) = 0

vem
2
E vt Ft 1 = E ( t mt + ut )2 Ft 1
= E ( t mt )2 + 2 ( t mt ) ut + u2t Ft 1
= E ( t mt )2 Ft 1 + E u2t Ft 1 :
Se E (u2t j Ft 1 ) = 2
então a variância condicional de vt ; E (vt2 j Ft 1 ), não é con-
stante, pois E ( t mt )2 Ft 1 não é constante.
Se E (u2t j Ft 1 ) = 2
t então a variância condicional associada ao modelo incorrecto
2
yt = mt + vt será superior à verdadeira variância condicional t: Com efeito,
2
E vt Ft 1 =E ( t mt )2 Ft 1 + 2
t:
A conclusão deste ponto é óbvia: é importante especificar bem a média condicional.
Como nota final registe-se que, na prática, a média condicional que especificamos é
E yt j Ft 1 onde Ft 1 é o “nosso” conjunto de informação, necessariamente limitado, e
não o conjunto de todos os acontecimentos ! 2 que geram y no momento t 1: Como
resultado a média condicional que especificamente envolve quase sempre erros de especifi-
cação. A existência do efeito ARCH pode dever-se ou acentua-se na presença desses erros
de especificação. É interessante observar Engle (1982): “the ARCH regression model is an
approximation to a more complex regression which has no-ARCH disturbances. The ARCH
specification might then picking up the effect of variables omitted from the estimated model.
The existence of an ARCH effect would be interpreted as evidence of misspecification”.
330
8.13 Modelos Não Lineares na Média combinados com o
GARCH
8.13.1 Modelo Limiar Autoregressivo com Heterocedasticidade Condi-

cionada
O modelo TAR tal como foi apresentado na secção 7.3 não é apropriado para séries tem-
porais financeiras, pois assume que a variância condicional é constante ao longo do tempo.
Podemos, no entanto, generalizar o TAR de forma a acomodar heterocedasticidade condi-
cionada. Se admitirmos o caso mais geral em que o padrão de heterocedasticidade se dis-
tingue consoante o regime, o modelo a considerar, com dois regimes e um desfasamento
(veja-se Gospodinov, 2005) é
yt = ( 10 + 11 yt 1 ) Ifqt d g +( 20 + 21 yt 1 ) Ifqt d> g + ut : (8.24)
onde ut = t "t e f"t g é uma sucessão de v.a. i.i.d. de média zero e variância um e
2 2 2 2 2
t = !1 + 1 ut 1 + 1 t 1 Ifqt d g + !2 + 2 ut 1 + 2 t 1 Ifqt d> g: (8.25)
Aborda-se a seguir a estimação do modelo. Suponha-se que " é um ruído branco Gaussiano.
Assim,
2
yt j Ft 1 N t; t
2
onde t =( 10 + 11 yt 1 ) Ifqt d g +( 20 + 21 yt 1 ) Ifqt d> g e t é dado pela equação
(8.25). Seja o vector de todos parâmetros do modelo com excepção de :A função log-
verosimilhança vem
X
n
log Ln ( ; ) = log f (yt j Ft 1 ; ; )
t=1
1 1 1
log f (yt j It ; ; ) = log (2 ) log 2
t ( ; ) 2
(yt t ( ; ))2 :
2 2 2 t ( ; )
Pn
O problema de optimização max t=1 log f (yt j Ft 1 ; ; ) não é standard, pois a derivada
de log Ln ( ; ) em ordem a não existe. O princípio do método de máxima verosimilhança
mantém-se, todavia: é necessário maximizar a função em ordem aos parâmetros. A esti-
mação dos parâmetros processa-se da seguinte forma:
331
Parâmetro Estimativa Erro Padrão
c 0.0478 0.0075
0.2332 0.0112
! 0.0118 0.0015
0.1111 0.0073
0.8812 0.0074
Log-Veros.= 11439:3
Tabela 8.2: Resultados da estimação do modelo AR+GARCH
1. Escolha-se um valor para no conjunto ~ (sobre o conjunto ~ veja-se o ponto 7.3.5).

Seja esse valor.
2. Resolva-se o problema de optimização max log Ln ( ; ) em ordem a ; seja ^n ( )

o valor que maximiza Ln ( ; ) (dado ), i.e., ^n ( ) = arg max log Ln ( ; ):
3. Registe-se o valor de log Ln ^n ( ) ; :
4. Repitam-se os passos 1-3 até se exaurir o conjunto ~ :
5. A estimativa para é aquela que maximiza a função de verosimilhança; seja ^ n esse

valor.
6. A estimativa para é, naturalmente, ^n (^ n ) :
Exemplo 8.13.1 Considere o retorno diário em percentagem, yt = 100 log (Pt =Pt 1 ),
associados ao índice NASDAQ, no período 5-02-1971 a 13-10-2006 (9006 observações).
Na tabela 8.2 apresentam-se os resultados da estimação do modelo AR(1)+GARCH(1,1).
De seguida, estimou-se o modelo SETAR (8.24)-(8.25), com qt d = yt 1 : Seguiram-se
os seis passos do procedimento descrito atrás. Obteve-se ^ n = 0:356 (trata-se do valor
que maximiza a função de log-verosimilhança log Ln ( ; )): A figura 8-16 mostra o valor
de log Ln como função de (observe-se que ^ n = 0:356 maximiza log Ln ). Para o valor
^ n estimado, obtiveram-se os resultados que constam da tabela 8.3. O primeiro regime mod-
ela os retornos quando estes estão em queda, mais precisamente, quando o retorno anterior
é inferior a 0:356%: A média marginal deste regime é :1718= (1 :0563) = :182%.
Tendo em conta este valor, há tendência para o processo sair do regime 1, mantendo, ainda
assim, uma rendibilidade negativa. Talvez o dado mais significativo é a forte persistência
da volatilidade neste regime, associada a valores altos de volatilidade (w1 > w2 ). Este
resultado está de acordo com os factos estilizados habitualmente observados em dados fi-
nanceiros, segundo os quais, a volatilidade tende a ser superior quando as cotações estão
332
Figura 8-16: Valor da máximo da função log-Verosimilhança como função do parâmetro :
Estimativa de : 0:358316
Parâmetro Estimativa Erro Padrão

10 -0.1718 0.0312
11 0.0563 0.0310
!1 0.0233 0.0075
1 0.0982 0.0097
1 0.9776 0.0152
20 0.0426 0.0099
21 0.2384 0.0177
!2 0.0175 0.0024
2 0.0733 0.0073
2 0.8575 0.0093
Log-Veros.= 11344:5
Tabela 8.3: Resultados da estimação do modelo SETAR+GARCH
a descer. A volatilidade associada ao regime 1 pode ser identificada como a “má volatili-
dade”, i.e., aquela que está ligada à queda dos preços.
8.13.2 Modelo Markov-Switching com Heterocedasticidade Condicionada
Vimos na secção 7.4 que a separação das dinâmicas do processo em estudo em dois ou mais
regimes permite, na maior parte dos casos, obter diferentes valores para i (veja-se o mod-
elo (7.25)). Significa isto que os erros são heterocedásticos. No entanto, é possível ir um
pouco mais longe se admitirmos, mesmo em cada regime, erros heterocedásticos. Em séries
financeiras, o modelo (7.25) pode mostrar-se insuficiente para modelar a volatilidade típica
333
das séries financeiras. O caminho está assim indicado: é necessário admitir, em cada regime,
uma especificação dinâmica para a volatilidade. Entendeu-se inicialmente (e.g. Hamilton)
que os modelos Markov-switching com efeitos GARCH eram intratáveis e impossíveis de
serem estimados, devido à dependência da variância condicional de toda a trajectória passada
(em última análise, a estrutura que se admitia para um Markov-Switching com N regimes
obrigaria posteriormente a expandir o número de regimes para N n sendo n o número de
observações). Gray (1996) propôs um modelo que resolve a dependência da variância condi-
cional de toda a trajectória passada.
O modelo MS+GARCH com dois regimes é
8
< c +
1 1 yt 1 + 1t "t se St = 1
yt =
: c +
2 2 yt 2 + 2t "t se St = 2
onde it seguem a representação sugerida por Gray(1996),
2 2 2
it = !i + i ut 1 + t 1; (8.26)
sendo
2
ut = yt E (yt j Ft 1 ) ; t = Var (yt j Ft 1 ) :
Pode mostrar-se que o problema da “dependência da variância condicional” surge quando se

2 2
define it como função de ui;t 1 (erro no período t 1 associado ao regime i) e de i;t 1 . A
2 2
especificação (8.26) evita esse problema; observe-se que it depende ut 1 e t 1:
Momentos de y
Determinem-se os momentos do processo. Seja it = E (yt j Ft 1 ; St = i) : No contexto
do modelo (7.25) tem-se:
E (yt j Ft 1 ; St = 1) = c1 + 1 yt 1 ; E (yt j Ft 1 ; St = 2) = c2 + 2 yt 1 :
334
Tem-se
t = E (yt j Ft 1 )
= E (yt j Ft 1 ; St = 1) P (St = 1j Ft 1 )
+ E (yt j Ft 1 ; St = 2) P (St = 2j Ft 1 )
= 1t p1t + 2t p1t :
E (yt j Ft 1 ) é, portanto, a média ponderada dos valores esperados condicionais dos regimes
1 e 2. Por outro lado,
2
t = Var ( yt j Ft 1 ) = E yt2 Ft 1 (E (yt j Ft 1 ))2
= E yt2 Ft 1 ; St = 2 P (St = 1j Ft 1 )
+ E yt2 Ft 1 ; St = 2 P (St = 2j Ft 1 ) 2
t
2 2 2 2 2
= 1t + 1t p1t + 2t + 2t p2t t:
8.A Estabilidade de EDF e a Estacionaridade (Caso mod-

elo ARCH)
Apresenta-se uma abordagem alternativa para analisar a ESO. A ideia é tomar, num primeiro
passo, os valores esperados marginais como função de t; e verificar depois em que condições
esses valores esperados não dependem de t: Considere-se o ARCH(1). Como se sabe neste
caso tem-se
2
E ut = ! + 1E u2t 1 ; i.e.
| {z } | {z }
t t 1
t = !+ 1 t 1
O ponto fixo da equação às diferenças finitas (EDF)14 , t =!+ 1 t 1; é
!
:
1 1
14
Ver a definição de ponto fixo na secção 7.2.
335
!
Este ponto é assimptoticamente estável se j 1j < 1; além disso, se a condição inicial é 1 1
! !
então t = 1 1
; 8t. Quando a condição inicial é 0 6= 1 1
pode-se provar que a solução da
EDF t =!+ 1 t 1 é
t
(1 1) t
t =! + 1 0 (Solução)
1 1
Se j 1j <1)
t
(1 1) t !
t =! + 1 0 !
1 1 1 1
!
Se a condição inicial não é igual à solução de longo prazo, 1 1
; o processo ut é “assimptot-
icamente estacionário” (ou ESO se o processo teve início num passado remoto). Em suma,
se 1 < 1 (por hipótese 1 0) (e a condição inicial for != (1 1 )) então
2 !
E ut = , 8t
1 1
e o processo ut é ESO.
2 2 2
No caso ARCH(2), tem-se t =!+ 1 ut 1 + 2 ut 2 ; ! > 0; 1 0; 2 0: Assim,
Var (ut ) = E u2t = E 2

t
2 2 2 2
= E !+ 1 ut 1 + 2 ut 2 =!+ 1 E ut 1 + 2 E ut 2
Donde
2
E ut = ! + 1E u2t 1 + 2E u2t 2 ; i.e.
| {z } | {z } | {z }
t t 1 t 2
t =!+ 1 t 1 + 2 t 2
2
1 1L 2L t =!
2
Pode-se provar que t converge se as raízes de (1 1L 2L ) estiverem fora do circulo
unitário, i.e.,
1 + 2 < 1; 2 1 < 1; 1< 2 < 1:
Como 1 0; 2 0; a única condição que precisamos de verificar é 1 + 2 < 1:
336
!
Nestas condições, se 0 = 1 ( 1+ 2)
e 1 + 2 < 1 o processo u é ESO e
2 2 2 2 !
E ut = ! + 1 E ut + 2 E ut ) E ut = :
1 ( 1 + 2)
337
Página em branco
338
Capítulo 9
Modelação da Heterocedasticidade
Condicionada - Caso Multivariado
9.1 Introdução
Vimos no ponto 3.2.6 que muitas séries financeiras (por exemplo, índices bolsistas ou co-
tações de acções) apresentam co-movimentos de rendibilidade e volatilidade, isto é, quando
a rendibilidade e a volatilidade de uma série aumenta (diminui), a rendibilidade e a volatili-
dade das outras tende, em geral, a aumentar (diminuir).
A estimação destes co-movimentos de rendibilidade e volatilidade deve ser naturalmente
feita no quadro da estimação multivariada (por multivariada entendemos várias equações).
Esta análise é relevante, por exemplo, no âmbito da selecção de portfolios, da gestão do risco,
etc. Permite também discutir questões do tipo:
como se transmite a volatilidade de um mercado aos demais mercados? qual a magni-

tude do impacto da volatilidade de um mercado sobre outro?
os mercados “globais” influenciam a volatilidade de outros mercados (regionais ou

nacionais) sem serem por eles influenciados (“contagiados”)?
A volatilidade de um activo transmite-se a outro directamente (através da sua variância

condicional) ou indirectamente (através das covariâncias condicionais)?
339
Como se comportam as correlações condicionais? São variáveis ao longo do tempo?
Tendem a aumentar ou a diminuir em períodos de alta volatilidade e instabilidade dos
mercados?
Para tratar estas questões vai considerar-se um modelo genérico, envolvendo m equações:
y1t = 1t + u1t ;
:::
ymt = mt + umt
onde it := E (yit j Ft 1 ) para i = 1; :::; m: Para usarmos uma notação mais compacta,
definam-se os seguintes vectores-coluna m dimensionais:
0 1 0 1 0 1
y1t 1t u1t
B C B C B C
B . C B .. C B . C
yt = B .. C ; t =B . C; ut = B .. C :
@ A @ A @ A
ymt mt umt
De forma compacta, o modelo pode representar-se na forma
yt = t + ut :
A média condicional t não é aqui relevante, mas pode supor-se que yt é bem mode-
lado por um VARMA (vector ARMA, ou mesmo vector ARMAX). Tem-se um modelo de
heterocedasticidade condicional multivariado se ut é um processo multiplicativo do tipo,
1=2
ut = Ht "t
onde "t é um vector de v.a. i.i.d. (condicionalmente homocedástico) tal que
E ("t ) = 0; Var ("t ) = Im (matriz identidade de ordem m)
e Ht é uma matriz quadrada de ordem m; simétrica, definida positiva e Ft 1 mensurável

1=2
(Ft é a -algebra gerada por (yt ; yt 1 ; ::)). A notação Ht merece alguns comentários. A
1=2
menos que Ht seja uma matriz diagonal, Ht não representa naturalmente a raiz quadrada
0
1=2 1=2 1=2
dos elementos de Ht . Ht é uma matriz quadrada ordem m tal que Ht Ht = Ht : A
1=2
matriz Ht pode ser obtida utilizando a factorização de Cholesky.
340
Dadas as hipóteses, tem-se
Var (yt j Ft 1 ) = Var (ut j Ft 1 ) = E (ut u0t j Ft 1 )

0
1=2 1=2
= Ht Var ("t j Ft 1 ) Ht = Ht :
| {z }
Var("t )=Im
9.2 Densidade e Verosimilhança

Para simplificar a exposição assuma-se normalidade dos erros: "t N (0; Im ) : Nestas
circunstâncias, tem-se a seguinte relação:
"t N (0; Im ) ) ut j Ft 1 N (0; Ht ) ) yt j Ft 1 N( t ; Ht ) :
Assim, a densidade conjunta condicional de yt é
m=2 1=2 1 0
f (yt j Ft 1 ) = (2 ) jHt j exp (yt t) Ht 1 (yt t) :
2
A função log-verosimilhança é então
X
n
log Ln ( ) = log f (yt j Ft 1 )
t=1
1X 1X
n n
nm 0
= log (2 ) log jHt j (yt t) Ht 1 (yt t)
2 2 t=1 2 t=1
1X
n
nm
= log (2 ) log jHt ( )j (9.1)
2 2 t=1
1X
n
(yt t ( ))0 Ht 1 ( ) (yt t ( ))
2 t=1
(a última equação destaca a dependência face a ). No caso univariado (i.e. m = 1), vem
2
Ht = t e log f (yt j Ft 1 ) é dada pela equação (8.16).
Nesta fase é necessário definir uma hipótese sobre a estrutura de t e de Ht . A média
condicional t pode ser definida através de um VAR(1) (vector autoregressivo) ou VARMA(1,1)
(vector ARMA), etc. Não abordaremos aqui a especificação da média condicional. Neste
capítulo estamos interessados sobretudo na especificação de Ht : Nos pontos seguintes dis-
cutiremos possíveis especificação para Ht .
341
9.3 Modelo VECH (ou VEC)
É necessário, em primeiro lugar, introduzir o operador vech : Considere-se, por exemplo,
0 1
a11 a12 a13
B C
B C
A = B a21 a22 a23 C:
@ A
a31 a32 a33
O operador vech selecciona os elementos abaixo da diagonal principal (elementos dentro dos
quadrados) e passa-os para um vector-coluna:
0 1
a11
B C
B C
B a21 C
B C
B C
B a22 C
vech (A) = B
B
C:
C
B a31 C
B C
B C
B a32 C
@ A
a33
Obviamente que não se perde informação com esta operação se A é uma matriz (real)
simétrica, hipótese que doravante se assume, sempre que se empregar tal operador.
O modelo VECH (ou VEC) (Engle e Kroner, 1995) propõe uma estrutura GARCH(p,q)
multivariada. No caso GARCH(1,1), a matriz Ht é tal que
vech (Ht ) = w + A1 vech ut 1 u0t 1 + B1 vech (Ht 1 ) : (9.2)
No caso m = 2 (processo bivariado) e GARCH(1,1) a expressão (9.2) toma a forma

0 1 0 1 0 10 1
h w u21;t 1
B 11;t C B 11 C B 11 12 13
CB C
B C B C B CB C
vech (Ht ) = B h12;t C = B w12 C+B 21 22 23 C B u1;t 1 u2;t 1 C
@ A @ A @ A@ A
h22;t w22 31 32 33 u22;t 1
0 10 1
h
B 11 12 13 C B 11;t 1
C
B CB C
+B 21 22 23 C B h12;t 1 C
@ A@ A
31 32 33 h22;t 1
2 2
(h11;t := 1t ; ht;22 := 2t ; h12;t := t12 ). Note-se, por exemplo, que a covariância condi-
342
cionada h12;t := E (u1t u2t j Ft 1 ) é igual a
2 2
w12 + 21 u1;t 1 + 23 u2;t 1 + 22 u1;t 1 u2;t 1 + 21 h11;t 1 + 22 h12;t 1 + 23 h22;t 1 (9.3)
Como subproduto do método, obtêm-se as correlações condicionais entre os retornos1
hij;t
ij;t =p ; i; j = 1; :::; m:
hii;t hjj;t
A condição de ESO no caso GARCH(1,1) é a seguinte: fut g é ESO se todos os valores

próprios de A1 + B1 forem em módulo menores do que um (i.e., sse as raízes em de
jA1 +B1 Ij forem em módulo menores do que um)2 . Nestas condições:
0 1
E (vech (ut ut )) = E (vech (Ht )) = (I A1 B1 ) w:
A principal vantagem do modelo VEC é a sua grande flexibilidade, pois permite que
todos os elementos de Ht dependam de todos os produtos cruzados de vech ut 1 u0t 1 e de
todos os elementos de Ht 1 : No entanto, as suas desvantagens superam largamente as suas
vantagens. As duas principais desvantagens do modelo VEC são as seguintes:
O número de parâmetros a estimar é excessivamente alto. No GARCH(1,1) multivari-

ado com m equações, o número de parâmetros a estimar é (m (m + 1) =2) (1 + (m (m + 1)))
(veja-se a tabela 9.1)3 .
Por definição a matriz Ht deve ser definida positiva, mas não é fácil garantir isso a
partir das matrizes A e B. Se Ht não é definida positiva, é possível, por exemplo, obter
1
É indiferente identicar ij;t como as correlações condicionais entre os retornos ou entre os erros, pois,
por definição, ij;t = Corr ( yit ; yjt j Ft 1 ) = Corr ( uit ; ujt j Ft 1 ) : Já as correlações marginais não são
necessariamente iguais, isto é, em geral, tem-se Corr (yit ; yjt ) 6= Corr (uit ; ujt ).
2
Com efeito, pode-se provar que
t 1 t
E ( vech (Ht )j F0 ) = I+ (A1 + B1 ) + ::: + (A1 + B1 ) w+ (A1 + B1 ) vech (H1 )
t
sendo vech (H1 ) 2 F0 ). Se (A1 + B1 ) ! 0 (quando t ! 1) então E ( vech (Ht )j F0 ) converge para o
1 t
momento estacionário E (vech (Ht )) = (I (A1 +B1 )) : Ora, (A1 + B1 ) ! 0 sse os valores próprios de
A1 + B1 são em módulo menores do que 1.
3
Com efeito, note-se que A1 e B1 são matrizes quadradas de ordem m (m + 1) =2 e o vector w possui
2
m (m + 1) =2 elementos. Assim, o número total de elementos a estimar é 2 (m (m + 1) =2) +m (m + 1) =2 =
(m (m + 1) =2) (1 + (m (m + 1))) :
343
m (m (m + 1) =2) (1 + (m (m + 1)))
2 21
3 78
4 210
Tabela 9.1: Número de parâmetros a estimar no VEC
coeficientes de correlação superiores a um e/ou variâncias negativas (i.e. ij;t > 1 ou

ht;ii < 0).
Estas duas desvantagens acabam por limitar, de facto, a aplicação do modelo. Mesmo no
caso m = 2 têm-se 21 parâmetros (tabela 9.1). Estimar 21 parâmetros usando o OLS é fácil
(desde que o número de graus de liberdade assim o permita). Mas estimar 21 parâmetros
maximizando a função log-verosimilhança (9.1) é extremamente difícil. Frequentemente,
implementa-se o modelo VEC impondo várias restrições de nulidade sobre A1 e B1 , como
podemos ver no exemplo seguinte.
Exemplo 9.3.1 Existem efeitos de rendimento e de volatilidade do PSI20 que possam ser
antecipados através do Dow Jones (DJ)? Seja y1t e y2t o retorno diário associado, respec-
tivamente, aos índices, PSI20 e DJ. Para reduzir o número de parâmetros a estimar, as var-
iáveis y1t e y2t foram previamente centradas (e, como consequência, os termos constantes
das equações foram eliminados). Depois de vários ensaios, definiu-se o seguinte modelo
0 1 0 10 1
y1t 11 12 y1;t 1
@ A=@ A@ A + H1=2 "t
y2t 0 22 y2;t 1
onde
0 1 0 1 0 10 1
h 0 0 13 u21;t 1
B 11;t C B C B 11 CB C
B C B C B CB C
vech (Ht ) = B h12;t C = B 0 C + B 0 0 0 CB u1;t 1 u2;t 1 C
@ A @ A @ A@ A
h22;t w22 0 0 33 u22;t 1
0 10 1 0 1
0 0 h volt 1
B 11 C B 11;t 1 C B C
B CB C B C
+B 0 0 0 C B h12;t 1 C + B 0 C
@ A@ A @ A
0 0 33 h22;t 1 0
(vol é uma medida do volume de transacções do mercado português). Todas as matrizes

quadradas são triangulares superiores, porque se assume que o DJ influencia o PSI20 e
não existem efeitos de feedback (o PSI20 não influencia o DJ). Usando os dados no período
344
31/12/92 a 15/03/99 (1496 observações) obteve-se,
y^1t = :2343y1t 1 + :1430y2t 1 ; y^2t = :0753y2t 1

(:028) (:023) (:023)
^ 1t = :3132u^2
h + :0466u^22t ^ 1t
+ :6053h 1 + :0254volt 1
1t 1 1
(:0466) (:0151) (:0459) (:0062)
^ 2t = 1:25
h 10 6
+ :0903u^22t ^ 2t 1 ;
+ :897 h h12;t = 0:
1
(5:2 10 7) (:0195) (:0227)
Assim, 0 1 0 1
:3132 0 :0466 :6053 0 0
B C B C
^1 = B
A B 0 0 0
C
C; ^1 = B
B B 0 0 0
C
C
@ A @ A
0 0 :0903 0 0 :897
^1 + B
Os valores próprios (estimados) da matriz A ^ 1 são f0:987; 0:918; 0g : Conclui-se: (1)
O comportamento do índice DJ afecta significativamente o comportamento do PSI20, quer

em termos de rendimento quer em termos de volatilidade; (2) ganhos do DJ afectam favo-
ravelmente o PSI20; (3) aumentos ou diminuições de volatilidade do DJ afectam no mesmo
sentido o PSI20; (4) os valores próprios respeitam a condição de ESO (note-se, todavia, que
estão sujeitos a variabilidade amostral). As conclusões (1)-(3) são válidas, naturalmente,
no muito curto prazo (um, dois dias). As possibilidades de ganho são muito reduzidas,
pois grande parte das variações dos índices não são explicadas (alta volatilidade). Como
nota final registe-se que a hipótese h12;t = 0 não é realísta, pois implica que as correlações
condicionais são zero. Ora a literatura mostra que as correlações condicionais entre índices
bolsistas é quase sempre significativa.
345
9.4 Modelo Diagonal VECH
Podem obter-se modelos VECH com menos parâmetros impondo que as matrizes A1 e B1
sejam diagonais. Por exemplo, no caso m = 2; vem
0 1 0 1 0 10 1
h w 0 0 u21;t 1
B 11;t C B 11 C B 11 CB C
B C B C B CB C
vech (Ht ) = B h12;t C = B w12 C+B 0 22 0 C B u1;t 1 u2;t 1 C
@ A @ A @ A@ A
h22;t w22 0 0 33 u22;t 1
0 10 1
0 0 h
B 11 C B 11;t 1 C
B CB C
+B 0 22 0 C B h12;t 1 C
@ A@ A
0 0 33 h22;t 1
(este princípio aplica-se naturalmente no caso de modelos multivariados GARCH(p,q)).

Com matrizes A1 e B1 diagonais pode optar por escrever o modelo diagonal VECH na
forma equivalente
Ht = ! + a1 ut 1 u0t 1 + b1 Ht 1
onde !, a1 e b1 são matrizes simétricas de tipo m m e “ ” é o produto de Hadamard4 . Por

exemplo, no caso m = 2; o modelo anterior escreve-se
0 1 0 1 0 1 0 1
h11;t h12;t w11 w12 a11 a12 u21;t 1 u1;t 1 u2;t 1
@ A = @ A+@ A @ A+
h12;t h22;t w12 w22 a12 a22 u1;t 1 u2;t 1 u22;t 1
0 1 0 1
b b h h
@ 11 12 A @ 11;t 1 12;t 1
A
b12 b22 h12;t 1 h22;t 1
onde a11 = 11 ; a12 = 22 ; a22 = 33 , etc. Note-se, portanto, que
h11;t = ! 11 + a11 u21;t 1 + b11 h11;t 1
h12;t = ! 12 + a12 u1;t 1 u2;t 1 + b12 h12;t 1
h22;t = ! 22 + a22 u22;t 1 + b22 h22;t 1 :
4
Dadas duas matrizes A = (aij )m m e B = (bij )m m ; o produto Hadamard define-se como A
B = (aij bij )m m . Por exemplo,
1 2 5 6 5 12
= :
3 4 7 8 21 32
346
A vantagem do modelo em análise face ao modelo VECH é a de reduzir o número de
parâmetros a estimar. Num modelo multivariado GARCH(1,1) com m equações, o número
total de parâmetros a estimar no modelo Diagonal VECH é de apenas 3m (m + 1) =2: To-
davia há uma desvantagem face ao VECH. Para ilustrar este ponto considere-se o caso
m = 2. No modelo Diagonal VECH é fácil verificar que hii;t só depende dos termos u2i;t 1
e hii;t 1 ; e h12;t só depende dos termos u1;t 1 u2;t 1 e h12;t 1 . Desta forma, a especificação
Diagonal VECH elimina a possibilidade de interacção entre as diferentes variâncias e co-
variâncias condicionais. Por outro lado, a matriz Ht ; por construção, não resulta definida
positiva. Há várias formas de ultrapassar este último problema no âmbito da especificação
Diagonal VECH. Uma possibilidade consiste em reespecificar o modelo na forma
0
Ht = ! ! 1 )0 + ~
~ 1 (~ a1 )0 ut 1 u0t
a1 (~ 1
~1 b
+b ~1 Ht 1
0
com ! = ! ! 1 )0 , a1 = ~
~ 1 (~ a1 )0 e b1 = b
a1 (~ ~1 b
~1 e!
~ 1, ~ ~ 1 são matrizes quadradas
a1 e b
de ordem m: As matrizes !; a1 e b1 assim construídas implicam uma matriz Ht definida
positiva. Esta forma de definir o modelo resulta claro com o seguinte exemplo univariado.
Suponha-se que os parâmetros 0 e 1 do modelo yt = 0 + 1 xt + ut têm de ser positivos.
Podemos impor essa restrição estimando yt = ~2 +

2
~ xt + ut e assumindo que ~2
0 1 0 = 0
2
e 1 = ~ 1 : Desta forma 0 e 1 vêm sempre positivos quaisquer que sejam os valores de
~ 0 e ~ 1 : Em termos matriciais, o produto ~ a1 )0 resulta sempre numa matriz semidefinida
a1 (~
positiva, e o produto de Hadamard ~ a1 )0
a1 (~ ut 1 u0t 1 = diag (ut 1 ) ~ a1 )0 diag (ut 1 ) é,
a1 (~
por definição, uma matriz semidefinida positiva (ou definida positiva se ~
a1 tiver característica
m). Várias versões deste modelo são estimadas pelo software EVIEWS 6.
Um modelo ainda mais restritivo (mas que é usado com algum sucesso na modelação
de sistemas com muitas equações) foi desenvolvido pela J.P. Morgan (1996). Basicamente
usa o princípio exponentially weighted moving average (EWMA) para captar a dinâmica das
variâncias e covariâncias condicionais,
hij;t = (1 ) ui;t 1 uj;t 1 + hij;t 1 :
347
O modelo EWMA, no caso m = 2; tem a seguinte representação VECH:
0 1 0 10 1 0 10 1
h 1 0 0 u21;t 1 0 0 h
B 11;t C B CB C B C B 11;t 1
C
B C B CB C B CB C
B h12;t C=B 0 1 0 C B u1;t 1 u2;t 1 C+B 0 0 C B h12;t 1 C:
@ A @ A@ A @ A@ A
h22;t 0 0 1 u22;t 1 0 0 h22;t 1
Existe uma redução dramática do número de parâmetros a estimar (passamos para apenas 1,
qualquer que seja o número de equações do modelo).
9.5 Modelo BEKK

O modelo BEKK (devido a Baba, Engle, Kroner e Kraft; veja-se Engle et al. 1993) assegura
por construção que Ht é definida positiva. No caso mais simples BEEK(1,1), a matriz de
variâncias-covariâncias condicionais é igual a
Ht = W + A01 ut 1 u0t 1 A1 + B01 Ht 1 B1
onde W; A1 e B1 são matrizes de tipo m m; com W simétrica e definida positiva. Ht é

definida positiva por construção pois W é definida positiva e os demais termos estão expres-
sos como formas quadráticas definidas positivas. No caso m = 2 tem-se
0 1
w11 w12
Ht = @ A+
w12 w22
0 10 0 10 1
11 12 u21;t 1 u1;t 1 u2;t 1 11 12
@ A @ A@ A
21 22 u1;t 1 u2;t 1 u22;t 1 21 22
0 10 0 10 1
h h
+@
11 12
A @ 11;t 1 12;t 1
A@ 11 12
A:
21 22 h12;t 1 h22;t 1 21 22
Depois de algumas contas, pode-se concluir, por exemplo, que:
2 2 2
h11;t = w11 + 11 u1;t 1 + 12 21 u2;t 1
+ 11 12 u1;t 1 u2;t 1 + 11 21 u1;t 1 u2;t 1
2
+ 11 h11;t 1 + 11 12 h12;t 1 + 11 21 h12;t 1 + 12 21 h22;t 1 :
348
Figura 9-1: Simulação do modelo BEKK (m = 2).
Com o modelo BEKK há ainda uma redução de número de parâmetros a estimar: passam
agora a existir (m + 5m2 ) =2: Na figura seguinte mostra-se uma simulação com dois activos.
9.6 Modelo de Correlações Condicionais Constantes

O modelo VEC sem restrições é (quase) impossível de ser implementado. O modelo BEKK
envolve ainda muitos parâmetros e a maximização da função de verosimilhança é extrema-
mente difícil para m moderadamente elevado. A hipótese de Bollerslev (1990) consiste em
admitir correlações condicionais constantes (i.e. iguais às correlações marginais): ij;t = ij :
Esta hipótese reduz significativamente o número de parâmetros a estimar. Tem-se
hij;t
ij = ij;t =q ) ht;ij = ij it jt :
2 2
it jt
349
VEC BEEK Correl.Const.
m+5m2
m (m (m + 1) =2) (1 + (m (m + 1))) 2
3m + 21 m (m 1)
2 21 11 7
3 78 24 12
Tabela 9.2: Número de parâmetros a estimar
Logo
0 1
2
B 1t 12 1t 2t 1m 1t mt C
B 2 C
B 12 1t 2t 2m 2t mt C
= B C
2t
Ht B .. .. .. .. C
B . . . . C
@ A
2
1m 1t mt 2m 2t mt mt
0 10 10 1
1t 0 0 1 12 1m 1t 0 0
B CB CB C
B CB CB C
B 0 2t 0 CB 12 1 2m CB 0 2t 0 C
= B
B .. .. ..
CB
.. CB .. .. .. ..
CB
CB .. .. ..
C
.. C
B . . . . CB . . . . CB . . . . C
@ A@ A@ A
0 0 mt 1m 2m 1 0 0 mt
| {z }| {z }| {z }
Dt R Dt
= Dt RDt :
2 2 2 2
Supondo que it = !i + i ui;t 1 + i i;t 1 ; cada elemento it envolve 3 parâmetros.
Por outro lado, a matriz R envolve m (m 1) =2 parâmetros. Na tabela 9.2 comparam-se os
modelos VEC, BEEK e de correlações constantes (na versão “GARCH(1,1)”.
Não só o número de parâmetros a estimar é menor como também a maximização da
função de log-verosimilhança é mais fácil. Retome-se a equação (9.1):
1X 1X
n n
nm 0
log Ln ( ) = log (2 ) log jHt j (yt t) Ht 1 (yt t) :
2 2 t=1 2 t=1
Pode-se simplificar esta expressão atendendo aos seguintes resultados:
Ht = Dt RDt ;
log jHt j = log jDt RDt j = log jDt j + log jRj + log jDt j = 2 log jDt j + log jRj ;
0 0
(yt t) Ht 1 (yt t) = (yt t) Dt 1 R 1 Dt 1 (yt t) = vt0 R 1 vt :
350
Observe-se que vt representa o vector das variáveis aleatórias estandardizadas:
0
vt0 = (yt t) Dt 1 = y1t 1t y2t 2t ymt mt :
1t 2t mt
Assim,
nm X
n
n 1X 0 1
n
log Ln ( ) = log (2 ) log jDt j log jRj v R vt :
2 t=1
2 2 t=1 t
Podemos simplificar log Ln ( ) se substituirmos R pela expressão que representa a solução

da equação matricial @ log Ln ( ) =@R = 0: Pode-se provar que tal solução é
Pn
t=1 vt vt0
R= :
n
A função log-verosimilhança que assim se obtém designa-se função log-verosimilhança con-

centrada:
X Pn Pn
1X 0
n n 1
n t=1 vt vt0 t=1 vt0 vt
log Ln ( ) = const: log jDt j log v vt :
t=1
2 n 2 t=1 t n
Sabendo log jDt j = log ( 1t + ::: + mt ) ; e utilizando-se mais algumas propriedades ele-
mentares do cálculo matricial, a expressão da função log-verosimilhança pode ainda apresentar-
se na forma simplificada:
X
n
n Xn
log Ln ( ) = const: log ( 1t + ::: + mt ) log vt vt0 :
t=1
2 t=1
P P
Note-se que j nt=1 vt vt0 j é naturalmente o determinante de nt=1 vt vt0 : Nos modelos VEC e
BEEK, é necessário inverter a matriz Ht para cada t e para cada iteração do algoritmo de
maximização. Esta dificuldade é superada com o presente modelo. A principal desvantagem
do modelo em análise é o de assumir correlações condicionais constantes.
9.7 Modelo DCC

O modelo DCC (Dynamic Conditional Correlation), devido a Engle (2002), é uma extensão
do modelo de correlações condicionais constantes (CCC).
No modelo de CCC a matriz de variâncias-covariâncias é definida como Ht = Dt RDt ;
351
sendo R a matriz de correlações condicionais (constante). Esta matriz é, por definição,
E (vt vt0 j Ft 1 ) e calcula-se da seguinte forma:
0 1 0
E (vt vt j Ft 1 ) = E Dt (yt t ) (yt t) Dt 1 F t 1 = Dt 1 Ht Dt 1 = R:
Nos modelos VEC e BEKK (entre outros) a matriz E (vt vt0 j Ft 1 ) é variável ao longo
do tempo. Este resultado decorre das hipóteses formuladas para Ht (é, portanto, uma conse-
quência da forma como Ht é especificada). No modelo DCC E (vt vt0 j Ft 1 ) também é var-
iável, mas este resultado decorre directamente da forma como a matriz E (vt vt0 j Ft 1 ) é para-
metrizada. A ideia consiste em propor um modelo para Rt = E (vt vt0 j Ft 1 ) : Considere-se
0 1
1 12;t 1m;t
B C
B C
B 12;t 1 2m;t C
Rt = B
B .. .. .. ..
C:
C
B . . . . C
@ A
1m;t 2m;t 1
Como parametrizar ou modelar ij;t ?
** incompleto**
9.8 Modelo “Triangular”
9.8.1 Introdução e Formalização do Modelo
O modelo que designamos de triangular é inspirado em Christiansen (2007).

Em certas aplicações é admissível supor que a média de y1t condicionada a Fty1 1 =
fy1;t 1 ; y1;t 2 ; :::g não depende de Fty2 1 = fy2;t 1 ; y2;t 2 ; :::g ; i.e.,
y y y
E y1t j Ft 1 1 [ Ft 2 1 = E y1t j Ft 1 1 :
Diz-se, nestes casos, que y2 não causa à Granger y1 : Para concretizar, suponha-se que y1t
é o retorno do NASDAQ e y2t é o retorno do PSI20. Dadas as dimensões relativas dos
mercados, não faz sentido, supor-se que y1 (NASDAQ) dado todo o seu passado, possa ser
influenciado pelos valores atrasados de y2 (PSI20). Também em termos de volatilidade,
idêntica conjectura pode ser estabelecida, i.e., a variância de y1t condicionada em Fty1 1 não
depende dos valores passados de y2 ; Fty2 1 : No entanto, y2 (PSI20) dado Fty2 1 pode depender
352
de Fty1 1 (valores passados do NASDAQ).
Para processos y1 e y2 com as características acima descritas, é possível definirem-se
processos multivariados simplificados.
Para se ilustrar o modelo, considere-se o processo y = (y1 ; y2 ; y3 ) e suponham-se as
seguintes relações: y1 y2 y3 onde “y1 y2 ” significa y1 influencia y2 dado Fty2 1 e
y2 não influencia y1 dado Fty1 1 : Suponha-se ainda que y segue um processo VAR(1) (vector
autoregressivo de ordem 1). Sob a hipótese y1 y2 y3 e VAR(1), o processo y tem a
seguinte representação:
0 1 0 1 0 10 1 0 1
y c 0 0 y u
B 1t C B 1 C B 11 C B 1;t 1
C B 1t C
B C B C B CB C B C
B y2t C = B c2 C + B 21 22 0 C B y2;t 1 C + B u2t C: (9.5)
@ A @ A @ A@ A @ A
y3t c3 31 32 33 y3;t 1 u3t
A matriz dos coeficientes autoregressivos é triangular, porque na média condicional y1;t ape-
nas depende de y1;t 1 , y2t depende de y1;t 1 e y2;t 1 e y3t depende de y1;t 1 ; y2;t 1 e y3;t 1 :
Como definir a estrutura de dependências do segundo momento condicional, continuando
a assumir a relação y1 y2 y3 ? Uma forma simples e que facilita extraordinariamente a
estimação do modelo, consiste em admitir que
8 0 1 0 10 1
>
> u = e1t u 1 0 0 e
>
< 1t B 1t C B CB 1t C
B C B CB C
u2t = ae1t + e2t , B u2t C=B a 1 0 CB e2t C
>
> @ A @ A@ A
>
: u = be + ce + e
3t 1t 2t 3t u3t b c 1 e3t
| {z } | {z }| {z }
ut et
2 2
onde se admite que (e1t ; e2t ; e3t ) são independentes entre si, e eit j Ft 1 N (0; it ) ; it =
2 2
!i + i ei;t 1 + i i;t 1 : Observe-se que u2t depende de e2t (efeitos idiossincrásicos) e ainda
dos choques idiossincrásicos da primeira equação. Por seu turno, u3t depende de e3t (efeitos
idiossincrásicos) e ainda dos choques idiossincrásicos da primeira e da segunda equação. A
volatilidade que decorre dos efeitos não idiossincrásicos designa-se de volatility spillover.
A designação “modelo triangular” é agora óbvia: a equação matricial (9.5) representa-se
na forma,
yt = c + yt 1 + et (9.6)
sendo e matrizes triangulares inferiores. Naturalmente que se perde a relação y1

y2 y3 ; se as matrizes e não forem triangulares inferiores.
353
Dadas as hipótese sobre o vector et ; defina-se
0 1
2
1;t 0 0
B C
B C
t := Var (et j Ft 1 ) = B 0 2
2;t 0 C:
@ A
2
0 0 3;t
2 2 2
Tendo em conta it = !i + i ei;t 1 + i i;t 1 ; tem-se
0 1 0 1
2
!1 0 0 1 e1;t 1 0 0
B C B C
B C B C
t = B 0 !2 0 C+B 0 2
2 e2;t 1 0 C
@ A @ A
2
0 0 !3 0 0 3 e3;t 1
0 1
2
1 1;t 1 0 0
B C
B C
+B 0 2
2 2;t 1 0 C
@ A
2
0 0 3 3;t 1
0 1
! 0 0
B 1 C
B C
= B 0 !2 0 C
@ A
0 0 !3
0 1 0 1
0 0 e21;t 1 e1;t 1 e2;t e1;t 1 e3;t
B 1 C B 1 1
C
B C B C
+B 0 2 0 C B e1;t 1 e2;t 1 e22;t 1 e2;t 1 e3;t 1 C
@ A @ A
0 0 3 e1;t 1 e3;t 1 e2;t 1 e3;t 1 e23;t 1
| {z } | {z }
A et 0
1 et 1
0 1 0 1
2
0 0 0 0
B 1 C B 1;t 1 C
B C B C
+B 0 2 0 C B 0 2
2;t 1 0 C
@ A @ A
2
0 0 3 0 0 3;t 1
| {z } | {z }
B t 1
= W + A et 1 e0t 1 +B t 1
onde “ ” é o produto de Hadamard e A e B são matrizes diagonais, tendo como elementos

genéricos i e i; respectivamente.
Para se estudar a relação entre Var (et j Ft 1 ) (= t) e Var ( ut j Ft 1 ) (= Ht ) comece-se
354
por observar que
ut = et ;
1
et = ut ;
1 0
et e0t = 1
ut u0t :
e, portanto,
0 0
Ht = Var (ut j Ft 1 ) = Var ( et j Ft 1 ) = Var ( et j Ft 1 ) = t :
0 1 1 0
Desta última relação (i.e., Ht = t ); sai t = Ht ( ) : Em suma,
0
Ht = t
0
= W + A et 1 e0t 1
0
+ (B t 1)
0
0 1 1 0 1 1 0
= W + A ut 1 u0t 1
0
+ B Ht 1
0
:
Esta última relação escreve Ht como função dos termos ui;t 1 uj;t 1 e hij;t 1 : Expandindo
a expressão anterior e depois de cálculos simples mas fastidiosos obtém-se, por exemplo,
h22;t = a2 ! 1 + ! 2 + a2 ( 1 + 2
2 ) u1;t 1
2a 2 u1;t 1 u2;t 1 + a2 ( 1 + 2 ) h11;t 1 2a 2 h12;t 1 + 2 h22;t 1
(todas as expressões hij;t podem ser assim obtidas).

2
É também interessante obter Ht como função das expressões i;t :
0
Ht = t
0 10 10 1
2
1 0 0 0 0 1 a b
1;t
B CB CB C
B CB C B C
= B a 1 0 CB 0 2
2;t 0 CB 0 1 c C
@ A@ A@ A
2
b c 1 0 0 3;t 0 0 1
0 1
2 2 2
a 1;t b 1;t
B 1;t C
B C
= B a 21;t a2 21;t + 22;t ab 21;t + c 22;t C: (9.7)
@ A
2 2 2 2 2 2 2 2
b 1;t ab 1;t + c 2;t b 1;t + c 2;t + 3;t
355
A partir de (9.7), deduzem-se também os coeficientes de correlação condicionados:
a 2 a 1;t
12;t = q q 1;t =q
2
1;t a2 21;t + 2
2;t a2 2
1;t + 2
2;t
2
b 1;t b 1;t
13;t = q q =q
2 2 2 2 2 2 2
1;t b2 1;t + c2 2;t + 3;t b2 1;t + c2 2;t + 3;t
2 2
ab1;t + c 2;t
23;t = q q :
2 2
a2 1;t + 2;t b2 21;t + c2 2
2;t + 2
3;t
Os sinais dos coeficientes a; b e c são decisivos nos sinais dos coeficientes de correlação
condicionados.
Observação 9.8.1 Tendo em conta as relação Vec (ABC) = (B 0 A) Vec (C) e Vec (A B) =
diag (Vec (A)) Vec (B) onde é o produto de Kronecker e diag é definido como
00 11 0 1
x1 x1 0
diag @@ AA = @ A;
x2 0 x2
é possível reescrever Ht usando o operador Vec. Depois de algumas contas, obtém-se
~ +A
Vec (Ht ) = W ~ Vec ut 1 u0t 1
~ Vec (Ht 1 )
+B (9.8)
onde
~ = (
W ) Vec (W) ;
~ = (
A ) diag (Vec (A)) 1 1
;
~ = (
B ) diag (Vec (B)) 1 1
:
Como a equação (9.8) está basicamente na forma da equação (9.2) deduz-se que a condição
~ +B
de ESO do processo fut g estabelece que todos os valores próprios de A ~ sejam, em mó-
~ +B
dulo, menores do que um. Pode-se provar que os valores próprios de A ~ são f0; 0; 0; 0; 0; 0; 1+
1; 2 + 3; 3 + 3 g: Logo, dado i; i 0; o processo é ESO sse i + i < 1; i = 1; 2; 3:

Conclui-se que a condição de segunda ordem coincide com a do processo fet g :
356
9.8.2 Estimação
Considere a representação yt = c + yt 1 + et (equação (9.6)), isto é,
y1t = c1 + 11 y1;t 1 + e1t (9.9)
y2t = c2 + 21 y1;t 1 + 22 y2;t 1 + ae1t + e2t (9.10)
y3t = c3 + 31 y1;t 1 + 32 y2;t 1 + 33 y3;t 1 + be1t + ce2t + e3t (9.11)
2 2 2 2
onde eit j Ft 1 N (0; it ) ; it = !i + i ei;t 1 + i i;t 1 : A estimação do modelo pode ser
conduzida da seguinte forma:
1. Estimar a equação (9.9), pelo método da máxima verosimilhança, e obter os resíduos

f^
e1t g :
2. Substituir, na equação (9.10), e1t por e^1t e estimar o modelo. Obter os resíduos f^
e2t g :
3. Substituir, na equação (9.11), e1t por e^1t e e2t por e^2t e estimar o modelo.
Estuda-se a seguir a verosimilhança associada ao modelo em análise. A função log-

verosimilhança é dada pela expressão (9.1). Tendo em conta a estrutura “triangular” do
modelo é possível simplificar a log-verosimilhança e decompô-la em três parcelas, como se
mostra a seguir. Observe-se, em primeiro lugar,
0 1
(yt t) Ht 1 (yt t) = u0t ( 0 ) t
1 1
ut
1 2 1
= 2
u 1t + 2
(u2t au1t )2
1t 2t
1
+ 2
(u3t (b ac) u1t cu2t )2
3t
log jHt j = log j t

0
j = log j j2 j tj
= log j j2 + log (j t j) = log (1) + log 2 2 2

1t 2t 3t
2 2 2
= log 1t + log 2t + log 3t
(b ac) u1t cu2t = be1t ce2t :
Tem-se assim,
357
1X 1X
n n
nm 0
log Ln ( ) = log (2 ) log jHt j (yt t) Ht 1 (yt t) :
2 2 t=1 2 t=1
1X
n
nm 2 2 2
= log (2 ) log 1t + log 2t + log 3t (9.12)
2 2 t=1
1X
n
1 1
2
u21t + 2
(u2t au1t )2 (9.13)
2 t=1 1t 2t
1
+ 2
(u3t (b ac) u1t cu2t )2 (9.14)
3t
1X
n
nm 2 2 2
= log (2 ) log 1t + log 2t + log 3t
2 2 t=1
1X
n
1 1 1
2
u21t + 2
(u2t ae1t )2 + 2
(u3t be1t ce2t )2
2 t=1 1t 2t 3t
!
1X 1X 1 2
n n
nm 2
= log (2 ) + log 1t u
2 2 t=1 2 t=1 21t 1t
| {z }
log Ln;1
!
1X 1X 1
n n
2 2
+ log 2t (u2t ae1t )
2 t=1 2 t=1 22t
| {z }
log Ln;2
!
1X 1X 1
n n
log 2
3t (u3t be1t ce2t )2
2 t=1 2 t=1 23t
| {z }
log Ln;3
= log Ln;1 + log Ln;2 + log Ln;3
A decomposição log Ln ( ) = log Ln;1 +log Ln;2 +log Ln;3 ; mostra que a estimação pode
ser feita consistentemente de acordo com os passos acima indicados. A primeira parcela,
log Ln;1 ; só depende do vector
0
1 = (c1 ; 11 ; ! 1 ; 1; 1) :
Estes parâmetros são estimados de forma consistente e eficiente maximizando (apenas) log Ln;1
(trata-se, portanto, da estimação, pelos métodos habituais, da equação (9.9)). A segunda
parcela, log Ln;2 ; depende do vector,
0
2 = (c2 ; 21 ; 22 ; ! 2 ; 2; 2 ; a)
358
e ainda de 1; através dos erros fe1t g : A estimação de 2 através da maximização de log Ln;2
pode ser feita de forma consistente, mas não eficiente, substituindo os erros fe1t g por f^
e1t g :
e1t g baseiam-se no estimador consistente ^1 ; obtido no
A estimação é consistente pois f^
primeiro passo. Claro que a maximização de log Ln;2 corresponde à estimação da equação
(9.10), pelos métodos habituais ((com f^
e1t g em lugar de fe1t g). Este raciocínio aplica-se de
forma análoga a log Ln;3 .
Como nota final, observe-se que a estimação do modelo pode ser totalmente eficiente
se a maximização de log Ln for simultânea (confiram-se as equações (9.12)-(9.14)). Como
se sabe, o problema da maximização de log Ln é, entre outros, o dos valores iniciais dos
parâmetros a estimar. Este problema é mitigado no presente contexto: basta fornecer como
valores iniciais as estimativas obtidas na estimação em três passos, acima apresentada.
9.8.3 Testes e Rácios de Variância
Considere-se novamente
8 8
>
> u = e1t >
> h = 21t
>
< 1t >
< 11;t
u2t = ae1t + e2t ; h22;t = a2 21t + 22t
>
> >
>
>
: u = be + ce + e >
: h = b2 2 + c 2 2 + 2
3t 1t 2t 3t 33;t 1t 2t 3t :
Observámos que u2t depende de e2t (efeitos idiossincrásicos) e ainda dos choques idiossin-
crásicos da primeira equação. Por seu turno, u3t depende de e3t (efeitos idiossincrásicos) e
ainda dos choques idiossincrásicos da primeira e da segunda equação. Como referimos, a
volatilidade que decorre dos efeitos não idiossincrásicos designa-se de volatility spillover.
Desta forma, existem efeitos de volatility spillover do mercado 1 para o mercado 2 se a 6= 0
e dos mercados 1 e 2 para o mercado 3 se b 6= 0 e c 6= 0:
Pode-se ainda obter informação sobre a evolução da transmissão da volatilidade ao longo
do tempo através de rácios de volatilidade. Seja RVti;j a proporção da variância do mercado
j que é causada pelo efeito de volatility spillover do mercado i (efeito do mercado i para j;
i 7! j). Tem-se
a2 21t
RVt1;2 = ;
h22;t
b2 21t c2 22t
RVt1;3 = RVt2;3 = :
h33;t h33;t
359
Dependent Variable: R1
Method: ML - ARCH
Sample (adjusted): 6/01/1993 4/09/2009
Variable Coefficient Std. Error z-Statistic Prob.
C 0.052202 0.013247 3.940658 0.0001

R1(-1) -0.017161 0.017808 -0.963644 0.3352
Variance Equation
C 0.007049 0.001077 6.546092 0.0000

RESID(-1)^2 0.066257 0.004820 13.74617 0.0000
GARCH(-1) 0.929667 0.005114 181.7812 0.0000
Figura 9-2: Estimação, primeiro passo - ver equação (9.9)

Method: ML - ARCH
Sample (adjusted): 6/01/1993 4/09/2009
C 0.052704 0.013123 4.016235 0.0001

R1(-1) 0.449084 0.019369 23.18547 0.0000
R2(-1) -0.179191 0.015456 -11.59382 0.0000
RES1 0.552914 0.015972 34.61746 0.0000
Variance Equation
C 0.009916 0.002944 3.367632 0.0008

RESID(-1)^2 0.068232 0.010502 6.497201 0.0000
GARCH(-1) 0.923938 0.010928 84.55149 0.0000
Figura 9-3: Estimação, segundo passo - ver equação (9.10)
Por exemplo, RVt2;3 representa a proporção da variância condicional do mercado 3 que é

causada pelo efeito volatility spillover do mercado 2:
9.8.4 Exemplo
Pinto (2010) analisou a transmissão de volatilidade do mercado Norte-Americano (US) para

o mercado Europeu (EU) e, em particular, as repercussões destes dois mercados no mercado
Português (PT), através de um modelo triangular. O período analisado foi 4 de Janeiro de
1993 a 4 de Setembro de 2009. As variáveis em análise são: r1t - retorno do SP500, r2t -
retorno do DJ Euro 50 e r3t - retorno do PSI 20. Nas figuras 9-2 a 9-4 apresentam-se os
modelos estimados (na versão mais simples).
É fácil constatar que existe evidência estatística de efeitos de volatility spillover do mer-
a = 0:55291 e rejeita-se a hipótese a 6= 0 com p-value = 0 - ver
cado US para o mercado EU (^
figura 9-3) e dos mercados US e EU para o mercado PT (^b = 0:233, c^ = 0:4066 e rejeitam-se
as hipóteses b 6= 0 e c 6= 0 - ver figura 9-4).
360
Method: ML - ARCH
Sample (adjusted): 6/01/1993 4/09/2009
C 0.043610 0.010837 4.024173 0.0001

R1(-1) 0.222423 0.010966 20.28223 0.0000
R2(-1) -0.093210 0.012230 -7.621611 0.0000
R3(-1) 0.143101 0.016376 8.738563 0.0000
RES1 0.233364 0.007759 30.07544 0.0000
RES2 0.406663 0.008429 48.24352 0.0000
Variance Equation
C 0.027709 0.002862 9.681126 0.0000

RESID(-1)^2 0.158430 0.009900 16.00381 0.0000
GARCH(-1) 0.815877 0.010650 76.60615 0.0000
Figura 9-4: Estimação, terceiro passo - ver equação (9.11)
Na figura 9-5 apresentam-se os coeficientes de correlação condicionados (valores médios

mensais). Podem ser retiradas algumas conclusões:
As correlações condicionadas entre os mercados US e EU e entre os mercados EU e

PT são, em média, relativamente fortes.
A correlação menos expressiva, mas significativa, é entre o mercado US e o mercado

PT, embora se assista ao longo do período a um aumento dessa correlação.
Tendo em conta que as correlações são positivas, os retornos tendem a flutuar na

mesma direcção; por outro lado, verifica-se uma tendência de crescimento das corre-
lações, ou seja, uma tendência crescente de interligação entre os diferentes mercados.
Alguns dos valores mais altos dos coeficientes de correlação coincidem com algumas
crises financeiras5 . Este facto é particularmente notório com a crise do subprime de
2008.
Na figura 9-6 analisa-se a transmissão da volatilidade dos mercados EU e US para o

mercado PT através dos rácios de volatilidade. São considerados os seguintes rácios
^b2 ^ 2
RV _U St = RVt1;3 = 1t
;
^h33;t
c^2 ^ 22t
RV _EUt = RVt2;3 = ;
^ 33;t
h
RV _P Tt = 1 RV _U St RV _EUt :
5
As principais crises financeiras no período em análise são as seguintes: Recessão do Japão, 1991; Crise do
México, 1994/1995; Bolha Dot.com, 2000; Crise de 2001 (ataque às Twin Towers); Crise da Argentina, 2002;
Crise do Subprime, 2007/2008.
361
.9
.8
.7
.6
.5
.4
.3
.2
.1
94 96 98 00 02 04 06 08
PT-EU PT-US EU-US
Figura 9-5: Coeficientes de Correlação Condicional
Podem ser retiradas algumas conclusões:
A volatilidade do mercado PT decorre em larga medida do seu próprio mercado (efeito

idiossincrático), embora este efeito tenha a vindo a diminuir ao longo do tempo. Por
outras palavras, o efeito de volatilidade spillover dos mercados EU e US sobre o mer-
cado PT tem vindo a aumentar ao longo do tempo.
O efeito de volatilidade spillover do mercado EU (para o mercado PT) é geralmente

mais forte do que o do mercado US. No entanto, no período da crise do subprime, o
mercado US transmitiu mais volatilidade ao mercado PT do que o mercado EU.
Nos períodos de crise o efeito idiossincrático tende em geral a diminuir. Observe-se

por exemplo, as crise de 2000 (das “dot.com”), de 2001 e de 2008.
Verifica-se uma tendência de crescimento do rácio de volatilidade US para o mercado

PT.
9.9 GARCH Ortogonal

À semelhança do modelo “triangular”, a principal vantagem do GARCH ortogonal é a de
podermos estimar um GARCH multivariado através de GARCH’s univariados.
362
1.0
0.8
0.6
0.4
0.2
0.0
94 96 98 00 02 04 06 08
RV_EU RV_PT RV_US
Figura 9-6: Rácios de Volatilidade
Seja yt = (y1t ; y2t ; :::; ymt )0 o vector das observações no momento t (t = 1; :::; n). Se
quisermos normalizar as variáveis consideramos
yit E (yit )
xit = :
i
(substituir E (yit ) e i pelos respectivos momentos da amostra, caso os parâmetros sejam

desconhecidos). Logo E (xit ) = 0 e Var (xit ) = 1: Para simplificar suponha–se E (yit ) = 0:
Nestas condições podemos escrever
0 10 1
1 0 0 x1t
B CB C
B CB C
B 0 2 0 CB x2t C
yt =B
B .. .. .. ..
CB
CB ..
C=
C xt :
B . . . . CB . C
@ A@ A
0 0 m xmt
| {z }| {z }
xt
Suponha-se que é possível encontrar matrizes Pt de tipo m 1 e W de tipo m m nas

seguintes condições:
xt = WPt
Pt P0t é diagonal. (9.15)
363
Suponha-se que W é não aleatório dado Ft 1 . Vem
Cov (yt j Ft 1 ) = Cov ( xt j Ft 1 )
= E ( xt x0t j Ft 1 )
0
= E (xt xt j Ft 1 )
0 0
= E (WPt Pt W j Ft 1 )
= W E (Pt P0t j Ft 1 ) W0
Tendo em conta (9.15) vem

0 1
(P 2 j F ) 0 0
B E t1 t 1 C
B C
B 0 E (P2t2 j Ft 1 ) 0 C
E (Pt Pt j Ft 1 ) = B C:
0
B .. .. .. .. C
B . . . . C
@ A
2
0 0 E (Pmt j Ft 1 )
Vantagem da especificação Cov (yt j Ft 1 ) = W E (Pt P0t j Ft 1 ) W0 ? Supondo que se

conhecem as matrizes e W; modelar Cov (yt j Ft 1 ) equivale a modelar apenas as variân-
cias condicionais de Pit : Não temos que nos preocupar com a modelação das covariâncias
condicionais! Além disso Cov (yt j Ft 1 ) é definida positiva, por construção.
Obter a matriz W
Seja X a matriz das observações estandardizadas, X = x 1 x 2 x m de tipo
n m (por exemplo, x 1 representa o vector das observações estandardizadas da variável 1)
e
0
^ =X X:
V
n
V é a matriz de correlações de yt : Por exemplo, o elemento (1; 2) de V é
Pn Pn y1t E(y1t ) y2t E(y2t )

x0 1 x 2 t=1 x 1t x 2t t=1 1 2
= =
n Pn n n
1
n t=1 (y1t E (y1t )) (y2t E (y2t ))
= :
1 2
Considerar Pn
1
x0 1 x 2 n t=1 (y1t y1 ) (y2t y2 )
=
n ^1 ^2
se os momentos E (y1t ), E (y2t ), 1 e 2 forem desconhecidos.
364
Como se sabe, se W i é vector próprio de V e i é o valor próprio associado a W i então
^
VW i = iW i; i = 1; :::; m
Compactamente
^
VW =W
onde W = W ::: W m é a matriz dos vectores próprios associada a V e = diag ( 1 ; :::;

1 m) :
^ é simétrica, logo é possível obter W tal que W0 W = I ). Como

Note-se que W0 W = I (V
1
X = PW0 , P = X (W0 ) = XW
tem-se
P0 P = W0 X0 XW
^
= nW0 VW
= nW0 W
= n :
Portanto, se W é a matriz dos vectores próprios associada a V então P0 P é uma matriz

diagonal.
Passos:
1. Estandardizar Y e obter X: Estimar

0 1
1 0 0
B C
B C
B 0 2 0 C p
=B
B .. .. .. ..
C;
C i = Var (yit )
B . . . . C
@ A
0 0 m
^ = X0 X=n.
2. Calcular V
^
3. Calcular os vector próprios (W) de V:
4. Obter P = XW.
5. Modelar separadamente as coluna de P através de um GARCH.
365
Figura 9-7: Aplicação (rendabilidade do índice de mercado: NASDAQ; INDUSTRIAL,
COMPUTER)
6. Para cada t considerar
Cov (yt j Ft 1 ) = W E (Pt P0t j Ft 1 ) W0 :
Modelação de Sistemas de Grande Dimensão

É possível reduzir a calculatória considerando apenas certos vectores de P = XW - estes
vectores designam-se de componentes principais. Para explicar esta ideia, considere-se
P0 P
= (9.16)
n
Logo pode ser considerado uma estimativa da matriz de variâncias-covariâncias de P:

Como
P= P 1 ::: P m
366
tem-se 0 1
0
P 1P 1 0 0
B C
B 0 C
B 0 P 2P 2 0 C
P P =B
0
B .. .. ... ..
C
C
B . . . C
@ A
0 0 P0 m P m
e, atendendo a (9.16), conclui-se que a variância da componente principal i é igual a
P0 i P i
= i:
n
Por outro lado, atendendo a X = PW0 ; tem-se
X0 X WP0 PW0
= = W W0 :
n n
Em suma, a proporção da variação total de X que é explicada pela i-ésima componente

P
principal é i = m
j=1 i = i =m. Quanto maior for i mais peso tem a i-ésima componente
principal na explicação da variação total de X: As componentes principais cujos valores

próprios são muitos baixos podem ser descartados. Na prática procede-se assim:
ordenam-se os valores próprios por ordem descendente , i.e. 1 > 2 > :::
ordenam-se os vectores próprios de acordo com os valores próprios ordenados, i.e., a

primeira coluna de W; W 1 ; é o vector próprio associado a 1; a segunda coluna de
W 2 é o vector próprio associado a 2; etc.
Em lugar de se trabalhar com W trabalha-se com uma submatriz de W; seja W essa

matriz, constituída pelas primeiras k colunas. Como resultado passa-se a ter apenas as k
componentes principais mais significativas:
P = XW
que tem dimensão n k: Nestas circunstâncias é necessário modelar apenas estas k compo-
nentes principais. Assim,
Cov (yt j Ft 1 ) W E Pt (Pt )0 Ft 1 (W )0
367
e
0 1
(P 2 j F ) 0 0
B E 1t t 1 C
B C
B 0 E (P2t2 j Ft 1 ) 0 C
0
E Pt (Pt ) Ft 1 =B
B .. .. .. ..
C:
C
B . . . . C
@ A
0 0 E (Ptk2 j Ft 1 )
(Pt é a linha t da matriz P ).

Passos:
1. Estandardizar Y e obter X: Estimar

0 1
1 0 0
B C
B C
B 0 2 0 C p
=B
B .. .. .. ..
C;
C i = Var (yit )
B . . . . C
@ A
0 0 m
^ = X0 X=n.
2. Calcular V
^ (ordenam-se os valores próprios

3. Calcular os valores próprios e vector próprios de V
por ordem descendente , i.e. 1 > 2 > :::e ordenam-se os vectores próprios de acordo
com os valores próprios ordenados).
4. A partir do passo 3 obter W e P = XW .
5. Modelar separadamente coluna de P através de um GARCH.
6. Para cada t considerar
Cov ( yt j Ft 1 ) W E Pt (Pt )0 Ft 1 (W )0 :
9.10 Testes de Diagnóstico

Nos vários modelos, a hipótese de partida é ut j Ft 1 N (0; Ht ) ou, de forma equiva-
1=2
lente, ut = Ht "t onde "t N (0; Im ) : Se o modelo estiver correctamente especificado,
f"t g deve ser uma sucessão de vectores i.i.d., com matriz de variâncias-covariâcias (con-
temporânea) dada por Im : Naturalmente que "t é desconhecido, mas pode ser estimado da
368
seguinte forma
^ ^ t 1=2 u
"t = H ^t :
"t é o vector dos resíduos estandardizados (e u

^ ^ t 1=2
^ t é o vector dos resíduos). A matriz H
pode obter-se a partir da decomposição Cholesky, seguindo os seguintes passos. 1) Dado
H ^ 1=2
^ t ; obter uma matriz triangular H t ; usando a decomposição de Cholesky, i.e., obter uma
0
^ 1=2
matriz H t tal que H ^ 1=2
^t = H t
^ t1=2
H ^ t1=2 : Por exemplo, considere-se um
; 2) Inverter H
sistema de duas equações (m = 2)
2 3 2 3
2 2
1t 12;t 1t t 1t 2t
Ht = 4 5=4 5:
2 2
12;t 2t t 1t 2t 2t
A decomposição de Cholesky fornece

2 3
1=2 1t 0
Ht =4 p 5:
2
t 2t 2t 1 t
0
1=2 1=2
(verifique que o produto Ht Ht é Ht ). Assim,
2 3
1
1=2
0
=4 5:
1t
Ht
pt 2
p1 2
1t 1 t 2t 1 t
1=2
(Deixa-se como exercício mostrar que E ("t ) = 0 e Var ("t ) = Var Ht ut = In ). Desta
^t 1=2
"t = H
forma (continuando o exemplo) a expressão ^ u
^ t vale
2 3 2 32 3 2 3
1 u
^1t
^"1t ^ 1t
0 u^1t ^ 1t
4 5=4 54 5=4 5:
^t u
^2t u
^1t ^t
^"2t p p1 u^2t p p
^ 1t 1 ^2t ^ 2t 1 2
t ^ 2t 1 ^2t ^ 1t 1 ^2t
Vários testes podem ser invocados. Para avaliar se os efeitos de heterocedasticidades

estão convenientemente modelados, Engle (2002) sugere o seguinte procedimento. Primeiro
passo: regressão de ^"21t sobre as seguintes variáveis (para além de um termo constante):
resíduos quadráticos ^"2i;t k ; com i = 1; :::; m e k = 1; :::; L (L desfasamentos) e
termos cruzados ^"i;t k ^"j;t k ; com i; j = 1; :::; m e k = 1; :::; L:
369
Por exemplo no caso m = 2 e L = 1; a regressão envolveria as seguintes variáveis:
1; ^"21t 1 ; ^"22t 1 ; ^"1;t 1^"2;t 1 :
Segundo passo: teste F de nulidade de todos os parâmetros com excepção do do termo in-
dependente. Se existir evidência estatística contra a hipótese nula, podemos suspeitar que
a matriz Ht não foi convenientemente modelada. Nos passos seguintes repete-se o proced-
imento, tomando sucessivamente ^"2i;t i = 2; :::; m como variável dependente na regressão
auxiliar.
"t é um ruído branco. O procedimento
Naturalmente é conveniente verificar também se ^
anterior pode ser repetido substituindo os resíduos estandardizados ao quadrado simples-
mente pelos resíduos estandardizados e eliminando os termos cruzados.
370
Capítulo 10
Regressão Não Paramétrica
(Última actualização: 1/2010. Preliminar e incompleto)
10.1 Introdução
***
10.2 Estimação Não Paramétrica da Função Densidade de

Probabilidade
10.2.1 Introdução
Suponha-se que X é uma v.a. discreta. A estimação da função de probabilidade, f (x) ; é

imediata: f^ (x) pode ser estimado como a proporção de valores na amostra fx1 ; x2 ; :::; ng
que são iguais a x, i.e.,
1X
n
f^ (x) = Ifxi :xi =xg :
n t=1
Se X é uma variável contínua, a probabilidade do evento fxt = xg é zero e, desta forma, a

estimação da fdp f (x) deve envolver a proporção de valores xt que se encontram perto de
x; digamos numa vizinhança x h=2 (h dá a largura do intervalo).
Se tomarmos
1X 1X
n n
Ifxt :j xt x j< 1 g = I 1 x x
< th < 21
n t=1 h 2 n t=1 fxt : 2 g
temos simplesmente a proporção de observações na amostra que se encontram no intervalo
371
(x h; x + h) : Esta proporção deve ser dividia por h :
11X
n
f^ (x) = I xt x 1 : (10.1)
h n t=1 fxt :j h j< 2 g
Tem-se assim que f^ (x) representa a proporção de observações por unidade relativa de fre-
quencia. Naturalmente, podemos fazer variar h: Um valor maior implica um maior alisa-
mento da estimativa (mais observações são consideradas), diminuindo a variabilidade de f^:
Todavia, valores muitos altos de h podem distorcer a estimativa de f (x), na medida em que
podem entrar observações muito afastadas de x; não traduzindo, portanto, o comportamento
local de f no ponto x:
Pode-se mostrar que Z 1
f^ (x) dx = 1:
1
Apresenta-se a seguir a derivação formal de f^: Por definição, a função de distribuição de

Xé Z x
P (X x) = F (x) = f (u) du
1
A respectiva fdp é
F (x + h) F (x)
f (x) = F 0 (x) = lim
h!0 h
ou, equivalentemente,
F (x + h=2) F (x h=2)
f (x) = lim
h!0 h
P (x h=2 < X < x + h=2)
= lim
h!0 h
X x 1
P h
<2
= lim
h!0 h
Dada esta definição de f (x) ; é imediato concluir que uma estimativa da última expressão é
1
Pn
n t=1 Ifxt :j xt x j< 1 g
h 2
que é exactamente a expressão obtida em (10.1). Esta estimativa pode também ser escrita da
seguinte forma
1 X
n
xt x
f^ (x) = K
nh t=1 h
372
onde 8
1
1<se 1 < u < 1
2
K (u) = Ifu:juj<1g =
2 : 0 caso contrário.
A função K (u) ; designada por kernel (ou núcleo) é uma função densidade de probabilidade
(Uniforme). Resulta que outros kernels, com baseados em funções densidade de probabili-
dade, podem também ser usados. Por exemplo,
1 1 2
K (u) = p exp u kernel Gaussiano
2 2
1
K (u) = Ifu:juj<1g kernel Uniforme,
2
15
K (u) = 1 u2 Ifu:juj<1g .
16
10.2.2 Propriedades
Considerem-se as seguintes hipóteses:
A1 f(yt ; xt )g é um processo EE e fracamente dependente no seguinte sentido: dada uma

1t
sucessão de v.a. fyt g tem-se jCorr (y1 ; y1+t )j C1 e e jCorr (h (y1 ) ; h (y1+t ))j
2t
C2 e ; C1 ; C2 ; t > 0 para qualquer função contínua h:
R R
A2 K é uma função simétrica em torno de zero, K (u) du = 1; uK (u) du = 0;
R 2 R
u K (u) du = 2K ; K 2 (u) du < 1; jxj K (x) ! 0 quando jxj ! 1; sup jK (x)j <
1
A3 A função f 00 (x) é contínua e limitada numa vizinhança de x.
A4 h ! 0 quando n ! 1, nh ! 1 quando n ! 1
p 5=2
A5 nh ! 0 quando n ! 1:
Assumam-se as hipóteses A1-A4.
Proposição 10.2.1 Tem-se
h2 f 00 (x) 2
E f^ (x)
K
= f (x) + + O h4
2
1
Var f^ (x) = O :
nh
373
Note-se que O (h4 ) representa um termo de ordem h4 ou inferior. Por outras palavras,
O (h4 ) é proporcional ou menos do que proporcional a h4 ; podendo ser, por exemplo, 2h4 :
Obviamente limh!0 O (h4 ) = 0 e limh!0 O (h4 ) =h4 é uma constante.
p
Proposição 10.2.2 Tem-se f^ (x) ! f (x) :
A demonstração é obvia tendo em conta a proposição 10.2.1:
lim E f^ (x) = f (x)

n!1
lim Var f^ (x) = 0;

n!1
pois n ! 1 arrasta h ! 0 e nh ! 1: A hipótese A4 é crucial. Nestas condições, o

estimador f^ (x) é consistente (em probabilidade).
p R
Proposição 10.2.3 Tem-seVar nhf^ (x) ! f (x) K 2 (u) du
R
Proposição 10.2.4 Sob as hipóteses A1-A4 e K (u)2+ du < 1 tem-se
p Z
d
nh f^ (x) E f^ (x) !N 0; f (x) K 2 (u) du
Proposição 10.2.5 Sob as hipóteses da proposição anterior e A5 tem-se
p Z
d
nh f^ (x) f (x) !N 0; f (x) K 2 (u) du
10.2.3 Escolha de h
Na prática como escolher K e h? A escolha do kernel é, geralmente, pouco relevante, já

que os resultados finais dependem pouco da escolha do kernel. Muito mais relevante é a
escolha de h: Sabemos que h deve depender de n; tendo em conta as hipóteses A4 e A5. Se
definirmos h = n ; sendo e parâmetros a determinar, sabe-se que tem de ser menor
do que zero tendo em conta que h ! 0: Por outro lado, como nh = n1+ ! 1, deve
respeitar a relação 1 + > 0: Dada a hipótese A5
p 5=2
nh = n1=2 (n )5=2 = n1=2 n5 =2
= n(1+5 )=2
!0
deverá ter-se (1 + 5 ) < 0: Coligindo todas as desigualdades obtém-se 1< < 1=5: É
preciso todavia encontrar um valor para e : Para o efeito, é necessário usar um critério de
374
selecção. Existem vários propostos na literatura, mas focaremos apenas o Mean Integrated
Squared Error: Z 2
M ISE (h) = E f^ (x) f (x) dx :
Em princípio, poderíamos escolher h a partir do critério mais simples E f^ (x) f (x)2 ;

mas existe um inconveniente: queremos que f^ (x) seja uma boa estimativa para todos os
valores de x que a variável X pode assumir, e não apenas para um x particular. Por isso
integramos o erro quadrático no domínio ou espaço de estados de X:
Fazendo a troca do operador de valor esperado com o do integral, considerando os valores
aproximados de E f^ (x) e Var f^ (x) e notando que
R
2 f (x) K 2 (u) du h4 (f 00 (x))2 4
E f^ (x) f (x)2 ' Var f^ (x) + f (x) E f^ (x)
K
= +
nh 4
tem-se
Z R !
K 2 (u) du h4 (f 00 (x))2
f (x) 4
K
M ISE (h) = + dx
nh 4
R 2 Z
K (u) du h4 4K 2
= + (f 00 (x)) dx:
nh 4
Resolvendo o problema de optimização

R Z
K 2 (u) du h4 4K 2
min + (f 00 (x)) dx
h nh 4
obtém-se o valor óptimo de h (de acordo com o critério M ISE):
R !1=5
K 2 (u) du 1=5
hopt = R n :
4
K (f 00 (x))2 dx
R
Usando o kernel Gaussiano, tem-se K 2 (u) du ' 0:282 e 4
K = 1: O valor de hopt depende
ainda de f 00 (x) que é desconhecido. Este valor pode ser estimado não parametricamente.
2
Uma alternativa mais simples consiste em assumir que f (x) N( ; ) (vários estudos
indicam que esta escolha é relativamente robusta desde que a verdadeira densidade não seja
bimodal ou excessivamente assimétrica). Com estas simplificações obtém-se
^ opt = 1:06^ n
h 1=5
375
(^ desvio padrão estimado de xt ).
Exemplo 10.2.1 Dow Jones*** retornos
10.2.4 Estimação localmente linear da Média Condicional
Vamos considerar como modelo base
yt = (xt ) + ut
2
ut = (xt ) "t
2
onde "t é um ruído branco e tal que E ("t j xt ) = 0; (xt ) é a média condicional e (xt )
é a variância condicional. Os momentos condicionais dependem apenas de xt (é natural-
mente possível generalizar). Para simplificar admitiremos que xt = yt 1 (mas é possível
2
generalizar). O problema de estimação é o dos momentos condicionais (x) e (x) : À
2
semelhança da estimação de f (x) ; a estimação de (x) (e (x)) faz-se localmente, i.e.,
estima-se (x) separadamente para cada x. Por exemplo, seleccionando x = 1 estimamos
(1) = E (yt j xt = 1)
e repete-se o procedimentos para outros pontos x e assim obtemos uma ideia do comporta-
mento de (x) :
Na análise da estimação local da média condicional, o ponto de partida é a fórmula de
376
Taylor de (xt ) numa vizinhança de x :
@ (x) @ 2 (x ) (xt x)2

(xt ) = (x) + (xt x) +
@x0 @x2 2
onde x é um valor entre xt e x: Desta forma yt pode ser representado pela expressão
@ (x) @ 2 (x ) (xt x)2

yt = (x) + (xt x) + + ut :
@x0 @x2 2
Se o modelo é linear, por exemplo, um AR(1), vem
@ (x) @ 2 (x ) (xt x)2

yt = (x) + (xt x) + + ut
@x0 @x2 2
= c + x + (xt x1 ) + 0 + ut
= c + xt + u t :
Se (x) é não linear o erro de aproximação é não nulo e aumenta quando xt se afasta de
x. Desta forma, obtém-se uma boa aproximação de (x) se usarmos apenas as observações
que se encontram “perto” de x: Em alternativa, pode-se usar todas as observações mas damos
mais peso às observações que se encontram “perto” de x:
Trade-off na estimação de (x) :
não considerar todas as observações ou não dar peso significativo a parte das obser-
vações acarreta um custo: aumento da variância do estimador.
considerar demasiadas observações, diminui a variância do estimador mas aumenta o

erro de aproximação R i.e. aumenta o enviesamento do estimador.
O peso a dar às observações é controlado pelo kernel K (u) : Seja x 2 R. Como atribuir
mais ou menos peso às observações xt ?
( )
2
1 xt x 1 1 1 u 1
K = p exp
h h 0:1 2 2 :01
h : bandwidth ou parâmetro de alisamento.

Aproximação de ordem zero (estimador de Nadaraya-Watson):
@ (x)
Considera-se a aproximação yt = c + vt onde vt = @x0
(xt x) + R (xt ; x) + ut e
c= (x) : O objectivo é estimar c dando mais peso às observações próximas de x: Tem-se
377
2.0
1.5
1.0
0.5
-4 -3 -2 -1 0 1 2 3 4
n o
1 p1 1 u 1 2
Figura 10-1: 0:2 2
exp 2 0:2
2.0
1.5
1.0
0.5
-4 -3 -2 -1 0 1 2 3 4
n o
1 p1 1 u 1 2
Figura 10-2: 1 2
exp 2 1
378
assim,
X
n
^ N W (x; h) = c^ = arg min (yt c)2 wt
c
t=2
wt = h1 K xt x
h
: Resolvendo obtém-se
Pn xt x
K yt
c^ = Pt=2
n
h
xt x
:
t=2 K h
Aproximação linear:
Considera-se a aproximação
@ (x)
yt = (x) + (xt x) + et
@x0
= c + c1 (xt x) + et
onde et = R (xt ; x) + ut : O objectivo é estimar c dando mais peso às observações próximas

de x: Tem-se assim
^ (x; h) = c^
e c^ obtém-se a partir do problema de optimização
X
n
f^
c; c^1 g = arg min (yt c c1 (xt x))2 wt
fc;c1 g
t=2
Notando que
X
n
(yt c c1 (xt x))2 wt
t=im +1
Xn
1=2
2
= (yt c c1 (xt x)) wt
t=im +1
Xn
1=2 1=2 1=2
2
= yt wt cwt c1 w t (xt x) ;
t=im +1
o problema de optimização pode ser encarado como um problema de estimação OLS relati-
vamente à seguinte especificação:
1=2 1=2 1=2

yt wt = cwt + c1 w t (xt x) + errot
onde c é o parâmetro de interesse (c = (x)). Fixado o valor de h e dado o valor de x é
379
imediata a construção das variáveis
1=2 1=2
yt wt ; wt (xt1 x1 ) ; etc:
O problema de optimização pode também ser encarado como um problema de estimação

GLS relativamente à especificação
yt = c + c1 (xt x) + errot
assumindo-se uma pseudo heterocedasticidade da forma Var ( yt j xt ) = 1=wt : O estimador

GLS corresponde ao estimador OLS aplicado sobre as variáveis transformadas. Tem-se:
2 3
c^ 1
4 5 = (Z0 (x) W (x; h) Z (x)) Z0 (x) W (x; h) y
c^1
onde
2 3
1 x2 x
6 7
6 .. .. 7
Z (x) = 6 . . 7 W (x; h) = diag fw2 ; :::; wn g
4 5
1 xn x
2 3
y
6 2 7
6 . 7
y = 6 .. 7
4 5
yn
e a estimativa de interesse c^ é dada por
h i
1
c^ = 1 0 (Z0 (x) W (x; h) Z (x)) Z0 (x) W (x; h) y:
O estimador de Nadaraya-Watson é um caso particular:
1
c^ = (Z0 (x) W (x; h) Z (x)) Z0 (x) W (x; h) y
e Z (x) = Z = 11 (n 2) :
Podíamos estar interessados em E ( yt j xt = x) e não em E (yt j xt = x) : Nesse caso

tudo se mantém com a seguinte excepção: em lugar de yt deve-se considerar yt ; por exem-
380
plo,
h i
E( \
1
yt j xt = x) = 1 0 (Z0 (x) W (x; h) Z (x)) Z0 (x) W (x; h) y
Propriedades
Vamos considerar primeiro o caso em que xt é i.i.d., por ser mais fácil tratar.
2
B1 xt é i.i.d. e E (ut j xt ) = 0; Var (ut j xt ) = (xt )
B2 As funções m00 (x) e f 00 (x) são contínuas e limitada numa vizinhança de x.
B3 (nh)1=2 h2 ! 0 quando n ! 1;
Sob as hipóteses A1-A4 e B1 e B2, tem-se
Proposição 10.2.6
h2
E (^ N W (x)) = (x) + ( 00 (x) f (x) + 2f 0 (x) 0
(x)) 2
K + o h2
2f (x)
2 Z
1 (x) 1
Var (^ N W (x)) = K 2 (u) du + o
nh f (x) nh
Proposição 10.2.7
h2 00
E (^ (x)) = (x) + (x) 2K + o h2
2
2
(x) 2 1
Var (^ (x)) = K +o :
nhf (x) nh
Proposição 10.2.8
p
^ N W (x) ! (x)
p
^ (x) ! (x)
R
Proposição 10.2.9 Sob as hipóteses anteriores e E juj2+ <1e K (u)2+ du < 1
R
p d
2
(x) K 2 (u) du
nh (^ N W (x) E (^ N W (x))) ! N 0;
f (x)
381
Proposição 10.2.10 Sob as hipóteses anteriores e B3 tem-se
R
p d
2
K 2 (u) du
(x)
nh (^ N W (x) N W (x)) ! N 0;
f (x)
R 2
p d
2
(x) K (u) du
nh (^ (x) (x)) ! N 0;
f (x)
O caso em que xt envolve valores desfasados de yt é mais difícil de tratar. De todo o

modo é possível provar que se yt é um processo EE e fracamente dependente, os resultados
anteriores mantêm-se.
10.2.5 Estimação localmente linear da Variância Condicional
10.A Demonstrações
Tem-se
!
1 X
n
xt x
E f^ (x) = E K
nh t=1 h
1 xt x
= E K (devido a A1)
h h
Z
1 x
= K f ( )d
h h
Z
1 x
= K (u) f (uh + x) hdu (mudança de variável = u)
h h
Z
= K (u) f (uh + x) du
Z
0h2 u2 00
= K (u) f (x) + huf (x) + f (x) + ::: du (invocando a fórmula de Taylor)
2
Z Z Z
0 h2 u2 00
= K (u) f (x) du + K (u) huf (x) du + K (u) f (x) du + :::
2
Z
h2 f 00 (x)
= f (x) + K (u) u2 du + :::
2
h2 f 00 (x) 2K
= f (x) + + O h4
2
R
A última equação decorre de A2. Note-se que todos os termos do tipo K (u) uk du são zero
quando k é ímpar. O termo O (h4 ) inclui todos os restantes termos são de ordem igual ou
inferior a h4 no seguinte sentido limh!0 O (h4 ) =h4 = constante.
382
Por outro lado,
!
1 X
n
xt x
Var f^ (x) = Var K
nh t=1 h
!
1X
n
1 xt x
= Var K
n2 h t=1 h
1
= 2
Var (w1 + w2 + ::: + wn ) (com wt = h 1 K ((xt x) =h)
n
1 X 2 XX
n
= Var (w t ) + Cov (wi ; wj )
n2 t=1 n2
2X
n 1
1 t
= Var (wt ) + 1 Cov (w1 ; wt+1 ) (devido a A1):
n n t=1 n
Analise-se separadamente cada um destes termos.
1 xt x
Var (wt ) = Var K
h h
1 xt x
= Var K
h2 h
" #
2
1 2 x t x x t x
= E K E K
h2 h h
"Z Z #
2
1 x x
= K2 f ( )d K f ( )d
h2 h h
"Z Z #
2
1
= K 2 (u) f (hu + x) hdu K (u) f (hu + x) hdu
h2
Z
1 2 0 h2 u2 00
= K (u) f (x) + huf (x) + f (x) + ::: hdu
h2 2
Z 2
1 0 h2 u2 00
K (u) f (x) + huf (x) + f (x) + ::: hdu
h2 2
Z Z
1
= K (u) f (x) du + K 2 (u) uf 0 (x) du + :::
2
h
Z Z 2
K (u) f (x) du + K (u) huf 0 (x) du + :::
Z
f (x)
= K 2 (u) du + O (1)
h
(note-se que o termo de ordem O (1) definido na última equação inclui todos os demais
termos não presentes na equação e que são relativamente pequenos em comparação com
R
f (x) h 1 K 2 (u) du quando n é grande e h é pequeno).
P
Analise-se n2 nt=11 1 nt Cov (w1 ; wt+1 ). Notando que Cov (w1 ; wt+1 ) = t Var (w1 ) ;
383
devido a A1, tem-se
2X 2X
n 1 n 1
t t
1 jCov (w1 ; wt+1 )j = 1 j t j Var (w1 )
n t=1 n n t=1 n
2 Var (w1 ) X
n 1
t
= 1 j tj
n t=1
n
!
Var (w1 ) X
n 1
t 2t
2 1 C2 e (devido a A1)
n t=1
n
Var (w1 )
= O (1)
n
1 1
= O (pois Var (w1 ) = O ).
nh h
Desta forma,
2X
n 1
1 t
Var f^ (x) = Var (wt ) + 1 Cov (w1 ; wt+1 ) (devido a A1):
n n t=1 n
Z
f (x) 1
= K 2 (u) du + O :
nh nh

p X
n 1
t
Var ^
nhf (x) = h Var (wt ) + 2h 1 Cov (w1 ; wt+1 )
t=1
n
h i
Seja n = p1 onde [x] designa aqui a parte inteira de x: Tem-se
h
X
n 1
t Xn
t
2h 1 Cov (w1 ; wt+1 ) = 2h 1 Cov (w1 ; wt+1 )
t=1
n t=1
n
| {z }
J1;n
X
n 1
t
+2h 1 Cov (w1 ; wt+1 )
t=
n
n +1
| {z }
J2;n
Para 1 t n tem-se
384
jCov (w1 ; wt+1 )j E jw1 wt+1 j
x1 x 1 xt+1 x
= E K K
h h h
Z
1 x1 x xt+1 x
= 2
K K f1;t+1 (xt ; xt+1 ) dxt dxt+1
h h h
Z
= K (u) K (u + v) f1;t+1 (x; x) dudv + O (h)
= O (1) :
Assim
Xn
h p
J1;n h Cov (w1 ; wt+1 ) = hO ( n) = O (h n) =O p =O h = o (1) :
t=1 h
Para t > n considera-se o seguinte argumento:
Cov (w1 ; wt+1 ) Var (w1 )

t
Z
f (x)
= t K 2 (u) du + O (1)
h
Z
t
= f (x) K 2 (u) du + O (h) :
h
Assim,
X
n 1
t
J2;n = 2h 1 Cov (w1 ; wt+1 )
t=
n
n +1
X
n 1 Z
t
2 1 t f (x) K 2 (u) du + O (h)
t=
n
n +1
Z X
n 1
2 t
= 2 f (x) K (u) du + O (h) 1 t
t=
n
n +1
! 0
Pn 1 t
Pn 1
pois t= n +1
1 n t t= n +1 t ! 0 quando n ! 1 e n ! 1:
385
xt x
Seja t = h
: Tem-se
0 00 (xt x)2
yt = (x) + (x) (xt x) + (x ) + ut
2
2
h2 t
= (x) + h 0 (x) t+
00
(x ) + ut :
2
Por outro lado,

Pn
K ( t ) yt
^N W (x) = Pt=2
n
K ( t)
Pn t=2
K ( t ) yt
= Pt=2
n
t=2 K ( t )
P 2 2
(nh) 1 nt=2 K ( t ) (x) + h 0 (x) t + 00
(x ) h 2 t + ut
= P
(nh) 1 nt=2 K ( t )
1 Pn 2 2
(nh) t=2 K ( t) (x) + h 0 (x) t + 00
(x ) h 2 t + ut
=
f^ (x)
1 Pn 1 Pn 0
(nh) t=2 K ( t ) (x) + (nh) t=2 K ( t ) h (x) t
= +
f^ (x)
P 2 2 P
(nh) 1 nt=2 K ( t ) 00 (x ) h 2 t + (nh) 1 nt=2 K ( t ) ut
+
f^ (x)
(x) 1 X (x ) 1 X 1 X
0 n 00 n n
h 2 1
= (x) + K ( t) t + K ( t) t + K ( t ) ut :
f^ (x) n t=2 2f^ (x) n t=2 f^ (x) nh t=2
Considerem-se os dois primeiros momentos condicionais:
(x) 1 X (x ) 1 X
0 n 00 n
h 2
E ( ^ N W (x)j x1 ; :::; xn ) = (x) + K ( t) t + K ( t) t:
f^ (x) n t=2 2f^ (x) n t=2
386
Pela teorema do valor esperado iterado, vem
E (^ N W (x)) = E (E ( ^ N W (x)j x1 ; :::; xn ))

!
(x) 1 X h 00 (x ) 1 X
0 n n
2
= E (x) + K ( t) t + K ( t) t
f^ (x) n t=2 2f^ (x) n t=2
! !
00 2
K (u) u h (x ) K (u) u
= (x) + 0 (x) E + E
f^ (x) 2 f^ (x)
0 h2 2 0
Kf (x) 00
(x ) h2 2
Kf (x)
= (x) + (x) + o h2 + + o h2
f (x) 2 f (x)
h2 2K 00
= (x) + ( (x ) f (x) + 2f 0 (x) 0
(x)) + o h2
2f (x)
h2 2K 00
= (x) + ( (x) f (x) + 2f 0 (x) 0
(x)) + o h2 :
2f (x)
Por outro lado,
1 X 2
n
1 2
Var ( ^ N W (x)j x1 ; :::; xn ) = K ( t) (xt ) :
f^2 (x) n2 h2 t=2
Dado que o segundo termo da expressão Var (^ N W (x)) = E (Var ( ^ N W (x)j x1 ; :::; xn )) +
Var (E ( ^ N W (x)j x1 ; :::; xn )) é zero, vem
Var (^ N W (x)) = E (Var ( ^ N W (x)j x1 ; :::; xn ))

!
1 X 2
n
1 1 2
= E ^2 K ( t) (xt )
nh f (x) nh t=2
!
1 X 2
n
1 1 2
= E K ( t) (xt )
nh f^2 (x) nh t=2
!
1 1 1 2 2
= E K ( t) (xt )
nh f^ (x) h
2
Z Z
1 2 1 x
E K ( t) (xt ) = K2 2
( )f ( )d = K 2 (u) 2
(x + uh) f (x + uh) du
h h h
Z
= K 2 (u) 2
(x) f (x) + o (h) du
Z
2
= (x) f (x) K 2 (u) du + o (h) :
387
Desta forma,
!
1 1 2
1
Var (^ N W (x)) = E K ( t ) 2 (xt )
nh ^2
f (x) h
2 Z
1 (x) 1
= K 2 (u) du + o :
nh f (x) nh

388
Parte III
Aplicações
389
Página em branco
390
Capítulo 11
Eficiência do Mercado de Capitais
(Última actualização: Maio/2010)
11.1 Introdução e Definições

O mercado de capitais diz-se eficiente se os preços dos produtos financeiros reflectirem toda
a informação disponível. Quando é libertada uma informação relevante (por exemplo, um
anúncio de distribuição de dividendos de valor superior ao esperado, um anúncio de fusões
ou aquisições, etc.) num mercado eficiente os agentes reagem imediatamente comprando ou
vendendo de acordo com a informação e os preços ajustam-se imediatamente.
Num mercado eficiente, supõe-se que os agentes interpretam correctamente a infor-
mação. Caso contrário o preço pode não se ajustar rapidamente e abrem-se oportunidades
para a realização de rendibilidades anormais. Por exemplo, um investidor que compre ime-
diatamente acções após a divulgação de uma “boa notícia” pode obter um retorno anormal
se o preço de mercado se ajustar lentamente à informação disponível. Com efeito, bastará ao
investidor vender as acções depois do preço se ajustar a um nível mais alto.
É difícil imaginar um mercado completamente eficiente em todos os períodos de tempo.
Pode suceder que em certos momentos e face a determinadas notícias o mercado apresente
ineficiências que podem ser exploradas. Faz também sentido admitir que existem mercados
mais eficientes do que outros (mercados emergentes tendem a ser menos eficientes).
A eficiência dos mercados está intimamente relacionada com a informação disponível.
Fama (1970) propôs três formas de eficiência consoante a natureza da informação disponível:
um mercado é eficiente na forma fraca se os preços dos títulos reflectirem toda a infor-
mação sobre os preços passados; como consequência, as cotações passadas não podem
391
ser utilizadas para obter rentabilidades anormais;
um mercado é eficiente na forma semi-forte se os preços dos títulos reflectirem toda

a informação disponível ao público; a “informação disponível ao público” inclui os
preços passados, situação económica e financeira da empresa e, em geral, toda a infor-
mação não confidencial que o público em geral pode aceder;
um mercado é eficiente na forma forte se os preços dos títulos reflectirem toda a in-
formação disponível, pública e privada; a informação privada é conhecida apenas dos
gestores da empresa.
A hipótese dos mercados eficientes admite que todas as informações relevantes estão
disponíveis (a baixo custo) e que as cotações reflectem o conjunto dessas informações. Desta
forma, não é possível com base na informação disponível, obter ganhos persistentes acima
do “retorno normal”; se o mercado é ineficiente, os preços não traduzem o seu valor “justo”
ou valor “intrínseco” e é possível obter rendibilidades anormais.
A questão que normalmente se coloca consiste em saber se é possível obter rendibilidades
anormais de forma persistente utilizando uma estratégia de investimento. Uma forma para
analisar esta questão consiste em comparar a rendibilidade que se obtém a partir de uma certa
estratégia de investimento com a “rendibilidade normal” ou esperada deduzida em função de
um modelo de equilíbrio como o CAPM ou APT. Outra metodologia baseia-se em saber se
os retornos são ou não “previsíveis”. Esta análise pode ser conduzida a partir de um modelo
do tipo
rt = f (xt 1 ) + ut
onde xt 1 é um vector de variáveis cujos valores são conhecidos no momento t 1. Assim, rt

é previsível se xt 1 explicar rt (por outras palavras, rt é previsível se E (rt j Ft 1 ) 6= E (rt )).
O vector xt 1 pode incluir rt 1 ou fundamental variables como por exemplo, variáveis fi-
nanceiras (treasury bill rates, bonds returns, dividend yield (dividendo por acção/cotação),
price-earning ratios (cotação/lucro), etc.) ou variáveis macroeconómicas (produto, inflação,
etc.).
11.2 Teste à Eficiência Fraca de Mercado

Analisa-se se é possível obter rendibilidades anormais de forma persistente utilizando uma
estratégia de investimento baseada apenas nos preços passados.
392
Para simplificar admita-se que o retorno normal, E (rt ) = > 0 é constante. Se o
mercado é eficiente então é indiferente usar ou não usar a informação disponível Ft 1 para
prever rt e, desta forma tem-se
E (rt j Ft 1 ) = E (rt ) : (11.1)
Note-se que E (rt ) representa a previsão de rt não baseada em qualquer informação especí-
fica, a não ser nas “características gerais do processo”. Pelo contrário, se
E (rt j Ft 1 ) 6= E (rt )
então, a informação disponível Ft 1 é relevante para prever os retornos futuros. Nestas

circunstâncias, existe alguma informação sobre a “tendência provável” de rt ; e será possível,
em princípio, obter rentabilidades anormais, usando a informação disponível Ft 1 .
A equação (11.1) pode ser violada de inúmeras formas. Por exemplo, rt pode ser au-
tocorrelacionado ou rt pode ser uma função não linear de rt 1 (se rt seguir um qualquer
dos modelos discutidos anteriormente, como por exemplo, o modelo Markov-Switching ou o
Limiar Autoregressivo, a equação (11.1) é violada). As regras de compra e venda baseadas
na “análise técnica” baseiam-se também em relações não lineares entre os preços correntes
e os seus valores passados, ou sejam, supõem que a igualdade (11.1) é violada.
Certos autores formalizam o modelo de mercado eficiente estabelecendo que o preço ou
o logaritmo do preço é um passeio aleatório1 ,
log Pt = log Pt 1 + ut
sendo fut g um processo ruído branco ou, em termos mais gerais, uma diferença de martin-
gala. Esta formalização implica (11.1) e ainda que log Pt é uma martingala,
E (log Pt j Ft 1 ) = log Pt 1 :
1
A rigor é um impossibilidade o preço ser um passeio aleatório,
Pt = P t 1 + ut
uma vez que Pt , neste modelo, é não limitado em probabilidade. Isto significa que pode assumir valores
negativos com probabilidade um quando t tende para 1: De facto, prova-se que Pt visita os estados 1 e
+1 infinitas vezes quando t ! 1: Como os preços não podem ser negativos, por definição, o preço não pode
ser um passeio aleatório.
393
Esta formalização é contra intuitiva pois assume que o valor esperado do retorno é zero
(E (rt ) = 0) e, portanto, que o prémio de risco é negativo. Todavia, se o retorno for con-
venientemente ajustado ao risco, a propriedade de martingala deve verificar-se (vejam-se as
referências em Campbell et al., 1997, pág. 31).
Um modelo mais natural e compatível com (11.1) é o modelo de passeio aleatório com
deriva (positiva),
log Pt = c + log Pt 1 + ut ; c > 0:
Considerando rt = log Pt log Pt 1 ; o modelo de passeio aleatório com deriva é equivalente

a rt = c + ut e, portanto, E (rr j Ft 1 ) = E (rt ) = c:
11.2.1 Testes de Autocorrelação
Analise-se o exemplo seguinte.
Exemplo 11.2.1 Suponha-se rt = c + rt 1 + ut ; j j < 1; onde ut é um ruído branco.

Então
c
E (rt ) = ; E (rt j Ft 1 ) = c + rt 1
1
e a equação (11.1) é violada. Note-se também que r é autocorrelacionado.
Um teste à eficiência fraca dos mercados consiste, por exemplo, em ensaiar H0 : 1 =

::: = m = 0 através da estatística
X
m
1 d
Q = n (n + 2) ^2k ! 2
(m)
k=1
n k
A rejeição de H0 pode sugerir ineficiência de mercado, mas não a implica necessariamente.

Com efeito, pode suceder que a rejeição de H0 se faça com coeficientes de autocorrelação
demasiadamente baixos para oferecerem qualquer possibilidade de ganhos anormais, depois
de deduzidos os custos transacção. Seria necessário investigar se a estrutura de autocorre-
lação detectada implicaria uma rendibilidade superior a um portfolio de referência. Por outro
lado, a não rejeição de H0 não implica aceitação da eficiência da forma fraca porque pode
suceder que E (rt j Ft 1 ) seja uma função não linear de Ft 1 com fraca dependência linear.
394
11.2.2 Regras de Compra e Venda e a Análise Técnica
Uma forma popular entre traders and financial professionals de definir regras de compra e
venda assenta na chamada “análise técnica”. A análise técnica baseia-se num conjunto de
indicadores estatísticos gerados pelo mercado, tais como preços e volume, visando estabele-
cer regras de compra e venda de activos cotados em bolsa2 . A generalidade dos indicadores
procura detectar tendências de subida ou descida das cotações. Analisam-se três regras de
compra e venda (provavelmente as mais utilizadas e conhecidas, mas existem muitas out-
ras regras) e discutem-se procedimentos econométricos destinados a aferir a qualidade das
regras. A previsibilidade associada às regras de compra e venda não significa necessaria-
mente ineficiência de mercado. Para argumentar que um mercado é ineficiente é necessário
demonstrar que a regra de investimento seleccionada é superior a um porfolio de referência.
Regra Média Móvel
Seja
Pt + P t 1 + ::: + Pt k+1
Mt (k) =
k
uma média móvel (MM) de ordem k da variável P; no momento t: A estatística Mt (k)
fornece uma medida de tendência local de P: Quanto maior for k mais informação atrasada
a média móvel contém e, também, mais alisada é a tendência. Pelo contrário, se k é baixo, a
estatística Mt (k) fornece apenas a tendência recente de P: Defina-se assim a MM de curto
prazo, Mt (c) ; onde c é uma valor “baixo” e a MM de longo prazo, Mt (l) onde l é um valor
“alto”. Tipicamente, para dados diários, c e l são escolhido nos intervalos, 1 c 5e
50 l 250: Do confronto entre a MM de curto e longo prazo argumenta-se que é possível
projectar uma tendência futura de P: Mais concretamente, se Mt (c) > Mt (l) ; os preços
mais recentes estão mais altos do que os preços mais antigos. Isto sugere que os preços
seguem uma tendência positiva. A regra prescreve uma compra para o período t + 1: Se as
duas médias são aproximadamente iguais, a tendência futura sobre os preços não é clara, e
neste caso não há lugar a compra ou venda. Esta regra pode ser melhorada, estabelecendo um
sinal de compra ou venda apenas quando a diferença entre Mt (c) e Mt (l) for significativa,
digamos acima de um certo limiar B (bandwidth): Assim, as regras de compra e venda para
2
A abordagem fundamental analysis, ao contrário, estabele regras de compra e venda com base em factores
financeiros e económicos. Por exemplo, analisam-se variáveis financeiras (treasury bill rates, bonds returns,
dividend yield (dividendo por acção/cotação), price-earning ratios (cotação/lucro), etc.) ou macroeconómicas
(produto, inflação, etc.).
395
NASDAQ composite
2380
2280
2180
2080
P
1980
MM curta
1880 MM longa
1780
Jan-05 Mar-05 May-05 Jul-05 Sep-05 Nov-05 Jan-06
comprar = 1, vender = 0
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Figura 11-1: Regra Média Móvel - Aplicação ao NASDAQ composite Jan-05 a Mar-06
o dia t + 1, passariam a ser: comprar se Mt (c) > Mt (l) + B; vender se Mt (c) < Mt (l) B
e não transaccionar se jMt (c) Mt (l)j B:
Na figura 11-1 ilustra-se a regra média móvel ao NASDAQ composite (Jan-05 a Mar-
06). Fixou-se c = 10 e l = 50: Em princípio deveriamos escolher um valor de c entre 1 e
5; todavia, a escolha c = 10 permite identificar melhor graficamente a média móvel Mt (10)
(com c 5 a série Mt (c) praticamente não se distingue, graficamente, de P ).
Regra Canal
À semelhança da regra média móvel, também esta regra se baseia numa hipótese sobre a
evolução futura da tendência dos preços. Antevê-se uma subida ou descida dos preços com
base na comparação entre o valor actual do preço Pt e o valor mínimo ou máximo atingido
pelos preços nos últimos L dias. Sejam,
mt 1 = min (Pt 1 ; Pt 2 ; :::; Pt L) ;
Mt 1 = max (Pt 1 ; Pt 2 ; :::; Pt L)
respectivamente os valores mínimo e máximo atingidos pelos preços nos últimos L dias. A
ideia é a seguinte: se no dia t houve uma indicação de compra e Pt é significativamente
396
t+1
Comprar Vender Neutro
t
Comprar Pt > (1 + B) mt 1 Pt < (1 B) mt 1 outros casos
Vender Pt > (1 + B) Mt 1 Pt < (1 B) Mt 1 outros casos
Neutro Pt > (1 + B) Mt 1 Pt < (1 B) mt 1 outros casos
Tabela 11.1: Regras de Compra e Venda Baseadas no procedimento Canal
NASDAQ composite
2380
2280
2180
2080
1980
1880
1780
comprar = 1, vender = 0
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Figura 11-2: Regra Canal - Aplicação ao NASDAQ composite Jan-05 a Mar-06
superior a mt 1 então antevê-se uma tendência de crescimento dos preços e a indicação

deve ser de compra; de igual forma, se no dia t houve uma indicação de venda e Pt é sig-
nificativamente inferior a Mt 1 então antevê-se uma tendência de queda dos preços e a in-
dicação deve ser de venda. Diz-se que Pt é “significativamente” superior (inferior) a Mt 1
se Pt > (1 + B) Mt 1 (respectivamente Pt < (1 + B) Mt 1 ) e B é um parâmetro positivo

(bandwidth), calibrado com base na experiência passada. Formalmente, as regras canal de
compra e venda estão apresentadas na tabela 11.1.
Na figura 11-2 ilustra-se a regra canal ao NASDAQ composite (Jan-05 a Mar-06). Fixou-
se L = 50 e B = 0:
397
t+1
Comprar Vender Neutro
t
Comprar t+1;t >0 t+1;t < B outros casos
Vender t+1;t >B t+1;t <0 outros casos
Neutro t+1;t >B t+1;t < B outros casos
Tabela 11.2: Regras de Compra e Venda Baseadas num ARMA
Regra Modelo ARMA
Seja t+1;t a previsão do retorno para o momento t + 1 dado Ft ; baseado num certo modelo
ARMA. Na tabela 11.2 definem-se as regras de compra e venda. A posição (1,1) na tabela
11.2, estabelece o seguinte: se no período t houve uma indicação de compra e t+1;t > 0
então antecipa-se uma tendência de subida dos preços e a indicação é de compra para o
período t + 1 . A posição (2,1) estabelece o seguinte: se no período t houve uma indicação
de venda e t+1;t > B então a indicação é de compra para o período t+1: O período t+1 é de
compra apenas se a previsão do retorno for suficientemente alta, digamos, acima de B > 0:
Se t+1;t > 0 mas t+1;t < B entende-se que não existe indicação suficientemente clara
de compra dado que no período anterior o dia foi de venda e, nestas circunstâncias, o dia é
considerado neutro, isto é, não há lugar a venda ou compra. As demais células interpretam-se
de forma similar.
O parâmetro B pode ser estimado com base na informação passada: selecciona-se o valor
que maximiza o lucro.
Medidas de Previsibilidade
Embora as duas primeiras regras atrás apresentadas envolvam preços, as medidas de pre-
visibilidade, por exigirem a aplicação do teorema do limite central e a lei dos grandes
números, são construídas a partir dos retornos, dado que estes são (em princípio) proces-
sos estacionários.
Considere-se um certa regra de compra e venda e defina-se, C o conjunto dos índices t
onde há um sinal de compra para o período seguinte, t + 1; e V o conjunto dos índices t onde
há um sinal de venda para o período seguinte, t + 1. Por exemplo, se nos dias 3, 7 e 9 há
sinais de compra para os respectivos períodos seguintes, e nos dias 6 e 11 há sinais de venda
para os períodos seguintes então, C = f3; 7; 9g e V = f6; 11g : Seja nC o cardinal de C; nV
398
o cardinal de V (no exemplo dado nC = 3 e nV = 2),
1 X
rC = rt+1
nC t2C
a média empírica dos retornos em que houve um sinal de compra e
1 X
rV = rt+1
nV t2V
a média empírica dos retornos em que houve um sinal de venda.

Se a regra de compra e venda é informativa então
E (rt+1 j t 2 C) 6= E (rt+1 j t 2 V )
i.e., o valor esperado dos retornos depende da informação de compra ou venda e, por isso, os
dois valores esperados são diferentes. Se, pelo contrário, E (rt+1 j t 2 C) = E (rt+1 j t 2 V )
então o comportamento dos retornos no período t + 1 não reflecte a expectativa de subida ou
descida dos preços, dada pela regra de compra e venda.
Numa regra informativa devemos esperar E (rt+1 j t 2 C) > E (rt+1 j t 2 V ) ; i.e., o sinal
de compra (venda) está associado a uma expectativa de subida (descida) sustentada dos
preços.
Temos várias formas de testar se uma regra de compra e venda é informativa. Uma
possibilidade consiste em realizar o teste diferença de média. Admitindo que os retornos são
i.i.d., tem-se que, sob a hipótese nula, H0 : E (rt+1 j t 2 C) = E (rt+1 j t 2 V ) a estatística
rC rV
z=q 2 (11.2)
^C ^ 2V
nC
+ nV
tem distribuição assimptótica N (0; 1) :

Um teste preferível que não exige independência dos retornos e pode acomodar autocor-
relação e heterocedasticidade dos erros consiste na análise da significância do parâmetro 1
na regressão
rt = 0 + 1 It 1;C + 2 It 1;N + ut (11.3)
(com erros padrão robustos) onde It;C e It;N são variáveis dummies; It;C assume o valor 1
quando no período t houve uma indicação de compra e It;N que assume o valor 1 quando no
399
período t houve uma indicação neutra. O chamado “grupo base” consiste na “indicação de
venda”. Da equação (11.3) tem-se
E (rt+1 j t 2 C) = 0 + 1; E (rt+1 j t 2 V ) = 0
e, portanto, se 1 = 0 então E (rt+1 j t 2 C) = E (rt+1 j t 2 V ) : Pelo contrário, se 1 >0

então E (rt+1 j t 2 C) > E (rt+1 j t 2 V ) : Deve-se então realizar o ensaio H0 : 1 = 0 vs.
H1 : > 0:
11.3 Teste à Eficiência Semi-Forte de Mercado

Analisa-se se é possível obter rendibilidades anormais de forma persistente utilizando uma
estratégia de investimento baseada nos preços passados e na informação pública disponível.
Seja It = Ft [ FtX onde FtX é o conjunto de toda a informação pública disponível, como
por exemplo, balanços, relatórios da empresa, notícias divulgados pela empresa, etc. Se o
mercado é eficiente no sentido semi-forte então é indiferente usar ou não usar a informação
disponível It 1 para prever rt e, desta forma tem-se
E (rt j It 1 ) = E (rt )
Pelo contrário, se
E (rt j It 1 ) 6= E (rt )
então, a informação disponível It é relevante para prever os retornos futuros. Nestas circun-
stâncias, existe alguma informação sobre a “tendência provável” de rt ; e será possível, em
princípio, obter rentabilidades anormais, usando a informação disponível It .
Existem inúmeros procedimentos e conjuntos de informação It usados para testar a efi-
ciência (semi-forte) de mercado. A literatura tem estudado (entre muitos outros) os seguintes
tópicos:
Efeito do tamanho da empresa. A questão é: apresentarão as empresas pequenas, em

termos da sua capitalização de mercado, rendibilidades médias superiores às empresas
grandes, com nível de risco semelhante?
Reacção do mercado à chegada de informação. Este tópico é importante na análise da

eficiência e é analisado em detalhe na secção 11.3.1.
400
Valor de mercado versus valor contabilístico. Entende-se que um valor de mercado
baixo face ao valor contabilístico pode indicar, em certas circunstâncias, que as acções
estão subavaliadas.
Rácio preço/lucro ou price-earnings ratio (P/E). Valores baixos significam que as

acções da empresa em análise são transaccionados a um preço relativamente baixo
face ao valor dos lucros e, portanto, a cotação da empresa poderá estar “barata”;
Impacto de outras variáveis financeiras como por exemplo, taxas de juro de obrigações
de tesouro, dividendos por acção (dividend yield), etc.
Impacto de variáveis económicas, como por exemplo, produto, inflação, etc.
Impacto de outras “anomalias” mercado, como por exemplo, efeito dos dias da semana,
efeito de fim de semana, fim de ano, etc. (efeitos de calendário - algumas destes tópicos
foram já abordados na secção 3.1.6).
Se o objectivo é analisar a eficiência do mercado (e, de certa forma a previsibilidade dos

retornos) com base na variável x (e.g. taxa de juro) a variável x deverá entrar no modelo de
regressão com um ou mais desfasamentos. Só assim é possível testar a previsibilidade de r.
O modelo seria assim do tipo
rt = c + x t 1 + ut :
Pode até suceder que o modelo rt = c + xt + ut (com xt e não com xt 1 ) produza um

ajustamento superior; mas neste caso o modelo não pode testar a previsibilidade de r com
base em x (note-se de passagem que este último modelo é o CAPM se xt é a rendibilidade
de mercado). Para se obterem rendibilidades anormais com base num modelo de previsão
é necessário saber, com alguma antecipação, a tendência futura dos preços (e daí x entrar
desfasado no modelo).
11.3.1 Reacção do Mercado à Chegada de Informação
Se o mercado é totalmente eficiente os activos respondem imediatamente à chegada de in-

formação relevante ao mercado. A informação relevante poderá ser informação específica
sobre a empresa, como por exemplo, o anúncio de lucros ou dividendos, o anúncio de fusões
e aquisições, etc. Poderá também ser o anúncio de medidas de política económica ou outros
eventos que tenham impacto sobre a rendibilidades dos activos financeiros.
401
A questão é, portanto, óbvia: trata-se de identificar as informações similares relevantes
e verificar se na vizinhança da data da divulgação da notícia as rendibilidades apresentaram
um comportamento “anormal”.
Para simplificar divida-se o estudo do impacto da chegada da informação sobre as rendibil-
idades em duas áreas: A) impacto de notícias similares sobre um conjunto de empresas e B)
impacto de notícias similares sobre uma empresa específica. No caso A) começa-se por
recolher uma amostra de N empresas que estiveram expostas a anúncios não antecipados e
observam-se as rendibilidades anormais na vizinhança das datas dos anúncios. A rendibili-
dade anormal, ra; do activo i no período t é
rat;i = rt;i rendibilidade esperada do activo i no momento t:
sendo rt;i o retorno do activo i no momento t: Como avaliar a rendibilidade esperada do

activo i no momento t? A abordagem habitual consiste em tomar um modelo de equilíbrio
como o CAPM ou a APT. Tomando o CAPM vem
rat;i = rt;i ^ i + ^ i rm;t
onde rm;t é a rendibilidade do mercado no momento t: Sejam
PN PN
rat;i (rat;i rat )2
rat = i=1
; s2t = i=1
;
N N 1
respectivamente, a média e a variância empírica seccional das rendibilidades anormais das

empresas na data t: Estas estatísticas podem ser calculadas para qualquer t; mas tem sobre-
tudo interesse analisar rat e s2t para t numa vizinhança do anúncio. Convencionando que o
anúncio ocorre na data 0 e fixando uma janela temporal de d períodos para antes e depois do
anúncio, rat e s2t podem ser calculadas para t = d; :::; 1; 0; 1; :::d:
Suponha-se que é divulgada uma notícia “boa”, como por exemplo, um anúncio de div-
idendos acima do esperado. Se as rendibilidades anormais se concentram em t = 0 não
podemos rejeitar a hipótese de o mercado ser eficiente. Pelo contrário, se existirem rendibil-
idades anormais apenas para t > 0 poderão existir indícios de ineficiência, sobretudo se t é
medido em dias. Em geral é preferível usarem-se dados intra-diários, por exemplo, períodos
de 5, 10 ou 15 minutos.
É possível aprofundar a análise construindo uma sucessão frat g para todas as obser-
402
vações disponíveis (e não apenas na vizinhança da data do anúncio). Com este procedimento
é possível comparar rat nos períodos vizinhos e não vizinhos do anúncio, por exemplo,
analisando a significância de 2 na regressão,
rat = 0 + 1 I0;t + 2 I1;t + ut :
onde I0;t e I1;t são variáveis dummies. I0;t assume o valor 1 quando t corresponde à data de
anúncio e I1;t assume o valor 1 quando t corresponde a uma data imediatamente a seguir à
data de anúncio . Se 2 é significante então é possível que o mercado seja ineficiente (ou não
totalmente eficiente). Se, pelo contrário, apenas 1 é significante então o impacto do anúncio
concentra-se no período do anúncio e não há razões para rejeitar a hipótese de eficiência. A
análise poderá ser mais fina, adicionando-se mais variáveis dummies.
Se o objectivo é avaliar o impacto de notícias similares sobre uma empresa específica -
caso B) - o procedimento mais simples consiste em formular a equação de regressão
rt = 0 + 1 I0;t + 2 I1;t + 3 rm;t + ut : (11.4)
A introdução da variável rm;t é importante porque permite isolar o efeito do anúncio do

efeito de mercado. Com efeito, suponha-se que o anúncio tem impacto sobre a rendibilidade
do mercado. Como a rendibilidade do mercado está correlacionado com a rendibilidade da
acção em análise, o anúncio acaba por influenciar a rendibilidade da acção através do com-
portamento global do mercado. Um modelo de regressão sem a variável rm;t não permite
isolar o efeito do anúncio sobre a empresa. Por exemplo, neste modelo mais reduzido, se
o parâmetro 2 vem diferente de zero não se sabe se 2 6= 0 se deve ao efeito retardado
do anúncio sobre a empresa ou ao efeito do mercado sobre a empresa induzido pelo anún-
cio. Pode haver outra razão para introduzir rm;t : Suponha-se que os anúncios coincidem
com movimentos de alta do mercado. Se rm;t não está no modelo os anúncios não podem
distinguir-se dos movimentos de alta.
403
Página em branco
404
Capítulo 12
Selecção de Portfolios
Vai analisar-se o problema da determinação dos pesos óptimos de uma carteira consti-
tuída por m activos com risco e um activo sem risco por parte de um investidor individual.
Os resultados principais devem-se a Markowitz (prémio Nobel 1990), James Tobin (prémio
Nobel 1981) e William Sharpe (prémio Nobel 1990). O objectivo deste capítulo consiste em
apresentar a teoria básica e ilustrar o problema da determinação dos pesos óptimos a partir
de momentos marginais e condicionais da distribuição dos retornos.
Os modelos de heterocedastiocidade multivariada são particularmente úteis quando os
pesos óptimos se baseiam em momentos condicionais.
12.1 Portfolio Baseado em Momentos Marginais

Assumem-se as seguintes hipóteses:
1. Os retornos seguem uma distribuição marginal normal multivariada;
2. As correlações entre os retornos são fixas ao longo do tempo;
3. O investidor é racional, tem aversão ao risco, usa toda a informação disponível e

procura o máximo lucro, para um determinado nível de risco;
4. Não existem custos de transacção;
5. O investidor é price taker, isto é, não tem capacidade de influenciar os preços;
6. O investidor pode emprestar e pedir emprestado sem restrições;
405
7. Todos os activos podem ser convenientemente fraccionados.
12.1.1 Todos os Activos Envolvem Risco
Para além das hipóteses anteriores suponha-se que não existe o activo sem risco, i.e., todos
os activos envolvem risco.
Estabeleça-se a seguinte notação:
vector dos retornos: rt = (R1t ; :::; Rmt )0 ;
vector do valor esperado dos retornos: = (E (R1t ) ; :::; E (Rmt ))0 ;
matriz das variâncias-covariâncias dos retornos: Var (rt ) = H;
vector dos pesos da carteira: ! = (! 1 ; :::; ! m )0 ;

Pm
retorno do portfolio: Rpt = i=1 ! i Rit = ! 0 rt
valor esperado do portfolio: E (Rpt ) = E (! 0 rt ) = ! 0
2
Variância do portfolio p = Var (Rpt ) = Var (! 0 rt ) = ! 0 Var (rt ) ! = ! 0 H!:
Pm
Naturalmente que i=1 ! i = 1 , ! 0 1 = 1 onde 1 (a negrito) representa um vector-
coluna de 1’s. Para simplificar, assume-se que todos os activos envolvem risco e que alguns
pesos ! i (mas não todos) podem ser negativos. Na teoria financeira um peso pode ser nega-
tivo quando há lugar a uma venda a descoberto ou short selling1 . Esta hipótese simplifica o
problema de optimização.
Em condições normais, qualquer investidor procura dois objectivos antagónicos: max-
imizar o lucro (ou valor do retorno) e minimizar o risco. Os objectivos são contraditórios
porque, em geral, os activos com maior (menor) retorno (em média) são os que possuem
maior (menor) variabilidade. Para conciliar estes objectivos, pode-se, por exemplo, (i) fixar
um valor para o retorno esperado do portfolio e, para esse valor, procurar os activos com a
menor variabilidade possível; ou (ii) fixar um valor para o risco do portfolio (variância) e,
depois, procurar os activos com o maior retorno esperado possível.
1
Venda a descoberto ocorre quando se vende um activo financeiro ou derivado que não se possui, esperando
que o preço caia para depois comprá-lo e lucrar na transação. O mecanismo é o seguinte: o agente A pede
(digamos) uma acção a B e promete-lhe todo o rendimento subjacente ao título. A vende imediatamente a
acção a C; mais tarde, A compra no mercado a acção para a devolver a B. Se o preço da acção cair, esta
operação é vantajosa para A.
406
Suponha-se que se opta pelo procedimento (i). O problema de optimização é então
8 8
< min Var (R ) < min ! 0 H!
!i pt !i
P , (12.1)
: s.a E (R ) = m : s.a ! 0 = 0
pt p e i=1 ! i = 1 p e! 1 = 1
Considere-se a função Lagrangeana,
L (!) = ! 0 H! + 1 p !0 + 2 (1 ! 0 1)
( 1 e 2 são os multiplicadores de Lagrange). Resolvendo o sistema, que se obtém a partir

das condições de primeira ordem (@L=@! = 0; ! 0 = p e ! 0 1 = 1), e notando que L é
uma função convexa2 , obtém-se a solução do problema de optimização:
! =! p = g+ p h (12.2)
onde
g= H 11 H 1
; h= H 1
H 1 1;
0
= H 1 1; = 0
H 1
; = 10 H 1 1; = 2
;
1 = (1; 1; :::; 1)0 :
A expressão ! p mostra que os pesos óptimos dependem de p (fosse definido outro

valor para p; e os pesos óptimos seriam outros).
Resulta que a variância mínima associada ao retorno p é
2
p = Vp p = ! 0 H! :
O problema (ii) é equivalente ao problema (i) no seguinte sentido. Suponha-se que se

fixa Vp p como restrição e se procura maximizar o retorno, i.e.
8
< max E (R )
!i pt
: s.a Var (R ) = V Pm
pt p p e i=1 ! i = 1:
A função ! 0 H! é estritamente convexa se H for uma matriz definida positiva (hipótese pacífica). As
2
funções 1 p ! 0 e 2 (1 ! 0 1) são convexas por serem lineares (funções lineares são, por definição,
côncavas e convexas).
407
Então, pode-se provar, a solução deste problema optimização é precisamente p. Desta forma
basta estudar o problema formulado na equação (12.1).
Na prática os valores esperados e H são desconhecidos. É necessário estimá-los a
partir dos valores observados. Supondo que frt g é um processo estacionário fracamente
dependente, e H podem ser estimados usando os seguintes estimadores consistentes:
0 1
r
B 1 C h i
B .. C ^ ^ ij
^ =B . C; H= h
@ A i;j=1;::;m
rm
^ ij é o elemento (i; j) da matriz H;

onde h ^ dado por
X n
^ ij = 1
h (rit ri ) (rjt rj ) :
n t=1
Exemplo 12.1.1 Considere-se um portfolio constituído pelas acções A1, A2 e A3. Vai ser
tomada uma decisão de investimento no valor de 1 milhão de Euros. A questão é: quanto
comprar de cada um desses activos? Com base em observações diárias suponha-se que se
obtém3 : 0 1 0 1
5:22 1:549 0:9534 0:465
B C B C
B C ^ = B 0:9534 2:093 1:0416 C
B
^ = B 6:05 C H C:
@ A @ A
5:98 0:465 1:0416 1:265
As rendibilidades estão anualizadas e em percentagem. Suponha-se que se pretende obter

um retorno esperado do portfolio de p = 5:85: Usando a expressão (12.2) obtém-se
0 1
0:176
B C
^ (5:85) = g
! ^ =B
^+ p h
C
B 0:104 C :
@ A
0:720
3
Estimativas baseadas nos retornos dos índices SP500, DowJones e PSI20, no período 04/01/1993-
04/09/2009.
408
Desta forma, a variância mínima do portfolio associado à rendibilidade 5:85 é
^ 0 H^
Vpt (5:85) = ! !
0 10 1
1:549 0:9534 0:465 0:176
B CB C
B CB C
= 0:176 0:104 0:72 B 0:9534 2:093 1:0416 C B 0:104 C = 1:03:
@ A@ A
0:465 1:0416 1:265 0:720
p
O vector de pesos óptimo associado à combinação p; p = 1:03; 5:85 diz-nos que a
composição do portfolio deve ser de 17.6% de A1, 10.4% de A2 e 72% de A3.
No exemplo anterior o investidor pode estar interessado em analisar outras combinações

de retorno versus risco (mínimo). Desta forma, podemos fixar outros valores para p e, as-
sim, obter as correspondentes variâncias mínimas do portfolio. No exemplo anterior, p pode
variar entre 5.22 e 6.05. Faça-se uma grelha de valores para p; por exemplo, escrevam-se
100 valores equidistantes para p no intervalo [5:22; 6:05] e obtenham-se as correspondentes
variâncias mínimas:
p Vp p
.. ..
. .
5:85 1:03
.. ..
. .
6:05 1:32
q
O gráfico definido pelos pares ordenados Vp p ; p onde p é maior ou igual ao re-
torno associado à variância mínima de todos os portfolios designa-se por fronteira eficiente.
q
Na figura 12-1 traçam-se todos os pontos Vp p ; p : O ponto A representa o par
p
ordenado Vp ( min ); min onde Vp ( min ) é o valor da variância mínima de todos os
portfolios e min é o retorno esperado associado (também mínimo). A fronteira eficiente
é dada pelo segmento AB. O ponto C não faz parte da fronteira eficiente, pois existe um
ponto D com igual variância mas retorno esperado superior. Assim, só os pontos sobre a
curva AB são relevantes para o investidor e, por isso, no gráfico definido pelos pares orde-
q
nados Vp p ; p só interessam os pontos onde p é maior ou igual ao valor da orde-
q
nada do ponto A. O investidor deve agora decidir qual o par Vp p ; p sobre a curva
AB que mais lhe interessa, tendo em conta a sua maior ou menor aversão ao risco. Se for
q
averso ao risco tenderá a escolher um par Vp p ; p mais próximo do ponto A; se tiver
maior apetência pelo risco tenderá a escolher uma solução mais próxima do ponto B. Contin-
409
Figura 12-1: Fronteira Eficiente: Curva AB
uando o exemplo anterior, suponha-se que a combinação preferida do investidor é p ; p =

p
1:03; 5:85 . Tendo em conta que o vector de pesos é ! = (0:176; 0:104; 0:72)0 , o inves-
timento de 1 milhão de Euros seria então alocado da seguinte forma: 176000 Euros em A1,
104000 em A2 e 720000 em A3.
A fronteira eficiente dada pelo segmento AB é uma função não linear. Esta conclusão é
imediata tendo em conta a representação paramétrica da função:
q q q
0 2;
Vp p ; p = g+ p h H g+ p h ; p = c0 + c1 p + c2 p p :
Se c0 = c1 = 0 a função seria linear.

Como determinar analiticamente o valor da variância mínima de todos os portfolios efi-
p
cientes? Trata-se, afinal, de determinar as coordenadas do ponto A = Vp ( min ); min
da figura 12-1. Para o efeito resolve-se o problema de optimização livre
dVp p d (! 0 H! )
= = 0;
d p d p
cuja solução é
g0 Hh
min = :
h0 Hg
410
Inserindo este valor em Vp () obtém-se
0 (g0 Hh)2
Vp ( min ) = g Hg
h0 Hh
Aplicando estas fórmula aos valores do exemplo anterior obtém-se min = 5:63 e Vp ( min ) =
0:919:
12.1.2 Modelo com Activo Sem Risco
O porfolio inclui agora o activo sem risco (por exemplo, obrigações e os títulos do Tesouro4 ).
Tem rendibilidade certa f (e, por isso, tem variância e covariâncias nulas com os demais ac-
tivos). A rendibilidade do portfolio é agora ! 0 + (1 ! 0 1) f: O problema de optimização
passa a ser 8
< min ! 0 H!
!i
: s.a ! 0 + (1 ! 0 1) =
f p:
Note-se que os pesos ! 0 1; (1 ! 0 1) ; somam um. A matriz H mantém-se naturalmente

inalterada e, por isso, a função objectivo é a mesma. Apenas as restrições são modificadas.
Pode-se provar que a solução é
! p =c p !;
p f 1
c p = 0 ; !=H f1 :
1
f1 H f1
Resulta que a variância mínima associada ao retorno p é
0 2
Vp p = ! 0 H! = c p ! Hc p ! =c p ! 0 H!:
Nesta formulação a composição da carteira dos activos com risco é fixa, dado f; qual-
quer que seja o valor p. Com efeito, ! é proporcional a ! e a constante de proporcionali-
dade é c p : Por exemplo, suponha-se que se tem dois activos com risco e ! = (0:3; 0:6)0 :
Então dado o valor de f, o número de acções do activo 2 é sempre o dobro do do activo 1,
qualquer que seja o valor que queiramos para a rendibilidade do portfolio.
A observação anterior sugere que o valor do portfolio pode ser dado como uma combi-
4
Naturalmente, em condições normais, o estado não entra em falência. Não há portanto risco de incumpri-
mento. Mas é preciso notar que as obrigações e os títulos do Tesouro têm o risco da taxa de juro (risco da taxa
de juro subir e do preço dos títulos descer).
411
nação linear de um portfolio constituído apenas por activos de risco e o activo sem risco.
Este portfolio, constituído apenas por activos de risco, designa-se por tangency portfolio. Os
pesos deste portfolio não poderão ser exactamente dados por ! dado que os pesos ! 0i s não
somam um. Assim defina-se
! !
! T = Pm = :
i=1 !i !01
Note-se agora que a soma dos pesos do vector ! T somam um e ! = ! T ! 0 1: Podemos assim
escrever
! =c p ! =c p ! 0 1! T = a! T ; a=c p ! 0 1:
O retorno do portfolio pode ser escrito como uma combinação linear entre o retorno do
tangency portfolio, T e o retorno do activo sem risco, f:
0
p =! + (1 ! 0 1) f = a! 0T + (1 a) f =a T + (1 a) f:
Por seu lado a variância do portfolio pode também ser escrita em função de ! T :
Vp p = ! 0 H! = a! 0T Ha! T = a2 ! 0T H! T = a2 2
T
e o desvio padrão do portfolio p =a T
A fronteira eficiente é linear no espaço p; p . Com efeito, usando algumas expressões

já deduzidas, tem-se
p; p = a T;a T + (1 a) f :
Esta representação paramétrica da fronteira eficiente permite deduzir
p
p =a T )a=
T
e, substituindo o valor de a em p =a T + (1 a) f; resulta que a fronteira eficiente no

espaço p; p é dada pela recta (na forma reduzida)
T f
p = f + s p; s= :
T
Na figura 12-2 a fronteira eficiente é representada pela recta bT, i.e. p = f + s p. O

declive da recta é s = (a b) =c (na figura a representa T; b representa f e c representa
T: O valor s é designado por rácio de Sharpe.
412
Figura 12-2: Fronteira Eficiente de um Portfolio com Activo Sem Risco (Recta)
12.2 Portfolio Baseado em Momentos Condicionais

O problema de optimização de um portfolio baseado nos dois primeiros momentos marginais
da distribuição dos retornos implica que a decisão de investimento se mantém fixa ao longo
do tempo, pois se o processo dos retornos é estacionário, como se admite na fase da esti-
mação dos parâmetros, os momentos Var (Rpt ) e E (Rpt ) são constantes ao longo tempo e,
por isso, a solução óptima é sempre a mesma, quaisquer que sejam as condições de mercado.
Naturalmente, nenhum gestor de fundos segue esta estratégia de investimento, mesmo que
as suas decisões se baseiem nos princípios do portfolio definido no ponto precedente. Na
^ usando médias móveis ou alisamentos exponenciais para de-
prática podem estimar ^ e H
sprezarem a informação antiga e actualizarem os parâmetros e H com informação mais
recente. Desta forma os peso ! i podem variar ao longo do tempo, e as decisões de investi-
mento podem ajustar-se de acordo com as condições de mercado. Mas a percepção de que
as condições de mercado se alteram ao longo do tempo exige uma abordagem diferente.
Uma decisão de investimento tomada no momento t 1; resulta da avaliação das condições
de mercado e, em geral, da informação disponível no momento t 1: Esta decisão tomada
no período t 1 pode naturalmente alterar-se no momento t; se as condições de mercado
e a informação disponível em t se alterarem também. Desta forma, a selecção dos activos
deve basear-se em momentos condicionais e não em momentos marginais. Recorde-se que
as melhores previsões dos retornos e da volatilidade para o período t; dada toda a informação
413
disponível até ao momento t 1; são dadas pelos dois primeiros momentos condicionais. A
determinação dos pesos óptimos usando momentos condicionais assenta na ideia de que o
portfolio pode ajustar-se continuamente ao longo do tempo em função das condições de mer-
cado. Esta abordagem tem ainda a vantagem de contornar as criticas que se fazem às duas
primeiras hipóteses definidas na secção anterior (os retornos seguem uma distribuição mar-
ginal normal multivariada, e as correlações entre os retornos são fixas ao longo do tempo).
Como se sabe, no quadro de um modelo baseado em momentos condicionais variáveis, não
só a distribuição marginal não é (em condições muito gerais) normal, como também as cor-
relações (condicionais) podem ser variáveis ao longo do tempo.
Na formulação que a seguir apresentaremos, a decisão de investimento é tomada no mo-
mento t 1; baseada numa suposição sobre o comportamento dos retornos esperados e do
risco envolvido no momento t: Na verdade as perdas ou ganhos que eventualmente ocorram
vão concretizar-se no momento t: É por esta razão que os momentos condicionais envolvem
variáveis aleatórias no momento t; dada a informação disponível em t 1:
Estabeleça-se a seguinte notação:
vector do valor esperado condicional dos retornos: t = (E (R1t j Ft 1 ) ; :::; E (Rmt j Ft 1 ))0 ;
matriz das variâncias-covariâncias condicionais dos retornos: Var ( rt j Ft 1 ) = Ht ;
vector dos pesos da carteira no momento t: ! t = (! 1t ; :::; ! mt )0 ;

Pm
retorno do portfolio: Rpt = i=1 ! it Rit = ! 0t rt
valor esperado condicional do portfolio: E (Rpt j Ft 1 ) = E (! 0t rt j Ft 1 ) = ! 0t t
Variância condicional do portfolio Vpt = Var (Rpt j Ft 1 ) = Var (! 0t rt j Ft 1 ) =

! 0t Var ( rt j Ft 1 ) ! t = ! 0t Ht ! t :
Os principais resultados foram já obtidos nos pontos precedentes. Substituindo os mo-

mentos marginais pelos momentos condicionais têm-se os seguintes resultados:
Pesos óptimos de um portfolio sem o activo sem risco, dado um determinado nível de
retorno p;t :
!t = !t p;t = gt + p;t ht
414
onde
t t t t
gt = Ht 1 1 Ht 1 ; ht = Ht 1 t Ht 1 1
t t t t
0 1 0 1
t = t Ht 1; t = t Ht t; t = 10t Ht 1 1; t = t t
2
t;
1 = (1; 1; :::; 1)0 :
Pesos óptimos de um portfolio com o activo sem risco, dado um determinado nível de
retorno p;t :
! p;t =c p;t !t;

p;t f
c p = 0 1
; ! t = Ht 1 t f1 :
t f1 Ht t f1
A fronteira eficiente no espaço p; p com o activo sem risco é
T;t f
p;t = f + st p;t ; st = :
T;t
Este rácio de Sharpe depende de t; pois, em última análise, depende de t e Ht .
Se o horizonte do investimento fosse h períodos e admitíssemos que não haveria lugar a

alterações do portfolio durante o período do investimento, os momentos condicionais rele-
vantes passariam a ser
E (rt+h j Ft ) ; Var (rt+h jFt ) :
Quando o horizonte de previsão é elevado, os momentos condicionais são, em condições

ergódicas, aproximadamente iguais aos momentos marginais.
Naturalmente os valores esperados condicionais t e Ht são desconhecidos. É necessário
estimá-los, por exemplo, a partir de um modelo GARCH multivariado.
415
Página em branco
416
Capítulo 13
Risco de Mercado e o Valor em Risco
13.1 Introdução
Em resposta aos desastres financeiros ocorridos no passado recente, a gestão do risco sofreu
uma revolução nos últimos anos. O valor em risco ou Value at Risk (VaR) iniciou essa
revolução e tem ganho reconhecimento como medida fundamental na análise e na gestão do
risco de mercado das instituições financeiras. Presentemente, muitas instituições reportam
medidas de risco relacionadas com o VaR para o público em geral e, em certos casos, também
para agências reguladoras. Por exemplo, os bancos comerciais estão sujeitos a requisitos
mínimos de capital para cobrirem o seu risco de crédito e de mercado. O Acordo Basiléia II
estabelece taxas de segurança baseadas em modelos VaR.
A literatura financeira enumera vários tipos de risco, como por exemplo, risco de mer-
cado, risco de crédito, risco de liquidez, risco operacional (associado ao risco de fraude,
erros de transacção e de apreçamento, etc.) e risco sistémico (associado, por exemplo, a
situações de incumprimento devido a reacções em cadeia). Neste capítulo aborda-se o risco
de mercado, isto é, o risco associado às variações (inesperadas) de preços e taxas e algumas
metodologias de mensuração desse risco.
Para introduzir o VaR é instrutivo, em primeiro lugar, pensar-se em análise de cenários.
Neste tipo de análise, formulam-se vários resultados possíveis de acordo com a informação
disponível e, quando tal é possível, atribuem-se probabilidades aos diversos cenários. Em
geral, dá-se especial atenção aos piores cenários pois são estes que maior impacto têm sobre
o funcionamento normal da organização.
417
Para avaliar os piores cenários, podemos começar por formular a questão: “Qual é a
perda máxima que a organização pode sofrer num certo período de tempo?”. A resposta
não é particularmente informativa, pois a perda máxima significa perder tudo (com prob-
abilidade praticamente nula). Se reformularmos ligeiramente a questão, obtemos a me-
dida VaR: “Quanto é que podemos perder com probabilidade > 0 num certo período
de tempo?”. Impõe-se que seja não nulo mas razoavelmente pequeno com vista a avaliar
os eventos que embora raros podem ocorrer e afectar o funcionamento normal da organi-
zação. VaR é portanto a perda que pode ocorrer num lapso de tempo determinado, com
certa probabilidade , supondo que o portfolio não é gerido durante o período de análise.
Em termos probabilísticos, o VaR é o quantil de ordem (em módulo)1 da distribuição
teórica de ganhos e perdas. Para concretizar, seja Vn+h := Vn+h Vn a variação do
valor do capital investido não gerido durante o horizonte de risco de h dias. Por exem-
2
plo, considere-se a compra de 200,000 acções de um título no período n ; ao preço de
Pn = 5 Euros. O investimento é de Vn = 5 200; 000 = 1; 000; 000 Euros. Suponha-se
que no momento n + h o preço do título passa para Pn+h = 5:5 Euros. A variação do cap-
ital é de Vn+h = 1; 100; 000 1; 000; 000 = 100; 000: O retorno (em tempo discreto) é
Rn+h = (Pn+h Pn ) =Pn = 0:1: É importante notar que o retorno pode também ser obtido
através da expressão Rn+h = Vn+h =Vn :3 Pode supor-se que Vt é observado no período
t = 1; 2; :::; n, mas não em n + 1; n + 2; ::: Os valores que V vier a assumir no periodo
n + 1; n + 2; :::; n + h dizem respeito ao perído de investimento e, portanto, Vn+h ; é descon-
hecido para h 1:
O VaR a 100 % baseado na distribuição marginal de ganhos e perdas é o valor VaR tal
que
P ( Vn+h < V aR) = :
Por seu turno, o VaR a 100 % baseado na distribuição condicional é o valor VaR tal que
P ( Vn+h < V aRj Fn ) = :
1
O quantil de ordem < 0:05 da distribuição de ganhos e perdas é um valor negativo. Para que o VaR
represente efectivamente uma “perda”, considera-se esse quantil em valor absoluto.
2
Seguimos a notação anglo-saxónica: a vírgula separa os milhares.
3
Este facto é relevante, pelo seguinte. Como iremos ver mais à frente uma das abordagens possíveis ao VaR
consiste em modelar parametricamente o processo f Vt g : Ora este processo é quase sempre não estacionário.
Para confirmar este facto, veja-se a figura 6-9, no ponto 6.3.2, onde se exibe uma trajectória típica de Vt .
Desta forma, usando a relação Rn+h = Vn+h =Vn ; pode-se modelar Vn+h via retornos, que é geralmente
um processo estacionário.
418
O VaR (condicional) é uma medida que depende explicitamente de n; h e e, portanto,
pode ser escrita como V aRn;n+h; : A estimação do VaR envolve princípios e procedimentos
até certo ponto similares com a da previsão de Vn+h : Em ambos os casos, a lei de prob-
abilidades relevante é a distribuição condicional de Vn+h dado Fn ; i.e., f ( j Fn ) : Com
efeito, o previsor óptimo para Vn+h dado Fn (de acordo com o critério do EQM) corre-
sponde ao primeiro momento da distribuição f ( j Fn ), i.e., E ( Vn+h j Fn ) : Por seu turno,
o V aRn;n+h; é o quantil de ordem da distribuição de f ( j Fn ). Em ambos os casos, as
quantidades de interesse são parâmetros da distribuição f ( j Fn ) :
Uma vantagem do VaR é a de poder agregar numa única medida diferentes tipos de risco.
Pelo contrário, as medidas tradicionais de risco não são agregáveis. Revejam-se algumas
medidas tradicionais de risco.
O risco associado com uma obrigação do tesouro é o risco da taxa de juro e a medida
tradicional deste risco é a duração (medida de volatilidade do preço da obrigação face a vari-
ações da taxa de rendimento até à maturidade). O principal risco associado com obrigações
emitidas por entidades particulares é o risco de incumprimento (default risk), o qual pode
ser medido através de um sistema de rakings, disponibilizados em vários casos por agências
de crédito. Para portfolios de acções o risco é normalmente avaliado através da volatilidade
do portfolio, que é função das volatilidades individuais e das correlações entre os diferentes
activos. O risco de taxa de câmbio tipicamente inclui spreads e volatilidades das taxas de
câmbio. Os risco associados a swaps e opções também está sujeito a um tratamento especial.
Em geral, as medidas tradicionais de risco não podem ser agregadas numa única medida
(por exemplo, a duração de uma obrigação não pode ser comparada com a volatilidade de
um portfolio). Pelo contrário, uma das grandes vantagens da metodologia VaR é a de poder
agregar diferentes tipos de risco numa única intuitiva medida de risco.
Para simplificar admite-se inicialmente que o portfolio é constituído por apenas um ac-
tivo.
13.2 Abordagem Não Paramétrica

Seja
Vn+1
Vn+1 = Vn = Rn+1 Vn
Vn
419
variação do capital ao fim de um período. Por definição tem-se
P ( Vn+1 < V aRn;n+1; j Fn ) =
ou, equivalentemente,
P (Rn+1 Vn < V aRn;n+1; j Fn ) = ;

V aRn;n+1;
P Rn+1 < Fn = ;
Vn
P Rn+1 < q R Fn = :
Resulta V aRn;n+1; = q R Vn onde q R é o quantil de ordem da distribuição de Rn+1 dado

Fn :
Se assumirmos
P Rn+1 < q R Fn = P Rn+1 < q R
o VaR pode estimado a partir da expressão
V[
aRn;n+1; = q~R Vn
onde q~R é o quantil empírico de ordem da série de retornos fRt g4 . Observe-se que nen-
huma hipótese é estabelecida sobre a distribuição (marginal) dos retornos - daí a designação
de “abordagem não paramétrica”.
No caso h > 1; considera-se
Vn+h
Vn+h = Vn = Rn+h (h) Vn
Vn
Para determinar V aRn;n+h; resolve-se a expressão
P ( Vn+h < V aRn;n+h; j Fn ) =
4
Na literatura existem diferentes fórmulas para calcular o quantil empírico de ordem : Usaremos a seguinte
convenção: o quantil empírico q~R corresponde à estatística de ordem [n ] ; sendo [x] o inteiro de x: Por
exemplo, na amostra de dimensão n = 6; f1; 4; 2; 7; 15; 0g , as estatísticas de ordem são: y(1) = 0; y(2) = 1;
y(3) = 2; y(4) = 4; y(5) = 7; y(6) = 15: O quantil de ordem = 0:9 é a estatística de ordem [0:9 6] = 5;
isto é, y(5) = 7.
420
em ordem a V aRn;n+h; ou, equivalentemente, resolve-se a expressão
P (Rn+h (h) Vn < V aRn;n+h; j Fn ) =

V aRn;n+h;
P Rn+h (h) < Fn =
Vn
P Rn+h (h) < q R Fn =
em ordem a q R e obtém-se depois V aRn;n+1; = q R Vn : Se assumirmos
P (Rn+h (h) < q j Fn ) = P (Rn+h (h) < q )
o VaR pode estimado a partir da expressão
V[
aRn;n+h; = q~R Vn
onde q~R é o quantil empírico de ordem da série de retornos fRn+h (h) ; n = 1; 2; :::g.
Naturalmente, o VaR pode ser obtido a partir directamente da distribuição empírica das
variações de capital f Vn+h ; n = 1; 2; :::g : Neste caso viria V[
aRn;n+h; = q~ V
; onde q~ V
é o quantil empírico de ordem da série f Vn+h ; n = 1; 2; :::g.

Se a análise incide sobre um portfolio linear, na construção da série histórica dos retornos
Rp;t = ! 1 R1;t + ! 2 R2;t + ::: + ! n Rn;t ;
Pn
onde ! i são os pesos do capital investido no activo i ( i=1 ! i = 1), os pesos devem per-
manecer fixos durante todo o período histórico.
A abordagem não paramétrica embora tenha a vantagem de ser simples, sofre dos seguinte
problemas:
Embora a distribuição não esteja especificada (por isso mesmo é que o procedimento
se designa por não paramétrico) assume-se (incorrectamente) que a distribuição rele-
vante para obter o VaR é a distribuição marginal de Rn+h e não a distribuição condi-
cional. Mas o VaR está associado a uma previsão dos retornos dada (obviamente) a
informação disponível Fn e, por isso, é a distribuição condicional que nos interessa.
Assim, mesmo que no período n se registe, por exemplo, alta volatilidade e perdas
acentuadas, essa informação é negligenciada para obter o VaR.
421
Quando é muito baixo por exemplo = 0:01 ou inferior o estimador q~R é muito im-
preciso. A justificação teórica é dada pelo seguinte resultado assimptótico. Suponha-
se que fXt ; t = 1; :::; ng é uma sucessão de variáveis i.i.d. com função distribuição
F e função densidade de probabilidade f e seja q = inf fx : F (x) g : O quantil
empírico q~ (isto, é a estatística de ordem [n ]) tem distribuição assimptótica dada por
p d (1 )
n (~
q q ) !N 0; 2 :
(f (q ))
A variância assimptótica de q~ “explode” quando a fdp no ponto valor q , f (q ) ; é

aproximadamente zero. Isto sucede quando q é um valor extremo (i.e., muito afastado
do centro da distribuição), isto é, quando é um valor muito baixo, perto de zero, (ou
muito alto, perto de 1). Em suma, a variância do quantil empírico é alta nas abas e
baixa no centro da distribuição.
Até onde coligir os dados? Considerar todo o passado disponível? Ou só o pas-

sado recente? Esta questão é mais relevante neste procedimento do que em outros,
pois a metodologia exposta atribui o mesmo peso a todas as observações. Normal-
mente considera-se o passado recente pois dados muito antigos podem não reflectir
a dinâmica do processo no presente e no futuro imediato (será relevante atribuir im-
portância ao crash de 1929-31 para obter o VaR num futuro próximo?). Por outro lado,
também não convém definir janelas de observações muitas curtas pois a eficiência do
estimador do quantil de ordem pode ser severamente afectada, sobretudo quando
é muito baixo. Vários estudos indicam como razoável considerar-se os últimos dois
ou três anos de observações.
13.3 Abordagem Paramétrica

Considere-se novamente a expressão para o caso h = 1:
Vn+1
Vn+1 = Vn = Rn+1 Vn ' rn+1 Vn :
Vn
Esta expressão mostra que a distribuição condicional de rn+1 Vn apenas depende da dis-
tribuição de rn+1 (no momento n; Vn é conhecido). Podemos assim concentrar-nos ape-
2
nas sobre a distribuição de rn+1 : Assuma-se rn+1 j Fn D n+1 ; n+1 onde D é uma
422
2
distribuição qualquer de média n e variância n: Tem-se
P ( Vn+1 < V aRn;n+1; j Fn ) =

V aRn;n+1;
P rn+1 < Fn = :
Vn
Estandardizando rn+1 ; isto é, considerando
rn+1 n+1
Zn+1 =
n+1
vem
V aRn;n+1;
!
Vn n+1
P Zn+1 < Fn = (13.1)
n+1
V aR
Vn n+1
= q Z ) V aRn;n+1; = n+1 + qZ n+1 Vn (13.2)
n+1
(q Z é o quantil de ordem da distribuição da variável Zn+1 ).

No caso h > 1 tem-se
Vn+h
Vn+h = Vn
Vn
(rn+1 + rn+2 + ::: + rn+h ) Vn ; rn+i = log (Pn+i =Pn+i 1 )
= rn+h (h) Vn :
Não é por mero acaso que se passa de Vn+h para rn+h (h) Vn : A ideia é obter a distribuição
de Vn+h a partir da distribuição de rn+h (h) : Claro que, formalmente, Vn+h é igual a
Rn+h (h) Vn (onde Rn+h (h) são os retornos discretos multi-períodos). O problema com esta
relação decorre do facto da distribuição de Rn+h (h) ser geralmente difícil de tratar.
Para determinar V aRn;n+h; considera-se
P (rn+h (h) Vn < V aRn;n+h; j Fn ) =

V aRn;n+h;
P rn+h (h) < Fn =
Vn
423
e, estandardizando5 rn+h (h), i.e.,
rn+h (h) E (rn+h (h)j Fn )

Zn+h = p
Var (rn+h j Fn )
vem V aRn;n+h;
!
Vn E (rn+h (h)j Fn )
P Zn+h < p Fn = :
Var (rn+h j Fn )
Conclui-se
V aRn;n+h;
Vn E (rn+h (h)j Fn )
p = qZ
Var ( rn+h (h)j Fn )
p
) V aRn;n+h; = E (rn+h (h)j Fn ) + q Z Var (rn+h (h)j Fn ) Vn (13.3)
Estas fórmulas gerais serão agora adaptadas a casos mais simples.
13.3.1 Modelo Gaussiano Simples
O caso mais simples consiste em assumir
rt = + ut ; (13.4)
2 2
onde fut g é um ruído branco Gaussiano, ut N (0; ) : Assim, rn+1 N( ; ) : No caso
h = 1; tem-se, pela fórmula (13.2)
V aRn;n+1; = + qZ Vn
onde q Z é o quantil de ordem da distribuição N (0; 1) (observe-se que a variável Zn+1

na expressão (13.1) tem distribuição N (0; 1)). No caso h > 1 é necessário deduzir-se
a distribuição condicional de rn+h (h). Como, por hipótese, rn+h (h) não depende Fn ; a
distribuição condicional coincide com a distribuição marginal. Pelas propriedades habituais
da distribuição normal vem rn+h (h) = rn+1 + rn+2 + ::: + rn+h N (h ; h 2 ) : Assim,
E (rn+h (h)j Fn ) = E (rn+h (h)) = h

2
Var (rn+h (h)j Fn ) = Var (rn+h (h)) = h
5
Admitindo que faz sentido a estandardizazção. Veremos que no caso geral a distribuição de Wn+h é
desconhecida.
424
e, portanto, pela aplicação da fórmula (13.3), vem
p
V aRn;n+h; = h + h q Z Vn :
p
Se = 0 deduz-se V aRn;n+h; = hV aRn;n+1;
13.3.2 Modelo RiskMetrics
As hipóteses de normalidade e variância condicional constante, assumidas no modelo an-

terior, são, como se sabe, bastante limitativas. Um modelo relativamente simples, mas
assumindo variância condicional não constante corresponde ao modelo RiskMetrics desen-
volvido pela J.P. Morgan para o cálculo do VaR. A metodologia baseia-se no modelo EWMA
(equação (8.7)):
2
rt = t "t ; t = (1 ) rt2 1 + 2
t 1
onde f"t g é um ruído branco de média nula e variância 1. O modelo assenta na hipótese
IGARCH(1,1) com termo constante nulo, ! = 0; e média condicional nula, t = 0. Para
obter V aRn;n+h; aplica-se uma vez mais a fórmula (13.3). Para o efeito estude-se a dis-
tribuição condicional de rn+h (h) : Comece-se por verificar que
2 2
E (rn+i j Fn ) = 0; E n+i Fn = n (Ver previsão IGARCH, ponto 8.11.1).
Logo, tendo em conta que E (rt rt+i ) = 0; vem
E (rn+h (h)j Fn ) = 0
Var ( rn+h (h)j Fn ) = Var (rn+1 + ::: + rn+h j Fn )
= Var ( rn+1 j Fn ) + ::: + Var ( rn+h j Fn )

2 2
= E n+1 Fn + ::: + E n+h Fn
2
= h n:
425
São conhecidos os dois primeiros momentos. Falta conhecer-se a lei de probabilidade de
rn+h (h) : Assuma-se que rn+h (h)j Fn tem distribuição aproximadamente normal6
a
rn+h (h)j Fn N (E (rn+h (h)j Fn ) ; Var (rn+h (h)j Fn )) :
Pela fórmula (13.3) vem
p
V aRn;n+h; = qZ h n Vn
onde q Z é o quantil de ordem da distribuição N (0; 1) :

Naturalmente outras distribuições podem ser consideradas. Note-se finalmente V aRn;n+h; =
p
hV aRn;n+1; :
13.3.3 Modelo ARMA-GARCH
Assuma-se agora
p (L) rt = + q (L) ut
ut = t "t ; ut GARCH:
6
A distribuição de rn+h (h)j Fn é geralmente desconhecida. Mesmo no caso em que rn+1 j Fn tem
distribuição normal, rn+i j Fn para i = 2; 3; ::: não tem distibuição normal. Relembre-se que, sob certas
condições, a distribuição de rn+i j Fn quando i ! +1 converge para a distribuição marginal que geralmente
é diferente da distribuição condicional. Pode-se mostrar que a função de distribuição de rn+h (h)j Fn é
Z h
Y1
Fn;h (x) = f ( rn+h (h)j Fn+h 1) f ( rn+i j Fn+i 1 ) drn+1 :::drn+h :
rn (h) x i=1
Esta expressão só é conhecida no caso h = 1. Para h > 1 a expressão anterior é intratável. Neste caso a
fdp rn+h (h)j Fn pode considerar-se desconhecida (Tsay (2001), cap.7 conclui erradamente que "n Normal
) rn+h (h)j Fn Normal). Apesar destas observações, podemos assumir
rn+h (h)j Fn N (E ( rn+h (h)j Fn ) ; Var ( rn+h (h)j Fn ))
por duas razões:
se h = 1 e " N (0; 1) ; rn+h (h)j Fn terá certamente distribuição normal. A distribuição de

rn+h (h)j Fn no caso h = 2 ou h = 3 não deverá, em princípio, afastar-se muito da distribuição
normal;
com h alto e supondo r estacionáriope fracamente dependente, pode-se invocar o teorema do limite
central. Com efeito rn+h (h)j Fn = Var ( rn+h (h)j Fn ) é uma soma normalizada que, sob certas
condições, converge em distribuição para Z N (0; 1).
426
Tal como no caso anterior, temos de obter a distribuição de rn+h (h)j Fn : Tem-se
E (rn+h (h)j Fn ) = n+1;n + ::: + n+h;n
onde n+i;n = E (rn+i j Fn ) é a previsão de r para o momento n + i dada a informação

disponível no momento n: Para obter Var (rn+h (h)j Fn ) comece-se por observar que
2
Var ( rn+h (h)j Fn ) = E rn+1 + ::: + rn+h n+1;n + ::: + n+h;n Fn
= E (en (1) + ::: + en (h))2 Fn (13.5)
Vimos no ponto 6.6.4 que
X
h 1
en (h) = 0 un+h + 1 un+h 1 + ::: + h 1 un+1 = j un+h j :
j=0
Como
en (1) = un+1 ;
en (2) = un+2 + 1 un+1 ;
:::;
en (h) = un+h + 1 un+h 1 + ::: + h 1 un+1
resulta
X
h 1
en (1) + ::: + en (h) = un+1 + (un+2 + 1 un+1 ) + ::: + j un+h j
j=0
!
X
h 1
= un+h + (1 + 1 ) un+h 1 + ::: + j un+1 :
j=0
Como fut g é um RB vem
Var ( rn+h (h)j Fn ) = E (en (1) + ::: + en (h))2 Fn
= Var ( un+h j Fn ) + (1 + 1 )2 Var (un+h 1 j Fn )

!2
X
h 1
+::: + j Var ( un+1 j Fn ) : (13.6)
j=0
427
Falta conhecer-se a lei de probabilidade de rn+h (h) : Sob a hipótese
a
rn+h (h)j Fn N (E (rn+h (h)j Fn ) ; Var (rn+h (h)j Fn ))
e atendendo à formula (13.3) vem
Z
p
V aRn;n+h; = E (rn+h (h)j Fn ) + q Var (rn+h (h)j Fn ) Vn
onde E (rn+h (h)j Fn ) e Var (rn+h (h)j Fn ) são dados pelas expressões (13.5) e (13.6).
Exemplo 13.3.1 Considere-se o modelo
2 2 2
rt = t "t ; t =!+ 1 rt 1 + 1 t 1:
Tendo em conta que
2 ! k 1 2 2
n+k;n = +( 1 + 1) 1 rn + 1 n ; (un = rn )
1 1 1
resulta
Var ( rn+h (h)j Fn ) = Var (un+h j Fn ) + Var ( un+h 1 j Fn ) + ::: + Var ( un+1 j Fn )
Xh
2
= n+k;n
k=1
Xh
! k 1 2 2
= +( 1 + 1) 1 rn + 1 n
k=1
1 1 1
1 2 2 h
= h! 1 rn + 1 n ( 1 + 1) 1 :
1 1 1
Tem-se
rn+h (h)j Fn N (0; Var ( rn+h (h)j Fn ))
e
s !
1 h
V aRn;n+h; = qZ h! ( 2
1 rn + 2
1 n) ( 1 + 1) 1 Vn :
1 1 1
Exemplo 13.3.2 Na tabela seguinte apresentam-se os resultados da estimação GARCH dos

retornos do Dow Jones (28317 observações diárias).
428
0.15
VaR
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10
h
Figura 13-1: Value at Risk como função de h. V aRn+h;n;0:01 traço grosso; V aRn+h;n;0:05
traço fino.
Dependent Variable: retornos do Dow JOnes

Method: ML - ARCH
Included observations: 28317 after adjusting endpoints
Coefficient Std. Error z-Statistic Prob.

C 0.000416 4.54E-05 9.155216 0.0000
Variance Equation
C 1.17E-06 5.17E-08 22.67097 0.0000
ARCH(1) 0.085080 0.001263 67.38911 0.0000
GARCH(1) 0.905903 0.001542 587.6203 0.0000
R-squared -0.000450 Mean dependent var 0.000188
Adjusted R-squared -0.000556 S.D. dependent var 0.010753
Log likelihood 94026.27 Durbin-Watson stat 1.921149
Sabe-se que rn = 0:0101, ^ 2n = 0:00014:

Dado que o modelo envolve um termo constante c, o V aRn;n+h; estimado; supondo
Vn = 1; corresponde à expressão
s
1 h
c^h + q Z h^
! ^ 1 u^2n + ^ 1 2
n ^1 + ^1 1
1 ^1 ^
1
onde u^n = rn c^ = 0:0101 0:000416 = :01051: Na figura 13-1 representa-se o V aR

para = 0:01 e para = 0:05 em função de h.
Exemplo 13.3.3 Considere-se o modelo
rt = c + rt 1 + ut ; ut = t "t (13.8)
2
t = ! + u2t 1 Ifut 1 <0g + 2
t 1: (13.9)
429
Tem-se,
E (rn+h (h)j Fn ) = n+1;n + ::: + n+h;n :
Tendo em conta a estrutura AR(1), vem pela equação (6.12),
h
1 h
n+h;n =c + yn :
1
Assim,
1 h
1 1 1 h
E (rn+h (h)j Fn ) = c + yn + ::: + c + yn
1 1
h h
yn ( 1 + ) 1+ + c h (1 )+ 1+
=
( 1 + )2
Por outro lado, para calcular Var ( rn+h (h)j Fn ) é necessário obter i (confira-se (13.6)).
1
Como se sabe, j são os coeficientes que resultam da equação (L) = p (L) (L) (veja-
k
se a equação (6.15)). No caso AR(1) facilmente se conclui que (L) = 1+ L+:::+ Lk +
i
:::; pelo que i = : A aplicação da fórmula (13.6) envolve também Var (un+h j Fn ) :=
2
n+h;n que é necessário estabelecer. Para o modelo definido em (13.9) tem-se,
2
n+1;n = ! + u2n Ifun <0g + 2
n
2 2
n+2;n = ! + ( =2 + ) n+1;n
:::
2 2
n+h;n = !+ n+h 1;n ; = =2 + :
2 2
Resolvendo iterativamente n+h;n como função de n+1;n facilmente se conclui que
2 ! h 1 2 !
n+h;n = + n+1;n :
1 1
A equação (13.6), para o modelo em análise, escreve-se agora da seguinte forma

0 !2 1
X
h X
h k
! !
Var (rn+h (h)j Fn ) = @ j
+ h 1 2
n+1;n
A:
k=1 j=0
1 1
430
O valor de Var (rn+h (h)j Fn ), dado pelo programa Mathematica, é igual a
h 1+h
1 1+ 2 +
2 h! + 2
( 1+ ) ( 1+ ) 1+
h
2 h ! 1 2
+ n+1;n 1 + + !+ n+1;n ( 1)
1+
0 h h
11
2+2h 1+h
B 2 1 1 CC
B 2 CC :
@ 2 AA
13.4 Generalização: Portfolio com m Activos

Obtenha-se agora o VaR supondo que o portfolio é constituído por m acções. Para simplificar
assuma-se que
rt = (R1t ; :::; Rmt )0 Ft 1 N( t ; Ht )
onde t := E (rt j Ft 1 ) e Var (rt j Ft 1 ) := Ht : No momento n o portfolio vale Vn ; por

exemplo, uma alocação de 1 milhão de Euros no título 1 e 2 mihões no título 2, traduz-se por
um investimento no valor de Vn = 3 milhões, sendo ! 1 = 1=3 desse valor investido no título
1 e ! 2 = 2=3 investido no título 2. A obtenção do VaR é similar ao do caso de um portfolio
com apenas 1 activo:
P ( Vn+1 < V aRn;n+1; j Fn ) =

Vn+1
P Vn < V aRn;n+1; Fn =
Vn
V aRn;n+1;
P Rp;n+1 < Fn = :
Vn
Estandardizando Rp;n+1 ; isto é, considerando
Rp;n+1 E (Rp;n+1 j Fn )
Zn+1 = p
Var (Rp;n+1 j Fn )
vem
V aRn;n+1;
!
Vn E (Rp;n+1 j Fn )
P Zn+1 < p Fn =
Var (Rp;n+1 j Fn )
V aRn;n+1;
E (Rp;n+1 j Fn ) q
Vn Z Z
p = q ) V aRn;n+1; = E (Rp;n+1 j Fn ) + q Var (Rp;n+1 j Fn ) Vn
Var (Rp;n+1 j Fn )
431
Pm
Tendo em conta que Rp;n+1 = i=1 ! i Ri;n+1 = ! 0 rn+1 ; tem-se Rp;n+1 = E (Rp;n+1 j Fn ) =
!0 n+1 e Var ( Rp;n+1 j Fn ) = ! 0 Hn+1 ! e, finalmente
p
V aRn;n+1; = !0 n+1 + q N ! 0 Hn+1 ! Vn
onde q N é o quantil de ordem da distribuição N (0; 1) :
Exemplo 13.4.1 Considere-se um portfolio, no momento n; constituído por de 1 milhão de

Euros no título 1 e 2 mihões no título 2. Admita-se a seguinte distribuição
0 1 00 1 0 11
R1;n+1 0 0:01 0:002
@ A Fn N @@ A;@ AA :
R2;n+1 0 0:002 0:005
Tem-se para = 0:05

v 0 10 1
u
u 0:01 0:002 1=3
u @ A@ A
V aRn;n+1; = 1:645t 1=3 2=3 3 = 0:32 milhões.
0:002 0:005 2=3
O valor em risco com uma probabilidade de 0.05 para um horizonte temporal de h = 1

período é de cerca de 0.32 milhões de euros.
Se considerassemos os dois activos separadamente teríamos:
p
V aR do título 1 = 1:645 0:01 1 = 0:164
p
V aR do título 2 = 1:645 0:005 2 = 0:232:
Observa-se que a soma dos VaR individuais, 0:164 + 0:232 = 0:396; é maior do que o VaR
do portfolio.
13.5 Abordagem pela Teoria dos valores Extremos

A teoria dos valores extremos é um ramo da estatística que se preocupa essencialmente com
o comportamento probabilístico dos valores extremos da amostra e, portanto, centra a sua
análise nas caudas da distribuição. Esta análise é importante em todos os fenómenos em
que a ocorrência de valores muitos altos e muitos baixos é relevante, como por exemplo,
ocorrência de cheias, furacões, recordes desportivos, etc. A teoria dos valores extremos tem
432
também sido aplicada na actividade seguradora e, mais recentemente, nas área das finanças,
no cálculo do VaR.
Recorde-se a abordagem não paramétrica. Vimos que o VaR pode estimado a partir da
expressão
V[
aRn;n+1; = q~r Vn (13.10)
onde q~r é o quantil empírico de ordem da série de retornos fRt g (também poderia ser a
partir de frt g). Como referimos no ponto 13.2, a estimativa q~ é muito imprecisa quando
é muito baixo (ou muito alto). Como iremos ver a teoria dos valores extremos tem uma
resposta para este problema. O objectivo deste ponto é obter uma estimativa para qa via
teoria dos valores extremos.
13.5.1 Introdução à Teoria e Estimação. VaR Marginal
A teoria dos valores extremos trata habitualmente os eventos extremos que ocorrerm na
aba direita da distribuição. Seguiremos esta lógica na introdução e, depois, por analogia,
focaremos a aba esquerda que é a relevante para o cálculo do VaR. O leitor poderá consultar
o livro de Franke et. al (2008) para mais pormenores sobre a teoria.
Seja fyt ; i = 1; 2; :::; ng uma sucessão de v.a. i.i.d. e Mn = max fy1 ; y2 ; :::; yn g o máx-
imo da amostra. Pode-se provar que se existirem constantes normalizadoras cn > 0; dn 2 R
e uma distribuição não degenerada H (isto é, que não atribui toda a massa de probabilidade
d
a um único ponto) tal que cn 1 (Mn dn ) ! H; então H é da forma
n o
1=
H (x) = exp (1 + x) ; 1 + x > 0; 6= 0:
Nestas circunstâncias, para n suficientemente grande, tem-se P (cn 1 (Mn dn ) x) '

x
H (x) (ou, P (Mn x) ' H para algum 2 Re > 0). O caso = 0 deve
e x
ser interpretado no seguinte sentido: H0 (x) = lim !0 H (x) = e : H é designado na
literatura por Generalised Extreme Value distribution (GEV)
Quando o resultado anterior se verifica para a v.a. y; com função de distribuição F e
distribuição limite H; diz-se que F pertence ao domínio máximo de atracção da distribuição
H e, neste caso, escreve-se F 2 DM (H).
A metodologia de estimação que iremos apresentar, intitulada POT (peaks-over-threshold),
assenta na seguinte proposição:
433
Proposição 13.5.1 Suponha-se que fyt g é uma sucessão de v.a. com função de distribuição
F . Então as seguintes proposições são equivalentes: 1) F 2 DM (H); 2) para alguma
função : R+ ! R+ ;
lim sup Fu (x) G ; (u) (x) = 0 (13.11)

u"xF 0<x<xF u
onde
xF sup fx 2 R : F (x) < 1g 1
Fu (x) = P (y u xj y > u)
8 1=
< 1 1+ x
; 1+ x
> 0; x > 0 se 6= 0
G ; (x) =
: 1 e x; x 0 se = 0:
G ; é a função de distribuição generalizada de Pareto e Fu (x) é a designada excess

distribuition function. A equação (13.11) basicamente estabelece que (na classe das funções
F tais que F 2 DM (H)); para valores altos de u; Fu é aproximadamente igual a G ; e,
portanto, uma estimativa para Fu pode basear-se em G ; (sempre que u é relativamente
alto). Tendo em conta que, por definição,
1 F (x + u)
1 Fu (x) = P (y u xj y > u) =
1 F (u)
segue-se (considerando o primeiro e o terceiro termo da expressão anterior)
1 F (x + u) = (1 F (u)) (1 Fu (x))
ou (fazendo a substituição de x + u por x; passando agora x a ser definido por x > u),
1 F (x) = (1 F (u)) (1 Fu (x u)) ; u < x < 1: (13.12)
Esta relação juntamente com (13.11) constitui o essencial do método que se expõe para a
estimação do VaR. Como F e consequentemente Fu são funções desconhecidas, a expressão
do lado direito de (13.12) pode ser estimada da seguinte forma
1 F^ (u) 1 Fû (x u)
434
onde,
1X
n
N (u)
1 F^ (u) = Ifyj >ug = ; Fû (x ^ ^ ^ (x
u) = G ; u) :
n j=1 n
A estimativa do lado direito de (13.12) é
1=^
N (u) N (u) x u
1 F^ (u) 1 Fû (x u) = 1 ^ ^ ^ (x
G ; u) = 1+^ :
n n ^
Substitua-se na expressão (13.12), x por q :
1=^
N (u) ^ q^ u
1 F (q ) = 1+
n ^
1=^
N (u) q^ u
1 = 1+^ :
n ^
Resolvendo esta equação para q^ obtém-se
^
!
^ n
q^ = u + (1 ) 1 : (13.14)
^ N (u)
Se não for um valor muito alto (perto de 1) podemos usar para estimativa de q~ a
estatística de ordem [n ] : Vimos, no entanto, que se for um valor muito alto a variância
assimptótica deste quantil empirico aproxima-se de mais infinito. Nestas circunstâncias, a
teoria dos valor extremos tem uma solução que consiste em estimar q pela expressão (13.14).
Existem ainda três questões por analisar: 1) Como estimar e ?; 2) como escolher u? e
3) como obter o VaR?
Estimação de e
Sejam y (1) ; y (2) ; :::; y (n) as estatísticas de ordem tais que
y (1) y (2) ::: y (N (u)) ::: y (n)
e Yi = y (i) u (nota: y (1) é o valor máximo, y (2) é o segundo valor mais alto etc.; relembra-
se o leitor que usámos y(1) para o mínimo, y(2) para o segundo mais baixo, etc. Resulta da
notação que y (1) = y(n) ; y (n) = y(1) ; etc.). Para estimar e dado que N (u) = m é fixo,
assume-se que Y1 ; Y2 ; :::; Ym é uma sucessão de v.a. i.i.d. com distribuição G ; (y) ( > 0) :
435
Logo, a função log-verosimilhança é
1 X
m
log Lm ( ; j Y1 ; Y2 ; :::; Ym ; N (u) = m) = m log 1+ log 1 + Yj :
j=1
(13.15)
Os estimadores de máxima verosimilhança ^ e ^ obtém-se a partir da maximização de
log Lm : Pode-se provar que, para > 1=2 e m ! 1
0 1 00 1 0 1 11
p ^ d 0 (1 + ) 2
(1 + )
m@ ^
A ! N @@ A;@ A A:
1 0 (1 + ) 2 (1 + )
Como escolher u?
Quando u é muito alto o valor de N (u) é baixo (significa que o número de observações
efectivamente usadas na estimação é baixo) e a variância do estimador tende a ser alta.
Quando u é baixo, a aproximação para Fu (x) ; usando a distribuição G ; (x) tenderá a
ser pobre e, como consequência o estimador q^ pode vir fortemente enviesado.
Para ajudar na escolha de u considera-se o seguinte resultado: se Z G ; e0 < 1;
então the average excess function é linear:
e (u) = E (Z uj Z > u) = + u; u 0; 0 < 1:

1+ 1+
Este resultado sugere seleccionar o limiar u de forma que a função estimada para e (u) ;
en (v) ; para os valores v u seja (aproximadamente) linear. Pode-se provar que
1 X
n
en (u) = max f(yj u) ; 0g :
N (u) j=1
Para verificar se en (v) é (aproximadamente) linear pode-se analisar no plano o gráfico dos
pontos y(k) ; en y(k) onde y(1) ; y(2) ; :::; y(n) são as estatísticas de ordem tais que
y(1) y(2) ::: y(n) :
Devido à alta variabilidade de en y(k) quando k alto, recomenda-se a eliminação desses

pontos na análise gráfica.
Como obter o VaR?
Como focámos a cauda direita da distribuição (e a que interessa é a esquerda) assume-
436
se yt = rt : Assim, se q^ é o quantil de ordem associada à variável y; então q^r = q^
com =1 , é o quantil de ordem associado à variável r: Pela equação (13.10), uma
estimativa para o VaR é
V aR = q^r Vn = q^ Vn ; =1 :
Para obter o VaR a 100% pode-se seguir os seguintes passos:
1. Definir yt = rt ;
2. Definir = 1 ;
3. Seleccionar u;
4. Obter ^; ^ ; maximizando (13.15);
5. Calcular q^ usando a equação (13.14);
6. Obter o V aR = q^ Vn
13.5.2 VaR Condicional
O ponto anterior assentou na hipótese de frt ; i = 1; 2; :::; ng ser uma sucessão de v.a. i.i.d.
Esta hipótese é irrealista. O VaR calculado sob esta hipótese não reflecte a volatilidade cor-
rente no momento n (seria de esperar o VaR aumentasse quando no momento n a volatilidade
é alta). McNeil e Frey (2000) propõem uma abordagem condicional do VaR no âmbito da
teoria dos valores extremos. A ideia assenta no modelo ARMA-GARCH rt = t+ t "t : Se o
modelo estiver bem especificado será de esperar que "t se comporte aproximadamente como
uma sucessão de v.a. i.i.d. Como os resultados principais da teoria dos valores extremos
se aplicam a sequências i.i.d., é preferível aplicá-los à sucessão f"t g do que directamente
a frt g ; pois esta sucessão não é geralmente i.i.d., devido à presença de volatilidade não
constante.
Seja q^" o quantil da distribuição de "t obtido seguindo a metodologia do ponto anterior.
Tem-se assim,
P ("n+1 < q " j Fn ) =

rn+1 n+1
P < q " Fn =
n+1
P rn+1 < n+1 + q" n+1 Fn = :
437
Em suma, uma vez apurado q^" ; o quantil da distribuição condicional de rn+1 vem igual a
qr = n+1 + q" n+1 :
Como f"t g não é observado, toma-se
rt ^t
^"t =
^t
onde ^ t e ^ t são estimativas da média e da variância condicional baseadas em estimadores

consistentes. Finalmente,
q^r = ^ n+1 + q^^" ^ n+1 :
13.6 Avaliação do VaR (Backtesting)

Neste ponto avalia-se a qualidade da estimativa proposta para o VaR. Esta avaliação é impor-
tante por várias razões. As empresas (sobretudo bancos) que usam o VaR são pressionadas
interna e externamente (por directores, auditores, reguladores, investidores) para produzirem
VaR precisos. Um VaR preciso é fundamental na gestão e controle do risco e na alocação de
capital. Por essa razão é essencial que empresa teste regularmente as suas medidas de risco,
na linha das recomendações adoptadas em acordo internacionais. Por outro lado, embora a
definição de VaR seja muito precisa e objectiva, existem diferentes métodos de estimação do
VaR, que produzem diferentes estimativas (algumas bastante díspares); por isso, é importante
identificar a melhor abordagem para o problema concreto em análise.
Christoffersen e Diebold (2000) analisam a qualidade e a precisão dos intervalos de con-
fiança produzidos para uma certa série. Parte da metodologia pode ser adaptada na análise
da qualidade do VaR. Seja V[
aRt;t 1; uma estimativa para o VaR a 100% para o período t
baseado na informação t 1. Sendo este VaR construído no período t 1 não se sabe, an-
tecipadamente, se no período t se tem ou não Vt < V[
aRt;t 1; : Intuitivamente, é natural
esperar que a desigualdade Vt < V[
aRt;t 1; ; com t a variar, ocorra 100% das vezes.
Considere-se o evento aleatório,
8
< 1 se V < V aR ou rt < V aRt;t 1;
t t;t 1; Vt 1
It =
: 0 no caso contrário.
438
Diz-se que a previsão do VaR produz uma cobertura marginal correcta (correct uncondi-
cional coverage) se
P (It = 1) = , E (It ) = :
Se esta condição se verifica então em 100% dos casos deverá observar-se Vt < V aRt;t 1; :
É exactamente este raciocínio que se estabelece a priori quando se procura definir o VaR a
100%: Interessa depois saber se, na prática, essa desigualdade se verifica efectivamente
em 100% das vezes. Esta condição é, naturalmente, necessária mas não suficiente para
identificar uma medida VaR como apropriada. Suponha-se, como habitualmente nas séries
financeiras, que se tem o fenómeno de volatility clustering. Momentos de alta (baixa) volatil-
idade são seguidos por momentos de alta (baixa) volatilidade. Nestas circunstâncias, o VaR
deve ser alto nos momentos de alta volatilidade e baixo nos momentos de baixa volatilidade.
Se o V aRt;t 1; não reflecte o fenómeno de volatility clustering (nem em termos gerais as
propriedades da distribuição condicional) então o VaR tenderá a falhar como medida de risco
em períodos consecutivos. Um VaR assim definido traz a seguinte implicação sobre fIt g: em
momentos de alta volatilidade os 10 s tendem a repetir-se (por exemplo, It = 1; It+1 = 1;
It+2 = 1; etc.), pois tenderá a observar-se em períodos seguidos Vt < V aRt;t 1; e, em
momentos de baixa volatilidade, uma repetição de 00 s: Ou seja a sucessão It tenderá a ap-
resentar dependência temporal (será autocorrelacionada). Mesmo neste caso, de autocorre-
lação de It ; poderá ter-se E (It ) = : Por esta razão a cobertura marginal embora necessária
não é suficiente para identificar o VaR como uma medida precisa.
Diz-se que a previsão do VaR produz uma cobertura condicional correcta (correct condi-
cional coverage) se
P (It = 1j Ft 1 ) = , E (It j Ft 1 ) = :
Esta condição implica ausência de autocorrelação, pois, tendo em conta a lei do valor esper-
ado iterado,
Cov (It ; It k ) = E (It It k ) E (It ) E (It k )

= E (It k E (It j Ft k )) E (E (Ij Ft 1 )) E (E (It k j Ft k 1 ))
= E (It k E ( E (It j Ft 1 )j Ft k )) E (E (Ij Ft 1 )) E (E (It k j Ft k 1 ))
2
= E (It k E ( j Ft k )) E( )E( ) = E (It k ) = 0:
439
Existem várias formas de testar a cobertura marginal e condicional. Por exemplo, se fIt g
é uma sucessão de v.a. i.i.d. e E (It ) = ; então ambas as coberturas são válidas. Outra
possibilidade consiste em analisar somente a cobertura condicional pois, pela lei do valor
esperado iterado, tem-se, com vimos atrás,
E (It j Ft 1 ) = ) E (It ) = E (E (It j Ft 1 )) = E ( ) = :
Analise-se o teste de independência de It : Uma possibilidade neste sentido baseia-se no

runs test. Procede-se da seguinte forma. Seja X o número sequências seguidas de 10 s ou
00 s (X é o número de runs)7 . Por exemplo, na sucessão f0; 0; 1; 1; 1; 0; 0; 0; 0; 1; 0g temos
X = 5: Sejam n0 e n1 o número de zeros e uns, respectivamente, e n = n0 + n1 a dimensão
da amostra. O número X fornece informação sobre se a amostra é aleatória ou não. Se
ocorrem poucas sequências de 10 s ou 00 s; como no exemplo,
f0; 0; 0; 0; 0; 0; 0; 0; 0; 1; 1; 1; 1; 1; 1g ; (X = 2)
há indicação de dependência temporal na sucessão. Se ocorrem “demasiadas” sequências,

como no exemplo,
f1; 0; 1; 0; 1; 0; 1; 0; 1; 0; 1; 0; 1g (X = 13)
também podemos suspeitar algum tipo de dependência temporal (flutuações cíclicas de período
curto). Sob a hipótese, H0 : fIt g é uma sucessão de v.a. independentes, a distribuição de X
dado n0 e n1 é conhecida. Quando n0 > 20 ou n1 > 20 é mais conveniente usar-se o
resultado assimptótico. Sob H0 tem-se
X E (X) d
Z= p ! N (0; 1)
Var (X)
7
O número máximo que X pode assumir é
2 min fn0 ; n1 g se n0 = n1
max X =
2 min fn0 ; n1 g + 1 se n0 6= n1 :
440
onde
2n0 n1
E (X) = +1
n
2n0 n1 (2n0 n1 n)
Var (X) = :
n2 (n 1)
O teste é bilateral (afastamento à hipótese nula pode dever-se quando X é alto ou baixo).
Rejeita-se H0 se a probabilidade P (jZj > jzobs j) estiver abaixo do nível de significância
fixado.
Se a hipótese H0 não pode ser rejeitada pelos dados, pode-se assumir que fIt g é uma
sucessão de v.a. i.i.d. com distribuição de Bernoulli de parâmetro E (It ) : Interessa agora
P
investigar a cobertura marginal, i.e. se E (It ) coincide com : Seja Sn = ni=1 Ii = n1 a
soma dos 10 s que, como se sabe, tem distribuição Binomial de parâmetros (n; E (It )) : Sob a
hipótese
H0 : E (It ) =
a estatística de teste (rácio de verosimilhanças)
L ( j H0 ) n1
(1 )n0
RV = 2 log = 2 log n1
L (^ ) ^ (1 ^ )n0
2
tem distribuição assimptótica (1) : ^ é o estimador de máxima verosimilhança, ^ = n1 =n e
é a probabilidade previamente fixada para o VaR (por exemplo, = 0:01 ou = 0:05).
Exemplo 13.6.1 Suponha-se que numa amostra de 800 observações foi calculado o VaR a
5% ( = 0:05). Observou-se n0 = 750; n1 = 50; X = 90 (na amostra a desigualdade
Vt < V aRt;t 1; verificou-se 50 vezes). Haverá razões para pensar que o VaR a 5
% é inapropriado? Considere-se primeiro a hipótese, H0 : fIt g é uma sucessão de v.a.
independentes. Tem-se:
2n0 n1
90 n
+1 90 94:75
zobs = q = = 1:43:
2n0 n1 (2n0 n1 n) 3:298
n2 (n 1)
Como o valor-p P (jZj > 1:43) ' 0:15 é relativamente alto não se rejeita H0 : Considere-se
agora H0 : E (It ) = 0:05: Tem-se ^ = n1 =n = 0:0625 e
0:05n1 (1 0:05)n0
RVobs = 2 log = 2:447:
^ n1 (1 ^ )n0
441
2
Como o valor-p P (1) > 2:477 ' 0:118 é relativamente alto não se rejeita H0 .
Assim, existe evidência de que o VaR estimado é uma medida adequada.
Se It segue uma cadeia de Markov (em tempo discreto, com espaço de estado f0; 1g), o
teste run pode apresentar baixa potência8 , isto é, se o usamos o teste run quando It segue
uma cadeia de Markov, a probabilidade de rejeitar independência pode ser baixa.
Suponha-se que It segue uma cadeia de Markov com a seguinte matriz de probabilidades
de transição 0 1
1 p01 p01
P=@ A
1 p11 p11
onde pij = P (It = jj It 1 = i) : Só no caso muito particular p01 = p11 ; fIt g é uma sucessão
de v.a. i.i.d. (com distribuição de Bernoulli). Com efeito, sob a hipótese de independência,
p01 = P (It = 1j It 1 = 0) = P (It = 1j It 1 = 1) = p11
ou seja, a probabilidade de It = 1 não depende do valor assumido por I no período anterior

(e, pode provar, também não depende da história passada de I). Nesta condições It é não
autocorrelacionado9 . Imagine-se, pelo contrário, a seguinte matriz de probabilidades,
0 1
0:8 0:2
@ A:
0:1 0:9
Calcule-se a probabilidade de It = 1: Se It 1 = 1 a probabilidade de It = 1 é 0.9, mas se

It 1 = 0 a probabilidade de I passar para o estado 1 é de apenas 0.2. Observa-se, portanto,
forte dependência temporal na sucessão It :
Para ensaiar independência, a hipótese nula mantém-se no essencial como no teste runs
test, H0 : fIt g é uma sucessão de v.a. independentes ou seja H0 : p01 = p11 : Para a avaliarmos
o rácio de verosimilhanças é necessário obter-se, em primeiro lugar, a função de verosimil-
hança associada a sucessão fI1 ; :::; In g; facilmente se conclui que
L (pij ) = (1 p01 )n00 pn0101 (1 p11 )n10 pn1111 ;
onde nij é o número de vezes em que I passou de i para j: As estimativas de máxima
8
A potência de um teste é a probabilidade de rejeitar H0 dado que H1 é verdadeira.
9
Pode-se provar que Corr (It ; It 1 ) = p11 p01 : Logo se p11 = p01 a correlação entre It e It 1 é nula.
Nestas condições pode-se também provar que Corr (It ; It k ) = 0; para k 2 N:
442
verosimilhança de pij obtêm-se facilmente a partir de L (pij ) ;
p^01 = n01 =n; p^11 = n11 =n:
Por outro lado, sob H0 : p01 = p11 (substitua-se p01 e p11 por p1 )
L (pij j H0 ) (1 p^1 )n00 +n10 p^n1 01 +n11 d 2

RV = 2 log = 2 log !
L (^
pij ) (1 p^01 )n00 p^n0101 (1 p^11 )n10 p^n1111 (1)
onde p^1 = (n01 + n11 ) =n. Uma variante interessante deste teste consiste em tomar como
hipótese nula H0 : p01 = p11 = (não só se testa a independência como também a cobertura
marginal, E (It ) = ). Com se têm agora duas restrições impostas em H0 (p01 = p11 ;
p01 = ), a estatística de teste é
(1 )n00 +n10 n01 +n11

d 2
RV = 2 log ! (2) :
(1 p^01 )n00 p^n0101 (1 p^11 )n10 p^n1111
A vantagem deste teste do ponto de vista prático é clara: de uma vez só, ensaia-se a cobertura
marginal e condicional.
Estes testes, baseados no modelo da cadeia de Markov sofrem no entanto de uma lim-
itação: baseiam-se em dependências de primeira ordem. Ora, pode suceder que It dado
It 1 dependa ainda de It 2 : Neste caso, os testes baseados no modelo da cadeia de Markov,
podem perder bastante potência.
Clements e Taylor (2003) generalizam a abordagem anterior. A hipótese E (It j Ft 1 ) =
sugere que It dado Ft 1 apenas depende de uma constante, : Assim, se It depende de
alguma variável Ft 1 mensurável, a hipótese E (It j Ft 1 ) = deve ser rejeitada. Para testar
a possibilidade de It depender de alguma variável Ft 1 mensurável, uma possibilidade con-
siste em fazer uma regressão de It sobre as variáveis definidas em Ft 1 (como por exemplo,
It 1 ; It 2 ; :::; variáveis dummy reportadas a t 1, t 2; etc., retornos, etc.),
X
k
It = 0 + i It i + x0t 1 + ut
i=1
onde x0t 1 é um vector 1 m de variáveis Ft 1 mensuráveis (que de alguma forma podem

estar parcialmente correlacionadas com It ) e é um vector de parâmetros m 1: A hipótese
de correcta cobertura marginal e condicional envolve o ensaio H0 : 1 = 0; :::; k = 0; =
0; 0 = : Naturalmente a estatística F pode ser usada. Tendo em conta a natureza da
443
variável I; em princípio seria mais apropriado uma regressão binária. No entanto, Sarma et
al. (2003) refere que na presença de forte assimetria dos dados (mais de 95% ou 99% dos
dados são 0’s ou 1’s) a regressão binária envolve problemas técnicos. Para grande amostras
o estimador OLS é apropriado.
444
Página em branco
445
Referências
(referências incompletas!)
Basrak, B., R. Davis e T. Mikosch (2002). Regular variation of GARCH processes. Sto-
chastic Processes and their Applications 99(1), pp. 95-115.
Christiansen, C. (2007). Volatility-Spillover Effects in European Bond Markets. European

Financial Management, 13 (5), pp. 923-948.
Bauwens, L., A. Preminger e J. Rombouts (2006). Regime switching GARCH models.

Département des Sciences Economiques Working Paper 2006-6.
Christoffersen, P. e F, Diebold (2000). How Relevant is Volatility Forecasting for Financial

Risk Management? Review of Economics and Statistics 82(1), pp. 12-22
Davies, (1987). Hypothesis testing when a nuisance parameter is present only under the
alternative. Biometrika 74, pp. 33-43.
Dimson E., P. Marsh e M. Staunton (2002). Triumph of the Optimists:101 Years of Global
Investment Returns, Princeton University Press.
Engle R. (1982). Autoregressive Conditional Heteroscedasticity with Estimates of the Vari-

ance of United Kingdom Inflation. Econometrica 50 pp. 987-1007.
Engle R. (2001). Financial Econometrics - a New Discipline with new Methods. Journal
of Econometrics 100, pp. 53-56.
Engle, R. (2002). Dynamic Conditional Correlation: A Simple Class of Multivariate Gen-

eralized Autoregressive Conditional Heteroskedasticity Models. Journal of Business
& Economic Statistics, 20(3), pp. 339-50.
Fama, E. (1970). Efficient Capital Markets: A Review of Theory and Empirical Work.
Journal of Finance 25 (2), pp. 383-417.
Engle R. e K. Kroner (1995). Multivariate Simultaneous Generalized ARCH. Econometric

Theory 11, pp. 122-150.
Fan, J. e Q. Yao (2005), Nonlinear Time Series, Springer Series in Statistics, New York.
446
Franke, J., W. Hardle e C. Hafner (2008). Statistics of Financial Markets: An Introduction,
2a ed., Springer, Berlin Heidelberg New-York.
Franses, P. e van Dijk, D. (2000). Nonlinear Time Series Models in Empirical Finance,
Cambridge University Press, Cambridge.
Gospodinov, N. (2005). Testing For Threshold Nonlinearity in Short-Term Interest Rates.

Journal of Financial Econometrics, 3(3), pp. 344-371.
Gray, S., (1996). Modeling the Conditional Distribution of Interest Rates as a Regime-
Switching Process. Journal of Financial Economics, 42(1), pp. 27-62.
Groeneveld, R.A. e G. Meeden (1984). Measuring skewness and kurtosis. The Statistician,
33, pp. 391-399.
Lundbergh, S. e T. Teräsvirta (2002). Evaluating GARCH models. Journal of Econometrics

110(2), pp. 417-435 .
McNeil, A. e R. Frey (2000). Estimation of Tail-Related Risk Measures for Heteroscedastic

Financial Time Series: an Extreme Value Approach. Journal of Empirical Finance 7,
pp. 271-300.
Mokkadem, A. (1985). Le Modèle Non Linéaire AR(1) Général. Ergodicité et Ergodicité

Géometrique. Comptes Rendues Academie Scientifique Paris 301(I), pp. 889-892.
Morgan J., (1996). RiskMetrics Technical Document, Part II: Statistics of Financial Mar-
ketReturns, 4th edition, New York.
Murteira, B. (1990). Probabilidades e Estatística, Vol. I e II. Mc Graw-Hill.
Nelson, D. (1990). Stationarity and persistence in the GARCH(1,1) model. Econometric

Theory 6, pp. 318-334.
Nicolau, J. (2004). Equações Diferenciais & Equações às Diferenças, Texto de Apoio no

28, CEMAPRE-ISEG/UTL.
Pascuala L. , J. Romob e E. Ruiz (2006). Bootstrap Prediction for Returns and Volatilities
in GARCH models. Computational Statistics & Data Analysis, 50(9), pp. 2293-2312.
Pinto, S. (2010), Transmissão de Volatilidade nos Mercados Financeiros durante Períodos

de Crises, Tese de Mestrado em Matemática Financeira, ISEG/UTL.
447
Stelzer, R. (2009). On Markov-Switching Arma Processes? Stationarity, Existence of Mo-
ments, and Geometric Ergodicity. Econometric Theory, 25(1), pp. 43-62.
Taylor, H. e S. Karlin (1984). An Introduction to Stochastic Modeling. Academic Press,

New York.
Taylor S. (2005). Asset Price Dynamics, Volatility, and Prediction, Princeton University
Press.
Wooldridge, J. (1994). Estimation and Inference for Dependent Processes, in Handbook

of Econometrics, Vol. 4 , pp. 2641-2700., edited by Engle R.F. and McFadden D.L.
Elsevier Science B.V. , Amsterdam.
448

Econometria Financeira: Modelos de Média

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Econometria Financeira: Modelos de Média

Hochgeladen von

Copyright:

Verfügbare Formate

Econometria Financeira

Comentários são bem vindos (nicolau@iseg.utl.pt). Neste documento abordam-se métodos

1 Objecto e Método da Econometria Financeira 15

3 Factos Empíricos Estilizados de Séries Temporais Financeiras 33

4 Processos Estocásticos: Revisões 67

5 O Problema da Especificação 111

6 Modelação da Média: Abordagem Linear 119

7 Modelação da Média: Abordagem Não Linear 207

8 Modelação da Heterocedasticidade Condicionada - Caso Univariado 269

9 Modelação da Heterocedasticidade Condicionada - Caso Multivariado 339

10 Regressão Não Paramétrica 371

III Aplicações 389

11 Eficiência do Mercado de Capitais 391

12 Selecção de Portfolios 405

13 Risco de Mercado e o Valor em Risco 417

Objecto e Método da Econometria

(Última actualização: 11/2009)

Entende-se que “Financial econometrics is simply the application of econometric tools to

avaliação do risco (por exemplo, através do Value at Risk);

avaliação de obrigações, opções, etc.;

análise da previsibilidade e eficiência dos mercados, etc.

Sendo a econometria financeira a aplicação de métodos econométricos adequados a da-

dados de natureza macroeconómica (consumo, produto, taxa de desemprego) podem

como consequência do ponto anterior, o número de observações disponíveis de dados

(Última actualização: 2/2011)

2.1 Retornos Discretos

O retorno simples em tempo discreto de um certo investimento no momento t (retorno do

Esta última expressão mostra que Rt representa, efectivamente, a taxa de rendibilidade de um

2.1.2 Retorno Multi-Períodos

Admita-se que o capital em t 1 é igual K (unidades monetárias) e existem dois activos

Com m activos, tem-se ! 1 + ::: + ! m = 1 e

Rp;t = ! 1 R1;t + ! 2 R2;t + ::: + ! m Rm;t

Se no período t (ou se algures entre t 1 e t) há lugar ao pagamento de dividendos, o retorno

2.1.5 Retornos Ajustados à Inflação

onde t = (IP Ct IP Ct 1 ) =IP Ct 1 . Retomemos o exemplo acima, com Rt = 0:03 e

2.1.6 Retornos Anualizados

Tomando RA como incógnita, facilmente se obtém

Questão: qual dos investimento foi preferível? Para os investimento 1 e 2, as taxa de

Quando o período de observação dos preços é relativamente curto as taxas de rendibili-

2.2 Retornos Contínuos

em ordem a Rs . De igual forma, numa capitalização trimestral, ter-se-ia P1 = P0 (1 + Rtr =4)4 :

o capital P1 pode interpretar-se como o limite de

Naturalmente esta expressão é equivalente a

Seguindo o mesmo raciocínio que vimos atrás, suponhamos, no entanto, que Pt e Pt m

retorno 2a feira r1 = log P1 log P0

log P5 log P0 = log P5 log P4 + log P4 log P3 + log P3 log P2

rt (m) = rt + rt 1 + ::: + rt m+1 :

2.2.3 Retornos Ajustados aos Dividendos

O retorno contínuo ajustado aos dividendos é definido como

2.2.4 Retornos Ajustados à Inflação

O retorno contínuo ajustado à inflação é definido como

rtreal = log 1 + Rtreal :

Tomando rA como incógnita, facilmente se obtém

Também se chega a esta expressão a partir da definição habitual rA = log (1 + RA ) :

(T representa o número de anos do investimento).

Em muitas aplicações estuda-se uma sucessão de retornos fr1 ; r2 ; :::; rn g e obtém-se de

Uma forma alternativa de obtermos rA = N r e que tem a vantagem de fornecer também

2.3 Retornos Contínuos vs. Retornos Discretos

A esmagadora maioria dos investigadores usa rt : Se queremos que os nossos resultados

é bem mais fácil do que a modelação de um produto

O retorno discreto aplicado a um investimento inicial pode sugerir que o investimento

P1 = (1 1:05) P0 = 0:05 100 = 5: