Sie sind auf Seite 1von 33

30 de Junho de 2017

ANÁLISE DE MODELOS PARA GERAÇÃO DE SÉRIES


SINTÉTICAS DE VAZÕES
Fernando Lopes Goncalves
ANÁLISE DE MODELOS PARA GERAÇÃO DE SÉRIES
SINTÉTICAS DE VAZÕES
Alunos: Fernando Lopes Goncalves
NNNNNN

Orientador: Cristiano Augusto Coelho Fernandes

Trabalho apresentado como requisito parcial à conclusão do curso de Engenharia


Elétrica na Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, Bra-
sil.
Resumo

Este trabalho analisará modelos de séries temporais utilizados para modelar séries de vazões. As séries geradas
são utilizadas no algoritmo SDDP (Stochastic Dual Dynamic Programming), que é responsável por otimizar o
planejamento elétrico de um determinado país ou região.
O SDDP é um algoritmo que resolve problemas de otimização lineares, para isso o mesmo necessita que os
problemas a serem resolvidos sejam convexos. Para isso, uma exigência é que a função de previsão um passo
a frente do modelo seja côncava, que é uma das características da maioria dos modelos clássicos usados para
gerar vazões. Dois desses (um normal e outro lognormal) serão analisados e comparados com o GAS (Generali-
zed Autoregressive Score), que é não côncavo mas que ainda pode ser utilizado em uma das fases do SDDP (a
fase forward).
Conclui-se aqui que apesar da implementação de um único modelo GAS para todos os meses, o mesmo obteve
melhores resultados nos testes de aderência quando comparado com modelos mensais (que, portanto, possuem
muitos mais parâmetros a serem estimados). Já na geração de cenários, os modelos mensais obtiveram resul-
tados melhores, pois representam melhor a distribuição de probabilidade de cada mês separadamente.

Palavras-chave: Série, GAS, Modelos, SDDP, Otimização

ii
ANALYSIS OF MODELS FOR GENERATION OF SYNTHETIC IN-
FLOW SERIES

Abstract

This work analyze time series models for inflow generation. The generated series are used in the SDDP (Stochas-
tic Dual Dynamic Programming) algorithm, that makes the optimization of the electrical planing of a country or
region.
The SDDP solves linear optimization problems, and it needs convexity of the problems involved. For that, a
crucial exigency is that the forecast function of the inflow time series model be concave, and this is a common
characteristic between the classical models commonly used to generate inflow series. Two of these will be
analyzed and compared to the GAS (Generalized Autoregressive Score). The last one isn’t concave, but can still
be used in a phase of the SDDP algorithm (the forward phase).
In conclusions, GAS had a better performance in the diagnosis tests even if it has only one model for the whole
series, while the other two have a speciric model (with different orders) for each month. Otherwise, the monthly
basis models had an better result in the scenarios generation test, mostly because it could represent better the
probability distribution of each month, while GAS represent better the total probability distribution.

Keywords: Time-Series, GAS, Models, SDDP, Optimization

iii
Sumário

1 Introdução 1
a Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
b Modelos analisados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Modelos 5
a Modelo PAR(p) com distribuição normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
b Modelo PAR(p) com distribuição lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
c Modelo GAS(p,q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3 Diagnósticos 13
a Formulações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1 Teste de normalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Teste de homoscedasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Teste de autocorrelação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4 Medidas de performance ou aderência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
b Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1 Normalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Autocorrelação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Homoscedasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5 Geração de cenários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4 Conclusões 25

iv
Lista de Figuras

1 Diagrama do problema de despacho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1


2 Série temporal mensal da vazão na bacia Salto Grande, no período de 1910 a 2008. . . . . . . . . . 2
3 Densidade da série de vazão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4 Boxplot da série de vazões por mês. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
5 Função de geração um passo a frente para o modelo PAR(2). . . . . . . . . . . . . . . . . . . . . . . . 5
6 QQ-Plot dos resíduos de Janeiro dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
7 QQ-Plot do modelo GAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
8 Autocorrelação dos resíduos de Janeiro dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
9 Autocorrelação dos resíduos no modelo GAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
10 Previsão de Janeiro dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
11 Previsão do modelo GAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
12 Previsão do modelo GAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
13 Distribuição de probabilidade das vazões de Julho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
14 Distribuição de probabilidade dos cenários de Julho para o modelo normal . . . . . . . . . . . . . . . 22
15 Distribuição de probabilidade dos cenários de Julho para o modelo lognormal . . . . . . . . . . . . . 22
16 Distribuição de probabilidade das vazões de Julho para o modelo GAS . . . . . . . . . . . . . . . . . . 22
17 Distribuição de probabilidade das vazões totais para o modelo GAS . . . . . . . . . . . . . . . . . . . 23
18 Visualização do teste de CVaR para o modelo normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
19 Visualização do teste de CVaR para o modelo lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . 23
20 Visualização do teste de CVaR para o modelo GAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

v
Lista de Tabelas

1 Preço de geração de energia elétrica por fonte (Fonte: ANEEL e ONS) . . . . . . . . . . . . . . . . . . 1


2 Parâmetros do modelo PAR(p) com distribuição normal . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Parâmetros do modelo PAR(p) com distribuição lognormal . . . . . . . . . . . . . . . . . . . . . . . . . 9
4 Parâmetros do modelo GAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5 p-valor do teste de normalidade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6 p-valor do teste de autocorrelação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
7 P-valor do teste de homoscedasticidade (ARCH) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
8 Métricas MASE, MAPE e RMSE insample para os modelos. . . . . . . . . . . . . . . . . . . . . . . . . . 19
9 Métrica sMAPE insample para os modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
10 Métricas MASE, MAPE e RMSE outsample para os modelos. . . . . . . . . . . . . . . . . . . . . . . . . 20
11 Métrica sMAPE outsample para os modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
12 Teste do CVaR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

vi
1 Introdução

O correto planejamento do sistema de energia elétrica é extremamente necessário para que se possa garantir
a demanda energética. O consumo anual de energia elétrica no Brasil, segundo a EPE (Empresa de Pesquisa
Energética), é de 480 TWh/ano. Com esse número crescendo, se faz cada vez mais necessário sofisticar os
modelos utilizados no planejamento energético, que começaram a ser desenvolvidos após o racionamento de
2001.
A partir de 2001 questões relacionadas à segurança energética tornaram-se um dos assuntos com mais desen-
volvimento científico no Brasil. Nesse período, modelos de otimização começaram a ser utilizados no planeja-
mento junto com variáveis responsáveis por modelar o risco de deficit do sistema, onde seriam adicionadas,
pelo modelo, como penalidade aos sistemas com um certo risco de deficit. Este tipo de modelagem permite que
os sistemas operem sob uma maior confiabilidade.
Todo planejamento exige um certo conhecimento do comportamento das variáveis no futuro. Por exemplo, no
problema clássico de despacho hidrotérmico, é importante decidir o quanto de água utilizar para gerar energia
e o quanto guardar para um futuro com poucas chuvas. Em um mundo sem termoelétricas ou outras fontes
de energia, toda a demanda teria que ser atendida pela hidroelétrica, fazendo com o que o sistema elétrico
ficasse fortemente exposto a secas, de forma que em períodos secos pudessem ocorrer altíssimos níveis de
deficit.
Supondo que seja possível utilizar fontes de energia termoelétricas, pode-se utilizar as mesmas para atender
a demanda quando a hidroelétrica não é o suficiente (em meses de seca, por exemplo). Porém, o custo dessa
estratégia é muito alto, pois, conforme mostrado na Tabela 1, a energia de termoelétrica é muito mais cara do
que a hidroelétrica, de forma que um cenário na qual toda a demanda é atendida pelas termos seria demasia-
damente caro.

Tabela 1: Preço de geração de energia elétrica por fonte (Fonte: ANEEL e ONS)

Fonte Preço final (R$/MWh)


Hidrelétrica de grande porte 84.58
Eólica 99.58
Hidrelétrica de médio porte 147.46
Pequena central hidrelétrica 158.94
Térmica a carvão 328.43
Térmica a biomassa 338.67
Térmica a gás natural 353.76
Térmica a óleo combustível 672.33
Térmica a óleo diesel 796.86

Portanto, o problema clássico do despacho hidrotérmico consiste em estudar, estatisticamente, as séries de


vazões nos rios, de forma a avaliar o quanto de água utilizar no tempo t dado um cenário de vazão (ou de
chuva) no tempo t+1, fazendo com que o custo de operação do sistema como um todo seja o mínimo possível,
e a chance dos reservatórios transbordarem (vertimento) também seja a mínima possível. A Figura 1 mostra
um diagrama do problema citado.

Figura 1: Diagrama do problema de despacho.

1
Sendo assim, o planejamento energético com várias fontes de energia é um problema de otimização desafiador.
Isso se deve, principalmente, a dois motivos:
• A incerteza das vazões
• O acoplamento temporal entre as decisões tomadas no tempo, pois a quantidade de água utilizada no
tempo t, influencia diretamente no custo de operação do tempo t+1.
Este trabalho será focado na investigação de modelos para séries temporais definidos para caracterizar séries
de vazões. As Figura 2 e 3 mostram a forma da mesma na Bacia Salto Grande, no Uruguai.

Figura 2: Série temporal mensal da vazão na bacia Salto Grande, no período de 1910 a 2008.

Figura 3: Densidade da série de vazão.

A Figura 2 mostra que a série possui uma certa sazonalidade, o que é razoável, pois, por exemplo, a média de
vazões (ou chuva) em cada estação do ano tende a ser diferente (chove mais no verão do que no outono por
exemplo). A Figura 4 deixa explicito essa sazonalidade mensal da série, mostrando que a média varia ao longo
dos meses. Além disso, a Figura 3 é fortemente sugestiva que a hipótese de se obter uma distribuição lognormal
é adequada.

2
Vazão Salto Grande
20000
15000
m^3/s

10000
5000
0

1 2 3 4 5 6 7 8 9 10 11 12

Meses

Figura 4: Boxplot da série de vazões por mês.

a Motivação

Fica claro a importância de uma boa previsão das vazões ao longo do tempo, dado que isso implica no nível de
confiabilidade dos sistemas elétricos. Ou seja, é muito importante modelar bem os meses de pouca chuva, pois
o modelo de otimização deve ser capaz de preparar o sistema para cenário de pouca chuva que constantemente
ocorrem em meses de seca.
A geração de cenários de vazão são extremamente importantes para o planejamento no médio a longo prazo.
Nesses horizontes, são considerados o armazenamento dos reservatórios, a análise de probabilidade de déficit
e a expectativa de geração térmica no futuro.
Na análise a longo prazo, a mudança climática deve ser considerada, porém, este tipo de modelagem não será
realizada neste trabalho.

b Modelos analisados

Conforme já dito, serão analisados 3 tipos de modelos capazes de gerar cenários de vazões, sendo 2 deles
consagrados na literatura ( [1], [2] e [3]) e na industria: o modelo normal (PAR(p) com distribuição normal) e
o modelo lognormal (PAR(p) com distribuição lognormal) com as vazões no mundo dos logaritmos (ambos com
função de previsão um passo a frente convexa). O terceiro é o modelo GAS(p,q) (Generalized Autoregressive
Score) com distribuição lognormal, que é relativamente novo na modelagem de vazões, e nunca foi utilizado
para o planejamento elétrico de países, até porque não gera um modelo convexo (pois a função de geração não
é concâva), o que é um problema para o algoritmo de otimização aqui considerado, o SDDP (ver em [4]).
Como o modelo GAS não gera um problema de otimização convexo, teoricamente não pode ser utilizado na fase
Backward do SDDP, pois exige convexidade. Este problema pode ser resolvido usando uma versão linearizada
do modelo na fase Backward e a versão não linear na fase Forward. Esta abordagem foi proposta em [5], onde
o modelo utilizado para o SDDP também era não linear, mas ainda assim foi possível obter bons resultados com
a versão linearizada do mesmo.
Outra diferença entre os 2 modelos consagrados e o GAS é quanto à sazonalidade da série de vazões. No
modelo Lognormal, a sazonalidade é "removida"da série. As regressões são feitas nas séries "normalizadas"mês

3
a mês:
Zt − Z¯m
Qt = , t = 1, .., T, m = 1, .., 12 (1)
Sm
Onde Z¯m é a média amostral de Z para o mês m, e Sm o desvio padrão amostral para o mesmo mês.
A partir das séries normalizadas, 12 modelos são ajustados, um para cada mês, como por exemplo um de ordem
1:
Qt = φm Qt−1 +  (2)
Onde Qt é o valor da vazão no mês m e Qt−1 é o valor da vazão no mês m-1.
No modelo normal uma abordagem semelhante é utilizada, porém a sazonalidade é removida da série logarít-
mica:
ln (Zt ) − µm
Qt = , t = 1, .., T, m = 1, .., 12 (3)
σm

A ordem dos modelos mensais é determinada pelo critério de Akaike (ver em [6]), podendo assumir valores
entre 1 e 12. Portanto, os modelos convencionais são formados por uma quantidade enorme de parâmetros,
pois para cada mês se ajusta um modelo de até 12 parâmetros, podendo chegar até 144.
O modelo GAS trás uma abordagem diferente. A série não será normalizada por mês. Portanto a sazonalidade
da série de vazão será mantida e deve ser capturada pelo modelo. Para a modelagem, uma parametrização
com média e desvio padrão variantes no tempo será utilizada. Portanto, conforme será visto em detalhes na
Seção 2, o modelo GAS é formado por uma quantidade muito menor de parâmetros que os demais modelos, o
que é um fator importante a ser levado em conta na comparação entre os resultados dos modelos.

4
2 Modelos

a Modelo PAR(p) com distribuição normal

No modelo normal, trabalha-se com as vazões logarítmicas e assume resíduos normais:


p
X
ln(zt ) = φi ln(zt−i ) + t (4)
i=1

Onde, por hipótese, t ∼ N ID(0, σ 2 ), 0 ≤ φi ≤ 1, i = 1, 2, ..., P


A ordem P do modelo pode ser definida pelo critério de Akaike. Porém, conforme dito na Seção 1, é interessante
obter um modelo cuja função de geração um passo a frente seja côncava, o que não acontece no modelo normal
para valores de P > 1.
Para mostrar a afirmação do parágrafo anterior, basta ver que, se f (zt−1 ) é a função geração do modelo, então
∂ 2 f (zt−1 )
o mesmo é côncavo se 2
≤ 0 ∀zt−1 (demonstrado em [7]). Sendo assim, isolando a Equação 4:
∂zt−1
p
Y φi
zt = f {zt−i }pi=1 = et

zt−i (5)
i=1

Portanto a Equação 5 é a função geração do modelo. Assumindo P = 1, tem-se que:


φ1
f (zt−1 ) = ηt zt−1 (6)
Derivando duas vezes:
∂ 2 f (zt−1 ) φ1 −2
2
= ηt φ1 (φ1 − 1) zt−1
∂zt−1

∂ 2 f (zt−1 )
Como ηt = et ≥ 0, 0 ≤ φi ≤ 1 e zt−1 ≥ 0, então 2
≤ 0, provando que a função é côncava para lag-1
∂zt−1
(p=1).
Considere agora p=2. Então a nova função geração fica:
φ1 φ2
f (zt−1 , zt−2 ) = ηt zt−1 zt−2

A função f (zt−1 , zt−2 ) não é necessariamente côncava para todos os valores de zt−1 e zt−2 . A Figura 5 é um exem-
plo, pois mostra claramente que existe pelo menos uma direção na função de geração que é convexa.

Função de geração um passo a frente

70

60

50

40

30

20

10

0
0 2 10
4 6 5
8 100

Figura 5: Função de geração um passo a frente para o modelo PAR(2).

5
Sendo assim, dado que o modelo normal lag-2 não gera um problema de otimização convexo no SDDP, não é
comum utilizá-lo para a modelagem de vazões na literatura. Na prática, utiliza-se este modelo apenas na ordem
1, possibilitando a implementação do mesmo no SDDP.
Portanto, apenas o normal lag-1 será considerado aqui:
ln(zt ) = φ1 ln(zt−1 ) + t
Onde t ∼ N (0, σ 2 )
A seguinte notação será utilizada para definir o modelo na forma mensal, isto é, os 12 modelos para cada
mês:
• m para meses, m=1,2,..,12;

• T para anos, T=1,2,..,H;

• t para estágios, t = 1,2,..N, onde N=12H;

• Zt para dado histórico no estágio t;

• µm para média do mês m;

• σm para desvio padrão do mês m;

• φm para o parâmetro do mês m;

• t erro para o estágio t;


Desta forma, conforme dito na Seção 2b, a sazonalidade da série removida. Sendo assim os 12 modelos são da
forma:

 
ln (Zt ) − µm ln (Zt−1 ) − µm−1
= φm + t (7)
σm σm−1

ln (Zt ) − µm
Os parâmetros são estimados por máxima verossimilhança. Definindo Yt = , e temos:
σm
1 2
2( t
 1 − Y −φm Yt−1 )
p yt yt−1 = √
e 2σ , e assim
2πσ 2
1 1 P N 2
N 1 − (Yt −φˆm Yt−1 )2 1 − Y −φˆm Yt−1 )
2 t=1( t
L(φˆm , σ̂ 2 ) = e 2σ̂ 2 2σ̂
Q
√ = N e
t=1 2πσ̂ 2 (2πσ̂ 2 )( 2 )
  N N 1 P N  2
l(φˆm , σ̂ 2 ) = ln L(φˆm , σ̂ 2 ) = ln(2π) − ln(σ̂ 2 ) − 2 Yt − φˆm Yt−1
2 2 2σ̂ t=1
Para φˆm , a condição de primeira ordem para um máximo é dada por:

φˆm = arg l(φm , σ 2 ) = 0
φm ∂φm
∂ 1 P N  
l(φˆm , σ̂ 2 ) = 2Yt−1 Yt − φˆm Yt−1
∂ φˆm 2
2σ̂ t=1
N  
Yt−1 Yt − φˆm Yt−1 = 0
P
t=1

N N
Yt−1 Yt − φˆm 2
P P
Yt−1 =0
t=1 t=1

6
N
P
Yt−1 Yt
t=1
φˆm = N
(8)
2
P
Yt−1
t=1

Na Equação 8, Yt é relativo ao mês m e Yt−1 ao mês m-1. Agora para σ 2 :



σˆ2 = arg 2
l(φm , σ 2 ) = 0
σ 2 ∂σ

∂ N 1 N  2 N 1 N
l(φˆm , σ̂ 2 ) = − 2 + Yt − φˆm Yt−1 = − 2 + ˆt 2
P P
∂ σ̂ 2 2σ̂ 2 2
2(σ̂ ) t=1 2σ̂ 2 2
2(σ̂ ) t=1
N 1 N
ˆt 2
P
2
= 2 2
2σ̂ 2(σ̂ ) t=1
1 P N
N= ˆt 2
σ̂ 2 t=1
N
1 X 2
σˆ2 = ˆt (9)
N t=1

ln (Zt ) − Z¯m ¯
 
ln (Zt−1 ) − Zm−1
Na Equação 9, ˆt é o resíduo histórico, ˆt = − φˆm .
Sm Sm−1
A Tabela 2 mostra a estimativa dos parâmetros do modelo.

Tabela 2: Parâmetros do modelo PAR(p) com distribuição normal

Mes φ1
Jan 0.59
Fev 0.63
Mar 0.50
Abr 0.65
Mai 0.73
Jun 0.65
Jul 0.72
Ago 0.72
Set 0.57
Out 0.59
Nov 0.62
Dez 0.74

b Modelo PAR(p) com distribuição lognormal

Conforme dito, no modelo Lognormal a série de vazões será normalizadas por mês de forma a tirar a sazonali-
dade anual das amostras. Usando a mesma notação do modelo normal, define-se Znt como:

(Zt − µm )
Qt =
σm

E então o modelo ARP será feito com as amostras "normalizadas":


p
(Zt − µm ) X (Zt−i − µm−i )
= φm−i+1 + t (10)
σm i=1
σm−i
p
X
Qt = φm−i+1 Qt−i + t (11)
i=1

Onde Qt é referente a um mês m, Qt−i ao mês m-i e t lognormal.


Um aspecto interessante do modelo Lognormal, é que o mesmo têm função geração concâva, o que garante
convexidade ao problema de otimização do algoritmo SDDP.

7
 
P
Para mostrar a afirmação do parágrafo anterior, basta ver que f {Qt−i }i=1 , função geração do modelo definida
na Equação 11, é linear em Qt−i , o que é suficiente para considerá-la concâva e convexa ao mesmo tempo,
conforme pode ser visto em [8]. Tal propriedade garante convexidade do algoritmo SDDP.
Analisando a Equação 10, é possível ver que, dependendo do valor sorteado para t na geração das vazões,
podem ocorrer valores de Zt negativos, o que não é aceitável. Um meio de resolver este problema foi original-
mente proposto em [9], onde um parâmetro a mais foi adicionado na distribuição de probabilidade de t , que
garante Zt ≥ 0.
Para definir o parâmetro extra, basta manipular t na Equação 10. Considerando o modelo ARP(1) para facilitar
a demonstração:
(Zt−1 − µm−1 )
Z t = φm σm + t σm + µm ≥ 0
σm−1
µm (Zt−1 − µm−1 )
t ≥ − − φm = ψt (12)
σm σm−1

Onde ψt é o parâmetro extra de t e ψt ≤ 0. Assumindo que t é Lognormal com média zero, desvio padrão θt e
limite inferior ψt , então t − ψt é Lognormal com média −Ψt e desvio padrão θt .
Sabendo que ln (t − ψt ) é normal, sempre é possível fazer esta transformação nos resíduos e realizar os testes
de normalidade no modelo. Para isso basta usar a série histórica para estimar os parâmetros da normal, como
será visto a seguir.
Primeiro, para estimar os parâmetros autoregressivos, utiliza-se a seguinte metodologia:
Seja ρm (P ) = cor(Znt , Znt−P ), então usando a função geração, é possível ver que:
ρm (P ) = φm ρm−1 (P − 1)
ρm (P ) = φm φm−1 ρm−2 (P − 2)
No limite, como ρm−P (P − P ) = cor(Znt , Znt ) = 1, tem-se:
P
Y −1
ρm (P ) = φm−i (13)
i=1

Assim, por exemplo, no modelo ARP(1), ρm (1) = φm , de forma que o parâmetro φm é exatamente a correlação
entre os meses m e m-1.
Analisando agora a densidade probabilidade de t para estimar seus parâmetros:
1
1 − (ln(t −ψt )−µv )2
2σ 2
pt (t ) = √ e v , para t > ψt
(t − ψt ) 2πσv2
Como E[t ] = 0:
V ar(t ) = E[2t ]
V ar(t ) = E (Znt − φm Znt−1 )2
 

V ar(t ) = E Zn2t − 2φm E [Znt Znt−1 ] + φ2m E Zn2t−1


   

V ar(t ) = ρm (0) − 2φm ρm (1) + φ2m ρm−1 (0)


V ar(t ) = 1 − 2φ2m + φ2m
V ar(t ) = 1 − φ2m
Pela distribuição de t :
µv = E[ln(t − ψt )]
σv2 = E[(ln(t − ψt ) − µv )2 ]
Então, tem-se:
σv2

µv = ψt + eµv + 2 (14)
2 2
θt2 =e 2(µv +σv )
−e 2µv +σv
(15)

Agora falta estimar os parâmetros σv e µv em função de θt e ψt , que foram estimados a partir da série. Para
2
isso, define-se λ = eσv , logo:
σv2 = ln(λ) (16)
Então a partir da Equação 15:

8
θt2 = λ2 e2µv − λe2µv = λ(λ − 1)e2µv
θt2
 
1
µv = ln (17)
2 λ(λ − 1)
Manipulando agora a Equação 14:
σv2
−ψt = eµv + 2

2
σv
ln(−ψt ) = µv + 2

Substituindo 16 e 17:
θt2
 
1 ln(λ)
ln(−ψt ) = ln +
2 λ(λ − 1) 2
 2 
1 θt
ln(−ψt ) = ln
2 λ−1
θt
−ψt = 1
(λ − 1) 2
θt2
ψt2 =
λ−1
θt2
λ=1+ (18)
ψt2

Agora basta substituir (18) em (17) para obter µv e (18) em (16) para obter σv .
Sendo assim, definiu-se a metodologia para estimar todos os parâmetros para o ARP(1). Toda essa mesma
metodologia pode ser facilmente estendida para um ARP(p). A ordem p do modelo é definida pelo critério de
Akaike [6].
A Tabela 3 mostra a estimativa dos parâmetros do modelo.

Tabela 3: Parâmetros do modelo PAR(p) com distribuição lognormal

Mes φ1 φ2 φ3 φ4
Jan 0.35 0.17 0 0
Fev 0.79 0 0 0
Mar 0.31 0.24 0 0.27
Abr 0.60 0 0 0
Mai 0.66 0 0 0
Jun 0.58 0 0 0
Jul 0.50 0.15 -0.14 0.31
Ago 0.49 0 0 0.2
Set 0.47 0 0 0
Out 0.48 0 0 0
Nov 0.60 -0.17 0 0
Dez 0.53 0 0 0

9
c Modelo GAS(p,q)

O modelo, conforme já dito anteriormente, terá distribuição lognormal, portanto seja Zt a série histórica de
vazões:
1
− (ln(Zt )−µt )2
1 2σ 2
p(Zt |Z̃t−1 ) = p e t
Zt 2πσt2
σt2
E[Zt |Z̃t−1 ] = eµt + 2

2 2
V AR[Zt |Z̃t−1 ] = eσt −1 e2µt +σt
Onde Z̃t−1 = Zt−1 , Zt−2 , ..., Zt−N
Conforme comentado anteriormente, o modelo GAS utilizará a série histórica de vazão sem nenhuma modifica-
ção a priori. O modelo será escrito da seguinte forma:

ft = w1 + A1 st−1 + A2 st−12 + B1 ft−1 + B2 ft−12 (19)

Onde st é o score ponderado, que segundo [10], define o maior gradiente que ajusta o ajuste local do modelo
em termos de verossimilhança, que é condicionada ao atual estado do model, ft , fazendo com que a atualização
dos parâmetros seja a mais natural possível. Sendo assim, definindo matematicamente:
st = St ∇t
∂ln(p(yt |ft ; θ)
∇t =
∂ft
Onde ∇t é a direção de atualização e St é uma matriz de ponderação. De acordo com [11], uma escolha intuitiva
−1
e natural de St é a inversa da informação de Fisher: St = It|t−1 . Sendo assim:

−1
St = It|t−1 (20)

∂ 2 ln(p(yt |ft ; θ)
 
It|t−1 = −Et−1 (21)
∂ft2

Note que ft pode ser um vetor, portanto, é possível escrever It|t−1 em função de ∇t numa forma vetorial mais
compacta: h i
It|t−1 = −Et−1 ∇t ∇Tt (22)

A função geração um passo a frente do modelo, é definida como a média condicional:

σt2

f (Z̃t−1 ) = eµt + 2 (23)

Onde µt e σt2 irão evoluir temporalmente de acordo com a Equação 19. Assim sendo tomados µt = f1t e
ln(σt ) = f2t . A Equação 23 deixa claro que a função geração é não linear, não gerando problemas convexos no
SDDP.
Para f1t :
1
 
− (ln(Zt )−µt )2
∂ 1 2
∇1t = ln  p e 2σt
 
∂µt Zt 2πσt2

1
 
!
(ln(Zt )−µt )2

∂ 1 ∂ 2
∇1t = ln + ln e 2σt
 
p
∂µt 2πσt2 ∂µt

Zt
 
∂ 1
∇1t = − 2 (ln(Zt ) − µt )2
∂µt 2σt
1
∇1t = (ln(Zt ) − µt )
σt2
Para f2t :

10
1
 
− (ln(Zt )−µt )2
∂ 1 2
∇2t = ln  p e 2σt
 
∂ln(σt ) Zt 2πσt2

1
 
!
− (ln(Zt )−µt )2
∂ 1 ∂ 2
∇2t = ln + ln e 2σt
 
p
∂ln(σt ) 2πσt2 ∂ln(σt )

Zt

√ 
 
∂  ∂ 1 2
∇2t = − ln Zt 2π + ln(σt ) − (ln(Z t ) − µ t )
∂ln(σt ) ∂ln(σt ) 2σt2
∂ 1
∇2t = −1 − (ln(Zt ) − µt )2
∂ln(σt ) 2σt2
∂ ∂
Usando que = σt , segue que:
∂ln(σt ) ∂σt
∂ 1 1
=− 2
∂ln(σt ) 2σt2 σt
Logo, substituindo, chega-se em:
(ln(Zt ) − µt )2
∇2t = −1 (24)
σt2

A matriz de Fisher pode ser calculada usando a Equação 22. Na forma matricial:
  2   2  
∂ ln(p(Zt ; θ)) ∂ ln(p(Zt ; θ))
−E t−1 2
−E t−1
 2 ∂µt  2 ∂µt ln(σt )
 
It|t−1 =   
 ∂ ln(p(Zt θ)) ∂ ln(p(Zt |ft ; θ)) 
−Et−1 −Et−1
∂ln(σt )µt ∂ln(σt )2
     
∂ 1 ∂ 1
−E t−1 2
(ln(Z t ) − µ t ) −E t−1 2
(ln(Z t ) − µ t )
 ∂µt σt  ∂ln(σt ) σt
 
It|t−1 = 
∂ (ln(Zt ) − µt )2 (ln(Zt ) − µt )2
 
 ∂ 
−Et−1 2
−1 −Et−1 2
−1
∂µt σt ∂ln(σt ) σt
    
1 1
−E t−1 − −E t−1 − (ln(Z t ) − µ )
t 
 σt2  σt
2
It|t−1 = 
(ln(Zt ) − µt )2 
  
 2 (ln(Zt ) − µt )
−Et−1 − −E t−1 −2
σt2 σt2
 1 1 
2 2
Et−1 [ln(Zt ) − µt ]
It|t−1 =  2
 σt σt 
2  2

E
2 t−1
[(ln(Z t ) − µ t )] E
2 t−1
(ln(Z t ) − µ t )
σt σt
 
1
0
It|t−1 =  σt2 
0 2
" 2 #
σt 0
−1
It|t−1 = 1
0
2
Como a informação de Fisher é diagonal, pode-se separar o modelo em duas parametrizações, f1t e f2t indepen-
dentes, onde:
1
S1t = ∇t It|t−1 = (ln(Zt ) − µt ) σt2 = ln(Zt ) − µt
σt2
1 (ln(Zt ) − µt )2
 
S2t = ∇t It|t−1 = − 1
2 σt2
Desta forma, a Equação 19 toma a forma:
 
f1t
ft = , onde
f2t
f1t = w1 + A1 S1t−1 + A2 S1t−12 + B1 f1t−1 + B2 f1t−1
S1t = ln(Zt ) − f 1t

11
f2t = w2 + A3 S2t−1 + A4 S2t−12 + B3 f2t−1 + B4 f2t−1
1 (ln(Zt ) − f1t )2
 
S2t = −1
2 e2f2t
Como não há forma analítica para a estimação dos parâmetros, a mesma é realizada numericamente através
da maximização da função de máxima verossimilhança. Para isso, o método BFGS é utilizado.
Para a análise do modelo, os resíduos quantílicos serão utilizados. Segundo [10], esses resíduos apresentam
conclusões similares às obtidas com os resíduos de Pearson. Tal conclusão pode ser explicada pelo fato de que,
em se tratando de variáveis aleatórias i.i.d. em um ambiente Gaussiano, o resíduo quantílico se reduz ao de
Pearson. Sendo assim, os resíduos quantílicos serão analisados neste trabalho, dado a sua melhor adequação
para modelos não Gaussianos e não lineares.
Outros aspectos interessantes deste modelo é que o mesmo possui menos parâmetros que todos os outros, e a
ordem é fixa, a atualização dos parâmetros é realizada em t-1 e t-12.

Tabela 4: Parâmetros do modelo GAS

Parâmetro Valor
w1 2.8
w2 0
A1 0.72
A2 0.18
A3 0
A4 0
B1 0.57
B2 0.13
B3 0.78
B4 0.08

12
3 Diagnósticos

Cada um dos modelos será analisado utilizando os resíduos normalizados:


yt − ŷt|t−1
t = (25)
σ̂

Primeiramente, na Seção a, os testes serão apresentados formalmente, e na Seção b, os resultados serão


apresentados para todos os modelos propostos aqui.

a Formulações

1 Teste de normalidade

O teste de normalidade utilizado foi o teste de Jarque-Bera. A idéia do mesmo é testar se a amostra possui uma
assimetria (skewness) e Curtose iguais a da normal. Sendo assim, a estatística do teste é dado por:
 
n 1
JB = S 2 + (C − 3)2
6 4
Onde S e C são respectivamente a assimetria e a curtose, estimados como:
n
1
(xi − x̄)3
P
n
i=1
S=  3
n 2
1
P 2
n
(xi − x̄)
i=1

n
1
(xi − x̄)4
P
n
i=1
C=  2
n
1
(xi − x̄)2
P
n
i=1

Sob a hipótese nula de que a série provem de uma distribuição normal, a estatística JB segue uma distribuição
qui-quadrada com 2 graus de liberdade. O teste é, essencialmente:
H0 : S=0, C=3; amostra normal
Ha : caso contrário

2 Teste de homoscedasticidade

O teste de homoscedasticidade testa se a amostra possui efeito ARCH. O teste de Engle’s Lagrange Multiplier
será utilizado.
A seguinte regressão é realizada:
q
X
2t = α0 + αj 2t−j + ωt (26)
j=1

Onde t são os resíduos da regressão original, e ωt é um resíduo da regressão da equação 26. Neste trabalho,
fixaremos q = 12, para checar os efeitos nos 12 meses do ano (pois, conforme visto na Seção 2a, os índices t
indexam os meses).
É fácil ver que, se a amostra não possui efeito ARCH, então αj = 0 ∀j , j = 1, 2, ..., q . Para fazer o teste, calcula-se
o coeficiente de determinação R2 da equação 26 e utiliza-se a seguinte estatística:


LM = N R2 , onde N é o tamanho da amostra


Sob a hipótese nula (αj = 0 ∀j), LM ∼ χ2 (q).

13
3 Teste de autocorrelação

O teste utilizado para calcular a autocorrelação dos resíduos é o Ljung-Box.


O mesmo testa se a autocorrelação dos resíduos é estatisticamente significativa, a estatística é:
h
X p̂2k
Q(h) = n(n + 2) (27)
n−k
k=1

Onde p̂k é a autocorrelação dos resíduos no lag-k, e h é o número de lags que serão testados (neste trabalho,
h=12).
Sob a hipótese nula, de que os resíduos são independentes, a estatística Q segue uma distribuição qui-quadrada
com h graus de liberdade. Nesse teste:
H0 : ρ(1) = ρ(2) = ... = ρ(h)
Ha : CC

4 Medidas de performance ou aderência

As medidas de performance serão utilizados como métrica para determinar a qualidade do ajuste de cada
modelo aos dados out-sample, ou seja, dados que não foram utilizados para a estimação dos parâmetros do
modelo. As seguintes métricas serão utilizadas: RMSE, MASE, MAPE e sMAPE. Seja ŷt a previsão do modelo
(yˆt = E[yt |yt−1 ]) e yt a amostra out-sample correspondente a t:
v
u N
(ŷ − yt )2
uP
t t=1 t
u
RM SE =
N
N
P
ŷt − yt
t=1
M ASE = N
N P
yt − yt−1
N − 1 t=2
N ŷ − y
100 P
M AP E = t t
, yt 6= 0
N t=1 yt

100 PN ŷt − yt
sM AP E =
N t=1 yt + ŷt

14
b Resultados

Os resultados dos modelos normal e lognormal serão apresentados mês a mês, pois conforme dito anterior-
mente, na prática é um modelo por mês. Já o GAS será apenas um resultado, pois é um modelo só para todos
os meses. Para os gráficos, no caso dos modelos mensais, apenas alguns meses serão mostrados.

1 Normalidade

A Figura 6 mostra o QQ-Plot para o mês de janeiro dos modelos normal e lognormal.

Q−Q Plot Janeiro Normal Q−Q Plot

1.5
1.0
1
Sample Quantiles

0.5
Sample Quantiles

0.0
0

−0.5
−1

−1.0
−1.5

−2 −1 0 1 2
−2 −1 0 1 2
Theoretical Quantiles Theoretical Quantiles

(a) Modelo normal (b) Modelo Lognormal

Figura 6: QQ-Plot dos resíduos de Janeiro dos modelos

Percebe-se claramente que o modelo normal tem um resultado melhor no teste de normalidade dos resíduos.
Isto ocorre pois os resíduos do modelo normal são diretamente assumidos normais, enquanto os do modelo
lognormal são assumidos lognormais e sofrem uma transformação para virarem normais e serem compará-
veis. Tal transformação pode embutir um erro maior ainda nas amostras, e deformar a distribuição normal da
mesma.
É importante notar também que o tamanho da amostra dos resíduos históricos é de aproximadamente 80. Como
o número de observações é pequeno, os testes ficam expostos a erros causados por pequenas amostras.
A Figura 7 mostra o QQ-Plot dos resíduos do modelo GAS. Claramente é o melhor resultado de normalidade.
Isto pode ser explicado considerando que, como se tem somente um modelo para todos os meses, agora os
resíduos tem um tamanho amostral de aproximadamente 80 × 12 = 960, o que diminui o erro amostral quando
comparado a uma amostra de tamanho 12 vezes menor.

Q−Q Plot Salto Grande − GAS


3
2
Sample Quantiles

1
0
−1
−2
−3

−3 −2 −1 0 1 2 3

Theoretical Quantiles

Figura 7: QQ-Plot do modelo GAS

A tabela 5 mostra os resultados mês a mês de normalidade dos modelos normal e lognormal. Os resultados
mostrados são os p-valores do teste de Jarque-Bera, formulado anteriormente.

15
Tabela 5: p-valor do teste de normalidade.

Mes Normal (%) Lognormal (%)


1 37 15
2 79 17
3 43 37
4 44 22
5 61 44
6 9.2 1.3
7 60 23
8 23 12
9 66 37
10 93 58
11 31 42
12 16 12

Para o modelo GAS:


p-valor = 15%
Mais uma vez observa-se que o modelo normal é superior ao lognormal quanto aos testes de normalidade.
Nota-se também que o resultado do GAS, embora visualmente melhor, é relativamente menor em média que
os do modelo normal. Uma parte da explicação para este fato é que o número de amostras substancialmente
maior, faz com que a estatística de teste do Jarque Bera capture mais valores longe de uma distribuição normal
perfeita, aumentando a assimetria e a curtose.
Portanto, analisando a Tabela 5, vemos que, tirando o mês de junho que provavelmente possui algum erro nas
observações históricas (pois ambos os modelos performaram mal), todos os modelos podem ser assumidos
normais com nível de significância de mais de 10%.

2 Autocorrelação

A Figura 8 mostra o gráfico de autocorrelação para o mês de janeiro dos modelos normal e lognormal.

Autocorrelação Janeiro Normal Autocorrelação Janeiro Lognormal


1.0

1.0
0.8

0.8
0.6

0.6
ACF

ACF
0.4

0.4
0.2

0.2
0.0

0.0
−0.2

−0.2

0 2 4 6 8 10 12 0 2 4 6 8 10 12

Lag Lag

(a) Modelo normal (b) Modelo Lognormal

Figura 8: Autocorrelação dos resíduos de Janeiro dos modelos

Nota-se na Figura 8 que ambos os modelos apresentam, visualmente, uma independência nos resíduos, o que
é fundamental para a geração de cenários de vazões independentes. A Figura 9 mostra o mesmo gráfico para o
modelo GAS.

16
Autocorrelaçao − GAS

1.0
0.8
0.6
ACF

0.4
0.2
0.0

0 2 4 6 8 10 12

Lag

Figura 9: Autocorrelação dos resíduos no modelo GAS

A Figura 9 mostra que o GAS também apresenta excelentes resultados quanto a independência dos resíduos. A
Tabela 6 mostra os p-valores dos testes de autocorrelação de Ljung Box para k=12.

Tabela 6: p-valor do teste de autocorrelação

Mes Normal (%) Lognormal (%)


Jan 27 9.0
Fev 27 62
Mar 69 76
Abr 27 38
Mai 96 46
Jun 13 5.6
Jul 82 10
Ago 6.3 6.9
Set 91 82
Out 9.0 78
Nov 57 19
Dez 50 48

Para o modelo GAS:


p-valor = 48%
Os resultados mostram que todos os modelos têm bons resultados quanto à ausência de autocorrelação dos
resíduos.
Pode-se observar ainda que o modelo GAS aceita mais fortemente a hipótese de ausência de autocorrelação
em relação aos modelos normais e lognormais, embora tenham bons níveis de significância para alguns meses,
têm níveis bem baixo para outros (agosto por exemplo). Este tipo de variabilidade na performance dos modelos
por mês são indicativos de que a modelagem das vazões, usando menos modelos (logo menos parâmetros),
performa melhor nos testes estatísticos em geral.

17
3 Homoscedasticidade

O teste de homoscedasticidade foi realizado para todos os modelos. Os resultados são mostrados na Tabela
7.

Tabela 7: P-valor do teste de homoscedasticidade (ARCH)

Mes Normal (%) Lognormal (%)


Jan 87 96
Fev 60 60
Mar 79 60
Abr 13 71
Mai 73 98
Jun 34 90
Jul 96 78
Ago 38 72
Set 76 61
Out 56 95
Nov 45 44
Dez 31 15

Para o modelo GAS:


p-valor = 46%
Pode-se verificar que, mais uma vez, todos os modelos apresentaram excelentes resultados. O valor de signifi-
cância do teste de homoscedasticidade do GAS é mais uma vez bem elevado, maior que a média dos p-valores
dos modelos normais e lognormais por mês, reforçando a hipótese de que, estatisticamente, o modelo único
para todos os meses performa melhor que os outros.

4 Performance

Agora os modelos serão analisados quanto a performance. Nesta seção, a previsão dos modelos um passo
a frente serão consideradas. Na próxima seção a distribuição de probabilidade dos cenários será levada em
conta.
Os dados históricos considerados aqui são do período de 1910-2008. O período insample considerado foi 1910-
1990, sobrando assim 18 dados para o período outsample no caso dos modelos normais e lognormais, ou 8 × 12
para o modelo GAS, que não é mensal.
A Figura 10 mostra o gráfico da previsão um passo a frente dos modelos normal e lognormal para o período de
janeiro.

(a) Modelo normal (b) Modelo Lognormal

Figura 10: Previsão de Janeiro dos modelos

A área hachurada em preto indica a área do gráfico correspondente ao período outsample. A Figura 11 mostra
a previsão do modelo GAS:

18
Figura 11: Previsão do modelo GAS

A Figura 12 mostra um zoom da Figura 11.

Figura 12: Previsão do modelo GAS

Analisando as figuras, é possível ver que o modelo GAS adere aos dados bem melhor que os outros modelos.
Isto acontece pois a previsão dos modelos normais e lognormais são calculadas a partir da média dos cenários
gerados pelas mesmas, enquanto o GAS estima, diretamente, a previsão um passo a frente.
A tabela 10 mostra as métricas de performance para os modelos mês a mês.

Tabela 8: Métricas MASE, MAPE e RMSE insample para os modelos.

MASE MAPE RMSE


Mes Normal Lognormal GAS Normal Lognormal GAS Normal Lognormal GAS
Jan 0.83 1.2 0.80 147 267 113 2558 4433 2445
Fev 0.74 1.2 0.55 94 198 71 2709 3651 1801
Mar 0.80 1.3 0.70 99 217 84 2460 4266 2159
Abr 0.73 0.90 0.57 118 181 84 5103 6042 3932
Mai 0.77 0.98 0.53 130 150 63 4566 5549 3167
Jun 0.86 1.1 0.60 90 108 50 4418 5181 3229
Jul 0.93 1.0 0.60 86 79 47 4159 4733 2798
Ago 1.0 1.13 0.66 94 106 55 3352 5005 2321
Set 0.80 1.0 0.67 55 59 39 3698 4641 2997
Out 0.72 0.93 0.59 62 61 49 4492 5597 3758
Nov 0.98 0.9 0.73 167 120 100 4542 4699 3559
Dez 1.1 1.3 0.80 222 223 120 3918 4888 2791

19
Tabela 9: Métrica sMAPE insample para os modelos.

sMAPE
Mes Normal Lognormal GAS
Jan 37 44 31
Fev 32 40 24
Mar 31 41 27
Abr 38 42 30
Mai 35 43 24
Jun 29 40 21
Jul 26 33 18
Ago 26 33 19
Set 23 32 18
Out 27 35 20
Nov 37 37 29
Dez 43 42 33

Tabela 10: Métricas MASE, MAPE e RMSE outsample para os modelos.

MASE MAPE RMSE


Mes Normal Lognormal GAS Normal Lognormal GAS Normal Lognormal GAS
Jan 0.97 1.4 0.80 175 186 107 2878 4358 2141
Fev 0.79 1.1 0.59 104 173 70 2854 3125 1652
Mar 0.77 1.4 0.72 101 158 88 2576 3895 1978
Abr 0.75 1.0 0.57 116 189 88 5006 5885 3753
Mai 0.80 1.0 0.53 173 165 60 4529 5949 3264
Jun 0.90 1.1 0.60 130 138 54 4541 5020 3455
Jul 0.96 1.0 0.60 103 80 48 4114 4689 2861
Ago 0.86 1.3 0.66 95 106 50 3192 4753 2245
Set 0.85 1.1 0.67 52 60 37 3714 4325 3136
Out 0.80 0.98 0.59 70 75 51 4811 4893 3116
Nov 1.1 0.96 0.73 185 176 112 5330 4895 3628
Dez 1.2 1.3 0.80 235 223 110 4223 4888 2520

Tabela 11: Métrica sMAPE outsample para os modelos.

sMAPE
Mes Normal Lognormal GAS
Jan 35 39 30
Fev 29 35 24
Mar 33 37 26
Abr 37 48 30
Mai 35 43 23
Jun 26 36 22
Jul 27 31 19
Ago 19 31 18
Set 28 29 19
Out 27 36 19
Nov 39 41 31
Dez 49 43 32

As métricas deixam claro a superioridade do modelo GAS na capacidade de prever os dados. Um dos fatores
para este fato se deve aos modelos mensais terem muito menos dados para serem calibrados e analisados a
posteriori do que um único modelo para todo o período.
Os resultados dessa Seção indicam que, provavelmente, fazer um modelo único como o GAS, para toda a série
de vazões, é uma melhor ideia do que modelos mensais.

20
5 Geração de cenários

Outro aspecto importante de cada modelo, é a capacidade de representar bem a distribuição de probabilidade
das vazões do histórico. É comum aplicações que sejam necessários modelos que realizem previsões pessimis-
tas quanto as vazões, pois seria ruim um modelo que gere cenários muito molhados em períodos de seca por
exemplo.
Sendo assim, foi desenvolvido uma metodologia capaz de testar o modelo quanto a capacidade de prever bem
os períodos de seca do histórico. A Figura 13 mostra a distribuição de probabilidade das vazões de Salto Grande
para Janeiro. A metodologia irá calcular o CVaR de 5% da distribuição do histórico usando o estimador CV \ aR.
A distribuição de probabilidade do estimador será aproximada numericamente através do método bootstrap.
Em seguida, o CVaR das séries sintéticas geradas será calculado utilizando o mesmo estimador. Supondo que
o número de amostras utilizadas para o calculo, para cada modelo, é tão grande quanto se queira, então a
estimativa do CVaR para as séries pode ser considerada "exata". O valor da estimativa do CVaR, para cada
modelo, é então comparada com a distribuição de probabilidade do estimador do CVaR do histórico, e caso a
mesma esteja dentro do intervalo de confiança de 95%, então o cenário gerado pelo modelo é condizente com
o do histórico.

Figura 13: Distribuição de probabilidade das vazões de Julho

Então, para comparar a geração de séries do modelo com o histórico, o seguinte teste de hipótese será utili-
zado:
Ho : CV
\ aR(M odelo) = CV
\ aR(Historico)
Ha : CV
\ aR(M odelo) 6= CV
\ aR(Historico)

Onde o CV
\ aR é um estimador do CVaR.
Como pode-se gerar infinitos cenários de vazões pelo modelo, então é razoável considerar que CV
\ aR(M odelo)
= CV aR(M odelo). Mas o mesmo não é verdade para o histórico, onde o número de amostras é finito.
Sendo assim, como não há expressão analítica para a distribuição de probabilidade do estimador do CVaR, o
método BootStrap será utilizado, gerando numericamente intervalos de confiança para o CVaR do histórico. O
método pode ser visto em detalhes em [12]. A partir dos intervalos de confiança, pode-se realizar o teste de
hipótese proposto.
Para visualizar o teste, as Figura 14 e 15 mostram a distribuição de probabilidade dos dois modelos sobreposta
da do histórico para o mês de Julho, e a Figura 16 mostra o mesmo gráfico para o GAS.

21
Figura 14: Distribuição de probabilidade dos cenários de Julho para o modelo normal

Figura 15: Distribuição de probabilidade dos cenários de Julho para o modelo lognormal

As figuras mostram que o modelo normal tem um desempenho superior ao lognormal nas caudas inferiores. Este
resultado está explicitado na Tabela 12. Visualmente verifica-se que no início da distribuição de probabilidade,
os cenário gerado pelo modelo lognormal é mais otimista quanto as vazões do que o normal, pois a curva está
levemente deslocada para a direita.

Figura 16: Distribuição de probabilidade das vazões de Julho para o modelo GAS

Ainda para o mês de Julho, a Figura 16 mostra que o GAS gera as vazões mais pessimistas para este mês, pois
é o modelo com a curva mais deslocada a esquerda.
Apesar dos testes serem feitos mensalmente, o modelo GAS é único para todos os meses. Ou seja, é como se
a distribuição de probabilidades que o mesmo tenta modelar, é a distribuição de probabilidade total (mostrada

22
na Figura 3), e não a mensal. Desta forma, apesar da Figura 16 indicar que o modelo GAS não foi capaz
de representar bem os cenários de Julho, a Figura 17 mostra que, quando trata-se das distribuições totais, o
modelo GAS apresenta resultados excelentes.

Figura 17: Distribuição de probabilidade das vazões totais para o modelo GAS

As Figuras 18, 19 e 20 mostram o teste de hipótese do CVaR utilizado para os três modelos para Julho. No
gráfico, a área hachurada em roxo define o intervalo de confiança de 95% do teste e o ponto em vermelho é a
estatística CV
\ aR(M odelo).

Figura 18: Visualização do teste de CVaR para o modelo normal

Figura 19: Visualização do teste de CVaR para o modelo lognormal

23
Figura 20: Visualização do teste de CVaR para o modelo GAS

As Figuras mostram que o GAS mostrou, de fato, um pior desempenho na modelagem dos períodos de seca das
vazões na análise mensal, enquanto o modelo normal obteve o melhor desempenho, embora a hipótese de que
o CVaR do modelo seja igual ao do histórico não seja rejeitada em nenhum dos modelos.
A Tabela 12 mostra, numericamente, o resultado dos testes para todos os meses de todos os modelos. Os
valores mostrados na tabela são os percentis na distribuição de probabilidade do estimador do CVaR do his-
tórico, que a estatística CV
\ aR(M odelo) representa. Ou seja, um valor de 50% seria, teoricamente, o melhor
possível.

Tabela 12: Teste do CVaR

Mes Normal (%) Lognormal (%) GAS (%)


Jan 21 41 92
Fev 27 85 89
Mar 59 55 91
Abr 48 98 92
Mai 81 99 90
Jun 84 96 23
Jul 89 92 3
Ago 42 97 6
Set 52 79 3
Out 99 99 10
Nov 95 98 22
Dez 63 84 89

A Tabela 12 mostra um desempenho levemente pior na modelagem dos períodos de seca do modelo GAS quando
comparado ao modelo normal. Nos meses de junho até novembro, o modelo GAS é sempre pessimista em rela-
ção à vazão, pois os percentis sempre batem antes do percentil 50%, indicando que a distribuição de probabili-
dade dos cenários gerados pelo GAS estão mais a esquerda do que a distribuição do histórico para esses meses.
Porém, mesmo sendo mais pessimista ou mais otimista em certos meses, de acordo com o teste de hipótese
proposto, a hipótese nula nunca é rejeitada no intervalo de confiança de 95% para o modelo GAS, indicando que
o mesmo modela corretamente os períodos de seca de acordo a métrica utilizada aqui.
O modelo lognormal, é mais otimista do que deveria na maioria dos casos, e o normal obtém o melhor desem-
penho na métrica analisada nesta seção.

24
4 Conclusões

Analisando os diagnósticos utilizados, é possível concluir que todos os modelos são bem comportados, isto é,
foram aprovados nos testes de ausência de autocorrelação, homoscedasticidade e normalidade para os resí-
duos. Além dos testes diagnósticos, as medidas de performance servem como comparação entre eles, no que
diz respeito ao poder preditivo do modelo
Ao longo das medidas de performance, verificou-se que apesar do modelo GAS não ter sido fez mês a mês,
obteve excelentes resultados nas medidas de aderência, além de um melhor desempenho nos testes diagnósti-
cos. Porém, analisando a geração dos cenários, o modelo normal (que é mensal) obteve um resultado levemente
mais condizente com o histórico de acordo com a métrica CVaR, o que é muito explicado pelo fato do modelo
GAS ter sido único para todos os meses.
A grande lição tirada aqui é que um modelo, com um número muito menor de parâmetros, consegue fazer
excelentes previsões em média para a série de vazões, além de resultados satisfatórios na geração de cenários
mensais, mesmo sendo um único para todos os meses. Por estes motivos, o modelo GAS é um excelente
candidato de modelo a ser utilizado nos modelos de otimização do planejamento elétrico.
Conforme dito nas primeiras Seções, a análise estatística desenvolvida aqui serve como base para a escolha de
qual dos modelos utilizar para gerar cenários de vazões nas hidros de um certo país, e com esses cenários, rodar
modelos de otimização para realizar o planejamento elétrico. A utilização de diferentes modelos, certamente
ocasiona diferentes planejamentos, por isso a importância das métricas de eficiência e do CVaR.
Outra forma inteligente de comparar os modelos, é rodar o problema de otimização (SDDP) usando um deles
para gerar cenários de vazão e, apartir disso, calcular o planejamento. Depois, pode-se utilizar outro modelo
diferente para fazer a simulação de operação. O resultado desta rodada é comparável com uma rodada na qual
tanto a simulação quanto a política é feita com o mesmo modelo. A diferença entre esses resultados é chamado
de arrependimento. Então, uma metodologia para escolher o melhor modelo, é escolher aquele que minimiza o
máximo arrependimento [13].
O modelo que minimiza o máxima arrependimento, é aquele mais robusto quanto a cenários que não puderam
ser previstos pelo mesmo. Portanto, como propostas de trabalhos futuros, seria relevante calcular o máximo
arrependimento dos modelos propostos aqui, e comparar os resultados com os testes de performance. Outra
proposta seria implementar uma versão do modelo GAS mês a mês, sendo mais comparável com os modelos
mensais analisados aqui.

25
Referências

[1] M. Maceira and J. Damázio, “Use of the par (p) model in the stochastic dual dynamic programming opti-
mization scheme used in the operation planning of the brazilian hydropower system,” Probability in the
Engineering and Informational Sciences, vol. 20, no. 1, pp. 143–156, 2006.
[2] D. M. Papamichail and P. E. Georgiou, “Seasonal arima inflow models for reservoir sizing,” JAWRA Journal of
the American Water Resources Association, vol. 37, no. 4, pp. 877–885, 2001.
[3] C. M. B. d. Castro et al., “Planejamento energético da operação de médio prazo conjugando as técnicas de
pdde, par (p) e bootstrap,” 2012.
[4] M. V. Pereira and L. M. Pinto, “Multi-stage stochastic optimization applied to energy planning,” Mathematical
programming, vol. 52, no. 1-3, pp. 359–375, 1991.
[5] L. Raso, P.-O. Malaterre, and J.-C. Bader, “Effective streamflow process modeling for optimal reservoir ope-
ration using stochastic dual dynamic programming,” Journal of Water Resources Planning and Manage-
ment, vol. 143, no. 4, p. 04017003, 2017.
[6] H. Akaike, “Information theory and an extension of the maximum likelihood principle,” in Selected Papers
of Hirotugu Akaike. Springer, 1998, pp. 199–213.
[7] D. Bertsimas and J. N. Tsitsiklis, Introduction to linear optimization. Athena Scientific Belmont, MA, 1997,
vol. 6.
[8] S. Boyd and L. Vandenberghe, Convex optimization. Cambridge university press, 2004.
[9] B. Bezerra, Á. Veiga, L. A. Barroso, and M. Pereira, “Assessment of parameter uncertainty in autoregres-
sive streamflow models for stochastic long-term hydrothermal scheduling,” in Power and Energy Society
General Meeting, 2012 IEEE. IEEE, 2012, pp. 1–8.
[10] H. H. Hoeltgebaum, “Aplicação de modelos gas para simulação de fluxo de caixa de um portfólio de usinas
eólicas.” Pontifical Catholic University of Rio de Janeiro, Tech. Rep., 2015.
[11] D. Creal, S. J. Koopman, and A. Lucas, “Generalized autoregressive score models with applications,” Journal
of Applied Econometrics, vol. 28, no. 5, pp. 777–795, 2013.
[12] P. Diaconis and B. Efron, “Computer intensive methods in statistics,” 1983.
[13] P. E. Abreu, “Planejamento da expansão de redes de energia elétrica considerando o custo da confiabili-
dade.” Universidade Federal de São João Del-Rei, Tech. Rep., 2011.

26

Das könnte Ihnen auch gefallen