Beruflich Dokumente
Kultur Dokumente
3
Mtodos de Previso de Sries Temporais
3.1
Sries Temporais
Pode-se definir uma srie temporal como sendo um conjunto de dados observados
e ordenados segundo parmetro de tempo e com dependncia serial, sendo esse espao
de tempo entre os dados disponveis equidistantes (horrios, dirio, semanal, mensal,
trimestral, anual, etc.) (Souza & Camargo, 2004).
Para que uma determinada srie seja classificada como uma srie temporal, necessrio que ela preencha outro pr-requisito: os dados tambm devem apresentar uma
dependncia serial entre eles. Por exemplo: os dados de uma varivel aleatria
sumo de energia) no instante
t , com t
(con-
conter informaes necessrias para que seja determinado o valor dessa varivel no instante t +1. Cabe mencionar que, N representa o nmero de observaes da srie temporal em questo. As sries temporais podem ser classificadas como discretas, contnuas,
determinsticas, estocsticas, multivariadas e multidimensionais.
Segundo a abordagem de componentes no observveis, as sries temporais podem ser representadas como a combinao de quatro componentes (Mendenhall, 1993):
Tendncia;
Cclica;
Sazonal;
Erro.
As componentes de tendncia so frequentemente, aquelas que produzem mudanas graduais em longo prazo. So normalmente provocadas, por exemplo, pelo crescimento constante na populao, no produto interno bruto, no efeito da
competio, ou por outros fatores que falham na tentativa de produzir mudanas
repentinas, mas produzem variaes graduais e regulares ao longo do tempo.
As componentes cclicas so aquelas que provocam oscilaes de subida e de
queda nas sries, de forma suave e repetitiva, ao longo da componente de tendncia.
36
de tendncia, um efeito cclico, ou de um efeito sazonal. Nas componentes de erro aparecem flutuaes de perodo curto, com deslocamento inexplicvel e geralmente so
causadas, entre outros motivos, por eventos polticos e oscilaes climticas imprevisveis.
Quanto variabilidade das observaes, podem-se classificar as sries temporais
em estacionrias, quando as suas estatsticas no so afetadas por variaes no tempo,
e ergdigas, se apenas uma realizao do processo estocstico suficiente para se obter todas as estatsticas do mesmo (Moretin & Toloi, 2006).
A maioria dos mtodos de previso baseia-se na idia de que as observaes passadas contm informaes sobre o padro de comportamento da srie temporal. O propsito dos mtodos distinguir o padro de qualquer rudo que possa estar contido nas
observaes e ento usar esse padro para prever valores futuros da srie. Uma grande
classe de modelos de previso, tenta tratar ambas as causas de flutuaes em sries de
tempo e a das suavizaes (mdia mvel e amortecimento exponencial). Tcnicas especficas desse tipo assumem que os valores extremos da srie representam a aleatoriedade e assim, por meio da suavizao desses extremos, pode-se identificar o padro bsico (Morettin e Toloi, 2006).
Os modelos de previso podem ser classificados em univariados, os quais tm a
previso dos valores futuros explicados somente pelos valores passados da prpria srie
ou causais, os que levam em conta outras informaes relevantes como influentes para a
previso de uma varivel
37
3.2
Persistncia
Um dos modelos mais utilizados na previso de curto-prazo da velocidade do vento o mtodo da persistncia. Este mtodo corresponde ao mtodo da mdia mvel
simples em que a previso a mdia das N observaes mais recentes da srie X como
pode ser observado na equao (3.1):
Xt
1 N X
t 1
N
i 1
(3.1)
utilizado apenas para previso de curto-prazo (at poucas horas frente). No caso particular em que N igual 1, o mtodo da persistncia corresponde ao mtodo de previso ingnuo (naive).
A seguir so apresentados os modelos de Box& Jenkins, regresso harmnica,
redes neurais artificiais e o sistema de infererncia neuro-fuzzy adaptativo (ANFIS)
3.3
Modelos de Box & Jenkins
Uma metodologia bastante utilizada na anlise de modelos paramtricos conhecida como abordagem de Box & Jenkins (1970). Tal metodologia consiste em ajustar
modelos Auto-Regressivos integrados de mdias mveis, ARIMA (p, d, q), a um conjunto de dados. A estratgia para construo deste modelo baseada em um ciclo interativo, no qual a escolha da estrutura do modelo baseia-se nos prprios dados (Morettin e
Toloi, 2004).
A estratgia para a construo do modelo ser baseada em um ciclo interativo, na
qual a escolha da estrutura do modelo baseada nos prprios dados.
As etapas do ciclo interativo so:
Especificao: uma classe geral do modelo considerada para anlise ;
Identificao de um modelo, com base na anlise de autocorrelaes, autocorrelaes parciais e outros critrios;
38
estocstico, i.e., uma amostra finita do conjunto de todas as trajetrias possveis que
podem ser geradas pelo processo estocstico. Por exemplo, uma srie temporal com m
observaes sucessivas pode ser considerada como uma realizao amostral entre todas
as seqncias de tamanho m que poderiam ser geradas por um mesmo processo gerador
dos dados ou processo estocstico.
Um processo estocstico est determinado quando so conhecidas suas funes de
distribuio de probabilidade conjuntas, porm, como estas no so conhecidas e dispe-se de apenas uma amostra do processo (a srie temporal observada) assumem-se os
pressupostos de estacionariedade e ergodicidade do processo estocstico.
A estacionariedade significa que as caractersticas do processo estocstico permanecem invariantes ao longo do tempo. Em um sentido estrito, a estacionariedade implica
que as variveis aleatrias Zt e Zt+k tm idnticas distribuies de probabilidade qualquer que seja k. Uma condio menos restritiva a estacionariedade em sentido lato ou
de segunda ordem na qual considera-se como sendo estacionrio um processo com valor
mdio, E(Zt), e varincia, E[(Zt - )2] constantes e autocovarincias, Cov(Zt,Zt+k), dependentes apenas do intervalo de tempo (lag) k entre as observaes, ou seja:
E(Zt) = E(Zt+k) = t
(3.2)
E[(Zt- )2] = 2 t
(3.3)
39
Cov(Zt,Zt+k) = Cov(Zt+m,Zt+m+k) m
(3.4)
Se o processo estocstico for Gaussiano (Zt segue uma distribuio normal) e estacionrio em sentido lato, ele ser estritamente estacionrio, pois a distribuio normal
determinada unicamente em termos do primeiro e do segundo momento.
Quando se trabalha com uma srie temporal extrada de um processo estocstico
estacionrio est-se diante de uma realizao amostral que apresenta uma forma geral
similar outras amostras que poderiam ter sido extradas o que torna possvel estimar as
caractersticas do processo e fazer previses.
O pressuposto da ergodicidade de um processo estocstico significa que apenas
uma realizao do processo estocstico suficiente para se obter todas as estatsticas do
mesmo. Todo o processo ergdico tambm estacionrio, pois uma realizao de um
PUC-Rio - Certificao Digital N 0821481/CA
Z t yt 1 ... p yt p t 1 t 1 ... q t q
(3.5)
que pode ser reescrita pela seguinte equao obtida com o auxlio do operador defasagem (BdZt = Zt-d) em termos de dois polinmios:
1 B ... Z 1 B ... B
p
(3.6)
onde, e denotam os parmetros do modelo e t um rudo branco, um processo estocstico Gaussiano com mdia nula, varincia constante e no autocorrelacionado:
E(t)=E(t+k) = 0 t
E[t2] = 2 t
Cov(t, t+k) = Cov(t+m, t+m+k) = 0 m
(3.7)
(3.8)
(3.9)
40
Conforme indicado na equao 3.5, o modelo univariado de Box & Jenkins consiste em explicar uma varivel aleatrio Z por meio de seus valores passados, bem como de choques aleatrios, no havendo outras variveis explicativas.
Na equao 3.5, as defasagens da varivel Zt no polinmio do lado esquerdo representam a parte autoregressiva do modelo (AR), enquanto as defasagens dos choques
aleatrios t no polinmio do lado direito representam a parte mdia mvel (MA). A
equao representa uma ampla classe de modelos denominados ARMA(p,q), onde p
representa a ordem de defasagem do termo autoregressivo e q a ordem de defasagem do
termo de mdia mvel.
Por exemplo, para p 1 e q 0 tem-se o modelo autoregressivo de primeira ordem ou AR(1), no qual o valor da srie no instante t depende somente do valor da srie
no instante t-1:
Zt = 1yt-1 + t
(3.10)
Lembrando que BZt =Zt-1, a equao acima pode ser escrita como:
(1-1B)Zt = t.
(3.11)
jZt j
t
j1
(3.12)
Para se aplicar a metodologia de Box & Jenkins, a srie em estudo deve ser pelo
menos estacionria de segunda ordem, ou seja, a srie tem que ter mdia, varincia e
covarincia finitas e constantes. O exame de estacionaridade pode ser realizado observando-se a Funo de Autocorrelao (k) ou FAC da srie temporal investigada. Em
funo das correlaes entre os valores de uma srie temporal (Hippert, 2005), o valor
de Z t depende probabilisticamente do valor de Z t 1 . Dessa forma, a previso se torna
possvel por causa dessa dependncia entre os valores, sendo possvel fazer estimativas
dos valores futuros da srie. Tal correlao entre os valores da srie chamada de autocorrelao.
A funo de autocorrelao (FAC) mostra a dependncia entre os diversos termos
da srie. Seu grfico chamado de correlograma e mostra a autocorrelao de lag k,
41
k
Zt , Zt k
Cov
0
Var Zt Var Zt K
(3.13)
KK=Cov (Z t, Z t + k | Z t + 1, ..., Z t + k 1)
(3.14)
cativos nos lags 1 at p, depois cai a zero. Para um AR de ordem 1 AR(1) o pico da
FACP ser no lag 1 depois cai a zero. O pico ser positivo se 1 > 0 e negativo se 1
< 0. No caso de um processo de mdias mveis MA(q) a FAC ter picos nos lags 1
at q e depois cair a zero. Em se tratando de um MA(1), o pico ser no lag 1, caindo
depois a zero. Caso 1 < 0 ser positivo o pico e se 1 > 0 ser negativo. Na FACP h
a presena de um decaimento exponencial ou senoidal amortecida. Para recapitular,
tem-se um resumo abaixo na Tabela 6:
42
AR(p)
MA(q)
ARMA(p,q)
(B). Zt = at
Zt = (B) . at
(B) . Zt = (B)at
Infinita (Exponen-
correlao
k(FAC)
Amortecidas)
Finita (corte
Infinita (Exponen-
aps
lag q)
des Amortecidas)
Infinita (Exponen-
Infinita (Exponen-
Amortecidas)
Amortecidas)
Para Souza & Camargo (1996), uma das caractersticas fundamentais da metodologia de Box e Jenkins interpretar uma dada srie temporal como sendo uma realizao de um vetor aleatrio multivariado, cuja dimenso a da srie temporal disponvel.
A partir de uma nica realizao do processo e, com os argumentos de estacionaridade e
ergodicidade do processo subjacente, procura-se detectar o sistema gerador da srie,
atravs de informaes contidas na mesma. A filosofia da modelagem de Box & Jenkins
se utiliza de duas idias: o princpio da parcimnia e a construo de modelos por meio
de um ciclo iterativo. O princpio da parcimnia estabelece que deve-se escolher um
modelo com o menor nmero possvel de parmetros, para uma adequada representao
matemtica. Um ciclo iterativo uma estratgia de seleo de modelos a ser empreendida at que tenha-se um modelo satisfatrio.
Se a srie temporal em estudo apresentar uma componente de tendncia, ento o
processo estocstico gerador da srie no estacionrio. Neste caso a srie deve passar
por d diferenas simples para tornar-se estacionria, condio bsica para a aplicao da
metodologia Box & Jenkins. Por exemplo, para remover uma tendncia linear basta
tomar a primeira diferena da srie (d=1):
y = Zt -Zt-1
(3.15)
43
Z t Z t Z t 1
2 Z t d1Z t Z t 1
(3.16)
.
.
d Zt d 1Z d 1Zt 1
Neste caso, a metodologia Box & Jenkins aplicada na srie resultante das diferenciaes e o modelo denominado autoregressivo mdia mvel integrado ou ARIMA (p,d,q), onde d representa a ordem das diferenas simples:
1 B ... 1 B y 1 B ... B
d
(3.17)
tico
pode
ser
descrito
pelo
modelo
onde,
PS
S D
QS
SARI-
44
A diferenciao sazonal visa remover a sazonalidade da srie. Dado o perodo sazonal S, a diferenciao sazonal :
SDyt = yt - yt-S
(3.19)
Cabe ressaltar que o processo de obteno desse modelo segue os mesmos passos
empregados para achar o modelo ARIMA no sazonal (Zanini, 2007). No modelo ARIMA(p,d,q)(P,D,Q)s, a metodologia Box & Jenkins aplicada na srie supostamente
estacionria e sem sazonalidade resultante das diferenciaes simples e sazonais.
Em qualquer modelo da famlia Box & Jenkins, a identificao das ordens dos
termos auto-regressivos (p e P) e de mdias mveis (q e Q) baseia-se na anlise do perfil
da FAC e da FACP. A FAC tambm mostrar se h componente sazonal, o que pode ser
observado quando esta segue um padro peridico de picos e depresses.
A FAC e a FACP tem comportamentos tericos conhecidos, entretanto na prtica,
como estas funes so estimadas, a anlise dos grficos da FAC e da FACP amostrais
pode ser uma tarefa difcil, o que compromete a identificao precisa da ordem do modelo. A incorporao de coeficientes adicionais (modelos de maior ordem) melhora o
grau de ajustamento, reduzindo a soma dos quadrados dos resduos, no entanto, ressaltase que modelos mais parcimoniosos produzem melhores previses (maior capacidade de
generalizao) que os modelos sobreparametrizados.
45
(3.20)
(3.21)
rj2
Q BPL T (T 2)
j1
T j
(3.22)
rj
e e
t j 1
T
t t j
e
t 1
2
t
(3.23)
A estatstica QBPL utilizada para testar se um conjunto de autocorrelaes dos resduos at a ordem K (ou no) estatisticamente diferente de zero. Se os dados da srie
estudada so gerados por um processo estacionrio, ento a estatstica Q BPL tem distri-
46
buio qui-quadrado com K graus de liberdade. Observa-se que valores altos das autocorrelaes dos resduos implicam em valores altos de Q BPL. Por outro lado, em um rudo branco todas as autocorrelaes so nulas e QBPL nulo. As consideraes acima
permitem testar as seguintes hipteses com base na estatstica QBPL:
H0: as K primeiras autocorrelaes so nulas.
H1: de que pelo menos uma autocorrelao, rj, estatisticamente diferente de zero.
Um procedimento recomendado para identificar a melhor ordem de um modelo
ARIMA em obter um modelo inicial a partir da anlise das estimativas da FAC e da
FACP e em seguida fazer o teste da sobrefixao (Souza & Camargo, 1996), onde so
realizadas vrias anlises para diferentes valores de p, d, q, P, D, Q a partir do modelo
inicial, em especial o teste t-student para verificar a significncia do coeficiente de cada
47
Na regresso harmnica a varivel aleatria Zt expressa como sendo uma combinao de funes trigonomtricos mais um rudo :
Zt Hn 1 (A
(3.24)
1 N
Z
N i 1 i
2 N
Z cos w t
n N i
i
i 1
2 N
Z sen w t e 0 para w=
i N i
n
i
i 1
(3.25)
(3.26)
(3.27)
(w) e
(w) .
te por (w),
As frequncias w devem minimizar a soma de quadrados residual, SQR, dada
pela expresso 3.28:
~
SQR SQT N R 2 ,
2
ou equivalentemente, maximizar a quantidade
(3.28)
48
~
~
~
R 2 (w) 2 (w) 2 (w),
(3.29)
~ 2 N
(Zt Z ) cos(wt)
N i 1
(3.30)
~ 2 N
(Z Z )sen ( wt)
N i 1 t
(3.31)
~
I (w) N R 2 (w)
8
(3.32)
2
2
1
(w)
Z Z cos wt Z t Z senwt ,
2N t
t 1
t 1
(3.33)
denominada periodograma.
Assim, estima-se w maximizando R 2 (w) na expresso 3.29 ou, equivalentemente, maximizando o periodograma da equao obtemos os demais estimadores do modelo
utilizando as expresses abaixo:
t 1
N
Zt
Z,
N
2
Z cos(wt ), w ,
N t 1 t
N
2 Zt (1)t e
0, se w ,
N t 1
(3.34)
(3.35)
(3.36)
Para mais detalhes sobre regresso harmnica consulte Morettin (2006) e Toloi
(2006). A anlise harmnica pode ser combinada com a abordagem de Box& Jenkins na
modelagem de sries temporais com mltiplos ciclos de sazonalidade, como o caso
das sries horrias de velocidade de vento analisadas nesta dissertao, onde o ajuste de
um modelo auto-regressivo mdia mvel (ARMA) precedido pela anlise harmnica
com a finalidade de remover os mltiplos ciclos sazonais. O mtodo ARMA aplicado
49
3.5
Rede Neural Artificial
Uma rede neural artificial (RNA) um sistema de computao composto de elementos processadores (EPs) altamente interligados, trabalhando em paralelo para desempenhar uma determinada tarefa. Estes elementos processadores, linspirados nos neurnios biolgicos, so organizados de tal forma que podem, em alguns casos, lembrar a
anatomia do crebro. Contudo, os EPs so bem mais simples que suas inspiraes naturais e contm basicamente apenas um algoritmo matemtico que executa o processamento da informao em resposta a estmulos procedentes de outros EPs (Haykin,
PUC-Rio - Certificao Digital N 0821481/CA
2001).
O crebro humano composto por cerca de 100 bilhes de clulas nervosas, conhecidas por neurnios, que se conectam massivamente umas as outras atravs de ligaes eletroqumicas, denominadas sinapses, formando uma grande rede de processamento. Cada neurnio recebe estmulos atravs dos dendritos, os processa em seu corpo
celular e, dependendo do seu estado de ativao, gera e transmite um estmulo pelo seu
axnio para que atinja outros neurnios. A estrutura e o funcionamento do neurnio
biolgico podem ser modeladas pelo neurnio artificial ilustrado na Figura 6.
X1
w1
X2
w2
X3
w3
wX
net
Y
net
wN
XN
w0 = Vis
1
No neurnio artificial os N terminais de entrada representam os dendritos e o nico terminal de sada representa o axnio. A intensidade das sinapses representada pelos pesos (w) nos terminais de entrada, cujos valores podem ser negativos ou positivos,
50
51
c amada de
entrada
c amada
es c ondida
c amada de
s ada
52
Aprendizado no supervisionado: caracterizado pela ausncia de algum elemento externo supervisor, ou seja, um padro de entrada fornecido permite que
A aprendizagem supervisionada comumente aplicada na previso de sries temporais, enquanto a aprendizagem no supervisionada usual na anlise de agrupamentos
(cluster analysis).
A previso de valores futuros de uma srie temporal, por meio de uma RNA
(Werbos, 1990), inicia-se com a montagem do conjunto de treinamento, que depende da
definio do tamanho da janela de tempo para os valores passados das variveis explicativas e da prpria varivel que se deseja prever, bem como do horizonte de previso.
O padro de entrada formado pelos valores passados das variveis explicativas
que podem incluir os valores passados da prpria srie que se deseja prever (modelo
auto-regressivo) e a sada desejada o valor da srie temporal no horizonte de previso.
A Figura 8 ilustra como deve ser construdo o conjunto de treinamento no caso da previso basear-se nos quatro ltimos valores passados. A construo dos padres de trei-
53
namento da rede consiste em mover as janelas de entrada e sada ao longo de toda srie
temporal:
Cada par de janelas entrada/sada funciona como um padro de treinamento e deve ser apresentado repetidas vezes at que o algoritmo de aprendizado alcance a convergncia.
A arquitetura da RNA exerce grande influncia sobre o desempenho do processo
de aprendizagem. Em uma rede neural pequena h dificuldade de armazenar todos os
padres necessrios e por isso a convergncia do algoritmo de treinamento mais lenta.
Em uma rede pequena os processadores ficam sobrecarregados e lidam com muitas restries na tentativa de encontrar uma representao tima. Porm, deve-se ter o cuidado
de no utilizar processadores demais, pois a rede pode memorizar os padres de treinamento, ao invs de extrair as caractersticas gerais que permitiro o reconhecimento de
padres no vistos durante o treinamento.
Com relao s redes com mais de uma camada escondida importante observar
que cada vez que o erro propagado para a camada anterior, ele se torna menos til e
preciso. Apenas a camada imediatamente anterior camada de sada tem uma noo
precisa do erro, todas as camadas escondidas anteriores recebem uma estimativa do erro. Por esta razo a convergncia dos pesos destas camadas mais lenta.
O processo de treinamento de uma rede neural nada mais que o ajuste de parmetros, guiado pelo processo de minimizao da funo do erro entre as sadas desejadas e as apresentadas pela rede. Durante o processo, vrios padres de entrada e as
respectivas sadas desejadas so apresentados rede neural, de tal forma que os pesos
54
n
1
(d jp y jp ) 2 ,
2 p j 1
(3.37)
padro de
entrada
FASE FORWARD
pesos
ajustados
FASE BACKWARD
clculo da
sada
erro
Na fase forward os dados de entrada alimentam a rede e so propagados para frente at que as sadas dos ns da ltima camada sejam obtidas, considerando-se fixos todos os parmetros da rede.
J na fase backward, o desvio (erro) entre a resposta desejada (alvo) e a resposta
efetivamente fornecida pela rede utilizado para ajustar os pesos das conexes da rede.
O sinal de erro propagado na direo da camada de entrada e o gradiente decrescente
usado para ajustar os parmetros da rede.
55
Para minimizar a soma dos quadrados do erro o algoritmo backpropagation se baseia no mtodo gradiente descendente, por isso, afim de que esse mtodo seja utilizado a
funo de ativao precisa ser contnua, diferencivel e de preferncia no decrescente,
por exemplo, a funo logstica. O algoritmo backpropagation pode ser resumido nas
seguintes operaes (Haykin, 2001):
1 Passo - Inicialize aleatoriamente os pesos da rede e faa o contador de pocas
(t) igual a zero.
2 Passo - Apresente uma poca de exemplos de treinamento rede. Uma poca
indica o nmero de vezes que o conjunto de treinamento, ou melhor, os padres de entrada (x) e o respectivo padro de sada (yd) so apresentados rede. Para cada exemplo
de treinamento realizar os passos 3 e 4 a seguir.
3 Passo Fase forward: Propague o padro de entrada (Xp) para frente, camada
PUC-Rio - Certificao Digital N 0821481/CA
por camada, at chegar na camada de sada. Para cada neurnio calcular a combinao
dos sinais recebidos da camada anterior:
m
net Ij t w Ij ,i t yiI 1 t
i 0
(3.38)
onde, yiI 1 t a sada produzida pelo neurnio i da camada anterior I-1 e w Ij,i t o
peso sinptico da conexo do neurnio j na camada I com o neurnio i da camada anterior I-1.
Para i=0 tem-se o vis aplicado ao neurnio j na camada I: y0I 1 t 1 e
w Ij ,0 t b Ij t
yiI t f j net j t
(3.39)
e j t y dj y j
(3.40)
56
4 Passo Fase backward: Propague o erro calculado no passo 2 para trs, comeando na camada de sada e terminando na camada de entrada. Neste processo ajuste os
pesos conforme a expresso :
w Ij ,i t 1 w Ij ,i t jI t yiI 1 t
(3.41)
jI t e j t
df j net j t
dnet j
(3.42)
Porm, se a camada I onde o neurnio estiver uma camada escondida, o gradiente local :
jI t
df j net j t
dnet j
kI 1 t wkjI 1 t
k 1
(3.43)
O backpropagation usa o algoritmo do gradiente descendente durante na otimizao dos pesos das sinapses. Um aprimoramento do gradiente descendente o algoritmo
o erro.
Usualmente o critrio de parada fixa um determinado nmero de iteraes ou estabelece uma tolerncia para
57
(3.44)
- um fator de ajuste.
Assim, a regra de atualizao leva em considerao tanto a inclinao da superfcie do erro (mtodo do gradiente decrescente) quanto curvatura desta superfcie (mtodo de Gauss-Newton). O fator de ajuste indica qual dos dois mtodos ser predominante: para fatores de ajuste grandes, o mtodo do gradiente decrescente predomina e a
PUC-Rio - Certificao Digital N 0821481/CA
58
O problema das redes neurais est basicamente relacionado falta de poder explicativo do sistema. Como forma de tentar solucionar estes problemas, foi criado os sistemas Neuro-Fuzzy. A principal vantagem deste sistema associar a capacidade de
aprendizado das Redes neurais e sua tolerncia a falhas interpretabilidade dos sistemas
fuzzy.
59
Na Figura 10 a varivel temperatura foi modelada por trs conjuntos fuzzy que representam as situaes de temperatura baixa, normal e alta. Estes trs conceitos lingsticos no so delimitados de forma precisa, pois esto associados com a sensao trmica. Esta caracterstica representada pela sobreposio entre os conjuntos fuzzy para
60
Fuzzificador: Mapeia os valores das variveis de entrada (valores crisp) nos conjuntos fuzzy dos antecedentes das regras fuzzy. Isso se faz necessrio de forma a ativar
regras que esto no formato de variveis lingsticas, as quais possuem conjuntos fuzzy
associados com elas (Klin & George, 1995).
Inferncia: Realiza as operaes lgicas com conjuntos fuzzy, combinao dos antecedentes das regras, implicao e modus pons generalizado.
Defuzzificador: Transforma um conjunto fuzzy de sada em um elemento do universo de discurso (em geral, um nmero real), ou seja, o inverso da fuzzificao. Entre
as tcnicas utilizadas para tal processo, a mais usual o do centride (Caldeira et al.
2007).
A seguir, a Figura 12 ilustra o princpio de raciocnio da lgica fuzzy em um sistema de inferncia fuzzy tipo Mandani com duas regras, cujos antecedentes so definidos pela composio de dois conjuntos fuzzy A e B e que representam o comportamento
das variveis de entrada x e y respectivamente. Cada regra oferece como resposta um
conjunto fuzzy de sada C:
61
Se x A1 e y B1 ento z C1
Se x A 2 e y B2 ento z C 2
(3.45)
No modelo Mandami o processamento denominado inferncia Max-Min e corresponde s operaes de unio e interseo fuzzy (operadores mximo e mnimo). Os
antecedentes de cada regra so processados por meio da interseo fuzzy, gerando um
grau de disparo que limitar os valores mximos dos conjuntos de sada. Por exemplo,
na Figura 12 o valor preciso da varivel X tem pertinncia A1 no conjunto fuzzy A1 e
o valor da varivel Y tem pertinncia B1 no conjunto fuzzy B1. Logo, pela inferncia
Max-Min o grau de ativao da regra min(A1, B1) que neste caso A1.
A composio de todas as regras disparadas (ou ativadas) realizada atravs da
operao de unio fuzzy que gera o conjunto fuzzy de sada. Para obter uma sada precisa
deve-se proceder defuzzyficao do conjunto de sada. H diversos mtodos para realizar a transformao dos conjuntos fuzzy de sada em valores numricos, tais como a
Mdia dos Mximos e o Centro de Massa (tambm denominado Centro de Gravidade
ou Centride).
Uma alternativa ao modelo Mandani o modelo Takagi-Sugeno-Kang ou TSK
(Jang,1993 e Sun 1995) ilustrado na Figura 13, no qual cada regra oferece como resposta uma combinao linear das variveis de entrada, sendo que a sada do sistema de inferncia fuzzy a mdia ponderada das respostas parciais, onde os pesos so os graus de
ativao das regras w e que expressam a compatibilidade das variveis de entrada x e
y com os antecedentes das regras. O modelo TSK pode ser visto como uma combinao
62
entre conhecimento lingstico (parte antecedente) e regresso estatstica (parte conseqente), de tal forma que os antecedentes descrevem regies nebulosas no espao de
entrada nas quais as funes conseqentes so vlidas. Uma regra tpica de um sistema
com duas variveis de entrada utilizando o sistema TSK tem a forma:
Se x A e y B ento z px qy r
(3.46)
.y
i 1
N
i 1
(3.47)
i
onde, y a sada final, N representa o total de regras ativadas, e i o grau de pertinncia em relao contribuio de cada regra ativada.
63
3.6.2
Sistema Neuro-Fuzzy Adaptativo (ANFIS)
O ANFIS uma rede neural proposta por Jang (1993) cuja idia bsica de implementar um sistema de inferncia fuzzy atravs de uma arquitetura paralela distribuda, neste caso, a de uma RNA, de tal forma que os algoritmos de aprendizado possam
ser usados para ajustar este sistema de inferncia fuzzy.
Os parmetros associados com as funes de pertinncia so ajustados via um algoritmo de aprendizado. O ajuste destes parmetros efetuado utilizando o algoritmo de
backpropagation ou uma combinao deste com um algoritmo do tipo: mnimos quadrados (Least Squares). Esta estrutura implementa sistemas do tipo Takagi-Sugeno (Takagi-Sugeno, 1985), com funes lineares ou constantes nos consequentes das regras
que formam o sistema, tendo estas regras pesos unitrios.
PUC-Rio - Certificao Digital N 0821481/CA
A rede adaptativa uma espcie de grafo com ns interconectada por ramos direcionados. Alguns dos ns apresentam comportamento adaptativo, ou seja, sofrem alterao paramtrica no decorrer do treinamento, enquanto outros mantm seu comportamento dinmico inalterado (Caldeira, 2007).
O mtodo une as vrias partes de um sistema de inferncia fuzzy em uma rede adaptativa feedforward com cinco camadas (Figura 14) e treinada de modo supervisionado.
64
(3.48)
i=1,2
Sadai1 Bi y , grau de pertinncia do valor da varivel y no conjunto fuzzy Bi,
i=1,2
O grau de pertinncia da entrada nos conjuntos fuzzy A e B pode ser definido
por funes triangulares, trapezoidais, gaussianas, mas usualmente descrito pela funo sino generalizada:
x bi
Ai x 1
ai
2 ci
, i 1,2
x ei
Bi x 1
di
2 fi
, i 1,2
(3.49)
(3.50)
65
A camada 2 no tem pesos a serem ajustados, uma camada com elementos estticos.
Na camada 3, cada n N normaliza o grau de ativao de uma regra fuzzy dividindo o grau de ativao da i-sima regra pela soma dos graus de ativao de todas as regras:
Sadai3 wi
i=1,2
w1
w1 w2
(3.51)
Sadai4 wi pi x qi y ri
i=1,2
(3.52)
w p x q y r
w p x q y r
w
j
Sada
5
i
(3.53)
No ajuste dos premise e consequent parameters a ANFIS usa o mtodo dos mnimos quadrados para determinar os consequent parameters e a retropropagao do erro
66
srie por um perodo fixo. Em seguida, esta previso realimentada na entrada do sistema para prever o prximo perodo. Estas previses so muito usadas para identificar
tendncias e pontos de mudanas preponderantes nas sries. Devido ao erro que inserido a cada nova previso, o horizonte de previses "multi-step" depende das caractersticas da srie e do limite do erro estabelecido.
Nas previses "single-step" no existe realimentao. As RNAs utilizam apenas
os valores anteriores da srie para prever um passo frente. Todavia, este passo tanto
pode ser para previses de curto prazo como para previses de mdio e longo prazo,
bastando que se tenha dados suficientes para treinar a rede. A previso "single-step"
tambm serve para avaliar a adaptabilidade e a robustez do sistema, mostrando que
mesmo quando as RNAs fazem previses erradas, elas so capazes de se auto corrigirem e fazer as prximas previses corretamente.
3.7
Diagnostico do Modelo
Dada uma srie histrica com n observaes, a qualidade do ajuste e o
desempenho de um modelo de previso podem ser avaliados
pelas seguintes
67
100 n O t E t
n t 1 O t
n
Ot E t
t 1
MAD =
O t E t 2
t 1
Ot E t
t 2 O t 1
n
U de Theil:
U - Theil =
O t O t 1
O t 1
t 2
n
obtida pelo mtodo de previso ingnuo (naive), no qual a previso para o instante seguinte o valor imediatamente anterior.