Sie sind auf Seite 1von 167

CARLOS ALBERTO CLAUMANN

DESENVOLVIMENTO E APLICAES DE REDES NEURAIS


WAVELETS E DA TEORIA DE REGULARIZAO NA MODELAGEM
DE PROCESSOS

Tese submetida ao Programa de Ps-Graduao


em

Engenharia

Qumica,

Departamento

de

Engenharia Qumica e Engenharia de Alimentos,


Universidade Federal de Santa Catarina, como
requisito parcial obteno do ttulo de Doutor em
Cincias da Engenharia Qumica.

Orientador: Prof. Nestor Roqueiro, Dr.

Florianpolis, 2003

ii

AGRADECIMENTOS

Aos meus pais, pela pacincia, apoio e incentivo.


Aos meus familiares pelo apoio.
Ao professor Nestor Roqueiro pela orientao e principalmente pela amizade.
Ao professor Juber Cavalcante de Oliveira pelos seus esclarecimentos e ensinamentos em
Anlise Funcional.
Aos amigos do Laboratrio de Controle de Processos (LCP) pelo auxlio e contribuies,
principalmente a Adriano, Mazzuco, Lus Henrique e aos professores Ricardo Antnio
Francisco Machado e Ariovaldo Bolzan.
Aos amigos que encontrei na UFSC, em especial a Jos Luciano e Ivan.
Ao Departamento de Engenharia Qumica e Alimentos pela oportunidade concedida.
Ao Edivilson pelo apoio, ateno e auxlio.
Aos professores que participaram das bancas examinadoras e que contriburam com a
realizao deste trabalho.
Ao CNPQ pelo apoio financeiro.

iii

RESUMO
CLAUMANN, Carlos Alberto. Desenvolvimento e aplicaes de redes neurais wavelets e
da teoria de regularizao na modelagem de processos. Florianpolis, 2003. 153p.
Tese (Doutorado em Engenharia Qumica) - Curso de Ps-Graduao em Engenharia
Qumica, Universidade Federal de Santa Catarina.
Orientador: Nestor Roqueiro
Defesa: 28/02/03
Neste trabalho foram propostas modificaes na wavenet para melhorar a capacidade de
generalizao e reduzir o nmero de neurnios. O desempenho da nova rede foi superior
quando comparada com as tradicionais redes feedforward e de base radial na identificao de
processos no-lineares: um atrator catico, um reator biolgico em que ocorre inibio do
crescimento de clulas pela formao de produto e um tanque de pH. O desempenho de
previso da nova rede proposta, que do tipo esttica, foi tambm validado utilizando essa
como um simulador de processos no-lineares. Foram efetuados testes sem rudo para um
CSTR (Continuos Stirred-Tank Reactor) encamisado com mltiplos estados estacionrios e
um reator cujo comportamento apresenta resposta inversa varivel. Alguns testes foram
efetuados para o reator biolgico e para o tanque de pH com a adio de rudo. Foi realizado
um estudo a respeito da minimizao das curvaturas da superfcie de um modelo emprico e
efetuada sua conexo com o problema de sobre-treinamento. A nova rede proposta foi
utilizada como modelo para o controle de dois processos no-lineares: um tanque de nvel
com alterao significativa de rea (experimental) e um tanque de pH (simulado).
Palavras-chave: Wavelets; Teoria da regularizao; Redes neurais; Identificao de processos;
Controle de processos

iv

ABSTRACT
In this work modifications were proposed in the wavenet to enhance its generalization
capability and to reduce the number of neurons. The modified net exhibited superior
performance when compared with traditional feedforward and radial base nets in the
identification of nonlinear process: a caotic atractor, a biological reactor in which inhibition of
the growing cells takes place due to product formation and a pH tank. The prediction
performance of the static proposed net was also validated using it as a nonlinear process
simulator. Tests without noise were realized for a jacketed, multiple steady-state CSTR
(Continuous Stirred-Tank Reactor) and a reactor whose behavior presents a variable inverse
response. Some tests including noise were accomplished for the biological reactor and a pH
tank. A study referring to the surface curvature minimization of an empirical model was
elaborated an its connection with the overtraining problem was evaluated. The new proposed
net was applied as a model for control purposes in two nonlinear processes: A level tank with
variable diameter (experimental) and a pH tank (simulated).

SUMRIO

LISTA DE FIGURAS...............................................................................................................x
LISTA DE TABELAS...........................................................................................................xiv
1

INTRODUO ................................................................................................................1

TEORIA DE WAVELETS E MULTIRESOLUO .................................................... 4

2.1

Introduo ................................................................................................................. 4

2.2

Famlias de Wavelets................................................................................................. 6

2.3

Obteno de Wavelets Me ...................................................................................... 7

2.4

Aproximao de Funes atravs de Multiresoluo.......................................... 11

2.5

Aproximao de Funes Unidimensionais.......................................................... 13

2.6

Aproximao de Funes Multivariveis .............................................................17

ALTERAES NA WAVENET ................................................................................... 19


3.1

Multiresoluo Apenas com Funes de Escala ..................................................19

3.2

Determinao de uma Funo de Ativao Adequada para Identificao de

Processos.............................................................................................................................. 25
3.3
4

REDES NEURAIS PARA IDENTIFICAO DE SISTEMAS ................................31


4.1

Determinao do Nmero Inicial de Funes de Escala (Primeira Resoluo) 28

Redes Neurais Utilizadas em Identificao de Sistemas .....................................31

ESTUDO DE MTODOS DE TREINAMENTO DE REDES FEEDFORWARD... 34


5.1

Descrio do Mtodo de Treinamento da Retroprogao do Erro.................... 34

5.2

Descrio do Mtodo de Treinamento Levenberg-Marquardt .......................... 35

5.3

Comparao de Desempenho entre um Mtodo de Primeira e Segunda Ordem


38

5.4

Metodologia de Treinamento Baseada em Algoritmos Genticos e Mnimos

Quadrados ........................................................................................................................... 45
5.4.1

Introduo......................................................................................................... 45

vi

5.4.2

Termos Tcnicos Utilizados em Algoritmos Genticos ................................... 46

5.4.3

Diferenas Entre Algoritmos Genticos e Tcnicas Clssicas de Otimizao. 47

5.4.4

Descrio da Tcnica Baseada em Mnimos Quadrados e Algoritmos............ 47

5.5

Comparao de Desempenho Entre um Mtodo de Segunda Ordem e um

Mtodo Baseado em Algoritmos Genticos ...................................................................... 48


5.6
6

Concluses ............................................................................................................... 52

REGULARIZAO E REPRESENTAO DO CONHECIMENTO ...................53


6.1

Introduo ............................................................................................................... 53

6.2

Introduo de Regularizadores no Problema de Mnimos Quadrados ............. 54

6.3

Normalizao de Regularizadores ........................................................................ 57

6.4

Influncia da Regularizao pela Norma dos Pesos no Condicionamento da

Matriz de Covarincia........................................................................................................ 58
6.5

Influncia da Regularizao na Capacidade de Generalizao de Modelos

Empricos............................................................................................................................. 62
6.6

6.6.1

Identificao do Tanque de pH Utilizando uma Rede de Base Radial............. 67

6.6.2

Identificao do Tanque de pH Utilizando uma Rede de Funes de Escala .. 70

6.6.3

Identificao do Tanque de pH Utilizando uma Rede Neural Feedforward.... 73

6.7
7

Resultados ............................................................................................................... 67

CONCLUSES....................................................................................................... 76

COMPARAO DE DESEMPENHO DE ARQUITETURAS DE REDES

NEURAIS ................................................................................................................................ 78

7.1

Identificao do Atrator Catico .......................................................................... 78

7.2

Identificao do Reator Biolgico ......................................................................... 84

7.3

Identificao do Tanque de pH ............................................................................. 93

7.4

Concluses ............................................................................................................... 96

PREDIO PARA HORIZONTE DE LONGO ALCANCE DO

COMPORTAMENTO DE SISTEMAS DINMICOS....................................................... 98


8.1

CSTR Encamisado .................................................................................................. 98

vii

Reao de Van de Vusse.......................................................................................105

8.3

Concluses ............................................................................................................. 109

8.2

IDENTIFICAO DE SISTEMAS DINMICOS NA PRESENA DE RUDO

UTILIZANDO REDES DE FUNES DE ESCALA...................................................... 110


9.1

Introduo ............................................................................................................. 110

9.2

Gerao de Dados com Rudo ............................................................................. 111

9.3

Identificao do Tanque de pH a partir de Dados Corrompidos com Rudo . 112

9.4

Identificao do Reator Biolgico a partir de Dados Corrompidos com Rudo


114

9.5
10

Concluses ............................................................................................................. 118


CONTROLE PREDITIVO DO NVEL DE UM TANQUE COM ALTERAO

DE DIMETRO ...................................................................................................................119
10.1

Descrio do Tanque de Nvel ............................................................................. 119

10.2

Treinamento da Rede de Funes de Escala...................................................... 121

10.3

Validao da Rede de Funes de Escala ........................................................... 123

10.3.1 Simulao ....................................................................................................... 123


10.3.2 Anlise de Resduos de Treinamento ............................................................. 124
10.4

Princpios Bsicos de Controle Preditivo ........................................................... 127

10.5

Implementao Computacional do Controlador ............................................... 128

10.6

Projeto do Controlador ........................................................................................ 129

10.7

Resultados ............................................................................................................. 130

10.8

Concluses ............................................................................................................. 133

11

CONTROLE DE UM TANQUE DE PH................................................................134


11.1

Identificao do Tanque de pH ........................................................................... 134

11.2

Objetivos do Controlador .................................................................................... 136

11.3

Preditor Utilizado no Controlador...................................................................... 136

11.4

Resultados ............................................................................................................. 137

viii

11.5

Concluses ............................................................................................................. 141

12

CONCLUSES FINAIS ..........................................................................................142

13

APNDICE ............................................................................................................... 144


13.1

Apndice 1 ............................................................................................................. 144

13.2

Apndice 2 - Calibrao do Sensor de Presso .................................................. 146

13.2.1 Procedimento para Determinao da Curva de Calibrao ............................ 146


14

REFERNCIAS BIBLIOGRFICAS ...................................................................148

ix

LISTA DE FIGURAS
Figura 2-1 - Funo de escala e wavelet (base de Haar) ........................................................ 9
Figura 2-2 - Funo de escala e wavelet (base de Hat) .......................................................... 9
Figura 2-3 - Funo de escala e wavelet (base spline quadrtica).......................................... 9
Figura 2-4 - Funo de escala e wavelet (base de Daubechies)............................................ 10
Figura 2-5 - Funo de escala e wavelet (base spline bicbica)........................................... 10
Figura 2-6 - Base de Haar em duas dimenses: (a) funo de escala e wavelet (uma
dimenso); (b) funo de escala (duas dimenses); (c) trs wavelets me(duas
dimenses).................................................................................................................... 18
Figura 3-1 - Dados de entrada: X1, X2 possuem distribuio uniforme.............................. 21
Figura 3-2 - Dados de entrada: X1 possui distribuio uniforme, X2 distribuio gaussiana21
Figura 3-3 - Superfcie de previso: rede de funes de escala (primeiro grupo de dados). 23
Figura 3-4 - Superfcie de previso: wavenet (primeiro grupo de dados) ............................ 23
Figura 3-5 - Superfcie de previso: rede de funes de escala (segundo grupo de dados) . 24
Figura 3-6 - Superfcie de previso: wavenet (segundo grupo de dados)............................. 24
Figura 3-7 - Aumento do nmero de extremos conforme cresce a dimenso do espao de
entrada .......................................................................................................................... 26
Figura 3-8 - (a) funo de escala spline; (b) derivada de primeira ordem; (c) derivada de
segunda ordem.............................................................................................................. 27
Figura 3-9 - Spline dividida em 3 regies ............................................................................ 28
Figura 3-10 - Expanso contento 8 funes de escala.......................................................... 29
Figura 3-11 - Expanso contento 5 funes de escala.......................................................... 29
Figura 5-1 - Perturbaes aplicadas na vazo de base do tanque de pH .............................. 40
Figura 5-2 Evoluo do pH no tanque............................................................................... 41
Figura 5-3 - Dados reais x previso da rede feedforward treinada por backpropagation..... 42
Figura 5-4 - Dados reais x previso da rede feedforward treinada por Levenberg-Marquardt42
Figura 5-5 - (a) Erros de previso da rede feedforward treinada por backpropagation
(b) Erros de previso da rede feedforward treinada por Levenberg-Marquardt........... 43
Figura 5-6 - Evoluo do erro de treinamento utilizando os mtodos backpropagation e
Levenberg-Marquardt................................................................................................... 44
Figura 5-7 - Dados reais x previso da rede feedforward treinada por GA + mnimos
quadrados...................................................................................................................... 50

Figura 5-8 - (a) Erros de previso da rede feedforward treinada por Levenberg-Marquardt
(b) Erros de previso da rede feedforward treinada por GA + mnimos quadrados ..... 50
Figura 5-9 - Evoluo do treinamento da rede feedforward utilizando Levenberg-Marquardt e
GA + mnimos quadrados............................................................................................. 51
Figura 6-1 - Comparao da aproximao do mesmo conjunto de dados para diferentes
modelos......................................................................................................................... 62
Figura 6-2 - Valor absoluto dos pesos para alguns valores do parmetro de regularizao ........... 68
Figura 6-3 - Influncia do parmetro de regularizao no nmero de condio da matriz de
covarincia.................................................................................................................... 68
Figura 6-4 - Influncia do parmetro de regularizao no valor de 100-R2 ......................... 69
Figura 6-5 - Valor absoluto dos pesos para alguns valores do parmetro de regularizao. 70
Figura 6-6 - Influncia do parmetro de regularizao no nmero de condio da matriz de
covarincia (1 nvel de resoluo) .............................................................................. 71
Figura 6-7 - Influncia do parmetro de regularizao no nmero de condio da matriz de
covarincia (2 nvel de resoluo) .............................................................................. 71
Figura 6-8 - Influncia do parmetro de regularizao no valor de 100-R2 ......................... 72
Figura 6-9 - Valor absoluto dos pesos para alguns valores do parmetro de regularizao ()
...................................................................................................................................... 74
Figura 6-10 - Norma do vetor de pesos da camada de sadax valor do parmetro de
regularizao ()........................................................................................................... 74
Figura 6-11 - Nmero de condio da matriz de covarincia para alguns valores do parmetro
de regularizao ()...................................................................................................... 75
Figura 6-12 - 100-R2 x nmero de pocas para alguns valores do parmetro de regularizao
() ................................................................................................................................. 76
Figura 7-1 - (a) Comportamento oscilatrio (= 3,5); (b) Comportamento catico (= 3,9)78
Figura 7-2 - O valor de 100-R2 em funo do nmero de parmetros ajustveis para as redes
testadas (treinamento)................................................................................................... 81
Figura 7-3 - Valor de AIC em funo do nmero de parmetros ajustveis para as redes
testadas ......................................................................................................................... 83
Figura 7-4 - O valor de 100-R2 em funo do nmero de parmetros ajustveis para as redes
testadas (Teste) ............................................................................................................. 84
Figura 7-5 - Perturbaes aplicadas na vazo de alimentao ............................................. 86
Figura 7-6 - Concentrao de clulas ................................................................................... 86

xi

Figura 7-7 - Concentrao de substrato................................................................................ 86


Figura 7-8 - Concentrao de produto.................................................................................. 87
Figura 7-9 - Perturbaes aplicadas na vazo de alimentao ............................................. 87
Figura 7-10 - Dados da sada (concentrao de clulas) ...................................................... 88
Figura 7-11 - Dados da sada (concentrao de substrato)................................................... 88
Figura 7-12 - Dados da sada (concentrao de produto)..................................................... 88
Figura 7-13 - O valor de 100-R2 x nmero de parmetros ajustveis das redes (treinamento)
(a) concentrao de clulas; (b) concentrao de substrato; (c) concentrao de produto
...................................................................................................................................... 90
Figura 7-14 - O valor de AIC x nmero de parmetros ajustveis das redes (treinamento)
(a) concentrao de clulas; (b) concentrao de substrato; (c) concentrao de produto
...................................................................................................................................... 91
Figura 7-15 - O valor de 100-R2 x nmero de parmetros ajustveis das redes (teste)
(a) concentrao de clulas; (b) concentrao de substrato; (c) concentrao de produto
...................................................................................................................................... 92
Figura 7-16 - 100-R2 x nmero de parmetros ajustveis (treinamento) .............................. 94
Figura 7-17 - AIC x nmero de parmetros ajustveis (treinamento)................................... 95
Figura 7-18 - 100-R2 x nmero de parmetros ajustveis (teste) .......................................... 95
Figura 8-1 - Perturbaes aplicadas na vazo de alimentao ........................................... 101
Figura 8-2 - Dados treinamento (concentrao de reagente A) .......................................... 102
Figura 8-3 - Dados treinamento (temperatura no reator).................................................... 102
Figura 8-4 - Dados treinamento (temperatura na camisa) .................................................. 102
Figura 8-5 - Perturbaes aplicadas na vazo de alimentao (teste) ................................ 103
Figura 8-6 - Dados teste x simulao rede (concentrao de reagente A).......................... 103
Figura 8-7 - Dados teste x simulao rede (temperatura no reator) ................................... 104
Figura 8-8 - Dados teste x simulao rede (temperatura na camisa).................................. 104
Figura 8-9 - Perturbaes aplicadas na taxa de diluio (dados de treinamento)............... 106
Figura 8-10 - Concentrao de A (dados de treinamento) .................................................. 106
Figura 8-11 - Concentrao de B (dados de treinamento) .................................................. 107
Figura 8-12 - Perturbaes aplicadas na taxa de diluio (dados de teste) ........................ 107
Figura 8-13 Dados teste x rede atuando como simulador (concentrao de A) ............... 108
Figura 8-14 - Dados teste x rede atuando como simulador (concentrao de B)................ 108
Figura 9-1 - Grupos de dados de treinamento com rudo obtido a partir do caso sem rudo113
Figura 9-2 - Grupos de dados de teste com rudo obtido a partir do caso sem rudo ......... 113

xii

Figura 9-3 - Comparao previso da rede em aberto x dados do teste.............................. 114


Figura 9-4 - Dados de treinamento com rudo obtidos a partir do caso sem rudo;
(a) concentrao de clulas; (b) concentrao de substrato; (c) concentrao de produto
.................................................................................................................................... 115
Figura 9-5 - Dados de teste com rudo obtidos a partir do caso sem rudo; (a) concentrao de
clulas; (b) concentrao de substrato; (c) concentrao de produto ......................... 116
Figura 9-6 - Comparao rede atuando como simulador x dados do teste (a) concentrao de
clulas; (b) concentrao de substrato; (c) concentrao de produto ......................... 117
Figura 10-1 - Tanques de nvel LCP; em detalhe o tanque com alterao brusca de dimetro
no qual foram realizados os experimentos de controle .............................................. 120
Figura 10-2 - Diagrama do sistema de controle do tanque de nvel ................................... 121
Figura 10-3 - Perturbaes aplicadas no sinal enviado pelo sistema de controle (treinamento)
.................................................................................................................................... 122
Figura 10-4 - Dados de altura (treinamento); (A) seo inferior; (B) seo intermediria;
(C) seo superior tanque ........................................................................................... 122
Figura 10-5 - Comparao dados reais x previso rede (treinamento) (A) seo inferior;
(B) seo intermediria; (C) seo superior tanque ................................................... 123
Figura 10-6 - Perturbaes aplicadas no sinal enviado pelo sistema de controle (teste).... 124
Figura 10-7 - Comparao dos dados teste x curva de simulao gerada pela rede
(A) seo inferior; (B) seo intermediria; (C) seo superior tanque ..................... 124
Figura 10-8 - Testes de correlao baseados em resduos (95% confiana) ...................... 126
Figura 10-9 - Transies de setpoint para os controladores neural e PI.
(A) seo inferior; (B) seo intermediria; (C) seo superior tanque ..................... 131
Figura 10-10 - Aes de controle tomadas pelos controladores neural e PI ...................... 132
Figura 11-1 Comparao dados reais processo x previso do modelo linear .................. 135
Figura 11-2 Comparao dados reais processo x previso do modelo linear (correspondente s
amostras entre 530 e 630 do grupo de dados) ............................................................ 136
Figura 11-3 - Desempenho do controlador preditivo baseado em modelo linear (N2= 5,

=0,55)....................................................................................................................... 138
Figura 11-4 - Desempenho do controlador preditivo baseado em modelo linear (N2= 5, =0,1)
.................................................................................................................................... 138
Figura 11-5 - Comparao entre o desempenho dos controladores preditivos baseados nos
modelos linear e neural (perturbaes setpoint) (A) pH (varivel controlada);
(B) vazo de base (varivel manipulada) ................................................................... 139

xiii

Figura 11-6 - Comparao de desempenho dos controladores preditivos baseados em modelo


linear e neural (perturbaes carga) (A) pH (varivel controlada); (B) vazo de base
(varivel manipulada)................................................................................................. 140

xiv

LISTA DE TABELAS
Tabela 2.1 - Coeficientes utilizados para gerao de algumas wavelets mais conhecidas..... 8
Tabela 2.2 - Suporte da funo de escala e de suas compresses didicas (caso N=3)........ 11
Tabela 2.3 - Valor da interseo entre funes adjacentes utilizadas em uma expanso para
alguns tipos de funo de escala................................................................................... 11
Tabela 3.1 Comparao entre desempenho da wavenet e da rede de funes de escala .... 22
Tabela 5.1 - Variveis e parmetros do processo de neutralizao ...................................... 39
Tabela 5.2 - Comparao do desempenho dos mtodos de backpropgation e
Levenberg-Marquardt (treinamento) ............................................................................ 41
Tabela 5.3 - Comparao do desempenho dos mtodos Levenberg-Marquardt e
GA+mnimos quadrados ............................................................................................... 49
Tabela 6.1 - Influncia da regularizao nos autovalores da matriz F(X)TF(X)................... 60
Tabela 7.1 - Estrutura das redes utilizadas na identificao do atrator catico.................... 80
Tabela 7.2 - Parmetros do reator biolgico ........................................................................ 85
Tabela 7.3 - Estrutura das redes utilizadas na identificao do reator biolgico ................. 89
Tabela 7.4 - Estrutura das redes utilizadas na identificao do tanque de pH ..................... 94
Tabela 8.1 - Parmetros do CSTR encamisado................................................................... 100
Tabela 8.2 - Parmetros do reator Van de Vusse ............................................................... 105
Tabela 10.1 - Parmetros dos controladores....................................................................... 131

INTRODUO
Nos ltimos anos, foram realizados grandes avanos na anlise e identificao de

processos no-lineares com a utilizao de modelos provenientes da inteligncia


computacional. Nesta rea destacam-se os modelos obtidos a partir de regras (lgica difusa) e,
principalmente, os que utilizam funes de ativao (redes neurais). Na viso da inteligncia
computacional, uma rede neural composta de camadas de unidades processadoras
interconectadas atravs de pesos e conhecidas por neurnios. Um sinal ao passar por um
neurnio sofre uma transformao, em geral no-linear, aplicada pela funo de ativao
desse.
As redes neurais mais utilizadas em identificao e controle no-linear so as do tipo
feedforward. Muitos trabalhos encontrados na literatura as utilizam. Grande parte desse
sucesso pode ser atribudo ao algoritmo de treinamento supervisionado e iterativo conhecido
por retropropagao do erro, tambm conhecido por backpropagation, RUMELHART e
MCCLELLAND(1986). No entanto, a identificao de sistemas pode tornar-se uma tarefa
complexa devido ao grande nmero de parmetros da estrutura da rede (nmero de camadas
intermedirias, nmero de neurnios por camada) e do mtodo de treinamento (seleo inicial
dos pesos, determinao do fator de aprendizagem, taxa de momento e critrio de parada)
HAYKIN(1999). Os parmetros da estrutura de rede e do mtodo de treinamento so
determinados por tentativa e erro ou atravs de conhecimento heurstico. Devido ao grande
nmero de parmetros e pela ausncia de fundamentao matemtica das redes feedforward,
tem-se estudado outras estruturas de modelagem, tais como modelos no-lineares, mas
lineares nos parmetros. Este ltimo tipo de estrutura atrativo, pois o treinamento pode ser
formalizado como um problema de regresso linear e resolvido por mnimos quadrados. Dois
tipos de redes no-lineares, mas lineares nos parmetros tm sido utilizados: as redes de
funes de base radial (RBFN) e ultimamente, as de wavelets. As RBFN possuem apenas uma
camada intermediria, sendo que, os neurnios utilizam funes de ativao definidas em
torno de centros HAYKIN(1999). No caso das RBFN, os parmetros de estrutura de rede
correspondem determinao do nmero, dimenses e localizao dos centros, um nmero
bem menor de parmetros quando se compara esse tipo de rede com as feedforward. As redes
de wavelets so compostas de funes localizadas assim como as RBFN; no entanto, so mais
bem fundamentadas matematicamente que estas ltimas. As redes de wavelets utilizam o
conceito de multiresoluo MALLAT(1989) que uma metodologia de representao de

funes em diferentes escalas ou resolues. Uma funo, no contexto da anlise em


multiresoluo, representada como a soma de sucessivas aproximaes realizadas em
espaos

de

funes

definidos

pela

teoria

das

wavelets

DAUBECHIES(1992),

STRANG e NGUYEN(1996). Aplicaes de wavelets para problemas de aproximao e


construo de redes neurais surgem com BAKSHI e STEPHANOPOULOS(1993) atravs das
wavenets e ZHANG e BENVENISTE(1992) com as redes de frames.
A aproximao de uma funo f(x) efetuada, no contexto de multiresoluo, obtendo sua
decomposio em termos de verses deslocadas e comprimidas de uma funo bsica,
conhecida como "wavelet me". As translaes e compresses so definidas pela teoria de
wavelets. Dessa forma, so fixados previamente a localizao e o suporte (os pontos do
domnio de uma funo que so diferentes de zero) da funo de ativao de cada neurnio.
Neste caso, o treinamento da rede se restringe determinao dos coeficientes (pesos)
relativos s projees. No entanto, para problemas de maior porte, o nmero de neurnios de
uma wavenet cresce exponencialmente medida que se aumenta o nmero de entradas.
Conforme definido pela teoria de wavelets, o suporte das funes de ativao diminui de
forma acentuada em relao ao domnio do problema medida que cresce o nmero de
entradas, ou seja, as funes de ativao podem se tornar muito localizadas, diminuindo a
capacidade de generalizao da rede treinada. Alm desses fatores, como em qualquer
problema de identificao, determinar um modelo, a partir de um conjunto finito de
observaes, sem qualquer conhecimento sobre o sistema que os gerou um problema
mal-posto,

no

sentido

que

TIKHONOV e ARSENIN(1977).

Uma

um

modelo

forma

de

nico
diminuir

pode

no

incertezas

existir
adicionar

conhecimento prvio do sistema que se deseja identificar.


Neste trabalho foram propostas modificaes na wavenet com o objetivo de melhorar sua
capacidade de generalizao e reduzir o nmero de neurnios. O desempenho da nova rede
tambm foi superior, em termos de capacidade de aproximao e generalizao, quando
comparado com as tradicionais redes feedforward e de base radial, na identificao de
processos no-lineares: a equao logstica que um atrator catico, um reator biolgico em
que ocorre inibio do crescimento de clulas pela formao de produto e um tanque de pH.
O desempenho de previso da nova rede proposta, que do tipo esttica, foi tambm
validado utilizando essa como um simulador de processos no-lineares. Foram efetuados
testes sem rudo para um CSTR (Continuos Stirred Tank Reactor) encamisado com mltiplos
estados estacionrios e um reator cujo comportamento apresenta resposta inversa varivel.

Alguns testes foram efetuados, com a adio de rudo nas variveis previstas, para o reator
biolgico e para o tanque de pH.
Com o objetivo de melhorar a capacidade de generalizao de redes neurais, foi efetuado
um estudo a respeito da minimizao das curvaturas da superfcie de um modelo emprico e
efetuada sua conexo com o problema de sobre-treinamento.
A nova rede proposta foi utilizada como modelo de um controlador preditivo em dois
processos no-lineares: um experimental, que abordou o controle de nvel de um tanque com
alterao da rea e outro simulado, relativo ao pH de um tanque agitado.
Alguns testes foram efetuados para comparar o desempenho do controlador preditivo
baseado na rede neural descrita com os clssicos PI e preditivo baseado em modelo linear. Em
todos os casos, melhores resultados foram obtidos com o controlador no-linear.

TEORIA DE WAVELETS E MULTIRESOLUO

2.1 Introduo
As famlias de wavelets so bases para um espao de funes e a representao de uma
funo arbitrria realizada utilizando uma ponderao dos elementos da base; isto , atravs
de uma srie. As redes de wavelets so basicamente redes de funes de base radial. Fixadas
as variveis do processo e a famlia de wavelets a ser utilizada, ficam definidos
automaticamente os centros e os raios de todas as funes em todas as escalas. A partir de
uma wavelet, pode ser gerada, por translaes e mudanas de escala, uma famlia de funes
que base para um espao de funes.
O desenvolvimento e o rpido crescimento da teoria de wavelets e anlise em
multiresoluo fornece uma poderosa estrutura matemtica para o desenvolvimento de redes
neurais MALLAT(1989), DAUBECHIES(1992). A teoria de wavelets foi inicialmente
utilizada por GROSSMANN e MORLET(1984) na rea de processamento de sinais, sendo
que MEYER(1986) introduziu a primeira wavelet contnua. A pesquisa na obteno de
wavelets tem progredido rapidamente desde a construo de wavelets de suporte compacto
DAUBECHIES(1988) e da estrutura de multiresoluo. Podem ser encontradas aplicaes de
wavelets nas mais diversas reas:
1) Tratamento de sinais: previso e deteco de falhas VENKATARAMAN e GONZ(2002),
REN et. al.(2000);

Processamento

ANTONINI et al.(1998);

filtragem

de

imagens

FATEMI

YAMAGUCHI(2002),

BOLOUKI

SHAO

et.

(2002),

al.(1999),

KOSANOVICH e PIOVOSO(1997);
2) Estatstica: classificao de dados HUNG et. al.(2002); seleo de variveis para modelos
ALSBERG(1998);
3) Modelagem,

controle

otimizao

de

processos:

identificao

de

sistemas

BECERRA et al.(2002), GAO et. al.(2001), CRISTEA et. al.(2000); controle preditivo
DONGBING

ELIAS-JUAREZ

HUOSHENG(2000),
e

KANTOR(1992);

LI

XI(2000),

controle

HUANG

adaptativo

XIA

JIN(1997),

et.

al.(2002),

XU e TAN(2001), XU e HO(1999); otimizao SAFAVI e ROMAGNOLI(1995).

Basicamente, wavelets so utilizadas para aproximao de funes, para anlise de sinais


nos domnios do tempo e da freqncia e como uma nova rea de estudo da Matemtica.
Neste trabalho, o interesse est voltado para a utilizao de wavelets como uma ferramenta
para desenvolvimento de redes neurais.
O uso de wavelets no desenvolvimento de redes neurais segue duas principais correntes. A
primeira baseada no trabalho de ZHANG e BENVENISTE(1992), que introduz uma rede
semelhante s do tipo feedforward, sendo utilizada como funo de ativao uma wavelet ao
invs

de

uma

funo

hiperblica.

BAKSHI e STEPHANOPOULOS(1993)

segunda

denominada

de

rede

wanenet,

desenvolvida
que

utiliza

por
uma

metodologia de aprendizado no iterativa e hierrquica. A aproximao de funes baseada na


wavenet est mais prxima da metodologia de multiresoluo utilizada em tratamento de
sinais, enquanto preserva as caractersticas de uma rede neural.
As wavenets tm-se tornado uma ferramenta de aprendizado alternativa s tradicionais
redes feedforward devido s suas vantagens, tais como: Preciso da aproximao (o erro de
treinamento pode ser reduzido o quanto desejado), estrutura simples e rpido treinamento,
entre outras. Embora uma wavenet possa ser utilizada para resolver problemas
multidimensionais, a grande parte dos trabalhos encontrados na literatura descreve aplicaes
para um nmero pequeno de variveis de entrada. Por exemplo, HAROLD et. al.(1992)
propuseram vrios tipos de arquiteturas de redes de wavelets que foram aplicadas na
classificao de sinais vocais; PATI e KRISHNAPRASAD(1993) desenvolveram um mtodo
de sntese de wavenets no qual o nmero de funes da rede podia ser determinado a partir do
grupo de dados de treinamento; DELYON et al.(1995) apresentaram um mtodo aproximado
para estimar os coeficientes das funes da wavenet (os valores dos coeficientes so restritos a
uma faixa fornecida pelo mtodo). O nmero de entradas utilizado em todos os casos foi
menor ou igual a trs e apenas uma sada. Aplicaes de maior porte no foram realizadas,
provavelmente, devido ao crescimento do nmero de funes da wavenet medida que
aumenta o nmero de entradas. Cabe ressaltar que muitos problemas da rea de processos
qumicos so multidimensionais. Para tratar de tais problemas foram propostas algumas
simplificaes na wavenet: ROQUEIRO(1995) utilizou uma rede formada pelo somatrio de
sub-redes com apenas uma varivel independente; a Wavelet-Sigmoid Basis Function Neural
Network (WSBFN) ZHAO et. al.(1998) utiliza uma camada intermediria composta de
funes de escala e wavelets e na camada de sada, funes de ativao sigmides; o trabalho
de KIM et. al.(2002) descreve uma rede em que os parmetros das wavelets foram
determinados por algoritmo gentico e os pesos da camada de sada atravs do mtodo

backpropagation, sendo que o nmero de neurnios deve ser definido previamente etapa de
estimao dos pesos da rede.
Nas prximas sees, apresenta-se uma descrio da teoria de wavelets e sua utilizao no
contexto da aproximao de funes.

2.2 Famlias de Wavelets


As wavelets constituem uma famlia de funes construdas a partir de dilataes e
translaes de uma funo bsica denominada "wavelet me". Essa famlia de wavelets
definida da seguinte forma:

(a ,b ) ( x ) = a

1 2

(x b )

(2.1)

a, b R; a 0

Na Equao (2.1), o parmetro b efetua uma translao no domnio da wavelet me e o


coeficiente a, tambm conhecido por parmetro de escala, efetua uma compresso. O
coeficiente que precede a wavelet me tem como objetivo normalizar as funes da famlia,
garantindo que todas as funes tenham a mesma energia, ou seja,

(a,b ) dx constante

(onde o domnio de integrao).


A funo deve ter suporte no nulo (o suporte um subconjunto do domnio D de uma
funo f definido como {x D f ( x ) 0} ). Outra propriedade de , de acordo com a teoria de
wavelets, ter mdia zero. Dessa forma, deve ter algumas oscilaes ou ser identicamente
nula. As wavelets formam uma base para o L2(R) (espao das funes integrveis ao
quadrado) DAUBECHIES(1988). Os valores dos parmetros a e b da Equao (2.1) podem
ser restritos a um conjunto discreto e ainda assim gerar o L2(R). Se a = a0-m e b= nb0 a0-m para
m, n Z (conjunto dos nmeros inteiros) com a0 > 1 e b0 > 0 possvel definir a seguinte
famlia de wavelets discretas, conforme Equao (2.2).

(m,n ) ( x ) = a0

m2

a 0 x nb0

m, n Z

(2.2)

Normalmente em aplicaes so utilizados os valores a0 = 2 e b0 = 1


BAKSHI e STEPHANOPOULOS(1993).A representao de uma funo f(x) no espao de
funes gerado pela famlia (m,n) pode ser descrita como:
f ( x) = c m ,n m ,n (x )
m

Com a escolha adequada de a0, b0 e

(2.3)

possvel gerar um conjunto de funes

independentes, de tal forma que a famlia {(m,n)} gere o espao das funes integrveis ao
quadrado. Dado que no objetivo deste trabalho o desenvolvimento de famlias de wavelets,
foram utilizados os valores a0 = 2 e b0 = 1. Tambm foram escolhidas algumas funes
especficas, as bases de Haar, Splines e Daubechies (Ver seo 2.3), para apresentao de
exemplos. As aplicaes foram efetuadas utilizando apenas a spline quadrtica; maiores
razes da utilizao dessa ltima como funo de escala podem ser encontradas na seo 3.2.

2.3 Obteno de Wavelets Me


A representao analtica das funes possvel somente em alguns casos. Em geral,
uma wavelet me obtida numericamente e armazenada em um vetor para posterior uso.
Verses comprimidas e/ou deslocadas desta podem ser facilmente calculadas. A obteno de
uma wavelet me comea com a soluo da equao de dilatao DAUBECHIES(1988),
STRANG e NGUYEN(1996):
N

( x ) = p n (2 x n )

(2.4)

n =0

onde conhecida por funo de escala e N o ndice do ltimo coeficiente.


No trabalho de STRANG e NGUYEN(1996) foram descritos trs mtodos iterativos para
resolver a Equao (2.4), fixado o conjunto de parmetros p. O mtodo mais simples admite
inicialmente que a funo seja constante para um suporte finito. Esta soluo provisria
aplicada na Equao (2.4), sendo obtida uma nova estimativa para . O procedimento

descrito repetido at a convergncia. Em seguida, a wavelet me construda a partir da


funo de escala utilizando a Equao (2.4):
N

( x ) = ( 1) p n (2 x n )
n

(2.5)

n =0

A escolha dos coeficientes pn est intimamente ligada s propriedades das famlias de


funes que este mtodo gera e estabilidade do mtodo DAUBECHIES(1988). Para cada
conjunto de coeficientes existe uma wavelet me. Atravs de compresses e deslocamentos
desta pode-se obter uma famlia de funes que aproxima o L2(R). Conforme a teoria de
wavelets, uma condio imposta aos coeficientes para garantir a unicidade de que
N

p
n =0

= 2 STRANG e NGUYEN(1996).

Nas Figuras 2.1 a 2.5 mostram-se algumas das wavelets mais conhecidas, bem como suas
respectivas funes de escala. Os coeficientes utilizados para gerao destas, atravs das
Equaes (2.4) e (2.5), podem ser vistos na Tabela 2.1.
Tabela 2.1 - Coeficientes utilizados para gerao de algumas wavelets mais conhecidas
Haar

Hat

Spline quadrtica

p0 =

Coeficientes

p0 = 1
p1 = 1

1
p0 =
2

p1 =

p1 = 1

1
p2 =
2

p2 =
p3 =

Daubechies

1
4

p0 =

3
4

p1 =

3
4

p2 =

1
4

p3 =

1
1+ 3
4

1
1+ 3
4

1
1 3
4

1
1 3
4

Spline bicbica

)
)
)
)

p0 =

1
8

p1 =

1
2

p2 =

3
4

p3 =

1
2

p4 =

1
8

0,9

0,8

0,4

(x)

(x)

0,6

-0,1

0,4
0,2

-0,6

-1,1
0

0,2

0,4

0,6
x

0,8

0,2

0,4

0,6
x

0,8

Figura 2-1 - Funo de escala e wavelet (base de Haar)

0,55
(x)

(x)

0,6
0,4

0,25

0,2

-0,05

-0,35
0

0,5

1,5

0,5

1,5

0,7
0,6
0,5
0,4
0,3
0,2
0,1
0

0,35
(x)

(x)

Figura 2-2 - Funo de escala e wavelet (base de Hat)

0,15
-0,05
-0,25
-0,45

Figura 2-3 - Funo de escala e wavelet (base spline quadrtica)

10

0,9

0,8

(x)

(x)

1,2

0,4

0,4
-0,1
-0,6

-1,1

-0,4

-1,6
0

Figura 2-4 - Funo de escala e wavelet (base de Daubechies)

0,8
(x)

(x)

0,2
0,6
0,4

0
-0,2

0,2
0

-0,4
0

Figura 2-5 - Funo de escala e wavelet (base spline bicbica)

Uma propriedade da funo de escala, obtida a partir da Equao (2.4), que esta vale 0
fora do intervalo [0,N], ou seja, seu suporte o intervalo [0,N] STRANG e NGUYEN(1996).
Pode-se deduzir a partir desta propriedade que a interseo de duas funes de escala
adjacentes utilizadas em uma expanso depende do nmero de coeficientes. Observando o
lado direito da Equao (2.4), conclui-se que N+1 cpias de , com suporte N/2 e igualmente
espaadas, devem ser acomodadas no intervalo [0,N], pois conforme o lado esquerdo dessa
equao o somatrio define . Exemplificando para o caso N=3, tem-se 4 cpias de
acomodadas em [0,3], cada uma delas com suporte 1,5 e espaadas de uma distncia de 0,5
(Ver Tabela 2.2)
De acordo com a Tabela 2.2, para N=3, a interseo entre quaisquer duas cpias
comprimidas e adjacentes da funo de escala, por exemplo (2x) e (2x-1), de 2/3 do
suporte dessas.

11

Tabela 2.2 - Suporte da funo de escala e de suas compresses didicas (caso N=3)
Funo

Suporte

(x)

[0; 3]

(2x)

[0; 1,5]

(2x-1)

[0,5; 2]

(2x-2)

[1; 2,5]

(2x -3)

[1,5; 3]

Mostra-se na Tabela 2.3 o valor da interseo para as funes de escala descritas na


Tabela 2.1.

Tabela 2.3 - Valor da interseo entre funes adjacentes utilizadas em uma expanso para
alguns tipos de funo de escala
Base

Nmero de coeficientes

Interseco

Haar

Hat

1/2

Spline quadrtica

2/3

Daubechies

2/3

Spline bicbica

3/4

Pode-se observar na Tabela 2.3, que a interseo entre quaisquer duas cpias,
comprimidas e adjacentes, de uma funo de escala utilizada em uma expanso cresce com o
aumento do nmero de coeficientes.
Todo o raciocnio apresentado a respeito de interseo de funes de escala tambm
vlido para as wavelets. A Equao (2.5), que define as wavelets, tem formato anlogo ao da
Equao (2.4) utilizada no raciocnio.

2.4 Aproximao de Funes atravs de Multiresoluo


Uma funo f(x) L2(R) representada, no contexto da multiresoluo, atravs de
aproximaes sucessivas em diferentes resolues MALLAT(1989). A anlise de
multiresoluo baseada em um conjunto de subespaos Vm L2(R) que satisfazem:

12

1. Vm Vm+1 m Z (Os subespaos Vm so encaixantes);


2.

Vm = {0} e

mZ

= L2 (R ) (A unio de todos os subespaos Vm gera o L2(R));

mZ

3. f(x) Vm f(2x) Vm+1.


As idias centrais da multiresoluo so ( m, i, j Z):
1. Vm+1 = Wm Vm;;
2. Wm Vm ( significa complemento ortogonal);
3. Wi Wj .
onde Vi, Wi so os subespaos gerados por translaes das funes de escala (2i) e das
wavelets (2i) respectivamente. Dessa forma, as wavelets formam conjuntos ortogonais

(conjuntos em que quaisquer duas funes diferentes so ortogonais) dentro de uma mesma
resoluo (quaisquer duas wavelets diferentes em uma resoluo so ortogonais) e entre
diferentes resolues (qualquer wavelet de uma determinada resoluo ortogonal a uma
wavelet contida em outra resoluo diferente). No caso das funes de escala, esta

propriedade no uma exigncia. Como um exemplo, tem-se a base spline quadrtica, cujo
conjunto de verses transladadas da funo de escala no gera um conjunto ortogonal.
Devido s caractersticas dos subespaos utilizados na multiresoluo, Vm pode ser
descrito como a combinao dos subespaos com resolues inferiores Vi e Wi (i < m), ou
seja:
Vm+1 = Vm Wm = Vm-1 Wm-1 Wm = V0 W0 W1.... Wm

O subespao V0 equivalente a W - ...... W-2 W-1 e, portanto, as caractersticas mais


grosseiras de uma funo f(x) so identificadas por V0. As informaes com um nvel
crescente de detalhamento so identificadas pelos subespaos Wi (i 0), medida que i
cresce. Tomando m pode-se aproximar qualquer funo em L2(R) com erro arbitrrio.

13

2.5 Aproximao de Funes Unidimensionais


A expanso em srie de funes mostrada na Equao (2.3) , em geral, dividida em duas
partes. As informaes mais grosseiras so identificadas por uma expanso em funes de
escala e os detalhes so identificados pelas wavelets. A aproximao de uma funo f(x)
constituda da soma das duas partes. Matematicamente tem-se:

f ( x) =

n =

m = n =

n =

m = 0 n =

d n 0,n (x ) +

m,n

m ,n (x )

(2.6)

Os ndices m, n contidos na Equao (2.6) podem assumir valores ilimitados, indicando


que a teoria de wavelets aplicvel para aproximao de funes de domnio e nveis de
detalhamento arbitrrio pertencentes ao L2(R). Na prtica, f(x) conhecida apenas em um
conjunto de pontos e, portanto, pode-se aproximar f(x) em um domnio limitado e at um
determinado nvel de preciso. O nmero finito de pontos impe restries no nmero de
funes utilizadas na aproximao. Dessa forma, so suficientes apenas alguns nveis de
resoluo para atingir um pequeno erro de aproximao (o que implica em m limitado). Alm
disso, o grupo de dados poder ser normalizado, o que implica em um nmero finito de
funes da srie distribudas nesse domnio normalizado (n finito).
Se a expanso em srie de funes, correspondente Equao (2.6), for descrita no
formato de uma rede neural, ou seja, como uma wavenet, tem-se que cada elemento da srie
ser equivalente a um neurnio.
Neurnios podem ser adicionados at que o erro de aproximao se aproxime
arbitrariamente de zero. Dessa forma, mesmo se os dados contiverem rudo, pode-se fazer as
previses da expanso em srie de wavelets to prximas quanto se queira dos dados. Esta
situao no desejvel em identificao de sistemas, sendo que o nmero de resolues deve
ser escolhido de forma que sejam identificadas apenas as caractersticas relevantes de um
processo e no o rudo.
O espao de funes, considerando as limitaes em n, no mais o L2(R) e sim L2([,])
(o espao das funes integrveis ao quadrado definidas entre e ). A faixa de normalizao
geralmente utilizada entre = 0 e = 1.
A Equao (2.6) pode ser rescrita considerando os ndices m, n finitos (sem perda de
generalidade, o ndice n inicia de 0):

14

f ( x) =

n= N

d n 0,n (x ) +

m = M max n = N , m

n =0

m =0

n =0

m ,n

m ,n (x )

(2.7)

onde
N: nmero de funes de escala;
Mmax: nmero de resolues utilizadas na aproximao;
N,m: nmero de wavelets na resoluo m;
dn (n = 0 ... N) e cm,n (m = 0 ... Mmax; n = 0 ... N,m): Coeficientes da expanso em srie de

funes;
d: vetor composto dos coeficientes dn (n = 0 ... N);
cm : vetor composto dos coeficientes cm,n contidos na resoluo m (n = 0 ... N,m).

A Equao (2.7) pode ser escrita na forma de uma expanso em subespaos de funes:
Definindo:
V0 =

n= N

d
n =0

Wm =

0,n ( x )

n= N ,m

c
n =0

m,n

m ,n ( x )

e lembrando que Vm+1 = Wm Vm, tem-se f ( x) V0 W0 W1 ......WM max

Uma funo representada, no contexto da multiresoluo, como a soma de sucessivas


aproximaes. Estas aproximaes so realizadas projetando a funo nos subespaos V e W
definidos pela teoria de wavelets. Considerando Fi e Hi como as projees, ou aproximaes,
de f(x) nos subespaos Vi e Wi respectivamente, tem-se:

F0 =

n= N

Hm =

d
n =0

0,n ( x )

n= N ,m _

n =0

c m,n m,n ( x )

onde
_

d : vetor composto dos coeficientes estimados d n (n = 0 ... N);


_

c m : vetor composto dos coeficientes c m ,n contidos na resoluo m (n = 0 ... N,m).

15

o que implica que f ( x) = F0 + H 0 + H 1 + ......H M max


Deve-se notar que as projees Fi e Hi correspondem a elementos pertencentes aos
_

subespaos Vi e Wi. Dessa forma, a notao d e c m significa que estes vetores de coeficientes
_

so casos particulares de d e cm, respectivamente. Os coeficientes d e c m podem ser


determinados atravs do mtodo dos mnimos quadrados. Neste caso o critrio de otimizao
utilizado a norma quadrtica do erro de aproximao, ou seja, o somatrio do erro
quadrtico calculado nos pontos do grupo de dados.
A metodologia de multiresoluo para aproximao de uma funo f(x) aplicada da
seguinte forma:
Partindo-se de F0 (a aproximao de f(x) mais grosseira)

F0 =

n= N

d
n =0

0,n ( x )

os coeficientes de d devem ser estimados, minimizando o critrio:


J 0 = f ( x ) F0

Para obter uma aproximao mais detalhada dever ser incorporado um conjunto de
wavelets pertencentes escala 0:

F1 =

n= N _

n =0

d n 0,n ( x ) +

n= N ,0 _

n =0

c 0,n 0,n ( x ) = F0 + H 0

Considerando que H0 deve aproximar o erro entre f(x) e F0

f ( x) F0 =

n= N ,0 _

n =0

c 0,n 0,n (x ) = H 0

16

os parmetros c 0 podem ser calculados minimizando o critrio J1


J1 =

( f (x ) F0 ) H 0

A expresso f(x) - F0 em J1 foi mostrada entre parnteses para reforar que conhecida
para todos os pontos do grupo de dados, podendo ser obtida das informaes de entrada e
_

sada do grupo de dados, alm dos coeficientes d estimados da aproximao F0.


Em geral, para um k qualquer diferente de 0, a aproximao Fk

Fk = Fk 1 +

n = N , ( k 1 ) _

n =0

c (k 1),n (k 1),n ( x ) = Fk 1 + H k 1

deve aproximar o erro entre f(x) e Fk-1

f ( x) Fk 1 =

n = N , ( k 1 ) _

n =0

c (k 1),n (k 1),n ( x ) = H k 1

sendo que os parmetros c (k 1) podem ser calculados minimizando o critrio Jk:

Jk =

( f (x ) Fk 1 ) H k 1

Normalmente, a propriedade de ortogonalidade das wavelets no pode ser aproveitada na


simplificao dos clculos utilizados para estimao dos pesos. A propriedade de
ortogonalidade das wavelets referente ao produto interno no espao L2(R), ou seja a
integral j ( x ) j ( x ) dx i e j, ij (onde o domnio de integrao). Quando se dispe

de um conjunto de dados, este produto interno aproximado pelo usual produto de dois
vetores, correspondentes aos valores dos pontos do grupo de dados aplicados nas wavelets.
Como os dados podem estar amostrados de forma deficiente e no uniforme, a integral pode
no ser, em geral, bem aproximada. Dessa forma, os pesos das funes contidas em uma
mesma resoluo no podem ser calculados separadamente, sendo necessrio resolver um

17

sistema linear, resultante da aplicao do mtodo dos mnimos quadrados, para determinao
desses MOTARD e JOSEPH(1994).
Deve-se notar que ao adicionar um nvel de resoluo necessita-se estimar apenas os pesos
das funes pertencentes a este nvel. Os coeficientes das funes correspondentes s
resolues adicionadas anteriormente, caso existam, no necessitam ser estimados novamente.

2.6 Aproximao de Funes Multivariveis


A teoria de aproximao de funes utilizando wavelets descrita na seo 2.5 considera
apenas o caso monovarivel. No entanto, esta teoria vlida para funes multivariveis,
permitindo a identificao de processos MIMO (Multiple-Input Multiple-Output).
A tcnica mais utilizada para desenvolvimento de wavelets multidimensionais o produto
tensorial entre wavelets e funes de escala unidimensionais DAUBECHIES (1988). Por
exemplo, h uma funo de escala e trs wavelets me que capturam informaes em
diferentes orientaes no caso de duas entradas:

( x1 , x 2 ) = ( x1 ) ( x 2 )

1 ( x1 , x 2 ) = ( x1 ) ( x 2 )

2 (x1 , x 2 ) = ( x1 ) ( x 2 )

3 ( x1 , x 2 ) = ( x1 ) ( x 2 )

A famlia de wavelets de duas variveis portanto:

h m ,n1 ,n2 ( x1 , x 2 ) = 2 m 2 m x1 n1 ,2 m x 2 n2 ;

h = {1,2,3}

Uma ilustrao da funo de escala e das trs wavelets me para a base de Haar (duas
variveis de entrada) mostrada na Figura 2-6.
O nmero de wavelets aumenta exponencialmente com a dimenso do espao de entrada.
Para N entradas h 2N-1 wavelets. Se e constituem uma base ortogonal em L2(R), o
conjunto de funes gerado pelo produto tensorial destas gera uma base para o L2(RN) (o
espao N-dimensional das funes integrveis ao quadrado).

18

Figura 2-6 - Base de Haar em duas dimenses: (a) funo de escala e wavelet (uma dimenso);
(b) funo de escala (duas dimenses); (c) trs wavelets me(duas dimenses)

19

ALTERAES NA WAVENET
Parte das propostas deste trabalho so relativas a modificaes na wavenet, entre as quais:
1. Multiresoluo somente com funes de escala;
2. Escolha da funo de ativao adequada para identificao de processos;
3. Determinao do nmero de funes de escala (primeira resoluo).
As propostas tm como objetivo reduzir o nmero de funes utilizadas na expanso e

melhorar a capacidade de generalizao.

3.1 Multiresoluo Apenas com Funes de Escala


Na wavenet, o primeiro nvel utilizado na aproximao constitudo de funes de escala
e os prximos, se necessrios, de wavelets. Uma das propostas deste trabalho fazer
multiresoluo apenas com funes de escala. Dessa forma, o primeiro nvel igual ao da
wavenet e, nos prximos nveis, substitui-se as wavelets por funes de escala. As razes para
esta alterao so:
1) No caso de problemas multivariveis, por exemplo com d entradas, h 2d-1 wavelets me
para apenas uma funo de escala. Para ajustar dados utilizando redes de wavelets, deve-se
determinar um conjunto, em geral pequeno, de neurnios dentre um grupo bem maior de
possveis neurnios definidos pela teoria de wavelets. Isto significa que, em um determinado
nvel de resoluo, o nmero de elementos do conjunto formado apenas por funes de escala
menor por um fator de (2d-1), quando comparado ao nmero de elementos do conjunto
contendo wavelets.
2) Nas wavenets, os nveis de resoluo crescente de wavelets so subespaos ortogonais.
Dessa forma, as componentes da funo f que se deseja aproximar em determinado subespao
devem ser determinadas com preciso (os pesos devem ser estimados corretamente), pois
erros cometidos no podem ser recuperados em outros subespaos, ou seja, pela adio de
mais nveis. Este problema no acontece utilizando multiresoluo somente com funes de

20

escala. Se algumas caractersticas de f forem perdidas para um determinado subespao Vi, no


prximo nvel, correspondente ao subespao Vi+1 = Vi Wi, ser possvel recuper-las. H
uma redundncia entre os subespaos, Vi+1

e Vi. Vi+1 contm Vi (o subespao cujas

componentes de f no foram determinadas corretamente) alm de Wi.


3) Uma propriedade das wavelets que possuem mdia nula, o que implica que assumem
valores positivos e negativos em seu suporte. Modelos que utilizem wavelets podem no
apresentar boa capacidade de generalizao, j que para uma determinada funo de ativao
(neste caso wavelet) a mdia dos pontos do grupo de dados que esto contidos em seu suporte
, em geral, no-nula. Dessa forma, pode-se obter um bom ajuste para alguns pontos e um
pssimo ajuste para outros. Este problema pode ser agravado em casos onde h regies pouco
amostradas e/ou com amostragem no uniforme. Uma situao bastante comum que os
dados esto geralmente localizados na regio central do grupo de dados em detrimento das
bordas. Neste caso, modelos construdos a partir de wavelets como funes de ativao podem
apresentar grandes erros de previso nas bordas. Tal problema no ocorre com as funes de
escala que possuem mdia no nula.
Matematicamente, uma rede somente com funes de escala pode ser descrita por:

f ( x) =

m = M max n = N , m

m =0

n =0

m,n

m,n (x )

(3.1)

onde
N, m: nmero de funes de escala na resoluo m;
Mmax: nmero de resolues utilizadas na aproximao;
Para mostrar as diferenas entre a aproximao obtida por uma wavenet e a rede que
utiliza apenas funes de escala, comparou-se o desempenho dessas na aproximao e
reconstruo da superfcie Y= 0,8X1 + 0,5X2 utilizando a base de Haar. Foram gerados dois
grupos de dados com aproximadamente 500 pontos escolhidos aleatoriamente: No primeiro,
os valores de X1 e X2 foram distribudos de maneira uniforme no espao das variveis de
entrada. No segundo, os pontos correspondentes varivel X1 foram obtidos utilizando
distribuio uniforme e os da varivel X2 pela distribuio gaussiana (Ver Figuras 3.1 e 3.2).

21

Substituindo os pontos contidos nas Figuras 3.1 e 3.2 na equao do plano, obteve-se a sada
Y e foram gerados os grupos de dados. Na aproximao, foram utilizadas redes com as
seguintes caractersticas: um nvel de funes de escala e 4 de wavelets para a wavenet e 4
resolues de funes de escala para a rede de funes de escala.

Figura 3-1 - Dados de entrada: X1, X2 possuem distribuio uniforme

Figura 3-2 - Dados de entrada: X1 possui distribuio uniforme, X2 distribuio gaussiana

22

Na Tabela 3.1 podem ser vistas informaes a respeito do treinamento das redes descritas,
considerando os dois grupos de dados. Nesta tabela, mostra-se uma comparao do
desempenho das redes em relao ao nmero de neurnios e em relao ao valor do
coeficiente de correlao R2. O valor de R2 definido de acordo com a equao (3.2):
Np

y i y ip 2

=1
100
R 2 (% ) = 1 iNp
2
y i y


i =1

(3.2)

onde
Np: nmero de pontos do grupo de dados;
yi: valores de sada para os pontos do grupo de dados (i=1...Np);
y ip : valores previstos por um modelo para os pontos de sada do grupo de dados (i=1...Np);

y : valor mdio dos pontos de sada do grupo de dados.

Na expresso para o clculo de R2, o termo

Np

y
y

i representa a energia total contida

i =1

nos dados de sada, ou seja, a energia do sinal de sada.

Tabela 3.1 Comparao entre desempenho da wavenet e da rede de funes de escala


Grupo de dados 1

Grupo de dados 2

N de neurnios

R2

100-R2

R2

100-R2

R. funes de escala

85

99,9810

0,0190

99,9269

0,0731

Wavenet

256

99,9501

0,0499

99,8296

0,1704

Analisando a Tabela 3.1, nota-se que o valor de 100-R2, que indica a porcentagem de
energia do sinal de sada no identificada por um modelo, menor no caso da rede de funes
de escala, apesar dessa utilizar um nmero menor de neurnios que a wavenet.
Nas Figuras 3.3 e 3.4 mostram-se as superfcies de previso obtidas a partir das redes
neurais treinadas para o primeiro grupo de dados. Para obter as superfcies, foi efetuada uma
interpolao dos valores previstos pelas redes em uma malha de passo 0,01 (1% do domnio
de cada varivel). Nas Figuras 3.5 e 3.6 mostram-se as superfcies de previso obtidas das
redes neurais treinadas para o segundo grupo de dados.

23

Figura 3-3 - Superfcie de previso: rede de funes de escala (primeiro grupo de dados)

Figura 3-4 - Superfcie de previso: wavenet (primeiro grupo de dados)

24

Figura 3-5 - Superfcie de previso: rede de funes de escala (segundo grupo de dados)

Figura 3-6 - Superfcie de previso: wavenet (segundo grupo de dados)

25

Nas Figuras 3.3 a 3.6 destaca-se a melhor capacidade de generalizao da rede de funes
de escala. A diferena entre a capacidade de generalizao da wavenet e da rede de funes de
escala foi maior no caso do segundo grupo de dados, que apresenta amostragem deficiente nas
bordas em relao varivel X2.

3.2 Determinao

de

uma

Funo

de

Ativao

Adequada

para

Identificao de Processos
Conforme descrito no Captulo 2, possvel gerar funes de escala e wavelets
dependendo dos coeficientes utilizados na Equao (2.4). Para definir uma funo de escala
adequada para identificao e controle foram utilizados os seguintes critrios:
Em relao ao processo que se deseja modelar, tem-se a seguinte restrio:
1. Ausncia de Descontinuidades: Descontinuidades so caractersticas pouco comuns em
processos. Dessa forma, as redes neurais utilizadas para modelar processos deveriam
utilizar funes contnuas at pelo menos a primeira derivada. Isto garante a continuidade
do modelo eliminando arestas da superfcie de aproximao desse e outros
comportamentos pouco provveis de existirem em processos reais.
Qualquer funo de escala escolhida deveria ter as seguintes caractersticas:
2. Diferenciabilidade: Esta propriedade est diretamente relacionada com o item (1)
Ausncia de Descontinuidades. Porm, h outra razo para a exigncia de continuidade da
funo de ativao. Alguns algoritmos exigem a diferenciabilidade das funes de
ativao. No basta a rede ser linear nos parmetros (fcil diferenciabilidade em relao
aos parmetros), o que permite o treinamento por mnimos quadrados. Em algumas
aplicaes necessrio diferenciar a rede com relao s suas entradas. Um exemplo a
utilizao de modelos neurais em controladores preditivos. Para esta famlia de
controladores, fixa-se uma referncia (sada) e deseja-se descobrir, atravs de um
algoritmo de otimizao, as aes de controle (entradas da rede) que levam o sistema o
mais prximo possvel da referncia. No h soluo analtica para o problema descrito e
uma forma de resolv-lo utilizar algoritmos baseados em Clculo. Estes algoritmos
exigem que a funo de ativao seja diferencivel.

26

3. Pequena Interseco: Da teoria de wavelets, sabe-se que o tamanho do conjunto de


neurnios utilizados na aproximao aumenta exponencialmente com o nmero de
entradas e o nvel de resoluo. Na prtica, s alguns neurnios, selecionados dentre todos
os possveis, so necessrios no ajuste. Uma forma de diminuir o tamanho do conjunto
escolher uma wavelet me que resulte em uma famlia de wavelets com pequena
interseo entre neurnios adjacentes. Uma pequena interseo implica que sero
colocadas poucas wavelets em um determinado domnio, o que diminuir a taxa de
crescimento do conjunto.
4. Nmero Reduzido de extremos: Um bom modelo para identificao deveria ajustar bem
os dados de treinamento (pequeno erro quadrtico de aproximao) e ter boa capacidade
de generalizao, ou seja, deve apresentar um comportamento sem oscilaes (sem
excessivas curvaturas) mesmo que se tenha amostragem deficiente. De acordo com o
princpio de Occam CHEN e HAYKIN(2001), POGGIO e GIROSI(1990), na ausncia de
qualquer conhecimento prvio, a superfcie de um modelo emprico deveria ser a mais
simples e suave possvel. Em geral, regies de maior curvatura esto associadas
presena de mnimos locais e, portanto, a utilizao de uma funo de ativao com vrios
extremos pode gerar modelos com comportamentos no suaves em regies deficientes de
dados. No caso multivarivel, o problema agravado pelo fato de que as funes de
ativao so obtidas atravs do produto de funes unidimensionais e o nmero de
extremos cresce rapidamente com o nmero de entradas.

g(x)

1
0.5
0
-0.5
-1
0

0.2

0.4

(a)

0.6

0.8

1
(b)

Figura 3-7 - Aumento do nmero de extremos conforme cresce a dimenso do espao de entrada

27

Na Figura 3-7, mostra-se um exemplo do aumento do nmero de extremos quando cresce


a dimenso do espao de entrada. Neste exemplo g(x) possui dois extremos e G(x,y)=g(x)g(y)
possui quatro.
Analisando vrios tipos de funes de escala em relao aos critrios descritos conclui-se
que a spline quadrtica uma funo adequada para objetivos de controle e identificao.
Algumas razes para esta escolha podem ser enumeradas:
1. As derivadas de primeira e segunda ordem da spline podem ser facilmente calculadas e
originam expresses mais simples do que a spline original. A curva da derivada de
primeira ordem linear por partes e a de segunda constante por partes (Ver Figura 3-8).

(x)

1,6
1,4
1,2
1
0,8
0,6
0,4
0,2
0
0

'(x)

2
1,5
1
0,5
0
-0,5
-1
-1,5
-2
2

(a)

''(x)
1,9
0,9
-0,1
-1,1
-2,1
-3,1
-4,1

x
(b)

(c)

Figura 3-8 - (a) funo de escala spline; (b) derivada de primeira ordem; (c) derivada de segunda
ordem

Na Figura 3-8 pode-se observar que a derivada de segunda ordem no definida nos
pontos da curva onde h transio de uma regio de valor constante para outra. Isto no
representa problema j que se tratam de descontinuidades isoladas e pode-se definir o valor da
segunda derivada nestes pontos de forma arbitrria.
2. Duas funes adjacentes da famlia de splines quadrticas tm interseo correspondente a
2/3 de seu suporte (considerando o caso unidimensional), a menor possvel
desconsiderando as base de Haar (sem interseo) e a Hat (interseo de 1/2 do suporte)
que no satisfazem restrio de continuidade at a primeira derivada. Para o caso
multivarivel, as fraes de interseo modificam, mas a validade do que foi exposto
permanece inalterada.

28

3. A spline quadrtica possui apenas um extremo.

3.3 Determinao do Nmero Inicial de Funes de Escala (Primeira


Resoluo)
O primeiro passo para aproximar uma funo em um determinado domnio normalizar
os dados de entrada e sada; por exemplo, no intervalo [0;1]. Em seguida, fixa-se a funo de
escala. A aproximao dos dados de treinamento inicia, no contexto multiresoluo, a partir
de uma combinao linear de funes de escala deslocadas. No caso da spline, o
deslocamento de 1/3 do suporte quando se consideram as adjacentes, o que equivale a uma
interseo de 2/3 do suporte. Para a gerao da famlia de splines quadrticas, a partir da
funo correspondente, a spline convenientemente dividida em trs regies conforme
mostrado na Figura 3-9.

(1)

(2)

(3)

Figura 3-9 - Spline dividida em 3 regies

Pode-se definir o nmero inicial de funes de escala de forma arbitrria. Para


exemplificar, utilizando o caso unidimensional, podem ser vistas duas expanses possveis:
Uma com 8 (Figura 3-10) funes e outra com 5 (Figura 3-11) (Os nmeros 1, 2 e 3 so
relativos s regies demarcadas na Figura 3-9). Deve-se notar que, nos dois casos, vrias
funes de escala (deslocadas em 1/3 de seu suporte) esto contidas no intervalo [0;1] (o
mesmo que o utilizado para normalizar o grupo de dados). As funes de escala localizadas
nas extremidades devem ser truncadas em razo do domnio finito da curva que se deseja
aproximar.

29

Verses Deslocadas da Spline


N da Funo
1
2
3
4
5
6
7
8

3
2
1

3
2
1

3
2
1

3
2
1

3
2
1

Domnio

3
2
1
1

Figura 3-10 - Expanso contento 8 funes de escala

Verses Deslocadas da Spline


N da Funo
1
2
3
4
5

3
2
1

3
2
1

0 Domnio

3
2
1
1

Figura 3-11 - Expanso contento 5 funes de escala

Uma das propostas deste trabalho definir qual o nmero de funes de escala que deve
ser utilizado na primeira resoluo. Se a expresso analtica da funo que se deseja
aproximar conhecida, ento no interessa o ponto de partida. No entanto, quando se dispe
apenas de um conjunto finito de pontos, a expanso que inicia com o menor nmero de
funes de escala fornece, possivelmente, modelos com melhor capacidade de generalizao.
Algumas razes para isto so:
1) Compromisso bias-varincia: Se a curva que se deseja aproximar tiver no-linearidades
pouco acentuadas, ento ela ser certamente aproximada utilizando somente o primeiro
nvel de funes de escala, j que um comportamento prximo do linear est contido no
espao das funes geradas por expanses de splines (as splines so combinaes de
polinmios de baixa ordem e o comportamento linear um caso particular). Dessa forma,
o modelo com menor nmero de parmetros preferido em razo do compromisso
Bias-Varincia JOHANSEN(1997).

30

2) Erros na estimao dos pesos:


2.1) Caracterstica localizada das funes de escala: Para um problema com d entradas, o
suporte de cada funo multidimensional obtido pela interseo dos suportes de d
funes unidimensionais localizadas. Isso implica na diminuio do suporte das funes
de escala, quando comparado ao domnio de interesse do problema que definido pelos
dados de treinamento, medida que aumenta a dimenso do espao de entrada. Dessa
forma, pode haver neurnios com muito poucos pontos em seu suporte, levando a
problemas numricos no treinamento, principalmente para casos com amostragem
deficiente de dados e que apresentam rudo. Na expanso utilizando 8 funes de escala
em cada entrada (com um total de 8d, levando em conta todas as combinaes), os
neurnios so mais localizados que o caso com 5, sendo que maiores erros no clculo dos
pesos devem acontecer no primeiro caso.
2.2) Excesso de neurnios: Considerando um problema com d entradas, h em um caso 8d
neurnios e, portanto, o mesmo nmero de pesos deve ser estimado. No outro caso h 5d.
Com certeza, nesse ltimo haver menos problemas numricos.
Analisando o que foi descrito, nota-se que h uma tendncia para produzir melhores
modelos medida que se diminui o nmero de funes de escala utilizadas no primeiro nvel
de resoluo. Dessa forma, conclui-se que a melhor expanso possui apenas 3 neurnios (o
menor nmero possvel, como se observa nas Figuras 3.10 e 3.11). A expanso com apenas 3
neurnios (cada uma das regies da Figura 3-9) minimiza os problemas descritos.
Deve-se notar que a primeira resoluo passa a ser formada por funes de escopo global,
ou seja, o suporte dessas igual ao domnio do problema. Neste caso, a rede neural, com as
modificaes propostas neste trabalho, pode ser caracterizada como um aproximador que
utiliza funes de escopo global e localizadas. As primeiras so inicialmente incorporadas
(primeira resoluo) e como so muito suaves garantem boa capacidade de generalizao ao
modelo neural. Com as funes localizadas, incorporadas nas prximas resolues, possvel
aproximar regies especficas do problema.

31

REDES NEURAIS PARA IDENTIFICAO DE SISTEMAS


Os modelos dinmicos para sistemas no-lineares podem ser descritos, em geral, como

sries temporais no-lineares. O nome genrico dado a estes modelos NARMAX (Nonlinear
Auto Regressive Moving Avarage with EXogenous Inputs). Como casos particulares dos

modelos NARMAX, podem-se citar as redes neurais, os modelos lineares ARMAX, muito
utilizados em identificao, e ARIMAX para controle LJUNG(1987).
Grande parte dos trabalhos encontrados na literatura relativos a identificao e controle
no-linear utilizam as redes feedforward e as RBFN DE JESUS et. al.(2001), LING(2000)
SAXENA et. al.(2000), HUNT et. al.(1992). Neste captulo descreve-se de forma
simplificada a estrutura destes modelos empricos, sendo que no Captulo 7 apresentado um
estudo comparativo entre o desempenho das redes feedforward, RBFN e de funes de escala.

4.1 Redes Neurais Utilizadas em Identificao de Sistemas


A maior parte dos trabalhos relativos identificao de sistemas por redes neurais
estticas utiliza redes feedforward e de base radial. Estas so descritas a seguir:
1) Redes de feedforward:
Redes feedforward correspondem a sries de sries de funes. Tal arquitetura
caracteriza-se por um processamento de informaes dividido em camadas. Conforme o
teorema de Kolmogorov para redes neurais FAUSETT(1994), possvel aproximar qualquer
funo contnua com redes compostas de trs camadas: entrada, apenas uma intermediria e
sada. Neste caso, as redes feedforward, considerando por simplicidade apenas uma sada e
uma camada intermediria, podem ser descritas como:

z = G wi G i , j x j + bi + b
i =1

j =1

onde

32

N, M: nmero de neurnios da camada intermediria e de variveis de entrada,


respectivamente;
z: sada prevista;

wi e i,j : pesos da camada de sada e entrada, respectivamente (i=1,...N) (j=1,...M).


bi e b: bias da camada intermediria (i=1,...N) e da camada de sada;
G: mapeamento no-linear. Alguns dos mais utilizados so a funo sigmide e a tangente
hiperblica;

X= [x1 x2 .... xM]T: vetor de variveis de entrada;


O treinamento de redes feedforward iterativo, uma vez que os pesos da(s) camada(s)
intermediria(s) so relacionados de forma no-linear sada.

2) Redes de base radial


Redes de base radial podem ser descritas, considerando uma sada, por:

z = wi G X C i
i =1

sendo que X C i

= (x j ci , j )
M

j =1

onde

N, M: nmero de centros e variveis de entrada, respectivamente;


z: sada;

wi: pesos da camada de sada (i=1,...N).


G: mapeamento no-linear. Alguns dos mais utilizados so:
Funo gaussiana = exp(

Multiquadrtica= r 2 + c 2
Inversa Multiquadrtica =

r2

(r

) , com >0 e r R;

, com c >0 e r R;;


1

+ c2

, com c >0 e r R;;


2

: Norma quadrtica;

X= [x1 x2 .... xM]T: vetor de variveis de entrada;

33

Ci= [ci,1 ci,2 .... ci,M]T: Vetor de centros para a i-simo neurnio (i =1,...N).
Os centros devem ser determinados em uma etapa anterior ao treinamento. Estes podem
ser obtidos aleatoriamente entre os pontos do grupo de dados ou atravs de tcnicas de

clusterizao, tal como o K-means HARRIS(1994). Uma vez determinados os centros, os


pesos da camada de sada podem ser facilmente calculados pela tcnica dos mnimos
quadrados.
As redes estticas podem ser utilizadas na identificao de sistemas dinmicos
considerando as variveis de entrada como atrasos das sadas, alm dos valores das
perturbaes externas. Como um exemplo, para identificar o sistema dinmico

y(k+1) = f(y(k),u(k)) basta definir z = y(k+1) e X=[y(k), u(k)].

34

ESTUDO

DE

MTODOS

DE

TREINAMENTO

DE

REDES

FEEDFORWARD
No captulo 7, apresentada uma comparao de desempenho das redes de tipo

feedforward, base radial e de funes de escala. As duas ltimas podem ser treinadas por
mnimos quadrados e, portanto, os pesos so estimados de forma tima. No entanto, a
primeira necessita de um algoritmo iterativo e os pesos timos nem sempre so obtidos. Para
fornecer uma comparao justa das redes descritas, em se tratando de desempenho de
modelagem, este captulo tem por objetivo fazer um estudo de algumas estratgias de
treinamento supervisionado para redes tipo feedforward. O desempenho de um mtodo que
utiliza apenas as derivadas de primeira ordem da funo objetivo comparado a um mtodo
de segunda ordem, na identificao de um tanque de pH. Tambm estes foram comparados a
uma simples metodologia de treinamento baseada em mnimos quadrados e algoritmos
genticos.
Neste captulo, o desempenho entre algoritmos de treinamento foi comparado utilizando
apenas os dados de treinamento.O mtodo para o qual foram obtidos os melhores resultados,
em termos do valor da funo objetivo, foi utilizado como estratgia de treinamento de redes

feedforward nas simulaes descritas no captulo 7.

5.1 Descrio do Mtodo de Treinamento da Retroprogao do Erro


Redes feedforward tm sido aplicadas com sucesso para resolver uma ampla gama de
problemas, utilizando o algoritmo da retropropagao do erro como mtodo de treinamento
supervisionado. Este denominado popularmente de backpropagation.
Basicamente, o backpropagation consiste de dois passos aplicados seqencialmente at a
convergncia: um no sentido das entradas para as sadas e outro em sentido contrrio. Na
primeira etapa, um ou mais padres so aplicados na(s) entrada(s) da rede e seu efeito
propagado camada por camada at gerar as sadas da rede. Durante esta fase os pesos
permanecem fixos. Na segunda etapa, os pesos devem ser ajustados de acordo com uma
correo baseada no erro de aproximao. O erro propagado atravs da rede no sentido das
sadas para as entradas, sendo que os pesos so ajustados para que a previso da rede seja a
mais prxima possvel dos alvos, em termos de erro quadrtico.

35

O backpropagation um mtodo de primeira ordem, ou seja, utiliza somente a informao


das derivadas de primeira ordem do erro quadrtico de aproximao para correo dos pesos.
Os pesos podem ser corrigidos por padro ou por poca (apresentao de todos os padres do
grupo de dados de treinamento). No primeiro caso, a funo objetivo de treinamento o erro
quadrtico de um padro e no segundo, o erro quadrtico de todo o grupo de dados. A
atualizao dos pesos por poca fornece um mtodo mais robusto, sendo mais apropriada em
aplicaes off-line, enquanto a correo por padro adequada em aplicaes on-line.
A equao de correo dos pesos pode ser descrita genericamente por:

E 2
(n )
W (n ) =
W

(5.1)

onde
W: Vetor contendo todos os pesos da rede;

E2: Erro quadrtico de aproximao;


n: Iterao. Pode ser padro ou por poca, depende de como os pesos so atualizados;

: Fator de aprendizagem.

A derivao de expresses para o clculo de

E 2
em funo das entradas, ativaes e
W

sadas da rede podem ser encontrada em ZUPAN e GASTEIGER(1993).


Comumente, se adiciona na Equao (5.1) um termo de momento para melhorar as
propriedades de convergncia do mtodo. Neste caso, a equao para correo dos pesos
torna-se:

W (n ) =

E 2
(n ) + W (n 1)
W

onde a taxa de momento.

5.2 Descrio do Mtodo de Treinamento Levenberg-Marquardt


No caso do backpropagation, a correo dos pesos proporcional ao gradiente do erro
quadrtico de aproximao. A grande vantagem desta abordagem a simplicidade de
implementao, no entanto, o backpropagation apresenta baixa taxa de convergncia.

36

Para melhorar a convergncia de treinamento em redes feedforward, deve-se incorporar


informaes de derivadas de segunda ordem. Isto pode ser obtido utilizando uma aproximao
quadrtica para a superfcie da funo objetivo em torno de cada ponto de linearizao W(n).
A correo tima para os pesos considerando a aproximao de segunda ordem (Ver
HAYKIN(1999)) dada por:

W (n ) = H 1 (n )

onde H(n)=

E 2
(n )
W

(5.2)

2E2
(n ) a matriz quadrada de derivadas parciais de segunda ordem do erro
W 2

quadrtico de aproximao em relao aos pesos. Esta matriz usualmente denominada de


Hessiana.
A Equao (5.2) corresponde ao mtodo de Newton utilizado em otimizao sem
restries. Na prtica, esta estratgia de treinamento no utilizada diretamente em funo da
grande complexidade, do elevado tempo computacional, ou mesmo impossibilidade da
estimao das derivadas de segunda ordem. Existem algumas variaes do mtodo de Newton
que utilizam a aproximao quadrtica da funo objetivo sem calcular as derivadas de
segunda ordem. Citam-se os mtodos de Quasi-Newton, Gradiente Conjugado, Gauss-Newton
e Levenberg-Marquardt entre outros descritos em BAZARAA et al.(1993), sendo que
aplicaes da tcnica de Levenberg-Marquardt so mais comumente encontradas na literatura.
Este mtodo aproxima a matriz H utilizando apenas o conhecimento de derivadas de primeira
ordem, como descrito a seguir. Seja

Ei (n )
o vetor de derivadas parciais do erro em relao
W

aos pesos para o i-simo padro e n-sima iterao (considerando que a atualizao dos pesos
realizada em cada poca). Ento se pode definir a matriz J(n) de dimenso Np (Nmero de
padres) x Nw (Nmero de pesos da rede).

E
E

Ei
(n ) Np (n )
J (n ) = 1 (n )
W
W
W

Pode-se observar que J(n) a matriz Jacobiana do vetor de erros;


A aproximao para a matriz H calculada como: H (n ) = J (n) T J (n) .

37

A matriz sempre semidefinidapositiva. Para garantir que esta aproximao seja no


singular (neste caso definida positiva), a matriz J(n) deve ter posto completo, ou seja, seu
posto deve ser igual ao nmero de pesos (considerando que o nmero de padres maior que
o nmero de pesos). Infelizmente, no h como garantir que esta condio seja satisfeita. Para
impedir que J(n)TJ(n) torne-se singular, comum adicionar a essa a matriz identidade
multiplicada por uma pequena constante positiva . Dessa forma, a Equao (5.2), para
correo dos pesos, torna-se:

W (n ) = J (n ) J (n ) + I

aplicao

do

mtodo

de

E 2
(n )
W

Levenberg-Marquardt,

(5.3)

de

forma

semelhante

ao

backpropagation, pode ser dividida em dois passos que devem ser utilizados seqencialmente
at a convergncia. No primeiro passo, calculam-se as ativaes e sadas de todos os
neurnios para o grupo de dados de treinamento (uma poca). Durante esta fase os pesos
permanecem fixos. Com estas informaes calcula-se as derivadas parciais em relaes aos
pesos para todos os padres. No segundo passo, os pesos devem ser ajustados de acordo com
a Equao (5.3). Deve-se notar que um sistema linear tem que ser resolvido a cada poca para
o clculo das correes. O mtodo de Levenberg-Marquardt tambm utiliza uma estratgia
para corrigir o valor durante o treinamento, garantindo que o erro quadrtico global de
aproximao sempre diminua (Ver BAZARAA et. al.(1993)). No captulo 6 descrevem-se
outras razes para a utilizao do parmetro , alm de melhorar o condicionamento da matriz

J(n)TJ(n).
Alguns trabalhos na literatura mostram que possvel separar e estimar os pesos da rede
em grupos sem diferenas significativas no valor do erro global de aproximao, quando
comparados ao caso em que no se efetua nenhuma diviso. A vantagem que sistemas
lineares de menor porte devem ser resolvidos em cada poca. No trabalho de
SJOBERG e VIBERG(1997) foi mostrado que no caso de uma rede feedforward, treinada
com o mtodo de Levenberg-Marquardt, melhores resultados podiam ser obtidos, em termos
do erro de aproximao, quando os pesos da camada intermediria e de sada eram estimados
separadamente. A rede utilizada era composta de apenas uma camada intermediria e somente
neurnios lineares na sada. As etapas de clculo das sadas e estimao dos pesos foram
efetuadas seqencialmente e separadamente para cada camada. Para a rede descrita, estimar

38

os pesos da camada de sada aplicando o mtodo de Levenberg-Marquardt equivale a resolver


o problema de mnimos quadrados, uma vez que essa camada linear em relao aos pesos.

5.3 Comparao de Desempenho entre um Mtodo de Primeira e Segunda


Ordem
Uma

comparao

entre

desempenho

de

um mtodo

de

primeira

ordem

(backpropagation) e um mtodo de segunda ordem (Levenberg-Marquardt) foi efetuada na


identificao de um tanque de pH. Para o backpropagation, foi efetuado um estudo prvio
para descobrir o valor do fator de aprendizagem () e da taxa de momento () que resultavam
em um melhor desempenho de treinamento. Aps alguns testes obteve-se = 0,01 e = 0,9.
No caso do mtodo de Levenberg-Marquardt, o parmetro alterado de forma adaptativa
pelo prprio mtodo, no necessitando ajustes por parte do usurio. Para este ltimo, os pesos
da camada intermediria e de sada foram treinados separadamente conforme descrito na
seo 5.2.
O modelo emprico utilizado na identificao do sistema dinmico foi uma rede neural

feedforward com apenas uma camada intermediria (composta de neurnios tendo a tangente
hiperblica como funo de ativao) e a camada de sada linear. O sistema escolhido para
comparao foi um processo SISO, que envolve o comportamento dinmico do pH ocorrendo
em um reator de neutralizao. O modelo matemtico do processo foi extrado do trabalho de
CHENG et al.(1995), sendo que considerou-se que o nvel do tanque constante e que no h
atraso na medida do pH. O modelo simplificado pode ser colocado no formato de variveis de
estado, sendo descrito por dois estados (invariantes reacionais) e uma sada (pH). O processo
possui trs correntes de entrada, cido (HNO3), tampo (NaHCO3) e base (NaOH), que so
misturadas no tanque e o pH na sada desse medido. Destas correntes apenas a vazo de
base alterada. As equaes diferenciais relacionadas aos estados so lineares e o pH uma
funo no-linear desses.

( Ah )

d (Wa 4 )
= q1 (Wa1 Wa 4 ) + q 2 (Wa 2 Wa 4 ) + q3 (Wa 3 Wa 4 )
dt

(5.4)

( Ah )

d (Wb 4 )
= q1 (Wb1 Wb 4 ) + q 2 (Wb 2 Wb 4 ) + q3 (Wb 3 Wb 4 )
dt

(5.5)

39

Wa 4 + 10 pH 414 + Wb 4

1 + 2.10 pH 4 pK 2
10 pH 4 = 0
1 + 10 pK 1 pH 4 + 10 pK 1 pK 2

(5.6)

onde

q1, q2 e q3 : Vazes de cido, tampo e base, respectivamente;


A e h: rea e altura do tanque, respectivamente;
Wa1 e Wb1: Invariantes reacionais da corrente de cido;
Wa2 e Wb2: Invariantes reacionais da corrente de tampo;
Wa3 e Wb3: Invariantes reacionais da corrente de base;
Wa4 e Wb4: Invariantes reacionais na sada do tanque;
pK1, pK2: constantes de dissociao.
As quantidades Wa e Wb so chamadas de invariantes reacionais porque suas
concentraes no se alteram durante a reao e, portanto, as respectivas equaes
diferenciais no contm o termo de reao. As condies nominais do processo podem ser
vistas na Tabela 5.1.

Tabela 5.1 - Variveis e parmetros do processo de neutralizao


Varivel

Valores nominais

207 cm2

14,0 cm

pK1

6,35

pK2

10,25

q1 (HNO3)

16,6 ml/s

q2 (NaHCO3)

0,55 ml/s

q3(*)(NaOH)

15,6 ml/s

pH(*)

7,0

Wa1

3e-3 M

Wa2

-3e-2 M

Wa3

3,05e-3 M

Wb1

Wb2

3e-2 M

Wb3

5e-5 M

(*): Valores de estado estacionrio

40

As Equaes (5.4) e (5.5) permitem calcular as concentraes dos invariantes reacionais


em funo do tempo, assumindo que as concentraes iniciais e as vazes sejam conhecidas.
O pH da soluo pode ento ser determinado da Equao (5.6) a partir dos valores das
concentraes dos invariantes reacionais. A Equao (5.6) transcendental, ou seja, o valor
do pH no pode ser obtido diretamente, no entanto, pode ser determinado iterativamente
atravs de uma tcnica para determinao de razes. Neste trabalho, utilizou-se o mtodo de
Newton para razes.
O grupo de dados utilizado para treinamento da rede (em torno de 1200 pontos) foi obtido
amostrando o modelo do tanque de pH a cada 5 segundos (valor utilizado no trabalho de
CHENG et al.(1995)). As perturbaes aplicadas na vazo de base foram pulsos aleatrios
com amplitude entre 7 e 21 ml/s e largura de 10 e 50 intervalos de amostragem em torno do
valor de estado estacionrio q = 15,6 ml/s. Foram adicionados aos pulsos rudo branco com
amplitude de 5% da utilizada para gerao desses.
Para treinamento da rede, os valores de pH(k) e U(k) foram utilizados como variveis de
entrada e como sada, o valor de pH(k+1). Os dados de entrada e sada utilizados no
treinamento foram normalizados entre 0,8 e 0,8. A camada intermediria da rede

feedforward utilizada foi composta por 30 neurnios. Este nmero de neurnios foi escolhido,
pois permitiu uma comparao de desempenho entre os mtodos de treinamento e se obteve
boa aproximao dos dados. Na Figura 5-1 mostram-se as perturbaes aplicadas na vazo de
base. Na Figura 5-2 podem ser vistos os valores de pH para as perturbaes aplicadas.

19,0
Vazo (ml/s)

17,0
15,0
13,0
11,0
9,0
7,0
1

101

201

301

401

501

601 701
amostra

801

901 1001 1101

Figura 5-1 - Perturbaes aplicadas na vazo de base do tanque de pH

41

9,5
8,5
pH

7,5
6,5
5,5
4,5
3,5
1

101

201

301

401

501

601 701
amostra

801

901 1001 1101

Figura 5-2 Evoluo do pH no tanque

A rede feedforward descrita foi treinada 10 vezes, pelos mtodos backpropagation e de


Levenberg-Marquardt. Em cada corrida, os dois mtodos foram iniciados com os mesmos
pesos, sendo esses definidos aleatoriamente entre [-1;1], no entanto, os pesos inicialmente
utilizados foram alterados entre corridas diferentes. Em todos os casos, foram utilizadas 1500
pocas treinamento. Na Tabela 5.2, mostra-se o resultado das corridas quando atingidas 1500
pocas, onde R2 significa coeficiente de correlao (%) calculado a partir da equao (3.2).
.
Tabela 5.2 - Comparao do desempenho dos mtodos de backpropgation e
Levenberg-Marquardt (treinamento)
Backpropagation

Levenberg-Marquardt

Corrida

R2(%)

100-R2(%)

R2(%)

100-R2(%)

99,8028

0,1972

99,9879

0,0121

99,6445

0,3555

99,9871

0,0129

99,5841

0,4159

99,9924

0,0076

99,5074

0,4926

99,9936

0,0064

98,3656

1,6344

99,9884

0,0116

99,5036

0,4964

99,9851

0,0149

98,1779

1,8221

99,9855

0,0145

99,5955

0,4045

99,9907

0,0093

99,3106

0,6894

99,9914

0,0086

10

99,6832

0,3168

99,9900

0,0100

Mdia

99,3175

0,6825

99,9892

0,0108

42

De acordo com a Tabela 5.2, pode-se observar que o desempenho de treinamento, quando
se compara o valor de R2, obtido com o mtodo de Levenberg-Marquardt foi bastante superior
ao backpropagation. O valor de 100-R2 que indica a porcentagem do sinal de sada, em
termos da energia, que no foi identificada pelo modelo , em mdia, 60 vezes menor no caso
do mtodo de Levenberg-Marquardt.
Como um exemplo, pode-se observar nas Figuras 5.3 e 5.4 as previses das redes
treinadas pelos mtodos backpropagation e Levenberg-Marquardt, para o caso da corrida
nmero 10. Estas redes correspondem s obtidas na ltima iterao de treinamento. Na Figura
5-5 podem ser observados os respectivos erros de previso.

Real

Rede

9,5
8,5
pH

7,5
6,5
5,5
4,5
3,5
1

101

201

301

401

501

601 701
amostra

801

901

1001 1101

Figura 5-3 - Dados reais x previso da rede feedforward treinada por backpropagation

Real

Rede

9,5
8,5
pH

7,5
6,5
5,5
4,5
3,5
1

101

201

301

401

501

601 701
amostra

801

901

1001 1101

Figura 5-4 - Dados reais x previso da rede feedforward treinada por Levenberg-Marquardt

43

Analisando as Figuras 5.3 a 5.5, nota-se que as amplitudes dos erros de treinamento foram,
em

geral,

menores

quando

treinamento

foi

efetuado

com

mtodo

de

Levenberg-Marquardt.

1,0

Erro

0,5
0,0
-0,5
-1,0

(a)

1,0

Erro

0,5
0,0
-0,5
-1,0
1

101

201

301

401

501 601
amostra

701

801

901

1001

1101

(b)
Figura 5-5 - (a) Erros de previso da rede feedforward treinada por backpropagation

(b)

Erros de previso da rede feedforward treinada por Levenberg-Marquardt

Tambm para a corrida de nmero 10, mostra-se na Figura 5-6 a evoluo do valor do
100-R2 em funo do nmero de pocas (ambos em escala log) para o treinamento efetuado
por backpropagation e por Levenberg-Marquardt. Pode-se observar que para o

backpropagation, seriam necessrias mais pocas, alm das 1500 utilizadas, para a
convergncia do mtodo. Ao contrrio, no caso da tcnica de Levenberg-Marquardt, a partir
de 100 pocas o erro quadrtico de aproximao no se alterou de forma significativa.

44

BackProp.

Lev-Marq.

100,000

100-R

10,000
1,000
0,100
0,010
0,001
1

10

100
Nmero de pocas

1000

10000

Figura 5-6 - Evoluo do erro de treinamento utilizando os mtodos backpropagation e


Levenberg-Marquardt

Na Figura 5-6 pode-se observar que, no caso do mtodo de Levenberg-Marquardt, o


treinamento poderia ter sido finalizado em menos de 100 pocas, uma vez que o erro de
aproximao no variou de forma de significativa a partir desse ponto. Existe a possibilidade
de estar ocorrendo o problema de sobre-treinamento da rede feedforward nesta situao. No
entanto, neste captulo deseja-se descobrir qual o melhor mtodo, em termos da minimizao
do erro de aproximao, uma vez que no captulo 7 mostra-se que o problema de
sobre-treinamento pode ser minimizado alterando apenas a funo objetivo de aprendizado da
rede.
A diferena de desempenho entre os mtodos de treinamento testados pode ser atribuda a
utilizao de informaes relativas interao entre as variveis de otimizao, neste caso os
pesos da rede, na minimizao do erro quadrtico de aproximao. As informaes de
interao entre os pesos esto contidas nas derivadas de alta ordem do erro de aproximao.
No caso da estratgia de Levenberg-Marquardt estas derivadas so utilizadas, ao contrrio
mtodo de backpropagation. Na verdade, o backpropagation uma verso bastante
simplificada do mtodo de Newton para otimizao. Isto pode ser observado eliminando a
dependncia entre diferentes pesos da matriz H. A simplificao torna a matriz Hessiana
diagonal, ou seja, todas as derivadas cruzadas so anuladas. Dessa forma, a inversa de H
torna-se uma matriz diagonal em que os elementos da diagonal principal correspondem ao
inverso dos respectivos elementos em H. Se comparado ao backpropagation, este novo
mtodo utiliza ganhos, fatores de aprendizagem, diferenciados para cada peso. A informao
de segunda ordem est restrita a estes ganhos. Como ltima simplificao, considera-se que os

45

ganhos aplicados em todos os pesos so iguais, ou seja, o valor do fator de aprendizagem


nico e serve como um parmetro de ajuste do mtodo. A tcnica de treinamento resultante
equivalente ao clssico mtodo backpropagation (sem o termo de momento).

5.4 Metodologia de Treinamento Baseada em Algoritmos Genticos e


Mnimos Quadrados

5.4.1 Introduo
Nesta seo foi aplicada uma tcnica simples, em termos de implementao
computacional, para treinamento de uma rede feedforward baseada em algoritmos genticos e
mnimos quadrados. Esta tcnica descrita em GHOSH e VERMA(2001) que utilizou um
algoritmo gentico para determinar os parmetros pertencentes camada intermediria e
mnimos quadrados para estimar os pesos da camada de sada de uma rede neural

feedforward.
No trabalho de CLAUMANN(1999), foi mostrado que o algoritmo gentico descrito pelo
autor obteve resultados superiores, em termos do resultado final e velocidade de
convergncia, quando comparado ao proposto por GOLDBERG(1989) para uma srie de

benchmarks de otimizao. Por isso, foi utilizado o Algoritmo gentico descrito pelo primeiro
autor conjuntamente o mtodo dos mnimos quadrados para o treinamento de uma rede

feedforward.
Os Algoritmos Genticos (GAs) so algoritmos de otimizao baseados nos mecanismos
de seleo natural e adaptao. Estes algoritmos operam com um conjunto de possveis
solues, denominado populao, para determinao do timo. Os elementos da populao,
tambm conhecidos por indivduos, so combinados atravs de uma troca de informaes de
modo a encontrar melhores solues que as da populao original. A troca de informaes
para determinao da nova populao depende do valor da funo objetivo, de tal forma que
melhores solues possuem maior possibilidade de serem combinadas. Desse processo
obtm-se, em geral, solues melhores que as originais e toda a populao desloca-se em
direo ao timo. Quando um conjunto de indivduos de tamanho igual ao da populao

46

obtido considera-se completada uma gerao. O primeiro Algoritmo Gentico foi descrito por
HOLLAND(1975) e foi inspirado em um mecanismo simplificado da adaptao natural dos
seres vivos ao ambiente. A adaptao pode ser considerada um processo de modificao
progressiva de uma populao promovendo um melhor desempenho no ambiente. O
ambiente, neste caso, a funo objetivo a ser otimizada.

5.4.2 Termos Tcnicos Utilizados em Algoritmos Genticos


Em sistemas naturais um ou mais cromossomos combinam-se para formar a informao
gentica necessria formao de um indivduo. As strings, nos sistemas genticos artificiais,
so anlogas aos cromossomos nos sistemas biolgicos.
Em sistemas naturais a interao entre um organismo e seu ambiente conhecida como
fentipo. O equivalente ao fentipo, nos algoritmos genticos, so as variveis decodificadas,
tambm chamadas de conjunto de parmetros, soluo alternativa ou ponto no espao de
soluo.
Em Gentica, os cromossomos dividem-se em genes que so caracterizados por duas
propriedades: O alelo (funo do gene) e o locus (posio do gene no cromossomo). Na
pesquisa gentica artificial, as strings so formadas por um conjunto de detetores ou

caractersticas que so diferenciados entre si pela funo que desempenham e pela posio
que ocupam na string. O conjunto de todos os valores (tambm podem ser smbolos caso seja
um nmero finito) que um detetor pode assumir conhecido por alfabeto. Por exemplo, em
codificao binria o alfabeto {0,1}. Em codificao real, cada gene pode assumir qualquer
valor dentro de um intervalo pr-definido.
Em populaes naturais, o fitness a capacidade das criaturas sobreviverem aos
predadores, pestes e outros obstculos reproduo. No ambiente artificial, o fitness uma
medida relativa de desempenho entre os elementos da populao. O fitness pode ser
determinado diretamente a partir do valor da funo objetivo ou de algum critrio baseado
nela.

47

5.4.3 Diferenas Entre Algoritmos Genticos e Tcnicas Clssicas de


Otimizao
Os algoritmos genticos diferem dos mtodos de otimizao baseados em Clculo nos
seguintes aspectos:

As variveis de um problema a ser otimizado podem ser codificadas em algum alfabeto, tal
como o binrio. Neste caso, as operaes efetuadas resumem-se a cpias e trocas de bits;

GAs operam com uma populao de possveis solues da otimizao (indivduos ou


elementos) no com apenas uma soluo. A robustez dos GAs estagnao em mnimos
locais deve-se a utilizao de uma populao cujos indivduos so espalhados inicialmente
por todo o espao de pesquisa. Eventualmente alguns indivduos da populao podero
convergir para timos locais, porm isso dificilmente acontecer com todos ao mesmo tempo;

GAs utilizam apenas informao das avaliaes da funo objetivo, no empregando


qualquer outro tipo de conhecimento tal como o de derivadas;

A gerao de novos indivduos nos GAs no realizada de forma determinstica, mas


atravs de modificaes aleatrias nos indivduos da populao atual.
Mais detalhes a respeito de Algoritmos Genticos ver GOLDBERG(1989).

5.4.4 Descrio da Tcnica Baseada em Mnimos Quadrados e Algoritmos


Para treinamento da rede feedforward foi utilizado um algoritmo gentico com codificao
real. Neste caso, cada detetor equivale a um peso da rede a ser otimizado e, portanto, o
nmero de detetores da string de cada indivduo igual ao nmero de pesos da camada
intermediria. Em termos de implementao computacional, cada string corresponde a um
vetor de nmeros reais de comprimento igual ao nmero de variveis sendo otimizadas.
Em cada gerao, o algoritmo gentico produz uma populao de indivduos, sendo que a

string de cada indivduo corresponde camada intermediria de uma rede neural feedforward
diferente. O valor da funo objetivo (o erro quadrtico de aproximao) de cada indivduo
utilizado no clculo do fitness foi obtido da seguinte forma: Uma vez que os pesos da camada

48

intermediria foram definidos pelo algoritmo gentico, calculam-se as sadas dos neurnios da
camada intermediria para todos os padres do grupo de dados de treinamento. Como os alvos
so conhecidos e a camada de sada linear, a determinao dos pesos da camada de sada
implica na resoluo de um problema de mnimos quadrados. Aps estimar estes ltimos
pesos, obtm-se a sada prevista pela rede para todos os pontos do grupo de dados e,
finalmente, calcula-se o erro quadrtico de aproximao de treinamento.
Deve-se notar que as sadas dos neurnios da camada intermediria e de sada,
considerando todos os padres do grupo de dados de treinamento, so avaliadas apenas uma
vez para o clculo da funo objetivo de um indivduo.
Do ponto de vista da rede neural, o Algoritmo Gentico desconhecido e as nicas
informaes que a rede necessita desse so os pesos da camada intermediria. Do ponto de
vista da aplicao do Algoritmo Gentico, a arquitetura da rede desconhecida e a nica
informao que o GA necessita o valor da funo objetivo.
As tcnicas redes neurais, algoritmos genticos e mnimos quadrados foram combinadas
em um nico algoritmo, no entanto, as partes atuam de forma contnua e independente.
Na identificao do tanque de pH foi utilizada uma populao 30 indivduos. Um nmero
maior de indivduos s elevou o tempo computacional e um nmero inferior resultou em pior
desempenho de treinamento. Todos os outros parmetros do mtodo, tais como, tipos de
operadores de crossover, mutao, seleo e taxas de crossover, mutao etc foram definidos
de acordo com CLAUMANN(1999).

5.5 Comparao de Desempenho Entre um Mtodo de Segunda Ordem e


um Mtodo Baseado em Algoritmos Genticos
As estratgias de treinamento GA + mnimos quadrados e Levenberg-Marquardt foram
comparadas no treinamento de uma rede feedforward com 30 neurnios na camada
intermediria (a mesma estrutura utilizada na seo 5.3), para a identificao do tanque de pH
descrito.
Na Tabela 5.3, mostra-se o resultado das corridas aps 1500 pocas de treinamento
comparando o mtodo de Levenberg-Marquardt (resultados repetidos da Tabela 5.2) e a
metodologia GA + mnimos quadrados. Para uma comparao adequada entre os dois
mtodos, em termos de convergncia, foi considerado que uma gerao, no caso do GA,

49

equivale a 30 pocas, ou seja, uma poca associada a cada indivduo de uma populao
composta por 30 desses. Dessa forma, o algoritmo gentico foi finalizado em 50 geraes.
De acordo com a Tabela 5.3, pode-se observar que o desempenho de treinamento, quando
se compara o valor de R2, obtido com a estratgia GA + mnimos quadrados foi superior em
todas as simulaes ao mtodo de Levenberg-Marquardt. A porcentagem de energia do sinal
de sada no identificada pela rede neural (100-R2) foi, em mdia, 3 vezes menor no caso da
tcnica de GA + mnimos quadrados.
Como um exemplo, mostra-se na Figura 5-7, a previso da rede treinada por

GA + mnimos quadrados no caso da corrida nmero 10. Esta rede corresponde obtida na
ltima iterao de treinamento. Na Figura 5-8 pode ser vista uma comparao dos erros de
previso das tcnicas de Levenberg-Marquardt e GA + mnimos quadrados.

Tabela 5.3 - Comparao do desempenho dos mtodos Levenberg-Marquardt e


GA+mnimos quadrados
GA+ mnimos quadrados

Levenberg-Marquardt

Corrida

R2(%)

100- R2(%)

R2(%)

100- R2(%)

99,9970

0,0030

99,9879

0,0121

99,9944

0,0056

99,9871

0,0129

99,9975

0,0025

99,9924

0,0076

99,9963

0,0037

99,9936

0,0064

99,9951

0,0049

99,9884

0,0116

99,9970

0,0030

99,9851

0,0149

99,9957

0,0043

99,9855

0,0145

99,9968

0,0032

99,9907

0,0093

99,9964

0,0036

99,9914

0,0086

10

99,9968

0,0032

99,9900

0,0100

Mdia

99,9963

0,0036

99,9892

0,0108

50

Real

Rede

9,5
8,5
pH

7,5
6,5
5,5
4,5
3,5
1

101

201

301

401

501

601 701
amostra

801

901

1001 1101

Figura 5-7 - Dados reais x previso da rede feedforward treinada por GA + mnimos quadrados

0,3

Erro

0,2
0,1
-0,1
-0,2
-0,3

(a)

0,3
0,2

Erro

0,1
0,0
-0,1
-0,2
-0,3
1

101

201

301

401

501

601 701
amostra

801

901

1001

1101

(b)
Figura 5-8 - (a) Erros de previso da rede feedforward treinada por Levenberg-Marquardt
(b) Erros de previso da rede feedforward treinada por GA + mnimos quadrados

Pode ser observado na Figura 5-7, que o comportamento do sistema dinmico pode ser
dividido, de forma simplificada, em regies onde o processo est prximo de atingir um

51

estado estacionrio e em outras onde h rpidas transies de ponto de operao. Este


comportamento ocorre em funo das perturbaes aplicadas na vazo de base. Comparando
as Figuras 5.7 e 5.8, possvel observar que as regies de pequeno erro esto associadas a
comportamentos prximos ao estacionrio e as regies de picos de erros esto associadas
ocorrncia de mudanas bruscas no processo. Para os dois tipos de comportamentos descritos,
os erros de previso da rede neural treinada pela estratgia GA + mnimos quadrados foram
inferiores aos obtidos com a rede treinada por Levenberg-Marquardt.
Tambm para a corrida de nmero 10, mostra-se na Figura 5-9 a evoluo do valor do
100-R2 em

funo

do

nmero

de

pocas

para

treinamento

efetuado

por

Levenberg-Marquardt e por GA + mnimos quadrados (uma gerao = 30 pocas).

GA+Min. Quad.

Lev-Marq.

100-R

0,100

0,010

0,001
0

200

400

600
800
1000
Nmero de pocas

1200

1400

1600

Figura 5-9 - Evoluo do treinamento da rede feedforward utilizando Levenberg-Marquardt e


GA + mnimos quadrados

Na Figura 5-9 pode-se observar que a estratgia de treinamento baseada em


Levenberg-Marquardt converge rapidamente para um mnimo local. No caso da tcnica de

GA + mnimos quadrados, obtm-se inicialmente um desempenho inferior em termos de


convergncia, no entanto, o valor final de 100-R2 inferior indicando a robustez dessa ltima
estratgia presena de mnimos locais.
Em termos de tempo computacional, observou-se que o desempenho do mtodo

GA + mnimos quadrados foi um pouco superior ao de Levenberg-Marquardt, se considerado


o mesmo nmero de pocas. Este resultado pode ser explicado em termos das etapas de maior
custo computacional utilizadas nos mtodos e pelo nmero de vezes que estas etapas devem
ser efetuadas por poca.

52

Foi observado que as tarefas de maior custo computacional foram o clculo do erro global
de treinamento, que necessita da avaliao da sada da rede para todos os pontos do grupo de
dados, e a estimao dos pesos a partir da tcnica de mnimos quadrados. Em uma poca, o
erro global de treinamento deve ser avaliado apenas uma vez para as duas estratgias. No
entanto, no caso da estratgia baseada em algoritmos genticos apenas os pesos da camada de
sada devem ser estimados por mnimos quadrados. Para o mtodo Levenberg-Marquardt,
alm destes os pesos da camada intermediria tambm devem ser estimados por mnimos
quadrados em cada poca.

5.6 Concluses
Embora tenha se tratado da identificao de apenas um sistema dinmico, pode-se
concluir, em funo das diferenas significativas de desempenho de treinamento, que a
estratgia GA + mnimos quadrados foi superior tcnica de Levenberg-Marquardt e essas
duas foram muitos superiores ao mtodo backpropagation.
A estratgia GA + mnimos quadrados a mais simples, em termos de implementao,
pelo fato de ser baseada em ferramentas de otimizao e identificao genricas e
independentes do problema. Este no o caso dos mtodos de Levenberg-Marquardt e

backpropagation que necessitam do conhecimento de derivadas e, dessa forma, so


dependentes da arquitetura da rede utilizada.
Uma rede neural feedforward com apenas uma camada intermediria composta de
neurnios no-lineares e a camada de sada linear pode aproximar sistemas dinmicos
complexos, como o caso do tanque de pH.
Embora, neste trabalho, no sejam utilizadas funes de ativao no diferenciveis,
possvel aplicar a estratgia GA+mnimos quadrados em problemas que utilizem tal classe de
funes.

53

REGULARIZAO E REPRESENTAO DO CONHECIMENTO

6.1 Introduo
Determinar um modelo de um sistema, a partir de um conjunto finito de observaes sem
qualquer conhecimento prvio desse , em geral, um problema mal-posto, no sentido de que
um modelo nico pode no existir TIKHONOV e ARSENIN(1977).
Na identificao de sistemas, utilizando modelos lineares nos parmetros, problemas
mal-postos produzem matrizes mal condicionadas, o que pode levar a grandes erros na
determinao dos coeficientes dos modelos. Uma maneira de diminuir incertezas introduzir
conhecimento prvio do processo que se deseja identificar, alm da simples aproximao de
dados, de forma a obter-se uma soluo nica para o problema de aproximao. Um desses
procedimentos conhecido por regularizao. Para transformar a identificao de sistemas em
um problema bem-posto, TIKHONOV e ARSENIN(1977) criaram a teoria da regularizao.
Uma forma de conhecimento prvio utilizada na teoria de regularizao que
descontinuidades so comportamentos pouco provveis de ocorrer em processos. Isto evitar
que o comportamento de um modelo varie abruptamente nas vizinhanas de uma observao,
sendo que alguma interpolao e extrapolao dos dados pode ser justificada. Tal hiptese
vlida para uma grande classe de sistemas do mundo real, mas no para todos os sistemas. A
hiptese de suavidade pode ser incorporada em um modelo atravs do critrio de
identificao, ou seja, na etapa de estimao dos coeficientes ajustveis desse
O'SULLIVAN(1986), WAHBA (1990).
Regularizadores de naturezas diversas podem ser propostos, por exemplo, para penalizar a
curvatura das funes utilizadas na aproximao dos dados, para impor restries no valor
assumido pelas variveis, para forar a estabilidade em malha aberta do modelo proposto para
um sistema dinmico, entre outros.
Alguns trabalhos que utilizam a regularizao no contexto da identificao encontrados na
literatura so: o de TULLEKEN(1993) que sugere o uso de restries derivadas do
conhecimento prvio do sistema para melhorar o modelo, no contexto da identificao de
sistemas lineares; o de THOMPSON e KRAMER(1994) que discute como diferentes tipos de
conhecimento podem ser utilizados para estruturar um modelo; o de GIROSI et. al.(1995) que
analisa como diferentes penalizaes da no suavidade levam a diferentes bases de funes

54

utilizadas na aproximao; o de JOHANSEN(1997) que apresenta uma estrutura unificada


que permite adicionar vrias formas de conhecimento durante a etapa de determinao dos
coeficientes do modelo.
Nas prximas sees descreve-se como a regularizao pode ser introduzida em um
problema de mnimos quadrados.

6.2 Introduo de Regularizadores no Problema de Mnimos Quadrados


Matematicamente, a maior parte dos regularizadores pode ser introduzida no problema de
identificao atravs da funo objetivo. Termos adicionais, alm do erro quadrtico de
aproximao, constituiro a nova funo objetivo regularizada. Dessa forma, mltiplos
critrios podem ser introduzidos. A importncia de cada critrio pode ser ponderada
utilizando multiplicadores (constantes positivas).
Na Equao (6.1) mostra-se o formato da funo objetivo regularizada J:

J = Y F ( X )

+ i J i

(6.1)

i =1

onde,

N: Nmero de regularizadores;

Y: Vetor de dados que se deseja aproximar;


X: Matriz de dados de entrada;
F(X): Mapeamento no-linear aplicado em X (Matriz);

: Vetor de parmetros;
Ji - i-simo regularizador;

i - i-simo multiplicador (i >0);


No caso de mltiplas sadas ( matriz), o problema de mnimos quadrados pode ser
resolvido de forma independente para cada uma delas. Por isso, sem perda de generalidade,
foi considerado o tratamento de uma sada apenas, o que implica que um vetor.

55

Algumas dedues efetuadas nas prximas sees dependem das variveis definidas e,
para maior compreenso, as matrizes e vetores presentes na Equao (6.1) so descritos em
formato expandido:
y1
y y R ; ( i = 1,....N )
p
2
i

;
Y =

Y (N p x 1)

y N p
X 1 x1,1 x1, 2 x1, Nv
xi , j R ; (i = 1,....N p ; j = 1,....N v )
X x

x
x

2 ,1
2, 2
2 , Nv
2
=
X =
; X i R N v ; ( i = 1,....N p )

X (N p x N v )

X
N p x N p ,1 x N p , 2 x N p , Nv
1 ( )
Nv

( ) R ; ( = X i ; i = 1,....N p )
2
; ( ) : R N v R; ( i = 1,....N )
( ) =
f
i

N
N
f

( ) : R v R

(
)

N f
T ( X 1 ) 1 ( X 1 ) 2 ( X 1 ) N f ( X 1 )

T

( X 2 ) 1 ( X 2 ) 2 ( X 2 ) N f ( X 2 ) F ( X )
F (X ) =

; ( N
=

p x N f )


T X N p 1 (X Np ) 2 (X Np ) N f (X Np )

onde
Np: Nmero de pontos do grupo de dados;
Nv: Nmero de variveis;
Nf: Nmero de funes (regressores);

(): Mapeamento no-linear aplicado aos pontos do grupo de dados.


Para exemplificar a influncia dos regularizadores na soluo do problema de mnimos
quadrados, pode-se considerar um problema com apenas um regularizador descrito por:

56

J 1 = 2 B T + T A (B Vetor; A Matriz Simtrica)

(6.2)

A minimizao de J pode ser efetuada da seguinte forma:


J = Y F (X )

+ 1 J1

J = Y T Y 2Y T F ( X ) + T F ( X ) F ( X ) + 1 2 B T + T A
1 4 4 4 4 4 4 4 2 4 4 4 4 4 4 43
1 4 4 2 4 43
T

erro aproximao

J1

T
T
T
(4X )3 + 1 T4F4( X4) 4F2( X4 )4+ 41 4A3
J= Y
{ Y + 21 41 4B 4 2Y4 F
4
cons tan te
linear

quadrtico

(F ( X )

) (

dJ
= 0 ) (condio de otimizao)
d

F (X ) + 1 A = F (X ) Y 1 B
T

(6.3)

No caso nominal (sem regularizadores, ou seja, 1=0) tem-se que a Equao (6.3) reduz-se
para:

F ( X ) F ( X ) = F ( X ) Y
T

(6.4)

onde F ( X ) F ( X ) denominada de matriz de covarincia.


T

A Equao (6.4) conhecida por "equao normal".


Comparando as Equaes (6.3) e (6.4) conclui-se que para introduzir regularizadores no
problema nominal basta adicionar a matriz A (multiplicada por ) da Equao (6.2) no lado
esquerdo da Equao (6.4) e subtrair vetor B (multiplicado por ) no lado direito.
importante salientar que este procedimento pode ser efetuado para qualquer regularizador que
possa ser descrito por termos lineares ou quadrticos nos parmetros. Regularizadores devem
ser definidos ou semi-definidos positivos e, portanto, quando descritos no formato matricial, o
termo quadrtico dever sempre dominar o termo linear, se este ltimo existir. Dessa forma,
um regularizador nunca formado apenas pelo termo linear, pois resultaria em um

57

comportamento indefinido. O regularizador definido na Equao (6.2) poderia conter um


termo constante, alm do linear e do quadrtico, porm, sem perda de generalidade, o termo
constante no foi includo, j que ser eliminado quando da aplicao da condio de
otimizao

dJ
= 0 . A implementao de regularizadores que no podem ser obtidos a partir
d

dos termos descritos levaria a um problema de otimizao no-linear e, obviamente, no seria


possvel utilizar o mtodo dos mnimos quadrados para determinao dos coeficientes timos.
Generalizando o resultado da Equao (6.4) para vrios regularizadores tem-se:
T

J i = 2 Bi + T Ai ; i = 1..N (onde N o nmero de regularizadores)

N
N

T
T
F ( X ) F ( X ) + i Ai = F ( X ) Y i Bi
i =1
i =1

(6.5)

6.3 Normalizao de Regularizadores


A Equao (6.1) pode ser escrita, por convenincia, em um formato equivalente, mas
ligeiramente modificado:

J = Y F (X )

+ i K i J i

(6.6)

i =1

Na Equao (6.6) tem-se:


F (X ) F (X )
T

Ki: Constante de normalizao, definida como

Ai

, utilizando termos contidos na

Equao (6.5);

i: i-simo multiplicador normalizado(i >0);


: Norma 2 para matrizes que igual ao autovalor mximo da matriz.

Os outros termos foram definidos na Equao (6.1)


A utilizao de multiplicadores normalizados tem por objetivo:

58

1) Limitar valores de i a uma faixa de pesquisa: Se i=0 ento o regularizador associado no


possuir importncia alguma em relao ao termo de erro quadrtico de aproximao,
portanto i>0. No outro extremo, se i=1, o regularizador ter a mesma importncia que o
erro quadrtico de aproximao dos dados. Dessa forma, os multiplicadores i dos
regularizadores devem assumir, na maior parte dos casos, valores entre 0 e 1;
2) Uma vez obtida a soluo que agrade ao usurio, os valores i so teis para indicar a
importncia relativa de cada termo da funo objetivo.
A norma 2 foi escolhida porque a norma minimizada no problema de mnimos
quadrados.
Das propriedades de norma implica que a matriz de covarincia F(X)TF(X) bem como as
matrizes Ai, devidamente multiplicadas por seus Ki ,possuiro a mesma norma 2, ou seja,
tero a mesma importncia na soluo do problema. A relevncia de cada termo poder ser
alterada atravs de manipulao dos multiplicadores i.

6.4 Influncia

da

Regularizao

pela

Norma

dos

Pesos

no

Condicionamento da Matriz de Covarincia


Para um modelo no-linear, mas linear nos parmetros, ou seja, no caso de uma srie
no-linear, o problema de estimao destes, considerando a funo objetivo como o erro
quadrtico de aproximao, equivalente a resolver um problema de mnimos quadrados.
O regularizador mais conhecido, tambm o mais simples, a norma do vetor de pesos ao
quadrado ||||2, ou seja o comprimento do vetor de pesos ao quadrado JOHANSEN(1997).
Adicionando-se este ao erro quadrtico de aproximao, tem-se uma nova funo objetivo:

G = J +

= Y F (X )

onde >=0 o parmetro de regularizao.


O mnimo de G pode ser obtido analiticamente, tal como para a funo J, e resulta da
soluo de um sistema linear em relao ao vetor de parmetros (Ver deduo na seo
6.2):

59

(F ( X )

F (X ) + I = F (X ) Y
T

Sendo que I a matriz de regularizao que corresponde a uma matriz identidade com as
mesmas dimenses de F(X)TF(X).
O parmetro pode ser definido, de forma conveniente, como:
F (X ) F (X )
T

= Max

=1
onde

>= 0 uma nova constante, a ser definida;


F ( X ) F ( X ) norma da matriz F(X)TF(X) cujo valor igual ao autovalor mximo Max
T

dessa. A funo objetivo G pode ser reescrita como:

G = Y F (X )

+ Max

Esta definio tem como vantagem poder se trabalhar com uma constante normalizada, ou
seja, se =1 a norma da matriz de covarincia F(X)TF(X), associada ao termo de
aproximao dos dados Y F ( X ) , igualada norma da matriz de regularizao I
2

multiplicada pela constante Max. O objetivo determinar um valor otimizado para que seja
independente do problema.
Considerando o espectro de A (conjunto de todos os autovalores de matriz A) e uma
constante arbitrria tem-se, da lgebra matricial, a seguinte relao:

( A + I ) = ( A) +

(6.7)

Utilizando A= F(X)TF(X), = = Max na Equao (6.7) podem-se determinar os


autovalores da matriz (F(X)TF(X) + I) a partir dos autovalores da matriz F(X)TF(X). Dessa
forma, os seguintes resultados podem ser obtidos (Ver Tabela 6.1).

60

Tabela 6.1 - Influncia da regularizao nos autovalores da matriz F(X)TF(X)


Matriz

Menor autovalor

Maior autovalor

F(X) F(X)

Min

Max

F(X)TF(X) + I

Min + Max

(1+) Max

Nmero de condio

Max

(1 + ) Max

Min

Min

+ Max

Na Tabela 6.1, mostra-se o valor do nmero de condio, para os casos com e sem
regularizao. Este parmetro definido como a relao entre o maior e o menor autovalores
de uma matriz, quando se considera a norma 2 para matrizes, e indica a dificuldade de
inverter uma matriz. Se o nmero de condio for prximo a 1, a matriz pode ser invertida
facilmente, no sentido que a inversa existe e pode ser calculada acuradamente. Se o nmero
de condio for muito alto, da ordem de muitas ordens de grandeza, a inversa pode no
existir.
Para matrizes simtricas do tipo F(X)TF(X) e (F(X)TF(X) + I) os autovalores so todos
no-negativos. Os maiores autovalores esto associados s funes mais importantes da srie,
em termos da energia do sinal de sada, para a aproximao dos dados. No outro extremo, os
menores autovalores esto associados aos termos da srie de pequena importncia na
aproximao dos dados. Como um exemplo, quando se utiliza um nmero de funes superior
ao necessrio para identificar um processo, a matriz de covarincia F(X)TF(X) possuir
autovalores muito prximos a zero, j que existem regressores de pequena importncia. Neste
caso, o nmero de condio cresce arbitrariamente e os pesos podem ser estimados
incorretamente em funo dos problemas numricos envolvidos.O problema que no se
conhece, a priori, quais e quantos regressores so relevantes identificao e que, portanto
deveriam ser utilizados.
A no utilizao da regularizao causa problemas numricos na estimao dos pesos
conforme descrito. Ao contrrio, um valor excessivo do parmetro de regularizao aumenta
significativamente o erro quadrtico de aproximao. Dessa forma, existe uma faixa de
valores que o parmetro de regularizao pode assumir.
Uma vez que os maiores autovalores esto associados aos termos da srie de maior
importncia na aproximao dos dados, os primeiros no deveriam sofrer variao
significativa quando se adiciona o regularizador pela norma do vetor de pesos. Dessa forma, o
maior autovalor de (F(X)TF(X) + I) deve ser aproximadamente igual ao maior autovalor de

F(X)TF(X), ou seja:

61

Max (1+) Max


o que implica em:

<< 1
Esta restrio estabelece um limite superior para . Lembrando que ( >= 0), por
definio, tem-se um limite inferior para este parmetro.
Se for permitido variar, por exemplo, na faixa [0;1E-4] pode-se garantir que as duas
restries sejam satisfeitas. O valor atribudo ao limite superior foi obtido atravs de
simulaes descritas na seo 6.6, onde se mostra que, para valores de igual ou maiores que
1E-4, o erro de aproximao poderia ter, em alguns casos, um aumento significativo quando
comparado ao erro para =0, ou seja, sem regularizao. Dessa forma, fica estabelecida uma
faixa de atuao para o parmetro de regularizao.
Para =0 tem-se a soluo trivial que no utiliza a regularizao. Esta situao no de
interesse em funo dos problemas numricos que podem ocorrer. possvel definir um
melhor limite inferior para relacionando o valor desse com o mximo do nmero de
condio que no resulte em problemas numricos. O nmero de condio da matriz

F(X)TF(X) + I , conforme a Tabela 6.1, igual a (1 + )

Max

Min

+ Max

) . Utilizando

<< 1 nesta expresso, o nmero de condio da matriz regularizada fica limitado


superiormente pelo valor de

Nmero de condio =

(1 + ) Max

Min

+ Max

) (

Min

1
Max
Max

=
Max
Max

+ )

(6.8)

Segundo PEDERSEN(1997), para clculos efetuados em dupla preciso, o mximo valor


de nmero de condio para o qual garantida estabilidade numrica, na soluo de sistemas
lineares, est em torno de 1E+8. Utilizando a Equao (6.8), obtm-se que para >1E-6 o
critrio de limitao do valor do nmero de condio satisfeito com segurana. Neste caso,
tem-se que o nmero de condio 1E+6. Dessa maneira, o intervalo 1E-6 1E-4 garante
estabilidade numrica para qualquer nmero de regressores utilizado, sem prejudicar a
capacidade de aproximao da srie de funes.

62

6.5 Influncia da Regularizao na Capacidade de Generalizao de


Modelos Empricos
Nesta seo, prova-se a conexo entre o regularizador ||||2 e a suavidade da superfcie de
um modelo emprico, caracterizado por uma srie. Os resultados obtidos so aplicveis s
redes neurais multicamadas reconhecendo que estas podem ser representadas atravs de sries
de funes cujos argumentos tambm so sries.
A capacidade de generalizao de um modelo est diretamente relacionada com as
curvaturas da superfcie desse. Um bom modelo emprico aquele que aproxima bem os
dados e possui boa capacidade de generalizao, ou seja, apresenta pequenas curvaturas
(ausncia de oscilaes e timos locais) em torno dos dados utilizados na identificao.
Na Figura 6-1 mostra-se uma ilustrao de duas possveis formas de aproximao para o
mesmo conjunto de dados. Tem-se, nos dois casos, um pequeno erro de modelagem. No
entanto, a amostragem dos dados deficiente gerando incertezas na aproximao. O modelo 1
generaliza melhor porque no gera comportamentos pouco provveis de existirem na
realidade. Segundo o princpio de Occam CHEN e HAYKIN(2001), na ausncia de
informao, o comportamento com menor probabilidade de erro de previso o suave. Por
este motivo, um modelo emprico linear a melhor escolha se com esse for obtido um bom
ajuste dos dados.

Figura 6-1 - Comparao da aproximao do mesmo conjunto de dados para diferentes modelos

Foram descritas apenas noes intuitivas a respeito da capacidade de generalizao e a sua


associao com a suavidade. No entanto, a propriedade de generalizao deve ser formalizada
matematicamente para impor um comportamento suave a um modelo no-linear.

63

As curvaturas presentes na superfcie de uma funo ficam definidas pelas derivadas de


segunda ordem, caso existam. Para um modelo emprico linear todas as derivadas de segunda
ordem se anulam, ou seja, todos os elementos da matriz Hessiana valero 0. Dessa forma,
limitar a curvatura implica em penalizar o desvio do comportamento linear. No trabalho de
JOHANSEN(1997) foi definido um ndice de desempenho para penalizao das curvaturas
presentes na superfcie de um modelo emprico. O ndice foi definido como a integral, com
relao a todas as variveis de entrada, do somatrio das derivadas de segunda ordem ao
quadrado, ou seja:

2 ()T

(6.9)

onde,

2: Derivadas de segunda ordem;


: Domnio de integrao;
: Vetor de variveis de entradas, ou seja, variveis independentes.
A Equao (6.9) representa um ndice de desempenho que positivo semi-definido, ou
seja, vale 0 no caso de uma srie linear e maior que 0 em qualquer outro caso. As derivadas de
segunda ordem ao quadrado resultam em valores sempre maiores ou iguais a zero para o
integrando. A integral garante que a penalizao das curvaturas seja aplicada para todo o
espao onde o modelo vlido.
Uma vez definido o conjunto de funes, possvel demonstrar que o ndice de
desempenho descrito pode ser colocado no formato TM, onde M uma matriz a
coeficientes constantes. A demonstrao dada a seguir:
Para obter uma expresso para o regularizador de curvatura em funo do vetor de
parmetros , define-se um vetor V que corresponde concatenao de todas as linhas da
matriz de derivadas de segunda ordem da sada do modelo em relao s variveis
independentes (entradas do modelo):

64

h1, 2
h1, N v 1
h1, N v
h1,1

h2, 2
h2, N v 1
h2, N v
h2,1

H =

hN v 1,1 hN v 1, 2 hN v 1, N v 1 hN v 1, N v

hN v , 2 hN v , N v 1 hN v , N v
hN v ,1

2 ( )
com hi , j =
i j

V = h1,1 h1, N v
1 4 2 43
linha 1 de H

hN v ,1 hN v , N v
1 44 2 4 43
linha Nv de H

h2,1 h2, N v
1 4 2 43
linha 2 de H

Como o modelo emprico tem validade em um domnio limitado, pode-se associar a cada
varivel i (i=1,....Nv) uma faixa de trabalho, ou seja, i definida no intervalo [ai, bi]
(i=1,....Nv). Substituindo as definies na Equao (6.9) tem-se:

2 ()T

b1 b 2

a1 a 2

(h
bN v

aN v

1,1

d =

b1 b 2

a1 a 2

aN v

V ( ) V ( ) d 1 d 2 d N v

bN v

+ hNv ,1 + h2,1 + h2, Nv hNv ,1 + hNv , Nv

)( ) d d
1

d N v

Os termos na integral aparecem como um somatrio. Dessa forma, pode-se deduzir a


expresso para a integral de um hi,j genrico. O regularizador completo pode ser obtido pela
soma destes termos. Considerando i e j arbitrrios, mas fixos.

b1 b 2

a1 a 2

(h )( ) d d
bN v

aN v

i, j

d N v

2 ( )
=
a1 a 2
aN v
i j
b1 b 2

bN v

d 1 d 2 d N V

(hi,j um escalar)
b1 b 2

a1 a 2

2 ( )T
aNv i j

bN v

) (( ) )
2

i j

d 1 d 2 d N V

(A derivada parcial um operador linear,

portanto pode-se considerar :


hi , j =

2 ( )
T
= i, j ( )
i j
T

65

( ( ) ) ( ( ) ) d d

b1 b 2

a1 a 2

bN v

aN v

i, j

i, j

d NV

b1 b 2

a1 a 2

bN v

aN v

T i, j ( )i, j ( ) d 1 d 2 d NV
T

b1 b 2
T
a1 a 2

Equao

M i, j =

b1 b 2

a1 a 2

bN v

aN v

bN v

aN v

(6.10)

T
i, j ( )i, j ( ) d 1 d 2 d NV

quadrtica

nos

(6.10)

parmetros.

termo

i, j ( )i, j ( ) d 1 d 2 d NV desta equao uma matriz quadrada a


T

coeficientes constantes com dimenses compatveis com o nmero de parmetros. Como a


contribuio de todos os hi,j, para o ndice de desempenho dado pela Equao (6.9) aditiva,
pode-se definir,
Nv

Nv

M = M i, j
i =1 j =1

onde M tambm uma matriz quadrada a coeficientes constantes com dimenses compatveis
com o nmero de parmetros. Por definio, a matriz fixa M semidefinida positiva, ou seja,

TM 0 .
Dessa forma tem-se que TM representa o ndice de desempenho dado pela Equao
(6.9), ou seja:

2 ()T

(6.11)

d = TM

se todas as derivadas de segunda ordem existirem.


A igualdade apresentada na Equao (6.11) tem uma implicao muito importante uma
2

vez que possvel encontrar um majorante para TM em funo de .


(e)
(d)
(f)
(b)
(a)
(c)
T
T
Max
M = | M | = | M | = ||||||M |||cos | ||||||M|| ||||||M|||| || M ||||2
T

66

Consideraes:
(a) TM 0 ;
(b) Definindo dois vetores u= e v= M;
(c) |uTv |=||u||||v|||cos | ( o ngulo entre u e v);
(d) 0 |cos | 1
(e) A norma de uma matriz definida como T = sup
x 0

Tx

. Dessa forma, ||T|| o maior

fator de amplificao que um elemento x (vetor) contido no domnio de T pode sofrer.


De acordo com LEWIS(1991), isto implica ||Tx|| ||T ||||x|| x ao domnio de T.
(o maior autovalor da matriz M).
(f) ||T || = Max
M

Pode-se concluir que para minimizar

2 ()T

d = TM basta minimizar ||||2,

ou seja:
Min. || ||2 Min. TM = Min.

2 ()T

d (eq. 12-6)

Dessa forma, o ndice de desempenho para penalizao das curvaturas da superfcie de um


modelo com alta complexidade de clculo

2 ()T

d pode ser substitudo, na funo


2

objetivo de treinamento, por outro muito mais simples = T. O ltimo ainda tem a
vantagem de ser aplicvel a sries de funes no diferenciveis em relao s variveis
independentes.
O mapeamento complicado TM, relativo elipse cujos eixos principais (autovetores)
no esto alinhados aos eixos coordenados, pode ser majorado por um mapeamento mais
simples, a circunferncia. Se o dimetro da circunferncia for diminudo, o mesmo deve
2
acontecer com as dimenses da elipse para que a restrio TM Max
M |||| permanea

verdadeira. Assim sendo, se o simples regularizador || ||2 for minimizado, ento

2 ()T

d = TM tambm ser.

67

6.6 Resultados
Para demonstrar os resultados obtidos nas sees 6.4 e 6.5, foram efetuados alguns testes
relativos identificao do tanque de pH descrito na seo 5.3. Para este sistema, o valor do
pH, no instante (k+1), pode ser identificado a partir do valor do pH e da vazo de base no

tempo discreto k. Os testes foram efetuados utilizando redes de base radial, de funes de
escala e feedforward. O parmetro de regularizao foi variado entre 0, caso sem
regularizao e 1E-4, o limite superior assumido.

6.6.1 Identificao do Tanque de pH Utilizando uma Rede de Base Radial


Uma rede de base radial com 30 centros, selecionados aleatoriamente entre os pontos do
grupo de dados, foi utilizada na identificao do tanque de pH. Em um estudo prvio foi
determinado que para um nmero diferente de centros, por exemplo 20 ou 40, os resultados
no seriam alterados qualitativamente, ou seja, as mesmas concluses poderiam ser obtidas
em relao influncia da regularizao no treinamento de uma rede de base radial. A funo
de ativao utilizada foi exp(

r2

) com =1. A sada foi normalizada entre 0 e 1.A funo

objetivo que incorpora o termo de penalizao da norma do vetor de pesos, alm do erro
quadrtico de aproximao, foi utilizada para treinamento da rede de base radial.
Na Figura 6-2 mostram-se os pesos estimados da camada de sada, em valor absoluto, para
alguns valores do parmetro de regularizao. A abscissa corresponde ao ndice dos pesos,
sendo estes ordenados em ordem decrescente de valor absoluto.
Nota-se, na Figura 6-2, que o valor absoluto dos pesos da camada de sada diminui
medida que o parmetro de regularizao aumentado, o que implica em um decrscimo da
norma do vetor de pesos da camada de sada. Este efeito esperado j que a norma descrita
faz parte da funo objetivo minimizada. No caso sem regularizao, observam-se pesos da
ordem de 1E+6, indicando uma pobre capacidade de generalizao, uma vez que os dados de
sada da rede foram normalizados entre 0 e 1. A solues mais coerentes correspondem as
situaes = 1E-6 a 1E-4, onde a grande maioria da norma dos pesos menor ou prxima a 1.

68

1,0E+06
Valor absoluto pesos

1,0E+05
1,0E+04
1,0E+03

=0

1,0E+02

=1,0E-1

1,0E+01

=1,0E-8

1,0E+00

=1,0E-6

1,0E-01

=1,0E-4

1,0E-02
1,0E-03

11

16

21

26

ndice dos pesos

Figura 6-2 - Valor absoluto dos pesos para alguns valores do parmetro de regularizao

Na Figura 6-3 pode-se observar a influncia que o parmetro de regularizao possui no


nmero de condio da matriz de covarincia.
Nota-se, na Figura 6-3, que o aumento do parmetro de regularizao diminui o nmero de
condio da matriz de covarincia. Isto ocorre pelo aumento do menor autovalor da matriz, j
que o maior pouco afetado pela regularizao. Nesta figura tambm se pode observar a
curva do nmero de condio mximo, considerando que o menor autovalor da matriz de
covarincia sem regularizao nulo. Pela proximidade das duas curvas, pode-se concluir que
este muito pequeno.

N condio

N condio Mximo

1,0E+11

Nmero de condio

1,0E+10
1,0E+09
1,0E+08
1,0E+07
1,0E+06
1,0E+05
1,0E+04
1,0E+03
1,0E-11

1,0E-10

1,0E-09

1,0E-08

1,0E-07

1,0E-06

1,0E-05

1,0E-04

Parmetro de regularizao ()

Figura 6-3 - Influncia do parmetro de regularizao no nmero de condio da matriz de


covarincia

69

Embora no possa ser mostrado na Figura 6-3, em funo da escala logartmica para a
abscissa, o valor do nmero de condio para a matriz de covarincia sem regularizao da
ordem de 1E+17. Este valor extremamente alto explica os valores elevados para os pesos
quando =0.
Na Figura 6-4 pode-se observar o valor do erro quadrtico normalizado, 100-R2, em
funo do valor do parmetro de regularizao. medida que a importncia do critrio da
norma do vetor de pesos aumentada com o crescimento de , o valor de100-R2 cresce de
forma monotnica. Isto esperado uma vez que os pesos devem ser ajustados para minimizar
dois critrios: o erro quadrtico de aproximao e a norma dos pesos ao invs de apenas o
primeiro.

1,0

100-R

0,8
0,6
0,4
0,2
0,0
1,0E-11

1,0E-10

1,0E-09
1,0E-08
1,0E-07
1,0E-06
Parmetro de regularizao ()

1,0E-05

1,0E-04

Figura 6-4 - Influncia do parmetro de regularizao no valor de 100-R2

Na Figura 6-4 pode-se observar que 100-R2 sofre um aumento pouco significativo at
=1E-6. A partir deste h um grande acrscimo em 100-R2. Como o objetivo determinar

um valor do parmetro de regularizao que garanta estabilidade numrica na estimao dos


pesos e baixo do erro quadrtico de aproximao, =1E-6 o valor timo neste caso.
Embora no possa ser mostrado na Figura 6-4, o valor de 100-R2 para o caso sem
regularizao est em torno de 0,1, ou seja, no h uma grande variao em 100-R2 na faixa
de de 0 a 1E-6. No entanto, os pesos da camada de sada so alterados em vrias ordens de
grandeza. Isto implica que o erro quadrtico de aproximao apresenta baixa sensibilidade a
modificaes na superfcie do modelo emprico. Dessa forma, pode-se concluir que a
utilizao somente do erro quadrtico de aproximao no fornece, em geral, uma funo

70

objetivo adequada para identificao de sistemas dinmicos. O problema deste critrio que
utiliza somente a informao puntual dos dados de treinamento, o que ocorre na vizinhana
destes pontos no levado em considerao porque a informao de vizinhanas est contida
nas derivadas.
A utilizao do erro quadrtico de aproximao conjuntamente com a norma dos pesos
gera uma funo objetivo de melhor desempenho do que apenas o primeiro critrio. Neste
caso, o conhecimento das derivadas dos pontos do grupo dados utilizado indiretamente, uma
vez que minimizando a norma do vetor de pesos estimados o mesmo ocorre com as derivadas
de segunda ordem da(s) sada(s) da rede em relao (s) entrada(s), conforme j demonstrado
na seo 6.5.

6.6.2 Identificao do Tanque de pH Utilizando uma Rede de Funes de


Escala
Como no caso da rede de base radial, os pesos da rede de funes de escala foram
avaliados pela tcnica de mnimos quadrados com regularizao pela norma dos pesos. Foram
utilizados dois nveis de funes de escala, totalizando 32+ 42= 25 funes de escala.
Na Figura 6-5 mostram-se os pesos da camada de sada, em valor absoluto, para alguns
valores do parmetro de regularizao. Os vetores de pesos foram ordenados em ordem
decrescente de valor absoluto.

Valor absoluto pesos

1,0E+00

1,0E-01

=0
=1,0E-1

1,0E-02

=1,0E-8
=1,0E-6
=1,0E-4

1,0E-03
1,0E-04
1

11
16
ndice dos pesos

21

Figura 6-5 - Valor absoluto dos pesos para alguns valores do parmetro de regularizao

71

Na Figura 6-5 pode-se observar que, no caso da rede de funes de escala, os valores dos
pesos variam muito pouco em funo do valor do parmetro de regularizao. A magnitude
do maior peso inferior a 1 em qualquer caso.

N condio

N condio mximo

1,0E+11

Nmero de condio

1,0E+10
1,0E+09
1,0E+08
1,0E+07
1,0E+06
1,0E+05
1,0E+04
1,0E+03
1,0E-11

1,0E-10

1,0E-09

1,0E-08

1,0E-07

1,0E-06

1,0E-05

1,0E-04

Parmetro de regularizao ()

Figura 6-6 - Influncia do parmetro de regularizao no nmero de condio da matriz de


covarincia (1 nvel de resoluo)

N condio

N condio mximo

1,0E+11

Nmero de condio

1,0E+10
1,0E+09
1,0E+08
1,0E+07
1,0E+06
1,0E+05
1,0E+04
1,0E+03
1,0E-11

1,0E-10

1,0E-09

1,0E-08

1,0E-07

1,0E-06

1,0E-05

1,0E-04

Parmetro de regularizao ()

Figura 6-7 - Influncia do parmetro de regularizao no nmero de condio da matriz de


covarincia (2 nvel de resoluo)

Nas Figuras 6.6 e 6.7 pode ser observada a evoluo do nmero de condio em funo do
parmetro de regularizao, para os dois nveis utilizados na identificao do tanque de pH.

72

Nestas figuras, o nmero de condio da matriz de covarincia, para os dois nveis de funes
de escala, variou pouco indicando que o maior e menor autovalores no sofreram mudanas
significativas. Dado que a contribuio do termo de regularizao definida de tal forma que
o maior autovalor da matriz de covarincia no sofra influncia e como o nmero de condio
no variou de forma significativa, ento o menor autovalor tambm no sofreu modificaes
significativas em todos os casos. Dessa forma, o maior e o menor autovalores esto mais
prximos quando se compara a rede de funes de escala com a de base radial, o que explica
o menor nmero de condio encontrados no primeiro caso.
Na Figura 6-8 mostra-se a evoluo do valor de 100-R2 em funo do valor do parmetro
de regularizao, para a rede de funes de escala. Como os pesos no sofreram mudanas
significativas com a utilizao da regularizao, o mesmo esperado para o valor 100-R2 em
funo do valor de .

0,14
0,12

100-R

0,10
0,08
0,06
0,04
0,02
0,00
1,0E-11

1,0E-10

1,0E-09

1,0E-08

1,0E-07

1,0E-06

1,0E-05

1,0E-04

Parmetro de regularizao ()

Figura 6-8 - Influncia do parmetro de regularizao no valor de 100-R2

Para os mesmos dados de entrada e sada, o nmero de condio da matriz de covarincia


da camada de sada foi da ordem 1E+17 para a rede de base radial e de 1E+4 para a rede de
funes de escala. A diferena de ordens de grandeza no nmero de condio pode ser
atribuda a que as redes de base radial so frames e a rede de funes de escala uma base
para um espao de funes. Um frame um aproximador composto de regressores que podem
ser linearmente correlacionados. Em uma base, os regressores devem ser, por definio,
linearmente independentes.

73

No caso da rede de base radial, a aproximao no pode ser melhorada significativamente


uma vez que os regressores so fortemente correlacionados. A utilizao de mais neurnios s
aumentar o nmero de condio da matriz de covarincia. Embora, a regularizao pela
norma dos pesos garanta a estabilidade numrica na estimao dos pesos, a utilizao desta
tcnica no diminuir o erro quadrtico de treinamento. Na verdade, h regressores em
excesso, ou seja, alguns neurnios poderiam ser eliminados. Para a rede de funes de escala,
ainda seria possvel adicionar mais nveis para melhorar a aproximao.

6.6.3 Identificao do Tanque de pH Utilizando uma Rede Neural Feedforward


As redes utilizadas nas sees 6.6.1 e 6.6.2, para a identificao do tanque de pH, podem
ser descritas por sries de regressores no-lineares. Este no o caso de uma rede
feedforward. No entanto, foram obtidos resultados semelhantes, em termos da influncia do

parmetro de regularizao, para a magnitude dos pesos e condicionamento da matriz de


covarincia da camada de sada.
Variando o valor do parmetro de regularizao entre 0 e 1E-4, forma calculados os pesos
da rede feedforward pela tcnica de GA + mnimos quadrados (Ver seo 5.4). A magnitude
dos coeficientes da camada intermediria, determinados pelo GA, foi limitada ao intervalo de
[-5;5], sendo que uma faixa maior de pesquisa resultava em um maior tempo computacional
para convergncia do mtodo e uma faixa menor implicava em uma limitao da capacidade
de aproximao no treinamento.
A matriz de covarincia, associada estimao dos pesos da camada de sada, resultante
da aplicao do mtodo de mnimos quadrados pode apresentar problemas de
condicionamento. Assim sendo, monitorou-se a magnitude dos pesos, condicionamento da
matriz de covarincia da camada de sada e erro de aproximao em funo do nmero de
pocas.
Variando o parmetro de regularizao, foram treinadas redes feedforward com 30
neurnios na camada intermediria at a convergncia. Em qualquer caso, utilizou-se
inicialmente a mesma populao. No entanto, aps algumas geraes, estas populaes devem
ser diferentes porque as estimativas para os pesos da camada de sada so alteradas. Estes
ltimos tambm influenciam a funo objetivo e, portanto, alteram o comportamento da
convergncia do mtodo.

74

A funo de ativao utilizada na camada intermediria foi a tangente hiperblica e


considerou-se a camada de sada linear.
Na Figura 6-9 mostram-se os pesos da camada de sada, em valor absoluto, para a rede
feedforward correspondente ao melhor indivduo da ltima gerao, variando o parmetro de

regularizao. Os pesos foram ordenados em ordem decrescente de valor absoluto.

1,0E+03
Valor absoluto pesos

1,0E+02
=0

1,0E+01

=1,0E-1

1,0E+00

=1,0E-8
=1,0E-6

1,0E-01

=1,0E-4

1,0E-02
1,0E-03
1

11

16
ndice dos pesos

21

26

Figura 6-9 - Valor absoluto dos pesos para alguns valores do parmetro de regularizao ()

Norma do vetor de pesos

100,0

10,0

1,0

0,1
1,0E-10

1,0E-09

1,0E-08

1,0E-07

1,0E-06

1,0E-05

1,0E-04

Parmetro de regularizao ()

Figura 6-10 - Norma do vetor de pesos da camada de sadax valor do parmetro de


regularizao ()

Na Figura 6-9 pode-se observar que o aumento do valor do parmetro de regularizao


tende a produzir uma queda no valor absoluto dos pesos. Na verdade, a norma quadrtica do
vetor de pesos que sempre decresce porque minimizada na funo objetivo de treinamento

75

da rede (Ver Figura 6-10). Embora no possa ser mostrado nesta ltima, em funo da escala
logartmica para a abscissa, o valor da norma dos coeficientes para o caso =0 fica em torno
de 700.
Na Figura 6-11 mostra-se a evoluo do nmero de condio para alguns valores do
parmetro de regularizao, no caso da rede feedforward correspondente ao melhor indivduo
da cada gerao. O valor da abscissa mostrado em pocas sendo igual ao nmero de
avaliaes da funo objetivo. A cada gerao do GA foram efetuadas 30 avaliaes de

Nmero de condio

funo objetivo (a populao considerada foi de 30 indivduos).

1,0E+14
1,0E+13
1,0E+12
1,0E+11
1,0E+10
1,0E+09
1,0E+08
1,0E+07
1,0E+06
1,0E+05
1,0E+04
1,0E+03

=0
=1,0E-1
=1,0E-8
=1,0E-6
=1,0E-4

200

400

600
800
1000
Nmero de pocas

1200

1400

1600

Figura 6-11 - Nmero de condio da matriz de covarincia para alguns valores do parmetro
de regularizao ()

Nota-se na Figura 6-11 que o aumento do parmetro de regularizao, para uma dada
poca, diminui o nmero de condio da matriz de covarincia, conforme esperado. Para o
caso =0, o nmero de condio aumenta em funo do nmero de pocas, ou seja, as sadas
dos neurnios da camada intermediria ficam cada vez mais correlacionadas medida que o
treinamento avana. Como resultado, os coeficientes da camada de sada podem atingir
algumas ordens de grandeza.
Redes do tipo feedforward so frames, tais como as redes de base radial, o que explica o
valor extremamente alto do nmero de condio, no caso sem regularizao.
Na Figura 6-12 pode-se observar a evoluo do valor de 100-R2 em funo do nmero de
pocas. Claramente, o resultado obtido para =1E-4 insatisfatrio causando um aumento
excessivo do erro de aproximao. Este comportamento tambm ocorreu com a rede de base
radial descrita na seo 6.6.1, cuja matriz de covarincia sem regularizao tambm era

76

extremamente mal condicionada. Para os outros valores de parmetro de regularizao, no


verdade que o aumento desse sempre resulte em um acrscimo do erro de aproximao. Esta
foi a nica diferena quando se compara os resultados obtidos com a rede de base radial e a
feedforward para identificao do tanque de pH.

1,0E-01

100-R

=0
=1,0E-1

1,0E-02

=1,0E-8
=1,0E-6
=1,0E-4
1,0E-03
0

200

400

600
800
1000
Nmero de pocas

1200

1400

1600

Figura 6-12 - 100-R2 x nmero de pocas para alguns valores do parmetro de regularizao ()

6.7 CONCLUSES
Problemas numricos na estimao dos coeficientes de um modelo emprico podem ser
minimizados se a funo objetivo contiver, alm do erro quadrtico de aproximao, um
termo que penalize a norma quadrtica do vetor de coeficientes.
Um regularizador que penalize as curvaturas da superfcie de um modelo pode ser obtido a
partir do conhecimento das derivadas de segunda ordem desse, se estas estiverem definidas.
Na prtica, o clculo do regularizador descrito, mesmo que possvel, bastante complexo e
custoso computacionalmente.
A minimizao da norma dos coeficientes de um modelo emprico tambm minimiza as
derivadas de segunda ordem da(s) sada(s) desse em relao s variveis de entrada, o que
implica em limitar as curvaturas da superfcie de previso do modelo.
Para um modelo emprico, o compromisso entre aproximar os dados, que corresponde
minimizao do erro quadrtico de aproximao na funo objetivo para estimao dos
coeficientes, e eliminar excessivas curvaturas da superfcie do modelo, que corresponde ao

77

termo que minimiza a norma do vetor de coeficientes, impe restries no valor do parmetro
de regularizao, ou seja, o fator que multiplica esse ltimo termo.
O aumento do fator de penalizao da norma dos coeficientes de um modelo emprico, na
funo objetivo de treinamento, implica na minimizao das curvaturas da superfcie de
previso do modelo, no entanto, ocorre um acrscimo do valor do erro quadrtico de
aproximao.
Redes de base radial e do tipo feedforward so frames e a rede de funes de escala uma
base para um espao de funes. A estimao dos coeficientes no ltimo caso menos
suscetvel a problemas numricos, uma vez que as funes de uma base so, por definio,
linearmente independentes. Esta caracterstica no , em geral, verdadeira no caso de um
frame.

Para modelos empricos que no so lineares nos parmetros, como o caso da rede
feedforward, mostrou-se que a utilizao da regularizao pela norma dos pesos produz

resultados semelhantes aos observados no caso de modelos lineares nos parmetros, tais como
as redes de funes de escala e de base radial.

78

COMPARAO DE DESEMPENHO DE ARQUITETURAS DE


REDES NEURAIS
O desempenho de redes feedforward, de base radial e a de funes de escala proposta foi

avaliado em relao previso do comportamento de trs sistemas dinmicos: Um reator


biolgico, um atrator catico e o tanque de pH descrito na seo 5.5.
Aps as redes terem sido treinadas, ordenaram-se os pesos da camada de sada de cada
uma delas, em termos de importncia na reduo do erro de aproximao, utilizando a tcnica
de mnimos quadrados ortogonais KORENBERG et. al.(1992). Com estas informaes foram
levantadas curvas do erro de aproximao de treinamento em funo do nmero de
parmetros ajustveis da camada de sada. O desempenho de previso das redes tambm foi
avaliado para um grupo de dados de teste.
As funes de ativao utilizadas nas redes de base radial e feedforward foram as descritas
no captulo 6.

7.1 Identificao do Atrator Catico


O atrator catico descrito pelo mapeamento quadrtico (equao logstica):
y (k + 1) = y (k )[1 y (k )]

(7.1)

que oscilatrio para 3,7 e apresenta comportamento catico para > 3,7
BAKSHI e STEPHANOPOULOS(1993) (Ver Figura 7-1).

Comportamento oscilatrio ( =3,5)

0,8

0,8

0,6

0,6

0,4

0,4

0,2

0,2

0,0

0,0
1

11

21
31
amostra

(a)

41

Comportamento catico ( =3,9)

1,0

y(k)

y(k)

1,0

11

21
31
amostra

41

(b)

Figura 7-1 - (a) Comportamento oscilatrio (= 3,5); (b) Comportamento catico (= 3,9)

79

A equao logstica representa a dinmica de um sistema biolgico simples. A populao


no tempo futuro y(k+1) proporcional populao no instante k, y(k), e aos recursos disponveis
no mesmo instante, descrito de forma simplificada por [1-y(k)]. Dessa forma, a equao
logstica relevante no estudo de sistemas bioqumicos.
Para incorporar uma entrada externa sem alterar as caractersticas principais do sistema, o
parmetro foi alterado e, portanto, tem-se = (k).
O objetivo estabelecido foi prever a populao futura y(k+1), conhecendo-se o valor atual
dessa y(k) e da varivel de perturbao (k). Neste caso, a rede tem duas entradas e uma sada.
Para obteno dos dados de treinamento calculou-se recursivamente a sada da equao
logstica para 400 pontos. Os 200 primeiros foram utilizados para treinamento e o restante foi
utilizado para o teste. O parmetro foi alterado a cada iterao, tomando um valor aleatrio
entre 3,5 e 4, o que faz o sistema entrar e sair do caos.
As redes de base radial, do tipo feedforward e de funes de escala foram comparadas
com relao ao erro de aproximao de treinamento, ao critrio de Akaike e ao erro de
aproximao para um grupo de dados de teste, na identificao do atrator catico.
O critrio para determinao da estrutura das redes utilizado foi baseado no desempenho
da rede de funes de escala. Uma vez definido o nmero de parmetros ajustveis por
treinamento para esta rede, foram utilizadas redes de base radial e do tipo feedforward com o
mesmo nmero de parmetros ajustveis.
O nmero de parmetros ajustveis da rede de funes de escala, que igual ao nmero de
neurnios da rede e pesos da camada de sada, foi obtido considerando a resoluo em que o
erro de treinamento era pequeno e no mais variasse de forma significativa. Dessa forma, a
quantidade de parmetros ajustveis igual ao somatrio do nmero de neurnios contidos
em cada resoluo utilizada.
Conforme o critrio estabelecido, o nmero de centros para uma rede de base radial igual
ao nmero de neurnios da rede de funes de escala, uma vez que cada centro est conectado
a um parmetro ajustvel, ou seja, um peso da camada de sada.
Para a rede feedforward, o nmero de neurnios da camada intermediria foi definido de
forma que o nmero total de parmetros ajustveis entre uma sada e suas entradas seja igual,
ou o mais prximo possvel, do nmero de parmetros ajustveis utilizado no caso da rede de
funes de escala. Dessa forma, considera-se tanto os pesos da camada de sada quanto os da
camada intermediria.

80

Na Tabela 7.1 mostra-se a estrutura de cada rede para 25 parmetros ajustveis. Este
nmero de parmetros corresponde a uma rede de funes de escala com dois nveis de
resoluo.

Tabela 7.1 - Estrutura das redes utilizadas na identificao do atrator catico


Rede de funes de escala
N de neurnios = 25
N de nveis = 2
N de parmetros ajustveis = 25
Rede de base radial
N de centros = 25
N de parmetros ajustveis = 25
Rede feedforward
N de neurnios da camada intermediria = NIntm = 6
N de parmetros ajustveis (camada intermediria) = NIntm x (N entradas + 1(*)) = 18
N de parmetros ajustveis (camada sada)= NIntm + 1 = 7 (*)
N total de parmetros ajustveis = 25
(*) Inclui bias

Na Figura 7-2 mostra-se a variao do valor de 100-R2 para as redes testadas em funo
do nmero de parmetros ajustveis. Para as redes de base radial e de funes de escala, cada
parmetro ajustvel corresponde ao peso de um neurnio. Considerando estas redes, a Figura
7-2 pode ser interpretada da seguinte forma: para um determinado nmero N (N=1,.. 25, o
nmero total de parmetros ajustveis) calculou-se o valor de 100-R2 da rede formada com
apenas os N neurnios mais importantes, em termos da minimizao do erro de aproximao.
Os N neurnios mais importantes foram determinados atravs da tcnica de mnimos
quadrados ortogonais. Variando N de 1 a 25, gerou-se as curvas das redes de base radial e de
funes de escala mostradas na Figura 7-2.
No caso da rede feedforward, a interpretao da Figura 7-2 pode ser feita de forma
semelhante: para um determinado nmero N (N=1,.. 7, o nmero de neurnios da camada
intermediria mais o bias de sada) calculou-se o valor de 100-R2 da rede formada apenas dos
pesos conectados aos N aproximadores mais importantes (que podem ser neurnios da
camada intermediria ou o bias da sada) na minimizao do erro quadrtico de treinamento.
Os N aproximadores mais importantes foram determinados atravs da tcnica de mnimos

81

quadrados ortogonais, uma vez que a camada de sada linear nos parmetros. Variando N de
1 a 7 gerou-se a curva da rede feedforward mostrada na Figura 7-2.
Deve-se notar que a incorporao de um neurnio na camada intermediria da rede
feeforward equivale ao crescimento da rede em um nmero de parmetros ajustveis igual ao

nmero total de pesos conectados a esse.

F. escala(trn)

B. radial (trn)

Feed. (trn)

1,0E+02
1,0E+01
1,0E+00
100-R

1,0E-01
1,0E-02
1,0E-03
1,0E-04

10 nvel

1,0E-05

20 nvel

1,0E-06
1,0E-07
1

9
13
17
Nmero de parmetros ajustveis

21

25

Figura 7-2 - O valor de 100-R2 em funo do nmero de parmetros ajustveis para as redes
testadas (treinamento)

Na Figura 7-2 pode-se observar que foi obtido o pior resultado, em termos de erro de
aproximao, com a rede de base radial. Para este modelo, o valor de 100-R2, diminui
significativamente at 5 neurnios. No caso da rede de feedforward, obtm-se um melhor
desempenho se considerada a parte final da curva de 100-R2, sendo que pela tendncia dessa
curva possvel concluir que adicionando mais neurnios na camada intermediria, o erro de
aproximao ainda pode ser diminudo. Para a rede de funes de escala duas caractersticas
podem ser destacadas: O valor muito pequeno de 100-R2, quando se compara esse aos outros
tipos de modelos, e a inflexo da curva de 100-R2 para 9 neurnios, correspondente ao
primeiro nvel de resoluo.
A rede de funes de escala uma base para um espao de funes e as caractersticas
descritas indicam que o atrator catico pertence, ou seja, um elemento do subespao gerado
pelo primeiro nvel de resoluo da rede proposta neste trabalho.

82

Para validao de modelos vrios critrios podem ser utilizados, tais como: Critrios
estatsticos, curvas de correlao, previso utilizando outro grupo de dados diferente do de
treinamento (validao cruzada). Neste captulo foram adotados como mtodos de
comparao e validao de modelos, o critrio de Akaike (AIC) e a validao cruzada.
O critrio de Akaike dado pela seguinte equao:
N 2
E (k )
+ 4 N
AIC = N ln k =1
N

onde
N: nmero de pontos do grupo de dados;
E(k): erro associado ao k-simo padro;
N: nmero de parmetros;

O critrio de Akaike constitudo de dois termos. Um associado ao erro mdio quadrtico


de aproximao, sendo que diminuindo o valor desse ltimo diminuir o valor do critrio. O
outro relacionado ao nmero de parmetros do modelo e cujo valor diminui com o
decrscimo do nmero de parmetros. Segundo o critrio de Akaike, quando dois modelos so
comparados, o melhor aquele que tiver o menor valor nesse ndice desempenho.
O critrio de Akaike pode ser utilizado para comparar modelos com a mesma estrutura,
mas com um nmero diferente de parmetros e, portanto, pode ser aplicado para determinar o
nmero timo de parmetros.
O critrio de Akaike tambm pode ser utilizado para comparar modelos com estruturas
diferentes como o feito neste trabalho, em que o desempenho das redes de base radial, de
funes de escala e feedforward foi avaliado. A comparao foi efetuada considerando o
melhor modelo de cada estrutura, ou seja, aquele que obteve o menor valor de AIC. Na Figura
7-3 mostra-se a variao do valor do AIC em funo do nmero de parmetros ajustveis das
redes testadas.

83

F. escala(trn)

B. radial (trn)

Feed. (trn)

-1000

AIC

-2000
-3000
10 nvel

-4000

20 nvel

-5000
1

9
13
17
Nmero de parmetros ajustveis

21

25

Figura 7-3 - Valor de AIC em funo do nmero de parmetros ajustveis para as redes testadas

Analisando a Figura 7-3, pode-se concluir que a rede feedforward um melhor modelo
que a de base radial, quando se compara o menor valor das curvas de AIC, e a rede de funes
de escala muito melhor que ambas.
Na Figura 7-4 mostra-se o valor de 100-R2 para o grupo de dados de teste em funo do
nmero de parmetros ajustveis. Este teste tem por objetivo verificar a capacidade de
generalizao das redes descritas, uma vez que os dados so diferentes dos utilizados no
treinamento e, conseqentemente, no influenciaram no clculo dos pesos. Pode-se observar
que a rede de funes de escala muito melhor que as redes feedforward e de base radial, o
que est de acordo com o critrio de Akaike. Outra caracterstica importante que, para todos
os modelos, aumentando o nmero de parmetros, o valor de 100-R2, em geral, diminui.
Dessa forma, pode-se concluir que foi evitado o problema de sobre-ajuste pelo excesso do
nmero de funes. No caso da rede feedforward, utilizou-se a metodologia de GA + mnimos
quadrados para treinamento, sendo que essa foi finalizada quando 100-R2 no mais se alterou.
Assim sendo, foi evitado o sobre-treinamento por excesso de pocas. Dessa forma, pode-se
concluir que a penalizao da norma do vetor de pesos, adicionada ao erro quadrtico de
aproximao, resultou na minimizao de excessivas curvaturas das superfcies dos modelos
utilizados na identificao do atrator catico.

84

F. escala(tst)

B. radial (tst)

Feed. (tst)

1,0E+02
1,0E+01
1,0E+00

100-R

1,0E-01
1,0E-02
1,0E-03
1,0E-04

10 nvel

1,0E-05

20 nvel

1,0E-06
1,0E-07
1

9
13
17
Nmero de parmetros ajustveis

21

25

Figura 7-4 - O valor de 100-R2 em funo do nmero de parmetros ajustveis para as redes
testadas (Teste)

7.2 Identificao do Reator Biolgico


O processo a ser identificado um reator biolgico em que as clulas sofrem inibio pelo
aumento da concentrao de produto. O modelo do reator biolgico apresenta
no-linearidades de ganho e pode ser representado atravs de um sistema de trs equaes
diferenciais:
.

x = dx + x
1

s = d (s f s)

yx/ s

p = dp + ( + ) x

m 1 p p s
m
=
2
km + s + s

ki

onde
d - vazo de alimentao do reator biolgico (varivel de perturbao);
sf - concentrao de substrato na alimentao;

85

p, x, s - Concentrao de produto, clulas e substrato, respectivamente;


, m - taxa especfica de crescimento instantnea e mxima, respectivamente;

yx/s - rendimento em clulas/substrato consumido;


e - parmetros cinticos;

pm, km - constante de saturao do produto e substrato, respectivamente;


ki - constante de inibio do substrato.
Estas equaes, assim como os valores dos parmetros (Ver tabela Tabela 7.2), foram
extrados do trabalho de HENSON e SEBORG,(1991).

Tabela 7.2 - Parmetros do reator biolgico


Parmetros:

yx/s = 0,4 g/g;


=2,2 g/g;
= 0,2 h-1;
m= 0,48 h-1;
pm= 50 g/l;
km=1,2 g/l;
ki =22 g/l;
sf =20 g/l;
d - (varivel de perturbao).
Estado estacionrio: (d = 0,202 g/l)

x =6,0 g/l s =5,0 g/l p = 19,14 g/l.

As variveis de estado correspondem concentrao de substrato, de clulas e de produto.


A varivel de perturbao utilizada foi a vazo de alimentao do reator (d). As perturbaes
de entrada foram pulsos aleatrios com amplitude mxima de 20 % em torno do estado
estacionrio d = 0,202 l/h e largura de 6 intervalos de amostragem. (Ver Figura 7-5). Em um
estudo prvio foi verificado que pulsos de largura constante eram suficientes para
identificao do sistema.
O objetivo estabelecido foi prever o valor futuro (um passo frente) das variveis de
estado, o que implica em trs sadas. Em um estudo prvio determinou-se que apenas os
valores atuais dos estados e da varivel de perturbao eram suficientes para identificar o
reator biolgico. Dessa forma, as redes comparadas foram compostas por quatro entradas. Nas

86

Figuras 7.6 a 7.8 mostra-se o comportamento do processo para as perturbaes aplicadas a

Vazo de alimentao (l/h)

esse.

0,24
0,22
0,20
0,18
0,16
1

51

101

151

201
amostra

251

301

351

Concentrao de clulas (g/l)

Figura 7-5 - Perturbaes aplicadas na vazo de alimentao

6,9
6,4
5,9
5,4
4,9
4,4
1

51

101

151

201
amostra

251

301

351

Conc. de substrato (g/l)

Figura 7-6 - Concentrao de clulas

8,0

6,0
4,0

2,0
1

51

101

151

201
amostra

251

301

Figura 7-7 - Concentrao de substrato

351

Concentrao de produto (g/l)

87

24,0
22,0
20,0
18,0
16,0
14,0
1

51

101

151

201
amostra

251

301

351

Figura 7-8 - Concentrao de produto

Alm de o reator biolgico apresentar no-linearidade de ganho, h outra dificuldade para


sua identificao: As concentraes de clulas e de produto so fortemente correlacionadas.
Para avaliar o desempenho do modelo obtido, gerou-se um grupo dados de teste e efetuou-se a
validao. As perturbaes aplicadas na vazo de alimentao d foram pulsos aleatrios com
amplitude mxima de 10% em torno do estado estacionrio (d = 0,202 l/h) e largura de 40
intervalos de amostragem. Na Figura 7-9 mostram-se as perturbaes aplicadas na vazo de

Vazo de alimentao (l/h)

alimentao.

0,24
0,22
0,20
0,18
0,16
1

51

101

151

201
amostra

251

301

351

Figura 7-9 - Perturbaes aplicadas na vazo de alimentao

Nas Figuras 7.10 a 7.12 mostram-se as sadas do grupo de dados de teste.

Concentrao de clulas (g/l)

88

6,9
6,4
5,9
5,4
4,9
4,4
1

51

101

151

201
amostra

251

301

351

Conc. de substrato (g/l)

Figura 7-10 - Dados da sada (concentrao de clulas)

8,0

6,0
4,0

2,0
1

51

101

151

201
amostra

251

301

351

Concentrao de produto (g/l)

Figura 7-11 - Dados da sada (concentrao de substrato)

24,0
22,0
20,0
18,0
16,0
14,0
1

51

101

151

201
amostra

251

301

351

Figura 7-12 - Dados da sada (concentrao de produto)

89

Na Tabela 7.3 pode-se observar a estrutura das redes de funes de escala, feedforward e
de base radial utilizadas na identificao do reator biolgico. Foi considerado, na
determinao do nmero de parmetros ajustveis, o critrio de identificao baseado na rede
de funes de escala.

Tabela 7.3 - Estrutura das redes utilizadas na identificao do reator biolgico


Rede de funes de escala

N de neurnios = 81
N de nveis = 1
N de parmetros ajustveis = 81
Rede de base radial

N de centros = 81
N de parmetros ajustveis = 81
Rede feedforward

N de neurnios da camada intermediria = Nesc = 13


N de parmetros ajustveis (camada intermediria) = Nesc x (N entradas + 1) = 65 (*)
N de parmetros ajustveis (camada sada)= Nesc + 1 = 14 (*)
N total de parmetros ajustveis = 79 (**)
(*) Inclui bias ;
(**)Rede feedforward cujo nmero de parmetros ajustveis mais se aproxima de 81.

Nas Figuras 7.13 e 7.15 mostra-se a variao do valor de 100-R2 em funo do nmero de
parmetros ajustveis das redes, considerando o treinamento e o teste respectivamente. Na
Figura 7-14 mostra-se a variao do valor de AIC em funo do nmero de parmetros
ajustveis das redes testadas.

90

F. escala(trn)

B. radial(trn)

Feed. (trn)

1,0E+01
1,0E+00

100-R

1,0E-01
1,0E-02
1,0E-03
1,0E-04
1,0E-05
1,0E-06
1,0E-07
1

11

21

31

41
(a)

51

61

71

81

11

21

31

41
(b)

51

61

71

81

11

21
31
41
51
61
Nmero de parmetros ajustveis - (c)

71

81

1,0E+01
1,0E+00

100-R

1,0E-01
1,0E-02
1,0E-03
1,0E-04
1,0E-05
1,0E-06
1,0E-07

1,0E+01
1,0E+00
1,0E-01

100-R

1,0E-02
1,0E-03
1,0E-04
1,0E-05
1,0E-06
1,0E-07

Figura 7-13 - O valor de 100-R2 x nmero de parmetros ajustveis das redes (treinamento)
(a) concentrao de clulas; (b) concentrao de substrato; (c) concentrao de produto

91

AIC

F. escala(trn)

B. radial(trn)

Feed. (trn)

-1,0E+03
-2,0E+03
-3,0E+03
-4,0E+03
-5,0E+03
-6,0E+03
-7,0E+03
-8,0E+03
-9,0E+03
-1,0E+04
0

10

20

30

40

50

60

70

80

90

50

60

70

80

90

30
40
50
60
70
Nmero de parmetros ajustveis - (c)

80

90

(a)
-1,0E+03

AIC

-2,0E+03
-3,0E+03
-4,0E+03
-5,0E+03
-6,0E+03
-7,0E+03
-8,0E+03
-9,0E+03
-1,0E+04
0

10

20

30

40
(b)

-1,0E+03

AIC

-2,0E+03
-3,0E+03
-4,0E+03
-5,0E+03
-6,0E+03
-7,0E+03
-8,0E+03
-9,0E+03
-1,0E+04
0

10

20

Figura 7-14 - O valor de AIC x nmero de parmetros ajustveis das redes (treinamento)
(a) concentrao de clulas; (b) concentrao de substrato; (c) concentrao de produto

92

F. escala(tst)

B. radial(tst)

Feed. (tst)

1,0E+01
1,0E+00

100-R

1,0E-01
1,0E-02
1,0E-03
1,0E-04
1,0E-05
1,0E-06
1,0E-07
1

11

21

31

41
(a)

51

61

71

81

11

21

31

41
(b)

51

61

71

81

11

21
31
41
51
61
Nmero de parmetros ajustveis - (c)

71

81

1,0E+01
1,0E+00

100-R

1,0E-01
1,0E-02
1,0E-03
1,0E-04
1,0E-05
1,0E-06
1,0E-07

1,0E+01
1,0E+00
1,0E-01
100-R

1,0E-02
1,0E-03
1,0E-04
1,0E-05
1,0E-06
1,0E-07

Figura 7-15 - O valor de 100-R2 x nmero de parmetros ajustveis das redes (teste)
(a) concentrao de clulas; (b) concentrao de substrato; (c) concentrao de produto

93

Analisando as Figuras 7.13 a 7.15 podem-se obter concluses bastante semelhantes s do


atrator catico. Foram obtidos os piores resultados para todas as sadas, em termos de erro de
aproximao de treinamento, teste e do critrio de Akaike, com a rede de base radial. No caso
da rede de feedforward, obtm-se um melhor desempenho, quando se compara com a de base
radial. Pela tendncia das curvas, possvel concluir que o desempenho da primeira pode ser
melhorado adicionando mais neurnios na camada intermediria. Para a rede de funes de
escala podem-se destacar os baixos valores do erro de aproximao de treinamento e de teste,
quando compara esse aos outros tipos de modelos. Em termos do critrio de Akaike, a rede de
funes de escala tambm foi bastante superior. Pode-se observar que no caso deste modelo
houve uma inflexo, para todos os critrios, em torno de 40 neurnios.
A rede de funes de escala uma base para um espao de funes e as caractersticas
descritas indicam que o modelo do reator biolgico, na faixa dos dados utilizados, pertence ao
espao gerado pelo primeiro nvel de resoluo, tal como o atrator catico. Assim sendo, a
proposta deste trabalho de comear a multiresoluo com um pequeno nmero de funes de
escala foi vlida em funo dos bons resultados obtidos, em termos de identificao, para os
sistemas testados.
Na Figura 7-15 pode-se observar que, para todas as redes neurais, aumentando o nmero
de parmetros (pesos), determinados a partir do grupo de dados de treinamento, h uma
tendncia para que o valor de 100-R2 , correspondente ao grupo de dados de teste, em geral
diminua. Dessa forma, a regularizao pela norma dos pesos garantiu a capacidade de
generalizao dos modelos obtidos mesmo havendo forte correlao entre as variveis de
entrada.

7.3 Identificao do Tanque de pH


O processo identificado foi o tanque de pH descrito na seo 5.3. Como grupo de dados de
treinamento foram utilizados os primeiros 800 pontos correspondentes s Figuras 5.1 e 5.2 e
para o teste os dados restantes.
Na
Tabela 7.4 mostra-se a estrutura de cada rede, considerando o critrio de identificao
baseado na rede de funes de escala para determinar o nmero de parmetros ajustveis.

94

Foram utilizados 3 nveis de resoluo na identificao do tanque de pH no caso da rede de


funes de escala.
Tabela 7.4 - Estrutura das redes utilizadas na identificao do tanque de pH
Rede de funes de escala

N de neurnios = 61
N de nveis = 3
N de parmetros ajustveis = 61
Rede de base radial

N de centros = 61
N de parmetros ajustveis = 61
Rede feedforward

N de neurnios da camada intermediria= Nesc = 15


N de parmetros ajustveis (camada intermediria) = Nesc x (N entradas + 1) = 45 (*)
N de parmetros ajustveis (camada sada)= Nesc + 1 = 16 (*)
N total de parmetros ajustveis = 61
(*) Inclui bias

Nas Figuras 7.16 e 7.18 mostra-se a variao do valor de 100-R2 em funo do nmero de
parmetros ajustveis das redes comparadas, considerando o treinamento e o teste
respectivamente. Na Figura 7-17 mostra-se a variao do valor de AIC em funo do nmero
de parmetros ajustveis das redes.

F. escala(trn)

B. radial (trn)

Feed. (trn)

100,00

100-R

10,00
1,00
0,10
0,01
0

10

20
30
40
Nmero de parmetros ajustveis

50

60

Figura 7-16 - 100-R2 x nmero de parmetros ajustveis (treinamento)

95

F. escala(trn)

B. radial (trn)

Feed. (trn)

0
-1000

AIC

-2000
-3000
-4000
-5000
-6000
0

10

20
30
40
Nmero de parmetros ajustveis

50

60

Figura 7-17 - AIC x nmero de parmetros ajustveis (treinamento)

F. escala(tst)

B. radial (tst)

Feed. (tst)

100,00

100-R

10,00
1,00
0,10
0,01
0

10

20
30
40
Nmero de parmetros ajustveis

50

60

Figura 7-18 - 100-R2 x nmero de parmetros ajustveis (teste)

Analisando as Figuras 7.16 a 7.18, pode ser observado que resultados to bons, como os
conseguidos com os outros sistemas dinmicos testados, nem sempre so obtidos com a rede
de funes de escala. Na identificao do tanque de pH no foi atingido um valor de 100-R2
to pequeno quanto no caso do atrator catico e do reator biolgico. Tambm no foram
observadas inflexes to marcantes nas curvas de erro de aproximao de treinamento, teste e
do critrio de Akaike como apresentadas para os outros processos.

96

Para identificar o comportamento do tanque de pH, um modelo deve identificar tanto o


comportamento dinmico quanto o estacionrio, sendo que esse ltimo semelhante a uma
tangente hiperblica (curva de titulao). Pode-se concluir que para este tipo particular de
no-linearidade, a rede de funes de escala necessita de um nmero maior de nveis de
aproximao. Mesmo assim, a rede feedforward, que composta de neurnios cujas funes
de ativao so tangentes hiperblicas, no obteve desempenho superior ao da rede de
funes de escala em termos dos critrios de validao. (Ver Figuras 7.16 a 7.18).
A rede de funes de escala caracterizada pela soma e produtrio de funes quadrticas
unidimensionais. Para muitos processos, o(s) estado(s) e/ou sada(s) podem ser descritos por
tais aproximadores, o que explica o bom desempenho obtido para o atrator catico e o reator
biolgico. Isto no ocorre no caso do tanque de pH, uma vez que o pH obtido da soluo de
uma equao transcendental e no-linear em relao aos estados.
Em termos de capacidade de generalizao das redes neurais, as concluses obtidas para o
atrator catico e o reator biolgico tambm so vlidas para o tanque de pH.

7.4 Concluses
Na identificao dos sistemas dinmicos atrator catico e reator biolgico pode-se
concluir que os piores resultados, em termos de erro de aproximao de treinamento, teste e
do critrio de Akaike, foram obtidos com a rede de base radial. No caso da rede feedforward,
obteve-se um melhor desempenho quando se compara essa com a de base radial. Para a rede
de funes de escala, pode-se destacar, em comparao com os outros modelos, os baixos
valores do erro de aproximao de treinamento e de teste. Em termos do critrio de Akaike, a
rede de funes de escala tambm foi bastante superior.
Para alguns tipos particulares de no-linearidade, tal como a existente no comportamento
de um tanque de pH, um maior nmero de nveis de resoluo pode ser necessrio para
correta identificao do sistema.
No caso da rede de funes de escala, que uma base para um espao de funes, a
presena de inflexes marcantes nas curvas do erro de aproximao de treinamento, teste e do
critrio de Akaike de sistemas dinmicos indica que esses esto contidos nos subespaos
gerados pelos diferentes nveis de resoluo.

97

O atrator catico e reator biolgico pertencem ao subespao gerado pelo primeiro nvel de
resoluo da rede de funes de escala proposta.
O aumento do nmero de neurnios faz decrescer o erro de aproximao de treinamento,
como esperado, sendo que, em geral, o mesmo ocorreu no caso do grupo de dados de teste.
Dessa forma, a regularizao pela norma dos pesos garantiu a capacidade de generalizao
das redes de base radial, feedforward e funes de escala.

98

PREDIO PARA HORIZONTE DE LONGO ALCANCE DO


COMPORTAMENTO DE SISTEMAS DINMICOS
Na avaliao da capacidade de previso de um passo frente de modelos empricos, so

utilizados os valores atuais e passados das sadas do processo para prever as sadas da planta
no prximo intervalo de amostragem, ou seja, um passo frente. Um mtodo de validao de
modelos mais exigente do que o descrito a simulao do comportamento do processo. Neste
ltimo, utiliza-se o(s) primeiro(s) ponto(s) do grupo de dados de validao como condio
inicial para a rede. Para os demais pontos, utiliza-se apenas os dados das variveis de
perturbao como informao externa e faz-se a realimentao das sadas da rede.
Neste trabalho, o desempenho da rede de funes de escala foi avaliado utilizando essa
como simulador de dois sistemas dinmicos reconhecidos como benchmarks de identificao
e controle no-linear: um CSTR encamisado que apresenta multiplicidade de estados
estacionrios e um reator que apresenta resposta inversa varivel.

8.1 CSTR Encamisado


O processo a ser identificado uma reao qumica exotrmica do tipo A B de primeira
ordem, ocorrendo em um CSTR com camisa de resfriamento. Este processo apresenta dois
estados estacionrios estveis e um instvel. O modelo matemtico rigoroso do CSTR
encamisado foi apresentado na literatura de diversas formas, sendo adotado neste trabalho o
modelo utilizado por EMBIRUU(1993). O modelo do CSTR pode ser representado atravs
de um sistema de trs equaes diferenciais que descrevem a evoluo dos estados
(concentrao de reagente no reator, temperatura no reator e na camisa) e uma equao
algbrica no-linear relacionando a constante da reao de primeira ordem com a temperatura
no reator:
dx1
= k x1 + q ( x1 f x1 )
d

dx 2
= k x1 (q + ) x 2 + x3 + q x 2 f
d
dx3 qc ( x3 f x3 ) ( x2 x3 )
=
+
d
1
1 2

99

x2

k = exp

1 + x 2 /

O processo descrito nas variveis adimensionais:

H C f

C p T f 0

x3 =

(Tc T f 0 )
Tf 0

(T T f 0 )

x2 =

Tf 0

V k 0 exp( )
Q0

UA
C p Q0

E
R Tf 0
(T f T f 0 )

Q0 t
V

x 2f =

Vc
V

x1 =

C
C fo

x 1f =

Cf
Cf0

1 =
2 =

c C pc

x 3f =

Cp
(Tcf T f 0 )
Tf 0

q=

Tf 0

Q
Q0

A carga trmica definida como: m = q .x2f

H - Calor de reao;

C - Composio no reator;
Cf - Composio de alimentao;
Cf0 - Composio de referncia de alimentao;
-Densidade do meio racional;
c - Densidade do fluido refrigerante;

Cp -Capacidade calorfica do meio reacional;


Cpc - Capacidade calorfica do fluido refrigerante;
T - Temperatura do reator;
Tf -Temperatura de alimentao do reator;
Tc -Temperatura do fluido refrigerante;

x2f =m/q, sendo que:

100

Tc0-Temperatura de alimentao do fluido refrigerante


E -Energia de ativao;
R - Constante universal dos gases;
U - Coeficiente global de troca trmica;
A - rea de troca trmica;
V - Volume do reator;
Vc -Volume da camisa;
k0 -Fator de Freqncia;
Q -Fluxo de Alimentao;
Q0 -Fluxo de Alimentao de referncia.
Os valores numricos utilizados podem ser vistos na tabela Tabela 8.1:

Tabela 8.1 - Parmetros do CSTR encamisado


Parmetros

= 8,0;
x1f = 1,0;
= 0,072;
m = 0,2;
= 0,3;
q = 1,0;
= 20,0;
x3 = 0;
1= 0,1;
2= 0,5;
x3f = -1,0;
qc = 1,65102;
d - (varivel de perturbao).
Estados estacionrios estveis (d = 1.0)

1) (x1= 0,8933, x2= 0,5193, x3 = -0,5950)


2) (x1= 0,1890, x2= 5,1373, x3 = -0,6359

As variveis de estado correspondem concentrao do reagente A, temperatura do


reator e da camisa. A varivel de perturbao utilizada foi a vazo de alimentao do reator.

101

O grupo de dados utilizado para treinamento da rede (em torno de 800 pontos) foi obtido
amostrando o modelo do CSTR a cada 0,25 segundos, como recomendado no trabalho de
TAHUATA(1992).
As perturbaes aplicadas na vazo de alimentao adimensionalizada (q) foram pulsos
aleatrios com amplitude mxima de 0,75 e largura de 5 e 15 intervalos de amostragem em
torno do valor de estado estacionrio q = 1,0. As perturbaes na vazo de alimentao foram
suficientes para provocar transies entre os estados estacionrios.
Na Figura 8-1 mostram-se as perturbaes aplicadas na vazo de alimentao e utilizadas
para treinamento da rede de funes de escala. Nas Figuras 8.2 a 8.4 podem ser vistas as

Vazo de alimentao Ad.

sadas correspondentes s perturbaes aplicadas na vazo de alimentao.

1,60

1,10

0,60

0,10
1

101

201

301

401

501

Figura 8-1 - Perturbaes aplicadas na vazo de alimentao

O objetivo estabelecido foi prever o valor futuro das variveis de estado a partir do valor
atual e anterior dessas e da varivel de perturbao. Assim sendo, a rede foi composta de trs
sadas correspondentes aos estados. Foi constatado que apenas os valores atuais dos estados e
da varivel de perturbao eram suficientes para identificar o processo uma vez que o
coeficiente de correlao de aproximao dos dados em cada sada foi superior a 99,99%.
Dessa forma, no houve necessidade de utilizar mais valores atrasados das sada e, portanto, a
rede de funes de escala foi composta de 4 entradas.

102

Conc. reagente A Ad.

1,0
0,8
0,6
0,4
0,2
0,0
1

101

201

301
amostra

401

501

Temperatura reator Ad.

Figura 8-2 - Dados treinamento (concentrao de reagente A)

6,0

4,0
2,0

0,0
1

101

201

301
amostra

401

501

Figura 8-3 - Dados treinamento (temperatura no reator)

Temperatura camisa Ad.

1,0
0,5
0,0
-0,5
-1,0
1

101

201

301
amostra

401

501

Figura 8-4 - Dados treinamento (temperatura na camisa)

Para avaliar o desempenho do modelo obtido, gerou-se um grupo de dados de teste, sendo
que as perturbaes aplicadas na vazo de alimentao foram pulsos aleatrios com amplitude

103

mxima de 0.7 e largura de 10 intervalos de amostragem em torno do valor do estado


estacionrio q = 1,0. Na Figura 8-5 mostram-se as perturbaes aplicadas na vazo de

Vazo de alimentao Ad.

alimentao.

1,60

1,10

0,60

0,10
1

101

201

301

Figura 8-5 - Perturbaes aplicadas na vazo de alimentao (teste)

Nas Figuras 8.6 a 8.8 mostra-se uma comparao das sadas previstas pela rede e os dados
reais. A rede foi utilizada como um simulador, ou seja, os valores das sadas foram
realimentados para clculo das previses. O coeficiente de correlao de aproximao para
cada sada foi superior a 99,99%.

Real

Rede

Conc. reagente A Ad.

1,0
0,8
0,6
0,4
0,2
0,0
1

101

201
amostra

301

Figura 8-6 - Dados teste x simulao rede (concentrao de reagente A)

104

Temperatura reator Ad.

Real

Rede

6,0
4,0
2,0
0,0
1

101

201
amostra

301

Figura 8-7 - Dados teste x simulao rede (temperatura no reator)

Temperatura camisa Ad.

Real

Rede

1,0
0,5
0,0
-0,5
-1,0
1

101

201
amostra

301

Figura 8-8 - Dados teste x simulao rede (temperatura na camisa)

Pode ser observado nas Figuras 8.6 a 8.8 que a rede de funes de escala conseguiu
identificar perfeitamente a multiplicidade de estados estacionrios e os comportamentos
dinmicos nas vizinhanas desses. Dessa forma, foi comprovada a capacidade identificao de
redes baseadas em wavelets, o que valida as alteraes propostas.
Pode-se concluir que a rede de funes de escala generalizou muito bem, ou seja, essa foi
treinada para prever um passo a frente, no entanto, foi capaz de prever um nmero arbitrrio
de passos. O desempenho obtido, em termos de previso em aberto, foi semelhante ao das
redes neurais recorrentes CLAUMANN(1999).

105

8.2 Reao de Van de Vusse


A sntese do ciclopentenol a partir do ciclopentadieno segue a mesma seqncia de
reaes como as ocorridas no reator de Van de Vusse que apresenta resposta inversa varivel
NIEMICE e KRAVARIS(1998). O esquema de reao o seguinte,
A B C

2A D

sendo que, neste caso, A o ciclopentadieno, B o ciclopentenol, C o ciclopentandiol e D


o Diciclopentadieno. Considerando o volume de reator constante e que as reaes so
isotrmicas, o processo pode ser descrito pelas seguintes equaes:
dC a
2
= k1 C a k 3 C a + u (C a 0 C a )
dt
dC b
= k1 C a k 2 C a u C b
dt
y = Cb

(8.1)

onde
Ca e Cb: Concentraes de A e B no reator, respectivamente;
y: Produto de interesse que a concentrao de ciclopentenol (B);
Ca0: Concentrao do reagente A na corrente de alimentao ;
u: Taxa de diluio;
k1, k2, k3 : Parmetros cinticos.

Nas simulaes efetuadas, os valores dos parmetros de reao utilizados foram os


descritos em PEREZ et. al.(2002) e podem ser vistos na Tabela 8.2.

Tabela 8.2 - Parmetros do reator Van de Vusse


Parmetro de reao

Valor

k1

50 h-1

k1

100 h-1

k1

50 l/(mol.h)

Ca0

10 mol/l

106

Deve-se notar que embora a varivel de interesse seja o ciclopentenol (B), a concentrao
do reagente A tambm deve ser conhecida para ser possvel simular o comportamento da
primeira, conforme a Equao (8.1). Dessa forma, na sntese do ciclopentenol, as variveis de
estado de interesse correspondem s concentraes das substncias A e B. A varivel de
perturbao escolhida foi a taxa de diluio da corrente de alimentao.
O grupo de dados utilizado para treinamento da rede (em torno de 1100 pontos) foi obtido
amostrando o modelo descrito a cada 1 s 2,7778 E-004 h. As perturbaes aplicadas na taxa
de diluio (u) foram pulsos aleatrios com valores na faixa de [20; 190] h-1 e largura entre 10
a 50 intervalos de amostragem. Na Figura 8-9 mostram-se as perturbaes aplicadas na taxa
de diluio e utilizadas para treinamento da rede de funes de escala. Nas Figuras 8.10 e 8.11
pode ser vista a evoluo das concentraes de A e B para as perturbaes aplicadas.

180

-1

U (h )

140
100
60
20
1

201

401

amostra

601

801

1001

Figura 8-9 - Perturbaes aplicadas na taxa de diluio (dados de treinamento)

Concentrao A (mol/l)

6,5
6,0
5,5
5,0
4,5
4,0
3,5
3,0
2,5
1

201

401

601

801

amostra

Figura 8-10 - Concentrao de A (dados de treinamento)

1001

107

Concentrao de B (mol/l)

1,50
1,40
1,30
1,20
1,10
1,00
0,90
1

201

401

601

801

1001

amostra

Figura 8-11 - Concentrao de B (dados de treinamento)

O objetivo estabelecido foi prever o valor futuro das variveis de estado a partir do valor
atual e anterior dessas e da varivel de perturbao. Assim sendo, a rede foi composta de duas
sadas correspondentes aos estados de interesse. Em um estudo prvio, constatou-se que
apenas os valores atuais dos dois estados e da varivel de perturbao foram suficientes para
identificar o processo, sendo que o coeficiente de correlao de aproximao dos dados em
cada sada foi superior a 99,99%. Dessa forma, a rede de funes de escala foi composta de 3
entradas.
Para avaliar o desempenho em aberto do modelo obtido, gerou-se um grupo dados de
teste, sendo que as perturbaes aplicadas na taxa de diluio foram pulsos crescentes entre
30 e 180 h-1 com largura de 200 intervalos de amostragem. Na Figura 8-12 mostram-se as
perturbaes aplicadas na taxa de diluio.

180

-1

U (h )

140
100
60
20
0

200

400

600

800
amostra

1000

1200

1400

Figura 8-12 - Perturbaes aplicadas na taxa de diluio (dados de teste)

108

Nas Figuras 8.13 e 8.14 pode-se observar uma comparao entre as sadas previstas pela
rede e os dados de teste, sendo a rede utilizada como um simulador do processo. O coeficiente
de correlao de aproximao do teste para cada sada foi superior a 99,99%.

Real

Rede

Concentrao A (mol/l)

6,5
6,0
5,5
5,0
4,5
4,0
3,5
3,0
0

200

400

600

800
amostra

1000

1200

1400

Figura 8-13 Dados teste x rede atuando como simulador (concentrao de A)

Concentrao de B (mol/l)

Real

Rede

1,23
1,18
1,13
1,08
0

200

400

600

800
amostra

1000

1200

1400

Figura 8-14 - Dados teste x rede atuando como simulador (concentrao de B)

Pode ser observado nas Figuras 8.13 e 8.14 que a rede de funes de escala conseguiu
identificar perfeitamente a comportamento no-linear de resposta inversa varivel. Como no
caso do CSTR com mltiplos estados estacionrios, pode-se concluir que a rede de funes de
escala generalizou muito bem uma vez que foi treinada para prever um passo a frente; no
entanto, foi capaz de prever um nmero arbitrrio de passos.
Os benchmarks de identificao e controle no-lineares descritos neste captulo foram
identificados utilizando apenas um nvel de resoluo, o que confirma a validade da proposta
de iniciar a multiresoluo com o menor nmero possvel de funes de escala.

109

8.3 Concluses
O desempenho da rede de funes de escala foi validado utilizando essa como simulador
de dois sistemas dinmicos reconhecidos como benchmarks de identificao e controle
no-linear: um CSTR encamisado que apresenta multiplicidade de estados estacionrios e um
reator que apresenta resposta inversa varivel (reator de Van de Vusse). No caso do CSTR, a
rede de funes de escala conseguiu identificar perfeitamente a multiplicidade de estados
estacionrios e os comportamentos dinmicos nas vizinhanas desses. Para o reator de Van de
Vusse, o modelo neural proposto conseguiu identificar com preciso o comportamento
no-linear de resposta inversa varivel.
A rede de funes de escala generalizou muito bem, pois foi treinada para prever o
comportamento dos processos para apenas um passo a frente, no entanto, foi capaz de prever
um nmero arbitrrio de passos para um grupo de dados de teste, diferente do utilizado no
treinamento.
Pelos bons resultados obtidos na identificao do CSTR encamisado e do reator de Van de
Vusse, pode-se concluir que estes processos pertencem ao subespao gerado pelo primeiro
nvel de resoluo da rede de funes de escala proposta.

110

IDENTIFICAO DE SISTEMAS DINMICOS NA PRESENA DE


RUDO UTILIZANDO REDES DE FUNES DE ESCALA

9.1 Introduo
A identificao de processos que no apresentam rudo foi abordada nos captulos
anteriores. Este captulo trata da identificao de sistemas onde ocorre rudo.
Segundo NERRAND et. al.(1994), dependendo de como o rudo, quando existe, influencia
um sistema dinmico, a estrutura de modelo mais adequada para fazer previses poderia ser
esttica ou recorrente. Para o caso sem rudo, qualquer uma das estruturas poderia ser
utilizada. No trabalho referido foram descritos dois tipos principais de modelos dependendo
do comportamento do rudo. Considerando, por simplificao, o caso de uma entrada e uma
sada tem-se:
1) Modelo do erro na sada: Neste caso, assumido que a sada do processo yp(k) obedece as
seguintes equaes:

x p (k ) = X p (k 1) , U (k 1) ,
y p (k ) = x p (k ) + w( k )

onde
Xp(k-1): Estados processo{xp(k-1), xp(k-2), ...xp(k-N)};
U(k-1): Vetor constitudo dos atrasos na entrada externa {up(k-1), up(k-2), ...up(k-M)};

{w(k)}: Seqncia de rudo branco.


Dessa forma, a sada y(k) do modelo utilizado para fazer previses, ou seja, do preditor
dada por (considerando w(k) = yp(k) y(k)),

y (k ) = y (k 1) , y (k 2 ),..... y (k N ) ,U (k 1)

O preditor associado ao processo que apresenta erro na varivel de sada recorrente e


depende de N valores atrasados da varivel prevista. Se existir uma rede neural que pode

111

aproximar o mapeamento , essa rede deve ser recorrente para que o preditor possa ser
implementado.
2) Modelo de erro na equao: Neste caso, assumido que o processo evolui de acordo com
as seguintes equaes:

x p (k ) = X p (k 1) , U (k 1) + w( k )
y p (k ) = x p (k )

A sada y(k) do preditor associado dada por:

y (k ) = Y p (k 1) ,U (k 1)

onde
Yp(k-1): Vetor dos valores atrasados da sada{yp(k-1), yp(k-2), ...yp(k-N)};

Dessa forma, o preditor do processo que apresenta erro na equao deve ser no
recorrente, sendo que utiliza a sada medida do processo. Se existe uma rede neural que pode
aproximar o mapeamento e implementar o preditor, esta rede deve ser esttica uma vez que o
preditor no recorrente.

9.2 Gerao de Dados com Rudo


Como mais fcil treinar redes estticas do que recorrentes, tem-se motivao para tentar
utilizar redes estticas para processos que apresentam rudo na varivel de sada, ou seja,
quando uma rede recorrente seria o preditor mais adequado. Tambm, para muitos casos a
influncia do rudo pode ser desconhecida e seria desejvel que uma rede esttica pudesse ser
utilizada na identificao.
Para testar a rede esttica de funes de escala em problemas com rudo, adicionou-se
rudo branco aos grupos de dados utilizados para teste e treinamento dos processos, j
descritos, de tanque de pH e do reator biolgico. O rudo foi adicionado nas variveis de
sada, o que caracteriza erro na equao de sada. Dessa forma, o objetivo do teste foi verificar

112

a capacidade de previso da rede para uma situao desfavorvel, em que o preditor adequado
seria uma rede recorrente.
Para gerar os grupos de dados com rudo, foram adicionadas perturbaes aleatrias, com
distribuio uniforme, nas variveis de sada dos grupos de dados sem rudo j utilizados para
identificao do tanque de pH e do reator biolgico. A amplitude das perturbaes aplicadas
correspondeu, em todos os casos, a 5% da faixa dos dados originais.
Deve-se notar que atrasos das variveis de sada tambm aparecem como entradas da rede.
Dessa forma, as redes de funes de escala foram treinadas com dados de entrada e sada
corrompidos por rudo.
A presena de rudo branco nos dados de sada no representa grave problema, uma vez
que o algoritmo de mnimos quadrados pode lidar com tal caracterstica. O problema maior
ocorre quando o rudo aparece nas variveis de entrada porque tal comportamento no
manipulado corretamente pelo mtodo de mnimos quadrados. Este fato agravado pela
transformao no-linear dos dados de entrada efetuada pelos neurnios da rede de funes de
escala.

9.3 Identificao do Tanque de pH a partir de Dados Corrompidos com


Rudo
Para gerao de dados com rudo, aplicou-se a metodologia descrita aos dados sem rudo
mostrados na Figura 5-2, correspondentes as perturbaes aplicadas na vazo de base (Ver
Figura 5-1). Os primeiros 800 pontos foram utilizados para treinamento e os 400 restantes
para o teste. A varivel de perturbao, que corresponde vazo de cido, no foi alterada.
Nas Figuras 9.1 e 9.2 mostram-se os grupos de dados de treinamento e teste obtidos com
rudo a partir da situao sem rudo.

113

10,0
9,0

pH

8,0
7,0

5% rudo

6,0

sem rudo

5,0
4,0
3,0
1

101

201

301
401
amostra

501

601

701

Figura 9-1 - Grupos de dados de treinamento com rudo obtido a partir do caso sem rudo

10,0

pH

9,0
8,0

5% rudo
sem rudo

7,0
6,0
5,0
1

51

101

151
201
amostra

251

301

351

Figura 9-2 - Grupos de dados de teste com rudo obtido a partir do caso sem rudo

Nas Figuras 9.1 e 9.2 pode-se observar a grande quantidade de rudo adicionado aos dados
originais. Uma rede de funes de escala, composta de trs nveis de resoluo, foi treinada
com o grupo de dados mostrado na Figura 9-1, para identificar o valor do pH no instante k+1
em funo do valor do pH e vazo de base no momento k. Utilizando este modelo, uma
previso do comportamento do processo, correspondente ao grupo de dados de teste, foi
obtida por simulao. Na Figura 9-3 mostra-se uma comparao entre as previses do valor de
pH utilizando a rede de funes de escala e o grupo de dados de teste.

114

10,0

pH

9,0
8,0

5% rudo
rede

7,0
6,0
5,0
1

51

101

151
201
amostra

251

301

351

401

Figura 9-3 - Comparao previso da rede em aberto x dados do teste

Na Figura 9-3 pode-se observar que a rede de funes de escala identificou bem os ganhos
do processo e as transies de estado estacionrio. O bom desempenho obtido mostra que esta
metodologia de modelagem pode ser aplicada na previso do comportamento de sistemas com
rudo, mesmo que o preditor mais adequado fosse uma rede recorrente.

9.4 Identificao do Reator Biolgico a partir de Dados Corrompidos com


Rudo
Para gerao de dados de treinamento com rudo, aplicou-se a metodologia descrita na
seo 9.2 aos dados sem rudo mostrados nas Figuras 7-6 a 7-8 e, no caso do teste, para as
Figuras 7-10 a 7-12. A varivel de perturbao, que corresponde vazo de alimentao, no
foi alterada. Nas Figuras 9.4 e 9.5 mostram-se os grupos de dados de treinamento e teste
obtidos com rudo a partir da situao sem rudo. Na Figura 9-6 mostra-se uma comparao
das previses obtidas com a rede atuando como um simulador e o grupo de dados de teste.

115

Concentrao de Clulas (g/l)

6,9
6,4
5,9
5,4
4,9
4,4

(a)

Concenc. de Substrato (g/l)

8,5
7,5
6,5
5% rudo

5,5

sem rudo
4,5
3,5

Concentrao de Produto (g/l)

2,5

(b)

24,0
22,0
20,0
18,0
16,0
14,0
1

51

101

151
201
amostra - (c)

251

301

351

401

Figura 9-4 - Dados de treinamento com rudo obtidos a partir do caso sem rudo;
(a) concentrao de clulas; (b) concentrao de substrato; (c) concentrao de produto

Concentrao de Clulas (g/l)

116

6,3

5,8

5,3

4,8

(a)

Concenc. de Substrato (g/l)

8,0
7,0
6,0
5% rudo
5,0

sem rudo

4,0

Concentrao de Produto (g/l)

3,0

(b)

22,0
21,0
20,0
19,0
18,0
17,0
16,0
15,0
1

51

101

151
201
amostra - (c)

251

301

351

401

Figura 9-5 - Dados de teste com rudo obtidos a partir do caso sem rudo; (a) concentrao de
clulas; (b) concentrao de substrato; (c) concentrao de produto

Concentrao de Clulas (g/l)

117

6,3

5,8

5,3

4,8

(a)

Concenc. de Substrato (g/l)

8,0
7,0
6,0
5% rudo
5,0

rede

4,0

Concentrao de Produto (g/l)

3,0

(b)

22,0
21,0
20,0
19,0
18,0
17,0
16,0
15,0
1

51

101

151
201
amostra - (c)

251

301

351

401

Figura 9-6 - Comparao rede atuando como simulador x dados do teste (a) concentrao de
clulas; (b) concentrao de substrato; (c) concentrao de produto

Nas Figuras 9.4 e 9.5 pode-se observar a grande quantidade de rudo adicionado aos dados
originais. Uma rede de funes de escala, composta de 1 nvel de resoluo, foi treinada com
o grupo de dados mostrado na Figura 9-4, para identificar as concentraes de clulas,

118

substrato e produto no instante k+1, como funo dessas e da vazo de alimentao no


instante k.
Na Figura 9-6 pode-se observar que a rede de funes de escala identificou bem as
transies de estado estacionrio e de forma regular os ganhos do processo. O resultado em
termos de desempenho de modelagem , sem dvida, positivo quando se considera a
dificuldade do teste aplicado.

9.5 Concluses
O desempenho da rede de funes de escala foi validado utilizando essa como simulador
de dois sistemas dinmicos reconhecidos como benchmarks de identificao e controle
no-linear: um reator biolgico que apresenta no-linearidade de ganho e um tanque de pH,
sendo que foi adicionado rudo aos dados de treinamento e teste. No caso do tanque de pH, a
rede de funes de escala conseguiu identificar bem os ganhos do processo e as transies de
estado estacionrio. Para o reator biolgico, o modelo neural proposto identificou bem os
instantes em que ocorreram transies de estado estacionrio e de forma regular os ganhos do
processo.
A rede de funes de escala generalizou bem para os sistema dinmicos utilizados,
considerando a dificuldade do teste aplicado:
1) Foi adicionado rudo de grande amplitude s variveis de entrada e sada dos processos;
2) A rede foi treinada para prever o comportamento do processo para apenas um passo a
frente, no entanto, foi utilizada para prever um nmero arbitrrio de passos em um grupo de
dados de teste, diferente do utilizado no treinamento.
3) O preditor adequado para os processos aos quais foi inserido rudo seria uma rede
recorrente, sendo que a rede de funes de escala proposta neste trabalho e utilizada foi do
tipo esttica.

119

10 CONTROLE PREDITIVO DO NVEL DE UM TANQUE COM


ALTERAO DE DIMETRO

10.1 Descrio do Tanque de Nvel


Como uma aplicao para a rede de funes de escala, foi efetuado experimentalmente o
controle do nvel de um tanque que apresenta alterao brusca de dimetro. O tanque de nvel
utilizado neste trabalho faz parte de um conjunto de sistemas do Laboratrio de Controle de
Processos (LCP/ENQ/UFSC).
O tanque de nvel, construdo em PVC, dividido em trs sees: a inferior que formada
por um tubo com 0,82 m de altura e 0,15 m de dimetro; a intermediria, localizada entre 0,82
e 0,94m que consiste de duas redues em seqncia (0,15m 0,10m) e (0,10m 0,05m); a
superior que consiste de um tubo com 0,05 m de dimetro comeando em 0,94 m e se
estendendo at 1,65m. O processo tambm utiliza uma bomba centrfuga de 0,25 cv de
potncia, uma vlvula de controle e vlvulas manuais. O detalhamento do sistema mostrado
nas Figuras 10.1 e 10.2.
O sinal enviado pelo sistema de controle, responsvel pela abertura da vlvula de controle,
pode variar entre 1 e 5 Volts. Os limites 1 a 5 Volts correspondem aos estados de
completamente fechado e aberto da vlvula, respectivamente.
O tanque de nvel apresenta a no-linearidade de mudana brusca de dimetro que varia
em um fator de trs, quando se considera a seo inferior e superior desse. O sistema tambm
apresenta no-linearidade devido vlvula de controle, que do tipo igual percentagem.
Outra dificuldade do processo que, durante o controle, o tempo de amostragem deve ser
pequeno para evitar o vazamento de gua pela parte superior. Esse tempo adequado para o
controle do nvel da parte superior, no entanto, impe restries na identificao da seo
inferior. As modificaes no nvel no caso desta ltima, entre instantes de amostragem, so
relativamente pequenas e contaminadas por rudo, ou seja, a relao sinal/rudo pequena.

120

Figura 10-1 - Tanques de nvel LCP; em detalhe o tanque com alterao brusca de dimetro no
qual foram realizados os experimentos de controle

121

Legenda:
AD/DA - Placa analgica/Digital- Digital/Analgica
I/P - Conversor Eletro-Pneumtico
I/V - Conversor Corrente-Tenso
VM - Vlvula Manual
VP - Vlvula Pneumtica
LT - Sensor de Presso

Visualizador
de Nvel

Alimentao eltrica

Alimentao eltrica

AD/DA

Alimentao eltrica

0-400 mBar

LT

4-20 mA

I/V

1-5 Volts

VM

VP

I/P
3-15

psi

4-20 mA
Alimentao pneumtica

Figura 10-2 - Diagrama do sistema de controle do tanque de nvel

10.2 Treinamento da Rede de Funes de Escala


Uma srie temporal para identificao do processo foi obtida efetuando perturbaes entre
1 e 5 Volts no sinal enviado pelo sistema de controle. Na Figura 10-4 mostra-se a evoluo do
nvel do tanque para as perturbaes aplicadas (Ver Figura 10-3).

122

Sinal vlvula (Volts)

5,0
4,0
3,0
2,0
1,0
1

201

401

601
Amostras

801

1001

Figura 10-3 - Perturbaes aplicadas no sinal enviado pelo sistema de controle (treinamento)

1,6

(C)

Altura (m)

1,3
1,0

(B)

0,7

(A)

0,4
0,1
1

201

401

601
Amostras

801

1001

Figura 10-4 - Dados de altura (treinamento); (A) seo inferior; (B) seo intermediria;
(C) seo superior tanque

A partir das informaes coletadas do nvel para as perturbaes efetuadas, gerou-se o


grupo de dados para treinamento da rede de funes de escala. O tempo de amostragem
utilizado foi de 1 s. A partir de uma anlise prvia, determinou-se que o processo poderia ser
identificado com um modelo da forma y(k+1)= f[y(k),u(k)], ou seja, o valor do nvel no instante
(k+1) depende de maneira no-linear f() do nvel e ao de controle no instante (k). Dessa

forma, o grupo de dados para treinamento da rede consistiu de uma sada y(k+1) e duas entradas
y(k) e u(k). Tambm foi determinado que apenas 1 nvel de resoluo era suficiente para

identificar o processo. A utilizao de mais variveis de entrada para a rede (atrasos no nvel e

123

na varivel de perturbao) e mais nveis de resoluo no diminuram significativamente o


erro quadrtico de aproximao.
A rede de funes de escala foi treinada off-line utilizando a regularizao pela norma dos
pesos descrita no captulo 6. Na Figura 10-5 mostra-se uma comparao entre as previses da
rede e os dados de treinamento. O coeficiente de correlao da aproximao no treinamento
foi de R2 = 99,4901.

1,6

(C)

Altura (m)

1,3
1,0

Real

(B)

Rede

0,7
0,4

(A)

0,1
1

201

401

601
801
Amostras

1001

1201

Figura 10-5 - Comparao dados reais x previso rede (treinamento) (A) seo inferior;
(B) seo intermediria; (C) seo superior tanque

10.3 Validao da Rede de Funes de Escala


O modelo, correspondente rede de funes de escala, foi validado atravs de dois
mtodos: pela comparao da curva de simulao da rede para um grupo de dados de teste e
por anlise de resduos.

10.3.1 Simulao
Foi gerado um grupo de dados para testes efetuando perturbaes de 1 a 5 Volts no sinal
enviado pelo sistema de controle (Ver Figura 10-6). Para estas perturbaes, mostra-se, na
Figura 10-7, a evoluo do nvel do processo e a curva de simulao da rede treinada.

124

Sinal vlvula (Volts)

5,0
4,0
3,0
2,0
1,0
1

201

401

601
Amostras

801

1001

Figura 10-6 - Perturbaes aplicadas no sinal enviado pelo sistema de controle (teste)

1,6
1,4

(C)

Altura (m)

1,2
1,0

Real

(B)

0,8

Rede

(A)

0,6
0,4
0,2
1

201

401

601
Amostras

801

1001

Figura 10-7 - Comparao dos dados teste x curva de simulao gerada pela rede
(A) seo inferior; (B) seo intermediria; (C) seo superior tanque

Pode-se observar na Figura 10-7 que a rede conseguiu identificar de forma razovel o
comportamento do processo nas regies inferior, intermediria e superior.

10.3.2 Anlise de Resduos de Treinamento


Os testes consistindo da funo de auto-correlao dos resduos e a correlao cruzada
entre os resduos e as entradas, foram originalmente desenvolvidos para modelos lineares.
Para detectar tanto a presena de termos lineares quanto no-lineares, testes envolvendo a

125

utilizao de correlaes de alta ordem so necessrios BILLINGS e VOON(1986). Os testes


correspondentes anlise de resduos, considerando que se disponha de um grupo de dados
com um nmero arbitrrio de pontos, consistem de:

( )
(u ) ( ) = 0

u 2 ( ) = 0
2

u ( ) = 0

(10.1)

u ( ) = 0

( ) = ( )

onde
u: varivel de perturbao;
: erro de previso;
: deslocamento no tempo;

e considerando x e y variveis da Equao (10.1) tem-se:


_
_


x
x
y
y

(k )
(k )

k =
N

x , y ( ) =

x(k ) x

k =1
N

y (k ) y

k =1
N

e
u ( ) =

N
_

N (k ) (k 1) u (k ) u

k =

u
u

k
(
)

(k )

k =1
k =1
N

Para um grupo de dados com nmero finito de pontos, BILLINGS E VOON(1986)


sugeriram que, com 95% de nvel de confiana, se o valor de cada teste estatstico descrito for
inferior a

1,96
N

(N: nmero de pontos do grupo de dados de treinamento) ento no haver

estruturas lineares ou no-lineares no modeladas nos resduos.Os resultados dos testes de


correlao, correspondentes ao grupo de dados de treinamento, podem ser vistos na Figura
10-8.

1,0
0,8
0,6
0,4
0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0

( )

u 2 ( )
Teste de correlao

Teste de correlao

126

10

20

1,0
0,8
0,6
0,4
0,2

( )

u 2 2 ( )

0,0
-0,2
-0,4
-0,6
-0,8
-1,0

30

10

1,0
0,8
0,6
0,4
0,2

u( )

0,0
-0,2
-0,4
-0,6
-0,8
-1,0
0

10

20

30

Teste de correlao

1,0
0,8
0,6

30

20

30

Teste de correlao

Teste de correlao

20

1,0
0,8
0,6

u ( )

0,4
0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
0

10

( )

0,4
0,2
0,0
-0,2
-0,4

Testes de correlao
95% confiana = 0,0534

-0,6
-0,8
-1,0
0

10

20

30

Figura 10-8 - Testes de correlao baseados em resduos (95% confiana)

127

Na Figura 10-8 pode-se observar que a rede de funes de escala satisfaz os testes, para
um nvel de confiana de 95%. O valor limite

1,96
N

calculado para o grupo de dados de

treinamento, correspondente a um nvel de 95% de confiana, foi igual a 0,0534.

10.4 Princpios Bsicos de Controle Preditivo


Nesta seo destacam-se apenas as idias bsicas de controle preditivo; uma descrio
mais

detalhada

pode

ser

encontrada

em

GARCIA

et.

al.(1989)

CAMACHO e BORDONS(1994).
As idias comuns aos diferentes esquemas de controle preditivo so:
As sadas futuras de um processo entre os horizontes N1 e N2, chamados de horizontes
mnimo e mximo de predio, so previstas a cada instante de tempo k utilizando o modelo

do processo. Estas sadas previstas y ( k +i|k ) para i = N1...N2 dependem dos valores conhecidos
no instante k (entradas e sadas passadas) e dos futuros sinais de controle U j ,( k +i ) , com
j = 1...N (nmero de variveis manipuladas) e i = 0...Nu (horizonte de controle), que devem

ser determinados;
O conjunto de futuras aes de controle calculado otimizando algum critrio para manter o

processo o mais prximo possvel de uma trajetria de referncia y ref ( k +i ) (i = N1...N2), que
pode ser o prprio setpoint ou, em geral, uma trajetria suave de mudana de setpoint;
Normalmente aplica-se ao processo apenas o primeiro sinal de controle da seqncia

calculada a cada intervalo de tempo. Esta estratgia adotada pois a qualidade da previso do
modelo deteriora a medida que aumenta o horizonte de predio.
O critrio de otimizao mais empregado o erro quadrtico entre a sada prevista e a
estipulada pela trajetria de referncia. Em muitos casos, pode-se tambm incluir o esforo de
controle na funo objetivo CAMACHO e BORDONS(1994). O critrio de otimizao
mostrado na Equao (10.2).

128

J ( N1 , N 2 , N u ) =

(i ) [y( k +i|k ) y ref ( k +i ) ] +


N2

i = N1

Nu

j =1 i =1

( j ,i )

[U

j , ( k + i 1)

(10.2)

Com uma trajetria de referncia definida pela Equao (10.3)


y ref ( k ) = y ( k )
y ref ( k +i ) = y ref ( k +i 1) + (1 ) y sp ( i =1...N2)

(10.3)

onde,

(j,i) - Fatores de penalizao para j =1..N e i =1..Nu;


- Fator de ajuste da trajetria de referncia;
y - Varivel controlada;
ysp - Setpoint, ponto ao qual o sistema deve ser conduzido.

O objetivo ao minimizar a Equao (10.2) fazer que a sada futura y ( k +i|k ) siga a
referncia y ref ( k +i ) e, ao mesmo tempo, o esforo de controle Uj,(k + i - 1) seja minimizado.
Esta equao possui alguns parmetros ajustveis (N1, N2, Nu, (i), (j,i)) que podem ser
modificados para obter o comportamento desejado do sistema controlado. O significado de N1
e N2 bastante intuitivo. Eles indicam o intervalo de tempo que desejvel que a sada siga a
referncia. Se N1 definido com um valor alto significa que os erros nos primeiros instantes
no so importantes. Os coeficientes (i) e (j,i) so seqncias de parmetros que ponderam o
comportamento futuro. No projeto de controladores preditivos , em geral, utilizada uma
trajetria de referncia yref(k+i) que no necessariamente coincide com o setpoint. Geralmente
utiliza-se uma trajetria suave gerada a partir do valor atual da sada e do setpoint (Equao
(10.3)).

10.5 Implementao Computacional do Controlador


A implementao computacional de uma estratgia de controle depende de duas
ferramentas, hardware e software especiais dedicados. O hardware consistiu de um conjunto
de duas placas, uma de terminais e uma de aquisio de dados (AD/DA). A placa AD/DA
utilizada foi da marca DataTranslation possuindo uma resoluo de 12 bits, 24 canais de

129

entrada, 16 digitais e 8 single ended e 2 canais de sada analgicos, com faixa de entrada e
sada de 1-5 volts.
Para efetuar o controle de nvel do tanque foi utilizado um software para ambiente
Windows, desenvolvido em Delphi 6,0. Basicamente, o software de controle opera pela

ao de um temporizador. Assim, inicialmente, faz-se a configurao dos dados de hardware,


dos parmetros do controlador e da curva de calibrao. A curva de calibrao obtida em
malha aberta e representa a relao linear entre as medidas realizadas em volts e as medidas
reais do sistema. No caso do tanque de nvel, isto representado em um grfico do tipo Volt x
Metro e os valores dos coeficientes da equao da reta obtidos so inseridos no software.
Para a implementao das estratgias de controle propostas utilizou-se um
microcomputador tipo Celeron 1 GHz, com 128 MBytes de memria RAM e 20 GBytes de
disco rgido.
As especificaes de todos os equipamentos utilizados encontram-se no apndice 1 (seo
13.1) e a metodologia para curva de calibrao do sensor de presso descrita no apndice 2
(seo 13.2).

10.6 Projeto do Controlador

Partindo de um sistema que pode ser modelado pela equao y ( k +1) = F ( y ( k ) , u ( k ) ) ,


treina-se

uma

rede

neural

para

aproximar

mapeamento

F,

ou

seja:

F ( y ( k ) , u ( k ) ) H ( y ( k ) , u ( k ) ) , sendo que, H(y(k),u(k)), a sada prevista pela rede neural. A

equao de previso torna-se:


y ( k +1|k ) = H ( y ( k ) , u ( k ) )

(10.4)

Em um grupo de dados obtido a partir de perturbaes aplicadas ao processo pode no


haver informao suficiente para uma identificao adequada, sendo que uma rede neural
treinada com tal grupo de dados poder apresentar erros de previso em determinadas regies
do processo. Dessa forma, a Equao (10.4) deveria ser modificada para levar em conta os
erros de previso, ou seja:

130

y ( k +1) = y ( k +1|k ) + E ( k +1) = H ( y ( k ) , u ( k ) ) + E ( k +1)

(10.5)

onde E(k+1) o erro de previso no instante k+1, que a diferena entre o valor real do
processo no instante k+1 e a sada estimada pela rede.
Este termo particularmente importante na correo de erros de previso de estado
estacionrio e quando ignorado pode causar problemas de offset. O erro de previso em k+1
no conhecido no instante k, sendo que normalmente considera-se esse igual ao cometido no
instante k, GARCIA et. al.(1989), SEBORG et. al.(1989).
No controle de nvel implementado no se realimentou o erro de previso, ou seja, foi
efetuado controle em malha aberta do processo. Dessa forma, se o modelo apresentar erros
de identificao de estado estacionrio, a estrutura de controle utilizada no conseguir
eliminar o problema de offset.
Deve-se notar que a nfase dessa aplicao est no teste da rede como modelo de previso
e no no projeto do controlador. Este ltimo, por exemplo, no poder rejeitar perturbaes
tipo carga, mesmo que se disponha de um modelo que represente perfeitamente o processo.

10.7 Resultados
O desempenho do controlador neural foi testado para perturbaes tipo setpoint, sendo que
seu desempenho foi comparado ao de um controlador PI, com relao varivel controlada e
manipulada.
Os parmetros do PI foram inicialmente determinados pela tcnica de Cohen-Coon
STRM e HGGLUND (1995), sendo que foi efetuado o ajuste fino desse controlador
diretamente no processo, com o objetivo de maximizar o desempenho nas regies inferior,
intermediria e superior do tanque de nvel. Os parmetros do controlador preditivo tambm
foram ajustados experimentalmente (Ver Tabela 10.1).
Na Figura 10-9 mostram-se as transies de setpoint para o controlador neural e o PI na
faixa de 0,5 a 1,3 m. Na Figura 10-10 podem ser observadas as respectivas aes de controle.
Para comparar adequadamente o desempenho dos controladores, em termos da velocidade
de resposta s mudanas de setpoint, foi informado a esses, em cada instante de amostragem,
apenas o setpoint atual e no os valores futuros desse. Assim sendo, no clculo da ao de

131

controle, foi assumido que os valores futuros da referncia eram iguais ao valor da referncia
definido para aquele instante de amostragem.

Tabela 10.1 - Parmetros dos controladores


Controlador neural

PI

= 0,0135
= 0

Kc = 12 (V/m)

Nu = 1

Ti = 32,5 (s)

N1 = 1
N2 = 15

Set point

Ctr. Neural

PI

401

501

1.4

1.2

(C)

Altura (m)

1.0

(B)
0.8

(A)
0.6

0.4
1

101

201

301

601

Amostras

Figura 10-9 - Transies de setpoint para os controladores neural e PI.


(A) seo inferior; (B) seo intermediria; (C) seo superior tanque

701

132

PI

Ctr. Neural

5.0

Sinal vlvula (Volts)

4.0

3.0

2.0

1.0
1

101

201

301

401
Amostras

501

601

701

Figura 10-10 - Aes de controle tomadas pelos controladores neural e PI

Pode-se observar nas Figuras 10.9 e 10.10 que o controlador baseado em modelo neural
apresentou apenas um pequeno offset na regio superior do tanque e no apresentou
overshoot. O PI apresentou overshoot na transio para o setpoint da regio intermediria,

oscilaes no nvel e variaes bruscas da ao controle. Quando comparado ao PI, o


controlador neural foi mais rpido e utilizou aes de controle mais suaves.
Deve-se notar que para Nu =1, o problema de otimizao da funo custo do controlador
unidimensional. Este problema foi resolvido utilizando um mtodo de pesquisa em linha.
Como restrio ao de controle, o valor aplicado ao atuador, em cada intervalo de
amostragem, foi limitado ao intervalo 1 a 5 Volts. A restrio foi considerada explicitamente,
ou seja, na minimizao da funo custo do controlador, a ao de controle foi limitada a
assumir apenas valores no intervalo descrito em qualquer iterao do algoritmo de otimizao.
Foi observado no controle do tanque de nvel que o algoritmo de otimizao sempre
convergiu em um tempo menor que 0,1 s para os recursos computacionais utilizados. Dessa
forma, no houve problemas na minimizao da funo custo do controlador uma vez que o
tempo de amostragem utilizado foi de 1 s.

133

10.8 Concluses
A capacidade de identificao da rede de funes de escala foi comprovada, no caso do
tanque de nvel, atravs de dois mtodos: por comparao da curva de simulao obtida com a
rede, para um determinado conjunto de dados de teste, e por anlise de resduos.
Alm da no-linearidade de mudana de dimetro do tanque de nvel, a rede de funes de
escala conseguiu identificar bem o processo na regio inferior onde o sistema lento e,
portanto, apresenta pequena variao de nvel, entre instantes de amostragem consecutivos,
em relao ao rudo presente e para as aes de controle aplicadas.
A rede de funes de escala foi utilizada com sucesso como modelo de um controlador
preditivo para o processo do tanque de nvel.
O desempenho do controlador baseado na rede de funes de escala foi superior ao
clssico PI, em relao ao comportamento das variveis controlada e manipulada, na rejeio
de perturbaes tipo setpoint.
O projeto do controlador de nvel baseado em rede neural no considerou o erro de
previso, ou seja, no foi utilizada nenhuma forma de realimentao desse erro. Nesta
situao, caso o modelo apresentasse erros de identificao de estado estacionrio, no seria
possvel eliminar o problema de offset. Na prtica, foi observado apenas um pequeno offset no
controle do nvel na regio superior do tanque, o que comprova a capacidade de previso da
rede de funes de escala.

134

11 CONTROLE DE UM TANQUE DE PH
Neste captulo foi abordado o controle preditivo do tanque de pH simulado e descrito na
seo 5.3. O processo possui trs correntes de entrada - cido, tampo e base - que so
misturadas no tanque e o pH na sada desse medido. Destas correntes, o pH foi a varivel
controlada, a vazo de base corresponde a varivel manipulada e perturbaes tipo carga
foram aplicadas na vazo de cido.
Foi efetuada uma comparao entre um controlador preditivo clssico, baseado em modelo
linear, e outro que utiliza um modelo no-linear baseado na rede de funes de escala.

11.1 Identificao do Tanque de pH


Foram utilizados para identificao do processo os dados das perturbaes aplicadas na
vazo de base, mostrados na Figura 5-1, e os correspondentes dados de pH que podem ser
vistos na Figura 5-2.
Conforme descrito anteriormente, a sada do processo no instante (k+1), pH(k+1), pode ser
identificada a partir das informaes atuais pH(k) e U(k), sendo que U(k) o valor da vazo de
base no instante k. Os modelos empricos linear e baseado em rede de funes de escala
desenvolvidos para este sistema utilizaram, portanto, duas entradas pH(k) e U(k) e uma sada
pH(k+1).

No caso da rede de funes de escala, foram utilizados trs nveis de resoluo para
identificao do tanque de pH. Este modelo foi descrito e validado na seo 9.3 por
simulao.
Para uma aproximao linear do tanque de pH, foi utilizado um modelo incremental
linear, ou seja:
pH (k +1 ) = a pH (k) + b U (k) + c

pH (k +1 ) = a pH (k) + b U (k) (linear )

sendo os parmetros a, b e c determinados por mnimos quadrados. A constante c, importante


para fins de identificao uma vez que influencia o valor dos parmetros a e b, eliminada do
controlador quando utilizado um preditor incremental.

135

A constante c teve de ser utilizada na identificao uma vez que as mdias das sries
temporais de pH e U no so nulas.
O modelo ajustado aos dados do tanque de pH foi:
pH (k +1 ) = 0,9045 pH (k) + 0,0615 U (k) 0,2241

sendo que uma comparao entre os valores previstos pelo modelo incremental linear e os
dados reais do processo pode ser vista na Figura 11-1.

Mod. linear

Processo

9,5
8,5

pH

7,5
6,5
5,5
4,5
3,5
1

201

401

601
Amostras

801

1001

Figura 11-1 Comparao dados reais processo x previso do modelo linear

Analisando a Figura 11-1, tem-se a impresso de que o modelo incremental linear


ajustou-se bem aos dados. No entanto, se for feita uma ampliao de uma determinada regio
desta figura, por exemplo, entre as amostras 530 e 630 percebe-se o erro de previso
tendencioso, ou seja, os valores previstos pelo modelo incremental linear foram sempre
superiores aos do processo (Ver Figura 11-2).
O comportamento tendencioso do erro de previso do modelo incremental linear tambm
foi observado em outras regies do processo, alm da descrita.
O modelo de um processo cujo erro de modelagem tendencioso pode apresentar grandes
desvios, em relao ao comportamento real do processo, quando utilizado para fazer previses
a vrios passos frente, uma vez que a sada deve ser realimentada e, portanto, os erros de
previso sero acumulados. Dessa forma, um controlador preditivo baseado em um modelo
com tal caracterstica pode apresentar desempenho insatisfatrio.

136

Mod. linear

Processo

7,2
7,0

pH

6,8
6,6
6,4
6,2
530

540

550

560
570
Amostras

580

590

600

610

Figura 11-2 Comparao dados reais processo x previso do modelo linear (correspondente s
amostras entre 530 e 630 do grupo de dados)

11.2 Objetivos do Controlador


Os objetivos estabelecidos para o controlador foram efetuar rpidas e seguras transies de
setpoint, sem overshoot, e rejeitar perturbaes tipo carga.

O tempo de amostragem utilizado foi de 5 s, o mesmo da identificao dos modelos linear


e da rede de funes de escala.
A ao de controle, correspondente vazo de base, foi permitida variar no intervalo de
7,88 e 19,79 ml/s. Estes foram os limites de vazo de base utilizados na identificao. A
restrio foi considerada explicitamente, ou seja, na minimizao da funo custo do
controlador a ao de controle foi limitada a assumir apenas valores no intervalo descrito, em
qualquer iterao do algoritmo de otimizao..
A faixa de interesse de controle estabelecida foi pH entre 5 e 9.

11.3 Preditor Utilizado no Controlador


Seja:
y(k+1): Valor do processo no instante (k+1);
E(k+1): Erro de predio cometido no instante (k+1);

137

y(k+1|k): Predio do valor do processo, a partir de um modelo, para o instante (k+1)


utilizando-se os valores atuais e, em geral, atrasados desse.
Tem-se que:
y ( k +1) = y ( k +1|k ) + E ( k +1)

O erro de predio em (k+1) no conhecido no instante k, sendo que normalmente


considera-se esse igual ao erro de predio cometido no instante k, ou seja:
y ( k +1) = y ( k +1|k ) + E ( k +1) y ( k +1|k ) + E ( k )

Assim sendo, um valor predito para y(k+1), possivelmente mais prximo desse que y(k+1|k),
dado por:
y ( k +1) y ( k +1|k ) + y ( k ) y ( k |k 1)

Este ltimo preditor permite eliminar erros de modelagem de estado estacionrio e rejeitar
perturbaes tipo carga, diferente do preditor utilizado no captulo 10.
Exceto pelo preditor, todas as outras caractersticas do controlador permanecem
inalteradas como as descritas no captulo 10.

11.4 Resultados
Considerando o horizonte de controle Nu =1 e a referncia como sendo igual ao setpoint,
fez-se um estudo da influncia dos valores do horizonte de predio (N2) e da penalizao do
esforo de controle () para os casos de modelo linear e baseado em rede de funes de
escala. Para este processo no h tempo morto, portanto, N1 =1.
Foi observado que, no caso do modelo linear ajustado, para pequenos valores de N2, no
foi possvel determinar um valor de que fornecesse um desempenho aceitvel de controle
para transies de setpoint na faixa de pH entre 5 e 9. Por exemplo, para N2 = 5, mostra-se,

138

nas Figuras 11.3 e 11.4, o desempenho do controlador preditivo baseado em modelo linear
para =0,55 e =0,1 respectivamente.

9,5
8,5
7,5
pH

Setpoint
Processo

6,5
5,5
4,5
1

21

41

61
81
Amostras

101

121

141

Figura 11-3 - Desempenho do controlador preditivo baseado em modelo linear (N2= 5, =0,55)

9,5
8,5
7,5
pH

Setpoint
Processo

6,5
5,5
4,5
1

21

41

61

81

101

121

141

Amostras

Figura 11-4 - Desempenho do controlador preditivo baseado em modelo linear (N2= 5, =0,1)

Na Figura 11-3, correspondente a = 0,55, nota-se que a penalizao do esforo de


controle excessiva, sendo que o controlador no conseguiu evitar o overshoot para o setpoint
correspondente ao pH = 5. Para = 0,1 (Ver Figura 11-4), o controlador foi mais rpido e no
ocorreu overshoot nas transies de setpoint, no entanto, o comportamento transiente
tornou-se oscilatrio.

139

Assim sendo, no caso do controlador preditivo baseado em modelo linear, o valor de N2


teve de ser aumentado para atender os objetivos de controle estabelecidos. Aps algumas
tentativas, foi determinado que estes objetivos eram satisfeitos para N2 = 20.
Para o controlador preditivo baseado na rede de funes de escala, os requisitos de
controle foram atendidos com apenas N2 = 2.
Uma comparao de desempenho entre os controladores linear e baseado na rede de
funes de escala, para perturbaes tipo setpoint, pode ser vista na Figura 11-5. Os
parmetros utilizados para o primeiro foram N2 = 20 e = 11,5 e para o ltimo N2 = 2. e

= 0,007.

9,5
9,0
8,5

pH

8,0
7,5

Setpoint

7,0

Ctr. Linear

6,5

Ctr. Neural

6,0
5,5
5,0
4,5

(A)

Vazo de base (ml/s)

19,0
17,0
15,0
Ctr. Linear
13,0

Ctr. Neural

11,0
9,0
7,0
1

21

41

61

81
101
(B)
Amostras

121

141

Figura 11-5 - Comparao entre o desempenho dos controladores preditivos baseados nos
modelos linear e neural (perturbaes setpoint) (A) pH (varivel controlada);
(B) vazo de base (varivel manipulada)

140

Nota-se na Figura 11-5 que o controlador baseado na rede de funes de escala bem
menos conservativo, tomando rpidas e precisas aes de controle.
Os controladores preditivos baseados nos modelos linear e neural tambm foram
comparados frente a perturbaes tipos carga. Na Figura 11-6 mostra-se o desempenho destes
para uma modificao brusca na vazo de cido de 16,6 ml/s (valor nominal) para 12,0 ml/s e,
aps o sistema ter estabilizado, aplicou-se um degrau na vazo de cido de 12 para 20 ml/s.

8,0
carga (vazo de cido)
12,0 (ml/s) 20,0 (ml/s )

pH

7,5

Setpoint

7,0

Ctr. Linear
Ctr. Neural
carga (vazo de cido)
16,6 (ml/s) 12,0 (ml/s )

6,5

6,0
(A)
21,0

Vazo de base (ml/s)

19,0
17,0
15,0

Ctr. Linear

13,0

Ctr. Neural

11,0
9,0
7,0
1

21

41

61
(B)

81
101
Amostras

121

141

Figura 11-6 - Comparao de desempenho dos controladores preditivos baseados em modelo


linear e neural (perturbaes carga) (A) pH (varivel controlada); (B) vazo de base (varivel
manipulada)

Nota-se na Figura 11-6 que o controlador baseado na rede de funes de escala conseguiu
rejeitar com muito mais facilidade as cargas adicionadas, tomando, como no caso das
perturbaes tipo setpoint, rpidas e precisas aes de controle.

141

11.5 Concluses
A rede de funes de escala foi utilizada com sucesso como modelo de um controlador
preditivo para o tanque de pH.
Considerando o horizonte de controle como sendo igual a 1 e a referncia como sendo
igual ao setpoint, foi realizado um estudo para determinao dos valores timos de horizonte
de predio e da penalizao do esforo de controle, para os casos de modelo linear e baseado
em rede funes de escala.
No controle do tanque de pH, para mudanas de setpoint, os controladores preditivos
baseados em modelo no-linear (rede de funes de escala) e linear no apresentaram
problemas de offset e overshoot, sendo que as aes de controle aplicadas foram suaves. No
entanto, o primeiro foi bem menos conservativo, rejeitando perturbaes tipo carga e
efetuando transies de setpoint em um tempo significativamente menor. Basicamente, a
diferena de velocidade de resposta pode ser atribuda ao valor do horizonte de predio. No
caso no-linear, utilizou-se um horizonte de predio igual 2 e no caso linear, para atender aos
objetivos de controle, foi necessrio utilizar um valor 20 amostras.

142

12 CONCLUSES FINAIS
Uma funo objetivo adequada identificao de sistemas dinmicos formada pela soma
de um termo relativo ao erro quadrtico de aproximao e de outro correspondente a norma
do vetor de pesos. A importncia deste ltimo, em relao ao primeiro, controlada atravs
de uma constante positiva denominada de parmetro de regularizao.
A minimizao da norma dos pesos reduz as curvaturas presentes na superfcie de
modelos empricos e, portanto, diminui o problema de sobre-treinamento em redes neurais.
O compromisso entre aproximar os dados e eliminar excessivas curvaturas da superfcie
de um modelo emprico impe restries no valor do parmetro de regularizao, sendo que a
partir destas restries foi determinado um valor timo para o parmetro de regularizao.
A rede neural proposta neste trabalho, denominada de rede de funes de escala e obtida a
partir de modificaes na wavenet, obteve sucesso na identificao e controle de processos
no-lineares reconhecidos benchmarks nas reas descritas.
A rede de funes de escala obteve melhor desempenho, se comparada com as redes de
base radial e feedforward, na identificao de um atrator catico e de um reator biolgico. Os
critrios utilizados para comparao foram o erro de aproximao de treinamento, teste e o
critrio de Akaike.
A rede de funes de escala foi validada com sucesso utilizando essa como simulador de
processos, sendo efetuados testes com e sem rudo. Foram identificados vrios processos nolineares, entre eles um CSTR encamisado que apresenta multiplicidade de estados
estacionrios, um reator que apresenta resposta inversa varivel (reator de Van de Vusse), um
reator biolgico e um tanque de pH. A rede de funes de escala generalizou muito bem pois,
foi treinada para prever o comportamento dos processos para apenas um passo a frente, no
entanto, foi capaz de prever um nmero arbitrrio de passos de um grupo de dados de teste,
diferente do utilizado no treinamento.
A rede de funes de escala foi utilizada na identificao e controle de um sistema
experimental, um tanque de nvel que apresenta alterao brusca de rea. O desempenho do
controlador baseado na rede de funes de escala foi superior ao clssico PI, em relao ao
comportamento das variveis controlada e manipulada, na rejeio de perturbaes tipo
setpoint.

O desempenho de um controlador preditivo baseado na rede de funes de escala e outro


baseado em um modelo linear foi comparado para o tanque de pH. Ambos controladores no

143

apresentaram problemas de offset e overshoot, sendo que as aes de controle aplicadas foram
suaves. No entanto, o primeiro foi bem menos conservativo, rejeitando perturbaes tipo
carga e efetuando transies de setpoint em um tempo significativamente menor.
Como continuao deste trabalho sugere-se:
A rede de funes de escala, tal como a wavenet, apresenta crescimento exponencial do

nmero de funes da base a medida que aumenta o nmero de entradas. Neste trabalho
foram efetuadas modificaes na wavenet de forma a diminuir a taxa de crescimento do
nmero de funes. No entanto, outras simplificaes deveriam ser efetuadas para que seja
possvel identificar processos com um grande nmero de variveis de entrada.
Algumas relaes entre a(s) sada(s) e entrada(s) de um processo podem ser descritas

atravs de restries nos valores assumidos e/ou nas derivadas das variveis significativas.
Como a rede de funes de escala facilmente diferencivel em relao aos parmetros da
camada de sada e s variveis de entrada da rede, poderiam ser utilizadas outras formas de
regularizao, alm da penalizao da norma do vetor de pesos da rede.

A identificao de um processo por uma rede de funes de escala pode ser interpretada

como uma transformao de dados do domnio do tempo em projees desses nos subespaos
gerados pelas funes que constituem a rede. Assim sendo, a anlise dos pesos e localizao
das respectivas funes de escala pode ser til na deteco de caractersticas pouco
observveis no domnio do tempo.

144

13 APNDICE
13.1 Apndice 1
Especificaes dos equipamentos utilizados no controle do tanque de nvel
Vlvula de controle

Marca: Badger Meter - N srie 220194;


Caractersticas:
Igual percentagem ar abre, falha fecha;
Sinal de entrada 3 a 15 psi;
Conversores Eletropneumticos

Marca: Hlix tipo P11-1111-2, N srie 530;


Sinal de entrada: 4 a 20 mA;
Sinal de sada: 3 a 15 psi;
Alimentao: 20 psi.
Filtros Reguladores de Presso

Marca: Hlix - tipo F11-11;


Presso mxima de Alimentao: 250 psi;
Sada: 20 psi.
Amplificador

Marca: Microqumica - modelo 308-A;


Caractersticas:
Ganho programvel: 0 a 9.000 vezes;
Entrada: 0 -10 mV;
Alimentao: 220 V.
Sensor de presso

Marca: Contrisul;
Caractersticas:

145

Entrada: 0 a 400 mBar;


Sada: 4 a 20 mA;
Alimentao 20 Vcc;
Corpo em ao carbono, parte interna em ao inox 316.
Bomba Centrfuga

Marca: Schneider, modelo 02.01;


Potncia cv, 3400 rpm;
Alimentao 220 V.
Microcomputador

Microcomputador tipo Celeron 1 GHz


Configurao:
Unidade de disco rgido de 20 GBytes;
Memria RAM de 128MBytes;
Monitor SuperVGA color;
Sistema operacional Windows 98.
Placa Analgica-Digital/Digital- Analgica

Interface de aquisio de dados para microcomputador tipo PC/XT/AT, marca


DataTranslation, modelo DT2812, barramento ISA/EISA, com capacidade de transferncia
via DMA.
Caractersticas:
16 canais de entrada analgicos em modo comum ou 8 canais em modo diferencial;
Resoluo 12 bits;
Taxa de amostragem de 60 KHz;
Faixa de entrada de 0 a 1.25 V, 2,5 V, 5 V, 10 V, +/- 1,25 V, +/- 2.5 V. +/- 5 V, +/-10 V,
2 Canais de sada analgica;
Converso na faixa 10 s a 3 min;
2 contadores/temporizadores de 16 bits dedicados a contagem de eventos e medidas de

frequncias;
1 contador/temporizador de 16 bits programvel;
16 canais de sada digital;

146

16 canais de entrada digital;


3 canais compartilhados com contadores/temporizadores.
Conversor Tenso-Corrente

Conversor isolador de sinal marca ICI Instrumentao e Controle Industriais Ltda.;


Caractersticas:
Configurao para termo-resistncias, termopares e sinais padronizados;
Sinal de sada: 0 a 20mA, 4 a 20 mA ou 0 a 10 Volts (optoisolado), configurveis;
2 nveis de alarme configurveis;
Fonte auxiliar para transmissor: 5, 10, 12, 24 Vcc;
Alimentao: 110 ou 220 Vac.

13.2 Apndice 2 - Calibrao do Sensor de Presso


O objetivo da calibrao dos elementos sensores obter uma relao entre a varivel a ser
medida, no caso do tanque de nvel esta a altura, e o sinal enviado pelo sensor. A calibrao
obtida, realmente, no se refere ao sensor especificamente, mas sim ao conjunto de elementos
de medio, ou seja, neste caso ao sensor de presso e o conversor I/V. Desta forma, uma
relao Voltagem x Altura obtida.

13.2.1 Procedimento para Determinao da Curva de Calibrao


O software de controle pode ser configurado para ler as informaes da planta em volts e
assim o software dever ser inicialmente configurado. Em seguida, a vlvula Manual VM (Ver
Figura 10-2) deve ser fechada e a vlvula de controle aberta at encher completamente o

tanque. Quando o tanque estiver cheio, a vlvula de controle deve ser fechada e a vlvula VM
aberta e fechada em diferentes posies do tanque, anotando-se a altura da coluna de gua e a
respectiva voltagem. Dessa forma, obtm-se um grupo de dados de Altura(m)

Voltagem(Volts) com o qual procede-se uma aproximao linear. A equao da curva de

147

calibrao obtida para o conjunto sensor de presso-conversor I/V mostrada abaixo (o


coeficiente de correlao da reta obtido foi de 99,98%):

Altura (m) = 1,5356 + 0,9349 Volts

148

14 REFERNCIAS BIBLIOGRFICAS
ALSBERG, B. K.; WOODWARD, A. M.; WINSON, M. K.; ROWLAND, J. J. e KELL D.
B. - Variable Selection in Wavelet Regression Models. Analytica Chimica Acta, 368,
p. 29-44, 1998.
ANTONINI, M.; BARLAUD, M. e DAUBECHIES - Image Coding Using Wavelet
Transform. IEEE Transactions on Image Processing, 1, p. 205-220, 1992.

STRM, K. e HGGLUND, T. - PID Controllers, Theory, Design, and Tuning.


Instrument Society of America, 1995.
BAKSHI, B. R. e STEPHANOPOULOS. G - Wave- Net: a Multiresolution, Hierarchical
Neural Network with Localizad Learning. AIChE J., 39, 1, p.57-81, 1993.

BAZARAA, M. S.; SHERALI, H. D. e SHETTY C. M. - Nonlinear Programming:Theory


and Algorithms, 2nd.ed., New York:John Wiley & Sons, 1993.

BECERRA, V.M.; GALVAO, R.K.H.; CALADO, J.M.F. e SILVA, P.M. - Linear Wavelet
Models for Nonlinear Identification Applied to a Pressure Plant. Proceedings of the

International Joint Conference on Neural Networks, IJCNN 2002, Vol. 3, p. 2180-2185,


2002.
BILLINGS, S. A. e VOON, W. S. F. - Correlation Based Model Validaty Tests for
Nonlinear Models. Int. J. Control, Vol. 44, p-235-244., 1986.

CAMACHO, E. F. e BORDONS, C. - Model Predictive Control in the Process Industry,


1994.
CLAUMANN, C. A. - Modelagem e Controle de Processos No-lineares: Uma Aplicao
de Algoritmos Genticos no Treinamento de Redes Neurais Recorrentes. Dissertao

de Mestrado, Programa de Ps-Graduao em Engenharia Qumica, UFSC, Florianpolis,


SC, Brasil, 1999.
CHEN, Z. e HAYKIN, S. - A New View on Regularization Theory. IEEE International
Conference on Systems, Man, and Cybernetics, Vol. 3, p.1642-1647, 2001.
CHENG, Y.; KARJALA, W. e HIMMELBLAU, D. M. - Identification of Nonlinear
Dynamic Process with Unknown and Variable Dead Time Using an Internal
Recurrent Neural Network. Ind. Eng. Chem. Res., p. 1735-1742, 1995.

CRISTEA, P.; TUDUCE, R. e CRISTEA, A. - Time Series Prediction with Wavelet Neural
Networks. Proceedings of the 5th Seminar on Neural Network Applications in Electrical

Engineering, NEUREL 2000, p. 5-10, 2000.

149

DAUBECHIES, I. - Orthonormal Bases of Compactly Supported Wavelets. Comm. On


Pure and Appl. Math., vol. XLI, p. 909, 1988.
DAUBECHIES, I. - Ten Lectures on Wavelets, SIAM, 1992.
DE JESUS, O.; PUKRITTAYAKAMEE, A. e HAGAN, M.T. - A Comparison of Neural
Network Control Algorithms. Proceedings International Joint Conference on Neural

Networks, IJCNN 2001, Vol. 1, p. 521526, 2001.


DELYON, B.; JUDISKY, A. e BENVENISTE A. - Accuracy Analisys for Wavelet
Approximations. IEEE Trans. Neural Networks, 6(2), p. 332-348, 1995.

DONGBING, G. e HUOSHENG, H. - Wavelet Neural Network Based Predictive Control


for Mobile Robots. IEEE International Conference on Systems, Man, and Cybernetics,

Vol. 5, p. 35443549, 2000.


ELIAS-JUAREZ, A. e KANTOR, J. C. -On the Application of Wavelets to Model
Predictive Control. American Control Conference, p. 1582-1586, 1992.

EMBIRUU, M. - Controle de Processos No-lineares. Tese de Mestrado - COPPE/UFRJ,


1993.
FATEMI, O. e BOLOUKI, S. -Wavelet Transform Architectures for Video Applications.
Canadian Conference on Electrical and Computer Engineering, IEEE CCECE.Vol. 2,
p. 651656, 2002.
FAUSETT, L. - Fundamentals of Neural Networks, Architectures, Algorithms and
Applications. Florida Institute of Technology. Prantice Hall International, 1994.

GAO, L.; LU, L. e LI, Z. - Prediction of Chaotic Time Series Based on Wavelet Neural
Network. OCEANS 2001 MTS/IEEE Conference and Exhibition, Vol. 4, p. 20462050,

2001.
GARCIA, C. E.; PRETT, D. M. e MORARI, M. - Model Predictive Control: Theory and
Practice a Survey. Automatica, Vol. 25, p. 335-348, 1989.

GHOSH, R. e VERMA, B. - Least Square Method Based Evolutionary Neural Learning


Algorithm. Proceedings Joint International Conference on Neural Networks IJCNN 2001,

Vol.4, p. 25962601, 2001.


GIROSI, F., JONES, M. e POGGIO, T. - Regularization Theory and Neural Networks
Architectures. Neural Computation, 7, p. 219-269, 1995

GOLDBERG, D. - Genetic Algorithms in Search, Optimization, and Machine Learning.


Addison-Wesley, New York, 1989.
GROSSMANN, A. e MORLET, J. - Decomposition of Hardy Functions into Square
Integrable Wavelets of Constant Shape. SIAM J. Math Anal., 15, p.723-736, 1984.

150

HAYKIN, S. - Neural Networks A Comprehensive Foundation, 1999.


HAROLD, H. S., TELFER, B. e KADAMBE, S. - Neural Network Adaptative Wavelets
for Signal Representation and Classification. Opt. Engng, 31(9), p. 1907-1916, 1992.

HARRIS, C. J. - Advances in Intelligent Control. Taylor & Francis, Great Britain, 1994.
HENSON, M. A. e SEBORG, D. E. - An Internal Model Control Strategy for Nonlinear
Systems. AIChE J., Vol. 37, 7, p. 1065, 1991.

HOLLAND, J. - Adaptation in Natural and Artificial Systems. An Introductory Analysis


with Applications to Biology, Control and Artificial Intelligence. MIT Press/ Bradford

Books edition, 1975.


HUANG, D. e JIN, Y. - The Application of Wavelet Neural Networks to Nonlinear
Predictive Control. International Conference on Neural Networks, Vol. 2, p. 724727,

1997.
HUNG, C.; KIM, Y. e COLEMAN, T.L. - A Comparative Study of Radial Basis Function
Neural Networks and Wavelet Neural Networks in Classification of Remotely Sensed
Data. Proceedings of the 5th Biannual World Automation Congress. Vol. 13, p. 455-461,

2002.
HUNT, K. J., SBARBARO, D., ZBIKOWSKI, R. e GAWTHROP, P. J. - Neural Networks
for Control Systems - A Survey. Automatica, vol. 28, n 6, p.1083-1112, 1992.

JOHANSEN, T. A. - On Tikhonov Regularization, Bias and Variance in Nonlinear


System Identification. Automatica, Vol. 33, p.441-446, 1997.

KIM, S.; KIM Y.; SEO J. e JEON H. - Design of the Scaling-Wavelet Neural Network
Using Genetic Algorithm. Proceedings of the International Joint Conference on Neural

Networks, IJCNN 2002, Vol. 3., p. 2174 2179, 2002.


KORENBERG, M. J.; BILLINGS, S. A.; LIU, P. Y. e MCILROY, P. J. - Ortoghonal
Parameter Estimation Algorithm for Nonlinear Stochastic System. Int. J. Control, 48,

p.193-210, 1992.
KOSANOVICH, K. A. e PIOVOSO, M. J. - PCA of Wavelet Transformed Data Process
for Monitoring. Intelligent Data Analisys 1, p. 85-99, 1997.

LEWIS, D. W. - Matrix Theory. World Scientific Publishing Co. Pte. Ltd, p. 105, 1991.
LI, S. e XI, Y. - Applications of Wavelet to Constrained Generalized Predictive Control.
Proceedings of the IEEE International Symposium on Intelligent Control, p. 247252,
2000.

151

LING, B. - Neural Network Based Feedforward Adapter for Batch Process Control.
Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks,
Vol. 4, p. 305 310, 2000.
LJUNG, L. - System Identification. Theory for the user. Prantice Hall, 1987.
MALLAT, S. A. - A Theory for Multiresolution Signal Decomposition: The Wavelet
Representation. IEEE Trans. Pat. Anal Mach. Intel., 11, 7, p. 674-693, 1989.

MEYER, Y. - Principe D'incertitude, Bases Hilbertiennes at Algebres D'operateurs.


Seminaire Bourbaki, nr. 662.
MOTARD, R. L. e JOSEPH, B. - Wavelet Applications in Chemical Engineering. Kluwer
Academic Publishers, 1994.
NERRAND, O.; ROUSSEL-RAGOT, P.; URBANI, D.; PERSONNAZ, L. e DREYFUS, G. Training Recurrent Neural Networks: Why and How? An Illustration in Dynamical
Process Modeling. IEEE Transactions on Neural Networks, Vol. 5, n2, maro,

p. 178-184, 1994.
NIEMICE, M. e KRAVARIS, C. - Controller Synthesis for Multivariable Nonlinear
Nonminimum-phase Process. Proceedings of the American Control Conference,

Philadelphia, Pennsylvania, p. 2076-2080,1998.


O'SULLIVAN, F. - A Statistical Perspective on Ill-posed Inverse Problems. Statistical
Science, 1, p. 502-527, 1986.
PATI, Y. C. e KRISHNAPRASAD, P. S. - Analysis and Systhesis of Feedforward Neural
Networks Using Discrete Affine Wavelet Tranformations. IEEE Trans. Neural

Networks, 4(1), p.7385, 1993.


PEDERSEN, M. W. - Training recurrent networks. Proceedings of the 1997 VII IEEE
Workshop Neural Networks for Signal Processing, p. 355364, 1997.
PEREZ, H.; OGUNNAIKE, B. e DEVASIA, S. -Output Tracking Between Operating
Points for Nonlinear Process: Van de Vusse Example. IEEE Transactions on Control

Systems Technology, vol. 10, n 4, julho, p. 611-617, 2002.


POGGIO, T. e GIROSI, F. - Networks for Approximation and Learning. Proceedings of
the IEEE, Volume: 78 , 9, p. 14811497, 1990.
REN, Z., CHEN, J., TANG, X. e YAN, W. - A Combined Method Based on Neural
Network for Control System Fault Detection and Diagnosis. Proceedings of the 2000

IEEE International Conference on Control Applications, p. 104108, 2000.


ROQUEIRO, N. - Redes de Wavelets na Modelagem de Processos no-Lineares. Tese de
Doutorado - COPPE/UFRJ, 1995.

152

RUMELHART, D. E. e MCCLELLAND, J. L. - Parallel Distributed Procesing:


Explorations in the Microstrucuture of Cognition. Vol 1, 1986.

SAFAVI, A. A. e ROMAGNOLI, J. A. - Application of Wave-nets to Modelling and


Optimisation of a Multidimensional Chemical Process. Proceedings IEEE International

Conference on Neural Networks, Vol. 4, p. 1724 1728, 1995.


SAXENA, S.C.; KUMAR, V. e WAGHMARE, L.M. - Temperature Control of CST
Process Using Gaussian Neural Network with Adaptive Learning Rate. Proceedings of

the IEEE International Conference on Control Applications, p. 202 207, 2000.


SEBORG, D. E.; EDGAR, T. F. e MELLICHAMP, D. A. - Process Dynamics and Control,
New York, ed. John Wiley & Sons, 1989.
SHAO, R., JIA, F., MARTIN, E. B. e MORRIS A. J. - Wavelets and Nonlinear Principal
Component Analisys for Process Monitoring. Control Engineering Practice, vol. 7, p.

865-879, 1999.
SJOBERG, J. e VIBERG, M. - Separable Nonlinear Least-squares Minimization Possible Improvements for Neural Net Fitting. Proceedings of the VII IEEE Workshop

Neural Networks for Signal Processing, p. 345354, 1997.


STRANG, G. e NGUYEN, T. - Wavelets e Filter Banks, 1996.
TAHUATA, T. - Relatrio Interno - COPPE/UFRJ, 1992.
THOMPSON, M. L. e KRAMER, M. A. - Modeling Chemical Process Using Prior
Knowledge and Neural Networks. AIChE. J., 40, p. 1328-1340, 1994

TIKHONOV, A. N. e ARSENIN V. Y. - Solutions of Ill-posed Problems. Wiston,


Washington DC, 1977.
TULLEKEN, H. J. A. F. - Gray-box Modeling and Identification Using Physical
Knowledge and Bayesian Techniques. Automatica, 29, p. 285-308, 1993.

VENKATARAMAN, S. e GONZ, R.S. - Prediction of Polymer Insulating Material


Degradation Using Daubechies Wavelet Transformation. Annual Report Conference on

Electrical Insulation and Dielectric Phenomena, p. 323326, 2002.


XIA, X.; HUANG, D. e JIN, Y. - Nonlinear Adaptive Predictive Control Based on
Orthogonal Wavelet Networks. Proceedings of the 4th World Congress on Intelligent

Control and Automation, Vol. 1, p. 305311, 2002.


XU, J. e HO, D.W.C. - Adaptive Wavelet Networks for Nonlinear System Identification.
Proceedings of the American Control Conference, Vol. 5, p. 34723473, 1999
XU, J. e TAN, Y. - Nonlinear Adaptive Wavelet Control Using Constructive Wavelet
Networks. Proceedings of the American Control Conference, Vol. 1, p 624629, 2001.

153

WAHBA, G. - Spline Models for Observational Data. SIAM, Philadelphia, 1990.


ZHANG, Q. e BENVENISTE, A. - Wavelet Networks. IEEE Trans. Neural Networks, 3,6, p.
889-898, 1992.
ZHAO, J.; CHEN, B. e SHEN, J. - Multidimensional Non-orthogonal Wavelet-sigmoid
Basis Function Neural Network for Dynamic Process Fault Diagnosis. Computers and

Chemical Engineering, 23, p. 83-92, 1998.


ZUPAN, J. e GASTEIGER, J. - Neural Networks for Chemists, 1993.
YAMAGUCHI, C. - Wavelet Analysis of Normal and Epileptic EEG. 24th Annual
Conference and the Annual Fall Meeting of the Biomedical Engineering Society
Engineering in Medicine and Biology, EMBS/BMES, Vol. 1 , 23-26, p. 96 97, 2002.

Das könnte Ihnen auch gefallen