Equações Diferenciais Usando Redes Neurais

UNIVERSIDADE FEDERAL DO PAR
INSTITUTO DE CINCIAS EXATAS E NATURAIS
PROGRAMA DE PS-GRADUAO EM MATEMTICA E ESTATSTICA
Brigida Cristina Fernandes Batista
Solues de Equaes Diferenciais Usando Redes Neurais de

Mltiplas camadas com os mtodos da Descida mais ngreme
e Levenberg-Marquardt.
Orientador: Prof. Dr. Valcir Joo da Cunha Farias
BELM-PA
2012
1
Solues de Equaes Diferenciais Usando Redes Neurais de

Mltiplas camadas com os mtodos da Descida mais ngreme e
Levenberg-Marquardt.
Dissertao apresentada ao Programa de

Ps-Graduao em Matemtica e Estatstica
(PPGME) da Universidade Federal do Par,
como requisito parcial para a obteno do
grau de Mestre em Matemtica.
rea de Concentrao: Matemtica Aplicada.
Orientador: Prof. Dr. Valcir Joo da Cunha Farias.
BELM-PA
2012
2
Esta Dissertao foi julgada pelo Corpo Docente do Programa de Ps-Graduao em

Matemtica e Estatstica- PPGME da Universidade Federal do Par, para obteno do
grau de Mestre em Matemtica.
Belm, 29 junho de 2012
Banca examinadora
___________________________________________
Prof. Dr. Valcir Joo da Cunha Farias (Orientador)
Universidade Federal do Par UFPA PPGME
___________________________________________
Prof. Dr. Arthur da Costa Almeida (Membro)
Universidade Federal do Par UFPA
__________________________________________________
Prof. Dr. Celsa Hermnia de Melo Maranho (Membro)
Universidade Federal do Par - UFPA
___________________________________________
Prof. Dr. Regivan Hugo Nunes Santiago (Membro)
Universidade Federal do Rio Grande do Norte UFRN - DIMAP
3
Dedicatria
minha querida e amada Me Ana Cristina R. Fernandes.
4
Agradecimentos
Agradeo primeiramente e acima de tudo a Deus.
minha me Ana Cristina pela pacincia e por sempre acreditar em mim, muitas vezes
mais que eu mesma. Agradeo a sua dedicao e preocupao com meu futuro.
Ao meu amigo Cristyan Pinheiro, que talvez, o maior responsvel por eu ter
ingressado neste mestrado, por seu incentivo, apoio e companheirismo em todas as fases
do curso.
Ao meu orientador Valcir Farias por sua pacincia, companheirismo e amizade.
Ao meu irmo Renan Batista pela torcida e pacincia.
A minha turma de mestrado de 2010, aos que continuaram at o fim e aos que mudaram
seus caminhos no decorrer desses anos, em especial as my friends Marly dos Anjos e
Juliana Nunes, pelo apoio e amizade.
Ao meu querido Wagner Vital, por sempre ter uma palavra de incentivo, por seu
companheirismo e apoio na realizao dessa etapa de minha vida.
Aos professores do ICEN, por todo o aprendizado e amizade adquiridos durante esses 6
anos e meio de estudos
Aos professores da banca, Arthur Almeida, Celsa Maranho, Marcus Rocha e Regivan
Nunes, pelo interesse e colaborao.
5
Sumrio
Resumo 9
Abstract 10
Introduo 11
Capitulo 1 - REDES NEURAIS 14
1.1 Introduo.......................................................................................................14
1.2 O neurnio biolgico.......................................................................................14
1.3 O neurnio artificial........................................................................................15
1.3.1 Funes de ativao................................................................................17
1.4 Arquitetura das redes neurais e processo de treinamento...............................18
1.4.1 - Feedforward.............................................................................................19
1.4.2 - Recorrente ou realimentada.....................................................................19
1.4.3 - Processos de treinamento e aspectos de aprendizado.............................20
1.4.3.1 Treinamento supervisionado............................................................20
1.4.3.2 Treinamento no-supervisionado.....................................................20
1.4.3.3 Aprendizagem usando lote de padres (off-line).............................20
1.4.3.4 Aprendizagem usando lote de padro-por-padro (on-line)............21
1.5 - Alguns modelos de redes Neurais Artificiais:..................................................21
1.5.1 - Rede Perceptron........................................................................................21
1.5.1.1 Princpio de funcionamento do Perceptron.....................................21
1.5.1.2 Analise matemtica do Perceptron..................................................22
1.5.1.3 Processo de treinamento do Perceptron...........................................23
1.5.2 - Rede Adaline............................................................................................24
1.5.2.1 Princpio de funcionamento do Adaline..........................................25
1.5.2.2 Processo de treinamento do Adaline................................................25
1.5.2.3 Comparao entre o processo de treinamento do Adaline e

Perceptron........................................................................................................................28
6
1.5.3 - Rede Perceptron de mltiplas camadas (PMC).......................................28
1.5.3.1 Princpio de funcionamento do PMC.............................................28
1.5.3.2 Processo de treinamento do PMC...................................................29
1.5.3.2.1 Derivao do algoritmo backpropagation...............................29
1.5.3.2.1.1 Ajuste dos pesos sinpticos da camada de sada.............32
1.5.3.2.1.2 Ajuste dos pesos sinpticos da camada intermediria.....33
1.5.3.2.2 - Outra verso do algoritmo backpropagation............................36
1.5.3.2.2.1 Mtodo de Levenberg-Marquardt....................................36
Captulo 2 METODOLOGIA 39
2.1 Introduo........................................................................................................39
2.2 Descrio do mtodo.......................................................................................39
2.3 Ilustrao do mtodo.......................................................................................40
2.3.1 - Solues de EDOs de 1 ordem..............................................................40
2.3.2 - Solues de EDO de 2 ordem.................................................................41
2.3.3 - Solues de Sistema acoplado de EDOs de 1 ordem............................41
2.3.4 - Solues de EDPs...................................................................................41
2.4 Clculo do gradiente.......................................................................................42
2.4.1 - Equao Diferencial Ordinria (EDO) de primeira ordem......................43
2.4.2 - Equao Diferencial Ordinria (EDO) de segunda ordem......................45
2.4.3 - Sistema Acoplado de Equaes diferencial Ordinria (EDOs)..............49
2.4.4 - Equao Diferencial Parcial (EDP).........................................................52
Captulo 3 RESULTADOS 55
3.1 Introduo......................................................................................................55
3.2 - A Rede Neural para soluo de Edos de primeira ordem..............................55
3.2.1 Problema 1..............................................................................................55
3.2.2 Problema 2..............................................................................................59
7
3.3 - A Rede Neural para soluo de Edos de segunda ordem...............................63
3.3.1 Problema 3...............................................................................................63
3.3.2 Problema 4...............................................................................................67
3.4 - A Rede Neural para soluo de sistema acoplado de Edos............................71
3.4.1 Problema 5...............................................................................................71
3.5 - A Rede Neural para soluo de Edps.............................................................76
3.5.1 Problema 6...............................................................................................76
3.5.2 Problema 7...............................................................................................81
Consideraes Finais e trabalhos futuros 87
Referncias Bibliogrficas 88
8
Resumo
Neste trabalho mostrado um mtodo para resolver ambas as equaes
diferenciais, ordinrias e parciais, utilizando uma rede neural artificial feedforward
como elemento fundamental de aproximao, cujos parmetros (pesos e bias) so
ajustados para minimizar uma funo erro apropriada. A rede neural implementada no
software MATLAB. Para treinar os parmetros foi utilizado o mtodo da descida mais
ngreme e mtodo de Levenberg-Marquardt, os quais precisaram do clculo do
gradiente. A soluo aproximada da equao diferencial escrita como a soma de dois
termos, o primeiro construdo para satisfazer as condies iniciais e de fronteira e o
segundo contm os parmetros ajustveis da rede. Foi feito uma comparao dos
problemas de edos de 1 ordem e o do sistema acoplado de edos com os mtodos de
Runge-Kutta e os problemas de edos de 2 ordem e as edps com o mtodo de
diferenas finitas.
Palavra chave- Redes neurais, equaes diferenciais ordinrias, equaes

diferenciais parciais, mtodo de Levenberg-Marquardt, mtodo da descida mais
ngreme.
9
Abstract
This work provides a method to solve ordinary and partial differential
equations, using feedforward artificial neural network approach as a fundamental
element, whose parameters (weights and biases) are adjusted to minimize an appropriate
error function. The neural network is implemented in MATLAB software. To train the
parameters we used the method of steepest descent and Levenberg-Marquardt
method, which required the calculation of the gradient. The approximate solution of the
differential equation is written as a sum of two terms, the first satisfies the initial and
boundary conditions and the second containing the adjustable parameters of the
network. A comparison was made of the problems of ODE's 1st order and the coupled
system of ODEs with Runge-Kutta methods and problems of ODE's 2nd order and
the PDE's with the finite difference method.
Keyword- neural networks, differential equations, partial differential equations,

Levenberg-Marquardt method, method of steepest descent.
10
Introduo
A primeira publicao relacionada neurocomputao segundo (SILVA et al,
2010) aconteceu em 1943, atravs de um artigo elaborado por Walter Pitts e McCulloch
(1943), o primeiro matemtico e o segundo neurofisiologista. Foi neste artigo que
realizaram a primeira modelagem matemtica inspirada no neurnio biolgico,
resultando assim na primeira concepo de neurnio artificial.
Em 1949, o primeiro mtodo de treinamento para rede foi proposto por Donald
Hebb, a qual denominou-se de regra de aprendizagem de Hebb.
Em 1957 Frank Rosenblatt criou uma rede neural que foi batizada com o nome
Perceptron. Esta rede, segundo Ludwig Jr (2007), teve origem em uma simulao
computacional para a retina, o qual demonstrou como o sistema nervoso visual
reconhece padres. Aps esse episdio muitos pesquisadores da poca ficaram
incentivados a realizar pesquisas relacionadas a inteligncia artificial. Porm em 1969, a
neurocomputao sofreu um revs com a publicao de Marvin Minsky e Seymour e
Papert que provaram no trabalho intitulado Perceptrons- na introduction to
computational geometry, que redes neurais de uma nica camada, como a proposta por
Rosenblatt, no realizam classificaes de padres para classes no linearmente
separveis.
Este trabalho desestimulou os pesquisadores e somente em 1982, retomou o

destaque que tinha antes de 1969 com a formulao de mapas auto-organizveis por
Kohonen (1982), e a proposio de redes recorrentes feita por John Hopfield (1982).
Segundo (SILVA, 2010) em 1986 Rumelhart, Hinton e Willams, publicaram o

livro, Parallel distributed processing [Rumelhart et al, 1986], onde desenvolveram um
algoritmo que permitia ajustar os pesos em uma rede com mais de uma camada. A
proposio de tal algoritmo, denominado backpropagation, reascendeu e motivou
definitivamente as pesquisas em redes neurais artificiais.
A partir de da a redes neurais passaram a ser aplicadas na soluo de vrios

problemas cientficos como na Fsica, na Qumica, na Biologia e, at mesmo, na
Matemtica para a soluo de equaes diferenciais.
Vrios trabalhos na literatura vm aplicando redes neurais artificiais na soluo

de equaes diferenciais (Kozek et al, 1995; Milligen et al, 1995; Lagaris et al, 1998;
Aarts and Van Der Veer, 2001; Parisi et al, 2003; Shirvany et al, 2009; Tsoulos et al,
2009).
Kozek et al (1995) aplicaram redes neurais celular para resolver equaes

diferenciais parciais e sistema de equaes diferenciais ordinrias, eles concluram que
os paradigmas de redes neurais so estruturas flexveis para descrever uma ampla
variedade de fenmenos no lineares.
11
Milligen et al, (1995) propem um mtodo para resolver equaes diferenciais
baseado nas redes neurais, para demonstrar o potencial do mtodo, o mesmo aplicado
em um problema de equilbrio de plasma bidimensional ideal e concluem que os
presentes processos, relativamente simples, fornecem uma prova de princpio do poder
e possibilidades do mtodo proposto.
Aarts and Van Der Veer, (2001) apresentam um mtodo de

rede neural que resolve uma equao diferencial parcial com condies de
contorno e\ou condies iniciais, as equaes e suas condies de contorno e/ou iniciais
so incorporadas nas estruturas e na formao de conjuntos de vrias
redes neurais. Desta forma, as redes so especificamente estruturadas. Seus resultados
mostram que a aplicao do mtodo para um problema com duas dimenses muito
bom e promissor.
Parisi et al, (2003) implementam uma rede neural artificial no supervisionada

para resolver equaes diferenciais em um problema de engenharia qumica. Para
treinar a rede eles utilizaram o mtodo do algoritmo gentico e o mtodo da descida
mais ngreme (ou mtodo do gradiente descendente) eles concluem que a
aproximao pela rede neural da soluo de expresso matemtica compacta, que
pode incluir qualquer nmero de parmetros como varivel, e, consequentemente,
mais adequado para ser utilizado em problemas de otimizao ou controle.
Shirvany et al, (2009) utilizaram uma rede neural tipo Perceptron de Mltiplas
Camadas (PMC) e Funo de Base Radial (FBR) para resolver ambos os tipos de
equaes diferenciais, ordinrias e parciais. Eles aplicaram o mtodo na equao no
linear de Schrondinger. Eles concluem que os resultados demonstram a ampla
aplicabilidade do mtodo e tambm mostram que o mtodo utilizado por eles
pode resolver equaes diferenciais de forma eficaz com menor nmero de parmetros
desconhecidos, em comparao com os mtodos convencionais.
Tsoulos et al, (2009) resolveram equaes diferenciais utilizando redes neurais

artificiais com o algoritmo de evoluo gramatical, atravs de uma srie de 19
experimentos eles mostram que o mtodo proposto conseguiu resolver todos os
problemas e concluem que o mtodo utilizado por eles pode ser estendido para resolver
equaes diferenciais de ordem superior.
Lagaris et al. (1998) apresentam um mtodo para resolver ambas equaes

diferenciais, ordinrias e parciais, utilizando uma rede neural feedforward como o
elemento fundamental de aproximao, cujos parmetros (pesos e bias) so ajustados
para minimizar uma funo erro apropriada. Eles utilizam um Perceptron de Mltiplas
Camadas (PMC) com o mtodo de Quase-Newton (BSFG). Seus resultados mostram
que o mtodo exibe excelente desempenho de generalizao, alm disso, pode
facilmente ser utilizado para lidar com os domnios de dimenses superiores (trs ou
mais).
12
Neste trabalho foi utilizado a mesma metodologia de Lagaris et al. (1998) para
resolver equaes diferenciais ordinrias e parciais, definidas em um domnio regular,
porm, aplica-se o mtodo de Levenberg-Marquardt e o mtodo da descida mais
ngreme para treinar a rede.
Este trabalho est divido em trs captulos e consideraes finais:
O Captulo 1: Mostra conceitos bsicos das redes neurais artificiais, alguns

modelos de interesse para este trabalho, o processo de treinamento de uma rede neural
artificial e o mtodos de otimizao utilizados.
O Captulo 2: Trata do caminho percorrido para a realizao desde trabalho e

mostra o clculo do gradiente dos erros proposto por Lagaris et al (1998).
O Captulo 3: Ilustra atravs de figuras e tabelas a preciso das solues

obtidas e a comparao dos resultados obtidos pela rede, treinada com os mtodos de
Levemberg-Marquardt e o da descida mais ngreme, com os mtodos de Runge-Kuta e
diferenas finitas.
Consideraes finais: Faz uma breve concluso dos experimentos deste

trabalho e sugestes para trabalhos futuros.
13
CAPTULO 1
REDES NEURAIS
1.1 - INTRODUO
As redes neurais artificiais so modelos computacionais inspirados no sistema

nervoso dos seres vivos, foram concebidas de forma a emular em um computador, a
estrutura e a funcionalidade do crebro. Para isto os pesquisadores tiveram que buscar
alternativas para modelar o neurnio biolgico, tanto na sua estrutura como na sua
funcionalidade, na conectividade e interatividade dos neurnios e, principalmente, na
dinmica operacional do sistema biolgico.
SILVA et al (2010) define as redes neurais como um conjunto de unidades de

processamento, caracterizadas por neurnios artificiais, que so interligados por um
grande nmero de interconexes (sinapses artificiais) essas redes possuem a capacidade
de adquirir e manter o conhecimento (baseado em informao). Suas principais
caractersticas so: Adaptao por experincia; tolerncia a falhas; aplicaes em tempo
real; capacidade de aprendizado; capacidade de resolver problemas prticos sem a
necessidade da definio de listas de regras ou de modelos precisos; habilidade de
generalizaes; organizaes de dados; armazenamento distribudo e facilidade de
prototipagem.
1.2 O NEURNIO BIOLGICO.
Segundo Silva et al (2010) a funo dos bilhes de neurnios que o crebro

humano possui, se resume em conduzir impulsos (estmulos eltricos advindos de
reaes fsico-qumicas) sobre determinadas condies de operaes.
Os principais componentes dos neurnios biolgicos so:
Os dendritos, que tm como principal funo captar, de forma

contnua, os estmulos vindos de diversos outros neurnios.
O corpo celular, formado pelo ncleo celular, citoplasma e membrana
celular, responsvel de processar todas as informaes advindas dos
dendritos com o intuito de produzir um potencial de ativao que
indicar se o neurnio poder disparar um impulso eltrico ao longo de
seu axinio.
O axinio constitudo de uma fibra tubular que responsvel de
transmitir os impulsos eltricos para outros neurnios. A sua
terminao tambm constituda de ramificaes denominadas
terminaes sinpticas.
As sinapses so conexes que viabilizam a transferncia de impulsos
eltricos do axinio de um neurnio para os dendritos de outro.
14
A Figura 1.1 mostra o modelo de um neurnio biolgico com todos os seus
principais componentes.
Figura 1.1 - Modelo de um neurnio biolgico
1.3 - O NEURNIO ARTIFICIAL
O neurnio artificial baseado em um neurnio biolgico. O modelo

matemtico de um neurnio artificial foi primeiramente idealizado pelos pesquisadores
W. S. McCulloch e W. H. Pitts em 1943 (HAYKIN, 2001). O modelo de neurnio mais
simples, o qual foi proposto por McCulloch e Pitts, englobam as principais
caractersticas de uma rede neural biolgica, isto , o paralelismo e alta conectividade,
sendo ainda o modelo mais utilizado nas diferentes arquiteturas de redes neurais
artificiais.
A Figura 1.2 mostra como se compe basicamente um neurnio artificial.
Figura 1.2 - Modelo de um neurnio artificial
Onde:
Sinais de entrada ;
15
So sinais ou medidas advindas do meio externo, que so anlogos aos
impulsos eltricos externos captados pelos dendritos do neurnio biolgico, esses sinais
representam valores assumidos pelas variveis de uma aplicao especfica.
Pesos sinpticos ;
So valores que iro ponderar cada uma das variveis de entrada da rede, esses
pesos por sua vez sero anlogos as ponderaes exercidas pelas junes sinpticas do
modelo biolgico.
Combinador linear {};
Tem como funo agregar todos os sinais de entrada que foram ponderados
pelos respectivos pesos sinpticos a fim de produzir um valor de potencial de ativao
Limiar de ativao (bias) { };
uma varivel que especifica qual ser o patamar apropriado para que o
resultado produzido pelo combinador linear possa gerar um valor de disparo em direo
sada do neurnio;
Potencial de ativao {u};
o resultado da soma entre o valor produzido pelo combinador linear e o

limiar de ativao.
Funo de ativao { };
Tem como objetivo limitar a sada do neurnio dentro de um intervalo de

valores razoveis a serem assumidos pela sua prpria imagem funcional.
Sinal de sada {y};
Consiste no valor final produzido pelo neurnio em relao a um conjunto de

sinais de entrada especificados.
As funes a seguir, propostas por McCulloch e Pitts, sintetizam o resultado

produzido pelo neurnio artificial.

{
( )
1.3.1- As funes de ativao.
As funes de ativao podem ser divididas em dois grupos principais:
16
Funes de ativao parcialmente diferenciveis.
So aquelas que possuem pontos onde suas derivadas de primeira ordem so

inexistentes. As principais funes desse grupo so:
Tabela 1.1- Funes de ativao parcialmente diferenciveis.
Funo degrau ( ) {
Funo degrau bipolar

ou funo sinal. ( ) {
Funo rampa
simtrica ( ) {
17
Funes de ativao totalmente diferenciveis.
So funes cujas suas derivadas de primeira ordem existem e so conhecidas

em todos os pontos de seu domnio. As principais funes desse grupo so:
Tabela 1.2 - Funes de ativao totalmente diferenciveis.
Funo sigmoidal
( )
(logstica)
Funo tangente
hiperblica ( )
( )
Funo gaussiana ( )
Funo linear ( )
O ideal na funo de ativao (ou propagao) que ela seja no linear,

limitada, monotnica e continuamente derivvel em todos os seus pontos.
18
1.4 - ARQUITETURA DAS REDES NEURAIS E PROCESSO DE
TREINAMENTO.
No existe nenhum procedimento determinstico para estruturar uma rede, esta

feita de forma heurstica, sendo que basicamente ela pode ser dividida em trs partes,
chamadas de camadas, as quais so chamadas da seguinte forma:
Camada de entrada.
Camadas escondidas, intermedirias, ocultas ou invisveis.
Camada de sada.
Cabe ressaltar que o aumento do nmero de camadas acarreta o aumento da

complexidade e do tempo de processamento da rede.
Dois principais tipos de estrutura compem o universo de modelos de redes

neurais artificiais (RNA): as do tipo unidirecional (feedforward) e as do tipo recorrente:
1.4.1- Feedforward - Neste tipo de estrutura todas as sadas dos neurnios de

uma camada so conectadas com todos os neurnios da camada posterior obedecendo
direo entrada sada, no havendo conexes entre neurnios de uma mesma
camada. A Figura 1.3 apresenta uma estrutura (feedforward) com quatro camadas.
Figura 1.3 - Neurnio artificial com quatro camadas com estrutura feedforward.
1.4.2- Recorrente ou realimentada - Nesta estrutura, ao contrario da anterior,

no existe um sentido nico para o fluxo dos sinais entre neurnios ou entre camadas.
Cada camada pode conter conexes entre os elementos de processamento da mesma
camada (estmulos laterais), das camadas anteriores e das camadas posteriores, so
redes com realimentao, onde um neurnio pode ser direta ou indiretamente
retroalimentado pela sua sada. A Figura 1.4 apresenta uma estrutura recorrente.
19
Figura 1.4 - Neurnio artificial com uma camada com estrutura recorrente.
A operao de uma rede neural constitui-se de 3 etapas: treinamento (ajuste dos

parmetros do modelo), teste (validao dos parmetros do modelo) e produo
(utilizao do modelo).
1.4.3 - Processos de treinamento e aspectos de aprendizado
Aprendizado geralmente se constitui no ajuste do conjunto de pesos de modo a

executar uma tarefa especfica, e pode acontecer de varias formas, mas nos deteremos a
falar, basicamente, sobre as formas seguintes:
1.4.3.1 - Treinamento supervisionado - Este treinamento utiliza um conjunto

de pares (entrada - sada), em que para cada padro de entrada especificado um padro
de sada desejado (resposta desejada). O aprendizado ocorre no momento em que a
sada gerada pela rede, a partir dos clculos efetuados com o padro de entrada e os
pesos correntes, for diferente da sada desejada, a rede dever ento, segundo alguns
critrios, ajustar seus pesos de forma a reduzir o erro. Essa dinmica repetida para
todo conjunto de dados (entradas e sadas) inmeras vezes, at que a taxa de erro esteja
dentro de uma faixa considerada satisfatria.
1.4.3.2 - Treinamento no-supervisionado - Este tipo de aprendizado tambm

conhecido como aprendizado auto-supervisionado, e classifica os padres similares
sem utilizar pares (entrada - sada), isto , no treinamento da rede so usados apenas
valores de entrada. A rede trabalha essas entradas e se organiza de modo a classific-las
mediante algum critrio de semelhana. Esse tipo de rede utiliza os neurnios como
classificadores, e os dados de entrada como elementos de classificao.
1.4.3.3 Aprendizagem usando lote de padres (off-line) Neste tipo de

aprendizagem os ajustes efetuados nos vetores de pesos das redes e em seus limiares s
so efetivados aps a apresentao de todo o conjunto de treinamento, pois cada passo
de ajuste leva em considerao o total de desvios observados nas amostras de
treinamento frente aos respectivos valores desejados para as suas sadas.
20
1.4.3.4 Aprendizagem usando lote de padro-por-padro (on-line)
Neste tipo de aprendizagem ao contrrio da anterior (off-line), os ajustes dos pesos e
limiares so feitos aps a apresentao de cada amostra de treinamento. Portanto, aps a
execuo do passo de ajuste, a respectiva amostra pode ser descartada.
Os parmetros usados para aprendizado e armazenamento do conhecimento

dependem do modelo de rede adotado. Quaisquer que sejam estes parmetros, os
mtodos de ajustes dos mesmos so chamados de regras de aprendizado, que
implementam na prtica, um procedimento matemtico de otimizao que busca
minimizar ou maximizar uma determinada funo objetivo.
Neste trabalho utilizado uma aprendizagem no supervisionada, pois no

possumos a sada desejada, e sim uma estimativa da sada, utilizamos tambm,
aprendizagem usando lote de padres (off-line) no mtodo de Levenberg-Marquardt e a
aprendizagem usando lote de padro-por-padro (on-line) no mtodo da descida mais
ngreme.
1.5- ALGUNS MODELOS DE REDES NEURAIS ARTIFICIAIS:
O processo de treinamento dos modelos de redes neurais descrito nesta seo

feito pelo mtodo da descida mais ngreme e baseado no livro de Silva et al (2010).
1.5.1- Redes Perceptron
O perceptron, proposto por Rosemblatt em 1958 (HAYKIN, 2001), foi o

primeiro modelo de aprendizagem com um professor (i.e., aprendizagem
supervisionada). Ela considerada a arquitetura mais simples, pois apresenta apenas um
conjunto de entradas, representativas do problema a ser mapeado, e somente uma sada,
sem haver nenhuma camada de neurnios oculta, ela pertence arquitetura feedforward
de camada nica. A Figura 1.5 ilustra uma rede Perceptron, com n sinais de entrada e
somente uma sada. Pode-se observar na mesma que o valor do limiar de ativao { }
foi assumido como sendo um termo de ponderao { }, tendo-se o valor unitrio
negativo como respectiva entrada.
Figura 1.5 - Modelo de um neurnio artificial com n sinais de entrada e somente uma sada.
21
1.5.1.1 - Princpio de funcionamento do Perceptron.
Nota-se na Figura 1.5 que inicialmente cada uma das entradas { sero
ponderadas pelos pesos sinpticos { } a fim de quantificar a importncia de cada um
frente aos objetivos funcionais atribudos ao neurnio. Em seguida, o valor resultante da
soma de todas as entradas j devidamente ponderadas, adicionado ainda ao limiar de
ativao (bias) { }, repassado como argumento (potencial de ativao) para a funo
de ativao {u}, cujo resultado de retorno ser a sada { } produzida pelo Perceptron.
Em termos matemticos, pode-se escrever o processo interno realizado pelo

Perceptron como as funes que descrevemos no incio deste captulo, propostas por
McCulloch e Pitts, que sintetizam o resultado produzido pelo neurnio artificial.
( )
{
( ) ( )
Onde so as entradas da rede, so os pesos (ponderaes) associados a i-

sima entrada, o limiar de ativao (bias), ( ) a funo de ativao e o
potencial de ativao.
As funes de ativao que so utilizadas normalmente, devido as suas

caractersticas estruturais, so as funes de limite rspido como a funo degrau ou a
degrau bipolar.
O ajuste de pesos e limiares do Perceptron efetuado utilizando processo de

treinamento supervisionado, isto , cada amostra dos sinais de entrada tem a respectiva
sada (resposta) desejada.
1.5.1.2 - Anlise matemtica do Perceptron.
Atravs da anlise matemtica, considerando a funo sinal verificado que o

Perceptron pode ser considerado um tpico caso de discriminador linear. Para ilustrar,
assume-se um perceptron com duas entradas, como mostra a Figura 1.6
Figura 1.6 - Perceptron com duas entradas e uma sada.
22
Em termos matemticos, a sada do perceptron, tendo-se como ativao a
funo sinal definida na seo (1.3.1), ser dada por:
Sendo a desigualdade das equaes acima representada por uma expresso de

primeiro grau (linear), a fronteira de deciso para esta instncia (Perceptron de duas
entradas) ser ento uma reta cuja equao definida por:
Da, pode-se concluir que o Perceptron se comporta com um classificador de

padres cuja funo dividir classes que sejam linearmente separveis, isto uma nica
reta seria capaz de separar as duas classes do problema.
Para o caso do Perceptron de duas entradas da Figura 1.6, a Figura 1.7 (a)
ilustra uma reta posicionada na fronteira de separabilidade de classes linearmente
separveis, em quanto que a Figura 1.7 (b) ilustra uma configurao em que as classes
no so linearmente separveis.
Figura 1.7 - (a) Ilustrao de fronteira de separao. Figura 1.7 - (b) Ilustrao de fronteira no
linearmente separvel.
Se ao invs de considerar um perceptron de duas entradas for considerado um

constitudo de trs entradas (se ter um problema com trs dimenses), nesse caso, a
fronteira de separao seria representada por um plano; sendo que para dimenses
superiores, tais fronteiras seriam hiperplanos.
1.5.1.3 - Processo de treinamento do perceptron.
O ajuste correto dos pesos sinpticos de uma rede permite que, dado um
conjunto de sinais de entrada, essa rede aps ter processado estes sinais de entrada
atravs de seus neurnios apresente a sada desejada, com um nvel de erro aceitvel.
Este ajuste obtido, iterativamente, por meio da regra de Hebb (SILVA et al, 2010).
23
A expresso que representa este processo a apresentada nas Equaes (1.3) e
(1.4) a seguir:
( ) ( )
( ) ( )
{ ( ) ( )
( ) ( )
Onde:
o vetor contendo o limiar e o pesos;

( ) ( ) ( )
( )
a k-sima amostra de treinamento;
( )
o valor desejado para k-sima amostra de treinamento;
y valor da sada produzida pelo Perceptron;
uma constante que define a taxa de aprendizagem da rede, esta
escolhida com cautela para evitar instabilidade no processo de
treinamento, sendo normalmente escolhido valores no intervalo de
[0,1].
Como a mesma regra de ajuste aplicada tanto para os pesos sinpticos como
para o limiar, pode-se ento inserir o valor do limiar { } dentro do vetor de pesos
sinpticos. Portanto podemos representar as expresses anteriores (1.3) e (1.4) por uma
nica expresso vetorial dada por:
( ) ( )
( ) (1.5)
1.5.2- Rede Adaline e regra Delta.
O Adaline e Perceptron surgiram quase que simultaneamente, esse modelo foi

idealizado por Widrow e Hoff em 1960 (SILVA et al, 2010). A grande contribuio do
Adaline, e a principal diferena entre este modelo e o perceptron de uma nica camada,
foi a introduo do algoritmo de aprendizado denominado regra Delta.
A estrutura do Adaline similar a do Percetron, composto por um conjunto de

entradas, uma nica camada neural, com um nico neurnio. Assim como o Perceptron,
a rede Adaline, possui arquitetura feedforward de camada nica, e tambm mais
utilizada em problemas de classificao de padres envolvendo apenas duas classes
distintas.
A Figura 1.9. Ilustra uma rede Adaline constituda de n-sinais de entrada e

somente uma sada.
24
Figura 1.9 - Neurnio com n-sinais de entrada na rede Adaline.
1.5.2.1 - Principio de funcionamento do Adaline.
O principio de funcionamento do Adaline anlogo ao do Perceptron.

Conforme se pode observar, a obteno da sada {y} do Adaline segue a mesma
sequncia definida para a rede Perceptron, sendo que tal processo tambm ser
representado pelas seguintes expresses:

{
( )
Entretanto, observa-se na Figura 1.9 a presena de um bloco associador junto

estrutura do Adaline, cuja funo simplesmente auxiliar no processo de treinamento
da rede, conforme ser detalhado a seguir. O sinal de erro obtido pelo bloco dado por:
(1.6)
Resumidamente, o Adaline tem seus pesos ajustados em

funo do erro do potencial de ativao {u} produzido pela rede e o respectivo valor
desejado {d}.
A anlise matemtica efetuada para demonstrar as condies de convergncia

do Perceptron pode ser tambm aplicada rede Adaline. Em suma as classes do
problema a ser mapeado devem ser linearmente separveis para que haja a sua completa
identificao.
1.5.2.2 - Processo de treinamento do Adaline
O processo de ajuste dos pesos e bias do Adaline baseado no algoritmo de

aprendizado denominado de regra Delta idealizado por Widrow e Hoff em 1960
(SILVA et al, 2010) ou regra de aprendizado de Widrow-Hoff, tambm conhecido como
algoritmo LMS (least mean square) ou mtodo da Descida mais ngreme.
O objetivo da Regra Delta de se obter o ponto de mnimo da diferena entre a

sada desejada {d} e a resposta do combinador linear {u} utilizando de cada vez um
25
exemplo do conjunto, e iteraes locais, para com isso ajustar os pesos e limiar (bias) do
neurnio. Ou seja, esse mtodo utiliza a minimizao do erro quadrtico entre u e d com
o intuito de ajustar o vetor de pesos da rede.
Simplificadamente, esse algoritmo tem como objetivo obter um timo tal

que o erro quadrtico ( ) sobre todo o conjunto de amostras seja o mnimo
possvel. Logo considerando uma configurao tima, temos que:
( ) ( ) (1.7)
A funo erro quadrtico em relao s p amostras de treinamento definida

por:
( ) ( )
( ) (1.8)
Substituindo (1.1) em (1.8), obtm-se:
( ) ( )
( ) ( ( )) (1.9)
( ) ( )
( ) ( ( )) (1.10)
Da, a expresso (1.8) totaliza a composio do erro quadrtico mdio

contabilizando-se os p padres de treinamento disponibilizados para o processo de
aprendizagem do Adaline.
Com o objetivo de encontrar o valor timo para o erro quadrtico mdio dado,
aplica-se o operador gradiente em relao ao vetor de pesos w.
( )
( ) (1.11)
Assim,
( ) ( ) ( )
( ) ( ( )) ( ) (1.12)
Da,
( ) ( )
( ) ( ) (1.13)
Pois
( )

26
O treinamento do vetor de pesos deve ser efetivado em direo a um ponto de
mnimo, caminhando-se simplesmente no sentido oposto ao gradiente naquele ponto,
pois o objetivo da otimizao minimizar o erro quadrtico mdio. Por esse motivo a
variao a ser efetivada no vetor de pesos do Adaline dada por:
( ) (1.14)
Onde o parmetro da taxa de aprendizagem.
Este mtodo, em que caminha-se no sentido oposto ao gradiente conhecido

como o mtodo da descida mais ngreme ou mtodo do gradiente descendente.
Substituindo o resultado de (1.13) em (1.14), obtm-se:

( ) ( )
( ) (1.15)
Logo, podemos expressar (1.15) por:

( ) ( )
( ) (1.16)
Por uma questo de simplificao podemos optar por atualizar w discretamente

aps a apresentao de cada k-simo padro de treinamento, ou seja:
( ) ( )
( )
1.5.2.3 - Comparao entre o processo de treinamento do Adaline e

Perceptron.
Foi visto que o processo de treinamento do Adaline realizado por meio da

regra Delta, cujo objetivo consiste em minimizar a diferena entre a sada desejada {d}
e a resposta do combinador linear {u}, considerando para tanto todas as amostras de
treinamento disponveis. Por isso, independentemente dos valores iniciais atribudos ao
seu vetor de pesos, o hiperplano de separabilidade obtido aps a convergncia da rede
ser o mesmo.
Diferentemente do Adaline o processo de treinamento do Perceptron

realizado pela regra de Hebb, na qual se considera a resposta produzida aps a
apresentao individual (sinapses locais) de cada amostra de treinamento. Em tal
situao, quaisquer hiperplanos posicionados dentro da faixa de separabilidade entre as
classes so consideradas solues apropriadas ao propsito de classificao de padres
pelo Perceptron.
27
1.5.3- Rede Perceptron de mltiplas camadas (PMC).
As redes Perceptron de mltiplas camadas (PMC) so caracterizadas pela

presena de pelo menos uma camada intermediaria (oculta) de neurnios, situada entre a
camada de entrada e a respectiva camada neural de sada. Logo, observa-se que as redes
PMC possuem no mnimo duas camadas de neurnios, os quais esto distribudos entre
as camadas intermediarias e a camada de sada.
O PMC uma generalizao da rede perceptron e, assim como esta, ela

pertence arquitetura feedforwards, seu treinamento feito de forma supervisionada. O
mecanismo utilizado para a aprendizagem no caso do PMC conhecido como algoritmo
de retropropagao de erro. Na Figura 1.11 apresenta-se uma ilustrao de um
perceptron de mltiplas camadas com duas camadas escondidas.
Figura 1.10 Perceptron de mltiplas camadas com duas camadas escondida.
1.5.3.1 - Principio de funcionamento do Perceptron de mltiplas camadas.
Pode-se observar atravs da Figura 1.10 que cada uma das entradas da rede,
representando os sinais advindos de determinada aplicao ser distribuda uma a uma
para os neurnios da camada seguinte, neste caso, as sadas dos neurnios da primeira
camada neural escondida sero as prprias entradas daqueles neurnios pertencentes a
segunda camada neural escondida, e assim sucessivamente. Ou seja, o perceptron de
mltiplas camadas funciona como uma sequncias de perceptrons simples
interconectados, tendo sempre sua propagao sendo feita da camada de entrada em
direo a camada de sada.
O perceptron de mltiplas camadas diferencia-se do perceptron simples, no

s pela presena de camadas escondidas, como tambm, por sua camada de sada ter a
possibilidade de ser composta por diversos neurnios como mostra a Figura 1.10. Alm
disso, no perceptron simples um nico neurnio era responsvel pelo mapeamento
integral de todo o processo, agora no perceptron de mltiplas camadas o conhecimento
28
relacionado ao comportamento entrada/sada do sistema ser distribudo por todos os
neurnios constituintes do PMC.
A configurao topolgica de uma rede perceptron de mltiplas camadas, tais

como a quantidade de camadas intermediaria e seus respectivos nmeros de neurnios,
vo depender de diversos fatores, como: a classe de problema a ser tratada pelo PMC, a
disposio espacial das amostras de treinamento e os valores iniciais atribudos tanto ao
parmetro de treinamento como s matrizes de pesos.
1.5.3.2 - Processo de treinamento do Perceptron de mltiplas camadas.
No processo de treinamento de redes PMC aplicado um algoritmo de

aprendizado denominado backpropagation ou algoritmo de retropropagao do erro,
conhecido tambm como regra Delta generalizada.
O treinamento de uma rede PMC geralmente constitudo de duas fases bem

especificas. A primeira fase a denominada de propagao adiante (forward), onde
visa-se obter as respostas da rede levando em considerao, apenas valores atuais dos
pesos sinpticos e limiares de seus neurnios, que sero inalterados durante cada
execuo desta fase. Nesta fase os sinais de entrada de uma amostra do
conjunto de treinamento so inseridos nas entradas da rede e so propagados camada a
camada at a produo das respectivas sadas. Aps isso as sadas da rede so
comparadas com as respectivas respostas desejadas que estejam disponveis.
Considerando uma rede PMC que contenha neurnios em sua camada de

sada, os respectivos desvios (erros) diferena entre as respostas desejadas e aquelas
obtidas pela rede so ento calculados, os quais posteriormente sero utilizados para
ajustar os pesos e limiares de todos os seus neurnios. Em seguida aplica-se, a segunda
fase do mtodo backpropagation denominada de propagao reversa (backward). No
decorrer desta fase, diferentemente da fase anterior, so executadas as alteraes
(ajuste) dos pesos sinpticos e limiares de todos os neurnios da rede.
As sucessivas aplicaes das fases forward e backward fazem com que os

pesos sinpticos e limiares dos neurnios se ajustem automaticamente em cada
interao, implicando na gradativa diminuio da soma dos erros produzidos pelas
respostas da rede frente aquelas desejadas.
1.5.3.2.1 - Derivao do algoritmo backpropagation.
O algoritmo backpropagation foi criado por Rumelhart, Hinton e Williams em

1986 (HAYKIN, 2001), a partir da generalizao da regra de aprendizado Widrow-
Hoff, que fora introduzida por Bernard Widrow e Marcian Hoff em 1960-1962 para
redes do tipo feedfoward perceptron.
A regra de aprendizado Widrow-Hoff tambm conhecida como Regra

Delta LMS (minimizao do erro mdio quadrtico) que ajusta os pesos das
29
conexes entre os neurnios da rede de acordo com o erro, ou seja, esta regra tem como
objetivo encontrar um conjunto de pesos e polarizaes que minimizem a funo erro.
Para um melhor entendimento da funcionalidade envolvida no algoritmo

backpropagation, ser primeiramente definida diversas variveis e parmetros
auxiliares.
Na Figura 1.11 a seguir apresenta-se um conjunto de variveis que norteiam a

derivao do algoritmo.
Figura 1.11 Notao para derivao do algoritmo backpropagation
Ser visto cada neurnios {j} pertencentes a uma das camadas {L} da
topologia ilustrada na Figura 1.11 como um perceptron simples como mostra a Figura
1.12:
Figura 1.12 Configurao do neurnio utilizado na derivao do algoritmo backpropagation
Onde ( ) representa uma funo de ativao que deve ser diferencivel em

todo o seu domnio, tais como aquelas representadas pela funo de ativao logstica
ou tangente hiperblica.
30
Atravs das Figuras 1.11 e 1.12, assume-se ento a seguinte terminologia para
seus parmetros constituintes:
( )
1) So matrizes de pesos cujos elementos denotam o valor do peso
sinptico conectando o j-simo neurnio da camada (L) ao i-simo neurnio da camada
(L-1). Para a topologia ilustrada na Figura 1.11, tem-se:
( )
o peso sinptico conectando o j-simo neurnio da camada de sada ao
i-simo neurnio da camada 2;
( )
o peso sinptico conectando o j-simo neurnio da camada escondida 2
ao i-simo neurnio da camada 1;
( )
o peso sinptico conectando o j-simo neurnio da camada escondida 1
ao i-simo neurnio da camada de entrada.
( )
2) So vetores cujo os elementos denotam a entrada ponderada em relao
ao j-simo neurnio da camada L, os quais so definidos por:
( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

( )
3) So vetores cujos elementos denotam a sada do j-simo neurnio em
relao camada L, os quais so definidos por:
( ) ( )
( )
( ) ( )
( )
( ) ( )
( )
Todo o processo de treinamento do PMC em funo do sinal de erro, que

visto a seguir.
( ) ( ) ( )
31
Onde
( ) a resposta calculada para o neurnio j.
( ) a resposta desejada para o neurnio j.
Considerando a topologia ilustrada na Figura 1.11. Assume-se a funo erro

quadrtico como aquela a ser utilizada para medir o desempenho local associado aos
resultados produzidos pelos neurnios de sada referida amostra, ou seja:
( )
( ) ( ( ) ( )) (1.17)
( )
Onde ( ) o valor produzido pelo j-simo neurnio de sada da rede
considerando-se a k-sima amostra de treinamento, enquanto que ( ) o seu
respectivo valor desejado.
Assumindo um conjunto de treinamento composto por p amostra, o erro

quadrtico mdio escrito como:
( )
O mtodo utilizado para o ajuste dos pesos e bias baseado no gradiente

(tambm chamado de mtodo da descida mais ngreme) da funo erro quadrtico dada
em (1.17).
1.5.3.2.1.1- Ajuste dos pesos sinpticos da camada de sada.
( ) ( )
O objetivo determinar o gradiente , para aplicar a correo na
( )
matriz de pesos com o intudo de minimizar o erro entre a sada produzida pela
rede e sua respectiva sada desejada. De acordo com a regra da cadeia do calculo, pode
expressar esse gradiente como:
( ) ( )
( )
( ) ( ) ( ) ( ) (1.18)
Por intermdio das definies anteriores temos que:

( )
( )
( ) (1.19)
( )
( )
( ) ( ) (1.20)
32
( )
( ) ( ) (1.21)
Onde ( ) denota a derivada de primeira ordem da funo de ativao

considerada. Substituindo os resultados das equaes (1.19), (1.20) e (1.21) na equao
(1.18) temos:
( ) ( ) ( )
( )
( ) ( )
( )
Logo, o ajuste da matriz de pesos deve ser efetuado em direo oposta ao
gradiente afim de minimizar o erro (mtodo da descida mais ngreme), ou seja:
( ) ( ) ( ) ( )
( ) (1.22)
Onde
( ) ( ) ( )
( ) ( ) definido como o gradiente local em relao ao j-
simo neurnio da camada de sada.
a taxa de aprendizagem do algoritmo backpropagation.
De forma complementar pode-se escrever a expresso (1.22) no seguinte

procedimento recursivo:
( ) ( ) ( ) ( )
( ) ( )
1.5.3.2.1.2- Ajuste dos pesos sinpticos de camadas intermedirias.
O ajuste dos neurnios das camadas intermedirias realizado atravs de

estimativas de erros de sada produzidos por aqueles neurnios da camada
imediatamente posterior, os quais j foram previamente ajustados, esse fato se d, pois
diferentemente dos neurnios da camada de sada do PMC, os neurnios das camadas
intermedirias no tem acesso de forma direta aos valores desejados para as suas sadas.
Dando sequncia aos ajustes, continua-se fazendo uso da topologia ilustrada na

Figura 1.12, a qual possui duas camadas escondidas.
Ajuste dos pesos sinpticos da segunda camada escondida.
O objetivo do processo de treinamento para a segunda camada neural

( )
escondida consiste em ajustar a matriz de pesos com o intudo de minimizar o erro
entre a sada produzida pela rede em relao retropropagao do erro advindo dos
ajustes dos neurnios da camada neural de sada. Assim tem-se:
33
( ) ( )
( )
( ) ( ) ( ) ( ) (1.23)
Por intermdio das definies anteriores tem-se que:

( )
( )
( ) (1.24)
( )
( )
( ) ( ) (1.25)
( ) ( ) ( )
( )
( ) ( ) ( ) ( ) ( ) (1.26)
( ) ( )
( )
Onde o valor da derivada parcial do argumento da parcela ( ) o
( )
prprio , ou seja:
( )
( ) ( ) (1.27)
Por outro lado temos que

( )
( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) (1.28)
Logo substituindo (1.28) em (1.27), temos:

( ) ( )
( ) (1.29)
Substituindo as equaes (1.24), (1.25) e (1.29) na equao (1.23) temos:
( ) ( ) ( ) ( )
( )
( ) ( )
( )
Logo, o ajuste da matriz de pesos deve ser efetuado em direo oposta a
gradiente afim de minimizar o erro, ou seja:
( ) ( ) ( ) ( )
( ) (1.30)
34
Onde
( ) ( ) ( ) ( )
( ) ( ) definido como o gradiente local em
relao ao j-simo neurnio da segunda camada intermediria.

procedimento iterativo:
( ) ( ) ( ) ( )
( ) ( )
Ajuste dos pesos sinpticos da primeira camada escondida.
Em relao a primeira camada escondida, o objetivo do processo de

( )
treinamento consiste em ajustar a matriz de pesos com o intudo de minimizar o
erro entre a sada produzida pela rede em relao retropropagao do erro advindo dos
ajustes dos neurnios da segunda camada neural. Assim tem-se:
( ) ( )
( )
( ) ( ) ( ) ( ) (1.31)
Por intermdio das definies anteriores temos que:

( )
( ) (1.32)
( )
( )
( ) ( ) (1.33)
( ) ( ) ( )
( )
( ) ( ) ( ) ( ) ( ) (1.34)
De forma semelhante ao ajuste anterior tem-se que o valor da derivada parcial

( ) ( )
( ) ( )
do argumento da parcela ( ) o prprio , ou seja:
( )
( ) ( ) (1.35)
Por outro lado tem-se que:

( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) (1.36)
35
Logo substituindo (1.36) em (1.35), obtm-se:
( ) ( )
( ) (1.37)
Da substituindo as equaes (1.32), (1.33) e a (1.37) na equao (1.31) tem-se:
( ) ( ) ( )
( )
( ) ( )
( )
Logo, o ajuste da matriz de pesos deve ser efetuado em direo oposta a
gradiente afim de minimizar o erro (mtodo da descida mais ngreme), ou seja:
( ) ( ) ( )
( ) (1.38)
Onde
( ) ( ) ( ) ( )
( ) ( ) definido como o gradiente local em
relao ao j-simo neurnio da primeira camada intermediria.

procedimento iterativo:
( ) ( ) ( )
( ) ( )
Vale ressaltar que em primeira instncia, tem-se ajustado os pesos sinpticos

dos neurnios da camada de sada, somente depois de obtidos os valores verdadeiros
dos desvios observados entre suas respostas produzias e os respectivos valores
desejados, que sero ajustados os valores dos pesos sinpticos das camadas anteriores.
Em segunda instncia, retropropaga-se este erro para os neurnios das camadas
anteriores, ponderando-se os mesmo pelos valores de pesos sinpticos que j foram
previamente ajustados em todas as camadas posteriores. Consequentemente, a resposta
desejada em todas as camadas escondida deve ser ento determinada em funo dos
neurnios (da camada imediatamente posterior) que esto diretamente conectados a este
e que j foram previamente ajustados no passo anterior.
O nmero de vezes que sero necessrias apresentar todas as amostras do

conjunto de treinamento para o ajuste do vetor de pesos {w} ser denominado de poca.
1.5.3.2.2 Outra verso do Algoritmo backpropagation.
1.5.3.2.2.1 - Mtodo de Levenberg-Marquardt.
Esse mtodo aplicvel em uma funo de custo que expressa como a soma
de erros quadrticos. Seja
36
( ) ()
Onde o fator includo somente com o intuito de simplificar a anlise

subseqente.
O sinal do erro ( ) uma funo do vetor de pesos ajustvel . Dado um

ponto de operao ( ), linearizamos a dependncia de ( ) em relao a
escrevendo
()
( ) () [ ] ( )
Pode-se escrever isso matricialmente como:
( ) ( ) ( )( ) (1.39)
Onde ( ) o vetor
( ) ( ) ( ) ( )
E ( ) a matriz jacobiana k-por-m de ( ):
( ) ( )
( )
( ) ( )
[ ]
A matriz jacobiana e transposta da matriz de gradiente m-por-k ( ), onde
( ) ( ) ( ) ( )
O vetor de peso atualizado ( ) assim definido por
( ) { ( ) }
Usando a equao (1.39) para calcular a norma euclidiana quadrtica de

( ), obtido.
( ) ( ) ( )( ) ( )( )
Onde ( ( ))
A fim de minimizar esta expresso diferencia-se a mesma em relao a e

iguala-se o resultado a zero, da obtm-se
37
( ) ( ) ( )( )
Resolvendo esta equao para , pode-se ento escrever;
( ) ( ) ( ( ) ( )) ( ) ( )
A equao acima descreve a forma pura do mtodo de Gauss-newton, porm

para que a interao deste mtodo seja computvel, a matriz produto ( ) ( ) deve ser
no singular. Ento para assegurar esta no singularidade da matriz produto ( ) ( )
tem-se como pratica atual a adio da matriz diagonal . Onde o I a matriz identidade
e um parmetro que ajusta a taxa de convergncia do algoritmo.
Ento o mtodo implementado da forma ligeiramente modificada conhecida

como o mtodo de Levemberg-Marquadt:
( ) ( ) ( ( )( ) ) ( ) ( )
Esse mtodo, diferentemente do mtodo de Newton, requer apenas o clculo da

matriz Jacobiana do vetor de erro ( ), o que o torna um mtodo de mais fcil
implementao, pois a determinao da matriz Jacobiana muito mais simples que a
determinao da matriz Hessiana.
Esse mtodo apresenta convergncia em menos iteraes, mas requer mais

clculos por iterao devido ao clculo de matrizes inversas.
38
CAPTULO 2
METODOLOGIA
2.1- INTRODUO
Neste captulo ser abordado o caminho percorrido para concluso deste

trabalho.
Como foi visto no captulo 1 que os mtodos de otimizao da descida mais

ngreme e o mtodo de Levenberg-Marquardt requerem o calculo do gradiente, por isso
veremos tambm, neste captulo, o calculo do gradiente das funes de custo.
Neste trabalho foi utilizado teste com um perceptron de mltiplas camadas

tendo uma camada oculta com 10 neurnios, e uma unidade de sada com a funo
linear. A funo de ativao utilizada na camada oculta foi a sigmoide linear, a
otimizao foi feita atravs do mtodo da descida mais ngreme e do mtodo de
A rede neural foi implementada no software MATLAB em um computador de

uso domstico, com 2 gb de memria, 520 de HD, proc. Intel dual core. Foi utilizado
como critrio de parada do programa um , ou seja, enquanto a diferena entre
o erro quadrtico de duas interaes consecutivas no forem menor ou igual a o
programa continua atualizando os pesos.
A soluo analtica exata ( ) de cada funo teste j era conhecida com

antecedncia, para com isso ser testado a preciso da soluo da rede treinada. O teste
dessa preciso era obtido calculando o desvio ( ) ( ) ( ). Foi comparado
tambm as solues das edos de 1 ordem e do sistema acoplado de edos obtidos pela
rede com as solues do mtodo de Runge-Kutta de 2 ordem (mtodo de Euler
melhorado), e utilizado o mtodo de diferenas finitas (centrada) para comparar os
resultado das Edos de 2 ordem e Edps obtidos pela rede.
2.2- DESCRIO DO MTODO.
Lagaris et al (1998) utiliza em seu artigo o mtodo de Quase-Newton para

treinar a rede, neste trabalho, diferente do trabalho do Lagaris, foi empregado outros
dois mtodos de otimizao; O mtodo da descida mais ngreme e o mtodo de
Levenberg-Marquardt, os quais requerem o calculo do gradiente do erro e o calculo da
matriz Jacobiana. As redes foram treinadas com uma malha de dez pontos eqidistantes.
A aproximao proposta ilustrada em termos da equao geral a seguir:
( ( ) ( ) ( )) (2.1)
39
Sujeita a condies de fronteira (CF) ou condies iniciais (CI), como as
condies de Dirichlet e/ou Neumann, onde;
( )
denota a definio do domnio
( ) a soluo para ser calculada.
Para obter uma soluo para a equao diferencial (2.1), assume-se uma
discretizao do domnio D num conjunto de pontos e de sua fronteira S em um
conjunto de pontos . Da o problema transformado no sistema de equaes a seguir.
( ( ) ( ) ( )) (2.2)
Sujeito s restries imposta pelas condies de fronteira ou condies iniciais.
Se ( ) denota uma soluo aproximada com parmetros ajustveis , o

problema transformado para
( ( ( ) ( ) ( ))) (2.3)
A soluo aproximada ( ) escolhida tal que por construo satisfaa a

CFs. Assim.
( ) ( ) ( ( )) (2.4)
Onde ( ) a sada da rede neural feedforward com parmetros e

unidades de entradas alimentadas com o vetor de entrada .
O primeiro termo ( ) no contm parmetros ajustveis e satisfaz a condio

de fronteira. O segundo termo ( ( )) construdo de forma a no contribuir para
a CFs, uma vez que ( ) deve satisfaz-los. Este termo emprega uma rede neural
cujos pesos e bias devem ser ajustados a fim de lidar com o problema de minimizao.
2.3 ILUSTRAO DO MTODO
2.3.1 Solues de EDOs de 1 ordem.
Considera-se a EDO de 1 ordem.

( )
( ) (2.5)
Com e com condio inicial (CI) ( ) .
Uma possvel soluo escrita como;
40
( ) ( ) (2.6)
Onde o erro para ser minimizado dado pela equao:
( )
{ ( ( )) } (2.7)
A qual ser a funo de custo utilizada nas tcnicas de otimizao.
2.3.2 Solues de EDOs de 2 ordem.
O mesmo procedimento pode ser aplicado para EDOs de 2 ordem
( )
( )
( )
Para o problema de valor inicial: ( ) e , a soluo aproximada
pode ser expressa como:
( ) ( ) (2.8)
Considerando-se as condies de fronteira (CF) de Dirichlet: ( ) e

( ) , a soluo aproximada pode ser escrita como:
( ) ( ) ( ) ( ) (2.9)
Nos dois casos acima de EDOs de segunda ordem o erro para ser minimizado
dada pela seguinte equao:
( ) ( )
{ ( ( ) )} (2.10)
Onde os s so pontos em [0,1].
2.3.3 Solues de Sistemas EDOs de 1 ordem.
Considerando agora o sistema de EDOs de 1 ordem.

( )
( ) (2.11)
A soluo aproximada ser escrita como;
( ) ( ) (2.12)
O erro para ser minimizado dado por
( )
{ ( )} (2.13)
2.3.4 - Solues de EDPs.
41
Neste trabalho vamos utilizar apenas EDPs Elpticas.
Vamos ento considerar a equao de Poisson
( ) ( )
( ) (2.14)
Onde com condio de fronteira de Dirichlet: ( )

( ) ( ) ( ) ( ) ( ) ( ) ( ). A soluo aproximada
ser escrita como;
( ) ( ) ( ) ( ) ( ) (2.15)
Onde ( ) escolhido como para satisfazer a condio de fronteira de

Dirichlet, isto ;
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) (2.16)
Para condies de fronteira mistas (parte Dirichlet e Neumann) da forma

( )
( ) ( ) ( ) ( ) ( ) ( ) ( ). A soluo
aproximada escrita como;
( )
( ) ( ) ( ) [ ( ) ( ) ] (2.17)
Onde ( ) escolhido para satisfazer as condies de fronteira.
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) (2.18)
A funo de custo para ser minimizada dada por;
( ) ( )
{ ( )} (2.19)
Onde os ( ) so pontos em .
2.4 - CLCULO DO GRADIENTE
O calculo do gradiente da funo de custo deste trabalho envolve valores no

somente da sada da rede (como nos caso tradicionais de treinamento), mas envolve
tambm as derivadas das sadas em relao a qualquer de suas entradas. Ento no
calculo do gradiente da funo de custo em relao aos pesos da rede, preciso primeiro
calcular o gradiente da sada da rede em relao as suas entradas.
A Figura 2.1 ilustra a rede neural utilizada neste trabalho.
42
Figura 2.1- Perceptron de mltiplas camadas com uma unidade de sada.
Considera-se um perceptron de mltiplas camadas com n unidades de entrada,

uma camada oculta com H unidades, onde utilizamos a funo sigmoide (logstica) e
uma unidade de sada com funo linear, o caso de mais de uma camada oculta pode ser
obtido analogamente. Para um dado vetor de entrada ( ) a sada da rede
( ), onde , denota o peso da unidade de
entrada j para a unidade de oculta i, e ( ) a funo de ativao sigmide. Isso
diretamente mostra que
( )

( )
Onde ( )e denota a derivada de k-ordem da sigmide.
Agora ser feito o calculo do gradiente da funo de custo das equaes

diferenciais citadas anteriormente:
2.4.1 Equao Diferencial Ordinria (EDO) de primeira ordem.
De acordo com (2.6) a soluo aproximada de uma equao ordinria de 1

ordem da forma:
( ) ( ) (2.20)
Onde ( ) a sada da rede neural feedforward com uma unidade de

entrada x e pesos .
E por (3.8) a funo de custo para ser minimizada dada por
( )
{ ( ( )) } (2.21)
43
Tem-se que
( ) ( )
( ) (2.22)
Substituindo (2.22) em (2.21), temos que a funo de custo da seguinte

forma;
( )
{ ( ) ( ( ))} (2.23)
Derivando (2.23) em relao aos pesos da ltima camada ( ) temos;

( )
( ) ( ( ))
{ } (2.24)
( )
Onde { ( ) ( ( ))}
Se,
( )
(2.25)
( )
(2.26)
( ( )) ( ( )) ( ) ( ( ))
( ) ( )
(2.27)
Substituindo (2.25), (2.26) e (2.27) em (2.24). Obtm-se
( ( ))
{ ( )
} (2.28)
Derivado a equao do erro (2.23) em relao aos pesos da camada oculta

( ) tem-se;
( )
( ) ( ( ))
{ } (2.29)
Ento
( )
(2.30)
44
( )
(2.31)
( ( )) ( ( )) ( ) ( ( ))
( ) ( )
(2.32)
( ( ))
{ ( )
} (2.33)
Derivado a equao do erro (2.23) em relao ao bias ( ) temos:

( )
( ) ( ( ))
{ } (2.34)
Ento
( )
(2.35)
( )
(2.36)
( ( )) ( ( )) ( ) ( ( ))
( ) ( )
(2.37)
Logo, substituindo (2.35), (2.36) e (2.37) em (2.34). obtido
( ( ))
{ ( )
} (2.38)
2.4.2 - Equao diferencial Ordinria (EDO) de segunda ordem
De forma anloga ao calculo do gradiente da EDO de primeira ordem. Vamos

considerar para o problema de valor inicial: ( ) e ( ) ( ) , a soluo
aproximada escrita em (2.8) como;
45
( ) ( ) (2.39)
Para dois pontos da condio de contorno de Dirichlet: ( ) e ( ) ,

a soluo aproximada escrita em (2.9) como:
( ) ( ) ( ) ( ) (2.40)
E como foi visto em (2.10) a funo de custo para ser minimizada em ambos os
casos a seguinte:
( ) ( )
{ ( ( ) )} (2.41)
Para o caso do problema de valor inicial, tem-se que;

( ) ( ) ( )
( ) (2.42)
J para o caso da condio de contorno de Dirichlet. Obtm-se

( ) ( ) ( )
( ) ( ) ( ) (2.43)
Substituindo (2.42) em (2.41), chega-se que a funo de custo a seguinte;
( )
{ ( )
( ) ( )
( ( ) )} (2.44)
Tem-se que o gradiente de (2.44) em relao aos pesos da ltima camada :

( )
( )
{
( ) ( )
( ( ) )
} (2.45)
( ) ( ) ( )
Onde ( ) ( ( ) )
Como,
46
( )
(2.46)
( )
(2.47)
( )
(2.48)
( ) ( )
( ( ) ) ( ( ) )
( )
( ) ( )
( ( ) ) ( )
( )
(2.49)
Como o segundo termo da soma da equao (2.49) vai ser igual a zero em
ambas equaes deste trabalho, temos que substituindo (2.46), (2.47), (2.48) e (2.49) em
(2.45). Obtm-se a seguinte equao:
( )
( ( ) )
{ }
( )
O gradiente da funo de custo (2.44) em relao aos pesos da camada oculta

:
( )
( )
{
( ) ( )
( ( ) )
} (2.50)
Como,
( )
(2.51)
47
( )
(2.52)
( )
(2.53)
( ) ( )
( ( ) ) ( ( ) )
( )
(2.54)
Logo substituindo (2.51), (2.52), (2.53) e (2.54) em (2.50). Obtm-se que
( )
( ( ) )
) }
( )
Por fim, o gradiente de (2.44) erro em relao ao bias :

( )
( )
{
( ) ( )
( ( ) )
} (2.55)
Calculando tem-se:
( )
(2.56)
( )
(2.57)
48
( )
(2.58)
( ) ( )
( ( ) ) ( ( ) )
( )
(2.60)
Substituindo (2.56), (2.57), (2.58) e (2.59) em (2.55). Obtm-se

( )
( ( ) )
{ }
( )
Observe que quando se deriva a funo de custo para uma equao com as
condies de contorno de Dirichlet, substitui-se a equao (2.43) em (2.41) obtendo
ento;
( )
{ ( ) ( )
( ) ( )
( ) ( ( ) )} (2.61)
obtido de forma anloga a anterior os seguintes gradientes do erro;
O gradiente de (2.61) em relao aos pesos da ultima camada, que dado por:

{ ( ) ( )
( )
( ( ) )
( ) }
( )
O gradiente de (2.61) em relao aos pesos da camada oculta, dado por:

{ ( ) ( )(
( )
( ( ) )
) ( ) }
( )
E o gradiente de (2.61) em relao ao bias, dado por:
49

{ ( ) ( )
( )
( ( ) )
( ) }
( )
Onde
( ) ( ) ( )
{ ( ) ( ) ( ) ( ( ) )}
2.4.3 -Sistema Acoplado de Equaes diferencial Ordinria (EDOs).
Considerando a soluo aproximada dada em (2.12);
( ) ( ) (2.62)
A funo de custo dada em (2.13) para ser minimizada ;
( )
{ ( )} (2.63)
Como
( ) ( )
( ) (2.64)
Substituindo (2.64) em (2.63), chega-se na seguinte funo de custo
( )
{ ( ) ( )} (2.65)
O gradiente de (2.64) em relao aos pesos da ltima camada :

( )
( ) ( ( ) ( ) ( ))
{ } (2.66)
Onde
( )
e { ( ) ( ( ) ( ) ( ))}, para
Tem-se que:
50
( ) ( )
{ (2.67)
( )
( )
{ (2.68)
( ( ) ( )) ( ( ) ( ))
( ) (2.69)
( )
De (2.67), (2.68) e (2.69) em (2.66) conclui-se que:

{ [ ( ) ( )]
( ( ) ( ) ( ))
( )}
( )
Onde

:
( )
( ) ( ( ) ( ) ( ))
{ } (2.70)
Como,
( ) ( )
{ (2.71)
( )
( ) ( )
{ (2.72)
51
( ( ) ( )) ( ( ) ( ))
( ) (2.73)
( )

{ [ ( ) ( ) ( ) ]
( ( ) ( ) ( ))
( ) }
( )
Por fim, o gradiente da funo de custo (2.64) em relao ao bias :

( )
( ) ( ( ) ( ) ( ))
{ }(2.74)
Onde
( ) ( )
{ (2.75)
( )
( )
{ (2.76)
( ( ) ( )) ( ( ) ( ))
( ) (2.77)
( )

{ [ ( ) ( )]
( ( ) ( ) ( ))
( )}
( )
2.4.4 -Equao diferencial Parcial (EDP).
Vimos em (2.15) que a soluo aproximada de uma equao diferencial parcial

escrita como;
52
( ) ( ) ( ) ( ) ( ) (2.78)
Onde ( ) escolhido como para satisfazer a condio de fronteira, isto
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
A funo de custo dada em (2.19) para ser minimizada :
( ) ( )
{ ( )} (2.79)
Onde os ( ) so pontos em .
( ) ( )
{ ( ) ( ) ( ) ( )
( ) ( ) (2.80)
e
( ) ( )
{ ( ) ( ) ( )( )
( ) ( ) (2.81)
Chamando de
( ) ( )
( ) ( )
( )( )
Pode-se escrever as equaes (2.80) e (2.81) como;
( ) ( )
( ) ( )
( ) ( )
( ) ( )
O gradiente da funo de custo (2.79) em relao aos pesos da ltima camada

:
( ) ( )
( )
{ } (2.82)
53
( ) ( )
Onde { ( )}
Como;
( )
( ) (2.83)
( )
( ) (2.84)
( )
(2.85)

( ) ( )

dado pela seguinte equao:
( ) ( )
( )
{ } (2.86)
Onde
( )
( )
(2.87)
( )
( )
(2.88)
Sendo ( )
54
( )
(2.89)
Da substituindo (2.87), (2.88) e (2.89) em (2.86). Obtm-se;

( )
( )
O gradiente da funo de custo (2.79) em relao ao bias dado pela equao:
( ) ( )
( )
{ } (2.90)
Como;
( )
( ) (2.91)
( )
( ) (2.92)
( )
(2.93)
Substituindo (2.91), (2.92) e (2.93) em (2.90). Obtm-se;

( ) ( )
55
CAPTULO 3
RESULTADOS
3.1- INTRODUO
Neste captulo so apresentados vrios exemplos de estudos de caso para

ilustrar a soluo de equaes diferenciais pelo mtodo apresentado. Em todos os casos
foi usado um perceptron de mltiplas camadas tendo uma camada oculta com 10
neurnios utilizando a funo sigmide (logstica) e uma unidade de sada com funo
de ativao linear.
Para ilustrar as caractersticas das solues fornecidas pelo mtodo neural, so

fornecidas figuras que mostram o desvio em relao a soluo analtica
e as aproximaes de cada equao.
3.2 - A REDE NEURAL PARA SOLUO DE EDOS DE PRIMEIRA

ORDEM:
3.2.1 Problema 1
( )
( )
Com ( ) e . A soluo analtica ( )

( )
De acordo com (2.5) a soluo aproximada escrita como ( )

( ). Foram selecionados 10 pontos equidistantes em [0,1] para o treinamento da
rede.
A Figura 3.1 ilustra a aproximao da soluo fornecida pela rede neural,

treinada com o Mtodo da descida mais ngreme e comparada com a soluo analtica e
o mtodo de Runge-Kutta de 2 ordem (Euler melhorado). A Figura 3.2 por sua vez
ilustra a aproximao da soluo fornecida pela rede neural, treinada pelo mtodo de
Levenberg-Marquardt e comparada, tambm, com a soluo analtica e o mtodo de
Runge-Kutta.
56
Figura 3.1 - Problema 1; Aproximao da soluo fornecida pela rede neural treinada com o mtodo da descida mais
ngreme
Figura 3.2 - Problema 1; Aproximao da soluo fornecida pela rede neural treinada com o mtodo de Levenberg-
Marquardt.
As Figuras 3.1 e 3.2 mostram que a rede obteve uma aproximao to boa
quanto o mtodo de Runge-Kutta, alm disso, pode-se observar tambm que o mtodo
de Levenberg-Marquardt, nesta equao, teve uma melhor aproximao quando
comparado ao mtodo da descida mais ngreme.
As Figuras 3.3 e 3.4 por sua vez mostram a desvio da soluo

exata correspondente a malha de ponto de uma rede treinada pelo mtodo da Descida
57
mais ngreme e pelo mtodo de Mtodo de Levenberg-Marquardt respectivamente.
Pode-se observar que as mesmas reforam a anlise das figuras anteriores, a preciso do
mtodo de Levenberg-Marquardt se mostra superior ao mtodo da descida mais
ngreme, onde o desvio do mtodo de Levenberg-Marquardt prximo
enquanto que o da descida mais ngreme prximo a
Figura 3.3 - Problema 1; Desvio do Mtodo da Figura 3.4 Problema 1; Desvio do Mtodo de
Descida mais ngreme. Levenberg-Marquard
As Figuras 3.5, 3.6 e 3.7 mostram como a rede se comporta em uma malha
com mil pontos equidistantes, ou seja, em sua fase operacional, nesta fase os pesos e
bia, j devidamente treinados, so salvos e inseridos na rede e so propagados camada a
camada at a produo das respectivas sadas, no havendo atualizao dos pesos nessa
fase. Lembrando que a rede foi treinada em uma malha com 10 pontos equidistantes.
A Figura 3.5 mostra o desvio de pontos treinados e de pontos

operacionais.
Figura 3.5 - Problema 1; Desvio obtido pelo mtodo da Descida mais ngreme e pelo mtodo de
Levenberg-Marquardt em uma malha de mil pontos.
58
A Figura 3.6 mostra a aproximao da soluo fornecida pela rede neural com
a soluo analtica exata de pontos fornecidos por uma rede treinada pelo mtodo da
Descida mais ngreme, em uma malha com mil pontos equidistantes.
Figura 3.6 - Problema 1; Aproximao da soluo fornecida pela rede neural treinada pelo mtodo da Descida
mais ngreme
De modo anlogo a Figura 3.7 mostra a mesma aproximao s que agora com
pontos de uma rede treinada pelo mtodo de Levenberg-Marquardt.
Figura 3.7 - Problema 1; Aproximao da soluo fornecida pela rede neural treinada pelo mtodo de
59
interessante observar que as Figuras 3.6 e 3.7 mostra que a rede no perde
preciso quando utilizado outros pontos, alm dos treinados, na fase operacional.
A Tabela 3.1 mostra a quantidade de pocas que cada mtodo utilizou com o
mesmo vetor de entradas e os mesmos pesos e bias iniciais ( ).
Tabela 3.1 - Problema 1; Quantidades de pocas dos mtodos da descida mais ngreme e Levenberg-Marquardt.
Mtodo da descida mais Mtodo de Levenberg-

ngreme Marquardt
poca 578 130
3.2.2 Problema 2
Onde ( ) e .
A soluo analtica ( ) e por (2.5) a soluo aproximada

vai ser ( ) ( ). A rede do mesmo modo que a primeira foi treinada com
uma malha de dez pontos equidistantes em [0,1].
A Figura 3.8 e a Figura 3.9 ilustram a aproximao da soluo fornecida pela

rede neural com a soluo analtica e o mtodo de Runge-Kutta, de uma rede treinada
com o mtodo da Descida mais ngreme e com uma rede treinada pelo mtodo de
mtodo de Levenberg-Marquardt respectivamente.
Figura 3.8 - Problema 2; Aproximao da soluo fornecida pela rede neural treinada com o mtodo da descida mais
ngreme
60
Marquardt.
Nas Figuras 3.8 e 3.9, observado, assim como Problema 1, que o mtodo de
Levenberg-Marquardt tem uma melhor preciso que o mtodo da descida mais ngreme.
As Figuras 3.10 e 3.11 por sua vez mostram o desvio da soluo exata
correspondente a malha de ponto de uma rede treinada pelo mtodo da Descida mais
ngreme e pelo mtodo de mtodo de Levenberg-Marquardt respectivamente.
Figura 3.10 - Problema 2; Desvio do Mtodo da Figura 3.11 - Problema 2; Desvio do Mtodo de
Descida mais ngreme. Levenberg-Marquardt..
Nas Figuras 3.10 e 3.11 a superioridade do mtodo de Levenberg-Marquardt

nesta equao fica mais evidente, pois mostra que o desvio mximo deste mtodo esta
prximo enquanto que o desvio mximo do mtodo da descida mais ngreme
esta prximo de .
61
De forma anloga a primeira equao, as Figuras 3.11, 3.12 e 3.13 mostram
como a rede se comporta em uma malha com mil pontos equidistantes.
As Figuras 3.11 e 3.12 mostram a aproximao da soluo fornecida pela rede

neural com a soluo analtica, de pontos fornecido por uma rede treinada pelo mtodo
da Descida mais ngreme e pelo mtodo de Levenberg-Marquardt respectivamente.
mais ngreme.
62
Nas Figuras 3.11 e 3.12 observa-se que a preciso do mtodo continua muito boa
quando se generaliza para uma malha com mil pontos, note que na Figura 3.12 quase
imperceptvel a diferena entre a soluo fornecida pela rede e a soluo analtica, o que
mostra que o mtodo de Levenberg-Marquardt tem uma melhor preciso comparado ao
mtodo da descida mais ngreme no problema 2.
Novamente, a Figura 3.13 refora a anlise feita nas figuras anteriores, o qual
mostra que o mtodo de Levenberg-Marquardt tem teve uma melhor aproximao neste
problema, quando comparado ao mtodo da descida mais ngreme.
Tabela 3.2 - Problema 2; Quantidades de pocas dos mtodos da descida mais ngreme e Levenberg-Marquardt

ngreme Marquardt
poca 1529 331
Em ambas as equaes de edos de 1 ordem (Problema 1 e 2) foi observado

que o mtodo de Levenberg-Marquardt converge com uma melhor preciso, comparado
ao mtodo da descida mais ngreme. Alm disso, pode-se observar na Tabela 3.1 e na
Tabela 3.2 que o mtodo de Levenberg-Marquardt converge mais rpido que o mtodo
da descida mais ngreme.
63
3.3 - A REDE NEURAL PARA SOLUO DE EDOs DE SEGUNDA
ORDEM:
As equaes diferenciais ordinrias de 2 ordem utilizadas neste trabalho foram

resolvidas tambm pelo mtodo de diferenas finitas.
3.3.1 Problema 3
( )
Consideramos o problema de valor inicial ( ) e ( ) ( ) com
. A soluo analtica ( ) ( ) ( ) e a forma neural desejada

( ) ( ) dada pela equao (2.8)
A Figura 3.14 e a Figura 3.15 ilustram a aproximao da soluo fornecida

pela rede neural com a soluo analtica e o mtodo de diferenas finitas de uma rede
treinada com o mtodo da Descida mais ngreme e com uma rede treinada pelo mtodo
de Levenberg-Marquardt respectivamente.
mais ngreme.
64
Marquardt.
Nas Figuras 3.14 e 3.15 foi observado, que diferente dos problemas de
equaes diferenciais ordinrias de 1 ordem, o mtodo da descida mais ngreme possui
uma melhor preciso comparado ao mtodo de Levenberg-Marquardt. No problema 3
observa-se tambm que o mtodo de diferenas finitas teve uma preciso inferior aos
mtodos utilizado pela rede.
As Figuras 3.16 e 3.17 mostram a desvio da soluo exata correspondente

ao mtodo da descida mais ngreme e o do mtodo de Levenberg-Marquardt, os quais
notou-se, que o primeiro se mostra bem menor que o desvio do mtodo de Levenberg-
Marquardt.
Figura 3.16 - Problema 3; Desvio do Mtodo da Figura 3.17 - Problema 3; Desvio do Mtodo de
Descida mais ngreme. Levenberg-Marquardt..
65
A Figura 3.18 mostra a aproximao do problema 3 da rede neural s que
agora para os dois pontos da condio de fronteira de Dirichlet, neste caso: ( ) e
( ) ( ) , . A forma neural desejada ( ) ( ) (
) ( ) dada pela equao (2.9).
Figura 3.18 - Problema 3; Aproximao da soluo fornecida pela rede neural do problema 3 com condio
de fronteira de Dirichlet.
Para ambos os casos de condies (iniciais ou de fronteira) os mtodos satisfazem

a soluo analtica, o que nos mostra a eficincia da rede. observado na Figura 3.18
que o mtodo da rede em ambos os caso tem a mesma preciso enquanto que a preciso
do mtodo de diferenas finitas vai aumentar conforme o refinamento da malha, este
fato observado quando comparado as Figuras 3.14, 3.15 e 3.18 onde as duas primeiras
tem um passo de 0.2 enquanto que a ultima tem um passo 0.1.
As Figuras 3.19, 3.20 e 3.21 mostra como o problema 3 se comporta em uma

malha com mil pontos equidistantes.
66
Observa-se na figura acima que o mtodo da descida mais ngreme apresenta um

desvio bem menor em comparao ao mtodo de Levenberg-Marquardt.
mais ngreme.
67
Marquardt.
As Figuras 3.20 e 3.21 reforam a anlise feita nas figuras anteriores, pois a
aproximao do mtodo da descida mais ngreme representado na Figura 3.20 mostra
uma aproximao melhor que a mostrada no mtodo de Levenberg-Marquardt na Figura
3.21.
Tabela 3.3 - Problema 3; Quantidades de pocas dos mtodos da descida mais ngreme e Levenberg-Marquardtpara.

ngreme Marquardt
poca 3422 204
3.3.2 Problema 4
( )
Com ( ) ( ) com . A soluo analtica exata

( ) ( ) ( ) e a forma neural desejada, de
acordo com (2.9), da soluo escrita como ( ) ( ).
A mesma interpretao das figuras do Problema 3 feito para as prximas

figuras.
As Figuras 3.22 e 3.23 mostram a aproximao da rede treinada pelo mtodo

da descida mais ngreme e Levenberg-Marquardt respectivamente.
68
Figura 3.22 Problema 4; Aproximao da soluo fornecida pela rede neural treinada pelo mtodo da Descida
mais ngreme.
Figura 3.23 Problema 4; Aproximao da soluo fornecida pela rede neural treinada com o mtodo de Levenberg-
Marquardt.
As Figuras 3.24 e 3.25 mostram seus respectivos desvios .
69
Figura 3.24 Problema 4; Desvio do Mtodo da Figura 3.25 Problema 4; Desvio do Mtodo de
Descida mais ngreme. Levenberg-Marquardt.
As Figuras 3.22 e 3.23 mostram claramente que o mtodo da descida mais

ngreme neste problema teve uma melhor aproximao quando comparado ao mtodo
de Levenberg-Marquardt, em seguida as Figuras 3.24 e 3.25 vem reforando essa
anlise, pois mostra que o mtodo da descida mais ngreme tem um desvio mximo
prximo a que se mostra melhor que o desvio mximo do mtodo de
Levenberg-Marquardt que est prximo a .
Igualmente aos casos anteriores as Figuras 3.26, 3.27 e 3.28 mostram como a rede
se comporta em sua fase operacional em uma malha com mil pontos.
Figura 3.26 Problema 4; Aproximao da soluo fornecida pela rede neural treinada pelo mtodo da Descida
mais ngreme.
70
Figura 3.27 Problema 4; Aproximao da soluo fornecida pela rede neural treinada com o mtodo de Levenberg-
Marquardt.
Observa-se nas Figuras 3.26 e 3.27 acima que o mtodo da descida mais ngreme
se mostra com uma melhor aproximao da soluo analtica.
Levenberg-Marquardt
A Figura 3.28 esta de acordo com as anlises feitas anteriormente e refora que
o mtodo da descida mais ngreme teve uma melhor aproximao, pois como pode ser
observado o desvio do mesmo permanece bem prximo de 0.
71

ngreme Marquardt
poca 4195 528
observado nas Tabelas 3.3 e 3.4 que em ambas as edos de 2 ordem

(problema 3 e 4), o mtodo de Levenberg-Marquardt foi mais rpido (como j era de se
esperar) em comparao ao mtodo da descida mais ngreme, porm nesse caso ao
contrario das edos de 1 ordem, o mtodo da descida mais ngreme apresenta uma
preciso melhor em comparao ao mtodo de Levenberg-Marquardt.
3.4 - A REDE NEURAL PARA SOLUO DE SISTEMA ACOPLADO

DE EDOs:
Consideramos o sistema acoplado de duas EDOs de primeira ordem.
3.4.1 Problema 5
( ) ( ( ))
{
( ) ( )
Com e ( ) e ( ) . A soluo anlica exata so

( ) ( ) e ( ) . De acordo com (2.11) as formas neurais
desejadas so ( ) ( ) e ( ) ( ) .
So mostrados nas Figuras 3.29 e 3.30 respectivamente a aproximao das

solues fornecidas pela rede neural com as solues analticas e as solues obtida
pelo mtodo de Runge-Kutta.
72
mais ngreme.
Marquardt.
Atravs das Figuras 3.29 e 3.30, fica claro que, no caso desse sistema acoplado,
a rede tem uma aproximao to boa quanto, em alguns pontos at melhor, que o
mtodo de Runge-Kutta, onde o mtodo de Runge-Kutta s vai obter uma boa
aproximao do problema quando a malha for refinada, enquanto que a rede permanece
com uma boa aproximao.
73
As Figuras 3.31 e 3.32 mostram o desvio da 1 equao do sistema e as Figuras
3.33 e 3.34 mostram o desvio da 2 equao do sistema.
Figura 3.31 - Problema 5; Desvio da 1 equao com Figura 3.32 - Problema 5; Desvio da 1 equao com
Mtodo da Descida mais ngreme. o Mtodo de Levenberg-Marquardt..
Figura 3.33 - Problema 5; Desvio da 2 equao com Figura 3.34 - Problema 5; Desvio da 2 equao com
Mtodo da Descida mais ngreme. o Mtodo de Levenberg-Marquardt..
As Figuras 3.31, 3.32, 3.33 e 3.34 mostram que ambos os mtodos se mostram
com uma boa aproximao, porm pode-se notar que os desvios mximos, de ambas as
equaes (1 e 2), com o mtodo de Levenberg- Marquardt menor em comparao com
os desvios mximos do mtodo da descida mais ngreme.
74
As Figuras 3.35, 3.36, 3.37 e 3.38 mostram como o sistema se comporta em
uma malha de 1000 pontos equidistantes sendo que, igual aos casos anteriores, somente
10 pontos foram treinados.
mais ngreme.
Levenberg-Marquardt..
Nas Figuras 3.35 e 3.36 quase imperceptvel, em ambos os mtodos, a

diferena entre a aproximao obtida pela rede e a soluo analtica.
Figura 3.37 - Problema 5; Desvio da 1 equao obtido pelo mtodo da Descida mais ngreme e pelo mtodo
de Levenberg-Marquardt.
Figura 3.38 - Problema 5; Desvio da 2 equao obtido pelo mtodo da Descida mais ngreme e pelo mtodo
de Levenberg-Marquardt.
As Figuras 3.37 e 3.38 mostram que os desvios do mtodo de Levenberg-

Marquardt esto menores que os desvios do mtodo da descida mais ngreme, o que
mostra uma melhor preciso nesse mtodo em comparao ao mtodo da Descida mais
ngreme.
76

ngreme Marquardt
poca 80220 1715
No caso do sistema acoplado de edos (problema 5) foi notado que o mtodo de

Levenberg-Marquardt teve uma pequena oscilao, mesmo com isso sua convergncia
foi bem mais rpida comparada ao mtodo da descida, fato esse observado na Tabela
3.5.
3.5 - A REDE NEURAL PARA SOLUO DE EDPs.
Ns consideramos um problema com valor de fronteira de Dirichlet e

Neumann, no qual definido sobre o domnio de . A rede foi treinada com
uma malha de 100 pontos obtidos por considerar dez pontos equidistantes no domnio
[0,1]. Assim como nos caso anteriores considerado uma rede com a arquitetura do
perceptron de mltiplas camadas, com duas unidades de entrada (considerando as
coordenadas x e y para cada ponto), dez unidades com a funo sigmide na camada
oculta e uma unidade de sada linear.
3.5.1 Problema 6
( ) ( )
Com e a condio de contorno de Dirichlet: ( ) ,

( ) ( ) e ( ) , ( ) ( ). A soluo analtica
( ) ( ) . Usando (2.14) temos que a Soluo aproximada pode ser escrita
como: ( ) ( ) ( ) ( ) ( ) onde ( ) obtido da
substituio direta na equao geral dada em (2.15).
( ) ( ) ( ) ( ) ( )
( ) ( )
As Figuras 3.39, 3.40, 3.41 e 3.42 mostram respectivamente a soluo analtica da

Edp, a soluo fornecida pela rede treinada com o mtodo da descida mais ngreme, a
soluo fornecida pela rede treinada com o mtodo de Levenberg-Marquardt e a soluo
fornecida pelo mtodo de diferenas finitas.
77
Figura 3.39 Problema 6; Soluo analtica da Edp.
Figura 3.40 Problema 6; Soluo fornecida pela Figura 3.41 Problema 6; Soluo fornecida pela
rede treinada com o mtodo da descida mais ngreme. rede treinada com o mtodo de Levenberg-
Marquardt.
Figura 3.42 Problema 6; Soluo fornecida pelo mtodo de diferenas finitas.
78
Observa-se que praticamente impossvel fazer uma anlise de qual a melhor
aproximao, devido a similaridade das figuras, por isso foi feito a anlise dos desvios
correspondentes das mesmas, nas Figuras 3.43, 3.44, 3.45 e 3.46.
Figura 3.43 - Problema 6; Desvio obtido pelo mtodo da Descida mais ngreme.
Figura 3.44 - Problema 6; Desvio obtido pelo mtodo de Levenberg-Marquardt.
79
Figura 3.45 - Problema 6; Desvio obtido pelo mtodo de diferenas finitas
Observa-se nas Figuras 4.43, 4.44 e 4.45 que a rede possui uma preciso to boa
quanto o mtodo de diferenas finitas, alm disso, nota-se, tambm, que o mtodo da
descida mais ngreme obteve uma melhor preciso comparada ao mtodo de Levenberg-
Marquardt, pois seu desvio mximo est prximo de enquanto que o mtodo de
Levenberg-Marquardt possui um desvio prximo a .
A Figura 3.46 mostra a aproximao do problema 6 em uma malha de

500x500.
80
Figura 3.46 Problema 6; Soluo fornecida pelo mtodo da descida mais ngreme.
A Figura 3.46 mostra a capacidade de generalizao que a rede possui, pois, como
j foi dito, foram treinados de 10x10 e utilizamos esses pesos j treinados em uma
malha 500x500 e como observado a sua preciso continua a mesma. Este fato
observado tambm na Figura 4.47 a seguir que mostra que o desvio mximo obtido pelo
mtodo da descida mais ngreme, continua o mesmo na malha de 500x500 pontos.
Figura 3.47 - Problema 6; Desvio obtido pelo mtodo da Descida mais ngreme

ngreme Marquardt
poca 4620 323
Na Tabela 3.6 nota-se que o mtodo da descida mais ngreme possui um tempo
computacional bem maior que o mtodo de Levenberg-Marquardt e que por outro lado
foi visto na anlise das Figuras 3.43 e 3.44 que o mtodo da descida mais ngreme
possui melhor preciso comparado ao mtodo de Levenberg-Marquardt.
3.5.2 Problema 7
81
( ) ( ) ( )
Com e com condies de contorno mista: ( ) ,

( )
( ) e ( ) , ( ). A soluo analtica ( )
( ), e de acordo com (2.16) a soluo aproximada pode ser escrita como:
( )
( ) ( ) ( ) [ ( ) ( ) ] onde ( )
obtido na substituio direta na equao geral dada em (2.17) que vai resultar.
( ) ( )
A Figura 3.48 mostra a soluo analtica da equao do problema 7.
Figura 3.48 Problema 7; Soluo analtica da Edp
As Figuras 3.49, 3.50 e 3.51 mostram os desvios correspondente ao mtodo da

descida mais ngreme, ao mtodo de Levenberg-Marquardt e ao mtodo de diferenas
finitas, respectivamente.
82
Figura 3.49 Problema 7; Desvio fornecido pelo mtodo da descida mais ngreme
Figura 3.50 Problema 7; Desvio fornecido pelo mtodo de Levenberg-Marquardt
83
Figura 3.51 Problema 7; Desvio fornecido pelo mtodo de Diferenas finitas
Observa-se nas Figuras 3.49, 3.50 e 3.51 que a rede possui uma preciso to boa
quanto o mtodo de diferenas finitas, em alguns casos at melhor, alm disso nota-se,
tambm, que ao contrario da Edp do problema 6, neste problema o mtodo de
Levenberg-Marquardt obteve uma melhor preciso comparada ao mtodo da descida
mais ngreme e ate mesmo ao de diferenas finitas, pois seu desvio mximo est
prximo de enquanto que o mtodo da descida mais ngreme possui um desvio
prximo a .
As Figuras 3.52 e 3.53 mostram que o problema continua com uma boa
aproximao em uma malha de 500x500.
Figura 3.52 Problema 7; Soluo fornecida pelo mtodo de Levenberg-Marquardt.
84
Figura 3.53 - Problema 7; Desvio obtido pelo mtodo de Levenberg-Marquardt.

ngreme Marquardt
poca 1.282 50.275
Todos os problemas de Edps (problema 6 e 7) so treinados em um domnio

retangular de 10x10 elementos.
bvio que nos pontos de treinamento a soluo do mtodo de diferenas finitas

e o mtodo de Runge-Kutta muito satisfatria e, em alguns casos, melhor do que a
obtida utilizando o mtodo neural, porm o mtodo neural fornece
solues de excelente preciso nos pontos de operao, uma vez que, a aproximao da
rede em uma malha 500x500 continua boa e seu desvio continua com a mesma preciso
que o desvio em seus pontos de treinamento (na malha 10x10).
RESULTADOS DE TESTES COM MENOS NEURNIOS NA CAMADA

OCULTA.
85
Abaixo ser mostrada, atravs das Tabelas 3.8, 3.9, 3.10 e 3.11, como a rede se
comporta com uma quantidade de neurnios, na camada oculta, inferior utilizada nos
treinamentos anteriores.
Tabela 3.8 - Convergncia de edos de 1 ordem (problema 1) para uma rede com neurnios menores que 10.
Problema 1 2 neurnios 4 neurnios 6 neurnios 8 neurnios

M. descida Convergiu Convergiu Convergiu Convergiu
mais ngreme (3985-pocas) (596-pocas) (557-pocas) (535-pocas)
Erro 0.0092 Erro 0.0088 Erro 0.0096 Erro 0.0090
M. Levenberg- No convergiu Convergiu Convergiu Convergiu
Marquardt Para resposta (93-pocas) (350-pocas) (139-pocas)
certa Erro 0.0052 Erro 0.0055 Erro 0.0056
(com outros
pesos ele
chegou a
convergir)
Tabela 3.9 - Convergncia de edos de 2 ordem (problema 3) para uma rede com neurnios menores que 10.

Erro 0,0022 Erro 0,0026 Erro 0,0061 Erro 0,0058
M. Levenberg- Convergiu No convergiu Convergiu Convergiu
Marquardt (104-pocas) (Matriz (453-pocas) (62-pocas)
Erro 0,0315 singular) Erro 0,1530 Erro 0,1623
Tabela 3.10 - Convergncia do sistema acoplado de edos (problema 5) para uma rede com neurnios
menores que 10.

Erro1-0,1585 Erro1-0,18 Erro1-0,14 Erro1-0,035
Erro2-0,2154 Erro2-0,6 Erro2-0,4 Erro2-0,12
M.Levenberg- No convergiu No convergiu Convergiu No convergiu
Marquardt pra resposta pra resposta (1697-pocas) (Matriz
certa certa Erro1-0.03 singular)
Erro2-0.045
Tabela 3.11 - Convergncia de edps (problema 6) para uma rede com neurnios menores que 10.

mais ngreme (3743-pocas) (2187-poca) (2340-poca) (3467-poca)
Erro- Erro- . Erro- Erro-
86
M.Levenberg- Convergiu Convergiu Convergiu Convergiu
Marquardt (213-pocas) (45-pocas) (212-pocas) (1092-pocas)
Erro- Erro- Erro- Erro-
Mesmo com menos neurnios observamos que o mtodo da descida mais ngreme
sempre converge para resposta certa. No caso de edos de 1 ordem o mtodo de
Levenberg-Marquardt continua mais preciso que o mtodo da descida mais ngreme e
com a convergncia mais rpida, porm essa convergncia nem sempre garantida, pois
no para todos os pesos iniciais que a rede vai convergir com dois neurnios.
Para edos de 2 ordem o mtodo da descida mais ngreme se mostra com uma
preciso melhor em todos os casos citados na Tabela 3.9 comparado ao mtodo de
No caso do sistema acoplado de edos de 1 ordem a Tabela 3.10 mostra que o

mtodo da descida mais ngreme se mostra mais preciso e mostra novamente que a
convergncia do mtodo de Levenberg-Marquardt no garantida.
J no caso da edp do problema 6, houve convergncia com quase a mesma

preciso, para todos os testes com menos neurnios, em ambos os mtodos (Levenberg-
Marquardt e descida mais ngreme), porm o mtodo da descida mais ngreme teve sua
preciso melhor.
87
Consideraes finais e trabalhos futuros
Este trabalho discute e avalia o mtodo de resoluo de equaes diferenciais
ordinrias e parciais atravs da utilizao de redes neurais artificiais, utilizando os
mtodos de Levenberg-Marquardt e o mtodo da descida mais ngreme para otimizao
da rede.
As redes neurais apresentaram bom desempenho de aproximao em todos os

problemas utilizados neste trabalho. Foi observado que o sucesso do mtodo se d por
dois fatores. O primeiro o emprego de redes neurais redes que so excelentes
aproximadores de funo e o segundo a forma da soluo teste que satisfaz por
construo as condies de fronteira. Nota-se tambm que redes neurais para resolver
equaes diferenciais exibe um excelente desempenho de generalizao, pois em todos
os casos as redes foram treinadas com 10 pontos equidistantes (pontos de treinamento) e
foram testada em uma malha 100 pontos (pontos teste) e a preciso permaneceu boa.
Para o treinamento da rede, foram aplicados as tcnicas de otimizao da

descida mais ngreme, que um mtodo de mais fcil implementao, pois no precisa
do calculo da matriz jacobiana, e o mtodo de Levenberg-Marquardt, que possui uma
convergncia bem mais rpida que o mtodo da descida mais ngreme.
Ambos os mtodos apresentaram boa aproximao, dependo do tipo de

equao diferencial, uma tcnica apresentou preciso melhor que a outra, por exemplo:
nas equaes diferenciais ordinrias de 1 ordem, no sistema acoplado de equaes
diferenciais de 1 ordem e na equao diferencial de parcial com condies mistas
(Dirichlet e Neunman) o mtodo de Levenberg-Marquardt obteve uma melhor
aproximao. Enquanto que nas equaes diferenciais de 2 ordem e na equao
diferencial parcial com condio de contorno de Dirichlet a descida mais ngreme obteve uma
melhor preciso.
Foram feitos teste com menos neurnios na camada oculta, e verificou-se que,
na maioria dos casos, existe convergncia sem perda considervel de preciso. Porm,
no tentou-se encontrar configuraes timas ou considerar arquiteturas que contenham
mais de uma camada oculta. Um estudo sobre o efeito da arquitetura neural sobre a
qualidade da soluo pode ser uma questo a ser analisada futuramente.
Uma questo a ser analisada, tambm, est relacionada com a taxa de

aprendizagem e com a amostragem dos pontos da grade que so usados para o
treinamento. Neste trabalho foi utilizado uma taxa de aprendizagem constante e
considerado uma malha de pontos equidistantes. Espera-se que melhores resultados
sejam obtidos no caso em que a densidade da malha e a taxa de aprendizagem ir variar
durante o treinamento de acordo com os valores.
Outra sugesto para soluo de ED incorporar as condies de contorno e/ou

iniciais na sada da rede neural.
88
89
Referncias Bibliogrficas
Aarts, L. P. and Veer, P. V. D. Neural Network Method for Solving Partial Differential
Equations.Neural Processing Letters 14: 261-271, 2001.
Haykin,S. Redes Neurais: Princpios e Prtica, 2 ed, Porto Alegre: Bookman, 2001.
Kozek, T., Chua,L. O.,Roska,T., Wolf,D.,Tetzlaff , R.,Puffer, F. andLotz,K.Simulating

Nonlinear Waves and Partial Differentail Equations via CNN Part II: Typical
Examples. IEEE Trans. Circuits and Systems-I: Fund. Theory and Aplic, Vol 42,
No. 10, October 1995.
Lagaris, I. E., Likas, A. end Fotiadis, D. I. Artificial Neural Networks for Solving
Ordinary and Partial Differential Equations. IEEE Trans. On Neural Networks, Vol
9, No. 5, September 1998.
Ludwig Jr, O. e Costa, E. M. M. Redes Neurais: Fundamentos e Aplicaes com

Programas em C Rio de Janeiro: Editora Cincia Moderna Ltda. 2007.
McCulloch, W. S., Pitts. W. (1943); A logical calculus of the ideas immanent in nervous
activity. Bulletin of Mathematical Biophysics, vol. 5, pp. 115-133.
Minsky, M. L., Papert, S. A. (1969); Perceptrons: an introduction to computational

geometry. The MIT Press, Cambridge, Massachusetts, USA
Parisi, D. R., Mariani, M. C. and Laborde, M. A. Solving differential equations with

unsupervised neural networks. Chemical Engineering and processing 42: 715-721,
2003.
Rumelhart, D. E., Hinton, G. E., Willians, R. J. (1986); Learning internal represetations

by error propagation. In: Parallel Distributed Processing, vol. 1, chapter 8. MIT
Press, Cambridge, Massachusetts, USA.
Shirvany, Y., Hayati, M. and Moradian, R. Multilayer perceptron neural networks with
novel unsupervised training method for numerical solution of the partial differential
equations. Applied Soft Computing 9: 20-29, 2009.
Silva, I. N. da, Spatti, D. H. e Flauzino, R. A. Redes Neurais Artificiais: Para

engenharia e cincias aplicadas - So Paulo: Artliber, 2010.
Tsoulos, I. G., Gavrilis, D. and Glavas, E. Solving differential equations which

constructed neural networks. Neurocomputing 72: 2385-2391, 2009.
Van Milligen, B. Ph., Tribaldos, V. and Jimnez, J. A. Neural network Differential

Equation and Plasma Equilibrium Solver. Physical Review Letters, Vol 75, No. 20,
November 1995.
90

Equações Diferenciais Usando Redes Neurais

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Equações Diferenciais Usando Redes Neurais

Hochgeladen von

Copyright:

Verfügbare Formate

UNIVERSIDADE FEDERAL DO PAR

INSTITUTO DE CINCIAS EXATAS E NATURAIS

PROGRAMA DE PS-GRADUAO EM MATEMTICA E ESTATSTICA

Brigida Cristina Fernandes Batista

Solues de Equaes Diferenciais Usando Redes Neurais de

Solues de Equaes Diferenciais Usando Redes Neurais de

Dissertao apresentada ao Programa de

rea de Concentrao: Matemtica Aplicada.

Orientador: Prof. Dr. Valcir Joo da Cunha Farias.

Esta Dissertao foi julgada pelo Corpo Docente do Programa de Ps-Graduao em

Belm, 29 junho de 2012

Prof. Dr. Valcir Joo da Cunha Farias (Orientador)

Universidade Federal do Par UFPA PPGME

Prof. Dr. Arthur da Costa Almeida (Membro)

Universidade Federal do Par UFPA

Prof. Dr. Celsa Hermnia de Melo Maranho (Membro)

Universidade Federal do Par - UFPA

Prof. Dr. Regivan Hugo Nunes Santiago (Membro)

Universidade Federal do Rio Grande do Norte UFRN - DIMAP

minha querida e amada Me Ana Cristina R. Fernandes.

Agradeo primeiramente e acima de tudo a Deus.

Ao meu orientador Valcir Farias por sua pacincia, companheirismo e amizade.

Ao meu irmo Renan Batista pela torcida e pacincia.

Capitulo 1 - REDES NEURAIS 14

1.2 O neurnio biolgico.......................................................................................14

1.3 O neurnio artificial........................................................................................15

1.3.1 Funes de ativao................................................................................17

1.4 Arquitetura das redes neurais e processo de treinamento...............................18

1.4.2 - Recorrente ou realimentada.....................................................................19

1.4.3 - Processos de treinamento e aspectos de aprendizado.............................20

1.4.3.1 Treinamento supervisionado............................................................20

1.4.3.2 Treinamento no-supervisionado.....................................................20

1.4.3.3 Aprendizagem usando lote de padres (off-line).............................20

1.4.3.4 Aprendizagem usando lote de padro-por-padro (on-line)............21

1.5 - Alguns modelos de redes Neurais Artificiais:..................................................21

1.5.1 - Rede Perceptron........................................................................................21

1.5.1.1 Princpio de funcionamento do Perceptron.....................................21

1.5.1.2 Analise matemtica do Perceptron..................................................22

1.5.1.3 Processo de treinamento do Perceptron...........................................23

1.5.2 - Rede Adaline............................................................................................24

1.5.2.1 Princpio de funcionamento do Adaline..........................................25

1.5.2.2 Processo de treinamento do Adaline................................................25

1.5.2.3 Comparao entre o processo de treinamento do Adaline e

1.5.3.1 Princpio de funcionamento do PMC.............................................28

1.5.3.2 Processo de treinamento do PMC...................................................29

1.5.3.2.1 Derivao do algoritmo backpropagation...............................29

1.5.3.2.1.1 Ajuste dos pesos sinpticos da camada de sada.............32

1.5.3.2.1.2 Ajuste dos pesos sinpticos da camada intermediria.....33

1.5.3.2.2 - Outra verso do algoritmo backpropagation............................36

1.5.3.2.2.1 Mtodo de Levenberg-Marquardt....................................36

2.2 Descrio do mtodo.......................................................................................39

2.3 Ilustrao do mtodo.......................................................................................40

2.3.1 - Solues de EDOs de 1 ordem..............................................................40

2.3.2 - Solues de EDO de 2 ordem.................................................................41

2.3.3 - Solues de Sistema acoplado de EDOs de 1 ordem............................41

2.3.4 - Solues de EDPs...................................................................................41

2.4 Clculo do gradiente.......................................................................................42

2.4.1 - Equao Diferencial Ordinria (EDO) de primeira ordem......................43

2.4.2 - Equao Diferencial Ordinria (EDO) de segunda ordem......................45

2.4.3 - Sistema Acoplado de Equaes diferencial Ordinria (EDOs)..............49

2.4.4 - Equao Diferencial Parcial (EDP).........................................................52

3.2 - A Rede Neural para soluo de Edos de primeira ordem..............................55

3.2.1 Problema 1..............................................................................................55

3.2.2 Problema 2..............................................................................................59