Sie sind auf Seite 1von 12

Um Modelo Neuro-Evolutivo de Coordenao

Adaptativa em Ambientes Dinmicos



Deise Crtes Luis Otvio Campos Alvares

{deisesc,alvares}@inf.ufrgs.br
Universidade Federal do Rio Grande do Sul - UFRGS
Instituto de Informtica
Av. Bento Gonalves, 9500 - Campus do Vale - Bloco IV
Bairro Agronomia - Porto Alegre - RS -Brasil
CEP 91501-970 Caixa Postal: 15064

Resumo
Em ambientes dinmicos e complexos, a poltica tima de coordenao no pode ser derivada
analiticamente, mas deve ser aprendida atravs da interao direta com o ambiente. Geralmente,
utiliza-se aprendizado por reforo para prover coordenao em tais ambientes. Atualmente, neuro-
evoluo um dos mtodos de aprendizado por reforo mais proeminentes. Neste trabalho,
proposto um modelo de coordenao baseado em neuro-evoluo. Foi desenvolvida uma extenso
do mtodo neuro-evolutivo conhecido como Enforced Subpopulations (ESP). Na extenso
desenvolvida, a rede neural que define o comportamento de cada agente totalmente conectada.
Adicionalmente, permitido que o algoritmo encontre, em tempo de treinamento, a quantidade de
neurnios que deve estar presente na camada oculta da rede neural de cada agente. Esta alterao
alm de oferecer flexibilidade na definio da topologia da rede de cada agente e diminuir o tempo
necessrio para treinamento, permite tambm a constituio de grupos de agentes heterogneos. Os
experimentos realizados mostraram que os agentes treinados com o modelo proposto possuem
capacidade de se adaptar a alteraes no ambiente em tempo de execuo. O modelo foi aplicado no
domnio das tarefas de perseguio-evaso.
Palavras-Chave: Sistemas Multiagentes, Coordenao, Neuro-evoluo, Redes Neurais,
Algoritmos Genticos.

1. Introduo
No contexto de sistemas multiagentes, coordenao o processo pelo qual um agente raciocina
sobre suas aes locais e as aes dos outros para tentar garantir que a comunidade se comporte de
forma coerente. Em ambientes dinmicos e complexos a poltica tima de coordenao no pode ser
derivada analiticamente, mas deve ser aprendida atravs da interao direta com o ambiente.
Aprendizado por reforo a tcnica geralmente utilizada para prover a coordenao de agentes em
tais ambientes (HAYNES 1995, HAYNES 1996, MORIARTY 1997, YONG 2001). Na
aprendizagem por reforo, os agentes aprendem atravs de sinais que fornecem alguma medida de
desempenho aps a realizao de uma seqncia de aes.
Existem duas estratgias bsicas para a soluo de problemas de aprendizagem por reforo. A
primeira a busca no espao de comportamentos, procurando por um comportamento que
desempenhe bem no ambiente. Esta abordagem vem sendo geralmente implementada com
algoritmos genticos e programao gentica. A segunda estratgia mais tradicional o uso de
tcnicas estatsticas e mtodos de programao dinmica que estimam a utilidade de determinadas
aes no espao de estados do ambiente (mundo).
Segundo Kaelbling (1996) no claro qual conjunto de abordagens melhor e em que
circunstncias. Contudo, os mtodos tradicionais de aprendizado por reforo que utilizam
programao dinmica, se apiam num mapeamento dos estados e aes do mundo, tornando-os
menos extensveis. Assim, quanto mais o espao de estados e aes do mundo crescer, mais lento
ser o processo de aprendizagem. Alguns pesquisadores (YONG 2001, MORIARTY 1997)
constataram solues mais rpidas e eficientes ao utilizarem neuro-evoluo, um dos mtodos
disponveis para aprendizado por reforo em ambientes dinmicos.
Moriarty (1997) mostra que mtodos evolucionrios tm vantagem sobre os mtodos tradicionais de
aprendizado por reforo por terem um mecanismo de atribuio de crdito mais robusto. Outros
pesquisadores (BELEW 1993, NOLFI 1994) descobriram que a neuro-evoluo, ou evoluo
simulada de redes neurais, uma estratgia efetiva para resolver problemas de aprendizado por
reforo, mesmo quando o sinal de esforo esparso. Portanto, mesmo quando o agente s
avaliado aps a execuo de uma seqncia de aes e no para cada ao tomada individualmente.
Neste trabalho, prope-se um modelo de coordenao baseado em neuro-evoluo. Estendemos o
Enforced Subpopulations, mtodo de neuro-evoluo proposto por Gomez (1997), permitindo maior
flexibilidade na definio da topologia da rede neural de cada agente.
Na prxima seo, fornecida uma breve descrio de neuro-evoluo. Na seo 3, abordada a
neuro-evoluo. Na seo 4, apresentamos o modelo proposto. Na seo 5, mostramos alguns dos
experimentos realizados. Por fim, na seo 6, este artigo concludo.

2. Neuro-Evoluo
Neuro-evoluo um mtodo de aprendizado por reforo, no qual a busca pelo comportamento
ideal implementada atravs do aprendizado de redes neurais por algoritmos genticos. Na neuro-
evoluo, cromossomos representam parmetros das redes neurais, que podem ser, por exemplo,
pesos, limites e conectividade. Estes cromossomos so recombinados baseados no princpio de
seleo natural com o objetivo de se encontrar uma rede neural satisfatria para um dado problema.
Embora a pesquisa que vem sendo realizada na rea de Redes Neurais tenha levado descoberta de
vrios resultados tericos e empricos e ao desenvolvimento de vrias aplicaes prticas nas
ltimas dcadas, o projeto de redes neurais para aplicaes especficas ainda um processo de
tentativa e erro, onde, geralmente se leva em considerao a experincia passada em aplicaes
similares.
O desempenho de redes neurais em problemas particulares criticamente dependente, entre outras
coisas, do nmero de neurnios, da arquitetura e do algoritmo de aprendizagem utilizado
(MORIARTY 1997). Estes fatores tornam o processo de projeto de redes neurais uma tarefa difcil.
A falta de bons princpios para projeto constitui o maior obstculo no desenvolvimento de sistemas
de redes neurais em larga escala para uma variedade de problemas prticos.
Algoritmos evolucionrios, por sua vez, oferecem uma abordagem aleatria, relativamente
eficiente, para busca por solues quase timas em uma variedade de domnios de problemas. O
projeto de redes neurais eficientes para classes especficas de problemas , portanto, um candidato
natural para a aplicao de algoritmos evolucionrios.
Os processos chaves na abordagem evolucionria para o projeto de arquiteturas neurais so
ilustrados na Figura 1:

Figura 1: Processos da abordagem evolucionria.

O procedimento neuro-evolucionrio trabalha em uma populao de cromossomos,
preferencialmente selecionando e reproduzindo aqueles que codificam redes neurais com melhores
aptides. Operadores genticos, tais como mutao, recombinao, inverso, etc..., so usados para
introduzir diversidade na populao. Logo, aps vrias geraes, a populao evolui gradualmente
para cromossomos que correspondem s melhores redes neurais.
O Enforced Sub-Populations (ESP) um mtodo neuro-evolutivo proposto por Gomez (1997). No
ESP, a populao consiste de neurnios individuais em vez de redes inteiras, e a rede formada por
um subconjunto de neurnios. Existe uma populao de neurnios para cada um dos u neurnios
presentes na camada oculta da rede, e um neurnio pode ser recombinado somente com neurnios
de sua prpria sub-populao. Vide Figura 2.
Cada populao de neurnios tende a convergir para um papel que apresenta as melhores aptides
quando a rede avaliada. Desta forma, ESP decompe o problema de encontrar uma rede
satisfatria em vrios problemas menores. Segundo Yong (2001), esta abordagem resulta em uma
evoluo mais eficiente.

Figura 2: Neuro-evoluo em ESP.



Ambiente
da Tarefa
Cromossomo
Redes Neurais
Treinando
Rede Neural
Filhos
Seleo
Mutao
bi
Avaliao da Aptido
Decodificao
Componente Evolucionrio
Componente de Aprendizagem
3. Modelo Neuro-Evolutivo
A base do modelo proposto de coordenao adaptativa uma extenso do ESP, descrito na seo
anterior. Na nossa extenso, cada neurnio da camada oculta se conecta com todos os neurnios da
camada de entrada e todos os neurnios da camada de sada, ou seja, a rede que descreve o
comportamento de cada agente uma 2-layer-feedforward totalmente conectada.
Contudo, a diferena mais importante do presente modelo que a topologia da rede no fixa.
Embora seja possvel definir o tamanho mximo de neurnios na camada oculta, de
responsabilidade do algoritmo buscar uma quantidade de neurnios ocultos que possibilite aos
agentes executarem bem a tarefa. Desta forma, reduz-se a complexidade da topologia da rede.
Adicionalmente, alguns experimentos, descritos na seo 5, comprovaram que o tempo de
treinamento reduzido significantemente a medida que diminumos a quantidade de neurnios na
camada oculta.
No passo 2 do algoritmo evolucionrio proposto, descrito na Figura 3, uma nova rede neural
experimental construda para cada agente. No sub-passo b, definido, aleatoriamente, quantos s
neurnios devem existir na camada oculta. Posteriormente, no passo c, um neurnio escolhido
aleatoriamente da populao correspondente, isto , o neurnio i escolhido aleatoriamente da
populao de neurnios i, onde i varia de 1 a s.










Figura 3: Algoritmo bsico de treinamento.
De acordo com a complexidade da tarefa, algumas vezes no possvel obter um comportamento
coerente do agente com evoluo direta. Gomez (1997) prope uma abordagem em que
comportamentos complexos so obtidos atravs de um aprendizado incremental, isto , os agentes
so inicialmente treinados em tarefas mais simples e a medida que seus comportamentos
convergem, o grau de dificuldade da tarefa aumentado, tornando-a cada vez mais complexa.
O algoritmo de Delta-Coding foi utilizado para implementar as transies para tarefas cada vez
mais complexas. A idia do Delta-Coding (WHITLEY 1991) buscar modificaes timas para a
melhor soluo corrente. Quando a populao de solues candidatas converge, Delta-Coding salva
a melhor soluo corrente e inicializa uma populao de cromossomos chamadas cromossomos.
Os cromossomos possuem a mesma quantidade de genes que os cromossomos da melhor soluo
corrente, e eles consistem de valores que representam a diferena da melhor soluo. Uma nova
populao evoluda, selecionando-se cromossomos, adicionando seus valores a melhor
soluo corrente e avaliando o resultado. Os cromossomos que melhoram o resultado so
selecionados para reproduo. Logo, Delta-Coding explora a vizinhana da melhor soluo. Delta-
1. Crie p populaes de neurnios ocultos para a rede neural de cada agente, onde p o tamanho
mximo da camada oculta.
2. Para cada agente
a. Zere os valores de aptido de cada neurnio
b. Gere um inteiro s [0,p]
c. Crie uma rede neural com s neurnios ocultos obtidos aleatoriamente da respectiva
populao
3. Avalie os agentes de acordo com uma funo de aptido apropriada para a tarefa.
4. Para cada agente
a. Adicione a aptido para a varivel de aptido de cada neurnio que participou da rede
5. Repita os passos de 2 a 4 um nmero suficiente de vezes
6. Calcule a aptido mdia de cada neurnio, dividindo seu valor total de aptido pelo nmero de
redes em que ele participou.
7. Execute operaes de recombinao na populao baseada no valor de aptido mdia de cada
neurnio.
0.0224
-0.515
Coding pode ser aplicada vrias vezes, com populaes sucessivas representando as diferenas
da melhor soluo anterior.Em cada transio de tarefa, a melhor soluo salva, uma populao de
-cromossomo inicializada e esta populao evoluda para que o agente se adapte a nova tarefa.
Quando a melhor soluo da tarefa t
i
evolui para a tarefa t
i+1
, os -valores so adicionados ao
melhor resultado do agente, formando um novo resultado melhor. A Figura 4, ilustra o algoritmo de
Delta-Coding.












Figura 4: Algoritmo de Delta-Coding.

No modelo proposto, cada cromossomo corresponde a um neurnio da camada oculta e armazena
os pesos das conexes que o neurnio representado tem com os demais das camadas de entrada e
sada. Cada neurnio da rede representado como uma cadeia de nmeros reais. Considerou-se
redes completamente conectadas, de forma que se uma rede possui, por exemplo, dois neurnios na
camada de entrada e quatro na camada de sada, o neurnio oculto armazena um total de seis pesos,
conforme Figura 5.
Para a recombinao dos cromossomos, foi utilizado o operador de recombinao aritmtico, onde
o gene de cada filho obtido pela combinao linear dos genes correspondentes nos pais.
geneFilho
1
= * (genePai
1
)+(1-)*genePai
2
; geneFilho
2
= (1- )*genePai
1
+ *genePai
2
;








Figura 5: Codificao do neurnio no modelo proposto.
1. Crie p populao de -valores, onde p o tamanho mximo da camada oculta.
2. Para cada agente
a. Zere os valores de aptido de cada -valor
b. Altere o conjunto de -valores que sero adicionados aos pesos da rede
c. Crie uma rede neural, somando os -valores selecionados acima ao
melhor resultado corrente.
3. Avalie os agentes de acordo com uma funo de aptido apropriada para a tarefa.
4. Para cada agente
a. Adicione a aptido para a varivel de aptido de cada -valor somado aos
pesos da rede
b. Se o desempenho do agente melhorou com estes -valores, some estes
valores aos pesos do agente.
5. Repita os passos de 2 a 4 um nmero suficiente de vezes
6. Calcule a aptido mdia de cada -valor, dividindo seu valor total de aptido pelo
nmero de redes em que ele participou.
7. Desempenhe operaes de recombinao na populao baseada no valor de aptido
mdia de cada -valor.
-0.57
-0.57 0.2 0.68 -0.25 -0.33 0.21
Cromossomo do neurnio
oculto A
A
0.2
0.68
-0.25
-0.33
0.21
O operador de mutao aplicado com dada probabilidade em cada um dos filhos gerado. Essa
probabilidade parametrizada, mas recomenda-se que seja um valor baixo, como 0.2, por exemplo.
Foi utilizada a mutao aritmtica, onde um alelo substitudo por um nmero real gerado
aleatoriamente dentro do intervalo [-1,+1].
4. Estudo de Caso: Domnio da Presa-Predador
A tarefa de captura de uma presa, um caso especial de problemas de perseguio-evaso, foi
utilizado, como estudo de caso, para validar o modelo proposto. Tarefas do domnio presa-predador
consistem de um ambiente com uma ou mais presas e um ou mais predadores. Os predadores
possuem o objetivo de capturar as presas, enquanto, as presas tentam escapar dos predadores.
Tarefas desta natureza so interessantes porque existem no mundo real, oferecem um objetivo claro
que requer coordenao complexa no que diz respeito ao ambiente, outros agentes com o mesmo
objetivo e agentes adversrios. Eles so verdadeiros desafios mesmo para os melhores sistemas de
aprendizagem, permitindo medio precisa, anlise e visualizao das estratgias evoludas.
O mundo considerado neste trabalho constitudo por uma presa e at quatro predadores. A presa
controlada por um dos seguintes algoritmos: se locomover para uma posio adjacente aleatria,
caminhar sempre em uma mesma direo ou fugir do predador mais prximo. Os predadores so
controlados por redes neurais. O objetivo evoluir as redes neurais dos predadores para formar um
time eficiente na tarefa de capturar a presa. A rede neural de cada predador recebe a percepo do
mundo e fornece a direo para a qual o predador deve se locomover.
O ambiente bidimensional e pode ser configurado para se comportar de forma toroidal ou
limitada. Em qualquer das situaes, no existem obstculos. Todos os agentes podem se mover em
quatro direes: N (Norte), S (Sul), L (Leste), O (Oeste). A velocidade e a posio inicial da presa
podem ser configuradas de forma a aumentar ou diminuir a complexidade do mundo.















Figura 6: Ciclo evolucionrio para a captura da presa.

1. Para cada agente
a. Zere os valores de aptido de cada neurnio
b. Gere um inteiro s [0,Qtde mxima de neurnios ocultos]
c. Crie uma rede neural com s neurnios ocultos
d. Posicione o agente no mundo bidimensional
2. Posicione a presa de acordo com a posio inicial especificada
3. Para os cenrios de 1 k
a. Posicione os predadores em um extremo aleatrio
b. Para os passos de 1 n
i. Para cada agente, execute o prximo movimento
ii. Movimente a presa de acordo com a velocidade especificada
c. Calcule a distncia mdia final d
f
entre os predadores e a presa
d. Avalie o time de acordo com a funo abaixo:
aptidao += 100/ d
f
;
4. Calcule a aptido mdia do grupo da seguinte maneira:
aptidaoMedia = aptido/k;
5. Para cada agente
a. Adicione a aptido para a varivel de aptido de cada neurnio que participou da
rede
6. Repita os passos de 2 5 um nmero suficiente de vezes
7. Calcule a aptido mdia de cada neurnio, dividindo seu valor total de aptido pelo nmero
de redes em que ele participou.
8. Desempenhe operaes de recombinao na populao baseada no valor de aptido mdia
de cada neurnio.
A tarefa de captura de uma presa no-estacionria uma tarefa de deciso seqencial. S possvel
avaliar se o time de agentes possui uma boa poltica de deciso aps a execuo de uma seqncia
de passos. Considere, por exemplo, que o ambiente possui a seguinte configurao: mundo toroidal,
onde a presa se locomove na mesma velocidade que os predadores, e fugindo sempre do predador
mais prximo. A primeira vista, poderia se pensar que uma boa estratgia seria que a cada passo de
execuo, os agentes de aproximassem da presa. Contudo, como o mundo considerado toroidal, os
predadores nascem todos em um mesmo extremo e como a presa se locomove na mesma velocidade
que os predadores, a presa nunca seria capturada. Na Figura 6, ilustrado o algoritmo evolucionrio
resultante para o problema de captura da presa.
Os agentes precisam aprender uma estratgia mais inteligente, onde alguns precisam impedir o
avano da presa em alguma direo enquanto os outros tentam captura-la.
Em cada ciclo evolucionrio, para avaliar se a estratgia do grupo de predadores satisfatria,
foram criados diferentes cenrios. Cada cenrio consiste na alterao das posies iniciais dos
predadores e para cada cenrio criado, permitido que os agentes se locomovam por n passos antes
de seus comportamentos serem avaliados.
5. Experimentos
Foram realizados experimentos que avaliaram a adaptabilidade do comportamento aprendido pelos
predadores em face da troca de estratgia da presa; e possibilitaram a descoberta de valores
satisfatrios para os parmetros do modelo proposto no estudo de caso utilizado.
Em cada experimento descrito nesta seo, o treinamento foi realizado de forma incremental. Os
predadores eram inicialmente treinados com a presa estacionria. Em cada fase subseqente do
treinamento, a velocidade da presa era incrementada de 0,1 at que atingisse a velocidade de 1,0.
Em cada troca de velocidade da presa, Delta-Coding era aplicado.
5.1 Experimentos Comparativos
Yong(2001) utilizou ESP/Delta-Coding para evoluir o comportamento dos predadores, em uma
tarefa de perseguio-evaso, onde, a presa era considerada capturada quando um dos predadores
tocassem nela.
A estratgia padro utilizada pela presa nos experimentos de Yong(2001) era fugir do predador
mais prximo. Os predadores da abordagem de Yong(2001), assim como os predadores que tiveram
seus comportamentos evoludos com o modelo proposto no presente trabalho, so capazes de
capturar sempre a presa desde que o comportamento utilizado por ela, em tempo de execuo, seja o
mesmo usado no treinamento.
Yong(2001) realizou experimentos a fim de avaliar a adaptabilidade dos comportamentos dos
predadores mudana de estratgia da presa em tempo de execuo. Nos experimentos reportados,
os predadores foram treinados para capturar uma presa cuja estratgia era fugir do predador mais
prximo. Em tempo de execuo, a estratgia da presa era alterada para se movimentar sempre
direita.
Neste trabalho, foi realizado um experimento similar. Utilizou-se uma configurao para
treinamento parecida com a que foi adotada por Yong(2001) no treinamento de seus agentes
predadores. A comparao das configuraes adotadas pode ser visualizada na Tabela 1. O tempo
gasto para a realizao de um experimento completo (treinamento inicial com presa estacionria e
dez treinamentos com Delta-Coding incrementando-se a velocidade da presa a cada novo
treinamento) durou cerca de 10 horas. A mquina utilizada para o treinamento possui um
processador AMD Athlon Xp 2200+ 1.80GHz e 1.00GB de memria RAM.

Tabela 1: Comparao das configuraes adotadas para treinamento dos agentes.
Configurao Utilizada em
Yong (2001)
Configurao do Modelo proposto
Tamanho de cada Populao de
Neurnios
100 100
Elitismo 50 20
Tamanho (Mximo) da Camada
Oculta
10 9
Quantidade de ciclos
evolucionrios
400 400
Quantidade de
avaliaes/cenrios por ciclo
6 6
Quantidade de Experimentaes
(redes formadas por ciclo
evolucionrio)
1000 1000
Dimenso do Mundo (100,100) (100,100)

As configuraes adotadas no presente trabalho variaram sutilmente em dois parmetros: o elitismo
e a quantidade de neurnios presentes na camada oculta de cada agente. No algoritmo evolucionrio
utilizado por Yong(2001), em cada ciclo de evoluo, ele substitua apenas 50% dos piores
neurnios de cada populao, usando, desta forma, uma alta taxa de elitismo. No experimento
realizado no presente trabalho, optou-se por uma taxa de elitismo de 20%.
Na abordagem de Yong(2001), a quantidade de neurnios presente na camada oculta era fixa e igual
a 10. Nos comportamentos evoludos neste experimento, utilizando o modelo proposto, existiam
nove neurnios presentes na camada oculta de cada predador.
A Tabela 2 compara os resultados do modelo proposto com o modelo utilizado por Yong(2001).
Executou-se 10 simulaes para os comportamentos evoludos. Em cada simulao, a presa iniciava
em uma posio diferente no mundo, sempre com uma distncia de, no mnimo, dez casas do
predador mais prximo.
Tabela 2: Comparao de resultados com o ESP.
Taxa de captura quando a presa troca de
comportamento em tempo de execuo
ESP 14,5 %
Modelo
Proposto
80 %

5.2 Experimentos Variando Diversos Parmetros
Na abordagem neuro-evolucionria, muitos parmetros precisam ser configurados. Realizou-se uma
srie de experimentos a fim de avaliar quais os melhores parmetros para a tarefa proposta, tratados
a seguir.
5.2.1. Entrada do Agente
A percepo que o agente tem do mundo pode ser categorizada como parcial ou total. Na
percepo parcial, o agente recebe informaes relativas a ele e a presa. Na percepo total, o
agente recebe informaes relativas a ele e ao resto do grupo de predadores:
Foram avaliados seis tipos de entrada para os predadores, sendo que trs forneciam ao agente uma
percepo parcial do mundo, enquanto as outras trs forneciam uma percepo total do mundo:
Entradas de percepo parcial:
Sinal do offset [x,y] entre o agente atual e a presa,
Offset [x,y] entre o agente e a presa,
Coordenada absolutas [x
a
,y
a
,x
p
,y
p
] do agente atual e da presa.
Entradas de percepo total:
Sinal do offset [x,y] entre o agente atual e a presa e o agente atual e os outros n-1
predadores,
Offset [x,y] entre o agente atual e a presa e o agente atual e os outros n-1 predadores,
Coordenada absolutas [x
a1
,y
a2
,...,x
an
,y
an
,x
p
,y
p
] de todos os agentes do sistema .
Os agentes s se mostraram capazes de aprender como capturar a presa quando as entradas
correspondiam ao sinal do offset. Informaes envolvendo distncias e posies absolutas so
entradas mais complexas e dificultam o aprendizado da tarefa.
Para este experimento, foi utilizado somente o treinamento inicial com a presa estacionria. O time
com a percepo parcial do mundo, conseguia alcanar a presa com uma quantidade menor de
passos. Observe o resultado de dez simulaes consecutivas, cada uma constituda de um novo
treinamento e uma nova execuo, conforme ilustra a Tabela 3:

Tabela 3: Passos para captura da presa.
Execuo Time com Percepo Total do
Mundo
Time com percepo parcial
do Mundo
1 35 29
2 33 29
3 43 29
4 53 31
5 37 33
6 35 31
7 34 31
8 41 31
9 55 29
10 47 31
Mdia 41.3 30.4

5.2.2. Quantidade de Neurnios na Camada Oculta
Foi avaliada a taxa de captura da presa em funo da quantidade mxima de neurnios na camada
oculta. Foram realizadas dez execues para cada quantidade mxima de neurnios na camada
oculta. O resultado destas execues pode ser visualizado na Tabela 4. Os predadores se mostraram
capazes de capturar a presa, na maior parte das vezes, mesmo quando tinham, no mximo, trs
neurnios na camada oculta da rede.

Tabela 4: Taxa de captura por tamanho da camada oculta.
Quantidade de Neurnios Taxa de Captura (%)
3 80
4 90
5 100
6 100
7 90
8 100
9 90
10 90

Avaliou-se tambm o tempo necessrio para o treinamento em funo do tamanho da camada
oculta. Para este experimento foi considerado apenas o treinamento inicial com a presa estacionria,
sem Delta-Coding. Na Tabela 5, mostra-se o tempo de treinamento por quantidade de neurnios na
camada oculta. A camada oculta com menor quantidade de neurnios (3) possui um tempo de
treinamento 20% menor que o da camada com a maior quantidade de neurnios (10).

Tabela 5: Tempo de treinamento por tamanho da camada oculta.
Quantidade de Neurnios Tempo Mdio de Treinamento (ms)
3 56367
4 59649
5 60955
6 59917
7 60528
8 62840
9 67503
10 70568
5.2.3. Quantidade de ciclos evolucionrios
Neste conjunto de experimentos, buscou-se identificar a quantidade adequada de ciclos
evolucionrios. Foi observado que as aptides dos neurnios se estabilizaram a partir do ciclo 300,
conforme pode ser visualizado na Figura 7.
0
20
40
60
80
100
120
0 100 200 300 400 500 600
Ciclo
A
p
t
i
d

o

Figura 7: Mdia das melhores aptides dos agentes por ciclo evolucionrio. Time constitudo
por 3 agentes.
6. Concluses e Trabalhos Futuros
Em ambientes dinmicos e complexos, a poltica tima de coordenao no pode ser derivada
analiticamente, mas deve ser aprendida atravs da interao direta com o ambiente. Neste trabalho,
propomos um modelo de coordenao baseado em neuro-evoluo, que, de acordo com vrios
pesquisadores (MORIARTY 1997, MCQUESTEN 2002, YONG 2001, STANLEY 2002) um dos
mtodos mais promissores para aprendizagem em ambientes estocsticos.
Para testar o modelo, utilizou-se a tarefa da presa-predador, um caso especial de uma classe de
problemas conhecidos como perseguio-evaso. Nesta tarefa, uma presa tem por objetivo fugir de
um ou mais predadores, enquanto que os predadores precisam se coordenar de forma a captur-la.
A tarefa da presa-predador praticamente um benchmark para modelos de coordenao, por
basicamente duas razes: primeiro por simularem situaes que ocorrem no mundo real e segundo
porque, a depender da configurao do ambiente e da estratgia de fuga da presa, exige elevado
grau de coordenao entre os predadores.
Foi realizado um estudo sobre os modelos de neuro-evoluo existentes na literatura, e proposto
uma extenso do mtodo neuro-evolutivo conhecido como ESP. Ao contrrio do ESP, que trabalha
com uma topologia fixa para as redes neurais dos agentes, o nosso modelo permite que o algoritmo
evolucionrio encontre, em tempo de treinamento, a topologia da rede neural de cada agente.
Alm de propiciar flexibilidade, o nosso modelo possibilita uma otimizao do tempo necessrio
para o treinamento. Nossos experimentos mostraram que a quantidade de neurnios presentes na
camada oculta de cada agente, no final do treinamento, , freqentemente, inferior quantidade
mxima especificada. Adicionalmente, os experimentos tambm mostraram que o tempo de
treinamento aumenta proporcionalmente com o tamanho da camada oculta. Nos experimentos foi
constatado que o tempo de treinamento quando o agente possui trs neurnios na camada oculta
20% menor que o tempo necessrio para o treinamento com 10 neurnios na camada oculta. Este
ltimo resultado j era esperado, uma vez que uma quantidade maior de neurnios implica em
maior complexidade computacional.
A variao na topologia da rede dos agentes, em tempo de treinamento, levou a um outro resultado:
a construo de um time heterogneo de agentes, no que diz respeito topologia da rede neural de
cada agente, o que mais coerente com o papel diferenciado que cada agente possui no grupo.
Considere, por exemplo, a tarefa mais difcil para a qual obteve-se sucesso com o modelo proposto:
um mundo toroidal, onde a presa se movimenta na mesma velocidade que os predadores, fugindo
sempre do predador mais prximo. Se todos os agentes possussem o papel de correr atrs da presa,
eles nunca iriam conseguir captur-la, pois, todos os agentes (presa e predadores) ficariam girando
na mesma direo ao redor do mundo. Desta forma, os agentes precisam evoluir comportamentos
diferenciados, isto , parte dos agentes persegue a presa enquanto outra parte impede que a presa
avance em determinada direo.
Os melhores comportamentos foram obtidos atravs de um processo de aprendizagem incremental,
isto , comeando com uma tarefa simples: capturar uma presa estacionria e finalizando com uma
tarefa mais complexa, por exemplo, capturar uma presa que se movimenta na mesma velocidade
que os predadores, fugindo sempre do predador mais prximo.
Nos experimentos apresentados na seo anterior, mostrou-se que o modelo proposto tem boa
capacidade de adaptao em funo da alterao no comportamento da presa. Em trabalhos futuros,
pretendemos desenvolver um modelo em que os agentes sejam capazes de compreender possveis
alteraes no mundo e alterar seu comportamento, em tempo de execuo, de forma a suportar estas
alteraes sem a necessidade de um novo treinamento. Uma forma possvel de realizar tal
procedimento seria fazer com que os agentes armazenassem as vrias estratgias aprendidas para as
diversas variaes do mundo e em tempo de execuo, identificassem qual estratgia melhor se
aplica percepo atual do mundo. Essa identificao poderia ser realizada por uma rede neural a
parte.

Referncias
BELEW, R. K. Interposing an ontogenic model between genetic algorithms and neural
networks. In Advances in Neural Information Processing Systems (NIPS),S.J. Han- son and J.D.
Cowan and C.L.Giles,Morgan Kauffman:San Mate,1993.
GOMEZ, F. & MIIKKULAIEN, R. Incremental evolution of complex general behavior.
Adaptive Behavior, vol. 5, pp. 317-342, 1997.
HAYNES, THOMAS & SEN, S. Evolving Behavioral Strategies in Predators and Prey.
Adaptation and Learning in Multiagent Systems, Lectures Notes in Artificial Intelligence, Spring
Verlag, Berlim, Spring 1996.
HAYNES, T., WAINWRIGHT, R. & SEN S. Evolving Cooperation Strategies. In Proceedings
of the First International Conference on Multiagent Systems, ed., Lesser, V., pp. 450, MIT Press,
San Francisco, CA., 1995.
KAELBLING, L., LITTMAN, M. AND MOORE, A. Reinforcement Learning: A Survey.
Journal of Artificial Intelligence Research, 4:237-285, May, 1996.
MORIARTY, DAVID E. Symbiotic Evolution Of Neural Networks In Sequential Decision
Tasks. Ph.D. Dissertation; Technical Report AI-97-257, January 1997.
NOLFI, S., AND PARISI, D. Desired answers do not correspond ecological neural networks.
Neural Processing Letters, (2):14, 1994.
YONG, CHERN & MIIKKULAIEN, RISTO. Cooperative Coevolution of Multi-Agent Systems.
Technical Report AI01-287, Department of Computer Sciences, The University of Texas at Austin,
2001.
WHITLEY, D.; MATHIAS, K.; FITZHORN, P. Delta-coding: An iterative search strategy for
genetic algortihms. In Proceedings of the Fourth International Conference on Genetic Algorithms.
Los Altos, CA: Morgan Kaufmann, 1991.

Das könnte Ihnen auch gefallen