Sie sind auf Seite 1von 8

II Congresso de Pesquisa e Inovao da Rede Norte Nordeste de Educao Tecnolgica Joo Pessoa - PB - 2007

SISTEMA DE ORIENTAO PARA ROBS MVEIS UTILIZANDO APRENDIZAGEM POR REFORO.


Rafael Nunes de ALMEIDA PRADO(1); Jos Henrique dSOUZA(2)
(1) Centro Federal de Educao Tecnolgica do RN CEFET RN Departamento Acadmico de Tecnologia Industrial DATIN Ncleo de Desenvolvimento em Mecatrnica NUDEM Av. Senador Salgado Filho, 1559, Tirol, fone/fax: (84)3208-8195 Natal-RN, CEP 59015-000 e-mail: rnaprado@yahoo.com.br (2) Centro Federal de Educao Tecnolgica do RN CEFET RN, e-mail: ricky@cefetrn.br

RESUMO
O presente trabalho apresenta o desenvolvimento de um sistema de orientao inteligente empregado em robs autnomos mveis. O projeto foi baseado no uso de tcnicas de aprendizagem por reforo (AR) para orientar-se em ambientes e situaes desconhecidas. A tcnica de AR baseia na distribuio de recompensas ao rob e estas podem ser positivas e/ou negativas (deciso certa implica em reforo positivo e deciso errada em reforo negativo). O sistema consiste em uma modelagem cinemtica restritiva (restries noholomnicas) e de comportamento dinmico do rob atravs de um modelo SISO iterativo de controle. Os resultados preliminares atestam a eficcia da estratgia de controle para auxiliar o rob a aprender com seus erros. O agente implementado se mostrar capaz de aprender comportamentos coerentes com algumas expectativas de desempenho a partir dos resultados de suas aes. A modelagem em ambiente virtual (simuladores) est sendo realizada para confrontao dos resultados com os anteriormente obtidos e a partir destes poder iniciar a construo de um prottipo em escala real para a tcnica possa ser testada em situao real de trabalho. Palavras-chave: Aprendizagem por reforo, sistemas inteligentes, rob autnomo, simulao.

II Congresso de Pesquisa e Inovao da Rede Norte Nordeste de Educao Tecnolgica Joo Pessoa - PB - 2007

1.

INTRODUO

A inteligncia artificial vem fascinando o mundo cientfico h muitas dcadas em diversos campos da cincia e da fico. Dentre os estudos envolvidos, esto os sistemas autnomos, providos de parcial, ou total capacidade de realizar tarefas complexas e exatas, podendo obter um aprimoramento ao longo do tempo. Este setor vem sendo intensamente explorado, devido ao aumento do grau de complexidade dos processos realizados hoje, exigncia de velocidade em processamento, risco das operaes, e a necessidade de sistemas cada vez mais independentes, adaptveis e inteligentes. Neste contexto, o desenvolvimento de robs mveis tem lugar de destaque. Isto se justifica pela grande quantidade de atividades abrangidas pela aplicabilidade destes robs. As tarefas feitas por eles variam em diversos graus de sofisticao e robustez. Hoje se podem realizar procedimentos que h alguns anos atrs no eram possveis. Tais robs devem aceitar ordens para a execuo de tarefas com um elevado grau de dificuldade e as cumpriro sem a interveno humana. Ao colocar o rob como substituto do homem, deve-se dot-lo de capacidade para tomada de decises, a fim de que ele trabalhe conjuntamente com as demais mquinas. Esta premissa tem sido uma das principais motivaes para a pesquisa de veculos mveis autnomos ou AGVs, foco deste trabalho. Vemos que possvel fabricar robs que servem quase para qualquer operao, seja de limpeza, operaes cirrgicas a distancia, cortar a grama, fazer o ch, etc. Existem micromquinas (col ocados num relgio de pulso, por exemplo) capazes de obter dados de temperatura, presso, pulso, etc. robs mveis podero monitorar a poluio no meio ambiente com maior eficcia (NEHMZOW, 2000). A habilidade de deciso depende da inteligncia, que depende do aprendizado. A inteligncia no pode existir sem a capacidade de aprender ou de adquirir novos conhecimentos. Nos sistemas robticos no diferente, e a necessidade de aplicao da inteligncia artificial em robtica no nova. Ao tornar o rob mais complexo, adicionando a ele novos sensores e atuadores, estamos tambm acrescentando mais complexidade ao trabalho de programao de aes do rob, alm de dificultar a tarefa de calibrao dos sensores e coordenao dos movimentos. O desenvolvimento de algoritmos de aprendizado permite que o rob calibre seu comportamento e desempenhe a sua tarefa de forma mais confivel e adaptvel. Este trabalho tem por objetivo analisar o desempenho de um sistema para orientao baseada na aprendizagem por reforo (AR). A aprendizagem por reforo (SUTTON & BARTO, 1998), consiste, basicamente, em fazer um agente escolher suas aes se baseando apenas na interao com o ambiente. Diferentemente da aprendizagem supervisionada, na qual existe um professor que diz ao agente qual deveria ter sido a ao correta para cada estado, na aprendizagem por reforo, existe apenas um crtico, que indica o caminho correto, mas no diz exatamente a resposta correta. Esse tipo de aprendizagem inspirado na aprendizagem infantil humana. Uma criana costuma realizar aes aleatrias, e, de acordo com as respostas de seus pais (elogio ou reclamao), ela aprende quais destas aes so boas e quais so ruins (RIBEIRO, 1999).

2.

FUNDAMENTAO TERICA

Nesta seo ser apresentada uma reviso bibliogrfica sobre os conceitos em robtica mvel, sistemas autnomos e sistemas inteligentes.

2.1.

Modelagem de robs mveis com acionamento diferencial

Acionamento diferencial (ou direo diferencial) o mecanismo de direo mais simples, consiste de duas rodas em um eixo comum, em que cada roda controlada independentemente. Utiliza uma roda adicional (caster) para balano, e sensvel a velocidade relativa das duas rodas (pequeno erro resulta em diferentes trajetrias, no apenas velocidade). Ser mostrado o modelo cinemtico do rob usando acionamento diferencial, que representa as caractersticas de movimento e as restries destes, o modelo cinemtico tambm um modelo dinmico, pois o estado do rob, definido por este modelo, varia com as excitaes de entrada e depende do estado no instante anterior, porm este no inclui as foras dinmicas que atuam sobre o rob, da a separao entre modelos cinemtico e dinmico.

II Congresso de Pesquisa e Inovao da Rede Norte Nordeste de Educao Tecnolgica Joo Pessoa - PB - 2007

2.1.1. No-holonomia
Os robs mveis com rodas e os com pernas, juntamente com os satlites, pertencem a uma classe de sistema mecnico denominada de sistemas no-holonmicos, que se caracterizam por ter restries cinemticas. Os algoritmos de controle e planejamento de movimento de tais sistemas requerem, portanto, uma classe diferente de procedimentos que aqueles empregados em manipuladores mecnicos estacionrios, (sistema holonmico). No caso de robs mveis com acionamento diferencial a restrio imposta pela impossibilidade do rob se movimentar em todas as direes, devido ao sistema no possuir atuadores que permitam tais movimentos, bem como pela condio de no-deslize (considera-se que no h derrapagem). Um rob com um sistema de locomoo por rodas e com a mesma configurao de um carro, um clssico exemplo de rob mvel noholonmico. Uma restrio no-holonmica impede que o rob execute movimentos normais superfcie do corpo de suas rodas, quando no h deslizamento(ALSINA, 2002).

2.1.2. Modelo Cinemtico


A configurao do rob representada por sua posio no espao cartesiano (x e y posio do centro do rob em relao um referencial fixo no espao de trabalho), e pela sua orientao (ngulo entre o vetor de orientao do rob e o eixo x do referencial fixo no espao de trabalho). A Figura 1 mostra a representao do rob em questo (ALSINA, 2002).

Figura 1 - Representao esquemtica das variveis cinemticas do rob.

( x, y ) =
=

Posio do referencial fixo no rob em relao ao referencial fixo no espao de trabalho. ngulo de orientao do rob em relao ao referencial fixo no espao de trabalho. Comprimento do eixo. Raio de giro do rob. Raio da roda direita (esquerda) Velocidade angular do rob. Velocidade angular da roda direita (esquerda). Velocidade linear do rob Velocidade linear da borda da roda direita (esquerda).

b=

r=

rd (re ) =

d ( e ) =
v=
v d (v e ) =

II Congresso de Pesquisa e Inovao da Rede Norte Nordeste de Educao Tecnolgica Joo Pessoa - PB - 2007

As relaes entre as velocidades lineares e angulares so:

v = r v d = d rd ve = e re
Para deslocamentos incrementais em um intervalo de tempo dt como mostra a Figura 2 abaixo:

(1) (2a) (2b)

Figura 2 - movimento infinitesimal em um intervalo dt.

b v d dt = ( r + ) dt 2

(3a) (3b)

b ve dt = (r )dt 2
A partir da equao (3) e utilizando as expresses (1) e (2) temos:

v = d

rd r + e e 2 2 rd r e e b b

(4a)

= d

(4b)

Que podem ser representadas na forma matricial como:

V = v T .W W =( v T ) -1 .V W = Tv .V onde
onde,

Tv =( v T ) 1

(5)

v V =

(6a)

rd v T = 2 r d b d W = e

re 2 r e b

(6b)

(6c)

II Congresso de Pesquisa e Inovao da Rede Norte Nordeste de Educao Tecnolgica Joo Pessoa - PB - 2007

O vetor V representa as velocidades em referencial de eixos principais e W o vetor de velocidades em espao de atuadores. A partir dessas relaes, encontram-se as velocidades das rodas para que o rob possa mover-se com raio de giro r .

e (r b / 2)rd = d (r + b / 2)re
3. METODOLOGIA

(7)

Trataremos rapidamente de um embasamento, que propiciar a obteno da lgica na qual foi baseado o algoritmo do sistema, atravs do entendimento dos processos de deciso Markovianos, da aprendizagem por reforo, da tcnica de aprendizagem aplicada no problema ( Q -Learning) e o planejamento do comportamento.

3.1.

Decises de Markov

Um processo de Markov uma seqncia de estados, com propriedade de que qualquer predio de valor de estado futuro dependera apenas do estado e ao atuais e no da seqncia de estados passados. Um ambiente satisfaz a propriedade de Markov se o seu estado resume o passado de forma compacta sem perder a habilidade de prever o futuro, ou seja, pode-se dizer qual ser o prximo estado e a prxima recompensa do estado e aes atuais (SUTTON & BARTO, 1998). Um processo de aprendizagem por reforo que satisfaz a propriedade de Markov chamado de processo decisrio de Markov (MDP Markov Decision Process). Se o espao de estados e aes for finito, ento ele chamado de processo decisrio de Markov finito, base para teoria de aprendizagem por reforo.

3.2.

Aprendizagem por reforo

Formalmente, no problema de aprendizagem por reforo temos um agente, que atua em um ambiente. O agente percebe um conjunto discreto S de estados, e pode realizar um conjunto discreto A de aes. A cada instante de tempo t, o agente pode detectar seu estado atual s e, de acordo com esse estado, escolher uma ao a ser executada, que o levar para um outro estado s. Para cada par estado/ao, (s,a), h um sinal de reforo, r(s,a), que dado ao agente quando ele executa a ao a no estado s. O relacionamento do agente com ambiente ilustrado na Figura 3.

Figura 3 Relacionamento na aprendizagem.

O sinal de reforo a base do aprendizado do agente. O reforo deve indicar o objetivo a ser alcanado. Por exemplo, em um jogo de damas o reforo pode ser dado ao agente apenas ao final do jogo, sendo positivo quando o agente ganhar ou negativo quando perde ou empata. Com isso, o reforo est mostrando ao agente que seu objetivo ganhar o jogo, e no perder ou empatar (JNIOR, 2006).

II Congresso de Pesquisa e Inovao da Rede Norte Nordeste de Educao Tecnolgica Joo Pessoa - PB - 2007

O problema de aprendizagem por reforo consiste em escolher uma poltica de aes que maximize o total de recompensas recebidas pelo agente. Uma poltica de aes corresponde a uma funo (s)a, que diz, para cada estado, qual deve ser a ao realizada pelo agente. Um agente pode seguir vrias polticas de aes, mas o objetivo da aprendizagem calcular a poltica que maximize a soma das recompensas futuras, isto , o total de recompensas recebidas aps a adoo dessa poltica. (ANDRADE, 2004).

3.2.1. Q-learning
Uma das tcnicas mais utilizados em problemas de aprendizagem por reforo o algoritmo Q -Learning (WATKINS, 1989). Tal algoritmo baseado nos conceitos do mtodo de diferenas temporais, utiliza os princpios de acmulo de reforo e ganho mostrado na seo anterior e tem sua convergncia para valores excelentes de Q (Q * ( s, a )) independente da poltica que est sendo utilizada. A expresso de atualizao do valor de Q do algoritmo Q -Learning a seguinte:

Q ( s, a) = Q( s, a ) + .[ rt +1 + max a ' Q( s ' , a ' ) Q( s, a )]

(8)

onde rt +1 o retorno associado transio do estado s para o estado s' , a taxa de aprendizagem o fator de desconto, com 0 1 . A funo de valor do estado atual ( Q ( s, a ) ) atualizada a partir do seu valor atual, do reforo imediato ( rt +1 ) e da diferena entre a mxima funo de valor no estado seguinte

(max a ' Q ( s' , a ' )) e o valor da funo de valor do estado atual.


Na equao do Q -Learning, uma questo importante a analise do clculo do termo (max a ' Q ( s' , a ' )) . No caso geral, esse clculo pode ser visualizado atravs do diagrama mostrado na Figura 4 abaixo.

Figura 4 - Diagrama da equao Q-Learning.

Na Figura 4, os estados so os quadrilteros. As aes so os crculos e ao a est nomeada. Quando passados s e a , tem-se o estado s ' . O valor do termo (max a ' Q ( s' , a ' )) ento escolhido entre os valores de Q ( s' , a ' ) de todas as aes possveis de serem tomadas a partir de s. Observe-se que no existe ento a necessidade de se conhecer qual a ao dever ser tomada em s, mas sim quais todas as possveis aes permitidas para os estados possveis, filtrando todas as possibilidades qualificando-as (YANG & GU, 2004). Uma caracterstica do Q -Learning que a funo de valor Q * aprendida aproxima-se diretamente da funo de valor Q desejado como satisfatrio, sem depender da poltica que est sendo utilizada. Este fato simplifica a construo do algoritmo. A poltica ainda mantm algum efeito ao determinar qual dos pares estado-ao deve-se visitar e atualizar. A convergncia exige que todos os pares estado-ao sejam visitados. Logo, a poltica a ser utilizada para a determinao do Q * pode ser uma poltica robusta e arriscada para tentar uma convergncia mais rpida. O algoritmo Q -Learning tradicional apresentado abaixo: Inicializar uma ao de forma arbitrria, gerando Q(s,a) qualquer ; Repetir (para cada novo estado)

II Congresso de Pesquisa e Inovao da Rede Norte Nordeste de Educao Tecnolgica Joo Pessoa - PB - 2007

Inicializar s; Repetir (para cada nova ao) Escolher a para s usando uma poltica p (definida no projeto); Tomar a ao a, receber e analisar r, s ; Obter Q(s,a); Atualizar s; At s ser o estado final desejado; Fim O Q -Learning foi o primeiro mtodo de aprendizagem por reforo a possuir provas de convergncia [3]. uma das mais utilizadas por ser uma tcnica muito simples que calcula diretamente as aes sem avaliaes intermedirias e sem uso de modelo. Em (WATKINS, 1989) mostra-se uma avaliao que se cada estadoao for visitado um nmero infinito de vezes e com um valor de a adequado, a funo de valor Q * ir convergir com probabilidade 1 para Q . A convergncia do algoritmo Q -Learning no depende da poltica de explorao utilizada. O agente est livre para explorar suas aes a qualquer momento. No existem requisitos para a execuo de aes estimadas como as melhores, mas a busca de aes que maximizem o retorno necessria durante o aprendizado (BAKKER, ZHUMATIY & GRUENER, 2006).

3.3.

Planejamento do comportamento

O comportamento do rob foi baseado nas teorias anteriormente comentadas com o intuito de alcanar um ponto de luz em um ambiente qualquer. Partindo do pressuposto, que na aprendizagem por reforo no preciso saber qual a seqncia de passos necessria para alcanar algum objetivo, a elaborao de um planejamento de comportamento (aes) torna-se extremamente fcil. A dificuldade est em definir-se como definir os estados a serem considerados, determinar as aes para cada estado, calcular um reforo para cada par de ao-estado e implementar essas situaes para o modelo usado. No modelo utilizado, sero considerados seis sensores de luminosidade distribudos nos cento e oitenta graus frontais do rob. No caso em que se deseja achar um ponto mais luminoso possvel em um ambiente, foi criado um modelo com valores e pesos para a resposta de cada sensor. calculada uma mdia ponderada dos valores existentes em sensores ativados pela sensibilidade a luz, onde cada lado do rob, direito ou esquerdo, tero valores positivos de um lado e negativo de outro, de modo a indicar a orientao que est a luz e o quanto ela est deslocada do eixo principal (melhor trajetria para se encontrar um ponto mais luminoso rapidamente). Desse modo resta apenas definir velocidade de cruzeiro, velocidades das curvas e o tamanho de cada passo (ao) e castigo, alm de verificar seus estados e erros continuamente e ininterruptamente.

4. 4.1.

ALGORITMO Algoritmo

Basicamente o algoritmo desenvolvido para este sistema em questo, muito semelhante ao algoritmo da tcnica Q -Learning, porm com algumas alteraes e adaptaes, para comportar o modelo utilizado no trabalho e as anomalias de comportamento observadas em simulao. Ele tambm est de forma mais esquemtica e menos procedural, para que se tenha um entendimento geral e rpido. Incio do programa Lao sem fim para cada passo (os robs autnomos no morrem ou param de tentar realizar suas tarefas) Leitura de estado (lem-se todos os sensores). Calcula-se a mdia ponderada dos sensores. Escolhe-se uma ao aleatoriamente para esse estado (alterao na velocidade do rob). Calcula-se a punio atravs da equao do algoritmo Q -Learning.

II Congresso de Pesquisa e Inovao da Rede Norte Nordeste de Educao Tecnolgica Joo Pessoa - PB - 2007

Verifica-se se o nmero de aes com reforo positivo so maiores que as com reforo ruim, se for maior o nmero de reforos bons, comece a escolher apenas aes com melhor reforo, seno, escolha aleatoriamente as aes para os estados. Final do lao quando o rob obtiver condio tima se no lhe for determinado outro objetivo (geralmente escolhe-se outros objetivos e o rob dificilmente parar, sua caracterstica de sempre trabalhar e nunca parar). Final do programa.

5.

CONSIDERAES FINAIS

O trabalho proposto foi fundamentado em diversos artigos, apostilas e outros trabalhos cientficos com o intuito de elaborar um sistema de orientao para robs mveis utilizando aprendizagem por reforo, onde foi elaborado algoritmos de planejamento de trajetria, aprendizagem por reforo (Q-Learning) e clculos dos reforos. Observou-se que o problema da aprendizagem por reforo de simples aplicao e entendimento, notando-se tambm a sua economia computacional para poder-se, em uma etapa posterior deste trabalho, simular e embarcar em uma plataforma mvel real desenvolvida em laboratrio. O trabalho pretende propor uma maior aplicao de tcnicas de inteligncia, principalmente de aprendizagem por reforo, e disseminar com segurana as propostas de sistemas cada vez mais especialistas, mais adaptativos e com uma segurana que d margem para aplicaes reais em ambientes industriais com total segurana. Ao tentar aplicar o sistema proposto, prope-se fazer a implementao da AR em outras partes do sistema, alm do planejamento de aes, como nos erros de controle dos atuadores, clculo de rudos em espao de atuadores e at uma mudana geral na estratgia das aes, considerando grupos de aes a serem selecionados na AR juntamente com cada ao dentro desses grupos a ser selecionado para anlise com AR.

REFERNCIAS
ALSINA, P. J. Sistemas Robticos Autonomos. Publicao interna UFRN, DCA, 2002. NEHMZOW, U. Mobile Robotics: A Practical Introduction. Springer, Verlag, 2000. SUTTON, R. & BARTO, A. Reinforcement Learning: an introduction. MIT Press 1998. WATKINS, C. J. C. H., Learning from Delayed Rewards, Phd thesis, University of Cambridge, 1989. ANDRADE, G. D. Aprendizagem por Reforo e Adaptao ao Usurio em Jogos Eletrnicos, Recife, 2004 YANG, E. & GU, D. Multiagent Reinforcement Learning for Multi-Robot Systems: A Survey, Department of Computer Science, University of Essex Wivenhoe Park, Colchester, Essex, United Kingdom, 2004, CO4 3SQ. JNIOR, L. A. C. & BIANCHI, R. A. C. Aprendizado por Reforo Acelerado por Heurstica para um Sistema Multi-Agentes, 2006. BAKKER, B. & ZHUMATIY, V. & GRUENER, G. Quasi-Online Reinforcement Learning for Robots Informatics Institute, University of Amsterdam, the Netherlands, 2006. RIBEIRO, C. H. C. Aprendizado por reforo. V Escola de Redes Neurais: Conselho Nacional de Redes Neurais, ITA, 1999, pp. c028-c072.

Das könnte Ihnen auch gefallen