Beruflich Dokumente
Kultur Dokumente
Análise, Algoritmos e
Aplicações de Processos de
Decisão Markovianos
Edilson Fernandes de Arruda
27 de março de 2008
1 Introdução e Motivações
Introduzidos por Richard Bellman em um de seus trabalhos clássicos
[7], processos de decisão markovianos (PDM) são uma ferramenta bastante
eficiente na modelagem e solução de problemas de decisão discretos com
incertezas. Puterman [15] definiu PDM como modelos de decisão sequencial
contendo:
Este modelo é bastante geral e pode ser aplicado a uma grande variedade
de problemas; veja por exemplo [6, 9, 19], entre outros. A solução de PDM
pode ser obtida por meio de técnicas de programação dinâmica (PD) exata
e aproximada ou aprendizado por reforço, do termo em inglês reinforcement
learning (RL). Estudos detalhados de técnicas e algoritmos de programação
dinâmica podem ser encontrados em [8, 15]. Tratamentos detalhados de
técnicas e algoritmos de aprendizado por reforço e programação dinâmica
aproximada (PDA) podem ser obtidos em [9, 19, 17].
Por conta de sua utilidade e versatilidade, PDM motivaram uma sólida e
variada literatura. No entanto, alguns problemas inerentes ao modelo ainda
persistem, como a dificuldade de se tratar problemas com um grande (possi-
velmente infinito) número de estados [12, 19, 17]. Tais problemas requerem
alto poder de processamento e armazenamento de dados, podendo demandar
mais processamento e capacidade de armazenamento do que está fisicamente
disponível, o que os tornaria computacionalmente intratáveis. O desafio de
se obter soluções satisfatórias para esse tipo de aplicação tem recebido recen-
temente muita atenção na literatura especializada, tendo contribuído para o
surgimento de técnicas de aprendizado por reforço (RL) [19] e programação
dinâmica aproximada (PDA) [17].
2 Linhas de Investigação
O presente projeto prevê a continuação de minhas atividades de pesquisa
junto ao LNCC, com foco especial em técnicas de solução exata e aproximada
de PDM. Pretende-se, além disso, desenvolver novas linhas de pesquisa em
áreas de fronteira, notadamente nas áreas de Redes Estocásticas Comple-
xas [14] e Agregação Temporal em Processos de Decisão Markovianos [10].
Estudos preliminares nessas áreas estão atualmente sendo desenvolvidos.
Apresenta-se a seguir uma lista de tópicos de investigação, na qual são
descritos resultados já obtidos e listados avanços a serem buscados na seqüên-
cia do trabalho de investigação. As atividades incluídas nesse plano não ex-
cluem, naturalmente, a possibilidade de inclusão de outros temas de pesquisa
que possam vir a interessar o autor ou ser de interesse estratégico do LNCC.
2
espaço de estados em uma região finita e controlável e uma região comple-
mentar incontrolável, já que nessa região não é necessária a escolha de uma
ação de controle. Dado que são conhecidas as propriedades do processo esto-
cástico restrito (embedded) ao conjunto de estados de interesse, algoritmos
baseados em agregação temporal [10, 16, 18] obtém a solução exata do PDM
original com critério de custo médio. Pretende-se investigar a aborgagem de
agregação temporal para problemas em que todos os estados são controlá-
veis, i.e. possuem mais de uma ação de controle factível, no intuito de buscar
soluções exatas e/ou aproximadas para PDM com critério de custo médio.
Outra possível linha de pesquisa envolve a utilização de métodos Monte
Carlo para obter estimativas das probabilidades de transição e funções de
custo do PDM restrito ao conjunto de interesse e posterior obtenção de solu-
ções aproximadas para o problema original. Outro problema a ser abordado
no presente projeto é a investigação de algoritmos mais eficientes de itera-
ção de valor para serem aplicados quando da utilização da abordagem de
agregação temporal. Os algoritmos existentes, e.g. [10, 16, 18], geralmente
utilizam uma função paramétrica de custo. Sendo assim, o processo itera-
tivo deve estimar, implícita ou explicitamente, o parâmetro ótimo, ao mesmo
tempo em que itera em busca da política ótima para o problema. Pretende-se
investigar a viabilidade do emprego de algoritmos tradicionais de PD ao pro-
blema, como forma de simplificar o processo iterativo e assim obter ganhos
computacionais.
3
Na expressão acima, pxy (π) denota a probabilidade de transição do estado x
ao estado y.
Busca-se, através do uso de aproximações, solucionar problemas com um
grande número de estados utilizando-se arquiteturas de aproximação A as-
sociadas a vetores de parâmetros r de pequenas dimensões, de modo a se
obter um algoritmo aproximado com custo computacional significativamente
reduzido em relação ao algoritmo de PD padrão. Busca-se, naturalmente,
escolher r iterativamente de modo a obter uma função V que aproxime V ∗
satisfatoriamente. Assim, a determinação da função V envolve:
1. Definir a arquitetura de aproximação A;
2. Obter o vetor de parâmetros r de maneira a minimizar uma medida de
erro entre V ∗ e V.
4
o algoritmo de iteração de valor. Esse procedimento maximiza a taxa de
convergência de um dado algoritmo com respeito ao esforço computacional.
Baseado nesse procedimento, apresentou-se nesse mesmo trabalho um algo-
ritmo de iteração de valor com informações parciais (sigla em inglês PIVI),
que maximiza a eficiência do algoritmo de iteração de valor com respeito
ao esforço computacional. Esse algoritmo utiliza uma matriz de transição
truncada, refinada linearmente com uma taxa determinística.
Pretende-se desenvolver e aplicar variantes do algoritmo PIVI para outros
algoritmos da classe CL. Além disso, buscar-se-á aplicar o algoritmo PIVI e
suas variantes a problemas de controle e pesquisa operacional.
3 Plano de Trabalho
No intuito de alcançar os objetivos propostos no presente plano de pes-
quisa, prevê-se a realização da lista de atividades abaixo.
5
(b) Problemas com mais de uma ação de controle em todos os estados.
Cronograma
05/2008 11/2008 05/2009 11/2009
Fases 10/2008 04/2009 10/2009 04/2010
1 • • • •
2a • •
2b • •
3a • •
3b • •
3c • •
4 • • • •
5 • • •
4 Conclusões
Foram apresentados alguns resultados preliminares obtidos pelo autor nos
campos de estabilidade estocástica, controle ótimo e programação dinâmica
aproximada em problemas de decisão markovianos - PDM’s. Os referidos re-
sultados foram aplicados particularmente a problemas de produção e estoque
- P&E, e comunicados através de artigos em conferências e e periódicos.
6
Foram apontadas direções e planos visando estender e aperfeiçoar os re-
sultados acima referidos, além de novas perspectivas em áreas de desenvolvi-
mento recente. O autor pretende seguir as linhas de pesquisa indicadas neste
plano durante o período de validade da bolsa de Pós Doutorado por ele pre-
tendida junto ao Laboratório Nacional de Computação Científica -LNCC.
As atividades incluídas nesse plano não excluem, naturalmente, a inclu-
são de outros temas de pesquisa que possam vir a interessar o autor ou ser
de interesse estratégico do LNCC.
Referências
[1] A. Almudevar and E. F. Arruda. Optimal approximation schedules
for iterative algorithms with application to dynamic programming. In
Proceedings of the 46th IEEE International Conference on Decision and
Control, pages 4087–4094, New Orleans, 2007.
7
[10] X. Cao, Z. Ren, S. Bhatnagar, M. Fu, and S. Marcus. A time aggrega-
tion approach to Markov decision processes. Automatica, 38(6):929–943,
2002.
[18] T. Sun, Q. Zhao, and P. B. Luh. Incremental value iteration for time
aggregated markov decision processes. IEEE Transactions on Automatic
Control, 52(11):2177–2182, 2007.