Sie sind auf Seite 1von 8

Projeto de Pesquisa:

Análise, Algoritmos e
Aplicações de Processos de
Decisão Markovianos
Edilson Fernandes de Arruda

27 de março de 2008

1 Introdução e Motivações
Introduzidos por Richard Bellman em um de seus trabalhos clássicos
[7], processos de decisão markovianos (PDM) são uma ferramenta bastante
eficiente na modelagem e solução de problemas de decisão discretos com
incertezas. Puterman [15] definiu PDM como modelos de decisão sequencial
contendo:

1. Um conjunto de instantes de decisão;

2. Um conjunto de estados (possíveis configurações do problema);

3. Um conjunto de ações de controle factíveis;

4. Um conjunto de custos imediatos, dependentes do estado e da ação de


controle;

5. Um conjunto de probabilidades de transição, funções do estado e da


ação de controle.

Este modelo é bastante geral e pode ser aplicado a uma grande variedade
de problemas; veja por exemplo [6, 9, 19], entre outros. A solução de PDM
pode ser obtida por meio de técnicas de programação dinâmica (PD) exata
e aproximada ou aprendizado por reforço, do termo em inglês reinforcement
learning (RL). Estudos detalhados de técnicas e algoritmos de programação
dinâmica podem ser encontrados em [8, 15]. Tratamentos detalhados de
técnicas e algoritmos de aprendizado por reforço e programação dinâmica
aproximada (PDA) podem ser obtidos em [9, 19, 17].
Por conta de sua utilidade e versatilidade, PDM motivaram uma sólida e
variada literatura. No entanto, alguns problemas inerentes ao modelo ainda
persistem, como a dificuldade de se tratar problemas com um grande (possi-
velmente infinito) número de estados [12, 19, 17]. Tais problemas requerem
alto poder de processamento e armazenamento de dados, podendo demandar
mais processamento e capacidade de armazenamento do que está fisicamente
disponível, o que os tornaria computacionalmente intratáveis. O desafio de
se obter soluções satisfatórias para esse tipo de aplicação tem recebido recen-
temente muita atenção na literatura especializada, tendo contribuído para o
surgimento de técnicas de aprendizado por reforço (RL) [19] e programação
dinâmica aproximada (PDA) [17].

2 Linhas de Investigação
O presente projeto prevê a continuação de minhas atividades de pesquisa
junto ao LNCC, com foco especial em técnicas de solução exata e aproximada
de PDM. Pretende-se, além disso, desenvolver novas linhas de pesquisa em
áreas de fronteira, notadamente nas áreas de Redes Estocásticas Comple-
xas [14] e Agregação Temporal em Processos de Decisão Markovianos [10].
Estudos preliminares nessas áreas estão atualmente sendo desenvolvidos.
Apresenta-se a seguir uma lista de tópicos de investigação, na qual são
descritos resultados já obtidos e listados avanços a serem buscados na seqüên-
cia do trabalho de investigação. As atividades incluídas nesse plano não ex-
cluem, naturalmente, a possibilidade de inclusão de outros temas de pesquisa
que possam vir a interessar o autor ou ser de interesse estratégico do LNCC.

2.1 Estabilidade Estocástica, Programação Dinâmica Apro-


ximada e Agregação Temporal
Para um problema de manufatura com gargalo de produção [3], foi pro-
vado que a política ótima é estocasticamente estável e possui uma estrutura
bem definida, determinada por uma dada função de Lyapunov. Apresentou-
se também nesse trabalho, um procedimento sub-ótimo de iteração de valor
aplicada apenas a estados pertencentes à região de estabilidade, com condi-
ções de contorno arbitrárias.
Utilizando como pano de fundo os resultados em [3], buscar-se-á utili-
zar os resultados de estabilidade para estabelecer algoritmos aproximados,
possivelmente utilizando simulação Monte Carlo e conceitos de agregação
temporal [10], que iterem em um subconjunto compacto do espaço de esta-
dos S.
Algoritmos baseados em agregação temporal, concebidos para resolver
problemas com políticas de controle ergódicas e, portanto, estocasticamente
estáveis, normalmente assumem que fora de uma dada região finita de inte-
resse, apenas uma ação de controle está disponível. Assim, pode-se dividir o

2
espaço de estados em uma região finita e controlável e uma região comple-
mentar incontrolável, já que nessa região não é necessária a escolha de uma
ação de controle. Dado que são conhecidas as propriedades do processo esto-
cástico restrito (embedded) ao conjunto de estados de interesse, algoritmos
baseados em agregação temporal [10, 16, 18] obtém a solução exata do PDM
original com critério de custo médio. Pretende-se investigar a aborgagem de
agregação temporal para problemas em que todos os estados são controlá-
veis, i.e. possuem mais de uma ação de controle factível, no intuito de buscar
soluções exatas e/ou aproximadas para PDM com critério de custo médio.
Outra possível linha de pesquisa envolve a utilização de métodos Monte
Carlo para obter estimativas das probabilidades de transição e funções de
custo do PDM restrito ao conjunto de interesse e posterior obtenção de solu-
ções aproximadas para o problema original. Outro problema a ser abordado
no presente projeto é a investigação de algoritmos mais eficientes de itera-
ção de valor para serem aplicados quando da utilização da abordagem de
agregação temporal. Os algoritmos existentes, e.g. [10, 16, 18], geralmente
utilizam uma função paramétrica de custo. Sendo assim, o processo itera-
tivo deve estimar, implícita ou explicitamente, o parâmetro ótimo, ao mesmo
tempo em que itera em busca da política ótima para o problema. Pretende-se
investigar a viabilidade do emprego de algoritmos tradicionais de PD ao pro-
blema, como forma de simplificar o processo iterativo e assim obter ganhos
computacionais.

2.2 Programação Dinâmica Aproximada


Métodos programação dinâmica aproximada (PDA) são métodos sub-
ótimos que utilizam aproximações da função valor V ∗ do problema. Para
tanto, faz-se necessária a definição de uma arquitetura de aproximação ar-
bitrária, por exemplo o conjunto dos polinômios em S de ordem 2, ou um
conjunto de nós e camadas que defina a estrutura de uma rede neural. De-
finida a arquitetura, busca-se em seu domínio a função que aproxime V ∗
satisfatoriamente. Convém mencionar que a arquitetura de aproximação é
definida à priori pelo usuário e permanece inalterada durante a execução de
um algoritmo de PDA.
Denota-se por A a arquitetura de aproximação utilizada, por R o con-
junto de parâmetros admissíveis e por V := A(r), r ∈ R um elemento da
arquitetura, isto é, uma função valor aproximada. A estrutura da função
V deve ser definida de forma que a avaliação de V(x) para qualquer estado
x ∈ S possa ser facilmente obtida.
Ao final do processo, substitui-se a função valor V ∗ (x), x ∈ S, por uma
aproximação V(x) = A(r, x) e utiliza-se no estado x o controle sub-ótimo
π̃(x) que satisfaz à expressão
£ X ¤
π̃(x) = arg min E h(x, π) + pxy (π)V(y) .
π
y∈S

3
Na expressão acima, pxy (π) denota a probabilidade de transição do estado x
ao estado y.
Busca-se, através do uso de aproximações, solucionar problemas com um
grande número de estados utilizando-se arquiteturas de aproximação A as-
sociadas a vetores de parâmetros r de pequenas dimensões, de modo a se
obter um algoritmo aproximado com custo computacional significativamente
reduzido em relação ao algoritmo de PD padrão. Busca-se, naturalmente,
escolher r iterativamente de modo a obter uma função V que aproxime V ∗
satisfatoriamente. Assim, a determinação da função V envolve:
1. Definir a arquitetura de aproximação A;
2. Obter o vetor de parâmetros r de maneira a minimizar uma medida de
erro entre V ∗ e V.

2.2.1 Resultados e Perspectivas


Em [2] foram derivados alguns resultados interessantes para o problema
de programação dinâmica aproximado (PDA). Apresenta-se, no referido tra-
balho, um procedimento de iteração de valor que se utiliza de uma aproxi-
mação paramétrica a cada iteração, denominado algoritmo aproximado de
iteração de valor.
Os resultados obtidos para o problema PDA generalizam resultados exis-
tentes na arquitetura, tais como [11] e estabelecem condições para a conver-
gência de algoritmos aproximados de iteração de valor, independentemente
da aproximação paramétrica utilizada. Trata-se de um avanço significativo,
uma vez que a convergência de algoritmos PDA fora apenas estabelecida
para arquiteturas de aproximação particulares. Pretende-se aprofundar nas
linhas de pesquisa introduzidas em [2], obtendo, se possível, melhores garan-
tias de desempenho para algoritmos PDA, em conjunção com a garantia de
convergência já apresentada. Vislumbra-se, além disso, a utilização de apro-
ximações paramétricas em conjunto com observações acerca da estabilidade
estocástica, a fim de se estabelecer procedimentos mais eficientes de obtenção
de soluções aproximadas em problemas de decisão markovianos (PDM).
Em [4] estabelece-se uma conexão entre PD e otimização convexa e
propõe-se algoritmos baseados em programação convexa para obtenção de
soluções sub-ótimas em algoritmos de programação dinâmica aproximada.
Pretende-se aprofundar nessa linha de pesquisa por meio da utilização de
técnicas de busca direta [13], visando a obtenção de uma solução aproxi-
mada com mínimo resíduo de Bellman, e.g. [5] dentro da arquitetura de
aproximação da função valor empregada.

2.3 Programação Dinâmica


Em [1] foi desenvolvido um procedimento de aceleração de convergência
para uma classe de algoritmos com convergência linear (CL), que engloba

4
o algoritmo de iteração de valor. Esse procedimento maximiza a taxa de
convergência de um dado algoritmo com respeito ao esforço computacional.
Baseado nesse procedimento, apresentou-se nesse mesmo trabalho um algo-
ritmo de iteração de valor com informações parciais (sigla em inglês PIVI),
que maximiza a eficiência do algoritmo de iteração de valor com respeito
ao esforço computacional. Esse algoritmo utiliza uma matriz de transição
truncada, refinada linearmente com uma taxa determinística.
Pretende-se desenvolver e aplicar variantes do algoritmo PIVI para outros
algoritmos da classe CL. Além disso, buscar-se-á aplicar o algoritmo PIVI e
suas variantes a problemas de controle e pesquisa operacional.

2.4 Redes Estocásticas Completas e Outros Tópicos de In-


teresse
Sean Meyn, em seu livro recente [14], chama a atenção para a impor-
tância de redes estocásticas e sua aplicação a problemas bastante relevantes
atualmente. Um exemplo típico de aplicação é a área de redes sem fio (wi-
reless networks), tópico bastante em voga atualmente. Tomando como base
o referido livro, pretende-se realizar estudos temáticos na área visando o de-
senvolvimento de contribuições originais, especialmente no tocante a técnicas
de solução.
Pretende-se investigar as propriedades de políticas discretas ótimas em
problemas de redes estocásticas, notadamente problemas roteamento e filas.
Pretende-se também estudar as condições de estabilidade estocástica, com
possível utilização dessas propriedades na elaboração de algoritmos eficientes
para obtenção da solução ótima. Um possível desdobramento a ser verificado
é a aplicação de teoria de Martingales na caracterização de comportamentos-
limite em problemas discretos de roteamento.
Outros tópicos de interesse envolvem a aplicação de modelos markovianos
e a extensão dos modelos de manufatura previamente estudados a problemas
reais de expansão de capacidade, como por exemplo problemas de expansão
da rede elétrica ou telefônica.

3 Plano de Trabalho
No intuito de alcançar os objetivos propostos no presente plano de pes-
quisa, prevê-se a realização da lista de atividades abaixo.

1. Revisão Bibliográfica: Busca na literatura de trabalhos contendo


novas contribuições nos diversos campos relacionados a processos de
decisão markovianos (PDM) e redes estocásticas complexas.

2. Estudos de Técnicas de Agregação Temporal

(a) Problemas com subconjunto finito de estados controláveis.

5
(b) Problemas com mais de uma ação de controle em todos os estados.

3. Algoritmos de Programação Dinâmica Aproximada (PDA)


em PDM

(a) Investigação e aplicação de técnicas de busca direta em problemas


de PDA.
(b) Busca de garantias de desempenho e limitantes para algoritmos
convergentes de programação dinâmica aproximada (PDA).
(c) Desenvolvimento e aplicação de variantes do algoritmo PIVI [1] a
algoritmos PDA.

4. Estudo de técnicas e algoritmos aplicados a redes estocásticas


complexas

5. Publicação dos Resultados Obtidos.

3.1 Cronograma de Atividades


A Tabela 1 apresenta o cronograma do plano trabalho definido para a
realização do presente projeto pesquisa.

Cronograma
05/2008 11/2008 05/2009 11/2009
Fases 10/2008 04/2009 10/2009 04/2010
1 • • • •
2a • •
2b • •
3a • •
3b • •
3c • •
4 • • • •
5 • • •

Tabela 1: Cronograma do plano de trabalho

4 Conclusões
Foram apresentados alguns resultados preliminares obtidos pelo autor nos
campos de estabilidade estocástica, controle ótimo e programação dinâmica
aproximada em problemas de decisão markovianos - PDM’s. Os referidos re-
sultados foram aplicados particularmente a problemas de produção e estoque
- P&E, e comunicados através de artigos em conferências e e periódicos.

6
Foram apontadas direções e planos visando estender e aperfeiçoar os re-
sultados acima referidos, além de novas perspectivas em áreas de desenvolvi-
mento recente. O autor pretende seguir as linhas de pesquisa indicadas neste
plano durante o período de validade da bolsa de Pós Doutorado por ele pre-
tendida junto ao Laboratório Nacional de Computação Científica -LNCC.
As atividades incluídas nesse plano não excluem, naturalmente, a inclu-
são de outros temas de pesquisa que possam vir a interessar o autor ou ser
de interesse estratégico do LNCC.

Referências
[1] A. Almudevar and E. F. Arruda. Optimal approximation schedules
for iterative algorithms with application to dynamic programming. In
Proceedings of the 46th IEEE International Conference on Decision and
Control, pages 4087–4094, New Orleans, 2007.

[2] E. F. Arruda and J. B. R. do Val. Approximate dynamic programming


based on expansive projections. In Proceedings of the 45th IEEE In-
ternational Conference on Decision and Control, pages 5537–5542, San
Diego, 2006.

[3] E. F. Arruda and J. B. R. do Val. Stability and optimality of a multi-


product production and storage system under demand uncertainty. Eu-
ropean Journal of Operational Research, 188(2):406–427, 2008.

[4] E. F. Arruda, M. D. Fragoso, and J. B. R. do Val. An application of con-


vex optimization concepts to approximate dynamic programming. In To
be included in the Proceedings of the 2008 American Control Conference,
New Orleans, 2008.

[5] L. C. Baird. Residual algorithms: Reinforcement learning with func-


tion approximation. In International Conference on Machine Learning,
pages 30–37, 1995.

[6] R. Bellman. Dynamic programming. Princeton University Press, Prin-


ceton, NJ, 1957.

[7] R. Bellman. A markovian decision process. Journal of Mathematics and


Mechanics, 6(5):679–684, 1957.

[8] D. P. Bertsekas. Dynamic programming and optimal control, volume


1-2. Athena Scientific, Belmont, 2 edition, 1995.

[9] D. P. Bertsekas and J. N. Tsitsiklis. Neuro-dynamic programming.


Athena Scientific, Belmont, 1996.

7
[10] X. Cao, Z. Ren, S. Bhatnagar, M. Fu, and S. Marcus. A time aggrega-
tion approach to Markov decision processes. Automatica, 38(6):929–943,
2002.

[11] G. Gordon. Stable function approximation in dynamic programming.


In Proceedings of the IMCL ’95, 1995.

[12] O. Hernández-Lerma. Adaptive Markov control processes. Springer-


Verlag, New York, 1989.

[13] R. M. Lewis, V. Torczon, and M. W. Trosset. Direct search methods:


then and now. Journal of Computational and Applied Mathematics,
12:191–207, 2000.

[14] S. Meyn. Control Techniques for Complex Networks. Cambridge Uni-


versity Press, New York, 2008.

[15] M. L. Puterman. Markov decision processes: Discrete stochastic dyna-


mic programming. John Wiley & Sons, New York, 1994.

[16] Z. Ren and B. H. Krogh. Markov decision processes with fractional


costs. IEEE Transactions on Automatic Control, 50(5):646–650, 2005.

[17] J. Si, A. Barto, W. Powell, and D. Wunsch. Handbook of learning and


approximate dynamic programming. John Wiley & Sons-IEEE Press,
Piscataway-NJ, 2004.

[18] T. Sun, Q. Zhao, and P. B. Luh. Incremental value iteration for time
aggregated markov decision processes. IEEE Transactions on Automatic
Control, 52(11):2177–2182, 2007.

[19] R. S. Sutton and A. G. Barto. Reinforcement learning: an introduction.


MIT Press, Cambridge, 1998.

Das könnte Ihnen auch gefallen