Ecuacién de Bellman
De Wikipedia la enciclopeia libre
[La ecuacién de Bellman, también conocida como la ecuacién de programacién dindmiea, nombrada en honor de su descubridor, Richard Bellman, es
una condicidn necesaria para la optimalidad asociada con el metodo de la optimizacion matematica conacida como programacién dindmica. Se escribe el
valor de un problema de decision en un determinado punto en el tempo en términos de la recompensa que dan algunas opciones inicales y el valor del
problema de decision restante que resulta de esas opciones iniciales. Esto rompe un problema de optimizacién dinamvca en subproblemas mas simples,
fal como el Principio de optimalidad de Bellman establece
[La ccuacién de Bellman se apicé primero a la ingenicria en la teoria de control y otros temas de matematica aplicada y, posteiormente, se convitié en
tuna herramienta important en la teria econémica
Casi cualquier problema que puede ser resuelto usando la teoria de control 6ptimo también se puede resolver mediante el anilisis de la ecuacion de
Bellman apropiada, Sin embargo, el término "ecuacién de Bellman’ por lo general se reiere a la ecuacién de programacién dinimica asociada a tiempo
iscreto problemas de optimizacién. En los problemas de optimizacién en tempo continuo, la eeuacién andloga es una eeuacién diferencial parcial que
ageneralmente se llama la ecuacién de Hamilton-Jacobi-Bellman,
indice
= | Conceptos analiticos en programacién dindmica
= 2 Derivacidn de la ecuacién de Bellman
= 2.1 Un problema de decisién dindmico
1 2.2 Principio de Bellman de optimalidad
43 Eeuacién de Bellman
4 La ecuacidn de Bellman en un problema estocistico
5 Mélodos de solucién
6 Aplicaciones en economia
7 Referencias
Conceptos analiticos en programacién dindmica
Para entender [a ecuacién de Bellman, varios conceptas subyacentes deben ser enteruidos. En primer lugar, cualquier problema de optimizacién debe
tener un objetivo - reducir al minimo el tempo de vise, reduciendo al minimo coste, maximizat los benefiios, maximizacién de la uilidad, etetera, La
funcién matematica que deseribe este abjetve se denamina fiancidn objetivo.
La programacién dindmica descompone un problema de planificacién de multiples periodos en pasos ms simples para diferentes momentos. Por lo
tanto, se requiere hacer el seguimiento de eémo la situacién de decisin esta evolucionando ene! tiempo. La informacion sobre la situacién actual que se
necesita para tomar una decisin correcta se llama el estado (Ver Bellman, 1957, cap. 11.2).)? Por ejemplo, para decidir cunto consumit y gastar en
cada punto en el tiempo, la gente tendria que saber (ene otras cosas) su riqueza inicial. Por lo tanto, la riqueza seria una de sus variables de estado, pero
probablemente habria otras,
Las variables seleccionadas en cualquier punto dado en el tiempo se llaman variables de control, Por ejemplo, dada su riqueza actual, la gente podria
Aecidir euinto consumir ahora, La eleccién de ls variables de control ahora puede ser equivalente a la eleccin dela siguiente estado, mas en genera, el
siguiente estado se ve afectada por otros factores, ademds de a regulacién de cozriente. Por ejemplo, en el caso més seneillo, ls vigueza de hoy (el
estado) y el consumo (el control) pueden determinar con exactitud la riqueza de mafiana (el nuevo estado), aunque por lo general otros factores pueden
afectar la riqueza de mafana tambien
El enfoque de programacién dindmica describe el plan éptimo mediante la busqueda de una regla que dice lo que los controles deben se, teniendo en
ceventa cualquier posible valor del estado, Por ejemplo, si el consumo (c) solo depende de Ia riqueza (W), entonces se buscaria una regla ¢( W’) que da el
consumo en funcién de la riqueza. Tal regla general, la determinacién de los controles como tna funcién de los estados, se llama wna funcién de politica
(Ver Bellman, 1957, cap. 11.2)!
Por tltimo, por definicion, la regla de decision dptima es la que logra el mejor valor posible del objetivo. Por ejemplo, si alguien elige el consumo, la
riqueza dada, con el fin de maximizar la felicidad (suponiendo que la felicidad H puede ser representado por una funcién matemtica tal como una
utlidad de funcién), a continuacién, cada nivel de la riqueza se asocia con algin nivel mas alto posible de la felicidad , H(TV’) E1 mejor valor posible
el objetivo, eserta como una funcién del estado se Hama la funeién de valor.
Richard Bellman mostr6 que una dindmica de optimizacién de un problema en tiempo discreto se puede afirmar en un recursive forma, paso a paso,
sanolande la relacin enre la funcion de valor en un periodoy el valor de la funcién en el proximo periodo, La relacién entee estas dos unciones de valor
se llama la ecuacién de Bellman.
Derivacion de la ecuacién de Bellman
Un problema de decisién dinémico
Sea Tel estado ene! momento Para una decision que comienza en el momento 0, tomamos como dado el estado nical Tp Ea cualquier momento, el
conjunto de posibles accionesdepende del stad actual podemos eseribir esto como a, € ['(24), Donde Ia accién at representa una 0 mis variables
4e control, También suponemas que e! estado cambia de x a un nuevo estado T (x, a) cuando la accién a se toma, ¥ que el pago actual de la adapeién de
‘medidas un en el estado de x es F(x, a) Por ultimo, asurimos la impaciencia, representado por un factor de descuento 0 <\ beta 0.
La primera restrceion es la acumulacion de capital / ley de movimiento especifieado por el problema, mientras que le segunda restriceién es una
condicién de transversalidad que el consumidor no realiza la deuda al final de su vida, La ecuacién de Bellman es
V(a) = goax {u(e) + 8V((L+r)(a—e))},
‘Como alterativa, se puede tratar el problema directamente con la secvencia, por ejemplo, los hamiltonianos ecuaciones,
Ahora, sila tasa de interés varia de un periodo a oro, el consumidor es la cara con un problema de optimizacion estorastia. Que el interés r sigue un
proceso de Markov con funcién de probabilidad de transicién Q (di r) donde du r denota la medida de probabilidad que rige le istribucién del
préximo periodo de pos de interés a tasa de interés actual esr, Elcalendario de este modelo es que el consumidor decide su consumo actual periodo
despues de que se anuncis la tasa de interés actual periodo,
En lugar de simplemente eligiendo una Gnica secuencia {c) 1, el consumidor debe ahora elegt una secuencia fc) para cada posible relizacion de un ¢
{) de tl manera que su uilidad esperada vida til se maximiza:
max (5 stu(c))
v
La expectativa E se toma con respecto a la medida de probabilidad apropiada dada por Q en las secuencias de t's, Debido a que res gobernade por un
proceso de Markov, programacién dindmica simplifica el problema de manera significativa. A continuacién, a ecuacién Bellman es simplemente
V (ar) = poate) + 6 [ V((1+ r\(a~ 0.1) dite)
‘Bajo algunas hip6tesisrazonable, la funcién politica optima g resultante (a, 1) es medible
Para un problema de optimizacion estocastica secuencial general choques Markoy y donde el agente se enftenta a la devision ex-post, la ecuacion de
Beliman toma una forma muy similar
V(z,z) = V (T(z, c),2')dp.(2’).
wax, F(e,c,2) +8
ete
pease tena Bao aae cin nan- Whips aga
Métodos de solucién
FI método de coeficientes indeterminados, también conocido como “adivinar y verifiar", se puede utilizar para resolver algunos de horizonte infinito,
auténomas ecuaciones de Bellman,
La ecuacién de Bellman puede ser resuelia por induccién hacia ats , ya sea analitcamente en unos pocos casos especiales, o muméricamente en un
‘ordenador. La induceién hacia atrés numérica es aplicable @ una amplia variedad de problemas, pero puede ser no factible cuando hay muchas variables
de estado, debido a la maldicion de la dimensionalidad. Programacion aproximado dinamica ha sido introdueido por DP Bertsekas y JN Tsitsiklis con el
uso de redes neuronales artificial ( perceptrones multicapa ) para la aproximacién de la funcién de Bellman. [4] Fsta es una estrategia de mitigaciéon
cficaz para redueir el impacto de la dimensionalidad mediante la sustitucion de la memorizacién de la coztelacién de funciones completo para el dominio
de todo el espacio con la memorizacion de los tinicos pardmetros de la red neural
“Mediante el eéleulo de las condiciones de primer orden asociados con la ecuacién de Bellman y, a continuacién, uilizando el tgorema de la envolvente
para eliminar los derivados de la funcién de vaio, es posible obtener un sistema de ecuaciones en diferencias 0 ecuaciones diferenciles llamados los "
‘ecuaciones de Euler. Las técnicas estindar para Ia solucién de la diferencia ecuaciones diferenciales pueden usarse entonces para caleular la dinarnica
de ls variables de estado y las variables de contol del problema de optimizacion,
Aplicaciones en economia
El primer uso conocido de una ecuacién de Bellman en la economia se debe a Martin Beckmann y Richard Muth.’ Martin Beckmann también escribié
extensamente sobre la teria del consumo mediante la ecuacién de Bellman en 1959. Su obra intluyé Edmund S. Phelps, entre otros.
‘Una aplicacién econdmica celebrado de una ecuacién de Bellman es seminal articulo de Merton 1973 en el Capital Asset Pricing Model intertemporal
(ease también el problema de la cattera de Merton ), La solucién al modelo tebrico de Merion, uno en el que los inversores optaron ent el ingreso
actual y el ingreso futuro o ganancias de capital, es une forma de la ecuacién de Bellman. Dado que les aplicaciones econémicas de programacion