Sie sind auf Seite 1von 27

PROCESOS DE DECISIN MARKOVIANOS *

En Programacin Dinmica hemos visto la optimizacin de sistemas dinmicos discretos,


tanto determinsticos como estocsticos, en horizonte finito. Estudiaremos ahora problemas de
decisin en sistemas dinmicos estocsticos en horizonte infinito, es decir problemas en los
que interesa el comportamiento a largo plazo del sistema. En estos casos es muy importante el
concepto de proceso estocstico, en particular el de cadena de Markov.
Las cadenas de Markov y los procesos de decisin markovianos constituyen modelos
aplicables a una amplia gama de problemas en reas tales como produccin (stocks,
mantenimiento, reemplazo de equipos), comercializacin, finanzas, recursos hdricos, etc.
1. PROCESOS ESTOCSTICOS
Se llama proceso estocstico a una coleccin de variables aleatorias {Xt}, donde el
subndice t es una variable que pertenece a un conjunto dado. En la mayora de los casos t
representa el tiempo. Por ejemplo, X1 X2 Xn , pueden representar el nivel de las
existencias de un producto con demanda aleatoria al finalizar las semanas 1, 2, , n, . De
esta forma un proceso estocstico es un modelo que describe el comportamiento de un sistema
dinmico bajo el efecto de un fenmeno aleatorio.
Cada valor posible de las variables Xt es un estado del proceso. Por ejemplo, el valor que
toma Xk es el nivel de existencias al finalizar la semana t = k. El conjunto de todos los valores
posibles asociados a un proceso estocstico (es decir los valores posibles de todas las Xt) se
llama espacio de estados del proceso. Una transicin es cualquier cambio, de un estado del
proceso en un instante, a un estado en otro instante posterior.
Si t 0 es una variable discreta (continua) el proceso se llama de parmetro discreto
(continuo). Si las variables aleatorias Xt son discretas (continuas) el proceso estocstico se
llama discreto (continuo). Por ejemplo, en un sistema de fila de espera si Xt representa la
cantidad de arribos (proceso de nacimiento puro) en el intervalo [0, t), estamos en presencia
de un proceso estocstico discreto de parmetro continuo; y anlogamente para las partidas.
En lo que sigue supondremos que el proceso es discreto, de parmetro discreto, y que
todas las variables aleatorias tienen el mismo conjunto de definicin.
En un proceso estocstico discreto, de parmetro discreto, el espacio de estados es
discreto. Si las Xt de un proceso discreto son finitas, el proceso se llama finito. En un proceso
estocstico finito se pueden graficar los estados y las
transiciones entre ellos, en dos instantes consecutivos,
1
2
mediante un grafo llamado diagrama de transicin de
estados. Cada estado se indica con un nodo y cada
transicin con un arco. Supongamos, por ejemplo, que
una mquina puede estar en alguno de estos tres estados:
1-Operando; 2-Inactiva; 3-En reparacin (por rotura,
que slo puede ocurrir estando en operacin). El
diagrama de transicin de estados entre dos instantes
3
consecutivos, por ejemplo de un da para el siguiente, es
el indicado en la figura.
*

Nota Tcnica preparada por el Profesor Rogelio A. A. Morn. Escuela de Ingeniera Industrial, Facultad de
Ciencias Exactas, Ingeniera y Agrimensura, Universidad Nacional de Rosario. Prohibida su reproduccin sin
autorizacin del autor. 2006.

Cabe sealar que un diagrama de transiciones en el tiempo, como el utilizado en


Programacin Dinmica, no aportara nada por cuanto sera una repeticin indefinida del
mismo esquema.
1.1. Probabilidades de transicin
A cada transicin del proceso, de un estado en un instante a un estado en el instante
siguiente, se le asocia una probabilidad de transicin. Es la probabilidad (condicional) de
que el sistema est en un cierto estado en un instante dado, sabiendo en qu estados estuvo en
los instantes anteriores. Para parmetro discreto, indicando con ti a los distintos instantes, se
puede escribir

P ( X tn+1 = xtn+1 | X tn = xtn , X tn1 = xtn1 , L, X ti = xti ,L , X t0 = xt0 )

(1)

donde t0 indica el instante inicial del proceso.


Si estas probabilidades no dependen del tiempo, es decir del instante en el que se
considera la transicin, el proceso se llama homogneo. Caso contrario es no homogneo.
Si la probabilidad de estar en un estado cualquiera es independiente de cules hayan sido
los estados anteriores, es decir si
P ( X tn+1 = xtn+1 | X tn = xt n ,L , X ti = xti ,L, X t0 = xt0 ) = P( X tn+1 = xtn+1 )

(2)

el proceso se llama aleatorio puro. Todos los ensayos independientes al azar son procesos de
este tipo.
1.2. Procesos de Markov

Si en un proceso estocstico se cumple la propiedad de Markov: El estado del proceso


en un instante depende slo del estado del proceso en el instante inmediato anterior y es
independiente de todos los estados anteriores a ste, el proceso se llama proceso de Markov.
Si el proceso de Markov es discreto se llama cadena de Markov, es decir si
P ( X tn+1 = xtn+1 | X tn = xt n ,L , X ti = xti ,L, X t0 = xt0 ) = P( X tn+1 = xtn+1 | X tn = xtn )

(3)

Se dice entonces que los estados del proceso forman una cadena de Markov.
La condicin de Markov se puede formular tambin as: Los estados anteriores de un
sistema slo pueden influir sobre los estados ulteriores a travs del estado presente.
2. CADENAS DE MARKOV

En lo que sigue, salvo indicacin en contrario, vamos a considerar solamente cadenas de


Markov finitas (CMF), homogneas y de parmetro discreto. Los instantes los indicaremos
con: 0, 1, 2, , n, ; y los estados con: 1, 2, , j, , k, , N.
La probabilidad de transicin del estado j en el instante n al estado k en el instante n+1 la
indicaremos
p jk = P( X n +1 = k | X n = j ) ,

j , k = 1, 2, L, N

(4)

Estas probabilidades se llaman probabilidades de transicin en una etapa (o,


simplemente, probabilidades de transicin), porque son las que corresponden a transiciones de
un estado en un instante, a un estado en el instante inmediato siguiente.
La probabilidad de transicin en m etapas, es decir la probabilidad de transicin del
2

Procesos de Decisin Markovianos. 2006 R. Morn.

estado j en el instante n al estado k en el instante n+m, se indicar


p (jkm ) = P( X n + m = k | X n = j ) , m = 1, 2, L ,

j , k = 1, 2, L , N

(5)

La (4) es un caso particular de la (5) para m = 1, pero no se indicar con el superndice 1.


2.1. Matriz de probabilidades de transicin de estados

Las probabilidades de transicin de estados se pueden presentar en forma matricial


Estados finales

P=

Estados iniciales

1
1
2
M
j
M
N

p
p
M
p
M
p

11
21

j1

N1

p12
p22
M
p j2
M
pN 2

L
L

p1k
p2 k
M
L p jk
M
L p Nk

L
L

p1N

p2 N
M
L p jN
M

L p NN

(6)

Anlogamente, indicaremos con Pm a la matriz de probabilidades de transicin en m


etapas (m 2).
La j-esima fila de P contiene las probabilidades de transicin del estado j en una etapa a
cada uno de los estados en la etapa siguiente. Evidentemente las filas de esta matriz deben
sumar 1 ya que todos los estados en una etapa forman un conjunto completo de sucesos. Es
decir
N

p
j =1

ij

= 1 , i = 1, 2, L , N

(7)

Anlogamente para Pm. Una matriz tal que todos sus elementos son no negativos y todas
sus filas suman 1, se llama matriz estocstica. Si sus columnas tambin suman 1 se llama
doblemente estocstica o biestocstica, pues su transpuesta tambin es estocstica.
Propiedad.

El producto de matrices estocsticas es una matriz estocstica.

En efecto, consideremos un vector U, de dimensin N 1, cuyos elementos sean todos


iguales a 1. Entonces por (7) es inmediato que PU = U, lo que demuestra que P tiene un
autovalor igual a 1 y U es un autovector (columna) de P. Adems, si P y Q son dos matrices
estocsticas de orden N, entonces PU = U y QU = U, y premultiplicando la primera por Q y
reemplazando la segunda resulta
QPU = QU = U
(8)
Es decir, la matriz QP es tal que sus filas suman 1 y sus elementos son todos no negativos,
porque son de la forma pij qkl y ambos factores son no negativos por ser elementos de
matrices estocsticas, luego es una matriz estocstica.
En particular, todas las potencias de P son matrices estocsticas.
2.2 Ecuaciones de Chapman-Kolmogorov

Estas ecuaciones establecen una relacin fundamental entre las probabilidades de


transicin (en una etapa) y las probabilidades de transicin en m etapas. Para su deduccin
partiremos del conocido Teorema de las Probabilidades Totales:
Procesos de Decisin Markovianos. 2006 R. Morn.

P ( A) = P( A | Bi ) P( Bi )

(9)

i =1

Este teorema puede generalizarse considerando probabilidades condicionales como sigue


N

P ( A | C ) = P( A | Bi , C ) P( Bi | C )

(10)

i =1

Pasando a variables aleatorias y aplicndolo a nuestro caso podemos escribir


N

P ( X + m = k | X n = j ) = P ( X n + m = k | X n + r = i, X n = j ) P ( X n + r = i | X n = j )
14n4
424443 i =1 144444244444
3 14442444
3
(*)

p (jkm )

(11)

p (jir )

donde 1 r < m. Por la condicin de Markov la (*) resulta


P ( X n + m = k | X n + r = i, X n = j ) = P( X n + m = k | X n + r = i ) = pik( m r )

(12)

con lo que la (11) queda


N

p (jkm ) = pik( m r ) p (jir )

(13)

i =1

que son las ecuaciones de Chapman-Kolmogorov.


Observemos ahora que la (13) es el producto escalar de la fila j de Pr por la columna k de
Pm-r que da el elemento genrico de Pm. Luego podemos escribir las ecuaciones en forma
equivalente
(14)
Pm = Pr Pm r
Para r = 1 resulta Pm = P Pm-1 y por aplicacin reiterada de sta obtenemos
Pm = P Pm 1 = P P Pm 2 = P 2 Pm 2 = L = P m 1 P = P m

(15)

Pm = P m

(16)

es decir
Esto es, la matriz de probabilidades de transicin en m etapas se obtiene calculando la
potencia m-sima de la matriz P. Concluimos entonces que la matriz P contiene toda la
informacin necesaria para calcular las probabilidades de transicin en cualquier nmero de
etapas.
2.3. Clasificacin de los estados
j

k
i
Comunicantes
j

Sin retorno

j
Absorbente

Un estado k es alcanzable desde otro j en m transiciones si


p > 0 , m = 1, 2, L . Dos estados j y k se llaman comunicantes si
(m)
jk

son mutuamente alcanzables, aunque sea en diferente cantidad de


transiciones, es decir si p (jkm ) > 0 y pkj( r ) > 0 , m, r = 1, 2, L .
Un conjunto de estados se llama comunicante si todos sus estados
se comunican entre s.
Un estado j tal que pkj = 0 k se llama sin retorno (no se
comunica con ninguno ni con l mismo). Un estado j tal que pjj = 1 se
llama absorbente.

Procesos de Decisin Markovianos. 2006 R. Morn.

Un conjunto B de estados se llama esencial o absorbente si todo estado en B es


alcanzable desde cualquier otro estado en B (son comunicantes), y no es posible alcanzar otro
estado fuera de B. Es evidente que si un sistema evoluciona hacia algn estado de un conjunto
esencial no sale ms de l. Un conjunto de
estados no esencial se llama transitorio.
Esencial
Cuando se estudia el comportamiento de un
A2
A1
proceso a largo plazo slo interesan los
conjuntos esenciales, puesto que una vez que
alcanza un estado en un conjunto esencial el
proceso no sale ms de l. Una CMF puede
tener varios conjuntos esenciales y transitorios.
A4
A3
Si el conjunto esencial es nico la CMF se
No esencial
llama indescomponible o inseparable. Caso
contrario es descomponible o separable en
conjuntos esenciales.
2.4. Probabilidades incondicionales

Hasta ahora hemos considerado solamente las probabilidades condicionales que surgieron
del anlisis de las transiciones. Sin embargo las variables aleatorias X0, X1, X2, , Xn,
deben tener cada una su propia distribucin de probabilidades, es decir las probabilidades de
que el proceso est en un determinado estado en un instante dado.
Nos proponemos ahora hallar estas distribuciones, y para esto necesitamos conocer la
distribucin de X0, la variable correspondiente a t = 0, el arbitrario instante inicial elegido para
comenzar las observaciones del proceso.
Sean las probabilidades de X0
w(j0) = P( X 0 = j ) ,

j = 1, 2, L , N

(17)

entonces la distribucin de Xn est dada por


N

j =1

j =1

wk( n ) = P( X n = k ) = P( X 0 = j ) p (jkn ) = w(j0 ) p (jkn )

, k = 1, 2, L , N

(18)

En forma matricial se puede expresar: 1


( w1( n )

w2( n ) L wk( n ) L wN( n ) ) = ( w1( 0)

w2( 0) L wk( 0 ) L wN( 0 ) ) P n

(19)

e indicando con W(n) y W(0) a los vectores de probabilidades se tiene


W ( n) = W (0) P n

, n = 1, 2,L

(20)

Ejemplo 1. Supongamos una CMF que puede tomar los dos estados A = {A1 , A2} y que
el proceso comienza en el instante t = 0 con
w1( 0) = P( X 0 = A1 ) = 13 , w2( 0) = P( X 0 = A2 ) = 23

Sean adems la matriz de probabilidades de transicin y el diagrama de transiciones de


estados

Conservaremos aqu la costumbre, habitual en la bibliografa, de indicar como vectores fila a los vectores de
probabilidades.
Procesos de Decisin Markovianos. 2006 R. Morn.

14
P = 1
2

3
4
1
2

A2

A1

Entonces en t = 1 ser
W (1) = W ( 0 ) P = ( w1( 0 )

w2( 0 ) ) P = ( 13

2
3

1
) 14
2

3
4
1
2

5
= ( 12

7
12

y en t = 2 resulta
W

( 2)

=W

( 0)

P =W P = (
2

(1)

5
12

7
12

14
) 1
2

3
4
1
2

19
= ( 48

29
48

Y as sucesivamente.
Adems resulta
7
P 2 = 163
8

9
16
5
8

25
64

, P 3 = 13
32

39
64
19
32

103

, P 4 = 256
51
128

153
256
77
128

y se observa que las filas de las potencias sucesivas de P tienden a ser iguales. Esta es una
propiedad que veremos ms adelante.
Ejemplo 2. Consideremos un sistema que puede tomar dos estados: A1 y A2 con
probabilidades de transicin p12 = y p21 = , donde 0 < < 1 y 0 < < 1. Evidentemente
debe ser p11 = 1 y p22 = 1, con lo que resulta

P =
1

1-

A2

A1

1-

Sean w1( 0) y w2( 0 ) las probabilidades de X0 en t = 0. Entonces, calculando se obtiene


(ejercicio):
( n)

+ (1 ) n w1( 0)
w1 =
+
+

(21)

(
n
)
n
(
0
)
w =

+ (1 ) w2
2
+
+

y puesto que | 1 | < 1 resulta


( n)
lim w1 =
n

, lim w2( n ) =
n

(22)

Se observa que la distribucin de Xn tiende a una distribucin lmite cuando n .


Observaciones sobre el ejemplo 2:

1) Los lmites (22) son independientes de las probabilidades iniciales de X0.


2) Si se adoptan como probabilidades iniciales: w1( 0) =

, w2( 0) =

entonces

Procesos de Decisin Markovianos. 2006 R. Morn.

resulta w1( n ) =

, w2( n ) =

para todo n y no slo para n .

3) Si + = 1 resulta w1( n ) = , w2( n ) = sin ninguna hiptesis sobre el estado inicial. En


este caso las variables Xn son independientes.
4) Es fcil verificar (ejercicio) que los autovalores de P son 1 y 1 (que tiene mdulo
| 1 | < 1) y el autovector correspondiente al autovalor 1 es W = ( w1 w2 ) =

=
+


.
+

Otras propiedades de las matrices estocsticas. Se puede demostrar que: 2

i) Una matriz estocstica admite siempre el autovalor 1 (que puede ser mltiple).
ii) Todos los dems autovalores de una matriz estocstica tienen mdulo menor o igual que 1.
Los que tienen mdulo 1 son races de la unidad.
En lo que sigue nos ocuparemos del comportamiento asinttico de las CMF, es decir en
el largo plazo.
2.5. Definiciones

Si existe una distribucin lmite para Xn, independiente de la distribucin de X0, la CMF se
llama ergdica. Las probabilidades lmite se llaman probabilidades de estado permanente.
lim W
n

(n)

= W = ( w1

w2 L wN )

(23)

No toda cadena de Markov tiene distribucin lmite.


Se define la ergodicidad como la propiedad de un sistema que tiende en probabilidad
hacia un estado lmite independiente de la situacin inicial. Como veremos ms adelante la
ergodicidad es una caracterstica fundamental para el comportamiento estable del proceso en
el largo plazo.
Si la distribucin de X0 es tal que Xn tiene la misma distribucin para todo n, es decir
W ( 0 ) = W (1) = L = W ( n ) = L = W

(24)

dicha distribucin W de llama estacionaria.


Evidentemente si la CMF es ergdica (es decir tiene distribucin lmite) y existe una
distribucin estacionaria, esta distribucin deber coincidir con la distribucin lmite. Si la
cadena no es ergdica y tiene distribucin estacionaria, sta no es distribucin lmite (que no
existe).
De (20) resulta evidentemente que un vector de probabilidades W ser una distribucin
estacionaria si, y slo si, satisface W = WP, que es un sistema de ecuaciones lineales que
tambin se puede expresar
W = WP P T W T = W T

( PT I )W T = 0

(25)

donde I es una matriz identidad. Es decir, W ser una distribucin estacionaria si, y slo si, es
el autovector (fila) correspondiente al autovalor 1 de P.
2

Cf., por ejemplo, P. Gordon, Cadenas finitas de Markov y sus aplicaciones, Barcelona: Ed. Hispano Europea,
1967, pp. 90-91.
Procesos de Decisin Markovianos. 2006 R. Morn.

Ya hemos visto que toda matriz estocstica tiene un autovalor igual a 1, luego existe
siempre un vector W no nulo que es distribucin estacionaria del proceso. Si el autovalor 1 es
de orden de multiplicidad k > 1, la matriz podra tener k autovectores linealmente
independientes como distribuciones estacionarias. Enseguida veremos que si hay ergodicidad
la distribucin estacionaria es nica.
Ejemplo 3.

Considerando nuevamente el ejemplo 2 tenemos:

w1 w1
(1 ) w1
1

=
w1
1 w2 w2

+ w2

= w1

+ (1 ) w2

= w2

que es un sistema homogneo con determinante nulo y por lo tanto admite soluciones distintas
de la trivial. Para resolverlo utilizaremos la condicin adicional: w1 + w2 = 1 w1 = 1 w2.
Reemplazando w1 en la primera ecuacin se obtiene
(1 ) w1 + (1 w1 ) = w1 (1 1 ) w1 + = 0 w1 =
y reemplazando este valor en la segunda ecuacin resulta w2 =

Se observa que la distribucin estacionaria coincide con la distribucin lmite encontrada


en (22). Como veremos, es una propiedad general de los procesos ergdicos.
2.6. Propiedades

Se pueden demostrar las siguientes propiedades de las cadenas de Markov finitas. 3


Teorema 1. Sea P la matriz de probabilidades de transicin de una CMF homognea.
Entonces la cadena tiene distribucin lmite (es ergdica) si, y slo si, existe un nmero
entero positivo tal que P tiene al menos una columna con todos sus elementos estrictamente
positivos.

Esta condicin equivale a establecer que un estado j cualquiera es alcanzable en etapas


desde cualquier otro estado.
Si P no tiene ceros, todo estado es alcanzable desde cualquier otro estado en una sola
etapa. Si Pm no tiene ceros todo estado es alcanzable desde cualquier otro en m etapas. La
cadena se llama entonces regular. Evidentemente si una CMF es regular entonces es
ergdica, pero la recproca no es cierta.
Teorema 2.
Entonces:

i)

Sea una CMF y ergdica con matriz de probabilidades de transicin P.

Existen los lmites lim p (jkn ) = wk , j , k = 1, 2,L, N y son independientes de j (la fila de P),
n

es decir del estado inicial.


ii) Los nmeros w1, w2, , wN constituyen la nica solucin no negativa del sistema de
N

ecuaciones W = WP y que adems satisface la condicin

w
k =1

= 1 , donde W es el vector

W = (w1 w2 wN), es decir la distribucin lmite.


Luego la distribucin lmite es la nica distribucin estacionaria de la cadena.
3

Cf., por ejemplo, A. Rnyi, Clculo de probabilidades, Madrid.: Ed. Revert, pp. 477-480.

Procesos de Decisin Markovianos. 2006 R. Morn.

La recproca no es cierta, pues puede haber una distribucin estacionaria sin que exista
distribucin lmite. En efecto, supongamos el siguiente sistema con
1
0 1
. Evidentemente los valores de p (jkn ) oscilan de 0 a 1 y
P =
A1
A2
1 0
1
viceversa al crecer n y por lo tanto no existen los lmites, es decir no
hay distribucin de estado permanente. Sin embargo, dado que P tiene el autovalor 1 (simple),
existe una nica distribucin estacionaria que asigna a cada estado la probabilidad , pues
w1 = w2 = es la nica solucin de la ecuacin (w1 w2)P = (w1 w2) con valores no negativos.
Las probabilidades de estado estacionario expresan la proporcin del tiempo que, en
promedio, el proceso permanecer en cada estado en el largo plazo.
Propiedad.

Si una CMF es ergdica es indescomponible.


1

La recproca no es cierta. En efecto, la CMF


no es ergdica.

A1

es indescomponible y

A2
1

Observaciones

1) Que los lmites wk constituyen la distribucin lmite de la cadena se puede ver fcilmente
a partir de la (20). En efecto, explicitando el k-simo elemento se tiene
N

wk( n ) = w(j0 ) p (jkn )

(26)

j =1

y tomando lmites
N

j =1

j =1

lim wk( n ) = lim w(j0 ) p (jkn ) = w(j0 ) lim p (jkn )


n

(27)

Puesto que por el teorema 2 estos ltimos lmites existen y son independientes de j, resulta
N

j =1

j =1

lim wk( n ) = w(j0 ) wk = wk w(j0) = wk


n

(28)

El teorema establece luego que esa distribucin lmite es la nica estacionaria.


2) La existencia de una distribucin lmite implica que lim P n = P * tiene todas sus filas
n

iguales pues los lmites wk son independientes de j (la fila).


N

3) En el teorema 2, el sistema P T W T = W T junto con la condicin wk = 1 constituyen un


k =1

sistema de N+1 ecuaciones con N incgnitas. Como por el teorema tiene solucin nica,
una de las ecuaciones debe ser combinacin lineal de las dems y puede eliminarse. sta
N

no puede ser la

w
k =1

= 1 porque de lo contrario las restantes tendran la solucin trivial

wk = 0 j. Adems las otras N ecuaciones tienen solucin nica salvo una constante
multiplicativa, son los autovectores de P T , y es la condicin

w
k =1

= 1 la que hace que se

pueda determinar esa constante, obteniendo una solucin que sea una distribucin de
probabilidad. Luego la ecuacin redundante es una cualquiera del sistema P T W T = W T .
Procesos de Decisin Markovianos. 2006 R. Morn.

Escribiendo el sistema como en (25): ( P T I )W T = 0 , y reemplazando la ltima fila por la


N

condicin

w
k =1

= 1 , se lo puede expresar como AW T = b , donde A y b son

p 21
p11 1

p 22 1
p12
A= M
M

p1, N 1 p 2, N 1
1
1

p N ,1

p N ,2
M

L p N 1, N 1 1 p N , N 1
L
1
1

L
L

p N 1,1
p N 1, 2
M

0

0
b = M

0
1

(29)

4) Se suelen definir tambin las CMF ergdicas como aquellas constituidas por una nica
clase comunicante, y se dividen en regulares y peridicas segn
1
que P no tenga ningn cero o tenga algn cero,
A1
A2
respectivamente, para algn . Segn esta definicin la CMF de
1
la figura sera ergdica peridica. Sin embargo, como no tiene
distribucin lmite, de acuerdo a la definicin que hemos adoptado aqu no es ergdica.
Si la matriz P tiene al menos una columna con todos sus elementos estrictamente
positivos, la cadena es ergdica. En caso contrario, para verificar la ergodicidad, se deben
calcular las sucesivas potencias P ( = 2, 3, ), hasta encontrar alguna que tenga al menos
2
una columna sin ceros. Se puede demostrar que la cota para es 2 N ; superado este valor
sin encontrar una columna sin ceros la cadena no es ergdica.
La ergodicidad tambin queda caracterizada por la siguiente propiedad. 4
Teorema 3. Una CMF homognea tiene distribucin lmite independiente de la
distribucin inicial si, y slo si, la matriz P tiene un nico autovalor igual a 1 y todos los
dems autovalores tienen mdulo estrictamente menor que 1.

Si la CMF es ergdica la matriz lmite lim P n = P * tiene todas sus filas iguales y los
n

elementos de stas son las probabilidades estacionarias. An dentro de las CMF ergdicas
pueden presentarse casos en los que alguna probabilidad lmite sea cero, es decir que alguna
columna de P* sea nula. Es el caso en que el proceso tiene algn conjunto de estados no
esencial o transitorio.
Ejemplo 4.

Consideremos la siguiente CMF.

3 1
P = 4 4
0 1

3/4

A1

1/4

A2

Evidentemente el estado A1 es transitorio y el A2 absorbente. Los autovalores de P son


0 1
y el vector de probabilidades estacionarias
1 = 1 y 2 = . La matriz lmite es P * =
0 1
W = (0 1). (Ejercicio). En el largo plazo el proceso estar siempre en el estado A2.
Las propiedades de las CMF ergdicas pueden aplicarse a la parte esencial de las cadenas
no ergdicas.

Cf. P. Gordon, op. cit., pp. 98-101.

10

Procesos de Decisin Markovianos. 2006 R. Morn.

Cadenas peridicas y cclicas.

Una CMF se llama peridica si las sucesivas potencias de P presentan un patrn de


repeticin de sus elementos nulos y no nulos. Por ejemplo:
A1

A2

0 0
0
0 0

2
3
P = 0 P = 0 0 P = 0 L
0 0
0
0 0

A3

donde indica un valor positivo. Evidentemente es no ergdica.


Una CMF se llama cclica si pasa alternativamente de un conjunto de estados a otro
conjunto de estados. Por ejemplo el proceso de la figura es cclico, las potencias sucesivas
repiten el patrn:
A1

A2

A3

A4

0
P=

0
0

0
0


2
P =

0 0
0

0
0 0

0
0

0
0 0

0
0 0
3
P =

0
0

L
0

Obviamente la cadena no es ergdica.

2.7. Cadenas de Markov de parmetro continuo

En todo lo anterior hemos considerado que el parmetro t era discreto. Si bien este
supuesto es apropiado para muchos sistemas reales, hay sin embargo sistemas en los cuales se
debe considerar continuo al parmetro; tal el caso de los sistemas de espera en fila.
Por ejemplo, en un proceso de Poisson de nacimiento puro (slo los arribos a un sistema
de espera en fila) con tasa media de arribos , el estado del sistema en el instante t est dado
por la cantidad de arribos en el intervalo [0, t), con t 0. Es decir, Xt = k indica que llegan k
clientes en ese intervalo y sabemos que la probabilidad de ese evento est dada por
e t (t ) k
P( X t = k ) =
k!

, k = 0, 1, L

(30)

Ahora bien, por las hiptesis del proceso de Poisson sabemos que esta probabilidad slo
depende del instante t y no del estado anterior del sistema. Por lo tanto el proceso de Poisson
es tambin una cadena de Markov discreta, infinita (numerable) y de parmetro continuo.
Anlogamente, el proceso de Poisson de muerte pura (slo las partidas) es una cadena de
Markov discreta, finita, de parmetro continuo.
En consecuencia, dado que las propiedades de las cadenas de Markov de parmetro
discreto se pueden extender a las de parmetro continuo, la teora de estas cadenas se puede
utilizar para deducir los modelos para colas poissonianas. 5

No analizaremos estas aplicaciones dado que el objetivo es estudiar los procesos de decisin en cadenas de
Markov.
Procesos de Decisin Markovianos. 2006 R. Morn.

11

2.8. Caso de aplicacin 6

Los estudios hidrolgicos de un pequeo ro indican que su caudal vara entre 3,3 y 8,3
m /seg., durante el ao, en el lugar en que se proyecta construir un embalse para suministro de
agua para riego a travs de un sistema de canales. En consecuencia el aporte semanal de agua
al embalse variar entre 2 y 5 hectmetros cbicos (Hm3). Sobre la base de los registros de los
ltimos 10 aos se ha determinado la distribucin de probabilidades del aporte semanal que se
indica en la siguiente tabla:
3

Aporte semanal [Hm3]


Probabilidad

0,3

0,4

0,2

0,1

La capacidad proyectada del embalse es de 4 Hm , con el objetivo de suministrar 2 Hm3


para riego y 1 Hm3 para abastecimiento aguas abajo como mnimo obligatorio. Este ltimo
objetivo tiene prioridad absoluta: si la cantidad disponible por semana (aporte ms embalse)
no alcanza, se disminuye la cantidad destinada a riego. Por otra parte si el embalse se llena se
libera todo el excedente aguas abajo. Por razones de seguridad el embalse no deber tener
nunca menos de 1 Hm3.
La salida del sistema (riego ms abastecimiento aguas abajo) deber mantenerse tan
prxima a 3 Hm3 como sea posible, sin entregar menos de 1 Hm3 ni almacenar ms de 4
Hm3; es decir la operacin del embalse es controlada. Se quiere determinar el
comportamiento a largo plazo del embalse.
Evidentemente el aporte semanal es una variable continua que se ha discretizado para
poder tratar el problema como una cadena de Markov finita. Las variables a considerar son las
siguientes:
Etapa:

n = El comienzo de la semana n (n = 1, 2, ).

Estado: xn = Cantidad de agua en el embalse al comienzo de cada semana n.


Aportes: fn = Cantidad de agua aportada por el ro en la semana n (se supondr concentrada
al comienzo de la semana).
Control: un = Salida total en la semana n (se supone concentrada al comienzo de la semana).
La ecuacin de transicin de estados es entonces:
xn +1 = xn + f n un
Evidentemente en cada etapa los estados posibles son: xn = 1, 2, 3, 4.
Para calcular las probabilidades de transicin de estados debemos analizar las distintas
situaciones posibles para cada estado inicial. La tabla siguiente muestra los resultados:
Si xn = 1 resulta:

Si xn = 2 resulta:

fn

un

xn+1

p1k

fn

un

xn+1

p2k

p13 = 0,1

p24 = 0,1

p12 = 0,2

p23 = 0,2

0,4

p22 = 0,4

0,3

p21 = 0,3

p11 = 0,7

Adaptado de H. G. Daellenbach, et al., Introduccin a Tcnicas de Investigacin de Operaciones, Mxico:


CECSA, 1986, pp. 379-388.

12

Procesos de Decisin Markovianos. 2006 R. Morn.

Si xn = 3 resulta:
fn

un

xn+1

0,1

0,2

Si xn = 4 resulta:
fn

un

xn+1

0,1

0,2

p33 = 0,4

0,4

p32 = 0,3

p3k
p34 = 0,3

p4k
p44 = 0,7
p43 = 0,3

Luego la matriz de probabilidades de transicin de estados y el diagrama de transiciones


son los siguientes:
0,2

0,7

0,7 0,2 0,1 0

0,3 0,4 0,2 0,1


P=
0 0,3 0,4 0,3

0
0 0,3 0,7

0,3

0,4

0,2

0,1

0,1

0,3
0,3

3
0,4

0,3

4
0,7

El proceso es evidentemente ergdico por cuanto la matriz P tiene una columna sin ceros.
Podemos entonces calcular las probabilidades estacionarias utilizando (29):
0
0 w1 0
0,7 1 0,3


0,4 1 0,3
0 w2 0
0,2
=
0,1
0,2
0,4 1 0,3 w3 0


1
1
1
1 w4 1

de donde se obtiene
)
)
w1 = 0,20 w2 = 0,20 w3 = 0,26 w4 = 0,33

Las probabilidades estacionarias indican, en el largo plazo, la proporcin del tiempo que
el sistema estar, en promedio, en un determinado estado. Por ejemplo, a largo plazo el 26,7%
de las semanas el embalse tendr 3 Hm3. Por otra parte como estas probabilidades son los
lmites de las probabilidades de transicin en m etapas, cuando m ; tambin indican la
probabilidad de pasar, en el largo plazo, a un determinado estado cualquiera sea el estado
inicial. Por ejemplo, la probabilidad de pasar a tener 3 Hm3 en el largo plazo, desde cualquier
estado actual, es 26,7%.

Procesos de Decisin Markovianos. 2006 R. Morn.

13

3. MODELOS DE DECISIN MARKOVIANOS


3.1. Cadenas de Markov con valores asociados a las transiciones

Sea una CMF homognea ergdica 7 con N estados y matriz de transicin P


p11 L

P= M
p
N1 L

p1N

M
p NN

(31)

Sea rjk el valor asociado a la transicin (por ejemplo, un costo o una utilidad) desde el
estado j al estado k, independiente de n (es decir del tiempo). Definamos entonces la matriz R
r11 L r1N

M
R= M
r

N 1 L rNN

(32)

para representar a todos estos valores. El valor rjk se tendr cuando ocurra la transicin desde j
en una etapa cualquiera hasta k en la etapa siguiente, lo que suceder con una probabilidad pjk;
luego rjk ocurrir con probabilidad pjk y por lo tanto puede ser considerado el valor de una
variable aleatoria. Ms precisamente, los valores de la j-sima fila de R constituyen los
valores de una variable aleatoria cuyas probabilidades estn dadas por la j-sima fila de P.
Supongamos ahora que queremos calcular el costo o beneficio esperado de la evolucin a
largo plazo del sistema. Puesto que estamos en el caso de horizonte infinito, no podemos
proceder como en Programacin Dinmica en ambiente aleatorio, con el clculo de los
valores esperados hacia atrs. Para determinar una ecuacin de recurrencia que nos permita
calcular el valor esperado del costo o beneficio acumulado hasta una etapa n cualquiera,
definiremos a n como el nmero de etapas que faltan para llegar al final. Luego, haciendo
n , podremos obtener el comportamiento asinttico del proceso.
Etapa n

Etapa n-1

Etapa 0

j
yj(n)

pjk , rjk
yi(n|k)

k
yk(n-1)
N

Supongamos que conocemos el valor esperado acumulado cuando el proceso se encuentra


en el estado k y faltan n1 etapas para llegar al final, supuesto finito, que indicaremos yk(n1).
Consideremos ahora el proceso en el estado j de la etapa n. La transicin hasta el estado k de
la etapa n1 ocurrir con probabilidad pjk y con un valor asociado rjk, luego el valor esperado
acumulado en el estado j de la etapa n, para esa transicin, ser
7

En todo lo que sigue nos limitaremos a cadenas de Markov ergdicas.

14

Procesos de Decisin Markovianos. 2006 R. Morn.

y j (n | k ) = p jk [r jk + yk (n 1)]

(33)

Considerando todos los estados posibles en la etapa n1 a los que puede evolucionar el
sistema, el valor esperado acumulado en el estado j de la etapa n, para j = 1, 2, , N, es (ver
figura)
N

k =1

k =1

k =1

k =1

y j (n) = p jk [rjk + yk (n 1)] = p jk rjk + p jk yk (n 1) = v j + p jk yk (n 1)

(34)

con n = 1, 2, 3, , y donde vj es el valor esperado de una transicin simple


N

v j = p jk r jk

k =1

j = 1, 2, L, N

(35)

v1

v= M
v
N

(36)

Indicando los vectores


y1 (n)

y ( n) = M
y ( n)
N

el valor esperado acumulado cuando el nmero de etapas que faltan considerar es n, se puede
escribir en forma matricial
y (n) = v + P y (n 1) , n = 1, 2, L

(37)

Esta ecuacin de recurrencia permite calcular el valor esperado acumulado del proceso a
largo plazo, comenzando con valores arbitrarios yj(0) = 0, j, y haciendo n , supuesto
que el proceso se estabilice. Interesan entonces las condiciones de estabilidad independientes
del estado inicial del proceso.
3.2. Propiedades.

Sea W el vector de la distribucin lmite de probabilidades de la cadena, luego tambin la


distribucin de estado estacionario: W = WP.
En el largo plazo (n ), el proceso tiene una probabilidad wi (independiente del estado
inicial) de estar en el estado i, y vi es el valor esperado de una transicin desde el estado i
hasta la etapa siguiente. Luego el valor esperado de esa transicin es wivi, y el valor esperado
total de la transicin en una etapa es
N

V = wi vi = W v

(38)

i =1

independiente del tiempo y del estado inicial. La ergodicidad de la cadena asegura la unicidad
de V.
En estado estable, el valor esperado acumulado a largo plazo para n etapas ser entonces
nV = nW v

(39)

Por otra parte el valor esperado acumulado en la etapa n est dado por (37). Entonces,
considerando n suficientemente grande (n ), la diferencia entre (37) y (39):
y = y (n) nV

Procesos de Decisin Markovianos. 2006 R. Morn.

(40)

15

representa el efecto transitorio del estado inicial sobre el valor esperado y es independiente
del tiempo. Para un estado j en la etapa n ser
y j = y j (n) nV

(41)

donde yj es un valor independiente del tiempo y slo depende del estado inicial y del estado j
(j = 1, 2, , N). Finalmente el valor esperado acumulado en el estado j en la etapa n se puede
expresar como
(42)
y j (n) = nV + y j = nWv + y j
Esta ecuacin establece que, en general, el valor esperado en el largo plazo est
compuesto por dos partes, una de estado estable, nV, que resulta del comportamiento
asinttico cuando n , y otra transitoria, yj, que depende slo de las condiciones iniciales y
del particular estado j.
De (42) se deduce inmediatamente que, para todo j,
y j (n + 1) y j (n) = (n + 1) V + y j (n V + y j ) = V = cte.

(43)

es decir, para n suficientemente grande, la diferencia entre dos valores esperados sucesivos,
para un mismo estado, es constante. Anlogamente, para todo j i,
y j (n) yi (n) = n V + y j (n V + yi ) = y j yi = cte.

(44)

es decir, la diferencia entre los valores esperados en la misma etapa, para distintos estados, es
constante, pues yj e yi son independientes del tiempo.
Dado que el valor esperado acumulado crece permanentemente, el valor relativo de
ambas constantes, con respecto al valor acumulado, decrece al crecer n y por lo tanto para
n , los valores esperados acumulados tienden a ser iguales, independientemente del
estado.
Ejemplo 5. Consideremos las ventas semanales de un producto de consumo masivo, las
que pueden ser desde excelentes hasta prcticamente nulas. A los efectos de mantener este
ejemplo muy simple, consideraremos slo dos estados posibles de las ventas al finalizar cada
semana: 1- Excelentes, 2- Malas.

En estas condiciones se sabe, por datos histricos y por investigacin del mercado, que si
al finalizar una semana las ventas fueron excelentes hay una probabilidad del 40% de que en
la semana siguiente sean malas, mientras que si fueron malas hay una probabilidad del 50%
de que sigan malas. Se tiene entonces la siguiente situacin:
0,6 0,4

P =
0,5 0,5

0,6

0,4
0,5

0,5

Tambin se conocen las utilidades semanales que se obtienen en cada uno de estos casos.
Si las ventas son excelentes y siguen siendo excelentes, es cuando la ganancia es mxima; si
son excelentes y terminan malas o si son malas y pasan a excelentes, el rendimiento es menor;
si son malas y siguen malas se tienen prdidas. Supongamos que, en una apropiada unidad
10 5
.
monetaria, esta informacin es la indicada en la siguiente matriz: R =
4 3
Se quiere determinar el valor esperado acumulado de la utilidad en el largo plazo,
suponiendo que el comportamiento de los consumidores se mantenga estable.
16

Procesos de Decisin Markovianos. 2006 R. Morn.

Las etapas sern los fines de cada semana y es evidente que el sistema es una CMF
ergdica. El valor esperado en una transicin simple, v, es
v1 = p11r11 + p12 r12 = 0,6 10 + 0,4 5 = 8

v2 = p21r21 + p22 r22 = 0,5 4 + 0,5 (3) = 0,5

Entonces se puede calcular el valor esperado acumulado hasta la etapa n con la (37).
Comenzando con y1(0) = y2(0) = 0 se obtiene
n

y1 (n) = v1 + p11 y1 (n 1) + p12 y2 (n 1)

y2 (n) = v2 + p21 y1 (n 1) + p22 y2 (n 1)

8 + 0,6 0 + 0,4 0 = 8

0,5 + 0,5 0 + 0,5 0 = 0,5

8 + 0,6 8 + 0,4 0,5 = 13

0,5 + 0,5 8 + 0,5 0,5 = 4,75

8 + 0,6 13 + 0,4 4,75 = 17,70

0,5 + 0,5 13 + 0,5 4,75 = 9,375

8 + 0,6 17,70 + 0,4 9,375 = 22,37

0,5 + 0,5 17,70 + 0,5 9,375 = 14,0375

8 + 0,6 22,37 + 0,4 14,0375 = 27,037

0,5 + 0,5 22,37 + 0,5 14,0375 = 18,70375

8 + 0,6 27,037 + 0,4 18,70375 = 31,7037 0,5 + 0,5 27,037 + 0,5 18,70375 = 23,37038

Se observa que los resultados verifican las propiedades (43) y (44). Los valores esperados
tienden a una diferencia constante igual a 4,666 entre etapas para un mismo estado inicial, y
a una diferencia constante igual a 8,333 entre valores en una misma etapa. Como al crecer n
los valores esperados acumulados van creciendo y las diferencias se mantienen constantes, las
diferencias relativas a los valores esperados irn decreciendo (tendiendo a cero).
4. PROCESOS DE DECISIN

Supongamos ahora que en cada estado, en cada etapa, tuvisemos la posibilidad de decidir
entre varias alternativas para la transicin siguiente. Estas alternativas consisten en decisiones
que alteran las probabilidades de transicin. Supongamos que tenemos S alternativas distintas
en cada momento, luego si estamos en el estado j, en el instante n, elegir una alternativa para
la transicin siguiente es elegir una matriz de transicin entre S posibles matrices. Estas
matrices las indicaremos P(s), con s = 1, 2, , S. Para cada matriz P(s) se tendr la
correspondiente matriz de valores R(s), pues al cambiar las probabilidades tambin pueden
cambiar los costos o utilidades asociados a ellas.
Una poltica establece, para cada estado en que se encuentre el sistema en cada etapa, la
decisin a tomar. Llamemos uj(n) a la decisin tomada en el estado j en el instante n, luego si
uj(n) = s significa que hemos optado por la alternativa s. Entonces para todos los estados en
una etapa podemos definir el vector
u1 (n)

u ( n) = M
u ( n)
N

(45)

cuyos elementos componentes uj(n) indican la decisin a tomar en cada estado j en la etapa n.
Cada vector u(n) es una poltica.
Una poltica se llama estacionaria si, siempre que el sistema est en un determinado
Procesos de Decisin Markovianos. 2006 R. Morn.

17

estado, se toma la misma decisin. Esto es, la decisin que se toma en cada etapa depende
slo del estado del sistema.
Una poltica ptima, que indicaremos u*(n), establece la decisin que optimiza el valor
esperado para cada estado en la etapa n. A distintos estados les pueden corresponder
diferentes decisiones ptimas y stas pueden no ser nicas.
Interesa entonces determinar la sucesin de decisiones u*(n) que optimicen el valor
esperado acumulado en el largo plazo. Como veremos, si el proceso es ergdico las decisiones
convergen a una nica decisin ptima estacionaria, es decir u*(n) u* para n . En este
caso se dice que el proceso converge en el espacio de las polticas, es decir que en estado
estable, para n suficientemente grande, la poltica ptima es siempre la misma. Esto significa
por lo tanto que, en el largo plazo, para cada estado del sistema la decisin ptima a tomar es
siempre la misma, aunque a diferentes estados les pueden corresponder decisiones ptimas
distintas.
Cabe sealar que hablamos de poltica y no de estrategia porque, a diferencia de la
Programacin Dinmica en ambiente aleatorio, debido a la convergencia en poltica, en el
largo plazo las decisiones ptimas quedarn definidas para todas las etapas desde el principio.
A continuacin trataremos mtodos para realizar esta optimizacin.
4.1. Mtodo de iteracin de valores

Consideremos nuevamente la ecuacin de recurrencia (34). Como ahora las pjk dependen
de la decisin adoptada las indicaremos p (jks ) para expresar la alternativa elegida, resultando
para la ecuacin de recurrencia, para n = 1, 2, 3, ,
N

k =1

k =1

k =1

k =1

y (js ) (n) = p (jks ) [r jk( s ) + yk (n 1)] = p (jks ) rjk( s ) + p (jks ) yk (n 1) = v (js ) + p (jks ) yk (n 1)

(46)

donde hemos indicado con v (js ) el valor esperado de una transicin simple:
N

v (js ) = p (jks ) r jk( s )


k =1

j = 1, 2,L, N

(47)

Indicando con v(s) al vector de estos valores esperados y con P(s) a la matriz de las p (jks ) ,
podemos escribir en forma matricial
y ( s ) (n) = v ( s ) + P ( s ) y (n 1) , n = 1, 2, L

(48)

Para determinar una ecuacin de recurrencia que nos permita encontrar la estrategia
ptima podemos hacer lo siguiente. Supongamos que hemos determinado Vk(n1), el valor
ptimo en el estado k en la etapa n1; entonces aplicando la alternativa s el valor esperado
acumulado hasta la etapa n ser
N

y (js ) (n) = v (js ) + p (jks )Vk (n 1) ,


k =1

j = 1, 2,L, N

, n = 1, 2, L

(49)

y el valor ptimo del valor esperado se obtiene (caso de maximizacin), aceptando la validez
del principio de optimizacin de Bellman en el caso aleatorio, como
N

V j (n) = max . y (js ) (n) = max .v (js ) + p (jks )Vk (n 1) ,


s
s
k =1

18

j = 1, 2,L, N

, n = 1, 2, L

(50)

Procesos de Decisin Markovianos. 2006 R. Morn.

que es la ecuacin de recurrencia que resuelve el problema en el largo plazo, comenzando con
valores arbitrarios Vj(0) = 0, j, y haciendo n (recordemos que n es el nmero de etapas
que faltan hasta el final).
En cada etapa determinaremos el valor de s que produce el ptimo, es decir la decisin
ptima, con lo que obtendremos la poltica ptima.
Se demuestra que, en el largo plazo (n ), la poltica ptima consiste en aplicar
siempre al mismo estado la misma decisin. Esto es, converge en el espacio de las polticas. 8
Factor de descuento

Como los problemas que estamos tratando son de horizonte infinito, el valor esperado
ptimo dado por (50) tiende a ser infinitamente grande conforme n crece, lo que no es de
valor prctico. Por lo tanto, para realizar un enfoque ms realista del problema es fundamental
compensar las diferencias de valor monetario debidas al tiempo, considerando el valor
presente de los valores esperados. Se debe incluir por lo tanto un factor de descuento
0 < < 1 (igual que en Programacin Dinmica) para considerar en cada etapa el valor
presente del valor esperado. La ecuacin de recurrencia (50) pasa a ser ahora

V j (n) = max . y (js ) (n) = max .v (js ) +


s
s

p
k =1

V (n 1) ,

(s)
jk k

j = 1,L, N

, n = 1, 2, L

(51)

Entonces cuando el proceso evoluciona hasta infinito, al descontarse con < 1, los valores
futuros tienden asintticamente a cero; luego el valor presente del valor esperado debe tender
a un valor constante y no crecer indefinidamente. En efecto, se demuestra que, para n ,
resulta Vj(n) = Vj, independiente de n: 9

V j = max .v (js ) +
s

p
k =1

V ,

(s)
jk k

j = 1, L, N

(52)

Obsrvese que para cada estado hay un lmite independiente del tiempo. La inclusin del
factor de descuento puede dar una poltica ptima distinta de la que se obtendra sin l.
Ejemplo 6. Retomemos el ejemplo 5. Segn sea el estado de las ventas al finalizar cada
semana se pueden tomar distintas decisiones pero, para mantener otra vez el ejemplo muy
simple, supondremos slo dos decisiones posibles cualquiera sea el estado: A- Dejar las cosas
como estn, B- Hacer publicidad.

En estas condiciones las polticas son las siguientes:10


Poltica 1. Dejar las cosas como estn, cualquiera sea el estado.

Este caso es el considerado en el ejemplo 5, por lo tanto las matrices a tomar en cuenta
0,6 0,4
10 5
y R (1) =
, que ahora indicaremos con el superndice 1 para
son: P (1) =
0,5 0,5
4 3
identificar la poltica.
8

Cf., por ejemplo, R. E. Bellman y S. E. Dreyfus, Applied Dynamic Programming, Princeton, N. J.: Princeton
University Press, 1962, pp. 301-302.
9
Cf., por ejemplo, G. Hadley, Nonlinear and Dynamic Programming, Reading, Mass.: Addison-Wesley, 1964,
p. 457.
10
Es importante observar que estas no son todas las polticas estacionarias. Es una simplificacin al solo efecto
de mostrar la mecnica del clculo. Como comentaremos luego, para realizar el anlisis correcto para determinar
la poltica ptima se deben considerar todas las posibles polticas estacionarias.
Procesos de Decisin Markovianos. 2006 R. Morn.

19

Poltica 2. Hacer publicidad, cualquiera sea el estado.

En este caso evidentemente aumentarn las probabilidades de permanecer y de pasar al


estado 1, y disminuirn la de permanecer y de pasar al estado 2. A su vez las utilidades
tambin cambiarn dado que por un lado aumentarn las ventas, pero por otro se tiene el costo
de la publicidad. Supongamos entonces que se han determinado los siguientes valores:
0,9 0,1
8 3
y R ( 2) =
.
P ( 2) =
0,7 0,3
3 7
El objetivo es determinar la poltica ptima en el largo plazo, es decir considerando un
nmero infinito de semanas. No consideraremos factor de descuento.
Es evidente que para cualquiera de las polticas el sistema es una CMF ergdica. Los
valores esperados en una transicin simple son:
v1(1) = p11(1) r11(1) + p12(1) r12(1) = 0,6 10 + 0,4 5 = 8
(1)
(1) (1)
(1) (1)
v2 = p21 r21 + p22 r22 = 0,5 4 + 0,5 (3) = 0,5
v1( 2 ) = p11( 2) r11( 2 ) + p12( 2) r12( 2 ) = 0,9 8 + 0,1 3 = 7,5
( 2)
( 2) ( 2)
( 2) ( 2)
v2 = p21 r21 + p22 r22 = 0,7 3 + 0,3 (7) = 0

El clculo aplicando la ecuacin de recurrencia (50), y comenzando con los valores


iniciales: y1(1) (0) = y1( 2) (0) = y2(1) (0) = y2( 2 ) (0) = 0 , da
n

y1(1) (n)

y1( 2 ) (n) V1 (n) = max .{y1( s ) }


s

u1

y2(1) (n)

y2( 2 ) (n) V2 (n) = max .{y2( s ) }


s

u2

8,00

7,50

8,00

0,50

0,50

13,00

14,75

14,75

4,75

5,75

5,75

19,15

21,35

21,35

10,75

12,05

12,05

25,63

27,92

27,92

17,20

18,56

18,56

Se comprueba que el proceso converge a una poltica permanente, que en este caso es la 2.
Adems el valor esperado acumulado crece indefinidamente y el incremento del valor
esperado en cada etapa tiende a un valor constante 6,5625. Esto ltimo es consecuencia de
considerar valores sin descuento. Si se incluye un factor de descuento es fcil verificar que el
valor esperado acumulado tiende a un valor constante, mientras que el incremento por etapa
tiende a cero. Por ejemplo, para = 0,8 los valores esperados convergen a V1 = 33,928571 y
V2 = 25 (ejercicio).
Observacin. En realidad con dos estados y dos alternativas posibles las polticas
estacionarias a considerar son cuatro, que indicaremos 1, 2, 3 y 4, y son las que se muestran a
continuacin:
ESTADOS
Ventas Excelentes
Ventas Malas

20

POLTICAS
1
2
3
Dejar las cosas como Dejar las cosas como
Hacer publicidad
estn
estn
Dejar las cosas como
Dejar las cosas como
Hacer publicidad
estn
estn

4
Hacer publicidad
Hacer publicidad

Procesos de Decisin Markovianos. 2006 R. Morn.

Las dos alternativas consideradas en el ejemplo son slo las polticas 1 y 4.


Las matrices asociadas con las cuatro polticas se obtienen fcilmente de las dos
alternativas consideradas. En efecto, por ejemplo para la poltica 2 las primeras filas de las
matrices P2 y R2 deben ser las mismas de P1 y R1, mientras que las segundas filas deben ser
las de P4 y R4. Anlogamente para la poltica 3. Las matrices son entonces las siguientes:
Poltica 1

Poltica 2

Poltica 3

Poltica 4

Matriz P1

Matriz R1

Matriz P2

Matriz R2

Matriz P3

Matriz R3

Matriz P4

Matriz R4

0,6

0,4

10

0,6

0,4

10

0,9

0,1

0,9

0,1

0,5

0,5

-3

0,7

0,3

-7

0,5

0,5

-3

0,7

0,3

-7

Si se resuelve el ejemplo considerando las cuatro polticas (ejercicio), se encuentra que la


poltica ptima es la 4 (en este caso particular coincide con la solucin hallada).
Se debe recordar a este respecto que la poltica ptima puede ser distinta para diferentes
estados en una misma etapa. La consideracin de slo dos alternativas, coincidentes con las
polticas 1 y 4, tiene el problema que si resultara ptimo aplicar una alternativa en un estado y
la otra en el otro estado (como la poltica 2, por ejemplo) se tratara de una poltica no
considerada. Es muy importante plantear todas las polticas estacionarias posibles desde el
principio.
Cabe observar que si bien en este ejemplo la convergencia es muy rpida, en otros casos
puede llegar a ser muy lenta y por lo tanto requerir un gran volumen de clculo.
El mtodo de iteracin de valores es la aplicacin del principio de optimizacin de
Bellman (en esencia es Programacin Dinmica con espacio de estados estocstico discreto).
Para una cadena de Markov finita ergdica el mtodo converge a la poltica ptima para
n , es decir no converge en un nmero finito de iteraciones y adems la convergencia no
es montona. En la prctica esto significa que el mtodo convergir para n suficientemente
grande, pero no hay una tcnica que permita saber cul es el valor de n adecuado para lograr
una buena aproximacin, y no es suficiente que dos polticas sucesivas sean iguales para
detener el clculo. Se debe observar numricamente la evolucin del proceso para decidir
cundo detener el clculo. Este problema es la gran desventaja del mtodo.
El mtodo de iteracin de polticas, que veremos luego, converge en forma montona en
un nmero finito de pasos.
4.2. Valor ptimo promedio por perodo

Si el proceso es ergdico, como estamos suponiendo, el valor esperado total en cada etapa,
para n muy grande y para matrices P y R dadas, est expresado por (38) y es independiente
del tiempo. Luego, si consideramos matrices alternativas P(s) y R(s) el valor esperado para cada
alternativa estar dado por
V

(s)

= wi( s ) vi( s ) = W ( s ) v ( s )

(53)

i =1

y entonces el valor ptimo buscado ser

N
V * = max . V ( s ) = max . wi( s ) vi( s ) = max . W ( s ) v ( s )
s
s
s

i =1

{ }

(54)

El valor de s que produce el ptimo determina la poltica ptima. V* es el valor ptimo


promedio por etapa, sin descuento, en condiciones estacionarias en el largo plazo.
Procesos de Decisin Markovianos. 2006 R. Morn.

21

Ejemplo 7.

Consideremos nuevamente el ejemplo 6. Para l resulta


Poltica 1

v1(1)

v2(1)

0,5

w1(1)

Poltica 2
w2(1)

0,5556 0,4444

V (1)

v1( 2 )

v2( 2 )

w1( 2 )

w2( 2 )

V ( 2)

4,6667

7,5

0,875

0,125

6,5625

La poltica ptima es la 2, con un valor esperado promedio por etapa de 6,5625. Este valor
es el que se haba obtenido como incremento constante del valor esperado en el largo plazo en
la optimizacin sin descuento.
Este mtodo puede ser de utilidad en casos en los que se sabe que el proceso est en
condiciones estacionarias en el largo plazo y, dentro de l, se quiere considerar un cierto
nmero de etapas (pocas) para ver el efecto de la poltica ptima en ese corto horizonte
(dentro del largo plazo), en las que se puede considerar despreciable el efecto del descuento.
Es importante destacar que este mtodo considera explcitamente la totalidad de las
alternativas, es decir es de enumeracin completa. Para cada una se debe calcular el vector
W(s), lo que requiere resolver un sistema de ecuaciones. Si la cantidad de estados y de
alternativas de decisin en cada estado es grande, el volumen de clculo es importante.
El mtodo ms eficiente es el siguiente.
4.3. Mtodo de iteracin de polticas 11

Es un mtodo iterativo que consta de dos fases: una de determinacin del valor de V, y
otra de mejora de la poltica. Hay una diferencia muy importante entre el mtodo sin factor de
descuento y el mtodo con descuento, por lo tanto los veremos por separado.
4.3.1. Mtodo de iteracin de polticas sin descuento

Consideremos la ecuacin de recurrencia (34) y reemplacemos en ella la (42). Para


j = 1, 2,, N, resulta
N

n V + y j = v j + p jk yk (n 1) = v j + p jk [(n 1)V + yk ] =
k =1

k =1

k =1

k =1

k =1

= v j + (n 1)V p jk + p jk yk = v j + (n 1)V + p jk yk

(55)

de donde, considerando el primero y el ltimo de los miembros, se obtiene


N

V = v j + p jk yk y j
k =1

j = 1, 2, L , N

(56)

que son N ecuaciones con N +1 incgnitas: y1, y2, , yk, , yN, y V.


Queremos optimizar V. Como hay ms incgnitas que ecuaciones aplicaremos un mtodo
iterativo, comenzando por una poltica arbitraria s que genere un valor V(s) de V, y luego se
buscar una poltica que mejore el valor V(s). El clculo se detiene cuando dos polticas
sucesivas sean idnticas. El mtodo tiene entonces dos fases: el clculo del valor V y la
mejora de la poltica.

11

R. A. Howard, Dynamic Programming and Markov Processes, Cambridge, Mass.: MIT Press, 1960.

22

Procesos de Decisin Markovianos. 2006 R. Morn.

Fase 1. Determinacin del valor de V.

Se elige arbitrariamente una poltica s, lo que significa elegir las matices P(s) y R(s), luego
el sistema (56) toma la forma
V

(s)

=v

(s)
j

+ p (jks ) yk( s ) y (js )


k =1

j = 1, 2, L , N

(57)

que se resuelve haciendo arbitrariamente y N( s ) = 0 , en las incgnitas: V ( s ) , y1( s ) , L, y N( s)1 .


Fase 2. Mejora de la poltica.

Para cada estado j se determina la alternativa que produzca


N

max .V (t ) = max .v (jt ) + p (jkt ) yk( s ) y (js ) ,


t
t
k =1

j = 1, 2, L , N

(58)

donde los valores de yk(s ) son los obtenidos en el paso anterior. Los valores de t que dan el
mximo para cada estado constituyen una nueva poltica s. Si esta nueva poltica es idntica a
la anterior es la ptima; en caso contrario se vuelve a la fase 1 con la poltica s y se repite el
proceso.
Dado que en la (58) y (sj ) no depende de las alternativas t que se consideren, a los efectos
de determinar el valor de t que produce el ptimo en cada estado, se puede tomar directamente
N

max .v (jt ) + p (jkt ) yk( s ) ,


t
k =1

j = 1, 2, L , N

(59)

Dado que la cadena es finita, si el nmero alternativas de decisin en cada estado es finito,
el nmero de polticas estacionarias es tambin finito. Observemos entonces que: en la fase 1
la (57) da una solucin nica para cada poltica; por la fase 2 cada nueva poltica es al menos
tan buena como la anterior; y si una poltica se repite en forma consecutiva el algoritmo
termina. Por lo tanto el mtodo convergir a la solucin ptima en un nmero finito de
iteraciones.
Notemos adems que la ecuacin de recurrencia (34) de donde partimos da el incremento
de valor esperado por etapa, luego la utilizacin de (57) y (59) conducirn al valor ptimo de
ese incremento.
Ejemplo 8.

Consideremos nuevamente el ejemplo 6.

Al solo efecto de ver de manera sencilla el mtodo de clculo volveremos a considerar


slo dos polticas y sin factor de descuento. Sin embargo es importante recordar una vez ms
que se deben plantear todas las polticas estacionarias, porque la poltica ptima puede ser
distinta para diferentes estados en una misma etapa. Tambin conviene recordar que en los
problemas de horizonte infinito se debe aplicar un factor de descuento para considerar el valor
presente del valor esperado.
Veamos entonces el clculo con este ejemplo simplificado.
0,6 0,4
y
Elegimos como poltica inicial, por ejemplo, la 1. Es decir: P (1) =
0,5 0,5
10 5
.
R (1) =
4 3
Procesos de Decisin Markovianos. 2006 R. Morn.

23

1) Clculo del valor esperado.

Utilizando la ecuacin (57).


Clculo de los v (j1)
v1(1) = p11(1) r11(1) + p12(1) r12(1) = 0,6 10 + 0,4 5 = 8
(1)
(1) (1)
(1) (1)
v2 = p21 r21 + p22 r22 = 0,5 4 + 0,5 (3) = 0,5

Clculo de V (1) , y1(1) , y2(1)


V (1) + 0,4 y1(1) 0,4 y2(1) = 8
V (1) 0,6 y1(1) 0,4 y2(1) + y1(1) = 8
(1)
(1)
(1)
(1)
(1)
(1)
(1)
V 0,5 y1 + 0,5 y2 = 0,5
V 0,5 y1 0,5 y2 + y2 = 0,5

de donde, haciendo y2(1) = 0 , se obtiene


)
V (1) = 4,666 ,

)
y1(1) = 8,333 ,

y2(1) = 0

2) Mejora de la poltica.

Utilizando (59).
Clculo de los v (j2 )
v1( 2 ) = p11( 2) r11( 2 ) + p12( 2) r12( 2 ) = 0,9 8 + 0,1 3 = 7,5
( 2)
( 2) ( 2)
( 2) ( 2)
v2 = p21 r21 + p22 r22 = 0,7 3 + 0,3 (7) = 0

Determinacin del valor ptimo.


j

v (j1) + p (j11) y1( s ) + p (j12) y2( s )

v (j2 ) + p (j12) y1( s ) + p (j22) y2( s )

Valor
ptimo

Poltica
ptima

)
8 + 0,6 8,33 + 0,4 0 = 13
)
)
0,5 + 0,5 8,33 + 0,5 0 = 4,66

)
7,5 + 0,9 8,33 + 0,1 0 = 15
)
)
0 + 0,7 8,33 + 0,3 0 = 5,833

15

5,833

2
La decisin resultante es u = , es decir tanto si estamos en el estado 1 como en el 2, la
2
poltica es la alternativa 2. Dado que difiere de la poltica anterior debemos iterar el
procedimiento.
1 iteracin.

1) Clculo del valor esperado.


Clculo de los v (j2 ) .
Son los mismos valores hallados en la etapa anterior: v1( 2 ) = 7,5 v2( 2) = 0
Clculo de V ( 2) , y1( 2 ) , y2( 2 )
V ( 2 ) 0,9 y1( 2) 0,1y2( 2 ) + y1( 2 ) = 7,5
V ( 2 ) + 0,1 y1( 2) 0,1 y2( 2) = 7,5

( 2)
( 2)
( 2)
( 2)
( 2)
( 2)
( 2)
V 0,7 y1 0,3 y2 + y2 = 0
V 0,7 y1 + 0,7 y2 = 0

24

Procesos de Decisin Markovianos. 2006 R. Morn.

de donde, haciendo y2( 2 ) = 0 , se obtiene


V ( 2) = 6,5625 ,

y1( 2) = 9,375 ,

y2( 2) = 0

2) Mejora de la poltica.

Clculo de los v (j1) .


Son los mismos valores hallados en la etapa anterior: v1(1) = 8 v2(1) = 0,5
Determinacin del valor ptimo.
j

v (j1) + p (j11) y1( s ) + p (j12) y2( s )

v (j2 ) + p (j12) y1( s ) + p (j22) y2( s )

1 8 + 0,6 9,375 + 0,4 0 = 13,625

Valor
ptimo

7,5 + 0,9 9,375 + 0,1 0 = 15,9375 15,9375

2 0,5 + 0,5 9,375 + 0,5 0 = 5,1875 0 + 0,7 9,375 + 0,3 0 = 6,5625

6,5625

Poltica
ptima
2
2

2
La decisin resultante es u = , idntica a la anterior, luego es la ptima. El valor
2
ptimo de V es 6,5625 (el anterior era 4,66). Es el incremento de valor esperado por etapa
en el largo plazo sin descuento.
4.3.2. Mtodo de iteracin de polticas con descuento

Ya hemos visto que en los problemas de horizonte infinito se debe aplicar un factor de
descuento para considerar el valor presente del valor esperado. Para el mtodo de iteracin de
polticas partamos nuevamente de la ecuacin de recurrencia (51)

V j (n) = max .v (js ) +


s

p
k =1

V (n 1) ,

j = 1,L, N

(s)
jk k

, n = 1, 2, L

(60)

que sabemos converge a un lmite Vj independiente de n, para n , dado por (52)

V j = max .v (js ) +
s

p
k =1

V ,

j = 1, L, N

(s)
jk k

(61)

El mtodo entonces se puede plantear como sigue:


Fase 1. Determinacin del valor de V.

Se elige arbitrariamente una poltica s, lo que significa elegir las matices P(s) y R(s), y se
resuelve el sistema de N ecuaciones
V j( s ) = v (js ) +

p
k =1

(s) (s)
jk k

j = 1,L , N

(62)

en las incgnitas: V1( s ) ,L , VN( s ) .


Fase 2. Mejora de la poltica.

Para cada estado j se determina la alternativa que produzca

max .v (jt ) +
t

p
k =1

(t ) ( s )
jk k

Procesos de Decisin Markovianos. 2006 R. Morn.

j = 1, 2, L , N

(63)

25

donde los valores de Vk(s ) son los obtenidos en el paso anterior. Los valores de t que dan el
mximo para cada estado constituyen una nueva poltica s. Si esta nueva poltica es idntica a
la anterior es la ptima; en caso contrario se vuelve a la fase 1 con la poltica s y se repite el
proceso.
En estas condiciones se demuestra que, para una cadena de Markov finita (nmero finito
de estados y de decisiones) ergdica, cada nueva poltica (es decir, cada iteracin del mtodo)
da un valor esperado V(s) que es mejor, o a lo sumo igual, que el anterior y por lo tanto el
mtodo converge en un nmero finito de iteraciones. El ptimo se alcanza cuando dos
iteraciones sucesivas dan la misma poltica. 12
En las aplicaciones la convergencia se logra en un nmero relativamente pequeo de
iteraciones y mientras mejor sea la eleccin de la poltica inicial ms rpida ser
convergencia. Esta es la gran ventaja del mtodo. Aunque su desventaja es que en cada
iteracin hay que resolver un sistema de ecuaciones lineales, es el mtodo ms eficiente.
Si se resuelve el ejemplo 8 utilizando (62) y (63), con un factor de descuento = 0,8 y
empleando como poltica inicial la 1, el algoritmo converge en una iteracin a la poltica
ptima (la 2) y a los valores esperados ptimos (con descuento): V1 = 33,928571 y V2 = 25
(ejercicio).
4.4. Ejercicio

Consideremos nuevamente el caso de aplicacin 2.8. Supongamos que el sistema tiene los
siguientes ingresos (en unidades monetarias apropiadas) provenientes de la explotacin del
agua para riego y del lago para recreacin.
Ingreso por suministro de agua para riego: 5 UM, salvo si no se cumple el objetivo de
entregar 2 Hm3 (que sucede slo si, estando en el estado 1, el aporte es de 2, con probabilidad
0,3), en cuyo caso no hay ingreso sino que se paga una multa de 3 UM.
Ingreso por explotacin del lago para recreacin: depende del nivel del lago, es decir del
estado del sistema, segn la siguiente tabla:
Nivel del embalse al comienzo de la semana [Hm3]

Ingresos por servicios de recreacin [UM]

Adems se paga una multa de 5 UM por riesgo de inundacin si la cantidad liberada aguas
abajo supera los 2 Hm3 (que slo sucede si, estando en el estado 4, hay un aporte de 5, con
probabilidad 0,1).
a) Calcular el ingreso total semanal esperado a largo plazo sin descuento. Adoptar un factor
de descuento apropiado y calcular el valor esperado total a largo plazo (valores lmites).
b) Para reducir el riesgo de inundacin se considera la siguiente poltica alternativa: Siempre
que el estado del embalse al comienzo de una semana sea el mximo de 4 Hm3, liberar 2
Hm3 aguas abajo (cualquiera sea el aporte de la semana). Determinar la poltica ptima
entre la actual y esta alternativa.
c) Considerar el nivel mximo del embalse como una variable de decisin y encontrar el
valor que maximice el ingreso total semanal esperado en el largo plazo.

12

Cf., por ejemplo, G. Hadley, op. cit., pp. 458-459.

26

Procesos de Decisin Markovianos. 2006 R. Morn.

5. BIBLIOGRAFA

1. Bellman, Richard E. y Stuart E. Dreyfus, Applied Dynamic Programming, Princeton,


NJ: Princeton University Press, 1962.
2. Bronson, Richard, Investigacin de Operaciones, Mxico: McGraw-Hill, 1986.
3. Daellenbach, Hans G.; John A. George y Donald C. McNickle, Introduccin a
Tcnicas de Investigacin de Operaciones, Mxico: C.E.C.S.A., 1987.
4. Gordon, Patrick, Cadenas de Markov y sus Aplicaciones, Barcelona: Editorial Hispano
Europea, 1967.
5. Hadley, George, Nonlinear and Dynamic Programming, Reading, Mass.: AddisonWesley, 1964.
6. Hillier, Frederick S. y Gerald J. Lieberman, Investigacin de Operaciones, 7 ed.
(c/CD), Mxico: McGraw-Hill Interamericana S. A., 2002.
7. Howard, R. A., Dynamic Programming and Markov Processes, Cambridge, Mass.:
MIT Press, 1960.
8. Taha, Hamdy. A., Investigacin de Operaciones, 5 ed., Mxico: Ediciones Alfaomega
S. A., 1995.

Procesos de Decisin Markovianos. 2006 R. Morn.

27

Das könnte Ihnen auch gefallen