Programacion No Lineal

UNIVERSIDAD CENTROCCIDENTAL
LISANDRO ALVARADO
Decanato de Ciencias y Tecnologa
Licenciatura en Ciencias Matemticas
Sobre una nueva bsqueda lineal tipo armijo y

su relacin con el mtodo de region de
confianza
Trabajo Especial de Grado presentado por
Br. Ranghely del C. Hernndez Castaeda
como requisito final

para obtener el ttulo de Licenciado
en Ciencias Matemticas
rea de Conocimiento: Optimizacin.
Tutor: Dr. Rmulo Castillo
Barquisimeto, Venezuela.
Julio de 2012
Dedicado A mis Padres Carmen y Rafael,

A mis Hermanos, Raidicar, Wilfredo,
Rodolfo, A mis Abuelos, Lucila, Rafael, A
mi novio Miguelangel.
AGRADECIMIENTOS
A DIOS primeramente por darme la oportunidad de vivir y regalarme una familia

maravillosa, por que a pesar de los obstculos me llenaste de fuerza y voluntad para
poder culminar mi carrera.
A mis padres, por haberme dado la vida por su apoyo y esfuerzo, por la confianza
depositada en mi, por estar a mi lado en todo momento a quienes debo este triunfo,
por incentivarme a seguir adelante y por todos esos sacrificios que hicieron por mi
para lograr que sea una profesional.
A mi hermano, por sus palabras y consejos que nunca faltaban siempre las tuve
presente, por su espritu luchador y emprendedor eres mi ejemplo a seguir.
A mi hermanos, Raidicar, Wilfredo y Rodolfo, por que no slo son mis hermanos,
son mis mejores amigos siempre aconsejndome para bien, ayudndome siempre en
todo lo que necesite gracias por nunca faltarme su apoyo tanto financiero como
personal y por confiar en mi.
A mis tias (Nelly, Alida), primas (Aliana, Albany) y primos (Keiber, David) por
sus consejos, por el apoyo brindado.
A mis amigos (Maria G., Elena, Beomay, Williams, Orangel, ), por compartir
conmigo buenos y malos momentos, por las enseanzas que me dejaron cada uno de
ellos.
A mis compaeros de clase (Mary Ines, Dayana, Maria E.,), por su disposicin
para ayudarme cuando los necesitaba.
A Miguelangel, por tu apoyo incondicional que me permiti mantenerme constante y no decaer, por motivarme a luchar por lo que quiero.
A mi tutor Rmulo Castillo por ser un gran Mentor y amigo.
Y a todos aquellos que de una u otra forma colaboraron conmigo.
Sobre una nueva bsqueda lineal tipo armijo y

su relacin con el mtodo de region de
confianza
R ESUMEN
El propsito central de este trabajo es relacionar los Mtodo bsqueda lineal
con el Mtodo de Regin de Confianza, los cuales son dos importantes clases de
tcnicas para resolver problemas de optimizacin inrrestrictas y tienen sus ventajas
respectivamente. En este trabajo se utiliza la Regla de Armijo la cual es un Mtodo
de bsqueda lineal inexacto, y se propone una Nueva Bsqueda Lineal de problemas
de optimizacin sin restricciones. Convergencia global y la velocidad de convergencia
del nuevo mtodo se analizan en leves condiciones. Adems, la nueva estrategia tipo
Armijo de bsqueda lneal se muestra como equivalente a una aproximacin de un
mtodo de regin de confianza, entonces tiene tanto ventajas de la estrategia de
bsqueda en lnea y la estrategia de regin de confianza.
ii
Introduccin
Al resolver problemas de optimizacin irrestricta nos vemos en la necesidad de
estudiar principalmente dos tipos de metodologas que generan sucesiones, las cuales
se esperan de alguna forma converger a un minimizador de la funcin objetivo. Por
una parte tenemos los mtodos basados en bsquedas lineales, en los cuales, una
vez obtenida una direccin de avance, realizamos una bsqueda lineal en esa direccin; tales bsquedas pueden ser exactas o inexactas. Entre estas ultimas tenemos
las bsquedas de Armijo, Wolfe y Goldstein. Por otra parte los mtodos de region
de confianza constituyen otra metodologa para el mismo fin; en este ultimo caso
primero se preocupa uno del tamao del paso y luego de la direccin resultante por
medio de una aproximacin cuadrtica local de la funcin objetivo en cada iteracin.
En el presente trabajo realizaremos un estudio general de las bsquedas lineales y el
mtodo de region de confianza, pero nos detendremos en el anlisis de una particular bsqueda tipo Armijo propuesta recientemente que relaciona el iterado obtenido
mediante esta nueva bsqueda con la solucin aproximada del subproblema correspondiente al mtodo de region de confianza.
ndice
Agradecimientos
Resumen
ii
1. PRELIMINARES
1.0.1. Direccin de Descenso . . . . . . . . . . . . . . . . . . . . . .
1.0.2. Direccin de Newton . . . . . . . . . . . . . . . . . . . . . . .
1.0.3. Otras Direcciones de Descenso . . . . . . . . . . . . . . . . . .
1.0.4. Condicin de Suficiente Descenso para dk
. . . . . . . . . . .
10
1.0.5. MTODO DE BSQUEDA LINEAL . . . . . . . . . . . . . .
10
1.0.6. Mtodo de Regin de Confianza . . . . . . . . . . . . . . . . .
15
1.1. Razn de Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . .
21
Referencias
24
2. SOBRE UNA BSQUEDA LINEAL TIPO ARMIJO Y SU RELACIN CON EL MTODO DE REGIN DE CONFIANZA
25
2.1. Un novedoso uso de la regla de Armijo . . . . . . . . . . . . . . . . .
25
2.2. Convergencia Global . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
2.3. Razn de Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . .
31
2.3.1. Convergencia Lineal . . . . . . . . . . . . . . . . . . . . . . .
31
2.4. Convergencia Superlineal . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.5. Convergencia Cuadrtica . . . . . . . . . . . . . . . . . . . . . . . . .
36
2.6. Relacin con el Mtodo de Regin de Confianza . . . . . . . . . . . .
37
iv
Sobre una nueva bsqueda lineal tipo armijo y su relacin con el

mtodo de region de confianza
v
2.7. Conclusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
Referencias bibliogrficas.
41
ndice de figuras
1.1. Grfica de la funcin con corte de planos . . . . . . . . . . . . . . . .
1.2. Conjunto de nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Direccin de Mximo Descenso . . . . . . . . . . . . . . . . . . . . .
1.4. La dificultad es que el direccin de mximo descenso es casi ortogonal

a la direccin que conduce al mnimo cuando las superficies de costo
de f son alargada. Con lo que resulta, que el mtodo vaya en zig-zag
sin hacer avance rpido. . . . . . . . . . . . . . . . . . . . . . . . . .
1.5. Direccin de Descenso . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6. Mtodo de Bsqueda Lineal . . . . . . . . . . . . . . . . . . . . . . .
11
1.7. Grfica de () . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1.8. Mtodo de Biseccin . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
1.9. Regla de Armijo
14
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.10. Regla de Goldstein: lustra el conjunto de tamaos de paso que son

aceptables en la regla de Goldstein. . . . . . . . . . . . . . . . . . . .
15
1.11. Region de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
1.12. Punto de Cauchy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
1.13. Punto de Pata de Perro. . . . . . . . . . . . . . . . . . . . . . . . . .
20
vi
Captulo
PRELIMINARES
En este captulo se presentan los fundamentos de la optimizacin sin restricciones.
En la optimizacin sin restricciones, se minimiza una funcin objetivo que depende de variables reales, sin restriccin alguna en los valores de estas variables.
Consideremos el problema de minimizacin sin restriccin.
minf (x),
xRn .
(1.1)
Donde Rn denota un espacio Euclideano n-dimensional y f : Rn R es una funcin

continuamente diferenciable. Para la minimizacin de dicha funcin se procede por
medio de varios mtodos, entre los cuales nos enfocaremos en el Mtodo de Bsqueda
Lineal y el Mtodo de Regin de Confianza.
Definicin 1.0.1. Un punto x se dice que es un punto mnimo relativo o punto
mnimo local de f sobre si existe un > 0 tal que f (x ) 6 f (x) para todo x ,
dentro de una distancia de x (Esto es, x y |x x | < ). Si f (x ) < f (x) para
todo x y |x x | < , x 6= x , entonces x es llamado punto mnimo local estricto
de f sobre
Definicin 1.0.2. Un punto x se dice punto mnimo global de f sobre , si
f (x ) 6 f (x) para todo x . Si f (x ) < f (x) para todo x y x 6= x , entonces
x es un punto mnimo global estricto de f sobre
Definicin 1.0.3. (Funcin Continua)
Sea f : X Rn R es continua si:
> 0, > 0; xX, kx ak < kf (x) f (a)k <
1
(1.2)

2
Donde k k es la norma euclideana.
Definicin 1.0.4. (Funcin Uniformemente Continua)
Una funcin f : Rn R, n > 1 es uniformemente continua en un intervalo A Rn
si para todo > 0 existe algn > 0 tal que para todo x, yA se cumple que si
kx yk < , entonces kf (x) f (y)k <
Teorema 1.0.5. (Teorema del Valor Medio, de Lagrange)
Sea A un abierto en Rn , sea f : A R diferenciable sobre A. Si A contiene el
segmento de linea con extremos a y a + h, entonces existe un punto c = a + h, con
[0, 1], tal que:
f (a + h) f (a) = g(a + h)h
(1.3)
La prueba se encuentra en cualquier libro de anlisis ver

Teorema 1.0.6. (Teorema Fundamental del Clculo) Sea A un abierto en Rn , sea
f : A R. Si f es continua sobre A, entonces
Z a
f = f (x) f (a)
(1.4)
Prueba ver
Definicin 1.0.7. (Lipschitz continua)
Una funcin f : Rn R, se dice que es Lipschitz continua o simplemente Lipschitziana, si existe una constante M > 0, tal que:
kf (x) f (y)k 6 M kx yk, x, yRn .
(1.5)
Donde M es llamada la contaste Lipschitz de la funcin.

Igualmente es Lipschitz continua en un conjunto X Rn si existe una constante
M > 0, tal que:
kf (x) f (y)k 6 M kx yk, x, yX.
(1.6)
Si M es la constante Lipschitz de f, entonces kf (x)k 6 M toda vez que el gradiente

de la funcin exista. Contrariamente, si f : I Rn R es una funcin diferenciable
con derivada acotada, kf (x)k 6 L para toda x en I, entonces f es Lipschitz continua
con constante Lipschitz K = L, una consecuencia del teorema del valor medio.

3
Proposicin 1.1 Sea f : X Rn R Lipschitziana, entonces es continuamente
uniforme
Demostracin.
Sea f Lipschitziana, luego existe un c > 0, tal que kf (x) f (y)k 6 ckx yk, x, yX.
As para cualquier > 0, basta tomar = /c. Por Lipschitziana tenemos que
kx yk < kf (x) f (y)k <
Entonces f es continuamente uniforme
Definicin 1.0.8. (Funcin Convexa)
El trmino onvexo"se puede aplicar tanto a conjuntos como funciones. Un conjunto
S Rn es convexo si el segmento de recta que une dos puntos cualesquiera de S se
encuentra totalmente dentro de S. Formalmente, para dos puntos cualesquiera x,y
S, tenemos que
x + (1 )yS, [0, 1].
(1.7)
La funcin f es una funcin convexa si su dominio S es un conjunto convexo y si para

cualquier par de puntos x,y S, se satisface la siguiente propiedad:
f (x + (1 )y) 6 f (x) + (1 )f (y), [0, 1].
(1.8)
Ejemplos de funciones convexas incluyen la funcin lineal f (x) = cT x + , para

cualquier vector constante c Rn y escalar , y la funcin cuadrtica convexa f (x) =
xHx, donde H es una matriz simtrica semidefinida positiva.
Decimos que f es estrictamente convexa si la desigualdad (1.8) es estricta siempre
que x 6= y y est en el intervalo abierto (0, 1). Una funcin f se dice que es cncava
si f es convexa.
Si la funcin objetivo es convexa en todo su dominio, entonces cualquier solucin
local del problema es, de hecho, una solucin global.
Definicin 1.0.9. (Funcin Pseudoconvexa)
Sea f : S R una funcin diferenciable sobre S, f es pseudoconvexa si para cada
x1 , x2 S se cumple que,
Sif (x2 ) < f (x1 ), entoncef (x1 )T (x2 x1 ) < 0
(1.9)
o de manera equivalente,
Sif (x1 )T (x2 x1 ) > 0, entoncef (x2 ) > f (x1 )
(1.10)

4
Y tenemos como consecuencia que,
Sif (x) = 0, entonces x es un minimo global.
(1.11)
Ya que si f (x) = 0, entonces f (x)T (x2 x) > 0, x2 S se cumple f (x2 ) >

f (x) x2 S
Definicin 1.0.10. (Conjunto de Nivel)
Sea H un conjunto y f : H R. El conjunto de nivel Ck para la funcin f es el
subconjunto de puntos x en H para los cuales f (x) = k.
En Simbolo:
Ck = {xH : f (x) = k}
(1.12)
Si H=R2 , los conjuntos de nivel son en general curvas y se las llama curvas de
nivel.
Si H=R3 , los conjuntos de nivel suelen ser superficies y se les llama superficies
de nivel.
Cuando H = R2 , f (x) = z con xH, la grfica de dicha funcin corresponde
al conjunto gr(f ) = {(x1 , x2 , f (x1 , x2 )) : (x1 , x2 )H}. Al ubicar los puntos en el
espacio R3 , obtenemos una superficie en dicho espacio. Las curvas de nivel se obtienen
cortando la superficie con planos horizontales situados a distintas alturas. Si cortamos
la grfica con varios planos horizontales obtenemos una serie de curvas situadas sobre
la grfica:
Figura 1.1: Grfica de la funcin con corte de planos

Y si ahora proyectamos esas curvas sobre el plano xy (lo cual equivale a mirar la
grfica, desde arriba, a vista de pajaro) vemos una familia de curvas planas, que son
el conjunto de las curvas de nivel de esta grfica:

5
Figura 1.2: Conjunto de nivel
Conjuntos de nivel y gradientes

Si el conjunto H coincide con Rn y el campo escalar es de clase C 1 entonces los
vectores gradiente del campo escalar son ortogonales a los conjuntos de nivel en el
siguiente sentido: Sea Ck un conjunto de nivel y c : I R C : k una curva
diferenciable. Los vectores gradiente del campo f sobre la curva, son ortogonales a
los vectores velocidad de la curva. En efecto, para todo t en I, f (c(t)) = k. Derivando respecto de t se obtiene (usando la derivada de una composicin de funciones),
f (c(t))c0 (t) = 0
En particular, las curvas integrales asociadas al campo vectorial generado por el
gradiente de f son .ortogonales.a los conjuntos de nivel asociadas a dicha funcin.
Teorema 1.0.11. (Teorema de Taylor)
Supongamos que f.Rn R continuamente diferenciable y p Rn , entonces tenemos
que:
f (x + d) = f (x) + f (x + td)T d
(1.13)
Para algn t (0, 1). Adems, si f es dos veces continuamente diferenciable, tenemos:
Z 1
f (x + d) = f (x) +
2 f (x + td)ddt
(1.14)
0
y que,
1
f (x + d) = f (x) + dT f (x) + dT 2 f (x + td)d
2
Para algn t (0, 1).
(1.15)
Condicin necesaria para optimalidad es la derivada para asumir que x es un

mnimo local y entonces probar los hechos sobre f (x ) y 2 f (x )
Teorema 1.0.12. (Condicin necesaria de primer orden)
Si x es un mnimo local de f y f es continuamente diferenciable en un vecindad
abierta de x , entonces f (x ) = 0 y 2 f (x )es semidefinida positiva.

6
Teorema 1.0.13. (Condicin necesaria de segundo orden)
Si x es un mnimo local de f y f es dos veces continuamente diferenciable en un
vecindad abierta de x , entonces f (x ) = 0.
Teorema 1.0.14. (Condicin suficiente de segundo orden)
Supongamos que 2 f (x ) es continua en una vecindad abierta de x y que f (x ) =
0 y 2 f (x )es definida positiva, entonces x es un mnimo local estricto de f.
1.0.1.
Direccin de Descenso
Para deducir las propiedades de la direccin de descenso, hacemos llamativo al

teorema de Taylor (1.0.11) , que nos dice que para cualquier direccin d y tamao
de paso , tenemos que:
1
f (xk + d) = f (xk ) + dT f (xk ) + 2 dT 2 f (xk + td)d
2
(1.16)
Para algn t (0, ).

Por conveniencia denotaremos f (xk ) por fk o en otros casos por gk , f (xk ) por
fk , 2 f (xk ) por 2 fk o por Gk y f (x ) por f ,respectivamente.
El factor reductor de cambio en f a lo largo de la direccin d desde xk es simplemente el coeficiente de , a saber, dT f (xk). Por lo tanto, la nica direccin d de
ms rpido decrecimiento es la solucin del problema.
mind dT fk , sujeto a kdk = 1
(1.17)
Donde dT fk = kdkkfk k cos = kfk k cos , y es el ngulo entre d y fk , es

fcil ver que el reductor se alcanza cuando cos = 1, esto ocurre cuando = y
d=
fk
kfk k
(1.18)
Esta direccin es llamada la direccin de mximo descenso, la figura (1.3) ilustra

la direccin ortogonal en el contorno de la funcin.
La direccin de mximo descenso es usada en mtodo de bsqueda lineal que se
mueve a lo largo de dk = fk en cada paso. Se puede elegir la longitud k en
una variedad de formas que se discute mas adelante. Una ventaja de la direccin de
mximo descenso es que requiere el clculo de fk pero no de la segunda derivada.
Sin embargo puede ser muy lento en los problemas difciles.

7
Figura 1.3: Direccin de Mximo Descenso
Figura 1.4: La dificultad es que el direccin de mximo descenso es casi ortogonal a la direccin que conduce al mnimo cuando las superficies de costo de f son alargada. Con lo que resulta, que el mtodo
vaya en zig-zag sin hacer avance rpido.
Mtodos de Bsqueda lineal pueden usar una direccin que no sea la direccin de
mximo descenso. En general, como hemos visto que el mximo descenso ocurre en
= cualquier direccin que forme un ngulo estrictamente mayor que
o anlogamente que forme un ngulo estrictamente menor que
con fk ,
con fk garantiza
una disminucin en f, siempre que la longitud del paso sea suficiente pequea, ver
figuras (1.5).
Figura 1.5: Direccin de Descenso
Podemos probar esta afirmacin usando el teorema de Taylor

f (xk + dk ) = fk + dT fk + O(k )
(1.19)
Donde dT es una direccin de descenso, el ngulo k entre pk y fk tiene cos k < 0,

8
de modo que
(dk )T fk = kdk kkfk k cos k < 0
(1.20)
Si tomamos en cuenta el ngulo k , como el ngulo entre dk y gk , podemos verlo

de la siguiente forma
(dk )T gk = kdk kkgk k cos k > 0
(1.21)
O lo que es lo mismo
(gk )T dk
>0
kgk kkdk k
(1.22)
(gk )T dk
> ,
kgk kkdk k
(1.23)
coshgk , dk i =
Y por completitud en R
coshgk , dk i =
Donde 0 < 6 1.
De esto se deduce que f (xk +dk ) < f (xk ) para todo valor positivo pero suficiente
pequeo de .
1.0.2.
Direccin de Newton
Otra importante bsqueda de direccin, tal vez la ms importante de todas es la

direccin de Newton. Esta direccin se deriva de la serie de Taylor de segundo orden
aproximando f (xk + d), que es
1
(1.24)
f (xk + d) fk + dT fk + dT 2 fk dk = mk (d)
2
Asumamos por el momento que Gk = 2 f (xk ) es definida positiva, obtenemos la
direccin de Newton por la bsqueda del vector d que minimiza mk (d). Por la simple
igualacin de la derivada de la funcin mk (d) a 0, obtenemos la siguiente frmula
explcita:
gk + dT Gk = 0 (dk )N = (Gk )1 gk
(1.25)
La Direccin de Newton es confiable cuando la diferencia entre la funcin verdadera

f (xk + d) y su modelo cuadrtico mk (d) no es tan grande. Por comparacin (1.16) y

9
(1.24), vemos que la nica diferencia entre estas funciones es que la matriz 2 f (xk +
d) en el tercer termino de la expansin ha sido reemplazado por 2 fk . Si 2 f es
suficientemente suave, esta diferencia introduce una perturbacin de solo Okdk3 en
la expansin, que por que lo que cuando kdk es pequea la aproximacin f (xk + d)
mk (d) es bastante exacta.
La direccin de Newton puede usarse en mtodos de bsqueda lineal cuando 2 fk
es definida positiva. En este caso sustituyendo (1.25) y multiplicando por f (xk )
tenemos
(fk )T (dk )N = (fk )T (2 fk ) 1fk
(1.26)
(fk )T (2 fk ) 1fk 6 k kfk k
(1.27)
Para algn k > 0. A menos que el fk (y por lo tanto el paso (dk )N ) es igual
a cero, tenemos que (fk )T (dk )N < 0, por lo que la Direccin de Newton es una
direccin de descenso.
Cuando 2 fk no es definida positiva, la direccin de Newton ni siquiera se puede
definir, ya que (2 fk ) 1 puede no existir. Incluso cuando se puede definir, puede
que no cumpla con la propiedad de descenso (fk )T (dk )N < 0, en cuyo caso no es
adecuada como una direccin de bsqueda.
Los mtodos que utilizan la direccin de Newton tiene una rpida tasa de convergencia local, por lo general cuadrtica. Despus de una vecindad de la solucin
se alcanza, la convergencia con alta precisin a menudo se produce en tan slo unas
pocas iteraciones. El principal inconveniente de la direccin de Newton es el la necesidad de calcular la Hessiana 2 f (x). El clculo explcito de esta matriz de segundas
derivadas a veces puede ser un proceso engorroso, propenso a errores, y caro.
1.0.3.
Otras Direcciones de Descenso
Adems la direccin de descenso a menudo tiene la forma

dk = (Dk ) 1fk
(1.28)
donde Dk es una matriz simtrica y no singular. En el mtodo de la direccin de

mximo descenso, Dk es simplemente la matriz identidad In , mientras que en el

10
mtodo de Newton, Dk es la exacta Hessiana 2 fk . Tambin podemos mencionar los
mtodos Cuasi-Newton, Dk es una aproximacin a la de Hessiana, que se actualiza
en cada iteracin por medio de una frmula de bajo rango.
1.0.4.
Condicin de Suficiente Descenso para dk
Para asegurar que algn mtodo no se quede pegado se considera las condiciones
tcnicas, que pueden ser fcilmente aplicadas a la mayora de los algoritmos de inters. Para el caso en que dk = (Dk ) 1fk , y DK es definida positiva los autovalores
de la matriz simtrica Dk son acotados superiormente y lejos de cero, es decir, para
algunos escalares positivos c1 y c2 , tenemos
c1 kzk2 6 z T Dk z 6 c2 kzk2
(1.29)
Se puede apreciar entonces que tomando solo la desigualdad izquierda que,

|f (xk )T dk | = |f (xk )T Dk f (xk )| > c1 kf (xk )k2
(1.30)
Luego esto implica que

f (xk )T Dk f (xk ) > c1 kf (xk )k2 of (xk )T Dk f (xk ) 6 c1 kf (xk )k2
(1.31)
En orden de garantizar la convergencia global, nosotros sometemos el requerimiento

que dk satisfasga
f (xk )T dk 6 c1 kf (xk )k2
(1.32)
Para detalles de la prueba ver referencia

1.0.5.
MTODO DE BSQUEDA LINEAL
Cada iteracin de un mtodo de bsqueda lineal, calcula una bsqueda de direccin y luego decide cuan lejos se mover a lo largo de esa direccin. La iteracin esta
dada por
xk+1 = xk + k dk
(1.33)
Donde el escalar positivo k es llamado el tamao de paso.El xito de un mtodo de

bsqueda lineal depende de las decisiones eficaces, tanto de la direccin dk como el
tamao de paso k .

11
La mayora de los algoritmo de bsqueda lineal requieren que dk sea una direccin de descenso, esto es que se cumpla (dk )T fk < 0, porque esta caracterstica
garantiza que la funcin f puede reducirse a lo largo esta direccin, como se discuti
anteriormente.
Una vez que la direccin de descenso dk se determina se debe buscar un tamao de
paso a lo largo la direccin de descenso y completa una iteracin. Ahora consideremos
cuidadosamente la eleccin del tamao de paso, parmetro k .
Figura 1.6: Mtodo de Bsqueda Lineal
Tamao de paso
En el tamao de paso k , se encuentra una disyuntiva. Nos gustara elegir k para
dar una reduccin sustancial de la f, pero al mismo tiempo, no queremos gastar
mucho tiempo de costo en hacer la eleccin. La opcin ideal sera el minimizador
global de la funcin univaluada () definida por
() = f (xk + dk ),
> 0,
(1.34)
Cuando la bsqueda del tamao de paso se realiza resolviendo la minimization

de (1.35), entonces se trata de una "Bsqueda lineal exacta". Entra las cuales mencionaremos el Mtodo de Biseccin.

12
Figura 1.7: Grfica de ()
Mtodo de Biseccin
Consideremos una funcin () = f (xk + dk ) Pseudoconvexa sobre un intervalo
[a1 , b1 ]. Supongamos que [ak , bk ] es el intervalo de incertidumbre en una iteracin k.
Supongamos que ck =
bk ak
2
[ak , bk ] y 0 (ck ) existe. Luego pueden suceder uno de
los tres casos,

1. 0 (ck ) = 0, entonces ck es un mnimo.
2. 0 (ck ) > 0, entonces para c > ck 0 (ck )(c ck ) > 0, entonces (c) > (ck ),
luego
[ak + 1, bk + 1] = [ak , ck ]
3. 0 (ck ) < 0, entonces para c < ck , 0 (ck )(c ck ) > 0, entonces (c) > (ck ). As,
[ak + 1, bk + 1] = [ck , bk ]
Esto nos da un mtodo que se describe en el siguiente algoritmo
(Algoritmo (1))
Entrada x0 punto inicial, a0 ,b0 puntos extremos del intervalo de entrada, Tol tolerancia k=0; Paso 1: Calcula ck =
Paso 3: Si 0 (ck ) = 0 o
bk ak
2
bk ak
2
Paso 2: Calcular 0 (ck )
< Tol Salida (c = ck ) PARAR;
Si no; Paso 4: Si
phi0 (ck ) > 0 [ak +1, bk +1] = [ak , ck ], y k = k+1; Volver al paso 1 Si no [ak +1, bk +1] =
[ck , bk ],k = k + 1; Volver al paso 1
Para ilustrar el mtodo de Biseccin mostramos la siguiente figura.
() = f (xk + dk ),
> 0,
(1.35)

13
Figura 1.8: Mtodo de Biseccin
Pero, en general, es demasiado caro identificar el valor mnimo de la funcin ().

Para encontrar incluso un minimizador local de f con una precisin moderada generalmente requiere demasiadas evaluaciones de la funcin objetivo f, y posiblemente
el gradiente f . Estrategias ms prcticas realizan una bsqueda lineal para identificar a un tamao de paso que logre reducciones que son necesarias en f a un costo
mnimo a lo cual se le llama "Bsqueda lineal inexacta", las ms usadas son la regla
de Armijo, Regla de Goldstein y Regla de Wolfe, .
Regla de Armijo
Un prctico criterio popular para determinar una bsqueda lineal es la regla de
Armijo. La idea esencial es que la regla debe primero garantizar que la seleccin de
no demasiado grande.
En la regla ms simple de este tipo un tamao de paso inicial s se elide, y si el
vector correspondiente xk + sdk no produce una mejora del valor de f, es decir,f (xk +
sdk ) > f (xk ), el tamao del paso se reduce, quizs varias veces, por un determinado
factor, hasta que el valor de f se mejore.
Aqu, escalares fijos s > 0, , y , con 0 < < 1, y 0 < < 1 se eligen, y
establecemos k = smk , donde mk es el primer entero no negativo tal que
f (xk ) f (xk + sm dk ) > sm f (xk )T dk
(1.36)
As el tamao de paso k = s m , con m = 0, 1, ...., se tratan sucesivamente hasta

que la desigualdad anterior se cumpla, En otras palabras, se elide k el mas grande

14
en {s, s, s2 , ..., } tal que
f (xk ) f (xk + dk ) > f (xk )T dk
(1.37)
Por lo tanto, el tamao de paso no debe ser slo positivo, sino que debe ser lo
suficientemente pequeo para que se cumpla (1.37). En funcin de ver esta regla
geomtricamente podemos reescribir (1.37) como
f (xk + dk ) 6 f (xk ) + f (xk )T dk
(1.38)
la figura siguiente ilustra esta regla.
Figura 1.9: Regla de Armijo
La bsqueda lineal por la regla de Armijo. Comenzamos con el estudio del tamao
de paso s y continuar con s, s2 , .., .. hasta la primera vez que sm caiga dentro del
conjunto de tamaos de paso que satisface la desigualdad, donde la linea punteada
representa la funcin f (xk ) + f (xk )T dk en la Figura (1.10).
Por lo general, se elige cerca del cero, por ejemplo, [105 , 101 ]. El factor
de reduccin se elige generalmente de 1/2 a 1/10 en funcin de la confianza que
tenemos del paso inicial s. Siempre podemos tomar s = 1 y multiplicar la direccin
dk por un factor de escala.
Regla De Goldstein
Otra regla de bsqueda lineal de precisin que es usada frecuentemente es la regla
de Goldstein. Aqu, un escalar fijo (0, 1/2) es seleccionado, y k se elige para
satisfacer
f (xk + dk ) f (xk )
61
f (xk )dk
Reescribiendo esta condicin tenemos, que un valor es aceptable si
6
f (xk )dk + f (xk ) 6 f (xk + k ) 6 (1 )f (xk )dk + f (xk )
(1.39)
(1.40)

15
Figura 1.10: Regla de Goldstein: lustra el conjunto de tamaos de

paso que son aceptables en la regla de Goldstein.
la figura siguiente ilustra esta regla.

Hay algoritmos muy simples para encontrar el tamao de paso, pero no lo haremos entrar en detalles, ya que en la prctica, la simple regla de Armijo parece ser
universalmente preferida. La regla de Goldstein se incluye aqu debido principalmente a de su importancia histrica: fue la primer regla para generar una bsqueda lineal
que no se basara en la minimizacin exacta de f a lo largo de la direccin de descenso,
y fue la idea fundamental para posteriormente proponer la regla era Armijo.
Regla de Wolfe
Si derivamos de la funcin objetivo, sus valores pueden ser evaluados con relativa
facilidad, entonces la regla de wolfe, que es una variacin de la anterior, es tambin
preferida. En este caso c1 es seleccionado con 0 < c1 < 1/2 y requiere satisfacer
0 () > (1 c1 )0 (0)
(1.41)
Esto se ilustra
1.0.6.
Mtodo de Regin de Confianza
Mtodo de Regin de confianza define una regin alrededor de la iteracin actual

en la que se confa que el modelo sea una representacin adecuada de la funcin
objetivo, y luego elegir el paso a ser el reductor aproximado del modelo en esta
regin. As, el mtodo elige la direccin y la longitud del paso de forma simultnea.
La funcin del modelo mk que se utiliza en cada xk iteracin es cuadrtica.
Adems, mk se basa en el desarrollo de la serie de Taylor de f alrededor de xk que es
1
f (xk + p) = fk + gkT p + pT 2 f (xk + tp)p
2
(1.42)

16
Donde fk = f (xk ), gk = f (xk ) y t es cierto escalar en el intervalo (0, 1). Mediante
el uso de una aproximacin Bk a la Hessiana 2 f (xk ) = Gk en el trmino de segundo
orden, mk se define como sigue:
1
mk = fk + gkT p + pT Bk p
2
(1.43)
Donde BK es una matriz simtrica. La diferencia entre f (x+ p) y mk es O(kpk2 )

que es pequea cuando p es pequeo. Cuando Bk = Gk se dice que el mtodo de
Regin de Confianza es tipo Newton.
Para obtener cada paso, buscamos una solucin del subproblema
1
minpRn mk = fk + gkT p + pT Bk p s.t.kpk 6 k
2
(1.44)
Donde k > 0 es el radio de la regin de confianza, el cual determina la longitud

del paso de xk a xk+1 . En la mayor parte de nuestras discusiones, se define k. k para
ser la norma eucldea, de modo que la solucin p de (1.11) es el reductor de mk en
la bola del radio k .
Uno de los ingredientes clave en un algoritmo de Regin de Confianza es la
estrategia para la eleccin del radio k en cada iteracin pk se define la relacin de
reduccin
actualreduccin
f (xk ) f (xk + pk )
=
(1.45)
mk (0) mk (pk )
previstareduccin
Si la relacin de reduccin es grande por ejemplo k > 3/4, el tamao de la regin
rk =
de confianza aumenta en la siguiente iteracin.

Si la relacin de reduccin es pequea, por ejemplo k < 1/4, el tamao de la
regin de confianza es reducido en la siguiente iteracin.
Adems, el paso pk solo se aceptara si le relacin de reduccin no es demasiado
pequea. Lo que nos lleva al siguiente algoritmo
Algoritmo (2)
b > 0, o (0, )
b y [0, 1/4) Para k = 0, 1, 2, ..., hasta que xk es optimal
Dado
Obtener la solucin aproximada para tentativa del paso pk
1
minpRn mk = fk + gkT p + pT Bk p s.t.kpk 6 k
2
Calcular la relacin de reduccin
rk =
Para pk Actualizar el punto actual
f (xk ) f (xk + pk )
mk (0) mk (pk )
(1.46)

17
(
xk+1 =
xk + pk sipk >
xk
Enotrocaso
Actualizar el radio de la regin de confianza
k+1
sirk < 14
4 k
b sirk > 3 ykpk k = k
=
min(2k , )
4

Enotrocaso.
k
Figura 1.11: Region de Confianza

A continuacin se describen dos estrategias para encontrar soluciones aproximadas del subproblema (1.43)
El Punto de Cauchy
El punto de Cauchy, no es ms que el reductor de mk a lo largo de la direccin
de mximo descensogk . Sujeto a la confianza. Como hemos visto, los mtodos de
bsqueda lineal pueden ser convergente, incluso cuando la longitud del paso ptimo
no se utiliza en cada iteracin. De hecho, la longitud del paso k slo necesita satisfacer criterios. Aunque en principio buscamos la solucin ptima del subproblema
(1.43), es suficiente para fines de convergencia global encontrar una solucin aproximada que se encuentra dentro de la regin la confianza y da una reduccin suficiente
en el modelo. La reduccin suficiente puede ser cuantificado en trminos del punto
de Cauchy , que denotamos por pck y definir en trminos del simple procedimiento
siguiente.
Algoritmo(3) Encontrar el vector psk que resuelva una version lineal de (1.43),
que es,

18
psk = argminpRn fk + g T p s.t.kpk 6 k
(1.47)
Calcular k > 0 que minimice mk ( psk ) sujeto a satisfacer el conjunto de regin

de confianza, esto es,
k = argmin >0 mk ( psk ) s.t.k pk 6 k
(1.48)
Establecer pck = k psk

Es fcil deducir que la solucin de (1.47) es simplemente
psk =
k .gk
kgk k
(1.49)
Esto lo podemos comprobar del mismo modo que lo hicimos para deducir la direccin
de descenso, sabiendo que el coeficiente de cambio en (1.47) es gkT py ver que la
mxima reduccin sucede s.t kpk = k .
Para obtener k explcitamente, consideramos el caso que gkT Bk gk 6 0 y gkT Bk gk >
0 por separado.
Para el primer caso, la funcin mk ( psk ) decrece monotonamente con cuando
gk 6= 0, As k = 1 el valor mas grande que se satisface en la regin de confianza.
Para el caso gkT Bk gk > 0, mk ( psk ) es cuadriculada convexa en , As k se obtiene
de la minimizacin no restringida de esta cuadrtica, esto es, derivando con respecto
a a mk ( psk ) e igualando a 0, obtenemos:
psk gk + (psk )T Bk psk = 0
=
Sustituyendo psk =
psk gk
(psk )T Bk psk
k gk
kgk k
=
=
=
k gk
.gk
kgk k
k g T
k B k gk
k kg k
kgk k
k
k
2
kg
k
k
kgk k
2 g T Bk g k
k k
kgk k2
kgk k3
k gkT Bk gk
As que en el caso que gkT Bk gk > 0, = kgk k3 /(k gkT Bk gk ) o es 1, cualquiera que
ocurra primero.

19
En resumen tenemos,
pck = k
k
gK
kgk k
Donde
1
k =
min(
sigkT Bk gk 6 0
kgk k3
, 1)
k gkT Bk gk
Enotrocaso
La figura.3 ilustra el Punto de Cauchy para en que Bk es definida positiva
Figura 1.12: Punto de Cauchy.
El Mtodo de Dogled
El enfoque de este mtodo va con el ttulo descriptivo del mtodo de pata de
perro. El cual puede ser usado solo cuando Bk es definida positiva. El subproblema
de la regin de confianza.
1
minp mk = fk + gkT p + pT Bk p s.t.kpk 6 k
2
Es un problema difcil. La solucin no restringida de mk es pB = B 1 g, cuando
este punto es factible para (1.46) es min (1.43), es evidente una solucin por lo que
tenemos
p () = pB , cuando > kpB k
(1.50)
Cuando es pequeo en relacin a pB , la restriccin kpk 6 asegura que el trmino

de segundo grado en m tiene poco efecto en la solucin "4.5. As podemos obtener
la solucin por
p ()
g
, cuandoespequeo
kgk
(1.51)

20
Figura 1.13: Punto de Pata de Perro.
Para valores intermedios de , la solucin p (), tpicamente sigue una trayectoria

curva como la figura (1.13)
El mtodo de pata de perro aproxima la trayectoria curva de p (), mediante un
ruta de acceso que consta de dos lneas.
g) para [0, 2], como:
Formalmente definimos la trayectoria por p(
(
k =
si0 6 6 1
p + ( 1)(pB pu ) si1 6 6 2
El punto pu es el de Cauchy, es decir, el minimizador de m a lo largo de la direccin

de mximo descenso;
gT g
g
(1.52)
p = T
g Bg
El mtodo de pata de perro elige p para minimizar el modelo m a lo largo de este
u
camino, con sujecin a la regin confianza. El siguiente lema muestra que el mnimo
lo largo de la ruta de acceso pata de perro se pueden encontrar fcilmente.
Lema 1.0.15. Sea B definida positiva. Entonces
ke
p( )k es una funcin creciente de , y
m(e
p( )) es una funcin decreciente de .
La demostracin de este lema es muy fcil de probar y se encuentra en cualquier
libro de optimizacin ver [?]libro Nocedal). Este lema garantiza que que el camino
pe( ) se cruza con la regin de confianza kpk = exactamente en un punto si kpB k >
, Y en ninguna otra parte. Como m es decreciente a lo largo del camino, el valor

21
elegido de p estar en pB si kpB k 6 . En este caso, se calcula el valor apropiado de
por la solucin de la ecuacin cuadrtica escalar siguiente:
kpu + ( 1)(pB pu )k = 2
(1.53)
Consideremos ahora el caso en el que B = Gk , cuando Gk es definida positiva,

podemos simplemente tomar el conjunto B = Gk (es decir, pB = G1
k gk) y aplicar el
procedimiento anterior para encontrar el paso Newton de pata de perro. El mtodo
de Newton-pata de perro es el ms apropiado cuando la funcin objetivo es convexa
(es decir, Gk es siempre semidefinida positiva).
Definicin 1.0.16. (Notacin o, O) Si g es una funcin de variable real a valores
reales, la notacin g(x) = O(x), significa que g(x) tiende a cero por lo menos tan
rpidamente como lo hace x, esto es, que la hay una k > 0, tal que:
|g(x)|
6 k, cuandox 0
|x|
(1.54)
La notacin g(x) = o(x), significa que g(x) tiende a cero ms rpido que lo hace
x, es equivalente a que el k anterior es cero.
1.1.
Razn de Convergencia
Considere una sucesin de numeros reales {xi }

i=0 convergente a el lmite x .
Definiremos la nocin de velocidad de convergencia de la sucesin.
Definicin 1.1.1. Sea la sucesin {xi }

i=0 convergente a x . El orden de convergencia
de {xi } es definido como el nmero supremo no negativo p satisfaciendo

|xi+1 x |
<
i |xi x |p
o 6 lm
(1.55)
Si la sucesin tiene orden p el lmite

|xi+1 x |
=
i |xi x |p
lm
Existe
Entonces asintticamente tenemos

|xi+1 x | = |xi x |p
Donde se denomina la tasa de convergencia o radio de convergencia.
(1.56)

22
Valores mas grandes del orden p, implica en sentido de distancia para el lmite
x , ms rpida convergencia. En efecto, si la sucesin tiene orden p, podemos ver
la siguiente comparacin, como {xi }

i=0 convergente a x , luego |xi x | < 1 para i
suficientemente grande, y vemos que |xi x |p se har mas pequeo mientras p sea
mas grande, as el siguiente iterado estar a una menor distancia de x , sin ignorar
a con lo que tenemos que a menor radio ms rpida convergencia.
Es decir, que a valores mas grandes de p y valores mas pequeos de tendremos
aun mayor rapidez de convergencia.
El estudio de la velocidad de convergencia adems de estudiar la eficacia relativa
de los algoritmos de los mtodos es un anlisis de aproximacin local el cual a tenido
considerable xito en prediccin de comportamientos de distintos mtodos donde
la funcin de costo puede ser bien aproximada por una cuadrtica. Sin embargo,
el enfoque de anlisis local tambin tiene algunos inconvenientes importantes, el
ms importante de las cuales es que no se tiene en cuenta el ritmo de progreso en
las primeras iteraciones. No obstante, en muchas situaciones prcticas, no es una
omisin grave porque el progreso es rpido en las iteraciones iniciales y con menor
crecimiento slo en el lmite (Las razones de esto parecen difciles de entender, estos
son problemas dependientes). Adems, a menudo en la prctica, los puntos de partida
que estn cerca de una solucin son fcilmente obtenibles por una combinacin de
heurstica y experiencia, en cuyo caso el anlisis local es ms significativo.
El anlisis local no es muy til para problemas que involucran ya sea singularidades o mnimos locales, que son difciles de encontrar en el sentido de que los
principales mtodos le toma muchas iteraciones para llegar cerca de su solucin en
la que se aplica el anlisis local.
Si los mtodos a comparar tienen igual orden de convergencia la comparacin
se basara en los correspondientes radios de convergencia, con menor valor del radio
mayor sera la rapidez de la convergencia.
Definicin 1.1.2. sea la sucesin {xk } convergente a x , si existe un (0, 1) y tal
que
|xi+1 x |
=
(1.57)
i |xi x |
La sucesin se dice convergente linealmente a x con radio de convergencia .
lm
Una sucesin convergente linealmente con radio de convergencia , puede decirse

tener una convergencia por lo menos tan rpido como la secuencia geomtrica c k

23
para alguna constante c.
En el caso cuando = 0 es denomina convergencia superlineal.
Ahora decimos que la sucesin converge con orden p en x para p > 1, si
|xi+1 x |
=
i |xi x |p
lm
(1.58)
En particular, convergencia con orden:

2 se denomina convergencia cuadrtica.
3 se denomina convergencia cubica.
etc.
Definicin 1.1.3. (Definicin ampliada)
El inconveniente de las definiciones anteriores es que stas no perciben algunas sucesiones que todava convergen razonablemente rpido, pero cuya "velocidad.es variable. Por lo tanto, la definicin de orden de convergencia a veces se extiende como
sigue. Segn la nueva definicin, la sucesin {xk } converge con al menos orden q a
x , si existe una sucesin {k } tal que
kxk x k < qk
(1.59)
y la sucesin {k } converge a cero con orden p de acuerdo a la definicin anterior.

Para distinguir esta definicin, se le llama convergencia R-lineal, convergencia Rcuadrtica , etc (Con el q permanente). Es decir, si q = 1 la sucesin converge
R-lineal, as sucesivamente.
Definicin 1.1.4. Una sucesin {xn }, se llama uniformemente acotada, si existe una
constante L > 0, tal que kxn k 6 L n. El numero L se llama cota uniforme de {xn }.
Definicin 1.1.5. (Convergencia Global)
Un mtodo interactivo se dice que converge globalmente cuando la sucesin de puntos
producidos por los iterados del mtodo converge a la solucin donde el punto inicial
es arbitrario.
Referencias
24
Captulo
SOBRE UNA BSQUEDA LINEAL

TIPO ARMIJO Y SU RELACIN CON
EL MTODO DE REGIN DE
CONFIANZA
En este captulo presentamos un uso novedoso de la regla de Armijo y desarrollamos un mtodo de bsqueda de lnea. En las secciones 2 y 3 se analiza la convergencia
global y la tasa de convergencia, respectivamente del nuevo mtodo. En la Seccin 4
se pone de manifiesto algunas relaciones entre el nuevo mtodo de bsqueda lineal y
el Mtodo de Regin Confianza. Conclusin declaraciones se dan en la seccin 5.
2.1.
Un novedoso uso de la regla de Armijo
Primero asumamos que:

(H1). La funcin objetivo f (x) es continuamente diferenciable y es acotada inferiormente en Rn .
(H2). El gradiente g(x) de f (x) es continuo uniformemente en un conjunto convexo
abierto B que contiene el conjunto de nivel L0 = {xRn |f (x) 6 f (x0 )}, donde x0 es
dado.
(H2). El gradiente g(x) de f (x) es Lipschitz continua en un conjunto convexo abierto
25

26
B que contiene el conjunto de nivel L0 , es decir, existe M 0 tal que
kg(x) g(y)k 6 M 0 kx yk, x, y B.
Es evidente que (H2)mplica (H2) ver preliminares.
Definimos un nuevo uso de la Regla de Armijo o simplemente lo llamamos una
Nueva Bsqueda de Armijo.
Nueva Bsqueda de Armijo Dado (0, 21 ) y (0, 1), Bk es una aproximacin
bk es definida de la siguiente procuracin: tomar i el entero mas
de Gk = 2 f (xk ) y B
gT d
pequeo tal que dTk Bk dk + ikdk k2 > 0. Establecer sk = dT kBb kd y k es el mas grande
k
en {sk , sk , sk 2 , ..., } tal que
k k
1
fk f (xk + dk ) > [gkT dk + dTk Bk dk ]
2
Algoritmo (A)
Paso 0. Elegir x0 Rn y establecer k := 0.
Paso 1. Si kgk k = 0 entonces parar; si no ir al paso 2;
Paso 2. Establecer xk+1 = xk + k dk , donde dk es una direccin de descenso de f (x)
en xk y k es seleccionado por la Nueva Bsqueda de Armijo;
Paso 3. Establecer k := k + 1.
Lema 2.1.1. Si (H1) se tiene y gkT < 0, entonces la Nueva Bsqueda de Armijo esta
bien definida.
Demostracin.
Por (H1), tenemos
lm0+ [
f (xk +k dk )fk 21 2 dT
k Bk dk
]
= lm0+ [ f (xk +k dk )fk ] 21 lm0+ [dTk Bk dk ]

= gk T dk 0,
< gkT dk .
Por lo tanto, existe un k < 0, tal que

f (xk + k dk ) fk 12 2 dTk Bk dk
6 gkT dk , [0, k ].
Luego,
1
f (xk + k dk ) fk 6 gkT dk + 2 dTk Bk dk , [0, k ].
2
Entonces
1
fk f (xk + k dk ) > [gkT dk + dTk Bk dk ], [0, k ].
2
Lo que implica que la Nueva Bsqueda de Armijo esta bien definida.

27
2.2.
Convergencia Global
Teorema 2.2.1. Si (H1) y (H2) se cumplen, dk satisface (??)Y k es definida por la

Nueva Bsqueda de Armijo. Algoritmo (A) genera una secuencia infinita {xk }, con
una secuencia acotada {Bk }, esto es, hay un tal que kBk k 6 ,k. Entonces
lm (
gkT dk
)=0
kdk k
(2.1)
Demostracin.
Por contradiccin, Supongamos que existe un subconjunto infinito K {0, 1, 2, 3, ....}
y un > 0, tal que
gkT dk
> , kK
kdk k
(2.2)
Entonces
gk T dk > kdk k, kK
(2.3)
Por la Nueva Bsqueda de Armijo, en el caso de dTk Bk dk 6 0 (kK), tenemos:

fk fk+1 > k [gkT dk + 21 k dTk Bk dk ]
> k gkT dk
(Y a que dTk Bk dk 6 0)
> k kdk k (P or (2.3));

Y en el caso de dTk Bk dk > 0 (kK), tenemos:
> k [gkT dk + 21 sk dTk Bk dk ] (Desde que k 6 sk )
= 21 k gkT dk
>
(Sustituyendo sk y restando)
kdk k, kK
2 k
(P or (2.3)).
De aqu vemos que en ambos casos llegamos a que fk fk+1 > 0, ya que k , , , son
escalares positivos, as fk > fk+1 , kK, luego la funcin es montona decreciente y
acotada inferiormente por (H1), con lo que tenemos que
lm fk fk+1 = 0, k K.
Esto, implica que

k kdk k 6 fk fk+1 0, (kK, k )
(2.4)
En el paper se encuentra un pequeo error debido a que hacen la siguiente comparacin de un vector con un escalar; k dk 6 k kdk k

28
Tambin por la Nueva Bsqueda de Armijo, kBk k 6 implica que
bk k 6 2 + 1, k.
kB
(2.5)
Sea K1 = {kK|k = sk }, K2 = {kK : k < sk },

Podemos probar que K1 es un subconjunto finito. En efecto, si K1 es un subconjunto infinito, vemos que:
k kdk k =
gkT dk
kd k (Sustituyendo k )
bk dk k
dk T B
(2.6)
Por (2.5) tenemos

bk dk 6 (2 + 1)kdk k2
dTk B
1
1
>
bk dk
(2 + 1)kdk k2
dTk B
As en ((2.6)) , tendramos
gkT dk kdk k
gkT dk
kd k = k kdk k 0(k K1 , k ),
6
bk dk k
(2 + 1)kdk k2
dTk B
(P or (2.5))
Que contradice (2.2). En consecuencia K2 debe ser un subconjunto infinito y k / 6

sk , kK2 . Adems, tenemos que k es el mas grande tal que la desigualdad de la
Nueva Bsqueda de Armijo se cumple, con lo que = k / har que la desigualdad
en la Nueva Bsqueda de Armijo falle, es decir,
1
fk f (xk + (/ )dk ) < (k /)[gkT dk + dTk Bk dk ]
2
Por lo tanto
f (xk + (/ )dk ) fk > (k /)[gkT dk + 21 (k /)dTk Bk dk ]
bk dk ]
> (k /)[g T dk 1 (k /)dT B
>
=
k
k
2
1
T
T b
(k /)[gk dk 2 sk dk Bk dk ] (k / 6 sk )
3
(k /)gkT dk , kK2 . (Sustituyendo sk =
2
gT d
dT kBb kd )
k
k k
Usando el Teorema del valor medio en el lado izquierdo de la desigualdad anterior,

existe k [0, 1], tal que
f (xk + (/ )dk ) fk = (k /)g(xk + k (k /)dk )T dk ,
Luego
3
(k /)g(xk + k (k /)dk )T dk > (k /)gkT dk , kK2 .
2

29
De aqu,
3
g(xk + k (k /)dk )T dk > gkT dk , kK2 .
2
Restando a ambos lados
gT d
(1 23 ) kdk k kk 6
6
gkT dk
kdk k
(2.7)
y acomodando tenemos:
[g(xk +k (k /)dk )gk ]T dk

kdk k
kg(xk +k (k /)dk )gk kkdk k
kdk k
(P or la desigualdad de Cauchy Schwartz)
= kg(xk + k (k /)dk ) gk k 0(kK2 , k ) (P or (2.4) y por (H2))

Lo que contradice (2.2) y por tanto, la conclusin es vlida.
Teorema 2.2.2. Si (H1) y (H2)se cumplen, dk satisface (??) y k es definida por la
Nueva Bsqueda de Armijo. Algoritmo (A) genera una secuencia infinita {xk } y Bk
es uniformemente acotada, esto es, existe un > 0 tal que kBk k 6 , k. Entonces
g T dk
)<
( k
kd
kk
k=0
(2.8)
Demostracin.
Dado que (H2)mplica (H2) ver en preliminares, la conclusion del Teorema (2.2.1) se
cumple.
Sea
K1 = {k|k = sk },
K2 = {k|k < sk }
Por la Nueva Bsqueda de Armijo, en el caso de que kK1 tenemos:

T
bk dk ] (dT B
b
> k [gkT dk + 12 k dTk B
k k dk > dk Bk dk )
= 21 k gkT dk
=
T
2
(gk dk )
. bd
2 dT B
k k
(Evaluando = sk en el segundo termino)
(Sustituyendo k por sk )
>
gT d 2
( kdk k kk ), kK1 .
2(2+1)
As
(P or(2.5))
2
fk fk+1 >
g T dk
( k
), k K1 .
2(2 + 1) kdk k
(2.9)
En el caso de kK2 tenemos que k 6 sk , podemos probar similar a (2.7) que

3
g(xk + k (k /)dk )T dk > gkT dk , kK2 ,
2
(2.10)

30
Y por la desigualdad de Cauchy Schwartz, (2.5), (2.4) y restando a ambos lados por
gkT dk
,
kdk k
obtuvimos:
3 g T dk
(1 ) k
6 kg(xk + k (k /)dk ) gk k, kK2
2 kdk k
Por lo que (H2)mplica que existe un M tal que:

gT d
(1 23 ) kdk k kk 6 kg(xk + k (k /)dk ) gk k

6 M 0 k /kdk k,
(M 0 = k M )(kK2 )
Y que despejando a k , obtenemos:

(1 23 ) gkT dk
k >
, kK2 .
M0
kdk k2
(2.11)
Por consiguiente,
bk dk ] (k dT Bk dk 6 sk dT B
b
> k [gkT dk + 21 sk dTk B
k
k k dk )
= k [gkT dk 12 gkT dk ] (Sustituyendo sk )
= 21 k gkT dk
>
(1 23 )
gkT dk 2
(
) , kK2 .
0
2M
kdk k
(P or (2.10))
Por la inecuacin (2.9) y tomando

0 =
(1 23 )
1
min(
,
),
2
2 + 1
M0
Se tiene que:
ff fk+1 > 0 (
gkT dk 2
) , k.
kdk k
(2.12)
Por (H1) f es continuamente diferenciable y acotada por debajo y adems la funcin

es decreciente, as
X
X
g T dk
( k )2 6
(fk f > k + 1) < +.
kdk k
k=0
k=0
0
Esta desigualdad implica que (2.8) se cumple.

Corolario 2.2.3. Si (H1) y (H2) se cumplen, dk satiface (??) y k es definida por
la Nueva Bsqueda de Armijo. Algoritmo (A) genera una secuencia infinita {xk } y
kBk k 6 , k. Entonces
lm kgk k = 0
(2.13)

31
Demostracin.
Por Teorema (2.2.1), se tiene:
gT d
kgk k 6 kgkkkkdkk k
gT d
= kdk k kk 0, (k ).
La prueba termina.
2.3.
Razn de Convergencia
En orden de analizar la razn de convergencia, adems asumimos que:

(H3). xk x cuando k , 2 f )x ffl0 y f(x) es dos veces continuamente diferenciable en N (x , 0 ) = {x|kx x k < 0 }.
Lema 2.3.1. Asumamos que (H3) se cumple. Entonces existe 0 < m0 6 M 0 y 6 0
tal que:
m0 kyk2 6 y T 2 f (x)y 6 M 0 kyk2 , x, y N (x , );
1
1 0
m kx x k2 6 f (x) f (x ) 6 M 0 kx x k2 , x N (x , );
2
2
0
2
T
M kx yk > (g(x) g(y)) (x y) > m0 kx yk2 , x, y N (x , );
(2.14)
(2.15)
(2.16)
Y as,
M 0 kx x k2 > g(x)T (x x ) > m0 kx x k2 , x N (x , );
(2.17)
Por (2.17) y (2.16) podemos obtener, de la desigualdad de Cauchy Schwartz, que

M 0 kx x k2 > kg(x)k > m0 kx x k2 , x N (x , );
(2.18)
kg(x) g(y)k 6 M 0 kx yk2 , x, y N (x , );
(2.19)
La prueba se puede encontrar en la literatura de

2.3.1.
Convergencia Lineal
Teorema 2.3.2. Asumir que (H3) se cumple, dk satisface (??) y k es definida por
la Nueva Bsqueda de Armijo y que kBk k 6 ,k. Si el Algoritmo (A) genera un
secuencia infinita {xk }, entonces {xk } converge a x por lo menos R-lineal.

32
Demostracin.
Si (H3) se cumple entonces existe un ktal que xk in N (x , 0 ), k > k 0 y (H1) y
(H2)se cumplen si x0 in N (x , 0 ). Por Teorema (2.2.2) y (??) tenemos:
gT d
f fk+1 > 0 ( kdk k kk )2

> 0 2 kgk k, k > k 0 (P or(??))
Por la desigualdad anterior y lema ??, Haciendo = 0 2 , se obtiene
f fk+1 > kgk k
> m02 kxk x k2 (P or(2.18))
>
2m02
(fk
M0
Sea
f ). (P or(2.15))
2
>0
M0
Probemos que < 1. En efecto, por la definicin de y 0 en la prueba del Teorema
= m0
(2.2.2), se obtiene:
2 =
6
6
6
02 2 0
2m02
= 2mM0
M0
3
2m02 2 (1 2 )
(P or 0 )
0
0
M
2M
2 (1 23 ). (0 < m0 6
(1 23 ). (0 < 6 1)
< 1.
M 0)
(0 < 6 1/2)(0 < < 1)
Definamos
0<w=
1 2 < 1
Retomando la desigualdad de arriba que

fk fk+1 6 2 (fk f ) fk f fk+1 + f 6 2 (fk f )
fk+1 f > (fk f ) 2 (fk f )
Luego,
fk+1 f > (1 2 )(fk f )
= w2(kk+1) (fk f )
6 w2(k(k1)+1) (fk1 f )
..
.
0
6 w2(k(k +1)+1) (fk0 +1 f )

0
= w2(kk ) (fk0 +1 f ).

33
Esto y por (2.15)de el Lema (2.3.1) se tiene
kxk+1 x k2 6
6
2
(fk+1 f )
m0
0 2(f 0
f )
w2(kk ) k +1
0
m
As
2(fk0 +1 f )
m0
Es decir, que si cambiamos el subndice k por k 1, tenemos
q
2(fk0 +1 f )
k1k0
kxk x k 6 w
m0
q
k
2(fk0 +1 f )
= wwk0 +1
m0
q
)
2(f
f
0
k
+1
= wk m0 w2(k0 +1) .
kxk+1 x k 6 w
Notemos que
2(fk0 +1 f )
0
m0 w2(k +1)
kk0
es una constante, y aplicando la raz k-esima y limite a
ambos lados, tenemos finalmente que:

R1 {xk } = lm kxk x k1/k 6 lm w(
k
2(fk0 +1 f ) 1/2k
)
=w<1
m0 w2(k0 +1)
Que muestra que {xk } converge a x al menos R-Lineal.
2.4.
Convergencia Superlineal
Supongamos adems que,

(H4). {BBk } es una secuencia de matrices definida positiva y kBk k 6 , k. Algoritmo (A) con dk = Bk1 gk satisface la siguiente condicin
k[Bk 2 f (x )]dk k
=0
k
kdk k
lm
(2.20)
Lema 2.4.1. Si (H3) y (H4) se cumplen. Algoritmo (A) genera una secuencia infinita
{xk }. Entonces existe ktal que
k = 1, k > k 0 .
Demostracin.
Por corolario (2.2.3) y (H4)
lm kgk k = 0 lm k Bk1 gk k = 0
(2.21)

34
Esto y por (H3), implica que
lm xk = x ,
lm kdk k = 0,
(2.22)
Y as
lm (xk + tdk x ) = 0,
(2.23)
Donde t [0, 1]. Adems, (H4) implica que

2
kdT
k [Bk f (x )]dk k
kdk k2
2 f (x )]dk k
lmk kdk kk[Bkkd
2
kk
k[Bk 2 f (x )]dk k
lmk
kdk k2
0 6 lmk
6
=
Luego
dTk [Bk 2 f (x )]dk = o(kdk k2 ).
(2.24)
En el paper presenta un detalle al declarar que es el teorema del valor medio, pero
la validez de la siguiente igualdad es por el teorema fundamental de calculo:
Z 1
T
f (xk + dk ) fk = gk dk +
(1 t)dTk 2 f (xk + tdk )dk dt
0
En efecto,
gkT dk +
R1
R1 T 2
T 2
T
(1
t)d
f
(x
+
td
)d
d
=
g
d
+
dk f (xk + tdk )dk dt
k
k
k
t
k
k
k
0
R 1 T 20
0 tdk f (xk + tdk )dk dt
= gkT dk + f (xk + dk )T dk gkT dk
R1
0 tdTk 2 f (xk + tdk )dk dt
R1
= f (xk + dk )T dk 0 tdTk 2 f (xk + tdk )dk dt ,
Integrando por parte, con u = t ydv = dTk 2 f (xk + tdk )dk dt ,

R1
gkT dk + 0 (1 t)dTk 2 f (xk + tdk )dk dt = f (xk + dk )T dk f (xk + dk )T dk
R1
+ 0 f (xk + tdk )dk dt
R1
= 0 f (xk + tdk )dk dt
= f (xk + dk ) fk
si para un k suficiente grande, tenemos:
R1
f (xk + dk ) fk = gkT dk + 0 (1 t)dTk 2 f (xk + tdk )dk dt
R1
= [gkT dk + 21 dTk Bk dk ] + 0 (1 t)dTk [2 f (xk + tdk ) 2 f (x )]dk dt
+
=
1 T
d [2 f (x ) Bk ]dk
2 k
[gkT dk + 12 dTk Bk dk ] + o(kdk k2 ).
(P or (2.23)) y (2.24))

35
Donde dk = Bk1 gk , sustituimos en la desigualdad derecha anterior vemos que,
gkT dk + 21 dTk Bk dk = gkT dk 12 gkT dk . (P orque gkT dk R).
=
1 T
g d
2 k k
< 0. (P or(??))
Por esto y (2.22), se tiene en la igualdad de arriba que:
1
1
f (xk + dk ) fk = [gkT dk + dTk Bk dk ] + o(kdk k2 ) 6 [gkT dk + dTk Bk dk ]
2
2
Lo que implica que existe un kpara que el (2.21) es valida.
Teorema 2.4.2. Si (H3) y (H4) se cumplen. Algoritmo (A) genera una sucesin infinita
{xk }. Entonces {xk } converge a x superlinealmente.
Demostracin.
Por Corolario (2.2.3) y Lema (2.3.1) sabemos que {xk } x . Por Lema (2.4.1),
existe ktal que (2.21)) se cumple y tenemos:
xk+1 = xk + dk , k > k 0
(2.25)
Donde dk = Bk1 gk . Por el teorema fundamental del calculo se sigue que:

gk+1 gk =
R1
R01
2 f (xk + t(xk+1 xk ))(xk+1 xk )dt
2 f (xk + tdk )dk dt . (P or (2.25))

R1
= 2 f (x )dk + 0 [2 f (xk + tdk ) 2 f (x )]dk dt
Veamos que:
k2 f (xk + tdk ) 2 f (x )]kkdk k
k2 f (xk + tdk ) 2 f (x )]dk k
6 lm
=0
k
k
kdk k
kdk k
R1
Asi 0 [2 f (xk + tdk ) 2 f (x )]dk dt = o(kdk k) y en la igualdad de arriba obtendralm
mos:
gk+1 = gk + 2 f (x )dk + o(kdk k)
= Bk dk + 2 f (x )dk + o(kdk k)
= [Bk 2 f (x )]dk + o(kdk k)
= o(kdk k). (P or (2.20))
Entonces
kgk+1 k
=0
k kdk k
lm
(2.26)

36
De (2.18) y (2.26) se deduce que:
kgk+1 k
kdk k
>
=
>
m0 kxk+1 x k
kdk k
m0 kxk+1 x k
(P or (2.25))
kxk+1 xk k
m0 kxk+1 x k
kxk+1 x k+kxk x k
0
= m
Y as
kxk+1 x k
kxk x k
kxk+1 x k
1+ kx
k x k
kxk+1 x k
=0
lm
k kxk x k
Lo que implica que {xk } converge a x Superlinealmente.
2.5.
Convergencia Cuadrtica
Si tomamos Bk = 2 f (xk ) en el Algoritmo (A), entonces (H4) se cumple. y

tenemos el siguiente resultado.
Teorema 2.5.1. Si (H3) se cumple, Bk = 2 f (xk ) para k suficiente grande. Algoritmo (A) genera una sucesin infinita {xk }. Entonces {xk } converge a x al menos
Superlinealmente.
Demostracin.
En este caso, (H4) se cumple automticamente, en consecuencia el resultado del
Teorema (2.4.2) se cumple.
Teorema 2.5.2. Si (H3) se cumple, Bk = 2 f (xk ) para k suficiente grande. Adems,
existe una epsilon vecindad N (x , ) = {x Rn |kx x k < } de x con < 0 tal
que 2 f (x) es Lipschitz continua en N (x , ), es decir, existe L() tal que
k2 f (x) 2 f (y)k 6 L()kx yk, x, y N (x )
(2.27)
Algoritmo (A) genera una secuencia infinita {xk }. Entonces {xk } converge a x
Cuadrticamente.
Demostracin.
Por Corolario (2.2.3), Lema (2.3.1) y (2.4.1), se sigue que {xk } converge a x y existe
ktal que para todo k > k 0 , xk N (x , ), Bk = 2 f (xk ), y k = 1. Sea k = xk x .
Por teorema fundamental del calculo tenemos:

37
k+1 = xk+1 x
= x k x + d k
(P or (2.25))
= k 2 f (xk )1 gk
= k 2 f (xk )1 (gk g )
R1
= k 2 f (xk )1 0 2 f (x + tk )k dt
R1
= 2 f (xk )1 [2 f (xk ) 0 2 f (x + tk )k dt ]
R1
= 2 f (xk )1 0 [2 f (xk ) 2 f (x + tk )]k dt
Esto y (2.27) implica que:
R1
[2 f (xk ) 2 f (x + tk )]k dt k
R
1
6 k2 f (xk )1 k 0 k2 f (xk ) 2 f (x + tk )kdt kk k
R1
6 |2 f (xk )1 kL() 0 kxk + tk xk kdt kk k
R1
= |2 f (xk )1 kL()kk k2 0 tdt
kk+1 k = k2 f (xk )1
1
k2 f (xk )1 kL()kk k2 .
2
Por lo tanto,
kk+1 k
k kk k
lm
Con lo que {xk } converge a x Cuadrticamente.
2.6.
Relacin con el Mtodo de Regin de Confianza
La relacin entre el mtodo de lnea nueva bsqueda y el mtodo de regin de

confianza se dar a conocer en esta seccin.
Ya vimos en el Captulo 1 El Mtodo de Regin de Confianza, el cual se basa en
buscar una solucin al subproblema
1
minpRn mk (p) = fk + gkT p + pT Bk p,
2
s.t.kpk 6 k ,
(2.28)
Dnde k es de un radio de la Regin de Confianza. Definimos k k por la norma

euclidiana, de modo que la solucin pk de (2.28) es el reductor de mk (p) en la bola
de radio k . Por lo tanto, el Mtodo de Regin de Confianza nos obliga a resolver
una secuencia del subproblemas (2.28) en el que la funcin objetivo y restricciones (
Que se puede escribir como pT p 6 2k ) son ambos cuadrticos.
El primer problema que surge en la definicin del Mtodo de Regin de Confianza es la estrategia para la eleccin del radio de la regin la confianza k en cada

38
iteracin. Con base a esta eleccin en la relacin entre el modelo mk y la funcin
objetivo f en la anterior iteraciones, se define la relacin de reduccin
fk f (xk + pk )
,
mk (0) mk (pk )
rk =
(2.29)
Y la influencia de esta relacin de reduccin en la eleccin de dicho radio k la vimos

en el Algoritmo(2) del Captulo 1.
La convergencia global del Mtodo de Regin de Confianza depende de las reducciones obtenidas en la solucin del modelo cuadrtico mk . Pero, no requiere resolver
el subproblema (2.28) del Mtodo de la Regin de confianza con exactitud, podemos
encontrar un pk que satisfaga:
mk (0) mk (pk ) > c1 kgk kmin(k ,
kgk k
),
kBk k
(2.30)
Y
kpk k 6 k ,
(2.31)
Para > 1 y c1 (0, 1]. Lo cual garantiza la convergencia del mtodo.

En efecto, la solucin exacta Pk de (2.28) satisface (2.30) y (2.31) ([3]). Basta
ver que mk (0) m( pk ) > mk (0) mk (pk ), pk y k.
Lema 2.6.1. Sea = 0 en el Algoritmo(2). Supongamos que kBk k 6 para alguna
constante , que f es Lipschitz continua diferenciable y acotada inferiormente en el
conjunto de nivel
L0 = {x R|f (x) 6 f (x0 )},
Y que la aproximacin de la solucin de (2.28) satisface (2.30) y (2.31) para constantes positivas c1 y . Entonces se tiene
lm kgk k = 0
(2.32)
Lema 2.6.2. Sea (0, 41 ) en el Algoritmo(2). Supongamos que kBk k 6 para

alguna constante , que f es Lipschitz continua diferenciable y acotada inferiormente
en el conjunto de nivel L0 , Y que la aproximacin de la solucin de (2.28) satisface
(2.30) y (2.31) para constantes positivas c1 y . Entonces se tiene
lm kgk k = 0
(2.33)

39
En la Nueva Bsqueda de Armijo, si el conjunto p= k dk entonces
1
fk f (xk + pk ) > [gkT pk pTk Bk pk ]
2
Y xk+1 = xk + pk es solo una aceptable reduccin en el Mtodo Regin de Confianza
y sabemos que mk (0) mk (pk ) = fk fk gkt pk 21 pTk Bk pk = gkT pk 12 pTk Bk pk > 0,
tenemos
rk =
fk fk+1
> ,
mk (0) mk (pk )
(2.34)
Es obvio que (2.34) coincide con la condicin de aceptacin en (??).

Este rk es justamente la relacin de la reduccin actual y la reduccin predicha.
Si la relacin anterior se cumple entonces el nuevo punto xk = xk + pk es aceptado
tanto por la Nuevo Mtodo de Bsqueda lineal como por el Mtodo de Regin de
Confianza. De lo contrario, debemos ajustar el tamao de paso en el Nuevo Mtodo
de Bsqueda lineal o ajustar el radio de la regin de confianza en el Mtodo de Regin
de Confianza. De hecho, si el nuevo punto xk = xk +pk es rechazado, debemos reducir
el tamao del paso en el Nuevo Mtodo de Bsqueda lineal o reducir el radio de la
regin de confianza en el Mtodo de Regin de Confianza. Desde este punto de vista,
el Mtodo de Regin de Confianza y el Mtodo de Bsqueda Lineal se pueden unificar
en una forma general.

40
2.7.
Conclusin
En esta Investigacin se utiliza La Bsqueda Lineal Tipo Armijo en una forma

novedosa y proponen un Nuevo Mtodo de Bsqueda Lineal para problemas de
optimizacin sin restricciones. La convergencia global y razn de convergencia del
Nuevo Mtodo se analizan en leves condiciones. Adems, cada iteracin generada por
La Nueva Bsqueda Lineal tipo Armijo se demuestra que es una solucin aproximada
del subproblema de correspondiente al Mtodo de Regin de Confianza, lo que revela
la relacin entre el Mtodo Bsqueda lineal y el Mtodo de Regin de Confianza,
en cierto sentido. Para ponerlo en detalle, si tomamos pk = k dk en el propuesto
Mtodo de Bsqueda Lineal entonces, se tiene la condicin de aceptacin
rk =
fk fk+1
>
+ 21 pTk Bk pk
gkT dk
Que es exactamente la condicin de avance en el Mtodo de Regin de Confianza.

Por otra parte, cabe destacar que el paper presenta algunos errores, que fueron
arreglados en la desarrollo de la Investigacin, y que se mencionan a continuacin:
La ecuacin (2.4), era originalmente k dk 6 k kdk k, pero esta fue cambiada
debido a que no cabe comparar un vector con un nmero real.
En el Lema (2.6.1), falta la premisa de que la funcin f sea Lipschitz Continua,
ya que es una hiptesis fundamental para la demostracin del Lema (ver [1]).
Adems, la definicin de L0 (2.6.1) en el mismo Lema, f (x0 ) en el paper es
f (x1 ) lo cual no concuerda con la definicin de conjunto de nivel.
En el Lema (2.6.2) el paper menciona el Algoritmo (2.1), el cual adems de
no encontrarse en el paper es una referencia equivocada, realmente se quera
referir al Algoritmo (2).
Referencias bibliogrficas.
[1] P.-A. Absil, C. G. Baker, and K. A. Gallivan,Trust-region methods on

Riemannian manifold with applications in numerical linear algebra, Proceedings of the 16th International Symposium on Mathematical Theory of
Networks and Systems (MTNS2004), Leuven, Belgium, 5-9 July 2004, 2004.
[2] Zhen-Jun Shi y Xiang-Sun Zhang. From Line Search Method to Trust Region Method. Operations Research and Its Applications, Lecture Notes
in Operations Research, vol.5, pp.156-170,World Publishing Corporation,
2005.
[3] J. Nocedal and J. S. Wright, Numerical Optimization, Springer-Verlag New
York, Inc.(1999).
[4] Bertsekas D. Nonlinear Programming,Athena Scientic, 2000.
41

Programacion No Lineal

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Programacion No Lineal

Hochgeladen von

Copyright:

Verfügbare Formate

UNIVERSIDAD CENTROCCIDENTAL

Sobre una nueva bsqueda lineal tipo armijo y

Br. Ranghely del C. Hernndez Castaeda

como requisito final

Dedicado A mis Padres Carmen y Rafael,

A DIOS primeramente por darme la oportunidad de vivir y regalarme una familia

Sobre una nueva bsqueda lineal tipo armijo y

1.0.1. Direccin de Descenso . . . . . . . . . . . . . . . . . . . . . .

1.0.2. Direccin de Newton . . . . . . . . . . . . . . . . . . . . . . .

1.0.3. Otras Direcciones de Descenso . . . . . . . . . . . . . . . . . .

1.0.4. Condicin de Suficiente Descenso para dk

1.0.5. MTODO DE BSQUEDA LINEAL . . . . . . . . . . . . . .

1.0.6. Mtodo de Regin de Confianza . . . . . . . . . . . . . . . . .

1.1. Razn de Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1. Un novedoso uso de la regla de Armijo . . . . . . . . . . . . . . . . .

2.2. Convergencia Global . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3. Razn de Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3.1. Convergencia Lineal . . . . . . . . . . . . . . . . . . . . . . .

2.4. Convergencia Superlineal . . . . . . . . . . . . . . . . . . . . . . . . .

2.5. Convergencia Cuadrtica . . . . . . . . . . . . . . . . . . . . . . . . .

2.6. Relacin con el Mtodo de Regin de Confianza . . . . . . . . . . . .

Sobre una nueva bsqueda lineal tipo armijo y su relacin con el

1.1. Grfica de la funcin con corte de planos . . . . . . . . . . . . . . . .

1.2. Conjunto de nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3. Direccin de Mximo Descenso . . . . . . . . . . . . . . . . . . . . .

1.4. La dificultad es que el direccin de mximo descenso es casi ortogonal

1.5. Direccin de Descenso . . . . . . . . . . . . . . . . . . . . . . . . . .

1.6. Mtodo de Bsqueda Lineal . . . . . . . . . . . . . . . . . . . . . . .

1.8. Mtodo de Biseccin . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.9. Regla de Armijo

1.10. Regla de Goldstein: lustra el conjunto de tamaos de paso que son

1.11. Region de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.12. Punto de Cauchy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.13. Punto de Pata de Perro. . . . . . . . . . . . . . . . . . . . . . . . . .

Donde Rn denota un espacio Euclideano n-dimensional y f : Rn R es una funcin

Sobre una nueva bsqueda lineal tipo armijo y su relacin con el

La prueba se encuentra en cualquier libro de anlisis ver

Donde M es llamada la contaste Lipschitz de la funcin.

Si M es la constante Lipschitz de f, entonces kf (x)k 6 M toda vez que el gradiente

Sobre una nueva bsqueda lineal tipo armijo y su relacin con el

La funcin f es una funcin convexa si su dominio S es un conjunto convexo y si para

Ejemplos de funciones convexas incluyen la funcin lineal f (x) = cT x + , para

Sobre una nueva bsqueda lineal tipo armijo y su relacin con el

Ya que si f (x) = 0, entonces f (x)T (x2 x) > 0, x2 S se cumple f (x2 ) >

Figura 1.1: Grfica de la funcin con corte de planos

Sobre una nueva bsqueda lineal tipo armijo y su relacin con el

Figura 1.2: Conjunto de nivel

Conjuntos de nivel y gradientes

Condicin necesaria para optimalidad es la derivada para asumir que x es un

Sobre una nueva bsqueda lineal tipo armijo y su relacin con el

Para deducir las propiedades de la direccin de descenso, hacemos llamativo al

Para algn t (0, ).

Donde dT fk = kdkkfk k cos = kfk k cos , y es el ngulo entre d y fk , es

Esta direccin es llamada la direccin de mximo descenso, la figura (1.3) ilustra

Sobre una nueva bsqueda lineal tipo armijo y su relacin con el

Figura 1.3: Direccin de Mximo Descenso

Figura 1.5: Direccin de Descenso

Podemos probar esta afirmacin usando el teorema de Taylor

Donde dT es una direccin de descenso, el ngulo k entre pk y fk tiene cos k < 0,

Sobre una nueva bsqueda lineal tipo armijo y su relacin con el

Si tomamos en cuenta el ngulo k , como el ngulo entre dk y gk , podemos verlo

Otra importante bsqueda de direccin, tal vez la ms importante de todas es la

La Direccin de Newton es confiable cuando la diferencia entre la funcin verdadera