Sie sind auf Seite 1von 105

Matemticas y algoritmos

numricos
Definiciones, notacin y proposiciones
esenciales para un curso avanzado

Jos Luis de la Fuente OConnor


www.jldelafuenteoconnor.es

Matemticas y Algoritmos Numricos. Definiciones, notacin y proposiciones


esenciales para un curso avanzado
Primera edicin: agosto 2016

Derechos de edicin reservados.


Editorial Crculo Rojo.
www.editorialcirculorojo.com
info@editorialcirculorojo.com
Coleccin Investigacin
Edicin: Editorial Crculo Rojo
Maquetacin: JLFO
Fotografa de cubierta: Fotolia.com
Diseo de portada: Nieves Molina

Producido por: Editorial Crculo Rojo.


ISBN: 978-84-9140-231-2
DEPSITO LEGAL: AL-1201-2016
Ninguna parte de esta publicacin, incluido el diseo de cubierta, puede ser reproducida,
almacenada o transmitida en manera alguna y por ningn medio, ya sea electrnico, qumico,
mecnico, ptico, de grabacin, en Internet o de fotocopia, sin permiso previo del editor o del
autor. Todos los derechos reservados. Editorial Crculo Rojo no tiene por qu estar de acuerdo
con las opiniones del autor o con el texto de la publicacin, recordando siempre que la obra
que tiene en sus manos puede ser una novela de ficcin o un ensayo en el que el autor haga
valoraciones personales y subjetivas.
Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de
esta obra slo puede ser realizada con la autorizacin de sus titulares, salvo excepcin prevista
por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos) si necesita
fotocopiar o escanear algn fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93
272 04 47).

IMPRESO EN ESPAA UNIN EUROPEA

A mi familia

II

ndice
Prefacio

Conjuntos

Espacios vectoriales
2.1 Espacios normados, espacios mtricos . . . . . . . . . . . . . . .
2.2 Espacios con producto interior . . . . . . . . . . . . . . . . . . .
2.3 Aplicaciones lineales . . . . . . . . . . . . . . . . . . . . . . . .

2
6
10
12

Topologa

13

Matrices
4.1 Normas de matrices . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Matrices ortogonales, unitarias, simtricas, Hessenberg, de permutacin y de proyeccin . . . . . . . . . . . . . . . . . . . . . . .
4.3 Valores propios, valores singulares y formas cuadrticas . . . . . .
4.3.1 Valores propios . . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Valores singulares . . . . . . . . . . . . . . . . . . . . .
4.3.3 Formas cuadrticas . . . . . . . . . . . . . . . . . . . . .

15
18

Teorema de la proyeccin

33

Funciones
6.1 Condiciones necesarias y suficientes de punto mnimo . . . . . . .
6.2 Teorema de la funcin implcita . . . . . . . . . . . . . . . . . .

34
40
41

Optimizacin y Programacin Matemtica


7.1 Conjuntos convexos . . . . . . . . . . . . . . . .
7.2 Caracterizacin del problema de optimizacin y
punto ptimo . . . . . . . . . . . . . . . . . . .
7.3 Dualidad . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Dualidad Lagrangiana . . . . . . . . . .
7.3.2 Dualidad de Wolfe . . . . . . . . . . . .
7.3.3 Ejemplo . . . . . . . . . . . . . . . . . .

42
43

. . . . . . . . .
condiciones de
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .

Sobre el mtodo de los elementos finitos para resolver ecuaciones en


derivadas parciales
8.1 Solucin de una ecuacin en derivadas parciales . . . . . . . . . .
8.1.1 El problema en forma dbil o variacional . . . . . . . . .
III

21
24
24
28
31

54
58
63
64
64
65
69
70

8.1.2
8.1.3

8.2
9

Espacios de trabajo . . . . . . . . . . . . . . . . . . . . .
Discretizacin del problema en un subespacio de elementos finitos lineales . . . . . . . . . . . . . . . . . . . . . .
8.1.4 Reformulacin del problema como un sistema de ecuaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . .
Algo sobre funcionales y clculo de variaciones . . . . . . . . . .
8.2.1 Proposiciones esenciales . . . . . . . . . . . . . . . . . .

Anlisis de componentes principales


9.1 Algunos conceptos de estadstica . . . . . . . . . . . . . . . . . .
9.2 Planteamiento del problema matemtico . . . . . . . . . . . . . .

72
74
78
79
83
85
86
88

10 Nmeros complejos

93

11 Bibliografa

96

IV

Prefacio

l contenido de este libro es una introduccin de referencia y apoyo a todo


el contexto matemtico y algortmico de la asignatura Matemticas de la
EspecialidadIngeniera Elctrica que desde hace varios aos dicto en la Escuela Tcnica Superior de Ingenieros Industriales, de la Universidad Politcnica de
Madrid. Esta adscrita al Grado de Tecnologas Industriales de esa Escuela.
Dado que recopila de forma sencilla conceptos tiles para asuntos de inters
matemtico diverso sobre los que trabajan los alumnos y futuros ingenieros, han
sido muchos los compaeros y amigos que me han animado a formatearlo como un
libro y ponerlo en el dominio pblico para que, adems de en mi sitio web donde
ha estado desde hace bastantes aos, pueda ser ledo, consultado o estudiado con
una hechura tradicional.
En el contenido del libro el lector encontrar conceptos, referencias histricas, definiciones, relaciones y resultados bsicos de matemticas que yo considero
tiles tener a mano para poder seguir el desarrollo de la citada asignatura, as como similares, de manera provechosa, y poder recordarlos si ha lugar en el futuro
de forma rpida y en un mismo volumen. Su nfasis es en las matemticas que
respaldarn los procedimientos numricos prcticos que necesita comprender y
desarrollar la ingeniera y ciencias aplicadas con las que tendrn que lidiar ingenieros y graduados en su desempeo profesional. Prcticamente todo lo escrito lo
he estudiado y abordado en el curso de mi trayectoria profesional y en la asignatura
indicada, as como en otras dictadas a lo largo de mi carrera docente.
Con los conceptos y resultados vertidos puede ser mucho ms intuitivo comprender cmo funcionan las matemticas inherentes a muchos de los algoritmos
y mtodos que hoy en da estn presentes en bastantes de los desarrollos del Big
Data, optimizacin matemtica y otras cuestiones de la tan de moda economa digital, con la que convivimos todos los das. Con ellos como referencia se puede
imaginar cmo pueden ser mejorados o hacerlos evolucionar para desarrollar las
nuevas herramientas de optimizacin no lineal, integracin de ecuaciones diferenciales complicadas, etc. que se necesitan en estos desafos y otros que se pondrn
por delante.
Lo que se expone en las pocas pginas del libro es una sntesis o gua prctica
de muchos aos dedicado a investigar, primero y ensear lo practicado y seguir
investigando despus, sobre todo lo que tiene que ver con las tcnicas y algoritmos numricos que nos permiten, mediante el Clculo y Anlisis Matemtico, y la
Ingeniera de sus Mtodos Numricos, simular la realidad con la que nos enfrentamos a diario para identificarla y atacar los diversos problemas prcticos que nos
acucian y que la inteligencia humana decide abordar. En especial algunos ejemplos se refieren a la ingeniera elctrica, pero que son extensibles a otros muchos
V

campos del conocimiento y la ciencia.


Mediante el diseo e ingeniera de los procedimientos numricos podemos estudiar y resolver problemas prcticos tambin de las ciencias sociales, medicina y
otras reas de conocimiento importantes para la vida de las personas aquellos de
base cientfica que se modelizan y simulan en trminos matemticos y analizar
la idoneidad de sus resultados para el inters general y para otras ramas que se
puedan beneficiar de un trasvase de ideas y resultados. Todo ello ayudado con los
ordenadores a nuestro alcance y con programas muy probados y potentes que nos
permiten realizar pasos intermedios muy eficazmente y a mucha velocidad.
El libro en ningn caso recoge un exhaustivo recordatorio de las matemticas
que debe conocer un ingeniero, pues segn se adentra en nuevas parcelas del saber
y la investigacin el panorama se agranda enormemente. La notacin que se introduce, de forma sistemtica y sencilla, es para poderla usar en todas las lecciones
y presentaciones que explicamos y enseamos en las clases mencionadas, y como
medio para uniformizar todo el contexto de la exposicin y aprendizaje si ello es
posible.
Al final del libro se lista un conjunto de referencias bsicas. No pretende sino
apuntar con qu libros o artculos se pueden estudiar y aprender los fundamentos
de casi todo lo expuesto en este libro, y algo ms.
El el sitio web que se cita ms abajo se pueden encontrar los guiones y apuntes
de lecciones tericas y prcticas que dicto en la universidad tomando como base
el contenido de este libro; tambin, software para dar significacin prctica a esas
lecciones y apostillar mediante pequeos programas muchos de los resultados que
se presentan en este volumen.
Si algn amable lector tiene a bien aportarme cualquier sugerencia, lo agradecer infinitamente.
Jos Luis de la Fuente OConnor
Alcobendas, 20 de julio de 2016
www.jldelafuenteoconnor.es

VI

1 Conjuntos

1 Conjuntos

AS matemticas modernas tienen mucho que ver con los conjuntos. Un conjunto es una coleccin de objetos: los nmeros naturales, las soluciones de
un problema determinado, los municipios de una provincia, etc. Se identifica por
una letra mayscula: el conjunto S , el conjunto de los nmeros naturales N, el de
los enteros Z, el de los reales R, complejos C, racionales Q, etc.
Cada uno de los objetos en la coleccin es un elemento o miembro del conjunto.
Si un elemento a pertenece a un conjunto se indica a 2 S . Los conjuntos se
definen mediante la enumeracin entre llaves de sus elementos, S D fa; b; : : : g,
o especificando, tambin entre llaves, la propiedad que los caracteriza, S D fx W
x 2 R; x  2g: nmeros reales menores o iguales que dos.
El conjunto sin elementos se denomina vaco, designndose ;. Ejemplo: el
conjunto S de los nmeros reales x que son mayores que 1 y menores que 0: esto
es, S D fx 2 R W x > 1; x < 0g.
Si S y S 0 son dos conjuntos y todos los elementos del conjunto S 0 lo son de
S , se dice que S 0 es un subconjunto del conjunto S , o que est contenido en S 0 ,
expresndose S 0  S o S  S 0 .
La unin de dos conjuntos S y T , expresada S [ T , es el conjunto formado
por los elementos que pertenecen a S o a T .
La interseccin de S y T , expresada S \ T , es el conjunto formado por los
elementos que pertenecen a S y a T .
Si S 0 es un subconjunto de S , el complemento de S 0 en S es el conjunto formado por los elementos de S que no pertenecen a S 0 .
Si a y b son nmeros reales, y a  b, el conjunto de nmeros x de la recta real
tales que a  x  b se indica a; b. El formado por los x tales que a < x  b,
por .a; b. El de los x que verifican que a < x < b, por .a; b/.
Si S es un conjunto no vaco de nmeros reales acotados superiormente
mayorados, existe un nmero real mnimo y tal que x  y para todo x 2 S . Al
nmero y se le denomina cota superior mnima o supremo de S ; se expresa as:
sup .x/ o
x2S

sup fx W x 2 S g :

De forma similar se define la cota inferior mxima o nfimo de un conjunto S


no vaco de nmeros reales acotados inferiormente o minorados:
Knf .x/

x2S

Knf fx W x 2 S g :

Dados dos conjuntos S y T , una aplicacin, transformacin o mapeo f de


S en T , expresada como f W S ! T , es una asociacin o criterio que a cada
elemento de S hace corresponder uno de T .
1

2 Espacios vectoriales

La imagen de un elemento x 2 S con la aplicacin f W S ! T es el elemento


f .x/ 2 T . El conjunto imagen f .S / = ff .x/ 2 T; para todo x 2 S g. La imagen
de un subconjunto S 0  S con la aplicacin f sera, por consiguiente, el subconjunto imagen f .S 0 /. El conjunto S se conoce como origen o dominio de definicin
y el T como dominio de valores. Una aplicacin f W S ! T se dice inyectiva si
para cualquier par de elementos x; y 2 S , x y, se cumple que f .x/ f .y/.
Ejemplo, la aplicacin f W R ! R, definida por f .x/ D x 2 , no es inyectiva, pues
f .1/ D f . 1/ D 1.
Una funcin es un caso particular de aplicacin en donde los conjuntos origen
e imagen son conjuntos de nmeros: R, C, Z, N, etc.
Una aplicacin f W S ! T se dice suprayectiva sobreyectiva, epiyectiva,
suryectiva o exhaustiva si el conjunto imagen f .S / es igual a todo el conjunto
T ; es decir, para todo y 2 T existe un x 2 S tal que f .x/ D y.
Una aplicacin se dice biyectiva si es inyectiva y suprayectiva. Ejemplo, si Jn
es el conjunto de los nmeros enteros de 1 a n, Jn D f1; : : : ; ng, y se define una
aplicacin  W Jn ! Jn que modifica el orden de disposicin de los elementos de Jn estas aplicaciones se denominan permutaciones, tal aplicacin es
biyectiva.
Un conjunto S se dice numerable si existe una biyeccin entre N y S : a cada
unos de los n elementos k, 1  k  n, se le asocia un elemento ak 2 S , esto es:
k 7! ak .
Una sucesin de elementos de un conjunto T es una aplicacin de N en T : a
cada elemento n  1 se le hace corresponder un x .n/ 2 T : n 7! x .n/ . Tal sucesin
se expresa como fx .1/ ; x .2/ ; : : : g o fx .n/ gn1 .
Los conjuntos dotados de ciertas leyes de composicin o asociacin interna
adicin, multiplicacin, divisin o cualquier otra, se dice que poseen una estructura. Las estructuras algebraicas fundamentales son grupo, anillo (Z por ejemplo),
cuerpo (R y C, por ejemplo) y espacio vectorial.

2 Espacios vectoriales

N espacio vectorial E es una estructura algebraica creada a partir de un


conjunto no vaco, una ley de composicin interna, adicin, definida para
los elementos del conjunto con las siguientes propiedades grupo conmutativo
xCy DyCx
.x C y/ C z D x C .y C z/
xCDx
x C . x/ D

y una ley de composicin externa, producto por un escalar, definida entre dicho
2

se le hace corresponder un x .n/ 2 T : n 7! x .n/ . Tal sucesin se expresa como fx .1/ ; x .2/ ; : : : g o
fx .n/ gn1 .
Los conjuntos dotados de ciertas leyes de composicin o asociacin interna adicin, multiplicacin, divisin o cualquier otra, se dice que poseen una estructura. Las estructuras fundamentales
2 Espacios vectoriales
son: grupo, anillo (Z por ejemplo), cuerpo (R y C, por ejemplo) y espacio vectorial.

conjunto y otro conjunto, K, con estructura de cuerpo, con las siguientes propiedades,
4 x
1x D
.x/ D ./x
. C /x D x C x
.x C y/ D x C y;

vlidas cualesquiera que sean x; y; z en E y ; en K. A se le denomina elemento neutro y a x el opuesto de x. Es usual denominar vectores a los elementos
de E y escalares a los de K. En las aplicaciones que se estudian habitualmente
los casos ms importantes ocurren cuando K D R o K D C. Con la notacin K
designaremos a cualquiera de los cuerpos R o C y por x un vector cualquiera de
un espacio vectorial.
El paradigma de espacio vectorial lo constituye el formado por sucesiones ordenadas de n elementos cualesquiera de K, o n-uplas x D x1 ; : : : ; xn , definiendo
la suma de vectores mediante
x1 ; : : : ; xn C y1 ; : : : ; yn D x1 C y1 ; : : : ; xn C yn
y el producto por un escalar mediante
x1 ; : : : ; xn D x1 ; : : : ; xn :
Si los elementos estn definidos en R, el espacio vectorial se denomina Rn , si lo
estn en C, el espacio vectorial es C n . Si   Rn es un conjunto abierto de Rn , el
3

2 Espacios vectoriales

conjunto de todas las funciones continuas en  forman un espacio vectorial lineal


C./ en Rn con las operaciones suma y producto por un escalar,
.f C g/.x/ D f .x/ C g.x/;
.f /.x/ D f .x/;

x2

x 2 :

Mediante C./ se designa el espacio vectorial lineal de las funciones continuas en


el conjunto cerrado . Este ltimo espacio, y C./, son una variedad de espacio
vectorial denominada espacio funcional pues sus elementos son funciones en vez
de vectores propiamente dichos. Cualquier funcin continua en C./ es claramente continua en C./. Igualmente, si f 2 C./ es continua en  y  est acotado,
la funcin f se puede suponer continua tambin en @, la frontera o borde de ,
y entenderse que es continua por tanto en C./ y pertenece a dicho conjunto. Recordemos tambin que f se supone continua (o uniformemente continua) en 
si para cualquier " > 0 existe un D .f; "/ > 0 tal que jf .x/ f .y/j < ",
cualesquiera sean x; y 2  con kx yk < .
Otro espacio vectorial interesante es C m ./, el de funciones continuas con derivadas parciales continuas hasta orden m en , o C m ./ en . Tambin Cp .2/,
de funciones continuas peridicas-2, es decir, funciones f 2 C. 1; 1/ tales que f .x C 2/ D f .x/, 1 < x < 1. O Cpk .2/ de funciones continuas peridicas-2 con derivadas continuas hasta orden k. Alguna vez se indica
Cp0 .2/ para referirse a Cp .2/.
Otros P
espacios vectoriales habituales son Pn , de polinomios de grado n,
pn .x/ D nkD0 ak x k , con coeficientes ak reales o complejos.
El conjunto L1 a; b de todas las funciones del cuerpo de los nmeros reales
cuyo valor absoluto es integrable en el intervalo a; b es un espacio vectorial funcional. Tambin lo es L2 a; b, el conjunto de todas las funciones reales al cuadrado integrables en a; b. Es de destacar que en ambos casos estas funciones no
tienen por que ser continuas en ese intervalo.
Un subespacio vectorial M de un espacio vectorial E sobre un cuerpo K es
un subconjunto no vaco que es un espacio vectorial sobre K. Es decir, es cerrado
respecto de las operaciones de adicin y producto por un escalar: que cumple que
8x; y 2 M H) x C y 2 M;

8x 2 M y 8 2 K H) x 2 M:
La interseccin de una familia cualquiera de subespacios de E es tambin un
subespacio.
Si X es un subconjunto cualquiera de E el subespacio GenfXg, generado o
engendrado por X, es la interseccin se todos los subespacios que contienen a X.
Cuando GenfXg D E, se dice que X es una parte generadora de E.
4

2 Espacios vectoriales

Dados vectores x1 ; : : : ; xn y escalares 1 ; : : : ; n , el vector formado segn la


expresin
x D 1 x1 C    C n xn

se dice que es una combinacin lineal de los vectores x1 ; : : : ; xn de coeficientes 1 ; : : : ; n . Un subconjunto X de E es un subespacio si y slo si contiene a
cualquier combinacin lineal de cualquier subconjunto finito de vectores de X.
Tambin se demuestra que el subespacio GenfXg es el conjunto de todas las combinaciones lineales de vectores de X.
Un conjunto de vectores x1 ; x2 ; : : : ; xk se dicen linealmente dependientes si
P
existen escalares i , no todos cero, tales que kiD1 i xi D 0 ; linealmente independientes, si
k
X
i xi D 0 H) i D 0; 0  i  k :
i D1

Una parte X de un espacio vectorial E se dice que es una familia libre si los
vectores de cualquier subconjunto finito de X son linealmente independientes.
La dimensin de un subespacio es el mximo nmero de vectores linealmente
independientes en el subespacio.
Una base de un espacio vectorial E es cualquier subconjunto B de E que sea,
simultneamente, una parte libre y generadora de E; dicho de otra forma, una
base de un espacio vectorial es un conjunto normalmente se supone ordenado
(numerado) de vectores linealmente independientes que generan (o engendran)
dicho espacio. Se demuestra que cualquier espacio vectorial tiene una base y que
todas las bases de un mismo espacio tienen la misma cardinalidad se pueden
poner en biyeccin. Cuando el cardinal de las bases es un nmero natural, n 2
N, se dice que el espacio es de dimensin finita n. En un espacio vectorial K n ,
2 3
2 3
2 3
1
0
0
607
617
607
6
7
6
7
6
e1 D 4 :: 5 ; e2 D 4 :: 5 ; : : : ; en D 4 :: 7
;
:
:
:5
0
0
1
forman una base en dicho espacio; ste, por tanto, tiene dimensin n. Esta base se
denomina base cannica o base estndar de K n . En esta base, cualquier vector
x T D x1 ; x2 ; : : : ; xn se puede expresar de la siguiente forma:
2 3
2 3
2 3
2 3
x1
1
0
0
6 x2 7
6 7
6 7
6 7
6 : 7 D x1 60:7 C x2 61:7 C    C xn 60:7 :
4 :: 5
4 :: 5
4 :: 5
4 :: 5
xn
0
0
1
5

2 Espacios vectoriales

Es decir Rn D Genfe1 ; : : : ; en g. La base estndar de Pn es S D f1; t; t 2 ; : : : ; t n g.


Si A y B son subconjuntos de un espacio vectorial E, el conjunto A C B se
3.1 Espacios normados
define como:
A C B D fa C b W a 2 A; b 2 Bg :
Si en un espacio vectorial E sobre K (R o C) se define una no
Cuando A y B son subespacios, tambin
suma
A C B. Si adems A \ B D
k  k W E lo
!esRlaque
verifica
;, la suma se denomina directa, escribindose A B. Si A B D E, cualquier
Db,
0 H)
vector c 2 E se descompone de manera nica como c Dkvk
aC
con va D
2 0A yy x 0 H) k
b 2 B; tambin se dice que A y B son subespacios suplementarios.
kvk D jjkvk para 2 K y v
ku C vk  kuk C kvk

2.1 Espacios normados, espacios mtricos

8u; v 2

se dice que E es un espacio vectorial normado.


Si en un espacio vectorial E sobre K (R o C) se define una norma vectorial
condicin
como una aplicacin k  k W E ! RLa
que
verifica kuCvk  kukCkvk es la desigualdad de Minko
del tringulo. Es una generalizacin del hecho de que un lado de u
suma
dos:
ver>figura.
kvk D 0 H) vlaD
0 ydexlos
otros
0 H)
kxk
0; Una variante de esta regla es

kvk D jjkvk

para 2 K y v 2 E;

ku C vk  kuk C kvk

8u; v 2 E;

ku

vk  kuk

kvk:

se dice que E es un espacio vectorial normado.


v
uCv
u

Figura 3.1: Representacin grfica de la regla d

Figura 2.1: Representacin grfica de la regla del tringulo

En kvk
el espacio
vectorial Kn ,de
para
1  p < 1,
se tiene la famili
La condicin ku C vk  kuk C
es la desigualdad
Minkowski
por

1
Hermann Minkowski, Lituania 1864-1909; se conoce tambin como regla del
p
p
tringulo. Es una generalizacin del hecho de que un lado de un tringulo
kxkp D no
jxpuede
1 j C    C jxn j
ser mayor que la suma de los otros dos: ver figura 2.1. Una variante de esta regla
es la siguiente: ku vk  kuk denominadas
kvk.
normas p de Hlder. Casos particulares lo constitu
p D se
2: define la distancia entre dos elementos u
En un espacio vectorial normado
y v mediante
n
X
d.u; v/ D ku vk :
jxi j
kxk1 D
i
D1
Esta definicin convierte a cualquier espacio vectorial normado en un espacio
p m2 C    C jx j2
jx1 jD
kxk2 .x;
D y/
trico. El espacio de los nmeros reales, por ejemplo, con la distancia
n
1
jx yj es el espacio mtrico R .
Esta ltima se denomina en Rn norma eucldea. Tambin en Kn e
6

kxk1 D mKax jxi j :


1in

Estas normas cumplen, cualquiera que sea x 2 K , que


n

2 Espacios vectoriales

En el espacio vectorial Kn , para 1  p < 1, se tiene la familia de normas


p
p
kxkp D
jx1 jp C    C jxn jp

denominadas normas p de Hlder por Otto Hlder, Alemania 1859-1937.


Casos particulares lo constituyen las correspondientes a p D 1 y p D 2:
kxk1 D
kxk2 D

n
X
iD1

jxi j

jx1 j2 C    C jxn j2 :

Esta ltima se denomina en Rn norma eucldea, por Euclides de Alejandra, Grecia, 325-265 a.C. Tambin en Kn es una norma la dada por
kxk1 D mKax jxi j :
1in

Estas normas cumplen, cualquiera que sea x 2 Kn , que


kxk1  kxk2  kxk1  nkxk1 :
Si la bola cerrada unidad en R2 es el conjunto fx 2 R2 W kxk  1g, su forma
en espacios vectoriales normados por la 1, 2, 1 y p son las que representa la
figura 2.2.
En el espacio C 0; 1 de funciones continuas del intervalo 0; 1 en C, son normas las dadas por
"Z
#1=p
1

kf kp D

jf .t /jp dt

donde, si f W C ! C, se define la integral definida de esta funcin en el intervalo


a; b,
l b
I.f / D

f .x/ dx;
a

como el lmite de las sumas deP


Riemann, por Georg Friedrich Bernhard Riemann,
Alemania 1826-1866, Rn D niD1 .xi C1 xi /f .ti /; x1 D a; xnC1 D b; xi 
ti  xi C1 ; cuando la particin en subintervalos se hace muy fina. Tambin en una
norma la dada por
kf k1 D mKax jf .t /j :
t20;1

Si el conjunto fx 2 R2 W kxk  1g es la bola cerrada unidad en


R2, su forma para las normas vectoriales 1, 2, 1, y p son estas.

2 Espacios vectoriales

x11 D
=
kxk

x22 D
=
kxk

2
i
2

i=1

|xijx
| ij

D1

iD1

q


2 2
|x11|j22+C|xjx
2 | 2=
jx
j

q
DxT xx T x

D1

kxk1
ax jx
D mK
i ij D 1
1i2
1i2

kxkp D jx1jp C jx2jp 1=p ;


D1

.1  p < 1/
28/63

Figura 2.2: Forma de la bola unidad para diferentes normas en R2


a

10

Los espacios de funciones Lp .0; 1/, p > 1, con la norma


kxk D

Z

1
p

jx.t /j dt

1=p

; donde x.t / 2 Lp .0; 1/;

en los que si y.t / 2 Lp .0; 1/ se cumple que


Z

jx.t /jp dt

1=p

<1

son tambin espacios1 normados.


En particular, el conjunto de todas las funciones tales que
Z
f 2 .x/ dx < 1
con la distancia entre dos de ellas f1 .x/ y f2 .x/ definida por
sZ
f2 .x//2 dx

.f1 .x/

1 Casos particulares son L .a; b/ de funciones cuyo valor absoluto es integrable en a; b y


1
L2 .a; b/ de funciones al cuadrado integrables en a; b.

2 Espacios vectoriales

es el espacio mtrico L2 .R/.


Sea E un espacio vectorial normado; se dice que una sucesin2 fx .n/ g en E
converge a un lmite v 2 E, si para todo " > 0, existe un N 2 N tal que a partir
de l, n  N , se cumple que kx .n/ vk < ".
Cuando una sucesin fx .n/ g admite un vector lmite v slo tiene ese vector como lmite.3 Se escribe lKmn!1 x .n/ D v. Es equivalente decir que lKmn!1 x .n/ D
v y que lKmn!1 kx .n/ vk D 0. En particular, x .n/ ! 0 si y slo si kx .n/ k ! 0.
Una sucesin fx .n/ g en un espacio vectorial normado por k  k se denomina
sucesin de Cauchy si para cada " > 0 existe un n 2 N tal que cualesquiera que
sean p; q  n, se cumple que kx .p/ x .q/ k < ". Toda sucesin convergente es
una sucesin de Cauchy pero pueden existir espacios normados con sucesiones de
Cauchy que no son convergentes. Un espacio vectorial normado se dice completo
si toda sucesin de Cauchy en l tiene lmite.
Un espacio de Banach por Stefan Banach, Polonia 1892-1945 es un espacio vectorial completo respecto de la norma a l asociada. Todo espacio vectorial
normado de dimensin finita es un espacio de Banach. En un espacio de dimensin
infinita esto no es cierto; por ejemplo, es fcil ver que en C 0; 1 la sucesin de
funciones cuyas grficas son las de la figura 2.3 es una sucesin de Cauchy para
cualquier norma k  kp , pero no tiene lmite en C 0; 1.
1
n

fn .x/ 6
=

=










=

1
n

Figura 2.3: Grfica de una de las funciones de una sucesin de Cauchy


2 Cuando as lo aconseja la dificultad de la notacin, una sucesin tambin se designa por fx g; sus
n
integrantes, x .k/ .
3 Si existe lmite es nico.

2 Espacios vectoriales

2.2 Espacios con producto interior


Sea E un espacio vectorial sobre un cuerpo K (R o C); una forma sesquilineal
vez y media lineal sobre E es una aplicacin hji W E  E ! K que verifica4 :
1) hu C vjwi D hujwi C hvjwi

2) hujv C wi D hujvi C hujwi;


cualesquiera que sean u, v, w en E y ; en K. Si adems se cumple que hujvi D
hvjui, la forma se denomina hermtica. Es claro que hujui es siempre un nmero
real. Cuando se cumple que
u 0 H) hujui > 0 ;
se dice que la forma es definida positiva, denominndosela tambin producto escalar. Una forma sesquilineal sobre R es siempre una forma bilineal.
Un espacio prehilbertiano es un espacio vectorial sobre K dotado de una forma
hermtica definida positiva. Todo espacio prehilbertiano es un espacio normado
mediante
p
kvk D hvjvi :
En la demostracin de que esta definicin corresponde a la de una norma en
E juega un papel importante la desigualdad de Cauchy-Schwarz por Augustin Louis Cauchy, Francia 1789-1857 y Karl Hermann Amandus Schwarz, Prusia
1843-Alemania 1921 a saber,

hujvi  kuk  kvk :

Si  es un abierto de Rn , el espacio vectorial de las funciones al cuadrado


integrables en 5 es


Z
jf .x/j2 dx < 1
L2 ./ D f W  ! R;


que es un espacio prehilbertiano si se le dota del producto escalar


Z
hf; gi D
f .x/g.x/dx:


Un espacio de Hilbert por David Hilbert, Prusia Oriental 1862-1943 es un


espacio prehilbertiano completo respecto de la norma asociada al producto escalar
4 La

barra designa complejo conjugado.


se suelen designar L2 ./.

5 Tambin

10

2 Espacios vectoriales

p
k  k D h; i . Dicho de otra forma, un espacio prehilbertiano que con esta norma
da un espacio de Banach. Todo espacio de Hilbert es un espacio de Banach, pero
el recproco no es cierto.
R
El espacio vectorial L2 ./ dotado de la norma hf; gi D  f .x/g.x/dx es
un espacio de Hilbert.
El espacio eucldeo n-dimensional, expresado Rn o En , es un espacio de Hilbert de dimensin finita. Visto as, un espacio de Hilbert sera la generalizacin
de un espacio eucldeo, incluida la dimensin infinita. El producto escalar en un
espacio eucldeo es una forma bilineal. En particular, dados dos vectores en R2
de la forma u D a; bT y v D c; d T , su producto escalar viene dado por
hu; vi D ac C bd . que se puede verificar que es una forma bilineal.
Dos vectores cuyo producto escalar es cero se denominan ortogonales; si sus
k  k2 son la unidad se denominan ortonormales. Para dos vectores ortogonales se
tiene la identidad
ku C vk2 D kuk2 C kvk2 ;
que es una generalizacin del teorema de Pitgoras. En un espacio prehilbertiano
el nico vector ortogonal a todos los vectores del espacio es el vector nulo; si este
espacio es de dimensin finita es posible construir una base ortonormalizada.
En un espacio eucldeo n-dimensional el ngulo entre dos vectores x e y es
 T

x y
 D arc cos
;
kxkkyk
donde
D

xT y
kxkkyk

cumple que 1    1, para cualesquiera x e y.


Dos vectores son ortogonales si x T y D 0 ( D =2;  D 0); alineados, si
T
x y D kxkkyk ( D 0;  D 1); opuestos, si x T y D kxkkyk ( D ;  D
1). Forman un ngulo agudo si x T y > 0 ( < =2;  > 0) y un ngulo obtuso
si x T y < 0 ( > =2;  < 0).
Una familia cualquiera de vectores distintos del nulo y ortogonales dos a dos
es una familia libre. Si M es un subespacio de un espacio prehilbertiano E de
dimensin finita, el subespacio ortogonal de M , M ? , es el subespacio formado
por todos los vectores ortogonales a los de M , siendo un subespacio suplementario
de M ; es decir M M ? D E. Cualquier x 2 E, por consiguiente, se puede
expresar como x D a C b, con a 2 M y b 2 M ? .

11

2 Espacios vectoriales

2.3 Aplicaciones lineales


Dados dos espacios vectoriales E y F sobre el mismo cuerpo K se define una
aplicacin lineal, transformacin lineal, mapeo, operador lineal u homomorfismo,
f , de E en F , como una aplicacin f W E ! F que verifica
f .x C y/ D f .x/ C f .y/ ;
cualesquiera que sean los vectores x, y de E y los escalares  y . Existen dos
casos particulares interesantes: el primero cuando E D F , en este caso se dice que
f es un operador lineal de E o endomorfismo de E; el segundo cuando F D K
el cuerpo base, en cuyo caso la aplicacin se denomina forma lineal sobre E.
El conjunto L.E; F / de todas las aplicaciones lineales del espacio E en el
espacio F se estructura como un espacio vectorial si se definen las siguientes operaciones:
adicin .f C g/ W

.f C g/.x/ D f .x/ C g.x/; 8x 2 EI

producto por un escalar f W .f /.x/ D f .x/; 8x 2 E y 8 2 K:

En particular, el conjunto L.E; K/ de formas lineales es un espacio vectorial denominado dual de E, representndose con E  .
Para una aplicacin lineal f W E ! F , el conjunto de vectores de F que son
la imagen de los de un subespacio de E forma un subespacio de F . En particular,
la imagen de todo E es un subespacio de F que se denomina subespacio imagen
de f , representndose mediante Im.f /. Anlogamente, el conjunto anti-imagen
de un subespacio de F forma un subespacio de E. En particular, la anti-imagen
del subespacio nulo de F forma lo que se denomina el ncleo de la aplicacin,
representndose por ker.f /. As pues
ker.f / D fx 2 E W f .x/ D 0g :
Si b 2 F , la ecuacin lineal f .x/ D b tiene solucin si y slo si b 2 Im.f /.
En ese caso el conjunto de todas las soluciones es la variedad lineal traslacin
de un subespacio dada por x0 C ker.f /, donde x0 es una solucin particular de
la ecuacin. En particular, la aplicacin es inyectiva si y slo si ker.f / D ;.
Sean E y F dos espacios prehilbertianos sobre el cuerpo K; si f W E ! F es
una aplicacin lineal, la aplicacin traspuesta de f es la aplicacin f  W F ! E
que cumple
hxjf  .y/i D hf .x/jyi ;

cualesquiera que sean los vectores x 2 E e y 2 F . Particularmente importante


es el caso en que E D F : f  se dice entonces que es el operador adjunto de
12

3 Topologa

f . Cuando un operador f de E cumple que f  D f se denomina operador


autoadjunto. En el caso de que E sea un espacio vectorial real, tambin se dice
que f es un operador simtrico y cuando es un espacio vectorial complejo, que f
es un operador hermtico. Un operador simtrico cumple que
hxjf .y/i D hf .x/jyi;
mientras que uno hermtico, que
hxjf .y/i D hf .x/jyi:
Un operador f de E es unitario cuando es invertible y su inverso coincide con
su adjunto. Es decir, si f  D f 1 . Para un operador unitario se tiene que
hf .x/jf .y/i D hf  .f .x//jyi D hxjyi ;
de manera que kf .x/k D kxk. Por este motivo a los operadores unitarios tambin
se les denomina operadores isomtricos.
Dada una transformacin lineal, aplicacin lineal, o mapeo, f W E ! E, se
dice que un subespacio W de E es un subespacio invariante frente a f (o f invariante) si para todo vector w 2 W se cumple que f .w/ 2 W . Dicho de otra
manera, W es un subespacio invariante si f .W /  W .

3 Topologa

N un espacio vectorial normado se define una bola abierta, S.x0 ; r/, de centro x0 y radio r, como el conjunto de puntos x que verifican kx x0 k < r.
Es decir:
S.x0 ; r/ D fx 2 Rn W kx x0 k < rg:

N 0 ; r/, se define, por el contrario, como el conjunto de


Una bola cerrada, S.x
puntos x que verifican kx x0 k  r. Es decir:
N 0 ; r/ D fx 2 Rn W kx
S.x

x0 k  rg:

Consideraremos en lo que sigue de este apartado un subconjunto S del espacio


vectorial mtrico hasta ahora estudiado (puede ser, por ejemplo, Rn ).
Un punto y 2 S es un punto interior del conjunto S si existe un " tal que
kx

yk < " ) x 2 S :

En otras palabras, existe una bola abierta S.y; "/ de centro y y radio " contenida
ntegramente en S .
13

4 Matrices

El conjunto de todos los puntos interiores del conjunto S se denomina interior de S . Este conjunto puede, evidentemente, ser vaco. Ejemplo: un plano del
espacio R3 .
Un subconjunto de S se dice abierto si coincide con su interior; es decir, si
alrededor de todo punto de S existe una bola abierta contenida ntegramente en S .
Dos ejemplos: la bola abierta unidad, S.x; 1/ D fx W kxk < 1g y el espacio Rn
en su totalidad. En general los subconjuntos o conjuntos abiertos se caracterizan
por no tener lmites definidos o ser disjuntos de su frontera (ver ms adelante la
definicin del concepto frontera).
Un entorno de un punto x, E.x/, es un conjunto abierto que contiene a x. En
otras palabras, E.x/ es un entorno de x si contiene una bola abierta de centro x.
Se dice que un punto x es un punto de acumulacin del subconjunto S si en
todo entorno de x existen un nmero infinito de puntos de S .
Un punto x se denomina punto de adherencia del subconjunto S cuando todo
entorno de dicho punto x contiene al menos un punto de S ; es decir, para todo "
existe un y 2 S tal que kx yk < ". El conjunto de todos los puntos de adherencia
se denomina adherencia en la literatura anglosajona y latinoamericana, clausura
cl.S/. La adherencia de la bola abierta S.x; 1/ D fx W kxk < 1g es la cerrada
N
S.x;
1/ D fx W kxk  1g.
Se denomina frontera de un conjunto a la parte de la adherencia que no est en
el interior.
Un conjunto, o subconjunto, se dice cerrado si coincide con su adherencia.
La adherencia de cualquier conjunto S es el conjunto cerrado ms pequeo que
contiene a S . Se puede demostrar que un conjunto es cerrado si y slo si toda
sucesin convergente de elementos de S tiene un lmite en ese conjunto.
Un conjunto, o subconjunto, se dice compacto si es cerrado y acotado (contenido en una bola de radio r < 1). Un importante resultado, debido a Weierstrass, dice que si S es un conjunto compacto, de cada sucesin o sucesin infinita
fx .n/ gn2N de elementos de dicho conjunto es posible extraer una subsucesin
n
o
x .`/
LN
`2L

que converge a un elemento del propio conjunto S .


Si fr .k/ g es una sucesin de nmeros reales y s .k/ D sup fr .i / W i  kg,
entonces fs .k/ g converge a un nmero real s0 ; a este nmero se le denomina lmite
superior de fr .k/ g y se expresa como




lKm sup r .k/
o lKm r .k/ :
k!1

El lmite superior de una sucesin de nmeros reales es el mayor punto de acumulacin de la sucesin. De forma similar se define el lmite inferior.
14

4 Matrices

4 Matrices

NA matriz es una formacin rectangular de numeros reales o complejos


ordenados en m filas y n columnas
2

a11 a12
6 a21 a22
6 :
::
4 ::
:
am1 am2

3
   a1n
   a2n 7
:
: : :: 7
: : 5
   amn

El conjunto de todas las matrices de nmeros reales o complejos se designa, respectivamente, Rmn y C mn . Si m D n la matriz es cuadrada y de orden n. Un
vector columna es tambin una matriz Rm1 , que se escribe Rm .
Las matrices de m filas y n columnas con coeficientes en el cuerpo R o C
forman un espacio vectorial, Rmn o C mn , sobre dichos cuerpos.
El primero en usar el trmino matriz en matemticas fue James Joseph Sylvester, Reino Unido 1814-1897. Arthur Cayley, Reino Unido, 1821-1895, contribuy
de forma decisiva a que A D .aij / se concibiese como una cantidad algebraica
nica.
Si en lgebra lineal E y F son dos espacios vectoriales de dimensiones finitas n y m sobre el mismo cuerpo K. Una aplicacin lineal g W E ! F ,
g 2 L.E; F /, est caracterizada o representada en dos bases fe1 ; e2 ; : : : ; en g de
E y ff1 ; f2 ; : : : ; fm g de F por una tabla de coeficientes, matriz asociada, de m
filas y n columnas:
2
3
a11    a1n
A D 4 ::: : : : ::: 5 2 K mn :
am1    amn
Los coeficientes aij estn definidos por
g.ej / D
El vector columna j -simo

m
X

aij fi ;

iD1

3
a1j
6 a2j 7
4 :: 5
:
amj

1  j  n:

representa el vector g.ej / en la base .fi /. A partir de la matriz A se pueden calcular los coeficientes y1 ; y2 ; : : : ; ym del vector y D g.x/ en la base .fi /, cono15

4 Matrices

ciendo los coeficiente x1 ; x2 ; : : : ; xn en la base .ej /. En efecto:


2 3
2
3
2
3
2
3
y1
a11
a12
a1n
6 y2 7
6 a21 7
6 a22 7
6 a2n 7
4 :: 5 D x1 4 :: 5 C x2 4 :: 5 C    C xn 4 :: 5 :
:
:
:
:
ym
am1
am2
amn
Expresin que tambin se puede escribir de la siguiente forma:
yD

n
X

xi ai ;

i D1

donde ai es el vector columna i -simo de la matriz A. As pues, si se fijan dos bases en E y F , cada aplicacin lineal, g W E ! F , queda unvocamente representada por una matriz. Recprocamente, toda matriz en K mn define unvocamente
una aplicacin lineal entre dos espacios E y F de dimensiones n y m en los que
se han fijado dos bases. En particular, se pueden identificar las matrices m  n con
las aplicaciones lineales de K n en K m .
Las matrices de m filas y n columnas con coeficientes en el cuerpo K forman
un espacio vectorial, K mn , sobre dicho cuerpo K.
Si E y F son dos espacios de dimensin finita dotados de un producto escalar y
la aplicacin 2 L.E; F / se representa en dos bases ortonormalizadas mediante
una matriz A, la aplicacin T 2 L.F; E/, traspuesta de , viene representada
por la matriz A T , traspuesta de A.
El ncleo y la imagen de una matriz A 2 K mn , ker.A/ y Im.A/, respectivamente, se definen como los subespacios de K n y K m que son el ncleo y la imagen
de la aplicacin lineal asociada:
7
7
ker.A/ D fx 2 K n W Ax D 0g
7
5
:
m
n
Im.A/ D fy 2 K W y D Ax; x 2 K g
mn
A2K

Dicho de otra forma, la imagen de una matriz es el subespacio generado por los
vectores columna de la matriz; los vectores fila tambin generan un subespacio
que no es otro que la imagen de A T .
Para una matriz A 2 Rmn se cumple que:

ker A T D .Im.A//?

Im A T D .ker.A//?
?
ker.A/ D Im A T
?
Im.A/ D ker A T
:
16



4 Matrices

,QQHU3URGXFW /HQJWK DQG2UWKRJRQDOLW\



De acuerdo con esto, si A 2 Rmn , se cumple que



7KHQH[WWKHRUHPDQG([HUFLVH YHULI\WKHFODLPVPDGHLQ6HFWLRQ
FRQFHUQLQJ
ker .A/ Im A T D Rn :

WKHVXEVSDFHVVKRZQLQ)LJ  $OVRVHH([HUFLVH LQ6HFWLRQ 


En la figura 4.4 se muestran estos subespacios.
A

I m

K e
r A

r A
K e

0
I m

'*(63&  7KHIXQGDPHQWDOVXEVSDFHVGHWHUPLQHG
Figura
4.4: m
Subespacios
determinados por A mn
! n PDWUL[fundamentales
A
E\DQ

El rango de una matriz es la dimensin6 de su subespacio imagen:

rango.A/ D dim.Im.A//:
/HW A EHDQ m ! n PDWUL[ 7KHRUWKRJRQDOFRPSOHPHQWRIWKHURZVSDFHRI
A LV
WKHQXOOVSDFHRI
DQGWKHRUWKRJRQDOFRPSOHPHQWRIWKHFROXPQVSDFHRI
mn
Una matriz A A
2T K
se dice de rango completo si rango.A/ D mKn.m; n/. Una A LV
WKHQXOOVSDFHRI

A
matriz cuadrada A 2 K nn se denomina singular si rango.A/ < n; regular si
T
/. T
rango.A/ D n. Tambin
rango.A/ D rango.A
?
.5RZ A/? se
Dcumple
.&RO A/
1XO A queDQG
mn D 1XO A
La aplicacin asociada a una matriz A 2 R
es suprayectiva cuando
rango.A/ D m. Para una matriz A 2 K mn se cumple que

[ LVLQ 1XO A WKHQ [ LV


1300' 7KHURZFROXPQUXOHIRUFRPSXWLQJ
A[ VKRZVWKDWLI
dim.ker.A// C rango.A/
D n;
RUWKRJRQDOWRHDFKURZRI A ZLWKWKHURZVWUHDWHGDVYHFWRUVLQ Rn / 6LQFHWKHURZV
o, alternativamente, dim.ker.A//
D n rango.A/.
aplicacin lineal
a
RI A VSDQWKHURZVSDFH
[ LVRUWKRJRQDOWR
5RZ ALa&RQYHUVHO\
LI [asociada
LVRUWKRJRQDOWR
T
A
es,
por
tanto,
inyectiva,
si
y
slo
si
rango.A/
D
n.
Por
otro
lado
dim.ker.A
//C
5RZ A WKHQ [ LVFHUWDLQO\RUWKRJRQDOWRHDFKURZRI
A DQGKHQFH A[ D  7KLVSURYHV
rango.A T / D m.
WKHUVWVWDWHPHQWRIWKHWKHRUHP
6LQFHWKLVVWDWHPHQWLVWUXHIRUDQ\PDWUL[
LWLVWUXH
El producto exterior uvT de un vector columna n  1 por un vector
fila 1  n
T
T
IRU A  es
7KDWLV
WKHRUWKRJRQDOFRPSOHPHQWRIWKHURZVSDFHRI
A LVWKHQXOOVSDFHRI
una matriz
A nn de rango 1.
AT  7KLVSURYHVWKHVHFRQGVWDWHPHQW 2
EHFDXVH 5RZ AT D3&RO A
u1 v1 u1 v2    u1 vn
6u2:v1 u2 v2    u2:vn 7
A D uv D 4 :
:: 5
:
un v1 un v2    un vn
3
T

2
$QJOHVLQ
DQG R 2SWLRQDO
R
Recordemos: mximo nmero de vectores linealmente independientes.
6

,I X DQG Y DUHQRQ]HURYHFWRUVLQHLWKHU R2 RU R3  WKHQWKHUHLVDQLFHFRQQHFWLRQEHWZHHQ


WKHLULQQHUSURGXFWDQGWKHDQJOH # EHWZHHQWKHWZROLQHVHJPHQWVIURPWKHRULJLQWRWKH
17
SRLQWVLGHQWLHGZLWK X DQG Y 7KHIRUPXODLV

4 Matrices

4.1 Normas de matrices


Aun cuando en lo que sigue nos limitaremos a matrices cuadradas, la mayor parte de las definiciones y resultados son extensibles a matrices rectangulares;
tambin supondremos que las matrices son reales.
Las matrices cuadradas de orden n forman un espacio vectorial con un producto, esto es, un lgebra. Una norma matricial es una norma vectorial compatible con el producto. Se define formalmente sobre Rmn como una aplicacin
k  k W Rmn ! R que cumple:
1) kAk D 0 H) A D 0:
2) kAk D jj  kAk:

3) kA C Bk  kAk C kBk:
4) kABk  kAk  kBk:

Existen normas sobre el espacio Rmn que no son normas matriciales pues no
cumplen la propiedad 4). As, si se define
kAk D mKax jaij j ;
1i;j n

h i
se satisfacen 1), 2) y 3); sin embargo, tomando A D B D 11 11 , es fcil ver que
kABk D 2 > kAk  kBk D 1, por lo que no se cumple 4).
Un ejemplo importante de norma matricial es la norma de Frobenius, definida
como:
X
2
kAk2F D
aij
D traza.A T A/;
1i;j n

P
donde la traza de una matriz A de orden n es niD1 ai i . Es fcil ver que esta norma
deriva del producto escalar hAjBi D traza.A T B/, que configura al espacio de
las matrices cuadradas como un espacio prehilbertiano. La norma de Frobenius
cumple que
kABkF  kAkF  kBkF :
Una norma matricial k  k sobre Rmn se dice consistente con una norma vectorial k  k0 sobre Rn cuando para cada matriz A y cada vector x se cumple que
kAxk0  kAk  kxk0 :
Por ejemplo, la norma de Frobenius y la norma eucldea de Rn son consistentes
pues
kAxk2  kAkF  kxk2 :
18

4 Matrices

Se demuestra que para toda norma matricial es posible construir una norma vectorial consistente. Recprocamente, a toda norma vectorial sobre Rn se le puede
asociar una norma matricial consistente. Una norma matricial consistente con una
cierta norma vectorial k  k se construye mediante la definicin
kAk D

sup
0x2Rn

kAxk
:
kxk

Esta norma matricial se dice inducida por la norma vectorial. Ejemplo: la norma
matricial inducida por la norma eucldea de Rn es la norma espectral:
"
#1=2 q
x T A T Ax
kAk2 D sup
D max .A T A/ D max .A/;
Tx
x
n
0x2R
donde  designa un valor propio de A y  un valor singular. Si k  k es la norma
inducida por una cierta norma vectorial y k  k0 es una norma matricial cualquiera
consistente con esa norma vectorial, se cumple, para toda matriz A, que kAk 
kAk0 . En particular, para la norma espectral y la norma de Frobenius, se cumple
que
p
kAk2  kAkF  nkAk2 :

Tambin que kABkF  kAkF  kBk2 y kABkF  kAk2  kBkF . Como casos
particulares, kIk2 D 1 y para una matriz diagonal, kDk2 D mKaxi jdi j.
Las normas matriciales inducidas ms usadas son
kAk1 D mKax

1j n

kAk1 D mKax

1im

m
X

i D1
n
X

j D1

jaij j

jaij j :

Ejemplo 4.1 El efecto que produce aplicar la transformacin lineal basada en la


matriz
" #
12
AD
02
sobre la bola unidad, explicado a partir de las normas k  k1 , k  k2 y k  k1 en R2 ,
se representa en la figura 4.5. La aplicacin transforma el vector e1 D 1; 0T en
s mismo y e2 D 0; 1T en 2; 2T . Con la norma 1, el vector unitario que ms
se amplifica al aplicarle la transformacin es 0; 1T (o 0; 1T ), que pasa a ser
2; 2T . Su factor de amplificacin, en trminos de la norma 1, es 4.
19

4 Matrices

[2, 2]T
[0, 1]T
norma11
norma

A1 = 4

[1, 0]T

[1, 0]T

A2 2,9208

norma22
norma

A = 3

norma1

norma

La aplicacin transforma el vector e 1 D 1; 0T en s mismo y


Figura 4.5: Efecto
de una aplicacin
lineal sobre la bola unidad para diferentes
T
T
enormas
2 D 0; 1 en 2; 2 .
Con la norma 2, el vector unitario que ms se amplifica es el que se representa
c
1
2
3
b
ena la figura
con una recta
discontinua.
El factor de amplificacin es 2,9208.
g
e
f
9
4
6 el 5vector unitario que ms se amplifica es el que
d Para
la norma 1, igualmente,
j
10
7
i
seh representa
tambin con
la8 recta
discontinua: 1; 1T , que pasa a transformarse
T
en 3; 2 . El factor de amplificacin correspondiente es en este caso 3 ya que


1; 1T D 1
1


T
3; 2 D 3:
1

Adems de las normas vectoriales y matriciales ya presentadas, otra norma


vectorial muy utilizada es


p
p


kxkA D A 1=2 x D hAxjxi D x T Ax;
2

20

39/63

4 Matrices

denominada norma A o norma de energa7 del vector x, para una matriz A simtrica y definida positiva. A hxjyiA D hAxjyi se le denomina producto interior
de A o producto escalar de energa. La matriz A 1=2 es la nica matriz definida
positiva solucin de la ecuacin matricial X 2 D X  X D A.

4.2 Matrices ortogonales, unitarias, simtricas, Hessenberg, de


permutacin y de proyeccin
Una matriz Q 2 Rmn se dice ortogonal si verifica que QT Q D I; es decir,
cuando sus vectores columna son ortogonales dos a dos y de norma eucldea unitaria (ortonormales). Si Q 2 Rnn es ortogonal, se cumple que QQT D QT Q D
I.
Las matrices ortogonales Q 2 Rmn verifican:
9
9
>
kQk2 D 1
>
>
kQk2 D 1
>
>
>
>
=
kQkF D n1=2 =
kQkF D m1=2
si m  n:
si m  n y
kAQk2 D kAk2 >
kQAk2 D kAk2 >
>
>
>
>
;
>
;
kAQkF D kAkF
kQAkF D kAkF

Una matriz ortogonal no modifica ni los ngulos ni las normas de los vectores a los
que se aplica la transformacin que representan: .Qx/T .Qy/ D x T QT Qy D
x T y. Si y D x, jjQxjj2 D jjxjj2 .
La extensin de las matrices ortogonales al campo complejo son las matrices unitarias. Son matrices, U 2 C nn , cuya inversa es su compleja conjugada:
U H U D U U H D I: Todos los valores propios de las matrices unitarias tienen mdulo unidad. Como las ortogonales, una matriz unitaria no modifica ni
los ngulos ni las normas, .U x/H .U y/ D x H U H U y D x H y. Si y D x,
jjU xjj2 D jjxjj2 .
Una matriz de permutacin es una matriz cuadrada cuyas columnas estn formadas por las de la matriz unidad permutadas. Una matriz de permutacin es una
matriz ortogonal.
Una matriz se dice simtrica si se verifica que A D A T . Para una matriz
cualquiera A 2 Rmn , la matriz A T A es simtrica. Si A 2 C nn es igual a su
traspuesta conjugada, A D B D A H , bij D aNj i , se dice hermtica.
Una matriz A se dice definida positiva si x T Ax > 0 para todo vector x 0.
De forma similar se definen matrices semidefinida positiva, definida negativa y
semidefinida negativa, si x T Ax  0, < 0 y  0, respectivamente, para todo
vector x 0. La matriz A se dice indefinida si x T Ax es positivo para algn x
7 Pues

suele corresponder con la energa fsica de ciertos sistemas.


21

4 Matrices

y negativo para otros. Tambin A 2 C nn se dice definida positiva si para todo
x 2 C n ; x 0, se cumple que x H Ax > 0.
Si A 2 Rnn es simtrica y definida positiva se puede descomponer de la
formaA D QDQT donde Q es una matriz ortogonal y D, diagonal, tiene to1
1
dos sus coeficientes positivos por lo que A 2 D QD 2 QT satisfacindose que
1
1
A 2 A 2 D A.
Se dice que una matriz A 2 C nn de coeficientes aij es de diagonal dominante
por filas cuando cumple que
jai i j 

n
X

j D1;j i

jaij j;

i D 1; : : : ; n:

Anlogamente, se dice diagonal dominante por columnas si


jai i j 

n
X

j D1;j i

jaj i j;

i D 1; : : : ; n:

Si las desigualdades se verifican estrictamente la matriz A se denomina diagonal


estrictamente dominante.
Lema 4.1 Para que una matriz simtrica sea definida positiva es necesario que
todos los coeficientes de la diagonal principal sean positivos.
Lema 4.2 Para que una matriz simtrica A sea definida positiva es necesario
que el coeficiente de mayor valor absoluto est en la diagonal principal. Ms
concretamente,
mKax jaij j < mKax akk :
i j

Lema 4.3 Si en cada fila de una matriz simtrica A el coeficiente de la diagonal principal es mayor que la suma de los valores absolutos de todos los dems
coeficientes de la fila, es decir, si
akk >

n
X
j D1

jakj j

k D 1; : : : ; n;

j k

A es definida positiva.
Es importante destacar que este ltimo
h 3 criterio
i define una condicin suficiente,
22
no necesaria. En efecto, la matriz Q D 2 3 2 es definida positiva pues
223

x T Qx D x12 C x22 C x32 C 2.x1 C x2 C x3 /2 ;


22

4 Matrices

cualquiera que sea x 0, es siempre positiva. Esa matriz, sin embargo, no satisface el lema 4.3.
Una matriz de Vandermonde por Alexandre-Thophile Vandermonde, Francia 1735-1796 es una matriz que presenta una progresin geomtrica en cada
fila; como esta:
2
3
1 1 12 : : : 1n 1
6 1 2 22 : : : 2n 1 7
6
7
2
n 17
6
V D 6 1 3 3 : : : 3 7 :
6: : : :
: 7
4 :: :: :: : : :: 5
1 n n2 : : : nn

Una matriz de Hankel por Hermann Hankel, Alemania 1839-1873 es una


matriz cuadrada con todas sus diagonales de derecha a izquierda paralelas numricamente. Es decir, tiene la forma
3
2
a b c d e
6b c d e f 7
6
7
H D 6c d e f g 7 :
4d e f g h 5
e f g h i

Una matriz de Hessenberg por Karl Adolf Hessenberg, Alemania 19041959 es una matriz triangular excepto por una subdiagonal adyacente a la diaUnaprincipal.
matriz de Hessenberg por Karl Adolf Hessenberg, Alemania 1904-1959 es una
gonal
cepto
por
una
subdiagonal
la de
diag
Cualquier
matriz se adyacente
puede reducir a ala forma
Hessenberg mediante transformaciones ortogonales
Cualquier matriz
se puede
reduciroriginal
a la forma
de Hessenb
de Householder
o Givens.
Si la matriz
es si@
@
formaciones
ortogonales
de Householder
o se
Givens.
mtrica,
al reducirla
a la forma
de Hessenberg
ob- Si la m
@
mtrica,
al reducirla a la forma de Hessenberg se obtendr
tendr
una
tridiagonal.
@
denominaproyector
proyectoro omatriz
matrizdedeproyeccin
proyeccina a una m
SeSedenomina
@
@
unaverifica
matriz que
P 2PR2nn
queSiverifica
que P
D P. Si P
D P.
P adems
es2simtrica,
se denomi
@
adems
es
simtrica,
se denomina
proyector
ortogonal
nal
o
matriz
de
proyeccin
ortogonal.
Si,
en
este
ltimo
caso
@
T
o
matriz
de
proyeccin
ortogonal.
Si,
en
este
ltimo
imagen
de
la
matriz
P
(el
mismo
que
el
de
la
matriz
P
), P
@
caso,
es el subespacio
imagen
deFla. matriz P (el
cinF ortogonal
del vector
x sobre
T
mismo
que el deproyector
la matriz P
), Px definedelaPproyeccin
ortogonal
x D Im.
Se denomina
suplementario
al proyector
S D Idel vector
P. Si F
sobre F . F D ker.S/ y G D Im.S/.
entonces
Seeldenomina
proyector
suplementario
proyector
S D Ise tiene
P. Sique
F D
En
caso de un
proyector
ortogonal Pde
enPelalque
F D Im.P/,
Rn D F
Im.P/
y
G
D
ker.P/,
entonces
F
D
ker.S
/
y
G
D
Im.S
/.
que kPxk2  kxk2 y que
En el caso de un proyector ortogonal
P en el
que F
que
kx Pxk
mKnD Im.P/,
kx se
yktiene
2 D
2:
Rn D F F ? , verificndose que kPxk2  kxk2 y2
y que
Im.P /DF

kx

Pxk2 D

mKn

kx

yk2 :

4.3 Valores propios, valores singulares


y formas cuadrticas
y2Im.P /DF

23
4.3.1 Valores propios
Si A es una matriz cuadrada de orden n y coeficientes en K (R o C), un vector no nulo u
vector propio de A si para algn  2 K se cumple que

4 Matrices

4.3 Valores propios, valores singulares y formas cuadrticas


4.3.1 Valores propios
Si A es una matriz cuadrada de orden n y coeficientes en K (R o C), un vector
no nulo u 2 Kn se denomina vector propio de A si para algn  2 K se cumple
que
Au D u :
A este  se le denomina valor propio o autovalor de la matriz A. El conjunto de
los valores propios de una matriz A se denomina espectro de A, designndose por
.A/. El radio espectral, .A/, se define de la siguiente manera:
.A/ D mKax ji j:
1i n

Para que un nmero  sea valor propio de A, el sistema lineal y homogneo de


ecuaciones dado por .I A/x D 0 debe tener soluciones distintas de la trivial
x D 0. Esto equivale a que
det.A

I/ D 0 :

Esta es una ecuacin polinmica de grado n en  que se denomina ecuacin caracterstica, o polinomio caracterstico, de la matriz A. La ecuacin caracterstica
admite la raz  D 0 si y slo si det.A/ D 0. Una matriz es invertible, por tanto,
si y slo si no admite al cero como vector propio.
Para que exista una solucin distinta de la trivial x D 0, el valor propio 
deber ser raz del polinomio caracterstico de grado n asociado a A, esto es
det.A I/ D 0. Lo que es igual a n C g1 n 1 C g2 n 2 C    C gn D 0:
El Teorema fundamental del lgebra establece que cada ecuacin polinmica
de grado n, con coeficientes complejos, tiene n races en el cuerpo de los complejos.
La multiplicidad algebraica del valor propio  de A es la multiplicidad de la
raz correspondiente del polinomio caracterstico asociado a A. La multiplicidad
geomtrica de  es el nmero de vectores propios linealmente independientes que
se corresponden con . La multiplicidad geomtrica de un valor propio es menor
o igual que su multiplicidad algebraica.
Por ejemplo, si A D I,  D 1 es un valor propio con multiplicidad algebraica
y geomtrica n. El polinomio caracterstico de A es p.z/ D .z 1/n y ei 2 C n ,
i D 1; : : : ; n, sus vectores propios. Si el valor propio  tiene una multiplicidad
geomtrica menor que la algebraica, se dice defectuoso. Se dice que una matriz es
defectuosa si tiene al menos un valor propio defectuoso. La matriz
2
3
210
40 2 15
002
24

4 Matrices

tiene un valor propio, 2, de multiplicidad algebraica 3 y multiplicidad geomtrica


1; u D 100T . Si una matriz A 2 C nn no es defectuosa, dispone de un conjunto
de n vectores propios linealmente independientes.
Un resultado interesante debido a dos matemticos del siglo XIX, Arthur Cayley, britnico, 1821-2895, y William Rowan Hamilton, irlands, 1805-1865, dice
que cualquier matriz A 2 C nn satisface su propia ecuacin caracterstica. Es
decir,
A n C g1 A n 1 C g2 A n 2 C    C gn I D 0:

Si A es invertible, como consecuencia de ello,


A

1 n
A
gn

g1 n
A
gn



gn 1
I:
gn

A partir del teorema de Cayley-Hamilton tambin es fcil comprobar que exis1


te un polinomio
1 p
 de grado mximo n 1 tal que A 2D p.A/. Como ejem2
plo, la matriz 3 4 tiene como polinomio caracterstico x
5x 2. El teorema
de Cayley-Hamilton dice que A 2 5A 2I D 0, lo cual se puede comprobar
inmediatamente. La inversa de A se puede obtener de esta ecuacin a partir de
A .A 5I/ D 2I. En efecto, A 1 D 21 .A 5I/.
Para A 2 C nn y 0 b 2 C n1 , al subespacio
Kj .A; b/ D Genfb; Ab; : : : ; A j

bg

se le denomina subespacio de Krylov.


Igual que cualquier matriz tiene asociado un polinomio caracterstico, cualquier polinomio tiene asociado una matriz compaera. La matriz compaera de un
polinomio mnico8 p.t / D c0 C c1 t C    C cn 1 t n 1 C t n es
2
3
0 0 ::: 0
c0
c1 7
61 0 : : : 0
C .p/ D 6
0
1
:
:
:
0
c2:7
:
:
:
4 : : :: :
::5
: : : :
0 0 : : : 1 cn 1

Los valores propios de esta matriz C .p/ son las races del polinomio p.t /. El
polinomio mnimo q.t / de una matriz A es el polinomio mnico nico de grado
mnimo tal que q.A/ D 0.
Una matriz real de orden n no tiene necesariamente valores propios reales pero,
como consecuencia del teorema fundamental del lgebra, cualquier matriz compleja tiene al menos un valor propio complejo. El nmero mximo de valores propios
es n.
8 Un

polinomio a0 C a1 x C a2 x 2 C : : : C an x n se dice que es mnico si an D 1.


25

4 Matrices

Al aplicrsele a cualquier vector la transformacin que representa A ese vector


tiende a orientarse en la direccin del vector propio dominante de A. Si aquel
vector est en la direccin de alguno de los vectores propios de A, se expande o
contrae
 por
 un factor que determina el correspondiente valor propio. La matriz
A D 21 12 tiene como valores propios 3 y 1. Los vectores propios asociados son
1 1T y 1 1T . El efecto de aplicarla sobre distintos vectores se puede ver en la
figura 4.6: en magenta y azul los vectores propios; otros en rojo.

Figura 4.6: Efecto de


a diversos vectores la transformacin que repre aplicrsele

senta la matriz A D 21 12
Siendo  un valor propio de una matriz A, el conjunto de soluciones del sistema de ecuaciones
.I A/x D 0

es un subespacio de Kn que se denomina subespacio propio asociado al valor


propio , designndose con E . Si n es la multiplicidad de  como raz de la
ecuacin caracterstica de A, se cumple que
dim.E /  n :
La interseccin de subespacios propios correspondientes a valores propios distintos se reduce al subespacio nulo; esto es   H) E \ E D ;.
L De este modo, nla suma de subespacios propios es directa. Se cumple que
2.A/ E D K si y slo si para cada  2 .A/, dim.E / D n ; en ese
caso existe una base de Kn formada toda ella por vectores propios de A.
El teorema central en el estudio de los mtodos y algoritmos numricos para
el clculo y anlisis de valores y vectores propios es el de la descomposicin de
Schur por Issai Schur, Alemania 1875-1941.
26

4 Matrices

Teorema 4.4 Descomposicin o triangularizacin de Schur Para cualquier A 2


C nn existe una matriz unitaria U y una matriz triangular superior, T , tal que
AU D U T o U H AU D T .
Los valores propios de A son los coeficientes de la diagonal principal de R.
Teorema 4.5 Para cualquier matriz hermtica A 2 C nn existe una matriz unitaria U tal que
U H AU D D,
donde D es una matriz diagonal.
1. Los valores propios de A son nmeros reales.
2. Se pueden obtener vectores propios de A que sean ortonormales.
En este caso se dice que la matriz A es semejante a una matriz diagonal: la matriz A es diagonalizable por semejanza. Dos matrices semejantes tienen el mismo
polinomio caracterstico y los mismos valores propios. Una matriz A 2 C nn es
normal, es decir AA H D A H A, si y slo si A D U U H , donde U es una
matriz unitaria y una diagonal cuyos coeficientes son los valores propios de A.
Los vectores propios son los vectores columna de U .
Toda matriz real y simtrica tiene todos sus valores propios reales y es diagonalizable por semejanza. Se demuestra adems que los subespacios propios correspondientes a valores propios distintos son ortogonales. De aqu se sigue que
es siempre posible formar una base ortonormalizada de vectores propios para una
matriz real y simtrica A. Existe entonces una matriz ortogonal Q tal que verifica
QT AQ D D, con QT D Q 1 y, de aqu que, toda matriz real y simtrica es
congruente ortogonal con su reducida diagonal. Este resultado fundamental de la
teora de matrices es la versin para matrices simtricas del denominado Teorema
espectral. Da lugar a la Descomposicin espectral de A.
Teorema 4.6 Descomposicin de Jordan Para una matriz A 2 C nn existe una
1
matriz regular X 2 C nn tal que
2 X AX D3diag.J 1 ; : : : ; J k / donde
i 1
6  1 0 7
i
6
7
ni ni
Ji D 6
 7
6
72C
4 0
5
 1
i
y n1 C    nk D n. Las J i son las matrices o bloques de Jordan y los i los
valores propios de A.
Una matriz simtrica definida positiva tiene todos sus valores propios reales
y positivos; si es semidefinida, alguno es cero. Si la matriz es negativa definida,
27

4 Matrices

todos sus valores propios son negativos.


Si A es hermtica, el producto x H Ax es un nmero real. Los valores propios
de una matriz hermtica, en consecuencia, son nmeros reales. En una matriz hermtica los vectores propios correspondientes a dos valores propios distintos son
ortogonales entre s.
Un resultado importante para averiguar el orden de magnitud de los valores
propios de una matriz es el que sigue.
Teorema 4.7 Gersgorin Los valores propios de una matriz A 2 C nn se encuentran en la unin de los n discos de Gershgorin, cada uno de los cuales est
centrado en akk , k D 1; : : : ; n, y tiene de radio
rk D

n
X
j D1

jakj j

j k

D EMOSTRACIN . Sea  un valor propio de A y x su vector propio asociado. De


Ax D x y .I A/x D 0 se tiene que
.

akk /xk D

n
X

akj xj ;

j D1

k D 1; : : : ; n;

j k

donde xk es el componente k-simo del vector x.


Si xi es el coeficiente de x ms grande en valor absoluto, como jxj j=jxi j  1
para j i , se tiene que
j

ai i j 

n
X
j D1

jxj j X

jaij j:
jxi j
n

jaij j

j i

j D1

j i

Luego  est contenido en el disco f W j

ai i j  ri g.

4.3.2 Valores singulares


La nocin de valor propio, o autovalor, no tiene significado para matrices rectangulares. En stas, por el contrario, si lo tiene, como en las cuadradas, el concepto de valor singular. Si A es una matriz cualquiera m  n con coeficientes en
R, se definen sus valores singulares i ; i D 1; : : : ; mKnfm; ng, como las races
cuadradas positivas de los valores propios de la matriz cuadrada A TA 2 Rnn .

28

4 Matrices

Teorema 4.8 Descomposicin en valores singulares Si A 2 Rmn es una matriz


de rango r existen matrices ortogonales U 2 Rmm y V 2 Rnn tales que
A D U V T ,
h
i
donde D r 0 , 2 Rmn y r D diag.1 , 2 ; : : : ; r /, con 1  2 
0 0
    r > 0. Si las matrices U y V se escriben como U D u1 ; : : : ; um y
V D v1 ; : : : ; vn , los ui y vi son los vectores singulares izquierdos y derechos,
respectivamente, correspondientes a los valores singulares i , i D 1; : : : ; r.
D EMOSTRACIN . Sean x 2 Rn e y 2 Rm dos vectores tales que
kxk2 D kyk2 D 1

Ax D  y;

con

 D kAk2 :

La existencia de estos vectores x e y est garantizada por la definicin de kAk2 .


Sean las dos matrices ortogonales
V D x V 1 2 Rnn

U D y U 1 2 Rmm

(siempre es posible ampliar un conjunto de vectores ortogonales hasta formar una


base ortonormal de Rn ). Como U T1 Ax D  U T1 y D 0, la matriz U T AV tiene la
siguiente estructura:
"
#
"
#
yT
 wT
T
A1 D U AV D
A x V 1 D
;
U T1
0 B
.m 1/.n 1/
T
T
donde B D U T1 AV 1 2 R
h
i y w D y AV 1 .


2
T

w   2 C wT w, como
k2 D  Cw
Dado que kA1 w
Bw
2



k2 D kA1 k2
k2  kA1 k2 k w
kA1 w

2
 2 C wT w ;

se cumple que kA1 k2  . 2 C wT w/1=2 . Como las matrices U y V son ortogonales, kA1 k2 D kAk2 D  y por consiguiente w D 0. La argumentacin de la
demostracin se completa por induccin.
La matriz A mn D U V T , de rango r, se puede escribir como la suma de r
matrices de rango uno as
r
X
AD
i ui viT ;
i D1

donde los ui y vi son los vectores columna i-simos de U y V .


La mejor aproximacin de A de rango p  r, en el sentido de mnimos cuadrados, se obtiene de la suma de los primeros p trminos de esta ltima suma. Por
29

4 Matrices

ejemplo de Sauer [2013], el mejor subespacio de dimensin uno de los puntos


3; 2, 2; 4, 2; 1 y 3; 5 en el sentido de mnimos cuadrados se obtiene de


3
2
2
3
AD
D U V T
24 1 5
"
#
0;5327 0;2398 0;7014
 0;5886 0;8084  8;2809 0 0 0  0;4085
0;6741 0;3985 0;5554 0;2798
D 0;8084 0;5886
0
1;8512 0 0
0;5743 0;1892 0;7924 0;0801 :
0;2212

0;7223

0;0780

0;6507

Como p D 1, la mejor aproximacin de A es u1 D 0;5886; 0;8084. Del sumatorio anterior, haciendo 2 D 0,


"
#
0;4085 0;5327 0;2398 0;7014
 0;5886 0;8084  8;2809 0 0 0  0;6741
0;3985 0;5554 0;2798
A1 D 0;8084 0;5886
0;5743 0;1892 0;7924 0;0801
0
000
D

 1;9912 2;5964
2;7364 3;5657

1;1689
1;6052

3;4188
4;6951

0;2212

0;7223

0;0780

0;6507

El proceso
se esquematiza
R 12 Eigenvalues
and Singular
Values en la figura 4.7.

(a)
Figura 4.7: Proyeccin
de cuatro vectores en el subespacio (b)
de dimensin uno que
mejorFigure
los representa:
recta
de
trazos
12.4 Dimension reduction by SVD. (a) Four data vectors to be projected to
best one-dimensional subspace. (b) The dotted line represents the best subspace. The

Dada
la descomposicin
en valores
singulares
desubspace.
A, de rango r, los vectores
arrowheads
show the orthogonal
projections
down to the
singulares a la izquierda fu1 ; : : : ; ur g conforman una base ortonormal de Im.A/T y
p = 1 ;means
setting s2 = 0 and reconstituting the matrix.
In other words, A1 = U S1 V ,
T
fu
rC1 : : : ; um g otra base ortonormal de ker.A /. Igualmente, fvrC1 ; : : : ; vn g es
where
T
una base ortonormal de ker.A/ yfv1 ; : : : ; vr g una base
 ortonormal de Im.A /.
8.2809
0
0
0
Los valores singulares de
= son las longitudes de. los semiejes del hiperelipS1 A
0
soide E definido, a partir de la esfera 0unidad0 y 0el operador
A, por
Thus, the columns of
A1 =

E D fy W y D Ax; kxk2 D 1g :

1.9912 2.5964 1.1689 3.4188
2.7346 3.5657 1.6052 4.6951
30

(12.34)

are the four projected vectors corresponding to the original four data vectors. They are
shown in Figure 12.4(b).


4 Matrices

Ax
Ax

Figura 4.8: Representacin en dos dimensiones de una transformacin lineal de la


esfera unidad
En la figura 4.8 se describe grficamente el caso en que m D n D 2.
El nmero de condicin de una matriz es la relacin entre sus valores singulares
mayor y menor. Una matriz se dice mal condicionada si ese nmero es grande o
muy grande. Una matriz singular tiene un nmero de condicin infinito.
Si A es una matriz n  n, j det.A/j D 1  2    n . Para una matriz A 2 Rmn
cuya descomposicin en valores singulares es A D U V T , se define su matriz
pseudoinversa, A , como
A D V U T ;
donde

D diag.1 1 ; : : : ; r 1 ; 0; : : : ; 0/ 2 Rnm :
 1 T
A ; si m < n,
Si A 2 Rmn es de rango completo y m > n, A D A T A
 1

T
T
A D A AA
.
Para cualquier matriz A 2 Rmn , la matriz A A es la matriz n  n de proyeccin ortogonal sobre el subespacio de los vectores fila de A, AA la m  m de
proyeccin ortogonal sobre la imagen de la matriz A (subespacio de sus vectores
columna) y .I A A/ la de proyeccin ortogonal sobre el ncleo de A, ker.A/.
4.3.3 Formas cuadrticas
Una forma cuadrtica en n variables es un polinomio de segundo grado en esas
variables. La expresin ms general de una forma cuadrtica es
q.x/ D x T Qx ;
31

4 Matrices

donde Q D QT es una matriz simtrica de orden n. Nos limitaremos al anlisis


de formas cuadrticas con coeficientes reales.
Mediante una transformacin lineal de variables, x D T y, una forma cuadrtica se puede reducir a la forma cannica de suma de cuadrados siguiente:
q.x/ D

p
X

yi2

pCq
X

yi2 :

i DpC1

iD1

El rango de la forma es p C q y la signatura p q (p nmeros positivos y q


negativos).
Una forma cuadrtica real es definida positiva si para todo vector x 0,
q.x/ > 0. El rango y signatura de una forma cuadrtica definida positiva valen
n. Si Q la forman los coeficientes qij y se introducen los nmeros menores como
2
3
q11 q12    q1i
6q21 q22    q2i 7
7
i D det 6
4 ::: ::: : : : ::: 5 ;
qi1 qi 2    qi i

la forma cuadrtica asociada a Q es definida positiva si y slo si todos los menores


i son positivos.
Sean 1 ; : : : ; n los valores propios que sabemos son reales de la matriz
Q. Por el teorema espectral, existe una matriz ortogonal P tal que P T QP D
diag.1 ; : : : ; n /. Haciendo en la forma cuadrtica q.x/ D x T Qx el cambio de
variables x D Py, se tiene que
q.x/ D y T P T QPy D 1 y12 C    C n yn2 ;
por lo que el rango de la forma cuadrtica es el nmero total teniendo en cuenta
las multiplicidades de valores propios no nulos de Q, mientras que la signatura
coincide con la diferencia entre los nmeros de valores propios positivos y negativos. En particular, la forma cuadrtica asociada a Q es definida positiva si y slo
si todos los valores propios de Q son positivos.
En ciertos casos es importante acotar el cociente de una forma cuadrtica al
cuadrado de la norma eucldea, es decir, el cociente
r.x/ D

x T Qx
;
xT x

x 0:

Mediante una transformacin ortogonal x D Py, este cociente se escribe como


r.x/ D

1 y12 C    C n yn2
;
y12 C    C yn2
32

5 Teorema de la proyeccin

de manera que se deducen las acotaciones


mi n .Q/ 

x T Qx
 max .Q/ :
xT x

Estas acotaciones no se pueden mejorar ya que si Qv D v,

vT Qv
vT v

D .

5 Teorema de la proyeccin

RAN parte de las teoras de sistemas de ecuaciones y de optimizacin estn


basadas en unos pocos resultados simples e intuitivos. Entre estos, quizs el
ms sencillo y usado sea el teorema de la proyeccin. Su aplicacin en la teora de
mnimos cuadrados lineales es fundamental. En un espacio Eucldeo ordinario de
tres dimensiones determina que la distancia ms corta de un punto exterior a un
plano a ese plano la proporciona la perpendicular al plano desde dicho punto. La
expresin formal de este teorema en espacios de Hilbert es la que sigue.
Teorema 5.1 Sea H un espacio de Hilbert y M un subespacio cerrado de H .
Para todo vector x 2 H existe un nico vector m0 2 M tal que kx m0 k2 
kx mk2 , para todo m 2 M . La condicin necesaria y suficiente adems para
que m0 2 M sea el vector mnimo nico es que x m0 sea ortogonal a M .
D EMOSTRACIN . Primero probaremos que si m0 es un vector que minimiza kx
mk, x m0 es ortogonal a M . Supongamos para ello, por el contrario, que existe
un m que no es ortogonal a x m0 ; sin prdida de generalidad podemos suponer
que kmk D 1 y que hx m0 jmi D 0. Definamos el vector m1 2 M como
m1 D m0 C m. Tendremos que
kx

m1 k22 D kx
D kx

D kx

mk22

m0
m0 k22

m0 k22

hx

m0 jmi

jj < kx

hmjx

m0 k22 :

m0 i C jj2

De esta manera, si x m0 no es ortogonal a M , m0 no es el mnimo que decamos.


Veamos ahora cmo, si x m0 es ortogonal al subespacio M , m0 es el nico
vector de M que minimiza kx mk2 . En efecto, para todo m 2 M , el teorema de
Pitgoras dice que
kx

mk22 D kx

Por lo tanto kx

m0 C m0

mk2 > kx

mk22 D kx

m0 k2 para m m0 .
33

m0 k22 C km0

mk22 :

6 Funciones

Demostraremos ahora la existencia de un m0 que minimiza kx mk2 . Si x 2


M , entonces m0 D x y todo estara probado como es obvio. Si x M , definamos
un D Knfm2M kx mk2 ; lo que queremos es obtener un m0 2 M tal que
kx m0 k2 D .
A tal fin, sea fm.i/ g una sucesin de vectores en M tal que kx m.i / k2 ! .
Por la ley del paralelogramo9 se tiene que
.j /
.m

x/ C .x

2
m.i / / 2 C .m.j /


2 m.j /

Reordenando, se obtiene

.j /
m

.x

x/

2
.i/



m D2 m.j /
2

2



x C2 x
2

2
m.i / / 2 D

2

x 2 C 2 x

2
.i /




4 x

2
m.i / 2 :

2
m.i / C m.j /

:

2
2

Para todo i; j , el vector .m.i / Cm.j / /=2 est en M pues ste es un espacio vectorial
(lineal). De la definicin de se deduce que kx .m.i / C m.j / /=2k2  , por lo
que
2


2
2


.j /




m.i /  2 m.j / x C 2 x m.i /
4 2 :
m
2

Como km
! cuando i ! 1, km
! 0 cuando i; j ! 1.
Es decir, fm.i/ g es una sucesin de Cauchy; como M es un subespacio cerrado, la
sucesin fm.i/ g tiene un lmite m0 en M y, debido a la continuidad de la norma,
kx m0 k2 ! .
.i/

xk22

.j /

m.i / k22

El teorema de la proyeccin pone en evidencia que la solucin del problema


minimizar ktx
t

yk

es el vector proyeccin ortogonal de y sobre x: t x en la figura 5.9.

6 Funciones

ECORDEMOS que una funcin es un caso particular de aplicacin donde


los conjuntos origen e imagen son conjuntos de nmeros.
Una funcin f W Rn ! R se dice continua en x si para toda sucesin fx .k/ g que
9 Para

u, w 2 M , ju C wj2 C ju

wj2 D 2juj2 C 2jwj2 .


34

minimize (over t) t ktx yk




/ D 0:
es el vector proyeccin ortogonal de y sobre x: txrf
en.x
la figura.

T 2
r f .x  /d
 0:x
geometrically, tx is the projection of a vector Para
y ontodo
thed;
lined through
0 and

6 Funciones

Proposicin 8.5 (Condiciones suficientes de segundo orden) Sea f 2 C 2 un


x interior. Supngase adems que:
una regin en la cual x  es un punto

tx .x  / D 0:
rf

La matriz Hessiana r 2 f .x  / es definida positiva:

x  es entonces un mnimo relativo estricto de f .

9 Conjuntos convexos

Figuraconvexos
5.9: Solucin de minimizar t ktx
8 Conjuntos

yk

convexo
y slo
para todo
de puntos
C convexo
 R sesi dice
Un conjunto Un
C conjunto
Rn se dice
y slo
si para si
todo
par desi puntos
x1 ; xpar
2 2 C todas l
.k/
.k//x2 , con 0    1,
1-20
combinaciones
de
la
forma
x
D
x
C
.1
estn
en C
1
converge
a x (expresado
x x!Dx),
!estn
f .x/.
combinaciones
de la forma
x1se
C cumple
.1 /x2que
, conf0.x
  / 1,
en CDe
. Esforma
decir, cuando
pa
cada
par
de
puntos
del
conjunto
convexo,
todos
los
puntos
de
la
recta
que
los
un
cada
par
de
puntos
del
conjunto
convexo,
todos
los
puntos
de
la
recta
que
los
une
estn
en
el
conjunt
equivalente, f se dice continua en x si dado un " > 0, existe un > 0 tal que
n

Vectors

ky

xk < H) kf .y/

f .x/k < " :

Una funcin f W R ! R tiene como derivada la funcin


f 0 .x/ D

df .x/

D lKm

Conjuntodx
convexo h!0

f .x C h/ f .x/
;
h Conjunto no convexo

La expresin
x D x
.1 /x2f, 0que
 esderivable
1, define laen
combinacin
convexa
de x1 y x2 .
1 C funcin
supuesto ese
lmite existe.
Una
un punto x
D a es
0 <  < 1, es decir

2
.0;
1/,
la
combinacin
se
denomina
estrictamente
convexa.
La expresin x D x1 C .1 /x2 , 0    1, define la combinacin c
continua en a.
El concepto
de combinacin
convexa
se 1/,
puede
generalizar a cualquier
nmero
finito de puntos
< 1,
satisface
2 .0;
combinacin
denomina
estrictamente
con
Una funcin
f0 W<
R!
R es
sedecir
dice
lala condicin
dese
Lipschitz
con
consla siguiente manera:
p
tante en un conjunto X, si para todo x e y pertenecientes
a X 25
se cumple que
X
donde

xD

jf .x/

i xi ;

f .y/j  jxi D1 yj:

X
Una funcin que satisface la condicin
X se dice
i D de
1; Lipschitz
i  0; ien
D un
1; : :conjunto
: ; p:
continua -Lipschitz en ese X, designndose
f 2 Lip .X /.
i D1
n
Dada una
normainterseccin
vectorial kde ktodos
en Rlos
y otra matricial
 k en
Rmn a, m;
n > 0, S  R
El conjunto
conjuntos
convexoskque
contienen
un subconjunto
n
mn
una funcin
g envoltura
W R !
R de Ssey dice
satisface
la condicin de Lipschitz con
se llama
convexa
se designa
por conv.S/.
constante en un abierto D  Rn , si para todo x e y pertenecientes a D se
23
cumple que
kg.x/ g.y/k  kx yk:
p

Una funcin g que satisface la condicin de Lipschitz en D se dice continua Lipschitz en ese D, designndose g 2 Lip .D/.
Un resultado muy interesante referido a funciones continuas es el teorema de
Weierstrass, que dice que una funcin continua definida en un conjunto compacto
S tiene un punto donde alcanza un mnimo en S . Es decir, existe un x  2 S tal
que para todo x 2 S , f .x/  f .x  /.
35

6 Funciones

Un conjunto de funciones f1 ; f2 ; : : : ; fm de Rn en R se puede considerar como


una funcin vectorial
f D f1 ; f2 ; : : : ; fm T :

Esta funcin asigna a todo vector x 2 Rn otro vector f .x/ D f1 .x/; f2 .x/; : : : ;
fm .x/T de Rm . Tal funcin vectorial se dice continua si lo es cada uno de sus
componentes f1 ; f2 ; : : : ; fm .
Si cada una de las funciones de f D f1 ; f2 ; : : : ; fm T es continua en algn
conjunto abierto de Rn , se dice f 2 C . Si adems cada funcin componente tiene
derivadas parciales de primer orden continuas en ese abierto, se dice que f 2 C 1 .
En general, si las funciones componentes tienen derivadas parciales de orden p
continuas, se indica f 2 C p .
Si f W Rn ! R y f 2 C 1 , se define el vector gradiente de f como el vector


@f .x/ @f .x/
@f .x/
rf .x/ D
;
;:::;
@x1
@x2
@xn

T

Tambin se puede ver expresado alguna vez como fx .x/.


Si f 2 C 2 , se define la matriz Hessiana de f en x por Ludwig Otto Hesse,
Alemania 1811-1874 como la matriz n  n
2 2
3
@ f .x/ @2 f .x/
@2 f .x/

6 @2 x
@x1 @x2
@x1 @xn 7
6
7
1
7
6 2
2
6 @ f .x/ @ f .x/
@2 f .x/ 7
6
7



2
r 2 f .x/ D 6
@x2 @xn 7
6 @x2 @x1 @ x2
7:
::
::
::
6
7
::
6
7
:
:
:
6 2 :
7
4 @ f .x/ @2 f .x/
@2 f .x/ 5

@xn @x1 @xn @x2
@2 xn

A esta matriz tambin se la puede ver designada como F .x/.


Para la funcin vectorial f D f1 ; f2 ; : : : ; fm T , f 2 C 1 , se define la matriz
Jacobiana por Carl Gustav Jacob Jacobi, Alemania 1804-1851 como la matriz
mn
3
2
@f1 .x/
@f1 .x/ @f1 .x/



6 @x1
@x2
@xn 7
7
6
7
6 @f2 .x/ @f2 .x/
@f
2 .x/ 7
6

7
6
@x2
@xn 7 :
rf .x/ D J .x/ D 6 @x1
7
6
:
:
:
:
::
::
::
::
7
6
7
6
4 @fm .x/ @fm .x/
@fm .x/ 5

@x1
@x2
@xn
36

6 Funciones

Si f 2 C 2 , es posible definir m Hessianas F1 .x/; F2 .x/; : : : ; Fm .x/ para cada


una de las f1 ; : : : ; fm .
Una funcin f W Rn ! Rm es afn si es la suma de una funcin lineal y una
constante; es decir, tiene la forma f .x/ D Ax C b, donde A 2 Rmn y b 2 Rm .
Teorema 6.1 Teorema de Taylor Si f W Rn ! R y f 2 C 1 en una regin que
contiene el segmento x1 ; x2 , es decir puntos x1 C .1 /x2 ; 0    1, existe un , 0    1, tal que f .x2 / D f .x1 / C r T f x1 C .1  /x2 .x2 x1 /:
Adems, si f 2 C 2 , existe un ; 0    1, tal que
 f .x2 / Df .x1 / C
r Tf .x1 /.x2 x1 / C 21 .x2 x1 /TF x1 C .1  /x2 .x2 x1 /; donde F
denota la matriz Hessiana de f .
Si la funcin f W R ! R es continua y derivable k C 1 veces en un intervalo, o
segmento, x; x0 , existe un b entre x y x0 tal que
 f 00 .x0 /
2 f 000 .x0 /
x0 C
x x0 C
x
2
3
k f .kC1/ .b/
kC1
f .k/ .x0 /
x x0 C
x x0
:
C C
k
.k C 1/

f .x/Df .x0 /Cf 0 .x0 / x

x0

3

Las aproximaciones por este teorema para una funcin concreta, sen.x/, se
pueden ver en la figura 6.10.

Figura 6.10: Funcin sen.x/ y, en x D 0, las aproximaciones por Taylor de primer


orden, de orden 3, 5, 7, 9, 11 y 13
37

6 Funciones

7.4 Convex and Concave Functions

193

Una funcin f W Rn ! R se dice convexa (figura 6.11) si cumple que f .x C


y/  f .x/ C f .y/ para todo x; y 2 Rn y todo ; 2 R, con C D 1,
 0,  0. Si S  Rn es un conjunto convexo y f W Rn ! Rm es una funcin
afn, la imagen de f .S / D ff .x/ W x 2 S g es un conjunto convexo. De forma
similar, si f W Rk ! Rn es una funcin afn, la imagen inversa f 1 .S / D fx W
f .x/ 2 S g tambin es convexa.
y = f(x)

convex
(a)

Figura 6.11: Funcin convexa


f

Teorema 6.2 Teorema del valor intermedio Si f W R ! R es una funcin


continua en el intervalo a; b, toma todos los valores entre f .a/ y f .b/. Ms
concretamente, si y es un nmero entre f .a/ y f .b/, existe un nmero c dentro
de a; b, es20
decir,
tal que a 0c Fundamentals
 b, en el que f .c/ D y.
| CHAPTER

f (c)
y
x

convex
(b)
f

a c

b
(a)

Figura 6.12: Teorema del valor intermedio

b
(b)

Figure 0.1 Three important theorems from ca

andRbessuch
(a) f (c)
= y, for any given y
Teorema 6.3 Teorema del valor medio Si f W Ra !
unathat:
funcin
continua
the Intermediate
Value
Theorem
y derivable enel intervalo a; b, existe un nmero0.4,c entre
a y b tal que
f 0 .c/
D (b) the insta
(f (b) f (a))/(b a) by Theorem 0.6, the Mean
f .b/ f .a/ =.b a/.

region is equal in area to the horizontally shade

38

Value Theorem for Integrals, shown in the specia


x

THEOREMnonconvex
0.4 (Intermediate Value Theorem) Let f be a continu

0 Fundamentals

6 Funciones

f (c)

a c

f (c)

b
(a)

OREM 0.4

(b)
Figura 6.13: Teorema del valor medio

c
(c)

Figure 0.1 Three important theorems from calculus. There exist numbers
Teorema 6.4 Teorema de Rolle Si f W R ! R es una funcin continua y
a
such that:
(c) = y, forque
anyf given
y .b/,
between
f (a)
and f (b), by
derivableand
en elb intervalo
a; (a)
b yf suponemos
.a/ D f
existe un
nmero
0
0.4,
Intermediate
Theorem (b) the
instantaneous
slope of f at c e
c, entre
a ythe
b, tal
que f .c/ DValue
0. G ENERALIZACIN
Si f
es continua y derivable
n 1 veces
en
a;
b
y
la
derivada
de
orden
n
existe
en
el
abierto
.a;
b/,
y existen
(f (b) f (a))/(b a) by Theorem 0.6, the Mean Value Theorem
(c) the vert
n intervalos a1 < b1  a2 < b2  : : :  an < bn en a; b, tales que
region is equal in area to the horizontally shaded region, by Theorem 0.9, t
f .ak/ D f .bk/ para todo k D 1 : : : n, existe un nmero c en .a; b/ tal que la
Value
Theorem
Integrals,
derivada de orden
n de for
f en
c es cero.shown in the special case g(x) = 1.

(Intermediate Value Theorem) Let f be a continuous function on the int


f realizes every value between f (a) and f (b). More precisely, if y is a
f (a) and f (b), then there exists a number c with a c b such that f (

PLE 0.7 Show that f (x) = x 2 3 on the interval [1, 3] must take on the values 0

OREM 0.5

Because f (1)
= 2
and
f (3)de=Rolle
6, all values
Figura
6.14:
Teorema
between 2 and 6
1, must be taken on by f . For example, setting c = 3, note that f (c) =
Teorema 6.5
Primer
teorema del valor medio de las integrales Si f W R ! R es
secondly,
f (2)
= 1.
una funcin continua en el intervalo a; b, existe entonces al menos un nmero
c entre a y b tal que
Z b
(Continuous Limits) Let ff.x/
bedxa continuous
function in a neighborhood
D f .c/.b a/:

limn xn = x0 . Then

lim f39(xn ) = f


lim xn = f (x0 ).

In other words, limits may be brought inside continuous functions.

6 Funciones

f(c)

f (c)

b
(b)

Figura 6.15: Teorema

del (c)
valor

medio de las integrales

0.1 Three important theorems from calculus. There exist numbers c between

b such that: (a) f (c) = y, for any given y between f (a) and f (b), by Theorem
Teorema 6.6 Segundo teorema del valor medio de las integrales Si f W R ! R
Intermediate Value Theorem (b) the instantaneous slope of f at c equals
es
una funcin continua en el intervalo a; b y g W R ! R una funcin integrable
f (a))/(b a) by Theorem 0.6, the Mean Value Theorem (c) the vertically shaded
nohorizontally
cambia deshaded
signoregion,
en a;byb,
existe0.9,
entonces
s equal in areaque
to the
Theorem
the Meanun nmero c entre a y b tal que
heorem for Integrals, shown in the specialZ case g(x) = 1.
Z b
b

f .x/g.x/ dx D f .c/

g.x/ dx:

e Value Theorem) Let f be a continuous


a b]. Then
a function on the interval [a,
very value between f (a) and f (b). More precisely, if y is a number between
6.7 Si
f W aR !
es una
b), then thereTeorema
exists a number
c with
c R
b such
that funcin
f (c) = y.continuaen el intervalo a; b y

a  c  b, entonces

Z x
d
f .t / dt D f .x/
(x) = x 2 3 on the interval [1, 3] must takedx
on the
values 0 and 1.
c

ause f (1) = para


2 and
f (3)
= 6,
0 and
todo
x en
a;allb.values

between 2 and 6, including


ken on by f . For example, setting c = 3, note that f (c) = f ( 3) = 0, and
2) = 1.

Teorema 6.8 Integracin por partes Sean u.x/ y v.x/ funciones
reales continuas

con derivadas continuas. Entonces


Z
Z
Limits) Let f be a continuous function
in a neighborhood of x0 , and assume0
0
u
.x/v.x/
dx
D
u.x/v.x/
u.x/v .x/ dx:
= x0 . Then
lim f (xn ) = f


lim xn = f (x0 ).

6.1 Condiciones necesarias y suficientes de punto mnimo

words, limits may be brought inside continuous functions.

Se trata de definir condiciones necesarias y suficientes para determinar si dada

e Theorem) Let f be a continuously


differentiable
function on the interval
f W  ! R,  2 Rn , un
punto x  hace
mnima esa funcin.
there exists a number c between
a and b such that f (c) = (f (b) f (a))/

Un punto x 2  se dice que es un mnimo local dela funcin f W  ! R


si existe un  > 0 tal que f .x/  f .x / para todo x 2  a una distancia menor
que  de x  . Es decir, para todo x 2  tal que jx x  j < . Si f .x/ > f .x  /
ean Value Theorem
to fx(x)
interval
[1, 3]. menor que  de x  , se dice que x  es
para todo
2=
,x 2x3 on
x the
, a una
distancia
un theorem
mnimo is
local
de(1)
f =en2
.and f (3) = 6, there must
content of the
that estricto
because f

er c in the interval (1, 3) satisfying f (c) = (6 (2))/(3 1) = 4. It is easy



a c. Since f (x) = 2x, the correct c = 2.
40

t statement is a special case of the Mean Value Theorem.

orem) Let f be a continuously differentiable function on the interval [a, b],

6 Funciones

Teorema 6.9 Condiciones necesarias de primer orden Sea  un subconjunto de


Rn y una funcin f W  ! R, f 2 C 1 . Si x  en un mnimo local de f en ,
se cumple que rf .x  / D 0.

Si en x  se cumple que rf .x  / D 0, x  se denomina punto estacionario.


Teorema 6.10 Condiciones necesarias de segundo orden Sea  un subconjunto
de Rn y una funcin f W  ! R, f 2 C 2 . Si x  en un mnimo local de f en
, se cumple que rf .x  / D 0 y r 2 f .x  / es semidefinida positiva.
Teorema 6.11 Condiciones suficientes de segundo orden Sea  un subconjunto
de Rn y una funcin f W  ! R, f 2 C 2 . Si se cumple que rf .x  / D 0 y
r 2 f .x  / es definida positiva, x  en un mnimo local estricto de f en .
Teorema 6.12 Si f es convexa, cualquier mnimo local x  es un mnimo global
de f . Si adems f es derivable, cualquier mnimo local x  es un mnimo global.

6.2 Teorema de la funcin implcita


Teorema 6.13 Sea x0 D x01 ; x02 ; : : : ; x0n T un punto de Rn que satisface:

(a) Las m funciones fi 2 C p , i D 1; 2; : : : ; m, en algn entorno de x0 , para


alguna p  1.

(b) fi .x0 / D 0; i D 1; 2; : : : ; m:
(c) La
2

matriz Jacobiana 3 de la funcin


@f1 .x0 /
@f1 .x0 /

6 @x1
@x: m 7
6
7
::
::
::
6
7, es regular.
:
:
4 @fm .x0 /
@fm .x0 / 5

@x1
@xm

vectorial,

rf .x0 /

Entonces existe un entorno de xO 0 D x0mC1 ; x0mC2 ; : : : ; x0n T 2 Rn m tal


O
que para xO D xmC1 ; xmC2 ; : : : ; xn T en ese entorno existen funciones i .x/,
i D 1; 2; : : : ; m tales que:
(i) i 2 C p .

(ii) x0i D i .xO 0 /; i D 1; 2; : : : ; m.


O 2 .x/;
O : : : ; m .x/;
O x/
O D 0; i D 1; 2; : : : ; m.
(iii) fi .1 .x/;
Este teorema10 es muy til para respaldar la caracterizacin de puntos pti10 Sus

orgenes estn asociados a Newton, Leibnitz y Lagrange, aunque fue formulado por Cauchy
41

7 Optimizacin y Programacin Matemtica

mos en programacin matemtica con y sin condiciones, solucin de ecuaciones


lineales y no lineales y bastantes otras cuestiones.
Supngase que se tiene una funcin vectorial f W Rn ! Rm que cumple que
fi .x/ D 0, i D 1; 2; : : : ; m: El teorema de la funcin implcita estudia, si n m de
las variables son fijas, si el problema se puede resolver en m incgnitas. Es decir,
si x1 , x2 ; : : : ; xm se pueden expresar en funcin de las restantes n m de la forma
xi D i .xmC1 ; xmC2 ; : : : ; xn / ;
A las funciones i W Rn

i D 1; 2; : : : ; m:

! R, si existen, se las denomina funciones implcitas.

Ejemplo 6.1 Consideremos la ecuacin x12 C x2 D 0. Una solucin de la misma


es x1 D, x2 D 0. En un entorno de esta solucin, sin embargo, no hay funcin 
tal que x1 D .x2 /. En esta solucin no se cumple la condicin .c/ del teorema
u
de la funcin implcita. En cualquier otra solucin si existe dicha .
Ejemplo 6.2 Sea A una matriz m  n y considrese el sistema de ecuaciones
lineales Ax D b. Si A se estructura as, A D B; C , donde B es mm, entonces
se satisface la condicin .c/ del teorema de la funcin implcita si, y slo si, B
es regular. Esta condicin se corresponde con los requisitos y enunciados de la
teora de ecuaciones lineales. La funcin implcita se puede considerar como una
u
generalizacin no lineal de la teora lineal.

7 Optimizacin y Programacin Matemtica

A Optimizacin o Programacin Matemtica tiene por objeto el estudio del


problema
minimizar
f .x/
n
x2R

sujeta a

ci .x/ D 0;
cj .x/  0;

i 2 E;
j 2 I:

Las funcin objetivo f y las condiciones ci y cj son, en general, no lineales, continuas y tienen derivadas parciales continuas hasta al menos primer orden. Los
conjuntos E y I contienen los ndices de las condiciones que son de igualdad y
de desigualdad, respectivamente. El conjunto de puntos que satisfacen todas las
condiciones se denomina regin factible.
Para caracterizar las soluciones de estos problemas y definir sus algoritmos y
procedimientos de resolucin la optimizacin presta una atencin fundamental a
los conjunto convexos.
42

Examples of non-convex sets


Examples of convex sets
The union of two non-overlapping
A line segment is a convex set.
Non-convex
sets
can have
indent
7 Optimizacin
y Programacin
Matemtica

Fig. 4.9. Conve


with
pairs
of
joined by line se

Figura 7.16:
Conjuntos
convexos
izquierda; 
no convexos
derecha







Title Page
38 of 156

Title Page

Go Back

Full Screen

7.1 Conjuntos convexos


Un conjunto C  Rn se dice convexo si y slo si para todo par de puntos
x1 ; x2 2 C todas las combinaciones de la forma x D x1 C .1 /x2 , con
0    1, estn en C . Es decir, cuando para cada par de puntos del conjunto
convexo todos los de la recta que los une estn en el conjunto.
La expresin x D x1 C .1 /x2 , 0    1, define la combinacin convexa
de x1 y x2 . Si 0 <  < 1, es decir  2 .0; 1/, la combinacin se denomina
estrictamente convexa.
El concepto de combinacin convexa se puede generalizar a cualquier nmero
finito de puntos de la siguiente manera:
xD

donde

p
X

i xi ;

iD1

Optimizing a Convex Function Over a


Convex and a Non-Convex Set
iD1 i D 1, i  0, i D 1; : : : ; p.

Pp

f(x,y) = - x - y
ptimo local

ptimo global

Figura 7.17: Optimizacin (minimizacin) de f .x; y/ D


convexo y en otro que no lo es.
43

39

Close

y en un conjunto

of

156

7 Optimizacin y Programacin Matemtica

Figure 2.2 Some simple convex and nonconvex sets. Left. The hexagon,
which includes its boundary (shown darker), is convex. Middle. The kidney
El conjunto
todos
convexos
shaped setinterseccin
is not convex,desince
thelos
lineconjuntos
segment between
the que
two contienen
points in a un
the set S
shown
is not envoltura
contained in
the set. de
Right.
The square
subconjunto
 Rasn dots
se llama
convexa
S (figura
7.18)contains
y se designa
some boundary points but not others, and is not convex.

por conv.S /.

The convex hulls of two sets in R . Left. 2The convex hull of a


FiguraFigure
7.18: 2.3
Envoltura
convexa de dos conjuntos de R . La de la izquierda de 15
set of fifteen points (shown as dots) is the pentagon (shown shaded). Right.
puntos;The
la de
la derecha
conjunto
noset
convexo
convex
hull of de
the un
kidney
shaped
in figure 2.2 is the shaded set.

Un conjunto C  Rn se dice que es afn (tambin se dice que C es una variedad afn o una variedad lineal) si para cualesquiera x; y 2 C y cualquier  2 R
Roughly
speaking,
a set
pointvaco
in thees
setafn.
can Una
be seen
by every other
se
tiene que
.1 /x
C is
yconvex
2 C . ifElevery
conjunto
combinacin
afn
point,
along
an
unobstructed
straight
path
between
them,
where
de vectores v1 ; v2 ; : : : ; vn es una combinacin lineal c1 v1 C    C cnunobstructed
vn en la que
lying in the set. Every affine set is also convex, since it contains the entire
cmeans
1 C    C cn D 1.
lineUn
between
anyC two
in it,
n
conjunto
 Rdistinct
es afnpoints
si y slo
si esand
de therefore
la forma also the line segment
between the points. Figure 2.2 illustrates some simple convex and nonconvex sets
in R2 .
C D fa C l W a 2 Rn ; l 2 Lg ;
We call a point of the form 1 x1 + + k xk , where 1 + + k = 1 and
i 0, i = 1, . . . , k, a convex combination
of the points x1 , . . . , xk . As with affine
donde
L es un subespacio vectorial de Rn asociado a C . Es
decir, un conjunto afn
sets, it can be shown that a set is convex if and only if it contains every convex
es
un
subespacio
desplazado
del
origen.
La
dimensin
de
un
conjunto
afn of
xC
combination of its points. A convex combination of points can
be thought
as L
a
n
es
la
de
su
correspondiente
subespacio
L.
Un
plano
afn
en
R
es
un
traslado
de
un
mixture or weighted average of the points, with i the fraction of xi in the mixture.

subespacio de Rn . Una recta en Rn es un plano afn de dimensin 1. Es evidente


que The
cualquier
es denoted
convexoconv
aunque
recproco
noconvex
es cierto
en general.
convexconjunto
hull of aafn
set C,
C, el
is the
set of all
combinations
n
of points
, la envoltura afn de S , aff.S /, es la interseccin de todos los conSi S inRC:
juntos afines que contienen a S . Como se puede comprobar, aff.S / D aff.conv.S //.
conv C = {1 x1 + + k xk | xi C, i 0, i = 1, .n. . , k, 1 + + k = 1}.
Un conjunto de puntos o vectores fv1 ; : : : ; vp g de R es afnmente dependiente
the name
suggests,
thecconvex
is always
siAsexisten
nmeros
reales
todosCcero
tales convex.
que c1 CIt is
  the
C cpsmallest
D0y
1 ; : : : ; chull
p noconv
set
that
contains
C:
If
B
is
any
convex
set
that
contains
C,
then
conv
C
cconvex
v
C



C
c
v
D
0.
De
lo
contrario
ser
afnmente
independiente.
1 1
p p
B. Un
Figure
2.3 illustrates
of convex
hull.de un conjunto finito de vecsimplex
o simplejothe
es definition
la envolvente
convexa
idea of aindependientes.
convex combination
be generalized
to include
infinite sums,
toresThe
afnmente
Paracan
construir
un simplex
k-dimensional
oinktegrals, and, in the most general form, probability distributions. Suppose 1 , 2 , . . .
simplex se procede como sigue (ver figura 7.19):
0-simplex S 0 W un solo punto fv1 g

1-simplex S 1 W conv.S 0 [ fv2 g/ con v2 no en aff.S 0 /

2-simplex S 2 W conv.S 1 [ fv3 g/ con v3 no en aff.S 1 /


44

7 Optimizacin y Programacin Matemtica

::
:
k-simplex S k W conv.S k

7KH*HRPHWU\RI9HFWRU6SDFHV
v1

[ fvkC1 g/ con vkC1 no en aff.S k

v1

v1
S0

/:

v1

v2

v2

S1

v4

v3

v2

S2

v3
S3

'*(63& 

Figura 7.19: El simplex S 1 es un segmento de recta. El tringulo S 2 proviene de


1
seleccionar
un punto v3 que
no est en la recta que contieneYa4 S
y despus formar
S3 LVSURGXFHGE\FKRRVLQJDSRLQW
S2
)LJ  7KHWHWUDKHGURQ
QRWLQWKHSODQHRI
1
3
2
la
envolvente convexa con S . El tetraedro
S se produce al elegir un punto v4
S 
DQGWKHQIRUPLQJWKHFRQYH[KXOOZLWK
que no
est en el plano FRQVLGHUVRPHRIWKHSDWWHUQVWKDWDUHDSSHDULQJ
de S 2 y despus formar la envolvente convexa con
S2
%HIRUHFRQWLQXLQJ
7KHWULDQJOH
S 2 KDVWKUHHHGJHV (DFKRIWKHVHHGJHVLVDOLQHVHJPHQWOLNH S 1  :KHUHGRWKHVH
WKUHHOLQHVHJPHQWVFRPHIURP"
2QHRIWKHPLV
2QHRIWKHPFRPHVE\MRLQLQJWKH
S 1 independiente.
Sea S D fv1 ; : : : ; vk g un conjunto
afnmente
Para cada punto p
HQGSRLQW
Y
WRWKHQHZSRLQW
Y

7KHWKLUGFRPHVIURPMRLQLQJWKHRWKHUHQGSRLQW
2 coeficientes c ; :3 : : ; c de la representacin11 p D c v C    C cY1v WR
en aff.S / los
1
1 1
k
k k
S 1Estas
S 2
Y3  <RXPLJKWVD\WKDWHDFKHQGSRLQWLQ
LVVWUHWFKHGRXWLQWRDOLQHVHJPHQWLQ
son
las coordenadas baricntricas
de
p.
coordenadas
tienen
interpretaciones
7KHWHWUDKHGURQ S 3 LQ)LJ KDVIRXUWULDQJXODUIDFHV 2QHRIWKHVHLVWKHRULJLQDO
fsicas
y geomtricas de inters. Fueron originalmente
definidas
en
1827
por Au 
 


S2 RXWWRWKHQHZ
WULDQJOH S 2  DQGWKHRWKHUWKUHHFRPHIURPVWUHWFKLQJWKHHGJHVRI
gust F. Mbius, Alemania 1790-1868. Si a2 D 17 , b D 30 , c D 93 y p D3 53 ,
SRLQW Y4  1RWLFHWRRWKDWWKHYHUWLFHVRI S JHWVWUHWFKHGRXWLQWRHGJHVLQ S  7KH
el punto p en el3centro de la figura 7.20 tiene
por coordenadas baricntricas tres
RWKHUHGJHVLQ S FRPHIURPWKHHGJHVLQ S 2  7KLVVXJJHVWVKRZWRYLVXDOL]HWKH
nmeros
no
negativos
m
,
m
y
m
tales
que
p
es el centro de masa de un sistema
4
a
c
b
IRXUGLPHQVLRQDO S 
que consiste
en
le
tringulo
(sin
masa)
y
las
masas
ma , mb y mc en los vrtices
4
7KHFRQVWUXFWLRQRI S  FDOOHGDSHQWDWRSH LQYROYHVIRUPLQJWKHFRQYH[KXOORI
S3
3
correspondientes.
Las
masas
estn
unvocamente
determinadas
al
requerir
que
su
ZLWKDSRLQW Y5 QRWLQWKHVSDFHRI S  $ FRPSOHWHSLFWXUHLVLPSRVVLEOH RIFRXUVH
suma
seaLVVXJJHVWLYH
1.
EXW)LJ
S 4 KDVYHYHUWLFHV DQGDQ\IRXURIWKHYHUWLFHVGHWHUPLQHD
IDFHWLQWKHVKDSHRIDWHWUDKHGURQ
)RUH[DPSOH
WKHJXUHHPSKDVL]HVWKHIDFHWZLWK
Proposicin 7.1 El conjunto de soluciones
de un
sistema de ecuaciones lineales,
YHUWLFHV Y1  Y2  Y4  DQG Y5 DQGWKHIDFHWZLWKYHUWLFHV
Y2  Y3  Y4  DQG Y5  7KHUHDUHYH
mn
m

; b 2 R g, es un conjunto afn.

C D fx W Ax D b; A 2 R

5
D EMOSTRACIN . En efecto, supongamos
que x1 ; x2 2 C , es decir, Ax1 D b,
Ax2 D b. Entonces, para cualquier ,

.1
A .x1 vC
1

/ x2 / D Ax1 C .1
D b C .1

v4/ Ax2

/ b

D b;

11 nica.

v2

v3
45

v5

v5

DUHD."DSF/ D

! DUHD."DEF/

DUHD."DES/ D

5
! DUHD."DEF/
12

3
Fig. B.1 Convexity

7 Optimizacin y Programacin Matemtica

C+D

a
2.C

rea = srea(abc )
C
D

rea = t rea(abc )
0

rea = rrea(abc )

b
Fig. B.2 Properties
of convex sets

'*(63&  S D r D C s E C t F +HUH r D 14 

1
1
5
Figura 7.20: Punto
 tDDra125 C
 sb C nt c. En este caso r D 4 , s D 3 y t D 12 :
s D 1p
Definition. Let S3 be a subset
of E . The convex hull of S, denoted co(S), is
the set which is the intersection of all convex sets containing S. The closed
7KHIRUPXODVLQ)LJ
$QDORJRXVHTXDOLWLHVIRU
lo que
prueba
queoflaS combinacin
 x1 C.1
 /x2 est tambin
en el conjunto
convex
hull
isDUHYHULHGLQ([HUFLVHV
defined as afn
the closure
of co(S).
YROXPHVRIWHWUDKHGURQVKROGIRUWKHFDVHZKHQ
R3 
C . El subespacio asociado con el conjunto afnSCLVDSRLQWLQVLGHDWHWUDKHGURQLQ
en este caso es el espacio nulo
Finally, we conclude this section by defining a cone and a convex cone. A
ZLWKYHUWLFHV
D E F DQG G
de
A, ker.A/.
convex cone is a special kind of convex set that arises quite frequently.

Un conjunto C  Rn se dice un cono si para todo x 2 C , x 2 C , para

6HH([HUFLVHLQ6HFWLRQ ,QDVWURQRP\ KRZHYHU EDU\FHQWULFFRRUGLQDWHVXVXDOO\UHIHUWRRUGLQDU\


R3 FRRUGLQDWHVRISRLQWVLQZKDWLVQRZFDOOHGWKH ,QWHUQDWLRQDO&HOHVWLDO5HIHUHQFH6\VWHP D&DUWHVLDQ
FRRUGLQDWHV\VWHPIRURXWHUVSDFH ZLWKWKHRULJLQDWWKHFHQWHURIPDVV WKHEDU\FHQWHU RIWKHVRODUV\VWHP
0

0
Not convex

0
Convex

Not convex

Figura 7.21: Tres conos: el primero y el segundo no son convexos; el tercero si


Fig. B.3 Cones

todo escalar  2 R tal que   0. Un cono que tambin es convexo se denomina


cono convexo (figura 7.21). En este caso, para todo x1 ; x2 2 C y 1 ; 2  0,
1 x1 C 2 x2 2 C .
El conjunto fx 2 Rm W x D A; A 2 Rmn ; 2 Rn ;  0g es un cono
convexo generado por los vectores columna de la matriz A.
El conjunto de todas las combinaciones cnicas de los puntos de un conjunto
C , 1 x1 C    C k xk , 1 ; : : : ; k  0, es la envoltura cnica de C , cone.C /.
Un punto x es un punto extremo o vrtice de un conjunto convexo C si y slo
si no es interior a un segmento de recta contenido en C . Es decir, si y slo si
x D .1

/y C z con 0 < < 1 y y; z 2 C ) x D y D z:


46

es un elementoTeorema
de conv (X)
puede escribir como
i xi , para R+ con
deseCarathodory
para iI
conos
P
1. Anlogamente, un elemento de cone
n (X) se puede poner como i i xi ,
x1

Teorema 2.1. Si X R y x cone (X), existen x iI X y i 0, i


n
7 Optimizacin y Programacin Matemtica
(I)
erto R+ . tales que x = P i xi . Es decir, cualquier elemento de la envoltura
x2

Figure 2.4 The pie slice shows all points of the form 1 x1 + 2 x2 , where
1 , 2 0. The apex of the slice (which corresponds to 1 = 2 = 0) is at
0; its edges (which correspond to 1 = 0 or 2 = 0) pass through the points
x1 and x2 .

i=1

n
cin 2.8. Llamamos
envoltura
afn de
al menor
subconjunto
combinacin
cnica
de,Xa loRsumo,
n elementos
de X.afn
ntiene a X, es decir,
\

a f f (X) :=
A Rn : A es afn y X A .

logamente a los resultados anteriores tenemos que:

sicin 2.5. Dado X Rn , se tiene que: 0


0
k

Figure 2.5 The conic hulls (shown shaded) of the two sets of figure 2.3.
k

X
X
Figura
7.22:
Envoltura
cnica
de
los
dos
conjuntos
de
la
figura
7.18

i
i

x
:
k

N,
x

X,

R,
i
=
1,
2,
.
.
.
,
k
;

=
1
f (X) =

i
i
i

Figure 2.5 The conic hulls (shown shaded) of the two sets of figure 2.3.

Figura 8.8: Envoltura cnica de los dos conjuntos de la figura i=1


8.6

i=1

Dos resultados importantes de Constantin Carathodory, Alemania, 1873-1950,


Teorema
Carathodory
convexos
n
Undicen
punto xque
es unsi
punto
extremo
de y
un x
conjunto
convexo C
y slo si no
recta
contenido
X de
 conos
R
2 cone.X
/, sipara
existen
xies yinterior
i , ai unDsegmento
1; : : :de; n,
tales
que
ma de Carathodory
para
P
en C . Es decir, si n
y slo si
x D

x
.
Es
decir,
cualquier
elemento
de
la
envoltura
cnica
de
X
n
i
i
i
iD1
(X),
Teorema
2.2.
Si/yXaClo
R ynxi<puntos
y y;conv
existen
x X X R
y nesyi 0, i
x D .1 de,
z sumo,
con 0 <
C
D yiD=
z: 1, 2,
X.
si
(X), existen
ma 2.1. Si X combinacin
Rn yn+1x cnica
cone
x 1n+1
X zy2de
i)
xIgualmente,
0,

,
n,
PnC1
P /, existen
n
xi resultados
2 conv.X
x
1;=
: :P
: ;Xn
CRxn1,iy.xtales
que/, existen
x D
i1;x:i:elemento
.: ;Es
P
i y que
i, i D
Dos
debido
a Carathodory
dicen
que
si
2 cone.X
xi yiD1
,i D
n,

=
1,
tales
x

Es
decir,
cualquier
con
Pn importantes
i cualquier
i
ue x = tales
i xdecir,
. Es
decir,
elemento
deconvexa
la cnica
envoltura
cnica
dei de,X
es
que
x D cualquier
decir, cualquier
elemento
de la envoltura
de XX
es combinacin
cnica
a lo
sumo,
elemento
de
la
envoltura
de
es
combinacin
convexa
iD1 i xi . Es
PnC1
i=1
i=1
n
i=1 n puntos de X. Igualmente, si X  R y x 2 conv.X /, existen xi y i , i D 1; : : : ; n C 1, tales que x D iD1 i xi .
de,cualquier
a lo sumo,
nC
1 es
puntos
de X. La figura
7.23 convexa
ilustra
estos
resultados.
de
combinacin
convexa
de,
asumo,
lo
sumo,
Es decir,convexa
elemento
deXla envoltura
convexa de X es combinacin
de, a lo
n C 1 puntosnde+
X. 1
La puntos

acin cnica de, a lo sumo, n elementos de X.


figura 8.9 ilustra estos resultados.

Figura
8.9: El
de Carathodory
Figura
7.23:
Elteorema
teorema
de Carathodory
ma de Carathodory para convexos
Llamaremos hiperplano H de vector caracterstico a 2 Rn ; a 0, al conjunto H D fx 2 Rn W aT x D cg, con

n
i caracterstico a 2 Rn ; a 0, al conjunto
Llamaremos
hiperplano
H dedevector
(X),
ma 2.2. Si cX2 R.UnR
yx
existen
Xlineal
y eni R. 0, i = 1, . . . , n + 1,
hiperplano
es elconv
conjunto
de soluciones
unax
ecuacin
n
T
n+1
D fx en
2 RR
x Dafn
cg,o una
convariedad
c 2 R.
Un.nhiperplano
es el conjunto de soluciones
UnH
hiperplano
lineal
1/-dimensional.
Pes Wunaespacio
i


i = 1, tales
que
xecuacin
= H , alineal
cualquier
de la envoltura
Dado
un
hiperplano
xi x
D .c,Es
llamaremos
cerradoselemento
de borde H a los conjuntos
H D x2R Wa xc
de
una
en decir,
Rn . semiespacios
n

n
2R
W aT x < c .
D xvariedad
2 Rn W aT xlineal
> c y H.nD x1/
yH D x
2 Rhiperplano
W a i=1
x  c , yen
semiespacios
abiertos
de borde
H ao
espacio
afn
dimenUn
Rn es un
H Cuna

a de X es Los
combinacin
convexa
de,laaunin
lo desumo,
1 puntos
de X.
semiespacios de borde
H son convexos;
H y H nes+
el espacio
R .
sional.
C

En la figura 8.10 se representa el hiperplanoT x1 C 4x2 D 11, su vector caracterstico a D 1; 4T y los semiespacios
HC y H .Dado un hiperplano H , a x D c, llamaremos semiespacios cerrados de borde
los conjuntos
Hconstante
2 RnelWdesplazamiento
aT x  cgdelyhiperplano
H D delfxorigen.
2 RUnn hiperplano
W aT x se
C D fx
EnH
un a
hiperplano
aT x D c, la
c determina
del hiperplano
c). Esa ltima
T
T
n
T
puedecg.
expresar
de
la
forma
fx
W
a
.x
x
/
D
0g,
donde
x
es
cualquier
punto
(a
x
D
Semiespacios abiertos 0de borde
H0 a HV D x 2 R W a x >0 c y HV D
se puede
ms pues fx W aT .x x0 / D 0g CD x0 C a? , donde a? es el complemento ortogonal
expresin
trabajar un poco
n T T
2R
W av Dx0g.<Locque
. Los
borde
son convexos;
la todos
unin
HC
de a, esxdecir
fv W a
lleva semiespacios
a que un hiperplanode
consiste
en H
un desplazamiento
x0 ms
los de
vectores
ortogonales
vector
caracterstico
conjunto
de soluciones
de representa
aT x D c: x0 Cel
ker.a/,
recordemos. x C 4x D
y H ales
el espacio
Rna:. elEn
la figura
7.24 se
hiperplano
1
2
Un politopo es un conjunto formado por la interseccin de un nmero finito de semiespacios cerrados. Un politopo
cnico es un conjunto formado por la interseccin de un nmero finito de semiespacios cerrados que pasan por un punto.
47 que la interseccin de conjuntos convexos es convexa
Un poliedro es un politopo acotado y no vaco. Es fcil comprobar

y que, por lo tanto, los politopos y los poliedros son conjuntos convexos. Si un politopo P es un poliedro, cualquier punto
se puede expresar como combinacin convexa de sus puntos extremos.

7 Optimizacin y Programacin Matemtica

11, su vector caracterstico a D 1; 4T y los semiespacios HC y H .


a
H+
x0
a

y
H

Figura 8.10: Hiperplano x1 C 4x2 D 11 y los semiespacios en los que divide R2

Figura 7.24: Hiperplano x1 C 4x2 D 11 y los semiespacios en los que divide


En un hiperplano aT x D c, la constante c determina el desplazamiento del hiperplano del origen.
R2
T

Un hiperplano se puede expresar de la forma fx W a .x x0 / D 0g, donde x0 es cualquier punto del


hiperplano (aT x0 D c). Esa ltima expresin se puede trabajar un poco ms pues fx W aT .x x0 / D
T
En 0g
unDhiperplano
Dcomplemento
c la constante
desplazamiento
x0 C a? , dondeaa?x
es el
ortogonal c
de determina
a, es decir fv Wel
aT v
D 0g. Lo que lleva del
a que del
un hiperplano
consiste
en un desplazamiento
x0 ms
todos los vectores
ortogonales
hiperplano
origen.
Un
hiperplano
se
puede
expresar
de
la
forma
fxalWvector
aT .x
T
caracterstico a: el conjunto de soluciones de a x D c: x0 C ker.a/, recordemos.
T
x0 / D 0g,
donde
x
es
cualquier
punto
del
hiperplano
(a
x
D
c).
Esa
ltima
0 conjunto formado por la interseccin de un nmero finito de
0 semiespacios cerraUn politopo es un
dos. se
Un politopo
es un un
conjunto
la interseccin
de un nmero
finito
semiespaexpresin
puede cnico
trabajar
pocoformado
ms por
pues
fx W aT .x
x0 / D
0gdeD
x0 C a? ,
cios
? cerrados que pasan por un punto.
donde a
es el complemento B.3
ortogonal
de a, es Supporting
decir fv W Hyperplanes
aT v D 0g. Lo 519
que
Separating
Un poliedro es un politopo acotado
y no
vaco. Es fciland
comprobar que la interseccin
de conjuntos
lleva a que
un
hiperplano
consiste
en
un
desplazamiento
x
ms
todos
los
vectores
convexos es convexa y que por lo tanto los politopos y los poliedros son 0
conjuntos convexos. En esta
T
figura se muestran varios politopos; el del centro es un poliedro.

ortogonales al vector caracterstico a: el conjunto de soluciones de a x D c:


x0 C ker.a/, recordemos.
Un politopo es un conjunto formado por la interseccin de un nmero finito de
semiespacios cerrados. Un politopo cnico es un conjunto formado por la interseccin de un nmero finito de semiespacios cerrados que pasan por un punto.
Un poliedro es un politopo acotado y no vaco: ver figura 7.25. Es fcil comprobar que la interseccin de conjuntos convexos es convexa y que, por lo tanto,
los politopos y los poliedros son conjuntos convexos. Si un politopo P es un poliedro, cualquier
punto se puede expresar
como
combinacin convexa de sus puntos
Si un politopo P es un poliedro, cualquier
puntoPolytopes
se puede expresar como combinacin convexa de
Fig. B.5
sus puntos
extremos.
extremos
o vrtices.
Teorema
SeaCC un
un conjunto
convexo
e y un punto
a la adherencia
un
Teorema
7.2 8.1
Sea
conjunto
convexo
e y exterior
un punto
exteriordea Cla. Existe
adherencia
vector a tal que aT y < Knfx2C aT x. T
T
de C . Existe
untovector
a tal
que
a y are
< Kconvex
nfx2C asetsx.and that the union of H+ and
It is easy
see that
half
spaces
D EMOSTRACIN
. Sea
the whole space.
H is

D EMOSTRACIN . Sea

D Knf kx
x2C

yk2 > 0:

Definition. A set which can be expressed as the intersection of a finite number


D Knf kx 26 yk2 > 0:
of closed half spaces is saidx2C
to be a convex polytope.

Existe un
frontera
de C tal
yk2 D
es ofassolutions
pues la
We xsee
thatlaconvex
polytopes
areque
the kx
sets0 obtained
as .
theEsto
family
0 en
to a set
of linearfinequalities
funcin
continua
.x/ D kxof the
ykform
2 alcanza su mnimo en cualquier conjunto
a1T48
x  b1
a2T x  b2

B.3 Separating and Supporting Hyperplanes

519

7 Optimizacin y Programacin Matemtica

B.5 Polytopes
Figura 7.25: DiversosFig.
politopos;
el del centro es un poliedro

cerradoItyisacotado
por lo que slo es necesario considerar x en la interseccin de
easy to see that half spaces are convex sets and that the union of H+ and
la adherencia
de
C
y la bola abierta de centro y y radio 2.
H is the whole space.
A continuacin probaremos que a D x0 y satisface las condiciones del
Definition.
A set which
can be para
expressed
as the intersection
enunciado
del teorema.
En efecto,
cualquier
, 0  ofa finite
1, alnumber
ser C un
of closed half spaces is said to be a convex polytope.
conjunto convexo, el punto x0 C .x x0 / 2 C , por lo que
We see that convex polytopes are the sets obtained as the family of solutions
kx0 C .x
yk22  kx0 yk22 :
to a set of linear inequalities
of the x
form
0/

a1T x  b1
a2T x  b2
2.x0 y/T .x x0 / C 2 kx x0 k22  0:

Considerando esta expresin cuando ! 0C, se tiene que
amT x  bm 

Desarrollando,

.x0

y/T .x

x0 /  0

since each individual inequality defines a half space and the solution family is
the intersection of these half spaces. (If some ai = 0, the resulting set can still, as
o que
the reader may verify, be expressed as the intersection of a finite number of half
.x0 y/T x  .x0 y/T x0 D .x0 y/T y C .x0 y/T .x0 y/
spaces.)
T
Several polytopes are illustrated D
in .x
Fig. B.5.
y/We
y note
C 2that
: a polytope may be
0
empty, bounded, or unbounded. The case of a nonempty bounded polytope is of
special interest
distinguish
this el
case
by the following.
Haciendo
a D x and ywequeda
probado
teorema.
0

Definition.

A nonempty bounded polytope is called a polyhedron.

La interpretacin geomtrica de este teorema es que dado un conjunto convexo


C y un punto y exterior a la adherencia de C existe un hiperplano que contiene a
y, B.3
sin tocar
a C , estando C enAND
uno deSUPPORTING
sus semiespacios abiertos. Ese hiperplano,
SEPARATING
de vector caracterstico a en el teorema, se denomina hiperplano separador de C
HYPERPLANES
e y.
The
theorems
this section
are perhaps
the most
important
to un
Si Ctwo
yD
son dosinconjuntos
convexos
disjuntos,
C \D
D ;,results
existe related
entonces
T the first states that given a point
T outside a convex set, a
convexity.
Geometrically,
a 0 y un b tales que a x  b, para todo x 2 C , y a x  b, para todo x 2 D.
hyperplane can be passed through the
T point that does not touch the convex set. The
Dicho
de otra manera,
la funcin
x b es no positiva en C y no negativa en D.
is a limiting
ofa the
second, which
case
first, states that given a boundary point of a
T
El convex
hiperplano
x
W
a
x
D
b
es
un
hiperplano separador de los conjuntos C y D
set, there is a hyperplane that contains the boundary point and contains the
como
se vesetenonlaone
figura
convex
side7.26.
of it.
49

2.5

Separating and supporting hyperplanes

47

7 Optimizacin y Programacin Matemtica


E2

aT x b

aT x b
E1

E3

D
C

Figure 2.18 Three ellipsoids in R2 , centered at the origin (shown as the


lower dot), that contain the points shown as the upper dots. The ellipsoid
E1 is not minimal, since there exist ellipsoids that contain the points, and
are smaller (e.g., E3 ). E3 is not minimal for the same reason. The ellipsoid
E2 is minimal, since no other ellipsoid (centered at the origin) contains the
points and is contained in E2 .

Figure 2.19 TheFigura


hyperplane
| aT x = b} separates
theentre
disjoint
7.26:{xHiperplano
separador
C yconvex
D sets
C and D. The affine function aT x b is nonpositive on C and nonnegative
on D.

Existen bastantes principios de dualidad


(en especial
en la teora y tcnicas de
aT x b
aT x b
optimizacin) que relacionan un problema en trminos de vectores en un espacio
vectorial con otro en trminos de subespacios en ese espacio. En varios de esos
principios est presente la relacinDque se ilustra en la figura 7.27 que indica que
C
la distancia ms corta de un punto a un conjunto
convexo es igual al mximo de
las distancias desde el punto a alos hiperplanos que separan el conjunto convexo del
punto. El problema original de minimizacin sobre vectores se convierte en otro
de maximizacin sobre hiperplanos.
Figure 2.19 The hyperplane
{x Hiperplano
| aT x = b} separates
disjoint
Figura 8.14:
separadorthe
entre
C y Dconvex sets
C and D. The affine function aT x b is nonpositive on C and nonnegative
on D.

Figura 8.15: Distancia ms corta de un punto a un conjunto convexo en trminos de la de a hiperplanos separadores

Figura 7.27: Distancia ms corta de un punto a un conjunto convexo en trminos


en ese espacio. En
gran cantidad de esos principios est presente la relacin que se ilustra en la figura 8.15. La distancia
de hiperplanos
separadores
ms corta de un punto a un conjunto convexo es igual al mximo de las distancias desde el punto a los hiperplanos que
separan el conjunto convexo del punto. El problema original de minimizacin sobre vectores se convierte en otro de
maximizacin sobre hiperplanos.

Teorema
7.3
Sea
Cconjunto
un conjunto
convexo
e de
y Cun
punto
frontera
de Ca .y Existe
Teorema
8.3 Sea
C un
convexo e y un
punto frontera
. Existe
un hiperplano
que contiene
y a C en un
uno de susque
semiespacios
cerrados.
hiperplano
contiene
a y y a C en uno de sus semiespacios cerrados.
D EMOSTRACIN . Sea fy .k/ g una sucesin de puntos exteriores a la adherencia de C . Sea fa.k/ g la sucesin de puntos

D EMOSTRACIN
fy .k/degaplicar
unaelsucesin
dea lapuntos
exteriores
normalizados, ka.k/ .k2 Sea
D 1, obtenida
teorema anterior
sucesin anterior,
tales que, a la adherencia
.k/
.k/
T
T

de C . Sea fa g la sucesin depuntos
normalizados,
ka
k2 D 1, obtenida de
.k/
.k/
.k/
a

< Knf a
x2C

x:

Como fa.k/ g es una sucesin acotada, una subsucesin fa.k/ g, k 2 H, converger a un lmite a. Para este a se tiene que,
50
para cualquier x 2 C ,
T
T


aT y D lKm a.k/ y .k/  lKm a.k/ x D aT x:
k2H

k2H

Un hiperplano que contiene un conjunto convexo C en uno de sus semiespacios cerrados y que contiene algn punto

7 Optimizacin y Programacin Matemtica

aplicar el teorema anterior a la sucesin anterior, tales que,




a.k/

T


T
y .k/ < Knf a.k/ x:
x2C

Como fa.k/ g es una sucesin acotada, una subsucesin fa.k/ g, k 2 H, converger


a un lmite a. Para este a se tiene que, para cualquier x 2 C ,

T

T
aT y D lKm a.k/ y .k/  lKm a.k/ x D aT x:
k2H

k2H

Un hiperplano que contiene un conjunto convexo C en uno de sus semiespacios


cerrados y que contiene algn punto frontera de C se denomina hiperplano de
apoyo de C .
De acuerdo con esta definicin, el teorema anterior dice que dado un conjunto
convexo C y un punto frontera y de C existe un hiperplano de apoyo de C que
contiene y.


T
2.6figura
Dual cones
En la
7.28 and
x Wgeneralized
aT x D ainequalities
x0 es el hiperplano de apoyo de C en 51
el
a
x0
C

T
Figure
2.21 The
hyperplane
{x | aT xde
= aapoyo
x0 } supports
Figura
7.28:
Hiperplano
de C Cenatxx0 .

punto xthat
punto x0 ythe
el set
conjunto
C estn separados por el hiperplano fx W
0 : el
the point x0 and
C are separated by the hyperplane {x | aT x = aT x0 }. T
aT x DThe
aTgeometric
x0 g. Geomtricamente
decir que
fx W a x D
interpretation is thatquiere
the hyperplane
{x | el
aT xhiperplano
= aT x0 } is tangent
to C
at x0 , and
halfspace
x0 } contains C.x This
tangente
al the
conjunto
C{xen| axT0xyelaTsemiespacio
W aTisxillustrated
 aT x0incontiene
aT x0 g es
2.21.
a C . figure
A basic result, called the supporting hyperplane theorem, states that for any
Si Snonempty
es un politopo
dimensin
3 C,
enthere
R3 exists
una cubo
yH
un plano
convex set de
C, and
any x0 bd
supporting
hyperplane
to que se
3
at x
supporting
hyperplane
theorem
readily
proved
separating
trasladaCen
R0 . The
hasta
que apenas
se apoya
enis el
cubo,
perofrom
nothe
corta
el interior de
hyperplane theorem. We distinguish two cases. If the interior of C is nonempty,
ste, hay
tres posibilidades para H \ S dependiendo de la orientacin de H . Se
the result follows immediately by applying the separating hyperplane theorem to
ven en la
thefigura
sets {x7.29.
0 } and int C. If the interior of C is empty, then C must lie in an affine
set of dimension less than n, and any hyperplane containing that affine set contains
C and x0 , and is a (trivial) supporting hyperplane.
There is also a partial converse of the supporting hyperplane theorem: If a set
is closed, has nonempty interior, and has a supporting hyperplane at every point
in its boundary, then it is convex. (See exercise 2.27.)
51

2.6
2.6.1

Dual cones and generalized inequalities


Dual cones

/*5*0/

H \ S PD\EHDGLPHQVLRQDOVTXDUHIDFH IDFHW RIWKHFXEH


H \ S PD\EHDGLPHQVLRQDOHGJHRIWKHFXEH
H \ S PD\EHDGLPHQVLRQDOYHUWH[RIWKHFXEH

7 Optimizacin y Programacin Matemtica

H
H

H
H ! S es bidimensional

H ! S es unidimensional

H ! S es de dimensin 0

'*(63& 

Figura 7.29: H \ S es una cara cuadrada bidimensional del cubo, una arista unidimensional del cubo o un vrtice de dimensin 0 del cubo
0RVWDSSOLFDWLRQVRISRO\WRSHVLQYROYHWKHYHUWLFHVLQVRPHZD\ EHFDXVHWKH\KDYH
DVSHFLDOSURSHUW\WKDWLVLGHQWLHGLQWKHIROORZLQJGHQLWLRQ
Lema 7.4 (Farkas) El sistema de ecuaciones
S LQ
.I /HW
/ S EHDFRQYH[VHW $ SRLQW
Ax D
b; S LVFDOOHGDQ
x  0; H[WUHPHSRLQW RI S LI S LV
QRWLQWKHLQWHULRURIDQ\OLQHVHJPHQWWKDWOLHVLQ S  0RUHSUHFLVHO\ LI [; \ 2 S
S 2solucin
[ RUsiSlaDtiene
\ 7KHVHWRIDOOH[WUHPHSRLQWVRI
xy  WKHQsiSyD
S LVFDOOHGWKH
noDQG
tiene
slo
el sistema
SUROH RI S 
.II /
y T A  0T ;
bT y > 0;

donde A 2 Rmn .
D EMOSTRACIN . El lema por Farkas Bolyai, Hungra 1775-1856 se puede
reformular de la siguiente manera. Si existe un x  0 tal que Ax D b, no existe
ningn y tal que y T A  0T y bT y > 0. Recprocamente, si no existe ningn
x  0 tal que Ax D b, existe un y tal que y T A  0T y bT y > 0.
Supongamos que el sistema (I) tiene una solucin x tal que Ax D b y x  0.
Sea y un punto tal que y T A  0T . En este caso bT y D x T A T y  0 pues x  0
y y T A  0T . Esto demuestra que bT y no puede ser positivo y, por lo tanto, el
sistema (II) no tiene solucin.
Supongamos ahora que el sistema (I) no tiene solucin. Esto quiere decir que
b S D fv D Ax W x  0g; es decir que b no pertenece al politopo cnico S.
Observando la figura 7.30, est claro que si b S , existe un hiperplano separador
definido por un y, que separa S y b, y para el cual y T ai  0, i D 1; : : : ; n
y y T b > 0, es decir, y forma un ngulo de ms de 90 grados con cada uno de
los vectores columna de A y de menos de 90 grados con12 b. Esto verifica que el
sistema (II) tiene solucin.
12 El hiperplano separador del politopo cnico S de la figura debera casi tocar a ste a lo largo de
a5 . El hiperplano de apoyo correspondiente, s tocara a a5 .

52

8.17 Dualidad
condiciones
de optimo
Optimizacin y
y Programacin
Matemtica

Politopo c
onico S

a3

a2

a1

a4

a5

Hiperplano

b
/S
y

Figura 8.2
Figura 7.30: Demostracin
del lema de Farkas
Descripci
on geometrica de la existencia de un hiperplano separador

El lema de Farkas es un resultado importante para el estudio de sistemas lineaEl par (P)-(D)
se denomina
en la literatura
especializada, forma simetri
les de inecuaciones.
Su habitualmente,
interpretacin geomtrica
es la siguiente:
de la dualidad.
1. Si oani ; exponemos
i D 1; : : : ; n,dos
sonteoremas
los n vectores
columna de la las
matriz
A, que se
cumpla del par
A continuaci
que caracterizan
optimas
Psoluciones
n
que
b
D
Ax,
x

0,
quiere
decir
que
el
vector
b
D
a
x
,
x

0; en
i
problemas primal-dual.
iD1 i i
otras palabras, que b pertenece al politopo cnico generado por los vectores
columna
de A. En la figurade
7.31,
a la izquierda,
un ejemplo
donde
Teorema 8.3
(Complementariedad
Holguras)
Sean xseemuestra
y soluciones
factibles
del par d
programas primal-dual
simetrica
(P)-(D)
depertenece
(8.8). Las
condiciones
y
el sistema (I)en
noforma
tiene solucin:
el vector
b no
al cono
generadonecesarias
por
Tson:
T
sucientes para
sean
o

ptimos
de
sus
respectivos
problemas
a1 , aque
,
a
y
a
.
La
interseccin
del
cono
fy
W
y
A

0
g
(conjunto
formado
2
3
n
por los vectores y que formanTun ngulo
mayor o igual de 90 con los vectores
T

y
A)x
0
(8.9
(c
columna de la matriz A) y el semiespacio=abierto
fy W bT y > 0g, no es el
conjunto vaco: el sistema (II) tiene solucin, pues b y cualquier y en el cono
y
que define la zona sombreadaT forma un ngulo menor de 90 y, por lo tanto,
y (Ax b) = 0.
(8.10
bT y > 0.

2. El
(II) no tiene solucin si la interseccin del cono fy W y T A  0T g y
n.sistema
Demostracio
Como x e y son soluciones factibles de (P) y (D), respectivamente, se tie
que
s = Ax b 53
0, x 0
(8.1
y
wT = cT y T A 0T , y 0.
(8.1

Cono {y : y T A 0T }

aptulo 8. Dualidad y an
alisis de sensibilidad
7 Optimizacin y Programacin Matemtica

Figura 8.3
El sistema (I) del lema de Farkas no tiene soluci
on. La tiene (II)
Semiespacio abierto {y : bT y > 0}
a2

a2
an
a1

an

a3
b

a1

b
Semiespacio abierto {y : bT y > 0}

Cono {y : y T A 0T }

Cono {y : y T A 0 T }

Figura 8.4
El sistema (II) del lema de Farkas no tiene soluci
on. La tiene (I)

Figura 8.3
Figura
Izquierda:
(I) del
de (II)
Farkas no tiene solucin; si (II).
El sistema
(I) 7.31:
del lema
de FarkasElnosistema
tiene soluci
on. lema
La tiene

Derecha: El sistema (II) no tiene solucin; la tiene (I)


a2

el semiespacio abierto fy W bT y > 0g es el conjunto vaco. En la figura 7.31 a


an donde el sistema (II) no tiene solucin. Todo
la derecha se muestra un ejemplo
vector
y
en
la
zona
que
define
el
cono indicado forma un ngulo mayor de 90
b
a1
con b. La tiene sin embargo (I) pues b pertenece al cono generado por a1 , a2 y
an .
Semiespacio abierto {y : bT y > 0}

7.2 Caracterizacin del problema de optimizacin y condiciones


de punto ptimo
Volvamos
de Optimizacin
Cono al
{yproblema
: y T A 0T general
}
minimizar
f .x/
n
x2R

Figura 8.4
sujeta a ci .x/ D 0; i 2
El sistema (II) del lema de Farkas no tiene soluci
on. La tiene (I)

cj .x/  0;

E;
j 2 I;

donde las funcin objetivo f y las condiciones ci y cj son, en general, no lineales,


continuas y tienen derivadas parciales continuas hasta al menos primer orden. Los
conjuntos E y I contienen los ndices de las condiciones que son de igualdad y
de desigualdad, respectivamente. El conjunto de puntos que satisfacen todas las
condiciones se denomina regin factible.
54

7 Optimizacin y Programacin Matemtica

Un punto x que satisfaga todas las condiciones se dice regular si los vectores
gradiente del conjunto de condiciones activas en ese punto son linealmente independientes.
Teorema 7.5 Condiciones de ptimo de primer orden de Karush-Kuhn-Tucker
Supngase que x  es un punto regular y mnimo local del problema general
de programacin matemtica anterior. Existe un vector de multiplicadores de
Lagrange,  , con coeficientes i , i 2 E [ I, tal que se cumple que
rx L.x  ;  / D rf .x  / T c.x  / D 0;
ci .x  / D 0; para todo i 2 E;

ci .x  /  0; para todo i 2 I;

i  0; para todo i 2 I;

i ci .x  / D 0; para todo i 2 E [ I:

Un caso particular del problema de programacin matemtica enunciado es


uno de Programacin Lineal:
min. c T x
s. a

Ax D b
x  0:

As expresado se denomina en forma estndar. La regin factible, o conjunto de


soluciones del programa lineal, P D fx 2 Rn W Ax D b; x  0g, es un politopo
convexo.
Teorema 7.6 Equivalencia entre puntos extremos y soluciones bsicas Sean A 2
Rmn una matriz de rango m, b 2 Rm y el politopo convexo
P D fx 2 Rn W Ax D b; x  0g :
Un x 2 P es un punto extremo de P si y slo si los vectores columna de A
asociados a los coeficientes positivos de x son linealmente independientes.
D EMOSTRACIN . Supongamos sin prdida de generalidad que los p primeros
coeficientes del vector x son positivos y los n p ltimos cero. Si x D xN T ; 0T T ,
N las p primeras columnas de la matriz A, se tiene que
xN > 0, y designamos por A
N
Ax D A xN D b.
Probemos primero la necesidad de la condicin enunciada. Supongamos que
N no son linealmente independientes. En este caso existir un
las columnas de A
Nw
N xN "w/
N xN D b y, para
N 0 tal que A
N D 0. De aqu que A.
N D A
vector w
 N wN 
N  0. Los puntos y 0 D xC"
un " suficientemente pequeo, que .xN "w/
y
0
55

7 Optimizacin y Programacin Matemtica



y 00 D xN 0"wN estn, por consiguiente, en P . Adems, dado que x D .y 0 C y 00 /=2,
x no puede ser un punto extremo de P . Como consecuencia de esto, si x es un
N son linealmente dependientes.
punto extremo, las columnas de la matriz A
Probemos ahora la suficiencia. Supongamos que x no es un punto extremo de
P . Esto quiere decir que x D y 0 C .1 /y 00 , donde y 0 ; y 00 2 P; y 0 y 00 y 0 <
 < 1. Como x e y 0 estn en P , A.x y 0 / D Ax Ay 0 D b b D 0. Adems,
dado que  y 1  son estrictamente positivos, los ltimos n p coeficientes de y 0
y, por consiguiente, de x y 0 , han de ser cero pues lo son los de x. Las columnas
N en consecuencia, son linealmente dependientes. De aqu que, si las
de la matriz A,
N son linealmente independientes, x es un punto extremo.
columnas de A
Una direccin del politopo P D fx 2 Rn W Ax D b; x  0g es un vector no
nulo, d 2 Rn , tal que para todo x0 2 P el rayo fx 2 Rn W x D x0 C d;   0g
pertenece a P .
Una direccin d de un politopo P se dice extrema si no puede ponerse como
combinacin lineal no negativa de dos direcciones diferentes de P . Es decir, no
existen dos direcciones d1 y d2 en P , d1 d2 , y unos 1 ; 2 > 0, tales que
d D 1 d1 C 2 d2 .
Cualquier direccin de un politopo se puede expresar como combinacin lineal no negativa de las direcciones extremas del politopo. Si P es un poliedro,
obviamente, no tiene direcciones.
Teorema 7.7 Teorema de la representacin Todo punto del politopo P D fx 2
Rn W Ax D b; x  0g se puede expresar de la forma
X
i vi C d;
xD
i 2I

donde fvi W i 2 I g es el conjunto de puntos extremos o vrtices de P ,


1, i  0, y d, o es una direccin de P , o d D 0.

i2I

i D

D EMOSTRACIN . La haremos por induccin en p, nmero de coeficientes positivos de x. Si p D 0, el teorema es obvio, pues x D 0 es un punto extremo.
Supongamos que se cumple lo enunciado para puntos con menos de p coeficientes
positivos y que x tiene p coeficientes positivos.
Si x es un punto extremo, como x D vi para algn i 2 I , el teorema es
obvio. Supongamos por tanto que x no es un punto extremo. En este caso existe
un vector w 0, con wi D 0 si xi D 0, tal que Aw D 0. Se pueden dar los tres
casos siguientes:
(a) Que w tenga coeficientes positivos y negativos. Consideremos los puntos
x. / D x C  w en la recta que pasa por x que determina w, y sean  0 y  00
56

7 Optimizacin y Programacin Matemtica

el menor valor positivo y mayor valor negativo, respectivamente, de  para


los que x. / tiene al menos un coeficiente cero ms que los que tiene x. Los
puntos x 0 D x. 0 / y x 00 D x. 00 / pertenecen claramente a P por lo que,
por la hiptesis de induccin, al tener un coeficiente nulo ms, se pueden
expresar segn lo enunciado en el teorema. En consecuencia, como x est
en la recta que une x 0 y x 00 , se puede expresar de la siguiente manera
x D x 0 C .1
D

X
i 2I

/x 00

donde  D

0i vi C d 0 C .1

X
D
0i C .1
i2I

00

/

X
i2I

 00 =. 0
!

 00 /

00i vi C d 00

/i vi C d 0 C .1

/d 00 :

P
P
Como 0 <  < 1, 0i  0 y 00i  0 para todo i 2 I , i2I 0i D i 2I 00i D
1 y Ad 0 D Ad 00 D 0, d 0  0 y d 00  0. Se deduce entonces que
X
00
i D 0i C .1 /i  0 para todo i 2 I;
i D 1;
d D d 0 C .1

/d 00  0

Ad D 0;

i 2I

quedando probado que x se puede expresar de la forma enunciada.


(b) Que w  0. Definamos x 0 como en el caso (a). El punto x se puede expresar
como x D x 0 C  0 . w/, con  0 > 0. Como x 0 se puede expresar por
induccin en la forma deseada y . w/ es una direccin en P , x tambin se
puede expresar de la forma enunciada.
(c) Que w  0. Este caso se prueba igual que el caso (b) sin ms que sustituir
x 0 ,  0 y w por x 00 ,  00 y w, respectivamente.
Corolario 7.8 Si el politopo P D fx 2 Rn W Ax D b; x  0g es no vaco, tiene
al menos un punto extremo o vrtice.
Corolario 7.9 Si el politopo P D fx 2 Rn W Ax D b; x  0g es cerrado y
acotado (es un poliedro), todo punto x 2 P se puede expresar como combinacin
convexa de sus puntos extremos.
Teorema 7.10 Teorema fundamental de la Programacin Lineal Dado un politopo no vaco P D fx 2 Rn W Ax D b; x  0g de soluciones de un PL, el valor
mnimo de la funcin objetivo c T x, para x 2 P , se alcanza en un punto extremo
de P (solucin bsica factible ptima), o c T x no est acotada inferiormente en
P.
57

7 Optimizacin y Programacin Matemtica

x4
x3
x
x5

x2
y
x1

Figura 7.32: Representacin de un punto de un politopo (poliedro) como combinacin convexa de puntos extremos
D EMOSTRACIN . Sea V D fvi W i 2 I g el conjunto de puntos extremos de P .
Como P es no vaco, al menos tiene un punto extremo vi 2 V . De acuerdo con
el teorema de la representacin, o el politopo P posee una direccin d tal que
c T d < 0, o tal direccin no existe. Consideremos estos dos casos.
(a) El politopo P tiene una direccin d tal que c T d < 0. En este caso P no
est acotado y el valor de la funcin objetivo tiende a 1 en la direccin d.

(b) El politopo P no tiene una direccin d tal que c T d < 0. En este caso
cualquier x 2 P se puede expresar de una de las dos maneras siguientes:
X
X
xD
i v i
donde
i D 1; i  0 o
i2I

xD

X
i2I

i vi C dN

donde

i 2I

X
i 2I

i D 1;

i  0 y

c T dN  0:

En ambos casos, suponiendo que c T vmi n es el menor de los elementos del


conjunto fc T vi W i 2 I g, se tiene que
!
X
X

i c T vi  c T vmi n
i D c T vmi n :
cT x 
i 2I

i2I

Es decir, el mnimo de c x se alcanza en un punto extremo de P : vmi n .


T

7.3 Dualidad
La Dualidad juega un papel destacado en Programacin Lineal y no lineal.
Sirve para caracterizar y verificar la optimalidad de un proceso iterativo y las con58

7 Optimizacin y Programacin Matemtica

diciones en que se da el ptimo, para analizar la sensibilidad de una solucin a


la variacin de los parmetros del problema, para estudiar la velocidad de convergencia de determinados algoritmos de optimizacin que usan su formulacin y
contemplar diversos aspectos geomtricos que permiten interpretar mejor lo que
se est haciendo en la bsqueda de una solucin.
Las ideas y formulacin que exponemos a continuacin siguen enteramente lo
que expone al respecto el libro de Luenberger citado en el apartado de bibliografa. Se basa en una forma elegante y global de contemplar la dualidad en trminos
de conjuntos e hiperplanos que tocan esos conjuntos. Evidencia el papel de los
multiplicadores de Lagrange como definidores de hiperplanos que pueden ser considerados los duales de puntos en un espacio vectorial. Esta forma terica de enfrentarse a la dualidad proporciona una simetra entre los problemas primal y dual,
la cual pude considerarse perfecta si los problemas son convexos. Si no lo son, la
imperfeccin la plasma el denominado gap de dualidad o brecha dual, que tiene
una interpretacin geomtrica muy sencilla en este contexto y mucha importancia
en los algoritmos de programacin lineal y no lineal.
En el problema dual las incgnitas por resolver son los multiplicadores de Lagrange del problema primal, que miden las sensibilidades del primal a variaciones
en los coeficientes que determinan las condiciones de este problema y determinan
como unas penalizaciones que se introducen en su funcin objetivo por no utilizar
adecuadamente los recursos que fijan esas condiciones. La funcin de Lagrange
incorpora as toda la informacin disponible del problema.
La teora global que se expone en este apndice es la base general sobre la que
construir dualidades de tipo local de los diversos problemas lineales y no lineales, incluso sin la existencia de convexidad, o en algoritmos especializados para
problemas de Programacin Lineal como los de punto interior, dual del Smplex,
etc.
De momento vamos a referirnos a problemas de programacin matemtica como
minimizar
f .x/
n
x2R

sujeta a

g.x/  0
x 2 ;

(1)

donde  2 Rn es un conjunto convexo y las funciones, la escalar f W Rn ! R y la


vectorial g W Rp ! Rn , estn definidas en . Este problema no es necesariamente
convexo pero se asume que tiene al menos un punto factible. Esta notacin es perfectamente compatible con otras que se utilizan sin ms que adoptar la convencin
de signos adecuada.

59

 E n is a convex set, and the functions f and g are defined on . The function g
is p-dimensional. The problem is not necessarily convex, but we assume that there
7 Optimizacin
y Programacin
Matemtica
is a feasible
point.
Recall that
the primal function associated with (1) is defined for
p
z E as
La funcin primal asociada a (1) se define, para un z 2 Rp , como

z = inf fx  gx z x 



!.z/ D Knf ff .x/ W g.x/  z; x 2 g:

(2)
(2)

defined by letting the right hand side of inequality constraint take on arbitrary
a ella dejando
que(2)
el trmino
de laon
derecha
de la
quedefinen
values.SeItllega
is understood
that
is defined
the set
Dinecuacin
= z  gx
z, for some
las condiciones pueda tomar valores arbitrarios. Se entiende que (2) est definida
x 
.
para algunos x 2 g.
el conjunto
W g.x/ xz;
If en
problem
(1) D
hasD afzsolution
with value f = fx , then f is the point on
Si el problemap+1
(1) tiene una solucin x  con un valor de la funcin objetivo
the vertical axis
in E
where the primal function passes through the axis. If (1)
igual a f  D f .x  /, entonces f  es el punto de eje vertical de RpC1 donde la
does not
have
a
solution,
f eje.
= inffx
 gxsolucin
0 xese


is de
thecruce
intersection
funcin primal se cruzathen
con ese
Si (1) no tiene
punto
es
point. f  D Knf ff .x/ W g.x/  0; x 2 g.
The duality
principle
is derived
from
all hyperplanes
El principio
de dualidad
se deduce
de laconsideration
consideracin deoftodos
los hiperplanosthat lie
debajo de
funcin primal.
Como
ilustra
figura 7.33,
todos
below que
the quedan
primalpor
function.
Asla illustrated
in Fig.
14.1
thelaintercept
with
thelosvertical

que se indican
se below
cruzan con
vertical
de f  , o en f  .
.
axis ofhiperplanos
such a hyperplanes
lies
(or elat)ejethe
valueporf debajo
w(z)

f*
Hiperplano
debajo de w(z)

Fig. 14.1 Hyperplane below z


Figura 7.33: Hiperplano por debajo de !.z/.
Para expresar esta propiedad se define la funcin dual en el cono positivo de
Rp como


./ D Knf f .x/ C Tg.x/ W x 2  :
(3)

p
En general,  puede que no sea finita dentro del ortante positivo, RC
, pero la
regin donde est definida es convexa.

Proposicin 7.11 La funcin dual es cncava en la regin donde es finita.

60

7 Optimizacin y Programacin Matemtica

D EMOSTRACIN . Supngase que 1 y 2 estn en la regin finita y sea 0  


1. Entonces
.1 C .1

2 // D Knf ff .x/ C .1 C .1

/2 /T g.x/ W x 2 g

 Knf ff .x1 / C T1 g.1 / W x1 2 g


C Knf f.1

/f .x2 / C .1

D .1 / C .1

/.2 /:

/T2 g.x2 / W x2 2 g

Se define   D sup f./ W   0g, suponindose que el supremo se extiende


a toda la regin donde  es finita.
Proposicin 7.12 Forma dbil de dualidad.    f  .

D EMOSTRACIN . Para todo   0 se tiene que

./ D Knf ff .x/ C T g.x/ W x 2 g

 Knf ff .x/ C T g.x/ W g.x/  0; x 2 g


 Knf ff .x/ W g.x/  0; x 2 g D f  :

Adoptando e supremos de .x/ se tiene que    f  .


De acuerdo con este resultado la funcin dual proporciona cotas inferiores del
valor ptimo de f .
La funcin dual tiene una interpretacin geomtrica interesante. Si se considera
el vector 1 T T 2 RpC1 , con   0 y la constante c, el conjunto de vectores
r zT T 2 RpC1 tales que el producto interior 1 T r zT T  r C T z D c
define un hiperplano en RpC1 . Para diferentes valores de c se tiene diferentes
hiperplanos, todos paralelos entre si.
Para un vector dado 1 T T consideremos el hiperplano ms bajo posible de
esa forma que casi toca soporta la regin de encima de la funcin primal del
problema (1). Supongamos que x1 define ese punto de contacto y que r D f .x1 /
y z D g.x1 /. Se tendr que c D f .x1 / C T b.x1 / D ./.
Ese hiperplano se cruzar con el eje vertical en un punto de la forma r0 0T .
Este punto tambin satisfar que 1 T T r0 0T D c D ./. Lo que lleva a
que c D r0 . Por lo que ese punto dar ./ directamente. La funcin dual en 
es igual al punto donde se cruzan el hiperplano definido por  que justo toca el
epigrafo el conjunto de puntos situados por encima del grfico de una funcin
de la funcin primal.
Adems, como indica la figura 7.34, ese punto de cruce (y el valor de la funcin
dual) se maximiza con el multiplicador de Lagrange que corresponde al plano ms
61

438

Chapter 14 Dual and Cutting Plane Methods


7 Optimizacin y Programacin Matemtica

w (z)

gap de dualidad

hiperplano ms alto
z

Figura
7.34:
ms alto.
Fig. 14.2
TheHiperplano
highest hyperplane
alto posible quethis
intercepta
el eje(and
vertical,
siendo
el puntovalue)
de esa intercepcin
menor
Furthermore,
intercept
dual
function
is maximized
by the
o igual que el valor ptimo f  . La diferencia constituye el gap de dualidad.
Lagrange multiplier which corresponds to the largest possible intercept, at a point
Si se incorporan suposiciones de convexidad el anlisis que estamos haciendo
no higher
than the optimal value f . See Fig. 14.2.
se completa con el teorema de la dualidad fuerte cuando no hay gap de dualidad y
By
introducing
convexity
assumptions,
theel propio
foregoing
la interseccin de esos
planos con
el eje vertical es
f  . Seanalysis
puede vercan
en be
strengthened
to give the strong duality theorem, with no duality gap when the
la figura 7.35.
interceptElisteorema
at f . See
14.3.fuerte lo referimos al problema general
de laFig.
dualidad
We shall state the result for the more general problem that includes equality
f .x/ 11.9.
constraints of the form hx = 0,minimizar
as inn Section
x2R
Specifically, we consider the
problem
sujeta a h.x/ D 0

maximize

g.x/  0
fx x 2 ;

subject to hx = 0

(4)

(4)

gx 0

donde h W Rm ! Rn es afn, g W Rp ! Rn es convexa y  es convexo. La


funcin dual de este problema es x 
T

/ D Knf ff .x/ C  h.x/ C  g.x/ W x 2 g;


where h is affine .;
of dimension
m, g is convex of dimension p, and  is a (5)
convex
set. y   D sup f.; / W  2 Rm ;  2 Rp ;   0g.
Un punto x que satisfaga todas las condiciones que se cumplen se dice regular
si los vectores gradiente del conjunto de condiciones activas en ese punto son
r
linealmente independientes. Una funcin
h.x/ es regular con respecto a  si el
(z)

conjunto C D fy W h.x/ D y para algn x 2 g de Rn contiene una bola abierta


en torno a 0; es decir, C contiene un conjunto de la forma fy W jyj < "g para algn
" > 0. Esto viene a decir que h.x/ puede hacerse 0 y variar arbitrariamente en
f *62
=

Optimal
hyperplane

where h is affine of dimension m, g is convex of dimension p, and  is a convex


set.
7 Optimizacin y Programacin Matemtica
r

w (z)

f * =

hiperplano ptimo

Figura 7.35:
Expresin
grficaduality
del teorema
de laThere
dualidad
fuerte
. Nogap
hay gap de
Fig. 14.3
The strong
theorem.
is no
duality
dualidad.
torno a 0 en cualquier direccin. Esta condicin es similar a la definicin de punto
regular en el contexto de las condiciones de ptimo de primer orden.
Teorema 7.13 Teorema de la dualidad fuerte Supongamos que en el problema
(4) h es regular con respecto a  y que existe un punto x 2  en el que h.x/ D 0
y g.x/  0.
Supongamos que el problema tiene como solucin x  con un valor de la funcin
objetivo f .x  / D f  . Entonces, para todo  y todo   0 se cumple que
  f :
Adems, existen unos  y   0 tales que .; / D f  y por lo tanto   D
f  . Los vectores  y  son los multiplicadores de Lagrange del problema.
7.3.1 Dualidad Lagrangiana
Es una forma de denominar lo que acabamos de exponer. La funcin de Lagrange del problema (4) escrito
minimizar
f .x/
n
x2R

sujeta a h.x/ D 0
g.x/  0
x 2 ;
63

(6)

7 Optimizacin y Programacin Matemtica

es L.x; ; / D f .x/

Th.x/

Tg.x/. La funcin de Lagrange dual es


def

q.; / D Knf L.x; ; /:


x

Si las funciones h.x/ y g.x/ son convexas, con   0, la funcin de Lagrange es


convexa y define una cota inferior del valor ptimo de la funcin objetivo de (6).
El problema dual de ste es
maximizar q.; /
sujeta a
  0;
que es siempre convexo.
7.3.2 Dualidad de Wolfe
Es ligeramente distinta de las anteriores. Es la que sirve de referencia a los
mtodos de punto interior. El problema dual es
max. L.x; ; /
s. a rx L.x; ; / D 0
  0:
7.3.3 Ejemplo
En el caso de un problema de Programacin Lineal en forma estndar
minimizar
cT x
n
x2R

sujeta a

Ax D b
x  0;

la funcin de Lagrange es L.x; ; / D c T x


L.x; ; / D T b C c
Su problema dual

T .Ax
AT 

b/

T x, o

T
 x:

n
T o
max. q.; / D Knf fL.x; ; /g D T b C Knfx c A T   x
(
T b si c A T   D 0
D
1 si c A T   0

s. a   0:

64

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

Si c A T   0 el nfimo es claramente 1, por lo que hay que excluir


del problema aquellos  para los que se den esos casos. De acuerdo con ello, el
problema dual queda
maximizar T b
s. a

AT 

 D 0;

  0:

El dual de Wolfe sera exactamente el mismo. El gap de dualidad es



c T x T b D c T x T Ax D x T c A T  D x T :

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

ESDE tiempos de C.F. Gauss, Alemania 1777-1855 y W. Thompson Irlanda,


1775-1833, la equivalencia entre los problemas de ecuaciones en derivadas
parciales con condiciones de contorno y los de clculo de variaciones ha ocupado un puesto destacado en el anlisis matemtico. En un principio el esfuerzo se
concentr en los aspectos tericos de los problemas; posteriormente, dos fsicos,
Lord Rayleigh John William Strutt, Reino Unido 1842-1919 y Walther Ritz,
Suiza 1878-1909, independientemente al parecer, concibieron la idea de utilizar
esa equivalencia para calcular numricamente soluciones de problemas habituales
de fsica mediante la sustitucin de los problemas de clculo de variaciones por
otros ms simples de obtencin de extremos con un nmero finito de parmetros
por determinar.
Sus mtodos atrajeron pronto a ingenieros y fsicos los principios fsicos de
la mecnica son ms sugestivos que las ecuaciones diferenciales y se empezaron a aplicar a muchos problemas cercanos. El resultado era lgica consecuencia
del esquema conceptual de cmo se tratan en anlisis matemtico y en muchos
aspectos de la vida cotidiana los problemas difciles: Un problema P con solucin S se reemplaza por otro ms o menos relacionado o prximo, Pn , ms simple
de resolver, cuya solucin es Sn . Luego se mejora la aproximacin Pn de P de
tal forma que la solucin Sn , paso a paso, tienda a la deseada S . Lo esencial es
escoger la sucesin de aproximaciones Pn de una manera adecuada.
Una de las cuestiones ms interesantes y con ms posibilidades de futuro que
contemplan las aplicaciones de las matemticas para simular y resolver muchos
problemas de la vida cotidiana es el de utilizar modelos matemticos expresados
en forma de ecuaciones diferenciales e integrales que reproducen procesos y fenmenos complejos de la fsica y otras ciencias naturales y sociales cuyos orgenes
65

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

y evolucin suelen estar distribuidos en el tiempo y en el espacio. Se modelan de


esta forma la propagacin del sonido o del calor, la electrosttica, la electrodinmica, la dinmica de fluidos, la elasticidad, la mecnica cuntica, las emisiones de
contaminantes, los fenmenos meteorolgicos, la valoracin de opciones y derivados financieros y muchos otros. El enfoque para resolverlos de forma prctica
sigue exactamente el principio enunciado ms arriba.
La idea esencial que seguiremos en estas notas es la de convertir el
problema con ecuaciones diferenciales, integrales o ecuaciones en derivadas parciales, suponiendo que tiene solucin con unas determinadas caractersticas, en uno formulado en trminos de clculo de variaciones de funciones continuas la minimizacin de un funcional
para as caracterizar en qu condiciones se da una solucin u ptimo
del mismo. Luego se discretiza ese problema continuo con un nmero
infinito de grados de libertad mediante un problema discreto, o sistema de ecuaciones, con un nmero de variables finito y ms fcil de
resolver y se resuelve mediante alguna de las diversas tcnicas que
existen para ello.
Cuando se empieza a trabajar y aprender mtodos numricos para resolver problemas matemticos el de las diferencias finitas sigue ideas muy intuitivas: simplemente se aproxima una derivada de una curva en un punto de ella por una lnea
secante. Si se estudia el mtodo del volumen finito, tambin su idea es bastante
sencilla: cada elemento de volumen es simplemente un pequeo equilibrio del flujo o de fuerzas. El mtodo de los elementos finitos sigue esa senda ms o menos,
con alguna pequea modificacin.
La base matemtica para el mtodo de los elementos finitos se encuentra en el
entorno de los espacios de Hilbert. Un espacio de Hilbert es una manera de tratar
una funcin como un vector, por lo que podemos hacer algunos trucos de matemticas vectoriales con l. Recordemos que un vector es una serie de valores, o
escalares, multiplicados por un conjunto de vectores de una base ortogonal (como
los vectores unitarios que definen la direcciones x, y y z, o los i , j y k). Podemos
utilizar una tcnica paralela para definir una funcin. Primeramente seleccionamos
un conjunto de funciones de base en vez de aquellos vectores (esas funciones deben ser ortogonales entre s) y luego definimos la funcin original como una suma
de unos coeficientes multiplicados por las funciones de la base: de esta forma
uD

1
X

k k ;

kD1

donde cada una de las k es una funcin de la base.


66

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

El siguiente paso es convertir nuestra ecuacin diferencial en algo llamado su


formulacin dbil. Esto se hace bsicamente multiplicando por una funcin de
prueba y luego integrando en el espacio. Sin entrar en los detalles de momento,
se trata de hacer lo mnimo necesario para convertir nuestra ecuacin diferencial
en algo en lo que podamos utilizar nuestras matemticas de espacios vectoriales.
Esencialmente, donde exista una forma de "producto interior", en nuestro caso
con funciones como la de prueba en vez de vectores, y la solucin. Este producto
interior ser una integral y podremos usar integracin por partes para convertirlo
en formatos ms manejables.
Despus nos desharemos de alguna manera de la abstraccin empleada y comprobaremos que realmente estamos tratando con un espacio vectorial de dimensin
finita: los vectores funcin no son infinitos ni estamos sumando infinitos trminos.
Este proceso es lo que se entiende por discretizacin en las tcnicas de los elementos finitos. La discretizacin que se utiliza est determinada por una malla
13
o retcula
como la de la figura 8.36 y normalmente se emplean dos
FEAmesh
Fundamentals
funciones de base a cada lado de un elemento de la malla.
Define the domain
Con esas funciones de base la solucin de nuestra ecuacin diferencial se representara
de esta manera
FEA Fundamentals

Discretize the domain

u D

MESH

n
X

k k :

kD1

La nica diferencia con la expresin anterior es el lmite superior


del sumatorio.
El siguiente paso es hacer
que nuestra funcin de prueba
Figura 8.36: Discretizacin de una pieza sen- sea una funcin de base. Tamcilla.
bin habr que asegurarse que
las funciones base no se superpongan, lo cual garantiza el que sean ortogonales
como pretendamos antes y nos permite aproximar ms fcilmente la solucin en
el dominio de inters. Las funciones de base que se suelen usar son polinomios
(especialmente polinomios lineales o cuadrticos).
Despus de lo que puede parecer que es complicar el problema original agregando toda esta abstraccin y matemticas para llegar a lo que hemos llegado, qu
hemos conseguido realmente? Pues convertir el problema en una ecuacin algebraica matricial sencilla para poderlo resolver por medio del lgebra que conoce13 Una

retcula de por ejemplo 20  20 dara como resultado 441 funciones base nicas.
67

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

mos. Si el problema fuese lineal, simplemente tendremos que resolver la ecuacin


Ax D b.
Para un problema simple com el de la ecuacin de Poisson Simon Denis
Poisson, Francia, 1781-1840
u.x; y/ D

@2 u
@2 u
C
D f .x; y/
@x 2
@y 2

la matriz A es muy fcil de calcular y se denomina la matriz de rigidez en homenaje a los principios de las tcnicas de elementos finitos en problemas de elasticidad.
Esta matriz muy dispersa (con pocos coeficientes distintos de cero) y diagonal
dominante est formada por el producto interior de las funciones de base con
ellas mismas, multiplicadas si es el caso por la constante que aparezca en la ecuacin original. El vector solucin de ese sistema se multiplica por el de las funciones
de base y se obtiene la del problema original, o una que se aproxima mucho a la
misma.
Resumiendo, el procedimiento de resolucin del mtodo de los elementos finitos consta de las siguientes fases u operaciones:
 Conversin del problema original de dimensin infinita, mediante las propiedades de los espacios de Hilbert, en uno similar prximo en un espacio
vectorial de dimensin finita de cara a estudiar la existencia y unicidad de la
solucin.
 Creacin de una formulacin dbil del problema original con la que podamos usar las herramientas de producto interior y medida.
 Discretizacin del dominio de definicin del problema y eleccin de una
base de funciones que sean ortogonales entre si.
 Conversin de los productos interiores entre funciones de base en sistemas
lineales de ecuaciones.
 Resolucin de ese sistema lineal resultante mediante tcnicas de matrices
dispersas.
Las ventajas de este mtodo frente a otros son muchas en bastantes mbitos de
la ingeniera, la ciencia y la investigacin por lo que su extensin y precisin,
as como los algoritmos que emplea, cada vez son ms amplios, ambiciosos y
potentes.
Para concretar con cierto detalle los pasos del mtodo, vamos a desarrollar el
estudio de un problema preciso habitual. Seguiremos esencialmente el trabajo de
Francisco Javier Sayas, [2015], de la Universidad de Delaware, EE.UU.
68

Lesson 1
8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

Linear triangular elements

8.1 Solucin de una ecuacin en derivadas parciales


Consideraremos en lo que sigue el siguiente problema de una ecuacin en deThe model
problem
rivadas1parciales
elptica de
segundo orden con condiciones de contorno:

All along this course we will be working with a simple model boundary value problem,
u.x;
y/put
C the
cu.x;
y/ Donfthe
.x;numerical
y/ dentro
derather
 than on the
which will allow
us to
emphasis
method
intricaciesu.x;
of they/
problem
itself.
For
some
of
the
exercises
and
in
forthcoming
D g0 .x; y/
en la frontera Dlessons we
will complicate things a little bit.
y/ Dthere
g1 .x;
y/ to be a lot of new stuff.
en laTake
frontera
Nto: read it
In this@initial
section
is going
your time
n u.x;
carefully, because we will be using this material during the entire course.

Esta forma de formularlo se denomina forma fuerte.


1.1

The physical domain

 La geometra del entorno fsico esquemtico en el que se desenvolver ser


The first thing we have to describe is the geometry (the physical setting of the problem).
tan
simple como la de la figura 8.37, o una generalizacin de ella. En este
You have a sketch of it in Figure 1.1.

Figure
1.1:Dominio
The domain
and the Dirichlet
Neumann boundaries
Figura
8.37:
dedefinicin
 yand
condiciones
de contorno.
We are thus given a polygon in the plane R2 . We call this polygon . Its boundary

caso
concreto
es curve
un subconjunto
abierto
 2 Rifdwerepresentado
poris un pois a closed
polygonal
. (There is not
much difference
suppose that there
2
lgono en el plano R , pegado o adherido en su frontera a la curva que
3
define , dividida sta en dos partes:
la que define D , que materializan
unas condiciones de contorno de Dirichlet por Johann Peter Gustav Lejeune Dirichlet, Alemania 1805-1859 y la N , con condiciones de contorno de Neumann por Karl Gottfried Neumann, Alemania 1832-1925.
En trminos fsicos, las condiciones de Dirichlet determinan unos posibles
desplazamientos fsicos de esa frontera, mientras que las de Neumann unas
posibles tensiones mximas o mnimas.
 La ecuacin en derivadas parciales propiamente dicha, la primera en la formulacin, se denomina habitualmente ecuacin difusin-reaccin. El trmino que representa la difusin es u y el de reaccin cu, cuando c > 0.
La constante c es no negativa; en principio puede adoptar los valores 0 1.
 La funcin escalar u.x; y/ W R2 ! R, definida en el dominio , es la
incgnita de este problema.
69

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

 La funcin f .x; y/ est definida en  y se puede considerar como una densidad superficial de fuerzas.
 Las dos funciones que expresan las condiciones de contorno, g0 .x; y/ y
g1 .x; y/, estn definidas en dos partes diferentes de la frontera. La funcin
g0 deber ser continua; la g1 puede ser discontinua.
 El smbolo @n designa la derivada normal hacia afuera, es decir
@n u D ru  n;
donde n es el vector unidad hacia afuera en puntos de la frontera y ru es
el gradiente de u. Supondremos que existe.
8.1.1 El problema en forma dbil o variacional
Siguiendo cada uno de los pasos de la estrategia enunciada para resolver este
problema, vamos a formularlo de una forma diferente de la original denominada
forma dbil o forma variacional.
Para ello utilizaremos el teorema de Green por George Green, Reino Unido
1793-1841, a menudo denominado primera frmula o identidad de Green, derivada del teorema de la divergencia, que no es sino una forma de integracin por
partes. Aplicado a nuestro caso dice que
Z
Z
Z
.u/ v C
.@n u/ v:
ru  rv D


La funcin v es una funcin de prueba, continua, en principio definida en  D


 [ . En esa expresin hay dos tipos de integrales: las dos del miembro de la
izquierda son integrales de superficie, en el dominio . La del derecho es una
integral lineal en el borde o frontera . Hemos prescindido de los diferenciales
correspondientes para compactar la notacin. El resultado sera aplicable tambin
a tres dimensiones: las dos integrales de la izquierda seran de volumen; la de la
derecha de superficie. El punto de la segunda integral del miembro de la izquierda
@v
@v
C @u
.
se refiere al producto interior de dos vectores, es decir ru  rv D @u
@x @x
@y @y
La identidad expresada es una consecuencia del resultado del teorema de la
divergencia que dice que para un subconjunto V 2 Rn en el caso de tres dimensiones V representa un volumen como el de la figura 8.38, en principio
compacto, de superficie o borde S continua a trozos (expresada por @V D S ), si F
es un campo vectorial con derivadas parciales de primer orden continuas definido
en un entorno de V , se cumple que

.r  F/ d V D
.F  n/ dS:
V

70

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

Figura 8.38: Regin o volumen V acotada por la superficie o frontera S D @V


con la normal a la superficie n.
Aplicado a una funcin escalar f W Rn ! R y un vector constante c distinto de
cero

c  rf d V C

f .r  c/ d V D

.cf /  d S;

donde d S expresa de forma compacta ndS .


Haciendo f D ru y c D v se tiene la expresin anterior de la primera identidad de Green.
Si sustituimos u D f cu en la expresin obtenida a partir de la identidad
de Green en donde se integra en  y que @n u D g1 en N , despus de reordenar
un poco se llega a
Z
Z
Z
Z
Z
.@n u/ v:
fv C
g1 v C
uv D
ru  rv C c


Como no sabemos el valor de @n u en D imponemos que la funcin v sea cero en


esa parte de la frontera o borde: v D 0 en D . A partir de ah,
Z
Z
Z
Z
fv C
g1 v; si v D 0 en D :
uv D
ru  rv C c


La expresin del miembro de la izquierda es lineal en las funciones u y v. Es una


forma bilineal de las variables u y v. La de la derecha es lineal en v. Todava no
hemos hecho uso de la condicin de Dirichlet en la frontera, u D g0 en D .
La formulacin dbil del problema queda: as: Determinar una funcin u tal
u
Z D g0 en D Z
R
R
ru  rv C c
uv D  f v C N g1 v;
que:

para todo v tal que v D 0 en la frontera D :


71

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

En esta formulacin la condicin de Dirichlet desplazamientos dados se impone como una condicin aparte que ha de cumplir la funcin de prueba v. Se
denomina condicin esencial de borde o frontera. La condicin de Neumann
fuerzas normales aparece como una condicin de frontera natural dentro de la
formulacin del problema.
Como indicbamos anteriormente, la funcin de prueba v chequea la ecuacin
que satisface u. Juega un papel de funcin de ponderacin para comprobar el comportamiento medio de la ecuacin. En alguna referencia interesante se la denomina
desplazamiento virtual para enfatizar que no es una incognita sino algo utilizado
para formular el problema de esta manera: mediante desplazamientos virtuales de
la realidad, si se llega a conocer.
8.1.2 Espacios de trabajo
Hasta ahora hemos dado por hecho que el contexto matemtico donde se desenvuelve este problema y las formulaciones que estamos utilizando cumplen una
serie de requisitos matemticos que permiten su existencia y solucin. Vamos a
formalizarlo un poco. El primer espacio que estamos utilizando14 es el espacio
vectorial de las funciones al cuadrado integrables en , es decir,
Z



L2 ./ D f W  ! R jf j2 < 1 :


Su estricta definicin requerira la introduccin de la integral de Lebesgue15 , la mtrica o medida de Lebesgue y el espacio de Lebesgue
por Henr Lon Lebesgue,
R
Francia 1875-1941. Simplificadamente, si  f .x/ dx es la integral de LebesR
gue de f .x/ y se define la norma kf kLp ./ D .  f p dx/1=p , para 1  p < 1,
los espacios de Lebesgue son


Lp ./ D f .x/ W kf kLp ./ < 1 :
El segundo es el espacio de Sobolev por Sergi Lvvich Sobolv, Rusia
1908-1989. Es une espacio vectorial de funciones dotado de una norma que es
combinacin de normas Lp de la funcin y de sus derivadas hasta un orden dado.
Formalmente para dos dimensiones es



@u @u
1
2
2

H ./ D u 2 L ./
;
2 L ./ :
@x1 @x2
14 Ya

introducido antes en estos apuntes.

15 Que generaliza la nocin de la integral de Riemann extendiendo el concepto de rea bajo una curva

para incluir funciones discontinuas.

72

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

Las derivadas de este espacio se entienden en un sentido dbil16 que hagan que
el espacio sea completo17 y por lo tanto sea un espacio de Banach. La norma
correspondiente de este espacio es
Z
1=2 Z
Z
@u
2
2

kuk1;D
juj
D
jruj C
@x


2 Z

@u

@x

!1=2
2 Z

C juj2
;

denominada en ingeniera norma de energa. Las funciones que usan esta forma
finita son funciones de energa finita. Intuitivamente, un espacio de Sobolev es un
espacio de funciones con derivadas de orden suficiente para un dominio de aplicacin determinado y equipado con una norma que mida adecuadamente tamao y
regularidad en las funciones. Un subespacio de inters de ese espacio H 1 ./ es


H1D ./ D v 2 H 1 ./ jv D 0 en D :

Establecido todo este aparato matemtico, la formulacin dbil del problema


original queda as:

Determinar una funcin u 2 H ./ tal que


1

u
Z D g0 en D Z
Z
Z
ru  rv C c
uv D
fv C


g1 v; para todo v 2 H1D ./:

La condicin que se impone a la funcin de prueba, v 2 H1D ./, es la misma que


v 2 H 1 ./ tal que v D 0 en D ;
lo que quiere decir que v est en el mismo espacio de la funcin que se busca u
pero satisface una versin homognea de la condicin esencial de borde o frontera.
Los datos del problema estn en los siguientes espacios f 2 L2 ./, g1 2
2
L .N / y g0 2 H 1=2 .D /. El segundo espacio restringe el dominio de las integrales en la lnea que marca N en vez de en . Que g0 2 H 1=2 .D / quiere
decir que existe al menos una funcin u0 2 H 1 ./ tal que u0 D g0 en D . De
hecho, todas las dems que cumplen esta condicin pertenecen a u0 C H1D ./
n
o

D u0 C vjv 2 H1D ./ D w 2 H 1 ./jw D g0 en D . Que g0 pertenezca a
H 1=2 .D / significa que no se busca la solucin en el conjunto vaco.

16 Una generalizacin del concepto de derivada a funciones no necesariamente derivables pero si


integrables localmente en el sentido de Lebesgue en un dominio dado  de Lp ./.
17 Si toda sucesin de Cauchy en l tiene lmite.

73

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

8.1.3 Discretizacin del problema en un subespacio de elementos finitos lineales


Como venimos anunciando, la resolucin
del problema
que estudiamos
con
0.4 Piecewise
Polynomial
Spaces
7
el concurso de elementos finitos est basada en la aproximacin del espacio
H 1 ./ mediante funciones polinomiales sencillas por tramos o trozos.
0.4 Piecewise
Polynomial
Spaces
The
Finite
Element
Para conseguirlo
se utiliza una particin
del dominio
de clculo
 en subdominios, a los que se denomina mallado. El ms sencillo es aquel en el que  es
Method
un intervalo de la recta real, por ejemplo el abierto .0; 1/, en el que se tiene la
particin 0 D x0 < x1 <    < xn D 1 dividida en subintervalos Ij D .xj 1 ; xj /
Let 0 =de xlongitud
= 1 be a partition aofx h[0,
1], and let S be the
0 < x1
hj <
D ...
xj < xx
j n1 , j D 1; : : : ; n. Si h D mK
j y Vh es el espacio
0
linear space
offunciones
functions
such
lineal de
v talvque
v 2that
C .0; 1/, vjxi 1 ;xi es un polinomio lineal,
i D 1; : : 0: ; n, perteneciente por tanto a P1 , y v.0/ D 0.
([0,i 1])
i) v Para
C cada
D 1; : : : ; n se define la funcin i de tal forma que
( i = 1, ..., n, and
ii) v|[xi1 ,xi ] is a linear polynomial,
1 si i D j
iii) v(0) = 0.
i .xj / D ij D
;
0 si i j

We will see later that S V . For each i = 1, .., n dene i by the requiredelta de
Kronecker por Leopold Kronecker, Polonia 1823-Alemania 1891,
ment that
i (xj ) = ij = the Kronecker delta, as shown in Fig. 0.1.
segn se indica en la figura 8.39. Se tiene que fi W 1  i  ng es una base de Vh .
i

xi

Figura 8.39: Funcin de base lineal por tramos.

Fig. 0.1. piecewise linear basis function

i
El conjunto fi g es una base nodal de Vh y fv.xi /g son los valores nodales
de una
funcin v. Los puntos .xi / se denominan nodos o nudos.
(0.4.1) Lemma.
n} 1/,
is ael basis
Dada una{
funcin
v 2i
C 0 .0;
interpolante,
o funcin de interpolacin,
i: 1
Pn for S.
vh 2 Vh de v se obtiene mediante vh D
v.x
/i como se aprecia en la
i
i D1
figura 8.40. Si v 2 Vh ) v D vi .
(0.4.2) Remark.
{i }quizs
is called
a nodal basis for S, and {v(xi )}unare
the nodal
Otra particin
la ms utilizada consiste en triangularizar
domicalled the
values of
v. (The
points
{xi } aretringulos
nio adefunction
dos dimensiones,
como
, en pequeos
que lonodes.)
cubran entera
mente. En la figura 8.41 se ve la correspondiente al dominion con el que venimos
Proof. The
set {i }enisestas
linearly
i=1 ci i (xj ) = 0 implies
experimentando
notas. independent since
seesimplificar
that it se
spans
S,
consider
the
following:
cj = 0. ToPara
supone que la frontera o borde, , del dominio  es una
curva poligonal. Si no lo es, primero se le aproxima a un polgono. La triangulari-

0
(0.4.3) Denition. Given
1]), the interpolant vI S of v is
74
n v C ([0,
determined by vI : = i=1 v(xi )i .

We will see later that S V . For each i = 1, .., n dene i by the require
ment that i (xj ) = ij = the Kronecker delta, as shown in Fig. 0.1.
8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

Vh

xi

Figura 8.40: Aproximacin mediante vh de una funcin de base lineal por tramos.

Fig. 0.1. piecewise linear basis function i

(0.4.1) Lemma. {i : 1 i n} is a basis for S.

(0.4.2) Remark. {i } is called a nodal basis for S, and {v(xi )} are the noda
values of a function v. (The points {xi } are called the nodes.)
n
Proof. The set {i } is linearly independent since i=1 ci i (xj ) = 0 implie
cj = 0. To see that it spans S, consider the following:

0
(0.4.3) Denition. Given
n v C ([0, 1]), the interpolant vI S of v i
8.41:
del dominio .
v(xTriangularizacin
determined by vI : =Figura
i )
1.5:i .A triangulation of
i=1Figure
x2

conjunto
de tringulos
Th D K1 ; : : : ; Km que
Clearly,zacin
the consiste
set {ien
} dividir
spansSenifunthe
following
is true.

no se solapen y que solo compartan lados completos, o lo que es lo mismo, que


K
ningn vrtice de ningn tringulo caiga
en K
algn lado de otro. Se cumplir que
(0.4.4) Lemma. v S v = vI .
[
K D K1x 1[ K2    [ Km :
D

Proof. v vI is linear on each [xi1 , xi ] and zero at the endpoints, henc


K2Th
must be identically zero.
We

Figure
1.6: es
Two
triangles with a common edge
El subespacio Vh de
H 1 ./
ahora
approximation theorem for the interpolan

will now
prove
the following
funciones interesting
v 2 C./aspect
vjK es lineal
2 T ; v D 0 en ;
There Vish aDparticularly
of thispara
basistodo
of VK
h thathmakes it especial. In

general if you have a basis of Vh you know that you can decompose
elements of Vh as a

donde
vjK 2
PLet
athe
la elements
funcin
a K..is,
Recordemos
que P1 es el
1 se refiere
xthe
Then
(0.4.5)unique
Theorem.
h =of max
xi1
linear
combination
basis,
that
1invofrestringida
i

for

espacio de polinomios lineales del tipo a0 C a1 x1 C a2 x2 , donde los coeficientes


N
u de
uIcada
X

Ch u
a0 , a1 y a2 seran los parmetros
tringulo.
uh = E uj j
Los parmetros que definirn la funcin v 2 Vh sern los valores v.Ni / de v en
j=1
all los
u nodos
V, N
where
C is independent
of h and u.
i ; i D 1; : : : ; M de Th excluyendo aquellos en los bordes pues v D 0
is en
a general
the coefficientsdel
aredominio
preciselyson
the los
values
of uh
. Loselement
valores of
deVlos
nodosthis
de basis,
la triangularizacin
grados
h . With

on the nodes, that is, uj = uh (pj ). Hence, the coefficients of uh in this basis are something
more than coefficients: there are values of the
75 function on points.
An important result. As you can see, when defining the space Vh we have just glued
together P functions on triangles. Thanks to the way we have made the triangulation

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

de libertad que determinan un elemento de Vh . Una numeracin de esos nodos


para nuestro dominio de trabajo sera la de la figura 8.42. Los nodos se indican
mediante el vector xi , donde i D 1; : : : ; M , el nmero de nodos.
14
10
5
15

11

6
2

16
12

18

3
1

14
10
8

17

4
13

15

11

69

16

12 los nodos del dominio


18 .
Figura 8.42:
Numeracin
de
7
Figure
1.7: Global
numbering of nodes.
3

Si se fija un 1nodo del dominio y se le asocia el valor 1 y 0 a todos los dems,


existe una funcin nica i 2 Vh ,8funcin de base de 17
nodo, tal que
4
(
13
1 si i D j
i .xj / D ij D 9
; i; j D 1; : : : ; M:
0 si i j
El aspecto de una de estas funciones es el de la figura 8.43. Si un tringulo K no
Figure 1.8: The Figure
graph of1.7:
a nodal
basisnumbering
function: it of
looks
like a camping tent.
Global
nodes.
i

restricted to each triangle it is a polynomial (or smooth) function. Then


uh H 1 ()

uh is continuous.
xi

There is certain intuition to be had on why this result is true. If you take a derivative of
a piecewise smooth function, you obtain Dirac distributions along the lines where there
are discontinuities. Dirac distributions are not functions and it does not make sense to
see if the are square-integrable or not. Therefore, if there are discontinuities, the function
fails to have a square-integrable gradient.

Figura
funciones
base deitloslooks
nodos
Figure
1.8:8.43:
The Grfica
graph ofdealanodal
basis de
function:
likedela dominio
camping .
tent.

2.4 a xDirichlet
tiene
de sus vrtices, i es cero en todo el tringulo pues el valor de
i como unonodes
restricted
to todos
each triangle
it is es
a polynomial
(or smooth)
Then
laSo
funcin
en
sus
vrtices
cero. El
soporte
por
tantofunction.
inot
la
far we have taken into account
the discrete
version
of the
domain
de
but
theenvoltura
partition
del
conjunto
depuntos
donde
i no
es cero es We
la misma
que
la unin
de todos
of its
boundary
into
Dirichlet
Neumann
first need
some
terminology.
A
uh
H 1 ()and
sides.
uh is continuous.
Dirichlet
edge que
is ancomparten
edge of a triangle
thatvrtices.
lies on DVer
. Similarly
a Neumann edge is an
los
tringulos
xi como
figura 8.44.
edge of a triangle that is contained in N . The vertices of the Dirichlet edges are called

ThereDirichlet
is certainnodes.
intuition
be had
this result
is true.
If you to
take
derivative of
The to
doubt
may on
arisewhy
in transitions
from
the Dirichlet
the aNeumann
a piecewise
function,
you belongs
obtain to
Dirac
distributions
along
the
lines
where there
part of smooth
the boundary.
If a node
both

and

,
it
is
a
Dirichlet
node.
N
D
76
are discontinuities. Dirac distributions are not functions and it does not make sense to
see if the are square-integrable or not. Therefore,
if there are discontinuities, the function
15
fails to have a square-integrable gradient.

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

1.9: Supports
two nodal basis
functions
Figura 8.44:Figure
Soporte
de dos offunciones
de base
del dominio .

Una funcin cualquiera uh 2 Vh se representa entonces como


uh D

M
X

j D1

uh .xj /j .xi / D

M
X

j D1

uh .xj /j i D

M
X

uh .xj /j :

j D1

El conjunto fi ; i D 1; : : : ; M g es una base de Vh .


Hasta ahora no hemos tenido en cuenta si los nodos de la frontera estn en el
segmento de borde tipo Dirichlet o Neumann. Si tenamos hasta ahora el espacio


v domain
Figure 1.10: Dirichlet
nodes
to the
as depicted
H1D ./
Dcorresponding
v 2 H 1 ./
D 0; en
D ; in Figure 1.1
truth, in parallel to what happens with how the Dirichlet and Neumann boundary
ahora nosIninteresa
conditions are treated in the weak formulation, we will inherit two different discrete


entities:
VhD D Vh \ H1D ./ D vk 2 Vh vh D 0; en D :
Dirichlet nodes, and

La idea es llevar
constancia
de qu nodos son Dirichlet Dir y cules no, indeNeumann
edges.
pendientes, Ind. En el caso del ejemplo que tratamos,
Let us now recall the space

1
{v 15;
H 1 ()
=0
Dir DHf9;
13;= 14;
17;| v18g
()
D

on D }.

We might be interested
the 2;
space
Ind Dinf1;
3; 4; 5; 6; 7; 8; 10; 11; 12; 16g :
V D = V H 1D () = {v V | v = 0,

on }.

h
h
h
D
Entonces, un elementoh de Vhh se podra escribir
como
X
X16
uh D
uj j C
uj j ;
uj D uh .xj /
j 2Ind
j 2Dir

y uno de VhD as
uh D

j 2Ind
77

uj j :

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

8.1.4 Reformulacin del problema como un sistema de ecuaciones lineales


Recapitulando, el mtodo nos ha hecho llegar a la siguiente formulacin para
determinar la funcin uh

Determinar una funcin u

h 2 Vh tal que
uh .xj / D g0 .xj / 8j 2 Dir
Z
Z
Z
Z
ruh  ri C c
uh i D
f i C


g1 i ; 8i 2 Ind:

Para ello:
 Hemos convertido el espacio de Sobolev en el que buscamos la funcin solucin en uno de dimensin finita, Vh . Es decir, hemos reducido el problema
a calcular uh en los vrtices de una triangularizacin los nodos y a un
nmero finito de incgnitas.
 Hemos sustituido las condiciones tipo Dirichlet fijando condiciones a los
nodos Dirichlet, lo que reduce an ms el nmero de incgnitas: a los nodos
independientes.
 Hemos reducido el espacio de prueba de H1D ./ a un subespacio discreto
VhD , lo que reduce un nmero infinito de pruebas en la formulacin dbil a
un nmero finito de ecuaciones lineales.

Para obtener finalmente el sistema de ecuaciones lineales escribimos uh en


trminos de las funciones de base de los nodos:
X
X
uj j :
uj j C
uh D
j 2Dir
j 2Ind
Luego sustituimos en esta expresin las condiciones de Dirichlet discretizadas:
X
X
uh D
uj j C
g0 .xj /j :
j 2Ind
j 2Dir
Finalmente incorporamos esta expresin en la formulacin variacional discreta:
Z
Z
Z
Z
ruh  ri C c
uh i D
f i C
g1 i ;


linealizando, teniendo en cuenta que


X
X
ruh D
uj rj C
g0 .xj /rj
j 2Ind
j 2Dir
78

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

y reordenando llegamos a
i Z
j 2Ind

rj  ri C c


Z
Z
j j uj D
f i C


i Z
j 2Dir

rj  ri C c

g1 i


j j g0 .xj /:

Este es un sistema de ecuaciones lineales con un nmero de ecuaciones igual al


nmero de incgnitas (# Ind D dim VhD ), que son precisamente los valores de la
funcin uh en los nodos libres de la triangularizacin llevada a cabo.
Hay dos matrices importantes en este sistema de ecuaciones, la matriz de rigideces,
Z
W ij D
rj  ri


y la matriz de masas

M ij D

j i :


Ambas son simtricas. La de masas


positiva. La de rigideces semidefiR es definida
R
nida positiva. Si hacemos bi D  f i C N g1 i , i 2 Ind, se llega a
i

W ij C cM ij uj D bi
j 2Ind

W ij C cM ij g0 .xj /;
j 2Dir

i 2 Ind:

Estas matrices poseen patrones de dispersidad muy pronunciados pues slo interactan nodos que estn unidos entre si por lados de tringulos. Ello las hacen propicias para ordenaciones en torno a la diagonal principal. Su manipulacin es sencilla
y las operaciones necesarias para resolver los gigantescos sistemas de ecuaciones
lineales a que pueden dar lugar son perfectamente tratables por los ordenadores
disponibles actualmente.

8.2 Algo sobre funcionales y clculo de variaciones


Un funcional es una funcin que tiene funciones como argumento a las que
asigna un valor real. Es decir, una funcin cuyo dominio es un conjunto de funciones. En la figura 8.45 se esquematiza18 la diferencia entre una funcin ordinaria y
un funcional.
18 Fuente: http://www.colorado.edu/engineering/CAS/courses.d/AVMM.d/AVMM.Ch01.d/AVMM.Ch01.pdf.

79

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales
Chapter 1: VARIATIONAL CALCULUS OVERVIEW
Input: argument x
(independent
variable)

Function
operator

Output: function
value y (dependent
variable)

y=y(x)=f(x)

(a)

FUNCIONES
Input 1: argument x
(independent
variable)

(b)

Functional
operator

Output: functional
value J (a scalar)

y=f(x)

J(y)=J(x,y)

Input 1: argument x
(independent
variable)

(c)

Input 2: function
y=y(x) (primary
dependent variable)

Input 2: function
y=y(x) (primary
dependent variable)

Functional
operator

y=f(x)

Input 3: derivative
of primary
dependent variable

Output: functional
value J (a scalar)

J(y)=J(x,y,y')

y'=dy/dx

FUNCIONALES

Figure 1.1. Block diagrams that illustrate key differences between functions and functionals in one dimension.

(a) An8.45:
ordinary
function y = de
y(x)bloques
= f (x) of the
x; (b) a functional
J [y]
J (x, y)
of
Figura
Diagrama
queindependent
ilustra variable
la diferencia
formal
en= una
dimenthe function y(x); (c) a functional J [y] = J (x, y, y  ) of the function y(x) and its derivative y  = dy/d x.
sin entre una funcin ordinaria y un funcional. (a) Una funcin ordinaria y D
y.x/ D f .x/ de una variable independiente x; (b) Un funcional J.y/ D J.x; y/
1.2.3.
Basic 1Dy.x/;
Functional
de la funcin
Un funcional J.y/ D J.x; y; y 0 / de la funcin y.x/ y su
0
derivada y D dy=dx.

To keep things simple, in this Chapter we focus on one specific type of functional, called the basic
one-dimensional functional. It has the form (1.2), under additional restrictions:
 b bsico unidimensional lineal ms tpico tiene la forma
El funcional


J [y] =

F x, y(x), y  (x) ,

x = [a, b],

a b,

y(a) = y ,

y(b) = y .

(1.3)

a
b
Z ab

J.y/ D F x; y.x/; y 0 .x/ dx; x D a; b; a  b; y.a/ D yOa ; y.b/ D yOb :

In words: theafunction y = f (x) is defined over the segment x [a, b], a b, of the real line.
Given x, y is assumed real and unique; that is, y(x) is single-valued. Furthermore y(x) possesses
En appropriate
palabras, smoothness
la funcin so
y that
D y.x/
definida
en el segmento
x2
a;function
b, a must
b,
as well
as the integral
in (1.3), exist.
That
the
y  (x), est
satisfy
the stated
conditions
x = se
a and
x = b,real
at which
ya = Adems,
y(a) and yby.x/
= y(b)
given.3
de la recta
real.end
Dado
un x, aty.x/
supone
y nico.
es are
continua
0 be called essential.
Those
boundary
y derivable
porconditions
lo que ywill
.x/ existe al igual que la integral enunciada. La funcin

The
since it belongs
to a class ofde
problems
that
debebasicfunctional
satisfacer en(1.3)
x Disahistorically
y en x D interesting
b unas determinadas
condiciones
contorno:
prompted
the birth and
development
variational
calculus in the XVIII Century. But it also serves
concretamente,
yOa D
y.a/ y yOof
D
y.b/.
b
as a good expository tool. Some specific examples follow.

As era cmo la palabra funcional fue utilizada inicialmente en el clculo de


variaciones, donde el integrando a ser minimizado deba ser un funcional, aplicada
a3 una todava desconocida funcin que satisfaca solamente una cierta condicin
The overhat over a symbol will be often used to denote prescribed values.
de contorno, y condiciones de derivabilidad.
Otro funcional lineal habitual es la 16
funcin delta de Dirac por Paul Adrien
80

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

Maurice Dirac, Reino Unido, 1902-1984


t f ./ D f .t /
Rb
que se puede escribir tambin como t f ./ D a f .x/.x t / dt.
Un problema de clculo de variaciones o problema variacional tpico sera el
de encontrar la funcin y 2 a; b ! R que minimiza el funcional anterior, J.y/,
con las condiciones de contorno indicadas.
En varios campos de la ingeniera, la fsica matemtica, el reconocimiento de
imgenes y otros muchos, el clculo de variaciones es un interesante problema
matemtico consistente en buscar mximos y mnimos (o ms generalmente extremos relativos) de funcionales continuos definidos sobre algn espacio funcional.
Constituyen una generalizacin del clculo elemental de mximos y mnimos de
funciones reales de una variable. Muchos problemas de este tipo19 son fciles de
formular pero sus soluciones implican a menudo, a su vez, difciles procedimientos
de clculo diferencial, los cuales generalmente suponen usar ecuaciones diferenciales ordinarias Ordinary Differential Equations, as como las ecuaciones
(diferenciales) en derivadas parciales Partial Differential Equations.
FUNCTIONALS
FUNCTIONS
En la figura 8.46 se pueden ver algunos1.2
problemas
clsicos VERSUS
de funcionales
en
una dimensin.
y

;;;;;
;;;;;
;;;;;
;;;;;

(a)

y=y(x)

y(a)=y^

(b)
Arclength L

Area A

x=a

Constant
gravity g
Straight line
Cycloid

y(b)=y^ b

x=b

(c)

Parabola

x=b

x=a

x=a

x=b

1.2. Canonical one-dimensional functionals used in the examples of ?. (a) area under
Figura Figure
8.46: Ejemplos
unidimensional
clsicos de funcionales: (a) rea debajo de
curve; (b) curve arclength, (c) brachistochrone. R p
Rb
b
una curva, a y.x/ dx; (b) Longitud de un arco de curva, a 1 C .y 0 .x//2 dx;
q
R
0 .x//2
b area1C.y
Example
1.1. Area
Under Curve. The
subtented
bydx.
y(x) and the real axis is given by
(c) Curva
braquistcrona,
a
2gy

A=

y(x) d x.

(1.4)

a
Por regla general, no todas las funciones
pueden encajar en un funcional. La
figura
tipos deinfunciones
permitidas y otras no permitidas,
See
Figure8.47
1.2(a).ilustra
This hasalgunos
the form illustrated
Figure 1.1(b).
grosso modo.
Example 1.2. Curve Length. The length of the curve y(x) between x [a, b] and satisfying the given end
Si seis considera
un funcional general
conditions
given by
Z x2b 
1 + (y  )2 0d x.
(1.5)
L=
I D
a F .x; y; y / dx

1 Figure 1.2(b). (If this L is uniquely defined by this integral


in which the + sign of the square root is taken. See
19 Poris
the curve
said
to
be
rectifiable.)
This
functional
has the
in Figure
1.1(c), except that there
ejemplo el de encontrar la curva de longitud
msform
cortaillustrated
que una dos
puntos.
is no explicit dependence on y; only on its slope.

81

Example 1.3. Brachistochrone. This is illustrated in Figure 1.2(c). A point-mass body is released at A at zero
time. It is constrained to move under the influence of constant gravity g acting along y and without friction,
along a curve y = y(x) that ends at B, which is lower than A. (The mass is pictured as a rolling disk in the
figure, but it is actually a sliding point no rotation is involved.) The curve y(x) is called the trajectory or

8 Sobre
mtodo de los elementos
finitos para resolver
ecuaciones en derivadas parciales
Chapter
1:elVARIATIONAL
CALCULUS
OVERVIEW

(a)

(b)
1

1
2

A
y(a)=y^a

y(b)=y^b

y(a)=y^a

x=b

x=a

y(b)=y^b

3
4

x=b

x=a

Figure 1.3. Visualization of function admissibity concept as regards (1.3): (a) sample admissible functions

Figura
Muestrario
de(i.e.,
funciones
admisibles
enandunessential
funcional:
(a) Funciones
unique tangent
at each point),
BC, and single
valuedness;
y(x) over8.47:
that satisfy:
C 1 continuity
(b) sample inadmissible
violatepara
one orcada
more x
of the
foregoing
conditions:
1 and 3 have
continuas,
C 1 , confunctions
un slothatvalor
y que
cumplen
las curves
condiciones
de
corners, curve 2 is discontinuous, curve 4 is multivalued, and curve 5 violates the right essential BC.
contorno; (b) Inadmisibles: La 1 y la 3 tienen derivadas discontinuas; la 2 es discontinua y admite varios valores para un x; la 4 admite varios valores para un x y
function
rather
than just
a number. A function
that is permissible as input to a functional is called
la 5 no
cumple
las condiciones
de contorno.

admissible. The set of such functions is the admissible class with respect to the functional under
consideration. The following general guidelines may be offered.

dondeSmoothness.
F es una Admissible
funcin conocida
derivadas
continuas
hasta
segundo
orden for
Function
functionscon
are usually
chosen
to have the
minimal
smoothness
which
the integration
makes sense.
For example,deif la
thefuncin
functional
has the
respecto
a x, y yover
y 0 . the
El problem
valor dedomain
I depender
de la trayectoria
entre
that it is reasonable
to ask that
y(x)
have
integrable derivatives.
form.x(1.2)
ofes
y  means
/ ypresence
.x2 ; y2 /;
decir, depender
de la funcin
y.x/
que
se escoja.
1 ; y1the
For this Si
to happen,
it is sufficient
that y  (x)
be piecewise
continuous. Requiring y(x) C 1 over the
se introduce
como prueba
la familia
de trayectorias
domain would be overkill but safe.
y.x/
Q such
Dasy.x/
End Conditions. Prescribed end values,
y(a)C=".x/;
ya , and y(b) = yb in (1.3), must be satisfied
a priori. As previously noted, this kind of specification is called an essential boundary condition.
donde
" es un This
parmetro
y .x/
una funcin
a la que
se letopide
que the
Single
Valuedness.
requirement
is optional.
It isderivable
often stipulated
a priori
simplify
.x
/
D
.x
/
D
0,
resulta
que
se
pueden
generar
una
infinidad
de
trayecto1
2
formulation and analysis. But it must be abandoned for certain problems. For example, those that
rias para
una
.x/ordada
sin4 ms que variar el parmetro ". Todas ellas pasan por
involved
closed
curves
spirals.

y1 / y .x2Values.
; y2 /. Consideremos
1 ; Complex
Real.xor
If the functional is intended to model a physical problem, the choice
Z generality.
Z xit2 is a fielders choice re
should be obvious. Else
x2
0

y C "; y C(1.3).
" / dx
IQ D admissible
F .x;function
y;
Q yQ / dxclasses
D for F
Figure 1.3 illustrates
the.x;
basicfunctional
Three requirements
x1
1
the function must be continuous and possess
are laid down: (1) y(x)xis
real and C 1 [a, b], whence
continuous first derivatives; (2) satisfy essential
BC at both ends; and (3) be single valued. All
Es evidente que los funcionales I y IQ alcanzarn el mismo valor extremo (valor
curves drawn in Figure 1.3(a) are admissible in this sense, whereas those in Figure 1.3(b) are not;
mximo
o mnimo)
cuando " D 0. Desarrollando, se tiene que
see figure
legend
as to why.

!
d 2 IQ
"2
"C
C 
" it gives variational
d "2 calculus
2 its name. It is an extension
The concept of variation is fundamental d
since
"D0
"D0
!

d IQ
1.2.5. Variation and Extrema of a Function
IQ D .IQ/"D0 C

of the well known concept of differential in standard calculus. This is briefly reviewed below.

Para que
I sea extremo
cuando
D 0 es
necesario
Consider
an ordinary
1D function
y(x),"where
y and
x are realque
and y(x) possesses unique derivative

!
y (x) at each x in the problem domain x [a, b]. Change a given x bytto x + x. The function
4

d IQ
D 0:
Sometimes single valuedness may be often restored
d "through a parametric representation in non-Cartesian coordinates.
This is often the case with isoperimetric problems.

"D0
82

18

8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

Es decir que

Z

x2

x1

@F d yQ
@F d yQ 0
C 0
@yQ d "
@yQ d "

dx

"D0

D 0:

Dado que d y=d


Q " D , que d yQ 0 =d " D 0 y que quitar las tildes de yQ y de yQ 0 en
las derivadas de F es lo mismo que hacer " D 0 segn se requera ms arriba, la
ecuacin anterior se puede reescribir as:

Z x2 
@F
@F 0
 C 0  dx D 0:
@y
@y
x1
Integrando por partes el segundo trmino,
x 2 Z


Z x2
x2 
@F 0
d
@F
@F

dx
D

 dx:

0
@y 0
dx @y 0
x1 @y
x1
x1

Cuando  D 0 en los extremos la primera expresin del miembro de la derecha de


esta ecuacin se hace cero. Sustituyendo lo que queda en la anterior se tiene que


Z x2 
@F
d
@F
 dx D 0:
@y
dx @y 0
x1

Cualquiera que sea la funcin .x/ entre los puntos extremos, segn la frmula de
Euler-Lagrange se tiene que
d @F
dx @y 0

@F
D0
@y

que es la condicin que debe cumplir y.x/ para ser un mximo o un mnimo: un
extremo. Si en esta expresin se sustituye F por su expresin F .x; y; y 0 / resulta
una ecuacin diferencial de segundo orden en y.x/.
8.2.1 Proposiciones esenciales
Lema 8.1 Lema fundamental del Clculo de Variaciones Sea M.x/ una funcin
continua definida en el intervalo a  x  b. Supongamos que para cualquier
funcin continua .x/ se tiene que
Z

M.x/.x/ dx D 0:

Se cumple entonces que


M.x/ D 0 para todo x 2 a; b:
83

Proof Suppose M (x) is not zero at some point x0 (a, b). Suppose for deniteness that M (x0 ) > 0. Then by continuity there is a > 0 such that
8 Sobre el mtodo de los elementos finitos para resolver ecuaciones en derivadas parciales

M (x0 )
M (x0 )
< M (x) M (x0 ) <
for |x x0 | < with x [a, b].
2
2
D EMOSTRACIN . Supongamos que M.x/
no es cero en algn punto x0 2 .a; b/.

Concretamente
M.xin0 /that
> 0.interval.
Por la continuidad
M.x/,
Thus,
M (x) > Mque
(x0 )/2
Now choosede
(x)
suchexiste
that un > 0 tal
que

if a x a1 = max(x0 , a)

M.x0 /
> 0 / <if M.x
|x 0x/0 | <
(x) = M.x
, jx
x [a,
< M.x/
para
x0b]
j < con x 2 a; b:

0 0 if min(x
2
2 0 + , b) = b1 x b.

Enthe
consecuencia,
M.x/
See
Figure 15.17.
Then> M.x0 /=2 en ese intervalo. Escojamos una funcin

M( x0 )
M( x0)
2

.x/

x 0

x0

x 0 +

FIGURE 15.17

Figura 8.48: Lema fundamental del Clculo de Variaciones.


 b

 b1

1
2

= como
M (x)(x)dx
M (x)(x)dx
> M (x0 )
.x/ tal0 que,
se ve en =
la figura
8.48,

.x/ D

a1

 b1

(x)dx > 0,

a1

si a  x  a1 D mKax.x0 ; a/
> 0 si jx x0 j < ; x 2 a; b
0
si mKn.x0 C ; b/ D b1  x  b:

Se tiene entonces que


0D

M.x/.x/ dx D

b1

M.x/.x/ dx >

ai

1
M.x0 /
2

b1

.x/ dx > 0;
a1

lo cual es una contradiccin.


Si M.x0 / < 0 el argumento sera idntico sustituyendo M.x/ por M.x/. Si
x0 D a o x0 D b la demostracin sera casi igual con pequeas modificaciones en
la lnea argumental.
Corolario 8.2 El resultado del Lema 8.1 sigue siendo aplicable si
.a/ D .b/ D 0:
84

9 Anlisis de componentes principales

Corolario 8.3 Supngase que M.x/ es continua en el intervalo I D a; b y que


f'n .x/g1
nD1 es un conjunto de funciones base. Supngase adems que
Z

b
a

M.x/'n .x/ dx D 0 para n D 1; 2; : : :

Se cumple entonces que M.x/ D 0 para todo x 2 a; b.


Lema 8.4 Sea M.x/ una funcin continua en a  x  b. Supongamos que para
cualquier funcin continua .x/, de derivada continua, se tiene que
Z

M.x/ 0 .x/ dx D 0

para .a/ D .b/ D 0. Se cumple as que M.x/ D ct e para todo x 2 a; b:


Lema 8.5 Sea M.x/ una funcin continua definida en el intervalo a  x  b.
Supongamos que para cualquier funcin continua .x/, de derivadas continuas
al menos hasta segundo grado, se tiene que
Z

M.x/ 00 .x/ dx D 0

para .a/ D .b/ D 0 y  0 .a/ D  0 .b/ D 0. Se cumple entonces que M.x/ D


c0 C c1 x para todo x 2 a; b, donde c0 y c1 son constantes.

9 Anlisis de componentes principales

L anlisis de componentes principales ACP en espaol, PCA en ingls


tiene como objetivo representar la informacin de n observaciones de p variables con un nmero sustancialmente menor de unas nuevas variables construidas
como combinaciones lineales de las originales. Sirve para hallar las causas fundamentales de la variabilidad de un conjunto de datos y ordenarlas por importancia.
Es uno de los instrumentos bsicos del anlisis de datos y del Big_Data que tanto
inters despiertan en la actualidad para explicar multitud de tendencias y comportamientos de la vida cotidiana.
Tcnicamente, el ACP busca la proyeccin del espacio original de variables en
un subespacio en el cual los datos queden adecuadamente representados en trminos de mnimos cuadrados lineales de unos componentes principales variables
85

9 Anlisis de componentes principales

artificiales independientes entre s, perdindose la menor cantidad de informacin original posible. Comporta el clculo de la descomposicin en valores propios de la matriz de covarianza de los datos, una vez centrados en la media de cada
atributo. La PCA Es una extensin inmediata de lo apuntado en la seccin 4.3.2
dedicada a valores singulares de este documento, en la pgina 28.
El anlisis de componentes principales fue formulado por Harold Hotelling,
EE.UU. 1895-1973. Sus orgenes se remontan al trabajo sobre ajustes ortogonales
por mnimos cuadrados de Karl Pearson, Reino Unido, 1857-1936. Permite transformar las variables originales de los datos de un problema, en general correladas,
en un nmero menor de nuevas variables incorreladas, facilitando as la interpretacin de esos datos.

9.1 Algunos conceptos de estadstica


Sea X 1    X n una matriz p  n de n observaciones de p variables. La media
de esta muestra es
Pn
Xi
X D iD1
:
n
La desviacin tpica, o estndar,
s
2
Pn
X
i D1 X i
:
 .X / D
n
La varianza, medida de la dispersidad de la muestra, es la desviacin tpica al
cuadrado, esto es,
2
Pn
X
iD1 X i
var.X / D
:
n
El grado de asociacin lineal ms simple de cada variable con las dems, dos a
dos, es lo que configura la matriz de covarianzas, de dimensin p  p,

2
Pn
X Yi Y
i D1 X i
cov.X ; Y / D
D :
n

Si la covarianza entre dos variables es positiva, cuando una de ellas se incrementa


la otra hace lo mismo. Si es negativa, cuando una de ellas se incrementa, la otra
decrece. Si es cero, las dos variables son independientes entre si. Los coeficientes
de la diagonal principal de la matriz de covarianzas son las varianzas de cada
variable individual. La matriz de covarianzas es simtrica. La varianza total de los
datos es la suma de cada varianza individual por lo que la traza de la matriz de
covarianzas es precisamente esa varianza total. En la figura 9.49 se ilustran unos
patrones de datos y las matrices de covarianzas correspondientes.
86

9 Anlisis de componentes principales

Figura 9.49: La matriz de covarianzas expresa la forma de los datos. La variabilidad en torno a la diagonal la determina la covarianza mientras que alrededor de
los ejes la define la varianza
La matriz de covarianzas es semidefinida positiva, es decir, x Tcov.X ; Y /x  0
para cualquier vector x 0.
La covarianza como medida de asociacin tiene el inconveniente de que depende de las unidades de medida de las variables. Si por ejemplo la covarianza entre la
estatura de una persona, medida en centmetros, y su peso, en gramos, es 200, si se
expresa el peso en kilogramos, la covarianza ser 0;002. Para construir una media
adimensional se divide la covarianza por un trmino con sus mismas dimensiones.
Se define as el coeficiente de correlacin y a partir de l la matriz de correlacin,
de dimensin tambin p  p, es
corr.X ; Y / D

cov.X ; Y /
D R:
 .X / .Y /

Se utiliza para estandarizar los diversos datos. Es tambin semidefinida positiva.


La matriz de covarianzas y la matriz de correlacin estn relacionadas mediante
la expresin
corr.X ; Y / D D 1 cov.X ; Y /D 1 ;
87

9 Anlisis de componentes principales

donde D es una matriz diagonal construida con las desviaciones tpicas de las
variables.
Una medida global escalar de la variabilidad conjunta de k variables es la varianza generalizada, que es el determinante de la matriz de covarianzas. Mide
aproximadamente el rea, volumen o hipervolumen ocupado por el conjunto de
datos.
La matriz de covarianzas o la matriz de correlacin determinar si existen
altas correlaciones entre las variables y por tanto existe informacin redundante entre ellas, es decir, una misma informacin vista desde varios perspectivas.
Cuanto mayor sea la variabilidad de los datos (varianza), ms rica la informacin
disponible.
Si
1
M D .X 1 C    C X n /
n
O k D X k M , la matriz de covarianzas es
yX
2

OT
X
6 1T
O2
i6X
1hO O
On 6
X 1X 2    X
cov.X ; Y / D
6 :
6 ::
n
4
O Tn
X

7
7
1
7
7 D BB T :
7
n
5

9.2 Planteamiento del problema matemtico


Se trata de encontrar un subespacio de dimensin menor a p tal que al proyectar
sobre l los puntos de la muestra se conserve su estructura con la menor distorsin
posible. Para ello se construye una transformacin lineal que determina un nuevo
sistema ortogonal de coordenadas para el conjunto de datos original en el cual la
varianza de mayor tamao de los datos define el primer eje primer Componente
Principal , la segunda varianza el segundo eje y as sucesivamente. Esto se lleva
a efecto mediante la descomposicin espectral de la matriz de covarianzas,
cov.X ; Y / D D U U T ;
donde U , U T U D U U T D I, es una matriz ortogonal p p formada por los vectores propios correspondientes a los valores propios 1 ;    p y D diag.1 ; : : : ;
p /.
Se cumple que 1      p y que los Componentes Principales son los p
vectores fila de la matriz, p  n, U T B.
88

9 Anlisis de componentes principales

El subespacio generado por los k primeros vectores propios es, de todos los posibles del espacio de dimensin p, el que mejor representa en trminos de mnimos
cuadrados lineales los datos originales.
Si la matriz de covarianzas de los datos es diagonal las varianzas son iguales
a los valores propios de esa matriz y los vectores propios coinciden con los ejes
x e y las covarianzas son cero. Si la matriz de covarianzas no es diagonal,
la covarianzas no son cero pero los valores propios siguen indicando la magnitud
de la varianza en las direcciones ortogonales de los vectores propios, de mayor a
menor, que ya no coinciden con x e y. Esto se ilustra en la figura 9.5020 donde
un mismo conjunto de datos est rotado diversos ngulos para visualizar en qu
consiste la matriz de covarianzas.
10 Bibliografa

10 Bibliografa

Figura 9.50: Valores y vectores propios de un mismo conjunto de datos pero rotado ngulos distintos
La matriz de covarianzas, desde el punto de vista del lgebra lineal, representa
una transformacin lineal. El utilizarla en estos algoritmos es como tratar de des20 Fuente:

http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/.
89
63
63

on como
Ignorando orientaciones, podemos pensar la transformaci
una rotaci
on en Rp .
9 Anlisis
componentes
Eldeprimero
deprincipales
los nuevos

ejes (la primera componente principal) es la


direcci
on a lo largo de la cual la dispersi
on de los puntos-individuos
correlar
datos originales
para encontrar
sus componentes
es los
maxima.
Sucesivamente,
cada componente
principal subyacentes
es aquella o principalesdirecci
llevar
datos aaunos
ejes dondeaseloperciba
el la
menor
on, los
ortogonal
las anteriores,
largo de
cual ruido
hay posible.
Para
proceder
numricamente
con
este
mtodo
y
obtener
esta
transformacin
dispersion m
axima.

primero se adaptan los datos originales para tratarlos segn convenga. Luego de
construye la matriz de covarianzas. A continuacin, como esquematiza21 el diagrama de bloques numricos de la figura 9.51, se puede proceder de dos maneras:
 Se calculan los valores propios y los correspondientes vectores propios de
la matriz de covarianzas. Luego se proyectan en esos vectores propios los
datos. Una versin de esta forma de actuar en Matlab sera el programa
11
Diplomatura en Estadstica
pca1 de la figura 9.52.
 Se calcula la descomposicin en valores singulares de
4.2
Ejemplo
1: Problema
varianzas. El programa
pca2 materializa
esta variante.

B
p
n

y se obtiene las

Como ejemplo de introduccin a este anlisis por componentes principales esLa Tabla siguiente contiene informaci
on sobre chalets construidos por
tudiamos los datos del cuadro 1.
diez promotoras que operan a lo largo de la costa espa
nola:
Construccin

X1 =Duraci
on media
nos)
hipoteca (a

X2 =Precio medio
(millones euros)

1
2
3
4
5
6
7
8
9
10

8,7
14,3
18,9
19,0
20,5
14,7
18,8
37,3
12,6
25,7

0,3
0,9
1,8
0,8
0,9
1,1
2,5
2,7
1,3
3,4

X3 =Supercie media
(m2 ) de cocina

3,1
7,4
9,0
9,4
8,3
7,6
12,6
18,1
5,9
15,9

Considerando solamente las variables X1 y X2 realizar un an


alisis de

Cuadro
1: Datos sobre
pisos que promocionan diversas constructoras en Espaa
componentes
principales.
En l se presenta informacin sobre pisos construidos por 10 constructoras
distintas en diversos lugares de Espaa. Se trata de considerar slo tres variables
X1 , X2 y X3 . La salida que proporciona una sesin de Matlab con los datos de la
tabla y los programas apuntados es la que se puede ver en la figura 9.53.
Como se puede observar en esa salida, la matriz de covarianzas de los datos
estudiados es
2
3
56;9685 5;1705 30;4775
D 4 5;1705 0;8941 3;64795 :
30;4775 3;6479 18;7641
Los valores propios son D diag.74;3739; 2;1580; 0;0948/.
21 Fuente:

http://mengnote.blogspot.com/2013/05/an-intuitive-explanation-of-pca.html.
90

9 Anlisis de componentes principales

Figura 9.51: Esquema de la transformacin del ACP mediante descomposicin en


valores propios y descomposicin en valores singulares
Los componentes principales de este ejemplo son
P C1 D 0;8714X1 C 0;0853X2 C 0;4832X3 ;
P C2 D 0;4798X1

0;3542X2

0;8027X3

P C3 D 0;1026X1 C 0;9313X2 C 0;3495X3 :


Los porcentajes de variabilidad que explican cada componente principal son
74;3739
76;6267

 100 D 97;06 %;

2;1580
76;6267

 100 D 2;82 % y

0;0948
76;6267

 100 D 0;12 %:

Con el primer componente, y por supuesto con los dos primeros, sera suficiente
para representar casi perfectamente este conjunto de datos.

91

9 Anlisis de componentes principales


28/06/16 13:55

D:\Matlab_2015b\work\pca1.m

function [signals,PC,V] = pca1(data)


% Se analizan datos por Componentes Principales
% data-matriz MxN con los datos, M dimensiones y N datos
% signals-matrix MxN de datos proyectados;
% PC, cada componente en columna
% V-Mx1 matrix de variances
%
[~,N] = size(data);
% subtract off the mean for each dimension
mn = mean(data,2); data = data - repmat(mn,1,N);

28/06/16 13:56

Page 1

D:\Matlab_2015b\work\pca2.m

function [signals,PC,V] = pca2(data)


% Se analizan datos por Componentes Principales
% data-matriz MxN con los datos, M dimensiones y N datos
% signals-matrix MxN de datos proyectados;
% PC, cada componente en columna
% V-Mx1 matrix de variances
%
[~,N] = size(data);
% subtract off the mean for each dimension
mn = mean(data,2); data = data - repmat(mn,1,N);

% calculate the covariance matrix


covariance = 1/N * (data * data')

% construct the matrix Y


Y = data'/sqrt(N);

% find the eigenvectors and eigenvalues


[PC, V] = eig(covariance);

% SVD does it all


[u,S,PC] = svd(Y);

% extract diagonal of matrix as vector


V = diag(V);

% calculate the variances


S = diag(S); V = S .* S;

% sort the variances in decreasing order


[~,rindi] = sort(-1*V); V = V(rindi); PC = PC(:,rindi);

% project the original data


signals = PC' * data;

% project the original data set


signals = PC'*data;

end

end

Figura 9.52: Dos programas de Matlab para llevar a cabo un anlisis PCA

>> datos=[1 2 3 4 5 6 7 8 9 10;


8.7 14.3 18.9 19.0 20.5 14.7 18.8 37.3 12.6 25.7;
0.3 0.9 1.8 0.8 0.9 1.1 2.5 2.7 1.3 3.4;3.1 7.4 9.0 9.4 8.3 7.6 12.6 18.1 5.9 15.9]
datos =
1.0000
8.7000
0.3000
3.1000

2.0000
14.3000
0.9000
7.4000

3.0000
18.9000
1.8000
9.0000

4.0000
19.0000
0.8000
9.4000

5.0000
20.5000
0.9000
8.3000

6.0000
14.7000
1.1000
7.6000

7.0000
18.8000
2.5000
12.6000

8.0000
37.3000
2.7000
18.1000

9.0000
12.6000
1.3000
5.9000

10.0000
25.7000
3.4000
15.9000

0.5154
2.0809
-0.0247

-4.8597
-0.2107
0.1397

1.2482
-2.7532
0.1627

20.0429
1.6367
-0.0000

-7.4938
0.0756
-0.4252

8.9318
-2.4105
-0.2302

0.5154
2.0809
-0.0247

-4.8597
-0.2107
0.1397

1.2482
-2.7532
0.1627

20.0429
1.6367
-0.0000

-7.4938
0.0756
-0.4252

8.9318
-2.4105
-0.2302

>> [signal PC V]=pca1(datos(2:4,1:10))


covariance =
56.9685
5.1705
30.4775
signal =
-12.3303
0.8063
-0.0723

5.1705
0.8941
3.6479

30.4775
3.6479
18.7641

-5.3219
-0.1713
0.2971

-0.4638
0.4326
-0.4540

0.4798
-0.3542
-0.8027

-0.1026
-0.9313
0.3495

-0.2687
0.5136
0.6069

PC =
0.8714
0.0853
0.4832
V =
74.3739
2.1580
0.0948
>> [signal PC V]=pca2(datos(2:4,1:10))
signal =
-12.3303
0.8063
-0.0723

-5.3219
-0.1713
0.2971

-0.4638
0.4326
-0.4540

0.4798
-0.3542
-0.8027

-0.1026
-0.9313
0.3495

-0.2687
0.5136
0.6069

PC =
0.8714
0.0853
0.4832
V =
74.3739
2.1580
0.0948
>>

Figura 9.53: Sesin de Matlab para analizar los datos sobre pisos construidos
92

10 Nmeros complejos

10 Nmeros complejos
Los nmeros delpcuerpo C dep
lo complejos surgen para dar sentido a races de
nmeros negativos,
a2 D a
1 pues as se usan para representar modelos y
problemas en muchas
reas
de
la
ciencia
e ingeniera. Para ello se utiliza la unidad
p
imaginaria i D
1.
Cualquier nmero complejo z D x C yi , donde x es la parte real e y la imaginaria (ambas reales), se representa geomtricamente
p en el plano complejo como
se ve en la figura 10.54. El mdulo de z, jzj D r D x 2 C y 2 .

Figura 10.54: Un nmero en el plano complejo


Las operaciones elementales con nmeros complejos, si z D a C i b y w D
c C id , son la suma, z C w D .a C c/ C .b C d /i y la multiplicacin, zw D
.ac bd / C i.ad C bc/. Como i  i D i 2 D 1, 1i D i y i. i / D 1.
El complejo conjugado de un nmero complejo z D x Ciy es zN D x iy. Slo
si z es real se cumple que z D z. Es decir, su imagen en el espejo que define el eje
x. Adems, z C w D z C w, zw D z w y z D z. Estas frmulas se extienden a
sumas y productos de ms de don nmeros complejos y a integrales (recordemos
que son el lmite de una suma de infinitos sumandos), as
Z

f .t /g.t / d t D

f .t / g.t / dt:

El cociente z=w es
z
a C bi
D
w
c C di
a C bi c d i
D
c C di c di
.a C bi /.c d i /
.ac C bd / C .bc
D
D
2
2
c Cd
c2 C d 2
93

ad /i

10 Nmeros complejos

En su forma polar un nmero complejo se escribe22 z D re i' D r cos ' C


p

i sen ' , donde r D x 2 C y 2 y ' D arctan.y=x/.
La circunferencia de radio unidad en el plano complejo es el lugar geomtrico
The Fourier
| 469
de los nmeros complejos con r D 1 figura10.1
10.55.
Si seTransform
multiplican
dos
y
i

e2 = i

e4
e i= 1 + 0i

e0= 1 + 0i
x

Figura 10.55: Circunferencia de radio unidad en el plano complejo

Figure 10.2 Unit circle in the complex plane. Complex numbers of the form ei for some
angle i
have magnitude
one and lie on the unit circle.
i

nmeros e

ye

de esa circunferencia,

e i e i D cos  C i sen 

cos C i sen

z = a + bi = rei ,
 (10.1)
C i sen  cos C sen cos  :
D cos  cos sen  sen
where r is the complex magnitude |z| = a 2 + b2 and = arctan b/a.
The unit circle in the complex plane corresponds to complex numbers of magnitude
23 i. C /
Reordenando,
e togetherDthecos.
C / C
sen.
C the
/.unit
Porcircle,
tanto,
producto
ei on
weel
could
convertde
r = 1. To multiply
two numbers
eii and
trigonometric
functionsenand
multiply:
dostonmeros
complejos
la then
circunferencia
de radio unidad es otro nmero de la

misma circunferencia
es lasuma
ei ei = cuyo
(cos ngulo
+ i sin )(cos
+ i sinde
)los dos precedentes.
n
Los nmeros Moivre,
z
tales
que
z
1
D
0,
= cos cos sin sin + i(sinraces
cos n-simas
+ sin cosde
).la unidad, por
Abraham de Moivre, Francia, 1667-1754 , tienen inters:
Recognizing the cos addition formula and the sin addition formula, we can rewrite this as

 En la recta de nmeros reales slo hay dos: i(+


1 y 1.)
cos( + ) + i sin( + ) = e

 En el plano
complejo hay muchos. Por ejemplo, i es una raz cuarta de 1:
Equivalently,
pjust add
4 the exponents:
4
i D
1 D . 1/2 D e1.i ei = ei(+ ) .
(10.2)

Estn
localizados
en la that
circunferencia
deltwo
plano
complejo
unidad:
forEquation
(10.2) shows
the product of
numbers
on the de
unitradio
circlelagives
a new
point
the unit
whose angle
is thedesum
of thecon
twoun
angles.
TheenEuler
formula
man
los on
vrtices
decircle
un polgono
regular
n lados
vrtice
1 como
se ve
hides
the trigonometry
details,
en la
figura
10.56 para n
D 5.like the sine and cosine addition formulas, and makes the
bookkeeping much easier. This is the reason we introduce complex arithmetic into the
entirely in the real numbers,
i Ce i
e i e i
Euler formula
effect.
23the
Es interesante
saberhas
quea profound
cos  D esimplifying
y
sen

D
i
.
We single out a special subset of 2magnitude 1 complex2numbers. A complex number z
is an nth root of unity if zn = 1. On the real number line, there are only two roots of unity,
94
1 and 1. In the complex plane, however, there are many. For example, i itself is a 4th root
4
2
of unity, because i = (1) = 1.
An nth root of unity is called primitive if it is not a kth root of unity for any k < n.
22study
it can de
be Euler
done
A e i'ofDtrigonometric
cos ' C i seninterpolation.
' se la conoceAlthough
como identidad

10 Nmeros complejos


)LIWKURRWVRIXQLW\

L



Figura 10.56: Circunferencia de radio unidad en el plano complejo y nmeros de


Moivre para n D 5
Una raz n-sima de la unidad se denomina primitiva24 si no es una raz ksima para k < n. As, 1 es una raz segunda primitiva de la unidad y cuarta no
primitiva de ella.
Es fcil ver que, para una n cualquiera, el nmero complejo !n D e i 2=n es
una raz n-sima primitiva de la unidad (tambin lo es !n D e i 2=n ).
En la figura 10.57 se ve la raz cuarta primitiva de la unidad, !4 D e i 2=4 , y
las otras tres. Tambin la figura anterior. Son, en general, las potencias !4k , k D
0; 1; 2; 3.
Las !nk se denominan tambin factores twiddle.
Se puede verificar que la raz n-sima de la unidad, ! D e i 2=n , con n > 1,
cumple que
ILOH''URSER[(VFXHOD$B7UDEDMRB(VFXHOD2QH5RRWVYJ



1 C ! C !2 C !3 C    C !n
2

2.n 1/

3.n 1/

1 C ! C ! C ! C  C !

1 C ! C ! C ! C  C !

1 C !n

C ! .n

1/2

C ! .n

1/3

C    C ! .n

1/.n 1/

D 0;
D 0;
::
:

D 0;
D 0:

24 De otra manera, la raz n-sima de la unidad es primitiva, si slo si sus k-simas potencias,
k D 0; 1; : : : ; n 1 son distintas. Las races cuartas de 1 son: 1, 1, i , i . En el caso de 1 sus
potencias de grado 0, 1, 2 y 3 son iguales; no es raz primitiva. Para i , se calcula que las potencias de
grado 0, 1, 2, 3 son, respectivamente, 1, i , 1, i, distintas, luego i es una raz cuarta primitiva de 1.

95

for primitive nth root of unity


nth11 roots
Bibliografaof unity, sometimes called twiddle
470 | CHAPTER 10 Trigonometric Interpolation and the FFT
k or
factors in this context, are then given by n
k , k = 0, . . . , n 1
by n

i = 43 = 41
...

42 = 42 =

....
..
.............
... ...... 2/4
....
..
..
.
..................................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
....
..
...
..
...
..
...
..

= 40 = 44

i = 41 = 43

/4

0 = 8 = 1
x

=e

i2
8

i 2=4
Figura 10.57: Raz cuarta primitiva
la unidad
!4 D
y lasofotras
tres;
losThey are generated
Figurede
10.3
Roots of unity.
Theeeight 8th roots
unity are
shown.
4
2/8 , meaning that
k for some integer k. Although and 3 are primit

=
e
each
is

nmeros de Moivre para n D 8


8th roots of unity, 2 is not, because it is also a 4th root of unity.

Tambin que
n

1C! C!

2n

C!

3n

Here is a key identity that we will need later to simplify our computations of th
Fourier Transform.
Let denote the nth root of unity = ei2/n where n > 1.
n.n 1/

C  C !

D 1 C 1 C 1 C 1 C    C 1 D n:

1 + + 2 + 3 + + n1 = 0.

Adems, si k es un nmero entero,


The proof of this identity follows from the telescoping sum
(
n
1
(1 )(1 + + 2 + 3 + + n1 ) = 1 n = 0.
X
n si k=n
es entero,
jk
! Since
D the rst term on the left is not zero, the second must be. A similar method
0
en
otro
caso.
j D0
shows that

11 Bibliografa
B ERTSEKAS , D.P. 2003. Convex

1 + 2 + 4 + 6 + + 2(n1) = 0,
1 + 3 + 6 + 9 + + 3(n1) = 0,
...
Analysis1and
Optimization.
Athena
n1
(n1)2
(n1)3 Scientific.
(n1)(n1)
+
+
+ +
= 0.
+

The
next2004.
one is Convex
different: Optimization. Cambridge UniB OYD , S. Y VANDENBERGHE
, L.
versity Press.
1 + n + 2n + 3n + + n(n1) = 1 + 1 + 1 + 1 + + 1
= n.
F UENTE , J.L. 1998. Tcnicas de clculo para sistemas de ecuaciones,
This information
collected into
the following
lemma.
programacin lineal y programacin
entera.is Segunda
edicin.
Revert.

DE LA

LEMMA
roots
unity. Let bede
a primitive
nthde
rootFourier.
of unity and k be an integ
D UOANDIKOETXEA
, J.10.1
2007.Primitive
200 aos
de of
convergencia
las series

n1
La Gaceta de la RSME, Vol. 10, No. 3.

jk

if k/n is an integer

.
=
0 otherwise
F LETCHER , R. 1987. Practical methods of optimization.
John
Wiley & Sons,
j =0
Ltd.
Exercise 6 asks the reader to ll in the details of the proof.

G ANDER , M.J. Y WANNER , G. 2012. From Euler, Ritz, and Galerkin to Modern
Computing. SIAM Review, Vol.
54, Discrete
No. 4. Society
for Industrial and Applied
10.1.2
Fourier Transform
Mathematics.
T

Let x = [x0 , . . . , xn1 ] be a (real-valued) n-dimensional vector, and denote =


Here is the fundamental
denition of this chapter.
96

11 Bibliografa

G RAN , A. Anlisis de Componentes Principales. Departamento de Estadstica,


Universidad Carlos III de Madrid.
H ALMOS , P.R. 1974. Finite-Dimensional Vector Spaces. Springer Verlag.
KOLMOGOROV, A.M. Y F OMIN , S.V. 1975. Introductory Real Analysis. Dover
Publications.
K UHN , H.W. Y T UCKER , A.W. 1951. Nonlinear Programming. Proceedings
of the Second Berkeley Symposium on Mathematical Statistics and Probability.
University of California Press. Verlag.
L AY, D.C. 2012. lgebra lineal y sus aplicaciones. Cuarta edicin. Pearson educacin.
L UENBERGER , D.G. 1969. Optimization by Vector Space Methods. John Wiley
and Sons.
L UENBERGER , D.G. Y Y E , Y. 2016. Linear and Nonlinear Programming. Fourth
Edition. Springer Verlag.
N OCEDAL , J. Y W RIGHT, S.J. 2006. Numerical Optimization. Springer Verlag.
P EA S NCHEZ DE R IVERA , D. 1986. Estadstica. Modelos y mtodos. 1. Fundamentos. Alianza Universidad Textos.
R IAZA , R. Y LVAREZ , M. 1996. Clculo infinitesimal. Vol. I. Sociedad de Amigos de la Escuela Tcnica Superior de Ingenieros Industriales de Madrid.
R IAZA , R. Y LVAREZ , M. 1997. Clculo infinitesimal. Vol. II. Sociedad de
Amigos de la Escuela Tcnica Superior de Ingenieros Industriales de Madrid.
ROCKAFELLAR , R.T. 1970. Convex Analysis. Princeton University Press.
S AUER , T. 2013. Anlisis numrico. Segunda edicin. Pearson educacin.
S AYAS , F.J. 2015. A gentle introduction to the Finite Element Method.
W OLFE , P. 1961. A Duality Theorem for Non-Linear Programming. Quart. Appl.
Math. 19, N 3.

97

Das könnte Ihnen auch gefallen