Beruflich Dokumente
Kultur Dokumente
COMPUTADOR
Jos F. Vlez Serrano
Ana Beln Moreno Daz
ngel Snchez Calle
Jos L. Esteban Snchez-Marn
2 Edicin
ndice
CAPTULO 1 INTRODUCCIN A LA VISIN ARTIFICIAL ............... 1
1.1. MODELO FSICO DE LA LUZ .................................................................. 1
1.1.1 La luz en la historia .................................................................... 1
1.1.2 Definiciones ................................................................................ 3
1.2. MODELO FISIOLGICO ......................................................................... 7
1.2.1 Percepcin acromtica ............................................................... 8
1.2.2 Percepcin cromtica ............................................................... 11
1.2.3 Diagrama cromtico y teora triestmulo ................................. 13
1.3. VISIN ARTIFICIAL ............................................................................ 19
1.3.1 Representacin de la realidad .................................................. 19
1.3.2 Etapas de un sistema de visin artificial .................................. 21
1.3.3 Configuracin informtica de un sistema de visin artificial... 22
1.4. BIBLIOGRAFA DEL CAPTULO ............................................................ 22
CAPTULO 2 ADQUISICIN Y REPRESENTACIN DE IMGENES
DIGITALES .......................................................................... 25
2.1. CAPTURA Y DIGITALIZACIN DE IMGENES....................................... 26
2.1.1 Modelos de captura de imgenes.............................................. 26
2.1.2 La digitalizacin ....................................................................... 30
2.1.3 Dispositivos de captura............................................................. 36
2.2. REPRESENTACIN DE LA IMAGEN Y ESTRUCTURAS DE DATOS .......... 45
2.2.1 Estructura del fichero de imagen.............................................. 45
2.2.2 Compresin de imgenes .......................................................... 46
2.2.3 Formatos comerciales de representacin ................................. 56
2.3. RELACIONES BSICAS ENTRE PXELES ............................................... 58
2.3.1 Relaciones de proximidad ......................................................... 58
2.3.2 Relaciones de distancia............................................................. 61
2.4. CONCLUSIONES AL CAPTULO ............................................................ 62
2.5. BIBLIOGRAFA DEL CAPTULO ............................................................ 62
-i-
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
ndice
- iii -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
ndice
-v-
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
ndice
- vi -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 Introduccin a la
Visin Artificial
-2-
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
1.1.2 Definiciones
Aunque las ondas luminosas constituyen una parte muy pequea del conjunto de
ondas electromagnticas, son especialmente interesantes porque tienen la
particularidad de que son captadas por los ojos y procesadas en el cerebro. El ojo
humano es capaz de distinguir radiaciones de longitudes de onda comprendidas
entre 400 y 700 nanmetros (1 nanmetro = 10-9 metros).
Figura 1.- La parte de la radiacin electromagntica que constituyen las ondas luminosas
abarca desde el fin del ultravioleta 400 nm hasta el comienzo del infrarrojo 700 nm.
-3-
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
Potencia (w)
680 nm
520 nm
(a) (b)
Figura 3.- Diagramas espectral de una luz (a) con predominio de verde y de una luz (b)
blanca.
Flujo radiante
El flujo radiante es la cantidad de energa emitida por una fuente de ondas
electromagnticas por unidad de tiempo y se mide en vatios (ver Figura 4).
-4-
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
radiacin
Potencia elctrica Flujo radiante Flujo Luminoso
visible
Figura 4.- De la energa usada para producir luz, el humano slo percibe una pequea parte
que se denomina flujo luminoso.
Flujo luminoso
El flujo luminoso es la parte del flujo radiante detectada por el ojo (ver Figura 4).
La unidad de flujo luminoso es el lumen (L). Un lumen corresponde al flujo
luminoso procedente de una abertura de 1/60 cm2 en un cilindro de material
refractario que contiene un material patrn que radia a travs de un cono de
radiacin de un estereorradin. El flujo luminoso se puede medir con un fotmetro
y se representa con el smbolo .
-5-
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
800
Eficiencia Luminosa (Lumenes/vatio)
700
600
500
400
300
200
100
0
360 440 520 600 680
Longitud de onda (nm)
Esta curva, que llamaremos V(), permite definir la relacin (1.1). sta
permite calcular el flujo luminoso de una radiacin cuando se conoce su
distribucin espectral P().
= P( ) V ( ) d (L) (1.1)
0
Ejemplo 1.-
-6-
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
Intensidad luminosa
La intensidad luminosa (1.2) es el flujo luminoso emitido por unidad de ngulo
slido (Figura 6). Se representa como I, y su unidad es la buja (b), que se
corresponde a un lumen/estereorradin. Puede comprobarse que la intensidad
luminosa es independiente de la distancia a la que se encuentra el manantial, y slo
vara segn la orientacin de la medicin.
d
I= (b) (1.2)
d
Luminancia o brillo
La luminancia o brillo de un manantial es la intensidad luminosa por unidad de
superficie. As, por ejemplo, si una noche, sobre una ventana parcelamos regiones
de reas iguales, y medimos el brillo para una estrella y el brillo para una lmpara
cercana, encontraremos que es mayor para esta ltima, pues la intensidad luminosa
por unidad de superficie ser mayor. Sin embargo, la intensidad luminosa de esa
estrella ser mucho mayor que la intensidad luminosa de cualquier objeto de
nuestro entorno (como una lmpara), pues ya se ha dicho que la intensidad
luminosa no depende de la distancia.
La sensibilidad a la intensidad.
La inhibicin lateral.
Bastn
Retina
Crnea Cono
Cristalino Ncleo
Iris
Conexiones
Nervio ptico sinpticas
Figura 7.- A la izquierda una seccin del ojo humano. A la derecha una visin esquemtica
de las clulas fotorreceptoras.
-8-
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
que una escena tiene gran contraste si las diferencias de intensidad que contiene
son pronunciadas.
a1
a2
Intensidad
percibida
b
B
a2
Intensidad real
Figura 8.- La lnea A representa la relacin entre el brillo distinguido por el ojo humano y
el nivel de brillo real.
-9-
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
Figura 9.- El color gris del cuadrado interior de la figura de la derecha parece ms oscuro
que el cuadrado interior de la figura de la izquierda, a pesar de que ambos estn tintados
con el mismo gris.
Inhibicin lateral
El otro fenmeno que se indicaba, la inhibicin lateral, se origina en el hecho de
que las clulas de la retina, al detectar un nivel de intensidad, inhiben las clulas
vecinas, produciendo perturbaciones en las fronteras de cambio de intensidad. Este
fenmeno, que puede apreciarse en la Figura 10, tambin influye en que el brillo
percibido no est en proporcin directa con el brillo fsico.
Figura 10.- La tonalidad de cada una de las franjas verticales de la figura de la izquierda es
uniforme. Sin embargo, al observarlas, parece que son ms oscuras por la derecha y ms
claras por la izquierda. El brillo percibido para cada banda se refleja en el diagrama de la
derecha.
- 10 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
Los conos del ojo humano tienen una sensibilidad menor que los bastones.
Se dice popularmente que de noche todos los gatos son pardos, reflejando el
hecho de que con poca luz slo los bastones captan suficiente energa para
activarse.
Estudios fisiolgicos han revelado que existen tres tipos de conos, que se
han denominado mediante las letras S, L, y M. Los conos de tipo S (short) son ms
sensibles a las radiaciones con longitud de onda corta (azules), los M (medium) a
las radiaciones de longitud media (verdes), y los L (large) a las de longitud larga
(rojos). As, la sensacin de color que percibimos est relacionada con la energa
que tiene a diferentes longitudes de onda una radiacin electromagntica. Para
explicar tal relacin se definen el matiz y la saturacin.
Matiz
Los colores que normalmente vemos no proceden de fuentes monocromticas (y
por tanto no se corresponden con una nica longitud de onda). Por ejemplo la luz
blanca resulta de la suma de numerosas longitudes de ondas, o los tonos prpuras
resultan de combinar los colores rojo y azul, ambos en extremos opuestos del
espectro.
- 11 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
Por otro lado se debe destacar que hay matices que nos producen diferente
sensacin de color dependiendo de la intensidad a la que estn asociados. Por
ejemplo el matiz naranja, si tiene baja intensidad es percibido como marrn.
680 nm
(a) (b)
Figura 11.- La figura de la izquierda no tiene una longitud de onda dominante, su matiz es
blanco. La figura de la derecha corresponde a un objeto rojo, siendo la longitud de onda
dominante la correspondiente a 680 nm.
Saturacin
Mide la proporcin entre la longitud de onda dominante y el resto de longitudes de
onda. En la Figura 12 se presenta un ejemplo de dos diagramas espectrales con el
mismo matiz, pero con diferente saturacin.
- 12 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
680 nm 680 nm
(a) (b)
Figura 12.- Dos espectros con el mismo matiz. El de la izquierda corresponde a un rojo
muy saturado. El de la derecha a una luz roja poco saturada.
1
Las tres luces eran radiaciones monocromticas, la verde tena una longitud de onda de
546.1 nm, la azul de 435.8 nm, y la roja de 700 nm. Tanto la verde como la azul fueron
elegidas por ser fcilmente producidas por una lmpara de descarga de mercurio, mientras
que la roja se eligi por corresponder al valor ms alto de respuesta medido en el humano
para el rojo.
2
La mezcla aditiva puede realizarse en la realidad sin ms que mezclar la luz de las
linternas. La combinacin lineal debe permitir la resta de luces, cosa que no es posible
fsicamente.
- 14 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
A B C
x= , y= , z=
A+ B +C A+ B+C A+ B+C
2,5
c
2
Lumenes
1,5
a
b
1
0,5
0
360 440 520 600 680 760
Longitud de onda (nm)
Figura 13.- Curvas fijadas por la C.I.I., mediante experimentacin con personas. Reflejan
el nmero de lmenes percibidos para cada una de las tres linternas monocromticas (a , b y
c) usados al igualar un vatio de flujo radiante de cada longitud de onda del espectro.
- 15 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
Verdes
Amarillos
Cyanes Rojos
Magentas
Este diagrama con forma de lengua representa los colores que en media
puede ver un humano. Los colores del borde curvo se corresponden con los del
espectro, mientras que los del borde recto no pueden obtenerse mediante luces
monocromticas.
Se observa que hay colores que se pueden obtener por mezcla aditiva de
otros. Estos colores, que en la teora aditiva se denominan primarios, se
corresponden con los matices de rojo, verde y azul. Los colores intermedios entre
el rojo, el verde y el azul son el cyan, el magenta y el amarillo, y se llaman
secundarios en la teora aditiva.
- 16 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
As, los matices comprendidos dentro del tringulo definido por los puntos
R, G y B3 de la Figura 14 (b) son aqullos que se pueden obtener por mezcla
aditiva de tres linternas con los matices correspondientes a los vrtices del
tringulo. Por eso en los televisores y en otros dispositivos similares, se debe elegir
cuidadosamente cada uno de los tres matices (rojo, verde y azul) que se usarn
para construir las imgenes. Esta eleccin debe realizarse de manera que el rea
del triangulo dentro del diagrama C.I.I. sea mxima, y as poder representar un
nmero mayor de colores.
Figura 15.- A la izquierda mezcla aditiva de la luz tres linternas sobre una superficie blanca
no iluminada. A la derecha mezcla substractiva de tres tintes sobre un lienzo blanco.
Pigmentos
Cuando la luz choca con una superficie pigmentada no se produce una reflexin
especular. Al contrario, la luz penetra en el pigmento y sufre numerosos choques
3
RGB por red, green, blue.
4
Hue-Saturation-Value en ingls.
- 17 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
contra las molculas que lo componen. En cada choque la luz pierde aquellas
componentes que esa molcula del pigmento no refleja. Por ello, usando pigmentos
no se realiza una mezcla aditiva de haces de luz, sino una mezcla substractiva
resultado de restar a la luz blanca las componentes que absorbe el pigmento.
Por ejemplo, si se toma la base: rojo, verde, y azul (RGB). Mezclando tinta
roja (cuyas partculas solo reflejan luz en torno al matiz rojo) y tinta verde (que
solo refleja luz en torno al matiz verde), se obtiene una tinta con partculas que
absorben casi toda la radiacin y no refleja ninguna, por lo que aparece el color
negro. Esto ocurre porque el solapamiento entre las regiones de no absorcin de
las dos tintas es pequeo. Mezclando rojo y azul o verde y azul ocurre lo mismo.
Por ello el rojo, el verde y el azul forman una base que, fuera de los tres colores
que posee, no permite obtener muchos ms de manera substractiva.
5
Cyan, magenta, yellow.
- 18 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
r c
g = 1 m (1.2)
b y
Imgenes
Una imagen bidimensional es una funcin que a cada par de coordenadas (x, y)
asocia un valor relativo a alguna propiedad del punto que representa (por ejemplo
su brillo o su matiz). Una imagen acromtica, sin informacin de color, en la que a
cada punto se le asocia informacin relativa al brillo, se puede representar como
una superficie (ver Figura 16), en la cual la altura de cada punto indica su nivel de
brillo. Una imagen en color RGB se puede representar asociando a cada punto una
terna de valores que indica la intensidad de tres linternas (una roja, otra verde y
otra azul). Una imagen de color de espectro completo se puede representar
asociando a cada punto un diagrama espectral de emisin de color.
- 19 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
Figura 16.- La imagen plana (2D) de la derecha puede presentarse como una superficie. En
ella la coordenada z para el punto (x, y) corresponde al brillo que tiene en la imagen plana.
Escenas 3D
Otra forma de representar la realidad consiste en asignar a cada punto del espacio
que pertenece a un objeto (x, y, z) una propiedad del punto (su existencia, su
intensidad, su matiz, etctera.). Al trabajar con imgenes 3D, como se tiene la
forma de los objetos, la informacin de brillo y color puede no ser tan relevante.
Secuencias animadas
Un punto con un brillo suficiente que parpadee con una frecuencia superior a 25
pulsos por segundo ser percibido como un punto brillante fijo por nuestros
sentidos. ste efecto es el usado en cine y televisin para crear la ilusin del
movimiento. As, cuando una cmara cinematogrfica toma sucesiones de
imgenes estticas que se capturan a una frecuencia determinada, si estas
sucesiones de imgenes se presentan luego a una frecuencia superior a 25
imgenes por segundo, el sistema visual humano no es capaz de distinguir el
cambio e interpreta movimiento.
- 20 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
- 21 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
Figura 17.- Diagrama de bloques de las etapas tpicas en un sistema de visin artificial.
[Bax94] caps. 1 y 2.
- 22 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 1 - Introduccin a la Visin Artificial
- 23 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 Adquisicin y
representacin de
imgenes digitales
Una vez digitalizada una imagen bidimensional digital est constituida por un
conjunto de elementos llamados pxeles6. Cada pxel ofrece cierta informacin
sobre una regin elemental de la imagen. En imgenes en niveles de gris esta
informacin es el brillo. En imgenes en color, la informacin corresponde a la
intensidad de cada una de las componentes de una base de color (por ejemplo
RGB). Dentro de este captulo tambin se repasan las tcnicas de compresin, que
buscan la forma ms eficiente de almacenar las imgenes digitales.
6
Del ingls pxel que abrevia a picture element.
- 25 -
2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
- 26 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
manera ntida sobre una superficie llamada plano de formacin de la imagen. Este
comportamiento es posible gracias a las propiedades que tiene tal lente:
Todo haz de luz que pasa por el centro ptico de una lente fina contina en
lnea recta (Figura 18 a).
Fo co
C
Eje ptico
Punto de fo rmacin
de la imagen
E je axial de la lente
C = Centro ptico de la lente
(a) (b)
Figura 18.- Trayectoria seguida por la luz al atravesar una lente fina. (a) los haces paralelos
que inciden perpendiculares al eje de la lente se cortan en el foco. En (b) los haces
provenientes de un mismo punto objeto se cortan en el punto de formacin de la imagen.
1 1 1
= (2.1)
Si S0 f
Es por todo esto que las propiedades descritas para el modelo de lente fina
slo se cumplen de manera aproximada en la realidad, aunque en general, cuanto
mejor sea la calidad de una lente ms se aproximar su comportamiento al ideal.
La cmara oscura
El principio de cmara oscura, descrito en el punto anterior, se puede usar para
capturar imgenes de escenas tridimensionales (del mundo real) y proyectarlas en
un plano bidimensional. Dispositivos de este tipo son las cmaras fotogrficas y
las cmaras de vdeo. Este modelo adems se puede usar para capturar imgenes
de elementos bidimensionales, como fotografas y documentos, como por ejemplo
hacen los escneres de cmara. Tambin se pueden usar dos o ms cmaras para
capturar diferentes perspectivas de una misma escena y construir una
representacin 3D de la misma (ver Captulo 6).
El escaneo
Este esquema es fundamentalmente distinto del basado en cmara, ya que existe un
elemento activo (generalmente un haz de luz lser) que recorre la escena que se
desea capturar. Por tanto son imprescindibles dos dispositivos, uno emisor del haz
de luz y otro el receptor. El escner emite el haz de luz y ste, tras chocar con la
imagen que se escanea, es recogido en el detector de luz. Repitiendo este proceso
7
La aberracin cromtica se debe a que el ndice de refraccin es diferente segn la
longitud de onda de la luz que atraviesa la lente. As, diferentes colores dan lugar a
diferentes planos de formacin de la imagen, y esto da lugar a la aparicin de bandas de
colores en los bordes de los objetos dentro de una imagen.
8
La distorsin esfrica se origina al existir diferente plano de formacin de la imagen para
los rayos que atraviesan la zona ms gruesa de la lente que para los que atraviesan la zona
ms delgada de la misma.
- 29 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
2.1.2 La digitalizacin
Es el proceso de paso del mundo continuo (o analgico) al mundo discreto (o
digital). En la digitalizacin normalmente se distinguen dos procesos: el muestreo
(sampling) y la cuantizacin (quantization).
Muestreo
El muestreo de una seal continua consiste en la medicin a intervalos
(discretizacin) respecto de alguna variable (generalmente el tiempo o el espacio),
siendo su parmetro fundamental la frecuencia de muestreo, que representa el
nmero de veces que se mide un valor analgico por unidad de cambio.
9
Dots per inch en ingls.
- 30 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
De esta forma, el proceso de muestreo, para una imagen, que asocia a cada
punto un valor real, cambia una imagen del formato:
IC(x, y) en donde x, y
al formato:
Cuantizacin
La segunda operacin es la cuantizacin de la seal, que consiste en la
discretizacin de los posibles valores de cada pxel. Los niveles de cuantizacin
suelen ser potencias de 2 para facilitar el almacenamiento en el computador de las
imgenes, ya que stos utilizan el byte10 como unidad mnima de memoria
directamente direccionable. As, suelen usarse 2, 4, 16 256 niveles posibles. De
esta forma, ID que pertenece a se convierte en IDC (discreta cuantizada) que
pertenece a N. El nmero de niveles posibles define la resolucin radiomtrica.
IDC (x, y) N
10
Un byte est compuesto de 8 bits. Un bit es la unidad mnima de informacin en un
computador y puede tomar valores 0 y 1, lo que permite al byte representar 256 nmeros.
- 31 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Donde,
x, y N y 0 x N-1 , 0 y M-1
M
3 x N x M bytes
Color real
Tambin hay que tener en cuenta que dependiendo del uso que se vaya a
hacer de una imagen, la eleccin de los parmetros de digitalizacin puede variar
de una forma menos objetiva. As, para la publicacin de un peridico en blanco y
negro, 16 niveles de intensidad podran ser suficientes, pero elegir menos de 80
por 80 pxeles por pulgada de resolucin espacial sera inadmisible; mientras que
para una imagen, con vistas a su reconocimiento, aunque podra ser preciso utilizar
ms niveles de intensidad, se podra permitir una resolucin espacial menor.
11
La imagen de Lena es una imagen clsica dentro del mundo del procesado digital de
imgenes. Es una imagen de una chica, aparecida en la publicacin Play Boy en 1972,
- 33 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Figura 20.- En la fila superior se presenta la misma imagen, siempre a 256 niveles de
intensidad, usando diferentes resoluciones espaciales. En la fila inferior se mantiene la
resolucin espacial y se reduce el nivel de cuantizacin.
- 34 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
(b)
)
(c)
(a)
Figura 21.- Efecto de la reduccin de resolucin sobre una imagen. La imagen (a)
corresponde a un texto y se ha tomado con un escner bitonal; en (b) la misma imagen tras
reducir su resolucin en un 50% respecto de la original conservando uno de cada cuatro
pxeles; en (c) la misma imagen tras reducir su resolucin en un 50% interpolando.
- 35 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
imagen, que slo exige el cambio de la paleta y no el cambio directo de todos los
pxeles de la imagen.
Ejemplo 2.-
Para saber cuntos bytes ocupa una imagen de 640x480 pxeles con 256 niveles de
intensidad cuando se representa en una pantalla de ordenador, se opera:
Ejemplo 3.-
Para saber cuantos bytes ocupa una imagen de 1024 por 768 pxeles con
codificacin para 16 millones de colores (color Real) se opera:
En este caso cada pxel necesita 3 bytes (uno para codificar 256 niveles de
rojo, otro para 256 niveles de azul, y otro para 256 de verde), por tanto:
- 36 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Procesado Qumico
Conversor Analgico
Digital Escner de tambor,
Escaner plano esner plano de
pelcula y FotoCD
Ordenador
Una cmara tambin suele permitir variar la cantidad de luz que entra en
ella mediante un dispositivo conocido como diafragma. Cuando se abre mucho el
diafragma, entran muchos rayos de luz por cada punto P de la escena, y de acuerdo
con los principios que se enunciaron para el modelo de lente fina, esto hace que
slo los elementos que estn a cierta distancia de la cmara aparezcan enfocados.
Por el contrario, cuanta menor es la apertura del diafragma menos rayos de luz
entran por cada punto P de la escena. En el lmite, cuando por cada punto P de la
escena slo incidiese un rayo en el plano de formacin de la imagen, toda la
imagen debera aparecer enfocada simultneamente. As, en el caso de poca
apertura se dice que se tiene gran profundidad de campo, y en el caso de mucha
apertura se dice que se tiene poca amplitud de campo.
Visor
Objetivo
Obturador
Pelcula
Diafragma
Figura 23.- Esquema de una cmara analgica de fotografa. La cmara presenta un visor
directo, un objetivo de focal fija y un diafragma formado por unas lminas superpuestas
mviles que permiten regular la cantidad de luz que entra en la misma.
- 38 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Por ltimo hay que decir que este esquema bsico se complica en la
realidad con multitud de detalles tcnicos que diferencian unas cmaras de otras.
As existen cmaras compactas, de doble objetivo, rflex, con obturador de cortina,
con autoenfoque, panormicas y un largo etctera de variantes para cuyo estudio se
remite al lector a [Lan99].
12
Se llama grano a cada partcula de haluro de plata. Este compuesto, utilizado en las
pelculas fotogrficas, es una sustancia reactiva a la luz que incide sobre ella. Cuanto mayor
es el grano, mayor sensibilidad a la intensidad se consigue, pero menor definicin y detalle
tiene la imagen debido a la menor densidad de granos.
- 39 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Voltios
Segundos
- 41 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Un problema que aparece con esta tcnica consiste en que los cuatro
receptores que aportan la informacin hacia un mismo pxel no ocupan la misma
posicin fsica. Por ello, en los bordes de los objetos que aparecen en las imgenes
pueden aparecer distorsiones del color. Para evitar estos problemas podran
utilizarse 3 matrices (una por cada plano de color), aunque esta solucin es ms
cara y voluminosa. Tambin podran tomarse tres imgenes diferentes usando un
filtro diferente cada vez, aunque esto exige que la escena no cambie de una toma a
otra.
Conversor A/D
Fotodiodos
Filtros
Amplificador
13
Dispositivo de Carga Acoplada (Coupled Charge Device).
- 42 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Escner de cmara
Este dispositivo recorre una imagen plana (un documento, una fotografa, un
plano...) con un CCD compuesto por una nica lnea de elementos fotosensibles,
llamado CCD lineal. En su recorrido, el CCD lineal construye una representacin
digital de la imagen.
Escner de tambor
Este tipo de escner se utiliza para digitalizar elementos planos (documentos,
fotografas, etc.). El elemento que se desea escanear se sita sobre un cilindro
denominado tambor. All, se escanea usando un dispositivo que emite un haz
puntual en direccin al tambor. Este haz, tras reflejarse en el elemento que se
escanea se recoge en un detector sensible. Despus se analiza el haz recibido y se
construye una representacin del elemento escaneado.
Ms caros que los sensores tctiles son los sensores de rango no tctiles.
Estos sensores se clasifican a su vez en activos y pasivos. Son activos los que o
bien proyectan haces controlados de energa (luz o sonido sobre la escena) desde
una posicin y orientacin conocidas, o bien analizan el efecto de cambios
controlados en algn parmetro del sensor (por ejemplo el foco). Los sensores de
rango activos detectan la posicin del haz en el objeto para realizar una medida de
la distancia. Adems pueden utilizar una gran variedad de principios fsicos, entre
los que podemos sealar: radares, sonoros, interferometra hologrfica, enfoque y
la triangulacin activa. Si utilizan fenmenos pticos para adquirir las imgenes de
rango, se denominan tambin sensores de rango pticos.
14
Del ingls voxel que juega con la abreviatura de volume element y con el parecido a la
palabra pxel.
- 44 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
15
Existen tambin ficheros vectoriales. Bsicamente estos ficheros almacenan pares de
coordenadas con los puntos que componen las figuras geomtricas de las figuras que
- 45 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Ejemplo 4.-
- 46 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
como: 2, dos, II, 6-3-1... Cada representacin necesita diferente espacio para su
codificacin (1, 3, 2 y 5 caracteres respectivamente) pero codifican la misma
informacin.
n1
CR =
n2
1
RD = 1
CR
Redundancia en la codificacin
Redundancia visual
- 47 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Redundancia en la codificacin
Hasta ahora se ha usado un tamao fijo para representar la informacin de cada
punto de una imagen. Por ejemplo, se ha usado un byte para representar la
intensidad de cada punto de una imagen con un nivel de cuantizacin de 256
niveles de gris.
Sin embargo en una imagen suelen existir niveles de intensidad que son
ms probables que otros porque aparecen ms veces. La codificacin de tamao
variable es una tcnica de compresin que aprovecha esta circunstancia. Consiste
en asignarle un cdigo ms corto a los niveles de intensidad ms probables (que
aparecen ms veces) y ms largo a los menos probables (que aparecen menos
veces), consiguiendo una reduccin del tamao de los datos de la imagen. Un
ejemplo de este tipo de compresin lo define el mtodo de compresin Huffman.
El mtodo Huffman crea los cdigos en tres pasos. El primer paso precisa
de evaluar la probabilidad de ocurrencia de cada uno de los elementos a
representar. En el segundo paso se construye un rbol binario. Este rbol tiene
como nodos iniciales la probabilidad de cada uno de los cdigos. El rbol se
construye uniendo de dos en dos los nodos con menor probabilidad. Como
resultado de cada unin se crea un nodo con probabilidad igual a la suma de los
nodos unidos. Finalmente, en la tercera etapa se recorre de manera inversa el rbol
utilizando un criterio de asignacin de cdigos (por ejemplo cero a la izquierda y
uno a la derecha).
Ejemplo 5.-
Una imagen de 8 niveles de gris se codifica segn la Tabla 1. Para calcular el nivel
de redundancia de la codificacin de tamao fijo (que usa tres bits por pxel y tiene
50x50 pxeles de tamao) respecto de la que usa compresin mediante
- 48 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
0'03 0'02
0 1
0'06 0'05
1
0
0'11 0'08
1
0
0,4 0'35
0
1
0,75 0,25
0
1
- 49 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Cdigo original 000 001 010 011 100 101 110 111
Probabilidad de
019 025 021 016 008 006 003 002
aparicin
Cdigo de tamao
1 1 0 11 101 1000 1000 1001
variable
Con el cdigo de tamao variable se tiene que para cada pxel, en media,
se usan:
3x(019)+1x(025)+3x(021)+3x(016)+4x(008) +5x(006)+5x(003)+5x(002) =
=28 bits
7500
CR = = 1'071428571
7000
1 )
RD = 1 = 0'06
1,071428571
Ejemplo 6.-
16
Consultative Committee on International Telephone and Telegraphy. Comit que ha
estandarizado varios algoritmos de compresin con vistas a su transmisin en formato
digital. Ahora se conoce como UIT.
- 51 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Sin compresin, usando un byte por cada 8 pxeles, los datos de la imagen
son:
000, 001, 240, 003, 255, 253, 000 -> tamao = 7 bytes
255, 255, 255, 131, 255, 255, 224 -> tamao = 7 bytes
(7 + 7) 14 )
CR = = = 1'5
(5 + 4) 9
1
RD = 1 0'35
14
9
Redundancia visual
Como se ha explicado en el captulo 1, la imagen percibida por el ojo no se
corresponde exactamente con la imagen fsica. Por ejemplo, se ha estudiado que el
humano no es capaz de distinguir entre dos niveles de gris parecidos cuando hay
involucrados niveles de contraste elevados. As, desde el punto de vista de nuestra
percepcin, cierta informacin puede considerarse menos importante y por tanto
redundante.
- 52 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
- 53 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
(a) (b)
(c) (d)
Figura 30.- Efecto de la compresin JPEG, donde se aprecian los artefactos que introduce
la compresin con prdida. (a) imagen de Lena sin comprimir ocupa 30Kb; (b)
comprimiendo con el algoritmo JPEG el tamao se reduce a 3Kb. (c) detalle del sombrero
sin comprimir; (d) detalle del sombrero tras comprimir.
N 1 M 1
k1 k 2
B (k1 , k 2 ) = C k1 C k2 4 I (i, j ) cos (2i + 1) cos (2 j + 1)
i =0 j =0 2 N 2 M
(2.2)
1 N 1 M 1 k1 k 2
I (i , j ) =
4 k2 =0 k0 =0
C k1 C k2 B (k1 , k 2 ) cos
2 N
( 2i + 1) cos
2 M
(2 j + 1)
(2.3)
1
Siendo C k = para k = 0, y Ck = 1 para el resto.
2
Ejemplo 7.-
(8 8) 64
CR = = =4
(16) 16
1
RD = 1 = 0.75
4
- 55 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Deducindose por tanto que el 75% del tamao de los datos representados
por el cdigo original son redundantes. En el prximo tema, se profundizar en las
propiedades de la transformada de cosenos cuando se estudie la transformada de
Fourier.
- Listado 1
- 57 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Vecindad
Para todo punto p de coordenadas (x, y) se dice que un pxel q pertenece a sus 4-
vecinos y se escribe qN4(p) si y slo si q tiene coordenadas:
B A B
A p A
B A B
Figura 31.- Los 4-vecinos de p son los puntos A. Los 8-vecinos de p son los puntos A y B.
Conectividad
Se ha visto que una imagen se asimila a una matriz cada uno de cuyos elementos es
un pxel. Entre los pxeles de esta matriz se puede definir una relacin que define
dos pxeles como conectados cuando son vecinos y sus valores son similares desde
algn punto de vista. Formalmente, se define un conjunto V que representa los
valores compatibles para que dos pxeles que sean vecinos se diga que estn
conectados:
los muy oscuros, o V={200,201,...255} para los claros, etc.). Para imgenes en
color se procede de forma similar definiendo rangos en las tripletas RGB.
Ejemplo 8.-
Figura 32.- Ejemplo de tipos de conectividad: (a) corresponde a una imagen en niveles de
gris. (b), (c) y (d) representan en negro los pxeles de (a) que estn dentro de un V
determinado y muestran la relacin de conexin entre ellos: (b) 4-conexin, (c) 8-conexin,
(d) m-conexin.
- 60 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
Camino
Un camino desde el pxel p, de coordenadas (x, y), al pxel q, de coordenadas (s, t),
es una secuencia de pxeles distintos de coordenadas:
Donde (x0, y0)=(x, y) y (xn, yn)=(s, t) y (xi, yi) est conectado a (xi-1, yi-1),
siendo n la longitud del camino. Se puede hablar de 4, 8 y m-caminos dependiendo
del tipo de conexin involucrada.
Componente conexa
Para todo pxel p de una imagen, el conjunto de los pxeles hasta los que hay una
camino desde p se dice que forman su componente conexa. Adems se cumple que
dos componentes conexas distintas tienen conjuntos de pxeles disjuntos.
d ( p, q ) = ( x s ) 2 + ( y t ) 2
Siempre que slo sea importante desde un punto de vista comparativo, esto
es para comprar distancias, se puede prescindir del clculo de la raz cuadrada, lo
que redundar en una mayor velocidad de clculo.
d ( p, q ) = x s + y t
- 61 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
d ( p, q) = max( x s , y t )
[Esc01] cap. 3,
[Bax94] cap. 6,
- 62 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 2 - Adquisicin y representacin de imgenes digitales
[Lan99]
[Mic96]
- 63 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y Realzado de
Imagen
E S
H
Conjuncin.- Operacin lgica AND entre los bits de dos imgenes. Se usa
para borrar pxeles en una imagen.
Negacin.- Inversin de los bits que forman una imagen. Se usa para
obtener el negativo de una imagen.
- 66 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Divisin.- Divisin de los valores de los pxeles de una imagen entre los de
otra.
A B -A A or B
permitido M, consiguiendo de esta forma que los valores nunca salgan del rango
especificado.
x' 1 0 d x x
y' = 0 1 d y y
1 0 0 1 1
x' s x 0 0 x
y' = 0 sy 0 y
1 0 1 1
0
- 68 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Ejemplo 9.-
T ( x,y ) R( ) ( x, y ) =
1 0 x cos( ) sen( ) 0 1 0 x
= 0 1 y sen( ) cos( ) 0 0 1 y =
0 0 1 0 1 0 0 1
0
cos( ) sen( ) x(1 cos( )) + ysen( )
= sen( ) cos( ) y (1 cos( )) xsen( )
0
0 1
- 69 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
P
(-x,-y) (x,y)
Figura 36.- Ejemplo de rotacin. (a) Imagen original que se desea rotar en torno al punto P
de coordenadas (x,y); (b) resultado de la primera traslacin; (c) resultado del giro; (d)
resultado final despus de la ltima traslacin.
200
puntos
- 70 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
0 1 0 1
(a) (b)
Figura 38.- (a) histograma de una imagen con poco contraste. (b) histograma de una
imagen saturada.
As, las imgenes consideradas de calidad suelen tener un rango dinmico amplio y
no saturado. Las imgenes saturadas y las imgenes con un rango dinmico
pequeo contienen menos informacin que las imgenes con un rango dinmico
amplio y no saturado. No hace falta decir que para tareas de reconocimiento es
mejor utilizar imgenes con mucha informacin. Tambin es importante para las
tareas de reconocimiento que las imgenes tengan un alto nivel de contraste (sin
llegar a estar saturadas), ya que esto implica que los detalles discriminantes se
perciben con mayor claridad.
025 que es ms oscuro). Por ltimo, la funcin raz cuadrada (c) produce un
aclarado general de la imagen.
1 1 1
0 0 0
0 0.5 1 0 0.5 1 0 0.5 1
Una funcin de transferencia que aclare los niveles claros y oscurezca los
niveles oscuros, conseguir sobre el conjunto de la imagen un efecto visual de
aumento de contraste. Una funcin tal se puede obtener componiendo una funcin
de transferencia del histograma que hasta el valor de 05 se comporte como la
funcin cuadrado y que en adelante se comporte como la funcin raz. En la Figura
40 se ha representado esta funcin de transferencia. La funcin (b) de la misma
figura produce el efecto contrario, esto es una disminucin del contraste.
- 73 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
1 1
0.5 0.5
0 0
0 0.5 1 0 0.5 1
(a) (b)
- 74 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
(a)
0 1
(b)
0 1
(c)
0 1
Figura 41.- Transformaciones del histograma sobre la imagen de Lena: (a) imagen original
con su correspondiente histograma; (b) resultado de una operacin de disminucin de
contraste; (c) aumento de contraste.
- 75 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
- 76 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
PR
PS
a
a
0 r 1 0 s 1
Figura 42.- Si s es el valor transformado de r, el proceso de ecualizado exige que el rea a
la izquierda de r debe ser la misma que la que hay a la izquierda de s.
r s s
0
PR ( )d = PS ( )d = d = s
0 0
(3.1)
nr
PR (r ) = (3.2)
n
- 77 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
j<r
nj
s(r ) = (3.3)
jV n
Ejemplo 10.-
Para ecualizar la imagen de 3x4 de la Figura 43 (a), que posee 6 niveles de gris, se
debe en primer lugar normalizar los niveles de intensidad para que tomen valores
entre 0 y 1, obteniendo la imagen (b) y el histograma (c) de la Figura 43.
1 2 1
3 3 3
5 4 5
6 6 6 0 1 2 3 4 5 6 7
- 78 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
0 0 [0, 0125) 0
3 05 [0375, 05) 4
6 1 [075, 0875) 7
7 1 [0875, 1] 7
Tabla 4
- 79 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
1 2 1
4 4 4
6 4 6
7 7 7 0 1 2 3 4 5 6 7
(a) (b)
- 80 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
0 1
0 1
Figura 45.- Ecualizado del histograma sobre la imagen de Lena: (a) imagen original con su
correspondiente histograma; (b) ecualizado del histograma.
f ( x ) h( x ) = f ( x)h(u x)dx
- 81 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
1 N 1 N 1
I ' ( x, y ) = I ( x, y ) h ( x, y ) = I (i, j ) h( x i, y j )
N 2 i =0 j = 0
x, y = 0,1,..., N 1
1 n n
I ' ( x, y ) = I (i, j ) h( x i, y j)
D i =0 j =0
x, y = 0,1,..., N 1
Ejemplo 11.-
Supngase una funcin impulsional h de tamao 3x3 igual a la matriz que sigue:
- 82 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
h1 h2 h3
h = h4 h5 h6
h h9
7 h8
Se aprecia que, para una matriz de convolucin de 3x3, el valor del pxel
I(x,y) tras el filtrado depende nicamente del valor del pxel I(x,y) y de sus ocho
vecinos antes del filtrado.
- 83 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
1 1 1 1 2 1
1 1
h = 1 2 1 h = 2 4 2
10 16
1 1 1 1 2 1
Debe observarse que tanto el filtro de la mediana, como el filtro del bicho
raro son filtros no lineales17, y por tanto no se pueden obtener mediante una
operacin de convolucin.
17
Un operador O sobre imgenes bidimensionales se dice que es lineal si cumple que:
O[k1I1(x, y)+k2I2(x, y)] = k1O[I1(x, y)] + k2O[I2(x, y)]
siendo k1 y k2 dos constantes e I1 e I2 dos imgenes bidimensionales.
- 84 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
1 1 1
1
1 1 1
9
1 1 1
Original Suavizado
Figura 46.- Aplicacin de un filtrado espacial de suavizado.
I r I r
( I ( x, y )) = ux + uy
x y
I
Gx = = I ( x, y ) * h1 ( x, y ) (3.11)
x
I
Gy = = I ( x, y ) * h2 ( x, y ) (3.12)
y
- 85 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
z1 z2 z3
z4 z5 z6
z7 z8 z9
I I
= z5 z 6 y = z 5 z8
x y
0 0 0 0 0 0
h1 = 0 1 1 h2 = 0 1 0
0 0 0 0 1 0
I G ( x, y ) = G x2 ( x, y ) + G y2 ( x, y )
I G ( x, y ) =
1
2
(
G x ( x, y ) + G y ( x, y ) )
- 86 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
I
= ( z1 + 2 z 4 + z 7 ) ( z 3 + 2 z 6 + z 9 )
x
I
= ( z1 + 2 z 2 + z3 ) ( z 7 + 2 z8 + z 9 )
y
Dando lugar a las matrices h1 y h2. a las que tambin se le debe aadir un
factor de divisin y uno de suma para evitar que se salga de rango el resultado.
1 0 1 1 2 1
h1 = 2 0 2 h2 = 0 0 0
1 0 1 1 2 1
Estas matrices se conocen como ventanas de Sobel, que fue quien las
propuso. Mediante ellas se calcula el gradiente en las direcciones horizontal y
vertical. En la Figura 47 se ve cmo el resultado de aplicar h1 sobre la imagen de
Lena produce una imagen en la que aparecen los contornos horizontales de la
figura de la imagen original. Ese resultado se obtiene utilizando un factor de
divisin de 4 y presentando el valor absoluto de la convolucin, utilizando niveles
de gris en escala desde 0 como blanco hasta 255 como negro.
Una alternativa muy comn al uso de valor absoluto para evitar los valores
fuera de rango consiste en el uso de un factor de suma que se aplica tras la
convolucin y la divisin. Por ejemplo, en el caso del filtro de Sobel un factor de
divisin de 8 y un factor de suma de 128 evitaran los valores fuera de rango.
- 87 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
1 0 1
2 0 2
1 0 1
Original Sobel
1 1 1 1 0 1
1 0 0 1
Robert : y Prewitt : 0 0 0 y 1 0 1
0 1 1 0 1 1 1 1 0 1
2I r 2I r
( I ( x, y )) = (( I ( x, y ))) = ux + 2 u y
x 2 y
- 88 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
siendo:
z4' = z4 z5 y z5' = z5 z6
y por tanto:
Z2 2z5 + z8
0 1 0
1 4 1
0 1 0
Original Laplaciana
Figura 48.- Laplaciana de la imagen de Lena. Para su presentacin a 255 niveles de gris se
ha usado un factor de divisin de 8 y un factor de suma de 128.
- 89 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
a0
+ a n cos(nx) + bm sen (mx)
2 n =1 m =1
an = f ( x) cos(nx )dx n = 0,1,2,...
bm = f ( x)sen (mx) dx m = 1,2,3...
En adelante se entender por coeficiente cada uno de los pares (ai, bi). As
el coeficiente ensimo define la amplitud de las series de cosenos y senos de
frecuencia ensima.
- 90 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
- 91 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Figura 49.- En esta figura se presenta el resultado del clculo de varios coeficientes de la
transformada de Fourier de una funcin (a). Las grficas (b), (c) y (d) presentan las seales
sinusoidales correspondientes a los 3 primeros coeficientes de Fourier. La figura (e)
corresponde a la suma de esas tres primeras seales sinusoidales. Por ltimo, (f)
corresponde a la suma de las 10 primeras componentes.
- 92 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
18
ei = cos() + i sen()
- 93 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
N 1 2
1 j
f (k ) e
kn
F ( f , n) = N
n = 0,1,..., N 1 (3.4)
N k =0
j 2
n0 x
F f ( x )e N
, n = F(f , n n0)
2
j n0 x
N
F(f(x-x0) , n) = F(f , n) e
( )
F f ( x)(1) x , n = F(f , n
N
2
)
N
F f (x ), n = F(f , n) (1) n
2
F(af(x) , n) = a F(f , n)
1
F(f(ax) , n) = F(f , n/a)
a
f ( x) = f ( x + N )
F ( f , n) = F ( f , n + N )
F(f, n) = F ( f , n) 19
N 1 2
j kn
f(x) = F-1(F(f,n) , x)= F ( f , n) e N
x = 0,1,..., N 1
n =0
19
El conjugado de un nmero complejo tiene igual parte real y la parte imaginaria cambiada
de signo, esto tambin puede interpretarse como mismo mdulo y fase cambiada de signo.
- 95 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
0 0 0
0 0.5 1 0 0.5 1 0 0.5 1
Figura 50.- De izquierda a derecha un filtro paso alto, un filtro paso bajo y un filtro paso
banda.
(a)
(b)
(c)
(d)
(e)
(f)
Figura 51.- (a) Seal que contiene ciertos datos, (b) ruido aleatorio, (c) datos ms ruido, (d)
representacin de los mdulos de los coeficientes de Fourier, (e) representacin de los
mdulos tras eliminar los de menor energa, (f) el resultado de la transformada inversa de
Fourier sobre los coeficientes modificados corresponde a la seal inicial sin ruido.
N 1
E = f (k )
20 2
La energa de una seal se define como
k =0
- 97 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
N 1
1
F(f,n) =
N
f (k ) PRE(nk mod N )
k =0
n = 0,1,..., N 1
21
Fast Fourier Transform en ingls.
- 98 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
As, en los trminos pares, cuando n tiene la forma 2n, PRE(2nk mod N)
es igual que PRE(2n(k+N/2) mod N). Por ello, sacando factor comn, los trminos
pares tienen la forma:
N
1
2
1 N
F(f,2n) =
N
SUM (k ) PRE(2nk mod N )
k =0
n = 0,1,...,
2
1 (3.5)
donde:
N
SUM (k ) = f (k ) + f (k + )
2
N
1
2
1 N
F(f,2n+1) =
N
DIF (k ) PRE((2n + 1)k mod N )
k =0
n = 0,1,...,
2
1 (3.6)
donde:
N
DIF ( k ) = f ( k ) f ( k + )
2
N 1 N 1 2xn 2my
1 j j
IC (n , m) = F(I ,n ,m) =
N
I ( x, y) e
x = 0 y =0
N
e N
(3.7)
n, m = 0,1,...N 1
Debe apreciarse que esta definicin slo resulta aplicable sobre imgenes
cuadradas.
- 100 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Figura 52.- En esta figura se muestra una imagen de Lena (a) sobre la que se realiza una
transformada de Fourier, obtenindose (b) y (c), que corresponden respectivamente a la
representacin matricial de los mdulos y de las fases de los coeficientes de Fourier
normalizados entre 0 y 1 y en falso color.
2xn 2my
1 N 1 N 1
j j
I (x , y) = F-1(IC , x , y) = I C ( n, m ) e N
e N
N n=0 m=0
x, y = 0,1,...N 1
- 101 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Ejemplo 12.-
100 50
255 0
1
I C (0,0) = ( I (0,0)e 0 e 0 + I (0,1)e 0 e 0 + I (1,0)e 0 e 0 + I (1,1)e 0 e 0 ) =
2
1 405
= (100 + 255 + 50 + 0) =
2 2
1
I C (0,1) = ( I (0,0)e 0 e 0 + I (0,1)e 0 e i + I (1,0)e 0 e 0 + I (1,1)e 0 e i ) =
2
1 105
= (100 255 + 50 + 0) =
2 2
1
I C (1,0) = ( I (0,0)e 0 e 0 + I (0,1)e 0 e 0 + I (1,0)e i e 0 + I (1,1)e i e 0 ) =
2
1 305
= (100 + 255 50 + 0) =
2 2
1
I C (1,1) = ( I (0,0)e 0 e 0 + I (0,1)e 0 e i + I (1,0)e i e 0 + I (1,1)e i e i ) =
2
1 205
= (100 255 50 + 0) =
2 2
- 102 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Su matriz de fase en este caso tan simple sale toda a cero, mientras que su
matriz de mdulos es:
202.5 152.5
-52.5 -102.5
1
I (0,0) = ( I C (0,0)e 0 e 0 + I C (0,1)e 0 e 0 + I C (1,0)e 0 e 0 + I C (1,1)e 0 e 0 ) =
2
1 405 105 + 305 205 400
= ( )= = 100
2 2 4
1
I (0,1) = ( I C (0,0)e 0 e 0 + I C (0,1)e 0 e i + I C (1,0)e 0 e 0 + I C (1,1)e 0 e i ) =
2
1 405 + 105 + 305 + 205 1020
= ( )= = 255
2 2 4
1
I (1,0) = ( I C (0,0)e 0 e 0 + I C (0,1)e 0 e 0 + I C (1,0)e i e 0 + I C (1,1)e i e 0 ) =
2
1 405 105 305 + 205 200
= ( )= = 50
2 2 4
1
I (1,1) = ( I C (0,0)e 0 e 0 + I C (0,1)e 0 e i + I C (1,0)e i e 0 + I C (1,1)e i e i ) =
2
1 405 + 105 305 205 0
= ( )= =0
2 2 4
- 103 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
j 2
( n0 x + m 0 y )
F f ( x , y )e N
, n, m = F(f , n n0 , m m0)
2
j ( n 0 x +m 0 y )
N
F(f(x-x0 , y-y0) , m , n) = F(f , n , m) e
(
F f ( x, y )(1) x + y , n, m = F(f , n ) N
2
,m
N
2
) (3.8)
N N
F f (x , y ), n, m = F(f , n , m) (1) m + n
2 2
F(af(x , y) , n , m) = a F(f , n , m)
1
F(f(ax , by) , n , m) = F(f , n/a , m/b)
ab
f ( x, y ) = f ( x + N , y ) = f ( x, y + N ) = f ( x + N , y + N )
F ( f , m, n) = F ( f , m + N , n) = F ( f , m, n + N ) = F ( f , m + N , n + N )
- 104 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
F(f, n , m) = F ( f , n, m) 22 (3.9)
2my
1 N j
2mx
1 N j
F ( f ( x, y ), m, n) = e
N x=0
N f ( x , y )e N
N y =0 (3.10)
22
El conjugado de un nmero complejo tiene igual parte real y la parte imaginaria cambiada
de signo, esto tambin puede interpretarse como mismo mdulo y fase cambiada de signo.
- 105 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
0,0
Bajas Frecuencias
Altas frecuencias
N-1,N- 1
Figura 53.- Situacin de los valores correspondientes a las altas y a las bajas frecuencias
sobre la matriz de coeficientes de la transformada discreta de Fourier bidimensional.
- 106 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Figura 54.- Modificacin sobre las matrices de coeficientes poniendo a cero el mdulo
correspondiente a las altas frecuencias (a), y manteniendo las fases (b). El resultado de la
transformada inversa sobre las matrices de coeficientes modificadas corresponde a la
imagen (c) donde se aprecia que los contornos han sido suavizados.
- 107 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Figura 55.- Modificacin realizada sobre las matrices de coeficientes poniendo a cero el
mdulo correspondiente a las bajas frecuencias (a), y manteniendo las fases (b). El
resultado de la transformada inversa sobre las matrices de coeficientes modificadas
corresponde a la imagen (c) donde se aprecia slo la informacin de los contornos y el
ruido de alta frecuencia.
- 108 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Figura 56.- Arriba la imagen de Lena a la que se le aade un ruido con estructura que
consiste en la desaparicin de 1 de cada 3 lneas de la imagen. Abajo el resultado de un
filtrado paso banda ajustado a la zona del histograma de Fourier en el que aparecen las
frecuencias que corresponden al ruido.
- 109 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
- 110 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
(A)x = {c / c = a + x, a A}
Reflexin de A como:
= {x / x = - a, a A}
Complementario de A como:
Ac = {x / x A}
A - B = {x / x A y x B}
A - B = A Bc
- 111 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Dilatacin
Siendo A y B dos conjuntos en Z2, la dilatacin de A con B, denotada como A B,
se define como:
A B = {x / x = a + b a A y b B}
AB=BA
A B = {x /( B ) x A }
A B = {x /[( B ) x A] A}
- 112 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
A B
B
Figura 57.- Ejemplo de dilatacin en el que se ha sealado con un punto negro el origen del
elemento B.
Erosin
Siendo A y B dos conjuntos en Z2, la erosin de A con B, denotada como AB, se
define:
AB = {x / x + b A b B}
AB = {x /( B ) x A}
- 113 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
A B
A B
(AB)c = A c B
(AB)c = { x /( B ) x A}c = {x /( B) x A c = }c =
= {x /( B) x Ac } = Ac B
Apertura
La apertura de A con B se define como:
A B = (A B) B
A B es un subconjunto de A.
(A B) B = A B.
Si C es subconjunto de D C B es subconjunto de D B.
- 114 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
B
A
A B
A B
Figura 59.- Arriba se presenta la figura A y el elemento estructurante B. En medio se
presenta la ejecucin de la operacin de apertura y su resultado. Abajo se presenta la
operacin de cierre.
Cierre
El cierre de A con B se define como:
A B = (A B) B
A es un subconjunto de A B.
(A B) B = A B.
- 115 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Si C es subconjunto de D C B es subconjunto de D B.
Coincidencia estructural
Si el elemento B se define teniendo en cuenta los puntos a blanco que lo rodean, se
tiene la descripcin de un objeto B1 y su entorno B2. La operacin de coincidencia
estructural, o Hit or Miss, busca la parte de la imagen A que cumpla que los
puntos activos de B estn en A y los puntos del entorno de B estn en Ac.
A A*B
Figura 60.- Ejemplo de operacin de coincidencia estructural.
- 116 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Eliminacin de ruido
Este filtro elimina los objetos de una imagen que tienen un tamao menor que un
elemento estructurante B determinado.
Limpiar(A) = (A B) B
Extraccin de contornos
Este filtro obtiene los contornos de una figura A restndole su interior.
Contornos (A) = A (A B)
A B
A-(A B)
Relleno de agujeros
Este filtro precisa de un proceso iterativo que concluye cuando no se producen ms
cambios sobre la imagen. Se parte de X0 igual a un punto del agujero que se desea
rellenar. Luego se aplica de manera iterativa:
Xk = (Xk-1 B) Ac
- 117 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
Adelgazamiento
Esta operacin adelgaza los elementos de una imagen hasta que se reducen a un
esqueleto interior a la misma. Para poder realizar esta operacin es preciso definir
la siguiente operacin:
A B = A (A * B)
- 118 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
B1 B2 B3 B4 B5 B6 B7 B8
(a) (b)
(c) (d)
- 120 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
operacin que se desee realizar sobre una imagen digital se podra encontrar un
equivalente morfolgico.
- 121 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
(a)
(b)
Figura 65.- Ejemplo de eliminacin de ruido de la figura (a) mediante una erosin y una
dilatacin posterior con un elemento estructural de 3x3, resultando la figura (b).
- 122 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 3 Filtrado y realzado de imagen
[JKS95] caps. 4 y 5,
[Esc01] caps. 4 y 5,
[Par97] caps. 1 y 2
- 123 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
- 125 -
2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
pertenece. As, una vez segmentada una imagen, se podra formar una lista de
objetos consistentes en las agrupaciones de los pxeles que tengan la misma
etiqueta.
23
Optical Character Recognition, reconocimiento ptico de caracteres.
- 126 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Los diferentes objetos que aparecen en una imagen pueden ser localizados
atendiendo a aspectos como: sus contornos o su textura. Cada una de las tcnicas
que se estudiarn en este captulo atienden a alguna de estas caractersticas, y para
su estudio han sido englobadas en tres grupos: tcnicas basadas en umbralizacin,
basadas en deteccin de los contornos de los objetos y tcnicas basadas en
propiedades locales de las regiones.
4.1.1 La textura
Intuitivamente la textura de un objeto dentro de una imagen es el conjunto de
formas que se aprecia sobre su superficie y que lo dota de cierto grado de
regularidad. Una definicin clsica de textura es la siguiente: uno o ms patrones
locales que se repiten de manera peridica.
Figura 66.- Diversas imgenes del lbum de Brodatz, utilizadas en el anlisis de texturas.
Existen dos enfoques para definir una textura: uno descendente (top-
down) y otro ascendente (bottom-up). El enfoque descendente se basa en la
existencia de un elemento bsico de textura, llamado txel, y en una regla de
formacin. Esta regla define cmo y dnde se sitan estos elementos bsicos. Este
enfoque funciona bien cuando la textura es bastante regular, por ejemplo en la
- 127 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
imagen de una pared de ladrillos. Por otro lado, el enfoque ascendente se basa en
que la textura es una propiedad que se puede derivar de estadsticos (como la
media y la varianza) de pequeos grupos de pxeles. Este enfoque funciona bien
para texturas donde resulta difcil ver los componentes individuales, por ejemplo la
textura de la hierba o el cuarzo. No obstante, la lnea divisoria entre los dos
enfoques no es clara.
4.1.2 El contorno
El contorno de un objeto en una imagen digital corresponde al mnimo conjunto de
pxeles que separa ese objeto del fondo o background de la imagen. Normalmente
estos contornos se corresponden con los puntos donde se producen
discontinuidades en los valores de pxeles adyacentes (cambios en el matiz o el
brillo) o con los puntos donde cambia un patrn que se repite (cambios de textura).
- 128 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
1, si I (i, j ) U
B (i , j ) =
0, si I (i, j) < U
- 129 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
(a) (b)
(c) (d)
Figura 67.- La eleccin adecuada del umbral de binarizacin permite separar la tierra del
mar en esta imagen de satlite, aunque la sombra de las nubes sobre la tierra y las nubes
sobre el mar producen ciertos errores. Sera preciso realizar algn posproceso para obtener
una segmentacin completa.
- 130 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Paso 1.- Filtrado paso bajo de la imagen I(x, y) usando una ventana de tamao V.
1
Repetir k {V/2 k 255 V/2}: hF(pk) = h(p(k-V/2))
V
Paso 2.- Clculo de la primera y de la segunda derivada de hF. Para ello se puede usar la
aproximacin de la derivada como resta de valores de posiciones consecutivas:
Paso 3.- Si hF(k) U, siendo U un umbral positivo, y hF(k) > 0, entonces hay que marcar
k como candidato a mnimo local.
Umbralizacin de banda
La umbralizacin de banda permite segmentar una imagen en la que los objetos
(regiones de pxeles) contienen niveles de gris dentro de un rango de valores y el
fondo tiene pxeles con valores en otro rango disjunto. As,
1 si I (i, j ) R
B (i , j ) =
0 en otro caso
- 131 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Multiumbralizacin
La multiumbralizacin, como su nombre indica, consiste en la eleccin de
mltiples valores de umbral dentro del proceso, permitiendo separar a diferentes
objetos dentro de una escena cuyos niveles de gris difieran. El resultado no ser
ahora una imagen binaria sino que los diferentes objetos (regiones) tendrn
etiquetas diferentes:
IS(i,j) = 1, si I(i,j) R1
= 2, si I(i,j) R2
= 3, si I(i,j) R3
= n, si I(i,j) Rn
= 0, en otro caso
Semiumbralizacin
La semiumbralizacin persigue obtener una imagen resultado en niveles de gris, y
para ello pone a cero el fondo de la imagen conservando los niveles de gris de los
objetos a segmentar que aparecen en la imagen inicial. Su formulacin es:
I (i, j ) si I (i, j ) U
I S (i , j ) =
0 en otro caso
Umbralizacin adaptativa
En las tcnicas anteriores, los rangos de umbralizacin se consideran fijos con
independencia de las caractersticas locales de la imagen considerada. En muchas
imgenes, donde la iluminacin no es uniforme, puede ocurrir que pxeles del
mismo objeto a segmentar tengan niveles de gris muy diferentes. Ello conlleva que
no sea posible elegir un nico umbral que, sobre toda la imagen, distinga los
- 132 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Paso 1.- Dividir la imagen original I(i,j) en subimgenes Ik(i,j) donde se supone que los
cambios de iluminacin no son tan fuertes.
- 133 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
(a)
H1 H2
(e)
(b)
0 1
(c)
Valor de la media
Negro
(f)
Blanco
(d)
- 134 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
- 135 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
- 136 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
r
t p
Figura 70.- Los pxeles r y t son los vecinos a tener en cuenta al evaluar el pxel p en el
algoritmo de etiquetado de componentes conexas.
De nuevo, el clculo de esta matriz puede ser muy costoso, sobre todo
cuando el nmero de componentes conexas sea elevado, por lo que es
preferible recurrir a tcnicas alternativas que permitan calcular la ltima
implicacin de cada elemento de la lista antes que la matriz del cierre
transitivo. Una de las formas posibles consiste en construir la lista de manera
que sus elementos siempre tengan la forma mn donde m>n. Luego basta con
iterar sobre los elementos de tal lista hasta conseguir que todos los elementos
de la lista impliquen al menor posible, con lo que se consigue que todas las
implicaciones de la lista, que se refieran a la misma componente conexa,
apunten al mismo elemento.
- 137 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Si rV y tV Etiq(p) cont
cont++
M(cont,cont) = 1
Si rV y tV Etiq(p) Etiq(t)
Si rV y tV Etiq(p) Etiq(r)
M(Etiq(r), Etiq(t)) = 1
M(Etiq(t), Etiq(r)) = 1
Paso 3.- Hacer p igual al siguiente pxel, siguiendo el orden de izquierda a derecha y de
arriba a abajo. Si queda ms pxeles ir al paso 2.
Paso 4.- Calcular el cierre transitivo de la matriz M y sustituir la etiqueta de cada pxel
por su equivalente de orden menor. Este paso puede simplificarse a seguir las
implicaciones para cada elemento de la lista hasta alcanzar el menor posible y crear con
una nueva lista de implicaciones hacia el menor.
- 138 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Ejemplo 13.-
Para etiquetar cada pxel de la Figura 71a segn la componente conexa a la que
pertenezcan se aplica el algoritmo 1. Al llegar al paso 4 da como resultado la
imagen (b) de la Figura 71, y la siguiente matriz M.
1 1 1 0
1 1 0 0
M =
1 0 1 0
0 0 0 1
1 2 1 1
1 3 2 1 1 1
1 1 1 1 1 1 1 1 1 1
4 4 4 4
(a) (b) (c)
Figura 71.- La figura (a) representa un mapa de bits donde los cuadros oscuros representan
pxeles negros y los cuadros blancos pxeles blancos. La figura (b) presenta los pxeles
etiquetados antes del clculo de la matriz del cierre transitivo. Finalmente (c) presenta el
resultado del algoritmo de etiquetado.
M0 = M
1 1 1 0 1 1 1 0 1 1 1 0
1 1 0 0 1 1 0 0 1 1 1 0
M1 = M 0 M 0 = =
1 0 1 0 1 0 1 0 1 1 1 0
0 0 0 1 0 0 0 1 0 0 0 1
- 139 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
1 1 1 0 1 1 1 0 1 1 1 0
1 1 1 0 1 1 1 0 1 1 1 0
M 2 = M1 M1 = = = MT
1 1 1 0 1 1 1 0 1 1 1 0
0 0 0 1 0 0 0 1 0 0 0 1
De la matriz MT se deduce:
2 1, 31
- 140 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Anlogamente, el pxel (x, y), vecino de (x, y), tiene un ngulo similar a
ste si y slo si:
|(x,y) - (x,y)| A
- 141 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Bordes Sobel
Bordes Laplace
SI
NO
Bordes sin ruido
Cambios?
y conexos
Figura 72.- Mtodo para la obtencin de contornos continuos en una imagen digital.
- 142 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
(a) (b)
Figura 73.- La cuadrcula representa un mapa de pxeles sobre el que se superpone el grafo
de los contornos: (a) direcciones de los contornos, y (b) grafo correspondiente.
- 143 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Paso 1.- Expandir el nodo origen nO y poner todos sus sucesores {ni} en una lista L. En ella
todos los nodos tiene un puntero hacia detrs a nO. Evaluar la funcin de coste r(ni) a todo
nodo expandido ni desde nO, que inicialmente valdr c(nO, ni) segn la expresin (4.1).
Paso 2.- Si la lista L es vaca, acabar con fallo; en otro caso, determinar el nodo nj de la lista
L cuya funcin de coste asociada r(nj) sea la menor y quitar nj de la lista L. Si nj = nD (nodo
final del camino), recorrer el camino de punteros hacia detrs, encontrar el valor mnimo
y acabar con xito.
Paso 3.- Si la opcin de parar no fue tomada en el paso 2, expandir el nodo especificado nj
y poner sus sucesores en la lista L con punteros hacia detrs a nj. Calcular los costes
segn la funcin r (si nk es un sucesor de nj en L, su coste viene dado por el coste r(nj) para
ir de ni a nj ms el coste del arco c(nj, nk) ). Volver al paso 2.
- 144 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Transformada de Hough
Al igual que las tcnicas basadas en grafos, la transformada de Hough es un
mtodo de anlisis global que se dise para detectar lneas rectas y curvas a
partir de las posiciones de n puntos. Una ventaja de esta tcnica es la robustez de
los resultados de segmentacin conseguidos al aplicarla; sin embargo, su coste
computacional es elevado.
yi = a xi + b (4.2)
- 145 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
siendo a y b, los parmetros que determinan las infinitas rectas que pasan por el
punto (xi,yi). Para otro punto (xj,yj), las rectas que pasan por l siguen la ecuacin:
yj = a xj + b (4.3)
donde a y b son parmetros variables de nuevo. La recta que pasa a la vez por
(xi,yi) y por (xj,yj) tiene como valores de los parmetros (a,b) el resultado de
resolver el sistema planteado por (4.2) y (4.3), que llamaremos a y b.
y b
b' (x2,y2)
= a'x+
y b'
(x1,y1)
x a' a
(a) (b)
Figura 75.- Representacin de la recta y = ax + b en el espacio (x,y) y en el espacio de
parmetros (a,b).
xi cos + yi sen =
siendo y los nuevos parmetros que determinan los infinitos puntos que pasan
por xi e yi. Ntese que en esta ecuacin el parmetro est acotado en el intervalo
[0,).
Ejemplo 14.-
Determinar las dos rectas que con mayor probabilidad aparecen en la imagen de la
Figura 76, obtenida mediante un filtrado de Sobel.
x
0 1 2 3 4 5 6 7
y
0
1
2
3
4
5
6
- 147 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Tabla 5.- Representacin del valor de a partir de las coordenadas de un punto (x,y) y del
ngulo .
Tabla 6.- Representacin del conteo de los valores de parmetros considerados, que
describen las rectas ms probables que aparecen tras la aplicacin de la transformada
Hough.
- 148 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
x
0 120 90
0 1 2 3 4 5 6 7
0
1
5 2
3
4
5
6
y
- 149 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Figura 78.- Segmentacin de objetos por unin de regiones. Las regiones correspondientes
a los colores amarillo, rojo azul y verde crecen por agregacin de pxeles con matiz similar.
- 150 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
A B
A
C D
A
A B C D C D
A B C D
C D
A B C D
(a) (b)
- 152 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
- 153 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Figura 81.- Una imagen que ilustra el smil del watershed en una superficie de un terreno.
marcadores que eran producidos por ruido en la imagen original. Es por ello que
previo a este algoritmo suele aplicarse un filtrado de suavizado para eliminar
marcadores no significativos.
Filtrar las imgenes para dejar slo las zonas importantes de ella.
- 155 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Paso 1.- Se calculan las caractersticas de color usando los valores de las componentes de
los planos rojo, verde y azul de una imagen RGB.
Paso 2.- La imagen se divide en regiones cuadradas de igual tamao, usando la estructura
de datos de rbol cuaternario o quadtree.
Paso 3.- Cuatro cuadrantes situados a un mismo nivel de subdivisin son mezclados si se
satisface un cierto criterio de homogeneidad. Un cuadrante se subdivide en otros cuatro si
no se satisface una condicin de homogeneidad.
- 156 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
24
Random fields en ingls
- 157 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
- 158 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
1 si I t ( x, y ) I t ( x, y ) > U
d t ,t +1 ( x, y ) =
0 en otro caso
- 159 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
1 3 2 1
2 0 4 0
3 5 6 7
Ejemplo 15.-
(a) (b)
Figura 85.- Recorrido del objeto usando cdigo de cadena de conectividad 4. El punto
grueso indica el nodo de inicio.
m pq = x p y q f ( x, y ) dxdy p, q = 0,1,....
Se puede ver que, para una funcin acotada en el plano, existen infinitos
momentos generales obtenidos haciendo variar p y q de cero a infinito.
- 161 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Se puede demostrar que dada una funcin f(x,y) existe un nico conjunto
de momentos generales que la definen y viceversa.
f ( x, y ) {m pq } p, q = 0,1,....
N 1 N 1
m pq = x p y q I D ( x, y ) p, q = 0,1,....
x =0 y =0
siendo ID(x,y) una funcin discreta que toma valor 1 cuando el pxel pertenece al
objeto y 0 cuando pertenece al fondo.
N 1 N 1
m00 = I D ( x, y )
x =0 y =0
Los momentos de orden uno (p=0, q=1 y p=1, q=0), junto al de orden cero,
determinan el centro de gravedad de los objetos.
N 1 N 1 N 1 N 1
x = m10 = xI D ( x, y ) y = m01 = yI D ( x, y )
x =0 y =0 x =0 y =0
Invarianza a traslaciones
Los momentos generales se pueden hacer invariantes a las traslaciones. Para ello
basta con referirlos al centro de gravedad del objeto, es decir a los momentos de
- 162 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
orden cero y uno. Estos momentos, que se conocen como momentos centrales,
tienen la siguiente forma:
N 1 N 1
mc pq = ( x x ) p ( y y ) q I D ( x, y ) p, q = 0,1,....
x =0 y =0
p q
p q
mc pq = ( x ) r ( y ) s m p r ,q s p, q = 0,1,....
r =0 s =0 r s
Invarianza a giros
La invarianza a giros se consigue disponiendo de una direccin de referencia para
cada objeto. La direccin que se suele tomar es la que marca el eje de mnima
inercia del objeto.
I = [( x a)sen ( y b) cos ] I D ( x, y )
2
x y
El eje de mnima inercia corresponder aqul que haga cero las derivadas
parciales respecto a cada variable:
dI dI dI
=0 =0 =0
dx dy d
1 2mc11
a=x b= y = arctg
2 mc20 mc02
- 163 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
p q
p q
mcg pq = ( 1) q s (cos ) p r + s (sen ) q s + r mc p r + q s ,r + s
r =0 s =0 r s
p, q = 0,1,....
mcg pq p+q
mcgh pq =
donde = y p, q = 0,1,....
m00 2
Invarianza a traslaciones
Las componentes de Fourier de dos objetos iguales, que se hallen desplazados uno
respecto a otro, slo se diferencian en la componente de frecuencia cero (F(0)).
Por tanto, la eliminacin de esta componente proporciona una descripcin
invariante a traslaciones.
- 164 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
Invarianza a giros
La transformada de Fourier de un objeto girado radianes respecto a otro igual
pero que no est girado se diferencia en un factor multiplicativo ej. Por ello, suele
usarse slo los mdulos que no cambian si el objeto est girado.
[SHB99] cap. 5.
- 165 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 4 Segmentacin
- 166 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los
clasificadores
25
En el resto del captulo se usarn las maysculas para los vectores.
- 167 -
2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
Conocimiento
respecto a las
clases
- 168 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
Ejemplo 16.-
Figura 87.- Muestra de las diferentes piezas entre las que se desea distinguir, obtenidas con
una cmara e iluminacin a contraluz.
- 169 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
1
Nmero de agujeros
Tornillos
Tuercas
Arandelas
Cuando la muestra es abundante suele crearse otro conjunto con ella. Este
segundo conjunto se utiliza para probar los resultados de las funciones
discriminantes calculadas, y se conoce como conjunto de test. Es importante que el
conjunto de aprendizaje y el de test sean independientes. Como norma general, en
- 170 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
Validacin cruzada
Cuando la muestra es escasa, puede no ser factible utilizar el 40% de la misma
para realizar las pruebas, ya que en tal caso, no se dispondra del suficiente nmero
de ejemplos para poder calcular las funciones discriminantes de manera correcta.
Como utilizar el mismo conjunto para el aprendizaje y para el test ya se ha dicho
que no es aconsejable, se suele usar un procedimiento que, si bien es mucho ms
lento, permite obtener una prueba estadsticamente significativa y adems permite
usar toda la muestra para calcular las funciones discriminantes.
- 171 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
Con este procedimiento se consigue realizar una prueba que cumple los
principios necesarios para probar la propiedad de generalizacin. Luego, una vez
demostrada esta propiedad, se construye el sistema utilizando toda la muestra. Este
mtodo presenta el problema de la lentitud, y de que no se prueba el sistema final,
sino que se prueban una serie de sistemas similares al final. Sin embargo, es una
solucin vlida cuando la muestra es necesariamente reducida.
Economa
El mecanismo preciso para el clculo o la obtencin de las caractersticas
discriminantes (sensores, etc..) debe tener un coste razonable.
Velocidad
El tiempo de clculo no debe superar el umbral que lo haga inviable.
26
cross-validation en ingls
- 172 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
Independencia
Las caractersticas no deben estar correladas entre ellas. Una caracterstica que
depende fuertemente del resto no aade informacin discriminante y por tanto
puede eliminarse sin que esto suponga ninguna prdida de capacidad
discriminante.
P
c X ,Y = ( X p m X )(Y p mY )
p =0
- 173 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
1
mk =
Pk
X X que peretenece a la clase k
cij
rij = i,j = 1,2 ... N
cii c jj
27
La independencia lineal entre dos caractersticas i y j no implica la independencia
estadstica, ya que pueden existir dependencias no lineales. Por el contrario, la dependencia
lineal s implica dependencia estadstica.
- 174 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
Fiabilidad
La fiabilidad implica que objetos de la misma clase deben tener vectores de
caractersticas con valores numricos similares. Esto se cumple si los vectores de
caractersticas de una clase tienen poca dispersin. La dispersin se puede medir
sobre la diagonal de la matriz de covarianzas. Cuanto mayores son los valores de la
diagonal, mayor es la dispersin.
Capacidad discriminante
La capacidad discriminante de una caracterstica determinada se puede describir
como una propiedad que asegura que patrones de clases distintas tienen valores
numricos claramente diferenciados.
( mi m j ) 2 1 Pk
Fij =
si2 + s 2j
, donde s k2 =
Pk
(X
p =1
p mk ) 2
K
1
K
(m
j =1
j m)2
F=
1 K Pk
( X ki mk ) 2
K P k =1 i =1
- 175 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
siendo
P K
1
m=
N
m
j =1
j y P = Pk
k =1
Fuerza bruta
Se construyen todos los conjuntos posibles de caractersticas y se selecciona al que
mejor cumpla los criterios de seleccin. Este procedimiento garantiza encontrar el
mejor conjunto de caractersticas. En algunos casos es inviable debido a la
multitud de combinaciones posibles.
Eliminacin
En principio se calcula el rendimiento de N-1 clasificadores resultantes de quitar
una caracterstica distinta cada vez al conjunto de N caractersticas. Se elige el
vector de caractersticas de aquel clasificador en el que la reduccin del
rendimiento sobre el inicial es menor.
Incorporacin
Se van aadiendo caractersticas siguiendo el criterio de aadir aqulla que
provoca un mayor incremento del rendimiento. ste es el modo ms rpido de
obtener un buen conjunto, aunque generalmente no se obtiene el ptimo.
- 176 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
- 177 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
caractersticas. Sin embargo, hay que decir que existen muchos otros enfoques.
As, por ejemplo, estn aqullos que se basan en medidas de probabilidad de
pertenencia a una u otra clase (como los clasificadores basados en Modelos
Ocultos de Markov), o los que usan lgica borrosa para la clasificacin en base a
reglas, o a los que utilizan redes de neuronas artificiales (ver el apndice A).
dE (X , Zk ) = X T X 2 X T Z k + Z kT Z k (5.1)
- 179 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
fd1(x)
dE(x,z1)
fd2(x)
dE(x,z2)
X? Xi
Mnimo
.
.
.
fdN(x)
dE(x,zN)
- 180 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
1 T
fd k ( X ) = X T Z k Zk Zk k = 1K (5.2)
2
Pk
1
Zk =
Pk
X
p =1
p X p patrn de la clase k
Ejemplo 17.-
1 2 0 1 6 7 8
5 3 1 3 8 9 7
1 = , , , y 2 = , ,
6 4 5 5 1 3 1
1 2 3 2 6 6 9
- 181 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
1 7
3 8
z1 = z2 =
5 1
1 7
T T
1 1 1 7 7 7
r T 3 1 3 3 r T 8 1 8 8
fd 1 = X 5 y fd 2 = X 1
5 2 5 1 2 1
1 1 1 7 7 7
T T
3 1 1 1
1 3 1 3 3 1
fd 1 = 5 2 5 5 = 3 + 3 + 15 + 1 2 (1 + 9 + 25 + 1) = 4
3
1 1 1 1
T T
3 7 7 7
1 8 1 8 8 1
fd 2 = 1 2 1 1 = 21 + 8 + 3 + 7 2 (49 + 64 + 1 + 49) = 42.5
3
1 7 7 7
d M ( X , k ) = ( X mk ) T C k1 ( X mk ) (5.3)
2
Figura 91.- En un clasificador estadstico la regin de separacin no es determinista.
Adems crea separaciones no lineales de dos clases (curvas cnicas como las parbolas,
elipses, hiprbolas y, por su puesto, rectas).
- 183 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
2
1
m1 fd m2
Clasificacin probabilista
Cuando existe diferente dispersin de los valores de una caracterstica en dos o
ms clases, una medida de la distancia que tenga en cuenta la desviacin tpica de
la clase ofrecer mejores resultados que otra que slo tenga en cuenta la distancia
eucldea entre los centroides de las clases. La Figura 92 ejemplifica la disposicin
de los patrones de dos clases respecto de una caracterstica particular. En la figura
se aprecia que la funcin discriminante no equidista de los centroides del 1 y de
2 sino que est ms cerca del centroide de 2 porque su desviacin tpica es
menor.
P ( X / i ) P ( i )
P ( i / X ) =
P( X )
donde,
- 184 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
K
P ( X ) = P ( X / k ) P ( k )
k =1
Como P(X) es un trmino constante para todos los clculos de P(i /X), el
clculo puede simplificarse eliminando ese factor. Con esto la funcin
discriminante para la clase i es:
Y se dice que:
- 185 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
1 ( X mi ) 2
1 2 i2
P( X / i ) = e i = 1,2 ... N (5.4)
2 i
( X m1 ) 2 ( X m2 ) 2 2
< + 2 ln( )
2
1 2
2 1
1 r r r r
1 ( X mk )T Ck1 ( X mk )
P( X / k ) = 1
e 2
k = 1,2 ... N
(2 )
n
2 Ck 2
- 186 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
1 r T 1 r r T 1 r 1 r T 1 r 1
fd i ( X ) = X C i X + X C i mi mi C i mi ln C i i = 1,2 ... N
2 2 2
r r 1 r r
fd i ( X ) = X T C i1mi miT C i1 mi i = 1,2 ... N
2
r r 1 r
fd i ( X ) = X T mi miT mi i = 1,2 ... N
2
Hay que sealar que en la prctica los valores que se obtienen para las
desviaciones nunca son exactamente iguales, ni las covarianzas son exactamente
cero, pero estas reglas se aplican igualmente si se aproximan suficientemente a
tales valores.
Ejemplo 18.-
1 2 3 2 3 8 9 9 8 7
1 : , , , , 2 : , , , ,
2 2 1 3 2 10 8 9 9 9
- 187 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
1
fd i ( X ) = X T C 1mi miT C 1 mi
2
obteniendo:
50 25
C 1 = 23 23
25 70
23 23
y por tanto:
fdk(X) = WkT X k = 1, 2, , K
Maestro
X?
X Error
Reconocedor
Minimiza el
error
- 189 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
Algoritmo de aprendizaje
Los algoritmos de aprendizaje se caracterizan por partir de un conjunto de
funciones discriminantes con unos valores en sus parmetros que ofrecen un
rendimiento bajo o nulo. En ocasiones estos parmetros se inician al azar. Luego,
mediante algn algoritmo aproximado como el descenso del gradiente o el mtodo
de Newton, estos parmetros se varan buscando optimizar las funciones
discriminantes respecto al nmero de patrones clasificados acertadamente. El
proceso suele terminar cuando la mayor parte de los patrones de entrenamiento se
clasifican correctamente.
- 190 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
Error
Error
W
W1,2
W1,1
Figura 94.- El error debe verse como una hipersuperficie que es funcin de los parmetros
W del clasificador, en la que la derivada marca la direccin en la que disminuye el error. En
este caso, como W slo tiene dimensin 2, el error puede representarse como una superficie.
Error
W (t + 1) = W (t ) (5.5)
W
manera emprica (normalmente por ensayo y error) para cada problema, ya que
depende de la superficie del error que se est considerando, y por tanto del
conjunto de muestra utilizado. La eleccin de un valor pequeo para puede hacer
que el aprendizaje sea lento o que el proceso se estanque en un mnimo local.
Mientras que un valor grande puede hacer que se salten soluciones (al no entrar
dentro de los hoyos de la hipersuperficie) y el proceso no converja.
Desgraciadamente los conceptos de grande y pequeo dependen de cada
problema particular, pues al cambiar los patrones de entrenamiento cambia la
superficie de error.
1
Error = ( fdm Wi T X ) 2
4
siendo:
+ 1 si X i
fdm =
1 si X i
Si se define:
e = ( fdm WiT X )
se obtiene que:
Error 1 1
Error = = 2( fdm Wi T X )( X ) Error = eX
W 4 2
y por tanto:
1
W (t + 1) = W (t ) + eX
2
Esta expresin muestra como deben cambiarse los pesos de todas las
funciones discriminantes en cada iteracin para que el error disminuya
- 192 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
Paso 2.- Se presenta la muestra de entrenamiento Xp (que el maestro sabe que pertenece a
k) y se calculan las K funciones discriminantes.
Paso 3.- Para cada fd calcular el error que se comete. Si el error es menor al E fijado
PARAR, en otro caso actualizar W segn:
Ejemplo 19.-
- 193 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
1 1 1 1
x1 = 1 , x 2 = 2 , x3 = 1 , x 4 = 2
1 1 1 1
1 1 1 1
x1 = 1 1 , x 2 = 1 2 , x3 = 1 1 , x 4 = 1 2
1 1 1 1
0
W1 (1) = W2 (1) = 0
0
En t = 1 se obtiene:
X(1) = x1 1
T
fd1(X(1)) = W1 (1 ) X(1) = 0
T
fd2(X(1)) = W2(1) X(1) = 0
error1(1) = 1
error2(1) = -1
W1(2) = W1(1) + 05 error1(1) X(1) = (-1/4, -1/4, 1/4)
W2(2) = W2(1) + 05 error2(1) X(1) = (1/4, 1/4, -1/4)
En t = 2: error2(2) = 5/4
X(2) = x2 2 W1(2) = (1/16, -9/16, -1/16)
fd1(X(2)) = 1/4 W2(2) = (-1/16, 9/16, 1/16)
fd2(X(2)) = -1/4
error1(2) = -5/4 En t = 3:
- 194 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
X(3) = x3 1 X(6) = x2 2
fd1(X(3)) = 9/16 fd1(X(6)) = -08544922
fd2(X(3)) = -9/16 fd2(X(6)) = 08544922
error1(3) = 7/16 error1(6) = -01455
error2(3) = -7/16 error2(6) = 01455
W1(4) = (11/64, -43/64, 3/64) W1(7) = (-000756, -09240, -00471)
W2(4) = (-11/64, 43/64, -3/64) W2(7) = (000756, 09240, 00471)
En t = 4: En t = 7:
X(4) = x4 2 X(7) = x3 1
fd1(X(4)) = -29/64 fd1(X(7)) = 08693848
fd2(X(4)) = 29/64 fd2(X(7)) = -08693848
error1(4) = -35/64 error1(7) = 01306152
error2(4) = 35/64 error2(7) = -01306152
W1(5) = (00351, -0,808, -0,0898) W1(8) = (002508, -09567, -001446)
W2(5) = (-00351, 0808, 00898) W2(8) = (-002508, 09567, 001446)
En t = 5: En t = 8:
X(5) = x1 1 X(8) = x4 2
fd1(X(5)) = 06835 fd1(X(8)) = -0946106
fd2(X(5)) = -06835 fd2(X(8)) = 0946106
error1(5) = 03164 error1(8) = -005389
error2(5) = 03164 error2(8) = 005389
W1(6) = (-00439, -08876, -00107) W1(9) = (001611, -09701, -002793)
W2(6) = (00439, 08876, 00107) W2(9) = (-001611, 09701, 002793)
En t = 6:
Se aprecia que los valores del error cada vez son menores. Adems, se
puede comprobar que este proceso de convergencia contina en sucesivas
iteraciones. Si en este momento (t = 8) se detiene el proceso y se asume que el
error que se comete no influye en el proceso de clasificacin, las funciones
discriminantes son:
x1
fd 1 ( X ) = (0'01611 0'9701 0'02793) x 2 = 0'01611x1 0'97 x 2 0'02793
1
- 195 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
x1
fd 2 ( X ) = ( 0'01611 0'9701 0'02793) x 2 = 0'01611x1 + 0'97 x 2 + 0'02793
1
- 196 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
donde a cada patrn le sigue el patrn que est ms prximo segn la distancia
eucldea. Es decir, Xi(1) ser el ms prximo a Xi(0), Xi(2) ser el ms prximo a
Xi(1), y as sucesivamente.
- 197 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
- 198 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
Paso 1.- Se fija un valor umbral h. Se toma al azar un patrn de los P disponibles y se toma
como representante de la clase 1.
Paso 2.- Se calculan las distancias eucldeas del representante de 1 a los P-1 patrones no
agrupados y se toma la mxima distancia, formando una nueva clase con aqul patrn que la
maximiza como representante.
Paso 3.- Se distribuyen los restantes patrones en la clase ms prxima de las existentes,
anotando el patrn V que est a mayor distancia de su respectivo representante.
- 199 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
t=0 t=1
t=2 t = 3,4...
- Algoritmo k Medias -
Paso 1.- Se hace t = 1. Se toman al azar k vectores de los P existentes y se convierten en
centroides de cada una de las k clases respectivamente.
Z1(1) de 1
...
Zk(1) de k
Paso 2.- Se distribuyen las P muestras entre las k clases. Se asigna cada vector x a la clase
cuyo centroide est ms prximo.
Paso 3.- Se calculan los centroides de las clases como la media ponderada de los vectores
de cada clase.
Paso 4.- Si alguno de los k centroides Zk(t) es distinto de los nuevos centroides Zk(t+1)
hacer t = t+1 e ir al paso 2, en otro caso finalizar el algoritmo.
- 200 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
Este algoritmo goza de una amplia difusin debido a que es simple, a que
suele ofrecer unos resultados fiables, y a que no depende de ningn umbral
heurstico. Tiene la desventaja de que es preciso conocer de antemano el nmero
de clases en que se divide la muestra. Aunque esto, en las ocasiones en que se
dispone de tal dato, es ms una ventaja que un inconveniente. Tambin debe
observarse que la solucin obtenida puede ser dependiente de la eleccin que se
haga de los patrones iniciales, por lo que debe ponerse cuidado en este punto. Esta
variacin del resultado dependiendo de los patrones iniciales ocurre sobre todo
cuando la distincin entre clases no est muy clara, o cuando no se estima
adecuadamente el nmero de clases.
- 201 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 5 Introduccin a los clasificadores
[Mar93] caps. 2, 4 y 6,
[Loo97] cap. 5
28
Entre estas tcnicas se pueden citar el algoritmo del elemento ms votado, el algoritmo
de la votacin promediada y el algoritmo BKS. El primero devuelve el resultado del
clasificador que ms se repita. El segundo devuelve el resultado del clasificador que
promediado con los dems con cierto coeficiente obtenga un resultado ms alto. El ltimo
utiliza los resultados de N clasificadores sobre una muestra de ensayo para construir una
matriz de dimensin N que ofrece resultados para cada combinacin de resultados de los N
clasificadores.
- 202 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la
Visin Tridimensional
Cuando un bho acecha una presa realiza rpidos y precisos movimientos con la
cabeza. Estos movimientos le permiten obtener distintas perspectivas de la escena
que observa. El cerebro del bho usa estas diferentes perspectivas para calcular
con precisin la distancia y la direccin en la que se nueve su prximo bocado.
- 203 -
2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
- 204 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
I
P(x, y, z)
V f
U D
C
A
P (u, v) Z
Y
X
Figura 96.- Modelo Pin-Hole o perspectiva cnica. Obsrvese que todos los puntos de la
recta CP se proyectan en el mismo punto P de la imagen.
- 205 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
P(x, y, z)
I
f D
C
-v A
P(u, v)
v D V D V cos( D, V )
= =
f D A D A cos( D, A)
cos( D,U )
u = f
cos( D, A)
Sobre estas frmulas se puede cambiar D por P-C, con lo que el problema
estar expresado directamente en los parmetros que inicialmente se propusieron.
Por ltimo, slo resta transformar las coordenadas (u, v) del plano de
formacin de la imagen en coordenadas (i ,j) del plano digital de la imagen. Para
hacer esta transformacin se debe tener en cuenta la relacin de tamao de los
pxeles dentro del plano de formacin de la imagen, por lo que se llamar al ancho
de un pxel m, y al alto n. Tambin se deben conocer las coordenadas (i0, j0) del
punto del plano digital de la imagen que se corresponden con las del centro del
plano de formacin de la imagen.
- 206 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
Cuando u vale 0, i vale i0, y cuando i vale i0+1 u toma valor igual al ancho
de un pxel, es decir m. Aplicando un razonamiento similar para calcular la
relacin entre j y v se obtienen las igualdades:
u = m (i - i0)
v = - n (j - j0)
f (P C) U
i= + i0 (6.1)
m (P C) A
f (P C) V
j= + j0 (6.2)
n (P C) A
6.1.2 Calibracin
Las ecuaciones (6.1) y (6.2) permiten conocer la relacin entre los pxeles de una
imagen digital, y los puntos de los que son proyeccin en la escena tridimensional.
No debe pasarse por alto, sin embargo, que es preciso obtener los valores de todos
los parmetros que aparecen en estas ecuaciones. La calibracin es el proceso que
se encarga de determinar los valores de los parmetros que intervienen en el
proceso de formacin de la imagen. En este modelo la calibracin consiste
precisamente en obtener el valor de los parmetros de estas ecuaciones (ver Tabla
7).
valores de tales parmetros suele utilizarse una imagen de calibracin que dispone
de N puntos de los que se conocen sus posiciones. Esto suele conseguirse
recurriendo a una imagen de la escena en la que aparece una plantilla de
calibracin, que es un elemento formado por uno o varios paneles en los que
aparecen N puntos de posiciones conocidas (ver Figura 98).
- 208 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
Clculo matricial
En el siguiente apartado se realiza un desarrollo que culmina en una formulacin
que permite realizar el proceso de calibracin.
f P U C U f Ut P f U t C
i= + i0 i = + + i0
m (P C) A m (P V ) A m (P C) A
f Vt P f V t C
j= + j0
n (P C ) A n (P C ) A
Llamando
= ( P C ) A = At P At C
se obtiene el sistema
f rt f t
i = m u P + m U C + i0
f t f t
j = V P V C + j 0
n n
= At P At C
que se puede escribir en forma matricial, poniendo atencin a la matriz central que
slo contiene parmetros intrnsecos.
- 209 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
f
0 i0
i m U P U C
t t
j0 V t P V t C
f
j = 0 t
n
1 A PA C
t
0 0
f
0 i0 x
i m u x uy uz U tC
y
j0 v x
f
j = 0
vy vz V tC
A t C
n z
0 0 1 ax ay az
1
f
0 i0 x
i m U U C
t
y
j0 V V t C
f
j = 0
n z
1 A A C
t
0 0
1
- 210 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
x
i
y
j = K [R T ]
z
1
x
i w1,1 w1, 2 w1,3 w1, 4
y
j = w2,1 w2 , 2 w2 ,3 w2, 4
w w3, 4
z
3,1 w3, 2 w3,3
1
29
Esto no es posible cuando el ngulo que forma el plano de la imagen con el eje de la lente
de la cmara es distinto de cero. En estos casos es posible tal cambio si se introduce un
parmetro en la posicin (1,2) de la matriz de intrnsecos.
- 211 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
w1,1
w1, 2
w
1,3
w1, 4
w
2,1
x y z 1 0 0 0 0 xi yi zi i w2 , 2
=0
0 0 0 0 x y z 1 xj yj zj j w2,3
w2 , 4
w3,1
w
3, 2
w3,3
w
3, 4
O ms concisamente:
x y z 1 0 0 0 0 xi yi zi i
W = 0
0 0 0 0 x y z 1 xj yj zj j
30
Puesto que se trabaja con coordenadas homogneas la escala es irrelevante. En este caso
es posible establecer por ejemplo el valor de w3,4 a 1 y el resultado no cambiar. As, el
sistema tendr 12 ecuaciones y 11 incgnitas y estar sobredeterminado. En este caso puede
utilizarse algoritmos de minimizacin del error, como el mtodo de mnimos cuadrados,
para estimar W en vez de proceder a su clculo directo.
- 212 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
El problema de correspondencia
Sin embargo, el uso de ms de una imagen plantea un problema que se conoce
como el problema de correspondencia. Este problema se encuentra al intentar
hacer corresponder los puntos de 2 imgenes digitales distintas. Es decir,
conociendo las coordenadas (i1, j1) de un pxel dentro de la imagen digital I1 que
corresponde a un punto P de una escena tridimensional, cules son las coordenadas
(i2, j2) correspondientes a la representacin del mismo punto P en la imagen digital
I2. Este problema se resuelve si se encuentra una transformacin que relacione las
diferentes proyecciones de un punto. Este tipo de transformacin entre los puntos
P1 y P2 se denomina homografa.
Restriccin epipolar
Existe una propiedad geomtrica, que posee todo sistema de visin estreo, que
ayudar a resolver el problema de correspondencia. Esta propiedad se conoce
como la restriccin epipolar.
- 213 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
1 P1 = K 1 [R1 T1 ] P
2 P2 = K 2 [R2 T2 ] P
1 P1 = K1 R1 P + K1 T1
2 P2 = K 2 R2 P + K 2 T2 (6.3)
C1 E1
C2
P1
I2
P2
I1
1
2 P2 = K 2 R2 K1 1 P1 + K 2 T2
- 214 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
1
2 P2 = 1 K 2 R2 K 1 P1 + K 2 T2 (6.4)
142 4 44 3 123
H e
2 P2 = 1 H P1 + e
2 K 2 1 P2 = 1 R2 K 1 1 P1 + T2
[ ]
2 T K 2 1 P2 = 1 T R2 K1 1 P1
Multiplicando por K 2 [ 1
]
P2 que es perpendicular a T K 2 P2 se [ 1
]
obtiene:
[ 1
]
0 = 1 K 2 P2 T R2 K 1 P1
1
1 1
0 = P2 K 2 T R2 K 1 P1
144 42444 3
F
0 = P2 F P1 (6.5)
1 P1 = K1 [R1 T1 ] P
2 P2 = K 2 [R2 T2 ] P
- 216 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
Tiempo de vuelo
Mtodo activo en el que se mide el tiempo invertido por una seal de velocidad
conocida en recorrer la distancia que separa una regin de la escena del dispositivo
emisor-receptor. La seal suele ser de naturaleza acstica o electromagntica.
Inferometra de Moir
El motivo de interferencia obtenido al iluminar y observar una escena a travs de
sendos dispositivos idnticos de tipo rejilla permite la recuperacin de la
informacin tridimensional. Se basa en que la superposicin de dos motivos de la
misma frecuencia espacial produce una interferencia de baja frecuencia que
nicamente vara con la diferencia de fase. Los inconvenientes son que los
gradientes de la superficie del objeto han de ser acotados, y ha de existir
continuidad. La Figura 100 muestra la disposicin de un sistema de este tipo.
- 219 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
rejilla rejilla
proyector de luz
cmara
- 220 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
P(x,y,z)
Z
b
X
f
p(U,V)
Proyecto Cmara
r
Figura 101.- Disposicin de un sistema de visin 3D mediante proyeccin de luz
estructurada. La obtencin de puntos 3D se basa en el mtodo de triangulacin activa:
conocidos b, f, U y V, es posible obtener las coordenadas 3D de P.
(a) (b)
Figura 102.- .- (a) Patrn de luz estructurada utilizado para la proyeccin de luz
estructrurada, y (b) objeto reflejando ese patrn de luz. Los puntos iluminados se pueden
obtener mediante triangulacin activa.
- 221 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
Las imgenes de rango pueden venir dadas, bien mediante una lista de
coordenadas 3D de puntos sin especificaciones de orden ni conectividad entre
ellos, como se muestra en la Figura 103 (a esta forma de representacin se la
denomina nube de puntos), o bien mediante una matriz de valores de profundidad
de puntos a lo largo de las direcciones x e y de la imagen. Las imgenes que vienen
dadas de esta forma se denominan imgenes de profundidad, mapas de
profundidad, perfiles de superficie, o imgenes 21/2D.
- 222 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
Figura 104.- Imagen de rango adquirida mediante un sensor de rango 3D lser que emplea
triangulacin activa para el clculo de las coordenadas 3D. La imagen de la izquierda
presenta la vista frontal del objeto y permite apreciar la resolucin del escner. La de la
derecha esta rotada para que pueda apreciarse su forma.
- 223 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Captulo 6 Introduccin a la Visin Tridimensional
En cualquier caso este tema, como otros que han sido descritos en este libro,
constituye un problema abierto que seguro encontrar nuevas soluciones en los
prximos aos.
- 224 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin con el
perceptrn multicapa
El sistema nervioso se encarga de recoger los impulsos del mundo que nos rodea y
de coordinar y dirigir todas las actividades de los rganos de acuerdo a lo que ha
percibido de ese exterior. Este complejo sistema tiene como unidad funcional un
nico tipo de clulas: las neuronas. Las neuronas disponen de un elemento que se
llaman axn que permite trasmitir a otras neuronas a travs de las dendritas
impulsos elctricos de diferente intensidad. Estas clulas se disponen en forma de
complejas redes y mediante unos procesos, conocidos como procesos sinpticos,
segn los cuales se excitacin o se inhiben unas a otras, son las responsables de las
capacidades de aprendizaje y comprensin que caracterizan a los seres vivos que
las poseen.
axn
sinapsis
soma
ncleo
dendritas
Figura 105.- Modelo biolgico que representa la conexin entre dos neuronas.
- 225 -
2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
31
En su definicin ms general se definen tres funciones asociadas a cada neurona. La
funcin de entrada, la funcin de activacin y la funcin de salida, aunque como la funcin
de salida suele ser la funcin identidad en general no se tiene en cuenta. Hay autores que
denominan funcin de transferencia al conjunto formado por la funcin de activacin y la
funcin de salida.
- 226 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
descripcin que se ha realizado de las redes de neuronas, la salida de una red slo
depende: de la entrada, de las conexiones que existan entre las clulas y de los
pesos que stas tengan asociados.
32
El proceso de aprendizaje de un conjunto de neuronas reales constituye un tema por
descubrir para la biologa actual.
- 227 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
- 228 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
- 229 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
ENTRENAMIENTO SOBREENTRENAMIENTO
INSUFICIENTE
ErrorCPE
Error 1
Error 2
ErrorCE
Error 3
Para simplificar los clculos suele cambiarse el umbral por una entrada de
peso igual a umbralj, conectando este axn a una neurona especial que siempre
tendr estado de activacin 1. De esta forma la entrada total a la neurona j ser:
- 230 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
1
salida j = Entrada _ Total j
(A.4)
1+ e
1
Funcin Escaln
0
1
Funcin Sigmoide
0 0
Figura 108.- Aspecto de las funciones de activacin escaln (arriba) y sigmoide (abajo).
As, el modelo ms sencillo consistir en una red compuesta por una nica
neurona, en la que la salida viene determinada por la sigmoide (A.4) de la entrada
total. Es sencillo demostrar que este esquema es idntico al del clasificador
eucldeo. As, una red con una sola capa puede separar conjuntos de patrones
mediante un hiperplano (ver Figura 109).
- 231 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
Figura 109.- Patrones 2D separados por un hiperplano (en este caso una recta).
Salidas
...
Entradas ... Nivel 1 (Oculto)
i unidades (i>0)
...
Entradas
- 232 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
Para poder discriminar dos conjuntos sea cual sea la disposicin de sus
patrones se puede utilizar una red con una sola capa oculta. En los siguientes
prrafos se ofrece una demostracin informal de este hecho.
- 233 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
Figura 111.- Los patrones de una muestra siempre se pueden agrupar en regiones convexas.
Por tanto, concatenando las dos redes descritas, es decir, construyendo una
red con una capa oculta y tantas neuronas de salida como clases, se pueden separar
regiones con forma cualquiera.
- 234 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
Error
pesoi j = (A.5)
pesoi j
- 235 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
Elementos de la red
De (A.5) se deduce que se debe disponer de una medida para el error. La medida
ms comn de ste consiste en la suma de las diferencias cuadrticas entre los
valores obtenidos y los deseados, en las numN neuronas de salida, despus de
presentar cada patrn de entrenamiento. Esta frmula (A.6) se conoce como error
cuadrtico medio.
numN
1
Error =
numN
(salida
N =1
N deseada N ) 2 (A.6)
entrada j
= salida i (A.9)
pesoi j
Definimos ahora:
Error
cambio j = (A.10)
entrada j
- 236 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
salida j
= F '(entrada j ) (A.13)
entrada j
Error
= ( deseada j salida j ) (A.14)
salida j
- 237 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
Funciones de activacin
Como se desprende de (A.15) la aplicacin de la regla delta depende de la derivada
de la funcin de activacin. La funcin de activacin ms comn es la sigmoide,
pero tambin suelen usarse la funcin tangente hiperblica y la funcin identidad.
Derivando:
F(entradaj) =1 (A.17)
1 entrada j 1
salidaj = F(entradaj) = entrada j e = 1 (A.18)
1+ e salida j
Derivando:
entrada j
1 e
F(entradaj) = = = salidaj (1- salidaj) (A.19)
1+ e entrada j
( )
entrada j 2
1+ e
- 238 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
0 Si la salida es correcta
1
Error = (m entrada j ) 2 Si la salida es 0 y debera ser 1 (A.20)
2
1 (m + entrada j ) 2 Si la salida es 1 y debera ser 0
2
0 Si la salida es correcta
Error
cambio j = = entrada j m Si la salida es 0 y debera ser 1
entrada j
entrada j + m Si la salida es 1 y debera ser 0
(A.21)
- 239 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
manera recursiva nos conducir a la ltima capa para la que s se conoce el valor
deseado a la salida.
. .
. .
. Neuronas . . . . . . Neuronas .
. de . ... . . ... . de .
. Entrada . . . . . Salida .
i j .
pesoij .
Figura 112.- Esquema general de una conexin entre dos neuronas en un perceptrn
multicapa. Se presenta el caso de una conexin cualquiera, que une la neurona i de la capa
intermedia I y la neurona j de la capa intermedia J.
Error numK
Error entrada K
= = (A.23)
salida j K =1 entrada K salida j
numJ
( peso J K salida J )
numK
Error
= J =1
= (A.24)
K =1 entrada K salida j
- 240 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
numK
Error numK
= peso j K = cambio peso j K (A.25)
K =1 entrada K K =1
K
numK
cambio j = F ' (entrada j ) cambio
K =1
K peso j K (A.26)
Esta frmula nos permite conocer el factor cambio para una capa siempre
que se conozca el factor cambio para la capa siguiente. Este proceso tiene fin en la
ltima capa de la que se conoce el valor cambio gracias a (A.15). Constituye por
tanto un mtodo constructivo para ir calculando el incremento de los pesos que
minimiza el error segn (A.6), y que exige que la funcin de activacin de cada
neurona sea derivable respecto de la entrada total a la misma.
Paso 1.- Iniciar los pesos de las conexiones de la red con valores aleatorios pequeos.
Paso 2.- Presentar uno de los conjuntos de entrada de la muestra a la red y calcular la salida
que se obtiene.
Paso 3.- Si no coincide la salida obtenida con la deseada ajustar los pesos como sigue:
j = N (N es el nmero de neuronas)
i=j
Mientras que j 0
{
- 241 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
Mientras que i 0
{
pesoij(t+1)= cambioj(t) salidai(t)
pesoij(t+1)=pesoij(t)+ pesoij(t+1)
i = i 1
}
j = j-1
}
En esta forma los pesos se modifican tras cada iteracin constituyendo la variante on-line.
Tambin podran sumarse cuando han pasado todos los conjuntos de entrada en lo que sera
la variante Batch.
cambioj es una medida del error cometido en la neurona j. En este algoritmo este error
depende del tipo de neurona. Si la neurona j es de salida, cambioj, tendr en cuenta la
diferencia entre el valor deseado y el obtenido:
mientras que si es una neurona intermedia medir el error de las neuronas a las que
alimenta:
Paso 4.- Si han coincidido todas las salidas obtenidas con las esperadas despus de
presentar todos las entradas de nuestro conjunto de entrenamiento terminar. En otro caso
hacer t = t + 1 e ir al paso 2. Como es posible que el proceso no logre obtener siempre la
salida deseada frente al patrn de entrada, siempre se puede detener el proceso cuando
alcance un valor de error que se considere aceptable.
- 243 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
Figura 113.- Ejemplo de algunos de los caracteres usados para construir los conjuntos de
entrenamiento, validacin y test final del clasificador.
- 244 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
Figura 114.- Imagen de una red de neuronas con 68 unidades de entrada (verde), 20
unidades ocultas (amarillo) y 10 de salida (rojo).
20 y 40 unidades ocultas
y dos capas ocultas
10 unidades ocultas
Error cuadrtico medio
Iteraciones de entrenamiento
Punto timo
de generalizacin
Iteraciones de entrenamiento
Figura 116.- Curva que presenta el error obtenido con los patrones de entrenamiento y con
los de validacin del entrenamiento. El punto ptimo de generalizacin indica el punto en el
que se debe interrumpir el entrenamiento.
3 17 1
4 18
5 17 1
6 1 17
7 1 17
8 18
9 18
Tabla 8
- 246 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
[Loo97] cap. 5
[Z+95]
- 247 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo B Referencias
Bibliogrficas
[F+97] J.D. Foley, A. van Dam, S.K. Feiner y J.F. Hughes, Computer
Graphics: Principles and Practice, 2nd edition in C, Addison-Wesley,
1997.
- 249 -
2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
[Loo97] C.G. Looney, Pattern Recognition using Neural Networks: Theory and
Algorithms for Engineers and Scientists, Oxford University Press,
1997.
[Par97] J.R. Parker, Algorithms for Image Processing and Computer Vision, J.
Wiley and Sons, 1997.
[Z+95] A. Zell et al, Stuttgart Neural Network Simulator: User Manual v. 4.0,
1995.
- 250 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
- 251 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
[Mat99] Matrox Electronic Systems Ltd, Matrox Imaging Library: User Guide
v. 6.0, 1999.
- 252 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
- 253 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
B.3.1 Revistas
El lector interesado en el tratamiento digital de imgenes y visin artificial puede
consultar multitud de revistas dedicadas a la materia explicada. Tienen especial
relevancia:
- 254 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
IEEE Press.
Springer Verlag.
Academic Press.
Prentice Hall.
Kluwer Academic Publishers.
Elsevier Science.
Addison Wesley.
World Scientific Publishing Company.
John Wiley & Sons.
MIT Press.
CRC Press.
B.3.2 Software
Existen numerosas heramientas software que pueden adaptarse, total o
parcialmente para la enseanza de la visin por computador. Las mejores
herramientas son de pago, aunque tambin hay software libre que se puede utilizar
para estos propsitos. En la pgina web: The Computer Vision Homepage de la
Universidad de Carnegie Mellon (cuyo enlace aparece en esta seccin) existe un
apartado de software donde puede encontrarse una lista extensa de programas,
- 255 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
http://www-2.cs.cmu.edu/afs/cs/project/cil/ftp/html/v-images.html, donde se
pueden encontrar informacin de muchas bases de datos, imgenes asiladas y
secuencias de imgenes estndar de prueba.
1. Aplicaciones.
2. Bases de datos e ndices.
3. Sistemas de visin famosos.
4. Tcnicas de visin genricas.
5. Mtodos de extraccin de caractersticas geomtricas.
6. Fsica de la imagen.
7. Transformaciones y filtrados sobre imgenes.
8. Movimiento, seguimiento y anlisis de secuencias de imgenes.
- 257 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
Se trata de una sociedad americana dedicada a la visin por computador desde una
perspectiva ms industrial y profesional. Ofrece en sus enlaces una gua de
compradores, consejos para aplicar con xito la visin por computador, recursos
educativos, eventos, enlaces, etc.
(http://www.palantir.swarthmore.edu/~maxwell/visionCourses.htm).
Informacin bibliogrfica.
- 259 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
En relacin con las conferencias promovidas por IEEE Computer Society sobre
visin artificial conviene destacar: la Conference on Computer Vision and Pattern
Recognition (CVPR) y la International Conference on Computer Vision (ICCV).
- 260 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo A Clasificacin de patrones con el perceptrn multicapa
- 261 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo C ndice alfabtico
BMP, 56
A borde, 141
agrupamiento, 194 bordes, 101
lbum de Brodatz, 125 brillo, 7
algoritmo de etiquetado de buja, 7
componentes conexas, 134 byte, 31
algoritmo de las distancias
C
encadenadas, 195
algoritmo de retropropagacin del cmara oscura, 26
gradiente, 233 cmaras, 36
algoritmo de Warshall, 135 camino, 140
algoritmo k-medias, 195, 197 campos aleatorios, 155
algoritmo MaxMin, 195, 196 capacidad discriminante, 170
apertura, 113 captura, 21, 26
aprendizaje, 175, 187, 225 caractersticas discriminantes, 165
axn, 223 CCDs, 42
CCITT Grupo 3, 51
B CCITT Grupo 4, 51
background, 126 clulas nerviosas, 224
bastones, 8 centro ptico de una lente, 27
Bitmap, 56 centroide, 177
cierre, 114
- 263 -
2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn
Anexo C ndice alfabtico
- 268 -
2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn