Traduccion Articulo 03 15102016 - 2326

AUMENTO DE LA SATURACIN DEL COLOR MEDIANTE LA
OPTIMIZACIN DE LOS ESPECTROS DE LUZ RESTRINGIDOS SOBRE

LAS PROPIEDADES DE REPRESENTACIN DE COLOR
ABSTRACT
Mejorar la saturacin de color de los objetos a travs de la iluminacin con
espectros de luz especialmente diseado es prometedora en muchas
aplicaciones comerciales y cientficas. La literatura existente se ha centrado
en el estudio de los colores que se pueden representar por la luz blanca con
diferentes temperaturas de color correlacionadas, y por la luz mixta de
varios diodos emisores de luz monocromtica. Sin embargo, muy poca
literatura se ha dedicado a mtodos que se pueden configurar de forma
activa el espectro de luz para mejorar la saturacin de color de un objeto
arbitrario. Este documento propone un mtodo basado en la optimizacin de
ampliar la gama que se puede lograr por una lmpara policromtica dado
hacia una direccin elegida, es decir, para aumentar la saturacin de un
color especfico.
INTRODUCCION
Debido a los recientes avances en tecnologa de sensores, imgenes de alta
resolucin son accesibles fcilmente. El anlisis de imgenes de alta
resolucin se ha convertido en un rea importante de investigacin [1] - [3],
con una amplia variedad de aplicaciones, tales como la comprensin de
imagen, deteccin de objetos y clasificacin de imgenes. La deteccin de
objetos pequeos, tales como vehculos, aviones y barcos, etc., es una tarea
difcil bien conocida en imgenes de alta resolucin. La deteccin de
vehculos, es un rea de investigacin activa, que ha sido ampliamente
utilizado en la vigilancia militar, sistema de trfico inteligente, bsqueda y
salvamento martimo. Aunque diversos enfoques [1] - [5] intentan resolver
este problema, no existe una solucin ampliamente reconocido para el
problema. Las dificultades radican principalmente en tres aspectos: la
diversidad de colores y formas para diferentes vehculos, fondos complejos
y oclusiones causadas por edificios y rboles. En trminos generales, los
enfoques existentes consisten principalmente en tres etapas: localizacin de
objetos, extraccin de caractersticas y clasificacin de objetos. Varios
mtodos de localizacin de objetos se han aplicado a la deteccin de
vehculos. T. Zhao et al. [6] emplearon la prioridad de que los vehculos
estn en el camino. En consecuencia, utilizan el operador de Canny para
detectar lneas rectas de la carretera, primeramente.
Luego de encontrar la imagen del camino, finalmente, detectan los
vehculos sobre la carretera. H. Zheng et al. [1] present un mtodo de
segmentacin de umbral que se basa en operaciones morfolgicas,
llamadas, transformaciones de la parte superior e inferior del sombrero de
escala de grises. Este mtodo proporciona una forma conveniente para la
deteccin de vehculos, producindose un error cuando los vehculos se
ocluyen por edificios y rboles. X. Y. Chen et al. [2] localizando los vehculos
con el mtodo de ventana deslizante. Este mtodo mejora en gran medida

la precisin de la deteccin de vehculos, mientras que el mtodo basado en
ventana deslizante consume mucho tiempo y es difcil generalizar la
complejidad del fondo. Del mismo modo, se utilizan diversos mtodos de
extraccin de caractersticas en la deteccin de vehculos, tales como Haarlike wavelets, Scale Invariant Feature Transform (SIFT) [7], Histogram of
Oriented Gradients (HOG) [8], Local Binary Pattern (LBP) [9] o sus
combinaciones. Por ejemplo, el modelo jerrquico 3D fue utilizado por Hinz
[3] para describir las caractersticas geomtricas prominentes de coches. P.
Liang et al. [10] combin HOG y Haar descriptors en framework Generalized
Multiple Kernel Learning (GMKL), en la que disyuntiva entre HOG y Haar los
descriptores fueron aprendidos mediante la construccin de un ncleo
ptimo con muchos granos bsicos. Kembhavi et al. [11] propuso un modelo
basado en caractersticas multiescala de HOG. De este modo se puede
detectar con eficacia los vehculos en diferentes tamaos y escalas. Todas
las caractersticas anteriores han logrado un gran xito en la deteccin de
objetos en imgenes naturales. Sin embargo, las imgenes areas tienen
algunas diferencias con las imgenes naturales. Por ejemplo, las imgenes
de satlite tienen una baja resolucin, bajo contraste de color y mucho
ruido. Mientras tanto, estas caractersticas estn definidas manualmente y
no especficamente para el problema de la deteccin de vehculos, por lo
que ignoran las caractersticas de los vehculos. Enfoques tradicionales de
clasificacin incluyen Support Vector Machine (SVM), boosting and CNN, que
son los clasificadores representativos del estado del arte. Ellos son
ampliamente utilizados en la deteccin de vehculos. Chen et al. [4] utilizo
SVM para detectar vehculos en la carretera. Grabner [5] propuso un
sistema robusto con boosting-based para la deteccin de autos en imgenes
areas. Chen et al. [2] mostr que una CNN puede lograr una alta exactitud
en la deteccin de vehculos de forma espectacular. La actuacin de los
clasificadores en gran medida depende de los aspectos que utilizan, sin
importar el clasificador elegido. Tanto la velocidad y la precisin son muy
importantes para su aplicacin prctica, como es la deteccin de objetos en
imgenes de satlite. Como la deteccin de vehculos requiere la
localizacin de objetos dentro de una imagen, un enfoque de uso comn
que se ha utilizado durante varias dcadas es el detector basado en
ventana deslizante [2]. Este mtodo no es prctico por que emplea mucho
tiempo. Como se mencion anteriormente, las caractersticas generadas de
manera artesanal con SIFT, HOG, LBP no puede alcanzar un equilibrio
ptimo entre la discriminabilidad y la robustez sin considerar los detalles de
los datos reales. Para superar las desventajas de los mtodos clsicos, se
propone un nuevo marco de trabajo para la deteccin de vehculos
considerando la velocidad y la precisin. Esta propuesta, se compone de dos
etapas: la primera es para localizar regiones propuestas y la segunda es la
clasificacin de vehculos. Muchos investigadores recientes proporcionan
mtodos para generar una categorizacin independiente de regiones
propuestas. Algunos ejemplos como: BING [12], selective search [13],
category-independent object proposals [14]. Teniendo en cuenta tanto la
velocidad y la precisin, se utiliza BING para acelerar la etapa de
localizacin. La motivacin principal de BING es que un objeto genrico con
lmites bien definidos cerrados comparta sorprendentemente una fuerte
correlacin cuando se mira en la norma del gradiente, despus de cambiar

el tamao de las ventanas de imagen correspondientes a un pequeo
tamao fijo (por ejemplo, 8 8). Nuestros resultados experimentales
muestran las ventajas de BING. No slo acelera la etapa de extraccin
regin propuestas, sino que tambin proporciona beneficios para la
formacin de la CNN, ofreciendo muchas muestras duras, que pueden
mejorar el rendimiento de la CNN. Adems, CNN se sido utilizado para
aprender automticamente las caractersticas ricas de imgenes de satlite,
lo que ha dado un rendimiento superior en muchas tareas de
reconocimiento de objetos. Como una arquitectura de aprendizaje de
caracterstica, CNN combina caractersticas extradas y clasificacin. Para el
reconocimiento de cdigo postal escrita a mano, LeCun et al. [15] mostr
que el descenso de gradiente estocstico mediante propagacin hacia atrs
fue eficaz para el entrenamiento de una CNN. Luego, en reconocimiento de
decumentos, LeCun et al. [16] ofrece la clsica arquitectura de CNN llamada
LetNet. CNN est diseado especficamente para hacer frente a la
variabilidad de las figuras de dos dimensiones (2-D) mediante la extraccin
de caractersticas locales que dependen solamente de pequeas subregiones de la imagen. Como las imgenes satelitales son formas 2-D, se
eligi CNN para tratar con ellos. Recientemente, hay muchos marcos de
tranakp para el aprendizaje profundo. Caffe [17] es un marco de aprendizaje
profundo desarrollado con la limpieza, la legibilidad y la velocidad en mente.
Los experimentos demuestran que nuestro mtodo reduce drsticamente el
tiempo necesario y aumenta la precisin mediante el uso de BING y Caffe en
modo CUDA.
El resto de este documento se organiza de la siguiente manera. En la
Seccin 2, proporcionamos descripciones ms detalladas sobre nuestro
enfoque. La seccin 3 muestra la evaluacin experimental y anlisis de la
aplicacin de este mtodo en nuestro propio conjunto de datos, lo que
demuestra que nuestro mtodo supera los enfoques del estado del arte en
la deteccin de vehculos. Por ltimo, llegamos a la conclusin en la seccin
4.
II. MDULO DE DISEO
En esta seccin, se tratarn los detalles de las dos etapas en nuestro marco
de trabajo mencionados anteriormente. La primera etapa genera propuestas
de regin categorizadas independientemente. Estas propuestas son los
datos de entrada para la siguiente etapa. A continuacin, la segunda etapa
utiliza CNN para decidir qu propuestas son vehculos. La Fig. 1 presenta
una visin general de nuestro mtodo.
Figure 1. Nuestra estructura CNN
A. Regiones Propuestas
Partiendo del detector basado de ventana deslizante que consume mucho
tiempo, utilizamos BING para capturar de manera eficiente la Objetualidad
de una ventana de imagen. Objetualidad se suele representar como un valor
que refleja la probabilidad de que una ventana cubra un objeto de una
categora en una imagen [18]. Los vehculos son los objetos que desea
buscar en las imgenes de satlite. Como vehculos en las imgenes de
satlite tienen tamaos similares, no tenemos que considerar un problema
de escala mltiple. De lo contrario, habra muchas propuestas falsas
positivos que tengan un tamao superior a los vehculos. El beneficio de la
aceleracin generada por BING se debe principalmente a la utilizacin de la
aproximacin binaria. En la siguiente parte, se explican los detalles de
nuestro mtodo y cmo funciona en el marco de trabajo (framework).
A partir de imgenes correspondientes a 48 x 48, las ventanas de imagen se
redujeron a un tamao de 8 x 8, podemos obtener una puntuacin con un
modelo lineal 64 para cada ventana. El modelo lineal w debe ser
aprendido automticamente.
Con el uso de aproximacin binaria [19], nuestro modelo lineal aprendido
Nb
puede ser aproximado con un conjunto de vectores base
w i bi ,
i=1
N b , denota el nmero de vectores base,
utilizando Alg 1, donde
bi {1, 1}64 denota las bases del vector y
i R
denota el coeficiente
correspondiente. Nosotros utilizamos un vector binario y sus complementos
+
+bi
, donde
bi =bi
64
+ {0, 1 }
bi
, para representar cada
bi , por lo tanto el
resultado de caracterstica binarizada x puede ser calculada eficientemente

como (ver[20]):
+ , x
bi
|x|
2
i
Nb
w , x
i=1
Si aproximamos los valores para el gradiente normalizado (NG) (cada

registro es un valor BYTE) de la correspondiente a una ventana de la imagen
utilizando el lmite superior

caracterstica 64D NG
Nt
bits binarios del valor del BYTE, luego una
f i , puede ser aproximado por
Nt
Binarized
x j ,l
denota la
Normed Gradients (BING) caractersticas como

Nb
f i = 28 j x j ,l
j=1
Donde l = (m, n) denota la ubicacin de una ventana,
respectiva caracterstica BING. Entonces el puntaje filtrado de ventana de

imagen corresponde con las caractersticas BING
x j ,l , se pueden ser
efectivamente probadas como:
+ , x j ,l
b i
2 |x j ,l|)
Nt
i
j =1
Nb
s l= w , f i
i=1
Donde
Ci , j , puede ser calculado usando operadores fast BITWISE y
POPCNT SSE
Algoritmo 1 Modelo de Aproximacin Binaria w[20]
Usamos SVM lineal [12] para el aprendizaje nuestro modelo lineal w. Las
caractersticas NG del terreno para ventanas objeto y ejemplos aleatorios de
ventanas de fondos se utilizaron como ejemplos de entrenamiento positivos
y negativos respectivamente. Despus de ejecutar Non-Max Suppression
(NMS), elegimos un conjunto de propuestas de regin. Estas propuestas de
regin son los datos de entrada de la CNN. En la siguiente parte se explican

los detalles de nuestra estructura CNN y como funciona en el framework.
B. Extraccin de caractersticas
Para conocer caractersticas robustas de datos reales en lugar de
caractersticas artesanales, se eligi CNN para extraer caractersticas de
manera inteligente. Adems, ya hay varios frameworks de aprendizaje
profundo, como, Caffe [17], CudaConvnet2 [21], Tano / Pylearn2 [22] entre
otros. Caffe es una excelente caja de herramientas con lneas claras,
legibilidad y velocidad. Y lo mejor, Caffe puede tener cualquier estructura
Directed Acyclic Graph (DAG). Por esto utilizamos Caffe para poner en
prctica nuestra estructura CNN. Hay tres capas convolucionales, tres capas
de intercambio y una capa de producto interior, as como una capa de
prdida softmax al final. La figura 1 muestra nuestra estructura CNN. Como
se mencion anteriormente, nuestras regiones propuestas tienen un tamao
de 48 48 con tres canales. Utilizamos un tamao de lote de 64, y la escala
de los pxeles de entrada estaban en el rango [0, 1). La siguiente capa
DIVISA1 produce salidas de 20 canales, con un ncleo de convolucin de
tamao 7 y lleva fuera en el paso 1. Los filtros permiten al azar para
inicializar los valores de los pesos y sesgos. Las capas convolucionales
tienen tres mecanismos: (i) campos receptivos locales, (ii) pesos
compartidos, y (iii) las submuestras. Estos mecanismos garantizan
correlaciones locales a saber, los pxeles que son espacialmente cercanos se
correlacionan altamente incorporados en las caractersticas automticas.
Las salidas de las unidades convolucionales forman las entradas a la capa
de intercambio de la de la red. A continuacin, ejecutamos el max pooling
llamado pool1 con el pool kernel de tamao 2 y de 2 pasos. Esto significa
continua y no sobrepuesta entre regiones vecinas de pooling. Las capas de
pooling nos ayudan a reducir la dimensin de la caracterstica y tambin
puede mejorar los resultados (menos sobre ajuste). Del mismo modo, la
siguiente capa CONV2 tiene salidas de 8 canales, con un ncleo
convolucional de tamao 4. La capa pool2 es la misma a la capa pool1.
Entonces definimos capa CONV3 que es la misma a la capa CONV2. Despus
la capa CONV3, tambin definimos capa Pool3 con un pool de kernel de
tamao 2 y 2 pasos. Con ello, se define una capa completamente conectada
llamada ip1 que corresponde al tradicional Multilayer Perception (MLP) con 2
salidas.
La entrada de la capa IP1 es el conjunto de todas las caractersticas
mapeadas a la capa pool3.Por ltimo, se organiza una capa prdida softmax
en el extremo de la red para clasificar las caractersticas de las regiones
propuestas.
III. EXPERIMENTACION
Nuestra base de datos incluye 63 imgenes de satlite de Google Earth de
la ciudad de San Francisco, que contiene 6.887 vehculos y 224,366
muestras de ventana. 31 imgenes que incluyen 3.874 vehculos y 134,430
muestras de ventana utilizadas como conjunto de entrenamiento, las 32
imgenes restantes se utilizaron como conjunto de prueba.
A. Regin propuesta a travs BING

En primer lugar, introducimos los experimentos sobre las regiones
propuestas. Caractersticas NG del terreno verdadero del objeto ventana y
ejemplos aleatorios de ventanas de fondo son utilizados como ejemplos
positivos y negativos respectivamente. Por lo tanto, hay 3.847 muestras de
entrenamiento positivos. Para mantener el equilibrio entre el nmero de
positivos y negativo de muestras de entrenamiento, se produjeron 5.202
muestras negativas. Los experimentos demuestran que nuestro mtodo
genera un pequeo conjunto de ventanas de objetos de alta calidad, dando
Tasa de deteccin de 96,9% objeto (DR) con 1.000 propuestas.
Incrementando el nmero de propuestas para el clculo de caractersticas
BING, nuestro rendimiento se puede mejorar adicionalmente a 99,4% con
2.000 propuestas y 99,7% con 3.000 propuestas. La Tabla I reporta el
desempeo de nuestro mtodo. Como puede verse en la Tabla I, el
rendimiento se mejora cuando hay ms de 3.000 propuestas, por lo tanto,
elegimos 3.000 propuestas para cada imagen de satlite. Para conseguir la
misma precisin de localizacin, los mtodos basados en ventana deslizante
normal necesitan 10.400 ventanas correderas por imagen, por lo que
nuestro mtodo es ms eficiente en la bsqueda. Por otra parte, la etapa de
aprendizaje de nuestro modelo emplea 4.547 segundos y todos los
procedimientos se aprenden automticamente y son completados sin
especificar manualmente parmetros de ajuste fino. La figura 2 muestra los
resultados de la extraccin de propuestas de regin. Las cajas de color rojo
se detectan correctamente y que las cajas de color verde no son
detectadas. Las Fig. 2 muestra que Bing reduce el espacio de bsqueda en
la zona de captura suave, mientras tanto captura los vehculos que desea
localizar. En general, las ventanas de objetos reales de terreno y ventanas
de fondo aleatorio de muestra son utilizadas como muestras positivas y
negativas de entrenamiento de la CNN, respectivamente. A travs de la
produccin de propuestas de regin abundantes a travs de nuestro modelo
BING entrenado, logramos identificar ejemplos ms significativos. Si la
proporcin de rea de unin mxima exceda de 0,6, vamos a etiquetarlo
como muestra positiva. Si la proporcin de rea de unin mxima es inferior
a 0,4, vamos a etiquetarlo como muestra negativa. Estas muestras duras
pueden hacer que el clasificador sea ms preciso que las ventanas del fondo
de la muestra al azar.
B. Los experimentos en CNN
Aqu definimos tres ndices de cuantificacin de falsas alarmas Rate (FAR),
Precision Rate (PR) y Recall Rate (RR) como sigue:
Los datos de entrenamiento de la CNN provienen de 3 partes, la realidad del

suelo, datos muestreados al azar y las propuestas regin de Bing. Con el fin
de conseguir una rotacin invariante en la red neuronal, rotamos cada
ventana de ubicacin terrena real 10 veces por: 9 , 18 , 27 , 90.

Entonces conseguimos 44.000 muestras de entrenamiento de terreno real, y
5.202 muestras aleatorias de entrenamiento negativos. BING tambin
producen 3225 positivo y 82003 muestras de entrenamiento negativos.
La arquitectura de nuestra CNN se describe en la Sec. 2.2.
Despus del entrenamiento de nuestra CNN con los datos anteriores,
utilizamos BING para producir la regin propuesta en nuestras 32 imgenes
de prueba. A continuacin, nuestra CNN entrenada revisara las regiones
propuestas. Los resultados se muestran en la Tabla II. Nuestro mtodo es
mucho ms rpido que otros mtodos mientras que las tasas de
comparacin de precisin en la deteccin, se muestran en la Fig. 3 los
resultados de nuestro mtodo. Las cajas de color rojo se detectan
correctamente y las azules no.
IV. CONCLUSIN
En este trabajo, se introduce un nuevo enfoque de deteccin automtica de
vehculos, que se basa en Gradientes Binarios Normalizados (BING) y Redes
Neuronales Convolucionales (CNN).
Los experimentos con las imgenes de satlite validaron que nuestro
enfoque propuesto logra un mejor rendimiento tanto en velocidad y
precisin. En concreto, nuestro mtodo acelera ms de 10 veces en
comparacin con los enfoques tradicionales, y nuestra precisin supera a los
mtodos reconocidos por el estado del arte.

Traduccion Articulo 03 15102016 - 2326

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Traduccion Articulo 03 15102016 - 2326

Hochgeladen von

Copyright:

Verfügbare Formate

AUMENTO DE LA SATURACIN DEL COLOR MEDIANTE LA

OPTIMIZACIN DE LOS ESPECTROS DE LUZ RESTRINGIDOS SOBRE

con el mtodo de ventana deslizante. Este mtodo mejora en gran medida

correlacin cuando se mira en la norma del gradiente, despus de cambiar

Figure 1. Nuestra estructura CNN

puede ser aproximado con un conjunto de vectores base

N b , denota el nmero de vectores base,

utilizando Alg 1, donde

bi {1, 1}64 denota las bases del vector y

correspondiente. Nosotros utilizamos un vector binario y sus complementos

, para representar cada

resultado de caracterstica binarizada x puede ser calculada eficientemente

Si aproximamos los valores para el gradiente normalizado (NG) (cada

utilizando el lmite superior

bits binarios del valor del BYTE, luego una

f i , puede ser aproximado por

Normed Gradients (BING) caractersticas como

Donde l = (m, n) denota la ubicacin de una ventana,

respectiva caracterstica BING. Entonces el puntaje filtrado de ventana de

efectivamente probadas como:

Ci , j , puede ser calculado usando operadores fast BITWISE y

Algoritmo 1 Modelo de Aproximacin Binaria w[20]

regin son los datos de entrada de la CNN. En la siguiente parte se explican

A. Regin propuesta a travs BING

Los datos de entrenamiento de la CNN provienen de 3 partes, la realidad del

ventana de ubicacin terrena real 10 veces por: 9 , 18 , 27 , 90.

Das könnte Ihnen auch gefallen