Beruflich Dokumente
Kultur Dokumente
INTRODUCCION
Debido a los recientes avances en tecnologa de sensores, imgenes de alta
resolucin son accesibles fcilmente. El anlisis de imgenes de alta
resolucin se ha convertido en un rea importante de investigacin [1] - [3],
con una amplia variedad de aplicaciones, tales como la comprensin de
imagen, deteccin de objetos y clasificacin de imgenes. La deteccin de
objetos pequeos, tales como vehculos, aviones y barcos, etc., es una tarea
difcil bien conocida en imgenes de alta resolucin. La deteccin de
vehculos, es un rea de investigacin activa, que ha sido ampliamente
utilizado en la vigilancia militar, sistema de trfico inteligente, bsqueda y
salvamento martimo. Aunque diversos enfoques [1] - [5] intentan resolver
este problema, no existe una solucin ampliamente reconocido para el
problema. Las dificultades radican principalmente en tres aspectos: la
diversidad de colores y formas para diferentes vehculos, fondos complejos
y oclusiones causadas por edificios y rboles. En trminos generales, los
enfoques existentes consisten principalmente en tres etapas: localizacin de
objetos, extraccin de caractersticas y clasificacin de objetos. Varios
mtodos de localizacin de objetos se han aplicado a la deteccin de
vehculos. T. Zhao et al. [6] emplearon la prioridad de que los vehculos
estn en el camino. En consecuencia, utilizan el operador de Canny para
detectar lneas rectas de la carretera, primeramente.
Luego de encontrar la imagen del camino, finalmente, detectan los
vehculos sobre la carretera. H. Zheng et al. [1] present un mtodo de
segmentacin de umbral que se basa en operaciones morfolgicas,
llamadas, transformaciones de la parte superior e inferior del sombrero de
escala de grises. Este mtodo proporciona una forma conveniente para la
deteccin de vehculos, producindose un error cuando los vehculos se
ocluyen por edificios y rboles. X. Y. Chen et al. [2] localizando los vehculos
A. Regiones Propuestas
Partiendo del detector basado de ventana deslizante que consume mucho
tiempo, utilizamos BING para capturar de manera eficiente la Objetualidad
de una ventana de imagen. Objetualidad se suele representar como un valor
que refleja la probabilidad de que una ventana cubra un objeto de una
categora en una imagen [18]. Los vehculos son los objetos que desea
buscar en las imgenes de satlite. Como vehculos en las imgenes de
satlite tienen tamaos similares, no tenemos que considerar un problema
de escala mltiple. De lo contrario, habra muchas propuestas falsas
positivos que tengan un tamao superior a los vehculos. El beneficio de la
aceleracin generada por BING se debe principalmente a la utilizacin de la
aproximacin binaria. En la siguiente parte, se explican los detalles de
nuestro mtodo y cmo funciona en el marco de trabajo (framework).
A partir de imgenes correspondientes a 48 x 48, las ventanas de imagen se
redujeron a un tamao de 8 x 8, podemos obtener una puntuacin con un
modelo lineal 64 para cada ventana. El modelo lineal w debe ser
aprendido automticamente.
Con el uso de aproximacin binaria [19], nuestro modelo lineal aprendido
Nb
w i bi ,
i=1
i R
denota el coeficiente
+
+bi
, donde
bi =bi
64
+ {0, 1 }
bi
bi , por lo tanto el
+ , x
bi
|x|
2
i
Nb
w , x
i=1
Nt
Nt
Binarized
x j ,l
denota la
f i = 28 j x j ,l
j=1
x j ,l , se pueden ser
+ , x j ,l
b i
2 |x j ,l|)
Nt
i
j =1
Nb
s l= w , f i
i=1
Donde
POPCNT SSE
Usamos SVM lineal [12] para el aprendizaje nuestro modelo lineal w. Las
caractersticas NG del terreno para ventanas objeto y ejemplos aleatorios de
ventanas de fondos se utilizaron como ejemplos de entrenamiento positivos
y negativos respectivamente. Despus de ejecutar Non-Max Suppression
(NMS), elegimos un conjunto de propuestas de regin. Estas propuestas de
B. Extraccin de caractersticas
Para conocer caractersticas robustas de datos reales en lugar de
caractersticas artesanales, se eligi CNN para extraer caractersticas de
manera inteligente. Adems, ya hay varios frameworks de aprendizaje
profundo, como, Caffe [17], CudaConvnet2 [21], Tano / Pylearn2 [22] entre
otros. Caffe es una excelente caja de herramientas con lneas claras,
legibilidad y velocidad. Y lo mejor, Caffe puede tener cualquier estructura
Directed Acyclic Graph (DAG). Por esto utilizamos Caffe para poner en
prctica nuestra estructura CNN. Hay tres capas convolucionales, tres capas
de intercambio y una capa de producto interior, as como una capa de
prdida softmax al final. La figura 1 muestra nuestra estructura CNN. Como
se mencion anteriormente, nuestras regiones propuestas tienen un tamao
de 48 48 con tres canales. Utilizamos un tamao de lote de 64, y la escala
de los pxeles de entrada estaban en el rango [0, 1). La siguiente capa
DIVISA1 produce salidas de 20 canales, con un ncleo de convolucin de
tamao 7 y lleva fuera en el paso 1. Los filtros permiten al azar para
inicializar los valores de los pesos y sesgos. Las capas convolucionales
tienen tres mecanismos: (i) campos receptivos locales, (ii) pesos
compartidos, y (iii) las submuestras. Estos mecanismos garantizan
correlaciones locales a saber, los pxeles que son espacialmente cercanos se
correlacionan altamente incorporados en las caractersticas automticas.
Las salidas de las unidades convolucionales forman las entradas a la capa
de intercambio de la de la red. A continuacin, ejecutamos el max pooling
llamado pool1 con el pool kernel de tamao 2 y de 2 pasos. Esto significa
continua y no sobrepuesta entre regiones vecinas de pooling. Las capas de
pooling nos ayudan a reducir la dimensin de la caracterstica y tambin
puede mejorar los resultados (menos sobre ajuste). Del mismo modo, la
siguiente capa CONV2 tiene salidas de 8 canales, con un ncleo
convolucional de tamao 4. La capa pool2 es la misma a la capa pool1.
Entonces definimos capa CONV3 que es la misma a la capa CONV2. Despus
la capa CONV3, tambin definimos capa Pool3 con un pool de kernel de
tamao 2 y 2 pasos. Con ello, se define una capa completamente conectada
llamada ip1 que corresponde al tradicional Multilayer Perception (MLP) con 2
salidas.
La entrada de la capa IP1 es el conjunto de todas las caractersticas
mapeadas a la capa pool3.Por ltimo, se organiza una capa prdida softmax
en el extremo de la red para clasificar las caractersticas de las regiones
propuestas.
III. EXPERIMENTACION
Nuestra base de datos incluye 63 imgenes de satlite de Google Earth de
la ciudad de San Francisco, que contiene 6.887 vehculos y 224,366
muestras de ventana. 31 imgenes que incluyen 3.874 vehculos y 134,430
muestras de ventana utilizadas como conjunto de entrenamiento, las 32
imgenes restantes se utilizaron como conjunto de prueba.