Beruflich Dokumente
Kultur Dokumente
Abstracto estados afectivos que están limitados en gestos signo. Por lo tanto, con el fin de
entender completamente los significados de los gestos en realidad la firma, que
En este trabajo, investigamos la funcionalidad mutua complementaria del necesitamos para manejar información sensorial multimodal mediante la fusión de
acelerómetro (ACC) y electromiograma (EMG) para el reconocimiento de siete la información de los diferentes canales. Dado que el lenguaje de signos es fi co y
vocabularios señal de nivel de palabra en lengua de signos alemana (GSL). Se el orden de las palabras de la mayoría de las lenguas de signos especí-país no es
discuten los resultados para los canales individuales y para fustion a nivel de el mismo que el idioma hablado en el país, no hay una única manera formal
funciones para los datos de sensor bicanal. Para la condición de sujeto generalizar la gramática de las lenguas de signos. Lenguaje de señas americano
dependiente, este método de fusión demuestra ser eficaz. La mayoría de las (ASL), por ejemplo, tiene su propia gramática y las reglas y no es una forma visual
características relevantes para todos los sujetos se extraen y su eficacia está de Inglés.
probada universales con una alta precisión media para los sujetos individuales.
Además, se dan los resultados para la condición subjectindependent, donde las En general, la fusión de datos multisensorial puede llevar a cabo al menos a tres
diferencias subjetivas no permiten altas tasas de reconocimiento. Finalmente se niveles: datos, característica, y el nivel de decisión. Cuando las observaciones son del
discuten un problema de la fusión a nivel de funciones causado por la alta mismo tipo, la fusión a nivel de datos en la que simplemente se combinan los datos
disparidad entre precisiones de cada canal único clasi fi cación. multisensoriales primas podrían ser probablemente la opción más adecuada. la fusión a
nivel de decisión es el enfoque aplicado con mayor frecuencia para los datos sensoriales
miden diferentes tipos de señales dentro de una sola modalidad, como gesto.
1. Introducción
2. Trabajo relacionado
El desarrollo de un sistema de traducción de la lengua de signos es, sin
embargo, no es una tarea trivial. Un requisito básico para el sistema es capturar con Para una descripción completa de reconocimiento de la mano en el gesto nos referimos a
precisión los gestos que denotan signos. Por otra parte, además de los gestos de [8]. Gran parte de la investigación sobre el reconocimiento de la lengua de signos se ha hecho
firma, un firmante también utiliza características no manuales simultáneamente, tales mediante el empleo de cámaras de detección o guantes. En particular, la mayoría del trabajo
como la expresión facial, lengua / boca, y la postura del cuerpo, para expresar en el reconocimiento de la lengua de signos continua se basa en modelos ocultos de Markov
DEP METRO L H L
guantes de datos a menudo han sido también utilizados para la emo METRO L L L
datos, tales como AccelGolves [4] y VPL Data Glove [12], suelen estar FEA H L L METRO
movimiento de fl ex ángulos nger fi mano y flexión. En el trabajo de Gao et al H: alta, M: medio, L: baja
[3], el uso de guantes de datos y HMM como clasi fi cador, un vocabulario muy
Tabla 1. Características movimiento de palabras GSL seleccionados.
impresionante, con un tamaño de 5177 signos aislados en el lenguaje de
signos Chino (CSL) podría ser reconocido con el 94,8% de precisión. Para
lograr el reconocimiento en tiempo real, que utilizaron métodos de de los sensores aplicados para el reconocimiento de la lengua de signos. Por
reconocimiento de voz, tales como la agrupación de probabilidades de Gauss y otra parte, no compararon los logros obtenidos para un caso de sujetos
juego rápido, y reconocieron 200 frases con el 91,4% de precisión palabra. dependientes con los obtenidos para el caso subjectindependent, que es un
Para diferenciar nueve palabras en ASL, Kosmidou et al. [6] evaluado objetivo importante de la investigación aquí para obtener información sobre la
características estadísticas y de tren de ondas basadas en el criterio de la viabilidad de subjectindependent clasi fi cación.
distancia de Mahalanobis. Flexor radial del carpo y
- 0,5 0 - 0,5 0
0 1 2 3 0 1 2 3
4.2. Características de EMG
Segundos Segundos
- 0.01 0,008
0,035
0,006
- 0,012
0.03
0,004
- 0,014
- 0,018 0.02
- 0,002 0
- 0.02
- 0,004 0,015
- 0,022
- 0,006
0.01
- 0,024 - 0,008
0,005
- 0,026 - 0.01
-4 -2 0 2 4 6
- 0.07 - 0.06 - 0.05 - 0.04 - 0.03 - 0.02 - 0.03 - 0.02 - 0.01 0 x 10- 3
componente primero Fisher
componente primero Fisher componente primero Fisher
Figura 4. Comparación de la distribución característica mediante el uso de proyección de Fisher. se calculan un total de 56 características (17 para EMG y 3x13 para ACC).
Subj. EMG ACC Fused Fused-sel 1 método de selección Ward (CMA) se describe en [5]. De hecho, si tenemos en
58.57 98.57 98.57 100 cuenta la relación entre el número de características (56 características), el número
2 74.29 95.71 95.71 100 de clases (7 gestos), y el tamaño de la muestra fijada (70 muestras de cada sujeto),
3 70.00 98.57 98.57 98.57 es concebible que el er fi cación puede sufrir de la maldición del problema de
4 60.00 98.57 97.14 100 dimensionalidad debido al tamaño extremadamente pequeño de la formación de
5 74.29 95.71 97.14 100 datos. Hemos logrado una precisión promedio de 99,82% para el reconocimiento
6 90.00 98.57 100 100 sujeto dependiente (reconocimiento perfecto para siete sujetos) y 88,75% para la
7 75.71 94.29 95.71 100 condición general mediante el empleo de fusión basado en función de la selección.
Afirmar. 70.89 97.14 97.68 99.82 En general, resultó que el acelerómetro de 3 ejes supera el sensor de EMG para
Precisión en%, All: 5-veces la validación cruzada en todas las el reconocimiento de los siete seleccionados gestos de signo en nuestro
Para la clasificacion que realmente probado dos algoritmos de aprendizaje la distribución de características bicanal en una proyección de Fisher (ver Figura 4).
automático, máquinas de vectores de soporte (SVM) y Vecino kNearest (NN-k) clasi fi er.
(con k = 5), se presentan únicamente los resultados de esta clasificación fi er en la Tabla Para una visión más profunda del efecto complementario en cada gesto, las
2. La Tabla muestra la precisión del reconocimiento (%) obtenido por un 5-veces la Tablas 3, 4 y 5 muestran la confusionmatrices para la condición general. Por
validación cruzada, es decir, en cada pliegue 8 muestras por clase se utilizan para la ejemplo, para “agresión”, que se acompaña de movimientos para los dedos y la
formación de las muestras classiifer y 2 por clase para la prueba. Los resultados se dan muñeca fi dinámicos, ACC proporciona una confianza con fi relativamente baja
para cada canal único clasi fi cación y para bi-canal de fusión a nivel de funciones. Como en clasi fi, que podría ser significativamente complementado por características
hemos mencionado en la introducción, nos hemos centrado en la fusión a nivel de EMG. En el caso de “depresión”, sin embargo, la EMG características interfirió
funciones, donde las características de los sensores de bi-canal son simplemente con la exactitud 100% de ACC y finalmente causado una menor precisión de la
mezclados y clasi fi ed mediante el uso de solo k-NN clasificación fi er. fusión bi-canal de ACC solo. Los resultados señalan que la fusión de datos de
múltiples canales, especialmente para la fusión a nivel de funciones, no
garantiza una mejora de la precisión de la toma si existe una alta disparidad
Para la condición general (Todos), las características de todos los sujetos se entre precisiones de un solo canal. Como puede verse con las matrices de
fusionan y se normalizó. Los mejores resultados se obtienen mediante la combinación de confusión, este efecto depende de la ges-
característica método de selección antes de la clasi fi, como se muestra en la Tabla. Se
utilizó un envoltorio para-
real Predicción EMG tiempo std dev, hist quartile75, la potencia media de FFT,
clase agg ANX dep emo aro FEA cuota fft dev std, pico fft gama ACC x tiempo max, x histo
agg 45 5 2 0 10 13 5 quartile75, intervalo de tiempo y,
ANX 6 35 9 6 7 8 9 y tiempo quartile75, z tiempo máximo, rango de tiempo z, z tiempo dev
emo 6 2 11 25 dieciséis 6 14
Aro 10 3 7 14 28 8 10
Tabla 6. Características seleccionadas.
FEA 15 6 4 7 10 28 10
cuota 6 9 14 7 12 7 25
Tema 1 2 3 4
Precisión 86.25% 98.57% 92.86% 98.57% Asunto
Tabla matriz 3. Confusión para clasificacion usando señales de EMG (condición
general). 5 6 7 8
Exactitud 100% 100% 97,14% 97,14%
real Predicción
clase agg ANX dep emo aro FEA cuota Tabla 7. Asunto dependiente resultados Clasi fi cación utilizando características seleccionadas.
agg 58 4 0 1 5 0 12
ANX 0 74 0 3 1 1 1
Subj. EMG ACC Fusión
DEP 0 0 80 0 0 0 0
1 24,29% 62,86% 65,71%
emo 0 7 0 73 0 0 0
2 31,43% 55,71% 48,57%
Aro 7 1 0 0 57 4 11
3 21,43% 34,29% 42,86%
FEA 3 2 0 2 13 46 14
4 35,71% 77,14% 70,00%
cuota 5 3 0 0 13 0 59
5 11,43% 61,43% 57,14%
Tabla matriz 5. Confusión para clasificacion usando la fusión bi-canal con la función
Hasta ahora, los resultados de clasi fi cación son muy prometedora para la
de selección (condición general).
condición de sujetos dependientes y de la condición general, pero aún no se ha
demostrado si esto se traslada a subjectindependent clasi fi cación. Esto fue
clases tura y por tanto sobre los diferentes movimientos necesarios para la realización probado por el método de dejar uno fuera, es decir, de nuestros ocho sujetos, las
de los gestos. Un análisis de grano-ne fi está en orden aquí para determinar la muestras de siete de ellos representan el conjunto de entrenamiento, mientras que
especificidad cs en cuando a confiar en el reconocimiento de un solo canal y cuando la muestra de la última sujeto se constituye el equipo de prueba para el ampli fi
optar por fusión bi-canal. Esta información puede informar a un esquema de fusión a cación. Esto se repite hasta que todos los sujetos se han probado. Tabla 8 da el
nivel de decisión basada en el conocimiento con ponderación paramétrica de clasi fi resultado de esta evaluación, que es algo decepcionante.
La selección de características se aplicó en todo el conjunto de muestras que La disparidad, es decir, la diferencia cualitativa entre
se registraron para los ocho sujetos. 15 Características de EMG y ACC se la EMG y sensores ACC también se ve para la condición subjectindependent con
seleccionan mediante el uso de CMA y se especifica en la Tabla 6. A partir del los datos ACC lo que permite tasas de reconocimiento superiores. En general, las
resultado se puede concluir que las características de dominio de frecuencia de la tasas de reconocimiento son mucho más bajos que antes. Además, el efecto
señal de EMG y características en la señal del eje z de la señal de ACC son más positivo de la fusión bi-canal sólo se ve para dos (1 y 3) de cada ocho usuarios. Por
relevantes para la clasificación los siete gestos. En general, el EF- lo tanto, nuestros resultados muestran que para el lenguaje de signos clasi fi
cationes con EMG y sensores ACC, sujeto dependiente de clasificacion debe los niveles de fusión y también incluyen un término de retroalimentación en el esquema para
preferirse. Hemos demostrado que mediante la aplicación de la fusión a nivel de refinar el rendimiento de una etapa de fusión determinada.
99,82% se consigue para el reconocimiento sujeto dependiente. La universalidad americano en sonido y texto. En Sexta Conferencia Internacional IEEE sobre
automático de la cara y del gesto Recognitio, Seúl, Corea, 2004.
de las características seleccionadas se prueba para todos los sujetos con una
precisión media de 96,31%. Por desgracia, esta alta precisión no se traslada al
[5] R. Kohavi y GH Juan. Contenedores para Característica subconjunto Se-
reconocimiento subjectindependent.
lección. Arti fi cial de Inteligencia, 97 (1-2): 273-324, 1997. [6] V. Kosmidou, L.
Hadjileontiadis, y S. Panas. Evaluación de
A partir de los resultados, la eficacia de los acelerómetros para el
superficie EMG cuenta para el reconocimiento de gestos del lenguaje de signos
reconocimiento de gestos podría ser veri fi edwith su exactitud dominantemente
americano. En Conf. Proc. IEEE Eng. Medicina. Biol. Soc., páginas 6197-6200,
mayor en comparación con el único canal de EMG. Por otro lado, cabe señalar
2006.
que debido a la naturaleza de detección local del EMG, su rendimiento para el
[7] K. Murakami y H. Taguchi. El reconocimiento de gestos utilizando re-
reconocimiento de gestos depende fuertemente de la posición del sensor. El redes neuronales actuales. En CHI '91 Conference Proceedings, páginas
problema se hace aún más crítico cuando se utiliza un solo sensor EMG para 237-241, 1991.
reconocer gestos movimientos de múltiples partes del cuerpo que acompañan. [8] V. Pavlovic, R. Sharma, y TS Huang. visual pretación
Incluso en estas condiciones, pudimos comprobar el efecto complementario de tación de gestos de mano para la interacción hombre-máquina: una revisión. IEEE
características EMG en la mejora de la precisión de reconocimiento al combinar Transactions on Análisis de patrones y la máquina de Inteligencia, 19 (7): 677-695,
los datos bicanal en función del nivel. 1997. [9] T. Starner, J. Weaver, y A. Pentland. americano en tiempo real