Kim2008 en Es

Bi-canal de fusión de sensores para el reconocimiento automático de sesión Idioma
Jonghwa Kim, Johannes Wagner, Matthias Rehm, Elisabeth Andr' mi
Conceptos y Aplicaciones Multimedia, Universidad de Augsburg

Eichleitnerstr. 30, D-86159 Augsburg, Alemania
kim@informatik.uni-augsburg.de
Abstracto estados afectivos que están limitados en gestos signo. Por lo tanto, con el fin de
entender completamente los significados de los gestos en realidad la firma, que
En este trabajo, investigamos la funcionalidad mutua complementaria del necesitamos para manejar información sensorial multimodal mediante la fusión de
acelerómetro (ACC) y electromiograma (EMG) para el reconocimiento de siete la información de los diferentes canales. Dado que el lenguaje de signos es fi co y
vocabularios señal de nivel de palabra en lengua de signos alemana (GSL). Se el orden de las palabras de la mayoría de las lenguas de signos especí-país no es
discuten los resultados para los canales individuales y para fustion a nivel de el mismo que el idioma hablado en el país, no hay una única manera formal
funciones para los datos de sensor bicanal. Para la condición de sujeto generalizar la gramática de las lenguas de signos. Lenguaje de señas americano
dependiente, este método de fusión demuestra ser eficaz. La mayoría de las (ASL), por ejemplo, tiene su propia gramática y las reglas y no es una forma visual
características relevantes para todos los sujetos se extraen y su eficacia está de Inglés.
probada universales con una alta precisión media para los sujetos individuales.
Además, se dan los resultados para la condición subjectindependent, donde las En general, la fusión de datos multisensorial puede llevar a cabo al menos a tres
diferencias subjetivas no permiten altas tasas de reconocimiento. Finalmente se niveles: datos, característica, y el nivel de decisión. Cuando las observaciones son del
discuten un problema de la fusión a nivel de funciones causado por la alta mismo tipo, la fusión a nivel de datos en la que simplemente se combinan los datos
disparidad entre precisiones de cada canal único clasi fi cación. multisensoriales primas podrían ser probablemente la opción más adecuada. la fusión a
nivel de decisión es el enfoque aplicado con mayor frecuencia para los datos sensoriales
multimodales que contienen diferencias de escala de tiempo entre modalidades. fusión a
nivel de funciones es elegible para la combinación de sensores de varios canales que
miden diferentes tipos de señales dentro de una sola modalidad, como gesto.
1. Introducción
La lengua de signos es la forma principal de comunicación para las personas con

En este trabajo, investigamos el potencial de los dos sensores, acelerómetro y
deficiencias auditivas. Como una forma de comunicación no verbal, el lenguaje de
electromiograma (EMG), para diferenciar vocabularios señal de nivel de palabra en
signos utiliza varios medios visuales al mismo tiempo para transmitir significados y
lengua de signos alemana (GSL). El objetivo principal de este trabajo es examinar
emociones: formas para los dedos de la mano / fi, el movimiento de las manos, los
la funcionalidad complementaria de los dos sensores en el reconocimiento de
brazos y el cuerpo, la expresión facial, y el labio-patrones. Las lenguas de signos no
lenguaje de signos y para determinar un esquema de fusión fi ciente para la
son internacionales y no completamente basado en la lengua hablada en el país de
combinación del sensor bi-canal. Debido a las características de los sensores que
origen, pero varían cultura-, local-, y de persona específica. Todos estos causan la
miden el movimiento y la contracción muscular en una escala de tiempo
dificultad en la comunicación entre las personas con discapacidad auditiva y de
sincronizado y dimensión única, nos centramos principalmente en la fusión a nivel
audición e incluso entre las personas con discapacidad auditiva de diferentes
de funciones para clasificar características bicanal y discutir un problema de la
regiones. Por lo tanto, el desarrollo de un sistema fiable para la traducción de la
fusión a nivel de funciones causado por la alta disparidad entre exactitudes de cada
lengua de signos en el lenguaje hablado es muy importante para las personas con
canal único clasi fi cación.
problemas de audición, así como las personas oyentes.
2. Trabajo relacionado
El desarrollo de un sistema de traducción de la lengua de signos es, sin
embargo, no es una tarea trivial. Un requisito básico para el sistema es capturar con Para una descripción completa de reconocimiento de la mano en el gesto nos referimos a
precisión los gestos que denotan signos. Por otra parte, además de los gestos de [8]. Gran parte de la investigación sobre el reconocimiento de la lengua de signos se ha hecho
firma, un firmante también utiliza características no manuales simultáneamente, tales mediante el empleo de cámaras de detección o guantes. En particular, la mayoría del trabajo
como la expresión facial, lengua / boca, y la postura del cuerpo, para expresar en el reconocimiento de la lengua de signos continua se basa en modelos ocultos de Markov
978-1-4244-2154-1 / 08/2008 $ 25.00 IE

(HMMs). El uso de HMMs y variaciones de ellos trabaja en el reconocimiento
automático de los diversos lenguajes de signos nacional se informó, tales como
Inglés, chino, alemán, taiwanés, griego, etc.
Para el enfoque de visión por ordenador, la mayor parte de trabajos

anteriores utilizaron guantes de colores para seguir los movimientos de la
mano de los firmantes. Starner et al [9] desarrollaron un sistema de
reconocimiento de ASL en tiempo real usando guantes de colores para
rastrear e identificar las manos izquierda y derecha. Se extraen
características globales que representan posiciones, ángulo del eje de
menor inercia, y la excentricidad de la elipse de delimitación de las dos
manos. El uso de HMMs con una gramática conocido, que lograron una
precisión de 99,2% a nivel de palabra para 99 secuencias de prueba.
Figura 1. Ilustración de palabras GSL seleccionados: (a) la posición de inicio, (b) la agresión, (c) la
Vogler y Metaxas [11] utilizaron métodos de visión por ordenador para
ansiedad, (d) depresión, (e) la emoción, (f) la excitación, (g) el miedo, y (h) sentir .
extraer los parámetros tridimensionales de armmotions de un firmante. Se
acoplan los métodos de visión por ordenador y HMM para reconocer
frases ASL continuas con un vocabulario de 53 signos. Se logró una
brazo muñeca dedo en general
precisión de 89,9%. Más recientemente, un sistema portátil ha sido
movimiento movimiento dinámica del movimiento agg
desarrollado por Brashear y colegas [1].
H METRO H H
ANX METRO L L METRO
DEP METRO L H L
guantes de datos a menudo han sido también utilizados para la emo METRO L L L
investigación de reconocimiento de la lengua de signos ([10]; [7]). guantes de Aro METRO H L L
datos, tales como AccelGolves [4] y VPL Data Glove [12], suelen estar FEA H L L METRO
equipados con sensores y acelerómetros que miden la rotación y el cuota METRO L H L
movimiento de fl ex ángulos nger fi mano y flexión. En el trabajo de Gao et al H: alta, M: medio, L: baja
[3], el uso de guantes de datos y HMM como clasi fi cador, un vocabulario muy
Tabla 1. Características movimiento de palabras GSL seleccionados.
impresionante, con un tamaño de 5177 signos aislados en el lenguaje de
signos Chino (CSL) podría ser reconocido con el 94,8% de precisión. Para
lograr el reconocimiento en tiempo real, que utilizaron métodos de de los sensores aplicados para el reconocimiento de la lengua de signos. Por
reconocimiento de voz, tales como la agrupación de probabilidades de Gauss y otra parte, no compararon los logros obtenidos para un caso de sujetos
juego rápido, y reconocieron 200 frases con el 91,4% de precisión palabra. dependientes con los obtenidos para el caso subjectindependent, que es un
Para diferenciar nueve palabras en ASL, Kosmidou et al. [6] evaluado objetivo importante de la investigación aquí para obtener información sobre la
características estadísticas y de tren de ondas basadas en el criterio de la viabilidad de subjectindependent clasi fi cación.
distancia de Mahalanobis. Flexor radial del carpo y
3. Conjuntos de datos de lengua de signos

Flexor radial corto del carpo) de la mano derecha del firmante. Mediante el uso de
análisis discriminante para clasi fi que lograron una precisión de reconocimiento de Como se mencionó antes, el objetivo principal de este trabajo es investigar la
97,7%. funcionalidad complementaria de acelerómetro y EMG para el reconocimiento de la
Recientemente, Chen et al. [2] informó de que la combinación de lengua de signos. Para este fin, se seleccionaron un pequeño conjunto de palabras de
sensores y acelerómetros EMG logra% de mejora 5-10 en la precisión de signos en GSL, en lugar de con el objetivo de reconocer la variedad de palabras o
reconocimiento para varios gestos de muñeca y nger fi. Se utilizaron dos frases. De GSL elegimos siete palabras fi cas especí-afectivos (ver Figura 1), la
acelerómetros de 2 ejes y dos sensores de EMG de superficie que se “agresión”, “ansiedad”, “depresión”, “emoción”, “excitación”, “miedo”, y “sentir”.
adjuntan en el único brazo. Mediante la observación de la variación y la dinámica, las características de cada
gesto firmado se pueden categorizar como se muestra en la Tabla 1.
Observamos que nuestro trabajo en este documento de forma significativa

diferencia de su enfoque en los siguientes aspectos: Utilizamos un único sistema de
detección de dos canales (un sensor acelerómetro y un sensor EMG) y un pequeño Para la grabación de un conjunto de datos se utilizó el sistema vivo del corazón del
conjunto de datos considerable (diez muestras para cada signo) para la formación monitor que mide inicialmente en el electrocardiograma (ECG) y de 3 ejes
del ampli fi caciones. Además, se investiga la funcionalidad complementaria acelerómetros y transfiere datos a través de la conexión inalámbrica Bluetooth. Dado
que el principio de detección y el
Extracción 4. Característica
4.1. Características para la ACC
El acelerómetro utilizado en nuestro experimento proporciona la tasa de cambio

de la velocidad a lo largo de tres ejes (x, y, z). Para nuestro análisis, cada uno de los
tres canales se trató por separado. Para capturar formas de onda más relevantes, las
pequeñas fluctuaciones de ruido en la señal son fi de paso bajo filtra mediante el uso
de una 4-orden Butterworth filtro con una frecuencia de corte a 3 Hz. Debido a la
naturaleza de las señales del CAC con contenidos de muy baja frecuencia, hemos
La Figura 2. La colocación del sensor.
considerado para extraer características exclusivamente del dominio del tiempo.
EMG (agresión) ACC (agresión)

0.5 Nos Fi características estadísticas comunes primer calculados, tales como
0.5
máximo, mínimo, longitud media de valor, la varianza, la señal,
y media cuadrática. Además hemos añadido la posiciones de la máxima y la
- 0,5 0 - 0,5 0
0 1 2 3 0 1 2 3 mínima que se definen por la posición relativa (en porcentaje) de los
EMG (Excitación) ACC (Excitación) valores máximo y mínimo dentro de la longitud de todo el patrón. A
0.5 0.5
continuación, se calculó la cero cruces, que se definen por el número de
cruce o tocando la línea de cero en relación a la longitud de la señal. La
característica numero de incidentes resulta del número de vértices
- 0,5 0 - 0,5 0
0 1 2 3 0 1 2 3 existentes en el gráfico patrón. A partir del histograma, los promedios de inferior,
EMG (Sentir) ACC (Sentir) la mediana, y Cuartilla superior se calculan como características.
0.5 0.5
- 0,5 0 - 0,5 0
0 1 2 3 0 1 2 3
4.2. Características de EMG
Segundos Segundos
Comúnmente, la señal EMG requiere pre-procesamiento adicional, como

Figura 3. Ejemplos de señales medidas. señales de EMG son fi paso alto filtra para eliminar la profunda suavizado en función de la posición del sensor, debido a la naturaleza de
tendencia línea base inestable mientras que las señales ACC son de paso bajo filtra.
la señal es tal que todas las fibras musculares dentro del área de grabación del
contrato del sensor a un ritmo diferente. Afortunadamente, en nuestro experimento,
tales ruidos eran difíciles de encontrar. Sin embargo, había otro problema que
dificulta la señal en bruto de ser procesado posteriormente. La señal entrante
exhibió una línea base inestable que lo hizo dif fi cil para calcular los valores
electrodos utilizados para ECG son técnicamente lo mismo que para el sensor de
razonables para las características estadísticas y de frecuencia. Por lo tanto
EMG, hemos desplegado el canal de ECG del sistema para la medición de datos
necesitamos para eliminar la tendencia de todas las señales de EMG mediante la
de la EMG. También ayuda a evitar un entorno experimental inconveniente Al
aplicación de un 4-orden Butterworth de paso alto de filtro con una frecuencia de
conectar varios sistemas de sensores en el brazo. Como se muestra en la Figura
corte a 0,8 Hz.
2, que adjunta el sistema vivo en el antebrazo (cercano muñeca) para medir la
aceleración y los electrodos de EMG bi-polares en el Flexor radial del carpo.
Además de las características de dominio de tiempo calculados para las

señales de ACC, ahora añadido un segundo conjunto de características
Ocho sujetos (6 varones y 2 mujeres, de 27 años a 41), que no tienen derivadas del dominio de la frecuencia. Mediante el uso de 1024points típicos
antecedentes de enfermedades neuromusculares o conjuntas, fueron reclutados para transformada rápida de Fourier (FFT), se calcularon frecuencia fundamental (F0) y
la recolección de datos. Ejecutaron a cada signo diez veces en una secuencia. Antes varianza de Fourier del espectro. Dado el espectro de la señal también se
de comenzar las grabaciones, entrenaron a los gestos de signos siguientes videos extrajeron del longitud región, que es definida como una longitud parcial del
instructivos de firmantes nativos hasta que fueron capaces de realizarlas en un fi espectro que contiene mayor magnitud que el valor medio del total de coe fi
cientemente manera consistente. Como resultado, se obtuvo un total de 560 cientes de Fourier. Esta característica debe ser un indicador de cómo una señal
muestras. La longitud de la señal de cada gesto de la muestra varía en 1-3 segundos periódica es. Cuanto menor sea la región, más periódica es la señal. En el caso
dependiendo de la naturaleza del movimiento de firma. Figura 3 muestra ejemplos de de que exista más de una región en el espectro, se añaden las longitudes de
señales en bruto (preprocesados) obtenidos a partir de uno de los temas. estas regiones.
EMG ACC Fusión
- 0,008 0.01 0.04
- 0.01 0,008
0,035
0,006
- 0,012
0.03
0,004
- 0,014
componente segundo Fisher


0,002
0,025
- 0,016
- 0,018 0.02
- 0,002 0
- 0.02
- 0,004 0,015
- 0,022
- 0,006
0.01
- 0,024 - 0,008
0,005
- 0,026 - 0.01
-4 -2 0 2 4 6
- 0.07 - 0.06 - 0.05 - 0.04 - 0.03 - 0.02 - 0.03 - 0.02 - 0.01 0 x 10- 3
componente primero Fisher
componente primero Fisher componente primero Fisher
agresión ansiedad depresión emoción excitación miedo sensación
Figura 4. Comparación de la distribución característica mediante el uso de proyección de Fisher. se calculan un total de 56 características (17 para EMG y 3x13 para ACC).
Subj. EMG ACC Fused Fused-sel 1 método de selección Ward (CMA) se describe en [5]. De hecho, si tenemos en
58.57 98.57 98.57 100 cuenta la relación entre el número de características (56 características), el número
2 74.29 95.71 95.71 100 de clases (7 gestos), y el tamaño de la muestra fijada (70 muestras de cada sujeto),
3 70.00 98.57 98.57 98.57 es concebible que el er fi cación puede sufrir de la maldición del problema de
4 60.00 98.57 97.14 100 dimensionalidad debido al tamaño extremadamente pequeño de la formación de
5 74.29 95.71 97.14 100 datos. Hemos logrado una precisión promedio de 99,82% para el reconocimiento
6 90.00 98.57 100 100 sujeto dependiente (reconocimiento perfecto para siete sujetos) y 88,75% para la
7 75.71 94.29 95.71 100 condición general mediante el empleo de fusión basado en función de la selección.
8 64.29 97.14 98.57 100

Todas 39.29 79.82 84.64 88.75
Afirmar. 70.89 97.14 97.68 99.82 En general, resultó que el acelerómetro de 3 ejes supera el sensor de EMG para
Precisión en%, All: 5-veces la validación cruzada en todas las el reconocimiento de los siete seleccionados gestos de signo en nuestro
muestras experimento, aunque los resultados dependen de la selección de los gestos de

signos. Como se muestra en la Tabla 1, casi todos los gestos seleccionados para
Tabla 2. Classi resultados fi cación. nuestro experimento implicar la realización de los movimientos del brazo dinámicos
que podría ser mejor diferenciados por acelerómetro de 3 ejes que usando análisis
EMG. Sin embargo, el efecto complementario de EMG en el CAC también se revela
5. Clasi fi cación Resultados
en todos los gestos. Esto puede ser fácilmente fi veri mediante la previsualización de
Para la clasificacion que realmente probado dos algoritmos de aprendizaje la distribución de características bicanal en una proyección de Fisher (ver Figura 4).
automático, máquinas de vectores de soporte (SVM) y Vecino kNearest (NN-k) clasi fi er.
Como hemos obtenido mejores resultados de reconocimiento mediante el uso de k-NN
(con k = 5), se presentan únicamente los resultados de esta clasificación fi er en la Tabla Para una visión más profunda del efecto complementario en cada gesto, las
2. La Tabla muestra la precisión del reconocimiento (%) obtenido por un 5-veces la Tablas 3, 4 y 5 muestran la confusionmatrices para la condición general. Por
validación cruzada, es decir, en cada pliegue 8 muestras por clase se utilizan para la ejemplo, para “agresión”, que se acompaña de movimientos para los dedos y la
formación de las muestras classiifer y 2 por clase para la prueba. Los resultados se dan muñeca fi dinámicos, ACC proporciona una confianza con fi relativamente baja
para cada canal único clasi fi cación y para bi-canal de fusión a nivel de funciones. Como en clasi fi, que podría ser significativamente complementado por características
hemos mencionado en la introducción, nos hemos centrado en la fusión a nivel de EMG. En el caso de “depresión”, sin embargo, la EMG características interfirió
funciones, donde las características de los sensores de bi-canal son simplemente con la exactitud 100% de ACC y finalmente causado una menor precisión de la
mezclados y clasi fi ed mediante el uso de solo k-NN clasificación fi er. fusión bi-canal de ACC solo. Los resultados señalan que la fusión de datos de
múltiples canales, especialmente para la fusión a nivel de funciones, no
garantiza una mejora de la precisión de la toma si existe una alta disparidad
Para la condición general (Todos), las características de todos los sujetos se entre precisiones de un solo canal. Como puede verse con las matrices de
fusionan y se normalizó. Los mejores resultados se obtienen mediante la combinación de confusión, este efecto depende de la ges-
característica método de selección antes de la clasi fi, como se muestra en la Tabla. Se
utilizó un envoltorio para-
real Predicción EMG tiempo std dev, hist quartile75, la potencia media de FFT,
clase agg ANX dep emo aro FEA cuota fft dev std, pico fft gama ACC x tiempo max, x histo
agg 45 5 2 0 10 13 5 quartile75, intervalo de tiempo y,
ANX 6 35 9 6 7 8 9 y tiempo quartile75, z tiempo máximo, rango de tiempo z, z tiempo dev
DEP 6 8 34 6 9 5 12 std, tiempo z significa, quartile25 histo z, la posición max z tiempo
emo 6 2 11 25 dieciséis 6 14
Aro 10 3 7 14 28 8 10
Tabla 6. Características seleccionadas.
FEA 15 6 4 7 10 28 10
cuota 6 9 14 7 12 7 25
Tema 1 2 3 4
Precisión 86.25% 98.57% 92.86% 98.57% Asunto
Tabla matriz 3. Confusión para clasificacion usando señales de EMG (condición
general). 5 6 7 8
Exactitud 100% 100% 97,14% 97,14%
real Predicción
clase agg ANX dep emo aro FEA cuota Tabla 7. Asunto dependiente resultados Clasi fi cación utilizando características seleccionadas.
agg 58 4 0 1 5 0 12
ANX 0 74 0 3 1 1 1
Subj. EMG ACC Fusión
DEP 0 0 80 0 0 0 0
1 24,29% 62,86% 65,71%
emo 0 7 0 73 0 0 0
2 31,43% 55,71% 48,57%
Aro 7 1 0 0 57 4 11
3 21,43% 34,29% 42,86%
FEA 3 2 0 2 13 46 14
4 35,71% 77,14% 70,00%
cuota 5 3 0 0 13 0 59
5 11,43% 61,43% 57,14%
Tabla matriz 4. Confusión para clasificacion usando señales de ACC (condición

6 25,71% 48,57% 44,29%
general). 7 21,43% 58,57% 47,14%
8 11,43% 78,57% 62,86%
real Predicción Afirmar. 22,86% 59,68% 54,82%
clase agg ANX dep emo aro FEA cuota
Tabla 8. Resultados para sujetos-independiente clasi fi cación.
agg 70 4 0 1 1 1 3
ANX 2 78 0 0 0 0 0
DEP 0 0 78 2 0 0 0
fectiveness de características de histograma, cuartil especialmente superior (percentil
emo 0 1 1 78 0 0 0 75), podría ser probada para ambas señales. Para la estimación de la universalidad de
Aro 3 1 0 0 64 1 11 las características, hemos tratado de clasificar a los siete gestos para cada tema por
FEA 0 2 0 1 6 62 9 separado, utilizando las características seleccionadas. Los resultados se ilustran en la
cuota 5 1 0 0 5 2 67 Tabla 7. Se consigue una precisión media de 96,31% para todos los sujetos.
Tabla matriz 5. Confusión para clasificacion usando la fusión bi-canal con la función
Hasta ahora, los resultados de clasi fi cación son muy prometedora para la
de selección (condición general).
condición de sujetos dependientes y de la condición general, pero aún no se ha
demostrado si esto se traslada a subjectindependent clasi fi cación. Esto fue
clases tura y por tanto sobre los diferentes movimientos necesarios para la realización probado por el método de dejar uno fuera, es decir, de nuestros ocho sujetos, las
de los gestos. Un análisis de grano-ne fi está en orden aquí para determinar la muestras de siete de ellos representan el conjunto de entrenamiento, mientras que
especificidad cs en cuando a confiar en el reconocimiento de un solo canal y cuando la muestra de la última sujeto se constituye el equipo de prueba para el ampli fi
optar por fusión bi-canal. Esta información puede informar a un esquema de fusión a cación. Esto se repite hasta que todos los sujetos se han probado. Tabla 8 da el
nivel de decisión basada en el conocimiento con ponderación paramétrica de clasi fi resultado de esta evaluación, que es algo decepcionante.
cación de los resultados de las unimodales ampli fi caciones.
La selección de características se aplicó en todo el conjunto de muestras que La disparidad, es decir, la diferencia cualitativa entre
se registraron para los ocho sujetos. 15 Características de EMG y ACC se la EMG y sensores ACC también se ve para la condición subjectindependent con
seleccionan mediante el uso de CMA y se especifica en la Tabla 6. A partir del los datos ACC lo que permite tasas de reconocimiento superiores. En general, las
resultado se puede concluir que las características de dominio de frecuencia de la tasas de reconocimiento son mucho más bajos que antes. Además, el efecto
señal de EMG y características en la señal del eje z de la señal de ACC son más positivo de la fusión bi-canal sólo se ve para dos (1 y 3) de cada ocho usuarios. Por
relevantes para la clasificación los siete gestos. En general, el EF- lo tanto, nuestros resultados muestran que para el lenguaje de signos clasi fi
cationes con EMG y sensores ACC, sujeto dependiente de clasificacion debe los niveles de fusión y también incluyen un término de retroalimentación en el esquema para
preferirse. Hemos demostrado que mediante la aplicación de la fusión a nivel de refinar el rendimiento de una etapa de fusión determinada.
funciones y selección de características, las tasas de reconocimiento siempre

aumentan. Esto está en línea y confirma los resultados anteriores por Chen et al [2]. Expresiones de gratitud
Un nuevo análisis de los datos reveló que este aumento varía entre gestos. Además,
El trabajo descrito en este trabajo está financiado por la Unión Europea en virtud de
se analizó el reconocimiento de motivos independientes para la unimodal y el caso
concesión de investigación IST-34800 (CALAS).
bimodal y pudieron demostrar que aunque las tasas de reconocimiento son por
encima del azar la mayor parte del tiempo, un éxito del reconocimiento de objeto
independiente no es factible con la configuración propuesta. Las diferencias referencias
individuales en la firma parecen ser demasiado fuerte para permitir un efecto de
[1] H. Brashear, T. Starner, P. Lukowicz, y H. Junker. Utilizando
reconocimiento multimodal ya sea para los EMG o ACC sensores por separado o
múltiples sensores para el reconocimiento de la lengua de signos móvil. En
para la fusión a nivel de funciones. Actas de la Séptima IEEE Simposio Internacional sobre Wearable
Computers (ISWC'03), 2003.
[2] X. Chen, X. Zhang, Z. Zhao, J. Yang, V. Lantz, y
K. Wang. Gesto de mano de Reconocimiento de investigación basada en EMG
6. Conclusión sensores y acelerómetros 2D superficie. En IEEE Simposio Internacional de
ordenadores portátiles, páginas 11-14,
El principal reto de este trabajo fue examinar la función complementaria mutuo de 2007.
reconocimiento de gestos del lenguaje de signos que utilizan un sensor con fi guración [3] W. Gao y J. Ma. HandTalker: Un diálogo multimodal Sys
limitada, es decir, un acelerómetro y un sensor de EMG. En realidad, esta configuración tem Usando el lenguaje de señas y 3-D humano virtual. En Los avances en
del sensor reducida se diferencia claramente de los trabajos anteriores hemos revisado interfaces multimodales (ICMI 2000), páginas 564-
en el campo de la investigación fi. 571, 2000.
[4] J. Hernandez-Rebollar, N. Kyriakopoulos, y R. Linde-
Utilizando los más relevantes 15 características, una precisión media de hombre. Un nuevo enfoque instrumentado para traducir el lenguaje de signos
99,82% se consigue para el reconocimiento sujeto dependiente. La universalidad americano en sonido y texto. En Sexta Conferencia Internacional IEEE sobre
automático de la cara y del gesto Recognitio, Seúl, Corea, 2004.
de las características seleccionadas se prueba para todos los sujetos con una
precisión media de 96,31%. Por desgracia, esta alta precisión no se traslada al
[5] R. Kohavi y GH Juan. Contenedores para Característica subconjunto Se-
reconocimiento subjectindependent.
lección. Arti fi cial de Inteligencia, 97 (1-2): 273-324, 1997. [6] V. Kosmidou, L.
Hadjileontiadis, y S. Panas. Evaluación de
A partir de los resultados, la eficacia de los acelerómetros para el
superficie EMG cuenta para el reconocimiento de gestos del lenguaje de signos
reconocimiento de gestos podría ser veri fi edwith su exactitud dominantemente
americano. En Conf. Proc. IEEE Eng. Medicina. Biol. Soc., páginas 6197-6200,
mayor en comparación con el único canal de EMG. Por otro lado, cabe señalar
2006.
que debido a la naturaleza de detección local del EMG, su rendimiento para el
[7] K. Murakami y H. Taguchi. El reconocimiento de gestos utilizando re-
reconocimiento de gestos depende fuertemente de la posición del sensor. El redes neuronales actuales. En CHI '91 Conference Proceedings, páginas
problema se hace aún más crítico cuando se utiliza un solo sensor EMG para 237-241, 1991.
reconocer gestos movimientos de múltiples partes del cuerpo que acompañan. [8] V. Pavlovic, R. Sharma, y TS Huang. visual pretación
Incluso en estas condiciones, pudimos comprobar el efecto complementario de tación de gestos de mano para la interacción hombre-máquina: una revisión. IEEE
características EMG en la mejora de la precisión de reconocimiento al combinar Transactions on Análisis de patrones y la máquina de Inteligencia, 19 (7): 677-695,
los datos bicanal en función del nivel. 1997. [9] T. Starner, J. Weaver, y A. Pentland. americano en tiempo real
firmar el reconocimiento del lenguaje usando escritorio y vídeo basado en la
computadora portátil. IEEE Trans. el análisis de patrones y máquina intelligenc, 20:

Con respecto al método de fusión a nivel de funciones, se observó un
1371-1375, 1998. [10] T. Takahashi y F. Kishino. Mano de codificación basado en el
problema crítico causado por la alta disparidad entre la precisión de cada canal
gesto
único clasi fi cación. Para este caso, el empleo de un esquema de fusión a nivel de
experimentos utilizando un dispositivo de interfaz gesto de la mano. SIGCHI Boletín, 23 (2):
decisión basada en la ponderación paramétrica de acuerdo con la disparidad sería
67-73, 1991.
un enfoque interesante para el reconocimiento de gestos utilizando sensores
[11] C. Vogler y D. Metaxas. La adaptación de modelos ocultos de Markov
múltiples canales. Por otro lado, se llega a la conclusión de que, en la práctica, no
para el reconocimiento del ASL mediante el uso de métodos tridimensionales de
hay declaraciones generales sobre la superioridad de un modo de fusión sobre
visión por ordenador. En Actas de la Conferencia Internacional IEEE sobre Sistemas,
otro se pueden hacer, pero necesitamos examinar diferentes métodos para una Hombre y Cibernética, páginas 156-
aplicación determinada y luego para determinar el más adecuado para la posterior 161, Orlando, FL, 1997.
aplicación . Por otra parte, para mejorar el rendimiento del reconocimiento se [12] T. Zimmerman. Sensor ex fl óptica. Patente de Estados Unidos No.
puede considerar un esquema combinado de diferentes 4.542.291, 1987.

Kim2008 en Es

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Kim2008 en Es

Hochgeladen von

Copyright:

Verfügbare Formate

Bi-canal de fusión de sensores para el reconocimiento automático de sesión Idioma

Jonghwa Kim, Johannes Wagner, Matthias Rehm, Elisabeth Andr' mi

Conceptos y Aplicaciones Multimedia, Universidad de Augsburg

multimodales que contienen diferencias de escala de tiempo entre modalidades. fusión a

nivel de funciones es elegible para la combinación de sensores de varios canales que

La lengua de signos es la forma principal de comunicación para las personas con

978-1-4244-2154-1 / 08/2008 $ 25.00 IE

Para el enfoque de visión por ordenador, la mayor parte de trabajos

investigación de reconocimiento de la lengua de signos ([10]; [7]). guantes de Aro METRO H L L

equipados con sensores y acelerómetros que miden la rotación y el cuota METRO L H L

3. Conjuntos de datos de lengua de signos

Observamos que nuestro trabajo en este documento de forma significativa

4.1. Características para la ACC

El acelerómetro utilizado en nuestro experimento proporciona la tasa de cambio

EMG (agresión) ACC (agresión)

Comúnmente, la señal EMG requiere pre-procesamiento adicional, como

Además de las características de dominio de tiempo calculados para las

componente segundo Fisher

componente segundo Fisher

agresión ansiedad depresión emoción excitación miedo sensación

8 64.29 97.14 98.57 100

muestras experimento, aunque los resultados dependen de la selección de los gestos de

Como hemos obtenido mejores resultados de reconocimiento mediante el uso de k-NN

DEP 6 8 34 6 9 5 12 std, tiempo z significa, quartile25 histo z, la posición max z tiempo

Tabla matriz 4. Confusión para clasificacion usando señales de ACC (condición

cación de los resultados de las unimodales ampli fi caciones.

funciones y selección de características, las tasas de reconocimiento siempre

firmar el reconocimiento del lenguaje usando escritorio y vídeo basado en la

computadora portátil. IEEE Trans. el análisis de patrones y máquina intelligenc, 20:

Das könnte Ihnen auch gefallen