Beruflich Dokumente
Kultur Dokumente
CURSO
METODOS NUMERICOS
INFORME
PREVIO
NUMERO
1
GRUPO
MATRCULA
TEMA
RECONOCIMIENTO DE VOZ
REALIZADO
FECHAS
ENTREGA
03-09-2015
04-09-2015
NOTA
PROFESOR
RECONOCIMIENTO DE VOZ
INTRODUCCIN
El habla es una de las partes ms importantes de la expresin humana, es
algo que nos diferencia del resto de seres vivos en planeta, ya que sin el
habla el pensamiento mismo del hombre no sera posible. No se trata
simplemente de un sistema para transmitir informacin, aunque sea claro
una de sus funciones.
Dada la importancia del habla, el presente trabajo pretende crear una
interaccin entre una de las expresiones esenciales del hombre con la
computadora, creando as un Sistema de Reconocimiento de Voz con la
ayuda de MATLAB.
El procesamiento digital de seales de voz tiene una gran variedad de
aplicaciones, existe una base para el tratamiento digital de seales, que
puede ser implementada para lograr obtener lo que nos interese segn la
aplicacin.
El Sistema de Reconocimiento de Voz es una de las aplicaciones del
procesamiento digital de seales de voz. El sistema consiste en obtener una
seal de voz que permita reconocer qu palabra se est hablando. Consta
de una interfaz grfica que permite la interaccin del usuario por medio de
un micrfono con la computadora, la que procesa automticamente los
datos adquiridos. Basado en los resultados de este sistema, se puede ver
como se plantea la base del procesamiento digital de seales de voz y
queda a la libre imaginacin como puede ser utilizado para otras
aplicaciones, adems del de reconocimiento de voz.
OBJETIVOS
General
Brindar un sistema que proporcione el reconocimiento de seales de voz
usando la herramienta MATLAB, por medio de la interaccin entre el usuario
y la computadora.
Especficos
Explorar algoritmos de procesamiento digital de voz, que permitan un
tratamiento sencillo de informacin relevante de las seales de voz.
Lograr la interaccin automtica humano/computadora por medio de un
sistema simple de utilizar.
DEFINICIN
Reconocimiento automtico del habla (RAH) o reconocimiento
automtico de voz es una disciplina de la inteligencia artificial que tiene
como objetivo permitir la comunicacin hablada entre seres humanos y
computadoras. El problema que se plantea en un sistema de este tipo es el
de hacer cooperar un conjunto de informaciones que provienen de diversas
fuentes de conocimiento (acstica, fontica, fonolgica, lxica, sintctica,
semntica y pragmtica), en presencia de ambigedades, incertidumbres y
errores inevitables para llegar a obtener una interpretacin aceptable del
mensaje acstico recibido.
Un sistema de reconocimiento de voz es una herramienta computacional
capaz de procesar la seal de voz emitida por el ser humano y reconocer la
1. DISEO DE UN RAH.
a. Aprendizaje.
Un aspecto crucial en el diseo de un sistema de RAH es la
eleccin del tipo de aprendizaje que se utilice para construir las
diversas fuentes de conocimiento. Bsicamente, existen dos
tipos:
Pr-nfasis
Sirve para enfatizar las frecuencias altas de los formantes, y
para remover la componente de DC de la seal. El filtro que
se utilizara ser el siguiente:
H ( z )=1a z1
Donde a=0.95
Segmentacin
Para trabajar con la seal de voz, tenemos que decir que es
estacionaria, y para eso se aplica la segmentacin, donde se
toman ciertos periodos de tiempo de la seal y esta se
asume que es estacionaria.
Esta segmentacin toma 30 ms por trama de voz con un
desplazamiento de 10 ms entre cada trama.
Ventana Hamming
Se aplica una ventana hamming a cada uno de los segmentos
creados anteriormente, esto se aplica con la razn de tener una
seal con los lobulos secundarios pequeos y un lbulo
principal estrecho, a simple vista parece que se perder la
W [ n ] =0.540.46 cos
2 (n)
N
S ( t )=H ( t )E ( t )
Con H(t) la respuesta al impulso del filtro lineal
En el dominio de la frecuencia:
S ( f ) =H ( f ) . E(f )
Dado la seal S(f), sabiendo que los formantes tienen ciertas
frecuencias explicitas para el reconocimiento de voz, para un
mejor tratamiento de estas se aplican filtros con frecuencias
centrales de tal modo que resalten las caractersticas
espectrales.
f (m) 1 ( f l ) m
M 1
donde :
f l frecuencia ms baja exp resada en Hz
f h frecuencia ms alta exp resada en Hz
m nmero de coeficient e a calcular
M total de coeficientes de Mel
Donde:
( f )=1125 ln 1+
f
700
b
1 [b] 700 exp
1
1125
para 1 k f s / 2
y 1 m M
H m [k ]
0,............... para , k f [m 1]
k f (m 1)
,.... para , f (m 1) k f (m)
f (m) f (m 1)
f (m 1) k
,.... para , f (m) k f (m 1)
f (m 1) f ( m)
0,............... para , k f (m 1)
para 1 k f s / 2
y 1 m M
Mel-Cepstrum
Es la respuesta luego de aplicar el Logaritmo a nuestro MelSpectrum, y luego la Transformada discreta de coseno.
La transformada de Coseno Discreta es una transformacin
basada en la Transformada discreta de Fourier, pero utilizando
solamente nmeros reales.
Expresa una secuencia de muchos puntos de datos en trminos
de una suma de funciones coseno oscilando a diferentes
frecuencias. Sus aplicaciones son importantes sobre todo en
aquellas en donde componentes pequeas de alta frecuencia
se pueden descartar. El uso de la funcin coseno en lugar de la
funcin seno ha demostrado ser ms til (p. e. la compresin
de informacin), existen 8 variantes de la transformada coseno
discreta, de las cuales slo 4 son las ms utilizadas o comunes.
N 1
1
X k xn cos
n 0
n k ,
2
k 0,......, N 1
Pre-procesoVentana Hamming
FFT
Log
Coeficientes de Mel-Cepstrum
DCT