Reconocimiento de Voz

U.N.M.S.M.
FACULTAD DE ING. ELCTRICA, ELECTRNICA Y

TELECOMUNICACIONES
APELLIDOS Y NOMBRES
CURSO
METODOS NUMERICOS
INFORME
PREVIO
NUMERO
1
GRUPO
MATRCULA
TEMA
RECONOCIMIENTO DE VOZ
REALIZADO
FECHAS
ENTREGA
03-09-2015
04-09-2015
NOTA
PROFESOR
VILLAFUERTE BARRETO HERNN
RECONOCIMIENTO DE VOZ
INTRODUCCIN
El habla es una de las partes ms importantes de la expresin humana, es
algo que nos diferencia del resto de seres vivos en planeta, ya que sin el
habla el pensamiento mismo del hombre no sera posible. No se trata
simplemente de un sistema para transmitir informacin, aunque sea claro
una de sus funciones.
Dada la importancia del habla, el presente trabajo pretende crear una
interaccin entre una de las expresiones esenciales del hombre con la
computadora, creando as un Sistema de Reconocimiento de Voz con la
ayuda de MATLAB.
El procesamiento digital de seales de voz tiene una gran variedad de
aplicaciones, existe una base para el tratamiento digital de seales, que
puede ser implementada para lograr obtener lo que nos interese segn la
aplicacin.
El Sistema de Reconocimiento de Voz es una de las aplicaciones del
procesamiento digital de seales de voz. El sistema consiste en obtener una
seal de voz que permita reconocer qu palabra se est hablando. Consta
de una interfaz grfica que permite la interaccin del usuario por medio de
un micrfono con la computadora, la que procesa automticamente los
datos adquiridos. Basado en los resultados de este sistema, se puede ver
como se plantea la base del procesamiento digital de seales de voz y
queda a la libre imaginacin como puede ser utilizado para otras
aplicaciones, adems del de reconocimiento de voz.
OBJETIVOS
General
Brindar un sistema que proporcione el reconocimiento de seales de voz
usando la herramienta MATLAB, por medio de la interaccin entre el usuario
y la computadora.
Especficos
Explorar algoritmos de procesamiento digital de voz, que permitan un
tratamiento sencillo de informacin relevante de las seales de voz.
Lograr la interaccin automtica humano/computadora por medio de un
sistema simple de utilizar.
DEFINICIN
Reconocimiento automtico del habla (RAH) o reconocimiento
automtico de voz es una disciplina de la inteligencia artificial que tiene
como objetivo permitir la comunicacin hablada entre seres humanos y
computadoras. El problema que se plantea en un sistema de este tipo es el
de hacer cooperar un conjunto de informaciones que provienen de diversas
fuentes de conocimiento (acstica, fontica, fonolgica, lxica, sintctica,
semntica y pragmtica), en presencia de ambigedades, incertidumbres y
errores inevitables para llegar a obtener una interpretacin aceptable del
mensaje acstico recibido.
Un sistema de reconocimiento de voz es una herramienta computacional
capaz de procesar la seal de voz emitida por el ser humano y reconocer la
informacin contenida en sta, convirtindola en texto o emitiendo rdenes

que actan sobre un proceso. En su desarrollo intervienen diversas
disciplinas, tales como: la fisiologa, la acstica, la lingstica, el
procesamiento de seales, la inteligencia artificial y la ciencia de la
computacin.
1. DISEO DE UN RAH.
a. Aprendizaje.
Un aspecto crucial en el diseo de un sistema de RAH es la
eleccin del tipo de aprendizaje que se utilice para construir las
diversas fuentes de conocimiento. Bsicamente, existen dos
tipos:
Aprendizaje deductivo: Las tcnicas de Aprendizaje Deductivo se

basan en la transferencia de los conocimientos que un experto humano
posee a un sistema informtico. Un ejemplo paradigmtico de las
metodologas que utilizan tales tcnicas lo constituyen los Sistemas
Basados en el Conocimiento y, en particular, los Sistemas Expertos.
Aprendizaje inductivo: Las tcnicas de Aprendizaje Inductivo se basan
en que el sistema pueda, automticamente, conseguir los conocimientos
necesarios a partir de ejemplos reales sobre la tarea que se desea
modelizar. En este segundo tipo, los ejemplos los constituyen aquellas
partes de los sistemas basados en los modelos ocultos de Mrkov o en
las redes neuronales artificiales que son configuradas automticamente
a partir de muestras de aprendizaje.
En la prctica, no existen metodologas que estn basadas nicamente en el

Aprendizaje Inductivo, de hecho, se asume un compromiso deductivoinductivo en el que los aspectos generales se suministran deductivamente y
la caracterizacin de la variabilidad inductivamente.
b. DECODIFICADOR ACUSTICO -FONETICO.
Las fuentes de informacin acstica, fontica, fonolgica y
posiblemente lxica, con los correspondientes procedimientos
interpretativos, dan lugar a un mdulo conocido como decodificador
acstico-fontico (o en ocasiones a un decodificador lxico). La
entrada al decodificador acstico-fontico es la seal vocal
convenientemente representada; para ello, es necesario que sta
sufra en un pre proceso de parametrizacin. En esta etapa previa es
necesario asumir algn modelo fsico, contndose con modelos
auditivos y modelos articulatorios.
c. MODELADO DEL LENGUAJE.
Las fuentes de conocimiento sintctico, semntico y
pragmtico dan lugar al modelo del lenguaje del sistema.
Cuando la representacin de la Sintaxis y de la Semntica
tiende a integrarse, se desarrollan sistemas de RAH de
gramtica restringida para tareas concretas.
En nuestro casi se utilizaran los mtodos numricos para

construir un identificador de voz.
2. APLICACIN
DE
LOS
METODOS
NUMRICOS
EN
EL
RECONOCEDOR DE VOZ.
Los siguientes mtodos nos permiten la obtencin de parmetros
caractersticos de seal, los cuales utilizaremos.
Anlisis de Fourier: Es importante por dos razones. Primero,
permite determinar el contenido frecuencial de la seal de voz,
o sea, realizar anlisis espectral. La segunda razn de
importancia es realizar operaciones de filtrado en el dominio de
la frecuencia.
Codificacin predictiva lineal: Su funcin es representar la
envolvente espectral de una seal digital de voz en una forma
comprimida, utilizando la informacin de un modelo lineal.
Anlisis de los coeficientes cepstrales: Nos permite interpretar
la seal en una escala que simula la percepcin del odo
humano ante los sonidos.
Predicacin de Lnea perceptiva.
Una de las caractersticas fundamentales a definir en el proceso de
captura de la seal de voz es la frecuencia de muestreo.
3. SISTEMA DE RECONOCIMIENTO DE VOZ
Pre procesamiento
Consta de 3 partes, la eliminacin del ruido, el pre-nfasis, y la
segmentacin.
- Eliminacin del ruido
Es una tcnica utilizada para sealar donde se da el inicio
de la seal, y donde se termina. Se calcula la energa
promedio de la seal, y cada 10 ms de trama de voz se hace
una comparacin, si esta trama tiene menos del porcentaje
sealado, es eliminada.
-
Pr-nfasis
Sirve para enfatizar las frecuencias altas de los formantes, y
para remover la componente de DC de la seal. El filtro que
se utilizara ser el siguiente:
H ( z )=1a z1
Donde a=0.95
Segmentacin
Para trabajar con la seal de voz, tenemos que decir que es
estacionaria, y para eso se aplica la segmentacin, donde se
toman ciertos periodos de tiempo de la seal y esta se
asume que es estacionaria.
Esta segmentacin toma 30 ms por trama de voz con un
desplazamiento de 10 ms entre cada trama.
Ventana Hamming
Se aplica una ventana hamming a cada uno de los segmentos
creados anteriormente, esto se aplica con la razn de tener una
seal con los lobulos secundarios pequeos y un lbulo
principal estrecho, a simple vista parece que se perder la
informacin correspondiente a los lbulos secundarios, pero

esto no es asi debido al solapamiento entre segmentos.
W [ n ] =0.540.46 cos
2 (n)
N
Anlisis Mel-Cepstral (Mel Spectrum)

Retomando los conceptos de la voz, esta es la convolucin de
la seal de excitacin y un filtro lineal.
S ( t )=H ( t )E ( t )
Con H(t) la respuesta al impulso del filtro lineal
En el dominio de la frecuencia:
S ( f ) =H ( f ) . E(f )
Dado la seal S(f), sabiendo que los formantes tienen ciertas
frecuencias explicitas para el reconocimiento de voz, para un
mejor tratamiento de estas se aplican filtros con frecuencias
centrales de tal modo que resalten las caractersticas
espectrales.
Banco de filtros Mel
Los filtros usados para este banco de filtros son de tipo

triangular, repartidos desde la frecuencia cero hasta la
frecuencia de Nyquist
En el diseo de estos filtros se toma una LoFreq y HiFreq (o fl y
fh respectivamente).
Los puntos superiores de cada funcin espectral f(m) se
encuentran uniformemente espaciados en la escala de Mel en
funcin de m y se determinan mediante:
( fl ) ( fh )
f (m) 1 ( f l ) m
M 1
donde :
f l frecuencia ms baja exp resada en Hz
f h frecuencia ms alta exp resada en Hz
m nmero de coeficient e a calcular
M total de coeficientes de Mel
Donde:
( f )=1125 ln 1+
f
700
Al final la inversa estara dado por:
b
1 [b] 700 exp
1
1125
Entonces, la construccin de los filtros viene dado por:
para 1 k f s / 2
y 1 m M
Este procedimiento funciona si los filtros son equiespaciados.

Para filtros no uniformemente espaciados y con una amplitud
normalizada de 1, la solucin est dada por:
H m [k ]
0,............... para , k f [m 1]
k f (m 1)
,.... para , f (m 1) k f (m)
f (m) f (m 1)
f (m 1) k
,.... para , f (m) k f (m 1)
f (m 1) f ( m)
0,............... para , k f (m 1)
para 1 k f s / 2
y 1 m M
Entonces, luego de disear los filtros, estos se tienen que

multiplicar con la seal luego de aplicarle la FTT.
Aplicacin de los filtros Mel
Mel-Cepstrum
Es la respuesta luego de aplicar el Logaritmo a nuestro MelSpectrum, y luego la Transformada discreta de coseno.
La transformada de Coseno Discreta es una transformacin
basada en la Transformada discreta de Fourier, pero utilizando
solamente nmeros reales.
Expresa una secuencia de muchos puntos de datos en trminos
de una suma de funciones coseno oscilando a diferentes
frecuencias. Sus aplicaciones son importantes sobre todo en
aquellas en donde componentes pequeas de alta frecuencia
se pueden descartar. El uso de la funcin coseno en lugar de la
funcin seno ha demostrado ser ms til (p. e. la compresin
de informacin), existen 8 variantes de la transformada coseno
discreta, de las cuales slo 4 son las ms utilizadas o comunes.
N 1

1
X k xn cos
n 0
n k ,
2
k 0,......, N 1
Banco de Filtros Mel

Voz
Pre-procesoVentana Hamming
FFT
Log
Proceso de obtencin de coeficientes Mel-Cepstrum
Coeficientes de Mel-Cepstrum
DCT
Proceso de obtencion de coeficientes Mel-Cepstrum con su

correspondiente proceso matemtico

Reconocimiento de Voz

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Reconocimiento de Voz

Hochgeladen von

Copyright:

Verfügbare Formate

U.N.M.S.M.

FACULTAD DE ING. ELCTRICA, ELECTRNICA Y

VILLAFUERTE BARRETO HERNN

informacin contenida en sta, convirtindola en texto o emitiendo rdenes

Aprendizaje deductivo: Las tcnicas de Aprendizaje Deductivo se

En la prctica, no existen metodologas que estn basadas nicamente en el

En nuestro casi se utilizaran los mtodos numricos para

informacin correspondiente a los lbulos secundarios, pero

Anlisis Mel-Cepstral (Mel Spectrum)

Banco de filtros Mel

Los filtros usados para este banco de filtros son de tipo

Al final la inversa estara dado por:

Entonces, la construccin de los filtros viene dado por:

Este procedimiento funciona si los filtros son equiespaciados.

Entonces, luego de disear los filtros, estos se tienen que

Aplicacin de los filtros Mel

Banco de Filtros Mel

Proceso de obtencin de coeficientes Mel-Cepstrum

Proceso de obtencion de coeficientes Mel-Cepstrum con su

Das könnte Ihnen auch gefallen