Procesamiento de Voz

Procesamiento de voz
Universidad Surcolombiana Neiva, Colombia

FRANCISCO JAVIER CORTES CARRILLO COD:2008276052 VICENTE PEREZ ESCOBAR COD:2008275398 JEFERSON DUSSAN CUBI COD:2008275667 RAUL ANDRES MOSQUERA COD:200875598
Abstract Digital processing of voice is very important in digital

communications, because the works and designs today are directed to processing speed, bandwidth and quality, ie the lowest transmit a parameter information representing a good quality. This work is aimed at strengthening the voice processing concepts and find ways to make the above.
I. INTRODUCCION La seal de voz se puede dividir en dos componentes, componente estocstica y componente determinista para el caso de tramas sonoras, en el caso de tramas sordas consideraremos solo la componente estocstica. Teniendo esto en cuenta podemos calcular los parmetros necesarios para sintetizar cada componente por separado. La voz humana es producida por el paso del aire procedente de los pulmones, que al llegar a la laringe, produce la vibracin de los dos pares de cuerdas vocales. Las cavidades de la cabeza, relacionadas con el sistema respiratorio y nasofarngeo, actan como resonadores, mientras que los dientes, labios y paladar, como articuladores. La combinacin de stos, permiten generar distintos sonidos (vocales y consonantes). En el caso de las vocales, el paso del aire no se ve interrumpido en el tracto vocal, diferencindose nicamente por su forma (configuracin boca lengua, paladar). Esto es lo que produce la amplificacin o atenuacin de las frecuencias generadas previamente. Aquellas que son reforzadas, son las que se denominan formantes y son las que caracterizan a cada vocal. stas aparecen en el espectro como envolventes que modifican las amplitudes de los armnicos de la fuente sonora. El formante con la frecuencia ms baja se designa F1, el segundo F2, el tercero F3. En muchas lenguas, como en el caso de la castellana, los dos formantes principales permiten distinguir la mayora de sonidos voclicos del habla. Para lenguas con mayor cantidad de vocales, como por ej. el ingls, es necesario recurrir a ms formantes para caracterizarlas.
II.MARCO TEORICO PROCESAMIENTO DE VOZ El esquema general que se seguir para el clculo de los parmetros de cada componente ser:
Por un lado, calculamos los coeficientes del filtro LPC para el Filtrado del tracto vocal (componente estocstica). Por separado, calculamos la sonoridad y el pitch de cada trama, para con ello, calcular las amplitudes, fases y frecuencias de los armnicos en el caso de tramas sonoras, estos sern los parmetros necesarios de la componente determinista (excitacin).
En primer lugar, en el codificador se dividen las tramas y se calcula la matriz de coeficientes y la energa para el filtro del tracto vocal. Tras este procedimiento, calculamos el pitch y la sonoridad. Teniendo los valores de pitch y sonoridad se calculan las frecuencias (f0), la matriz de amplitudes de los armnicos (amp, 10 por trama en este caso) y las fases (fas,10 por trama). Si eligiramos ms armnicos la informacin a transmitir seria mayor y la calidad de la seal sintetizada seria mayor o menor respectivamente al nmero de armnicos. Para llegar a deducir el valor de las amplitudes y las fases de cada trama sonora debemos seguir los siguientes pasos: Paso 1 Calculamos la transformada de la trama mediante (funcin fft en matlab) despus se transforma el valor Npitch, en muestras, a Hz para obtener la frecuencia (f0) de la trama, redondeamos para poder operar con este valor. Para ello hemos utilizado la formula. Paso 3 Se calcula la posicin de la frecuencia fundamental (k0) en el espectro de la trama sonora, sabiendo que es la relacin entre la frecuencia fundamental en Hz anteriormente calculada y la distancia entre muestras:
Paso 2 Calculamos la distancia entre muestras teniendo en cuenta que es la frecuencia de muestreo (fs), entre el nmero de muestras por trama (N), como se muestra en la figura
Se estima la amplitud armnica y la fase, para hallar la amplitud utilizo la formula, eligiendo el valor de la muestra k0 en el espectro. Amplitud=( A/2)N La amplitud que necesitamos hallar es la mitad del valor contenido en la posicin k0 del espectro partido multiplicado por el nmero de muestras. Para calcular la fase utilizamos la funcin angle de matlab en la posicin k0.
El valor de la distancia entre muestras es muy importante ya que con este valor podemos hallar la posicin de los armnicos en el espectro y el valor de la amplitud y la fase de estos armnicos.
Una vez hemos calculado el valor de la amplitud y la fase debemos hacer una matriz para hallar tantos armnicos como queramos
Se han utilizado varias funciones:
FUNCION CODIFICADOR La funcin codificador.m es la encargada de codificar la seal original, Los parmetros de entrada son: seal original (x), la frecuencia de muestreo (fs), el tiempo de las tramas (t) y el nmero de armnicos (armnicos). En primer lugar, calculamos el nmero de muestras por trama (N) y el nmero de tramas (Ntramas), redondeamos los valores para poder operar con ellos. Para implementar un ciclo que nos divida la seal en tramas se necesita calcular la longitud de la seal en funcin de los parmetros anteriores (F) por ello se multiplica el nmero de tramas (Ntramas) por las muestras que contiene cada trama (N). Se aplica un ciclo for desde i=1 hasta i=F cogiendo N muestras cada vez (for i=1: N:F;) dentro de este lazo se divide la seal en tramas (trama=x(i:N-1+i);) y se aplica Hamming a cada trama y se resta la media. Teniendo la trama (trama2) preparada se llama a la funcin coeficientes.m Mandndole los parmetros trama2 (trama con hamming y sin media), Ntrama (nmero de tramas) y trama (trama sin hamming y con media). Esta funcin nos devuelve el vector de coeficientes LPC y la energa de cada trama. Con estos parmetros generamos una matriz de coeficientes y un vector de energas. El siguiente paso es calcular la sonoridad y el pitch de cada trama para ellos se llama a la funcin pitchsonoridad.m mandndole trama2 (trama con hamming y sin media). Nos devuelve el valor de la sonoridad (1 si es una trama sonora 0 si es sorda) y el valor de pitch en muestras. Con estos valores, si sonoridad =1, se llama a la funcin valoresexcitacion.m dando los parmetros de Mitch (pitch en muestras), fs (frecuencia de muestreo), N (nmero de muestras por trama) y trama (trama sin hamming y con media). Esta funcin nos devuelve los vectores de amplitudes (amp) y fases (fas) armnicas y la frecuencia fundamental (f0) en Hz de cada trama. Una vez obtenidos estos valores se crean los vectores pitch (pitch), sonoridad (sonoridad) y frecuencia (frecuencia) y las matrices de amplitudes (amplitud) y fases (fases). Con todo ello tenemos todos los parmetros necesarios para sintetizar la Seal FUNCION COEFICIENTE (COEFICIENTE.M)
Parmetros Codificador. Coeficientes. PitchSonoridad. Valores Excitacin
ESTRUCTURA DE LA PROGRAMACION
Funcionamiento Cada una de las funciones implementadas tiene su aplicacin, la funcin parmetros es la encargada de leer la seal de voz .wav, mediante wavread, Esta seal de entrada se puede variar siendo aplicable a cualquier seal de voz en formato .wav, tambin se han aadido los parmetros t (tiempo de cada trama en ms) y armnicos (nmero de armnicos para el clculo de los parmetros de la excitacin) para dar la opcin a elegir cualquier valor (parametros.m) mandando los parmetros necesarios que son: x: Seal de voz. fs: Frecuencia de muestreo de la seal de voz, esta puede variar segn la seal de entrada por ello debemos mandarla. t: Tiempo en ms de cada trama. armnicos: Numero de armnicos para el clculo de los parmetros de Excitacin.
Luego se llama la funcin codificador (codificador.m), transmitindoles los parmetros necesarios. Se crea el reproductor de sonido por medio de la funcin wavplay(x,fs) y se reproduce con ayuda de audioplayer(x,fs). Como se tiene en anlisis dos archivos .wav se cre un condicional if para analizarlos por separado.
La funcin coeficientes.m es la encargada de calcular los valores de los coeficientes (co) del filtro del tracto vocal y la energa (energ) de cada trama. Para ello aplicamos un filtro LPC_10 a la trama enventanada y sin media (trama2), a partir del residuo que obtenemos, calculamos la energia, haciendo la suma de todos los elementos del vector, residuo2 al cuadrado. Estos valores sern necesarios a la hora de sintetizar la componente estocstica. FUNCION PITCHSONODIDAD (PITCHSONODIDAD.M) En la funcin pitchSonoridad.m se calcula el pitch en muestras (Npitch) y la sonoridad (son). Para ello se genera un filtro paso bajo, mediante la funcin fir1 de matlab, filtramos la trama y le aplicamos un filtro LPC_4, para hallar el residuo sobre el que calcularemos la auto-correlacin y de esta, el valor (m1) y la posicin (n1), correspondientes al mximo valor. Para buscar el siguiente mximo, cogemos los valores de la auto-correlacin desde, n1+20 hasta n1+160, y en ellos buscamos el siguiente mximo (m2, n2), si este, es mayor que el 25% del valor m1, corregimos n2 sumndole n1+20 y entonces la trama ser sonora, por tanto, sonoridad ser 1 y pitch ser igual a la diferencia de posiciones entre los mximos (pitch=n2-n1). Por el contrario si no supera el 25% del valor m1 la trama ser sorda y por tanto la sonoridad y el pitch sern 0. FUNCION (VALORESEXCITACION.M) VALORESEXCITACION
(d) WAVWRITE(). (e) AUDIOPLAYER(). El siguiente cdigo graba una seal de voz de 3 segundos a una frecuencia de muestreo de 8000 hz (sonido monofnico) El cual en una sola ventana muestra la grfica de amplitud y frecuencia. clear all clc % PRIMERO % hacemos captura de la seal de voz input('presione intro para capturar la voz') Fs=8000; %utilizamos una frecuencia de muestreo ade 8khz ts=3; %el fragmento de voz a capturar es de 10 seg y = wavrecord(ts*Fs, Fs); % SEGUNDO % Guardamos la seal capturada 8 bits por muestra wavwrite(y,Fs,8,'voz_punto1.wav') input('el archivo ha sido gravado, presione intro para mostrar los parametros de grabacion') % TERCERO % Escuchamos el archivo de voz guardado [y,F_muestreo,NBits]=wavread('voz_punto1. wav') % CUARTO GRAFICAR input('presione intro para graficar') subplot(211) plot(y) %el efecto de gravar crea las dos columnas de datos subplot(212) E=fft(y,ts*Fs) %calculo transformada de fourier Es=Fs*(0:(ts*Fs)-1)/ts*Fs; %dominio de la frecuencia en hz plot(Es(100:10000),abs(E(100:10000)));
En la funcin valoresexcitacion.m se calculan las amplitudes (amp), fases (fas) y frecuencia fundamental (f0) en Hz de cada trama. Para ello seguimos los pasos: Calculamos la distancia entre tramas (af=floor (fs/N);). La frecuencia fundamental en Hz ( fo=floor(1/(Npitch/fs));) La muestra donde se encuentra, (k=round(fo/af);). Para obtener los valores necesarios se calcula la transformada de la trama (trastra=fft(trama);). Una vez procesado lo anterior se crea un lazo: (for s=1:armonicos;) DESARROLLO DE CONTENIDOS 1) Dados los siguientes comandos de Matlab, implementar un ejemplo con cada uno y explicar su funcionalidad. (a) WAVREAD(). (b) PLAY(). (c) PLOT() Y SUBPLOT().
1) Dadas dos seales de voz (s1, s2), leer los archivos en Matlab (.wav), encontrar las propiedades de la voz en cada uno, realizar un anlisis comparativo de las seales y reproducirlas. CODIGO EN MATLAB El siguiente es el cdigo utilizado en matlab para generar las grficas necesarias en nuestro posterior anlisis y comparacin de las 2 seales de voz Cdigo principal Llama la funcin utilizada llamar los archivos de voz,para obtener las caractersticas de la seal []=parametros (), adems es quien grafica las propiedades caractersticas obtenidas y reproduce la voz.
for a=0:1:2 %seleciona el valor de la seal de audio que se va analizar if a==1 %evalua si se escoje la primera seal de audio [x,fs,b]=wavread('s1.wav'); % lee la seal de audio %%tiempo en ms de la trama. t=30; %% Nmero de armnicos. armonicos=10; % armonicos para el calculo de los parametros de exitacion( amplitud, fase y frecuencia) %% Llamada a funcin codificador. [pitch,coefmed,amplitud,fases,frecuencia, energia,N,sonoridad]=codificador(x,fs,t,a rmonicos,a); % funcion codificador codifica la seal original %% escuchar sonido wavplay(x,fs); %crea el reproductor de audio audioplayer(x,fs); % reproduce la seal de audio %% grafica imagenes figure(2); subplot(4,1,1); plot(x); title('seal original'); subplot(4,1,2); plot(pitch); title('seal pitch '); subplot(4,1,3); plot(sonoridad); title('seal sonoridad '); subplot(4,1,4); plot(frecuencia); title('seal frecuencia '); end if a==2 %evalua si se escoje la segunda seal de audio [x,fs,b]=wavread('s2.wav'); %%tiempo en ms de la trama. t=30; %% Nmero de armnicos. armonicos=10; %% Llamada a funcin codificador. [pitch,coefmed,amplitud,fases,frecuencia, energia,N,sonoridad]=codificador(x,fs,t,a rmonicos,a); %% escuchar sonido wavplay(x,fs); audioplayer(x,fs); end end %% graficar las seales frecuencia pitch , sonoridad , frecuencia de la tramas de cada seal
if a==2; figure(6); subplot(4,1,1); plot(x,'r'); title('seal original'); subplot(4,1,2); plot(pitch,'r'); title('seal pitch '); subplot(4,1,3); plot(sonoridad,'r'); title('seal sonoridad '); subplot(4,1,4); plot(frecuencia,'r'); title('seal frecuencia '); end funcin []=codificador() Es una parte muy importante del cdigo debido que es la que obtiene el nmero de tramas de la seal de voz deseada, adems obtiene los parmetros de cada una de ellas como la amplitud, fase y los coeficientes de cada trama. function [pitch,coefmed,amplitud,fases,frecuencia, energia,N,sonoridad]=codificador(x,fs,t,a rmonicos,a); L=length(x); % encuentra el numero de elementos de x N=floor(fs/1000)*t; % calcula el numero de muestras por trama Ntramas=floor(L/N) % calcula el numero de tramas F=Ntramas*N; % calcula la longitud de la seal para poderla dividir en tramas pitch=[]; % vector pitch vacio coefmed=[]; sonoridad=[]; energia=[]; amplitud=[]; fases=[]; frecuencia=[]; for i=1:N:F; % ciclo para el analisis de cada trama hasta llegar a la longitud total de la seal trama=x(i:N-1+i); %%separamos la seal en tramas trama1=trama.*hamming(N); %% aplicamos Hamming trama2=trama1-mean(trama1); %% restamos la media % Vamos a la funcin coeficientes para hallar los coeficientes LPC %para el filtrado del Tracto Vocal. [energ,co]=coeficientes(trama2,Ntramas,tr ama,a); % calcula los valores de los coeficientes para el filtro del tracto vocal y la energia coefmed=[coefmed;co]; % matrix de coeficientes
energia=[energia energ]; % vector de energia
%Vamos a la funcin pitchsonoridad para hallar los valores del pitch y %la sonoridad de cada trama. [Npitch,son]=pitchsonoridad(trama2); %Si la trama es sonora vamos a la funcin valoresexcitacion para %hallar las amplitudes fases y la frecuencia de cada trama. if son==1; % evalua si la es sonora o muda ( 1 sonora) (0 sorda) [amp,fas,fo]=valoresexcitacion(Npitch,fs, N,trama,armonicos); if a==1 % evalua la seal se esta analizando figure(1); subplot(4,1,1); plot(x); title('seal original'); subplot(4,1,2); plot(amp); title('seal amplitud por trama'); subplot(4,1,3); plot(fas); title('seal fase por trama'); subplot(4,1,4); plot(co); title('seal coeficientes por trama'); end if a==2 figure(4); subplot(4,1,1); plot(x,'r'); title('seal original'); subplot(4,1,2); plot(amp,'r'); title('seal amplitud por trama'); subplot(4,1,3); plot(fas,'r'); title('seal fase por trama'); subplot(4,1,4); plot(co,'r'); title('seal coeficientes por trama'); end %Si la trama es sorda los valores seran 0 para los tres parametros. else amp=zeros(1,armonicos); fas=zeros(1,armonicos); fo=0; end
%Concatenamos los valores de pitch, sonoridad, amplitud, fases y %frecuencia. pitch=[pitch Npitch]; sonoridad=[sonoridad son]; amplitud=[amplitud; amp]; fases=[fases; fas]; frecuencia=[frecuencia fo]; end if a==1 figure(3); subplot(1,1,1); plot(energia); title('seal trama energia'); end if a==2 figure(5); subplot(1,1,1); plot(energia,'r'); title('seal trama energia'); end funcion []=coeficientes() Esta funcin es la que determina los coeficientes espectrales de la seal de voz. En la funcin anterior []=codificador() se ha obtenido la longitud de la trama y es guardada en la funcin trama1, luego hallamos los coeficientes de cada trama restando la media y posteriormente la seal obtenida en la trama2 es filtrada para hallar los componentes espectrales de la voz. Los componentes espectrales son guardados en energ function [energ,co]=coeficientes(trama2,Ntramas,tr ama,a); %%% CALCULAMOS ENERGIA y los coeficientes if a==1 co=lpc(trama2,10);% determina los 10 coeficientes para el filtro de la seal de la trama 2 residuo2=filter(co,1,trama2); % realiza un filtro cuyo coeficiente de realimentacion directa es co, el coeficiente de realimentacion es 1 de la seal de la trama 2 energ=sum(residuo2.^2); % calcula la energia haciendo la suma de los elementos del vector end if a==2 co=lpc(trama2,10); residuo2=filter(co,1,trama2); energ=sum(residuo2.^2); end funcion [ ]=pitchconoridad ( )
Debido a que tenemos la variable trama2 que posee los coeficientes de cada trama, partimos de ella para hallar o definir los sonidos sordos y sonoros de la seal de vos, partiendo de un filtro con una frecuencia de 250 hz (p=fir1(25,0.225);%%%genera el filtro pasobajo de orden 25 y frecuencia de corte de 0.225) de los cuales por encima de esta frecuencia se produce los sonidos sonoros y por debajo los sonidos sordos. function [Npitch,son]=pitchsonoridad(trama2); p=fir1(25,0.225);%%%genera el filtro pasobajo de orden 25 y frecuencia de corte de 0.225 trama3=filter(p,1,trama2);%%%aplica el filtro con coeficiente del numinador p denominador 1 de la seal trama 2 c=lpc(trama3,4);%determina los 4 coeficientes para el filtro de la seal de la trama 3 residuo=filter(c,1,trama3); %aplica el filtro con coeficiente del numinador c denominador 1 de la seal trama 3 para calcular la correlacion autores=xcorr(residuo); % se halla la autocorrelacion [m1,n1]=max(autores);% valor y posicion del primer maximo segbusq=autores(n1+20:n1+120); % busca los siguientes elementos [m2,n2]=max(segbusq); % posicion y valor del segundo maximo n2=n2+n1+20; % corriccion para q la trama sea sonora if m2>m1*0.25; % evalua si el segundo maximo es mayor al primero en 25% si es asi es sonora y poner a son=1 Npitch=n2-n1; % valor del pitch en muestras son= 1; % la trama es sonora else son=0; % la trama es sorda Npitch=0; % pitch es 0; end
las tramas tomadas para esta seal de voz es de Ntramas=100
La grafica seal original muesra la aplitud vs tiempo de la seal de voz , esta grafica nos proporciona una idea de la energia y en procesamiento de voz avanzado podemos determinar que palabras se encuentran en la grafica. Las graficas seal amplitud por trama, seal de fase por trama, seal coeficientes por trama nos proporciona datos generados y utilizados por el codigo para y que son utilizados posteriormente para determinar sonidos sordos y sonoros. Es importante aclara que las graficas que se ploten por trama que son la tres ultimas solo muestra las caracteristicas de las ultima trama (la trama 100).
Partiendo del cdigo mostrado anteriormente, al introducir la seal de voz se muestra con los siguientes plot(graficas generadas en matlab). PROPIEDADES DE LA VOZ s1.wav Caractersticas de grabacin F1_muestreo = 8000 NBits1 = 16
La seal trama energia nos muestra las componentes espectrales de la seal de voz amplitud vs frecuencia que nos puede indicar armonicos y frecuencia fundamental que mas adelante sera explicada con claridad debido a que ssta grafica es muy importante para dertenimar similitudes y difenerecias entre diferentes seales
Para este laboratorio tal vez la grafica mas importante es la grafica seal sonoridad ya que nos indica los tramos o sonidos sordos que posee la seal de voz procesada, en nuestro cas tenemos: 14 tramos de seal sonoros (tramos en 1) 15 tramos de seal sordos (tramos en 0) Los tramos de seal sonoro 7, 9 y 11 son los de mayor sonoridad por el tiempo de duracion y tenemos y pequeos intervalos de tiempo sordos. Ademas podemos ver que un tiempo despues de que se inicio la grabacion, la persona empezo a halblar PROPIEDADES DE LA VOZ s2.wav Caractersticas de grabacin: F2_muestreo = 16000 NBits2 = 16 Las tramas tomadas para esta seal de voz es de: Ntramas = 63 El nmero de tramas es diferente que en s1.wav debido a que la frecuencia de muestreo es diferente y estas se calculan con respecto a la frecuencia de grabacin.
La grfica seal sonoridad, cono ya lo dijimos anteriormente, nos indica los tonos sordos y sonoros de la frase grabada. En este caso tenemos: 13 tramos de seal sonoros (tramos en 1) 13 tramos de seal sordos (tramos en 0) Los tramos 3, 6 y 10 de los segmentos sonoros son los de mayor duracin. Podemos ver tambien que se empezo a grabar despues segundos despues que se empezo a hablar. COMPARACION ENTRE s1.wav Y s2.wav Pirme analizaremos la seal de original en amplitud S1.wav:
S2.wav: S2.wav:
Observado los niveles de amplitud de las seales podemos decir que que las dos personas no estan diciendo la misma frase debido a que las regiones donde se produce la mayor energia no coinciden.
En cuanto a las caractersticas de grabacin de de las dos seales la s1.wav tiene una frecuencia de muestreo de 8000 hz y 16 bits por muestra en cambio la s2.wav tiene una frecuencia de muestreo de 16000 hz con 16 bits por muestra . Obteniendo las componentes espectrales de las dos seales podemos definir si la voz es de homre o de mujer. S1.wav:
Del espectro en frecuencia de las dos seales se puede deir que la primera seal (s1.wav) es una voz de mujer debido a que las componentes espectrales con mayor energia o las principales se encuentran entre llos 150 y 200 herz en cambio en la segunda seal de voz (s2.wav) las componentes espectrales principales se encuentar en los rangos por debajo de los 200 e incluso de los 150 herz con algunas de ellas por encima, entonces se puede detreminar que dicha seal de voz representa la voz de un hombre. El codigo utilizado para hallar el espectro con mayor resolucion es el siguiente: clear all clc [y,Fs,NBits]=wavread('s2.wav') ts=length(y)/Fs wavplay(y,Fs); audioplayer(y,Fs); E=fft(y,ts*Fs); %calculo transformada de fourier Es=Fs*(0:(ts*Fs)-1)/ts*Fs; %dominio de la frecuencia en hz
plot(Es(100:10000),abs(E(100:10000)),'r') ; title('espectro'); ylabel('frecuencia') 2) Grabar un archivo de voz con una duracin de 10 milisegundos, especificar las caractersticas de grabacin e identificar los tramos de voz sonoros y sordos. Para obtener el cdigo de gravar la seal es el mismo utilizado en el punto 1, el cual nos genera algunas grficas, pero nos da tambin el archivo de voz, que posteriormente lo vamos a utilizar con el cdigo del punto 2 para procesar la seal. El cdigo utilizado para obtener los tramos de voz sordos y sonoros es el mismo que el punto 2, solamente es necesario reemplazar las lneas de cdigo siguiente: En la funcin principal [ ]=parametros ( ) reeplazamos la line del for [0:1:1] que vaya de 0 a 1 para que solo haga el for una sola vez debido a que el procesamiento se hace para una sola seal y no para dos como se tenia inicialmente. Tambin se cambie el nombre de el archivo a cargar el cual es el que se gravo en el punto 1, para nuestro caso el archivo se llama voz_punto1.wav. Los resultados que se obtuvieron fueron los siguientes: Caractersticas de grabacin: F_muestreo = 8000 NBits = 8 Graficas obtenidas tenemos: 10 tramos sonoros (en 1) 10 tramos sordos (en 0)
CONCLUSIONES El anlisis de la seal se hace por tramas de 5-40ms en los cuales la seal de voz se mantiene casi constante. El reconocimiento de voz es una de las aplicaciones del procesamiento digital de seales que permite interaccin entre seres humanos y computadoras. en nuestro caso hacemos uso de matlab para digitalizar y procesar la seal, el cual nos facilita el uso de filtros para enfatizar los formantes de la seal que es un parmetro muy importante de para el procesamiento.
El espectro de la seal de voz brinda la informacin relevante de la seal, debido a que al obtener los formantes tenemos los fundamentos adecuados para filtrar la seal, reducir informacin y sintetizar o reconstruir la misma. Matlab utilizado como herramienta para el procesamiento de voz es un recurso poderoso para tratar seales y obtener patrones de anlisis de las mismas, ya que con este herramienta se logra incluso sintetizar una nueva seal. Adems la facilidad con que nos permite filtra la seal es muy prctica.
REFERENCIAS La voz y su espectro | Beln Ruiz Mezcua|[en linea]

http://www.hezkuntza.ejgv.euskadi.net/r43573/es/contenidos/informacion/dia6_sigma/es_sigma/adjuntos/sigma_27/11_l a_voz.pdf Procesamiento digital de Seales de Voz| Modelos de produccin de Voz| Gomez, J.C [en lnea]. http://www.fceia.unr.edu.ar/prodivoz/modelo_prod_voz.pdf
Matlab: filters, voz humana |Renata guila, Pilar del roci|[en lnea]. http://bloglabcom.files.wordpress.com/2011/03/practica_5-pilar-retanaaguilar.pdf El tono de la voz masculina y femenina en los informativos radiofnicos: un anlisis comparativo.| Emma Rodero Antn|[en lnea]. http://bocc.ubi.pt/pag/rodero-emma-tono-voz-femenina.pdf

Procesamiento de Voz

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Procesamiento de Voz

Hochgeladen von

Copyright:

Verfügbare Formate

Procesamiento de voz

Universidad Surcolombiana Neiva, Colombia

Abstract Digital processing of voice is very important in digital

Se han utilizado varias funciones:

Parmetros Codificador. Coeficientes. PitchSonoridad. Valores Excitacin

energia=[energia energ]; % vector de energia

las tramas tomadas para esta seal de voz es de Ntramas=100

REFERENCIAS La voz y su espectro | Beln Ruiz Mezcua|[en linea]

Das könnte Ihnen auch gefallen