Análisis Acústico de La Voz

Análisis Acústico de la Voz
Claudio E. Pedemonte Solanich

Docente U. MAYOR
TEMUCO
OBJETIVOS DEL ANÁLISIS ACÚSTICO
COMO PARTE DE LA EVALUACIÓN VOCAL
• Identificar o cuantificar cambios en la estructura o características

vibratorias de las cuerdas vocales.
• Identificar o cuantificar cambios en las características perceptuales

de la voz.
• Monitorear cambios de la voz a través del tiempo, ya sea a lo largo

de una terapia, antes y después de una cirugía o evaluar la
progresión de una enfermedad.
(Sapienza, 2013)
Ventajas Desventajas
• Software y Hardware • Se requiere un

a bajo costo. ambiente idóneo
• Comodidad del acústicamente.
Paciente. • Conocimientos del
• Número de hardware y software
publicaciones. a utilizar.
• Minimiza la • Conocimiento en la
subjetividad en la correlación entre las
evaluación medidas acústicas y
el diagnostico clínico.
Recomendaciones Técnicas:
• Usar micrófono de condensador omnidireccional o cardiode con una
sensibilidad mínima de -60 dB.
• Para la grabación de vocales sostenidas la distancia al micrófono

debiera ser menor a 10 cm. Utilizar un soporte para el micrófono.
• Para posiciones cercanas del micrófono, este debiera tener una

inclinación de 45° fuera del eje.
• El tiempo de reverberación, ruido de fondo, superficies reflectantes y

modos normales del recinto de grabación debieran estar controladas.
• Se deben ajustar las ganancias del sistema de forma tal de evitar

grabar señales de muy bajo nivel o señales recortadas.
• La cadena electroacústica a utilizar debe proporcionar una adecuada

relación señal-ruido
(Titze, 1994)
Herramientas de Análisis
PRAAT
• Praat es una herramienta para el análisis fonético del habla desarrollada
por Paul Boersma y David Weenink en el Instituto de Ciencias Fonéticas de la
Universidad de Ámsterdam.
• Puede descargarse gratuitamente para varios sistemas operativos desde la

página del programa, en la que se encuentra también la documentación
necesaria para utilizarlo:
http://www.praat.org
Clasificación de los tipos de señales
de voz:
El National Center for Voice and Speech (Titze 1994) sugiere
una clasificación de las voces según el grado de
perturbación.
• SEÑALES TIPO 1: voz con vibraciones casi periódicas.

Perturbación menor al 5%. Voces Normales y
Patológicas.
• SEÑALES TIPO 2: voces Patológicas con subarmónicos y

modulaciones. Perturbación mayor al 5%.
• SEÑALES TIPO 3: voces caóticas o random.

Clasificación de los tipos de señales
de voz:
MEDIDAS ACÚSTICAS
Las Medidas Acústicas se pueden clasificar en seis categorías
• Espectrogramas – señales tipo 1, 2 y 3
• Frecuencia Fundamental – señales tipo 1
• Intensidad – señales tipo 1, 2 y 3
• Perturbaciones a corto plazo – señales tipo 1 (2)
• Niveles relativos de ruido – señales tipo 1
• Mediciones de Espectro a Corto Plazo – señales tipo 1
• Mediciones de Espectro a Largo Plazo – señales tipo 1, 2 y 3
(Sapienza, 2013)
Oscilograma o forma de onda
(waveform)
• Es una representación gráfica en que se muestra la variación de energía
–eje vertical- de una onda con respecto al tiempo –eje horizontal-.
• Análisis de amplitud, periodo, duración.
Oscilograma Tono Puro 440 Hz, Software PRAAT

Oscilograma o forma de onda
(waveform)
Oscilograma Voz Normal, fonema /a/, software PRAAT

Espectrograma
• Es una representación que nos permite observar la concentración de
energía en rango o componentes particulares de frecuencia y la
evolución temporal de esta.
• Representación de las variaciones intensidad –escala de colores o
grises- de las frecuencias –eje vertical- con respecto al tiempo – eje
horizontal-.
• Análisis de la duración y estructura formántica, amplitud.
Espectrogramas
Espectrogramas de Banda Ancha y Banda estrecha
• La resolución de un espectro depende del largo de la ventana FFT.
• Con una buena resolución se pueden observar y medir la F0 y los armónicos.
• Con una resolución menor, se pueden apreciar mejor los formantes, los pulsos
glóticos y las transiciones entre fonemas.
• A los espectrogramas de buena resolución se les llama de Banda Estrecha. Los
de menor resolución se llaman de Banda Ancha.
• En Praat, una buena resolución o espectro de banda estrecha se obtiene con
Windows length = 0,1 segundo.
• Un espectro de banda ancha se obtiene con Windows length = 0,005
segundos.
Espectrogramas
Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda ancha

software PRAAT
Espectrogramas
Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda estrecha

software PRAAT
Espectrogramas
Oscilograma y Espectrograma Pólipos, fonema /a/, Filtro de banda estrecha

software PRAAT
Espectrogramas
Oscilograma y Espectrograma de secuencia vocálica /i, e, a, o, u/

Filtro de banda Ancha
software PRAAT
Perturbaciones a corto plazo
Jitter
• Mide la perturbación o variación del periodo de la

frecuencia fundamental entre cada ciclo vocal en una
emisión sostenida.
• Se tolera cierta variabilidad porque es imposible la ausencia
de variación tonal.
• Se presenta alterado especialmente con la falta de control
en la vibración de las cuerdas vocales, por ejemplo
disfonías neurológicas (Cecconello, 2012)
• El jitter se correlaciona con la aspereza. (Behlau et al, 2004)
• En el software PRAAT 1,04 % es el umbral patológico.
• PRAAT nos entrega 5 tipos de Jitter, pero generalmente se
utilizan solo dos:
• Jitter (local)
• Es el promedio absoluto de las diferencias entre periodos consecutivos dividido por
el periodo promedio (MDVP – Jitt)
• 1,04 % es el umbral patológico.
• Jitter (local, absolute)

• Es el promedio absoluto de las diferencias entre periodos consecutivos (MDVP –
Jita)
• 83.200 μs es el umbral para patologías.
• Para entender bien el concepto utilizaremos un tono puro.

Perturbaciones a corto plazo - Jitter
T=0.01153
T=0.01151 T=0.01154
Shimmer
• Mide la perturbación o variación de la amplitud entre ciclo y ciclo

de fonación.
• Es el promedio de las diferencias absolutas entre la amplitud de
periodos consecutivos, dividido por la amplitud promedio.
• Se presenta alterado especialmente cuando existe reducción de
la resistencia glótica, parálisis de cuerdas vocales, fallas de
contacto glótico, lesiones de masas y edema difuso. (Cecconello,
2012)
• Se correlaciona con la presencia de ronquera y soplocidad.
(Behlau et al, 2004)
• Shimmer (local)
• Es el promedio de las diferencias absolutas entre la amplitud de periodos
consecutivos, dividido por la amplitud promedio. (MDVP – Shim),
• 3.810% umbral patológico.
• Shimmer (local, dB)

• Es el logaritmo de base 10 del promedio absoluto de las diferencias entre las
amplitudes de periodos consecutivos multiplicado por 20. (MDVP – ShdB),
• 0.350 dB umbral patológico
Perturbaciones a corto plazo - Shimmer
Niveles relativos de ruido
HNR (índice armónico-ruido)
Aunque un sonido se produzca por vibración de cuerdas

vocales, siempre presenta un componente de ruido en el
sonido.
En una fonación adecuada, el ruido queda enmascarado.
Razón entre la energía del ruido propio de la señal entre 1500-
4500 Hz y las componentes armónicas ubicadas entre 70-4500
Hz
La amplitud de los armónicos, múltiplos de la frecuencia
fundamental, depende de un correcto cierre de las cuerdas
vocales y supone un sonido periódico.
Niveles relativos de ruido
Ruido es toda señal que contamina la emisión vocal y que es solo
aire o energía no armónica que se puede producir por flujos
turbulentos de aire producto del cierre parcial de las cuerdas vocales
al vibrar.
Entonces, el índice armónico ruido es la relación entre la energía
armónica y la energía del ruido.
Valores bajos de este parámetro se pueden asociar a vibraciones
irregulares de las cuerdas, presencia de escape de aire, presencia de
sub-armónicos y/o quiebres en la voz. (Cecconello, 2012)
Se correlaciona con la presencia de soplocidad, aspereza y ronquera
(Sapienza 2013)
Un valor indicador de fonación adecuada es 20 dB o más.
Ante la presencia de hiatus, el valor HNR disminuye a valores
menores a 20 dB.
DIENTE DE SIERRA + RUIDO BLANCO

HNR=30 dB

HNR=20 dB

HNR=10 dB
Espectro FFT o Spectrum
• Algoritmo informático que nos permite obtener el espectro de frecuencia de
una señal tanto periódica compleja como no periódica en tiempo real.
• Representación gráfica en la que se muestra la relación de energía (amplitud) de

las diferentes componentes o armónicos de un sonido, o concentraciones de
energía en ciertos rangos de frecuencias.
• Representación de la frecuencia -eje horizontal- y la amplitud -eje vertical- de

los armónicos en un instante o intervalo de tiempo de la señal sonora del habla.
• Análisis de la intensidad y de la estructura formántica (timbre).
• No es preciso para determinar el valor de los formantes.

(Fast Fourier Transformation )
• FILTRO DE BANDA ANCHA
• Análisis espectral realizando con una ventana temporal pequeña.
• Menor cantidad de líneas espectrales para la representación del espectro.
• Se visualizan zonas de concentración de energía.
• Mala resolución para los armónicos y componentes del sonido
• FILTRO DE BANDA ESTRECHA

• Análisis espectral realizado con una ventana temporal grande.
• Mayor cantidad de líneas espectrales para la representación del espectro
• Buena resolución para los armónicos y componentes del sonido.
FFT Sonido Armónico
Forma de onda Espectro
FFT
Onda Periódica Espectro Discreto

FFT Sonido Armónico
Forma de onda Espectro
FFT
Onda no Periódica Espectro Continuo

Spectrum Voz Normal, fonema /a/, Filtro de banda ancha

software PRAAT
Spectrum Voz Normal, fonema /a/, Filtro de banda estrecha

software PRAAT
Espectro LPC
• La LPC (Lineal Predicting Coding) muestra una envolvente del espectro.
• Facilita la identificación de formantes y su estudio
• No permite ver los armónicos
• Se puede graficar de dos formas como corte LPC y como historia

formántica
Espectro LPC
Sound pressure level (dB/Hz)
60
40
20
0 2.205·104
Frequency (Hz)
Corte LPC de vocal /a/

Espectro LPC
Sound pressure level (dB/Hz)
60
40
20
0 2.205·104
Frequency (Hz)
Espectro FFT y Corte LPC de vocal /a/ juntos

Espectro LPC
Oscilograma, Espectrograma e Historial Formántica de

serie vocálica /i, e, a, o, u/
Mediciones de Espectro a Corto Plazo
H1 – H2
• Es la diferencia entre la amplitud de la fundamental (F0) y el segundo
armónico.
• Generalmente, F0 o H1 presenta mayor amplitud.
• Sirve para estimar el cociente de apertura de los pliegues vocálicos.
• Mientras mayor sea la diferencia, mayor será el cociente de abertura.
• Valores positivos voces sopladas y normales (mientras mayor el valor,
menor contacto cordal)
• Esto cambia si la voz es estridente.
Mediciones de Espectro a Largo Plazo - LTAS
• Long-term Average Spectrum es el espectro promedio de muchos

espectros obtenidos durante un cierto intervalo de tiempo, mientras el
paciente habla, lee un texto o canta una canción.
• Es especialmente útil para obtener características tanto de la fuente

(cuerdas vocales), como del filtro (tracto vocal).
• A través del LTAS es posible obtener varias variables relacionadas

con la distribución de la energía espectral de la voz, por medio de
pendientes espectrales.
• Aporta a la discriminación y caracterización de distintos tipos de
emisión vocal o mordiente y caracterización del timbre o color de la
voz.
Caracterización del espectro vocal
LTAS (Long Time Average Spectrum)
LTAS graficado con

una curva de
interpolación entre
los valores de cada
bin.
LTAS graficado en
bandas de
frecuencia (bin)
con ancho de
banda igual a 178
Hz
LTAS graficado con

una curva de
interpolación y
bins
Inclinación espectral (Spectral
Tilt)
• Línea que representa la
tendencia o inclinación del
espectro LTAS.
• En términos comparativos, la
inclinación espectral nos sirve
para comparar distintos timbres
de voz.
Inclinación espectral (Spectral Tilt)
Espectro Promedio a Largo Plazo
(LTAS)
LTAS “Voz Resonante”

(LTAS)
LTAS “Voz Opaca”

(LTAS)
LTAS Voz severamente Disfónica

Proporción alfa
• Corresponde a la diferencia entre 0.05-1KHz y 1-5 KHz,
• Diferencia que entrega información sobre la pendiente espectral.
• Está determinada por factores como la velocidad de cierre de los pliegues
vocales, cuanto más rápido es el cierre de estos, la pendiente espectral es
menor, existiendo aquí una mayor energía en los armónicos altos.
(Guzmán, 2013).
L1-L0
• Diferencia de energía espectral entre las regiones F1 y F0
específicamente la diferencia entre 300-800 Hz y 50-300Hz.
• Entrega información sobre los modos de fonación. Al igual que la
proporción alfa tiene relación con el grado de abducción o aducción de
los pliegues vocales, lo que produce diferentes grados de contacto entre
ellos, modificando la relación de la fase abierta y la fase cerrada de la
glotis. (Sundberg, 1990, 1994)
• Pendiente negativa cuando la voz es soplada, pendiente positiva cuando
la voz es resonante o estridente.
• Hay que mantener controlada la intensidad.
1K-5K – 5K-8K
• Es la relación de energía entre las banda de 1 kHz a 5kHz y la
de 5 kHz a 8 kHz.
• Medida de ruido glótico.
• Pendientes negativas.
• En voces sopladas menor pendiente (mayor ruido glótico)
• En voces apretadas mayor pendiente. (menor ruido glótico)

Análisis Acústico de La Voz

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Análisis Acústico de La Voz

Hochgeladen von

Copyright:

Verfügbare Formate

Análisis Acústico de la Voz

Claudio E. Pedemonte Solanich

• Identificar o cuantificar cambios en la estructura o características

• Identificar o cuantificar cambios en las características perceptuales

• Monitorear cambios de la voz a través del tiempo, ya sea a lo largo

• Software y Hardware • Se requiere un

• Para la grabación de vocales sostenidas la distancia al micrófono

• Para posiciones cercanas del micrófono, este debiera tener una

• El tiempo de reverberación, ruido de fondo, superficies reflectantes y

• Se deben ajustar las ganancias del sistema de forma tal de evitar

• La cadena electroacústica a utilizar debe proporcionar una adecuada

• Puede descargarse gratuitamente para varios sistemas operativos desde la

• SEÑALES TIPO 1: voz con vibraciones casi periódicas.

• SEÑALES TIPO 2: voces Patológicas con subarmónicos y

• SEÑALES TIPO 3: voces caóticas o random.

• Espectrogramas – señales tipo 1, 2 y 3

• Frecuencia Fundamental – señales tipo 1

• Intensidad – señales tipo 1, 2 y 3

• Perturbaciones a corto plazo – señales tipo 1 (2)

• Niveles relativos de ruido – señales tipo 1

• Mediciones de Espectro a Corto Plazo – señales tipo 1

• Mediciones de Espectro a Largo Plazo – señales tipo 1, 2 y 3

Oscilograma Tono Puro 440 Hz, Software PRAAT

Oscilograma Voz Normal, fonema /a/, software PRAAT

Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda ancha

Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda estrecha

Oscilograma y Espectrograma Pólipos, fonema /a/, Filtro de banda estrecha

Oscilograma y Espectrograma de secuencia vocálica /i, e, a, o, u/

• Mide la perturbación o variación del periodo de la

• Jitter (local, absolute)

• Para entender bien el concepto utilizaremos un tono puro.

• Mide la perturbación o variación de la amplitud entre ciclo y ciclo

• Shimmer (local, dB)

Aunque un sonido se produzca por vibración de cuerdas

DIENTE DE SIERRA + RUIDO BLANCO

DIENTE DE SIERRA + RUIDO BLANCO

DIENTE DE SIERRA + RUIDO BLANCO

• Representación gráfica en la que se muestra la relación de energía (amplitud) de

• Representación de la frecuencia -eje horizontal- y la amplitud -eje vertical- de

• Análisis de la intensidad y de la estructura formántica (timbre).

• No es preciso para determinar el valor de los formantes.

• FILTRO DE BANDA ESTRECHA

Onda Periódica Espectro Discreto

Onda no Periódica Espectro Continuo

Spectrum Voz Normal, fonema /a/, Filtro de banda ancha

Spectrum Voz Normal, fonema /a/, Filtro de banda estrecha

• Facilita la identificación de formantes y su estudio

• No permite ver los armónicos

• Se puede graficar de dos formas como corte LPC y como historia

Corte LPC de vocal /a/

Espectro FFT y Corte LPC de vocal /a/ juntos

Oscilograma, Espectrograma e Historial Formántica de

• Long-term Average Spectrum es el espectro promedio de muchos

• Es especialmente útil para obtener características tanto de la fuente

• A través del LTAS es posible obtener varias variables relacionadas

LTAS graficado con

LTAS graficado con

LTAS “Voz Resonante”

LTAS “Voz Opaca”

LTAS Voz severamente Disfónica

Das könnte Ihnen auch gefallen