Sie sind auf Seite 1von 6

MODELOS DE PRODUÇÃO E PERCEPÇÃO DE FALA, 2016/2017

Ficha Prática Nº 5 – Síntese Articulatória

1 Introdução

O sintetizador articulatório que vamos utilizar nesta aula é baseado no modelo de


Maeda (1982, 1989) e foi desenvolvido por Mark Huckvale (2008). O sistema será
utilizado para estudarmos quais as consequências de determinadas alterações na
configuração trato vocal e das características da fonte no sinal acústico produzido
pelo modelo.

O modelo do trato vocal converte um conjunto de 7 parâmetros (JW, TP, TS, TA,
LA, LP e LH), descritos na Tabela 1 e ilustrados na Figura 1, numa função de área,
que depois serve de base para o cálculo da função de transferência dum sistema
que filtra um sinal periódico gerado por um modelo da fonte glotal.

Valor Valor Comentários


Parâmetro Descrição
Mínimo Máximo
Altura da
JW -3 3
mandíbula
Posição do dorso
TP -3 3
da língua
Forma do dorso da
TS -3 3
língua
Altura do ápice da
TA -3 3
língua
Área da abertura
LA -3 3
dos lábios
LP Protusão dos lábios -3 3
LH Altura da laringe -3 3
Glote aberta: -3
Sons não vozeados:
GA Área da glote -3 3 -2.5 a -1.5
Sons vozeados (voz
normal): -1 a 2
Homem: 89 Hz a 191 Hz
Frequência
FX -3 3 Mulher: 161 Hz a 299 Hz
fundamental
Criança: 199 Hz a 361 Hz
Passagem velo-
NS 0 3
faríngea
Tabela 1 Parâmetros de controlo do sintetizador VTDemo. Adaptado de Huckvale,
M. (2008). “VTDemo – Vocal Tract Acoustics Demonstrator”. Disponível em
http://www.phon.ucl.ac.uk/resource/vtdemo/

1
MODELOS DE PRODUÇÃO E PERCEPÇÃO DE FALA, 2016/2017

Ficha Prática Nº 5 – Síntese Articulatória

TS LP
LA
TP JW
TA

LH

Figura 1 Parâmetros de controlo e interface gráfica do sintetizador VTDemo.


Os valores dos parâmetros de controlo são definidos num ficheiro de texto
identificado na primeira linha com o nome VTPARS2, uma segunda linha com a
designação #dynamics=1, e com as linhas seguintes formatadas de acordo com a
Tabela 2. Cada parâmetro articulatório é definido dentro da gama de -3 a 3 para
um determinado segmento. A interpolação de valores entre segmentos é feita de
uma forma automática. A primeira linha define os valores iniciais correspondentes
à articulação duma vogal neutra. A última linha define o valor alvo para a última
interpolação e deve ter uma duração igual a zero. Os quatro segmentos intermédios
permitem definir valores diferentes durante a produção duma vogal. A configuração
do trato vocal (e mesmo a frequência fundamental) varia duma forma gradual ao
longo da vogal.

Duração (ms) JW TP TS TA LA LP LH GA FX NS
200 0.0 0.0 0.0 0.0 0.0 0.0 0.0 -3.0 0.0 0.0
10 0.5 -2.0 1.0 -2.0 1.0 -1.0 0.0 -3.0 0.0 0.0
800 0.5 -2.0 1.0 -2.0 1.0 -1.0 0.0 2.0 0.0 0.0
1 0.5 -2.0 1.0 -2.0 1.0 -1.0 0.0 0.0 -2.0 0.0
200 0.5 -2.0 1.0 -2.0 1.0 -1.0 0.0 -3.0 -2.0 0.0
0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 -3.0 -2.0 0.0
Tabela 2 Ficheiro de parâmetros do sintetizador VTDemo para a vogal [].
A variação dos parâmetros (listados na Tabela 2) ao longo do tempo encontra-se
ilustrada na Figura 2. Podemos observar os seguintes padrões de variação:
 A altura da mandíbula (JW) aumenta ligeiramente dum valor apropriado à
produção duma “vogal neutra” (JW=0).
 A posição do dorso da língua (TP) decresce significativamente dum valor
apropriado à produção duma “vogal neutra” (TP=0).

2
MODELOS DE PRODUÇÃO E PERCEPÇÃO DE FALA, 2016/2017

Ficha Prática Nº 5 – Síntese Articulatória

 Forma do dorso da língua (TS) é alterada durante a produção da vogal []


relativamente à configuração adequada à produção duma “vogal neutra”
(TS=0).
 A altura do ápice da língua (TA) decresce durante a produção da vogal []
relativamente à configuração adequada à produção duma “vogal neutra”
(TA=0).
 A área da abertura dos lábios (LA) aumenta durante a produção da vogal []
relativamente à configuração adequada à produção duma “vogal neutra”
(LA=0).
 A protusão dos lábios (LP) diminui durante a produção da vogal []
relativamente à configuração adequada à produção duma “vogal neutra”
(LP=0).
 Durante a produção da vogal [] a área da glote (GA) apresenta valores
apropriados à produção dum registo modal (GA entre -3 e 2).

Figura 2 Variação ao longo do tempo dos parâmetros de síntese para a vogal [].

2 Síntese de Vogais

2.1 Inicie o programa VTDemo.

2.2 A que vogal corresponde a configuração do trato vocal representada na janela


de visualização principal?

Confirme a sua resposta procedendo à síntese articulatória. Para ouvir os


resultados da síntese selecione no menu Synthesis a opção Play

Guarde o resultado num ficheiro de áudio com o comando File  Save Audio As

Visualize o espectro do sinal sintetizado nos programas Praat ou SFS (Tools 


Speech  Display  Cross-section)

3
MODELOS DE PRODUÇÃO E PERCEPÇÃO DE FALA, 2016/2017

Ficha Prática Nº 5 – Síntese Articulatória

Qual é o valor das primeiras três formantes?

Verifique se estes valores resultam da utilização dum tubo acústico de área


constante e comprimento igual a 17 cm. Efetue os cálculos com base nas
aproximações que utilizamos nas aulas teórico-práticas para um ressoador
dum quarto de onda e c = 35000 cm/s

2.3 Leia o ficheiro de parâmetros vogal_i.vtd

O programa VTDemo mostra uma animação da variação da configuração do


trato vocal ao longo do tempo e reproduz o sinal de áudio gerado.

Quando quiser voltar a ouvir uma reprodução do sinal de áudio gerado e da


animação basta selecionar no menu Synthesis a opção Play

Os parâmetros de síntese apresentados na tabela no canto superior


esquerdo do ecrã estão de acordo com a discussão na Secção 1?

Como pode observar no menu Synthesis, o modelo utilizado por defeito baseia-se
num trato vocal masculino.

Selecione o trato vocal duma criança.

O que é que se alterou em termos acústicos?

Porque razão os parâmetros JW, TP, TS, TA, LA, LP e LH, não
necessitaram de ser alterados?

2.4 Sintetize a vogal [] quando produzida por uma mulher (utilize o ficheiro de
parâmetros vogal_u.vtd), selecionando a opção apropriadas no menu Synth.

Observe na Figura 3 a variação, ao longo do tempo, dos parâmetros de síntese


para a vogal []. Descreva, nos mesmos moldes da exposição feita na Introdução
desta ficha de trabalho, os diferentes padrões de variação de JW, TP, TS, TA, LA,
LP, LH e GA.

4
MODELOS DE PRODUÇÃO E PERCEPÇÃO DE FALA, 2016/2017

Ficha Prática Nº 5 – Síntese Articulatória

Figura 3 Variação ao longo do tempo dos parâmetros de síntese para a vogal [].

3 Síntese de Vogais do Português Europeu

Considere a configuração do trato vogal apresentada na Figura 4.

Figura 4 Configuração do trato vogal durante a produção da vogal [].


De Martins et al. (2008).

Inicie o programa VTDemo.

5
MODELOS DE PRODUÇÃO E PERCEPÇÃO DE FALA, 2016/2017

Ficha Prática Nº 5 – Síntese Articulatória

Com base na configuração relativa a um “vogal neutra”, ajuste os parâmetros JW,


TP, TS, TA, LA, LP e LH de modo a obter um modelo apropriada à síntese de [].

Os parâmetros de síntese podem ser ajustados na janela designada por Vocal Tract
Controls

Guarde o valor final dos seus parâmetros (File  Save As).

Utilize os seus valores para criar um ficheiro de síntese com base na estrutura
apresentada na Tabela 2. Sintetize a vogal [] a partir do ficheiro que criou.

Bibliografia

Maeda, S. (1982). A digital simulation method of the vocal-tract system, Speech


Communication, 1, 199-229.

Maeda, S. (1989). Compensatory Articulation during Speech: Evidence from the


Analysis and Synthesis of Vocal-Tract Shapes using an Articulatory Model. In
Speech Production and Modelling, 131-149. W.J.Hardcastle & A. Marchal (Eds.),
Academic Publishers, Kluwer.

Martins, P., Carbone, I., Pinto, A., Silva, A., & Teixeira, A. (2008). European
Portuguese MRI based speech production studies. Speech Communication, 50, 925-
952.

Das könnte Ihnen auch gefallen