Sie sind auf Seite 1von 5

Plan :

I. Introduction
II. Paramétrisation
a. Evaluation du signal dans le temps
b. Fenêtrage
i. Transformée de Fourier à court-terme
ii. Transformée de Fourier rapide (FFT)

III. Conclusion
Analyse de la parole :

I. Introduction :

La parole correspond à une variation de la pression de l’air causée par le système


articulatoire. La phonétique acoustique étudie ce signal en le transformant dans un premier
temps en signal électrique grâce à un transducteur approprié.

Figure 1 : Système phonétique

L’air chassé par les poumons arrive vers la trachée, traverse le larynx, puis le pharynx, et sort par la
bouche ou par le nez si l’uvule est abaissée.
 Le son émis est captée par un microphone.
 le signal est numérisé à cause d’un convertisseur analogique-numérique (CAN)

II. Paramétrisation :

Il existe dans la littérature une grande variété de technique de paramétrisation des signaux
de la parole. La paramétrisation du signal vocal s’effectue en deux temps et permet d’obtenir une «
empreinte caractéristique » du son, sur laquelle on pourra ensuite traiter la reconnaissance.

a. Evolution du signal dans le temps

Figure 2 : Evolution du signal dans le temps

L’echantillonnage transforme le signal x(t) en un signal à temps discret x(n). Pour


le signal vocal, il faut choisir une fréquence qui satisfait le théorème de Shannon,
et qui est en général 24 KHz.
Parmi les valeurs possibles pour les échantillons x(n), la quantification ne retient
qu’un nombre fini 2b de valeurs (b étant le nombre de bits de la quantification),
espacées du pas de quantification q. Le signal numérique résultant est noté x(n).
Une quantification de bonne qualité requiert en général 16 bits.

b. Fenêtrage :

Les échantillons du silence ne devraient pas être présente lors du discours, mais
en echantillant le signal construit à partir de la parole, nous trouvons qu’il y a des
échantillons qui reflètent le silence (les cercles en rouge).

Figure 3 : Echantillons du silence

D’où on procède par le fenêtrage.


Cette fonction a pour but de pondérer le signal dans le domaine temporel et le
diviser en une suite de signaux partiels. Nous obtenons donc des informations
temporelles sur chaque signal. Puis, on passe vers une analyse spectrale de
chaque trame.
Il y a beaucoup de façon à faire l’analyse spectrale. Mais on s’interesse ici à
quelques unes.

i. Transformée de Fourier à court-terme :

La transformée de Fourier à court-terme, ou La transformée de Fourier à fenêtre


glissante, est utilisée pour déterminer la fréquence sinusoïdale et la phase d'une section
locale d'un signal. Le carré de son module donne le spectrogramme.
On va s’intéresser au caractère non stationnaire d’un signal x en lui appliquant une
fonction de fenêtrage w afin de le pondérer.
Cette transformée est définie par : 𝑋(𝑛, 𝜃) = ∑𝑚 𝑥(𝑚) . 𝑤(𝑛 − 𝑚) . exp(−𝑗𝑚𝜃) avec
𝜃 = 𝑤𝑇
Figure 4 : Signal pondéré par une fonction fenêtre
(a) Signal, (b) fenêtre de durée infinie, (c) fenêtre symétrique de durée N

ii. Calcul par transformée de Fourier Rapide (TFR):

Pour autant que le signal x(m) . w(n – m) soit d’énergie finie lorsque la fenêtre w(m) est
de durée finie. Il est donc possible de reconstituer le signal par la transformation de
1 𝜋
Fourier inverse : 𝑥(𝑚) = ∫ 𝑋(𝑛, 𝜃) exp(𝑗𝑚𝜃) 𝑑𝜃 tq 𝑤(𝑛 − 𝑚) ≠ 0
2𝜋.𝑤(𝑛−𝑚) −𝜋

Le calcul de 𝑋(𝑛, 𝜃) pour n fixé peut être effectué par l’algorithme TFR. Posons :
𝑢𝑛 (𝑙) = 𝑥(𝑚). 𝑤(𝑛 − 𝑚)
2𝜋
alors : 𝑋𝑛 (𝑘) = 𝑇𝐹𝐷{𝑢𝑛 (𝑙)} = ∑𝑁−1
𝑖=0 𝑢𝑛 (𝑙). exp(−𝑗𝑙. 𝑘. ) 𝑁
2𝜋 𝑁 2𝜋
et selon (1), on aura : 𝑋𝑛 (𝑘) = 𝑋𝑛 (𝑘, 𝑘. 𝑁 ) . exp[𝑗 (𝑛 − 2 ) . 𝑘. 𝑁 ]

On obtient donc bien, à un déphasage linéaire linéaire, la transformée de Fourier court-


terme pour N valeurs équidistantes de la pulsation normalisée 𝜃.

Le signal original peut être reconstitué par une TFR inverse.

D’autre part, on sait que le carré du module de la transformée de Fourier est un


estimateur de la densité spectrale puissance.
Les propriétés de cet estimateur dépendent beaucoup du choix de la fonction fenêtre. La
longueur de la fenêtre n’était limitée que par la disponibilité d’un nombre suffisant
d’échantillons, ou simplement par le temps de calcul. Dans notre situation, il y a deux
exigences contradictoires : la 1ère est que la fenêtre doit être suffisante pour assurer une
bonne résolution, et la 2ème est que la fenêtre doit être limitée si l’on veut suivre
fidèlement l'évolution du spectre.

c. Débruitage :

C’est l’étape de la réduction du bruit, également appelée amélioration de la parole


dégradée par le bruit, vise à améliorer la qualité des signaux vocaux. Le but est de rendre
notre discours plus compréhensible. Le bruit peut être classifié en 3 genres :

 Bruit du microphone
 Bruit électrique
 Bruit environnemental

Heureusement qu’il existe plusieurs algorithmes de réduction de bruit tels que Adaptive
Wiener Filtrage sur lequel repose le Speech Enhancement.

III. Conclusion :

L’analyse de la parole passe, généralement, passe par une phase qu’on peut appeler la
phase de prétraitement et qui se compose en gros de l’échantillonnage, le fenêtrage et
finalement le débruitage.

Das könnte Ihnen auch gefallen