Sie sind auf Seite 1von 5

Introduction au

Traitement Automatique
de la Parole
INTRODUCTION :
Le traitement de la parole est aujourdhui une composante fondamentale des
sciences de lingnieur. Situe au croisement du traitement du signal numrique
et du traitement du langage (cest--dire du traitement de donnes
symboliques), cette discipline scientifique a connu depuis les annes 60 une
expansion fulgurante, lie au dveloppement des moyens et des techniques de
tlcommunications.
Limportance particulire du traitement de la parole dans ce cadre plus gnral
sexplique par la position privilgie de la parole comme vecteur dinformation
dans notre socit humaine.
Lextraordinaire singularit de cette science, qui la diffrencie fondamentalement
des autres composantes du traitement de linformation, tient sans aucun doute
au rle fascinant que joue le cerveau humain la fois dans la production et dans
la comprhension de la parole et ltendue des fonctions quil met,
inconsciemment, en uvre pour y parvenir de faon pratiquement instantane.
Pour mieux comprendre cette particularit, penchons-nous un instant sur
dautres vecteurs dinformation. Limage, par exemple, nexiste que dans la
mesure o elle est appele tre perue par l'il, et, bien au-del, interprte
par le cerveau. Les techniques de traitement de limage pourront en tirer parti en
prenant en compte, dune part, les caractristiques physiques de l'il et, dautre
part, les proprits perceptuelles que lui confre le cortex visuel. Un exemple
bien connu de ce type dinfluence du rcepteur sur le mode de traitement des
signaux associs nous est fourni par limage vido, dont les 24 images/seconde
dcoulent directement du phnomne de persistance rtinienne. A linverse, un
signal dorigine biologique tel que llectro-myogramme, qui mesure ltat
dactivit dun muscle, nexiste que dans la mesure o il est produit par ce
muscle, sous le contrle troit du cortex moteur. Une bonne connaissance du
muscle sera par consquent un pr-requis indispensable au traitement
automatique de llectro-myogramme correspondant.

Quest-ce que la parole ?

Linformation porte par le signal de parole peut tre analyse de bien des
faons. On en distingue gnralement plusieurs niveaux de description non
exclusifs : acoustique, phontique, phonologique, morphologique, syntaxique,
smantique, et pragmatique.

Le niveau acoustique :
La parole apparat physiquement comme une variation de la pression de lair
cause et mise par le systme articulatoire. La phontique acoustique3
tudie
ce signal en le transformant dans un premier temps en signal lectrique grce au
transducteur appropri : le microphone (lui-mme associ un
pramplificateur).
De nos jours, le signal lectrique rsultant est le plus souvent numris. Il peut
alors tre soumis un ensemble de traitements statistiques qui visent en
mettre en vidence les traits acoustiques : sa frquence fondamentale, son
nergie, et son spectre. Chaque trait acoustique est lui-mme intimement li
une grandeur perceptuelle : pitch, intensit, et timbre.
Lopration de numrisation, schmatise la figure 1.1, requiert
successivement : un filtrage de garde, un chantillonnage, et une
quantification.

LAudiogramme :
Lchantillonnage transforme le signal temps continu x(t) en signal temps
discret x(nTe) dfini aux instants dchantillonnage, multiples entiers de la
priode dchantillonnage Te; celle-ci est elle-mme linverse de la frquence
dchantillonnage fe. Pour ce qui concerne le signal vocal, le choix de fe rsulte
dun compromis. Son spectre peut stendre jusque 12 kHz. Il faut donc en
principe choisir une frquence fe gale 24 kHz au moins pour satisfaire
raisonnablement au thorme de Shannon4. Cependant, le cot dun traitement
numrique, filtrage, transmission, ou simplement enregistrement peut tre rduit
dune faon notable si lon accepte une limitation du spectre par un filtrage
pralable. Cest le rle du filtre de garde, dont la frquence de coupure fc est

choisie en fonction de la frquence dchantillonnage retenue. Pour la tlphonie,


on estime que le signal garde une qualit suffisante lorsque son spectre est limit
3400 Hz et lon choisit fe = 8000 Hz. Pour les techniques danalyse, de
synthse ou de reconnaissance de la parole, la frquence peut varier de 6000
16000 Hz. Par contre pour le signal audio (parole et musique), on exige une
bonne reprsentation du signal jusque 20 kHz et lon utilise des frquences
dchantillonnage de 44.1 ou 48 kHz. Pour les applications multimdia, les
frquences sous-multiples de 44.1 kHz sont de plus en plus utilises : 22.5 kHz,
11.25 kHz. Parmi le continuum des valeurs possibles pour les chantillons x(nTe),
la quantification ne retient quun nombre fini 2b de valeurs (b tant le nombre de
bits de la quantification), espaces du pas de quantification q. Le signal
numrique rsultant est not x(n). La quantification produit une erreur de
quantification qui normalement se comporte comme un bruit blanc ; le pas de
quantification est donc impos par le rapport signal bruit garantir. Si le pas de
quantification est constant, ce rapport est fonction de lamplitude du signal ; les
signaux de faible amplitude sont ds lors mal reprsents. Aussi adopte-t-on
pour la transmission tlphonique une loi de quantification logarithmique et
chaque chantillon est reprsent sur 8 bits (256 valeurs). Par contre, la
quantification du signal musical exige en principe une quantification linaire sur
16 bits (65536 valeurs). Une caractristique essentielle qui rsulte du mode de
reprsentation est le dbit binaire, exprim en bits par seconde (b/s), ncessaire
pour une transmission ou un enregistrement du signal vocal. La transmission
tlphonique classique exige un dbit de 8 kHz x 8 bits = 64 kb/s; la
transmission ou lenregistrement dun signal audio exige en principe un dbit de
lordre de 48 kHz x 16 bits = 768 kb/s ( multiplier par deux pour un signal
strophonique).

Spectrogramme :

Il est souvent intressant de reprsenter lvolution temporelle du spectre


court terme dun signal, sous la forme dun spectrogramme. Lamplitude du
spectre y apparat sous la forme de niveaux de gris dans un diagramme en deux
dimensions temps-frquence. On parle de spectrogramme large bande ou
bande troite selon la dure de la fentre de pondration (Fig. 1.10). Les
spectrogrammes bande large sont obtenus avec des fentres de pondration
de faible dure (typiquement 10 ms); ils mettent en vidence lenveloppe
spectrale du signal, et permettent par consquent de visualiser lvolution
temporelle des formants. Les priodes voises y apparaissent sous la forme de
bandes verticales plus sombres. Les spectrogrammes bande troite sont moins
utiliss. Ils mettent plutt la structure fine du spectre en vidence : les
harmoniques du signal dans les zones voises y apparaissent sous la forme de
bandes horizontales.

Frquence fondamentale
Une analyse dun signal de parole nest pas complte tant quon na pas mesur
lvolution temporelle de la frquence fondamentale 6 ou pitch.
La figure 1.8 donne l volution temporelle de la frquence fondamentale de la
phrase "les techniques de traitement de la parole". On constate qu lintrieur
des zones voises la frquence fondamentale volue lentement dans le temps.
Elle stend approximativement de 70 250 Hz chez les hommes, de 150 400
Hz chez les femmes, et de 200 600 Hz chez les enfants.

Exemple de Codage de la parole :


La figure ci-dessous donne le schma de principe dun codeur LPC, tel quil peut
tre utilis pour les transmissions de voix par satellite (ex : voix dun journaliste
en mission dans un pays lointain) ou plus communment dans un GSM. La signal
vocal mesur par le micro est dcoup en trames, analys par lalgorithme de
Schur et par un algorithme danalyse de la frquence des cordes vocales. Les
paramtres qui en rsultent sont quantifis, c.--d. quils sont cods sur un
ensemble fini de nombres entiers (ce qui permet dassocier chaque paramtre
un nombre fini de bits par trame).
En dautres termes, lors dun appel par GSM, le GSM metteur (qui nest rien
dautre quun ordinateur de poche spcialis dans lanalyse, le codage, le
dcodage, et la synthse LPC) enregistre la parole transmettre, en ralise
toutes les 10 ms une analyse LPC (par laquelle il trouve les coefficients de
prdiction qui collent le mieux au conduit vocal de lappelant, pour la tranche
de parole considre), et transmet ces coefficients (et non la voix originale de
lappelant). Le GSM rcepteur reoit quant lui les paramtres du conduit vocal
de lappelant, produit un signal de synthse simulant ce conduit vocal, et le fait
entendre au correspondant, qui croit entendre lappelant. Il sagit pourtant bien
de parole de synthse, au mme titre quon pourrait imaginer une camra
inspectant lappelant et ne transmettant dun modle 3D de don visage, lequel
serait reproduit en image de synthse cot rcepteur.

Conclusion :
Depuis une dcennie, les techniques de traitement de la parole ont connu
plusieurs grandes rvolutions.
La premire, et celle qui touche pour linstant de loin le plus dutilisateurs, est
celle de la tlphonie mobile : une proportion grandissante de la population
transporte avec elle un ordinateur de poche spcialis dans lanalyse-synthse
LPC. Les algorithmes de codage sont par ailleurs galement utiliss dans les
botes vocales : nos paroles y sont stockes sous la forme de suites de vecteurs
de paramtres LPC. Le march du codage de la parole est donc prsent
largement ouvert, ce qui nest pas le cas en reconnaissance ou en synthse.
La seconde rvolution est celle des grandes bases de donnes de parole et de
textes. Depuis 1995, sous lgide de LDC (Language Data Consortium) aux
EtatsUnis et de lELRA (European Language Resource Agency) en Europe, de
nombreux laboratoires de recherche (publics et privs) mettent en commun leurs
ressources. Il en rsulte un foisonnement de donnes propices ltablissement
de modles, tant numriques que symboliques, de la parole. Les dveloppements
rcents reconnaissance, et plus encore en synthse, en sont en grande partie la
consquence logique.
Une troisime rvolution, lie la prcdente, est celle des outils dingnierie
pure (HMMs, ANNs, Synthse par slection dunits dans une grande base de
donnes), qui tend supplanter de plus en plus lexpertise humaine
(reconnaissance analytique, synthse par rgles), laquelle intervient plutt au
second plan, en permettant daffiner les rsultats.
Enfin, une dernire rvolution se prpare : celle qui verra natre des machines
dont plus personne ne pourra affirmer avec certitude quelles en sont.
Aujourdhui dj, la qualit des algorithmes de synthse vocale permet aux
synthtiseurs de passer avec succs le fameux test de Turing , invent par le
mathmaticien anglais Alan Turing dans les annes 40 pour mesurer le degr
d intelligence dune machine : en vrifiant combien de temps un
exprimentateur interagissant en aveugle avec cette machine peut rester
persuad davoir affaire un tre humain. Les reconnaisseurs sont eux-mmes

Das könnte Ihnen auch gefallen