Beruflich Dokumente
Kultur Dokumente
Traitement Automatique
de la Parole
INTRODUCTION :
Le traitement de la parole est aujourdhui une composante fondamentale des
sciences de lingnieur. Situe au croisement du traitement du signal numrique
et du traitement du langage (cest--dire du traitement de donnes
symboliques), cette discipline scientifique a connu depuis les annes 60 une
expansion fulgurante, lie au dveloppement des moyens et des techniques de
tlcommunications.
Limportance particulire du traitement de la parole dans ce cadre plus gnral
sexplique par la position privilgie de la parole comme vecteur dinformation
dans notre socit humaine.
Lextraordinaire singularit de cette science, qui la diffrencie fondamentalement
des autres composantes du traitement de linformation, tient sans aucun doute
au rle fascinant que joue le cerveau humain la fois dans la production et dans
la comprhension de la parole et ltendue des fonctions quil met,
inconsciemment, en uvre pour y parvenir de faon pratiquement instantane.
Pour mieux comprendre cette particularit, penchons-nous un instant sur
dautres vecteurs dinformation. Limage, par exemple, nexiste que dans la
mesure o elle est appele tre perue par l'il, et, bien au-del, interprte
par le cerveau. Les techniques de traitement de limage pourront en tirer parti en
prenant en compte, dune part, les caractristiques physiques de l'il et, dautre
part, les proprits perceptuelles que lui confre le cortex visuel. Un exemple
bien connu de ce type dinfluence du rcepteur sur le mode de traitement des
signaux associs nous est fourni par limage vido, dont les 24 images/seconde
dcoulent directement du phnomne de persistance rtinienne. A linverse, un
signal dorigine biologique tel que llectro-myogramme, qui mesure ltat
dactivit dun muscle, nexiste que dans la mesure o il est produit par ce
muscle, sous le contrle troit du cortex moteur. Une bonne connaissance du
muscle sera par consquent un pr-requis indispensable au traitement
automatique de llectro-myogramme correspondant.
Linformation porte par le signal de parole peut tre analyse de bien des
faons. On en distingue gnralement plusieurs niveaux de description non
exclusifs : acoustique, phontique, phonologique, morphologique, syntaxique,
smantique, et pragmatique.
Le niveau acoustique :
La parole apparat physiquement comme une variation de la pression de lair
cause et mise par le systme articulatoire. La phontique acoustique3
tudie
ce signal en le transformant dans un premier temps en signal lectrique grce au
transducteur appropri : le microphone (lui-mme associ un
pramplificateur).
De nos jours, le signal lectrique rsultant est le plus souvent numris. Il peut
alors tre soumis un ensemble de traitements statistiques qui visent en
mettre en vidence les traits acoustiques : sa frquence fondamentale, son
nergie, et son spectre. Chaque trait acoustique est lui-mme intimement li
une grandeur perceptuelle : pitch, intensit, et timbre.
Lopration de numrisation, schmatise la figure 1.1, requiert
successivement : un filtrage de garde, un chantillonnage, et une
quantification.
LAudiogramme :
Lchantillonnage transforme le signal temps continu x(t) en signal temps
discret x(nTe) dfini aux instants dchantillonnage, multiples entiers de la
priode dchantillonnage Te; celle-ci est elle-mme linverse de la frquence
dchantillonnage fe. Pour ce qui concerne le signal vocal, le choix de fe rsulte
dun compromis. Son spectre peut stendre jusque 12 kHz. Il faut donc en
principe choisir une frquence fe gale 24 kHz au moins pour satisfaire
raisonnablement au thorme de Shannon4. Cependant, le cot dun traitement
numrique, filtrage, transmission, ou simplement enregistrement peut tre rduit
dune faon notable si lon accepte une limitation du spectre par un filtrage
pralable. Cest le rle du filtre de garde, dont la frquence de coupure fc est
Spectrogramme :
Frquence fondamentale
Une analyse dun signal de parole nest pas complte tant quon na pas mesur
lvolution temporelle de la frquence fondamentale 6 ou pitch.
La figure 1.8 donne l volution temporelle de la frquence fondamentale de la
phrase "les techniques de traitement de la parole". On constate qu lintrieur
des zones voises la frquence fondamentale volue lentement dans le temps.
Elle stend approximativement de 70 250 Hz chez les hommes, de 150 400
Hz chez les femmes, et de 200 600 Hz chez les enfants.
Conclusion :
Depuis une dcennie, les techniques de traitement de la parole ont connu
plusieurs grandes rvolutions.
La premire, et celle qui touche pour linstant de loin le plus dutilisateurs, est
celle de la tlphonie mobile : une proportion grandissante de la population
transporte avec elle un ordinateur de poche spcialis dans lanalyse-synthse
LPC. Les algorithmes de codage sont par ailleurs galement utiliss dans les
botes vocales : nos paroles y sont stockes sous la forme de suites de vecteurs
de paramtres LPC. Le march du codage de la parole est donc prsent
largement ouvert, ce qui nest pas le cas en reconnaissance ou en synthse.
La seconde rvolution est celle des grandes bases de donnes de parole et de
textes. Depuis 1995, sous lgide de LDC (Language Data Consortium) aux
EtatsUnis et de lELRA (European Language Resource Agency) en Europe, de
nombreux laboratoires de recherche (publics et privs) mettent en commun leurs
ressources. Il en rsulte un foisonnement de donnes propices ltablissement
de modles, tant numriques que symboliques, de la parole. Les dveloppements
rcents reconnaissance, et plus encore en synthse, en sont en grande partie la
consquence logique.
Une troisime rvolution, lie la prcdente, est celle des outils dingnierie
pure (HMMs, ANNs, Synthse par slection dunits dans une grande base de
donnes), qui tend supplanter de plus en plus lexpertise humaine
(reconnaissance analytique, synthse par rgles), laquelle intervient plutt au
second plan, en permettant daffiner les rsultats.
Enfin, une dernire rvolution se prpare : celle qui verra natre des machines
dont plus personne ne pourra affirmer avec certitude quelles en sont.
Aujourdhui dj, la qualit des algorithmes de synthse vocale permet aux
synthtiseurs de passer avec succs le fameux test de Turing , invent par le
mathmaticien anglais Alan Turing dans les annes 40 pour mesurer le degr
d intelligence dune machine : en vrifiant combien de temps un
exprimentateur interagissant en aveugle avec cette machine peut rester
persuad davoir affaire un tre humain. Les reconnaisseurs sont eux-mmes