Rapport 58

CONSERVATOIRE NATIONAL DES ARTS ET METIERS
Centre Régional Languedoc-Roussillon
EXAMEN PROBATOIRE
Spécialité : INFORMATIQUE
APPR OC HE D E
LA RECONNAISSANCE AUT OM ATIQUE
DE LA PAROLE
Par : Julien ALLEGRE
Soutenu le : 07 avril 2003

Jury :
Président : M. Jean RANCHIN
Membres : M. Marc NANARD
Approche de la reconnaissance automatique de la parole
Rapport cycle probatoire, CNAM, Année 2003
SOMMAIRE
Introduction …………………………………………… p. 4
1. Définition …………………………………………… p. 5
2. Historique ………………………………………… p. 6
2.1. La naissance …………………………………… p. 6
2.2. Les premiers mots ……………………………. .. p. 6
2.3. L’avancée des années 70 ………………………. p. 7
2.4. La reconnaissance du langage ………………… p. 8
2.5. Dates clés ………………………………………… p. 8
3. Principe de fonctionnement ………………….. p. 10

3.1. Problématique ….………………………….……. p. 10
3.2. Fonctionnement ………………………………… p. 11
3.2.1. Par comparaison à des exemples …………….. p. 12
3.2.2. Par modélisation d’unités de parole ………….. p. 13
4. Applications …………………………………….. p. 16
4.1. Services vocaux ……………………………….… p. 16
4.2. Contrôle de qualité, saisie des données ……... p. 16
4.3. Avionique ………………………………………… p. 17
4.4. Formation ………………………………………… p. 18
4.5. Aide aux handicapés …………………………… p. 18
4.6. Dictée vocale ……………………………………. p. 19
4.7. Et aussi … ……………………………………….. p. 20
5. Conclusion ………………………………………. p. 21
Annexes …………………………………………….. p. 22
A – Glossaire …………………………………………. p. 22
B – Bibliographie et références Internet …………… p. 23
Page 3
INT RODUCT IO N
La reconnaissance automatique de la parole est un domaine de la

science ayant toujours eu un grand attrait auprès des chercheurs comme
auprès du grand public. En effet, qui n’a jamais rêvé de pouvoir parler avec
une machine ou, du moins, piloter un appareil ou un ordinateur par la voix.
Ne plus avoir à se lever pour allumer ou éteindre tel ou tel appareil
électrique, ne plus avoir à taper pendant des heures sur un clavier pour
rédiger un rapport(par exemple). L’homme étant par nature paresseux, une
telle technologie a toujours suscité chez lui une part d’envie et d’intérêt, ce
que peu d’autres technologies ont réussi à faire.
Le secteur de la reconnaissance automatique de la parole est en

pleine croissance et nous verrons dans ce document que la technologie
actuelle est très aboutie, pouvant commencer à répondre aux attentes de
l’homme. Bien que des progrès soient encore à faire sur les systèmes
complexes de reconnaissance, il est à noter que la reconnaissance de
petits vocabulaires est quasiment parfaite, ce qui suffit largement pour des
outils de traitements vocaux du quotidien. Sans compter le coût de ces
systèmes qui a considérablement chuté ces dernières années mais aussi le
gain qu’ils peuvent apporter à un particulier et surtout à une entreprise.
Dans un premier temps j’expliquerai ce que l’on entend par

reconnaissance automatique de la parole afin de mieux appréhender le
sujet. Puis, je montrerai l’évolution de la discipline depuis ses débuts
jusqu’à nos jours. Suivra ensuite un chapitre abordant les différentes
méthodes utilisées pour reconnaître la parole. Enfin les différents types
d’applications basées sur cette technologie.
Page 4
1. DEFINIT IO N
La reconnaissance automatique de la parole est l’un des deux
domaines du traitement automatique de la parole, l’autre étant la synthèse
vocale. La reconnaissance automatique de la parole permet à la machine
de comprendre et de traiter des informations fournies oralement par un
utilisateur humain. Elle consiste à employer des techniques d'appariement
afin de comparer une onde sonore à un ensemble d'échantillons, composés
généralement de mots mais aussi, plus récemment, de phonèmes (unité
sonore minimale : voir plus loin). En revanche, le système de synthèse de
la parole permet de reproduire d’une manière sonore un texte qui lui est
soumis, comme un humain le ferait.
Ces deux domaines et notamment la reconnaissance vocale, font

appel aux connaissances de plusieurs sciences : l'anatomie (les fonctions
de l'appareil phonatoire et de l'oreille), les signaux émis par la parole, la
phonétique, le traitement du signal, la linguistique, l'informatique,
l'intelligence artificielle et les statistiques.
Il faut bien distinguer ces deux mondes : un système de synthèse

vocale peut très bien fonctionner sans qu’un module de reconnaissance n’y
soit rattaché. Evidemment le contraire est également tout à fait possible. Par
contre, dans certains domaines bien précis, l’un ne va pas sans l’autre. Il est
bien entendu que l’étude se portant sur la reconnaissance automatique de
la parole, l’autre aspect du traitement de la parole ne sera pas traité dans ce
rapport.
Le traitement automatique de la parole ouvre des perspectives

nouvelles compte tenu de la différence considérable existant entre la
commande manuelle et vocale. L'utilisation du langage naturel dans le
dialogue personne/machine met la technologie à la portée de tous et
entraîne sa vulgarisation, en réduisant les contraintes de l'usage des
claviers, souris et codes de commandes à maîtriser. En simplifiant le
protocole de dialogue personne/machine, le traitement automatique de la
parole vise donc aussi un gain de productivité puisque c'est la machine qui
s'adapte à l'homme pour communiquer, et non l'inverse. De plus, il rend
possible l'utilisation simultanée des yeux ou des mains à une autre tâche. Il
permet d'humaniser les systèmes informatiques de gestion de l'information,
en axant leur conception sur les utilisateurs.
A la base, les logiciels de reconnaissance vocale servent surtout à

entrer du texte en masse tout en se passant du clavier (qui offre un débit de
50 mots par minute contre plus de 150 pour la parole), le clavier reste
cependant encore nécessaire aux corrections de texte et à l'utilisation de
l'ordinateur.
Page 5
2. HIST ORIQ UE
Ce chapitre va montrer l’évolution de la reconnaissance automatique
de la parole depuis ses débuts jusqu’à nos jours.
2.1. La naissance
Les premières tentatives de création d’une machine capable de

comprendre le discours humain eurent lieu aux USA à la fin des années 40,
au sein du Ministère de la Défense américain. Le but était de traduire et
d’interpréter des messages russes interceptés.
Ces premières expériences s’appuyaient sur une approche
descendante, c’est-à-dire fournissant une recherche mot à mot. Pendant
ces premières années de vie de la reconnaissance vocale, il a fallu
énormément de temps et de ressources informatiques pour enregistrer et
emmagasiner la représentation de chaque mot dans chaque langue. Malgré
tous les efforts fournis, les résultats sont médiocres et peu fiables, mais
laissaient la porte ouverte à de nombreuses recherches.
2.2. Les premiers mots
Vers 1950 apparaît le premier système de reconnaissance de chiffres,

appareil entièrement câblé et très imparfait.
En 1951, S.P. Smith présente un détecteur de phonèmes ; une année
après, K.H. Davis, R Biddulph et S.Baleshek annoncent la première
machine à aborder la reconnaissance de manière globale : les dix chiffres
«zero» à «nine» sont reconnus analogiquement avec un bon taux de
réussite pour une seule voix.
Puis en 1960, P.B. Denes et M.V. Matthews, pour reconnaître les dix
premiers chiffres, comparent globalement les représentations temps
fréquence, numérisées et normalisées en durée totale : le taux d'erreur est
nul pour un seul locuteur et s’élève à 6% pour cinq locuteurs ayant participé
à un apprentissage. H.F. Olson et H.Belar envisagent, en 1961, la
reconnaissance d'unités phonétiques autres que les phonèmes : leurs
unités sont des «syllabes phonétiques» que le locuteur doit articuler
séparément ou, du moins, avec une chute importante du niveau sonore en
guise de séparation ; il s'agit donc presque d'une reconnaissance par mots,
étant entendu que ces «mots» sont courts et que leur répertoire est limité :
2000 syllabes suffisent à couvrir 98% des besoins de la langue anglaise.
J.Dreyfus-Graf met au point en 1961 son «phonétographe»,
appareillage analogique composé de vingt filtres passe-bande et de circuits
identificateurs de phonèmes. Le phonétographe utilise des «compresseurs
sélectifs» qui augmentent l'émergence de certains sons. Obtenu en temps
réel, le résultat est spectaculaire ; cependant l'appareil ne fonctionne
Page 6
qu'avec un seul locuteur qui doit adapter sa diction à la machine : hauteur,

intensité, rythmes très faibles.
Après avoir constaté que l'identification des phonèmes dans le signal
de parole est un problème beaucoup plus compliqué qu'ils ne l’imaginent,
les chercheurs se tournent, entre 1965 et 1970, d'une part vers la
reconnaissance par mots isolés en vue d'applications pratiques comme la
commande vocale, d'autre part vers l'utilisation d'informations de niveau
linguistique supérieur avec lexique et syntaxe, pour compléter le message
vocal reconnu au niveau phonétique. Cette seconde approche prend le
nom, quelque peu abusif, de «compréhension automatique de la parole».
2.3. L’avancée des années 70

Les années 70 sont une période charnière. D'abord, elle voit la
première réalisation commerciale en reconnaissance vocale : «le Voice
Command system» de J.J.W. Glenn et M.H. Hitchcok, appareil autonome
qui reconnaît de manière fiable 24 mots isolés après cinq cycles
d'apprentissage par le même locuteur. L'analyse du message est effectuée
par un banc de seize filtres ; chaque mot est représenté par huit
événements prélevés aux instants de plus grande variation interne du
message. Cette normalisation temporelle, ainsi que les traitements
d'apprentissage et de reconnaissance, sont confiés à un mini calculateur
incorporé.
Aux Etats-Unis, l'importance des recherches sur la parole a beaucoup

varié au cours des dernières années. A l'effort de recherche
particulièrement intensif correspondant au projet SUR (Speech
Understanding Research, Recherche sur la compréhension de la parole) de
l'Arpa (Advanced Research Projects Agency ou Agence de projets de
recherche avancés), succède maintenant un effort plus mesuré.
En ex-URSS, les recherches dans ce domaine ont commencé très tôt

et restent à l'heure actuelle très actives. Mais à la différence des équipes
américaines qui ont développé rapidement d'énormes systèmes de
compréhension de la parole, les équipes soviétiques n'ont que très
récemment abordé l'étude des niveaux syntaxique et sémantique ; elles
sont à l'origine de l'utilisation de la technique de «programmation
dynamique» dont l'emploi s'est maintenant partout généralisé.
En France, les recherches ont démarré vers 1970, et plusieurs

laboratoires de recherches ont pu mettre au point différents systèmes de
reconnaissance vocale avec plus ou moins de succès, ces laboratoires
mettant l'accent sur le support de reconnaissance : mots isolés, syllabes,
grands vocabulaires...
Page 7
2.4. La reconnaissance du langage

Dès lors, les recherches dans le domaine de la reconnaissance de la
parole n’ont cessé de progresser dans le sens de la compréhension du
langage parlé et des phrases structurées.
Aujourd’hui, le taux d’erreur ainsi que le temps d’apprentissage des
systèmes de reconnaissance ne cessent de diminuer pour atteindre de nos
jours des résultats proche de 95%. Ce taux est évidement variable selon la
difficulté du langage. En effet la machine a parfois du mal à éviter certains
pièges linguistiques.
Néanmoins nous verrons plus loin que de nos jours nous disposons
d’une technologie très aboutie.
2.5. Dates clés

On peut résumer en quelques dates les grandes étapes de la
reconnaissance de la parole :
- 1952 : reconnaissance des 10 chiffres, par un dispositif électronique

câblé, pour un mono-locuteur
- 1960 : utilisation des méthodes numériques
- 1965 : reconnaissance de phonèmes en parole continue
- 1968 : reconnaissance de mots isolés par des systèmes implantés sur
gros ordinateurs (jusqu'à 500 mots)
- 1969 : utilisation d'informations linguistiques
- 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour
tester la faisabilité de la compréhension automatique de la parole
continue avec des contraintes raisonnables
- 1972 : premier appareil commercialisé de reconnaissance de mots
- 1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY,
HEARSAY I et II et HWIM
- 1978 : commercialisation d'un système de reconnaissance à
microprocesseurs sur une carte de circuits imprimés
- 1981 : utilisation de circuits intégrés VLSI (Very Large Scale
Integration) spécifiques du traitement de la parole
Page 8
- 1981 : système de reconnaissance de mots sur un circuit VLSI

- 1983 : première mondiale de commande vocale à bord d'un avion de
chasse en France
- 1985 : commercialisation des premiers systèmes de reconnaissance de
plusieurs milliers de mots
- 1986 : lancement du projet japonais ATR de téléphone avec traduction
automatique en temps réel
- 1988 : apparition des premières machines à dicter par mots isolés
- 1989 : recrudescence des modèles connexionnistes neuromimétiques
- 1990 : premières véritables applications de dialogue oral homme-
machine
- 1994 : IBM lance son premier système de reconnaissance vocale sur
PC
- 1997 : lancement de la dictée vocale en continu par IBM
Page 9
3. PRINCIPES DE FO NCT IONNEM ENT

Ce chapitre va expliquer comment fonctionnent les principaux systèmes de
reconnaissance vocale. Néanmoins, le sujet de ce rapport n’étant pas une
étude approfondie des techniques de reconnaissance vocale, les principes
mathématiques et de traitement du signal ne seront pas traités mais juste
évoqués dans ce chapitre(se référer à la bibliographie pour plus de
précisions sur ces aspects).
3.1. Problématique
Pour bien appréhender le problème de la reconnaissance
automatique de la parole, il est bon d'en comprendre les différents niveaux
de complexité et les différents facteurs qui en font un problème difficile.
- Le système doit-il être optimisé pour un unique locuteur ou est-il

destiné à devoir se confronter à plusieurs utilisateurs ?
On peut aisément comprendre que les systèmes dépendants d’un
seul locuteur sont plus faciles à développer et sont caractérisés par de
meilleurs taux de reconnaissance que les systèmes indépendants du
locuteur étant donné que la variabilité du signal de parole est plus limitée.
Cette dépendance au locuteur est cependant acquise au prix d'un
entraînement spécifique à chaque utilisateur. Ceci n'est néanmoins pas
toujours possible. Par exemple, dans le cas d'applications téléphoniques, on
comprend bien que les systèmes puissent être utilisés par n'importe qui et
donc être indépendants du locuteur.
Bien que la méthodologie de base reste la même, cette indépendance
au locuteur est obtenue par l'acquisition de nombreux locuteurs (couvrant si
possible les différents dialectes) qui sont utilisés simultanément pour
l'entraînement de modèles susceptibles d'en extraire toutes les
caractéristiques majeures. Une solution intermédiaire parfois utilisée
consiste à développer des systèmes capables de s'adapter rapidement (de
façon supervisée ou non) au nouveau locuteur.
- Le système reconnaît-il des mots isolés ou de la parole en continue ?

Evidemment, il est plus simple de reconnaître des mots isolés bien
séparés par des périodes de silence que la séquence de mots constituant
une phrase. En effet, dans ce dernier cas, non seulement la frontière entre
les mots n'est plus connue mais les mots deviennent fortement articulés
(c'est-à-dire que la prononciation de chaque mot est affectée par le mot qui
précède ainsi que par celui qui suit ; un exemple simple : les liaisons du
français).
Dans le cas de la parole continue, le niveau de complexité varie

également selon qu'il s'agisse de texte lu, de texte parlé ou, beaucoup plus
Page 10
difficile, de langage naturel avec ses hésitations, phrases grammaticalement

incorrectes, faux départs, etc… Un autre problème, qui commence à être
bien maîtrisé, concerne la reconnaissance de mots clés en parole libre.
Dans ce dernier cas, le vocabulaire à reconnaître est relativement petit et
bien défini mais le locuteur n'est pas contraint de parler en mots isolés. Par
exemple, si un utilisateur est invité à répondre par «oui» ou «non», il peut
répondre «oui, s'il vous plaît». Dans ce contexte, un problème qui reste
particulièrement difficile est le rejet de phrases ne contenant aucun mot clé.
La taille du vocabulaire et son degré de confusion sont également des
facteurs importants. Les petits vocabulaires sont plus faciles à reconnaître
que les grands vocabulaires, étant donné que dans ce dernier cas, les
possibilités de confusion augmentent. Certains petits vocabulaires peuvent
cependant s'avérer particulièrement difficiles à traiter ; ceci est le cas, par
exemple, pour l'ensemble des lettres de l'alphabet, contenant surtout des
mots très courts et proches au niveau acoustique.
- Le système est-il robuste ?

Autrement dit, le système est-il capable de fonctionner proprement
dans des conditions difficiles ? En effet, de nombreuses variables pouvant
affecter significativement les performances des systèmes de
reconnaissance ont été identifiées :
- Bruits d'environnement (dans une rue, un bistrot etc…)
- Déformation de la voix par l’environnement (réverbérations, échos,
etc…)
- Qualité du matériel utilisé (micro, carte son etc…)
- Bande passante fréquentielle limitée (fréquence limitée d’une ligne
téléphonique)
- Elocution inhabituelle ou altérée (stress, émotions, fatigue, etc…)
Certains systèmes peuvent être plus robustes que d'autres à l'une ou l'autre
de ces perturbations, mais en règle générale, les systèmes de
reconnaissance de la parole sont encore sensibles à ces perturbations.
3.2. Fonctionnement
Le problème de la reconnaissance automatique de la parole consiste
à extraire l'information contenue dans un signal de parole, typiquement par
échantillonnage du signal électrique obtenu à la sortie d’un microphone, afin
qu’il puisse être comparé à des modèles sous forme numérique. Parmi
plusieurs techniques de reconnaissance, il y en a deux qui sont
majoritairement utilisées afin de parvenir à résoudre ce problème : la
comparaison à des exemples et la comparaison d’unités de parole.
Page 11
3.2.1. Reconnaissance par comparaison à des exemples
Les premiers succès en reconnaissance vocale ont été obtenus dans

les années 70 à l’aide d’un paradigme de reconnaissance de mots «par
l’exemple».
L’idée, très simple dans son principe, consiste à faire prononcer un ou

plusieurs exemples de chacun des mots susceptibles d’être reconnus, et à
les enregistrer sous forme de vecteurs acoustiques (représentation
numérique du signal sonore).
Puisque cette suite de vecteurs acoustiques caractérise

complètement l’évolution de l’enveloppe spectrale du signal enregistré, on
peut dire qu’elle correspond à un l’enregistrement d’un spectrogramme
[Fig.1].
Figure 1 : Spectrogramme des mots « parenthèse » et « effacer »
L’étape de reconnaissance proprement dite consiste alors à analyser

le signal inconnu sous la forme d’une suite de vecteurs acoustiques
similaires, et à comparer la suite inconnue à chacune des suites des
exemples préalablement enregistrés. Le mot «reconnu» sera alors celui
dont la suite de vecteurs acoustiques (le «spectrogramme») colle le mieux à
celle du mot inconnu. Il s’agit en quelque sorte de voir dans quelle mesure
les spectrogrammes se superposent.
Ce principe de base n’est cependant pas implémentable directement :
un même mot peut en effet être prononcé d’une infinité de façons
Page 12
différentes, en changeant le rythme de l’élocution. Il en résulte des

spectrogrammes plus ou moins distordus dans le temps. La superposition
du spectrogramme inconnu aux spectrogrammes de base doit dès lors se
faire en acceptant une certaine «élasticité» sur les spectrogrammes
candidats. Cette notion d’élasticité est formalisée mathématiquement par un
algorithme nommé : l’algorithme DTW (Dynamic Time Warping ou
déformation dynamique temporelle).
On comprend donc qu’une telle technique soit limitée par la taille du

vocabulaire à reconnaître (une centaine de mots tout au plus) et qu’elle soit plus
propice à la reconnaissance mono-locuteur (une reconnaissance multi-locuteur
imposerait d’enregistrer, de stocker, et surtout d’utiliser pour la comparaison de
nombreux exemples pour chaque mot).
Les résultats obtenus, dans le contexte mono-locuteur/petit

vocabulaire, sont aujourd’hui excellents (proches de 100%) mais ne
correspondent pas aux attentes actuelles en matière de reconnaissance
vocale.
3.2.2. Reconnaissance par modélisation d’unités de parole
La plupart des systèmes de reconnaissance de la parole sont de nos

jours basés sur ce mode là. Dés que l’on cherche à concevoir un système
réellement multi-locuteur, à plus grand vocabulaire et s’adaptant facilement
à une application, il devient nécessaire de mener la reconnaissance sur
base d’unités de parole de plus petite taille, que l’on appelle phonèmes. En
effet, la parole est constituée d'une suite de sons élémentaires : «a», «é»,
«ss». Ils sont produits par la vibration des cordes vocales. Ces sons mis
bout à bout composent des mots. On ne se contente plus alors d’exemples
de ces unités, mais on cherche plutôt à en déduire un modèle (un modèle
par unité), qui sera applicable pour n’importe quelle voix.
Il apparaît ainsi dans de nombreuses publications que l’on peut décomposer
la reconnaissance de la parole en 4 modules :
- Un module d’acquisition et de modélisation du signal qui

transforme le signal de parole en une séquence de vecteurs acoustiques.
Pour être utilisable par un ordinateur, un signal doit tout d'abord être
numérisé. Cette opération tend à transformer un phénomène temporel
analogique, le signal sonore dans notre cas, en une suite d'éléments
discrets, les échantillons. Ceux-ci sont obtenus avec une carte spécialisée
courante de nos jours dans les ordinateurs depuis l'avènement du
multimédia. La numérisation sonore repose sur deux paramètres : la
quantification et la fréquence d'échantillonnage.
La quantification définit le nombre de bits sur lesquels on veut réaliser la
numérisation. Elle permet de mesurer l'amplitude de l'onde sonore à chaque
pas de l'échantillonnage. Le choix de la fréquence d'échantillonnage est
Page 13
aussi déterminant pour la définition de la bande passante représentée dans

le signal numérisé.
- Un module acoustique qui peut produire une ou plusieurs

hypothèses phonétiques pour chaque segment de parole (par exemple de
10 ms, pour chaque vecteur acoustique), associées en général à une
probabilité. Ce générateur d'hypothèses locales est généralement basé sur
des modèles statistiques de phonèmes, qui sont entraînés sur une grande
quantité de données de parole (par exemple, enregistrement de
nombreuses phrases) contenant plusieurs fois les différentes unités de
parole dans plusieurs contextes différents. Ces modèles statistiques sont le
plus souvent constitués de lois statistiques paramétriques dont on ajuste les
paramètres pour «coller» au mieux aux données ou de réseaux de
neurones artificiels. Un tel générateur d’étiquettes phonétiques intègre
toujours un système d'alignement temporel qui transforme les hypothèses
locales (prises sur chaque vecteur acoustique indépendamment) en une
décision plus globale (prise en considérant les vecteurs environnants). De
nos jours, ceci se fait le plus souvent via des modèles de Markov cachés
(MMC ou HMM en anglais). L’ensemble (lois statistiques paramétriques ou
réseau de neurones + Markov) constitue le modèle acoustique sous-jacent
à un «reconnaisseur» de parole.
- Un module lexical : Dans le cadre de la reconnaissance de la

parole continue, même si le système acoustique est basé sur des
phonèmes, il faut obtenir, pour chaque entrée du dictionnaire phonétique,
un modèle qui lui est propre. Un tel module lexical embarque en général
des modèles des mots de la langue (les modèles de base étant de simples
dictionnaires phonétiques ; les plus complexes sont de véritables automates
probabilistes, capables d’associer une probabilité à chaque prononciation
possible d’un mot). A l’issue de ce module, il peut donc y avoir plusieurs
hypothèses de mots qui ne pourront être départagées que par les
contraintes syntaxiques.
- Un module syntaxique qui interagit avec un système d'alignement

temporel pour forcer la reconnaissance à intégrer des contraintes
syntaxiques, voire sémantiques. Les connaissances syntaxiques sont
généralement formalisées dans un modèle de la langue, qui associe une
probabilité à toute suite de mots présents dans le lexique. Ainsi le système
est capable de choisir entre plusieurs mots selon le contexte de la phrase
ou du texte en cours et de son modèle lexical.
On peut ajouter à cela un module de filtrage pouvant corriger le signal

après l’acquisition afin de retirer les distorsions ou les bruits provenant du
matériel ou de l’environnement du locuteur. Ce module est aussi appelé
«traitement du canal de transmission». Du fait de sa complexité et du peu
Page 14
d’amélioration qu’il apporte, ce module n’est pas toujours intégré aux

systèmes. Cependant la recherche de meilleurs traitements du canal de
transmission sera sûrement nécessaire à l’amélioration des systèmes de
reconnaissance vocale.
Parole
Acquisition et modélisation
Traitement canal de
transmission
Hypothèses phonétiques
Propositions lexicales
Contraintes syntaxiques
Parole reconnue
Figure 2 : Les modules de la comparaison par unité de parole
Page 15
4. APPLICATIONS
Ce chapitre va survoler les différentes possibilités d’appliquer la
reconnaissance automatique de la parole.
4.1. Services vocaux
Les serveurs passifs (sans reconnaissance vocale) existent depuis de

nombreuses années tels que l’horloge parlante, la météo, les résultats des
courses, du loto, etc… Mais lorsque la quantité d’information est importante,
il devient nécessaire pour l’utilisateur de pouvoir sélectionner ce qu’il veut
entendre.
Dans des cas simples la sélection de touches «multi-fréquences»
(DTMF) peut suffire. Mais pour des applications plus complexes des
systèmes sont en voie de développement pour que l’utilisateur puisse
naviguer sur un serveur vocal en prononçant les mots de contrôle de
l’application. Ces services pourront s’étendre à tout un ensemble de
domaines : la réservation de place d’avion, de train, de théâtre, de chambre
d’hôtel, les déclarations de sinistre à l’assureur, les consultations et
transactions bancaires, les opérations boursières, la facturation
automatique des appels à distance, etc…
En France, des prototypes sont déjà en place notamment chez
France Télécom® avec un nombre de mots limité mais qui ne cesse
d’augmenter, une des difficultés étant de faire comprendre à l’utilisateur les
limites du système actuel.
L’opérateur américain SPRINT® a ainsi initié ce type de service avec
une «carte téléphonique» qui contrôle l’identité de l’utilisateur par l’analyse
de sa voix (les autres opérateurs utilisent uniquement un code confidentiel
entré par DTMF). L’introduction de la vérification du locuteur semble avoir
éliminé l’utilisation frauduleuse du code par une autre personne.
4.2. Contrôle de qualité, saisie des données
Dans de nombreux environnements de travail la possibilité de

décharger le travailleur, grâce à une interface vocale, apporte un gain
incontestable de liberté et de rapidité de mouvement. Pendant qu’il observe
un processus complexe, il peut par exemple décrire des informations
visuelles. Il a aussi la possibilité de commander à distance un automate
évoluant en milieu hostile (apesanteur, sous-marin, industrie pétrolière).
Un système portable Talkman® de Vocollect® a été évalué et mis en
service à la SNCF pour des opérateurs itinérants[figure 3]. Manipulant des
outils et divers instruments de mesures lors de ces relevés, les opérateurs
effectuent des relevés d’information sur des organes de wagons SNCF pour
déclencher le passage en révision. Ils interviennent dans des conditions
dangereuses.
Page 16
Figure 3 : Main libre avec le Talkman de Vocollect
Sur le même principe, la société Conversay® commercialise une

application nommée VoiceSurfer®. Avec ce programme, un employé peut
par exemple entrer tout l’inventaire de son stock en utilisant uniquement la
voix. Le gain de temps est direct car avec ce principe, les données fournies
sont automatiquement sauvegardées sur un ordinateur distant.
4.3. Avionique
A bord des avions, les tâches étant de plus en plus complexes et le
tableau de bord de plus en plus réduit, la parole permet au pilote d’avoir à
sa disposition un moyen supplémentaire d’interaction avec la machine, sans
cependant gêner l’accomplissement des tâches courantes qui requièrent de
sa part toute son attention visuelle. Les autorités canadiennes ont été les
précurseurs des techniques vocales dans l’avionique.
Ainsi, l’Institut de Recherche Aérospatiale (IRA) a effectué des

travaux de recherche sur la technologie vocale depuis la fin des années 70.
Page 17
Dans les années 80, la recherche sur la reconnaissance de la parole était

axée sur la mise au point de techniques qui fonctionnent dans les postes de
pilotage des aéronefs, où le niveau de bruit ambiant est très élevé. BAE
Systems® Canada a mis au point un système prototype de reconnaissance
de la parole qui a été installé dans l’hélicoptère Bell 205 à stabilité variable
de l’IRA. Ce système a démontré un très haut taux de reconnaissance de la
parole à partir de données recueillies dans le poste de pilotage de
l’hélicoptère, où il y a beaucoup de bruit.
Actuellement, un système de reconnaissance de la parole est à bord
du dernier des avions de l’armée française, le Rafale, capable de traiter un
vocabulaire de près de 300 mots.
4.4. Formation
Les enfants, mais aussi les adultes, sont attirés par des jeux doués
de parole (poupées qui parlent, jeux de société, jeux vidéos, jeux éducatifs).
L’enseignement assisté par ordinateur et notamment les laboratoires de
langue commence à intégrer de plus en plus de possibilités vocales, et
évolue vers une interactivité plus grande : les systèmes d’aide à
l’apprentissage des langues étrangères, permettant d’acquérir une
prononciation correcte, une maîtrise du vocabulaire et de la syntaxe, ne
peuvent que bénéficier des technologies vocales qui leur confèrent en outre
un aspect ludique.
Du côté des applications proprement dites, la société Auralog® a été
précurseur avec ses logiciels d’apprentissage de langues (TeLL me More® ,
Atout Clic Anglais® ). Ainsi, grâce à la technologie avancée de la
reconnaissance vocale, l’utilisateur engage un véritable dialogue avec son
PC. Suivant son niveau, l’apprenant paramètre la reconnaissance vocale
pour la rendre plus tolérante ou plus exigeante quant à la qualité de sa
prononciation. L’utilisateur s’entraîne à prononcer une phrase ou un mot et
obtient un score lui permettant d’évaluer la qualité de son accent, de sa
prononciation et de son intonation.
4.5. Aide aux handicapés

Différents programmes européens ont permis de mieux cerner les
différents types de handicap dont souffre la population, ainsi que le nombre
de personnes concernées. On dénombre actuellement en Europe 12
millions de malvoyants dont 1 million de non-voyants, 81 millions de mal-
entendants, dont 1 million de non-entendants, environ 30 millions de
personnes ayant un handicap moteur des membres supérieurs et 50
millions ayant un handicap des membres inférieurs.
L’intérêt des technologies vocales apparaît évident dans la mesure où
celles-ci permettent aux personnes handicapées de retrouver une certaine
autonomie et de bénéficier d’une meilleure insertion dans leur
Page 18
environnement tant professionnel que familial, la parole se substituant au

sens défaillant. Ainsi beaucoup de systèmes existent pour cela, tel que le
contrôle de fauteuil roulant, le contrôle de fonctions secondaires dans la
voiture, le contrôle d’appareil électrique à la maison, le contrôle de
l’ordinateur, etc…
4.6. Dictée vocale
L'orientation actuelle des logiciels tend de plus en plus à offrir un

contrôle total de l'environnement permettant de se passer du clavier et de la
souris pour utiliser l'ordinateur. Les nouveaux systèmes d'exploitations
couplés aux logiciels à venir devraient enfin permettre d'offrir un ordinateur
fonctionnant réellement «sans les mains».
Aujourd’hui, nous pouvons compter sur les doigts de la main les
logiciels dédiés à la reconnaissance de la parole, du moins en France. En
effet, trois éditeurs de logiciels se partagent ce marché en pleine croissance
: IBM et son ViaVoice®, Scansoft® et son DragonSystem®, Phillips® et
son Freespeech®.
En 2001, il existait également VoiceXpress® de Lernout & Hauspie®
mais ce dernier a été racheté en majorité par Scansoft®.
VoiceXpress® et Freespeech® sont entrés dans la course il y a
quelques années et ont permis de donner un coup de fouet dans un secteur
contrôlé par IBM® et Scansoft®. On a ainsi vu, avec ce regain de
concurrence, une plus grande maîtrise de la technologie accompagné d’une
baisse considérable des prix.
Le grand public peut ainsi, comme les professionnels, se tourner
sérieusement vers ces produits qui autorisent, même dans leur version de
base, la dictée en continue ainsi qu’une intégration complète aux
traitements de texte courants. La durée d’apprentissage a sensiblement
diminué et n’excède pas les 10 minutes et surtout avec un meilleur taux de
reconnaissance.
Pour y parvenir, les éditeurs ont profité de l’augmentation de la
puissance des machines pour accroître la profondeur des calculs
nécessaires et augmenter la taille du vocabulaire directement accessible en
cours de dictée. Le nombre de mots se compte aujourd’hui en centaines de
milliers contre quelques dizaines de milliers pour les versions précédentes.
De plus, les logiciels ont la faculté de perfectionner leur
reconnaissance au fil du temps en prenant en compte les textes et
corrections faites aux mots du dictionnaire. Mais ce qui est encore plus
étonnant, c’est la possibilité de rajouter des mots au dictionnaire et ainsi de
leur associer une empreinte vocale.
Page 19
4.7. Et aussi …
On peut aussi citer les modules de reconnaissance vocale embarqués,

comme dans les téléphones mobiles ou les assistants numériques ainsi que les
futures possibilités en cours de développement chez les fabriquants automobile
avec le contrôle de différents éléments de la voiture grand public : autoradio,
climatisation, navigation de bord. On peut même de nos jours surfer sur Internet
grâce à des commandes vocales, c’est ce que propose la société
InteractiveSpeech® . L’utilisation de la reconnaissance automatique de la parole
devient courante et devrait très bientôt apparaître dans la plupart des domaines
d’activités et la plupart des applications futures.
Page 20
CONCL USIO N
On peut dire que depuis une décennie, les techniques de traitement

de la parole ont connu plusieurs grandes révolutions.
La première, et celle qui touche pour l’instant de loin le plus

d’utilisateurs, est celle de la téléphonie mobile : une proportion grandissante
de la population transporte avec elle un ordinateur de poche avec un
module de reconnaissance vocale. Les algorithmes de codage sont par
ailleurs également utilisés dans les boîtes vocales : nos paroles y sont
stockées sous la forme de suites de vecteurs de paramètres. Le marché du
codage de la parole est donc à présent largement ouvert.
La seconde révolution est celle des grandes bases de données de

parole et de textes. Depuis 1995, aux Etats-Unis et en Europe, de
nombreux laboratoires de recherche (publics et privés) mettent en commun
leurs ressources. Il en résulte un foisonnement de données propices à
l’établissement de modèles, tant numériques que symboliques, de la parole.
Les développements récents en reconnaissance, et plus encore en
synthèse, en sont en grande partie la conséquence logique.
Enfin, une dernière révolution se prépare : celle qui verra naître des
machines dont plus personne ne pourra affirmer avec certitude qu’elles en
sont. Aujourd’hui déjà, la qualité des algorithmes de synthèse vocale permet
aux synthétiseurs de passer avec succès le «test de Turing», inventé par le
mathématicien anglais Alan Turing dans les années 40 pour mesurer le
degré d’«intelligence» d’une machine : en vérifiant combien de temps un
expérimentateur interagissant «en aveugle» avec cette machine peut rester
persuadé d’avoir affaire à un être humain. La reconnaissance est aussi
prête à tromper notre intelligence, et ne manquer a pas de continuer à le
faire, dès lors que l’on aura amélioré ses capacités de robustesse.
Il n’en reste pas moins que, alors que nos ordinateurs pourront nous parler
et reconnaître ce que nous leur dirons, ils n’en seront pas pour autant
capables de comprendre nos paroles. C’est là un tout autre domaine, dont
nous ne connaissons encore que les tous premiers balbutiements.
Page 21
Annexe A : Glossaire
Arpa : (Acronyme de Advanced Research Projects Agency, Agence pour les

projets de recherche avancés ). Organisme des Etats-unis remplacé par le
DARPA qui a soutenu énormément de projets informatiques historiques.
Bit : Abréviation de «BInary digiT», mais bit signifie «un peu», «un bout» en
anglais. Unité élémentaire d'information, ne pouvant prendre que deux valeurs,
représentées par 0 et 1 en général (ou Faux et Vrai).
Echantillonnage : Transformer un signal analogique, capturé par intervalle de

temps, en signaux numériques équivalents du point de vue de l'information
transmise, pour qu'ils soient manipulés par ordinateur.
DTMF: (Acronyme de Dual Tone Multi Frequency, Signalisation multifréquence à

double tonalité). Le système de signalisation à fréquence vocale est utilisé pour
transmettre des données de signalisation par téléphone ou par radio. Un
téléphone à touches génère les tonalités DTMF pendant la numérotation.
DTW : (Acronyme de Dynamic Time Warping, déformation dynamique

temporelle). Algorithme qui permet de trouver le meilleur appariement entre une
référence enregistrée et un signal à reconnaître, par le calcul d'une différence
entre des vecteurs respectifs de caractéristiques.
MMC, Modèles de Markov cachés : (HMM en anglais). Du nom du

mathématicien russe. L’introduction de cette théorie probabiliste dans le champ de
la reconnaissance vocale a permis de représenter des sons élémentaires sous
forme statistique.
Numériser : Transformer un signal quelqu’il soit (analogique, optique, etc…) en

un signal numérique pour qu'il soit manipulé par un ordinateur.
Phonème : Unité qui permet de caractériser tous les sons d’une langue. La
plupart des langues comportent moins d’une centaine de phonèmes. Par exemple
«a», «è», «ss», etc…
RAP : Reconnaissance automatique de la Parole(ou ASR : Automatic Speech

Recognition, en anglais).
SAP : Synthèse Automatique de la Parole(ou TTS : Text To Speech, en anglais)
Spectrogramme : Le spectrogramme est une représentation qui permet

d'analyser des portions successives d'un signal. Pour cela le signal est considéré
comme stationnaire à court-terme sur une fenêtre d'analyse définissant la portion
analysée de façon à ce que l'analyse spectrale classique soit localement valable.
Page 22
Annexe B : Bibliographie et références Internet
Références bibliographiques :
« Fondements et perspectives en traitement automatique de la parole » de Henri

Méloni, Ed. AUPELF-UREF, Décembre 1996
Références Internet :
http://www.icp.inpg.fr/ : institut de la communication parlée
http://cslu.cse.ogi.edu/ : Centre pour la compréhension de la parole (anglais)
http://www.scansoft.com/naturallyspeaking/ : Le logiciel Dragon de Scansoft®
http://www-3.ibm.com/software/speech/ : Le logiciel ViaVoice® d’IBM®
http://www.speechrecognition.philips.com/index.php : Les outils de

reconnaissance de Phillips®
http://www.vocollect.com/ : Les outils portables de Vocollect® (Talkman®)
http://www.auralog.com/ : Les logiciels d’apprentissage Auralog®
http://www.conversay.com/ : Les outils portables Conversay® (VoiceSurfer®)
http://www-geod.imag.fr/Vaufreyd/These/Reconnaissance.html : Thèse sur

l’approche probabiliste
http://www.hbroussais.fr/Broussais/InforMed/InforSante/Volume4/pdf4/4-8.pdf :
Publication du Centre Scientifique IBM – France
http://tcts.fpms.ac.be/cours/1005-08/speech/parole.pdf : Introduction au
Traitement Automatique de la Parole
http://www-
geod.imag.fr/jcaelen/cours%20accessibles_fichiers/Cours%20Reco.htm :
Publication du CLIPS (Communication Langagière et interaction Personne-
système)
Page 23

Rapport 58

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Rapport 58

Hochgeladen von

Copyright:

Verfügbare Formate

CONSERVATOIRE NATIONAL DES ARTS ET METIERS

Centre Régional Languedoc-Roussillon

Par : Julien ALLEGRE

Soutenu le : 07 avril 2003

3. Principe de fonctionnement ………………….. p. 10

B – Bibliographie et références Internet …………… p. 23

La reconnaissance automatique de la parole est un domaine de la

Le secteur de la reconnaissance automatique de la parole est en

Dans un premier temps j’expliquerai ce que l’on entend par

Ces deux domaines et notamment la reconnaissance vocale, font

Il faut bien distinguer ces deux mondes : un système de synthèse

Le traitement automatique de la parole ouvre des perspectives

A la base, les logiciels de reconnaissance vocale servent surtout à

Les premières tentatives de création d’une machine capable de

2.2. Les premiers mots

Vers 1950 apparaît le premier système de reconnaissance de chiffres,

qu'avec un seul locuteur qui doit adapter sa diction à la machine : hauteur,

2.3. L’avancée des années 70

Aux Etats-Unis, l'importance des recherches sur la parole a beaucoup

En ex-URSS, les recherches dans ce domaine ont commencé très tôt

En France, les recherches ont démarré vers 1970, et plusieurs

2.4. La reconnaissance du langage

2.5. Dates clés

- 1952 : reconnaissance des 10 chiffres, par un dispositif électronique

- 1981 : système de reconnaissance de mots sur un circuit VLSI

3. PRINCIPES DE FO NCT IONNEM ENT

- Le système doit-il être optimisé pour un unique locuteur ou est-il

- Le système reconnaît-il des mots isolés ou de la parole en continue ?

Dans le cas de la parole continue, le niveau de complexité varie

difficile, de langage naturel avec ses hésitations, phrases grammaticalement

- Le système est-il robuste ?

3.2.1. Reconnaissance par comparaison à des exemples

Les premiers succès en reconnaissance vocale ont été obtenus dans

L’idée, très simple dans son principe, consiste à faire prononcer un ou

Puisque cette suite de vecteurs acoustiques caractérise

Figure 1 : Spectrogramme des mots « parenthèse » et « effacer »

L’étape de reconnaissance proprement dite consiste alors à analyser

différentes, en changeant le rythme de l’élocution. Il en résulte des

On comprend donc qu’une telle technique soit limitée par la taille du

Les résultats obtenus, dans le contexte mono-locuteur/petit

3.2.2. Reconnaissance par modélisation d’unités de parole

La plupart des systèmes de reconnaissance de la parole sont de nos

- Un module d’acquisition et de modélisation du signal qui

aussi déterminant pour la définition de la bande passante représentée dans

- Un module acoustique qui peut produire une ou plusieurs

- Un module lexical : Dans le cadre de la reconnaissance de la

- Un module syntaxique qui interagit avec un système d'alignement

On peut ajouter à cela un module de filtrage pouvant corriger le signal

d’amélioration qu’il apporte, ce module n’est pas toujours intégré aux

Figure 2 : Les modules de la comparaison par unité de parole

4.1. Services vocaux

Les serveurs passifs (sans reconnaissance vocale) existent depuis de

4.2. Contrôle de qualité, saisie des données

Dans de nombreux environnements de travail la possibilité de

Figure 3 : Main libre avec le Talkman de Vocollect

Sur le même principe, la société Conversay® commercialise une

Ainsi, l’Institut de Recherche Aérospatiale (IRA) a effectué des

Dans les années 80, la recherche sur la reconnaissance de la parole était

4.5. Aide aux handicapés

environnement tant professionnel que familial, la parole se substituant au

4.6. Dictée vocale

L'orientation actuelle des logiciels tend de plus en plus à offrir un

On peut aussi citer les modules de reconnaissance vocale embarqués,