Beruflich Dokumente
Kultur Dokumente
une
mthodologie
d'valuation
qualitative des systmes de dialogue homme
machine
Problmatique
La communication orale homme machine a atteint une maturit qui laisse esprer
le dveloppement futur de systmes oprationnels en conditions relles. En
particulier, les problmes centraux du domaine sont dsormais bien identifis, et
certaines ralisations dpassant le simple cadre du prototype de laboratoire
commencent prsenter des performances encourageantes. L'ensemble des
traitements automatiques impliqus dans la communication orale (reconnaissance
et synthse de parole, comprhension du langage parl, modlisation du
dialogue) ont ainsi connu des progrs significatifs au cours de ces dernires
annes. Afin de capitaliser les enseignements de ces avances et d'orienter au
mieux les recherches futures dans le domaine, la mise en place de procdures
d'valuation adaptes au dialogue oral constitue un enjeu central pour la
communication parole.
Le recours l'valuation est une pratique dj bien tablie dans le domaine du
traitement automatique du langage crit (TALN). Des programmes tels que
TSNLP1 ont ainsi permis l'laboration et la validation de mthodologies fouilles
d'valuation [Lehmann 96]. Reposant sur la dfinition de jeux de test trs dtaills,
ces procdures permettent d'tudier le comportement des systmes sur chaque
phnomne linguistique bien prcis.
A l'oppos, les systmes de reconnaissance de la parole ou de dialogue oral ont
jusqu'ici t principalement valus en termes de performances globales
(programme ATIS2 de la DARPA). Ce type d'valuation permet avant tout de
mesurer le chemin qui nous spare d'un dialogue oral en conditions relles. Il
reste cependant tendre cette mthodologie afin d'atteindre un diagnostic plus
prcis et donc plus riche en enseignements. De ce point de vue, il serait
regrettable d'ignorer les recherches menes sur ce sujet en TALN [Estival 94].
C'est pourquoi nous proposons dans cet article une mthodologie d'valuation
inspire des rflexions de l'ARC ILEC A43 (Comprhension de textes) et adapte
la spcificit de la langue et de la communication orale.
Dans un premier temps, nous allons prsenter les objectifs que nous assignons
la mthodologie propose. Nous dcrirons ensuite les procdures d'valuation
employes dans le cadre du TALN, pour ensuite discuter de leur adaptation aux
spcificits de la modalit orale. A l'aide de multiples exemples, nous dtaillerons
enfin la mise en oeuvre pratique de notre mthodologie, tant pour l'valuation de
la comprhension de la parole que pour celle du dialogue oral.
TSNLP (Test Suites for Natural Language Processing) est un projet du programme LRE (Language Research and
Engeenering) de la Communaut Europenne.
2
Les Actions de Recherche Concerte sont une initiative de l'AUPELF-UREF, notamment les thmes ILEC
(Informatique, Linguistique et Corpus Ecrits) et ILOR (Informatique, Linguistique et Corpus Oraux).
l'assurance que les mthodes employes par le systme, qui sont robustes
dans le contexte de l'application, le seront pour d'autres formes de CHM
orale ? Il n'est qu' observer les diffrences structurelles de langage entre
plusieurs contextes applicatifs pour en douter [Antoine 95].
On voit alors tout l'intrt d'une approche qualitative, qui consiste valuer les
systmes sur des phnomnes linguistiques ou dialogiques bien identifis : plutt
que d'avoir une photographie floue des performances d'ensemble du systme, on
dispose alors d'un diagnostic dtaill du comportement de ce dernier dans des
situations bien dfinies. C'est dans cette approche riche d'enseignements que
nous situerons rsolument notre mthodologie d'valuation.
Enfin, on notera que l'valuation des systmes de dialogue n'a de sens que si elle
s'inscrit dans la perspective d'une communication naturelle. D'o l'intrt de
corpus pilotes tels que celui ralis dans le cadre de l'ARC ILOR B2 (Dialogue
oral) pour recenser les phnomnes linguistiques observs en situation relle qui
doivent ncessairement faire l'objet d'une analyse d'usage [Caelen 97].
Suivant le formalisme adopt, on parlera galement de rle thmatique ou de cas smantique [Minkler 96]
Citons par exemple les phnomnes de coordinations non triviales et, pour le niveau suivant, d'anaphore
plurielles.
D
Q
R
D
Q
R
Vous prenez droite aprs les btiments blancs aux volets bleus
Volets bleus ?
Oui
(3)
D
Q
R
Vous prenez droite aprs les btiments blancs aux volets bleus
Btiments aux volets bleus ?
Oui
D
Q
R
Vous prenez droite aprs les btiments blancs aux volets bleus
Btiments bleus ?
Non
(5)
D
Q
R
(6)
D
Q
R
D
Q
R
(8)
D
Q
R
(9)
D
Q
R
(11) D
Q
R
D
D
Q
R
A droite ou gauche ?
Celle de droite
Rue de droite ?
Oui
(14) D
Q
R
(15) D
D
Q
R
Les tests (13) et (14) correspondent une infrence pragmatique sans ellipse ni
anaphore. Dans le premier cas, le systme de comprhension doit associer le
concept d'aller-retour avec celui de billet, tandis que dans le second cas, c'est la
connaissance de la localisation de la borne de rservation (gare de Grenoble) qui
lui permet de rpondre par l'affirmative7. La donne (15) comprend une anaphore
pronominale qui peut tre ventuellement rsolue un niveau strictement
structurel. La connaissance du monde de l'application (dans notre exemple : une
chambre peut comporter un bain, une douche ou un cabinet de toilettes) facilite
nanmoins la tche du systme.
On peut de mme dfinir des jeux de tests pour des infrences de sens commun.
Par exemple:
(16) D
Q
R
7
Ds qu'intervient le contexte pragmatique de l'application, les jeux de test perdent bien videmment en
gnralit. Cela ne remet pas en cause la gnricit de la mthodologie propose.
confirmation
satisfaction
clture
clture-ractive
Les questions suivantes pourraient tre poses au systme (s'il joue le rle
d'agent dans ce dialogue) :
Q- C veut-il aller la piscine municipale ?
R- oui
ou
Q- C a-t-il formul une requte propos de la piscine Truc ?
R- oui
Aussi nous pensons que la mthode DQR doit pouvoir se gnraliser
l'valuation du dialogue D (la squence QR tant insre au cours du dialogue ou
pose la fin). Nous donnons ci-aprs quelques exemples pour les niveaux 4 7.
Niveau Interprtation du type d'acte illocutoire
Les tests de ce niveau portent sur une rplique. Ils doivent permettre de
diagnostiquer si le systme de dialogue reconnat les types d'actes de dialogue
(ou buts illocutoires), notamment pour les actes directs et indirects, elliptiques, etc.
L'exemple (17-17') montre l'effet contextuel qui influe sur la rponse R (la question
Q porte sur la rplique antcdente).
(17) D
Q
R
(17') D
Je m'appelle Dupont
Est-ce que votre nom est Durand ?
Non, moi c'est Dupont
Est-ce que le client s'appelle Durand ?
Non
(20) D
l'cole
Q
R
(21') D
ne pas tre pertinent parce que simplement trop longue ou trop sinueuse. Pour
tester la longueur d'un dialogue, le critre le plus simple est de compter le nombre
de tours de parole qui permet d'atteindre et de satisfaire le but. Mais le cas des
ruptures est plus intressant car il permet de diagnostiquer le systme. Les
ruptures se produisent pour deux raisons :
(a) la communication tait fonde sur des informations non partages (implicites
d'arrire-plan, concepts inexistants, etc.), et l'on s'aperoit tout d'un coup qu'on ne
se comprend plus et que ce qu'on a dit jusque l ne servait rien,
(b) la stratgie mene par l'un des partenaires est inadquate (lenteur du
droulement, incidences trop nombreuses, clarifications rptition, directivit
trop grande, etc.).
Il est alors facile de faire un diagnostic sur ces ruptures. Par exemple l'aide de
tests tels que (22) et (23)
(22) D
(23) D
Q
R
Conclusion
L'valuation des systmes de comprhension et de dialogue oral peut se situer
dans le cadre gnral de l'valuation des systmes de traitement du langage et en
particulier dans le prolongement de l'valuation de la comprhension de l'crit.
Nous avons propos de mettre au point une mthodologie d'valuation base sur
des tests gnriques de type DQR qui devraient permettre d'amliorer nos
analyses des phnomnes dialogiques et de diagnostiquer les systmes de
comprhension et de dialogue. Nous avons dfini sept niveaux de test :
Information explicite (niveau 1) Reprage dune information explicite dans
lnonc.
Information implicite (niveau 2) Rsolution des rfrences implicites une
information.
Infrence (niveau 3) Construction du sens complet de l'nonc.