Beruflich Dokumente
Kultur Dokumente
Jean Caelen
Laboratoire CLIPS-IMAG
Domaine universitaire, BP 53
38041 Grenoble Cedex 9
Jean.Caelen@imag.fr
Rsum. Cet article prsente un tat de lart, quelques modles
formels du dialogue et dtaille plus particulirement une
approche fonde sur une logique de laction utilisant les
concepts de but et de stratgie. Le dialogue est considre dans
le cadre dune interaction verbale homme-machine propos
dune tche. Les modles prsents tirent parti de diffrentes
thories et sont classs en quatre grandes catgories. Ils sont
discuts et leurs limites sont nonces.
1 INTRODUCTION
Beaucoup douvrages ont paru en franais sur le dialogue hommemachine (DHM) ces dernires annes. Cela note lintrt de ce domaine
auprs des chercheurs. Cest en effet un sujet fascinant dans la mesure o
il tente de rpondre au fameux dfi dA. Turing [1] sur lintelligence des
machines les machines seront intelligentes, le jour o elles pourront
dialoguer. Ce jour nest manifestement pas encore arriv, mais on en
peroit mieux aujourdhui les difficults, les limites et ce quil est
raisonnable desprer en matire de modlisation du dialogue.
Paralllement (et peut-tre consquemment), le besoin en systmes
interactifs ergonomiques ne cesse de samplifier. Aprs la vague des
interfaces graphiques qui ont introduit lcran graphique et la souris ainsi
que la possibilit de manipulation directe, on sinterroge sur les
meilleures formes dinteraction, les plus utilisables, les plus adaptes la
tche et celles qui ncessitent le moins dapprentissage pour lutilisateur.
Ce besoin, dune autre nature que celui de relever le dfi de Turing,
2.1 L'thnomthodologie
Les thnomthodologistes [2], [3] ont dvelopp leur approche autour
de ltude des capacits de raisonnement de sens commun que manifestent
des individus, membres dune mme culture, pour produire et reconnatre
des actions intelligibles. Cette approche est plus descriptive parce que
naturaliste que prdictive : elle met laccent sur une forme de
Acte promissif : il s'agit d'une obligation contracte par le locuteur luimme de raliser une action future. Le locuteur s'engage faire quelque
chose. Le but est de rendre le monde conforme au contenu propositionnel
(qui contient l'action future de l'interlocuteur). L'acte promissif rvle
l'intention du locuteur. Nous notons cet acte FP (faire pouvoir).
Acte expressif : le but illocutoire de l'acte expressif est d'exprimer
l'tat psychologique qui lui est associ. La direction d'ajustement n'est pas
de rendre le monde conforme aux mots ou vice versa. La proposition
exprime est prsuppose : on se rjouit ou on dplore qu'elle soit vraie.
Cet acte est trs peu prsent en DHM, nous le notons FS.
Acte dclaratif : le but illocutoire de l'acte dclaratif est de rendre
effectif son contenu. Le locuteur provoque des changements effectifs dans
le monde par ses dclarations. Cet acte a simultanment deux directions
d'ajustement entre le langage et le monde. Il faut qu'il soit accompli dans
une certaine institution extra linguistique qui confre au locuteur les
pouvoirs de provoquer de nouveaux faits institutionnels par le seul
accomplissement appropri d'actes de langage. Nous notons cet acte FA.
Malgr ses qualits, cette approche est essentiellement monologique,
cest--dire quelle ne prend pas en compte les noncs dans la dynamique
du dialogue. Une extension est donc ncessaire, pour aborder les
problmes du dialogue et de lintersubjectivit.
2.4 La linguistique
Les linguistes de lcole de Genve [15], [16], envisagent le discours
comme cadre de structuration dchanges linguistiques. Ils sefforcent
dutiliser le moins possible les contraintes ou les donnes extrieures au
discours comme les intentions, les prsuppositions, etc., quils jugent trop
subjectives. Ils proposent une thorie de la cohrence et non une thorie
de linterprtation : "le problme principal est de formuler un ensemble
dunits conversationnelles, un ensemble de relations entre ces units, un
ensemble de principes gouvernant la composition des units simples en
units complexes, bref la formulation de rgles de bonne formation" [17].
Cette approche nest pas prdictive ; elle reste essentiellement une
description fonctionnaliste et/ou structurelle des noncs de A et de B
rendue possible une fois le discours achev et laction accomplie.
Les phases du dialogue que retient l'cole de Genve sont les
suivantes : l'ouverture (initiative, valuative, ractive), la continuation
(initiative, valuative, ractive), la clture (initiative, valuative, ractive),
l'incidence (abandon temporaire d'une activit en cours de ralisation pour
la reprendre par la suite) et la rupture (abandon dfinitif d'une activit en
cours de ralisation). Un dialogue commence par une ouverture et
s'achve par une clture. La phase non marque est la continuation
caractre initiatif.
Luzzati [18] dveloppe de son ct un modle de dialogue deux
axes : l'axe rgissant horizontal correspond la recherche d'un accord
(systme questions rponses principales et secondaires) et l'axe incident
vertical rpond aux exigences de clart et d'explication. La mise en uvre
s'appuie ensuite sur des variables d'avancement, de profondeur,
d'incidence et d'cartement.
10
11
marquent la position (et parfois les raisons de) du locuteur par rapport
son interlocuteur.
Un change, pris dans sa globalit, peut tre lui-mme initiatif (change
de politesses par ex.) ou ractif ou valuatif ou conclusif. Dans un
change complet il peut y avoir tout ou partie de ces divers types
dchanges.
Exemple (cit de [19]) :
L : Quand voulez-vous partir ? (1) Intervention initiative
A : Le 13 novembre
(2) Intervention ractive
L : Le 13 novembre...
(3) Intervention valuative
quelle heure ?
(4) Intervention initiative
A : Non, le 20 novembre !
(5) Intervention valuative (3)
10 heures
(6) Intervention ractive (4)
Dans cet change complet, (3)+(5) est un change valuatif et (4)+(6)
un change ractif. Ces deux changes sont imbriqus. La clture est ici
implicite, le locuteur ayant obtenu les renseignements quil demandait.
Les limites de ce modle proviennent de la difficult dinterprter les
fonctions des actes : (6) est une raction (4) car (4) est une demande et
(6) une rponse cohrente dans le cadre de la tche sous-tendue par le
dialogue : une demande de renseignement dhoraire de train. On ne peut
donc interprter correctement la squence quau regard de la tche dune
part, mais aussi au regard du but poursuivi par le demandeur (il sagit
pour lui de fournir un billet en consultant une base de donnes et non de
partir lui-mme en train).
Luzzati [23] a tent de dpasser cette rigidit structurelle en proposant
un modle dynamique voluant sur deux axes, laxe rgissant qui est celui
de lavance dans la tche et laxe incident ou axe de clarification, aidant
la comprhension pour une meilleure avance sur laxe rgissant. Il
distingue, pour une application de renseignement, les questions et
rponses principales et secondaires sur laxe rgissant et les questions et
rponses incidentes. Ce modle vise avant tout viter les erreurs
dincomprhension rptition qui risquent de bloquer le dialogue. Il
contrle des variables interactionnelles, qui mesurent les carts laxe
rgissant, et force le retour sur cet axe en cas de trop fort loignement.
12
but (cest particulirement vrai dans les dialogues finaliss), ils se servent
pour cela de plans et de schmas [24], [25], [26], [27], [28], [29], [30],
[31]. Cette approche se situe donc dans le cadre plus gnral de la thorie
de la planification [32]. Par analogie aux actions dun robot pour atteindre
un but, les actes de langage sont des actions faites pour modifier les
mondes de connaissance des interlocuteurs et le monde de la tche.
Lorsquil sagit dun dialogue homme-machine, le rle de la machine est
donc de comprendre le plan de lutilisateur pour laider dans sa tche.
Avant de comprendre le plan du locuteur il sagit bien sr de le
reconnatre puis didentifier les buts restant atteindre et correspondant
aux intentions de lutilisateur. Lapproche est donc schmatiquement la
suivante :
13
le train ait accost au quai, mais on ne peut pas rpondre une question
comme combien de temps faut-il attendre avant dembarquer ?).
Pour dpasser ces limites, Cohen, Allen et Perrault dans leurs travaux
pionniers [24], [25], ont appliqu cette technique de planification
lactivit de dialogue elle-mme. Par exemple, lacte dinformer est un
plan tel que :
INFORM (Speaker, Hearer, P)
Preconditions : speaker knows P (P is true & speaker believes P)
Body : hearer believes speaker wants(hearer knows P)
Effect : hearer knows P
La puissance dun tel modle est vidente : il permet de modliser le
dialogue comme une activit en-soi et de la distinguer de lactivit
dploye pour la tche. Mais les difficults demeurent de reconnatre les
intentions et les buts des locuteurs : que se passe-t-il pour les buts
implicites ? Comment traiter les noncs complexes ciblant plusieurs buts
la fois ? Comment rendre robuste un tel systme plus sensible aux
erreurs de reconnaissance des buts ? Comment savoir quun locuteur veut
savoir quelque chose ? Pour rpondre ces problmes Cohen, Perrault et
Allen introduisent finalement des heuristiques et des techniques de
reconnaissance de plans non indpendantes des plans de la tche.
Dans la continuation de ces travaux, Litman [34] a prsent un modle
qui spare mieux le discours et le domaine dit de sens commun. Pour
modliser le discours elle adopte lapproche de Cohen & all. tandis que
pour le second elle adopte des reprsentations structurelles fondes sur la
notion de focus. Cest ce deuxime niveau, dpendant du domaine, qui
contrle le dialogue. Les plans du discours sont organiss en trois classes :
la classe Continue, qui contient les plans de tches nonlinguistiques, et qui sont en relation avec les plans du domaine,
la classe Clarification, qui contient les plans voqus en cas
dincomprhension, dimpasse, etc.
la classe Topic, qui contient des plans dtape du dialogue,
comme Introduce-Plan, pour la phase douverture par exemple.
Son approche est alors deux niveaux : plans et mta-plans.
14
15
un tat mental (ou tat intentionnel), et un tat mental est un plan. Nous
avons donc :
ETAT-MENTAL(Intention)
Pr-conditions : croyances et connaissances mutuelles
Effets : plan daction
Avec ce niveau de reprsentation il est facile pour une intention
donne, de vrifier les pr-conditions pour activer ou non un plan
daction. Cest ce qui permet B de donner le bon niveau de rponse A
dans lexemple ci-dessus plutt que de poursuivre un plan en impasse
(comme tenter de rechercher le numro de tlphone en ayant peut-tre
demand A dpeler le prnom par exemple). Cette modlisation est trs
sophistique mais se heurte la difficult de description de tous les cas
possibles pour des applications pratiques. Il est pratiquement impossible
davoir une bonne couverture et une bonne efficacit pour dvelopper de
nouvelles applications.
Plus rcemment Sadek [38] a mis au point un type de modle pour des
applications pratiques (projet ARTIMIS) en dfinissant les principes dun
agent rationnel dialoguant. Cet agent a des capacits de ngociation
permettant une trs grande flexibilit dans linteraction : il suit le dialogue
en autorisant les incidences, reprises, explications, demandes daide, etc.
tout en ne perdant pas de vue le but final. Il doit donc la fois avoir des
ractions coopratives et prendre des initiatives dans la tche, un systme
de dialogue intelligent doit en fait, tre un systme intelligent qui
dialogue. Sadek rajoute : ce systme doit avoir un comportement
rationnel [39]. Cela lamne dfinir un cadre logique complet apte
rendre compte dtats mentaux. Nous ne dtaillerons pas ce modle ici,
dans la mesure o il a t dj expos aux journes du GdR I3.
16
17
18
19
20
On peut alors dfinir les types de stratgies suivants [48] (on se place
dans la suite, du point de vue de lallocutaire B) :
1. Stratgie ractive
Consiste pour B dlguer linitiative A soit en lui faisant endosser
son but (cas de demande daide ou dassistance), soit en adoptant son but
(cas du serviteur). Le droulement du dialogue se fait :
en maintenant le but de lchange, mais sans prendre dinitiative,
en abandonnant son propre but bB ou en le faisant passer sous la
dpendance de bA.
Le sens dajustement est alors bB bA
2. Stratgie directive
Consiste pour B garder linitiative pour conduire le dialogue :
en maintenant le but de lchange et en gardant linitiative,
en imposant son but bB, (donc on cherche ce que bf=bB)
en ignorant ventuellement celui du locuteur bA, qui est donc en
quelque sorte considr comme inexistant
Cela a pour consquence d'imposer une rponse ractive ou ngocie
A, et de limiter ainsi la varit de ses stratgies.
3. Stratgie constructive (ou du dtour)
Consiste dplacer le but courant momentanment afin de provoquer
un dtour (suppos constructif) qui nest pas ncessairement une
incidence, par exemple pour faire remarquer un oubli, une erreur, faire
une citation, rappeler un fait ancien, une exprience, etc. :
le but courant est mis en attente, ainsi que les buts initiaux,
un nouveau but b est pos,
linitiative peut tre partage.
Contrairement une incidence, un dtour ne ramne pas
ncessairement lchange initial, il peut laisser la conversation en
suspens ou conduire un autre dtour1.
21
4. Stratgie de coopration
Consiste tenir compte du but de son interlocuteur en lui proposant
une (ou des) solution(s) qui les amnent tous deux atteindre leurs buts, si
ces derniers ne sont pas incompatibles :
cela amne drouler un processus complexe valuer la
situation, prsenter une explication, ventuellement des
exemples, des aides ou des arguments pertinents et offrir un
choix ferm (parce que plus facile au plan cognitif pour la prise
de dcision), en maximisant lespace de concession,
en procdant par recherche dun optimum dans un espace de
possibles,
en accompagnant linterlocuteur jusqu la solution,
en largissant le but conversationnel si ncessaire,
5. Stratgie de ngociation
La ngociation peut se produire dans une situation o les buts sont
incompatibles et que les interlocuteurs veulent minimiser les concessions.
La ngociation procde sur un schma assez classique, par des squences
argumentatives (argumentation/rfutation) avec proposition dune solution
sous-optimale jusqu convergence ou constat dchec. La tactique locale
est de :
tenter dimposer son but ou accepter un compromis,
maintenir le but conversationnel,
pousser la ngociation le plus loin possible jusqu un but
acceptable bf,
Efficacit de la stratgie : une stratgie est efficace si la vitesse de
convergence des actes de parole vers le but final est optimale. Le critre
d'efficacit qui s'en dduit, est de rduire au maximum chaque tour de
parole, la distance au but final (il peut cependant y avoir des cartements
locaux pour viter de tomber dans des impasses ou provoquer des checs).
La pertinence dun acte de dialogue nonc linstant t par A (et donc
de la stratgie associe), est relative au but poursuivi par A mais aussi
relative pour B, au but que B poursuit de son ct. On distingue donc
deux cas, (a) partage et (b) concurrence :
dans le cas o le but est partag, la pertinence dun acte A de A
ladresse de B, doit amener A et B dans une situation de convergence (ou
les maintenir dans cette situation sils y taient dj) et contribuer les
rapprocher du but final,
22
dans le cas o le but nest pas partag, on doit distinguer une srie de
scnarios possibles :
(a) soit A et B engagent une ngociation qui peut russir ou chouer, du
point de vue de lun ou de lautre (ou des deux),
(b) soit A et B restent sur leurs positions car lun des deux a abandonn
son but au profit de lautre ou a fait un dtour ;
dans les deux cas, la stratgie de A vis--vis de B est alors darriver
bA ou dempcher que B narrive bB. La pertinence des actions de A
peut prendre alors un sens ngatif pour B. Nous appelons cette pertinence
pertinence transactionnelle. Elle prend une valeur comprise entre 0 et 1 et
peut tre dfinie comme suit :
pertinence constructive :
Pc{A} = exp{-d[bA,effet(A)]}
o d est une distance2 qui mesure lcart entre le but recherch par A
et le but atteint par leffet de lacte A ; il suffit de considrer les effets
potentiels de lacte A pour juger de la pertinence et non de son excution
relle, puisquelle est relative au but de lnonciateur seul.
pertinence obstructive :
P~c{A} = 1-exp{-d[bB, effet(A)]}
ici A soppose la ralisation du but bB de B. d est une distance qui
mesure lcart entre le but recherch par B et le but atteint par leffet de
lacte A ; si cette distance est grande, lacte A aura t pertinent
puisquil loigne B de son but.
La conduite du jeu se fait alors chaque instant pour A en maximisant
Pc{A} et en maximisant P~c{A}. Les deux objectifs tant rarement
atteints simultanment il faut chercher un point dquilibre (dit quilibre
de Nash).
4 DISCUSSION GENERALE
Nous avons parcouru un ensemble de modles, des plus rigides aux
plus souples. Les plus rigides sappuient sur la structure du dialogue et
appellent des traitements descendants, les plus souples tentent de
sadapter au plus bas niveau des actes dialogiques, considrant le dialogue
2
La distance peut se mesurer par exemple en nombre de tours de parole pour atteindre le
but.
23
comme un jeu ayant ses rgles et ses stratgies. Entre les deux se trouvent
des modles qui empruntent des mta-structures comme les plans et qui
projettent les actes sur dautres reprsentations comme les tats mentaux
ou les intentions, pour trouver un appui fonctionnel.
Les mthodes structurelles sont des mthodes essentiellement
descriptives et fonctionnelles, elles modlisent le comment dialoguer mais
non le pourquoi des intentions. Il nest pas possible de savoir quel but
poursuit le locuteur, ni quelle stratgie mettre en place pour amliorer
linteraction. Il est difficile galement de modliser des dialogues de
ngociation, ncessitant un niveau dargumentation volu. Cependant la
ralisation dapplications de DHM est relativement aise avec ces
mthodes qui peuvent tre implmentes par des automates et utiliser des
outils gnraux existants base de grammaires. De nombreux modles de
DHM ont t implments avec cette technique pour des applications de
renseignement. Mais ils montrent rapidement leurs limites dans des tches
dites innovatives qui ncessitent de nombreuses incidences, reprises,
mises en attente, et ngociations. Le plan daction ne peut pas tre
reprsent en extension dans ce type de tche, il en rsulte de nombreux
inattendus dialogiques et des ruptures qui d-structurent le dialogue.
Avec les modles de planification et les modles mentaux, on suppose
que les interlocuteurs construisent leurs dialogues autour dactions
coordonnes, en respectant des conventions normalises. On suppose en
gnral que le dialogue est la fois constructif (il conduit la
construction dun but partir des objectifs des interlocuteurs et
lenrichissement des connaissances mutuelles) et co-interactif (les acteurs
coordonnent leurs actions pour aboutir un certain but). La logique de
dialogue dveloppe est double, actionnelle et pistmique pour traduire
les hypothses sur les tats mentaux des conversants en terme de
croyances et dengagement. Les tats mentaux rsument ltat de
connaissance (croire), le contexte de laction (faire), les choix (pouvoir,
devoir) et les engagements (vouloir). A chaque instant du droulement du
dialogue, le modle fait lhypothse que le dialogue est dirig par les tats
mentaux qui sous-tendent les actes (intentions, choix, engagements, etc.).
Lapproche gnrale de ces modles est fonde sur la rationalit. On
suppose que les conversants sont conscients des buts quils poursuivent
(leurs dsirs sont rationaliss), matrisent les connaissances dont ils
disposent (ils savent les valuer, les faire partager, les remettre en
question, les rendre mutuelles, etc.) et respectent les conventions sociales
[4], [5] travers les rles quils jouent (et dont ils ont aussi conscience).
Dans le cadre du dialogue humain, on peut trouver une telle modlisation
trs limitative : elle ne fait pas, en effet, la place aux inattendus (la
24
5 CONCLUSION
Nous avons montr que toutes les thories de dpart empruntes au
monde pluridisciplinaire des sciences du langage et de la communication
ont t galement fcondes pour modliser le dialogue. Les chercheurs en
IA ont tent de combiner ces thories pour obtenir des modles efficaces
en empruntant des techniques et des paradigmes trs divers allant des
automates la logique en passant par la planification.
6 RFRENCES
[1]
[2]
25
[3]
[7]
[8]
[9]
1970.
[10] J. Searle, Speech Acts. Cambridge University Press, UK., 1969. traduit de
langlais Actes de langage, Hermann ed., Paris, 1972.
[11] J Searle, Intentionality. Cambridge: Cambridge University Press, 1983.
[12] J. Searle, D. Vanderveken, Foundations in illocutionary logic. Cambridge
University Press, 1985.
[13] H.P. Grice, Logic and Conversation. in P. Cole and J.L. Morgan eds. Syntax
and Semantics, vol. 3, Academic Press, p. 41-58,1975.
[14] D. Sperber, D. Wilson, Relevance : communication and cognition. Basil
Blackwell ed., Oxford, 1986.
[15] E. Roulet, Larticulation du discours en franais contemporain. Peter Lang
d., Berne, 1985.
[16] J. Moeschler, Modlisation du dialogue, reprsentation de l'infrence
argumentative. Herms d., 1989.
[17] J.
encyclopdique
de
26
du
GdR-PRC
27
1990.
[48] J. Caelen, A.L. Frchet. Attitudes cognitives et actes de langage. in
Du dialogue, Recherches sur la philosophie du langage, Vrin d., Paris,
n14, p. 19-48, 1992.
28