Sie sind auf Seite 1von 17

Chapitre 11

Construction sociale du sens

1. Des robots qui apprennent à parler

Faire parler les robots est un vieux rêve d’ingénieur. L’histoire des machines
parlantes se caractérise par une longue liste de projets inaboutis. Si, aujourd’hui,
construire une machine qui sache parler ou qui comprenne une langue humaine
semble un objectif irraisonnable, un petit nombre de chercheurs développe, depuis
une dizaine d’années, une approche alternative : il ne s’agirait plus de construire des
robots qui parlent, mais des robots qui apprennent à parler.

La plupart des travaux de ce domaine de recherche concerne le cas d’un robot


apprenant auprès d’un « tuteur » humain. Pour qu’un robot soit capable de participer
à une interaction langagière à propos de ce qu’il perçoit dans son environnement, il
doit déjà posséder un certain nombre de caractéristiques. Cynthia Breazeal a étudié
une partie de ces pré requis (mécanisme de partage de l’attention, gestion des tours
de parole, reconnaissance et expression de certains états émotionnels) en
construisant une tête robotique autonome capable d’interactions non langagières
avec son entourage (Breazeal, 2000). D’autres chercheurs ont préféré simplifier
l’environnement d’interactions pour étudier de manière plus approfondie les
mécanismes permettant à un robot d’acquérir le sens d’un mot prononcé (Roy, 1999)
ou les premiers rudiments d’une grammaire (Steels, 1998).

Parallèlement à ces recherches et dans la continuité des travaux présentés par


Popescu-Belis au chapitre précédent, certains chercheurs ont étudié la manière dont

Chapitre rédigé par Frédéric KAPLAN.


Approche dynamique de la cognition artificielle

des robots peuvent s’accorder ensemble sur le sens des mots qu’ils utilisent (Yanco
et Stein, 1993 ; Billard, 1997 ; Vogt, 2000 ; Kaplan, 2001). Dans ces expériences,
une dynamique collective supplémentaire vient s’ajouter au mécanisme qui permet
la construction du sens par le robot en fonction de son expérience. Pour qu’un mot
soit utilisé, il ne suffit pas qu’il ait un sens pour le robot, il faut que le sens soit
partagé par les autres robots de la population.

Ces deux types de dynamique vont être illustrés dans ce chapitre. Nous allons
d’abord montrer comment un robot peut effectivement apprendre au contact d’un
humain à nommer certains objets de son environnement. Dans l’expérience que nous
décrivons, la manière dont le robot utilise les mots qu’il a appris est le résultat de
son histoire perceptive et sociale. En conséquence, deux robots, parce qu’ils ont
deux histoires différentes, développent souvent des représentations différentes.

Nous nous demanderons donc, dans un second temps, si de tels robots sont
capables de se mettre d’accord sur l’usage de certains mots. Puisque les robots
catégorisent leur monde de manières différentes les uns des autres, le sens d’un mot
ne saurait être transmis directement d’un robot à l’autre par “ télépathie ”. Nous
montrerons comment par une forme de négociation, les robots convergent vers un
usage des mots suffisamment similaire pour leur permettre de se comprendre dans
les tâches qu’ils ont à accomplir.

2. La construction médiée du sens

2.1. Sens, usage et jeux de langage

Que voudrait dire pour un robot d’acquérir le sens d’un mot ? Le sens est cette
chose inobservable qui relie un mot à son contexte d’utilisation. Si le mot peut assez
facilement se définir comme la catégorisation d’une forme sonore, le contexte lui
est bien plus flou. Il peut recouvrir l’environnement dans lequel le mot est produit,
mais aussi tous les évènements qui ont précédé ou vont suivre sa production.

Pour savoir si un robot connaît le sens d’un mot, nous serions tentés de
simplement regarder les “ représentations ” auxquelles ce mot est associé. Mais dans
la plupart des cas, les représentations construites dynamiquement par le robot ne
sont pas facilement interprétables d’un point de vue extérieur, elles ne « font sens »
que pour le robot lui-même. En pratique, nous considérons qu’un robot connaît le
sens d’un mot s'il l’utilise à bon escient. C’est donc l’usage, la manière dont la
production semble reliée au contexte, qui sera important pour nous. Le mécanisme
interne qui, depuis l’analyse du contexte, conduit à la production du mot ne saurait
constituer en tant que tel le critère de validité. Il est d’ailleurs possible qu’un tel
Construction sociale du sens

mécanisme ne fasse à aucun moment appel à des “ représentations ” quelconques


(Brooks, 1999).

Puisque notre robot apprend avant tout l’usage d’un mot, la notion de son sens
n’aura donc de valeur que comme partie d’une interaction linguistique plus large.
Cette approche de la langue s’inscrit dans la démarche développée par Wittgenstein
dans sa seconde doctrine (Wittgenstein, 1953). Pour le philosophe autrichien, c’est
au cours de jeux de langage que le sens des mots se forme. Apprendre une langue,
c’est apprendre à jouer de manière correcte à ces jeux et rien de plus1. Dans ce
chapitre, nous utiliserons nous aussi un formalisme basé sur cette notion de jeux de
langage (Steels, 2001). Nous en rencontrerons deux exemples très simples. Le
premier s’appelle le jeu de classification, en voici les règles :

Le Jeu de Classification

2 participants (le médiateur, l’apprenant)

Coup 1 : Le médiateur essaie de partager l’attention avec l’apprenant. Il lui montre un objet et
demande de le nommer.
Coup 2 : L’apprenant essaie de répondre
Coup 3 : Si la réponse satisfait le médiateur, il félicite l’apprenant, sinon il peut suggérer le mot
qui selon lui convient.

Nous jouons ce genre de jeu avec les jeunes enfants, lorsque nous voulons leur
apprendre le sens de mots nouveaux. Dans l’expérience que nous allons décrire, un
robot jouera le rôle de l’apprenant et son propriétaire celui du médiateur. Nous
utilisons le terme médiateur plutôt que professeur car le médiateur ne peut pas
expliquer directement au robot les différents mots qu’il veut lui apprendre (Steels et
Kaplan, 2002). C’est le robot qui construit seul les moyens pour appréhender le
monde qu’il perçoit. Comme nous allons le voir, le médiateur n’est là que pour
l’aider à structurer sa propre réalité.

2.2. Déroulement d’un jeu

Le robot utilisé est une version non commerciale du robot quadrupède AIBO
développée par Sony (Fujita et Kitano, 1998). Dans cette expérience, le robot
continue de se mouvoir de manière autonome. Son comportement est le résultat

1
Des études montrent également que les interactions entre très jeunes enfants
semblent structurées sous forme de jeux (Nadel, 1986).
Approche dynamique de la cognition artificielle

d’une architecture de contrôle complexe. Les actions du robot sont motivées à la fois
par les opportunités présentes dans l’environnement (présence d’une balle, etc.) et
par son propre système de motivations (envie de jouer, envie de se reposer) (Kaplan
et al. 2002).

De manière à ce que le robot puisse participer au jeu de langage , il est doté


d’une couche logicielle supplémentaire responsable de la gestion de l’interaction et
de l’apprentissage . Cette couche “ cognitive ” interfère avec le comportement
autonome standard, sans le contrôler complètement. Dans ce premier prototype, les
calculs relatifs à la couche “ cognitive ” sont réalisés sur un ordinateur séparé relié
au robot par une transmission radio. Ainsi, lors des expériences, le jeu peut être
compromis si le robot rentre par exemple dans une phase “ léthargique ”, perdant
alors tout intérêt pour les interactions avec son entourage.

Figure 1. Différentes étapes dans un jeu de classification

Voici, par exemple, comment peut se dérouler un jeu de classification avec le


robot (Figure 1).

Médiateur [montrant une balle rouge] : Qu’est-ce que c’est ?


Construction sociale du sens

Alors que le robot est en train de marcher dans la pièce, le médiateur tente
d’attirer son attention vers un jouet, par exemple une balle. La réussite de cette
phase, cruciale pour le reste du jeu, est en grande partie dépendante des efforts du
médiateur et des attirances “ naturelles ” pour lesquelles le robot est initialement
programmé (détection et suivi de certaines couleurs, sensibilité aux objets qui
bougent, etc.). Quand le médiateur a l’impression que le robot “ regarde ” la balle, il
lui pose la question “ Qu’est-ce que c’est ? ”.

Robot : Smiley !

Le système de reconnaissance vocale du robot est capable de reconnaître un


certain nombre de phrases et des mots préprogrammés. “ Qu’est-ce que c’est ? ” fait
partie de ce répertoire. En détectant cette phrase, le robot déduit que le médiateur est
en train de jouer à un jeu de classification. Après avoir analysé l’image, il répond
selon l’état actuel de son mécanisme d’apprentissage (voir plus loin), le mot qui lui
semble le plus approprié dans ce contexte2. Dans cet exemple, c’est le mot
“ Smiley ”, appris quelques jeux plus tôt à propos d’un autre de ses jouets.

Médiateur : Non ! C’est une balle.

Le médiateur corrige alors le robot . Le robot connaît un certain nombre de


phrases clefs comme “ Non ” ou “ Ce n’est pas ça ”. Il peut aussi détecter par la
simple analyse de la prosodie du signal perçu s’il s’agit d’un encouragement ou
d’une correction. Le médiateur propose ensuite un mot alternatif.

Robot : Balle ?

Pour cette expérience, l’ensemble des mots possibles est connu par le système de
reconnaissance vocal du robot . Dans d’autres prototypes, des mots totalement
nouveaux peuvent être appris (Fujita et al, 2001). Dans tous les cas, il est
souhaitable, compte tenu des nombreuses erreurs qui peuvent intervenir lors de
l’analyse du son perçu que le robot répète le mot qui lui semble le plus probable.

Médiateur : Oui

Après confirmation par le médiateur, le jeu s’achève et cette nouvelle expérience


peut être utilisée par le robot pour modifier son comportement futur.

2
Le synthétiseur vocal utilise un système “ Text-to-Speech ” similaire à celui décrit
dans (Dutoit, 1997)
Approche dynamique de la cognition artificielle

2.3. Structuration de l’espace perceptif et mécanismes d’apprentissage .

Pour pouvoir répondre à la question “ Qu’est-ce que c’est ? ” le robot doit


analyser le contexte présent et décider, compte tenu de son expérience passée, quel
est le mot le plus approprié. Contrairement à ce que l’on pourrait penser ce ne sont
pas les informations qui manquent au robot. Il a à sa disposition les données
visuelles produites par sa caméra, ses capteurs de distance IR, ses capteurs de
toucher (sous ses pattes et sur la tête), ses capteurs proprioceptifs sur chacun de ses
moteurs qui peuvent le renseigner sur sa propre posture et un certain nombre
d’autres informations sur son “ métabolisme ” (gyroscope, température, etc.)
(Kaplan et al, 2002). Il peut également tenir compte du contexte linguistique qui
précède la question (quels mots ou phrases ont été détectés dans les dernières
minutes). Chacune de ces données brutes peut ensuite être traitée. L’image peut être
segmentée par différentes méthodes ou filtrée par différents procédés. Comme on le
voit, l’espace perceptif du robot est potentiellement immense.

Il n’est pas aisé en tant que concepteurs, de définir, a priori, comment l’espace
perceptif du robot doit être structuré. Nous pouvons voir sur la figure 2, le type de
perception visuelle auquel le robot est confronté. Nous voyons, sur ces images
prises par la caméra du robot, l’influence des différentes conditions lumineuses sur
la perception de l’objet. La balle n’est très souvent vue que partiellement. La plupart
des travaux recherche en vision artificielle se basent sur des environnements
beaucoup plus contrôlés (objets sur fonds uniformes, etc.). Il n’est pas possible
d’imposer des contraintes de ce genre dans ce contexte.

Figure 2. La balle telle qu’elle est perçue par la caméra du robot


Construction sociale du sens

Plusieurs manières de structurer l’espace perceptif du robot ont été comparées.


Une décision importante a été de ne pas effectuer de segmentation automatique des
images. Etant donné le type d’images que le robot perçoit, les algorithmes de
détection de contour, de croissance de régions ou de segmentation par le mouvement
conduisent le plus souvent à des découpages non satisfaisants. Une classification de
l’image dans son ensemble a donc été choisie. Cela veut dire que les objets sont
toujours appris dans un contexte particulier et que ce contexte joue un rôle au moins
aussi grand que l’objet lui-même lors de la classification. Plusieurs observations
empiriques viennent conforter ce choix d’une reconnaissance contextuellement
située de l’objet (Clancey, 1997).

Pour les résultats expérimentaux que nous présentons dans ce chapitre, le robot
n’utilise que la couleur. Deux histogrammes bidimensionnels de dimension 16 sont
construits. Pour le premier, l’image stockée dans le système Rouge/Vert/Bleu est
d’abord normalisée pour diminuer les effets liés aux différences de luminosité
(Finlayson et al, 1998) de manière à ce que pour chaque pixel r+v+b=1.
L’histogramme est ensuite construit à partir des deux dernières composantes (V, B)
(Figure 3.). Pour le second, l’image est convertie dans les coordonnées
Luminance/Hue/Saturation et l’histogramme construit avec les composantes (H, S).
L’usage simultané de ces deux types de codage a donné de meilleures performances
que quand un seul était choisi. Dans ces expériences, une perception visuelle est
donc représentée par un ensemble de 2x16x16 = 512 valeurs. Rappelons qu’il ne
s’agit pas à proprement parler d’une représentation de l’objet, car le robot à ce stade
n’a pas la notion de ce qu’est un objet.

18
16
14
12
10
8
6
4
2 176
0 96 B
16
V

Figure 3. L’histogramme VB associé à une image où la balle est présente


Approche dynamique de la cognition artificielle

Pour apprendre à classifier ses perceptions, le robot peut utiliser un grand


nombre d’algorithmes d’apprentissage. Dans cette expérience, nous avons choisi une
approche du type plus proche voisin qui, malgré sa simplicité, donne de relativement
bons résultats (Witten et Eibe, 2000). Les histogrammes sont comparés en utilisant
la mesure de divergence3 :

(ai - bi )2
c 2 (A,B) = Œ
i (ai + bi )

où ai et bi sont les valeurs des deux histogrammes indexés par i.

Lorsqu’une nouvelle vue doit être classée, elle est comparée à chacune des
instances stockées en mémoire en utilisant cette distance. Le mot associé à la vue la
plus proche est ensuite choisi pour désigner l’objet. Le choix de cette méthode
simple d’apprentissage a été motivé par le fait qu’elle permet dès les premiers
exemples d’effectuer des bonnes classifications. Nous discuterons plus loin ses
limites.

2.4. Résultats expérimentaux.

Une série de sessions expérimentales ont été effectuées sur une semaine. Chaque
jour le médiateur interagissait avec le robot pendant une heure environ pour tenter
de lui apprendre les noms de cinq objets, introduits progressivement un à un. Cinq
jouets de couleurs assez différentes ont été choisis: une balle rouge désignée par le
mot “ ball ”, un “ smiley ” jaune, un jouet imitation d’AIBO appelé “ Poo-chi ”,
une poupée interactive nommée “ Furby ” et un concombre en caoutchouc appelé
“ Cucumber ”. Au fur et à mesure que les nouveaux objets étaient introduits, les
sessions devenaient plus longues afin de s’assurer que les objets précédemment
appris étaient toujours reconnus (Figure 4).

3
D’autres méthodes pour comparer les histogrammes ont été testées par Schiele et
Crowley (Schiele et Crowley, 1996). C’est cette mesure qui semble donner les
meilleurs résultats. Elle est également utilisée par Roy dans ses travaux sur
l’acquisition d’un lexique par un robot (Roy, 1999).
Construction sociale du sens

Figure 4. Les cinq objets sont introduits progressivement un à un, au cours des
six jours de l’expérience.
1 6
SUCCES RENORMALISE

0,9

5
0,8
SUCCES EXPERIMENTAL

0,7
4
N
S 0,6 b
u
c O
c 0,5 3 b
j
e e
s 0,4 OBJETS t
s
2
0,3

0,2
2 3 4 5 1

0,1
JOUR 5 JOUR 6
JOUR 2 JOUR 3 JOUR 4
JOUR 1
0 0
40 120 200 280 360 440 520 600 680 760 840 920 1000 1080 1160 1240 1320
Jeux

Figure 5. Evolution du succès expérimental en classification, ainsi que de sa


valeur renormalisée par rapport au succès d’un humain pour la même tache.
Approche dynamique de la cognition artificielle

La figure 5 montre l’évolution du succès moyen en classification sur les 1400


premiers jeux. Comme on le voit sur la courbe, l’introduction d’un nouvel objet
provoque systématiquement une baisse du succès qui, par la suite, est rattrapée une
fois l’objet appris. Le niveau de classification est très bon pour la classification entre
3 objets, reste bon après l’introduction du quatrième, mais baisse après que le
cinquième objet soit introduit. Trois principales raisons peuvent expliquer cette
baisse relative de performance : (1) une série de mauvaises interventions de la part
du médiateur, (2) l’absence de critère discriminant suffisant, étant donné la
structuration de l’espace perceptif du robot , (3) les limites de l’algorithme
d’apprentissage choisi.

Lors des interactions, le médiateur ne pouvait à aucun moment vérifier ce que le


robot voyait. Comme le robot bouge en permanence, obtenir un bon partage de
l’attention est souvent difficile. Une manière de quantifier les erreurs qui peuvent
être dues à des problèmes de partage de l’attention est de tester les performances
d’un humain qui prendrait la place du robot. Ayant enregistré toutes les images que
le robot a perçues au cours de ses interactions, un test a pu être mis en place : un
humain doit, comme le robot, nommer chacune des images qu’il voit. Après chaque
interaction, la “ bonne ” réponse lui est indiquée. A partir de ces réponses, nous
pouvons construire une courbe directement comparable avec les performances du
robot. En moyenne, un humain fait 76 % d’erreurs sur les images recueillies par le
robot. En effet, sur près d’une image sur quatre, l’objet sensé être le sujet de
l’interaction n’était pas visible4. Nous avons donc indiqué sur la figure 5, une
seconde courbe baptisée succès renormalisé, qui correspond à :
Succèsrobot
Succèsrenormalisé =
Succèshumain

Sur cette nouvelle courbe, il apparaît clairement que les performances du robot
sont presque parfaites, tant que le nombre d’objets est inférieur à 4. Dans ces
premiers jeux, les erreurs étaient effectivement dues à des problèmes de partage de
l’attention. En revanche, la chute du succès quand le nombre d’objets augmente ne
peut pas être entièrement imputée à ce genre de problèmes. Elle est donc sans doute
liée aux choix effectués pour la structuration de l’espace perceptif de robot et pour
son mécanisme d’apprentissage .

Comme nous le disions dans l’introduction, il est toujours difficile de définir a


priori la bonne manière d’organiser les données perceptives pour le robot et de
choisir le bon algorithme pour les classer. Dans un cas comme dans l’autre, il est

4
La qualité du mécanisme permettant le partage de l’attention avec le robot est donc
absolument cruciale. C’est, aujourd’hui, sur cet aspect que les efforts de recherche se
concentrent.
Construction sociale du sens

préférable que ce soit le robot lui-même qui détermine la manière la plus appropriée
de le faire. Une nouvelle méthode est actuellement en développement. Elle permet
au robot de tester en parallèle différents algorithmes et structurations perceptives
afin de déterminer la meilleure approche par rapport à son expérience et aux
situations qu’il rencontre. Le principe est simple. La plupart des algorithmes
classiques d’apprentissage (décision bayesienne, réseaux de neurones , induction de
règles, etc.) et plusieurs manières de structurer son espace perceptif (évaluer la
qualité de chaque dimension et ne garder que le n meilleures, etc.) sont mis à la
disposition du robot. Le robot évalue la qualité de chaque couple (algorithme –
structuration) par validation croisée5 sur sa propre expérience (Witten et Eibe ,
2000).

L’algorithme du plus proche voisin donne de bons résultats dès les premiers
jeux, mais devient moins efficace quand l’expérience du robot croît. D’autres
algorithmes reposant sur une évaluation statistique de chaque classe nécessitent un
nombre important d’exemples avant d’être efficaces. La technique qui consiste à
auto-évaluer la qualité de ces algorithmes pour pouvoir choisir le meilleur en temps
voulu, semble donc très prometteuse. Elle est d’autant plus adaptée à notre cas, car
le robot dispose de longs moments sans interactions où il peut sans difficulté se
livrer à ce genre d’évaluation.

2.5. L’histoire perceptive et sociale du robot

Nous avons voulu montrer, avec cette expérience simple, comment le robot peut
s’y prendre pour construire le sens des mots dits par le médiateur, afin qu’à son tour
il puisse les utiliser d’une manière qui semble appropriée. L’usage qu’il fait de ses
mots ainsi que sa manière de classer ses propres perceptions est le résultat de son
histoire. Cette histoire, unique à chaque robot, est constituée d’interactions liant des
perceptions à des mots. Cette double dimension, à la fois perceptive et sociale est
fondamentale, pour la manière dont le robot construit “ son ” monde. Nous allons
l’illustrer sur un exemple.

Nous pouvons imaginer une autre expérience au cours de laquelle le robot


entreprend de catégoriser ses perceptions indépendamment des mots qu’il entend
pour ensuite se contenter d’associer des “ labels ” aux catégories qu’il a construites.

5
En pratique, l’ensemble des données recueillies au cours de ces interactions est divisé en dix
groupes, chacun contenant environ le même nombre d’interactions. Le robot apprend
virtuellement sur neuf groupes choisis au hasard et évalue les prédictions qu’il peut faire sur
le dixième. En répétant cette opération plusieurs fois, il peut auto-évaluer la qualité de couples
(algorithme-structuration) étant donné sa propre expérience.
Approche dynamique de la cognition artificielle

L’algorithme très simple des k-moyennes ou celui d’ “ Expectation –


Maximisation ”, plus sophistiqué, permettent de déterminer les groupements naturels
présents dans les données perçues6. Cette approche est séduisante : il suffit de laisser
le robot observer son environnement et, sans que nous ayons à intervenir, il construit
les représentations les plus appropriées pour décrire les données qu’il perçoit. Mais
plusieurs expériences montrent que par ces méthodes, le robot est amené à
développer des structures très différentes de celles que nous voulons lui apprendre,
rendant en pratique l’établissement d’une correspondance avec les mots perçus
impossible (Steels et Kaplan, 2002). Ceci n’est d’ailleurs guère surprenant. Il n’y a
pas de raison que le robot puisse développer seul les notions de “ balles ” ou de
“ smiley ”. L’idée qu’il suffirait, pour apprendre un vocabulaire, d’ “étiqueter ” des
notions développées par le robot de manière autonome, ne semble donc pas
raisonnable en pratique.

Pour la construction de catégories appropriées à la communication, il semble


donc clair que l’expérience sociale du robot est au moins aussi fondamentale que
son expérience perceptive. L’action du médiateur consiste à poser verbalement une
structure (chaque mot correspondant à une classe) sur les perceptions du robot
(Kaplan, 1998). Ainsi, le robot tente de construire des représentations et des
mécanismes adaptés, encadré par deux contraintes, l’une, perceptive, fournie par les
données à classer, l’autre, sociale, produite par la structure imposée par le médiateur
sur ces données. Notons cependant que si chaque robot possède une plasticité
suffisante pour redéfinir son espace perceptif et choisir ses algorithmes
d’apprentissage , ces deux contraintes ne conduiront certainement pas à ce que tous
les robots développent le même genre de représentations internes. Deux robots
initialement identiques qui interagiraient avec un même médiateur finiraient peut-
être par désigner les mêmes objets par les mêmes mots. Mais rien ne laisse à penser
qu’ils utiliseraient les mêmes algorithmes de décision pour cela. Le contraire serait
plus probable.

3. La négociation du sens

Dans les exemples précédents, on ne peut pas encore parler de construction


collective, mais plutôt d’une construction médiée, car il n’y a que deux acteurs et
l’un d'eux, le médiateur, n’est que peu enclin à modifier ses propres usages en
fonction des comportements du robot . Nous allons maintenant décrire quels genres

6
Ces algorithmes sont deux techniques classiques utilisées pour l’apprentissage non
supervisé. Chacun permet, par itération successive, de classer au mieux un ensemble de
données en n classes différentes. En faisant varier n, il est possible de déterminer la
classification la plus « naturelle » pour les données. Pour plus d’informations, le lecteur
pourra se référer à (Witten et Eibe, 2000).
Construction sociale du sens

de dynamiques peuvent résulter de l’interaction de plusieurs robots qui joueraient,


tour à tour, les rôles de médiateur et d’apprenant.

3.1 Une population de robots parlants

Les “ Têtes parlantes ” est une expérience à grande échelle qui montre comment
des robots peuvent s’accorder sur l’usage des mots qu’ils utilisent (Kaplan, 2001).
Des couples de robots ont été placés dans des laboratoires et des musées de
différents pays face à des scènes changeantes. Ces installations étaient connectées
les unes aux autres par Internet. Des agents logiciels transportant les connaissances
des différents robots pouvaient se "téléporter" entre chaque plate-forme (McIntyre et
al, 1999). Ce système peut pouvait donc simuler une large population de robots
interagissant les uns avec les autres (environ 3000 dans cette expérience). En
multipliant les plates-formes, il était également possible de s’assurer que les robots
seraient confrontés à des environnements diversifiés et changeants. Pendant plus
d'un an, à Paris, Bruxelles, Anvers, Tokyo, Amsterdam, Londres, Cambridge et
Lausanne, ces robots ont joué un jeu de langage particulier appelé le jeu de
désignation.

Le Jeu de Désignation

2 participants (le demandeur, l’exécutant)

Coup 1 : Le demandeur désigne verbalement l’un des objets présents.


Coup 2 : L’exécutant indique l’objet qu’il pense être désigné.
Coup 3 : Si la réponse satisfait le demandeur, il félicite l’exécutant, sinon il peut indiquer par un
geste l’objet qu’il voulait désigner.

Nous jouons à ce genre de jeu souvent dans la vie courante. Lorsqu’à déjeuner je
demande à un ami de me passer le “vin”, je m’attends à ce qu'il me tende la bouteille
située de l'autre côté de la table. S’il me passe le pain ou s’il me regarde avec un
visage interrogatif (peut-être ne comprend-il pas le Français ?), je lui indiquerai sans
doute, par un geste de la main, l’objet désiré.

3.2 Déroulement d’un jeu

Les robots de cette expérience ont une tête dotée d’une caméra mobile. Ils sont
placés en face d’un tableau blanc magnétique sur lequel sont collées des formes de
différentes couleurs. Les deux robots ne peuvent pas se déplacer, mais en bougeant
leur tête ils peuvent indiquer la direction d’un des objets de la scène. Chaque robot
est calibré au préalable de manière à pouvoir déduire à partir de la position de la tête
de l’autre robot, la manière dont il faut qu’il se tourne pour regarder le même objet.
De cette manière, le partage de l’attention, si difficile lors des expériences avec
AIBO, est grandement facilité.
Approche dynamique de la cognition artificielle

Robot 1 [sans tourner la tête] : Boxiro !

Le robot demandeur choisit une des formes présentes dans son champ de vision,
après avoir segmenté la scène. Dans les conditions de l’expérience (objets
monochromes sur fond blanc) un algorithme simple de segmentation permet
d’obtenir des résultats suffisamment bons. Il analyse les différences de cette forme
par rapport aux autres présentes dans son champ de vision. Son espace perceptif lui
permet d’utiliser les différences de couleurs, de formes ou de positions pour choisir
un ensemble de critères discriminants. A cet ensemble de critères peut se trouver
déjà associé un ou plusieurs mots, appris dans des interactions antérieures. Si ce
n’est pas le cas, le robot peut en créer un en combinant de manière aléatoire des
consoles et des voyelles. Si plusieurs mots sont possibles, il choisira celui qui, dans
le passé, a conduit au plus de succès dans ce jeu. Pour notre exemple, disons que le
robot voulant désigner un objet rouge en haut à gauche, a choisi de le catégoriser par
sa couleur comprise dans une région particulière de l’espace RVB. Il a déjà un mot
pour cette région, c’est “ Boxiro ”.

Robot 2 pointe avec sa tête à droite, en direction d’ un objet vert.

Le robot exécutant connaît le mot “ Boxiro ”, mais il l’utilise en général pour les
objets se trouvant sur la droite de son champ de vision. Or il se trouve qu’à droite, il
a un objet vert. Il dirige donc sa tête dans cette direction, indiquant ainsi au robot 1,
l’objet qu’il croit que ce dernier désigne.

Robot1 dit “ No ! ” puis tourne sa tête en direction de l’objet rouge.

Le robot demandeur analyse le mouvement du robot exécutant, et constate son


erreur de compréhension. Il lui indique par un signal verbal que ce n’est pas ce qu’il
attendait puis de manière gestuelle montre l’objet qu’il voulait désigner.

Robot 2 regarde en direction de l’objet rouge.

Le robot exécutant, ayant changé sa caméra de position, analyse la scène


comme l’avait fait le demandeur au début du jeu et construit un ensemble de critères
discriminants lui permettant de caractériser l’objet rouge. Il suppose alors que
“ Boxiro ” fait, par exemple, référence à un domaine particulier dans l’espace des
couleurs.

Ainsi, par ce genre de mécanismes, l’usage d’un mot est négocié entre les
participants. S’il s’avère qu’une majorité de robots utilise le mot “ Boxiro ” pour
désigner les objets de couleur rouge, c’est cet usage qui s’imposera.
Construction sociale du sens

3.3 Résultats expérimentaux

L’ensemble des résultats de cette étude est décrit en détail dans (Kaplan, 2001),
nous nous contenterons ici d’en dégager les éléments les plus importants. Au bout de
quelques mois, un lexique commun est apparu. Avec une vingtaine de mots, les
robots ont réussi à désigner, avec un minimum d'ambiguïté, chaque élément des
scènes qui leur étaient présentées. En analysant les systèmes de catégories
construits, on s'apercevait qu'à chacun de ces mots correspondaient des notions de
couleurs, de formes ou de positions, relativement uniformes entre les robots. Sans
communication, les robots auraient construit des systèmes tous différents. Par ces
jeux de langage , les robots ont exercé les uns sur les autres une médiation du même
ordre que celle que nous avons étudiée entre l’AIBO et son propriétaire. Cette co-
médiation les a conduits à organiser leur espace perceptif de manière similaire.

Mais les systèmes de catégories ainsi construits ne sont pas restés figés pour
autant. Au fur et à mesure que de nouveaux robots ont rejoint la population, une
forme de sélection culturelle a opéré. En effet, certaines catégories, parce qu'elles
ont été plus simples à construire ou parce qu'elles se sont révélées plus efficaces
pour désigner sans ambiguïté certains groupes d'objets, ont été implicitement
favorisées dans la transmission culturelle vers les nouvelles générations de robots.
Progressivement, les systèmes de catégories se sont régularisés et simplifiés pour
devenir plus faciles à apprendre, plus faciles à transmettre et plus efficaces pour
décrire sans ambiguïté les environnements auxquels les robots étaient confrontés.

Cependant, même au terme de l'expérience, les robots n'ont pas convergé vers
des systèmes uniformément partagés. Le mot "Bozopite", par exemple, est un des
mots les plus utilisés dans le lexique final. Les robots s'en servent pour désigner
certains objets et sont presque toujours compris. Pourtant pour un premier ensemble
de robots, ce mot s’applique aux objets de grande surface, et pour d'autres, il est
utilisé pour les objets de grande largeur. Comme il était difficile de rencontrer des
situations pour lesquelles cette confusion pouvait apparaître (les objets "grands"
étant souvent "larges") l’ambiguïté a pu se maintenir. Pour la lever, il aurait fallu,
montrer aux robots un tableau avec des objets hauts et étroits. Notons que l'on
retrouve en partie ce genre d'ambiguïtés dans les langues naturelles : en anglais, le
sens premier du mot "large" est [de grande surface], alors qu'en français "large"
désigne plutôt [de grande largeur].

4. Conclusion

Nous avons d’abord exposé comment un robot pouvait apprendre auprès d’un
humain à nommer des objets qu’on lui présentait un à un. Nous avons ensuite
montré comment une population de robots pouvait négocier l’usage de mots
Approche dynamique de la cognition artificielle

inventés pour pouvoir par la suite désigner verbalement et sans ambiguïté des objets
dans une scène. Peut-être peut-on déjà parler à ce stade de l’émergence d’un
phénomène « culturel ». En interagissant entre eux et avec les humains, ces robots
entreprennent une construction qui les dépasse : les premiers mots d’une langue. Si
cette langue reste modeste à bien des égards, les dynamiques collectives qui assurent
sa construction ont déjà des effets remarquables. En particulier, dans les deux cas
que nous avons examinés, l’apprentissage de ces premiers mots a un effet important
sur la manière dont les robots structurent leurs perceptions. Livré à lui-même, le
robot apprenant ne développe pas la même manière de classer les objets que s’il est
guidé par le médiateur humain et, en devenant tour à tour médiateurs les uns des
autres, les robots construisent peu à peu des catégories semblables. Ainsi,
collectivement, alors qu’ils s’accordent sur l’usage des mots qu’ils utilisent, ils
construisent ensemble une manière commune de voir le monde.

Observer la manière dont ces robots construisent ces embryons de langues


artificielles peut s’avérer très utile pour mieux comprendre aussi bien l’origine et
l’évolution des langues humaines que le développement du langage chez l’enfant.
La langue que pourront développer ces robots ne sera jamais la nôtre, car les robots
ont une manière de percevoir et d’agir sur le monde qui leur est propre. Mais peut-
être pourrait-on voir dans ces phénomènes artificiels la langue telle qu’elle pourrait
être si nous partagions les mêmes contraintes physiques et environnementales que
les robots. A ce titre, ces expériences peuvent constituer une contribution précieuse
pour notre compréhension de ces phénomènes naturels collectifs.

5. Bibliographie
Billard, A. et Dautenhahn, K. (1997) Grounding communication in situated, social robots . In
Towards Intelligent Mobile Robots (TIMR), published in the Technical Report Series of
the Department of Computer Science, Manchester University
Breazeal, C. (2000) , Sociable Machines : Expressive social exchange between humans and
robots , Ph.D Thesis, MIT.
Brooks, R.. (1999) Cambrian intelligence : the early history of the new AI, Cambridge, MA. :
The MIT Press.
Clancey, W.J.,(1997) Situated cognition : On human knowledge and computer
representations, Cambridge : Cambridge University Press.
Dutoit, T. (1997) An introduction to Text-to-Speech synthesis, Dordrecht : Kluwer Academic
Publishers.
Finlayson, G., Schiele, B., Crowley, J. (1998) Comprehensive colour image normalisation,
Proceedings of ECCV’98, Fifth European Conference on Computer Vision, vol. II (p.475-
490), Frieburg.
Construction sociale du sens

Fujita, M., Kitano, H. (1998) Development of an autonomous quadruped robot for robot
entertainment, Autonomous robots, 5.
Fujita, M., Costa, G., Takagi, T., Hasegawa, R., Yokono, J., Shimomura, H. (2001)
Experimental results of emotionally grounded symbol acquisition by four-legged robot ,
in Muller, J. (ed.) Proceedings of Autonomous Agents 2001.
Kaplan, F. (1998) A new approach to class formation in multi-agent simulations of language
evolution, in Demazeau, Y. (ed.). Proceedings of the third international conference on
multi-agent systems (ICMAS 98) (p.158-165), Los Alamitos, CA: IEEE Computer
Society.
Kaplan, F. (2001) La naissance d’une langue chez les robots , Paris : Hermès Sciences
Publications.
Kaplan, F., Fujita, M., Doi, T. (2002) Dans les entrailles du chien AIBO, La Recherche 350–
numéro spécial “Les nouveaux robots ” (p.84-86).
Kegl, J., Senghas, A., Coppola, M. (1999) Creation through contact : sign language
emergence and sign language change in Nicaragua, in DeGraff, M. (ed)., Langage
creation and language change (p. 179-237), Cambridge, MA : The MIT Press.
McIntyre, A., Steels, L., Kaplan, F. (1999) Net-mobile embodied agents , in Sony Research
Forum 1999, Tokyo.
Nadel, J. (1986) Imitation et communication entre jeunes enfants, Paris : Presses
Universitaires de France.
Roy, D. (1999) Learning from sights and sounds: a computational model, Ph.D Thesis, MIT
media lab.
Schiele, B., Crowley, J. (1996) Probabilistic object recognition using multidimensional
receptive field histograms, Proceedings of ICPR’96, 13th International Conference on
Pattern Recognition, Volume B, (p. 50-54).
Steels, L. (1998), The origins of syntax in visually grounded robotic agents, Artificial
Intelligence, 103, (p.1-24).
Steels, L. (2001) Language games for autonomous robots , IEEE Intelligent Systems, (p.17-
22).
Steels, L., Kaplan, F. (2002), “ AIBO’s first words”, Evolution of communication (4) 1, 2002.
Vogt, P. (2000) Lexicon grounding on mobile robots , Ph.D thesis, Vrije Universiteit Brussel.
Wittgenstein, L. (1953) Philosophical investigations, New York :Macmillan.
Witten, I.H., Eibe, F. (2000) Data Mining, Morgan Kaufmann Publishers.
Yanco, H. et Stein, L. (1993) An adaptive communication protocol for cooperating mobile
robots . In Meyer, J.-A., Roitblat, H., et Wilson, S. (eds.), From animals to animats 2:
Proceedings of the second international conference on the simulation of adaptive
behavior, pages 478--485, Cambridge, MA :The MIT Press.

Das könnte Ihnen auch gefallen