Sie sind auf Seite 1von 8

Un robot curieux

Un robot apprend dcouvrir son environnement de faon autonome, grce un nouveau systme de motivation : la curiosit. Frdric Kaplan et Pierre-Yves Oudeyer

ujourdhui, certains robots reconnaissent plusieurs milliers de mots. Pour autant, ils nen comprennent pas le sens et sont incapables den apprendre de nouveaux. En gnral, les mots reconnus par le robot partir de signaux sonores sont associs des systmes de commande dfinis lavance par les programmeurs, similaires ceux qui lui permettent deffectuer une danse ou daller chercher un objet. Depuis plusieurs annes, nous tentons daller au-del de cette limitation et nous tudions si un robot peut apprendre reconnatre et nommer les objets qui lentourent sans quils ne soient dj inscrits dans sa mmoire . Peut-on utiliser un systme dapprentissage classique ? Ne suffirait-il pas de programmer le robot pour quil associe les caractristiques des images observes avec les squences sonores quil entend ? Il pourrait alors par exemple associer la forme arrondie dune balle avec le son du mot balle ou une gamme de couleurs particulire avec le mot rouge. En accumulant les exemples, le robot russirait peut-tre prdire les contextes dans lesquels chaque mot sapplique. Est-ce aussi simple dapprendre parler ? Nos recherches nous ont conduits rpondre ces questions par la ngative. En effet, nous nous sommes heurts un obstacle: pour apprendre parler, un robot doit porter son attention sur des objets quil ne connat pas encore. Pourquoi sintresseraitil ces objets ? Pourrait-on le doter dune forme de curiosit ? Pour mener bien nos recherches, nous nous sommes inspirs des travaux raliss en psychologie, en pdagogie et en statistiques. Nous verrons que la curiosit du robot est lie lacquisition de nouvelles comptences, et nous prciserons comment nous avons invent un robot motiv pour dcouvrir son environnement de faon autonome.

1. Le robot AIBO est utilis depuis de nombreuses annes comme un outil de recherche en intelligence artificielle. Celui des auteurs est aujourdhui dot dun systme de curiosit qui lui permet de dcouvrir seul son environnement.

32

POUR LA SCIENCE - N 348 OCTOBRE 2006

Sony

Nous avons utilis le robot AIBO dvelopp pendant de nombreuses annes par la Socit SONY. Ce robot est quip dun ordinateur, de nombreux capteurs et de moteurs qui actionnent sa tte, sa bouche, ses pattes, ses oreilles et sa queue (voir la figure 3). Son comportement est contrl par lordinateur reli ces capteurs et actionneurs. En gnral, des algorithmes dapprentissage permettent au robot dapprendre raliser une tche particulire dfinie lavance par lexprimentateur, par exemple tourner sur lui-mme. Le robot tente un mouvement, le rsultat est compar avec celui quil doit raliser, et le mouvement est recalcul pour quil se rapproche au mieux de lobjectif. Lapproche que nous allons dcrire est fondamentalement diffrente : un robot curieux choisit lui-mme ce quil explore, puis apprendra, et devient capable non plus de matriser une tche, mais une succession de tches de complexit croissante.

Des mots vides de sens


En 1999, nous avons commenc une srie dexpriences pour explorer la faon dont une machine peut apprendre des mots associs aux objets qui lentourent, en interagissant avec un tre humain. Tous les matins, nous montrions au robot, pendant une demi-heure, des objets de couleur et de forme diffrentes. Nous changions denvironnement chaque jour (pice claire ou sombre, par exemple) afin que le robot voie chaque objet dans diffrentes conditions. Pour ces expriences, nous utilisions un systme dapprentissage simple et efficace: lapprentissage par prototypes (voir lencadr de la page 36). Pour prdire le mot associ un objet dans une nouvelle situation une balle prsente dans lobscurit par exemple , le robot comparait les caractristiques visuelles de lobjet celles rencontres au pralable, et il choisissait le mot retenu dans la situation la plus similaire. Le robot a pu matriser une dizaine de mots correspondant des objets facilement identifiables par leur couleur et leur forme. Les performances dapprentissage taient satisfaisantes (entre 70 et 80 pour cent de russite), mais elles devenaient vite mdiocres ds lintroduction dobjets supplmentaires. Ainsi, cette approche ntait pas gnralisable. Examinons pourquoi. En analysant les images et les sons des exemples accumuls par le robot durant ces expriences, nous avons remarqu que le robot ne portait pas son attention l o nous le souhaitions. Dans certains exemples, lobjet que nous lui montrions napparaissait mme pas dans son champ de vision. Quand nous disions le mot balle en lui montrant une balle, sa camra fixait autre chose : le robot mmorisait des expriences o ce mot tait associ la moquette, au tapis ou une ombre sur le sol. Difficile dapprendre dans

POUR LA SCIENCE - Intelligence

artificielle

33

ces conditions. Or les techniques dapprentissage automatique ne limitaient pas les performances du robot et ne lempchaient pas dapprendre parler : si nous utilisions lalgorithme dapprentissage en lui donnant manuellement les bonnes images associes aux bons sons, le robot apprenait bien. Le problme rsidait dans le fait que le robot ne voyait pas la mme chose que nous quand nous prononcions un mot : il ne portait pas son attention l o nous souhaitions quil la porte. Lorsque nous marchons, montons un escalier ou escaladons une montagne, nous prtons attention des caractristiques de notre environnement, mais pas dautres. Lattention est lie une action dirige vers un but : nous percevons ce qui est utile pour raliser une tche. Dans nos expriences, rien ne prdisposait le robot sintresser la balle que nous lui prsentions. Nous aurions pu programmer un dtecteur de balles et un comportement de recherche associ aux caractristiques visuelles dune balle : il aurait alors t facile de lui apprendre le mot balle. Cependant le mme problme se serait pos pour lapprentissage de chaque nouveau mot. Un robot peut-il apprendre reconnatre les caractristiques dun objet quil ne connat pas lavance ? Comment diriger son attention vers cet objet ? La solution consiste le pousser dvelopper de nouvelles capacits. Imaginons un salon o se trouvent une table, quatre chaises, un canap, un tabouret, un secrtaire et une bibliothque murale. Au plafond, il y a un luminaire. Quatre assiettes sont sur la table. Un chien dans ce salon voit les choses diffremment. Il peut monter pour se reposer sur le canap et les chaises, mais probablement pas sur le tabouret. Ce dernier, comme le secrtaire et la bibliothque, sont des obstacles, cest--dire des lments qui ne correspondent aucune action particulire si ce nest celle de gner les dplacements. Com-

ment une mouche voit-elle ce salon ? Pour cet insecte, seule la lumire et peut-tre le reste de nourriture dans les assiettes sont des lments significatifs. En dautres termes, nous reconnaissons dans les objets les actions potentielles qui leur sont associes. De mme, dvelopper de nouveaux savoir-faire revient largir sa perception. Le monde de certains insectes reste simple parce que leurs diffrents moyens daction nvoluent pas. Au contraire, le monde du jeune enfant ne cesse de se complexifier mesure quil apprend agir dans son environnement. En quelques mois peine, lenfant apprend contrler son corps, manipuler des objets, changer avec ses proches pour devenir un tre autonome capable dinteractions physiques et sociales. Lenfant dveloppe les capacits qui seront la base de lapprentissage des premiers mots au dbut de sa deuxime anne. Attention, perception et savoir-faire tant si intimement lis, un robot portera-t-il son attention sur de nouveaux objets si on le conduit dcouvrir de nouvelles comptences ? Pourrait-on doter le robot dune forme de curiosit qui le pousserait explorer des situations quil ne connat pas encore ?

tre curieux
Prcisons dabord ce quest un savoir-faire pour un robot. Un robot peut apprendre anticiper les consquences perceptives (visuelles, sonores, tactiles, proprioceptives, etc.) de ses actions grce au mme type dalgorithmes que ceux employs pour associer les caractristiques dune image un son. Quand la machine a mmoris des expriences passes, elle prdit les consquences futures dun nouvel acte. La plupart des robots slectionnent leurs actes partir dun systme de valeurs dfini par leurs programmeurs. Ce systme de valeurs reprsente ce que la machine tente dobtenir ou dviter. Par exemple, le robot recherchera des contacts physiques avec son propritaire ou des signes de sa prsence (son de la voix, dtection de son visage) si ces stimulus sont associs des valeurs positives. linverse, des chocs brutaux pourront correspondre des valeurs ngatives. Ces valeurs dterminent le comportement de la machine : elles sont en permanence optimises par le robot. Ainsi, au dpart, le robot agit au hasard, et progressivement, par ttonnements, il slectionne les actions qui favorisent les valeurs positives et minimisent les valeurs ngatives. Les actions retenues sont ensuite alatoirement modifies ou combines pour laborer de nouvelles stratgies, leur tour values par le robot. Au fil de ses expriences, chaque robot construit ses stratgies pour satisfaire les besoins dfinis par son crateur. Dans beaucoup dexpriences actuelles de robotique, un robot doit, par exemple, rester prs des humains ou ne pas se cogner contre les murs. Une fois ces objectifs atteints, il na pas de raison de continuer voluer. Cest pour surmonter cette limite que nous avons voulu doter notre robot dun systme de motivation intrinsque . Il sagit dun systme de valeurs qui nest pas li des tches spcifiques, dfinies lavance, mais qui pousse le robot vers des situations dapprentissage : une forme de curiosit. Ce systme peut conduire le robot explorer les occasions offertes par son environnement et dcouvrir des situations lui permettant de dvelopper de nouvelles comptences.

2. Pour dcouvrir son environnement et communiquer, le robot est plac sur un tapis de jeu pour bb. Certains objets peuvent tre frapps, dautres mordus. Un autre robot qui imite les sons mis par le premier est aussi prsent sur le tapis, ce qui donnera au premier loccasion dapprendre des formes rudimentaires de communication.

F. Kaplan et P.-Y. Oudeyer

34

POUR LA SCIENCE - N 348 OCTOBRE 2006

Capteur tactile de tte/tmoin lumineux Tte mobile

Tmoin lumineux doreille Queue mobile Microphones miniatures Oreilles mobiles Bouton pause Bouche mobile/capteur tactile de menton Capteur de distance par infrarouge Capteur tactile de dos/tmoin lumineux

Camra : capteur dimages CMOS 350 000 pixels

Haut-parleur Capteur tactile de patte

Sony

3. Le robot AIBO est un ordinateur sur pattes . Il contient un processeur RISC de 64 bits 576 mgahertz, 64 mgaoctets de mmoire vive et il est dot de nombreux capteurs : des microphones, une camra CMOS de 350 000 pixels, des capteurs tactiles ou lectrostatiques sur les pattes, sur le dos, sur la tte et sous le menton, des capteurs de distance infrarouges, trois capteurs de vitesse, de vibrations, de
Les motivations intrinsques et leur rle dans lapprentissage sont tudis depuis longtemps en psychologie et en pdagogie. Mais les modles labors dans ces disciplines ne sont pas dcrits avec suffisamment de prcision pour tre transfrables dans un algorithme. Ils ne servent que dinspiration. En revanche, depuis une dizaine dannes, des travaux en statistiques sur la cration dexpriences optimales Optimal Experiment Design et en apprentissage artificiel dans le domaine de lapprentissage actif Active Learning se sont penchs sur des questions semblables celles qui nous intressent. Plusieurs approches mathmatiques ont t proposes pour tenter de dfinir la meilleure faon dexplorer un espace inconnu afin den apprendre le maximum en un minimum de temps. Ces recherches ont amlior les performances des algorithmes dapprentissage. Toutefois, la plupart de ces mthodes ne sont pas directement applicables des robots qui voluent dans des espaces rels. Qui plus est, nous ne cherchons pas tant que nos robots apprennent le plus vite possible, mais plutt quils se dveloppent et progressent plus longtemps. Ainsi, avant de dcrire le comportement de nos nouveaux robots, examinons comment nous avons programm une telle architecture. Notre systme de motivation intrinsque comprend deux modules (voir la figure 4). Le premier est un systme de prdiction classique (ou prdicteur ) qui apprend les consquences perceptives (visuelles, sonores, tactiles, etc.) S(t +1) dune action entreprise un instant t dans un contexte sensoriel et moteur donn. Il calcule une erreur en(t) qui est la diffrence entre la consquence relle de laction S(t +1) et la consquence prdite S(t +1). Par exemple, imaginons que le robot prdise que, sous limpulsion dune commande motrice, sa patte gauche bouge de deux centimtres. Lac-

temprature. Il est galement pourvu dun haut-parleur et dune trentaine de diodes lumineuses. Sa tte, sa bouche, ses pattes, ses oreilles et sa queue sont motorises. Il peut tre reli Internet ou un ordinateur grce une antenne WIFI. Le comportement du robot est guid par un systme de commande et dapprentissage, reli la fois ses capteurs et ses actionneurs.

tion effectue, ses capteurs enregistrent en fait un mouvement de 2,2 centimtres: lerreur est la diffrence entre ce qui tait prdit et les consquences relles du geste. Le second systme ou mtaprdicteur apprend prdire les erreurs faites par le prdicteur: il value lerreur en prdiction . Dans notre exemple, il prdira que le systme de prdiction ne se trompe que de quelques diximes de centimtres. Pour ce robot, laction bouger la patte est simple prdire. En revanche, pour une autre commande motrice, les consquences pourraient tre plus difficiles prdire. En dautres termes, ce systme associe chaque situation sensorielle et motrice rencontre un niveau de difficult en termes de prdiction.

Optimiser les progrs en apprentissage


Pour doter le robot dune forme de curiosit, nous avons associ ces prdicteurs un systme de valeurs qui lincite viter les situations trop familires, dune part, et celles trop difficiles prdire, dautre part : le robot privilgie les situations o le progrs en apprentissage est optimal. Le robot ne choisira pas les situations o lerreur en prdiction est minimale, ni celles o elle est maximale, mais celles o lerreur diminue le plus vite. En effet, le mtaprdicteur calcule la drive locale Dn(t) de la courbe derreurs, qui correspond diverses situations que le robot peut atteindre partir dun tat sensorimoteur donn. Le robot slectionne alors laction qui conduit la situation dont la drive est la plus ngative. Pour ce calcul, il compare lerreur obtenue dans des situations similaires. Comment fait-il ? Le systme de mtaprdiction utilise un algorithme qui dcoupe

POUR LA SCIENCE - Intelligence Discipline

artificielle

35

progressivement lespace des situations possibles en groupes de situations similaires Rn , que lon nomme rgions . Pour chaque groupe Rn , il tient jour un relev de lvolution des erreurs : le systme garde en mmoire toutes les erreurs, du dbut jusqu linstant t, ce qui permet de calculer comment lerreur diminue en moyenne pour cette rgion. La valeur attribue cette rgion, encore nomme degr dintrt, reprsente le progrs en apprentissage, qui est gal loppos de la drive locale : Ln(t) = Dn(t). Ainsi, la plupart du temps, dans un contexte sensorimoteur donn, le systme dapprentissage du robot choisit une action qui le mnera dans un contexte appartenant la rgion o le degr dintrt est maximal (voir lencadr de la page 38). En outre, pour ne pas rester bloqu dans une situation particulire alors que dautres situations intressantes sont disponibles, le robot effectue rgulirement des actions alatoires. En gnral, dans 70 pour cent des cas, il adopte les situations qui lui apportent un progrs en apprentissage maximal, et dans 30 pour cent des cas, il agit alatoirement. Ainsi, le robot peut dcouvrir de nouvelles situations correspondant des diminutions optimales de lerreur en prdiction : on parle de niches de progrs . Les niches de progrs ne sont pas des proprits intrinsques de lenvironnement. Elles rsultent de la relation entre la structure physique du robot, les caractristiques de ses mcanismes dapprentissage, ses expriences passes et son environnement. Aprs avoir t dcouverte et exploite, une niche de progrs disparat mesure que la situation laquelle elle correspond devient plus prdictible. Ainsi, une trajectoire de dveloppement cest--dire une squence dtapes o le robot effectue des activits de complexit croissante se forme sans quelle soit prprogramme par le concepteur. Voyons prsent comment le robot se comporte si on le dote dun tel systme et, plus particulirement, comment il peut apprendre marcher simplement par curiosit. Larchitecture que nous venons de dcrire nest pas spcifique dune tche particulire et est applicable nimporte quel ensemble de capteurs et de moteurs dun robot. Dans

Sauf mention contraire, les photos du robot sont de ECAL / Millo Keller.

4. Le systme de motivation intrinsque comprend un systme de prdiction (ou prdicteur ) et un mtaprdicteur . Le premier value les consquences perceptives (visuelles, sonores, tactiles, etc.) dune action entreprise dans un contexte sensoriel et moteur donn. Par exemple, le robot aperoit un os. Ce contexte est analys par le prdicteur
un premier temps, le robot contrle le mouvement de ses diffrents moteurs en appliquant des signaux priodiques particuliers dits sinusodaux. Pour chaque moteur, il fixe la priode, la phase et lamplitude du signal. Son systme de prdiction tente de prdire, en fonction de ces diffrents paramtres, la faon dont limage capte par sa camra est modifie, ce qui reflte indirectement le mouvement du buste (o il ny a pas de capteur). chaque itration de lalgorithme, le systme de commande du robot fixe les paramtres tester pour

Comment un robot apprend-il ?


ujourdhui, une machine peut apprendre faire des prdictions partir dexemples grce plusieurs techniques. Par exemple, on associe quelques images de balles et de chaises aux tiquettes balle et chaise , et la machine devine ensuite, quand on lui prsente une nouvelle image, si cest une balle ou une chaise. La tche de prdiction peut aussi tre temporelle: par exemple, la machine observe un certain nombre de trajectoires dune balle lance de diverses manires, et prdit ensuite o cette balle va atterrir quelques millisecondes aprs un nouveau lancer. Ainsi, partir dun nombre limit dexemples, la machine essaie de faire correspondre les points dun espace A, par exemple des images ou le dbut dune trajectoire, des points dun espace B, par exemple des tiquettes ou la fin de la trajectoire. En mathmatiques, cette formulation correspond un problme de rgression, cest--dire un essai de reconstruction dune fonction dans son ensemble partir de quelques points. Souvent, on prsuppose certaines proprits de la fonction reconstruire (par exemple, elle est reprsente par un poly-

nme) et on cherche, dans un sous-ensemble de fonctions candidates, celles qui concident le mieux avec les points donns. Une autre approche, dite non paramtrique, est plus simple, mais tout aussi efficace : lapprentissage par prototypes. Dans ce cas, la machine garde en mmoire les exemples quelle a obtenus ; chaque exemple est une association entre un point de lespace A et un point de lespace B. Quand elle a une prdiction faire, par exemple donner le nom dune image, elle recherche les images les plus proches dans sa base dexemples. La prdiction fournie est donc une tiquette calcule en combinant les tiquettes des exemples les plus proches dj mmoriss. Toute mthode dapprentissage impose des contraintes, ou biais dapprentissage, sur la fonction reconstruite : elle ne peut jamais sapprocher de toutes les fonctions avec prcision et efficacit. Autrement dit, pour une mthode donne, certaines fonctions seront faciles deviner et dautres difficiles, voire impossibles. En outre, chaque mthode a ses propres biais : ce qui est facile pour lune peut tre difficile pour lautre et vice versa.

36

POUR LA SCIENCE - N 348 OCTOBRE 2006

Stimulus visuel

Prdicteur Prvision de la consquence

Consquence relle

Calcul de lerreur

Mtaprdicteur

qui value la consquence dun mouvement possible entreprendre : bouger une patte pour se rapprocher de los. La consquence relle du mouvement est compare la consquence calcule par le prdicteur. Selon lerreur obtenue, le robot essaie un nouveau mouvement de la patte. Au fil des boucles ditration, le mtaprdicteur value quel point ses

erreurs en prdiction dans ce contexte sensorimoteur diminuent : cela dfinit le degr dintrt du robot associ cette activit. Si lerreur diminue beaucoup, alors il sy intressera et persvrera (par exemple, il pourra apprendre manipuler los de diffrentes faons). Si elle stagne ou mme augmente, il passera une autre activit.

optimiser la rduction de lerreur en prdiction, sauf dans 30 pour cent des cas o les paramtres sont choisis alatoirement. Examinons comment le robot qui na pas encore appris marcher se comporte quand on le pose sur le sol. Il explore au hasard diffrents paramtres pendant les premires minutes. Il agite ses pattes de faon dsordonne. Lerreur en prdiction reste minimale : le robot ne bouge presque pas et ses mouvements sont prdictibles. Ces situations ne sont pas intressantes pour le robot, qui est programm pour trouver une situation o lerreur en prdiction est dabord leve, puis diminue. Mais, au bout dune dizaine de minutes, une combinaison alatoire des paramtres le conduit effectuer un lger dplacement: cette combinaison le fait reculer lgrement. Cette nouvelle situation se caractrise par une augmentation de lerreur en prdiction puis, mesure que le robot a de nouvelles occasions deffectuer ces mouvements, lerreur commence baisser: une niche de progrs a t dcouverte. Dans lheure qui suit, le robot explore les diffrentes faons de reculer. Mais certaines modifications de paramtres lui font dcouvrir des mouvements de rotation : cest un nouvel ensemble de niches de progrs qui seront examines quand les comptences lies la marche en arrire seront matrises. En gnral, plus de trois heures sont ncessaires pour que le robot dcouvre la marche vers larrire, en rotation, vers lavant, sur le ct Mais il nest pas programm pour apprendre marcher. Il optimise seulement la rduction de son erreur en prdiction, et il dveloppe pourtant des comptences polyvalentes pour la locomotion. Le caractre non spcifique de son architecture est la cause de cette varit: un robot programm pour se diriger vers un objet naurait pas appris reculer ou tourner sur lui-mme.

Nous ne pouvions pas prvoir que la marche en arrire serait plus facile dcouvrir que les autres marches dans cette exprience. tant donn la structure physique du robot et le type de sol sur lequel il tait plac, les mouvements de recul ont t la premire niche explore. Pour savoir si cette niche est rgulirement dcouverte par les robots, il faut mettre en place un programme dexpriences systmatiques semblable celui que nous allons examiner.

Dcouvrir les objets... puis communiquer


Pour cette seconde exprience, nous plaons le robot dans un environnement contenant plusieurs objets, tel ceux dun tapis de jeu pour bb (voir la figure 2). Un second robot programm pour imiter les sons mis par le premier est aussi prsent. Le robot peut excuter de nombreux mouvements. Il peroit et mmorise les consquences de ses mouvements par le biais de sa camra, des sons quil enregistre et de ses capteurs de distance. Comme pour la dcouverte de la marche, le robot explore lespace avec pour unique objectif la maximisation de la rduction de ses erreurs en prdiction initialement leves. Chaque exprience dure une dizaine dheures et se droule ainsi: aprs une phase dexploration alatoire, le robot commence effectuer de faon systmatique des actions rptes (frapper, mordre). Puis il dcouvre des parties de son environnement (objets frapper, objets mordre) qui correspondent des progrs en apprentissage. Cependant, ce stade, le robot essaie encore de frapper les objets mordre et de mordre les objets frapper. Or quand le robot

POUR LA SCIENCE - Intelligence Discipline

artificielle

37

Comment un robot peut-il tre curieux ?


e systme de curiosit du robot lui permet de trouver de nouvelles niches de progrs . Imaginons un environnement o il existe quatre types de contextes sensoriels et moteurs pour le robot : il peut dormir, bouger une patte, taper dans une balle sans bouger ou faire du scooter. Si lon forait le robot se concentrer sur chacune de ces activits sparment, on mesurerait lvolution de son erreur en prdiction dans chaque contexte (les courbes gauche). Dans la situation a (faire du scooter), lerreur en prdiction est toujours leve et ne diminue pas, peut-tre parce que cette situation est trop complique pour le systme dapprentissage du robot. Dans la situation d (dormir), lerreur est toujours basse et ne change pas (cette situation est facile donc peu intressante pour le systme dapprentissage), et dans les situations b (taper dans une balle) et c (bouger une patte), lerreur en prdiction est importante au dpart, mais diminue ensuite plus ou moins rapidement. En pratique, le robot est plac dans cet environnement en ignorant quil existe quatre

types de situations, et a fortiori les courbes dapprentissage correspondantes. Au dpart, il explore alatoirement son environnement, dcouvrant quil existe des situations diffrentes, et value lintrt de chaque situation en termes de rduction potentielle de ses erreurs en prdiction. Comme on le voit sur les courbes du temps pass explorer chaque situation ( droite), le robot vite les situations a (trop complique, courbe bleue) et d (trop simple, courbe rose), qui ne permettent pas de progrs en apprentissage. Il les explore cependant de temps en temps et par hasard pour vrifier quelles restent peu intressantes. linverse, il se consacre la situation c (courbe rouge) pour laquelle ses prdictions samliorent le plus vite initialement. Aprs un certain temps, la situation c est matrise et par consquent prdictible : il labandonne, car lerreur en prdiction ne diminue presque plus. Il consacre alors lessentiel de son temps la situation b (courbe verte) qui, ce stade de son dveloppement, lui procure le plus de progrs en apprentissage.

Erreur en prdiction

Temps pass lexploration des quatre situations

b c
Sony Sony

Sony

c d
Sony

a d

Temps

Temps

frappe lobjet mordre, qui est un objet lourd et mou pos sur le sol, rien ne se passe. Au contraire, lobjet frapper peut se dplacer et se balancer de diffrentes faons, ce qui offre de multiples occasions dapprentissage au robot. Ainsi, le robot dcouvre quil est plus intressant dassocier la bonne action au bon objet. La matrise de ces bonnes associations nommes affordances se fait en quelques heures. La production de sons, explore dans un premier temps comme les mouvements du corps, est rapidement abandonne au profit de linteraction avec les objets, qui donne des rsultats plus immdiats en termes de rduction derreur. En effet, lors des interactions sonores, le son mis par le robot est dform quand lautre robot limite. Cette dformation est difficile prdire, elle est trop complique lerreur en prdiction reste importante. Mais ds que le robot a atteint une certaine matrise des objets de son environnement, il rmet des sons et se consacre presque exclusivement cette comptence : il sessaie aux changes vocaux en optimisant la diminution de son erreur en prdiction. Chaque robot dcouvre sa faon son environnement, cest--dire que chaque exprience conduit une trajectoire de dveloppement unique. Cependant la majorit des

trajectoires sont structures de la mme faon, car chaque robot explore les tches les plus simples avant de se consacrer aux situations les plus difficiles en termes de prdiction. Les algorithmes qui contrlent le robot ne dfinissent pas entirement son volution; son environnement non plus. La trajectoire de dveloppement du robot dpend de son systme dapprentissage, de ses caractristiques physiques et de lendroit o il est plac. Nous pouvons donc tudier, en faisant de telles expriences, le rle respectif de chacun de ces facteurs dans lorganisation du dveloppement. Grce notre systme de motivation intrinsque, un robot apprend matriser son corps, explorer les objets prsents dans son environnement proche et sengager vers les premires formes dinteraction. Les comptences que le robot dveloppe sont adaptes sa morphologie et aux environnements auxquels il est confront. Le robot choisit vers quoi il tourne son attention en fonction de ses expriences passes: il est acteur de son propre dveloppement et construit ainsi son monde. Cependant cette structure dveloppe de faon autonome par le robot na pas de raison de correspondre celle de notre monde. En particulier, il est fortement improbable que le robot ait pu dvelopper seul les concepts

38

POUR LA SCIENCE - N 348 OCTOBRE 2006

que nous voulions initialement lui apprendre, tel celui dune balle. Pour le robot, il existe deux organisations indpendantes: celle quil a dveloppe seul et celle qui peut lui tre propose de lextrieur sous la forme des mots de notre langue.

Deux mondes parallles


Il est probable que les diffrences physiques entre les robots et les hommes limitent de toute faon la possibilit que des machines dveloppent certains concepts importants de nos langues : Un lion pourrait parler, nous ne pourrions le comprendre , crivait le philosophe autrichien Ludwig Wittgenstein (1889-1951). Entre le monde des robots et celui des hommes, il y aura peut-tre des passerelles linguistiques, mais leur nombre et leur largeur restent inconnus. Quel est alors le rle de lhomme dans cette approche de lapprentissage ? Face un robot qui se dveloppe seul, il organise seulement les situations dapprentissage que la machine rencontre. Cest ainsi quil peut, dans une certaine mesure, guider le dveloppement de la machine. Ltude de lacquisition du langage chez les robots nous a conduits celle du partage de lattention, puis lacquisition de savoir-faire et au dveloppement de motivations intrinsques. mesure que les robots progressent ou se heurtent des difficults inattendues, nous comprenons davantage les phnomnes quils tentent dapprocher. Ainsi, nous ne construisons pas seulement des machines plus intelligentes : cela nous permet de mieux comprendre ce qu intelligent veut dire. Les hypothses proposes viennent complter les travaux entrepris dans dautres domaines. Les recherches actuelles en neurosciences portent une attention toute particulire sur la faon dont le cerveau traite la nouveaut et les signaux derreur en prdiction. Les recherches en psychologie compare insistent sur limportance possible de la motivation pour expliquer les diffrences dapprentissage entre les grands singes et les hommes. La robotique peut jouer un rle pertinent dans ce dbat, et depuis quelques annes, les initiatives pluridisciplinaires se multiplient. Dans cette approche, il ne sagit pas dimiter lhomme en tout point. Cest au contraire en tudiant le rle du corps et des motivations de la machine sur son propre dveloppement que lon peut en retour construire des explications pertinentes sur linfluence de facteurs comparables chez le jeune enfant. La robotique propose ainsi une dmarche exprimentale dun genre nouveau pour mieux comprendre les dynamiques complexes du dveloppement, et clairer sous un autre jour lextraordinaire capacit quont les enfants apprendre...

& Bibliographie
Auteurs

Frdric KAPLAN et Pierre-Yves OUDEYER mnent leurs recherches


au Sony Computer Science Laboratory Paris. P.-Y. OUDEYER et F. KAPLAN, Discovering communication, in Connection Science, vol. 18, pp. 189-206, 2006. P.-Y. OUDEYER, Self-organization in the evolution of speech, in Oxford University Press, 2006. F. KAPLAN, Les machines apprivoises, Vuibert, 2005. Sites de Pierre-Yves Oudeyer et Frdric Kaplan : www.csl.sony.fr/ py, www.csl.sony.fr/ kaplan. Site du congrs Epigenetic Robotics, 20-22 septembre 2006 lHpital de la Salptrire : www.epigenetic-robotics.org

POUR LA SCIENCE - Intelligence Discipline

artificielle

39

Das könnte Ihnen auch gefallen