Beruflich Dokumente
Kultur Dokumente
Un robot apprend dcouvrir son environnement de faon autonome, grce un nouveau systme de motivation : la curiosit. Frdric Kaplan et Pierre-Yves Oudeyer
ujourdhui, certains robots reconnaissent plusieurs milliers de mots. Pour autant, ils nen comprennent pas le sens et sont incapables den apprendre de nouveaux. En gnral, les mots reconnus par le robot partir de signaux sonores sont associs des systmes de commande dfinis lavance par les programmeurs, similaires ceux qui lui permettent deffectuer une danse ou daller chercher un objet. Depuis plusieurs annes, nous tentons daller au-del de cette limitation et nous tudions si un robot peut apprendre reconnatre et nommer les objets qui lentourent sans quils ne soient dj inscrits dans sa mmoire . Peut-on utiliser un systme dapprentissage classique ? Ne suffirait-il pas de programmer le robot pour quil associe les caractristiques des images observes avec les squences sonores quil entend ? Il pourrait alors par exemple associer la forme arrondie dune balle avec le son du mot balle ou une gamme de couleurs particulire avec le mot rouge. En accumulant les exemples, le robot russirait peut-tre prdire les contextes dans lesquels chaque mot sapplique. Est-ce aussi simple dapprendre parler ? Nos recherches nous ont conduits rpondre ces questions par la ngative. En effet, nous nous sommes heurts un obstacle: pour apprendre parler, un robot doit porter son attention sur des objets quil ne connat pas encore. Pourquoi sintresseraitil ces objets ? Pourrait-on le doter dune forme de curiosit ? Pour mener bien nos recherches, nous nous sommes inspirs des travaux raliss en psychologie, en pdagogie et en statistiques. Nous verrons que la curiosit du robot est lie lacquisition de nouvelles comptences, et nous prciserons comment nous avons invent un robot motiv pour dcouvrir son environnement de faon autonome.
1. Le robot AIBO est utilis depuis de nombreuses annes comme un outil de recherche en intelligence artificielle. Celui des auteurs est aujourdhui dot dun systme de curiosit qui lui permet de dcouvrir seul son environnement.
32
Sony
Nous avons utilis le robot AIBO dvelopp pendant de nombreuses annes par la Socit SONY. Ce robot est quip dun ordinateur, de nombreux capteurs et de moteurs qui actionnent sa tte, sa bouche, ses pattes, ses oreilles et sa queue (voir la figure 3). Son comportement est contrl par lordinateur reli ces capteurs et actionneurs. En gnral, des algorithmes dapprentissage permettent au robot dapprendre raliser une tche particulire dfinie lavance par lexprimentateur, par exemple tourner sur lui-mme. Le robot tente un mouvement, le rsultat est compar avec celui quil doit raliser, et le mouvement est recalcul pour quil se rapproche au mieux de lobjectif. Lapproche que nous allons dcrire est fondamentalement diffrente : un robot curieux choisit lui-mme ce quil explore, puis apprendra, et devient capable non plus de matriser une tche, mais une succession de tches de complexit croissante.
artificielle
33
ces conditions. Or les techniques dapprentissage automatique ne limitaient pas les performances du robot et ne lempchaient pas dapprendre parler : si nous utilisions lalgorithme dapprentissage en lui donnant manuellement les bonnes images associes aux bons sons, le robot apprenait bien. Le problme rsidait dans le fait que le robot ne voyait pas la mme chose que nous quand nous prononcions un mot : il ne portait pas son attention l o nous souhaitions quil la porte. Lorsque nous marchons, montons un escalier ou escaladons une montagne, nous prtons attention des caractristiques de notre environnement, mais pas dautres. Lattention est lie une action dirige vers un but : nous percevons ce qui est utile pour raliser une tche. Dans nos expriences, rien ne prdisposait le robot sintresser la balle que nous lui prsentions. Nous aurions pu programmer un dtecteur de balles et un comportement de recherche associ aux caractristiques visuelles dune balle : il aurait alors t facile de lui apprendre le mot balle. Cependant le mme problme se serait pos pour lapprentissage de chaque nouveau mot. Un robot peut-il apprendre reconnatre les caractristiques dun objet quil ne connat pas lavance ? Comment diriger son attention vers cet objet ? La solution consiste le pousser dvelopper de nouvelles capacits. Imaginons un salon o se trouvent une table, quatre chaises, un canap, un tabouret, un secrtaire et une bibliothque murale. Au plafond, il y a un luminaire. Quatre assiettes sont sur la table. Un chien dans ce salon voit les choses diffremment. Il peut monter pour se reposer sur le canap et les chaises, mais probablement pas sur le tabouret. Ce dernier, comme le secrtaire et la bibliothque, sont des obstacles, cest--dire des lments qui ne correspondent aucune action particulire si ce nest celle de gner les dplacements. Com-
ment une mouche voit-elle ce salon ? Pour cet insecte, seule la lumire et peut-tre le reste de nourriture dans les assiettes sont des lments significatifs. En dautres termes, nous reconnaissons dans les objets les actions potentielles qui leur sont associes. De mme, dvelopper de nouveaux savoir-faire revient largir sa perception. Le monde de certains insectes reste simple parce que leurs diffrents moyens daction nvoluent pas. Au contraire, le monde du jeune enfant ne cesse de se complexifier mesure quil apprend agir dans son environnement. En quelques mois peine, lenfant apprend contrler son corps, manipuler des objets, changer avec ses proches pour devenir un tre autonome capable dinteractions physiques et sociales. Lenfant dveloppe les capacits qui seront la base de lapprentissage des premiers mots au dbut de sa deuxime anne. Attention, perception et savoir-faire tant si intimement lis, un robot portera-t-il son attention sur de nouveaux objets si on le conduit dcouvrir de nouvelles comptences ? Pourrait-on doter le robot dune forme de curiosit qui le pousserait explorer des situations quil ne connat pas encore ?
tre curieux
Prcisons dabord ce quest un savoir-faire pour un robot. Un robot peut apprendre anticiper les consquences perceptives (visuelles, sonores, tactiles, proprioceptives, etc.) de ses actions grce au mme type dalgorithmes que ceux employs pour associer les caractristiques dune image un son. Quand la machine a mmoris des expriences passes, elle prdit les consquences futures dun nouvel acte. La plupart des robots slectionnent leurs actes partir dun systme de valeurs dfini par leurs programmeurs. Ce systme de valeurs reprsente ce que la machine tente dobtenir ou dviter. Par exemple, le robot recherchera des contacts physiques avec son propritaire ou des signes de sa prsence (son de la voix, dtection de son visage) si ces stimulus sont associs des valeurs positives. linverse, des chocs brutaux pourront correspondre des valeurs ngatives. Ces valeurs dterminent le comportement de la machine : elles sont en permanence optimises par le robot. Ainsi, au dpart, le robot agit au hasard, et progressivement, par ttonnements, il slectionne les actions qui favorisent les valeurs positives et minimisent les valeurs ngatives. Les actions retenues sont ensuite alatoirement modifies ou combines pour laborer de nouvelles stratgies, leur tour values par le robot. Au fil de ses expriences, chaque robot construit ses stratgies pour satisfaire les besoins dfinis par son crateur. Dans beaucoup dexpriences actuelles de robotique, un robot doit, par exemple, rester prs des humains ou ne pas se cogner contre les murs. Une fois ces objectifs atteints, il na pas de raison de continuer voluer. Cest pour surmonter cette limite que nous avons voulu doter notre robot dun systme de motivation intrinsque . Il sagit dun systme de valeurs qui nest pas li des tches spcifiques, dfinies lavance, mais qui pousse le robot vers des situations dapprentissage : une forme de curiosit. Ce systme peut conduire le robot explorer les occasions offertes par son environnement et dcouvrir des situations lui permettant de dvelopper de nouvelles comptences.
2. Pour dcouvrir son environnement et communiquer, le robot est plac sur un tapis de jeu pour bb. Certains objets peuvent tre frapps, dautres mordus. Un autre robot qui imite les sons mis par le premier est aussi prsent sur le tapis, ce qui donnera au premier loccasion dapprendre des formes rudimentaires de communication.
34
Tmoin lumineux doreille Queue mobile Microphones miniatures Oreilles mobiles Bouton pause Bouche mobile/capteur tactile de menton Capteur de distance par infrarouge Capteur tactile de dos/tmoin lumineux
Sony
3. Le robot AIBO est un ordinateur sur pattes . Il contient un processeur RISC de 64 bits 576 mgahertz, 64 mgaoctets de mmoire vive et il est dot de nombreux capteurs : des microphones, une camra CMOS de 350 000 pixels, des capteurs tactiles ou lectrostatiques sur les pattes, sur le dos, sur la tte et sous le menton, des capteurs de distance infrarouges, trois capteurs de vitesse, de vibrations, de
Les motivations intrinsques et leur rle dans lapprentissage sont tudis depuis longtemps en psychologie et en pdagogie. Mais les modles labors dans ces disciplines ne sont pas dcrits avec suffisamment de prcision pour tre transfrables dans un algorithme. Ils ne servent que dinspiration. En revanche, depuis une dizaine dannes, des travaux en statistiques sur la cration dexpriences optimales Optimal Experiment Design et en apprentissage artificiel dans le domaine de lapprentissage actif Active Learning se sont penchs sur des questions semblables celles qui nous intressent. Plusieurs approches mathmatiques ont t proposes pour tenter de dfinir la meilleure faon dexplorer un espace inconnu afin den apprendre le maximum en un minimum de temps. Ces recherches ont amlior les performances des algorithmes dapprentissage. Toutefois, la plupart de ces mthodes ne sont pas directement applicables des robots qui voluent dans des espaces rels. Qui plus est, nous ne cherchons pas tant que nos robots apprennent le plus vite possible, mais plutt quils se dveloppent et progressent plus longtemps. Ainsi, avant de dcrire le comportement de nos nouveaux robots, examinons comment nous avons programm une telle architecture. Notre systme de motivation intrinsque comprend deux modules (voir la figure 4). Le premier est un systme de prdiction classique (ou prdicteur ) qui apprend les consquences perceptives (visuelles, sonores, tactiles, etc.) S(t +1) dune action entreprise un instant t dans un contexte sensoriel et moteur donn. Il calcule une erreur en(t) qui est la diffrence entre la consquence relle de laction S(t +1) et la consquence prdite S(t +1). Par exemple, imaginons que le robot prdise que, sous limpulsion dune commande motrice, sa patte gauche bouge de deux centimtres. Lac-
temprature. Il est galement pourvu dun haut-parleur et dune trentaine de diodes lumineuses. Sa tte, sa bouche, ses pattes, ses oreilles et sa queue sont motorises. Il peut tre reli Internet ou un ordinateur grce une antenne WIFI. Le comportement du robot est guid par un systme de commande et dapprentissage, reli la fois ses capteurs et ses actionneurs.
tion effectue, ses capteurs enregistrent en fait un mouvement de 2,2 centimtres: lerreur est la diffrence entre ce qui tait prdit et les consquences relles du geste. Le second systme ou mtaprdicteur apprend prdire les erreurs faites par le prdicteur: il value lerreur en prdiction . Dans notre exemple, il prdira que le systme de prdiction ne se trompe que de quelques diximes de centimtres. Pour ce robot, laction bouger la patte est simple prdire. En revanche, pour une autre commande motrice, les consquences pourraient tre plus difficiles prdire. En dautres termes, ce systme associe chaque situation sensorielle et motrice rencontre un niveau de difficult en termes de prdiction.
artificielle
35
progressivement lespace des situations possibles en groupes de situations similaires Rn , que lon nomme rgions . Pour chaque groupe Rn , il tient jour un relev de lvolution des erreurs : le systme garde en mmoire toutes les erreurs, du dbut jusqu linstant t, ce qui permet de calculer comment lerreur diminue en moyenne pour cette rgion. La valeur attribue cette rgion, encore nomme degr dintrt, reprsente le progrs en apprentissage, qui est gal loppos de la drive locale : Ln(t) = Dn(t). Ainsi, la plupart du temps, dans un contexte sensorimoteur donn, le systme dapprentissage du robot choisit une action qui le mnera dans un contexte appartenant la rgion o le degr dintrt est maximal (voir lencadr de la page 38). En outre, pour ne pas rester bloqu dans une situation particulire alors que dautres situations intressantes sont disponibles, le robot effectue rgulirement des actions alatoires. En gnral, dans 70 pour cent des cas, il adopte les situations qui lui apportent un progrs en apprentissage maximal, et dans 30 pour cent des cas, il agit alatoirement. Ainsi, le robot peut dcouvrir de nouvelles situations correspondant des diminutions optimales de lerreur en prdiction : on parle de niches de progrs . Les niches de progrs ne sont pas des proprits intrinsques de lenvironnement. Elles rsultent de la relation entre la structure physique du robot, les caractristiques de ses mcanismes dapprentissage, ses expriences passes et son environnement. Aprs avoir t dcouverte et exploite, une niche de progrs disparat mesure que la situation laquelle elle correspond devient plus prdictible. Ainsi, une trajectoire de dveloppement cest--dire une squence dtapes o le robot effectue des activits de complexit croissante se forme sans quelle soit prprogramme par le concepteur. Voyons prsent comment le robot se comporte si on le dote dun tel systme et, plus particulirement, comment il peut apprendre marcher simplement par curiosit. Larchitecture que nous venons de dcrire nest pas spcifique dune tche particulire et est applicable nimporte quel ensemble de capteurs et de moteurs dun robot. Dans
Sauf mention contraire, les photos du robot sont de ECAL / Millo Keller.
4. Le systme de motivation intrinsque comprend un systme de prdiction (ou prdicteur ) et un mtaprdicteur . Le premier value les consquences perceptives (visuelles, sonores, tactiles, etc.) dune action entreprise dans un contexte sensoriel et moteur donn. Par exemple, le robot aperoit un os. Ce contexte est analys par le prdicteur
un premier temps, le robot contrle le mouvement de ses diffrents moteurs en appliquant des signaux priodiques particuliers dits sinusodaux. Pour chaque moteur, il fixe la priode, la phase et lamplitude du signal. Son systme de prdiction tente de prdire, en fonction de ces diffrents paramtres, la faon dont limage capte par sa camra est modifie, ce qui reflte indirectement le mouvement du buste (o il ny a pas de capteur). chaque itration de lalgorithme, le systme de commande du robot fixe les paramtres tester pour
nme) et on cherche, dans un sous-ensemble de fonctions candidates, celles qui concident le mieux avec les points donns. Une autre approche, dite non paramtrique, est plus simple, mais tout aussi efficace : lapprentissage par prototypes. Dans ce cas, la machine garde en mmoire les exemples quelle a obtenus ; chaque exemple est une association entre un point de lespace A et un point de lespace B. Quand elle a une prdiction faire, par exemple donner le nom dune image, elle recherche les images les plus proches dans sa base dexemples. La prdiction fournie est donc une tiquette calcule en combinant les tiquettes des exemples les plus proches dj mmoriss. Toute mthode dapprentissage impose des contraintes, ou biais dapprentissage, sur la fonction reconstruite : elle ne peut jamais sapprocher de toutes les fonctions avec prcision et efficacit. Autrement dit, pour une mthode donne, certaines fonctions seront faciles deviner et dautres difficiles, voire impossibles. En outre, chaque mthode a ses propres biais : ce qui est facile pour lune peut tre difficile pour lautre et vice versa.
36
Stimulus visuel
Consquence relle
Calcul de lerreur
Mtaprdicteur
qui value la consquence dun mouvement possible entreprendre : bouger une patte pour se rapprocher de los. La consquence relle du mouvement est compare la consquence calcule par le prdicteur. Selon lerreur obtenue, le robot essaie un nouveau mouvement de la patte. Au fil des boucles ditration, le mtaprdicteur value quel point ses
erreurs en prdiction dans ce contexte sensorimoteur diminuent : cela dfinit le degr dintrt du robot associ cette activit. Si lerreur diminue beaucoup, alors il sy intressera et persvrera (par exemple, il pourra apprendre manipuler los de diffrentes faons). Si elle stagne ou mme augmente, il passera une autre activit.
optimiser la rduction de lerreur en prdiction, sauf dans 30 pour cent des cas o les paramtres sont choisis alatoirement. Examinons comment le robot qui na pas encore appris marcher se comporte quand on le pose sur le sol. Il explore au hasard diffrents paramtres pendant les premires minutes. Il agite ses pattes de faon dsordonne. Lerreur en prdiction reste minimale : le robot ne bouge presque pas et ses mouvements sont prdictibles. Ces situations ne sont pas intressantes pour le robot, qui est programm pour trouver une situation o lerreur en prdiction est dabord leve, puis diminue. Mais, au bout dune dizaine de minutes, une combinaison alatoire des paramtres le conduit effectuer un lger dplacement: cette combinaison le fait reculer lgrement. Cette nouvelle situation se caractrise par une augmentation de lerreur en prdiction puis, mesure que le robot a de nouvelles occasions deffectuer ces mouvements, lerreur commence baisser: une niche de progrs a t dcouverte. Dans lheure qui suit, le robot explore les diffrentes faons de reculer. Mais certaines modifications de paramtres lui font dcouvrir des mouvements de rotation : cest un nouvel ensemble de niches de progrs qui seront examines quand les comptences lies la marche en arrire seront matrises. En gnral, plus de trois heures sont ncessaires pour que le robot dcouvre la marche vers larrire, en rotation, vers lavant, sur le ct Mais il nest pas programm pour apprendre marcher. Il optimise seulement la rduction de son erreur en prdiction, et il dveloppe pourtant des comptences polyvalentes pour la locomotion. Le caractre non spcifique de son architecture est la cause de cette varit: un robot programm pour se diriger vers un objet naurait pas appris reculer ou tourner sur lui-mme.
Nous ne pouvions pas prvoir que la marche en arrire serait plus facile dcouvrir que les autres marches dans cette exprience. tant donn la structure physique du robot et le type de sol sur lequel il tait plac, les mouvements de recul ont t la premire niche explore. Pour savoir si cette niche est rgulirement dcouverte par les robots, il faut mettre en place un programme dexpriences systmatiques semblable celui que nous allons examiner.
artificielle
37
types de situations, et a fortiori les courbes dapprentissage correspondantes. Au dpart, il explore alatoirement son environnement, dcouvrant quil existe des situations diffrentes, et value lintrt de chaque situation en termes de rduction potentielle de ses erreurs en prdiction. Comme on le voit sur les courbes du temps pass explorer chaque situation ( droite), le robot vite les situations a (trop complique, courbe bleue) et d (trop simple, courbe rose), qui ne permettent pas de progrs en apprentissage. Il les explore cependant de temps en temps et par hasard pour vrifier quelles restent peu intressantes. linverse, il se consacre la situation c (courbe rouge) pour laquelle ses prdictions samliorent le plus vite initialement. Aprs un certain temps, la situation c est matrise et par consquent prdictible : il labandonne, car lerreur en prdiction ne diminue presque plus. Il consacre alors lessentiel de son temps la situation b (courbe verte) qui, ce stade de son dveloppement, lui procure le plus de progrs en apprentissage.
Erreur en prdiction
b c
Sony Sony
Sony
c d
Sony
a d
Temps
Temps
frappe lobjet mordre, qui est un objet lourd et mou pos sur le sol, rien ne se passe. Au contraire, lobjet frapper peut se dplacer et se balancer de diffrentes faons, ce qui offre de multiples occasions dapprentissage au robot. Ainsi, le robot dcouvre quil est plus intressant dassocier la bonne action au bon objet. La matrise de ces bonnes associations nommes affordances se fait en quelques heures. La production de sons, explore dans un premier temps comme les mouvements du corps, est rapidement abandonne au profit de linteraction avec les objets, qui donne des rsultats plus immdiats en termes de rduction derreur. En effet, lors des interactions sonores, le son mis par le robot est dform quand lautre robot limite. Cette dformation est difficile prdire, elle est trop complique lerreur en prdiction reste importante. Mais ds que le robot a atteint une certaine matrise des objets de son environnement, il rmet des sons et se consacre presque exclusivement cette comptence : il sessaie aux changes vocaux en optimisant la diminution de son erreur en prdiction. Chaque robot dcouvre sa faon son environnement, cest--dire que chaque exprience conduit une trajectoire de dveloppement unique. Cependant la majorit des
trajectoires sont structures de la mme faon, car chaque robot explore les tches les plus simples avant de se consacrer aux situations les plus difficiles en termes de prdiction. Les algorithmes qui contrlent le robot ne dfinissent pas entirement son volution; son environnement non plus. La trajectoire de dveloppement du robot dpend de son systme dapprentissage, de ses caractristiques physiques et de lendroit o il est plac. Nous pouvons donc tudier, en faisant de telles expriences, le rle respectif de chacun de ces facteurs dans lorganisation du dveloppement. Grce notre systme de motivation intrinsque, un robot apprend matriser son corps, explorer les objets prsents dans son environnement proche et sengager vers les premires formes dinteraction. Les comptences que le robot dveloppe sont adaptes sa morphologie et aux environnements auxquels il est confront. Le robot choisit vers quoi il tourne son attention en fonction de ses expriences passes: il est acteur de son propre dveloppement et construit ainsi son monde. Cependant cette structure dveloppe de faon autonome par le robot na pas de raison de correspondre celle de notre monde. En particulier, il est fortement improbable que le robot ait pu dvelopper seul les concepts
38
que nous voulions initialement lui apprendre, tel celui dune balle. Pour le robot, il existe deux organisations indpendantes: celle quil a dveloppe seul et celle qui peut lui tre propose de lextrieur sous la forme des mots de notre langue.
& Bibliographie
Auteurs
artificielle
39