Sie sind auf Seite 1von 41

CNAM PARIS

Examen probatoire en Informatique Session de janvier 2004

LAHAYE Philippe

Sujet n 97 Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Prsident de jury : Professeur TREVES

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004

SOMMAIRE
INTRODUCTION................................................................................................................................ 1 1. Mthodes de recherche de donnes travers le Web ................................................................ 1 1.1. Formats et accs aux donnes rparties : Internet et le Web ............................................. 2 1.1.1. Ressources disponibles sur Internet .......................................................................... 2 1.1.2. Web visible ............................................................................................................... 3 1.1.3. Web invisible............................................................................................................. 4 1.2. Moteurs de recherche........................................................................................................ 4 1.3. Annuaires.......................................................................................................................... 6 1.4. Portails thmatiques et annuaires slectifs......................................................................... 7 1.4.1. Portails thmatiques.................................................................................................. 7 1.4.2. Annuaires slectifs .................................................................................................... 8 1.5. Recherche fdre ............................................................................................................ 9 1.6. Visualisation et navigation ................................................................................................. 9 1.7. Formulation dune recherche : oprateurs de requtes et recherches avances............... 10 1.7.1. Oprateurs de requtes........................................................................................... 10 1.7.2. Paramtres de recherche avance.......................................................................... 11 1.8. Conclusion ...................................................................................................................... 11 2. Les agents intelligents.............................................................................................................. 12 2.1. Introduction lintelligence artificielle et aux agents ......................................................... 13 2.1.1. Dfinitions des agents intelligents............................................................................ 13 2.1.2. Lintelligence artificielle............................................................................................ 14 2.2. Approche descendante.................................................................................................... 15 2.2.1. Systmes dinfrence .............................................................................................. 15 2.2.2. Systmes experts.................................................................................................... 17 2.2.3. Traitement du langage naturel................................................................................. 18 2.2.4. Perspectives ........................................................................................................... 19 2.3. Approche ascendante : rseaux de neurones .................................................................. 19 2.4. Proprits et architecture dun agent intelligent ................................................................ 20 2.4.1. Proprits gnrales ............................................................................................... 20 2.4.2. Architecture dun agent intelligent............................................................................ 21 2.5. Conclusion ...................................................................................................................... 23 3. Contribution des agents intelligents la recherche de donnes sur le Web .............................. 24 3.1. Analyse et traitement syntaxique pour la recherche dinformation..................................... 25 3.1.1. Formulation et traitement de la requte ................................................................... 25 3.1.2. Recherche multilingue............................................................................................. 26 3.1.3. Lemmatisation......................................................................................................... 26 3.2. Analyse smantique ........................................................................................................ 26 3.2.1. Extraction des mots cl et des index........................................................................ 27 3.2.2. Catgorisation......................................................................................................... 27 3.3. Veille informative ............................................................................................................. 28 3.4. Filtrage et agrgation des informations ............................................................................ 29 3.4.1. Critres de slection des rsultats dune recherche ................................................. 29 3.4.2. Filtrage collaboratif .................................................................................................. 29 3.4.3. Calcul de la pertinence des rsultats ....................................................................... 30 3.4.4. Agrgation .............................................................................................................. 30 3.5. Agents de commerce lectronique................................................................................... 30 3.5.1. Les agents acheteurs .............................................................................................. 31 3.5.2. Les agents vendeurs ............................................................................................... 31 3.5.3. Les agents acheteurs et vendeurs, des systmes multi-agents intelligents ?............ 32 3.6. Limites de lapport des agents intelligents et de lintelligence artificielle ............................ 32 3.7. La rponse du Web smantique ...................................................................................... 33 CONCLUSION GENERALE ............................................................................................................. 34 ANNEXE : Elments abstraits de larchitecture dun agent intelligent de la FIPA............................... 36 BIBLIOGRAPHIE ............................................................................................................................. 39

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004

INTRODUCTION
Internet et le Web reprsentent une avance majeure dans la communication interpersonnelle. Ils permettent en thorie un accs linformation universel. Toutes les sources de donnes sont potentiellement intgrables la toile mondiale. De fait, le nombre de documents et dapplications accessibles travers le Web est aujourdhui trs important, seulement dix ans environ aprs leur mise en uvre grande chelle. Ils continuent ce jour crotre. Face cela, il semble possible daccder toutes donnes dsires. Cest ce niveau que le Web manque encore ses promesses, mme sil le permet plus quauparavant avec les moyens dont disposait un individu moyen. Larticulation entre une question, un problme rsoudre ou encore une requte et lobtention des rponses est complexe et reprsente un chemin parcourir assez long dans la plupart des cas. Accder des donnes sur le Web ncessite donc un apprentissage. Cela ncessite ensuite un travail, parfois non ngligeable, pour loprateur humain. Comme le titre de ce rapport le mentionne, accder des donnes rparties travers le Web ncessite une ou plusieurs mthodes de recherche. Pour la plupart des recherches, ces mthodes prsentent des avantages et des inconvnients. Dans la majorit des cas, les rponses obtenues en utilisant ces mthodes de recherches gnrent soit des rsultats incomplets (dautres rponses existent mais ne sont pas mentionnes), soit des rsultats trop nombreux (pertinence faible de la rponse par rapport la question) ou encore des rsultats faux ( bruit ) et souvent les trois ensemble. La problmatique de la recherche dinformations sur le Web en est ce stade aujourdhui et lobjectif damlioration des outils de recherche est bien de diminuer limportance des inconvnients susmentionns. Cependant, en ltat, les mthodes de recherche actuelles sont indispensables et offre le meilleur service pour accder aux donnes rparties sur le Web. La premire partie de ce rapport aborde donc ces mthodes de recherche et travers elles, les outils correspondants. Afin de pallier les inconvnients de ces mthodes de recherche (apprentissage, charge de travail non ngligeable, rponses approximatives et non exhaustives), une dmarche a t de dvelopper des agents intelligents pour assister lutilisateur dans sa tche de recherche. Lagent intelligent est avant tout un programme informatique qui permet dautomatiser des tches dvolues autrement lutilisateur : cest pourquoi le terme dagent logiciel lui est parfois prfr. Cependant, dans certains cas, lagent intelligent rpond rellement aux critres exigs pour parler dintelligence artificielle. Lagent intelligent peut ainsi, dans dautres cas, se substituer lutilisateur pour apprendre (largir ses connaissances), rflchir, communiquer avec dautres agents et prendre des dcisions. Nous verrons donc dans la deuxime partie en quoi peut consister un agent intelligent. Nous approfondirons dans la troisime partie de ce rapport ce quapportent les agents intelligents et lintelligence artificielle la recherche dinformations afin daccder des donnes rparties travers le Web. Cet apport amliore le travail de recherche dinformation sans toutefois donner des rsultats parfaits. Nous verrons donc quelles peuvent tre certaines des limites auxquelles font face les agents intelligents aujourdhui dans la recherche et laccs aux informations et quelle est la rponse de ces nouvelles limites apporte par les promoteurs du Web, savoir le World Wide Web Consortium (W3C), travers le Web smantique .

1. Mthodes de recherche de donnes travers le Web


Le Web recouvre une multitude de possibilits. Sagissant avant tout dune norme et dune architecture de communication et de transport de donnes informatiques, Internet permet daccder des informations et des applications aussi diverses que la technologie informatique le permet. Ainsi des applications et des documents accessibles auparavant avec dautres protocoles de communication, soit dautres terminaux (matriel et / ou logiciel) particuliers, le sont aujourdhui avec un navigateur utilisant les protocoles TCP / IP (Transport Control Protocol / Internet Protocol). Aussi rechercher des donnes rparties sur le Web peut se faire partir de plusieurs types doutils que nous allons dcrire dans cette section. Il nous faut cependant prciser au pralable quelles sont
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 1

les ressources qui sont accessibles, comment y accder et quelles sont celles qui sont interrogeables avant de voir comment les interroger. Les derniers chapitres de cette section ddie aux mthodes de recherche sur Internet prcisent comment peut tre formule une recherche dans une requte transmise aux outils de recherche.

1.1. Formats et accs aux donnes rparties : Internet et le Web


Quand on parle dInternet et du Web, il est difficile den prciser les contours exacts. Pour donner une ide de limmensit que cela reprsente, on peut citer quelques chiffres qui au moment o on les inscrit ne sont dj plus jour, tant est encore rapide la progression de cet ensemble. En juillet 2000, le nombre de pages Web tait denviron de 2,1 milliards1. Le nombre de pages rajoutes en 24 heures y tait estim 4,5 millions. Ces chiffres concernent le Web visible tel quil est dfini ci-dessous. Si on rajoute le Web dit invisible, on doit rajouter 550 milliards de documents [1], ceci ntant quune approche de la complexit de cet ensemble. On doit ajouter cela le fait que les formats des donnes rparties travers le Web nest pas homogne. Ce chapitre a donc pour objectif de donner un aperu de la manire dont sont rparties les donnes travers le Web.

1.1.1. Ressources disponibles sur Internet


Toutes les ressources dites immatrielles peuvent thoriquement se retrouver sur Internet. Autrement dit, toutes les ressources numriques sont accessibles travers Internet. Concrtement, il sagit en premier lieu des informations de tout types. Ces informations peuvent tre dites non ou faiblement structures : il sagit de documents au format HTML2 (Hyper Text Markup Language) qui ont fait la popularit du Web mais aussi de documents sous dautres formats texte, notamment le format PDF3 (Portable Document File). A linverse, les informations peuvent tre fortement structures si elles proviennent dune base de donnes et rpondent alors un modle de donnes prcis. Cependant, la gamme des ressources peut aller du document au logiciel en passant par la voix, le son (musiques), limage (photographies) et la vido (films). Un utilisateur peut tre amen rechercher ce type de ressources, ou encore de donnes, sur Internet. Lensemble des mdias accessibles par Internet est dfini officiellement par lIANA (Internet 4 Assigned Numbers Authority) dans la liste des types MIME . De plus, avec Internet, les couches applicatives sont nombreuses. Il ne sagit pas seulement du protocole HTTP (Hyper Text Transfer Protocol [RFC2616]) qui permet aux utilisateurs de naviguer avec leur logiciel de navigation sur le Web et dinterroger les serveurs Web en utilisant notamment les liens hypertextes et qui dune manire ou dune autre est lun des plus familiers des internautes. Cela concerne aussi les autres protocoles et applications que sont, entre autres, le courrier lectronique, les forums de discussions ou news groups, les listes de diffusion ou mailing-lists, le transfert de fichier et Telnet. Une ressource peut donc tre accessible travers diffrents diffrents types et mthodes daccs5. Nous allons donc tablir une premire distinction entre Internet et le Web. Le Web est lensemble des informations accessibles partir du protocole HTTP sur Internet. Internet, lui est plus large, et est un
Les statistiques dune des sources cites dans le livre de Batrice Foenix-Riou numrent le nombre de pages des sites Web plus de 6 milliards aujourdhui (Cyveillance Press Resource Center - Quick stats : http://www.cyveillance.com/web/newsroom/stats.htm ). 2 Plus dinformations et les spcifications du langage HTML peuvent tre obtenues partir la page web lURL suivante : http://www.w3.org/MarkUp/ (HyperText Markup Language (HTML) Home Page). Le World Wide Web Consortium (W3C) est le crateur et lagence de maintenance du langage. 3 PDF est principalement soutenu par la socit ADOBE (http://www.adobe.com) avec le logiciel Acrobate Reader qui permet de les visualiser. 4 MIME - Internet Media Types : liste maintenue par lIANA (http://www.iana.org) et disponible lURL http://www.isi.edu/innotes/iana/assignments/media-types/media-types 5 Uniform Resource Identifier (URI) SCHEMES / Official IANA Registry of URI Schemes / IANA / mise jour du 2003-08-29 / accessible lURL http://www.iana.org/assignments/uri-schemes Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 2
1

rseau de ressources informatiques accessibles avec plusieurs types dapplications. Lutilisation dun type de mdia et dune application pour y accder a souvent un sens qui peut tre utilis pour rechercher une donne sur Internet. Loutil et la mthode utilise pour trouver une ou plusieurs ressource dpendra donc aussi du type daccs et du format de celle(s) ci. La plupart du temps, les mthodes que nous mentionnerons dans ce rapport fonctionnent pour accder des donnes sur le Web.

1.1.2. Web visible


Le Web est parfois reprsent comme une toile daraigne. Les fils de la toile sont les liens hypertextes qui relient les documents entre eux et qui sont contenus dans le corps des documents. Le Web visible est compos des documents accessibles par nimporte quel utilisateur (documents publics). Une typologie de la rpartition des pages du Web visible peut tre tablie en fonction des liens hypertextes qui sont aussi assimils des pointeurs et de leur connectivit (voir Figure 1). Le Web est constitu dune partie centrale de nuds ultra connects (SCC) vers lesquels pointent de nombreux document et qui se pointent entre eux. Des documents (IN) pointent vers ces documents, mais en retour ne sont points par aucun document (pages personnelles, pages de cration rcente, pas encore reconnues par leurs pairs). Les nuds ultra connects pointent vers des culs de sac (OUT) dans le sens o ils pointent vers des documents ou sites Web qui en retour ne pointent pas vers des ressources externes (sites dentreprises, de commerce lectronique). Dans cette typologie, il reste deux catgories de documents : ceux qui ne sont pas connects au cur du rseau (Tendrils) et enfin ceux qui sont entirement dconnect des autres pages (aucun lien ne pointe vers eux et ils ne contiennent pas de liens hypertextes).

Figure 1 : Connectivit du Web 6

Source : Graph structure in the web / Andrei Broder, Ravi Kumar, Farzin Maghoul, Prabhakar Raghavan, Sridhar Rajagopalan, Raymie Stata, Andrew Tomkins, Janet Wiener / IBM Almaden Research Center, San Jose, CA. / 2000 / Accessible lURL http://almaden.ibm.com/cs/k53/www9.final/ Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 3

Cette typologie de la rpartition des documents sur le Web est importante car cela dtermine la capacit des outils de recherche prendre en compte les documents. Les pages dconnectes ne sont pas prises en compte par les moteurs de recherche [1] (cf. section 1.2). De mme, cela impacte la navigation (cf. section 1.6) et laccs aux donnes non connectes partir dun lien hypertexte. On naccde pas aux documents non connects par la poursuite de liens hypertextes. Le Web visible se dfinit aussi par son contraire : le Web invisible.

1.1.3. Web invisible


Paralllement au Web visible, compos de sites en accs libre offrant des pages relies entre elles, on trouve des donnes accessibles sur le Web invisible. Ce dernier est constitu en premier lieu par des pages dynamiques gnres partir de requtes transmises des bases de donnes. Ces requtes sont tablies partir de formulaires quil faut remplir. Cette tche ne peut tre accomplie par les robots quutilisent les moteurs de recherche et qui eux parcourent le site en en fonction de leur organisation hirarchique (structure arborescente). Toutes les pages des sites de commerce lectronique ne peuvent donc pas tre indexes par des moteurs de recherche classiques. On trouve aussi dans ce Web invisible les pages pour lesquels il faut sidentifier avant dy accder. Lidentification peut tre lie un abonnement (payant ou non) auprs de lorganisation qui fournit ces pages. La plupart des banques de donnes professionnelles sont payantes et ne sont pas de fait indexes par les moteurs de recherche. Il faut sidentifier aussi pour accder un intranet, cest dire au site Web interne dune organisation. Par contre, nimporte quel utilisateur humain pourra accder aux pages de ces sites Web sils sont abonns ou en ont les droits. Enfin, comme nous lavons vu dj, les donnes peuvent avoir diffrents formats dont certains ne sont pas reconnus par les moteurs de recherche. Ainsi, les documents au format PDF ne sont parfois pas indexs par certains moteurs de recherche et le plus souvent les fichiers de type MS Office (Word, Excel, PowerPoint) ou les animations (Macromedia Flash) ne sont pas non plus indexs. De mme, les fichiers sonores, images et vidos ne peuvent pas tre indexs automatiquement. Si ces types de mdias ne sont pas pris en compte par les moteurs de recherche, ils peuvent par contre tre accds par les utilisateurs qui possdent les applications associes. Il faut aussi tenir compte des sites Web qui ne veulent pas tre indexs par des moteurs de recherche et qui pour cela le mentionnent explicitement dans un fichier "robot.txt" qui est plac dans le rpertoire racine du site Web. Nous avons donc partitionn le Web en Web visible et invisible. Cette caractristique sapplique en fait, comme nous lavons vu, aux moteurs de recherche et pas forcment tous les oprateurs humains, et travers eux, pas aux annuaires. Si le Web peut tre conu comme invisible, cest en fait parce que les utilisateurs accdent aux donnes en les recherchant souvent partir dun moteur de recherche.

1.2.

Moteurs de recherche

Une des premires mthodes de recherche de donnes rparties travers le Web qui soffre linternaute consiste utiliser un moteur de recherche. Cela est intressant car le moteur de recherche a effectu un travail de recensement des pages Web disponibles. Nous avons dj vu dans les sections 1.1.2 et 1.1.3 quelles sont les pages Web disponibles.

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 4

Fonctionnalits dun moteur de recherche Un moteur de recherche est en gnral constitu de deux grands modules fonctionnels. Le collecteur 7 recherche les documents sur un domaine, et en extrait certains composants textuels. Il communique ces informations extraites des diffrents documents un distributeur8 . Celui ci construit un index plein texte des documents collects. Dans cet index figure tous les mots des textes extraits, lexception de ce ceux figurant dans un grand nombre de documents diffrents et nayant ds lors aucun pouvoir discriminant utile. Le distributeur comporte aussi un gestionnaire de requtes, qui va traiter les requtes mises par les utilisateurs, et en exploitant lindex, va lui fournir la liste des documents contenant les termes de la requte, prsents sous une forme plus ou moins laconique [2, chap. 7.1, pp 229-237]. Le gestionnaire de requte offre des fonctionnalits permettant de spcifier des requtes relativement complexes : oprateur de requtes (cf. section 1.7.1), recherche sur des mots isols ou sur des expressions composes de plusieurs mots, prise en compte de lordre des mots ou non, recherche sur 9 10 mot entier ou sur partie de mot, utilisation de caractre de troncature , insensibilit la casse , voire acceptation de fautes dorthographe dans un terme de requte : peuvent tre trouvs les mots de lindex ne diffrant de ceux de la requte que par une ou deux lettres. Certaines options et paramtres du fonctionnement dpendent du moteur de recherche. Peuvent tre 11 12 prciss notamment la liste de mots stop , thsaurus comprenant les rgles dexpansion des requtes, rgles de lemmatisation, tolrance aux fautes dorthographe, paramtres de recherche multilingue. Il sagit l dun domaine part entire, ncessitant aujourdhui une expertise propre. Si toutes ces fonctionnalits se retrouvent dans lun ou lautre des moteurs de recherche interrogeables en ligne, chaque moteur de recherche a son fonctionnement propre. Les oprateurs de requtes ne sont pas les mmes pour chacun et sont plus ou moins nombreux (voir section 1.7 Formulation dune recherche : oprateurs de requtes ). Il en est de mme avec les paramtres de fonctionnement retenus pour chaque moteur : les rgles utilises ne sont pas les mmes pour chacun. Enfin, les moteurs de recherche proposent des fonctionnalits avances qui utilisent en partie lintelligence artificielle. Ces fonctionnalits seront dveloppes en particulier dans la section 3.2 de ce rapport. Fonctions avances dun moteur de recherche Une des premires fonctions avances est la fonction link: . Avec certains moteurs de recherche, il est ainsi possible de recueillir les pages indexes par le moteur qui pointent vers lURL donne en paramtre dans le champ de saisie de la recherche. Cest comme si on utilisait des liens hypertextes inverses. Quelques moteurs de recherche offrent sur leurs pages de rsultats loption Related pages (ou pages similaires) en face de chaque page slectionne. Cette option donne les rfrences dautres pages que le moteur identifie comme similaires, sur la base de critres dtermins par des algorithmes sappliquant aux mots cls ou au sujet lis aux pages Web. Cette fonction peut tre utilise pour identifier, par exemple, des sites ayant une offre concurrente un site donn, ou pour recenser plusieurs sites concernant un domaine particulier, ou enfin pour avoir des informations complmentaires un produit. Cette option est lie loprateur like: ou related: . Cette option ( related: ) est lie au fait que les pages publies sur le Web peuvent contenir des informations sur le document qui sont contenues dans son entte et non affiches lcran. Ces informations sur le document sont le plus souvent des mta donnes (donnes sur le document). Cest pourquoi dans les fichiers HTML, elles se retrouvent dans les meta-tags (balises <META>). Lexception provient de la balise <TITLE> qui reprend le titre du document dans son entte (entre les balises <HEAD>) ; autrement dit le titre est une mta donne qui nest pas repris dans une balise <META>. Ainsi les pages peuvent contenir des attributs descriptifs tels que le titre, lauteur, la description et les mots cls.
7 8 9

Gatherer, en anglais. Broker, en anglais. Joker. Souvent le caractre ? ou %. 10 Casse : majuscule, minuscule. 11 Stop words en anglais, voir page 27. 12 prise en compte des synonymes par exemple, sujet approchants Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 5

Ces mta donnes sont dans certains cas indexes dune manire particulire par les moteurs de recherche. Dans le mme ordre dide, elles peuvent servir des requtes paramtres sur une ou plusieurs des mta donnes. Par exemple, lutilisateur peut de cette manire rechercher un document dont lauteur est Jean Dupont ou encore un mot contenu uniquement dans le titre du document, ce qui est beaucoup plus rducteur et pertinent que de rechercher un document contenant les mots Jean Dupont ou le mot recherch dans le texte. Malheureusement, ces balises ne sont le plus souvent pas renseignes. Certains robots tentent donc de dduire ces informations en se basant sur un certain nombre de rgles quutilise ensuite un agent intelligent en appliquant une analyse smantique du document (voir section 3.2). Ainsi, on tente de dterminer le titre, les mots cls et une description du document. De mme, le systme peut tenter de catgoriser (classifier) automatiquement ces documents. Ces mta donnes synthtises automatiquement ne sont malheureusement pas justes dans de nombreux cas et une recherche sur ces mta donnes peut savrer inutile. Les autres fonctionnalits avances peuvent tre le traitement de la requte en langage naturel, la recherche multilingue, le filtrage des rsultats de la requte. Limitations des moteurs de recherche La principale limitation des moteurs de recherche plein texte est que lindexation et la recherche se font sur des entits purement lexicales. Une des consquences est la gnration dun taux de 13 bruit souvent trs important dans la rponse, cest dire la gnration de rsultats ne correspondant pas la requte [2]. De mme, rappelons que les moteurs de recherche ne recensent que le Web visible et que chacun pris isolment, nen indexe quune partie. Google, le moteur de recherche le plus important aujourdhui annonce recenser 1,3 milliards dURL mais il nindexe la page en texte intgral que dans la moiti des cas seulement [1]. Les annuaires sont lobjet dune mthode complmentaire de recherche de donnes rparties travers le Web.

1.3.

Annuaires

A linverse des moteurs de recherche qui se basent sur un travail effectu par des programmes informatiques, parfois appels robots, les annuaires recensent une partie de linformation contenue dans le Web partir dun travail dindexation ralis par des oprateurs humains, nomms cyberdocumentalistes. Ainsi, une partie du Web invisible pour les moteurs est index et accessible partir des annuaires (cf. section 1.1.3), ce qui est trs important noter. De plus, la diffrence des moteurs de recherche qui tentent dindexer toutes les pages du Web, les annuaires, eux, ne sattachent qu dcrire et rpertorier les sites Web. Les sites Web sont ainsi indexs avec leur titre et un trs bref descriptif dans des rubriques et sous-rubriques. Autrement dit, les annuaires sont des catalogues du Web dans lesquels les sites sont classs par catgorie. Et cest l une notion importante dans une mthode de recherche, catgoriser est une des bases de la recherche dinformations. Les cyber-documentalistes parcourent le Web afin de recenser et dcrire les nouveaux sites, plusieurs centaines chaque jour, proposs par leur diteur le plus souvent. Lutilisateur peut ainsi parcourir des catgories hirarchises. Le plus souvent, les annuaires proposent des catgorisations multiples : une ou plusieurs catgorisations thmatiques et une catgorisation gographique. Lutilisateur arrive ainsi trouver des sites Web identiques en parcourant la classification de diffrentes manires. Alternativement, lutilisateur peut utiliser une zone de saisie de formulaire pour lancer une recherche par mot cl qui va seffectuer sur les catgories, le titre et le descriptif du site Web.

13

Bruit : rsultat non pertinent par rapport la requte. Probatoire session janvier 2004 p 6

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Cependant les annuaires prsentent des dfauts mme sils sont organiss par des oprateurs humains plutt que par une machine. Selon leur paramtrage, ils feront appel des fonctionnalits dj nonces dans la section prcdente sur les moteurs de recherche : savoir lutilisation de listes de mots stop , de rgles dexpansion des requtes, de rgles de lemmatisation, la tolrance aux fautes dorthographe. Ces fonctionnalits, si elles permettent dtendre les termes dune requte, gnrent en contrepartie des rponses non souhaites (bruit). De mme, le Web nest pas index de manire complte, car cela nest pas possible et parfois pas souhait. On assiste donc aussi un phnomne de silence sur les annuaires, cest dire que certaines rponses que lon sait correspondre la requte napparaissent pas. Le silence ou le bruit entourant les rsultats dune recherche de donnes, est d parfois la synonymie ou lhomonymie. Le problme de lhomonymie peut tre en partie cart dans les annuaires en lanant une recherche lintrieur dune catgorie. De cette manire, napparaissent que les rsultats concernant un mot cl ne correspondant qu un thme prcis. Par exemple, une recherche sur le mot disque ne donne pas les mmes rsultats selon que lon se trouve dans la rubrique informatique du catalogue ou sa racine. Dans le premier cas, on aura globalement surtout des rponses sur les disques informatiques, dans le second on verra, entre autre, aussi apparatre des rponses concernant la musique. Enfin, la classification est une technique documentaire qui ncessite lobservation de certains principes pour tre correcte. Une illustration est lutilisation de vocabulaire contrl pour indexer une ressource. Thoriquement, ne doivent tre utiliss pour indexer que des mots contrls partir de 14 dictionnaires ou encore de schmas de classification. Un exemple classique dindexation souvent mal contrl concerne les personnes : ainsi des documents parlant dHonor de Balzac ou de ses uvres ne seront pas retrouvs de la mme manire si lon utilise Balzac , De Balzac, Honor ou Honor de Balzac . Dans le premier cas, on trouvera des rponses concernant toutes les personnes ayant pour nom Balzac et dans les autres, on pourra ne pas trouver les documents qui ont simplement t index avec comme sujet Balzac . Un autre exemple montrant les difficults dune recherche sur un annuaire ou un moteur de recherche est le suivant. Des rponses obtenues partir des termes de la requte en anglais electronic 15 commerce (avec des guillemets, ce qui a une signification dans les oprateurs de requte ) concernent des rubriques intitules e-commerce . Si on lance ensuite une recherche avec le mot ecommerce, on obtient, non plus la rfrence de 21 catgories et 682 sites comme dans le premier cas, mais 132 catgories et 3697 sites [1, p 38]. Qui trop embrasse, mal treint . Ce proverbe pourrait sappliquer aux annuaires et aux moteurs de recherche gnralistes qui ont parmi leurs objectifs principaux lexhaustivit, afin dattirer le maximum dinternautes. Les portails thmatiques et les annuaires slectifs, linverse, souffrent moins de ces dfauts que nous venons juste de prsenter. Le principe, on a la qualit de ses dfauts ou inversement on a les dfauts de ses qualits sapplique dans ce cas.

1.4.

Portails thmatiques et annuaires slectifs

Tout dabord, introduisons une nouvelle notion propos des outils de recherche : le portail. Il sagit en fait de site Web ddis la recherche et laccs aux informations sur le Web. Ils offrent donc simultanment laccs un moteur de recherche et un ou plusieurs annuaires. Par ailleurs, ils proposent souvent aussi : des informations slectionnes (actualits, mtorologie, ), des services (bote lettre de courrier lectronique, petites annonces, tlchargement de logiciels, traduction), des plate-formes de commerce lectronique. Les portails offrent donc la fois les fonctions dannuaires et de moteur : le mme outil peut servir de point de dpart toutes les recherches.

1.4.1. Portails thmatiques


14

15

Un synonyme de schma que lon utilise souvent indiffremment est le mot modle . Lutilisation de guillemet force la recherche uniquement sur la chane de caractres entre les guillemets et non sur chacun des mots contenus dans la chane. Probatoire session janvier 2004 p 7

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Les portails thmatiques sont construits sur le mme principe que les portails gnralistes mais avec une approche thmatique, cest dire une approche par domaine. Cette approche par domaine peut tre verticale, cest dire par secteur dactivit (comme lautomobile, la finance, ) ou horizontale, cest dire par sujet ou thme utilis par tous ou plusieurs secteurs dactivit (comme le knowledge management, la veille technologique, etc.). Une des caractristiques des portails thmatiques ou des annuaires slectifs est quil sadresse un public particulier, plus restreint et le plus souvent professionnel. Il est souvent fait par des professionnels (experts du domaine) au service de professionnels ou en tout cas dun public clair . Le travail de lexpert ajoute une valeur ajoute la recherche dinformation brute, do lintrt des portails ou annuaires thmatiques. Le champ dinvestigation va donc tre plus limit par dfinition mais aussi par choix. Le portail vertical, autre appellation du portail thmatique, est construit le plus souvent autour dun annuaire thmatique. Par exemple, un site spcialis sur les logiciels avec un annuaire des sites du domaine, peut ainsi senrichir de rubriques offrant les comparatifs de produits raliss par des laboratoires de test, un annuaire des fournisseurs, des articles de la presse spcialise, un forum de discussion pour les utilisateurs.

1.4.2. Annuaires slectifs


Un autre outil mis en place par des professionnels de linformation (bibliothcaires ou documentalistes) pour un autre public (celui de lenseignement : universitaires, chercheurs, enseignants) est lannuaire slectif. Le nom de ce type dannuaire porte sa dfinition : les informations slectionnes (les sites principalement) sont tries sur le volet avec une approche qualitative marque. Le fait que le nombre de sites rfrencs soit faible par rapport aux annuaires gnralistes non slectifs est compens par la richesse des sites retenus. Compte tenu de leurs critres de slection, ces outils recensent de nombreuses ressources appartenant au Web invisible, comme des journaux lectroniques avec archives ou des banques de donnes. Le fait que ces outils soient le fait de professionnels de la documentation ajoute aussi une valeur lie lutilisation des techniques prouves de la documentation. Lutilisation de schmas de classification 16 et autres thsaurus professionnels y est plus systmatique . La description des sites, entre autre parce quils sont moins nombreux, est plus dtaille que dans les annuaires gnralistes. On peut trouver dautres mta donnes que celles concernant le titre, lauteur et la description comme particulirement la mta donne couverture gographique ou encore spatiale ou bien encore la langue. Nous donnons en conclusion (cf. section 1.8), lapport des annuaires slectifs par rapport aux annuaires classiques. Il sagit principalement de permettre de trouver plus rapidement une information plus pertinente et pure. Dautres mthodes sont possibles pour amliorer ou complmenter les mthodes et les outils de recherche de donnes vus jusqu maintenant. Pour finir, on peut dire aussi que ces annuaires et portails thmatiques peuvent tre appels guide des guides ( mta annuaire ) lorsquils rpertorient les outils de recherche dinformations, par thme ou non.

16

Des rfrences de thsaurus sont : - [TGN] Getty Thesaurus of Geographic Names : http://www.getty.edu/research/tools/vocabulary/tgn/ - [LCSH] Library of Congress Subject Headings - [MeSH] Medical Subject Headings : http://www.nlm.nih.gov/mesh/meshhome.html - [UDC] Universal Decimal Classification : http://www.udcc.org/ Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 8

1.5.

Recherche fdre

En complment dune recherche sur un ou plusieurs moteurs de recherche, on peut effectuer une recherche simultanment sur plusieurs moteurs de recherche et annuaires. Il faut pour cela utiliser ce que lon appelle un mta moteur qui na donc pas dindex propre. Les mta moteurs permettent de transmettre une mme requte plusieurs outils de manire squentielle ou paralllise. Ce sont des outils disponibles sur le Web (on line) ou que lon peut installer sur son ordinateur (off line). Les mta moteurs les plus sophistiqus envoient une mme requte diffrents moteurs et annuaires (que lon peut choisir dans une liste), puis ddoublonnent les rsultats, les classent (par pertinence, thme) et offre la possibilit de vrifier la validit des liens. Ils permettent ainsi un gain de temps indiscutable, mais souffrent nanmoins de certaines faiblesses. La premire est lie au fait que le mta moteur ne rapatrie quun nombre limit de rsultats de chaque recherche sur chaque moteur (en gnral les 10 50 premiers de la liste des rsultats). La seconde et principale limitation est que les oprateurs sont rduits au plus petit dnominateur commun des oprateurs des moteurs de recherche interrogs. On ne peut donc pas utiliser les oprateurs de requtes avancs proposs par les moteurs et annuaires. En fait, ce type doutil est surtout adapt aux recherches basiques, portant par exemple sur deux termes relis par AND . Au contraire, les mta moteurs ont pour avantage de pallier des insuffisances des moteurs de recherche, qui, nous lavons vu (cf. titre Limitations des moteurs de recherche page 6), ne peuvent indexer lintgralit du Web. De mme, les mta moteurs peuvent utiliser les interfaces de recherches proposs par les annuaires slectifs et les portails thmatique et profiter de la qualit des slections de ces sites en les additionnant un objectif dexhaustivit. Cependant, seuls des outils professionnels proposent cette dernire possibilit, et encore, pas dans tous les domaines, un prix qui les carte des utilisateurs particuliers et des petites entreprises. Ces mta moteurs sont parfois assimils des agents intelligents, notamment dans le sens o ils sont capables de traduire la requte dans le langage utilis par le moteur de recherche interrog et dhomogniser les jeux de rsultat retourns par les moteurs en les agrgeant. La technique consistant interroger plusieurs interfaces de recherche est utilise aussi par les outils de comparaison de prix dans le domaine du commerce lectronique. Le mta moteur de comparaison va ainsi interroger le catalogue de plusieurs sites de vente en ligne et rapatrier le rsultat dans une sorte de catalogue agrg. Ces aspects seront repris et dvelopps dans les sections 3.4.4 et 3.5. Le dernier moyen restant lutilisateur pour approfondir une recherche de donnes rparties sur le Web est dutiliser ses propres moyens et son intelligence en utilisant les proprits de visualisation et de navigation offertes par les navigateurs Web.

1.6.

Visualisation et navigation

Aprs avoir vu des outils puissants au regard de la masse des donnes rparties travers le Web et du travail considrable dindexation opr, utiliser la visualisation et la navigation dans les pages Web comme mthode de recherche de donnes rparties travers le Web peut paratre trivial. La navigation consiste suivre des liens hypertextes inclus dans les pages Web. Il sagit l toutefois dune mthode qui peut tre utilise et quon ne peut pas ne pas mentionner. Cest dailleurs un des principaux avantages offert par le Web et ce qui a fait en partie son succs. De mme, parce quune recherche peut ne pas tre parfaitement exprime par un oprateur et quun texte et une rfrence dans celui ci peut avoir un sens recherch et qui nest pas pris en compte par des outils comme les moteurs de recherche, la navigation peut tre une mthode de recherche efficace. Dans le mme ordre dide, un outil de recherche classique ne tient pas ou peu (techniques de personnalisation) compte du profil de lutilisateur et de ses connaissances pralables. Seul lutilisateur sait ce quil cherche et ce quoi il veut accder.

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 9

La visualisation, cest dire la lecture dun texte mais aussi la visualisation des images et des illustrations, et la navigation partir dun site Web de rfrence peut tre trs riche dinformations. Enfin, il faut bien accder un document pour pouvoir en extraire linformation recherche et valider les rsultats proposs par un outil de recherche. Par ailleurs, les liens hypertextes peuvent tre considrablement enrichis dans le sens o on peut leur ajouter beaucoup de sens. Techniquement, il est dj possible denrichir la connotation dun lien hypertexte (balise <a> en langage HTML) en rajoutant une information concernant son type (attribut type ). Cela est rarement utilis et permettrait cependant denrichir le sens et les proprits dun lien hypertexte. De plus, les nouvelles gnrations de documents publi sur le Web utilisant le langage XML17 (eXtended Markup Language) et ses normes ou protocoles associs, dont XLink18, permettent dtendre les fonctionnalits des liens hypertextes et denrichir la navigation. La possibilit 19 daccder des ressources grce des liens a dj t illustre aussi avec la norme HyTime . Lutilisation de liens associs aux mta donnes des documents publis sur le Web sont aussi une source de navigation potentielle dans des navigateurs spcialiss [2, chap. 3, pp 99-100]. La navigation dans les documents hypertextes est donc bien une mthode de recherche pour accder des donnes rparties. Elle pourrait ltre encore plus si ces documents et les applications de navigation exploitaient lensemble des possibilits rcentes offertes par le langage XML et lutilisation tendue des mta donnes. Cette mthode de recherche base sur la navigation peut tre aussi appele exploration dynamique. Un exemple dexploration dynamique partir dune mta donne est le parcours des classifications offertes par les annuaires (cf. section 1.3).

1.7. Formulation dune recherche : oprateurs de requtes et recherches avances


La puissance et lefficacit des outils que nous avons prsents font que les mthodes de recherche de donnes rparties travers le Web peuvent sassimiler lutilisation de ces outils. Pourtant, un peu de rflexion et dorganisation pralable une recherche de donnes peuvent certainement amliorer encore lefficacit, notamment en terme de temps, dune recherche de donnes. Pour cela, il faut tenter de caractriser les donnes que lon cherche en identifiant : - les thmes et les ressources de la requte correspondante, cest dire les domaines couverts, - quels peuvent tre les homonymes (pour les exclure) ou les synonymes (pour les inclure) de ces donnes, - les paramtres permettant de restreindre au maximum le champ couvert et explicitant au maximum la recherche et les termes quelle contiendra. Une fois, cette prparation effectue, on peut utiliser les oprateurs de requtes offerts par les moteurs de recherche, ainsi que leurs paramtres de recherche avance qui prcisent les ressources recherches (cf. section 1.1.1). Malgr cela, une recherche est aussi un processus rcursif : lobtention de premiers rsultats amne prciser et / ou largir la recherche de donnes.

1.7.1. Oprateurs de requtes


Cette section a t synthtise partir des pages daide aux utilisateurs de trois moteurs de recherche20. Les oprateurs portent sur des mots pris isolment ou sur des chanes de mots (dites chanes de caractre). Les chanes de caractres pour pouvoir tre prises en compte sont exprimes entre des guillemets (" ").
Voir http://www.w3.org/XML/ XML Linking Language (XLink) Version 1.0 : W3C Recommendation 27 June 2001. http://www.w3.org/TR/xlink/ HyTime - ISO/IEC 10744-1992 (E). Information technology. Hypermedia/ Time-based Structuring Language 20 Sources : - Pages daide de Voil partir de lURL : http://aide.voila.fr/Recherche/ - Pages daide de Google partir de lURL : http://www.google.fr/intl/fr/help.html - Pages daide dAlta Vista partir de lURL : http://www.altavista.com/help/search/default
18 19 17

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 10

Les principaux oprateurs de recherche sont les oprateurs boolens ET (signe +, ou AND), OU (signe - ou OR) et SAUF (NOT, AND NOT..). Ils peuvent permettre notamment de traiter en partie lhomonymie en excluant priori certains rsultats (NOT) et la synonymie (OU). Loprateur ET est souvent implicite, cest parfois le OU. Les oprateurs peuvent tre mis entre parenthses pour indiquer lordre dexcution des oprations. On utilise des parenthses () pour regrouper des expressions boolennes complexes. Il y a des oprateurs de troncature. On parle souvent de joker. Par exemple, L'astrisque peut tre un joker. N'importe quelle lettre ou groupe de lettres peut prendre la place de l'astrisque. Bas* rcuprera les documents avec bas, basse et bassin. Il est ncessaire de saisir au moins trois lettres avant *. On peut aussi placer * au milieu du mot. C'est utile lorsque lutilisateur n'est pas sr de l'orthographe. moi*s trouvera de documents contenant mois et moins. Il existe des oprateurs de proximit disponibles : l'oprateur NEAR. L'oprateur de recherche permet parfois de prciser la distance entre les mots. Par exemple : bibliothque NEAR numrique ; bibliothque NEAR/3 numrique (bibliothque une distance de 3 mots de numrique) [3]. Les autres oprateurs de requtes sont des fonctions dont la syntaxe peut varier entre les diffrents moteurs de recherche. Nous avons vu les fonctions link: et related dans la sous-section initule Fonctions avances page 5. La syntaxe nest pas fondamentale et revient utiliser les formulaires de recherche avance dans les moteurs de recherche. Ces fonctionnalits sont prsentes dans la section suivante (1.7.2).

1.7.2. Paramtres de recherche avance


La recherche avance consiste appliquer des critres de filtrage aux requtes de recherche. Ces filtrages sont : - le filtrage gographique (Web mondial, francophone, rgional), - le filtrage linguistique (par langue), - le filtrage par types de ressources : images, vido, audio, - le filtrage des applications Internet : Web, forums Usenet, Messagerie, Journaux, - le filtrage par types de formats, - le filtrage par dates ou priodes, - le filtrage des champs de requte : titre, URL, domaine Internet Le filtrage peut tre aussi parfois thmatique : il sagit du choix du domaine fonctionnel de recherche. De mme, les options de recherche peuvent porter sur les mta donnes description et keyword . On doit noter aussi la possibilit du filtrage du contenu (" filtre parental ") qui permet d'liminer les ressources catgorises "Adulte". Enfin, les recherches avances permettent parfois un affinage de la recherche. Il sagit principalement de la possibilit de restreindre une nouvelle requte aux rsultats trouvs lors dune prcdente requte. Cette possibilit daffinage dune requte montre bien quune recherche est souvent un processus rcursif.

1.8.

Conclusion

A chaque recherche daccs des donnes rparties travers le Web correspond une ou plusieurs mthodes. Il ny a pas de mthodes pr-dfinie englobante o alors celle-ci serait un peu lourde raliser par un oprateur humain. En fait, chaque outil ses avantages et ses dfauts en fonction de la recherche de lutilisateur. Annuaires et moteurs de recherche sont des outils de recherche bien distincts, conus pour rpondre des questions diffrentes. Pour simplifier, on peut dire que les annuaires doivent tre utiliss lorsque
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 11

le thme de la question est susceptible de faire lobjet dun site ou dune grosse rubrique dun site Web ou lorsquon souhaite localiser le site Web dune organisation (entreprise) particulire. Les moteurs de recherche en revanche, permettront didentifier les pages dun site Web concernant un sujet trs spcifique. Ainsi si lon recherche des informations sur les champignons, on pourra identifier des sites spcialiss sur la question dans des annuaires. Mais si lon veut tout savoir sur la coucoumelle (nom usuel dune espce damanite), cest dans des moteurs de recherche quil faudra lancer sa recherche. On a vu par ailleurs la diffrence entre annuaires slectifs ou non (cf. section 1.4.2). Selon le type de question, la recherche sera plus performante si on utilise un annuaire classique ou un annuaire slectif. Pour retrouver, par exemple, le site Web dune socit, pour identifier les sites des entreprises dans un domaine donn, ou pour avoir une ide de loffre disponible sur le Web sur un sujet particulier, nul doute quune recherche dans les annuaires gnralistes sera bien adapte. Mais si lon souhaite en revanche identifier quelques sites de rfrence sur un sujet, gnral ou spcialis, lutilisation dun annuaire slectif ou dun portail spcialis permettra dobtenir rapidement une rponse pertinente. De mme, si lon dsire accder des ressources de type spcialis comme les fichiers multimdias ou excutables : on ne peut sadresser qu un annuaire thmatique. Cet annuaire peut tre dcentralis comme dans de nombreux cas avec le peer-to-peer ou avec les annuaires UDDI (Universal Description Discovery and Integration), mais on ny accde alors pas directement via le protocole HTTP. Une premire dmarche peut tre aussi de trouver les outils de recherche : lutilisation de mta annuaires (rpertoire des outils de recherche et des portails thmatiques) peut tre alors utile. Enfin, lutilisation des mta moteurs pour effectuer une recherche fdre prend tout son sens pour des recherches ponctuelles, notamment lorsquil sagit de rpondre des questions simples (un ou deux mots), pour lesquels les moteurs gnralistes obtiennent peu de rponses. Plutt que dinterroger successivement les diffrents moteurs, il est alors bien plus rapide de faire appel un mta moteur qui collectera les diffrentes rponses. Nous avons dit dj quune mthode de recherche sur le Web sassimile souvent lutilisation dun outil. Ces outils sont dj trs puissant et peuvent aider exprimer une recherche dinformations qui souvent est suffisamment large pour tre difficilement exprimable, mme en langage naturel. Notamment, ces outils orientent lutilisateur dans sa recherche de manire rcursive. Lutilisateur peut largir ou prciser sa recherche en fonction des rsultats obtenus aux premires requtes. La mthode, proprement parler, consiste donc savoir et exprimer de manire non ambigu sa recherche dinformations. Ce nest pas forcment possible dans tous les cas, notamment en phase dapprentissage, de dcouverte et dexploration. Cela est difficile si lutilisateur nest pas sr de la prsence ou non des donnes sur le Web. Lensemble de ces outils rpond une dmarche de recherche de linformation a posteriori. Les ressources sont publies puis les outils de recherche sont mis en uvre en posant la question comment fait-on pour les retrouver et y accder ? . Les rsultats des recherches des utilisateurs sont meilleurs dans un systme dans lequel les documents sont systmatiquement indexs et rfrencs priori selon une procdure gnrale en se posant la mme question (cf. mta donnes dans la section Fonctions avances page 5 puis vocabulaire contrl, dictionnaires, schmas de catgorisation dans la section 1.3). Encore faut-il que tous les utilisateurs dun mme domaine de recherche respectent cette procdure gnrale. Lefficacit de la recherche sur Internet bute aujourdhui sur ce point. Lutilisation des agents intelligents, objet de notre chapitre suivant, pour rsoudre ces mmes problmes, bute aussi trs certainement sur cela.

2. Les agents intelligents


Les machines, au sens large du terme, sont inventes et ralises par les Hommes afin de les dcharger de tches alinantes et afin de raliser des tches quils ne peuvent eux mme excuter de par leurs caractristiques physiques notamment. Les Hommes ne peuvent pas voler, mais ils inventent et construisent des machines pour ce faire. Dans certains cas, les capacits des machines

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 12

dpassent celles des Hommes et accroissent leur capacit daction, laissant esprer la ralisation de tches autrement impossibles. Lordinateur excute des tches que lHomme peut souvent raliser mais qui lalinent et ralise des calculs qui dpassent les capacits humaines grce sa rapidit et sa puissance de calcul et qui ne pourraient se faire autrement. La tentation est grande donc de chercher concevoir des machines pour chaque chose que lHomme ne sait pas faire ou fait difficilement. Nous avons vu, pour le sujet qui nous concerne, que les mthodes et les outils de recherche de donnes rparties travers le Web sont parfois insuffisants et ne permettent pas dy accder. Sagissant dinformations, la Communication prend une part majeure dans la problmatique de laccs aux donnes rparties sur le Web. Vu le volume des ressources concernes (cf. section 1.1), les capacits des ordinateurs sont les seules mme de permettre un accs universel, ce qui est certainement une des finalits du Web. Les oprateurs humains qui sattachent la rsolution de ce problme de non-accs aux donnes rparties mettent aux points des outils nomms par eux agents intelligents . Ce chapitre vise prsenter les notions essentielles permettant de comprendre ce que sont et ce que peuvent raliser les agents intelligents. Nous verrons donc diffrentes dfinitions qui sont donnes aux agents intelligents, quel domaine dactivit ils appartiennent, quelles sont les diffrentes formes quils prennent et enfin quelles en sont les caractristiques communes. Ces notions nous permettront de voir et mieux aborder dans le chapitre suivant (section 3) quelles sont les contributions que les agents intelligents peuvent apporter la recherche de donnes rparties travers le Web.

2.1.

Introduction lintelligence artificielle et aux agents

2.1.1. Dfinitions des agents intelligents


Un agent intelligent est en premier lieu un agent. Un dictionnaire gnraliste qualifie un agent de personne charge des affaires et des intrts d'un individu, d'un groupe ou d'un pays, pour le compte desquels elle agit. (dictionnaire Robert). Un dictionnaire amricain le qualifie d'entit autorise agir pour le compte de quelqu'un ( An entity authorized to act on another's behalf ) [4]. Sinon, et cest ce qui nous intresse le plus dans ce rapport, un agent intelligent est le produit dune discipline reconnue qui est lintelligence artificielle (IA). Les dfinitions les plus restrictives proviennent des milieux de l'intelligence artificielle. Il n'y a pas cependant d'accord sur une dfinition prcise. Stan Franklin et Art Graesser de l'Institut for 21 Intelligent Systems de l'universit de Memphis en recensent une bonne douzaine au sein de la communaut scientifique [4]. L'association franaise de normalisation (AFNOR22) pour sa part les dfinit ainsi : Objet utilisant les techniques de l'intelligence artificielle : il adapte son comportement son environnement et en mmorisant ses expriences, se comporte comme un sous-systme capable d'apprentissage : il enrichit le systme qui l'utilise en ajoutant, au cours du temps, des fonctions automatiques de traitement, de contrle, de mmorisation ou de transfert d'information [4]. Un agent intelligent contient un ou plusieurs des lments suivants [4]: - une base de connaissance prdfinie, - un moteur d'infrence, lui permettant deffectuer des dductions plus ou moins complexes, - un systme d'acquisition de connaissances, - un mcanisme d'apprentissage. Face aux nombres de dfinitions existantes des agents intelligents, l'habitude a t prise de dfinir un agent plutt par ses proprits. Un agent23 est une entit physique ou virtuelle qui [5]:
21 22 23

IIS Institut for Intelligent Systems / University of Menphis USA : http://mnemosyne.csl.psyc.memphis.edu/iis/index.htm AFNOR : http://www.afnor.fr Daprs Jacques Ferber / Les systmes multi-agents / InterEditions Probatoire session janvier 2004 p 13

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

- est capable d'agir dans son environnement, - peut communiquer avec d'autres agents, - est dou d'autonomie et est mu par un ensemble de tendances (objectifs individuels), - possde des ressources propres, - est capable de percevoir son environnement et de s'adapter ses modifications, - ne dispose que d'une reprsentation partielle de son environnement, - possde des comptences et offre des services, - peut ventuellement se reproduire. Nous dvelopperons plus en dtail ces proprits dans la section 2.4. Mais, avant cela il est ncessaire daborder en quoi consiste lintelligence artificielle dont sont drivs les agents intelligents.

2.1.2. Lintelligence artificielle


Sources : [6], [7]. Dterminer ce quest exactement lintelligence est dj un exercice polmique. Dire en quoi consiste lintelligence artificielle par rapport lintelligence humaine, voir celle de la Vie, lest encore plus. Pour dpasser ce dbat entre intelligence artificielle et intelligence naturelle, on peut voir lintelligence comme une liste de fonctions. Quand une fonction de lintelligence est reproduite par une machine et un programme, il sagit dintelligence artificielle, cest dire dune intelligence dveloppe la manire de la machine, certainement diffrente de la manire de la nature, mais dont le rsultat est identique. Le but de lintelligence artificielle est de dpasser les limites de lHomme, aussi faire des machines et des programmes qui agissent comme un Homme est illusoire, voir inutile. Lordinateur sait dj calculer et mmoriser. Ce sont deux fonctions de lintelligence humaine. Aussi certains programmes informatiques qui font des traitements automatiques font dj preuve dune certaine intelligence. Les logiciels savent aussi communiquer, mme si cette communication peut paratre rudimentaire, car rigoureusement pr-tablie. Ils communiquent entre eux (en utilisant des protocoles de communication) et avec les utilisateurs (via les Interfaces Homme-Machine - IHM). On peut distinguer une IA forte et une IA faible. On accepte communment que tous les mcanismes dintelligence artificielle contemporains obissent une IA faible. Lintelligence est trs lie tout dabord la connaissance, et conscutivement, la capacit dapprendre. La capacit dapprentissage est au cur de lintelligence artificielle, avec les sciences cognitives. Connatre est une fonction, reconnatre en est une seconde intimement lie. La perception de lenvironnement est lie lintelligence. En cela, les machines, pour le moment, sont trs diffrentes des Hommes et du monde vivant en gnral, gnralement pourvues de capacits plus faibles. Toutefois, l encore, petit petit, de manire isole, les machines commencent pouvoir imiter la nature. Les systmes, utilisant les rseaux de neurones, de reconnaissance visuelle ou vocale en sont les tmoins. Lintelligence est aussi lie au langage. On reconnatra aux agents logiciels une relle intelligence lorsquils rpondront dune manire telle que nous ne saurons pas la diffrencier de la manire dun autre humain. On dveloppe donc des chatbots ou encore robots conversationnels pour approfondir ce domaine. On dveloppe aussi des programmes de traduction automatise des langues (TAL). Le test de Turing vise dterminer cette intelligence. Cest aussi le domaine du Traitement Automatis du Langage Naturel (TALN) qui est une des voies de dveloppement important de lintelligence artificielle. Raisonner est certainement une des plus hautes fonctions de lintelligence, et de ce point de vue, les machines sont encore aujourdhui loin de nous. Cependant, l aussi, elles commencent produire des raisonnements qui assistent les Hommes dans leurs oprations (systmes dinfrences et systmes experts). La conscience, dans sa globalit, est un phnomne mystrieux encore et les personnes sattachant en expliquer les contours (neurologues, psychologues, philosophes) ne peuvent la dcrire compltement, et encore moins la reproduire. La conscience est pourtant une des formes les plus importantes de lintelligence et limite certainement la progression de la discipline quest lintelligence artificielle.
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 14

Lintelligence doit permettre aux logiciels agents de faire preuve dautonomie et de pouvoir prendre des dcisions seuls. Un des problmes les plus dlicats de lIA est de programmer lintentionnalit qui sous-tend les actions des humains. La difficult consiste ne permettre aux agents intelligents de ne retenir que ce qui est significatif dans ce quils peuvent percevoir , cest dire dans ce quils peuvent recevoir comme informations. La rtroaction avec des utilisateurs humains est donc ncessaire aujourdhui pour permettre aux agents existants de pouvoir continuer fonctionner intelligemment, cest dire en effectuant des actions qui correspondent un ou plusieurs objectifs assigns et ceci de manire efficace. Les robots seront vraiment intelligents lorsquils sauront eux-mme se programmer, voir se reprogrammer, pour faire mieux que les Hommes. Pour linstant, ils se contentent dtre des assistants dans lexcution de tches complexes et / ou lourdes. Lintelligence artificielle vise ainsi aujourdhui : 1. dvelopper des systmes de reconnaissances de formes ; 2. construire des robots capables deffectuer des actions dans des conditions surhumaines (astronautique par exemple) ; 3. dvelopper des agents conversationnels et des programmes de traduction automatique des langues ; 4. dvelopper des systmes experts et de rsolution de problmes. Les agents intelligents au service de laccs aux donnes rparties travers le Web rpondent aux objectifs 3 et 4 et font plus partie de lapproche descendante de lintelligence artificielle, ou encore approche dductive, base sur la logique. Les systmes inductifs, bass sur lexprimentation et lobservation avec lapproche ascendante rpondent aux objectifs 1 et 2.

2.2.

Approche descendante

Avec la dduction programme et laide la dcision, les systmes descendants sont trs performants pour des tches de raisonnement logique (pour les jeux entre autres), mais nettement moins pour des tches dapprentissage flexibles. Les programmes informatiques utilisent des instructions conditionnelles comme SIALORS , qui permettent lordinateur de traiter diffrentes parties dun programme en fonction de ses entres. Cest pourquoi lapproche descendante, qui va du gnral vers le particulier, convient la dduction et laide la dcision. Avec des instructions conditionnelles, un programme rpond intelligemment diffrentes entres, mais si celles si sont prvues. Si on complexifie les programmes informatiques, on peut attendre des comportements complexes en sortie.

2.2.1. Systmes dinfrence


Source : [8] Introduction linfrence Linfrence est une opration logique par laquelle on admet une proposition en vertu de sa liaison avec dautres propositions dj tenues pour vraies24. Les programmes informatiques peuvent raliser cette opration. Ils peuvent porter le nom de moteur dinfrence. Ces moteurs appliquent des rgles des faits et des donnes pour dduire de nouveaux faits ou donnes. Infrer peut tre illustr de manire gnrale dans les termes suivants : si je sais ceci, cela et encore cela, alors que cela me suggre-t-il ? . A titre dexemple, disons : si cela marche comme un canard, cancane comme un canard et ressemble un canard, alors cest probablement un canard . Dans cette expression, les faits que lon connat sont : - marche comme un canard,
24

Dfinition du mot infrence Dictionnaire Robert - 1976 Probatoire session janvier 2004 p 15

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

- cancane comme un canard, - ressemble un canard. Ils sont admis. Ce sont ce que les logiciens appellent des antcdents et ce quun programme informatique appellerait intrants (inputs). Linfrence cest probablement un canard appelle un commentaire supplmentaire. Si nous omettons de dire probablement , cela signifie que notre conclusion est soit vraie ou fausse, ou autrement dit 100% vrai ou 100% faux. Cela peut tre exprim en pseudo-code comme suit : SI ET ET ALORS objetx objetx objetx objetx (marche comme un canard) (cancane comme un canard) (ressemble un canard) EST ["un canard"]

Maintenant, si nous regardons lexpression en y incluant le mot probablement , cela signifie que la linfrence ne peut pas tre 100% vraie. Cela induit une nuance qui peut tre traduite par le fait que la probabilit que cela ne soit pas un canard est faible. Cela peut tre exprim en pseudo-code ainsi : SI ET ET ALORS objetx objetx objetx objetx (marche comme un canard) (cancane comme un canard) (ressemble un canard) EST PROBABLEMENT ["un canard"]

Une des manires dont nous raisonnons avec les assertions que nous pouvons faire, comme avec lexpression au sujet du canard, est dinclure la possibilit derreur ou celle dincompltude (en absence dinformation supplmentaire et discriminante), au lieu de la pondrer avec la rgle simpliste qui consiste dire que toutes les assertions sont 100% vraie ou fausse. En logique classique, si toutes les conditions antcdentes sont vraies alors nous pouvons statuer que la consquence est aussi 100% vraie. Cela implique la fois une connaissance et une logique parfaites (totales). Linfrence, qui nous permet, nous humains, de savoir que nous sommes en face dun canard sans quil soit besoin quil soit tiquet, cest dire identifi de manire formelle, canard , peut aussi permettre un ordinateur de reconnatre et de traiter lentit (un ensemble de donnes et de faits) laquelle il est confront sans que celle ci soit identifie formellement dans une variable prdfinie et connue de lui. Infrer permet un programme informatique de reconnatre des ensembles sans que ceux ci lui soient prsents de manire explicite et comprise priori par lui. Il peut traiter alors des donnes sous-entendues mais pas formellement prvues. Notons ce stade, quinfrer permet un programme de dtecter des donnes qui sont implicites, partir de donnes ou de mta donnes qui sont, elles, explicites. Un programme peut alors dtecter des informations tacites travers des traitements dinfrence. Systmes de raisonnement Comme mentionn en introduction de cette section 2.2, les premiers systmes de raisonnement taient bass sur des conditions de logique algbrique simple du type : Si A alors B Cela pourrait tre traduit par A implique B ; par cela on peut aussi traduire que si A est vrai alors B est aussi vrai. Ces premiers systmes, souvent crit en LISP ou en PROLOG, consistaient en des sries de rgles de logique simple qui pouvaient tre appliques. En appliquant la logique conditionnelle algbrique en cascade, nous introduisons le concept de OU ALORS SI ("Else If"), prenant la forme : Si A alors B Ou Si C alors D Ou Si
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 16

Cette forme de logique peut tre mise en uvre dans les langages de programmation par les oprateurs de traitement "Switch" ou "Case". Sil est possible de choisir cette approche dans les systmes dinfrence, cest uniquement dans le cas de problmes simples (par opposition complexes). En effet, cette approche, bien que compacte et rapide excuter, est difficile maintenir dans des cas de problmes rels cause de la complexit de la structure du graphe consquent, ou autrement dit de la complexit du programme associ.

2.2.2. Systmes experts


Les dclarations dinfrence et les mcanismes utiliss dans les systmes experts diffrent de ceux utiliss dans les systmes de raisonnement vus pralablement. Dans lapproche prcdente, chacune des conditions ("SI") agit de manire isole en fonction de la place quoccupe le bloc conditionnel dans le programme, apportant ou non sa contribution la solution. Si le rsultat des traitements contenus dans un bloc conditionnel nest pas enregistr dans une variable globale ou trait par les blocs de traitement suivant, ce rsultat est oubli. A la fin de la session du systme de raisonnement, le rsultat est classiquement oubli de toute faon. Le systme de raisonnement classique atteint une conclusion et est capable de loublier immdiatement aprs [8]. Le systme expert diffre de ce point de vue car les rgles sont stockes dans une base de connaissance. Le moteur dun systme expert est capable dexaminer nimporte quelle rgle. Si la condition "Si A alors B" (lantcdent) est vraie alors la rgle est active ( fired ), avec toutes ses consquences possibles. Quand le programme est excut, le moteur itre travers toutes les rgles. Quand une rgle est active, cest dire quand ses antcdents ou conditions sont vraies, alors elle peut produire une assertion. De cette manire, linformation consquente est place dans une base dassertion. Lespace dassertion est la mmoire (active) collective de la base de connaissance. Cet espace dassertion est visible par toutes les rgles de la base de connaissance et est automatiquement examin par le moteur de recherche alors quil itre travers les rgles pendant les tapes de linfrence. Lorsquune rgle est active, une des consquences peut tre aussi une rtractation et les informations lies sont retires de la base dassertion. Dans les systmes experts, les engins itrent travers toutes les rgles chaque cycle dinfrence. Cela rend les valeurs (ou contenus) des assertions de la base dassertion issues des cycles prcdents disponibles pour chaque rgle lorsque le moteur itre dans un nouveau cycle. Une des manires dont le systme expert obtient ses rponses est de continuer itrer travers les rgles dans la base de connaissance jusqu ce quaucune nouvelle assertion ne puisse tre faite, en tenant compte videmment des restrictions de temps imparti au traitement (time-out). Une des manires complmentaires darriver aux rponses est aussi dinteragir avec lutilisateur en lui posant des questions complmentaires afin de restreindre le champ des possibilits ou en demandant des confirmations. Les systmes experts utilisent parfois la logique floue pour effectuer leurs traitements. Cest dire quils nutilisent pas forcment des valeurs discrtes comme les valeurs boolennes de vrai ou faux (voir sous-chapitre intitul Introduction linfrence page 15) pour fabriquer leur assertion, mais sappuient sur des probabilits avec les risques derreur que cela comporte. Lavantage est dtendre les possibilits de dduction du systme et darriver des solutions, ou tout du moins des propositions de solutions. Actuellement, les capacits dductives de lintelligence artificielle descendante sont souvent appliques au sein de systmes experts (SE), essentiellement ddis lanalyse de base de donnes. Laccroissement des capacits des ordinateurs (vitesses de traitements et capacits de stockage) permet daugmenter les bases de connaissance et lefficacit des programmes SE.
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 17

La base de connaissance est le fondement du systme expert. Tout accroissement de ces bases de connaissances amliore et accrot les capacits des systmes experts. Les systmes experts sont utiliss actuellement comme outils daide lidentification des espces vgtales et animales ou comme outil de diagnostic de maladies en mdecine. Le personnel de lassistance par tlphone utilise de plus en plus des systmes experts pour traiter plus efficacement les problmes des clients.

2.2.3. Traitement du langage naturel


Le traitement automatis du langage naturel (TALN) est une fin en soi dans les domaines dapplication de lintelligence artificielle. Il est attendu en effet que lIA permette la communication entre humain et machine de manire naturelle pour lhumain. Le traitement du langage naturel pour communiquer [7] [9] On espre ainsi que les ordinateurs comprennent les phrases, les traduisent dans nimporte quel autre langage et puissent aussi en gnrer. Le TALN est bas sur la grammaire. La grammaire spcifie la structure des messages ; cest un modle de reprsentation sur lequel un langage formel peut tre construit. On utilise alors une grammaire logique o lanalyse syntaxique est rduite linfrence logique. Cest dailleurs pourquoi on classe le TALN dans lapproche descendante de lIA. Le processus est le suivant. Chaque phrase peut tre dcompose en expressions, et chaque expression en petites parties, jusqu ce quil soit possible didentifier la fonction de chaque mot, et de donner un sens la phrase. Les applications du traitement du langage naturel sont les programmes conversationnels : en y associant la reconnaissance et la synthse vocale, on approche la communication de type humaine. La traduction automatise des langues (TAL) est aussi une application. Les rsultats restent toutefois approximatifs, voir insuffisants dans certains cas. Il faut dire que le langage humain est plus complexe que le langage formel sur lequel est bas le TALN. Il faut aussi pouvoir traiter par exemple les notions propres aux mtonymies, aux litotes, aux mtaphores, aux anaphores, au contexte de la communication et traiter aussi les problmes dambigut du langage : synonymie et homonymie. Le traitement du langage naturel pour dautres applications Certains traitements du langage naturel limits sont ncessaires pour la recherche dinformation. Il sagit de desambiger les mots, de regrouper les mots en terme ou danalyser des documents afin de les indexer. On essaie donc par ailleurs deffectuer des traitements danalyse smantique. Ces traitements permettent par exemple de classer des documents par mots cls ou par catgorie. Une approche de ces traitements sera dveloppe dans la section 3.2 de ce rapport. Des traitements complmentaires permettent damliorer ces traitements. Il sagit de la lemmatisation (cf. section 3.1.3) et du filtrage des mots fonctionnels (mots stop) [10]. Ces traitements sont par ailleurs utiliss par les moteurs de recherche (cf. section 1.2). Cest dailleurs pourquoi les moteurs de recherche se sont vus affects le terme de robots ou encore dagents et que certains considrent que les moteurs de recherche sont des agents intelligents. Enfin, la traduction automatique du langage est utilise par les moteurs de recherche pour les recherches dinformations multilingues.

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 18

2.2.4. Perspectives
Les systmes ferms, dans lesquels toute connaissance est prdfinie, peuvent tre interprts avec les rgles de la logique. Mais les systmes ouverts - les situations du monde rel ne peuvent tre formaliss, ce qui explique par exemple, pourquoi les robots conversationnels ninteragissent pas trs bien avec les humains pour le moment. De nombreux chercheurs pensent que la seule faon de construire une vritable forme dintelligence est de permettre un systme dapprhender et dexprimenter le monde par lui-mme. La science cognitive est une science qui vise tablir et matriser les processus en jeu dans lacquisition de connaissances et de comptences. Un des buts de lIA est donc dappliquer les rsultats de la science cognitive afin que les agents intelligents puissent apprendre de manire autonome. Linfrence est un des mcanismes qui permet dlargir les connaissances des agents intelligents. Le traitement automatis du langage naturel est un des moyens dont ils disposent pour exploiter les sources dinformations crites, notamment sur le Web, considr comme une gigantesque base de donnes mais non structures, quand il sagit de documents crits. Une des marges de progrs est donc de coupler les diffrentes approches et disciplines de lintelligence artificielle, et notamment les approches descendantes et ascendantes, ces dernires que nous allons maintenant aborder.

2.3.

Approche ascendante : rseaux de neurones

Lapproche de lintelligence artificielle est incomplte si nous ne faisons pas mention de lapproche ascendante travers son application majeure que sont les rseaux de neurones. Lintelligence artificielle est aussi conue comme tant limitation de ce quest lintelligence naturelle, et par restriction lintelligence humaine (cf. section 2.1.2). Lapproche ascendante sappuie sur lexprimentation. Les rseaux de neurones rsultent dune approche visant imiter le fonctionnement du cerveau humain et sadossent donc sur la neurologie et par extension la biologie. Grossirement, on peut dire que les neurones biologiques tablissent des circuits similaires des circuits lectroniques. Les rseaux de neurones lectroniques sont des circuits pr-tablis mais sans objectifs dfinis priori. Lexcitation de certains des circuits lors doprations particulires (stimulations) reoivent une signification prcise lors de lapprentissage de la machine. Le Perceptron, une machine invente par Franck Rosenblatt, sinspire du mcanisme de la vision humaine. Le perceptron tait connect la sortie dune cellule photosensible, et les signaux issus de cette cellule taient transmis un petit rseau de neurones artificiels. Aprs avoir expos le Perceptron des exemples de lettres de lalphabet, lappareil apprit les distinguer. Lapprentissage du rseau de neurones permet daffecter un poids (coefficient) aux circuits tablis et corrige les erreurs possibles lorsque lappareil passe de formes simples (canoniques) des formes plus complexes que lon peut trouver dans la nature et quil reconnat mal. Aujourdhui les rseaux de neurones disposent de trois couches de neurones afin daugmenter leurs capacits dadaptation. De plus, ils peuvent, contrairement ce qui existe dans la nature, retourner des erreurs en affaiblissant le poids de circuits. Ce mcanisme sappelle la rtropropagation. Les rseaux de neurones peuvent fonctionner de manire distribue et en parallle. Ils peuvent exister en tant que composant matriel autonome ou tre simuls de manire logicielle. Le rsultat de lapprentissage des rseaux de neurones peut tre formalis par un algorithme. Les rseaux de neurones base de rtropropagation sont trs utiliss pour la reconnaissance de formes. Des astronomes emploient ces rseaux pour classifier les galaxies lointaines ; des chercheurs sen servent pour des systmes de reconnaissance de visages et de vhicules ; des financiers utilisent des rseaux neuronaux qui reprent la tendance du march comme outil daide la dcision dinvestissement [7]. De plus, on peut nuancer les rponses dun rseau neuronal en utilisant la logique floue (voir aussi logique floue page 17). Une approche complmentaire parfois utilise est de rduire lapprentissage des rseaux de neurones en le substituant un apprentissage non dirig en autoorganisation. Cette formule peut trouver des relations dans de grandes quantits dinformations que
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 19

lon ne pourrait jamais identifier. Le rseau baysien est un type de rseau auto-organisation. Les rseaux baysiens dduisent des modles partir de situations o une grande partie de linformation manque. Voyons comment un agent intelligent met en uvre les principes que nous venons daborder jusqu maintenant en parlant dintelligence artificielle en dcrivant ses proprits.

2.4.

Proprits et architecture dun agent intelligent

Les proprits des agents se conoivent notamment dans le cadre dun systme multi-agents. Ses proprits se dfinissent compltement sil est amen travailler en coopration avec dautres agents. Un agent doit non seulement interagir avec un humain travers les interfaces HommeMachine (IHM) classiques mais aussi avec dautres agents.

2.4.1. Proprits gnrales


Les promoteurs de la notion dagent intelligent saccordent pour dire quau minimum quatre caractristiques sont ncessaires pour les dfinir et marquer leur diffrence avec dautres outils de recherche [1] [4]. Autonomie Lagent doit pouvoir prendre des initiatives et agir sans intervention de lutilisateur final. Cette autonomie est acquise grce linteraction avec dautres agents qui lui permettent de confirmer ou infirmer des hypothses par exemple. Les actes de communication25 avec dautres agents, dont il est capable, sont suffisamment riches pour disposer dune autonomie propre. Capacit communiquer et cooprer Lagent doit donc pouvoir changer des informations plus ou moins complexes avec dautres agents, avec des serveurs, et intgrer les nouvelles demandes ou suggestions de loprateur humain. Capacit raisonner, ragir leur environnement Lagent doit tre capable de sadapter son environnement et aux volutions de celui-ci, qui peut tre compos dautres agents, du Web en gnral ou des utilisateurs. Cette adaptation doit sappuyer sur une analyse permanente de cet environnement extrieur. La mobilit Les agents doivent pouvoir tre multi-plates-formes et multi-architectures et tre aptes se dplacer sur le rseau o ils accomplissent des tches, sans que lutilisateur ait le moindre contrle sur cellesci. Les agents ont donc un comportement gnrique qui doit pouvoir tre reproduit sur tout type de plate-forme et travers tout type de rseau, notamment les rseaux sans fil. Linteroprabilit est au cur de la dfinition des agents intelligents logiciels. Larchitecture des agents est conue pour que ceux-ci puissent tre mis en uvre et communiquer partir de nimporte quel type de machine. Larchitecture prend en compte la gestion de multiples mthodes de transport des messages, la gestion de multiples mthodes dencodage des messages et la localisation des agents et de leurs services via des rpertoires (annuaires) de services.

25

Les actes de communication font rfrence aux travaux de John Searle, synthtiss dans son ouvrage Speech acts en 1969 (Searle, J.R., Speech Acts. Cambridge University Press, 1969). Les travaux de Searle sur le langage et sa mise en oeuvre par des machines sont une des rfrences en IA. Probatoire session janvier 2004 p 20

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

2.4.2. Architecture dun agent intelligent


La communication (de messages) est au cur de lintelligence dveloppe par les agents. Une des composantes majeure de la communication est le langage. Ce langage peut sappuyer sur une ou 26 plusieurs ontologies , qui formalisent la connaissance et le sens du contenu du message de manire explicite. Linteroprabilit vient renforcer les capacits de communication des agents. Pour la FIPA27, un agent est un programme (processus) informatique qui ralise la fonctionnalit de communication autonome dune application ; autrement dit qui va agir en son nom. On retrouve la dfinition dun agent (cf. section 2.1.1). Larchitecture abstraite [11] dun agent dfinie par la FIPA spcifie comment deux agents peuvent se localiser et communiquer lun avec lautre en senregistrant (auprs dun rpertoire dagent) et en changeant des messages. Pour cela un ensemble dlments darchitecture et leurs relations est spcifi. Ces lments sont repris dans un tableau en annexe page 36. Agents et services Les agents communiquent en changeant des messages qui reprsentent des actes de communications et qui sont encods dans une langue (de communication) dagent (ACL - agentcommunication-language28). Les services fournissent des services aux agents. En plus du nombre des services standard incluant les services de rpertoire dagent (agent-directory-services) et les services de transport de message (message-transport-services), larchitecture abstraite de la FIPA dfinit un modle (schma) de service gnral qui comprend un service de rpertoire de services (servicedirectory-service). Larchitecture abstraite de la FIPA est volontairement neutre sur la manire dont les services doivent tre prsents. Ils peuvent tre mis en uvre en tant quagents ou comme logiciels accessibles via linvocation de mthode en utilisant des API telles que celles fournies par Java, C++ ou IDL. Un agent fournissant un service est plus contraint dans son comportement quun agent vocation gnrale. En particulier, les agents (de service) doivent prserver la smantique du service. Cela implique que ces agents ne doivent pas avoir le degr dautonomie normalement attribu aux agents. Ils ne peuvent pas par exemple arbitrairement refuser de fournir le service. Dmarrage dun agent Au dmarrage, un agent doit tre enregistr dans un service initial (service-root) auprs dun rpertoire de service (service-directory-service) qui fournit en retour un ensemble dadresses (service-locators) pour les services de base du cycle de vie dun agent tels que le transport de message, le rpertoire de service et le rpertoire dagent (message-transport-services, agent-directory-services et service-directory-services). En gnral, le service initial fournit suffisamment dentres pour dcrire tous les services disponibles avec lagent, ou ce premier fournit des pointeurs (rfrences) vers dautres services qui dcriront ces services. Les services de rpertoire dagent (agent-directory-service) Le rle de base dun service de rpertoire dagent (agent-directory-service) est de fournir un endroit o les agents (agent) enregistrent leur description dans une entre de rpertoire dagent (agent-directory-entries). Dautres agents peuvent chercher les entres de rpertoire dagent pour trouver et slectionner des agents avec lesquels ils dsirent interagir.

26

Dfinition : Une ontologie tablit une terminologie commune, plus un consensus sur son interprtation entre des membres dune communaut de communication. Ces membres peuvent tre humains ou des agents artificiels. Les ontologies reprsentent un champ de recherche bien tabli en philosophie et intelligence artificielle 27 FIPA Foundation for Intelligent Physical Agents : http://www.fipa.org 28 Chaque mot entre paranthses et en police de caractres courier new 10 points font references aux elements de larchitecture abstraite des agents de la FIPA repris en annexe page 36. Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 21

Une entre de rpertoire dagent est un enregistrement constitu de deux lments : le nom de lagent (agent-name) et son emplacement (adresse agent-locator). Le nom de lagent doit tre unique. Lemplacement de lagent est dfini par une ou plusieurs descriptions de transport (transportdescription), chacune delle tant une structure auto-descriptive contenant un type de transport (transport-type), une adresse spcifique au transport (transport-specific-adress) et zro ou plusieurs proprits spcifiques au transport (transport-specific-property). La structure de transport est utilise pour communiquer avec lagent. En plus, lentre de rpertoire dagent peut contenir dautres attributs descriptifs comme les services offerts par lagent, le cot associ lutilisation de lagent, les restrictions dutilisation de lagent, etc.. Un agent senregistre auprs dun rpertoire dagent en construisant son entre et en la proposant un service de rpertoire dagent. Les agents peuvent utiliser le service de rpertoire dagent pour localiser un agent avec lequel ils dsirent communiquer. Services de rpertoire de service (service-directory-service) Le rle de base dun service de rpertoire de service est de fournir des moyens cohrents par lesquels des agents ou des services peuvent dcouvrir des services (service). Concrtement, un rpertoire de service offre un emplacement o les services peuvent enregistrer leurs descriptions en tant quentre de rpertoire de service (service-directory-entry). De mme, des agents et des services peuvent interroger un rpertoire de service pour localiser des services appropris leurs besoins. Le service de rpertoire de services est analogue mais aussi diffrent des services de rpertoire dagent. Le premier sert la dcouverte de services alors que le second est ddi la dcouverte dagents. Les entres dun rpertoire de service sont des descriptions de services consistant en un enregistrement contenant un nom de service (service-name), un type de service (service-type), un appel (emplacement) de service (service-locator) et un ensemble dattributs de services optionnels (service-attributes). Lappel de service est une structure type qui peut tre utilise par les services ou les agents pour accder au service. Le nom de service doit tre unique. Le type de service indique la catgorie de service. Lappel de service est constitu dun ou plusieurs enregistrements contenant les lments suivants : un type de signature (signature-type), une signature de service (service-signature) et une adresse de service (service-adress). Par ailleurs, comme pour les agents, chaque service de rpertoire de service doit fournir au dmarrage des agents un service initial (service-root) qui prend la forme dun ensemble dappel de service (service-locator) incluant au moins un service de rpertoire de service (pointant sur lui-mme). Messages dagent Dans les systmes dagents de la FIPA, les agents communiquent entre eux en envoyant des messages (message). Les trois aspects fondamentaux de la communication de messages entre agents sont : la structure du message, la reprsentation du message et le transport du message. La structure dun message29 correspond un enregistrement et est crit en langue (de communication) dagent (agent-communication-language), comme FIPA ACL. Le contenu du message (content) est exprim dans un langage de contenu (content-language) comme KIF30, SL31 ou RDF32. Les expressions du contenu dun message peuvent sappuyer sur des ontologies rfrences dans un enregistrement spcifique aux ontologies33 (ontology).

Voir : FIPA ACL Message Structure Specification / standard / 2002-12-03 / FIPA TC Communication / accessible lURL http://www.fipa.org/specs/fipa00061/SC00061G.html 30 KIF Knowledge Interchange Format. Voir FIPA KIF Content Language Specification lURL http://www.fipa.org/specs/fipa00010/ 31 SL Semantic Language. Voir FIPA SL Content Language Specification lURL http://www.fipa.org/specs/fipa00008/ Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 22

29

Le message contient aussi les noms de lexpditeur et du destinataire, exprims avec les valeurs de la variable agent-name. Chaque message a un metteur et zro ou plusieurs rcepteurs. Le cas de zro (aucun) rcepteurs permet la diffusion tous (broadcasting) de message comme ncessaire dans les rseaux sans-fil. Les messages peuvent rcursivement contenir dautres messages. Les messages sont contenus dans des messages de transport (transport-message) quand les messages sont envoys dun agent un autre. Les messages de transports sont spcifiques de chaque transport (transport) utilis et spcifi dans lentre de lagent dans le rpertoire dagent (agent-locator). Lenveloppe (Envelope) dans les messages de transport sert prciser des informations permettant de garantir la validit du message (toute modification du message pendant la transmission peut tre identifiable) et son encryptage (scurit). Lintelligence des agents se situe particulirement au niveau des messages. La langue ACL peut exprimer jusqu 22 actes de communication diffrents. Les actes de communication primitifs sont lassertion informative, la demande directive, la confirmation dune proposition incertaine et la contradiction34. De la mme manire, le langage smantique31 permet aux agents dutiliser une grammaire formelle leur permettant dexprimer des actions relatives leurs connaissances. Leurs connaissances peuvent tre formalises et partageables grce aux ontologies. La communication inter-agents est une suite de messages. Les interactions pr-tablies font lobjet de protocoles dinteractions35. Pour tre considre comme conforme aux spcifications dun agent intelligent de la FIPA, une plateforme agent doit au moins mettre en uvre les spcifications de langue de communication dagent 36 37 (ACL) et celles de la gestion des agents . Cela montre limportance de la communication dans la dfinition pratique dun agent intelligent. En guise de perspectives, mentionnons le fait que les agents ont t mis en oeuvre grande chelle dans une exprimentation visant mettre en rseau plusieurs systmes agents. Il sagit du projet Agentcities38 qui a dmontr que les agents intelligents rpondaient leurs objectifs (dcouverte dynamique des agents entre eux, tablissement de communications et de relations daffaire satisfaisant des besoins dentreprises et dutilisateurs finaux). Aujourdhui les techniques multiagents oprent dans des projets dinformatiques distribues, repris sous le vocable de grid computing .

2.5.

Conclusion

Laperu que nous venons doprer propos des agents intelligents dans cette section montre que les agents intelligents offrent de relles perspectives pour raliser des tches difficiles, coteuses, voir impossible autrement. Les systmes dinfrences (sections 2.2.1 et 2.2.2) et les capacits de communications (section 2.4.2) des agents en sont les exemples les plus aboutis. Les agents intelligents offrent des avantages significatifs sils font partie dun systme multi-agent afin de maximiser leurs capacits de communication et dadaptation. Si les agents intelligents ont des fonctionnements similaires qui font quils appartiennent au mme type dapplication, ils sont ddis des tches avec des objectifs diffrents pour chacun deux. Des agents qui peuvent thoriquement interagir nont aucune raison de le faire au regard de leurs objectifs
32

RDF Resource Description Framework. Voir FIPA RDF Content Language Specification lURL http://www.fipa.org/specs/fipa00011/ 33 FIPA Ontology Service Specification / Experimental / 2001-08-10 / FIPA Architecture Board / accessible lURL http://www.fipa.org/specs/fipa00086/XC00086D.html 34 FIPA Communicative Act Library Specification / Standard / 2002-12-06 / FIPA TC Communication / accessible lURL http://www.fipa.org/specs/fipa00037/SC00037J.html 35 Voir FIPA Interaction protocol specifications / http://www.fipa.org/repository/ips.php3 36 FIPA Agent communication language specifications : http://www.fipa.org/repository/aclspecs.html . Ces specifications reprennent les spcifications mentionnes dans les notes de bas de page n 27 33 de ce document. 37 FIPA Agent Management Specifications : http://www.fipa.org/repository/managementspecs..html 38 Agentcities Web : http://www.agentcities.org/ Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 23

propres. Peut-tre aussi que les agents ne sont pas encore assez nombreux pour pouvoir valoriser leur effort collectivement. Il faut aussi noter que des humains, sils sont capables dtre intelligent, ne le sont parfois pas (dans les cas dignorance par exemple). Si la capacit de communication des agents peut permettre dentrevoir une meilleure intelligence lavenir, acceptons aussi leurs faiblesses : ils ne peuvent pas tout faire simultanment. De plus, les agents intelligents qui auraient les mmes objectifs doivent par ailleurs faire un travail de rapprochement pour harmoniser leur connaissance. Larchitecture des agents intelligents est telle quelle permet thoriquement ce rapprochement. Toutefois pratiquement, il faut construire ces ontologies, ces rpertoires dagents, ces rpertoires de services. Ensuite, lorsque les ontologies, les langages sont diffrents, il faut que les traductions existent. Il faut des services de traduction. Pratiquement cela repose sur une architecture matrielle et logicielle lourde quil faut dvelopper et mettre en uvre, ensuite maintenir. Or la plupart du temps, les agents ont t mis au point de manire exprimentale, prouvant le bien fond de leur conception. Ils ne sont cependant pas encore passs dans le domaine conomique. Sils passent dans le domaine conomique, il faudra certainement des moyens pour pouvoir faire appel leurs services, ce qui signifie que leur utilisation ne sera pas forcement gratuite. Dans le mme ordre dide, est-ce que tous les agents sont conformes aux spcifications de la FIPA ? Si non, peuvent-ils interoprer avec ceux qui sont conformes ? Il faut aussi que les langues de communication dagent (ACL) qui sont donc des langages formels se rapprochent des langues humaines. Ou inversement. Nous avons vu que la principale limitation des agents intelligents tenait au fait que le langage quils utilisent est plus simple (section 2.2.3). Or le langage utilis le plus souvent pour publier les donnes sur le Web est le langage courant et les documents ne sont le plus souvent pas structurs formellement et de manire harmonise. Ne parlons pas de la recherche dinformation multilingue tant le nombre de langues humaines utilises est important, ce qui rajoute un biais supplmentaire. De plus, si parfois il nexiste pas de dictionnaire de traduction entre certaines langues, il en existe plusieurs entre dautres langues. Tant que ce rapprochement entre les donnes humaines du Web et celles des machines ne sera pas effectu, les tentatives des agents intelligents pour indexer le Web et permettre un accs et des recherches rapides et efficaces aux donnes resteront approximatives. Seules des tentatives sur des domaines restreints peuvent laisser esprer des chances de succs. Cependant les perspectives thoriques des agents intelligents restent assez fantastiques, surtout au regard du domaine dapplication quest le Web (cf. section 1.1.1 et section 2.2.4). Le temps permettra certainement de mieux harmoniser les donnes humaines et celles ncessaires aux machines.

3. Contribution des agents intelligents la recherche de donnes sur le Web


[4] Le terme "agents" est utilis pour caractriser toute une gamme de logiciels aux technologies nonissues de l'intelligence artificielle mais se rfrant l'appellation d'agents au nom de la dfinition usuelle d'un agent, c'est dire une entit autorise agir la place de quelqu'un et agissant en son nom (cf. section Dfinitions page 13). Ces "agents" ont pour objectif d'automatiser des tches rptitives et pnibles. Il n'en reste pas moins que ces agents "pas si intelligents" peuvent intgrer peu peu des technologies issues de l'intelligence artificielle, notamment celles du traitement du langage naturel et des systmes experts. Comme nous le verrons dans ce chapitre, nous ne pouvons cependant pas y voir l de vritables "agents intelligents", notamment parce quils ne communiquent pas selon un mode ouvert. Lensemble des fonctionnalits que nous allons aborder dans la section 3 sont regroupes sous le vocable et terme compos gnral recherche dinformations (RI) dans la littrature sur le sujet. Cependant, elles peuvent se regrouper sous des fonctionnalits plus prcises qui sont le traitement syntaxique et / ou smantique du langage naturel, la veille informative, le traitement des rsultats de recherche pour leur prsentation (filtrage et agrgation). Ces fonctionnalits, assez nouvelles pour certaines, nont jamais t mises en uvre conjointement dans une mme famille doutil, mais sparment, do ventuellement un manque de laison entre elles.

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 24

3.1. Analyse et traitement syntaxique pour la recherche dinformation


[10] La recherche dinformation peut se dcouper en deux parties (cf. section Fonctionnalits dun moteur de recherche page 5) : une partie concerne la formulation et le traitement de la recherche, lautre est le traitement des ressources informatives. Actuellement, les traitements les plus courants des ressources informatives sont les traitements smantiques des documents en vue de leur indexation. Ceux-ci seront abords principalement dans la section 3.2. Les traitements syntaxiques (cf. section Le traitement du langage naturel pour communiquer page 18) qui pourraient tre oprs au pralable en vue denrichir lanalyse smantique relvent du domaine fonctionnel de la fouille de texte ( text mining ), et par gnralisation du domaine de la fouille de donne ( data mining ) pour laide la dcision. Nous naborderons pas ce domaine, qui cependant, est prometteur pour la RI, notamment avec le dveloppement de lutilisation de XML17 avec Internet. Le traitement syntaxique est opr parfois au niveau de la formulation de la requte dinformations dans certains outils et pour la recherche multilingue. Lexception concerne la lemmatisation qui est un traitement syntaxique pouvant sappliquer la fois la requte et au contenu des documents pour leur indexation.

3.1.1. Formulation et traitement de la requte


Nous avons vu dans la partie 1.7 comment doivent tre formules les requtes associes une recherche dinformations pour que les outils de recherche puissent les traiter. Le travail que peut proposer un agent intelligent dans la formulation et le traitement de la requte est donc de traiter une requte en langage naturel et de la transmettre au(x) service(s) de recherche qui en ltat actuel ne sait (savent) traiter les requtes quavec des mots cls associs avec des oprateurs boolens et des fonctions avances. Une des principales difficults est de traduire la requte en mots cls et oprateurs de requtes qui soient compatible avec la syntaxe attendue par chaque outil de recherche lors dune recherche fdre (cf. section 1.5). Si ces outils de recherche taient conus comme de vritables agents au sens de la FIPA (cf. section Messages dagent page 22), ils sauraient dcrire leur service de telle sorte quils puissent tre interoprs par lagent de recherche de lutilisateur. Cest dire que lagent, aprs consultation du service dans le rpertoire de service et prise de contact , saurait comment traduire la requte sans en avoir les lments au pralable. Or pour le moment, la traduction ne concerne que les lments reconnus par tous les outils de recherche, savoir loprateur OU ou alors elle fait lobjet dune connaissance priori et paramtre, soit par lditeur du logiciel agent, soit par lutilisateur. Les questions sont donc poses en langage naturel. Le logiciel dcompose la phrase en concepts et les traite. L'agent est cens dcouvrir les termes qui font sens dans cet ensemble de phrases, les dcomposer en concepts et effectuer les recherches partir de cela. L'avantage thorique est de permettre au logiciel de ne retrouver que les documents parlant vritablement de lobjet recherch et seulement de lui, que le mot relatif lobjet soit absent ou non du texte. Contrairement aux moteurs de recherche indiquant uniquement les documents o apparat le mot recherch (quil soit du domaine de recherche ou non homonymie) et non ses synonymes [4]. Lanalyse syntaxique est le plus souvent couple une analyse smantique. Lagent dispose pour cela dune base de connaissance. Cette base de connaissance est tablie au dpart grce diffrents dictionnaires et thsaurus. Ces agents peuvent amliorer leur base de connaissance au fur et mesure de leurs expriences. Toutefois, l encore, lenrichissement de leurs connaissances ne se fait pour le moment qu travers linteraction avec lutilisateur ou limportation de dictionnaires supplmentaires dits par dautres humains. De mme, ces bases de connaissance sont insuffisantes pour tre gnralistes. Seules quelques bases thmatiques permettent de traduire de manire satisfaisante les requtes des utilisateurs portant sur le domaine. Ces outils sont donc dcevants de prime abord et ncessitent un apprentissage tel quil savre rebutant pour les utilisateurs [4] [5].

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 25

3.1.2. Recherche multilingue


La recherche multilingue est base sur les mmes techniques que le traitement de la requte vu cidessus. Le programme de recherche multilingue va donc rcuprer les mots cls issus dune requte dans la langue de lutilisateur pour la traduire dans les langues dsires (et possibles) partir des dictionnaires de traduction dont il dispose. Chaque traduction fait lobjet dune requte et lensemble des requtes issues de la traduction sont transmises aux services de recherche en faisant lobjet de processus parallles. Les rsultats obtenus partir de chaque processus doivent tre agrgs par la suite pour prsenter les rsultats de manire synthtique (voir section 3.4.4).

3.1.3. Lemmatisation
La lemmatisation est l'opration par laquelle les formes flchies (conjugaison, genre, nombre) d'un texte sont classes sous une adresse lexicale, du type "entre de dictionnaire", appele le lemme [12]. Ds lors, un mot rencontr dans un texte, quel quil soit, peut tre ramen une unit lexicale qui peut ensuite tre utilise pour dautres traitements, notamment lindexation des mots dun texte pour la construction dun index [13]. La lemmatisation utilise les rgles de grammaires dune langue, avec leurs listes dexceptions, pour inflchir les termes rencontrs dans un texte crit dans cette langue. Ces rgles sont nombreuses et complexes et ncessitent des traitements assez lourds. Elles peuvent tre regroupes sous le terme de rgles de transformation morphologique [14]. Ainsi la lemmatisation peut tre automatise. Certains outils de lemmatisation automatise [13]proposent mme de grer des rgles dexpansions ; cest dire principalement des relations entre des mots permettant de les ramener une seule unit lexicale et par exemple de grer la synonymie. Il est trs difficile de disposer de rgles exhaustives couvrant lensemble des cas de flexion des substantifs. Cela est par ailleurs trs lourd, surtout si le systme (de recherche dinformation) doit indexer des documents en diffrentes langues. Il est utile de disposer dun dictionnaire pour savoir si la forme flchie obtenue (le lemme) partir des rgles fait partie dun dictionnaire. De plus, il se peut que le texte dorigine contienne une ou plusieurs fautes dorthographes. Aussi, la lemmatisation automatise donne des rsultats satisfaisant dans de nombreux cas, mais gnre aussi des erreurs dans dautres. Il faut donc pour valider intgralement la lemmatisation une phase de rvision manuelle [12]. Celle ci permet : - de vrifier pour chaque forme la pertinence du lemme propos ; - de dfinir un nouveau lemme pour les formes inconnues du systme (parfois du dictionnaire) ; - de lever les ambiguts dans les cas o plusieurs lemmes sont possibles Des approches de la lemmatisation consiste utiliser des caractres de troncatures (cf. 1.2). Cela largit ainsi une recherche dinformation, mais cela a linconvnient de gnrer en retour une augmentation du taux de bruit. Cela ne constitue pas une vritable lemmatisation [2, page 230]. La lemmatisation augmente les chances de trouver des informations partir de mot cls pour des recherches autrement infructueuses. Elle amliore globalement la recherche dinformation [10] mais cela gnre cependant parfois du bruit . La lemmatisation automatise ne doit donc pour tre juste nutiliser que des rgles sres et prouves et laisser celles qui donnent parfois de mauvais rsultats.

3.2.

Analyse smantique

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 26

L'objectif de l'analyse et de l'indexation est de d'abord trouver des concepts les plus importants dans le document, et de crer une reprsentation interne en utilisant ces concepts. Pour trouver des concepts, il est ncessaire de procder une analyse smantique pour dterminer ce qui est un concept dans un texte. Cette analyse n'est pas disponible pour la RI. Les techniques existantes sont souvent restreintes un domaine trs spcialis, et l'analyse est trs complexe. Ainsi, en pratique, on cherche plutt des reprsentants des concepts. Ces reprsentants peuvent tre de forme diffrente: des mots simples, des termes (ventuellement composs), ou des doublets de mots (groupes de deux mots). tant donn le grand nombre de documents traiter (cf. section 1.1), il est ncessaire que le traitement pour la reconnaissance des reprsentants soit assez simple. Cependant, les reprsentants trouvs doivent permettre de dcrire le contenu (la smantique) du document et de la requte de faon assez prcise.

3.2.1. Extraction des mots cl et des index


L'ide d'utiliser des mots comme des reprsentants de concepts est assez naturelle. En effet, les mots sont des units linguistiques qui sont les plus faciles reconnatre, et qui sont assez porteuses de sens. Ce sont ces units qu'on utilise le plus souvent dans les systmes actuels [10]. La lemmatisation peut tre utilise pralablement pour traiter les units linguistiques, de mme que le 39 regroupement de mots en terme compos . Les mthodes de regroupement en terme compos utilisent soit une analyse syntaxique et / ou statistique, soit un dictionnaire de termes composs. Lextraction de mots cl et dindex des documents est base sur une analyse statistique. La premire approche est donc base sur la frquence doccurrence des units linguistiques. L'objectif ici est de trouver les mots qui reprsentent le mieux le contenu d'un document. On admet gnralement qu'un mot qui apparat souvent dans un texte reprsente un concept important. Ainsi, la premire approche consiste choisir les mots reprsentants selon leur frquence d'occurrence. La faon la plus simple consiste dfinir un seuil sur la frquence: si la frquence d'occurrence d'un mot dpasse ce seuil, alors il est considr important pour le document. De plus, concrtement, on exclue les mots vides de sens comme les articles (le, la, un, ) et les prpositions que lon reprend dans une liste de mots stop (anti-dictionnaire) qui par ailleurs apparaissent trs souvent. La deuxime mthode, qui complte la premire, est base sur la valeur de discrimination dun mot pour identifier des documents. Par "discrimination", on se rfre au fait qu'un terme distingue bien un document des autres documents. C'est--dire, un terme qui a une valeur de discrimination leve doit apparatre seulement pour un petit nombre de documents. Un terme qui apparat dans tous les documents n'est pas discriminant. En combinant les deux mthodes, on peut ainsi filtrer et affecter une pondration aux units linguistiques reprsentant les concepts dun document. Un bon mot cl est celui qui apparat frquemment dans un document qui le traite et peu dans les autres documents. On ne retiendra ventuellement comme mot cl dun document que ceux qui disposent dune frquence doccurrence et dune valeur de discrimination leve (filtrage) et on valuera la pertinence des rsultats retourns une requte sur les mmes critres appliqus au mot cl contenu dans la requte.

3.2.2. Catgorisation
Les mots cl issus de lindexation des units linguistiques partir de lanalyse statistique des mots dun texte peuvent parfois tre ambigus cause notamment de lhomonymie [10]. Les traitements qui visent rduire lambigut des mots comme index des documents sont aussi ceux qui permettent leur catgorisation automatique. Globalement, il sagit de reprer le contexte dun document en relevant la prsence conjointe de plusieurs units linguistiques (mots) qui est alors significative.
39

Recherche dinformation est un exemple de terme compos. Par ailleurs, le concept de recherche d'information , une fois reprsent par les mots recherche et information , perd beaucoup de sens, car les mots recherche et information sont trs courants en franais, et ils sont des sens trs imprcis. Probatoire session janvier 2004 p 27

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Plusieurs mthodes sont utilises selon les cas : lutilisation dun systme expert, dun dictionnaire ou dun thsaurus. Avec le systme expert, comme on peut imaginer, il est trs difficile d'avoir un ensemble de rgles qui a une couverture raisonnable. Les rgles tablies manuellement ne peuvent couvrir qu'une petite partie des mots ambigus et ne seront utilisables que pour des documents dun domaine. Cependant, les systmes experts apprennent et peuvent senrichir. Les rgles peuvent voluer pour permettre dassocier un contexte un mot cl et finalement catgoriser un document. Lutilisation dun dictionnaire consiste prendre la dfinition du mot index, utiliser les mots de la dfinition pour voir sils sont prsents dans le document et valider ou non la catgorisation. Ici la lemmatisation est utile pour rapprocher les mots de la dfinition et les autres mots contenus dans le texte analys. On peut avoir un taux de russite de 50-70% pour la dtermination de sens. Il faut remarquer que ce taux dpend fortement du dictionnaire utilis et des mots soumis au test. Mais ce taux de russite nest pas assez fiable. Le danger est qu'on peut se tromper dans 30-50% des cas, ce qui est trs important. Une validation manuelle de la catgorisation automatique est alors ncessaire. Dans le mme ordre dide, on peut associer la catgorisation automatique un pourcentage de fiabilit, la manire de la logique floue. Dans tous les cas, il est ncessaire de disposer de bases de connaissances (dictionnaires, thsaurus, systme expert). Ces bases sont fonctionnelles pour des petits ensembles spcialiss. Les lments dinformations runis dans ce rapport montrent que lamlioration des bases de connaissance semble, lheure actuelle, la base de lamlioration des rsultats aux recherches de donnes gnrales rparties travers le Web.

3.3.

Veille informative

Trois types de veille informative sont possibles. La premire concerne la mise jour des rsultats dune recherche. La seconde est relative la surveillance dun site ou dune page Web. Enfin la dernire concerne les abonnements. Les logiciels capables deffectuer la mise jour dune recherche sont souvent appels agents de veille. Il sagit en fait denregistrer une recherche comme devant tre mise jour. Le logiciel se charge alors dinterroger le ou les moteurs de recherche une frquence prdtermine et peut signaler lutilisateur les nouveaux rsultats obtenus. Lintrt principal de ce type dagent est le gain de temps quil permet lutilisateur [1]. Dans ce cas, les paramtres sur lesquels seffectue la mise jour sont les mots cls de la requte de recherche. Les agents de veille sont le plus souvent associ des logiciels de recherche fdre (cf. section 1.5). Dans ce domaine, certains types dagent permettent aussi de tenir au courant lutilisateur des mises jour survenues sur une page Web. Lagent peut effectuer une comparaison des pages et nalerter lutilisateur des changements dtermins comme important par lui. Par exemple, lalerte seffectue si le nombre de mots diffrents entre les deux versions est suprieur un seuil fix par lutilisateur. Dune autre manire, les agents peuvent tenir au courant lutilisateur des nouveaux liens qui pointent vers un site. Il est alors possible de savoir quels sont les sites et les pages Web qui mentionnent votre site et ses pages. La veille informative consiste par ailleurs sabonner des services dalerte. Ces services sont particulirement dvelopps sur les sites dinformations proposant des news . Ces alertes sont alors bases sur le choix dune catgorie ou dune rubrique. Toute nouvelle dpche dans une rubrique est alors signale lutilisateur. Ce type dabonnement est valable pour la plupart des systmes de gestion de contenu qui peuvent avertir les utilisateurs des nouveaux documents ou des mises jour de documents dans une rubrique. Mais tous les types de paramtre existent pour les abonnements. Ainsi, par exemple, sur un site dannonces, il est possible dtre tenu au courant des nouvelles annonces correspondant aux critres de recherche de lutilisateur.

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 28

En rsum, nous pouvons dire que les agents de veille se chargent deffectuer des requtes enregistres par un utilisateur, priodiquement, auprs des services paramtrs par le logiciel et / ou lutilisateur. Lagent fournit en retour les informations supplmentaires quil a recueillies entre deux interrogations. Il sagit l dune mthode de recherche dinformation trs importante pour les recherches dinformations cibles. Cependant, le travail ralis par ces agents nest pas reconnu comme relevant de celui des agents intelligents [1].

3.4.

Filtrage et agrgation des informations

Jusqu ce point, nous avons abord dans cette troisime section les traitements ncessaires apporter aux documents pour pouvoir effectuer des requtes afin de les rcuprer. Ces traitements sont raliss de manire gnrale par les moteurs de recherche de manire automatise ou par des oprateurs humains assists par ordinateur. Nous allons voir maintenant quels traitements supplmentaires peuvent tre oprs afin daffiner les rsultats et les prsenter.

3.4.1. Critres de slection des rsultats dune recherche


Il sagit de restreindre les rsultats dune recherche avec un ou plusieurs critres. Les critres sont lists dans la section 1.7.2 intitule Paramtres de recherche avance . Le filtrage seffectue de manire gnrale sur les mta donnes des documents. Les mta donnes sont dduites de lanalyse opre par les outils de recherche (voir section intitule Fonctions avances page 5 dans la section 1.2) ou renseignes par les cyber-documentalistes (voir section 1.3). Le filtrage permet de ne rcuprer que les documents rpondant des proprits attendues.

3.4.2. Filtrage collaboratif


Le filtrage collaboratif fonctionne dune toute autre manire. Le filtrage collaboratif est bas sur la notion de profil de lutilisateur, autrement dit sur la personnalisation. De manire gnrale, les comportements des utilisateurs sont enregistrs en fonction de leur profil. Lorsquun utilisateur (class dans un profil) commence rpter un comportement connu, le logiciel peut alors anticiper les phases suivantes en amenant directement lutilisateur la phase finale ou alors suggrer de manire plus ou moins marque les tapes suivantes [15]. Le filtrage collaboratif sappuie sur les statistiques et la probabilit. Les comportements des utilisateurs doivent donc tre suivis. Une autre manire dapprendre les comportements des utilisateurs est de demander leur apprciation sur les ressources proposes lors dune recherche ou visites lors dune navigation et de les classer en fonction de leur profil. Une des difficults du filtrage collaboratif est ltablissement des profils utilisateurs . La seconde est de connatre lutilisateur et de le classer dans un profil. Mais cela outrepasse notre propos. De manire gnrale, cela fonctionne dautant mieux que lutilisateur dfinit lui-mme son profil dans un cadre fourni par loutil mettant en uvre le filtrage collaboratif. Appliqu aux outils de recherche, cela donne par exemple, des suggestions de catgories visites par les utilisateurs ayant cherch dans la mme catgorie que celle dans laquelle lutilisateur cherche. Pour les mots cls, cela peut donner une suggestion de mots cls supplmentaires ceux dj donns par lutilisateur. Pour les recherches avances, on peut suggrer des critres de filtrage conscutif une recherche. En rsum, nous pouvons dire que le filtrage collaboratif vise faire bnficier lutilisateur de lexprience des autres utilisateurs. Sil ne sagit pas proprement parler l encore dintelligence
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 29

artificielle, on peut parler dans le cas du filtrage collaboratif dintelligence collective. Toutefois, ce systme ne fonctionne correctement que si lutilisateur prend le soin de renseigner et prciser son profil et ses prfrences personnelles, de mme que sil prend le temps dvaluer les ressources que loutil lui propose, ce qui est coteux [4]. Lvaluation des ressources proposes peut servir aussi comme critre de pertinence pour le classement des rsultats dune recherche.

3.4.3. Calcul de la pertinence des rsultats


Le calcul de la pertinence des rsultats peut stablir, comme nous venons de le voir ci-dessus, en fonction dune notation attribue par les utilisateurs aux rsultats retourns une recherche, soit une sorte de vote explicite. Certains moteurs de recherche utilisent un vote implicite en attribuant un coefficient de pondration une ressource en fonction du nombre de liens sur le Web qui pointent vers elle. Ce coefficient de pondration peut tre calcul aussi sur la base de la frquence doccurrence du mot cl et de sa valeur de discrimination (cf. section 3.2.1). Enfin, la pertinence des rsultats dune recherche se dduit de la prsence du mot cl dans une ou plusieurs mta donnes de la ressources. Si le mot cl se situe par exemple dans le titre du document, il y a plus de chance que ce dernier soit un rsultat plus pertinent de la recherche que celui o le mot cl se situe dans le corps du texte. De mme, si le mot cl correspond la catgorie dans laquelle sont classes les ressources rsultantes, le coefficient de pertinence peut tenir compte du pourcentage de fiabilit du classement, si celui-ci a t opr automatiquement (cf. section 3.2.2). Les moteurs de recherche prsentent leurs rsultats tris par ordre de pertinence. Le coefficient de pertinence peut aussi tre utilis pour classer les rsultats agrgs dune recherche fdre.

3.4.4. Agrgation
Lagrgation consiste prsenter les rsultats correspondant une recherche. Elle prend tout son sens pour les recherches fdres, notamment les recherches multilingues, dans lesquelles les rsultats proviennent de diffrents outils de recherche et peuvent tre htrognes. Lagrgation consiste dabord slectionner les rsultats issus de chaque outil interrog. La plupart du temps, lagent de recherche ne retient que les premiers rsultats de chaque liste retourne, estimant juste titre que ce sont souvent les plus pertinents [1]. Une opration supplmentaire indispensable consiste ddoublonner les rsultats identiques. Ensuite, lagent de recherche peut effectuer dautres traitements complmentaires, parmi lesquels on peut trouver le classement des documents identifis par thme. Lutilisateur a le plus souvent loption de choisir comment les rsultats sont tris : par date, par titre, par pertinence, par URL... Certains mta moteurs proposent aussi un rsum de la ressource rsultante. Un lien hypertexte permet daccder la ressource. Lagrgation, particulirement sous forme de catalogue, est aussi une fonction cl des agents de commerce lectronique dont un des rles principaux est dagrger la liste des produits recherchs. On parle aussi de catalogue agrg.

3.5.

Agents de commerce lectronique

La problmatique est trs semblable celle de la recherche dinformations. Face une offre internationale, parpille et plthorique, le consommateur a de plus en plus de mal choisir le produit

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 30

acheter. On distingue deux catgories d'agents pour le commerce lectronique : les agents acheteurs et les agents vendeurs. Nous dtaillons ci-aprs leur fonctionnement respectif [5].

3.5.1. Les agents acheteurs


Ils sont contrls par les clients et ont pour but de faciliter le processus dachat. En effet, comme pour tout autre recherche, identifier et vrifier lintrt dune offre commerciale est extrmement difficile sur le rseau des rseaux. Les outils classiques (moteurs et rpertoires de recherche) se montrent vite inefficaces pour trouver, valider et confronter une offre commerciale. Tous ceux qui ont fait lexprience de rechercher un article sur le Web (par exemple, un livre) dans le but de comparer les offres ont mesur la difficult et la longueur de lopration. Il est ncessaire didentifier les sites Web marchands spcialiss dans la littrature, de dterminer si le titre recherch y est rfrenc, de prendre connaissance de son prix, et de ritrer la dmarche sur tous les sites suivants. Dans le meilleur des cas, cela prendra plusieurs dizaines de minutes lutilisateur, dans le pire des cas, ce dernier abandonnera en cours cause de la difficult localiser les sites dsirs ou cause de la lenteur de transmission des donnes. La recherche dinformations commerciales est donc affaire de chance et de persvrance. Les agents acheteurs sont capables de se connecter sur divers services de vente distance et ramener les informations de description et de prix de tous les articles dun type dtermin, pour en proposer la liste comparative, voire passer automatiquement la commande. Ils renseignent l'utilisateur sur : - la disponibilit dun produit en menant une recherche par marque ou par catgorie (produit et accessoires) ; - l'identification des distributeurs: localisation dun distributeur prcis, liste intgrale ou slective de distributeurs (en fonction des services quils offrent: garantie, facilit de paiement...). Il traitera les informations collectes, par exemple grce des tableaux comparatifs des offres prsentes selon diffrents critres (prix, services, avis des autres consommateurs), en tablissant une prslection automatique darticles en fonction des prfrences du consommateur (par exemple, priorit au rapport qualit/prix, au service, aux avis des autres consommateurs...). Il pourra raliser la transaction au coup par coup ou de faon automatique (achat rptitif dun panier de produits/alimentation, achat ds qu'un modle est en solde). Le client dispose alors de possibilits daction impossibles actuellement.

3.5.2. Les agents vendeurs


Si les agents les plus spectaculaires sont ceux qui s'adressent aux consommateurs, il n'en reste pas moins que les plus utiles aux directeurs marketing et commerciaux seront ceux capables d'analyser la demande globale pour adapter leur offre aux besoins du march. En effet, ces derniers se trouvent face une demande trs parpille et sont obligs de la connatre de mieux en mieux sils veulent satisfaire des besoins toujours plus spcifiques. Des systmes capables de constituer des clientles potentielles et d'analyser leurs attentes commencent apparatre sur des sites de grandes entreprises. Ces systmes demandent au consommateur de dcrire son profil afin de mieux le servir. Ce profil senrichit progressivement aprs chaque transaction et aprs chaque demande dinformations, et permet dobtenir une offre rellement personnalise et adapte aux besoins de chaque client. Les agents vendeurs prsentent les biens et les services aux clients (qu'ils considrent comme des agents) et peuvent mme tre programms pour ngocier, voire effectuer les transactions. Ce pourra tre un billet davion, un emploi, un rendezvous. La transaction peut dailleurs se faire aussi bien dans lautre sens. Les clients peuvent se faire enregistrer comme demandeurs dun produit ou dun service dtermin. Un agent vendeur ayant un produit commercialiser va traverser le rseau la recherche des clients intresss par ce produit. Lorsque lagent vendeur rencontre un agent client intress par ce type de produits, une transaction est alors ngocie entre les deux agents.
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 31

Les diffrentes fonctions assures par les agents vendeurs sont : - enregistrement du profil et des prfrences de lacheteur ; - enregistrement des demandes successives de l'acheteur afin d'enrichir, d'affiner, de faire voluer son profil ; - calculer des recommandations sur lvolution de loffre commerciale grce des statistiques sur la demande globale des consommateurs.

3.5.3. Les agents acheteurs et vendeurs, des systmes multiagents intelligents ?


Le dnominateur commun de tous ces agents est quils ont un certain degr dautonomie, quils mnent des oprations au nom de lutilisateur, qu'ils apprennent au fil des transactions mieux connatre leurs clients. Cependant, il nexiste pas de systmes multi-agents, comme ceux que proposent la FIPA. Pour le moment, sur le Web, il nexiste pas dagents acheteurs qui communiquent avec des agents vendeurs pour effectuer des transactions, sinon titre exprimental (cf. texte de la note de bas de page n 38 page 23). Par contre, il e xiste des sites fdrateurs agrgeant loffre des 40 vendeurs mais la technologie quils utilisent a peu voir avec les agents intelligents . Leurs applications permettent bien daccder des donnes qui sont rparties travers le Web.

3.6. Limites de lapport des agents intelligents et de lintelligence artificielle


Jai interrog mon agent qui sappelle Docteur Sait-tout et lui ai demand o jai bien pu laisser mon portefeuille que je ne retrouve pas depuis maintenant 48 heures. Il ma rpondu quil ne pouvait pas me donner de rponse satisfaisante immdiatement mais quil allait interroger ses collgues, notamment mon agent nomm organiseur pour savoir ce que javais bien pu faire avant ce moment, o javais t et avec qui, pour pouvoir prendre les contacts ncessaires et les interroger, de vive voix si ncessaire sil faut interroger un humain Par ailleurs, il doit me remettre 18 H 00 ce soir au plus tard, un rapport sur les ventes de produits artisanaux base de pailles et autres fibres vgtales dans lUnion Europenne pour le premier semestre de cette anne . Ceci est largement de la science fiction, voir une utopie. Pourtant, il sagit bien l de lobjectif final que lon assigne aux agents intelligents. Pour le moment, lintelligence que lon apporte aux donnes rparties travers le Web afin den permettre la recherche et la rcupration, tient principalement aux techniques de traitement automatis du langage naturel : analyse syntaxique et smantique (sections 3.1 et 3.2). Lanalyse smantique peut parfois sappuyer sur des systmes experts ou des systmes de raisonnements (section 3.2.2) pour la catgorisation automatique des ressources. Ces traitements visent produire des mta donnes propices au filtrage et la slection des informations rparties travers le Web (section 3.4.1). Le filtrage collaboratif (section 3.4.2) sappuie sur des bases de connaissances qui senrichissent grce des mcanismes dapprentissage permettant lutilisation de systmes dinfrence qui peuvent guider lutilisateur dans sa recherche mais ils sont peu mis en uvre dans le monde des affaires [4, agents sociables]. Les autres techniques relvent plus des EAI (Enterprise Application Integration) pour les recherches fdres, la veille informative (section 3.3) et lagrgation (section 3.4.4) que de lI.A.. Toutefois, on parle pour ces applications dagents de veille. Les agents de commerce lectronique en sont encore au domaine exprimental (section 3.5). Ces systmes donnent tout dabord des rsultats issus de recherche fiables jusqu un certain niveau, dj apprciables, mais insuffisants dans de nombreux cas et pouvant donc tre amliors. Cette
Rfrencement sur Kelkoo : marchands, inscrivez-vous ! / http://fr.kelkoo.com/b/a/co_1798_kelbest_referencement_de_marchands_sur_kelkoo.html 41 Clin dil au chapitre 20 intitul Dr Sait-tout du film A.I. Intelligence Artificielle produit par Stanley Kubrick et ralis par Steven Spielberg et paru en 2002. Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 32
40

41

intelligence ncessite toutefois lutilisation dontologies (dictionnaires, taxonomies, thsaurus, bases de connaissance). Les ontologies font partie de lensemble (classe) des mta donnes. Ces ontologies sont lourdes produire, maintenir et savrent insuffisantes dans le cas de recherches gnralistes et, dans quelques cas, dcevantes pour la recherche multilingue et la traduction. Par contre, elles peuvent amliorer significativement la gestion de contenu dans des domaines spcialiss. Elles ne sont pour le moment pas interoprables dans les cas les plus nombreux (systmes propritaires ou pas de correspondances). Enfin, ces agents ncessitent la collaboration avec lutilisateur qui doit au dmarrage du systme donner beaucoup de renseignements. Cette interaction semble avoir dcourag beaucoup dutilisateurs, ne permettant pas damener les systmes maturit tout en donnant dans le mme temps des rsultats dcevant par dfinition, surtout pour des recherches gnralistes. Dans le mme ordre dide, rappelons enfin que les agents ne peuvent donner leur pleine puissance que dans des systmes multi-agents (cf. section 2.5) ayant une taille critique, cest dire sil y a suffisamment de systmes agents interoprables. Les agents intelligents ne posent donc pas de limites intrinsques mais ces dernires relvent du manque de mta donnes de qualit et interoprables.

3.7.

La rponse du Web smantique

Nous avons vu au cours de ce rapport quune large part de lintelligence pour la recherche dinformation peut reposer sur des bases de connaissance : pour les systmes experts et autres moteurs dinfrence (section 2.2.2), comme support des messages de la communication inter-agents (section intitule Messages dagent page 22), pour fiabiliser et augmenter lefficacit de lutilisation des mots cls et des catgories pour la recherche dinformations (section 3.2). On peut rsumer en disant que les bases de connaissance peuvent se prsenter sous forme dontologies. Lenjeu est daccrotre les capacits informatives du Web en permettant de dduire des informations qui ne sont pas explicitement formules mais qui sont dductibles grce linfrence. Il faut donc au pralable fiabiliser les mta donnes des ressources prsentes et accessibles travers le Web. Cest un enjeu considrable au regard de la quantit des donnes disponibles travers le Web et de la mise en uvre progressive de XML comme langage pivot pour ces mmes donnes. Le W3C42 offre une architecture pour rpondre cet enjeu : il sagit du Web smantique43. Cette architecture est btie sur le standard RDF (Resource Description Framework) et sur le Langage dOntologie du Web OWL. Ce nest pas le lieu daborder la nature de ces langages. Toutefois, retenons certains lments fondateurs. Notons que RDF peut servir de langage de contenu ( content language ) pour les agents de la FIPA (voir Messages dagent page 22). RDF44 est un modle, associ une syntaxe, dont le but est de permettre une communaut dutilisateurs de partager les mmes mta donnes pour des ressources partages. Il a t conu initialement par le W3C pour permettre de structurer linformation accessible sur le Web et de lindexer efficacement [2, chap. 7]. RDF nest pas particulirement conu pour permettre de stocker les mta donnes de documents mais plutt pour permettre leur change et leur traitement par des oprateurs humains ou artificiels. Un des gros avantages de RDF est son extensibilit, travers lutilisation des schmas45 RDF qui peuvent sintgrer et ne sexcluent pas mutuellement grce lutilisation du concept despace de nom ( namespace ). RDF est par ailleurs un des modles de base et de syntaxe sur laquelle le Web smantique se construit avec lajout de couches ( layers ) au-dessus de RDF comme OIL (Ontology Inference

43

W3C World Wide Web Consortium : http://www.W3.org W3C Semantic Web : http://www.w3c.org/2001/sw Resource Description Framework (RDF) Model and Syntax Specification. W3C Recommendation 22 February 1999. Newest Version: http://www.w3.org/TR/REC-rdf-syntax 45 RDF Vocabulary Description Language 1.0: RDF Schema. W3C Working Draft 05 September 2003. Latest Version: http://www.w3.org/TR/rdf-schema/
44

42

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 33

Layer) et DAML (DARPA46 Agent Markup Language). OIL est utilis pour dfinir des ontologies et DAML ajoute un petit nombre de caractristiques au schma RDF afin de rendre plus facile la dfinition de nouveaux langages permettant la communication entre agents intelligents. Le langage dontologie du Web OWL est une rvision des langages DAML + OIL. Les mta donnes du DCMI (Dublin Core Metadata Initiative) sont exprimes de manire normative avec la syntaxe RDF47. Lorsque les mta donnes dun document sont exprimes en RDF en concordance avec le DCMI, elles font rfrence lespace de nom (domaine nominal ou namespace en anglais) des schmas RDF des mta donnes de Dublin Core. Conjointement avec RDF, linitiative de Dublin Core vise rsoudre les problmes dambigut sur la dnomination des ressources, et parmi elle surtout celles des proprits48. Toutes les personnes dsirant cooprer en changeant de linformation ont l les moyens de le faire efficacement en rsolvant les problmes classiques auxquels elles peuvent tre confrontes. Le Web smantique propose ainsi une organisation permettant de desambiger les informations sur les ressources et accrotre linteroprabilit entre les donnes. Il ouvre la porte au fonctionnement des agents intelligents pour accrotre laccs aux donnes des utilisateurs finaux. Mais pour cela, rappelons le, il faut dvelopper des ontologies et des services de traduction entre elles pour les ontologies concurrentes [16].

CONCLUSION GENERALE
Nous avons couvert les principales mthodes de recherche pour accder des donnes rparties travers le Web. Les traitements ncessaires pour utiliser ces mthodes ont t dcrits. De nombreux lments de conclusion ont t abords dans les conclusions relatives chaque section principale. Nous navons tenu compte pour ce rapport, de manire gnrale, que des donnes accessibles travers le protocole HTTP dans des formats compatibles avec celui ci (section 1.1.1). Rechercher des donnes accessibles travers Internet pour dautres protocoles et dautres formats relve sensiblement de la mme problmatique, mais rajoute une dimension la complexit de lopration et qui nest pas traite par les outils de recherche que nous avons tudis dans la premire section. Les mthodes de recherche sassimilent lutilisation de ces outils (annuaires, moteurs de recherche, mta moteurs, slectifs, thmatiques ou gnralistes) et donnent des rsultats satisfaisants dans la majorit des cas, mais au prix parfois dun travail non ngligeable de la part de lutilisateur, notamment pour faire le tri entre les donnes pertinentes et celles qui ne le sont pas. Dans les cas restant, la recherche peut rester sans rponse. Les outils de recherche utilisent dj des fonctionnalits de traitement automatis du langage naturel qui est une des approches de lintelligence artificielle. Les agents intelligents constituent un moyen pour dcharger lutilisateur dans le premier cas et pour rvler laccs aux donnes dans le second cas. Ils constituent une des hypothses majeure pour accrotre sa capacit daction. Les agents de veille ne sont pas vritablement des agents intelligents mais facilitent dj beaucoup la tche de lutilisateur. Certains agents peuvent guider lutilisateur dans son travail de recherche et dachat. Les agents intelligents ncessitent toutefois dtre mis en uvre une chelle suffisante (critique) dans des systmes multi-agents pour pouvoir rendre les services que lutilisateur peut exiger deux. Lutilisateur doit aussi respecter une priode dapprentissage de la machine avant quelle ne puisse donner des rsultats tangibles. On atteint des rsultats dans des domaines spcialiss, mais pas pour des utilisations gnralistes. De mme, afin daccrotre lefficacit de lindexation des ressources disponibles travers le Web, les diteurs doivent prendre le soin dditer et de renseigner les mta donnes des documents quils mettent la disposition de leurs lecteurs. Ces mta donnes doivent tre interoprables et non ambigus. Elles doivent correspondre des ontologies compatibles avec les capacits de traitement et dutilisation des agents intelligents.

46 47 48

DARPA : Defence Advanced Research Projects Agency - US Department of Defence. DCMI term declarations represented in RDF schema language : http://dublincore.org/schemas/rdfs/ Synonyme dans notre contexte de mta donnes, avec le mot attribut. Probatoire session janvier 2004 p 34

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Un travail consquent attend donc les utilisateurs de lInternet sils veulent que naisse la deuxime gnration du Web : le Web Smantique, et pour que les agents dits intelligents passent du stade exprimental au stade conomique.

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 35

ANNEXE : Elments abstraits de larchitecture dun agent intelligent de la FIPA


Element Action-status Description A status indication delivered by a service showing the success or failure of an action. A computational process that implements the autonomous, communicating functionality of an application. A set of properties associated with an agent by inclusion in its agentdirectory-entry. A language with a precisely defined syntax semantics and pragmatics, which is the basis of communication between independently designed and developed agents. A composite entity containing the name, agent-locator, and agent-attributes of an agent. Fully Qualified Name (FQN) org.fipa.standard .service.actionstatus org.fipa.standard .agent Presence Mandatory

Agent

Mandatory

Agent-attribute

Agentcommunicationlanguage

org.fipa.standard .agent.agentattribute org.fipa.standard .agentcommunicationlanguage org.fipa.standard .service.agentdirectoryservice.agentdirectory-entry org.fipa.standard .service.agentdirectory-service org.fipa.standard .service.messag e-transportservice.agentlocator org.fipa.standard .agent-name org.fipa.standard .message.conte nt org.fipa.standard .message.conte nt-language org.fipa.standard .encodingservice.encoding -representation org.fipa.standard .service.encodin g-service org.fipa.standard .transportmessage.envelo pe

Optional

Mandatory

Agent-directoryentry

Mandatory

Agent-directoryservice Agent-locator

A service providing a shared information repository in which agent-directoryentries may be stored and queried An agent-locator consists of the set of transport-descriptions used to communicate with an agent.

Mandatory

Mandatory

Agent-name Content

An opaque, non-forgeable token that uniquely identifies an agent. Content is that part of a message (communicative act) that represents the domain dependent component of the communication. A language used to express the content of a communication between agents. A way of representing an abstract syntax in a particular concrete syntax. Examples of possible representations are XML, FIPA Strings, and serialized Java objects. A service that encodes a message to and from a payload. That part of a transport-message containing information about how to send the message to the intended recipient(s). May also include additional information about the message encoding, encryption, etc.

Mandatory Mandatory

Contentlanguage Encodingrepresentation

Mandatory

Mandatory

Encoding-service

Mandatory

Envelope

Mandatory

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 36

Element Explanation

Description An encoding of the reason for a particular action-status. A unit of communication between two agents. A message is expressed in an agent-communication-language, and encoded in an encodingrepresentation. A service that supports the sending and receiving of transport-messages between agents. A set of symbols together with an associated interpretation that may be shared by a community of agents or software. An ontology includes a vocabulary of symbols referring to objects in the subject domain, as well as symbols referring to relationships that may be evident in the domain. A message encoded in a manner suitable for inclusion in a transportmessage. A service provided for agents and other services. A service-type specific string containing transport addressing information. A set of properties associated with a service by inclusion in its servicedirectory-entry. A composite entity containing the service-name, service-locator, and service-type of a service.

Message

Fully Qualified Name (FQN) org.fipa.standard .service.explanat ion org.fipa.standard .message

Presence Optional

Mandatory

Messagetransport-service

Ontology

org.fipa.standard .service.messag e-transportservice org.fipa.standard .message.ontolo gy

Mandatory

Optional

Payload

Service Service-address

Service-attributes

Service-directoryentry

Service-directoryservice Service-name

A directory service for registering and discovering services. A unique identifier of a particular service. A key-value-tuple containing a signaturetype a service-signature and serviceaddress. A service-locator consists of the set of service-location-descriptions used to access a service. A set of service-directory-entries.

Service-locationdescription

Service-locator

Service-root

Service-signature

A identifier that describes the binding signature for a service. A key-value tuple describing the type of a service.

Service-type

org.fipa.standard .transportmessage.payloa d org.fipa.standard .service org.fipa.standard .service.serviceaddress org.fipa.standard .service.serviceattributes org.fipa.standard .service. servicedirectoryservice.servicedirectory-entry org.fipa.standard .service.servicedirectory-service org.fipa.standard .service.servicename org.fipa.standard .service.servicelocationdescription org.fipa.standard .service.servicelocator org.fipa.standard .service.serviceroot org.fipa.standard .service.servicetype org.fipa.standard .service.servicetype

Mandatory

Mandatory Mandatory

Optional

Mandatory

Mandatory

Mandatory

Mandatory

Mandatory

Mandatory

Mandatory

Mandatory

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 37

Element Signature-type

Description A key-value tuple describing the type of service-signature. A transport is a particular data delivery service supported by a given messagetransport-service. A transport-description is a self describing structure containing a transport-type, a transport-specificaddress and zero or more transportspecific-properties. The object conveyed from agent to agent. It contains the transportdescription for the sender and receiver or receivers, together with a payload containing the message. A transport address specific to a given transport-type

Transport

Transportdescription

Transportmessage

Fully Qualified Name (FQN) org.fipa.standard .service.signatur e-type org.fipa.standard .service.messag e-transportservice.transport org.fipa.standard .service.messag e-transportservice.transport -description org.fipa.standard .transportmessage

Presence

Mandatory

Mandatory

Mandatory

Transportspecific-address

Transportspecific-property

A transport-specific-property is a property associated with a transporttype.

Transport-type

A transport-type describes the type of transport associated with a transportspecific-address.

og.fipa.standard. service.message -transportservice.transport -specificaddress org.fipa.standard .service.messag e-transportservice.transport -specificproperty org.fipa.standard .service.messag e-transportservice.transport -type

Mandatory

Optional

Mandatory

Source : [11]

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 38

BIBLIOGRAPHIE
1 Recherche et veille sur le Web visible et invisible : agents intelligents, annuaires slectifs, interfaces des grands serveurs, portails thmatiques / Batrice FOENIX-RIOU / Editions TEC&DOC / Copyright 2001 / ISBN : 2-7430-0450-9 2 XML : langage et applications / Alain Michard / Eyrolles / 1999 / ISBN 2-212-09052-8 3 Comparaison des moteurs : Syntaxe de saisie et fonctions de recherche / Remarques sur les fonctionnalits de recherche et prsentation du TP / Marie-Laure Malingre et Alexandre Serres / URFIST / Universit Rennes 2 / fvrier 2003 / http://www.uhb.fr/urfist/Supports/ApprofMoteurs/ApprofMoteurs_InterrogAvance.htm 4 Agents et recherche d'informations sur Internet / Pierre-Alain LE CHEVILLER / Mmoire de fin dtudes 1997 / INTD - Institut National des Techniques de la Documentation Paris / 1999-03 / accessible partir de lURL http://www.geocities.com/Paris/Lights/6277/agents1.html 5 Les agents intelligents / Ludovic BLIN / DESS 226 Gestion des tlcommunications, de la tlmatique et de la tlvision / 1999-09-30 / accessible lURL http://memoireonline.free.fr/agents.htm 6 Les agents intelligents : essai sur la rationalit des calculs / Introduction / SALLANTIN Jean / collection Informatique / Editions HERMES / Date de parution: 1997-10 / ISBN : 2-86601-643-2 7 Lintelligence artificielle : un guide dinitiation au futur de linformatique et de la robotique / Jacques CHALLONER / Collection Focus Sciences / Editions PEARSON Education France / Copyright 2003 / ISBN : 2-7440-1600-4 8 Professional XML Meta Data / Chapitre 15 : inferencing systems pages 509-514 / Kal Ahmed, Danny Ayers, Mark Birbeck, Jay Cousins, David Dodds, Josh Lubbel, Miloslav Nic, Daniel RiversMoore, Andrew Watt, Robert Worden, Ann Wrightson/ Collection Programmer to programmer / Wrox Team / Wrox Press / 08-2001 / 600 pages / ISBN: 1-861004-51-6 9 Language : chapter 22 / Support de cours / Intelligence artificielle : introduction / Jian-Yun NIE / Dpartement d'informatique et de recherche oprationnelle (DIRO) / Universit de Montral - Canada / Automne 2003 / accessible lURL http://www.iro.umontreal.ca/~nie/IFT6330/Russell/chapter22.pdf 10 Recherche d'Information / Semaine 2 : Analyse et Indexation des documents et des requtes et semaine 11 : Traitements de la langue naturelle pour la RI / Support de cours IFT6255 - Hiver 2002 / Jian-Yun NIE / Dpartement d'informatique et de recherche oprationnelle (DIRO) / Universit de Montral - Canada / accessibles partir de lURL http://www.iro.umontreal.ca/~nie/IFT6255/ 11 FIPA Abstract Architecture Specification / norme FIPA du 2002-12-03 / Architecture Technical Committee / FIPA Foundation for Intelligent Physical Agents / accessible lURL http://www.fipa.org/specs/fipa00001/SC00001L.pdf 12 La lemmatisation / Accessible lURL http://tpg.fltr.ucl.ac.be/lemmatisation.htm 13 Lemmatisation : what is it ? / extrait de laide du logiciel concordance / R.J.C.Watt / Accessible lURL http://www.rjcw.freeserve.co.uk/manual/hs2330.htm / Pour plus dinformations : voir lURL http://www.rjcw.freeserve.co.uk 14 Lemmat : Un lemmatiseur d'adjectifs en franais / Mickael Faivre-Macon / Devoir de Matrise de Traitement Automatique des Langues / soumis pour approbation, non corrig / INALCO / dernire mise jour de la page le 25 janvier 1998 / accessible lURL http://www.geocities.com/Athens/Oracle/6296/lemmaitr.htm 15 Everything You Need to Know About Personalization : Personalization Techniques / Chris Payne / WDVL Web Developers Virtual Library / 2000-11-22 / http://www.wdvl.com/Authoring/ASP/Personalization/techniques.html 16 OWL Web Ontology Language Use Cases and Requirements / Chapitre 2.5 intitul Agents and services / Editor: Jeff Heflin (Lehigh University) / W3C Proposed Recommendation 15 December 2003 / Version accessible lURL http://www.w3.org/TR/2003/PR-webont-req-20031215/#usecaseagent

Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)

Probatoire session janvier 2004 p 39

Das könnte Ihnen auch gefallen