Beruflich Dokumente
Kultur Dokumente
LAHAYE Philippe
Sujet n 97 Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
SOMMAIRE
INTRODUCTION................................................................................................................................ 1 1. Mthodes de recherche de donnes travers le Web ................................................................ 1 1.1. Formats et accs aux donnes rparties : Internet et le Web ............................................. 2 1.1.1. Ressources disponibles sur Internet .......................................................................... 2 1.1.2. Web visible ............................................................................................................... 3 1.1.3. Web invisible............................................................................................................. 4 1.2. Moteurs de recherche........................................................................................................ 4 1.3. Annuaires.......................................................................................................................... 6 1.4. Portails thmatiques et annuaires slectifs......................................................................... 7 1.4.1. Portails thmatiques.................................................................................................. 7 1.4.2. Annuaires slectifs .................................................................................................... 8 1.5. Recherche fdre ............................................................................................................ 9 1.6. Visualisation et navigation ................................................................................................. 9 1.7. Formulation dune recherche : oprateurs de requtes et recherches avances............... 10 1.7.1. Oprateurs de requtes........................................................................................... 10 1.7.2. Paramtres de recherche avance.......................................................................... 11 1.8. Conclusion ...................................................................................................................... 11 2. Les agents intelligents.............................................................................................................. 12 2.1. Introduction lintelligence artificielle et aux agents ......................................................... 13 2.1.1. Dfinitions des agents intelligents............................................................................ 13 2.1.2. Lintelligence artificielle............................................................................................ 14 2.2. Approche descendante.................................................................................................... 15 2.2.1. Systmes dinfrence .............................................................................................. 15 2.2.2. Systmes experts.................................................................................................... 17 2.2.3. Traitement du langage naturel................................................................................. 18 2.2.4. Perspectives ........................................................................................................... 19 2.3. Approche ascendante : rseaux de neurones .................................................................. 19 2.4. Proprits et architecture dun agent intelligent ................................................................ 20 2.4.1. Proprits gnrales ............................................................................................... 20 2.4.2. Architecture dun agent intelligent............................................................................ 21 2.5. Conclusion ...................................................................................................................... 23 3. Contribution des agents intelligents la recherche de donnes sur le Web .............................. 24 3.1. Analyse et traitement syntaxique pour la recherche dinformation..................................... 25 3.1.1. Formulation et traitement de la requte ................................................................... 25 3.1.2. Recherche multilingue............................................................................................. 26 3.1.3. Lemmatisation......................................................................................................... 26 3.2. Analyse smantique ........................................................................................................ 26 3.2.1. Extraction des mots cl et des index........................................................................ 27 3.2.2. Catgorisation......................................................................................................... 27 3.3. Veille informative ............................................................................................................. 28 3.4. Filtrage et agrgation des informations ............................................................................ 29 3.4.1. Critres de slection des rsultats dune recherche ................................................. 29 3.4.2. Filtrage collaboratif .................................................................................................. 29 3.4.3. Calcul de la pertinence des rsultats ....................................................................... 30 3.4.4. Agrgation .............................................................................................................. 30 3.5. Agents de commerce lectronique................................................................................... 30 3.5.1. Les agents acheteurs .............................................................................................. 31 3.5.2. Les agents vendeurs ............................................................................................... 31 3.5.3. Les agents acheteurs et vendeurs, des systmes multi-agents intelligents ?............ 32 3.6. Limites de lapport des agents intelligents et de lintelligence artificielle ............................ 32 3.7. La rponse du Web smantique ...................................................................................... 33 CONCLUSION GENERALE ............................................................................................................. 34 ANNEXE : Elments abstraits de larchitecture dun agent intelligent de la FIPA............................... 36 BIBLIOGRAPHIE ............................................................................................................................. 39
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
INTRODUCTION
Internet et le Web reprsentent une avance majeure dans la communication interpersonnelle. Ils permettent en thorie un accs linformation universel. Toutes les sources de donnes sont potentiellement intgrables la toile mondiale. De fait, le nombre de documents et dapplications accessibles travers le Web est aujourdhui trs important, seulement dix ans environ aprs leur mise en uvre grande chelle. Ils continuent ce jour crotre. Face cela, il semble possible daccder toutes donnes dsires. Cest ce niveau que le Web manque encore ses promesses, mme sil le permet plus quauparavant avec les moyens dont disposait un individu moyen. Larticulation entre une question, un problme rsoudre ou encore une requte et lobtention des rponses est complexe et reprsente un chemin parcourir assez long dans la plupart des cas. Accder des donnes sur le Web ncessite donc un apprentissage. Cela ncessite ensuite un travail, parfois non ngligeable, pour loprateur humain. Comme le titre de ce rapport le mentionne, accder des donnes rparties travers le Web ncessite une ou plusieurs mthodes de recherche. Pour la plupart des recherches, ces mthodes prsentent des avantages et des inconvnients. Dans la majorit des cas, les rponses obtenues en utilisant ces mthodes de recherches gnrent soit des rsultats incomplets (dautres rponses existent mais ne sont pas mentionnes), soit des rsultats trop nombreux (pertinence faible de la rponse par rapport la question) ou encore des rsultats faux ( bruit ) et souvent les trois ensemble. La problmatique de la recherche dinformations sur le Web en est ce stade aujourdhui et lobjectif damlioration des outils de recherche est bien de diminuer limportance des inconvnients susmentionns. Cependant, en ltat, les mthodes de recherche actuelles sont indispensables et offre le meilleur service pour accder aux donnes rparties sur le Web. La premire partie de ce rapport aborde donc ces mthodes de recherche et travers elles, les outils correspondants. Afin de pallier les inconvnients de ces mthodes de recherche (apprentissage, charge de travail non ngligeable, rponses approximatives et non exhaustives), une dmarche a t de dvelopper des agents intelligents pour assister lutilisateur dans sa tche de recherche. Lagent intelligent est avant tout un programme informatique qui permet dautomatiser des tches dvolues autrement lutilisateur : cest pourquoi le terme dagent logiciel lui est parfois prfr. Cependant, dans certains cas, lagent intelligent rpond rellement aux critres exigs pour parler dintelligence artificielle. Lagent intelligent peut ainsi, dans dautres cas, se substituer lutilisateur pour apprendre (largir ses connaissances), rflchir, communiquer avec dautres agents et prendre des dcisions. Nous verrons donc dans la deuxime partie en quoi peut consister un agent intelligent. Nous approfondirons dans la troisime partie de ce rapport ce quapportent les agents intelligents et lintelligence artificielle la recherche dinformations afin daccder des donnes rparties travers le Web. Cet apport amliore le travail de recherche dinformation sans toutefois donner des rsultats parfaits. Nous verrons donc quelles peuvent tre certaines des limites auxquelles font face les agents intelligents aujourdhui dans la recherche et laccs aux informations et quelle est la rponse de ces nouvelles limites apporte par les promoteurs du Web, savoir le World Wide Web Consortium (W3C), travers le Web smantique .
les ressources qui sont accessibles, comment y accder et quelles sont celles qui sont interrogeables avant de voir comment les interroger. Les derniers chapitres de cette section ddie aux mthodes de recherche sur Internet prcisent comment peut tre formule une recherche dans une requte transmise aux outils de recherche.
rseau de ressources informatiques accessibles avec plusieurs types dapplications. Lutilisation dun type de mdia et dune application pour y accder a souvent un sens qui peut tre utilis pour rechercher une donne sur Internet. Loutil et la mthode utilise pour trouver une ou plusieurs ressource dpendra donc aussi du type daccs et du format de celle(s) ci. La plupart du temps, les mthodes que nous mentionnerons dans ce rapport fonctionnent pour accder des donnes sur le Web.
Source : Graph structure in the web / Andrei Broder, Ravi Kumar, Farzin Maghoul, Prabhakar Raghavan, Sridhar Rajagopalan, Raymie Stata, Andrew Tomkins, Janet Wiener / IBM Almaden Research Center, San Jose, CA. / 2000 / Accessible lURL http://almaden.ibm.com/cs/k53/www9.final/ Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 3
Cette typologie de la rpartition des documents sur le Web est importante car cela dtermine la capacit des outils de recherche prendre en compte les documents. Les pages dconnectes ne sont pas prises en compte par les moteurs de recherche [1] (cf. section 1.2). De mme, cela impacte la navigation (cf. section 1.6) et laccs aux donnes non connectes partir dun lien hypertexte. On naccde pas aux documents non connects par la poursuite de liens hypertextes. Le Web visible se dfinit aussi par son contraire : le Web invisible.
1.2.
Moteurs de recherche
Une des premires mthodes de recherche de donnes rparties travers le Web qui soffre linternaute consiste utiliser un moteur de recherche. Cela est intressant car le moteur de recherche a effectu un travail de recensement des pages Web disponibles. Nous avons dj vu dans les sections 1.1.2 et 1.1.3 quelles sont les pages Web disponibles.
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Fonctionnalits dun moteur de recherche Un moteur de recherche est en gnral constitu de deux grands modules fonctionnels. Le collecteur 7 recherche les documents sur un domaine, et en extrait certains composants textuels. Il communique ces informations extraites des diffrents documents un distributeur8 . Celui ci construit un index plein texte des documents collects. Dans cet index figure tous les mots des textes extraits, lexception de ce ceux figurant dans un grand nombre de documents diffrents et nayant ds lors aucun pouvoir discriminant utile. Le distributeur comporte aussi un gestionnaire de requtes, qui va traiter les requtes mises par les utilisateurs, et en exploitant lindex, va lui fournir la liste des documents contenant les termes de la requte, prsents sous une forme plus ou moins laconique [2, chap. 7.1, pp 229-237]. Le gestionnaire de requte offre des fonctionnalits permettant de spcifier des requtes relativement complexes : oprateur de requtes (cf. section 1.7.1), recherche sur des mots isols ou sur des expressions composes de plusieurs mots, prise en compte de lordre des mots ou non, recherche sur 9 10 mot entier ou sur partie de mot, utilisation de caractre de troncature , insensibilit la casse , voire acceptation de fautes dorthographe dans un terme de requte : peuvent tre trouvs les mots de lindex ne diffrant de ceux de la requte que par une ou deux lettres. Certaines options et paramtres du fonctionnement dpendent du moteur de recherche. Peuvent tre 11 12 prciss notamment la liste de mots stop , thsaurus comprenant les rgles dexpansion des requtes, rgles de lemmatisation, tolrance aux fautes dorthographe, paramtres de recherche multilingue. Il sagit l dun domaine part entire, ncessitant aujourdhui une expertise propre. Si toutes ces fonctionnalits se retrouvent dans lun ou lautre des moteurs de recherche interrogeables en ligne, chaque moteur de recherche a son fonctionnement propre. Les oprateurs de requtes ne sont pas les mmes pour chacun et sont plus ou moins nombreux (voir section 1.7 Formulation dune recherche : oprateurs de requtes ). Il en est de mme avec les paramtres de fonctionnement retenus pour chaque moteur : les rgles utilises ne sont pas les mmes pour chacun. Enfin, les moteurs de recherche proposent des fonctionnalits avances qui utilisent en partie lintelligence artificielle. Ces fonctionnalits seront dveloppes en particulier dans la section 3.2 de ce rapport. Fonctions avances dun moteur de recherche Une des premires fonctions avances est la fonction link: . Avec certains moteurs de recherche, il est ainsi possible de recueillir les pages indexes par le moteur qui pointent vers lURL donne en paramtre dans le champ de saisie de la recherche. Cest comme si on utilisait des liens hypertextes inverses. Quelques moteurs de recherche offrent sur leurs pages de rsultats loption Related pages (ou pages similaires) en face de chaque page slectionne. Cette option donne les rfrences dautres pages que le moteur identifie comme similaires, sur la base de critres dtermins par des algorithmes sappliquant aux mots cls ou au sujet lis aux pages Web. Cette fonction peut tre utilise pour identifier, par exemple, des sites ayant une offre concurrente un site donn, ou pour recenser plusieurs sites concernant un domaine particulier, ou enfin pour avoir des informations complmentaires un produit. Cette option est lie loprateur like: ou related: . Cette option ( related: ) est lie au fait que les pages publies sur le Web peuvent contenir des informations sur le document qui sont contenues dans son entte et non affiches lcran. Ces informations sur le document sont le plus souvent des mta donnes (donnes sur le document). Cest pourquoi dans les fichiers HTML, elles se retrouvent dans les meta-tags (balises <META>). Lexception provient de la balise <TITLE> qui reprend le titre du document dans son entte (entre les balises <HEAD>) ; autrement dit le titre est une mta donne qui nest pas repris dans une balise <META>. Ainsi les pages peuvent contenir des attributs descriptifs tels que le titre, lauteur, la description et les mots cls.
7 8 9
Gatherer, en anglais. Broker, en anglais. Joker. Souvent le caractre ? ou %. 10 Casse : majuscule, minuscule. 11 Stop words en anglais, voir page 27. 12 prise en compte des synonymes par exemple, sujet approchants Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 5
Ces mta donnes sont dans certains cas indexes dune manire particulire par les moteurs de recherche. Dans le mme ordre dide, elles peuvent servir des requtes paramtres sur une ou plusieurs des mta donnes. Par exemple, lutilisateur peut de cette manire rechercher un document dont lauteur est Jean Dupont ou encore un mot contenu uniquement dans le titre du document, ce qui est beaucoup plus rducteur et pertinent que de rechercher un document contenant les mots Jean Dupont ou le mot recherch dans le texte. Malheureusement, ces balises ne sont le plus souvent pas renseignes. Certains robots tentent donc de dduire ces informations en se basant sur un certain nombre de rgles quutilise ensuite un agent intelligent en appliquant une analyse smantique du document (voir section 3.2). Ainsi, on tente de dterminer le titre, les mots cls et une description du document. De mme, le systme peut tenter de catgoriser (classifier) automatiquement ces documents. Ces mta donnes synthtises automatiquement ne sont malheureusement pas justes dans de nombreux cas et une recherche sur ces mta donnes peut savrer inutile. Les autres fonctionnalits avances peuvent tre le traitement de la requte en langage naturel, la recherche multilingue, le filtrage des rsultats de la requte. Limitations des moteurs de recherche La principale limitation des moteurs de recherche plein texte est que lindexation et la recherche se font sur des entits purement lexicales. Une des consquences est la gnration dun taux de 13 bruit souvent trs important dans la rponse, cest dire la gnration de rsultats ne correspondant pas la requte [2]. De mme, rappelons que les moteurs de recherche ne recensent que le Web visible et que chacun pris isolment, nen indexe quune partie. Google, le moteur de recherche le plus important aujourdhui annonce recenser 1,3 milliards dURL mais il nindexe la page en texte intgral que dans la moiti des cas seulement [1]. Les annuaires sont lobjet dune mthode complmentaire de recherche de donnes rparties travers le Web.
1.3.
Annuaires
A linverse des moteurs de recherche qui se basent sur un travail effectu par des programmes informatiques, parfois appels robots, les annuaires recensent une partie de linformation contenue dans le Web partir dun travail dindexation ralis par des oprateurs humains, nomms cyberdocumentalistes. Ainsi, une partie du Web invisible pour les moteurs est index et accessible partir des annuaires (cf. section 1.1.3), ce qui est trs important noter. De plus, la diffrence des moteurs de recherche qui tentent dindexer toutes les pages du Web, les annuaires, eux, ne sattachent qu dcrire et rpertorier les sites Web. Les sites Web sont ainsi indexs avec leur titre et un trs bref descriptif dans des rubriques et sous-rubriques. Autrement dit, les annuaires sont des catalogues du Web dans lesquels les sites sont classs par catgorie. Et cest l une notion importante dans une mthode de recherche, catgoriser est une des bases de la recherche dinformations. Les cyber-documentalistes parcourent le Web afin de recenser et dcrire les nouveaux sites, plusieurs centaines chaque jour, proposs par leur diteur le plus souvent. Lutilisateur peut ainsi parcourir des catgories hirarchises. Le plus souvent, les annuaires proposent des catgorisations multiples : une ou plusieurs catgorisations thmatiques et une catgorisation gographique. Lutilisateur arrive ainsi trouver des sites Web identiques en parcourant la classification de diffrentes manires. Alternativement, lutilisateur peut utiliser une zone de saisie de formulaire pour lancer une recherche par mot cl qui va seffectuer sur les catgories, le titre et le descriptif du site Web.
13
Bruit : rsultat non pertinent par rapport la requte. Probatoire session janvier 2004 p 6
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Cependant les annuaires prsentent des dfauts mme sils sont organiss par des oprateurs humains plutt que par une machine. Selon leur paramtrage, ils feront appel des fonctionnalits dj nonces dans la section prcdente sur les moteurs de recherche : savoir lutilisation de listes de mots stop , de rgles dexpansion des requtes, de rgles de lemmatisation, la tolrance aux fautes dorthographe. Ces fonctionnalits, si elles permettent dtendre les termes dune requte, gnrent en contrepartie des rponses non souhaites (bruit). De mme, le Web nest pas index de manire complte, car cela nest pas possible et parfois pas souhait. On assiste donc aussi un phnomne de silence sur les annuaires, cest dire que certaines rponses que lon sait correspondre la requte napparaissent pas. Le silence ou le bruit entourant les rsultats dune recherche de donnes, est d parfois la synonymie ou lhomonymie. Le problme de lhomonymie peut tre en partie cart dans les annuaires en lanant une recherche lintrieur dune catgorie. De cette manire, napparaissent que les rsultats concernant un mot cl ne correspondant qu un thme prcis. Par exemple, une recherche sur le mot disque ne donne pas les mmes rsultats selon que lon se trouve dans la rubrique informatique du catalogue ou sa racine. Dans le premier cas, on aura globalement surtout des rponses sur les disques informatiques, dans le second on verra, entre autre, aussi apparatre des rponses concernant la musique. Enfin, la classification est une technique documentaire qui ncessite lobservation de certains principes pour tre correcte. Une illustration est lutilisation de vocabulaire contrl pour indexer une ressource. Thoriquement, ne doivent tre utiliss pour indexer que des mots contrls partir de 14 dictionnaires ou encore de schmas de classification. Un exemple classique dindexation souvent mal contrl concerne les personnes : ainsi des documents parlant dHonor de Balzac ou de ses uvres ne seront pas retrouvs de la mme manire si lon utilise Balzac , De Balzac, Honor ou Honor de Balzac . Dans le premier cas, on trouvera des rponses concernant toutes les personnes ayant pour nom Balzac et dans les autres, on pourra ne pas trouver les documents qui ont simplement t index avec comme sujet Balzac . Un autre exemple montrant les difficults dune recherche sur un annuaire ou un moteur de recherche est le suivant. Des rponses obtenues partir des termes de la requte en anglais electronic 15 commerce (avec des guillemets, ce qui a une signification dans les oprateurs de requte ) concernent des rubriques intitules e-commerce . Si on lance ensuite une recherche avec le mot ecommerce, on obtient, non plus la rfrence de 21 catgories et 682 sites comme dans le premier cas, mais 132 catgories et 3697 sites [1, p 38]. Qui trop embrasse, mal treint . Ce proverbe pourrait sappliquer aux annuaires et aux moteurs de recherche gnralistes qui ont parmi leurs objectifs principaux lexhaustivit, afin dattirer le maximum dinternautes. Les portails thmatiques et les annuaires slectifs, linverse, souffrent moins de ces dfauts que nous venons juste de prsenter. Le principe, on a la qualit de ses dfauts ou inversement on a les dfauts de ses qualits sapplique dans ce cas.
1.4.
Tout dabord, introduisons une nouvelle notion propos des outils de recherche : le portail. Il sagit en fait de site Web ddis la recherche et laccs aux informations sur le Web. Ils offrent donc simultanment laccs un moteur de recherche et un ou plusieurs annuaires. Par ailleurs, ils proposent souvent aussi : des informations slectionnes (actualits, mtorologie, ), des services (bote lettre de courrier lectronique, petites annonces, tlchargement de logiciels, traduction), des plate-formes de commerce lectronique. Les portails offrent donc la fois les fonctions dannuaires et de moteur : le mme outil peut servir de point de dpart toutes les recherches.
15
Un synonyme de schma que lon utilise souvent indiffremment est le mot modle . Lutilisation de guillemet force la recherche uniquement sur la chane de caractres entre les guillemets et non sur chacun des mots contenus dans la chane. Probatoire session janvier 2004 p 7
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Les portails thmatiques sont construits sur le mme principe que les portails gnralistes mais avec une approche thmatique, cest dire une approche par domaine. Cette approche par domaine peut tre verticale, cest dire par secteur dactivit (comme lautomobile, la finance, ) ou horizontale, cest dire par sujet ou thme utilis par tous ou plusieurs secteurs dactivit (comme le knowledge management, la veille technologique, etc.). Une des caractristiques des portails thmatiques ou des annuaires slectifs est quil sadresse un public particulier, plus restreint et le plus souvent professionnel. Il est souvent fait par des professionnels (experts du domaine) au service de professionnels ou en tout cas dun public clair . Le travail de lexpert ajoute une valeur ajoute la recherche dinformation brute, do lintrt des portails ou annuaires thmatiques. Le champ dinvestigation va donc tre plus limit par dfinition mais aussi par choix. Le portail vertical, autre appellation du portail thmatique, est construit le plus souvent autour dun annuaire thmatique. Par exemple, un site spcialis sur les logiciels avec un annuaire des sites du domaine, peut ainsi senrichir de rubriques offrant les comparatifs de produits raliss par des laboratoires de test, un annuaire des fournisseurs, des articles de la presse spcialise, un forum de discussion pour les utilisateurs.
16
Des rfrences de thsaurus sont : - [TGN] Getty Thesaurus of Geographic Names : http://www.getty.edu/research/tools/vocabulary/tgn/ - [LCSH] Library of Congress Subject Headings - [MeSH] Medical Subject Headings : http://www.nlm.nih.gov/mesh/meshhome.html - [UDC] Universal Decimal Classification : http://www.udcc.org/ Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 8
1.5.
Recherche fdre
En complment dune recherche sur un ou plusieurs moteurs de recherche, on peut effectuer une recherche simultanment sur plusieurs moteurs de recherche et annuaires. Il faut pour cela utiliser ce que lon appelle un mta moteur qui na donc pas dindex propre. Les mta moteurs permettent de transmettre une mme requte plusieurs outils de manire squentielle ou paralllise. Ce sont des outils disponibles sur le Web (on line) ou que lon peut installer sur son ordinateur (off line). Les mta moteurs les plus sophistiqus envoient une mme requte diffrents moteurs et annuaires (que lon peut choisir dans une liste), puis ddoublonnent les rsultats, les classent (par pertinence, thme) et offre la possibilit de vrifier la validit des liens. Ils permettent ainsi un gain de temps indiscutable, mais souffrent nanmoins de certaines faiblesses. La premire est lie au fait que le mta moteur ne rapatrie quun nombre limit de rsultats de chaque recherche sur chaque moteur (en gnral les 10 50 premiers de la liste des rsultats). La seconde et principale limitation est que les oprateurs sont rduits au plus petit dnominateur commun des oprateurs des moteurs de recherche interrogs. On ne peut donc pas utiliser les oprateurs de requtes avancs proposs par les moteurs et annuaires. En fait, ce type doutil est surtout adapt aux recherches basiques, portant par exemple sur deux termes relis par AND . Au contraire, les mta moteurs ont pour avantage de pallier des insuffisances des moteurs de recherche, qui, nous lavons vu (cf. titre Limitations des moteurs de recherche page 6), ne peuvent indexer lintgralit du Web. De mme, les mta moteurs peuvent utiliser les interfaces de recherches proposs par les annuaires slectifs et les portails thmatique et profiter de la qualit des slections de ces sites en les additionnant un objectif dexhaustivit. Cependant, seuls des outils professionnels proposent cette dernire possibilit, et encore, pas dans tous les domaines, un prix qui les carte des utilisateurs particuliers et des petites entreprises. Ces mta moteurs sont parfois assimils des agents intelligents, notamment dans le sens o ils sont capables de traduire la requte dans le langage utilis par le moteur de recherche interrog et dhomogniser les jeux de rsultat retourns par les moteurs en les agrgeant. La technique consistant interroger plusieurs interfaces de recherche est utilise aussi par les outils de comparaison de prix dans le domaine du commerce lectronique. Le mta moteur de comparaison va ainsi interroger le catalogue de plusieurs sites de vente en ligne et rapatrier le rsultat dans une sorte de catalogue agrg. Ces aspects seront repris et dvelopps dans les sections 3.4.4 et 3.5. Le dernier moyen restant lutilisateur pour approfondir une recherche de donnes rparties sur le Web est dutiliser ses propres moyens et son intelligence en utilisant les proprits de visualisation et de navigation offertes par les navigateurs Web.
1.6.
Visualisation et navigation
Aprs avoir vu des outils puissants au regard de la masse des donnes rparties travers le Web et du travail considrable dindexation opr, utiliser la visualisation et la navigation dans les pages Web comme mthode de recherche de donnes rparties travers le Web peut paratre trivial. La navigation consiste suivre des liens hypertextes inclus dans les pages Web. Il sagit l toutefois dune mthode qui peut tre utilise et quon ne peut pas ne pas mentionner. Cest dailleurs un des principaux avantages offert par le Web et ce qui a fait en partie son succs. De mme, parce quune recherche peut ne pas tre parfaitement exprime par un oprateur et quun texte et une rfrence dans celui ci peut avoir un sens recherch et qui nest pas pris en compte par des outils comme les moteurs de recherche, la navigation peut tre une mthode de recherche efficace. Dans le mme ordre dide, un outil de recherche classique ne tient pas ou peu (techniques de personnalisation) compte du profil de lutilisateur et de ses connaissances pralables. Seul lutilisateur sait ce quil cherche et ce quoi il veut accder.
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
La visualisation, cest dire la lecture dun texte mais aussi la visualisation des images et des illustrations, et la navigation partir dun site Web de rfrence peut tre trs riche dinformations. Enfin, il faut bien accder un document pour pouvoir en extraire linformation recherche et valider les rsultats proposs par un outil de recherche. Par ailleurs, les liens hypertextes peuvent tre considrablement enrichis dans le sens o on peut leur ajouter beaucoup de sens. Techniquement, il est dj possible denrichir la connotation dun lien hypertexte (balise <a> en langage HTML) en rajoutant une information concernant son type (attribut type ). Cela est rarement utilis et permettrait cependant denrichir le sens et les proprits dun lien hypertexte. De plus, les nouvelles gnrations de documents publi sur le Web utilisant le langage XML17 (eXtended Markup Language) et ses normes ou protocoles associs, dont XLink18, permettent dtendre les fonctionnalits des liens hypertextes et denrichir la navigation. La possibilit 19 daccder des ressources grce des liens a dj t illustre aussi avec la norme HyTime . Lutilisation de liens associs aux mta donnes des documents publis sur le Web sont aussi une source de navigation potentielle dans des navigateurs spcialiss [2, chap. 3, pp 99-100]. La navigation dans les documents hypertextes est donc bien une mthode de recherche pour accder des donnes rparties. Elle pourrait ltre encore plus si ces documents et les applications de navigation exploitaient lensemble des possibilits rcentes offertes par le langage XML et lutilisation tendue des mta donnes. Cette mthode de recherche base sur la navigation peut tre aussi appele exploration dynamique. Un exemple dexploration dynamique partir dune mta donne est le parcours des classifications offertes par les annuaires (cf. section 1.3).
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Les principaux oprateurs de recherche sont les oprateurs boolens ET (signe +, ou AND), OU (signe - ou OR) et SAUF (NOT, AND NOT..). Ils peuvent permettre notamment de traiter en partie lhomonymie en excluant priori certains rsultats (NOT) et la synonymie (OU). Loprateur ET est souvent implicite, cest parfois le OU. Les oprateurs peuvent tre mis entre parenthses pour indiquer lordre dexcution des oprations. On utilise des parenthses () pour regrouper des expressions boolennes complexes. Il y a des oprateurs de troncature. On parle souvent de joker. Par exemple, L'astrisque peut tre un joker. N'importe quelle lettre ou groupe de lettres peut prendre la place de l'astrisque. Bas* rcuprera les documents avec bas, basse et bassin. Il est ncessaire de saisir au moins trois lettres avant *. On peut aussi placer * au milieu du mot. C'est utile lorsque lutilisateur n'est pas sr de l'orthographe. moi*s trouvera de documents contenant mois et moins. Il existe des oprateurs de proximit disponibles : l'oprateur NEAR. L'oprateur de recherche permet parfois de prciser la distance entre les mots. Par exemple : bibliothque NEAR numrique ; bibliothque NEAR/3 numrique (bibliothque une distance de 3 mots de numrique) [3]. Les autres oprateurs de requtes sont des fonctions dont la syntaxe peut varier entre les diffrents moteurs de recherche. Nous avons vu les fonctions link: et related dans la sous-section initule Fonctions avances page 5. La syntaxe nest pas fondamentale et revient utiliser les formulaires de recherche avance dans les moteurs de recherche. Ces fonctionnalits sont prsentes dans la section suivante (1.7.2).
1.8.
Conclusion
A chaque recherche daccs des donnes rparties travers le Web correspond une ou plusieurs mthodes. Il ny a pas de mthodes pr-dfinie englobante o alors celle-ci serait un peu lourde raliser par un oprateur humain. En fait, chaque outil ses avantages et ses dfauts en fonction de la recherche de lutilisateur. Annuaires et moteurs de recherche sont des outils de recherche bien distincts, conus pour rpondre des questions diffrentes. Pour simplifier, on peut dire que les annuaires doivent tre utiliss lorsque
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 11
le thme de la question est susceptible de faire lobjet dun site ou dune grosse rubrique dun site Web ou lorsquon souhaite localiser le site Web dune organisation (entreprise) particulire. Les moteurs de recherche en revanche, permettront didentifier les pages dun site Web concernant un sujet trs spcifique. Ainsi si lon recherche des informations sur les champignons, on pourra identifier des sites spcialiss sur la question dans des annuaires. Mais si lon veut tout savoir sur la coucoumelle (nom usuel dune espce damanite), cest dans des moteurs de recherche quil faudra lancer sa recherche. On a vu par ailleurs la diffrence entre annuaires slectifs ou non (cf. section 1.4.2). Selon le type de question, la recherche sera plus performante si on utilise un annuaire classique ou un annuaire slectif. Pour retrouver, par exemple, le site Web dune socit, pour identifier les sites des entreprises dans un domaine donn, ou pour avoir une ide de loffre disponible sur le Web sur un sujet particulier, nul doute quune recherche dans les annuaires gnralistes sera bien adapte. Mais si lon souhaite en revanche identifier quelques sites de rfrence sur un sujet, gnral ou spcialis, lutilisation dun annuaire slectif ou dun portail spcialis permettra dobtenir rapidement une rponse pertinente. De mme, si lon dsire accder des ressources de type spcialis comme les fichiers multimdias ou excutables : on ne peut sadresser qu un annuaire thmatique. Cet annuaire peut tre dcentralis comme dans de nombreux cas avec le peer-to-peer ou avec les annuaires UDDI (Universal Description Discovery and Integration), mais on ny accde alors pas directement via le protocole HTTP. Une premire dmarche peut tre aussi de trouver les outils de recherche : lutilisation de mta annuaires (rpertoire des outils de recherche et des portails thmatiques) peut tre alors utile. Enfin, lutilisation des mta moteurs pour effectuer une recherche fdre prend tout son sens pour des recherches ponctuelles, notamment lorsquil sagit de rpondre des questions simples (un ou deux mots), pour lesquels les moteurs gnralistes obtiennent peu de rponses. Plutt que dinterroger successivement les diffrents moteurs, il est alors bien plus rapide de faire appel un mta moteur qui collectera les diffrentes rponses. Nous avons dit dj quune mthode de recherche sur le Web sassimile souvent lutilisation dun outil. Ces outils sont dj trs puissant et peuvent aider exprimer une recherche dinformations qui souvent est suffisamment large pour tre difficilement exprimable, mme en langage naturel. Notamment, ces outils orientent lutilisateur dans sa recherche de manire rcursive. Lutilisateur peut largir ou prciser sa recherche en fonction des rsultats obtenus aux premires requtes. La mthode, proprement parler, consiste donc savoir et exprimer de manire non ambigu sa recherche dinformations. Ce nest pas forcment possible dans tous les cas, notamment en phase dapprentissage, de dcouverte et dexploration. Cela est difficile si lutilisateur nest pas sr de la prsence ou non des donnes sur le Web. Lensemble de ces outils rpond une dmarche de recherche de linformation a posteriori. Les ressources sont publies puis les outils de recherche sont mis en uvre en posant la question comment fait-on pour les retrouver et y accder ? . Les rsultats des recherches des utilisateurs sont meilleurs dans un systme dans lequel les documents sont systmatiquement indexs et rfrencs priori selon une procdure gnrale en se posant la mme question (cf. mta donnes dans la section Fonctions avances page 5 puis vocabulaire contrl, dictionnaires, schmas de catgorisation dans la section 1.3). Encore faut-il que tous les utilisateurs dun mme domaine de recherche respectent cette procdure gnrale. Lefficacit de la recherche sur Internet bute aujourdhui sur ce point. Lutilisation des agents intelligents, objet de notre chapitre suivant, pour rsoudre ces mmes problmes, bute aussi trs certainement sur cela.
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
dpassent celles des Hommes et accroissent leur capacit daction, laissant esprer la ralisation de tches autrement impossibles. Lordinateur excute des tches que lHomme peut souvent raliser mais qui lalinent et ralise des calculs qui dpassent les capacits humaines grce sa rapidit et sa puissance de calcul et qui ne pourraient se faire autrement. La tentation est grande donc de chercher concevoir des machines pour chaque chose que lHomme ne sait pas faire ou fait difficilement. Nous avons vu, pour le sujet qui nous concerne, que les mthodes et les outils de recherche de donnes rparties travers le Web sont parfois insuffisants et ne permettent pas dy accder. Sagissant dinformations, la Communication prend une part majeure dans la problmatique de laccs aux donnes rparties sur le Web. Vu le volume des ressources concernes (cf. section 1.1), les capacits des ordinateurs sont les seules mme de permettre un accs universel, ce qui est certainement une des finalits du Web. Les oprateurs humains qui sattachent la rsolution de ce problme de non-accs aux donnes rparties mettent aux points des outils nomms par eux agents intelligents . Ce chapitre vise prsenter les notions essentielles permettant de comprendre ce que sont et ce que peuvent raliser les agents intelligents. Nous verrons donc diffrentes dfinitions qui sont donnes aux agents intelligents, quel domaine dactivit ils appartiennent, quelles sont les diffrentes formes quils prennent et enfin quelles en sont les caractristiques communes. Ces notions nous permettront de voir et mieux aborder dans le chapitre suivant (section 3) quelles sont les contributions que les agents intelligents peuvent apporter la recherche de donnes rparties travers le Web.
2.1.
IIS Institut for Intelligent Systems / University of Menphis USA : http://mnemosyne.csl.psyc.memphis.edu/iis/index.htm AFNOR : http://www.afnor.fr Daprs Jacques Ferber / Les systmes multi-agents / InterEditions Probatoire session janvier 2004 p 13
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
- est capable d'agir dans son environnement, - peut communiquer avec d'autres agents, - est dou d'autonomie et est mu par un ensemble de tendances (objectifs individuels), - possde des ressources propres, - est capable de percevoir son environnement et de s'adapter ses modifications, - ne dispose que d'une reprsentation partielle de son environnement, - possde des comptences et offre des services, - peut ventuellement se reproduire. Nous dvelopperons plus en dtail ces proprits dans la section 2.4. Mais, avant cela il est ncessaire daborder en quoi consiste lintelligence artificielle dont sont drivs les agents intelligents.
Lintelligence doit permettre aux logiciels agents de faire preuve dautonomie et de pouvoir prendre des dcisions seuls. Un des problmes les plus dlicats de lIA est de programmer lintentionnalit qui sous-tend les actions des humains. La difficult consiste ne permettre aux agents intelligents de ne retenir que ce qui est significatif dans ce quils peuvent percevoir , cest dire dans ce quils peuvent recevoir comme informations. La rtroaction avec des utilisateurs humains est donc ncessaire aujourdhui pour permettre aux agents existants de pouvoir continuer fonctionner intelligemment, cest dire en effectuant des actions qui correspondent un ou plusieurs objectifs assigns et ceci de manire efficace. Les robots seront vraiment intelligents lorsquils sauront eux-mme se programmer, voir se reprogrammer, pour faire mieux que les Hommes. Pour linstant, ils se contentent dtre des assistants dans lexcution de tches complexes et / ou lourdes. Lintelligence artificielle vise ainsi aujourdhui : 1. dvelopper des systmes de reconnaissances de formes ; 2. construire des robots capables deffectuer des actions dans des conditions surhumaines (astronautique par exemple) ; 3. dvelopper des agents conversationnels et des programmes de traduction automatique des langues ; 4. dvelopper des systmes experts et de rsolution de problmes. Les agents intelligents au service de laccs aux donnes rparties travers le Web rpondent aux objectifs 3 et 4 et font plus partie de lapproche descendante de lintelligence artificielle, ou encore approche dductive, base sur la logique. Les systmes inductifs, bass sur lexprimentation et lobservation avec lapproche ascendante rpondent aux objectifs 1 et 2.
2.2.
Approche descendante
Avec la dduction programme et laide la dcision, les systmes descendants sont trs performants pour des tches de raisonnement logique (pour les jeux entre autres), mais nettement moins pour des tches dapprentissage flexibles. Les programmes informatiques utilisent des instructions conditionnelles comme SIALORS , qui permettent lordinateur de traiter diffrentes parties dun programme en fonction de ses entres. Cest pourquoi lapproche descendante, qui va du gnral vers le particulier, convient la dduction et laide la dcision. Avec des instructions conditionnelles, un programme rpond intelligemment diffrentes entres, mais si celles si sont prvues. Si on complexifie les programmes informatiques, on peut attendre des comportements complexes en sortie.
Dfinition du mot infrence Dictionnaire Robert - 1976 Probatoire session janvier 2004 p 15
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
- cancane comme un canard, - ressemble un canard. Ils sont admis. Ce sont ce que les logiciens appellent des antcdents et ce quun programme informatique appellerait intrants (inputs). Linfrence cest probablement un canard appelle un commentaire supplmentaire. Si nous omettons de dire probablement , cela signifie que notre conclusion est soit vraie ou fausse, ou autrement dit 100% vrai ou 100% faux. Cela peut tre exprim en pseudo-code comme suit : SI ET ET ALORS objetx objetx objetx objetx (marche comme un canard) (cancane comme un canard) (ressemble un canard) EST ["un canard"]
Maintenant, si nous regardons lexpression en y incluant le mot probablement , cela signifie que la linfrence ne peut pas tre 100% vraie. Cela induit une nuance qui peut tre traduite par le fait que la probabilit que cela ne soit pas un canard est faible. Cela peut tre exprim en pseudo-code ainsi : SI ET ET ALORS objetx objetx objetx objetx (marche comme un canard) (cancane comme un canard) (ressemble un canard) EST PROBABLEMENT ["un canard"]
Une des manires dont nous raisonnons avec les assertions que nous pouvons faire, comme avec lexpression au sujet du canard, est dinclure la possibilit derreur ou celle dincompltude (en absence dinformation supplmentaire et discriminante), au lieu de la pondrer avec la rgle simpliste qui consiste dire que toutes les assertions sont 100% vraie ou fausse. En logique classique, si toutes les conditions antcdentes sont vraies alors nous pouvons statuer que la consquence est aussi 100% vraie. Cela implique la fois une connaissance et une logique parfaites (totales). Linfrence, qui nous permet, nous humains, de savoir que nous sommes en face dun canard sans quil soit besoin quil soit tiquet, cest dire identifi de manire formelle, canard , peut aussi permettre un ordinateur de reconnatre et de traiter lentit (un ensemble de donnes et de faits) laquelle il est confront sans que celle ci soit identifie formellement dans une variable prdfinie et connue de lui. Infrer permet un programme informatique de reconnatre des ensembles sans que ceux ci lui soient prsents de manire explicite et comprise priori par lui. Il peut traiter alors des donnes sous-entendues mais pas formellement prvues. Notons ce stade, quinfrer permet un programme de dtecter des donnes qui sont implicites, partir de donnes ou de mta donnes qui sont, elles, explicites. Un programme peut alors dtecter des informations tacites travers des traitements dinfrence. Systmes de raisonnement Comme mentionn en introduction de cette section 2.2, les premiers systmes de raisonnement taient bass sur des conditions de logique algbrique simple du type : Si A alors B Cela pourrait tre traduit par A implique B ; par cela on peut aussi traduire que si A est vrai alors B est aussi vrai. Ces premiers systmes, souvent crit en LISP ou en PROLOG, consistaient en des sries de rgles de logique simple qui pouvaient tre appliques. En appliquant la logique conditionnelle algbrique en cascade, nous introduisons le concept de OU ALORS SI ("Else If"), prenant la forme : Si A alors B Ou Si C alors D Ou Si
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 16
Cette forme de logique peut tre mise en uvre dans les langages de programmation par les oprateurs de traitement "Switch" ou "Case". Sil est possible de choisir cette approche dans les systmes dinfrence, cest uniquement dans le cas de problmes simples (par opposition complexes). En effet, cette approche, bien que compacte et rapide excuter, est difficile maintenir dans des cas de problmes rels cause de la complexit de la structure du graphe consquent, ou autrement dit de la complexit du programme associ.
La base de connaissance est le fondement du systme expert. Tout accroissement de ces bases de connaissances amliore et accrot les capacits des systmes experts. Les systmes experts sont utiliss actuellement comme outils daide lidentification des espces vgtales et animales ou comme outil de diagnostic de maladies en mdecine. Le personnel de lassistance par tlphone utilise de plus en plus des systmes experts pour traiter plus efficacement les problmes des clients.
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
2.2.4. Perspectives
Les systmes ferms, dans lesquels toute connaissance est prdfinie, peuvent tre interprts avec les rgles de la logique. Mais les systmes ouverts - les situations du monde rel ne peuvent tre formaliss, ce qui explique par exemple, pourquoi les robots conversationnels ninteragissent pas trs bien avec les humains pour le moment. De nombreux chercheurs pensent que la seule faon de construire une vritable forme dintelligence est de permettre un systme dapprhender et dexprimenter le monde par lui-mme. La science cognitive est une science qui vise tablir et matriser les processus en jeu dans lacquisition de connaissances et de comptences. Un des buts de lIA est donc dappliquer les rsultats de la science cognitive afin que les agents intelligents puissent apprendre de manire autonome. Linfrence est un des mcanismes qui permet dlargir les connaissances des agents intelligents. Le traitement automatis du langage naturel est un des moyens dont ils disposent pour exploiter les sources dinformations crites, notamment sur le Web, considr comme une gigantesque base de donnes mais non structures, quand il sagit de documents crits. Une des marges de progrs est donc de coupler les diffrentes approches et disciplines de lintelligence artificielle, et notamment les approches descendantes et ascendantes, ces dernires que nous allons maintenant aborder.
2.3.
Lapproche de lintelligence artificielle est incomplte si nous ne faisons pas mention de lapproche ascendante travers son application majeure que sont les rseaux de neurones. Lintelligence artificielle est aussi conue comme tant limitation de ce quest lintelligence naturelle, et par restriction lintelligence humaine (cf. section 2.1.2). Lapproche ascendante sappuie sur lexprimentation. Les rseaux de neurones rsultent dune approche visant imiter le fonctionnement du cerveau humain et sadossent donc sur la neurologie et par extension la biologie. Grossirement, on peut dire que les neurones biologiques tablissent des circuits similaires des circuits lectroniques. Les rseaux de neurones lectroniques sont des circuits pr-tablis mais sans objectifs dfinis priori. Lexcitation de certains des circuits lors doprations particulires (stimulations) reoivent une signification prcise lors de lapprentissage de la machine. Le Perceptron, une machine invente par Franck Rosenblatt, sinspire du mcanisme de la vision humaine. Le perceptron tait connect la sortie dune cellule photosensible, et les signaux issus de cette cellule taient transmis un petit rseau de neurones artificiels. Aprs avoir expos le Perceptron des exemples de lettres de lalphabet, lappareil apprit les distinguer. Lapprentissage du rseau de neurones permet daffecter un poids (coefficient) aux circuits tablis et corrige les erreurs possibles lorsque lappareil passe de formes simples (canoniques) des formes plus complexes que lon peut trouver dans la nature et quil reconnat mal. Aujourdhui les rseaux de neurones disposent de trois couches de neurones afin daugmenter leurs capacits dadaptation. De plus, ils peuvent, contrairement ce qui existe dans la nature, retourner des erreurs en affaiblissant le poids de circuits. Ce mcanisme sappelle la rtropropagation. Les rseaux de neurones peuvent fonctionner de manire distribue et en parallle. Ils peuvent exister en tant que composant matriel autonome ou tre simuls de manire logicielle. Le rsultat de lapprentissage des rseaux de neurones peut tre formalis par un algorithme. Les rseaux de neurones base de rtropropagation sont trs utiliss pour la reconnaissance de formes. Des astronomes emploient ces rseaux pour classifier les galaxies lointaines ; des chercheurs sen servent pour des systmes de reconnaissance de visages et de vhicules ; des financiers utilisent des rseaux neuronaux qui reprent la tendance du march comme outil daide la dcision dinvestissement [7]. De plus, on peut nuancer les rponses dun rseau neuronal en utilisant la logique floue (voir aussi logique floue page 17). Une approche complmentaire parfois utilise est de rduire lapprentissage des rseaux de neurones en le substituant un apprentissage non dirig en autoorganisation. Cette formule peut trouver des relations dans de grandes quantits dinformations que
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 19
lon ne pourrait jamais identifier. Le rseau baysien est un type de rseau auto-organisation. Les rseaux baysiens dduisent des modles partir de situations o une grande partie de linformation manque. Voyons comment un agent intelligent met en uvre les principes que nous venons daborder jusqu maintenant en parlant dintelligence artificielle en dcrivant ses proprits.
2.4.
Les proprits des agents se conoivent notamment dans le cadre dun systme multi-agents. Ses proprits se dfinissent compltement sil est amen travailler en coopration avec dautres agents. Un agent doit non seulement interagir avec un humain travers les interfaces HommeMachine (IHM) classiques mais aussi avec dautres agents.
25
Les actes de communication font rfrence aux travaux de John Searle, synthtiss dans son ouvrage Speech acts en 1969 (Searle, J.R., Speech Acts. Cambridge University Press, 1969). Les travaux de Searle sur le langage et sa mise en oeuvre par des machines sont une des rfrences en IA. Probatoire session janvier 2004 p 20
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
26
Dfinition : Une ontologie tablit une terminologie commune, plus un consensus sur son interprtation entre des membres dune communaut de communication. Ces membres peuvent tre humains ou des agents artificiels. Les ontologies reprsentent un champ de recherche bien tabli en philosophie et intelligence artificielle 27 FIPA Foundation for Intelligent Physical Agents : http://www.fipa.org 28 Chaque mot entre paranthses et en police de caractres courier new 10 points font references aux elements de larchitecture abstraite des agents de la FIPA repris en annexe page 36. Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 21
Une entre de rpertoire dagent est un enregistrement constitu de deux lments : le nom de lagent (agent-name) et son emplacement (adresse agent-locator). Le nom de lagent doit tre unique. Lemplacement de lagent est dfini par une ou plusieurs descriptions de transport (transportdescription), chacune delle tant une structure auto-descriptive contenant un type de transport (transport-type), une adresse spcifique au transport (transport-specific-adress) et zro ou plusieurs proprits spcifiques au transport (transport-specific-property). La structure de transport est utilise pour communiquer avec lagent. En plus, lentre de rpertoire dagent peut contenir dautres attributs descriptifs comme les services offerts par lagent, le cot associ lutilisation de lagent, les restrictions dutilisation de lagent, etc.. Un agent senregistre auprs dun rpertoire dagent en construisant son entre et en la proposant un service de rpertoire dagent. Les agents peuvent utiliser le service de rpertoire dagent pour localiser un agent avec lequel ils dsirent communiquer. Services de rpertoire de service (service-directory-service) Le rle de base dun service de rpertoire de service est de fournir des moyens cohrents par lesquels des agents ou des services peuvent dcouvrir des services (service). Concrtement, un rpertoire de service offre un emplacement o les services peuvent enregistrer leurs descriptions en tant quentre de rpertoire de service (service-directory-entry). De mme, des agents et des services peuvent interroger un rpertoire de service pour localiser des services appropris leurs besoins. Le service de rpertoire de services est analogue mais aussi diffrent des services de rpertoire dagent. Le premier sert la dcouverte de services alors que le second est ddi la dcouverte dagents. Les entres dun rpertoire de service sont des descriptions de services consistant en un enregistrement contenant un nom de service (service-name), un type de service (service-type), un appel (emplacement) de service (service-locator) et un ensemble dattributs de services optionnels (service-attributes). Lappel de service est une structure type qui peut tre utilise par les services ou les agents pour accder au service. Le nom de service doit tre unique. Le type de service indique la catgorie de service. Lappel de service est constitu dun ou plusieurs enregistrements contenant les lments suivants : un type de signature (signature-type), une signature de service (service-signature) et une adresse de service (service-adress). Par ailleurs, comme pour les agents, chaque service de rpertoire de service doit fournir au dmarrage des agents un service initial (service-root) qui prend la forme dun ensemble dappel de service (service-locator) incluant au moins un service de rpertoire de service (pointant sur lui-mme). Messages dagent Dans les systmes dagents de la FIPA, les agents communiquent entre eux en envoyant des messages (message). Les trois aspects fondamentaux de la communication de messages entre agents sont : la structure du message, la reprsentation du message et le transport du message. La structure dun message29 correspond un enregistrement et est crit en langue (de communication) dagent (agent-communication-language), comme FIPA ACL. Le contenu du message (content) est exprim dans un langage de contenu (content-language) comme KIF30, SL31 ou RDF32. Les expressions du contenu dun message peuvent sappuyer sur des ontologies rfrences dans un enregistrement spcifique aux ontologies33 (ontology).
Voir : FIPA ACL Message Structure Specification / standard / 2002-12-03 / FIPA TC Communication / accessible lURL http://www.fipa.org/specs/fipa00061/SC00061G.html 30 KIF Knowledge Interchange Format. Voir FIPA KIF Content Language Specification lURL http://www.fipa.org/specs/fipa00010/ 31 SL Semantic Language. Voir FIPA SL Content Language Specification lURL http://www.fipa.org/specs/fipa00008/ Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 22
29
Le message contient aussi les noms de lexpditeur et du destinataire, exprims avec les valeurs de la variable agent-name. Chaque message a un metteur et zro ou plusieurs rcepteurs. Le cas de zro (aucun) rcepteurs permet la diffusion tous (broadcasting) de message comme ncessaire dans les rseaux sans-fil. Les messages peuvent rcursivement contenir dautres messages. Les messages sont contenus dans des messages de transport (transport-message) quand les messages sont envoys dun agent un autre. Les messages de transports sont spcifiques de chaque transport (transport) utilis et spcifi dans lentre de lagent dans le rpertoire dagent (agent-locator). Lenveloppe (Envelope) dans les messages de transport sert prciser des informations permettant de garantir la validit du message (toute modification du message pendant la transmission peut tre identifiable) et son encryptage (scurit). Lintelligence des agents se situe particulirement au niveau des messages. La langue ACL peut exprimer jusqu 22 actes de communication diffrents. Les actes de communication primitifs sont lassertion informative, la demande directive, la confirmation dune proposition incertaine et la contradiction34. De la mme manire, le langage smantique31 permet aux agents dutiliser une grammaire formelle leur permettant dexprimer des actions relatives leurs connaissances. Leurs connaissances peuvent tre formalises et partageables grce aux ontologies. La communication inter-agents est une suite de messages. Les interactions pr-tablies font lobjet de protocoles dinteractions35. Pour tre considre comme conforme aux spcifications dun agent intelligent de la FIPA, une plateforme agent doit au moins mettre en uvre les spcifications de langue de communication dagent 36 37 (ACL) et celles de la gestion des agents . Cela montre limportance de la communication dans la dfinition pratique dun agent intelligent. En guise de perspectives, mentionnons le fait que les agents ont t mis en oeuvre grande chelle dans une exprimentation visant mettre en rseau plusieurs systmes agents. Il sagit du projet Agentcities38 qui a dmontr que les agents intelligents rpondaient leurs objectifs (dcouverte dynamique des agents entre eux, tablissement de communications et de relations daffaire satisfaisant des besoins dentreprises et dutilisateurs finaux). Aujourdhui les techniques multiagents oprent dans des projets dinformatiques distribues, repris sous le vocable de grid computing .
2.5.
Conclusion
Laperu que nous venons doprer propos des agents intelligents dans cette section montre que les agents intelligents offrent de relles perspectives pour raliser des tches difficiles, coteuses, voir impossible autrement. Les systmes dinfrences (sections 2.2.1 et 2.2.2) et les capacits de communications (section 2.4.2) des agents en sont les exemples les plus aboutis. Les agents intelligents offrent des avantages significatifs sils font partie dun systme multi-agent afin de maximiser leurs capacits de communication et dadaptation. Si les agents intelligents ont des fonctionnements similaires qui font quils appartiennent au mme type dapplication, ils sont ddis des tches avec des objectifs diffrents pour chacun deux. Des agents qui peuvent thoriquement interagir nont aucune raison de le faire au regard de leurs objectifs
32
RDF Resource Description Framework. Voir FIPA RDF Content Language Specification lURL http://www.fipa.org/specs/fipa00011/ 33 FIPA Ontology Service Specification / Experimental / 2001-08-10 / FIPA Architecture Board / accessible lURL http://www.fipa.org/specs/fipa00086/XC00086D.html 34 FIPA Communicative Act Library Specification / Standard / 2002-12-06 / FIPA TC Communication / accessible lURL http://www.fipa.org/specs/fipa00037/SC00037J.html 35 Voir FIPA Interaction protocol specifications / http://www.fipa.org/repository/ips.php3 36 FIPA Agent communication language specifications : http://www.fipa.org/repository/aclspecs.html . Ces specifications reprennent les spcifications mentionnes dans les notes de bas de page n 27 33 de ce document. 37 FIPA Agent Management Specifications : http://www.fipa.org/repository/managementspecs..html 38 Agentcities Web : http://www.agentcities.org/ Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents) Probatoire session janvier 2004 p 23
propres. Peut-tre aussi que les agents ne sont pas encore assez nombreux pour pouvoir valoriser leur effort collectivement. Il faut aussi noter que des humains, sils sont capables dtre intelligent, ne le sont parfois pas (dans les cas dignorance par exemple). Si la capacit de communication des agents peut permettre dentrevoir une meilleure intelligence lavenir, acceptons aussi leurs faiblesses : ils ne peuvent pas tout faire simultanment. De plus, les agents intelligents qui auraient les mmes objectifs doivent par ailleurs faire un travail de rapprochement pour harmoniser leur connaissance. Larchitecture des agents intelligents est telle quelle permet thoriquement ce rapprochement. Toutefois pratiquement, il faut construire ces ontologies, ces rpertoires dagents, ces rpertoires de services. Ensuite, lorsque les ontologies, les langages sont diffrents, il faut que les traductions existent. Il faut des services de traduction. Pratiquement cela repose sur une architecture matrielle et logicielle lourde quil faut dvelopper et mettre en uvre, ensuite maintenir. Or la plupart du temps, les agents ont t mis au point de manire exprimentale, prouvant le bien fond de leur conception. Ils ne sont cependant pas encore passs dans le domaine conomique. Sils passent dans le domaine conomique, il faudra certainement des moyens pour pouvoir faire appel leurs services, ce qui signifie que leur utilisation ne sera pas forcement gratuite. Dans le mme ordre dide, est-ce que tous les agents sont conformes aux spcifications de la FIPA ? Si non, peuvent-ils interoprer avec ceux qui sont conformes ? Il faut aussi que les langues de communication dagent (ACL) qui sont donc des langages formels se rapprochent des langues humaines. Ou inversement. Nous avons vu que la principale limitation des agents intelligents tenait au fait que le langage quils utilisent est plus simple (section 2.2.3). Or le langage utilis le plus souvent pour publier les donnes sur le Web est le langage courant et les documents ne sont le plus souvent pas structurs formellement et de manire harmonise. Ne parlons pas de la recherche dinformation multilingue tant le nombre de langues humaines utilises est important, ce qui rajoute un biais supplmentaire. De plus, si parfois il nexiste pas de dictionnaire de traduction entre certaines langues, il en existe plusieurs entre dautres langues. Tant que ce rapprochement entre les donnes humaines du Web et celles des machines ne sera pas effectu, les tentatives des agents intelligents pour indexer le Web et permettre un accs et des recherches rapides et efficaces aux donnes resteront approximatives. Seules des tentatives sur des domaines restreints peuvent laisser esprer des chances de succs. Cependant les perspectives thoriques des agents intelligents restent assez fantastiques, surtout au regard du domaine dapplication quest le Web (cf. section 1.1.1 et section 2.2.4). Le temps permettra certainement de mieux harmoniser les donnes humaines et celles ncessaires aux machines.
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
3.1.3. Lemmatisation
La lemmatisation est l'opration par laquelle les formes flchies (conjugaison, genre, nombre) d'un texte sont classes sous une adresse lexicale, du type "entre de dictionnaire", appele le lemme [12]. Ds lors, un mot rencontr dans un texte, quel quil soit, peut tre ramen une unit lexicale qui peut ensuite tre utilise pour dautres traitements, notamment lindexation des mots dun texte pour la construction dun index [13]. La lemmatisation utilise les rgles de grammaires dune langue, avec leurs listes dexceptions, pour inflchir les termes rencontrs dans un texte crit dans cette langue. Ces rgles sont nombreuses et complexes et ncessitent des traitements assez lourds. Elles peuvent tre regroupes sous le terme de rgles de transformation morphologique [14]. Ainsi la lemmatisation peut tre automatise. Certains outils de lemmatisation automatise [13]proposent mme de grer des rgles dexpansions ; cest dire principalement des relations entre des mots permettant de les ramener une seule unit lexicale et par exemple de grer la synonymie. Il est trs difficile de disposer de rgles exhaustives couvrant lensemble des cas de flexion des substantifs. Cela est par ailleurs trs lourd, surtout si le systme (de recherche dinformation) doit indexer des documents en diffrentes langues. Il est utile de disposer dun dictionnaire pour savoir si la forme flchie obtenue (le lemme) partir des rgles fait partie dun dictionnaire. De plus, il se peut que le texte dorigine contienne une ou plusieurs fautes dorthographes. Aussi, la lemmatisation automatise donne des rsultats satisfaisant dans de nombreux cas, mais gnre aussi des erreurs dans dautres. Il faut donc pour valider intgralement la lemmatisation une phase de rvision manuelle [12]. Celle ci permet : - de vrifier pour chaque forme la pertinence du lemme propos ; - de dfinir un nouveau lemme pour les formes inconnues du systme (parfois du dictionnaire) ; - de lever les ambiguts dans les cas o plusieurs lemmes sont possibles Des approches de la lemmatisation consiste utiliser des caractres de troncatures (cf. 1.2). Cela largit ainsi une recherche dinformation, mais cela a linconvnient de gnrer en retour une augmentation du taux de bruit. Cela ne constitue pas une vritable lemmatisation [2, page 230]. La lemmatisation augmente les chances de trouver des informations partir de mot cls pour des recherches autrement infructueuses. Elle amliore globalement la recherche dinformation [10] mais cela gnre cependant parfois du bruit . La lemmatisation automatise ne doit donc pour tre juste nutiliser que des rgles sres et prouves et laisser celles qui donnent parfois de mauvais rsultats.
3.2.
Analyse smantique
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
L'objectif de l'analyse et de l'indexation est de d'abord trouver des concepts les plus importants dans le document, et de crer une reprsentation interne en utilisant ces concepts. Pour trouver des concepts, il est ncessaire de procder une analyse smantique pour dterminer ce qui est un concept dans un texte. Cette analyse n'est pas disponible pour la RI. Les techniques existantes sont souvent restreintes un domaine trs spcialis, et l'analyse est trs complexe. Ainsi, en pratique, on cherche plutt des reprsentants des concepts. Ces reprsentants peuvent tre de forme diffrente: des mots simples, des termes (ventuellement composs), ou des doublets de mots (groupes de deux mots). tant donn le grand nombre de documents traiter (cf. section 1.1), il est ncessaire que le traitement pour la reconnaissance des reprsentants soit assez simple. Cependant, les reprsentants trouvs doivent permettre de dcrire le contenu (la smantique) du document et de la requte de faon assez prcise.
3.2.2. Catgorisation
Les mots cl issus de lindexation des units linguistiques partir de lanalyse statistique des mots dun texte peuvent parfois tre ambigus cause notamment de lhomonymie [10]. Les traitements qui visent rduire lambigut des mots comme index des documents sont aussi ceux qui permettent leur catgorisation automatique. Globalement, il sagit de reprer le contexte dun document en relevant la prsence conjointe de plusieurs units linguistiques (mots) qui est alors significative.
39
Recherche dinformation est un exemple de terme compos. Par ailleurs, le concept de recherche d'information , une fois reprsent par les mots recherche et information , perd beaucoup de sens, car les mots recherche et information sont trs courants en franais, et ils sont des sens trs imprcis. Probatoire session janvier 2004 p 27
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Plusieurs mthodes sont utilises selon les cas : lutilisation dun systme expert, dun dictionnaire ou dun thsaurus. Avec le systme expert, comme on peut imaginer, il est trs difficile d'avoir un ensemble de rgles qui a une couverture raisonnable. Les rgles tablies manuellement ne peuvent couvrir qu'une petite partie des mots ambigus et ne seront utilisables que pour des documents dun domaine. Cependant, les systmes experts apprennent et peuvent senrichir. Les rgles peuvent voluer pour permettre dassocier un contexte un mot cl et finalement catgoriser un document. Lutilisation dun dictionnaire consiste prendre la dfinition du mot index, utiliser les mots de la dfinition pour voir sils sont prsents dans le document et valider ou non la catgorisation. Ici la lemmatisation est utile pour rapprocher les mots de la dfinition et les autres mots contenus dans le texte analys. On peut avoir un taux de russite de 50-70% pour la dtermination de sens. Il faut remarquer que ce taux dpend fortement du dictionnaire utilis et des mots soumis au test. Mais ce taux de russite nest pas assez fiable. Le danger est qu'on peut se tromper dans 30-50% des cas, ce qui est trs important. Une validation manuelle de la catgorisation automatique est alors ncessaire. Dans le mme ordre dide, on peut associer la catgorisation automatique un pourcentage de fiabilit, la manire de la logique floue. Dans tous les cas, il est ncessaire de disposer de bases de connaissances (dictionnaires, thsaurus, systme expert). Ces bases sont fonctionnelles pour des petits ensembles spcialiss. Les lments dinformations runis dans ce rapport montrent que lamlioration des bases de connaissance semble, lheure actuelle, la base de lamlioration des rsultats aux recherches de donnes gnrales rparties travers le Web.
3.3.
Veille informative
Trois types de veille informative sont possibles. La premire concerne la mise jour des rsultats dune recherche. La seconde est relative la surveillance dun site ou dune page Web. Enfin la dernire concerne les abonnements. Les logiciels capables deffectuer la mise jour dune recherche sont souvent appels agents de veille. Il sagit en fait denregistrer une recherche comme devant tre mise jour. Le logiciel se charge alors dinterroger le ou les moteurs de recherche une frquence prdtermine et peut signaler lutilisateur les nouveaux rsultats obtenus. Lintrt principal de ce type dagent est le gain de temps quil permet lutilisateur [1]. Dans ce cas, les paramtres sur lesquels seffectue la mise jour sont les mots cls de la requte de recherche. Les agents de veille sont le plus souvent associ des logiciels de recherche fdre (cf. section 1.5). Dans ce domaine, certains types dagent permettent aussi de tenir au courant lutilisateur des mises jour survenues sur une page Web. Lagent peut effectuer une comparaison des pages et nalerter lutilisateur des changements dtermins comme important par lui. Par exemple, lalerte seffectue si le nombre de mots diffrents entre les deux versions est suprieur un seuil fix par lutilisateur. Dune autre manire, les agents peuvent tenir au courant lutilisateur des nouveaux liens qui pointent vers un site. Il est alors possible de savoir quels sont les sites et les pages Web qui mentionnent votre site et ses pages. La veille informative consiste par ailleurs sabonner des services dalerte. Ces services sont particulirement dvelopps sur les sites dinformations proposant des news . Ces alertes sont alors bases sur le choix dune catgorie ou dune rubrique. Toute nouvelle dpche dans une rubrique est alors signale lutilisateur. Ce type dabonnement est valable pour la plupart des systmes de gestion de contenu qui peuvent avertir les utilisateurs des nouveaux documents ou des mises jour de documents dans une rubrique. Mais tous les types de paramtre existent pour les abonnements. Ainsi, par exemple, sur un site dannonces, il est possible dtre tenu au courant des nouvelles annonces correspondant aux critres de recherche de lutilisateur.
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
En rsum, nous pouvons dire que les agents de veille se chargent deffectuer des requtes enregistres par un utilisateur, priodiquement, auprs des services paramtrs par le logiciel et / ou lutilisateur. Lagent fournit en retour les informations supplmentaires quil a recueillies entre deux interrogations. Il sagit l dune mthode de recherche dinformation trs importante pour les recherches dinformations cibles. Cependant, le travail ralis par ces agents nest pas reconnu comme relevant de celui des agents intelligents [1].
3.4.
Jusqu ce point, nous avons abord dans cette troisime section les traitements ncessaires apporter aux documents pour pouvoir effectuer des requtes afin de les rcuprer. Ces traitements sont raliss de manire gnrale par les moteurs de recherche de manire automatise ou par des oprateurs humains assists par ordinateur. Nous allons voir maintenant quels traitements supplmentaires peuvent tre oprs afin daffiner les rsultats et les prsenter.
artificielle, on peut parler dans le cas du filtrage collaboratif dintelligence collective. Toutefois, ce systme ne fonctionne correctement que si lutilisateur prend le soin de renseigner et prciser son profil et ses prfrences personnelles, de mme que sil prend le temps dvaluer les ressources que loutil lui propose, ce qui est coteux [4]. Lvaluation des ressources proposes peut servir aussi comme critre de pertinence pour le classement des rsultats dune recherche.
3.4.4. Agrgation
Lagrgation consiste prsenter les rsultats correspondant une recherche. Elle prend tout son sens pour les recherches fdres, notamment les recherches multilingues, dans lesquelles les rsultats proviennent de diffrents outils de recherche et peuvent tre htrognes. Lagrgation consiste dabord slectionner les rsultats issus de chaque outil interrog. La plupart du temps, lagent de recherche ne retient que les premiers rsultats de chaque liste retourne, estimant juste titre que ce sont souvent les plus pertinents [1]. Une opration supplmentaire indispensable consiste ddoublonner les rsultats identiques. Ensuite, lagent de recherche peut effectuer dautres traitements complmentaires, parmi lesquels on peut trouver le classement des documents identifis par thme. Lutilisateur a le plus souvent loption de choisir comment les rsultats sont tris : par date, par titre, par pertinence, par URL... Certains mta moteurs proposent aussi un rsum de la ressource rsultante. Un lien hypertexte permet daccder la ressource. Lagrgation, particulirement sous forme de catalogue, est aussi une fonction cl des agents de commerce lectronique dont un des rles principaux est dagrger la liste des produits recherchs. On parle aussi de catalogue agrg.
3.5.
La problmatique est trs semblable celle de la recherche dinformations. Face une offre internationale, parpille et plthorique, le consommateur a de plus en plus de mal choisir le produit
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
acheter. On distingue deux catgories d'agents pour le commerce lectronique : les agents acheteurs et les agents vendeurs. Nous dtaillons ci-aprs leur fonctionnement respectif [5].
Les diffrentes fonctions assures par les agents vendeurs sont : - enregistrement du profil et des prfrences de lacheteur ; - enregistrement des demandes successives de l'acheteur afin d'enrichir, d'affiner, de faire voluer son profil ; - calculer des recommandations sur lvolution de loffre commerciale grce des statistiques sur la demande globale des consommateurs.
41
intelligence ncessite toutefois lutilisation dontologies (dictionnaires, taxonomies, thsaurus, bases de connaissance). Les ontologies font partie de lensemble (classe) des mta donnes. Ces ontologies sont lourdes produire, maintenir et savrent insuffisantes dans le cas de recherches gnralistes et, dans quelques cas, dcevantes pour la recherche multilingue et la traduction. Par contre, elles peuvent amliorer significativement la gestion de contenu dans des domaines spcialiss. Elles ne sont pour le moment pas interoprables dans les cas les plus nombreux (systmes propritaires ou pas de correspondances). Enfin, ces agents ncessitent la collaboration avec lutilisateur qui doit au dmarrage du systme donner beaucoup de renseignements. Cette interaction semble avoir dcourag beaucoup dutilisateurs, ne permettant pas damener les systmes maturit tout en donnant dans le mme temps des rsultats dcevant par dfinition, surtout pour des recherches gnralistes. Dans le mme ordre dide, rappelons enfin que les agents ne peuvent donner leur pleine puissance que dans des systmes multi-agents (cf. section 2.5) ayant une taille critique, cest dire sil y a suffisamment de systmes agents interoprables. Les agents intelligents ne posent donc pas de limites intrinsques mais ces dernires relvent du manque de mta donnes de qualit et interoprables.
3.7.
Nous avons vu au cours de ce rapport quune large part de lintelligence pour la recherche dinformation peut reposer sur des bases de connaissance : pour les systmes experts et autres moteurs dinfrence (section 2.2.2), comme support des messages de la communication inter-agents (section intitule Messages dagent page 22), pour fiabiliser et augmenter lefficacit de lutilisation des mots cls et des catgories pour la recherche dinformations (section 3.2). On peut rsumer en disant que les bases de connaissance peuvent se prsenter sous forme dontologies. Lenjeu est daccrotre les capacits informatives du Web en permettant de dduire des informations qui ne sont pas explicitement formules mais qui sont dductibles grce linfrence. Il faut donc au pralable fiabiliser les mta donnes des ressources prsentes et accessibles travers le Web. Cest un enjeu considrable au regard de la quantit des donnes disponibles travers le Web et de la mise en uvre progressive de XML comme langage pivot pour ces mmes donnes. Le W3C42 offre une architecture pour rpondre cet enjeu : il sagit du Web smantique43. Cette architecture est btie sur le standard RDF (Resource Description Framework) et sur le Langage dOntologie du Web OWL. Ce nest pas le lieu daborder la nature de ces langages. Toutefois, retenons certains lments fondateurs. Notons que RDF peut servir de langage de contenu ( content language ) pour les agents de la FIPA (voir Messages dagent page 22). RDF44 est un modle, associ une syntaxe, dont le but est de permettre une communaut dutilisateurs de partager les mmes mta donnes pour des ressources partages. Il a t conu initialement par le W3C pour permettre de structurer linformation accessible sur le Web et de lindexer efficacement [2, chap. 7]. RDF nest pas particulirement conu pour permettre de stocker les mta donnes de documents mais plutt pour permettre leur change et leur traitement par des oprateurs humains ou artificiels. Un des gros avantages de RDF est son extensibilit, travers lutilisation des schmas45 RDF qui peuvent sintgrer et ne sexcluent pas mutuellement grce lutilisation du concept despace de nom ( namespace ). RDF est par ailleurs un des modles de base et de syntaxe sur laquelle le Web smantique se construit avec lajout de couches ( layers ) au-dessus de RDF comme OIL (Ontology Inference
43
W3C World Wide Web Consortium : http://www.W3.org W3C Semantic Web : http://www.w3c.org/2001/sw Resource Description Framework (RDF) Model and Syntax Specification. W3C Recommendation 22 February 1999. Newest Version: http://www.w3.org/TR/REC-rdf-syntax 45 RDF Vocabulary Description Language 1.0: RDF Schema. W3C Working Draft 05 September 2003. Latest Version: http://www.w3.org/TR/rdf-schema/
44
42
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Layer) et DAML (DARPA46 Agent Markup Language). OIL est utilis pour dfinir des ontologies et DAML ajoute un petit nombre de caractristiques au schma RDF afin de rendre plus facile la dfinition de nouveaux langages permettant la communication entre agents intelligents. Le langage dontologie du Web OWL est une rvision des langages DAML + OIL. Les mta donnes du DCMI (Dublin Core Metadata Initiative) sont exprimes de manire normative avec la syntaxe RDF47. Lorsque les mta donnes dun document sont exprimes en RDF en concordance avec le DCMI, elles font rfrence lespace de nom (domaine nominal ou namespace en anglais) des schmas RDF des mta donnes de Dublin Core. Conjointement avec RDF, linitiative de Dublin Core vise rsoudre les problmes dambigut sur la dnomination des ressources, et parmi elle surtout celles des proprits48. Toutes les personnes dsirant cooprer en changeant de linformation ont l les moyens de le faire efficacement en rsolvant les problmes classiques auxquels elles peuvent tre confrontes. Le Web smantique propose ainsi une organisation permettant de desambiger les informations sur les ressources et accrotre linteroprabilit entre les donnes. Il ouvre la porte au fonctionnement des agents intelligents pour accrotre laccs aux donnes des utilisateurs finaux. Mais pour cela, rappelons le, il faut dvelopper des ontologies et des services de traduction entre elles pour les ontologies concurrentes [16].
CONCLUSION GENERALE
Nous avons couvert les principales mthodes de recherche pour accder des donnes rparties travers le Web. Les traitements ncessaires pour utiliser ces mthodes ont t dcrits. De nombreux lments de conclusion ont t abords dans les conclusions relatives chaque section principale. Nous navons tenu compte pour ce rapport, de manire gnrale, que des donnes accessibles travers le protocole HTTP dans des formats compatibles avec celui ci (section 1.1.1). Rechercher des donnes accessibles travers Internet pour dautres protocoles et dautres formats relve sensiblement de la mme problmatique, mais rajoute une dimension la complexit de lopration et qui nest pas traite par les outils de recherche que nous avons tudis dans la premire section. Les mthodes de recherche sassimilent lutilisation de ces outils (annuaires, moteurs de recherche, mta moteurs, slectifs, thmatiques ou gnralistes) et donnent des rsultats satisfaisants dans la majorit des cas, mais au prix parfois dun travail non ngligeable de la part de lutilisateur, notamment pour faire le tri entre les donnes pertinentes et celles qui ne le sont pas. Dans les cas restant, la recherche peut rester sans rponse. Les outils de recherche utilisent dj des fonctionnalits de traitement automatis du langage naturel qui est une des approches de lintelligence artificielle. Les agents intelligents constituent un moyen pour dcharger lutilisateur dans le premier cas et pour rvler laccs aux donnes dans le second cas. Ils constituent une des hypothses majeure pour accrotre sa capacit daction. Les agents de veille ne sont pas vritablement des agents intelligents mais facilitent dj beaucoup la tche de lutilisateur. Certains agents peuvent guider lutilisateur dans son travail de recherche et dachat. Les agents intelligents ncessitent toutefois dtre mis en uvre une chelle suffisante (critique) dans des systmes multi-agents pour pouvoir rendre les services que lutilisateur peut exiger deux. Lutilisateur doit aussi respecter une priode dapprentissage de la machine avant quelle ne puisse donner des rsultats tangibles. On atteint des rsultats dans des domaines spcialiss, mais pas pour des utilisations gnralistes. De mme, afin daccrotre lefficacit de lindexation des ressources disponibles travers le Web, les diteurs doivent prendre le soin dditer et de renseigner les mta donnes des documents quils mettent la disposition de leurs lecteurs. Ces mta donnes doivent tre interoprables et non ambigus. Elles doivent correspondre des ontologies compatibles avec les capacits de traitement et dutilisation des agents intelligents.
46 47 48
DARPA : Defence Advanced Research Projects Agency - US Department of Defence. DCMI term declarations represented in RDF schema language : http://dublincore.org/schemas/rdfs/ Synonyme dans notre contexte de mta donnes, avec le mot attribut. Probatoire session janvier 2004 p 34
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Un travail consquent attend donc les utilisateurs de lInternet sils veulent que naisse la deuxime gnration du Web : le Web Smantique, et pour que les agents dits intelligents passent du stade exprimental au stade conomique.
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Agent
Mandatory
Agent-attribute
Agentcommunicationlanguage
org.fipa.standard .agent.agentattribute org.fipa.standard .agentcommunicationlanguage org.fipa.standard .service.agentdirectoryservice.agentdirectory-entry org.fipa.standard .service.agentdirectory-service org.fipa.standard .service.messag e-transportservice.agentlocator org.fipa.standard .agent-name org.fipa.standard .message.conte nt org.fipa.standard .message.conte nt-language org.fipa.standard .encodingservice.encoding -representation org.fipa.standard .service.encodin g-service org.fipa.standard .transportmessage.envelo pe
Optional
Mandatory
Agent-directoryentry
Mandatory
Agent-directoryservice Agent-locator
A service providing a shared information repository in which agent-directoryentries may be stored and queried An agent-locator consists of the set of transport-descriptions used to communicate with an agent.
Mandatory
Mandatory
Agent-name Content
An opaque, non-forgeable token that uniquely identifies an agent. Content is that part of a message (communicative act) that represents the domain dependent component of the communication. A language used to express the content of a communication between agents. A way of representing an abstract syntax in a particular concrete syntax. Examples of possible representations are XML, FIPA Strings, and serialized Java objects. A service that encodes a message to and from a payload. That part of a transport-message containing information about how to send the message to the intended recipient(s). May also include additional information about the message encoding, encryption, etc.
Mandatory Mandatory
Contentlanguage Encodingrepresentation
Mandatory
Mandatory
Encoding-service
Mandatory
Envelope
Mandatory
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Element Explanation
Description An encoding of the reason for a particular action-status. A unit of communication between two agents. A message is expressed in an agent-communication-language, and encoded in an encodingrepresentation. A service that supports the sending and receiving of transport-messages between agents. A set of symbols together with an associated interpretation that may be shared by a community of agents or software. An ontology includes a vocabulary of symbols referring to objects in the subject domain, as well as symbols referring to relationships that may be evident in the domain. A message encoded in a manner suitable for inclusion in a transportmessage. A service provided for agents and other services. A service-type specific string containing transport addressing information. A set of properties associated with a service by inclusion in its servicedirectory-entry. A composite entity containing the service-name, service-locator, and service-type of a service.
Message
Presence Optional
Mandatory
Messagetransport-service
Ontology
Mandatory
Optional
Payload
Service Service-address
Service-attributes
Service-directoryentry
Service-directoryservice Service-name
A directory service for registering and discovering services. A unique identifier of a particular service. A key-value-tuple containing a signaturetype a service-signature and serviceaddress. A service-locator consists of the set of service-location-descriptions used to access a service. A set of service-directory-entries.
Service-locationdescription
Service-locator
Service-root
Service-signature
A identifier that describes the binding signature for a service. A key-value tuple describing the type of a service.
Service-type
org.fipa.standard .transportmessage.payloa d org.fipa.standard .service org.fipa.standard .service.serviceaddress org.fipa.standard .service.serviceattributes org.fipa.standard .service. servicedirectoryservice.servicedirectory-entry org.fipa.standard .service.servicedirectory-service org.fipa.standard .service.servicename org.fipa.standard .service.servicelocationdescription org.fipa.standard .service.servicelocator org.fipa.standard .service.serviceroot org.fipa.standard .service.servicetype org.fipa.standard .service.servicetype
Mandatory
Mandatory Mandatory
Optional
Mandatory
Mandatory
Mandatory
Mandatory
Mandatory
Mandatory
Mandatory
Mandatory
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
Element Signature-type
Description A key-value tuple describing the type of service-signature. A transport is a particular data delivery service supported by a given messagetransport-service. A transport-description is a self describing structure containing a transport-type, a transport-specificaddress and zero or more transportspecific-properties. The object conveyed from agent to agent. It contains the transportdescription for the sender and receiver or receivers, together with a payload containing the message. A transport address specific to a given transport-type
Transport
Transportdescription
Transportmessage
Fully Qualified Name (FQN) org.fipa.standard .service.signatur e-type org.fipa.standard .service.messag e-transportservice.transport org.fipa.standard .service.messag e-transportservice.transport -description org.fipa.standard .transportmessage
Presence
Mandatory
Mandatory
Mandatory
Transportspecific-address
Transportspecific-property
Transport-type
og.fipa.standard. service.message -transportservice.transport -specificaddress org.fipa.standard .service.messag e-transportservice.transport -specificproperty org.fipa.standard .service.messag e-transportservice.transport -type
Mandatory
Optional
Mandatory
Source : [11]
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)
BIBLIOGRAPHIE
1 Recherche et veille sur le Web visible et invisible : agents intelligents, annuaires slectifs, interfaces des grands serveurs, portails thmatiques / Batrice FOENIX-RIOU / Editions TEC&DOC / Copyright 2001 / ISBN : 2-7430-0450-9 2 XML : langage et applications / Alain Michard / Eyrolles / 1999 / ISBN 2-212-09052-8 3 Comparaison des moteurs : Syntaxe de saisie et fonctions de recherche / Remarques sur les fonctionnalits de recherche et prsentation du TP / Marie-Laure Malingre et Alexandre Serres / URFIST / Universit Rennes 2 / fvrier 2003 / http://www.uhb.fr/urfist/Supports/ApprofMoteurs/ApprofMoteurs_InterrogAvance.htm 4 Agents et recherche d'informations sur Internet / Pierre-Alain LE CHEVILLER / Mmoire de fin dtudes 1997 / INTD - Institut National des Techniques de la Documentation Paris / 1999-03 / accessible partir de lURL http://www.geocities.com/Paris/Lights/6277/agents1.html 5 Les agents intelligents / Ludovic BLIN / DESS 226 Gestion des tlcommunications, de la tlmatique et de la tlvision / 1999-09-30 / accessible lURL http://memoireonline.free.fr/agents.htm 6 Les agents intelligents : essai sur la rationalit des calculs / Introduction / SALLANTIN Jean / collection Informatique / Editions HERMES / Date de parution: 1997-10 / ISBN : 2-86601-643-2 7 Lintelligence artificielle : un guide dinitiation au futur de linformatique et de la robotique / Jacques CHALLONER / Collection Focus Sciences / Editions PEARSON Education France / Copyright 2003 / ISBN : 2-7440-1600-4 8 Professional XML Meta Data / Chapitre 15 : inferencing systems pages 509-514 / Kal Ahmed, Danny Ayers, Mark Birbeck, Jay Cousins, David Dodds, Josh Lubbel, Miloslav Nic, Daniel RiversMoore, Andrew Watt, Robert Worden, Ann Wrightson/ Collection Programmer to programmer / Wrox Team / Wrox Press / 08-2001 / 600 pages / ISBN: 1-861004-51-6 9 Language : chapter 22 / Support de cours / Intelligence artificielle : introduction / Jian-Yun NIE / Dpartement d'informatique et de recherche oprationnelle (DIRO) / Universit de Montral - Canada / Automne 2003 / accessible lURL http://www.iro.umontreal.ca/~nie/IFT6330/Russell/chapter22.pdf 10 Recherche d'Information / Semaine 2 : Analyse et Indexation des documents et des requtes et semaine 11 : Traitements de la langue naturelle pour la RI / Support de cours IFT6255 - Hiver 2002 / Jian-Yun NIE / Dpartement d'informatique et de recherche oprationnelle (DIRO) / Universit de Montral - Canada / accessibles partir de lURL http://www.iro.umontreal.ca/~nie/IFT6255/ 11 FIPA Abstract Architecture Specification / norme FIPA du 2002-12-03 / Architecture Technical Committee / FIPA Foundation for Intelligent Physical Agents / accessible lURL http://www.fipa.org/specs/fipa00001/SC00001L.pdf 12 La lemmatisation / Accessible lURL http://tpg.fltr.ucl.ac.be/lemmatisation.htm 13 Lemmatisation : what is it ? / extrait de laide du logiciel concordance / R.J.C.Watt / Accessible lURL http://www.rjcw.freeserve.co.uk/manual/hs2330.htm / Pour plus dinformations : voir lURL http://www.rjcw.freeserve.co.uk 14 Lemmat : Un lemmatiseur d'adjectifs en franais / Mickael Faivre-Macon / Devoir de Matrise de Traitement Automatique des Langues / soumis pour approbation, non corrig / INALCO / dernire mise jour de la page le 25 janvier 1998 / accessible lURL http://www.geocities.com/Athens/Oracle/6296/lemmaitr.htm 15 Everything You Need to Know About Personalization : Personalization Techniques / Chris Payne / WDVL Web Developers Virtual Library / 2000-11-22 / http://www.wdvl.com/Authoring/ASP/Personalization/techniques.html 16 OWL Web Ontology Language Use Cases and Requirements / Chapitre 2.5 intitul Agents and services / Editor: Jeff Heflin (Lehigh University) / W3C Proposed Recommendation 15 December 2003 / Version accessible lURL http://www.w3.org/TR/2003/PR-webont-req-20031215/#usecaseagent
Accs des donnes rparties travers le Web : mthodes de recherche (agents intelligents)