Sie sind auf Seite 1von 8

Chapitre 3 : Les Moteurs de

Recherches (MdR)
Universit Cadi Ayyad,
Septembre 2012

Introduction

Qu'est ce qu'un Moteur de Recherche (MdR)

Fonctionnement d'1 MdR

Les critres de tri

Exemples de requtes

Quelques Exemples de MdR

Fonctions supplmentaires des MdR

Types particuliers de MdR

Outils similaires
Qu'est ce qu'un Moteur de Recherche (MdR)
Questions

Qu'est ce qu'un moteur de recherche ? programme, site web,


base de donnes...!

Quand on lance une recherche, est ce que l'opration de


recherche s'effectue sur tout le net ou est ce qu'elle s'effectue sur
une machine ?

Est-il possible de chercher des pages web en en vitant d'autres ?

Dfinition:MdR

Un Moteur de Recherche (MdR) est un programme permettant de


retrouver des ressources (pages web, images, vido et autres fichiers)
associes des mots cls, sur le net.

Toutes les ressources sont proposes via des pages web.


Remarque:

Certains sites Web offrent un MdR comme principale fonction ; le site


est appel moteur de recherche (On confond alors programme et site
web).
Attention:

Les MdR que nous utilisons sont syntaxiques ( on s'intresse la


forme et non au sens).
En effet, supposons que je cherche des pages web de soutien des
palestiniens. Je soumet un MdR l'expression soutien des
palestiniens
Est-ce que je vais avoir seulement des pages de soutien des
palestiniens ?
Non, car la recherche est syntaxique et non smantique. Je peux
avoir des pages qui contiennent le texte le soutient des
palestinien est interdit

Fonctionnement d'1 MdR


Un MdR a trois fonctions principales :

Exploration du Web la recherche de nouvelles pages web.

Indexation des pages web trouves.

Rponses aux requtes soumises par les internautes.

Exploration du Web
EL'exploration du Web la recherche de nouvelles ressources. Cette
tache est effectue par programme appel robot d'indexation qui suit
de faon rcursive tous les hyperliens qu'il trouve et rcupre les
ressources juges intressantes.

L'indexation
L'indexation des ressources trouves consiste extraire les mots
considrs comme significatifs dans celle-ci. Les mots extraits sont

enregistrs dans une base de donnes organise comme l'index d'un


ouvrage. Les termes non significatifs s'appellent des mots vides.

Schmatisation de l'indexation d'un MdR

Rponses aux requtes


Le MdR fournit des rponses aux requtes soumises par les
internautes. Il faut retenir que :

La
prsentation
des
rsultats
se
fait
automatique qui diffre d'un MdR l'autre.

Le but du classement est l'affichage des 10 20


premires pages web qui rpondent le mieux la requte.

selon un

tri

Rappel:

Une requte est une commande d'extraction de donnes dans une


base de donnes. Elle peut utiliser des oprateurs logiques et les
mots-cls comme paramtres.
Remarque:

Si, dans les premires pages, on ne trouve pas ce que l'on


cherche, il faut reformuler sa question.

Les critres de tri


Les critres de tri varient selon le moteurs. En voici certains :

Le tri par pertinence.

Le tri par popularit.

Le tri par pertinence.


permet d'afficher les rsultats d'une requte selon un ordre dtermin
par le calcul d'un score pour chaque rponse.
La pertinence est base sur cinq facteurs :

Le poids d'un mot dans le document : il est dtermin par sa


place dans le document, il est maximum pour le titre et
le dbut du texte. A l'intrieur il est plus important si le mot est
en majuscule.

Le poids d'un mot dans la base : il est bas


la frquence d'occurrence pour toute la base de donnes.

la
densit
: base
sur
la frquence d'occurrence
ou
d'apparition dans
un
document
par
rapport

la taille du document. Si 2 documents contiennent le mme


nombre d'occurrence, le document le plus petit sera favoris.

La correspondance d'expression : base sur la similarit entre


l'expression de la question et celle correspondante dans un
document. Un document contenant une expression identique a
celle de la question reoit le poids le plus lev.

La relation de proximit : base sur la proximit des termes


de la question entre eux dans le document. Les termes proches
sont favoriss.

sur

Le tri par popularit :


permet d'afficher les rsultats d'une requte selon un ordre dtermin
par le calcul d'un score pour chaque rponse.
La popularit est base sur deux facteurs :

La mthode base sur la co-citation : Elle consiste classer


les pages grce la combinaison de plusieurs facteurs dont le
plus important est PageRank ( Coefficient de valorisation d'une
page Web).

La mthode base sur la mesure d'audience : permet un tri


de pages en fonction du nombre de visites qu' elles reoivent.

Exemples de requtes
Exemples de requtes

Actions

Requtes

Caractristiques

Les pages qui contiennent


l'expression "la
sant "la sant publique"
publique"

expression
guillemets

Les
fichiers pdf
qui
Intgrales filetype:pdf
contiennent " intgrales "

fichier = filetype

Les pages web


qui
contiennent SMA dont SMA (site : " ac.ma ") page web = site :
l'adresse contient "ac.ma"
Les pages qui contiennent "
Intgrales doubles
intgrales " ou " doubles "
Les pages qui contiennent "
intgrales " ou " doubles Intgrales
" sans contenir le mot " triples
triples "

ou = espace

ou = espace
doubles sans =
moins

signe

Les pages qui contiennent " Intgrales


doubles - ou = espace
intgrales " ou " doubles " triples -multiples
sans contenir les mots"

sans =
moins

triples et " multiples "

signe

Quelques Exemples de MdR


Pour chercher une information sur le Web, plusieurs MdR peuvent
tre utiliss, voici les plus importants :

MdR recommands sur FireFox

Exemple:Exemples

de requtes sur Google

Google trie les pages trouves en fonction du nombre de liens qui


pointent vers elles.
Les images suivantes montrent le rsultats de quelques requtes sur
le MdR "GOOGLE"

Galerie d'images montrant quelques requtes


sur Google

Fonctions supplmentaires des MdR


Le correcteur orthographique
il permet de corriger les erreurs introduites dans les mots de la
requte.

Le lemmatiseur
il permet de rduire les mots recherchs leur lemme et ainsi
d'tendre leur porte de recherche.

L'anti dictionnaire
Il est utilis pour supprimer la fois dans l'index et dans
les requtes tous les mots "vides" (tels que "de", "le", "la") qui sont
non discriminants et perturbent le score de recherche en introduisant
du bruit.

Types particuliers de MdR


Mta-moteurs
Ce sont des MdR qui interrogent en plus de leur propre base de
donnes celles de plusieurs MdR simultanment et donnent une
synthse.
Exemple : Ixquick, Scroogle et seek.

Multi-moteurs
Ce sont des MdR proposant un ou plusieurs formulaires permettant
d'interroger plusieurs moteurs la fois.
Exemple : A9.com, Alpha de Yahoo! Hotbot de Lycos, ...

Outils similaires
Annuaires
Les annuaires appels galement "catalogues" recensent les
meilleurs sites. Ces sites sont ensuite tris par catgorie selon un
classement thmatique arborescent.
A l'oppos des MdR le tri est fait par des personnes et non de faon
automatique. On accde au thme recherch par une srie de
rubriques et sous rubriques de plus en plus prcises.

Les sites invisibles

Le web invisible (deep web, hidden web) est un ensemble de


documents (textes, vidos, images...) mal indexs par les
moteurs de recherche traditionnels.

Les documents constituant le Web invisible peuvent tre


dynamiques : Non localisables, non rfrencs (volontairement ou
non), ou de nature non indexable (ex. : les animations Flash ,
javascripts.). Le web invisible est vaste puisque selon les
estimations, les meilleurs moteurs n'indexent que 3 10% du
web !

Navigation :

Das könnte Ihnen auch gefallen