Beruflich Dokumente
Kultur Dokumente
2
I-INTRODUCTION......................................................................................3
II-1 Définition.............................................................................................5
II-2 Composantes........................................................................................6
II-2-1 Prétraitements :.............................................................................6
II-2-2 Recherche :...................................................................................6
II-2-3 Mesures : ......................................................................................6
II-2-4 Groupes sur la recherche d'information .......................................7
III-1 Formulation des objectifs de recherche..............................................7
III-2 Les différents aspects de recherche....................................................7
III-3 utilisation des agents intelligents pour la recherche sur Internet........8
III-3-1 Agents de recherche d'informations............................................8
III-3-2 Les agents intelligents ................................................................9
III-3-3 Caractéristiques des agents intelligents.....................................10
III- 4 La différente source d’informations................................................11
III-5 explorer les possibilités de recherche sur Internet............................13
III-5-1 La Recherche D'information Sur Internet.................................13
III-5-2 Moteurs de recherche................................................................15
III-5-3 choix d’un moteur de recherche................................................16
III-5-4 Critères de recherche thématique..............................................17
III-5-5 Revue et courrier électronique, forums, groups de discussion . 17
III-5-6 Naviguer....................................................................................19
IV- Exploiter les ressources techniques disponibles................................19
V- Extraire l’information...........................................................................24
V-1 Interprétation juste de l'information...................................................24
V-2 Pertinence de l'information extraite...................................................24
VI-1 Définition .........................................................................................25
VI-2 Une ressource facile d’accès.............................................................25
VI-3 Une ressource facile à utiliser...........................................................25
VI-4 Une ressource évolutive....................................................................26
VII-1 Prise en considération du but et des Limites de la recherche
préalablement établie................................................................................27
VII-2 Respect des méthodes de la clarté et de La concision de la rédaction
...................................................................................................................27
VII-2-1 S'efforcer à la clarté, la précision et la simplicité....................27
VII-2-2 Viser la concision.....................................................................27
VII-3 Utilisation de la terminologie appropriée........................................27
VII-4 Consignation méthodique de l'information.....................................28
2
I-INTRODUCTION
La veille technologique est une activité qui met en œuvre des
techniques d'acquisition, de stockage et d'analyse d'informations, concernant
un produit ou un procédé, sur l'état de l'art et l'évolution de son
environnement scientifique, technique, industriel ou commercial, afin de
collecter, organiser, puis analyser et diffuser les informations pertinentes qui
vont permettre d’anticiper les évolutions, et qui vont faciliter l’innovation.
3
par là même la mise à disposition de quantités de plus en plus importantes
de textes directement interprétables par l'ordinateur va alors entraîner le
développement rapide des modèles de RI. Ces deux aspects, l’indexation et
la recherche sont au cœur des problèmes abordés par la RI. L'indexation et la
recherche ont très rapidement évolué d'une modélisation booléenne de la
recherche (un terme représente ou ne représente pas le document dans le cas
de l'indexation, un document répond ou ne répond pas à la question) à des
modèles vectoriels ou probabilistes.
La pertinence d'un document pour une question dans des modèles qui
sont basés sur une représentation imprécise des documents et des questions
s'exprime dans les modèles de RI sous la forme d'un score. Ce score ne
permet plus une validation automatique des systèmes de RI. En effet, pour la
question « le document doit contenir le mot chèvre et élevage », un
document contenant le mot « chèvre » et « élevage » est une bonne réponse,
contrairement à un document qui ne les contiennent pas. Lorsque la question
devient « le document doit avoir pour thème l'élevage des chèvres », un
document qui parle de soin des chèvres sans utiliser le mot « élevage » sera
une bonne réponse, mais aura un score moins important qu'un document qui
parle directement de l'élevage des chèvres.
4
documents et de besoins d'utilisateurs. Les conférences TREC et SIGIR
donnent un aperçu de la diversité des recherches menées aujourd'hui dans le
domaine général de la RI.
II-1 Définition
Abrégée en RI ou IR (Information Retrieval en anglais), la recherche
d'information est la science qui consiste à rechercher l'information dans des
documents - les documents eux-mêmes ou les métadonnées qui décrivent les
documents -, dans des bases de données - qu'elles soient relationnelles ou
mises en réseau par des liens hypertexte comme dans le World Wide Web,
l'internet, et les intranets, pour le texte, le son, les images, les données. Le
Vocabulaire de la documentation (Paris, ADBS, 2004) distingue la
recherche d'information de la recherche de l'information :
• recherche d'information : « Ensemble des méthodes, procédures et
techniques permettant, en fonction de critères de recherche propres à
l’usager, de sélectionner l’information dans un ou plusieurs fonds de
documents plus ou moins structurés ».
• recherche de l'information : « Ensemble des méthodes, procédures et
techniques ayant pour objet d’extraire d’un document ou d’un
ensemble de documents les informations pertinentes ».
La recherche d'information est un domaine historiquement lié aux sciences
de l'information et à la bibliothéconomie qui a toujours eu le souci d’établir
des représentations des documents dans le but d'en récupérer des
informations, à travers la construction d’index. L’informatique a permis le
développement d’outils pour traiter l’information et établir la représentation
des documents au moment de leur indexation, ainsi que pour rechercher
l’information. On peut
5
II-2 Composantes
II-2-1 Prétraitements :
La première étape en recherche d'information est d'établir ces
techniques permettant de passer d'un document textuel à une représentation
exploitable par un modèle de RI. Cette transformation est scindée en deux
étapes distinctes et correspond à l'indexation des documents :
II-2-2 Recherche :
Une fois les documents transformés, il est possible de rechercher ceux
qui répondent le mieux à une question d'un utilisateur. Plusieurs approches
peuvent être distinguées :
• L'approche ensembliste qui considère que l'ensemble des
documents s'obtient par une série d'opérations (intersection,
union et le passage au complémentaire). Le langage de requête
SQL1 correspond à cette approche dite aussi de logique de
premier niveau.
• L'approche algébrique (ou vectorielle) qui considère que les
documents et les questions font partie d'un même espace
vectoriel.
• L'approche probabiliste qui essaie de modéliser la notion de
pertinence.
Il est enfin possible d'utiliser des modèles capables d'interagir avec
l'utilisateur, afin d'améliorer petit à petit les réponses du système de RI au
cours d'une session - l'utilisateur indiquant à chaque fois les documents
pertinents pour sa question. Ces indications peuvent aussi servir pour
améliorer globalement le fonctionnement du système de RI.
II-2-3 Mesures :
En RI, la mise au point des modèles passe par une phase expérimentale
qui suppose l'utilisation de métriques qui ont pour but de permettre la
comparaison des modèles entre eux ou la mise au point de leurs paramètres.
Ces mesures supposent connus un jeu de questions et les réponses
pertinentes dans un corpus donné. Deux concepts simples comme le rappel
(proportion de documents pertinents renvoyés par le système parmi tous
ceux qui sont pertinents) et la précision (proportion des documents
pertinents parmi l'ensemble de ceux renvoyés par le système) ont été étendus
pour permettre une analyse fine des performances de système de RI.
6
II-2-4 Groupes sur la recherche d'information
Historiquement, la recherche d'information était faite dans les
bibliothèques avec le protocole Z39.50 qui était maintenu par la
Bibliothèque du Congrès. Ces travaux se poursuivent avec les protocoles
SRW (Search / Retrieve via Web Services) et SRU (Search / Retrieve via
URL).
Bien sûr, l'objectif de la recherche aura induit le choix des outils et les
méthodes utilisés, selon la nature de l'information recherchée.
7
ASPECT 2 : J’interroge des sources d’information
• Je choisis les ressources dans lesquelles faire ma recherche
• Je construis des équations de recherche à partir de mes mots-clés
• J'amorce la recherche à l'aide de mes mots-clés à la bibliothèque, sur
Internet
• Je juge de l'efficacité de mes équations de recherche et je les ajuste au
besoin
• Je repère les documents et les ressources qui me semblent pertinents
• J'échange et je partage des idées avec différents interlocuteurs
8
Par le terme d'agents de recherche d'informations, nous qualifierons
toute la gamme de logiciels intermédiaires entre les moteurs de recherche et
les "agents intelligents", consacrés à la recherche d'informations. Leur
intérêt réside dans leur capacité à remplir et à automatiser des tâches à la
place de l'utilisateur. Ils suivent à la lettre la définition du terme agent :
"entité agissant pour le compte de quelqu'un".
9
III-3-3 Caractéristiques des agents intelligents
Les chercheurs en intelligence artificielle s'accordent sur la nécessité
de l'existence de quelques caractéristiques pour qu'on puisse parler d'agents
intelligents. A l'heure actuelle, aucun produit ne rassemble toutes ces
caractéristiques.
L'autonomie
L'agent doit pouvoir prendre des initiatives et agir sans intervention de
l'utilisateur final. Dans le contexte du web il doit pouvoir agir alors que
l'utilisateur est déconnecté. C'est le cas par exemple d'Autonomy de la
société Agentware. Les agents de General Magic devraient aussi en être
capables. La plupart des éditeurs de logiciels "agents" contournent le
problème de l'autonomie en programmant leurs logiciels afin qu'ils puissent,
à intervalles réguliers, se connecter automatiquement au web pour y
effectuer les tâches que leur ont confié les utilisateurs. Dans ce cas là, on ne
peut véritablement parler d'autonomie car l'agent n'est pas actif en
permanence et ne fait que reproduire comme un automate la requête
programmée par l'utilisateur.
10
III- 4 La différente source d’informations
On peut avoir besoin, pour effectuer sa recherche, de monographies,
d'articles de périodiques
ou de journaux, de thèses, de statistiques, de publications gouvernementales,
d'images, etc.
Il faudra alors consulter différents outils de repérage qui permettront de
trouver les sources
disponibles les plus appropriées.
Source primaire
Une source primaire est un document de première main utilisé pour
s'informer d'un sujet. Cela peut être un courrier, un journal intime, un article
de presse, une vidéo, un extrait d'état
civil, un document des archives publiques... Cette source n'a pas été
retravaillée ; elle sert à la formation par les historiens des sources
secondaires et tertiaires.
Les sources primaires sont particulièrement importantes dans les études
bibliques. Les exégètes doivent en effet revenir le plus possible aux sources
11
originelles des textes de la Bible (en hébreu, ou en grec), ou simplement se
demander dans quelle langue étaient écrits les textes originels.
Source secondaire
Source secondaire est une expression employée par les chercheurs en
histoire pour désigner les travaux historiques se présentant comme des
travaux de synthèse fondés sur des sources primaires et, souvent, la
consultation d'autres sources secondaires. La plupart des monographies
d'histoire écrites par des chercheurs qui sont publiées de nos jours sont des
sources secondaires. La source secondaire typique rapporte des événements
passés en même temps qu'elle fait un travail de généralisation, d'analyse, de
synthèse, d'interprétation et/ou d'évaluation de ces évènements.
12
En règle générale, les historiens modernes préfèrent se reporter aux
sources primaires (s'il en existe) et en chercher de nouvelles, parce que les
sources primaires, qu'elles soient ou non
Source tertiaire
Là où une source primaire présente des matériaux fournis par le témoin
de première main d'un phénomène et où une source secondaire fournit des
commentaires, des analyses et une critique de sources primaires, une source
tertiaire est une sélection et une compilation de sources primaires et
secondaires. Si la distinction entre source primaire et source secondaire est
essentielle dans l'historiographie, la distinction entre ces sources de preuves
et les sources tertiaires est plus anecdotique et relève davantage de la
pratique académique que du contenu.
15
Des sites web proposant des annuaires de sites web : dans ce cas, ce sont des
ressources humaines qui répertorient et classifient des sites web jugés dignes
d'intérêt et non des robots d'indexation — on peut citer par exemple Voilà et
Yahoo!, etc. ;
Des logiciels installés sur un ordinateur personnel : ce sont des moteurs dits
desktop qui combinent la recherche parmi les fichiers stockés sur le PC et la
recherche parmi les sites web — on peut citer par exemple Google Desktop
et Copernic Desktop Search, etc.
On trouve également des métamoteurs, c'est-à-dire des sites web où une
même recherche est lancée simultanément sur plusieurs moteurs de
recherche (les résultats étant ensuite fusionnés pour être présentés à
l'internaute) — on peut citer Mamma, Kartoo, Seek.fr, etc.
Elle permet d’éviter le bruit résultant d’une recherche : les listes obtenues
sont homogènes, tous les documents ont un rapport direct avec le thème
sélectionné.
17
Les revues électroniques
Des journaux et des revues numérisés par les éditeurs, soit
intégralement [« full text » : texte intégral], soit partiellement : références,
sommaires, résumés...
Le courrier électronique
Le courrier électronique (en anglais email ou e-mail) est un des
services les plus couramment utilisés sur Internet, permettant à un
expéditeur d'envoyer un message à un ou plusieurs destinataires. Le courrier
électronique a été inventé par Ray Tomlinson en 1972.
L'Académie française lui a trouvé le nom de « mél », tandis que les
québecois, réputés pour leur langage imagé, ont adopté le joli terme de
« courriel ».
Groupes de discussion
Groupes d’utilisateurs sur Internet qui échange des informations sur un
thème donné par l’intermédiaire d’un serveur.
Forum de discussion
18
Pages Internet sur laquelle des personnes échanges des messages afin
de réaliser une discussion sur un thème donné.
III-5-6 Naviguer
Il y a plusieurs manières d'accéder à une page sur le web :
Il n'est pas inutile de rappeler que l'invention doit être active quand on
apprend à prendre des notes : les notes n'ont qu'un destinataire, en principe :
leur propre auteur. Celui-ci peut donc donner libre cours à son imagination
19
pour se créer des moyens permettant d'économiser au mieux le temps
nécessaire à l'écriture.
Les exemples qu'on trouvera ci-après ne sont là que pour suggérer des
pistes... d'invention.
On recourt à divers procédés, parmi lesquels :
• Des signes
• Des abréviations
• La suppression de mots
• La présentation hiérarchisée
• La nominalisation
a- Des signes
Objectifs :
Remplacer des mots par des signes rapides à réaliser (écriture) et sans
équivoque (relecture).
Exemples :
Bon nombre des signes proposés sont issus des mathématiques, mais ils sont
réinterprétés bien évidemment.
20
Remarque :
L'effort, après adoption d'un signe donné, doit porter sur l'absence de
variation dans le choix et l'emploi de ce signe (il faut s'y tenir), pour que,
lorsqu'on relit plus tard ses notes, il n'y ait pas de doute sur la signification.
b- Des abréviations
Objectifs :
Remplacer des mots par des "raccourcis", quand on n'a pas de signes
disponibles.
Exemples :
Chaque matière utilise ses propres abréviations conventionnelles, il est
bon de les connaître, bien évidemment. (Voir par ex. les "modes d'emploi"
des usuels spécialisés).
Les exemples donnés ci-après sont de simples propositions. Comme pour les
signes, ce sont des pistes d'invention.
21
Remarque :
L'effort, après adoption d'un signe donné, doit porter sur l'absence de
variation dans le choix et l'emploi de ce signe (il faut s'y tenir), pour que,
lorsqu'on relit plus tard ses notes, il n'y ait pas de doute sur la signification.
Au surplus, recourir le plus possible aux sigles, car ils représentent un
excellent moyen d'économie lors de la prise de notes.
d- la présentation
Objectifs :
Rendre compte de la structure du texte.
Repérer la structure :
• Accorder toute son attention aux "connecteurs", c'est à dire aux mots-
outils qui permettent de comprendre l'organisation du texte
• Dans un récit : il s'agit des indications de temps
• Dans un texte descriptif, il s'agit souvent des indications de
spatialisation (lieux)
22
• Dans un texte argumentatif, il s'agit généralement des mots
indiquant une relation logique (addition, opposition, cause,
conséquence).
• Lorsque le texte est entendu, le repérage des articulations de l'exposé
dépend des efforts de la personne qui parle à faire sentir les articulations de
ses idées.
e- La nominalisation et le remplacement
Procédé proprement dit de la NOMINALISATION
Définition :
La nominalisation est un procédé lexical qui consiste à tirer d'un
verbe un nom de même famille (ou, quand le nom de même famille n'existe
pas, un nom correspondant par son sens à ce verbe)
Ex : réparer réparation
Emploi :
À l'occasion de la nominalisation, il convient de supprimer un
maximum d'informations secondaires (sans quoi l'opération est parfois plus
coûteuse en nombre de mots que de laisser la phrase en l'état !)
23
V- Extraire l’information
V-1 Interprétation juste de l'information
L'information est d'un usage très personnel : il doit y avoir un intérêt
pour le récepteur du message, interprétation de la donnée à travers un
modèle :
Information = Donnée(s) + Modèle d'interprétation.
L'information est comprise comme une donnée signifiante pour un individu
et ne peut plus être définie indépendamment de son utilisateur.
La pertinence (ou niveau d'intérêt de l'information) dépend du sens qui
émerge des relations entre les données et le modèle de l'utilisateur, au regard
d'une discipline particulière. Une même donnée peut conduire à plusieurs
informations selon le sujet, le contexte.
Exploration rapide
25
• Par un enseignant isolé ou une équipe pédagogique : Des renvois
sont faits d’un outil à un autre, d’une discipline à une autre car
certaines compétences sont communes, proches ou
complémentaires. Le regard que vous posez sur les élèves devient
ainsi plus riche et l’appréciation de leurs compétences plus
approfondie.
• Pour un niveau de classe ciblé : L’acquisition des compétences
s’effectuant tout au long de la scolarité, vous pouvez aussi utiliser
ces outils dans d’autres classes selon les forces ou faiblesses de
vos élèves.
26
VII-1 Prise en considération du but et des
Limites de la recherche préalablement établie
Il s'agit essentiellement d'une courte déclaration portant sur les buts et
les limites de la recherche présentée dans la thèse. Il comporte souvent un
court texte visant à expliquer de quelle façon les objectifs ont été
déterminés. Les bénéfices ainsi que l'utilité de la recherche sont également
traités dans ce chapitre. C'est dans la conclusion que l'auteur démontre de
quelle façon il a atteint ses objectifs.
27
indiquer qu’une collection de termes spécialisés est de qualité dans la
mesure où ces termes sont fiables, adéquats et corrects »
28