Beruflich Dokumente
Kultur Dokumente
http://www.clever-age.com
Si les documents sont réutilisés, améliorés chaque jour, les dernières mises à jour
disponibles posent souvent un problème de coordination entre les intéressés. De plus, la
quantité d’information produite par chaque employé double en moyenne tous les deux
ans. La gestion du cycle de vie des documents (archives, versions) crée une quantité de
données grandissant de manière exponentielle, ce qui devient vite ingérable si une
solution n’est pas mise en place.
Nous verrons qu’il s’agit de réunir l’ensemble des sources de données à étudier, puis de
les décrire chacune de manière détaillée. Ces descriptions pourront suivre plusieurs types
d’analyse différents, ce qui, selon le métier étudié, permettra une classification
intelligente et bien représentative de l’activité de l’entreprise. Il ne restera plus qu’à
choisir les interfaces de recherche que l’on souhaite implémenter.
Avant de s’intéresser aux types de solutions existantes, on doit pouvoir être capable de
définir l’univers documentaire que l’on veut exploiter. L’information étant la plupart du
temps disséminée sur des disques physiques, dans des bases de données, sur le web
(intranet, extranet...), il est nécessaire d’avoir accès à tous ces supports de stockage pour
pouvoir prendre en compte la totalité de l’univers. Cette collecte d’information peut poser
des soucis, notamment pour la lecture de certains fichiers comme les formulaires html, les
documents multilingues ou dotés de caractères spécifiques (UTF-8, ISO-8859-15...).
Un utilisateur doit, dans sa démarche, établir la liste de tous les formats documentaires à
traiter (pdf, excel, xml...), mesurer l’espace disque que représente son patrimoine,
différencier les types de contenus (journalistique, scientifique, biologique...), établir les
permissions qui leurs sont accordées (on parle deworkflow documentaire), recenser le
nombre de langues différentes (française, anglaise, espagnole...) et les jeux de caractères
utilisés (ISO, UTF...).
Fort de cette inventaire, on peut mieux définir les bases d’une indexation, et chercher un
outil qui répond aux contraintes techniques existantes.
1
organiser sa gestion documentaire
http://www.clever-age.com
L’INDEXATION ET LE CLASSEMENT
Définition
Une taxinomie des documents pourrait donc être organisée selon ces quatre couches
descriptives, chacune définissant les propriétés vitales du document. On pourra par la
suite lancer des recherches sur tous les attributs de description qui ont servi à l’indexation
(recherche par date, propriétaire, langue, titre, plein texte, typographie...).
Le stockage de l’information
On utilise des structures de stockage pour conserver ces informations de classification.
Les solutions techniques les plus fréquemment utilisées sont des tables de hachage ou
des arbres AVL qui assurent la gestion des données de masse.
2
organiser sa gestion documentaire
http://www.clever-age.com
3
organiser sa gestion documentaire
http://www.clever-age.com
CONCLUSION
Mais cette indexation ne prend pas en compte la valeur sémantique des documents : une
phase d’analyse linguistique supplémentaire est nécessaire pour permettre des recherches
plus élaborées sur les contenus.
Cette seconde phase fera l’objet de notre prochaine chronique : Organiser sa gestion
documentaire (deuxième partie) : Analyse linguistique et recherche.
[1] le terme taxinomie est généralement utilisé dans le contexte de la biologie pour la classification
des espèces ; voir par exemple cette taxinomie des animaux
[2] voir à ce sujet une étude sur les ontologies et l’intéropérabilité
4
organiser sa gestion documentaire
http://www.clever-age.com
Le but est de parvenir à dégager le sens des mots et des phrases constituant le contenu,
ce afin d’affiner les rapports contextuels entre les documents et répondre ainsi plus
précisément à des besoins métiers. Avant de pouvoir opérer l’analyse sémantique, il faut
au préalable passer par plusieurs étapes d’analyse : l’analyse morphologique et l’analyse
syntaxique.
Outre ces trois types d’analyse, un dernier type sera présenté ; il est utilisé pour la
restitution des résultats d’une recherche : l’analyse statistique. Nous aurons ainsi fait le
tour des différents types d’analyse documentaire possibles.
L’analyse morphologique
Ce type d’analyse, mis en place par F. Zwicky lors de la seconde guerre mondiale, explore
les futurs possibles d’un objet en le décomposant et en étudiant toutes ses combinaisons
natives. En clair, il s’agit de développer chaque mot d’un texte dans toutes les formes
qu’il peut avoir (ce travail rappelle les analyses que font les enfants dans les classes
primaires pour assurer leur compréhension globale de la phrase).
Dans un premier temps, cette analyse développe les termes, ce qui permet de connaître
leur racine propre ; dans un deuxième temps, elle va chercher à découvrir la nature et la
fonction de chaque terme dans la phrase. Elle pourra alors détecter sa signification réelle
et supprimer de nombreux litiges. Exemple : ’un as de pique’ ne fait pas référence au
verbe avoir du présent à la deuxième personne du singulier.
5
organiser sa gestion documentaire
http://www.clever-age.com
L’analyse syntaxique
Il s’agit de regrouper les unités lexicales en structures grammaticales, afin de comprendre
la structure d’un texte. Elle peut extraire une qualification affinée des documents soumis,
et organiser une structure imbriquée du document (un exemple d’analyseur syntaxique).
A ce stade il est donc possible de rassembler des corpus de textes, en basant la recherche
sur :
L’analyse syntaxique donne accès à une hiérarchisation très ségmentée du texte, et est
donc très utile pour résumer des contenus.
L’analyse sémantique
6
organiser sa gestion documentaire
http://www.clever-age.com
Il existe de nombreuses possibilités sur les types de liaisons qui rattachent deux terme, et
le système pourra prendre en compte :
Cette étude au niveau du sens offre bien souvent la possibilité de faire des recherches
en langage naturel [1]. Cela signifie que l’utilisateur pose sa question à la machine
comme à un interlocuteur normal, et que le moteur est capable d’interpréter et de
traduire cette demande en une équation spécifique.
7
organiser sa gestion documentaire
http://www.clever-age.com
L’analyse statistique
Dans le cadre d’une recherche, après une requête utilisateur, les résultats sont trop
désordonnés pour être exploitables ; ils ont tous un lien direct avec la question de
l’utilisateur mais ils ne sont pas classés. L’analyse statistique capitalise la pertinence des
réponses et les présente selon l’ordre le plus adéquat à la demande. Des calculs de
probabilité permettent de mieux comprendre les utilisateurs et de fixer progressivement
leurs intérêts propres, en gardant en mémoire ses recherches précalculées.
Le système mis en place doit être capable de prendre en compte la position hiérarchique
de chaque utilisateur : d’une part, celui-ci doit être guidé vers les documents qui sont le
plus en rapport avec son activité ; d’autre part, le système doit assurer la sécurité et la
confidentialité des résultats, selon unworkflow documentaire configurable et éprouvé.
L’analyse statistique est aussi capable de fournir aux utilisateurs une assistance visuelle
de recherche offrant tous les éléments d’aide à la prise de décision. Il peut s’agir de
plusieurs choses différentes et non incompatibles :
• des arbres de recherche classés par sujet, concept, auteur, date, type de documents,
etc. ;
• une adéquation entre l’utilisateur et le système (question/réponse pour éviter les
dialogues de sourds, en interrogeant l’utilisateur face à certains litiges, et en lui
suggérant des solutions de réponses cadrées dans son métier) ;
• des réseaux d’alertes automatiques et paramétrables afin de se tenir au courant des
évolutions de ses centres d’intérêt, sur tout un patrimoine documentaire et sur internet
(veille concurrentielle).
8
organiser sa gestion documentaire
http://www.clever-age.com
En ce qui concerne la présentation, le résultat final se solde par une liste d’éléments
renvoyés, à laquelle s’adjoignent de multiples services. L’interface la plus classique :
Pour permettre une plus grande souplesse de visualisation des objets trouvés, l’interface
doit :
Si une réponse est sélectionnée, le système doit fournir des outils pour consulter la partie
intéressante du document dans un format natif (xls, doc, pdf...) avec une mise en
évidence visuelle des éléments caractéristiques. Des raccourcis permettent d’exploiter
facilement l’information intéressante (impression, copier/coller, envoyer à quelqu’un,
9
organiser sa gestion documentaire
http://www.clever-age.com
etc.). L’ergonomie simple et soignée sera le reflet d’une meilleur prise en main du
système, pour toutes les cibles utilisatrices (accessibilité, simplicité, flexibilité).
Se munir d’un tel système au sein de son système d’information n’implique pas forcément
une remise en question de tous ses outils. Ce sont généralement des briques relativement
indépendantes et interchangeables ; et qui plus est quasiment transparentes pour les
usagers : tout au plus, une légère modification des interfaces peut se révéler nécessaire
afin d’incorporer les nouvelles fonctionnalités du moteur de recherche.
CONCLUSION
10