Beruflich Dokumente
Kultur Dokumente
Frantext agrgation (consultable par les agrgatifs aprs une demande d'abonnement
individualise)
Frantext Normale Sup (consultable par les agrgatifs aprs une demande d'abonnement
individualise)
Frantext Moyen Franais
Frantext Dmonstration (une slection de trente-cinq textes libres de droit, accs libre et gratuit).
Les utilisateurs dsireux de faire connaissance avec la base peuvent en tester les fonctionnalits
sur Frantext Dmonstration.
FRANTEXT
2
peut venir prendre le relais du droit d'auteur : ainsi, une dition des Penses de Pascal (1662) qui
aurait t refondue en 1994 par un diteur scientifique peut tre considre comme un texte sous
droits.
La liste des textes tlchargeables est disponible sur le portail du Centre National de Ressources
CNRTL (www.cnrtl.fr)
Non, s'ils sont sous droits d'auteur ou d'diteur. La base, en conformit avec la lgislation sur le
droit d'auteur, ne propose en lecture que des extraits des uvres (contextes de 350 signes
maximum pour les textes sous droit).
Pourquoi ne peut-on entrer dans Frantext sans abonnement ?
Parce que la base respecte le droit d'auteur, et que les diteurs ont souhait limiter son accs la
communaut scientifique. L'abonnement et le mot de passe ouvrent la base aux chercheurs,
enseignants, tudiants et institutions scientifiques. Il est noter que 250 bibliothques
universitaires dans le monde, dont la BnF, sont abonnes et offrent gratuitement la ressource
Frantext tous leurs utilisateurs, quel que soit leur statut.
Le programme de numrisation est encadr par une convention de partenariat entre le laboratoire
ATILF et le Syndicat National de l'dition.
Quelle diffrence entre Frantext et Google Livres, Gallica ou Gutenberg ?
Frantext propose des textes numriss en mode texte ce qui assure des possibilits de recherche
plus tendues (lemmes, expressions rgulires, tri de vocabulaire, calcul de frquences). L'essentiel
du corpus de Gallica et de Google Livres est propos en mode image ou en ocrisation
automatique.
Les ditions sont choisies sur critres scientifiques, et assorties de rfrences bibliographiques
prcises, qui permettent de localiser sans peine occurrences et citations, la page prs. Elles sont
traites sur la base d'un protocole, quipes de mtadonnes (informations sur l'auteur, l'dition),
et balises en XML, ce qui assure leur exportabilit (pour les textes libres de droits) et une haute
qualit de rendu par rapport l'original (restitution des fins de paragraphes, des attributs
typographiques).
Quels critres sont pris en compte dans une proposition d'enrichissement ?
Une proposition d'enrichissement peut-tre justifie par un projet scientifique
prcisncessitant la possibilit d'une fouille informatise. Voici quelques exemples de corpus qui
ont rejoint la base Frantext sur projet de recherche : les romans de Raymond Queneau, le cycle
duGrand incendie de Londres de Jacques Roubaud, 12 romans d'Alphonse Daudet, une srie de
journaux personnels du XXe sicle (Pozzi, Queneau, Groult, Havet, Huguenin), un ensemble de
100 textes autobiographiques postrieurs 1950.
Frantext, un outil sophistiqu
Frantext est quipe d'un moteur de recherches sophistiqu, qui permet d'extraire :
Des listes de vocabulaire tries, accompagnes de leur frquence
FRANTEXT
3
Des
formes ou
des lemmes, affichs
en
surbrillance
dans
leur
contexte
Exemple d'emploi en contexte de l'expression mode d'emploi dans La vie mode d'emploi.
un
&q(0,2)
homme
Cette expression de squence pourra trouver des contextes tels que un soit spar de homme par
zro, un ou deux mots, donc des contextes tels que un homme, un grand homme, un trs petit
homme
un
&?(&?trs
grand)
homme
recherchera les contextes un homme ou un grand homme ou un trs grand homme.
homme
^trs
grand
va chercher tous les contextes du genre homme XXX grand qui tels que XXX ne soit pas gal trs.
Des grammaires :
Ce sont des recherches combines qui permettent de trouver des sries d'lments. On peut
ainsi chercher tous les nombres (chiffres arabes, romains, lettres), toutes les expressions possibles
d'une date (21 septembre, aot 1789), des listes de vocabulaire relatives un thme, une isotopie
FRANTEXT
4
un
&e(g=A)
jeune
homme
va chercher tous les toutes les expressions o un adjectif apparat entre un et jeune homme : un
beau jeune homme, un charmant jeune homme.
&cparler
(d'|de)
&e(g=S)
les uns parlrent d'amaurose, ils parlrent de trahison, son pre lui parlait de ses cousins(Perec).
Le moteur de recherches de Frantext est intgr la base. Il est donc possible de faire ses requtes
directement, sans devoir recourir l'exportation et au retraitement via d'autres outils de fouille
lexicale. Un formulaire multicritres permet de surcrot un assemblage facile des corpus, qui
peuvent tre tris par auteur, date, genre, etc On peut ainsi facilement rechercher la totalit des
dates dans les textes autobiographiques crits entre 1950 et 1980, ou le lexique de la guerre dans le
thtre
franais
du
XVIIe
sicle.
NB : les textes libres de droit, les corpus d'exemples des textes sous droits, les listes de vocabulaire
peuvent tre exports et traits avec d'autres outils si l'utilisateur le souhaite.
Comment entre-t-on un ouvrage dans Frantext ?
Les ouvrages dont le laboratoire est propritaire sont massicots, ou photocopis si le papier
(Pliade, Quarto) est trop fin. Les ouvrages emprunts, rares ou fragiles, eux, sont photocopis
d'office,
ou
scanns
plat.
Les
liasses
sont
entres
dans
une
numriseuse.
Deux logiciels de numrisation diffrents sont mis en marche, et placent en surbrillance les points
de discordance, ensuite corrigs la main. Cette mthode assure un taux d'erreur infrieur une
erreur pour 13 000 caractres Une fois au format numrique, le texte est quip d'un certain
nombre de balises XML-TEI. Celles-ci, invisibles des utilisateurs, permettent de prserver les
attributs typographiques du texte (gras, soulignement), d'isoler des informations, et assurent sa
lisibilit ainsi que sa compatibilit avec d'autres plateformes ou d'autres outils de traitement
ventuels.
Ce fichier est ensuite install (" mont ") dans la base, et est interrogeable par le moteur de
recherche de Frantext.
Combien de temps faut-il ?
L'quipe en charge de la numrisation peut traiter une centaine d'ouvrages par an. Un nouveau
montage (qui doit donner lieu, chaque fois, rengociation avec les diteurs sur les titres
entrants) est effectu tous les six mois. C'est pourquoi il faut compter de six mois un an pour voir
un ouvrage entrer dans la base, et parfois plus, si la liste des ouvrages en attente est importante.
Ressources didactiques
Didacticiels
Plusieurs didacticiels ont t labors par des enseignants et chercheurs pour faciliter la prise en
main et l'utilisation de Frantext. Vous trouverez ici des liens sur ces ressources.
FRANTEXT
5
FRANTEXT
6