Sie sind auf Seite 1von 155

Analyse Lexicale avec Le Sphinx

Manuel d'utilisation

Copyright Sphinx Dveloppement 1986 2006. Tous droits rservs

Imprim le 12 Septembre 2006

Le Sphinx Dveloppement Parc Altas 74650 Chavanod Tlphone : 04 50 69 82 98 Fax : 04 50 69 82 78 e-mail : contact@lesphinx.eu Web : www.lesphinx.eu

Avant propos
Ce manuel accompagne la nouvelle version du Sphinx que vous venez d'acqurir : Le Sphinx V5. Nous vous en flicitons. Ce logiciel sappuie trs fortement sur les interfaces et les protocoles de Windows. Vous retrouverez ainsi les habitudes que vous avez dj acquises par lexprience de ce systme (gestion des fichiers, menus, dialogues, listes droulantes, raccourcis). Nous nous sommes efforcs de toujours respecter ces conventions bien tablies. Cest pour cela que vous parviendrez trs facilement lutiliser. Vous serez galement guid par votre connaissance du travail des enqutes, des tudes et de la statistique. Nous utilisons le langage de ces mtiers et avons structur le logiciel par rapport aux grandes tapes dune tude : questionnaire, saisie, dpouillement, analyse Notre souci constant est de faciliter votre comprhension devant lcran. A cette fin, de nombreux commentaires sont affichs pour vous aider vous situer et comprendre les menus, boutons de commande, options Pour les oprations les plus complexes, vous tes pris en charge par un assistant. Enfin, lorsque le sens dun article ou dun bouton vous chappe, il vous suffira dessayer pour comprendre trs vite son utilit. Pour toutes ces raisons, vous naurez aucune difficult vous servir de votre logiciel et peut-tre pourrez-vous mme vous passer du manuel. Mais vous risquez alors de le sous-utiliser ou de vous compliquer inutilement la vie. En effet, toutes les possibilits qu'il offre ne sont pas galement visibles ni toujours trs comprhensibles au premier abord et vous risquez de passer ct de fonctions trs utiles. Le premier objectif de ce manuel est de vous faire dcouvrir tout ce que vous pourrez faire avec le logiciel. A cette fin, il est organis en doubles pages dveloppant une tche, une fonction, un rsultat que vous pourrez entreprendre ou raliser. La partie de droite vous montre le logiciel, ses crans, ses menus, ses dialogues et les tats (tableaux, graphiques) quil permet de produire. La partie de gauche situe ce que fait le logiciel en terme de finalit, dutilit et de mthodes mises en uvre. Vous y trouverez galement une explication dtaille des modes opratoires. Si vous tes dj utilisateur du Sphinx, vous pourrez rapidement identifier les nombreuses nouveauts et vous retrouverez facilement vos habitudes. Si vous dcouvrez ce logiciel, vous comprendrez facilement son organisation et son systme de fonctionnement. La visite guide que nous vous proposons en tout dbut du manuel vous accompagnera dans vos premiers pas. En vous reportant ensuite au manuel vous apprendrez vous en servir compltement et deviendrez des experts. En vous souhaitant un bon travail. Yves Baulac, Jean Moscarola

La construction des lexiques.............. 14

Sommaire
Analyse des donnes qualitatives avec le Sphinx : les fondements ........... 5
1. Les tudes quali .................................. 6 2. Lacquisition des donnes textuelles ........ 2 3. Produire des extraits ou faire du verbatim .................................................... 3 4. Faire de lanalyse de contenu ................... 3 5. Analyse de donnes textuelles et approximation lexicale............................... 2 6. Privilgier une approche ou les combiner ? ................................................ 3

1. Caractres sparateurs et environnement ......................................... 15 2. Rechercher et marquer des lments dans le lexique ......................................... 17 3. Rduire les lexiques ................................ 19 4. Groupements automatiques .................... 21 5. La gestion des dictionnaires .................... 23 6. Les diffrents types de dictionnaires ....... 25 7. Analyse thmatique ................................. 27 8. Lexique des expressions** ........................ 2 9. Rechercher les segments rpts** .......... 4

Navigation lexicale et recherche de contexte ............................................. 7


1. Du lexique au corpus : la navigation lexicale ....................................................... 8 2. Situer un mot dans son contexte textuel ...................................................... 10 3. Les lexiques relatifs** .............................. 12 4. Production d'extraits ................................ 14 5. Rsum des diffrentes manires de produire des extraits ................................ 16

Le traitement simple des questions textes ..................................... 5


1. 2. 3. 4. Etudier les textes ....................................... 6 Faire du verbatim ...................................... 8 Tableau de rponses ouvertes ............... 10 Analyse de contenu simple, en cours de lecture ................................................ 12 5. Analyse de contenu avec code-book ...... 14

Analyse syntaxique et lemmatisation ....................................... 19


1. 2. 3. 4. La lemmatisation...................................... 20 Lancer la lemmatisation ........................... 22 Analyser un texte lemmatis ................... 24 Modifier le corpus .................................... 26

L'analyse lexicale en bref ...................... 2


1. Les interfaces ............................................ 3 2. Du texte aux formes graphiques lapproximation lexicale ............................. 1 3. Du texte aux structures linguistiques : la statistique lexicale ................................. 3 4. Latelier lexical en bref .............................. 5 5. Le panneau lexical : produire des lexiques ..................................................... 7 6. Le panneau lexical : segments rpts et lexiques relatifs ........................ 9 7. Le panneau lexical : du bilan aux rponses caractristiques ....................... 11

La statistique lexicale .......................... 29


1. 2. 3. 4. 5. Les indicateurs lexicaux .......................... 30 Bilan lexical .............................................. 32 Construire un tableau lexical ................... 34 Listes des mots spcifiques ..................... 36 Slections dans un tableau lexical ou dans des listes de mots spcifiques ........ 38 6. L'indice de spcificit ............................... 40 7. Comparer un lexique de rfrence ....... 42

Sphinx V5

Analyse des donnes qualitatives avec le Sphinx : les fondements

Codification automatique des textes..................................................... 45


1. Crer de nouvelles variables dorigine lexicale ...................................... 46 2. Codification lexicale ................................ 48 3. Mesures lexicales .................................... 50 4. Modification du contenu d'une variable texte ........................................... 52 5. Fractionner une variable texte ................ 54

Ouvrir un fichier de donnes textuelles .............................................. 57


1. Du corpus textuel la base de donnes .................................................. 58 2. Ouvrir un texte analyser ....................... 60 3. Texte balis ............................................... 1 4. Prparer et ouvrir un fichier d'entretiens semi-directifs ......................... 3 5. Texte annot ............................................. 5 6. Exemples de textes annots ..................... 7 7. Macro commandes pour la prparation des textes............................... 9

Etudes de cas ....................................... 11


1. Analyse des rclamations clients Marque Hextra ........................................ 12 2. Identification du territoire de communication dune marque ................. 14 3. Cas Ovale ........................................... 1 4. Le rve des Franais................................. 2 5. Les mots qui touchent : analyse textuelle des tubes de la chanson franaise. ................................................... 2

Bibliographie .......................................... 5

Analyse des donnes qualitatives avec le Sphinx : les fondements

Sphinx V5

Analyse des donnes qualitatives avec le Sphinx : les fondements

1. Les tudes quali


Les situations de recherche
Les tudes quali se dfinissent bien souvent par opposition aux tudes quanti . On indique ainsi que les informations tudies proviennent de sources multiples documents, crits ou discours et quelles sont analyses sans recourir au calcul. Comme nous le verrons cette simplification et abusive mme si elle dfinit assez bien les situations de recherche dans lesquelles on a recours aux approches qualitatives. Les enqutes : recueillir des informations nouvelles. Le qualitatif apparat avec la prsence de questions ouvertes dans les questionnaires. Celles-ci chappent aux analyses statistiques qui font lefficacit des dpouillements classiques et sont trop souvent tout simplement oublies au moment de lanalyse. Avec les guides dentretien, les interviews non directives, les entretiens de groupe, la conversation remplace le questionnaire. Le recueil des informations et leur analyse deviennent bien plus difficile (il faut enregistrer, retranscrire.) et implique tout un savoir faire bien spcifique. Il sagt l de privilgier lcoute plutt que le questionnement, la comprhension et lanalyse en profondeur plutt que le dnombrement. Les documents : exploiter les informations existantes Avant de lancer lenqute on a bien sr tudi la bibliographie sur le sujet et les documents qui peuvent nous renseigner. Comme le font les historiens la qute porte alors sur les traces qui renvoient au domaine tudi (documents juridiques, transactionnels, commerciaux, comptes rendus, annonces et communications de toute sorte). Linformation recueillie peut tre trs abondante et htrogne et pose les mmes difficults de comprhension et danalyse. Lvolution des technologies de linformation et Internet notamment, bouleverse laccs aux donnes que nous venons dvoquer. Les enqutes via le web simplifient considrablement la collecte des rponses aux questions ouvertes, les interviews par mail ou par dialogue lectronique (chat) offrent de nouvelles opportunits 6

Les bases de donnes bibliographiques, les moteurs de recherches permettent au chercheur de rcuprer trs facilement rfrences et publications. En gnralisant le format numrique les outils de traitement de texte rendent potentiellement accessibles toutes sortes de fichiers et archives lectroniques. Ces volutions mettent disposition du chercheur un matriau considrable et posent de nouveau problmes : comment traiter des informations dont labondance peut trs vite dcourager et dont la complexit pose des problmes spcifiques pour lesquelles la statistique noffre pas de rponse immdiate.

Les mthodes
Ceci nous conduit une autre caractristique des tudes quali . Le terme renvoie lapproche traditionnelle des textes par lecture et annotation sans autres instruments que le stylo le papier dans la tradition des tudes littraire et de la critique. Le travail du chercheur consiste rendre compte des textes tudis en citant des extraits et en produisant un nouveau texte comprhensif et dmonstratif dont, pour faire bref, la qualit ne tient quau talent de lecteur et dcrivain du chercheur. Avec lanalyse de contenu ou analyse thmatique, le classeur et le stylo de couleur sajoutent la panoplie des instruments de recherche. Le travail de lecture devient plus systmatique, le systme de comprhension sexplicite en une grille qui guide le classement des citations et le reprage par couleurs ou annotations des passages du texte. Cet effort de mthode dbouche naturellement sur le dnombrement des thmes, si on admet que la rptition ou la frquence peuvent galement faire sens et que largument du dcompte renforce la dmonstration. Lappellation quali voque ainsi le travail artisanal prudemment dmarqu des mthodes scientifiques et de la statistique, mais lapproche des textes a aussi de tout temps t marque par la fascination pour le chiffre ou le recours au comptage. Dans la tradition de la kabbale, de l exgse et dans le travail des moines copistes les chiffres et les nombres guident vers les significations caches ou permettent de contrler lexactitude des manuscrits. Des tudes sur la bible aux concordances de Saint Augustin le texte analys est mis en fragments puis en cartes perfores Les premires analyses par ordinateurs ont t effectues en

1945 par IBM qui pour reconstituer les concordances de Saint Augustin. Devenu donne textuelle, le texte chappe la tradition quali et se trouve aussi concern par les problmatiques quanti comme lont montrs des travaux sur ltude de lattribution des uvres littraires et lusage dj trs ancien des techniques informatique par les services de renseignements En banalisant ces mthodes et en les rendant accessibles, les volutions technologiques ajoutent lordinateur, le moteur de recherche et le logiciel danalyse de donnes textuelle la boite outil du chercheur.

tude de documents, ces corpus ont en commun dtre essentiellement forms de donnes textuelles. Elles ont la complexit et lambigut de la langue. Leur sens nest pas fix a priori comme cest le cas pour les donnes quanti pour lesquelles les units de mesures (variables numriques) et les tats observs (variables nominales) sont fixs par un accord tacite de comprhension entre le rpondant et lenquteur. La signification des donnes textuelles est dcouvrir dans le sens des mots des phrases et de lorganisation du discours. Chacun de ces niveaux (lexique, syntaxe, rhtorique) apporte une contribution au sens dgag par la lecture. Cette proprit justifie la mfiance de ceux qui pensent quon ne peut pas faire lconomie dune lecture humaine et quune machine ne peut pas comprendre un texte. Toutefois sans pour autant souscrire la prtention des tenants de lintelligence artificielle nous pouvons accepter que lordinateur et sa puissance de calcul apportent une aide pour lapproche des corpus textuels et notamment lorsque ceux-ci sont de trs grande taille.

La spcificit des donnes textuelles et les voies danalyse assiste par ordinateur.
Rponses aux questions ouvertes dans les enqutes, interviews ou entretiens de groupe, revue bibliographique,

Sphinx V5

Analyse des donnes qualitatives avec le Sphinx : les fondements

Nous montrerons dans ce qui suit que lordinateur peut tre utilis comme un auxiliaire pour rendre plus systmatique les approches classiques et augmenter la productivit du chercheur et la qualit de ses rsultats. - En effet, les fonctions de recherche peuvent considrablement acclrer le travail traditionnel ncessit par lusage de la citation ou la production de verbatim - Pour lanalyse de contenu, la construction dune grille thmatique et la codification du corpus peuvent se faire en utilisant les ressources de linformatique. Le travail de conception devient ainsi plus explicite et rigoureux et on gagne en souplesse et productivit pour la lecture et la codification Mais il peut aussi tre mis en uvre dune manire beaucoup plus automatique en fournissant, partir du reprage des formes graphiques qui composent le texte, des indications sur son contenu. - Lanalyse de contenu peut ainsi tre automatise en construisant les listes de mots ou dictionnaires correspondant aux diffrentes catgories de la grille thmatique. La frquence avec laquelle ces lments se trouvent dans le texte sert dindicateurs pour mesurer la prsence et lintensit de ces catgories. On peut parler ici de smiomtrie puisque lusage des dictionnaires permet de mesurer les significations ainsi repres dans le texte - Lanalyse lexicale offre une autre voie. Elle consiste, sans aucun a priori sur le texte utiliser la redondance des donnes de langue et la statistique pour substituer la lecture du texte celle dlments lexicaux qui en sont extraits : listes des mots les plus frquents (mots cls), cartes visualisant la manires dont les mots se trouvent associs (zones thmatiques) ou leffets des circonstances ou des contextes (mots spcifiques) Ces approches sont particulirement bien adaptes au traitement de trs gros corpus. Plus le corpus est volumineux, plus on gagne de temps et plus les rgularits et effets statistiques sont significatifs.

mais quel logiciel choisir ? Tout dpend du type danalyse envisage et de degr de spcialisation des fonctions proposes. On peut distinguer 3 grandes classes de logiciels - Les logiciels de recherche. Ils permettent de retrouver dans le texte des passages en fonction du contenu ou du contexte et mettent en uvre des procdures plus ou moins sophistiques pour produire du verbatim (Lexico, WordMapper, Diction, Sphinx Lexica) - Les logiciels danalyse thmatique et de contenu : ils aident au reprage, la codification et lorganisation des ides du texte, ainsi qu leur analyse et leur synthse (Nudist, Atlas ti, Modalisa, Sphinx Lexica) - Les logiciels danalyse de donnes textuelles : ils abordent le texte par le biais de la statistique (Spad T, Alceste, Hyperbase, Sphinx Lexica, ) Ces logiciels sont plus ou moins spcialiss sur leur fonction principale. Alceste par exemple est trs spcialis, Modalisa lest beaucoup moins. Dans ce qui suit nous nous rfrerons principalement Sphinx Lexica qui est un outil trs gnraliste bien qu premier abord il semble sadresser plus spcifiquement au traitement denqute. Quelque soit loutil, le chercheur a un rle essentiel. Cest lui qui pilote le logiciel et cest lui qui lance slectionne les citations et le verbatim, labore la grille thmatique lit et code le texte, cest enfin lui, qui seul est capable dinterprter et de donner sens aux rsultats des statistiques lexicales. Pour cela il lui faudra matriser le passage oblig de lacquisition des donnes et de lintgration du corpus dans le logiciel et selon ces choix produire du verbatim, mener une analyse thmatique de contenu, ou faire de lanalyse de donnes textuelles. Les techniques avec lesquelles il devra se familiariser reposent galement sur une bonne connaissance des proprits de la langue des textes et discours quelle permet de construire. Quelques connaissances utiles sur les proprits de la langue, des textes et des ides.

Outils et stratgies danalyse


Tout ceci ne peut bien sr se faire quavec laide de logiciels adapts. Loffre est dsormais assez abondante, 2

2. Lacquisition textuelles

des

donnes

respecter des rgles qui permettront lordinateur de les reconnatre et de les interprter. Si seul le texte des rponses a t saisi il suffit dajouter en dbut le nom de la premire interview puis celui de la deuxime et ainsi de suite pour reprer le passage dune interview lautre. On appelle ces indications des jalons.

La premire chose faire consiste mettre le texte sous une forme utilisable par le logiciel. Cela implique non seulement de lavoir sous une forme numrique en le saisissant dans un traitement de texte ou en le recopiant depuis Internet par, mais aussi le dcouper en distinguant les diffrents lments qui le composent, bref le mettre sous la forme dune table de donnes . Tout dpend alors des circonstances.

Les bases de donnes et lutilisation des balises


Le texte analyser peut galement provenir dune dune application informatique : logiciels de messagerie, banque documentaires dans ce cas les donnes sont structures par des balises : indications places au dbut de chaque lment qui dfinissent la nature du texte conscutif. Par exemple pour une base de donnes bibliographique : Titre : les Misrables Auteur : Victor Hugo Editeur : Hachette Rsum : Histoire de Jean Valjean et Cosette. Titre : les Sequestrs dAltona Auteur : Jean Paul Sartre Editeur : Seuil Rsum :

Les questionnaires
Sil sagt dtudier les rponses aux questions ouvertes dune enqute par questionnaire faite avec le logiciel, les texte est acquis au moment de la saisie des questionnaires pour le enqutes papier crayon ou directement entr par le rpondant lorsquil rpond une enqute internet.

Les interviews non directives


Pour les interviews non directives le travail est plus complexe car il faut dabord mettre le texte dans Sphinx. La mthode la plus simple consiste le retranscrire dans un questionnaire Sphinx compos des lments suivants : 1- Des questions didentit pour enregistrer le nom et les caractristiques de linterview 2- Une question pour noter le texte de la question et une autre pour le texte de la rponse Pour une interview on saisira ainsi autant dobservations que dchange question rponse auquel il a donn lieu. Il faudra en outre pour chaque nouveau couple rpter les questions didentit. Si les interviews ont dj t saisies dans un traitement de texte on importe directement dans Sphinx le fichier qui les contient. Ce travail ncessite le respect des consignes suivantes : 1/ le fichier importer doit tre enregistr au format texte. Les fichiers de Word ne sont reconnus que sils ont t enregistrs sous se format. 2/ afin de distinguer le texte des questions et des rponses et indiquer quand on passe dune interview une autre, il faut ajouter des repres dans le texte. Ces repres doivent

Analyse dune collection de documents quelconques


Cest le cas par exemple lorsque les donnes analyser sont composes darticles de presse ou dautre sources documentaires constituant le corpus de ltude. Cest lanalyste dajouter dans le fichier texte o il a rassembl tous ces lments les annotations qui permettront dindiquer quon passe dun article un autre ou dune source une autre. Lordinateur pourra alors construire une table dans laquelle sera note le nom de larticle ou de la source dune part et le contenu dautre part. Si les diffrents textes sont longs on peut en outre dcider de les fragments paragraphes ou phrases.

Analyse de sites web ou une page de liens


Le logiciel permet daspirer directement le contenu de sites ou de pages slectionnes par un moteur de recherche. Cette possibilit ne permet malheureusement pas daccder aux contenus des sites dynamiques. Dans ce cas il faut procder manuellement en parcourant le site et recopiant le texte dans un questionnaire conu cet effet.

Les 2 approches par le contexte et par le contenu peuvent bien sr tre combines pour restituer le texte par fragments relatifs aux diffrents angles de vue ou problmatiques de ltude.

4. Faire de lanalyse de contenu


Cette mthode consiste lire lensemble du corpus en reprant les thmes ou ides quil contient pour ensuite produire du verbatim par thmes et / ou mener une analyse statistique des thmes. Les tapes du travail sont les suivantes. Illustrons-les sur le cas de lanalyse des questions ouvertes dans les questionnaires. Dfinir la grille des thmes Elle organise la description des ides susceptibles dtre prsentes dans le texte. Par exemple pour analyser les rponses la question : Si vous gagniez au loto, que feriez vous ? on distingue : - les actions : consommer, investir, donner - les personnes concernes : moi, mes proches, les gens - la tonalit de la rponse : neutre, sceptique, humour. Ajouter au questionnaire les variables thmatiques Elles dcrivent les thmes et leurs catgories (modalits). Pour les implmenter, on va modifier le questionnaire et ajouter les questions correspondant la grille Crer le code-book Cest linterface dans laquelle les ides du texte seront codes. Elle se prsente comme un formulaire qui prsente la rponse texte analyser et les questions de la grille thmatique. On peut rajouter une nouvelle variable texte pour recopier les expressions savoureuses et les retrouver plus facilement.

3. Produire des extraits ou faire du verbatim


Faire du verbatim (ou des citations) est la mthode la plus utilise dans les tudes qualitatives. Ces citations peuvent tre choisies en lisant le texte ou slectionnes de manire systmatique selon le contexte ou selon le contenu.

Verbatim par contexte


Savoir qui dit quoi ou slectionner les citations selon les circonstances ou tout autre information contenue dans les rponses aux questions fermes. Ce type de slection peut tre plus ou moins complexes : on peut nutiliser quun seul critre, par exemple ce que disent les femmes ou en combiner plusieurs en sintressant aux femmes de moins de 30 ans et diplmes.. Dans les enqutes de satisfaction le contexte pertinent sera plutt tous ceux ou celles qui dclarent tre insatisfaits, lidentit apparaissant comme la signature de chaque citation

Verbatim selon le contenu


Slectionner les citations en fonction de ce qui est dit. Cette approche privilgie le contenu qui peut tre repr automatiquement par la prsence dans le texte dun ou plusieurs mots ou par un travail de codification pralable (voir analyse de contenu)

Sphinx V5

Analyse des donnes qualitatives avec le Sphinx : les fondements

Analyser la frquence des thmes et faire du verbatim Une fois toutes les rponses lues et codes, lanalyse sachve par ltude statistique des thmes et leur illustration par le verbatim qui leur correspond. Toutes les ressources statistiques sont alors disponibles pour confronter les thmes entre eux ou les croiser avec les autres variables de lenqute. Si la grille thmatique est pertinente les rsultats seront coup sr intressants.

Lide est simple : prendre connaissance du texte partir de des mots les plus frquemment utiliss. Linformatique et la statistique permettent de faire cela trs vite quelque soit la taille du corpus. Plus il est volumineux, meilleurs sont les rsultats. Il faut ensuite pouvoir se faire une ide du texte partir dune simple liste de mots classs par frquences dcroissantes et bien choisir cette liste. Lexemple ci-dessous donne les diffrents lexiques tirs de ltude sur le rve des franais.

5. Analyse de donnes textuelles et approximation lexicale


Cette approche simpose lorsque le corpus est trs volumineux. Elle permet de gagner beaucoup de temps mais requiert un savoir faire spcifique autant pour bien matriser les mthodes mises en uvre que pour en interprter les rsultats.

Approcher le texte par le lexique


2

Les mots outils sont rvlateurs de lnonciation, ici la frquence des je et j est vraiment remarquable. Il faut descendre plus bas pour trouver les premiers mots pleins, ou les supprimer (Lexique sans mots outils). La lemmatisation ramne chaque mot sa forme racine : linfinitif des verbes, le masculin singulier des noms et adjectifs. Enfin, prsenter le lexique par catgories grammaticales permet de focaliser lattention sur les objets (substantifs), les actions (verbes) et valuations (adjectifs). On peut enfin chercher grouper les termes du lexique en utilisant des dictionnaires de termes quivalents pour encore rduire la varit lexicale et mieux approcher les diffrentes ides du texte et leur importance.

Les segments rpts (squences de mots rpts lidentique) renvoient les rigidits du texte, les formules toutes faites ou la langue de bois. Il permettent aussi de soulever bien des ambiguts (arrter de travailler) et rvlent les leitmotivs du corpus.

Segments rpts et cartes dassociation lexicales


Les lexiques donnent trs rapidement un aperu du texte analys mais ils peuvent aussi conduire des interprtations errones. Il faut donc vrifier et resituer chaque mots dans son contexte en revenant au texte (verbatim) ou dune manire plus synthtique en cherchant les segments rpts et en produisant des cartes dassociations lexicales.

Les cartes dassociation lexicales


D'une manire moins rigide que les segments rpts la statistique des associations lexicales (via lanalyse factorielle des correspondances multiples) donne une ide de la propension associer les mots les uns aux autres ou au contraire ne pas les faire coexister dans une mme expression. Ainsi, la carte ci dessous laisse apparatre dans les constellations proches ou distinctes les rseaux smantiques, modles cognitifs ou configurations mentales qui dans leur rptition structurent le discours. Ici on peut opposer les vocations gnreuses droite, celles de l'utilitarisme gauche.... La lecture de ces cartes conduit identifier les thmatiques du corpus. Elles ont l'avantage d'tre produites sans biais cognitifs et de rduire trs significativement la masse d'information qui devient ainsi partageable.... et discutable.

listes peuvent tre cartographies pour mettre en vidence des zones de langages. Les jeunes se distinguent par un vocabulaire utilitariste (voiture, appartement, meuble) la diffrence des plus gs qui privilgient laide et le don.

Intensits lexicales et lexicomtrie


On peut aussi orienter la recherche par rapport ce quon pense trouver. Comme on le ferait en lisant tout le texte pour reprer les ides qui sy trouvent on confie cette tche lordinateur. Pour cela on dresse des listes de termes exprimant les ides que lon cherche reprer. Ces listes appeles dictionnaire permettent de calculer le nombre de fois o lun des termes se trouve dans la rponse analyse. Lintensit lexicale est calcule comme le rapport entre ce nombre et le nombre total de mots de la rponse. Le poids de lide correspondante est mesur par se rapport ou intensit lexicale. Cet usage de donnes lexicales pour mesurer limportance dune ide permet de parler de lexicomtrie. Ainsi, partir dune expression libre on mesure limportance des lments du modle pour ensuite poursuivre les analyses comme si ces mesures taient tablies en recueillant des opinions sur des chelles. Le calcul des intensits lexicales permet de mettre en vidence les diffrences de raction selon la catgorie de franais.

Influence des contextes : bilans lexicaux, tableaux croiss et vocabulaires spcifiques


Comment ont rpondu les diffrentes catgories de personnes interroges ? Cest ce que permet dtablir un bilan lexical du type de celui-ci : Le corpus est 56% form de rponses de femmes soit 9 857 mots sur un total de 17 743. Leurs rponses sont en moyennes plus longues que celle des hommes, mais la catgorie la plus prolixe est les commerants artisan. Les mots utiliss sont ils les mmes suivant lidentit de celui qui parle, les circonstances ou toute autre information qui situe le texte analys ? On peut le savoir en croisant par exemple les rponses une question ferme avec les mots les plus couramment utiliss. Les femmes sont proportionnellement plus nombreuses utiliser donner , les hommes se distinguent par lusage de travailler et investir Plus directement on peut slectionner la liste des mots sur reprsents dans telle ou telle catgorie et obtenir ainsi les mots spcifiques qui les caractrisent. Ces 2

Comment procder dans la partie classique de Sphinx ? Lemmatiser : Panneau de commande : Crer les variables lexicale ou dans lAtelier Bouton Lemmatiser. Calculer les lexiques : Panneau de commande ou dans latelier bouton Rduire Regrouper Supprimer pour agir sur les mots marqus dans le lexique. Segments rpts : Panneau de commande, ou dans latelier article Expression du menu Lexique puis bouton Segments Cartes dassociations lexicales. Dans latelier : 1/ Slectionner les mots considrs dans la fentre du lexique

2/ Crer une variable codant la prsence de ces mots : Recoder, Ferm sur les mots marqus du lexique. Nommer la nouvelle variable 3/ Lancer lanalyse factorielle des correspondances multiples partir de la variable qui vient dtre cre : Menu Approfondir (menus droulants du haut de lcran), Analyse factorielle des correspondances multiples. 4/ Pour construire une typologie des thmes : bouton Typologie et dfinir interactivement les classes Bilan lexicaux : Panneau de commande, Bilan par catgories ou tableau de bord en croisant une variable texte avec loption de calcul Nombre de mots avec une autre variable ferme. Choisir les indicateurs (moyenne, somme, part) dans longlet Tableau . Tableaux croiss lexicaux : Panneau de commande ou atelier lexical menu Vues, article Tableau lexical. Bouton Croiser pour slectionner la variable croiser avec le texte. Mots spcifiques : Panneau de commande ou dans latelier 1/ calculer la liste article Mots spcifiques du menu Vue puis bouton Croiser pour choisir la variable et Select. Pour fixer les seuils de spcificits et de frquence. 2/ produire la liste des rponses caractristiques de chaque catgorie (verbatim des rponses contenant le plus de mots spcifiques) : bouton Rponses caractristiques. Intensits lexicales. La dfinition des dictionnaires peut se faire dans un traitement de texte ou en slectionnant les mots dans latelier lexical. La procdure la plus rapide consiste utiliser une thmatique (ensemble de dictionnaires correspondant chacun un thme) : atelier lexical, bouton Recoder et Analyse thmatique. Slectionner les fichiers des dictionnaires ou ouvrir une thmatique existante puis Recoder. Pour chaque dictionnaire de la thmatique une variable numrique contenant lintensit lexicale de la rponse ou du fragment est cre. Ces variables peuvent tre utilises pour crer une typologie : Menu Approfondir, Classification automatique.

Comment procder dans les tableau de bord multimdia ? La lemmatisation et la dfinition des variables dorigine lexicales dont le calcul des intensits lexicale et le calcul des doivent se faire dans la partie classique et latelier lexical. Il en galement ainsi pour le calcul de mots spcifiques. Calcul des lexiques : Choisir loption Mise en classe des mots dans longlet Calcul. Le bouton Dictionnaire permet de supprimer les mots outils et, ou de restreindre le lexique une liste ou au contenu dun dictionnaire. Dans le mme onglet les articles du menu Simplifier permettent de contrler la longueur de la liste en fixant le nombre de lignes ou la frquence minimum. Tableau croiss et cartes lexicales. Une variable texte prsente comme un lexique (mise en classes des mots) peut tre croise avec nimporte quelle autre variable avec la possibilit dutiliser des reprsentations cartographies des tableaux croiss ainsi obtenus (Carte dans onglet Graphique ou raccourcis montrer la carte ). Ceci permet notamment de caractriser les rponses selon les diffrentes catgories de rpondant. Dans le tableau de groupe ci-dessus caractrisant les rponses par sexe et CSP, la variable texte et calcule selon loption Nombre de mots de longlet Calcul et dans longlet Tableau, moyenne somme et effectif ont t slectionns.

6. Privilgier une approche ou les combiner ?


Les approches que nous venons dvoquer sont trs diffrentes. Le verbatim est de loin la pratique la plus courante et la plus simple mettre en uvre. Lanalyse de contenu par recodification prsente lavantage de reposer sur une thmatique qui en ellemme est dj une contribution la comprhension du texte. La codification permet de prciser avec la rigueur de la statistique comment cette thmatique sapplique et de mettre en vidence les interdpendances entre thmes et de rechercher des explications contextuelles. 3

Sphinx V5

Analyse des donnes qualitatives avec le Sphinx : les fondements

Dautre par le vebatim associ chaque catgorie de codification permet dillustrer de manire concrte les ides gnrales et peut tre den affecter la comprhension en leur donnant plus de vigueur ou de pertinence. Cependant ces 2 mthodes souffrent galement de la subjectivit qui fatalement accompagne leur mise en uvre dans le choix final de telle ou telle citation et dans la dcision de coder de telle ou telle manire. Lusage des outils informatiques et statistiques permet de mieux contrler ces biais subjectifs grce la formalisation et aux possibilits de recoupement. Enfin malgr ses nombreux avantages lanalyse de contenu est trs consommatrice de temps et de ce fait trs coteuse pour lanalyse des gros corpus. Lanalyse des donnes textuelle offre une voie bien diffrente et beaucoup plus technique. Elle prsente lavantage dune relle objectivit dans la production de substituts lexicaux (listes, cartes). Bien que la subjectivit intervienne nouveau au moment de la lecture et de linterprtation elle bnficie ainsi dun crdit de scientificit que les autres approches nont pas. Dautre part, en dtournant le regard du sens de surface vers linterprtation des actes de langage (tout ce que le choix des mots rvle dans les rptitions ou les absences) ce procd cre les conditions dune distance critique et cratrice. Au risque bien sr dimportants contre sens dont il faut se prmunir par des prcautions lmentaires. - ces mthodes ne sont applicables que sur de trs gros corpus, l ou les grands nombre et la statistique peuvent lgitiment faire sens - un patient retour au texte reste absolument indispensable pour contrler les interprtations rapidement acquises par ces techniques. A nouveau le verbatim simpose - enfin certains aspects des contenus sont trs difficiles apprhender notamment pour tout ce qui concerne les valuations ou les jugements. Il est facile de voir quil est question de travail ou de prix mais beaucoup plus difficile dtablir si le travail ou les prix sont voqus positivement ou ngativement. Les formes lexicales de lvaluation et du jugement sont en effet trs varies et complexes apprhender (pas trop, trop, trop peu .). Lanalyse lexicale doit tre dconseille pour traiter les rponses ouvertes dans des enqutes sur un petit nombre de rpondants (moins de 200). Lanalyse de 4

contenu prendra moins de temps et les rsultats en seront coup sr probants. Il est en revanche des situations o seule, compte tenu du temps ou des budgets disponible, lanalyse des donnes textuelles est envisageable. Ctait par le exemple le cas pour lanalyse des 45000 pages du dbat national sur lavenir de lcole. Mais le plus souvent ces mthodes gagent tre mises en uvre de manire complmentaire. Dans un premier temps lanalyse lexicale utilise de manire exploratoire permet de rapidement prendre connaissance du corpus et dans les cas heureux de faire jaillir des pistes dinterprtation quon naurait peut tre jamais empruntes autrement. Cest ainsi que la thmatique mergente du texte peut tre complte par les problmatiques, modles et systmes dinterprtation gnraux qui permettront de construire ensuite une grille thmatique plus pertinente. Enfin le travail mthodique danalyse de contenu et de codage permettra si le corpus nest pas trop volumineux de rigoureusement catgoriser les ides prsentent dans le texte. Sinon il faudra lire le lexique pour le ventiler dans les dictionnaires qui permettront, par le calcul des intensits lexicales, dautomatiser le codage des ides prsentes dans le texte. Enfin, aprs lexpos des rsultats statistiques, le texte reprendra ses droits grce aux citations et verabtim qui ajouteront aux chiffres, le pouvoir du sens singulier des phrases ou des paroles.

Le traitement simple des questions textes

Sphinx V5

Le traitement simple des questions textes

1. Etudier les textes


Le Sphinx permet danalyser les textes des questions ouvertes. Lexica ajoute cette possibilit celle douvrir nimporte quel autre texte en offrant un stade supplmentaire Etudier des Textes (menu Stade). Intressons-nous ici au traitement des questions ouvertes. Il peut faire lobjet de 4 approches diffrentes : Le verbatim : extraire un sous-ensemble de rponses en fonction de leur contenu ou de leur contexte. La prsentation en tableau : dresser un tableau de frquence des rponses identiques et/ou des mots contenus dans les rponses en les croisant ventuellement avec une autre variable ferme. Lanalyse de contenu : lire et interprter les rponses pour les codifier dans une nouvelle variable. Lanalyse lexicale : mettre en uvre les techniques danalyse lexicale dans lenvironnement spcifique de latelier lexical (Plus et Lexica uniquement) ou en lanant les procdures standards de Lexica. Ces possibilits sont offertes partir de larticle Etudier les textes du menu Recoder ou en cliquant sur le bouton Etudier les textes apparaissant au bas de la fentre de dpouillement des questions textes (Dpouiller/ Dpouillement automatique).

Analyse de contenu
Dans cet environnement, on lit les rponses et on code leur contenu dans une nouvelle variable dcrivant les principaux thmes voqus dans les rponses. Cette thmatique peut tre enrichie en cours de lecture par lajout de nouvelles modalits. Ce travail est facilit par la possibilit de voir les rponses selon les mots quelles contiennent.

Procdure et atelier lexical


Plus et Lexica donnent accs un environnement spcifique aux fonctions avances danalyse lexicale.

Verbatim
Cette fonction permet de slectionner des extraits en fonction de leur contexte (selon les rponses une autre variable) ou de leur contenu (vocabulaire de la rponse). Ces extraits peuvent tre prsents sous forme de liste organise par catgories de rponses. Linclusion de ces extraits dans un rapport permet de rendre compte de lenqute par une illustration raisonne.

Tableaux de rponses
On peut prsenter les rponses dans des tableaux. Cette prsentation est bien adapte dans le cas de rponses trs rptitives quon pourra croiser avec dautres variables caractrisant les rpondants. On peut galement dresser le tableau des mots prsents dans les rponses et ainsi oprer une recodification automatique en fonction du vocabulaire. 6

Analyse de contenu : lire et interprter

Tableau de rponses et de mots : dnombrer, recoder, croiser

Verbatim : citer, extraire, illustrer

Sphinx V5

Le traitement simple des questions textes

Contrler les rsultats et les diter

2. Faire du verbatim
La manire la plus simple de traiter les questions ouvertes consiste restituer les rponses dans leur intgralit ou d'une manire raisonne en oprant des slections par rapport au contexte ou au contenu. On pourra produire des listes de rponses : classes selon l'identit des rpondants ; restreintes tel ou tel profil (les satisfaits, les mcontents...) ; contenant tel ou tel mot. Les tapes consistent choisir la variable, dfinir les conditions de l'extraction, et transfrer les citations ainsi obtenues.

Les rsultats de la recherche s'affichent dans une fentre. Le bouton Options permet si ncessaire de changer les conditions. Avec le bouton Transfrer, on peut Imprimer ou Inclure dans le rapport...

Produire des listes


L'article Produire des listes du menu Dpouiller offre une autre manire de faire du verbatim, mais dans cet environnement, on peut mettre dans les extraits le contenu de plusieurs variables en les prsentant sous des formats listes ou fiches (Voir Produire des listes).

Slectionner une variable texte


Allez pour cela dans la fonction Etudier les textes du menu Recoder. Choisissez votre variable. En slectionnant ensuite Extraits (Verbatim), vous obtenez un dialogue dans lequel vous pouvez fixer les conditions de recherche et de prsentation des extraits.

Prsenter les extraits en les classant


La case cocher Trier selon permet de choisir la variable par rapport laquelle on veut classer les citations. Dans lexemple propos ci-contre, on a choisi le Sexe. Les rponses des hommes seront dabord prsentes, puis ce sont celles des femmes.

Dfinir un profil de recherche


En cochant la case Rduire un profil, on peut fixer les conditions auxquelles doivent rpondre les extraits. En dfinissant une slection selon une ou plusieurs autres variables, on limite les extraits des conditions de contexte (identit, comportement, opinion...). On peut galement filtrer selon le contenu. On dfinit dans le profil la condition que la variable analyse contienne tel ou tel mot. On peut en numrer plusieurs. Ci-contre, on cherche les rponses contenant le mot amis (Plaisir de manger = amis).

Faire du Verbatim

Prsenter les rponses en les classant Slectionner les rponses en les limitant un profil

Slectionner selon le contexte Slectionner selon le contenu

Imprimer ou inclure dans le rapport

Sphinx V5

Le traitement simple des questions textes

Recoder une variable texte

3. Tableau de rponses ouvertes


La manire la plus simple et la plus rapide dtudier une question ouverte est den dresser la liste en regroupant les rponses identiques ou en dnombrant les mots quelle contient. On obtient des tableaux de ce type partir de Recoder / Etudier les textes ou en slectionnant une question ouverte dans le menu Analyser / Tableau plat. Dans le panneau lexical (Lexica uniquement), on accde aussi ce type de tableau par le bouton Tableau de fragments.

Tableau des rponses et tableau des mots


Le tableau dresse la liste des rponses en affichant les effectifs et les pourcentages de chaque lment. Les boutons Mots et Rponses permettent de passer de la liste des mots celle des rponses. Dans la liste des rponses, seules les rponses identiques sont dnombres. Dans la liste des mots, on dcompte le 1 nombre de fois o chaque mot apparat. Les mots outils sont systmatiquement ignors. Ces tableaux peuvent tre imprims, copis ou inclus dans un rapport (bouton Transfrer) de faon intgrale ou seulement pour les lignes slectionnes (clic). Le bouton Ordonner permet de changer la prsentation des lignes du tableau. Caractriser donne le dtail des effectifs composant chaque ligne. Il est particulirement intressant dans le cas des listes de mots.

On peut crer une nouvelle variable dfinie partir des lments slectionns dans la liste des mots. Le bouton Recoder propose les choix suivants pour la nouvelle variable : Ferme : les modalits de la nouvelle variable indiquent la prsence ou labsence des mots slectionns dans la rponse. Ouverte numrique : la nouvelle variable enregistre le nombre de mots slectionns dans la rponse. Elle les dnombre tous si aucun nest slectionn. On obtient alors la longueur de la rponse (sans les mots outils). Cest un indicateur trs utile. Ouverte texte : la nouvelle variable est une variable texte dont les lments sont rduits aux mots slectionns dans la liste. On fabrique ainsi des textes expurgs ou rduits des squences remarquables.

Analyser un tableau de textes


Le bouton Analyser renvoie lenvironnement danalyse des tableaux plat ou croiss. On accde ainsi aux fonctions graphiques et statistiques classiques. On revient avec le bouton Liste.

Analyser selon le contexte


Le bouton Croiser permet dtudier les rponses aux questions ouvertes selon leur contexte : qui dit quoi ? Il suffit de choisir la variable selon laquelle on veut ventiler les rponses ou le vocabulaire. On revient la liste non ventile en dcochant la case Croiser le tableau avec la variable accessible dans le bouton Croiser.

Ces mots sont dfinis par le dictionnaire des mots outils prsent dans le rpertoire dictionnaires motoutils.dic .

10

Produire la liste des rponses

Produire la liste des mots

Croiser

Slectionner

Analyser

Recoder

Sphinx V5

Le traitement simple des questions textes

11

La codification

4. Analyse de contenu simple, en cours de lecture


Lanalyse de contenu est un travail long qui peut tre fastidieux. Lenvironnement de travail propos permet de le rendre plus facile et plus rapide. Les thmes peuvent tre enrichis en cours danalyse par lajout de modalits, par la possibilit de passer dune rponse lautre en fonction de son contenu (navigation lexicale), et par laffichage du contenu dautres questions pour amliorer la qualit de la lecture.

On code le contenu de la rponse en cours danalyse en cochant la case correspondante ou en slectionnant une ou plusieurs modalits dans la liste droulante. Si vous avez plus de 10 modalits, les boutons Listes et Boutons vous permettent de choisir le mode daffichage qui vous convient le mieux. Le passage la rponse suivante (flches de navigation ou retour chariot) valide les rponses pralablement recodes. Le bouton Revenir vous ramne ltat initial de la variable (avant validation de la dernire rponse).

Reprendre un travail en cours ou crer une nouvelle variable


Aprs avoir slectionn Analyse de contenu dans larticle Etudier les textes du menu Recoder, on choisit de reprendre un travail en cours en slectionnant la variable dans laquelle on a commenc la codification. Si vous commencez votre recodage, il faut dfinir la variable dans laquelle vous souhaitez coder le contenu : une variable dont vous choisissez le type. Il sagit le plus souvent dune variable ferme dont les modalits se rapportent aux thmes les plus frquents, mais elle peut tre aussi code si on dispose dun thsaurus ou dun dictionnaire de thmes, ou de type numrique pour donner une note la rponse.

Lexique et navigation lexicale


Vous pouvez faire apparatre la liste de tous les mots (lexique) contenus dans la variable analyse en dplaant la sparation des deux parties de votre cran sur la droite. En slectionnant un ou plusieurs mots dans cette liste, vous pourrez, avec les flches de navigation, passer en revue les rponses contenant ces mots. Si vous cherchez un mot particulier, tapez-le rapidement au clavier, le curseur du lexique se positionnera dessus. Vous pouvez galement limiter la navigation certains types de rponses en dfinissant leur profil (vous accdez ce dialogue avec le bouton N situ en bas gauche de la fentre danalyse de contenu).

Elaborer la grille thmatique et coder les rponses


Dans le cas de la codification dans une variable ferme, le bouton Changer les modalits permet de modifier la liste des thmes en nommant les modalits, en crant de nouveaux thmes ou en rorganisant leur liste (Ajouter, Supprimer, Monter, Descendre dans la liste des modalits), et ceci tout moment. Si on dispose dune thmatique dj dfinie et trs longue, on a tout intrt la rentrer dans un dictionnaire de codes ventuellement structur. En associant cette liste une variable code, on gagnera beaucoup de temps.

12

Reprendre un travail en cours Crer une nouvelle variable

Tirer pour agrandir ou rduire la fentre

Illustrer par une autre variable Tirer pour cacher ou montrer le lexique

Rponses en liste

Naviguer entre des rponses

Sphinx V5

Le traitement simple des questions textes

13

5. Analyse de contenu avec codebook


Celle-ci doit seffectuer dans lenvironnement multimdia du Sphinx. Il sagit de crer plusieurs questions pour recoder les rponses sur plusieurs dimensions : le thme, le sous-thme, la tonalit, les acteurs voqus par exemple On peut galement prvoir une nouvelle question texte pour y recopier les "perles" ou les rponses particulirement intressantes. On commence par la cration de nouvelles questions dans llaboration du questionnaire. On prpare ensuite un environnement personnalis danalyse de contenu dans les formulaires multimdia. Lanalyse de contenu seffectue depuis le menu Consulter/Modifier de l'environnement multimdia.

14

Sphinx V5

Le traitement simple des questions textes

15

L'analyse lexicale en bref

Le panneau de commandes lexicales

1. Les interfaces
Pour aller plus loin dans lanalyse lexicale, Plus et Lexica donnent accs un environnement spcifique : latelier lexical (Etudier les textes / Atelier lexical / Panneau de commandes). Celui-ci permet de : Calculer diffrentes formes de lexiques (rduits, regroups par racine, relatifs un dictionnaire.) ; Slectionner des mots pour retrouver toutes les rponses qui les contiennent, produire des extraits ou des associations de termes ; Reprer les expressions du texte et les segments rpts ; Produire des tableaux lexicaux, des listes de mots spcifiques (relatifs aux modalits dune autre variable), et des rponses caractristiques ; Transformer une variable texte en produisant un nouveau texte expurg, fragment ou lemmatis ; Coder automatiquement le texte en fonction de son contenu lexical. Toutes ces fonctions dotent le Sphinx Lexica dun trs puissant outil danalyse. Pour en simplifier lusage, quelques procdures standards ont t isoles. On peut les lancer partir du panneau lexical disponible partir du stade Etudier des Textes ou partir de la fonction Etudier les textes. On obtient ainsi directement les rsultats attendus sans avoir en spcifier la procdure dans latelier lexical. Nanmoins, celui-ci sera trs utile pour affiner les rsultats et raliser les oprations plus complexes quil autorise.

Ltude des textes fait lobjet de procdures mettant en uvre des commandes complexes qui ont t en partie automatises et que lon peut ainsi directement excuter sans passer par latelier lexical : la production de diffrentes formes de lexiques 2 3 (rduits, lemmatiss , stemmatiss selon la forme grammaticale), la recherche dassociations lexicales (segments rpts, lexiques relatifs, cooccurrences). la mise en vidence des effets de contexte (indicateurs dnonciation, tableaux lexicaux, listes de mots spcifiques, rponses caractristiques). Enfin, ce panneau permet douvrir nimporte quel texte prsent sous forme de fichier texte.

Latelier lexical
Cet cran est compos de 4 grandes parties : A droite : une fentre prsente diffrentes vues du corpus ; A gauche : on peut voir le lexique des mots ou des expressions. En cliquant dans le lexique, on fait dfiler les contenus correspondants dans la fentre de droite (navigation lexicale). Le bandeau du haut contient un ensemble de boutons de commande contrlant le calcul et la prsentation du lexique, la mise en forme du corpus, sa prsentation, et sa codification dans de nouvelles variables. Les indications du bas de lcran donnent des statistiques gnrales sur le texte tudi. Sphinx V5

2 chaque forme est ramene sa racine grammaticale (infinitif, singulier) 3 chaque forme est ramene ses x premiers caractres

L'analyse lexicale en bref

2. Du texte aux formes graphiques - lapproximation lexicale


Lanalyse lexicale ignore la syntaxe de la phrase et donne la priorit aux mots. Linformatique permet en effet trs facilement de dresser la liste des formes graphiques contenues dans un texte et den faire la statistique. Cest ce quon appelle extraire le lexique du texte. Une forme graphique est une suite de caractres ne comportant pas de sparateurs (blanc, apostrophe, caractres de ponctuation). Dans ce qui suit, on utilisera lappellation mot, en lappliquant en fait la ralit dune forme graphique. En assimilant ainsi les mots aux formes graphiques, on peut donner une approximation utile du contenu du texte par le seul examen des formes les plus frquentes. Comme on le fait en survolant le lexique dun livre pour avoir une ide de son contenu. Cette assimilation peut tre trompeuse du fait des polysmies (la forme avions dans la phrase Nous avions de beaux avions) et des significations composes (pas mal = bien). Lanalyse lexicale repose ainsi sur une approximation, source derreurs, quon cherche compenser par : Un retour ais au texte grce la navigation lexicale qui permet de situer le mot dans son contexte. La phrase est le contexte le plus naturel et nous verrons plus loin comment jouer sur ltendue de ce contexte. La recherche des segments rpts pour restituer les locutions et les expressions rptes dont chaque lment pris isolment peut induire un contre sens comme par exemple le trop de trop cher, le beau de pas beau... Une intelligence artificielle du texte consistant, par le procd de lanalyse syntaxique automatique, soulever lambigut des formes graphiques. Dans lexemple cidessus, en reprant la fonction de verbe de la premire forme avions, on distingue les significations avoir et aroplane. Cest ce quon appelle la lemmatisation. A linverse, les synonymes (mots diffrents ayant la mme signification) ou les mots composs, peuvent tre grs par des dictionnaires de mots quivalents ou dexpressions.

En combinant ces diffrentes fonctions, le Sphinx autorise une approche rapide des textes : Calcul du lexique pour comprimer le texte ; Navigation lexicale pour revenir au texte ; Dictionnaires, segments rpts, et lemmatisation pour une intelligence du texte. On peut ainsi rduire leffort de lecture en produisant un matriau moins volumineux que le texte initial. Mais ce nest l quune manire dapprocher son contenu. On y trouvera un gain de temps qui peut tre considrable et une prise de distance que la lecture naturelle interdit.

Lapproximation lexicale sommaire : Rduire le texte au dbut du lexique : lexamen des mots les plus frquents donne une ide du contenu.

Corpus texte

Lexique

Calculer le lexique

Corpus texte
Lapproximation lexicale contrle : Rduire le texte son lexique et contrler par la navigation lexicale le bien fond des interprtations faites partir du lexique.

Interpreter

Navigation lexicale Lexique

Verbatim

Lapproximation lexicale slective : Travailler sur un lexique rduit aprs avoir limin les mots outils et solidaris les segments. Concentrer lattention sur lexamen des noms, verbes, adjectifs (utilisation de dictionnaires et de la lemmatisation).

Corpus texte

Slectionner

Lemmatisation

Segments rpts

Corpus texte lemmatis et solidaris

Dictionnaire

Navigation lexicale

Verbatim

Lexique rduit et structur

Nouvelle vision du texte

Intgration de l'analyse de donnes

3. Du texte aux structures linguistiques : la statistique lexicale


La statistique lexicale et lanalyse des donnes textuelles permettent daller plus loin que la simple approximation dduite de lexamen du lexique ou de ses drivs. En dnombrant les associations de termes entre eux ou avec dautres variables, on est conduit un autre type de lecture totalement objective et susceptible de rvler les structures que la quantification du texte peut mettre jour. On peut ainsi transformer le texte en le dcrivant par des variables statistiques classiques (codification automatique, mesures lexicales...) ou en le recomposant sous forme de nouveaux textes (textes expurgs, rduits leurs formes lemmatises...). Latelier lexical offre cet gard de nombreuses possibilits pour mettre jour les particularits lexicales des textes tudis et prolonger leur analyse en utilisant toutes les techniques danalyse de donnes du Sphinx.

Appliquer les mthodes de lanalyse multivarie sur des variables dorigine lexicale considres entre elles ou en relation avec dautres variables de contexte. En intgrant ainsi lanalyse de donnes classiques avec lanalyse des donnes textuelles, on peut mettre jour les structures internes des textes tudis (analyse des co-occurrences) ou leur dpendance par rapport des donnes de contexte (analyse des spcificits).

Recherche des spcificits lexicales


Etablir la statistique des mots du texte selon une variable externe non textuelle. Rechercher les spcificits lexicales selon ces contextes, et les visualiser sous forme de cartes cognitives. Produire les phrases les plus caractristiques de chaque contexte.

Codification et mesures lexicales


Dcrire le texte par une ou plusieurs variables nominales codant la prsence, dans les rponses, dun ensemble de mots slectionns dans le lexique. Cette codification peut tre enrichie de toutes les possibilits offertes par lusage de dictionnaires thmatiques, la lemmatisation, la recherche des segments rpts Caractriser lnonciation (longueurs de rponses, de phrases, frquence dusage des embrayeurs...) ou les noncs (intensits lexicales de termes ou champs smantiques...) en crant de nouvelles variables numriques pondrant, pour chaque fragment, limportance de tel ou tel trait linguistique ou smantique...

Sphinx V5

L'analyse lexicale en bref

Corpus texte

Lemmatisation Variable de contexte

Segments rpts

Corpus texte lemmatis et solidaris Dictionnaire Navigation lexicale

Mettre jour les structures linguistiques

Lexique rduit et structur Tableau lexical

Listes demots spcifiques Structures Stat. Phrases caractristiques

Corpus texte

Lemmatisation

Segments rpts

Variable de contexte

Corpus texte lemmatis et solidaris Dictionnaire Navigation lexicale

Verbatim

Intgrer les mthodes

Lexique rduit et structur Variables fermes sur les mots du lexique Mesures lexicales : intensits banalits Structures Stat.

Statistiques lexicales

4. Latelier lexical en bref


On accde latelier lexical partir du panneau lexical ou par larticle Etudier des textes du menu Recoder. Cet cran concentre lensemble des outils proposs par le Sphinx. Il permet deffectuer 4 grands types de tches appliques au corpus de la variable slectionne : produire des lexiques, naviguer entre le lexique et le corpus, tablir des statistiques, transformer le texte et crer de nouvelles variables.

Les caractristiques statistiques du corpus du lexique et de chaque observation / fragment sont affiches sous les fentres correspondantes (taille, richesse, longueur moyenne, banalit, % de lecture). Avec le bouton Compter, on choisit les indicateurs statistiques du lexique. Comparer permet de le confronter un lexique de rfrence. Dans le menu droulant Vues (Lexica uniquement), les articles Bilan lexical, Tableau lexical et Mots spcifiques donnent accs aux statistiques rsultant du croisement avec une autre variable.

Production de lexiques
Le lexique des mots ou liste des formes graphiques saffiche dans la fentre de gauche. Il dpend des caractres sparateurs retenus (bouton Apparier). Son contenu et sa prsentation sont affects par les boutons Supprimer, Rduire, Regrouper, Compter et Classer. On peut ainsi liminer ou regrouper des lments et choisir lordre de leur prsentation ainsi que les indicateurs statistiques les caractrisant (nombre doccurrences ou nombre de rponses / fragments concerns). Le lexique des expressions (Lexica uniquement) prend la place du lexique des mots. On slectionne pour cela Expressions dans le menu droulant Lexique. Dans la fentre qui apparat, on peut chercher les locutions et les segments rpts.

Transformation du texte et cration de nouvelles variables


Les boutons Modifier et Remplacer permettent deffectuer directement des transformations dans le texte du corpus. Avec Lemmatiser, on peut crer une nouvelle variable dans laquelle chaque mot est remplac par sa forme racine. Recoder donne accs aux nombreuses possibilits de cration de nouvelles variables : nominales, numriques, textes.

La barre d'outils
Toutes les fonctions qui viennent rapidement d'tre voques se lancent partir de la barre d'outils. Les fonctions suivantes ne sont disponibles que dans Lexica : rechercher des expressions et des segments rpts, analyser l'environnement d'un mot, construire des bilans, des tableaux lexicaux ou des listes de mots spcifiques, lemmatiser.

Navigation lexicale
La navigation lexicale permet de faire apparatre, dans la fentre du corpus, les fragments de texte contenant les mots marqus dans le lexique. On passe dun fragment lautre avec les flches situes sous la fentre droite. Les rgles de navigation peuvent tre modifies par le menu droulant Aller . Un double clic dans la fentre du lexique fait apparatre le contexte du mot slectionn (concordances ou lexiques relatifs). Ltendue du contexte est paramtrable avec le bouton Apparier. On revient par la touche Esc. Le bouton Marquer permet de slectionner des lments du lexique selon leurs proprits, et les boutons 0 <> @ servent annuler la slection, linverser ou tout slectionner. Grce au bouton Illustrer, on fait apparatre une autre variable illustrative dans la fentre du corpus. Sphinx V5

Revenir l'atelier lexical ou le quitter


La touche Esc permet de revenir l'cran principal de l'atelier ou d'en sortir.

Le panneau de commandes lexicales**


Les procdures de recherche les plus courantes ont t automatises et sont accessibles depuis le panneau de commandes lexicales. On peut ainsi rapidement tablir des rsultats qui seront ensuite affins dans l'atelier.

L'analyse lexicale en bref

Latelier lexical

Lexique

Corpus

Statistiques lexicales

Barre doutils de Plus

Verbes, Noms, Adjectifs

5. Le panneau lexical : produire des lexiques


Une manire rapide de prendre connaissance dun corpus consiste dresser la liste des mots quil contient. La procdure Lexiques du panneau lexical permet daller plus loin que les tableaux de rponses ouvertes.

En dressant la liste des verbes, noms, adjectifs, vous dsignez les actions, les objets et les valuations du discours. Vous pouvez y ajouter la liste des noms propres et des mots grammaticaux Cette liste est construite partir dune forme du texte o les statuts grammaticaux sont reprs (Nom_LC).

Poursuivre dans latelier lexical


Vous pouvez sortir les rsultats avec le bouton Transfrer, mais vous pouvez aussi enrichir vos rsultats dans latelier lexical en oprant des regroupements manuels ou des regroupements par dictionnaires (Regrouper) sur le texte original ou sur ses formes lemmatises (Nom_L et Nom_LC).

Formes graphiques et mots


La machine peut identifier les formes graphiques composant votre texte : suite de caractres sans blanc ou signes de ponctuation. Malheureusement, un mot se prsente en gnral sous diffrentes formes graphiques (singulier, pluriel, flexion des verbes), ce qui rduit la qualit des listes construites sur le seul reprage de ces formes. Pour surmonter cet inconvnient, le Sphinx peut faire une analyse syntaxique et remplacer chaque forme par son lemme (masculin singulier pour les noms et adjectifs, infinitif pour les verbes). Vous avez galement la possibilit de regrouper les mots construits sur la mme racine (suite des x premires lettres). Bien quapproximatif, ce procd permet de regrouper dans un mme item diffrentes formes exprimant la mme ide (#famil pour famille, familier, familial).

Slectionner un type de lexique


Cliquez sur Lexiques, un dialogue vous propose de construire la liste des formes graphiques qui composent votre texte en appliquant les options suivantes : Ignorer les mots outils : ces mots sont pauvres pour qualifier lnonc mais ils peuvent tre rvlateurs de lnonciation. Ignorer les nombres. Regrouper par racine : on indique le nombre de lettres dfinissant la racine. Les mots commenant ainsi seront regroups. Utiliser le lexique lemmatis : le lexique est dress partir dune forme lemmatise du texte. Lanalyse syntaxique est lance automatiquement et une nouvelle variable (Nom_L) est cre. Vous pourrez alors lutiliser tout moment pour la suite de vos analyses. Nombre maximum et Frquence minimale permettent de limiter la longueur de la liste. Sphinx V5 L'analyse lexicale en bref 7

Calculer les lexiques

Lexique rduit

Lexique des racines

Lexique lemmatis

Trouver les formes grammaticales

6. Le panneau lexical : segments rpts et lexiques relatifs


Trouver les segments rpts
On appelle Segment rpt toute squence de formes graphiques rptes lidentique dans le texte. Ils rvlent les expressions, les formules toutes faites, la langue de bois. En les recherchant dans le texte lemmatis, on fait ressortir encore plus fortement les rptitions et les leitmotivs. En cliquant sur le bouton Segments rpts, vous avez le choix de lancer la recherche sur le texte original ou sur le texte lemmatis (Utiliser le texte lemmatis), sur le texte qui contient ou non les mots outils (Ignorer les mots outils). Vous pouvez enfin limiter la recherche aux segments dune frquence minimale. La liste des segments apparat dans une fentre que vous pouvez imprimer ou inclure dans votre rapport (Bouton Transfrer). Vous pouvez affiner vos recherches dans latelier lexical (Vue Expressions, bouton Segments). Vous pourrez ainsi limiter la recherche aux segments contenant des mots choisis par vous ou appliquer la recherche sur des formes modifies du texte.

Avec Lexiques relatifs, vous entrez le mot que vous voulez tudier puis slectionnez : Lexiques relatifs pour voir la frquence des termes gauche et droite du mot recherch (mot pivot) ; Concordance pour obtenir tous les passages contenant le mot. Les rsultats de la recherche apparaissent dans une fentre qui vous donne accs des options permettant daffiner les rsultats : enlever les mots outils (Rduire), modifier la dfinition de lenvironnement du mot (rponse, phrase, groupe) avec le bouton Apparier.

Les mots dans leur contexte


Le lexique sort le vocabulaire de son contexte. Afin de prciser le sens des mots, vous pouvez produire la liste des phrases ou rponses dans lesquelles ils sont employs. Ces listes peuvent tre longues, les lexiques relatifs donnant la frquence des mots avec lesquels le mot tudi est utilis. Elles font ressortir bien plus rapidement le contexte en donnant des indications trs prcises (frquence dutilisation gauche et droite).

Sphinx V5

L'analyse lexicale en bref

Segments rpts

Lexiques relatifs et concordances

10

7. Le panneau lexical : du bilan aux rponses caractristiques


Vous pouvez apprcier linfluence des locuteurs en mettant en vidence les diffrences qui caractrisent leur texte. Cest lobjet des bilans lexicaux, des tableaux de caractristiques, des listes de mots spcifiques et des rponses caractristiques.

Choisissez dabord une variable de contexte puis le bouton Restrictions vous permettra de fixer les conditions de recherche : se limiter aux mots exclusifs ou aux mots communs (Inclure les mots exclusifs, Inclure les mots communs toutes les catgories, Inclure les mots communs certaines catgories). Pour filtrer les mots selon leur spcificit, on coche la case Seuil de spcificit en donnant une valeur au seuil. Ne cocher Positive que pour limiter la liste aux mots surreprsents. Vous pouvez enfin vous limiter aux n mots les plus spcifiques par catgorie en cochant Limiter . Le rsultat dresse, par catgorie, la liste des mots rpondant aux conditions. Ils sont classs par ordre de spcificit ou de frquence. En regard apparat la frquence et/ou lindice de spcificit. Ces options sont modifiables dans latelier : Compter (faire afficher ou non la frquence et lindice) et Classer (dfinir lordre des listes).

Bilan lexical
Le bilan lexical rassemble les principaux indicateurs caractristiques de lnonciation : nombre de mots, longueur des fragments, richesse lexicale, spcialisation lexicale Ces indicateurs sont calculs pour les modalits dune variable et permettent ainsi de comparer diffrents locuteurs. La production du bilan est automatique : vous navez qu indiquer la variable selon laquelle vous voulez ltablir.

Rponses caractristiques
Cette fonction repose sur la slection de mots spcifiques mais donne comme rsultat une liste de rponses slectionnes en fonction du nombre de mots spcifiques quelles contiennent et de leur indice de spcificit moyen.

Tableaux lexicaux
Un tableau lexical ventile lutilisation des mots selon les modalits dune variable de contexte. Vous avez galement la possibilit de limiter la liste aux mots exclusifs, aux mots communs ou aux mots sur-reprsents ou sousreprsents dans chaque catgorie. A cet effet, choisissez dans le dialogue les mots que vous souhaitez inclure dans la liste : Inclure les mots exclusifs dune catgorie, Inclure les mots communs plusieurs catgories Vous pouvez enfin limiter le tableau aux mots ayant des effectifs minimums (Seuil de frquence).

Mots spcifiques
Un mot est spcifique dune catgorie sil est surreprsent dans cette catgorie. On utilise le rapport des frquences (observes / thoriques) comme indicateur de spcificit. Le mot est dautant plus sur-reprsent (resp. sous-reprsent) que ce rapport est suprieur (resp. infrieur) 1. Il est infini pour les mots exclusifs quon repre avec une toile.

Sphinx V5

L'analyse lexicale en bref

11

Variable de contexte

Bilan lexical

Conditions spcifiques

Tableau lexical

Mots spcifiques

Rponses caractristiques

12

Sphinx V5

L'analyse lexicale en bref

13

La construction des lexiques

14

1. Caractres sparateurs et environnement


Pour identifier les diffrents lments composant un champ textuel, on dfinit des caractres sparateurs. Les sparateurs de fragments ou dobservations sont dfinis au moment de lintgration dun fichier de donnes (Voir Ouvrir un fichier de donnes textuelles). Les sparateurs de formes graphiques permettent disoler les mots. Le blanc est le sparateur naturel mais on peut en retenir dautres ( ()..). Les sparateurs de phrases ou de tout autre groupe permettant de dfinir un sous-ensemble signifiant (proposition, unit de signification...).

Choisir les rgles de construction du lexique


En cochant les cases Diffrencier les majuscules ou Diffrencier les lettres accentues, on considre Maison ou maison et lve ou lev comme des formes graphiques diffrentes ou non. En jouant sur les sparateurs de mots, on fait apparatre grand-pre comme un seul mot ou comme 2 mots diffrents. Pour supprimer ou rajouter des sparateurs, il suffit daller crire dans la bote correspondante. Si la saisie, on a utilis le caractre _ comme liaison pour les mots composs sans tiret. On crira ainsi pomme_de_terre. Mais pour que ce procd fonctionne bien, il faudra vrifier que le caractre '_' nest pas considr comme un sparateur (ce qui est le cas par dfaut).

Apparier
La dfinition de ces sparateurs conditionne la construction du lexique et la recherche de lenvironnement dun mot (concordances, lexiques relatifs). On peut modifier ces paramtres dans un dialogue ouvert par le bouton Apparier. Celui-ci permet de modifier les sparateurs de mots (formes graphiques), groupes ou phrases, de fixer les rgles suivre pour traiter les accents et majuscules et grer les expressions formes de mots composs. Enfin, il permet de fixer lenvironnement prendre en considration pour examiner le contexte dun mot. On change les sparateurs en les frappant au clavier dans la zone qui leur est rserve. Les modifications introduites avec Apparier sont conserves la prochaine ouverture du logiciel, nanmoins le bouton Restaurer permet de rtablir les solutions par dfaut les plus courantes.

Options pour la recherche des expressions


Si la case cocher Composes de mots entiers n'est pas coche, les squences recherches peuvent inclure des fragments de mots conscutifs. Si la case cocher Diffrencier les sparateurs est coche, on ne tient pas compte des sparateurs.

Sphinx V5

La construction des lexiques

15

Dfinir les sparateurs

Lexique

Concordances Lexiques relatifs Verbatim

16

2. Rechercher et marquer des lments dans le lexique


Que lon cherche restituer les mots dans leur contexte ou simplifier le lexique par regroupement dlments, le travail danalyse lexicale consiste reprer des mots et les marquer. On peut procder manuellement en faisant dfiler la liste du lexique avec les ascenseurs et en cliquant sur les mots qui nous intressent. Selon le besoin, on classera le lexique par ordre de frquence, par ordre alphabtique ou par ordre dapparition (bouton Classer). On peut aussi procder dune manire automatique grce au bouton Marquer. Il permet de trouver et marquer les lments rpondant aux conditions fixes.

En limitant aux plus frquents : cochez la case Les mots les plus frquents, taper le nombre de mots que vous souhaitez dans la bote en regard. Vous pourrez ainsi par exemple vous concentrer sur les 20 mots les plus frquents.

Rechercher par dictionnaires


En slectionnant le bouton Les mots du dictionnaire, on peut utiliser un dictionnaire pour marquer dans le lexique tous les mots qui sy trouvent. Le bouton Dictionnaire permet de changer le dictionnaire courant pour le remplacer par le dictionnaire de son choix.

Combiner les effets du marquage


Le menu droulant Slection permet de combiner plusieurs recherches conscutives : Complter : les mots dj marqus le restent, les nouveaux sajoutent lensemble. Remplacer : les mots dj marqus seffacent, les nouveaux les remplacent. Affiner : seuls sont marqus les mots qui taient dj marqus, les autres sont effacs (intersection de 2 slections). Enfin, les boutons 0, <>, @ permettent deffacer toutes les marques, de les inverser ou de marquer tous les mots du lexique. Pour conserver dans le lexique un ensemble de mots slectionns, on les marque puis on inverse les marques pour supprimer ce qui ne nous intresse pas.

Rechercher par le contenu


Activer le bouton Le mot et entrer le mot recherch ou une partie de mot. Pour trouver plusieurs mots, tapez les la suite. La (ou les) chane(s) de caractres que vous venez dentrer sera(ont) recherche(s) : Dans son (leur) intgralit : bouton Mot entier. Comme dbut de mot : bouton Dbut de mot, tous les mots commenant par cette chane seront marqus. Par exemple, en tapant voit , on marquera voiture, voitures, voiturette. Comme partie de mot : bouton Partie de mot, tous les mots contenant la chane seront marqus. Cette option est trs utile pour marquer tous les verbes dun texte lemmatis. Ils sont marqus par la terminaison -V (chanter-V). Selon la conformit un modle : bouton Modle, tapez par exemple *isme pour trouver tous les mots se terminant par isme.

Rechercher selon la frquence


En fixant une plage de frquence : activez loption Les mots de frquence entre et indiquez lintervalle correspondant au nombre dapparitions des mots marquer. Par exemple de 1 10 pour marquer les mots apparaissant moins de 10 fois, de 1 2 pour marquer les hapax (la borne suprieure de lintervalle nest pas comprise). Vous pouvez indiquer une seule des deux bornes. Sphinx V5 La construction des lexiques 17

En cliquant dans le lexique

En cliquant dans le corpus

Rgles de recherche

Au clavier Selon la frquence

Par dictionnaire

18

3. Rduire les lexiques


Cest une phase essentielle de lanalyse lexicale. Pour analyser les mots les plus intressants ou regrouper sous une mme appellation ceux qui ont une signification commune, on peut procder manuellement ou dune manire automatique. Lexamen manuel consiste reprer les lments supprimer ou regrouper. Les procds automatiques reposent sur lutilisation de dictionnaires de rfrence et/ou d'algorithmes morphologiques (stemmatisation) ou syntaxiques (lemmatisation).

Ce mme dialogue donne la possibilit de revoir les groupes (Voir Groupement automatique). Les groupes sont conservs et retrouvs la prochaine consultation de la variable. Dfaire les groupes permet cependant dannuler dfinitivement tous les regroupements.

Lemmatiser
La lemmatisation (Lemmatiser) permet doprer des regroupements intelligents en utilisant les rgles de la syntaxe (singulier, pluriel, formes verbales ramenes linfinitif). Elle prsente lavantage de rduire certaines ambiguts en distinguant par exemple le nom du verbe (voyage peut correspondre au nom voyage ou au verbe voyager). Il est donc conseill doprer le travail de rduction sur la base du texte lemmatis.

Supprimer
On peut passer en revue tout le lexique et marquer les mots liminer. Le bouton Supprimer permettra de les faire disparatre.

Exploiter le lexique rduit


Les regroupements sont conservs, mais vous pouvez crer une nouvelle variable rduite aux mots du lexique (Recoder). Le bouton Verbatim permet de sortir les lments slectionns.

Ignorer les mots outils


Le bouton Rduire comporte un premier automatisme en permettant dliminer les mots outils (selon le dictionnaire motoutil.doc fourni avec le Sphinx ), les nombres ou les mots courts (moins de x lettres). Attention, le dictionnaire des mots outils contient des mots trs intressants analyser comme les pronoms personnels, les ngations... Pour revenir au lexique complet et les analyser, utiliser le bouton Reconstruire.

Regrouper
Le bouton Regrouper offre plusieurs choix pour remplacer plusieurs lments par un seul : Grouper les mots marqus dans le lexique : slectionnez et donnez un nom au regroupement. Rechercher tous les mots rpondant un modle et les grouper. Entrez le modle : les lments qui y rpondent seront automatiquement regroups, par exemple, *isme pour les mots se terminant par isme. Grouper les mots commenant par les mmes lettres : groupement par racine ou stemmatisation. Indiquez le nombre de caractres retenir pour la racine. Vous pourrez contrler la validit de chaque groupe (Voir Stemmatisation). Grouper avec un dictionnaire. Choisissez un dictionnaire. En utilisant un dictionnaire de groupement ou thsaurus, vous pourrez oprer en une seule fois plusieurs groupements (Voir Gestion de dictionnaires).

Sphinx V5

La construction des lexiques

19

Enlever les mots outils Lemmatiser Regrouper

20

4. Groupements automatiques
On gagne beaucoup de temps en procdant ainsi :

Regroupement selon un modle


Slectionner loption Grouper les mots sur le modle puis rentrez le ou les modles recherchs. Par exemple, alim* donne tous les mots commenant par alim, *ie ceux qui se terminent par ie. La syntaxe disponible offre de trs grandes possibilits.

un dictionnaire de groupements regroupe plusieurs dictionnaires de mots. Chaque lment numre une liste de mots quivalents. Les mots sont spars par le signe =, et en tte de liste se trouve le nom de lquivalent. Appliquer un dictionnaire de regroupements revient appliquer successivement plusieurs dictionnaires de mots. Les mots dune mme ligne sont automatiquement remplacs par leur quivalent. Ces dictionnaires sont trs utiles et peuvent tre assimils des thsaurus de niveau 1. Ci-dessous, titre d'exemple, voici le dictionnaire correspondant l'tat du lexique de droite ci-contre :
' Dictionnaire de regroupements $ C:\Donnees\barchoc310\barchoc310.que Plaisir_de_manger_L 1 #faire*=faire=faire_la_cuisine=faire_plaisir= faire_envie=faire_attention #gote*=goter=goteux #gastronomi*=gastronomie=gastronomique #avoir_*=avoir_envie=avoir_faim #quelque*=quelque_chose=quelquechose #enfant*=enfant=enfants #nature*=naturel=nature #prendre*=prendre_son_temps=prendre #vouloir*=vouloir=vouloir_dire #nourri*=nourrir=nourriture #cuisine*=cuisiner=cuisine #lger*=lger=LEGERE #restau*=restaurant=restau

Stemmatisation
Ce terme indique le regroupement des mots ayant la mme racine. Slectionner la case Grouper automatiquement, puis de mme racine et indiquer le nombre de lettres minimum que doit contenir la racine commune.

Modifier les groupes


Il est important de pouvoir contrler la qualit des groupements automatiques. A cet effet, le bouton Modifier interactivement les groupes permet de les revoir tous (utiliser les flches) pour ventuellement supprimer des mots dont la signification nest pas conforme (Enlever). On peut galement ajouter des mots en les entrant au clavier (Ajouter). Dfaire supprime le groupe. Pour renommer, entrez au clavier la nouvelle appellation. Par dfaut, les groupes sont marqus dun #. Leur nom reprend le modle auquel il rpond.

Dictionnaires
On peut galement utiliser des dictionnaires. Slectionner pour cela Grouper automatiquement et avec un dictionnaire. Utiliser le bouton Dictionnaire pour ouvrir le dictionnaire dsir, puis faire Regrouper. Le logiciel cherche les mots du dictionnaire prsents dans le lexique et les regroupe sous un mme item. On peut galement procder en marquant partir du dictionnaire (Marquer les mots du dictionnaire). Dictionnaire de mots et de groupements : un dictionnaire de mot est une liste de termes ayant une mme signification ou proprit. Cette liste se prsente comme une numration.

Conservation des groupements


Les groupements sont automatiquement conservs. Lorsquon revient sur une question pour laquelle des regroupements ont t effectus, un dialogue demande si on souhaite reprendre le lexique enregistr. En rpondant oui, les regroupements antrieurs seront rcuprs. Si vous rpondez non, ils seront perdus. Pour conserver les regroupements, le logiciel cre automatiquement dans le rpertoire de lenqute un dictionnaire de regroupement dont le nom est celui de la variable : nom_variable.lex.

Sphinx V5

La construction des lexiques

21

Grouper par racine Grouper par dictionnaire Grouper par modle

Contrler les groupements

22

5. La gestion des dictionnaires


Le bouton Dictionnaires (qui se trouve dans la barre doutils et dans le dialogue Marquer) permet de manipuler les dictionnaires. Le dictionnaire courant est le dernier dictionnaire ouvert, c'est lui qui servira au marquage. Dans la fentre Gestion des dictionnaires, on peut visualiser le contenu du dictionnaire, ouvrir un autre dictionnaire, crer un nouveau dictionnaire, enrichir le dictionnaire courant, ajouter les mots du lexique dans le dictionnaire courant.

Travailler sur un texte lemmatis et un dictionnaire de forme racine. Utiliser un dictionnaire thmatique pour marquer le lexique. Par exemple en cherchant les mots exprimant la satisfaction. Effacer les mots ainsi marqus (bouton Supprimer) et parcourir le lexique la recherche dautres mots se rapportant au thme du dictionnaire. Ajouter ces mots au dictionnaire avec la squence Dictionnaire / Ajouter. Ces mots viennent sajouter ceux qui sy trouvaient dj. Reconstruire le lexique (boutons Rduire, Reconstruire) pour retrouver tous les mots qui vous intressent partir du dictionnaire enrichi. En rptant cette procdure dune tude lautre, vous accumulerez une expertise conserve dans vos dictionnaires. La capacit maximum dun dictionnaire est de 6 000 mots.

Ouvrir un dictionnaire
Les dictionnaires sont enregistrs comme des fichiers textes. Le bouton Ouvrir donne accs au dialogue Windows de gestion des fichiers. Lextension propose par dfaut est .dic. Elle nest pas obligatoire mais permet de retrouver facilement les dictionnaires.

Crer un dictionnaire
Utiliser le bouton Nouveau, donner le nom au fichier (en remplacement du nom donn par dfaut "DICO.DIC"). Cette procdure ouvre un dictionnaire vide. Vous pouvez : Y ajouter les mots marqus dans le lexique : bouton Ajouter. Entrer au clavier les mots que vous dsirez. Placez le curseur l'endroit o vous voulez insrer un nouveau mot et entrez-le au clavier.

Marquer partir du dictionnaire


Un dictionnaire sert marquer des mots dans le lexique. Utiliser le bouton Marquer puis slectionner Les mots du dictionnaire (Voir le chapitre Construction de lexiques). Lutilisation de dictionnaires permet dacclrer considrablement lanalyse lexicale. Il est conseill de travailler pour cela sur un texte lemmatis et dutiliser des dictionnaires de formes racines pour faire des regroupements automatiques (stemmatisation).

Ajouter des mots dans le dictionnaire


Vous pouvez ajouter au dictionnaire ouvert les mots marqus dans le lexique (squence Dictionnaire / Ajouter). Ceci permet denrichir progressivement les dictionnaires dune tude lautre. La procdure suivante est conseille : Sphinx V5 La construction des lexiques 23

Ouvrir ou crer un dictionnaire Mettre dans le dictionnaire les mots marqus du lexique Entrer des lments nouveaux au clavier Marquer les mots correspondants dans le lexique

Ouvrir ou crer un dictionnaire

24

Elaborer des dictionnaires

6. Les diffrents types de dictionnaires


Les dictionnaires permettent de stocker du vocabulaire de rfrence et peuvent ainsi considrablement acclrer l'analyse. A chaque utilisateur de crer les dictionnaires spcifiques son domaine. On peut les utiliser pour rduire automatiquement le lexique (dictionnaire des mots outils) ou pour rechercher dans un corpus des marqueurs lexicaux de l'nonciation ou des champs smantiques particuliers.

Un dictionnaire est un fichier texte qui comporte des mots se rapportant des thmes et/ou ayant une signification commune (champ lexical). La cration de dictionnaires peut se faire dans un traitement de textes. Il suffit de dresser les listes correspondantes en respectant la syntaxe du type de dictionnaire laborer. Quelques dictionnaires simples sont fournis avec le logiciel comme l'ensemble des formes du verbe avoir, les pronoms personnels, les locutions temporelles. Le lemmatiseur met galement en uvre des dictionnaires pour la reconnaissance des formes verbales et le reprage des locutions usuelles. Il n'y a pas de limitation la varit des dictionnaires envisageables.

Diffrents types de dictionnaires


Dictionnaire de mots : il comporte la liste des mots appartenant un champ lexical particulier : les termes de l'alimentation, les pronoms personnels... Ces mots sont reprs par une seule forme graphique. Dictionnaire d'expressions : il comporte une liste d'expressions. Une expression par ligne comportant une ou plusieurs formes graphiques. Dictionnaire de groupements : il comporte une liste de formes graphiques quivalentes. Sur chaque ligne, on trouve le nom gnrique (toujours prcd de # ) suivi de la liste des formes quivalentes spares par le signe =. Un dictionnaire de groupements peut rsulter du regroupement de plusieurs dictionnaires de mots. Le contenu d'un dictionnaire de mots se trouve sur une ligne du dictionnaire de groupements. Dictionnaire de mots outils : c'est un dictionnaire de mots. Il est utilis pour l'opration de rduction du lexique. Il peut tre modifi comme tout autre dictionnaire. Dictionnaire de codes : ce type de dictionnaire sert l'interprtation des codes (Voir Interprter des codes). Sur chaque ligne, on a la valeur du code et les diffrentes manires de l'interprter. Lexique de rfrence : c'est un dictionnaire de mots indiquant la frquence de chaque mot dans un corpus de rfrence. Cette frquence peut s'exprimer en valeur absolue ou en pourcentage. On utilise ce type de dictionnaire pour comparer le corpus en cours d'analyse la rfrence (Voir Comparer un lexique de rfrence).

Sphinx V5

La construction des lexiques

25

Diffrents dictionnaires
de mots dexpressions

des mots outils

de groupements

Lexique de rfrence

Dictionnaire de codes

26

7. Analyse thmatique
Dans lenvironnement de latelier lexical, une analyse thmatique peut tre actionne en cliquant sur licne Dictionnaire Une thmatique est une liste de dictionnaires, chacun tant compos de mots ou de regroupements relevant dun mme thme. Les dictionnaires ont t prpars par ailleurs en format texte. Cette opration autorise la prsence dun mme mot dans plusieurs thmes. La gestion des dictionnaires est prsente dans le chapitre 5 p. 312 (Plus) ou 316 (Lexica) du manuel de rfrence. Une nouvelle thmatique est cre en ajoutant autant de dictionnaires que souhait dans la liste, grce au bouton Ajouter Au moment du recodage, le logiciel propose la sauvegarde de la thmatique, qui sera dnomme avec une terminaison .the et qui pourra tre rappele tout moment depuis le bouton Ouvrir une thmatique . En cliquant sur Recoder , on va pouvoir crer de nouvelles variables afin didentifier les thmes pour chaque observation : lintensit lexicale de chaque thme, - le nombre doccurrences de chaque thme, - des variables fermes sur les thmes, avec deux options de limitation : les n thmes les plus frquents dans la rponse et les thmes dont lintensit dans la rponse est au moins gale x.

Sphinx V5

La construction des lexiques

27

lister les segments rpts trouvs dans le texte (bouton Segments).

8. Lexique des expressions**


Mots composs et expressions usuelles
La construction du lexique partir des formes graphiques ignore les mots composs, locutions, ou expressions ( moins quelles naient t explicitement saisies comme telles en utilisant le sparateur _ ). La possibilit de dfinir des listes ou dictionnaires dexpressions permet de les reprer dans le texte et de les identifier comme tels en introduisant un sparateur spcifique. On pourra alors gnrer une nouvelle variable dans laquelle les expressions apparatront comme une seule forme graphique. Cette approche convient pour les mots composs ou expressions usuelles rpertoris a priori dans des dictionnaires. Les expressions ou formes dlocution spcifiques certains contextes ne peuvent tre identifies qua posteriori partir du constat de leur rptition lidentique. Cest ce que permet la recherche des segments rpts.

En regard de la liste dexpressions ainsi constitue, saffiche le nombre doccurrences trouves dans le corpus. On peut alors, comme pour le lexique des mots, slectionner des lments et les retrouver dans le texte (navigation lexicale).

Documenter le lexique des expressions partir dun dictionnaire


Le bouton Dictionnaire permet douvrir un dictionnaire dexpressions que lon pourra dverser dans la fentre (bouton -->Liste). Inversement, le bouton Ajouter permet denvoyer dans le dictionnaire les expressions entres dans la liste partir du clavier ou du calcul des segments rpts.

Actions partir de la liste des expressions


Comme pour le lexique des mots, on peut supprimer des expressions, les classer, regrouper des expressions quivalentes (bouton Variantes), et les sortir dans le rapport ou l'imprimante (Transfrer).

Lexique des expressions


Le lexique des expressions est rentr au clavier, constitu partir dun dictionnaire dexpressions ou tabli par la recherche des segments rpts. Il fait lobjet dune fentre particulire ouverte dans latelier lexical par le menu Lexique / Liste des expressions. Celui-ci ouvre une fentre vierge dans laquelle on peut : entrer au clavier les expressions recherches ; reporter les lments dun dictionnaire dexpressions ;

Solidariser dans le corpus les expressions de la liste


Le bouton Recoder permet de crer une nouvelle variable texte dans laquelle les expressions de la liste seront solidarises par le signe _. En ouvrant cette nouvelle variable, les expressions apparatront comme une forme graphique. (Vrifier que le caractre _ n'est pas dfini comme sparateur). Ce bouton permet galement de dresser dans une variable nominale la liste des expressions du texte.

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

9. Rechercher les segments rpts**


Tout texte comporte ses leitmotivs, sa langue de bois, ses petites phrases... On peut les reprer en cherchant les squences de mots rptes exactement l'identique. On obtient ainsi : les locutions : trs bien, peu prs... ; les phrases ou lments de phrases rpts l'identique : je ne pense pas, selon moi, il faut, les expressions toutes faites, caractristiques du domaine tudi : bon repas en famille, bien manger... Cette recherche permet galement de soulever de nombreuses ambiguts.

Slectionner les segments significatifs


Les segments trouvs saffichent dans une fentre dont le contenu peut tre class par ordre alphabtique ou par longueur (Trier), imprim ou copi (Transfrer) selon les procdures habituelles ou vers dans une liste dexpressions (--> Liste dexpressions). Cette dernire opration permet de faire toutes les oprations autorises dans la liste dexpressions : supprimer des segments sans intrt, naviguer dans le corpus, retrouver le contexte dun segment (Voir Concordances et lexiques relatifs). On peut galement crer une nouvelle variable texte solidarisant les segments, directement partir de la fentre des segments (Relier) ou depuis la liste d'expressions (Recoder, Texte modifi, Relier les mots de chaque expression). En ouvrant cette nouvelle variable, les segments rpts seront traits comme des mots.

Rechercher les segments rpts


Pour viter l'examen de listes trop longues, on peut cibler la recherche : en fonction de la frquence de rptition (bouton Frquence minimale) ; en fonction de la prsence dans les segments de mots dtermins, de mots marqus dans le lexique courant ou de mots numrs par lutilisateur (bouton Contenant). en ignorant les segments commenant par un mot outil ou par lun des mots numrs par lutilisateur (bouton Ne commenant pas par). Pour lancer la recherche, procdez ainsi : slectionnez dans le menu Lexique, la rubrique Expressions, et activez Segments ; fixez vos paramtres de recherche ; par dfaut, la frquence minimum propose est gale la rptition moyenne des mots du lexique ; ciblez votre recherche en fixant les longueurs minimales et maximales et en restreignant certains mots ou en ignorant les segments commenant par un mot outil.

Segments contraints et segments de frquence 1


Pas trop et pas trop cher sont des segments contraints. Pas trop apparat 6 fois et pas trop cher 3 fois. Le premier est contenu dans le second. Mais leur frquence les distingue. Ce phnomne est trs frquent et ncessite un examen attentif des segments que lon souhaite retenir pour lanalyse.

Solidariser les segments rpts


On peut crer une nouvelle variable texte dans laquelle les segments rpts seront relis par le caractre _ . Ils apparatront ainsi dans le lexique de la nouvelle variable comme une seule forme graphique. Pour effectuer cette opration, faites Recoder et choisissez Texte modifi / Relier les mots de chaque expression. L'analyse de cette nouvelle variable permettra de produire un lexique tenant compte des segments rpts significatifs.

Rechercher les segments rpts

Dfinir les conditions Editer Crer une nouvelle variable Ajouter au lexique des expressions

Exemple : Si vous gagniez au loto

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Navigation lexicale et recherche de contexte

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

1. Du lexique au corpus : la navigation lexicale


La navigation lexicale sapparente la fonction dun hyper-texte dont chaque mot serait lobjet dun renvoi possible. On peut en effet, partir dun ou plusieurs mots marqus dans le lexique ou dans le texte lui-mme : retrouver toutes les rponses ou fragments de texte contenant ce mot ou ces mots ; afficher la valeur quelconque de lune des autres variables pour situer le contexte de la rponse ; dtailler toutes les donnes relatives la rponse ; caractriser lemploi dun mot par la rpartition de telle ou telle variable dans la strate des observations qui le contiennent. On a ainsi la possibilit d'oprer des slections pour restituer des fragments de texte ou contrler l'interprtation des termes mis en vidence dans le lexique. On peut le faire en ne voyant qu'une rponse la fois ou en se plaant dans une fentre dans laquelle tout le corpus s'affiche la suite.

Les flches permettent de passer d'une observation l'autre. Si des mots sont marqus dans le lexique, la navigation se fait selon la rgle choisie (Aller : d'un mot marqu l'autre, d'une observations contenant tous les mots marqus la prochaine...). On peut galement limiter la navigation aux seules observations rpondant au profil dfini par le bouton N (Voir aussi Modification / Consultation).

Vue du corpus entier


L'article Observations du menu Vue ouvre une fentre dans laquelle s'affichent la suite toutes les observations qu'on peut faire dfiler avec l'ascenseur. Pour passer d'un mot marqu l'autre, cliquez dans la fentre. Un menu apparat dont l'article Marque suivante permet de passer au prochain mot marqu.

Caractriser et dtailler les observations


En cliquant sur un mot du texte, on fait apparatre un menu qui permet d'obtenir des informations complmentaires sur l'usage de ce mot : voir l'environnement du mot dans l'ensemble des observations qui le contiennent : concordances ou lexiques relatifs (Environnement) ; identifier toutes les observations contenant ce mot en les caractrisant par rapport une autre variable (Caractriser) ou en consultant toutes les informations qui les concernent (Dtailler) ; dcrire les proprits des observations concernes en les codant dans une nouvelle variable (Dcrire).

Vue par observation


L'article Observations du menu Vue ouvre une fentre montrant le texte d'une seule observation la fois. On peut complter par les donnes d'autres variables illustratives (Illustrer). La hauteur de la fentre est modifiable en dplaant le trait de sparation. Sous la fentre, on lit les indicateurs statistiques caractrisant l'observation.

Copier ou imprimer les lments slectionns


L'article Copier du menu Edition copie le texte de l'observation courante. Pour diter toutes les rponses contenant un mot marqu, utiliser loption Verbatim, dont les possibilits sont dcrites dans le chapitre Produire des extraits.

Vue par observation

Donnes de contexte Variable illustrative Indicateurs statistiques

Navigation

Vue du corpus entier

Rgles de navigation

Editer les textes slectionns

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

2. Situer un mot dans son contexte textuel


On peut examiner dune manire plus prcise lenvironnement dun mot en concentrant lanalyse sur son contexte immdiat : il peut sagir dun groupe de mots, de la phrase ou de la rponse toute entire. Dans le cas de rponses longues ou lorsque le texte a t dcoup en paragraphes, il est prfrable de se limiter la phrase ou la proposition. On se place dans ce mode avec loption Environnement de la liste droulante Vue. On obtient le mme effet en faisant un double clic sur un mot du lexique, ou en cliquant sur un mot dans le corpus. Un menu contextuel s'affiche. Choisir l'article Environnement contexte du mot choisi. pour voir le

Le dialogue propos par le bouton Apparier permet de : spcifier des ensembles de sparateurs. Par dfaut, le Sphinx considre 3 sparateurs de phrase : . ! ? . On peut modifier ces ensembles au clavier ; choisir le niveau de contexte dsir : groupe, phrase, rponse pour fixer ltendue du contexte analyser autour du mot choisi. Ds quun des sparateurs est rencontr, on arrte lextraction.

Voir le contexte immdiat


Lorsqu'on choisit Concordance, le contexte du mot pivot s'affiche. Deux options de prsentation sont disponibles : centrer les citations sur le mot pivot (case Mise en forme coche) ou les aligner droite (case Mise en forme non coche) ; faire disparatre les mots ignors dans la construction du lexique en cochant la case Texte rduit. Par exemple pour ne pas montrer les mots outils. On peut enfin signer la citation en affichant la valeur dune autre variable choisie par Le bouton Illustrer.

On tudie ainsi : la concordance du mot tudi, cest--dire lensemble des lments du texte contenant le mot. Ce procd sapparente la production de verbatim ou de liste de citations centres sur un mot particulier (Voir Consulter/Modifier et Listes structures) ; les lexiques relatifs droite et gauche du mot tudi. Deux boutons permettent de passer dune analyse lautre. Il convient de fixer ltendue du contexte quon souhaite analyser en agissant sur le bouton Apparier.

Extraire des citations


Avec le bouton Transfrer, on peut indiffremment imprimer le contenu de la fentre ou l'inclure dans le rapport.

Fixer ltendue du contexte


Cette tendue est dtermine par des sparateurs de groupes de mots, de phrases et de rponses.

10

Fixer ltendue du contexte

Concordance

Double clic dans le lexique

Mot pivot

Lexiques relatifs

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Prsenter les lexiques relatifs

3. Les lexiques relatifs**


La liste des citations illustrant lemploi dun mot peut tre trs longue. Les lexiques relatifs permettent un examen synthtique en faisant ressortir les mots avec lesquels le mot pivot est le plus frquemment associ. Le principe consiste construire un ou plusieurs lexiques prsentant la liste des mots se trouvant telle position par rapport au mot pivot choisi. Le bouton-radio Lexiques relatifs ouvre la fentre des lexiques relatifs. Par dfaut, elle prsente 2 lexiques : gauche et droite, pour les positions 2 mots avant (-2), 1 mot avant (-1), 1 mot aprs (1), 2 mots aprs (2).

Le bouton Classer permet dafficher les lexiques relatifs par ordre alphabtique ou par ordre dapparition des mots dans le corpus. Le bouton Rduire permet, dans ce contexte galement, dignorer ou de rtablir les mots outils. Le bouton Transfrer donne les possibilits habituelles dinclusion dans le rapport, de copie dans le pressepapiers et dimpression.

Interprter les lexiques relatifs


Lexemple ci-dessous donne des lexiques relatifs lenvironnement du mot France utilis dans les deux livres de la campagne 1995 de Jacques Chirac. France y apparat 12 fois sur un corpus total de 35 247 mots. Environnement -1 3
pivot -1 +3 - 242 mots - 283 occ pays 6 ( 6.82% ; 88) Europe 4 ( 7.14% ; 56) avenir 3 ( 11.54% ; 26) chang 3 ( 17.65% ; 17) doit 3 ( 4.05% ; 74) Franais 3 ( 2.91% ; 103) monde 3 ( 6.38% ; 47) nouvelle 3 ( 15.00% ; 20) puissance 3 ( 15.79% ; 19)

Dfinir le nombre et la position des lexiques relatifs


Le bouton Compter permet de modifier les lexiques relatifs en : fixant le nombre de lexiques (boutons-radios 1, 2, 4) ; indiquant pour chaque lexique la position par rapport au mot pivot des mots recenser. Dans l'exemple ci-contre, 4 lexiques sont dfinis correspondant aux positions -1, +1, +1, +2 par rapport au mot pivot. Par dfaut, les lexiques sont prsents par ordre doccurrences dcroissantes. On peut complter la statistique des occurrences relatives une position par : le nombre total doccurrences du mot dans le corpus (quelle que soit sa position) : Nombre total doccurrences ; le pourcentage dapparition du mot la position considre par rapport au nombre total d'apparitions dans le corpus (quelle que soit la position) : Pourcentage dans le lexique relatif. Cest un indicateur de dpendance linguistique par rapport au mot pivot.

Le lexique de -1 +3 affiche les 3 indicateurs. Ils montrent notamment que les mots nouvelle, puissance, chang sont plus souvent associs France que Europe : Europe est 4 fois dans lenvironnement de France pour un total de 56 apparitions, ce qui indique une faible dpendance linguistique (7,14 %).

Lexiques relatifs et segments rpts


Le lexique relatif peut donner une ide des segments rpts, quil ne reprsente pas exactement. Il peut cependant tre utile de mener une exploration pralable partir des lexiques relatifs.

12

Dfinir les lexiques relatifs

Nombre

Positions par rapport au pivot

Indicateurs statistiques

4 lexiques avant et aprs

Lexique de l'environnement -2 +2

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

mettre les mots marqus en majuscules.

4. Production d'extraits
Dans Plus et Lexica, la production d'extraits offre de plus grandes possibilits que dans Primo. En la lanant depuis l'atelier lexical, on peut slectionner beaucoup plus finement les extraits selon leur contenu.

Ci-contre un exemple daffichage. Le mot manger est le mot slectionn. Les premires indications documentent la rponse : mesures lexicales, variable illustrative.

Fixer l'tendue de l'extrait


Selon l'option slectionne dans Apparier, l'tendue de l'extrait est fixe la rponse entire, la phrase ou au groupe de mots. Quand le texte des observations est long, il est intressant de limiter l'extrait de la phrase contenant le mot.

Le dialogue abrg
Celui-ci est directement disponible sans accder forcment latelier lexical, on peut gnrer du verbatim depuis une fonction spcifique. Choisir pour cela Etudier les textes dans le panneau de commandes ou dans la fonction Recoder puis Verbatim Dans ce menu, il est possible de dfinir des mots cls sur lesquels portera uniquement le verbatim. On peut aussi rduire cette opration un profil dobservations donn et trier les extraits selon les modalits dune variable choisie.Aprs avoir slectionn les lments du lexique, dont la pertinence peut tre vrifie grce la navigation lexicale, une action sur le bouton Verbatim ouvre un dialogue abrg dans lequel on fixe les lments diter (Mots ou Textes). Mots pour les lments du lexique, Textes pour les rponses ou extraits correspondants. On peut complter ventuellement les critres de slection en prcisant les options de prsentation. Les extraits ainsi slectionns apparaissent dans une fentre dont le contenu peut tre imprim grce au bouton Transfrer. Une version plus complexe du dialogue est accessible avec depuis lAtelier lexical. Elle offre les possibilits suivantes :

Structurer la prsentation des extraits


Regrouper selon les modalits de la variable illustrative : ceci permet de prsenter les extraits par catgorie de locuteurs. Classer : par dfaut, l'affichage se fait dans lordre d'apparition. On peut galement choisir de les prsenter selon les indicateurs suivants : Nombre de mots, Nombre de mots marqus, Banalit de la rponse (pour afficher les rponses des plus communes au plus originales), Intensit des mots marqus (pour faire ressortir lintensit du thme correspondant aux mots slectionns dans le lexique).

Rduire le nombre dextraits


Limiter aux phrases contenant un mot marqu : quand les observations contiennent plusieurs phrases, on gagne en lisibilit et pouvoir de dmonstration (Voir Apparier pour jouer sur les sparateurs). Limiter un nombre dtermin dextraits : enlever les rponses similaires. Deux rponses sont considres comme similaires si elles contiennent les mmes mots. Les rgles dassimilation de 2 rponses sont paramtrables par le bouton Rgles. On peut ainsi : limiter la comparaison aux mots marqus ; tenir ou ne pas tenir compte de lordre et du nombre doccurrences des mots. Les groupes sont lists avec l'indication du nombre de rponses similaires prcd du signe #. A titre d'exemple, le texte de l'une des rponses est cit.

Le dialogue complet
Le dialogue tendu offre de nombreuses possibilits : restreindre aux observations contenant des mots marqus dans le lexique : cochez lun des boutons Les lments concerns ou Tous les lments. La slection des extraits se fait en fonction de la rgle de navigation lexicale retenue ; fixer le contenu des extraits (cadre Contenu) : afficher le texte de la variable tudie et ou celui d'une autre variable ; afficher la valeur des mesures lexicales relatives lobservation : nombre de mots de lobservation (M), nombre de mots marqus (MM), banalit de lobservation (frquence moyenne des mots de la rponse), intensit des mots marqus (MM/M) ;

14

Dialogue abrg

Dialogue complet

Nb de rponses similaires

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Slection en fonction du contexte

5. Rsum des diffrentes manires de produire des extraits


En rsum, voici les diffrentes manires dans le Sphinx de slectionner des extraits.

En se plaant dans une strate (Changer de strate) et en oprant comme ci-dessus, on limite les productions d'extraits la strate slectionne. On peut galement procder de manire plus directe : en restreignant le contenu des Listes structures la dfinition dun profil (Uniquement les observations telles que) ; en restreignant le Verbatim la dfinition dun profil (Rduire un profil) ; en listant les rponses caractristiques (Mots spcifiques, Rponses caractristiques). Il faut enfin noter la possibilit, dans la fentre Caractriser les observations, de lister les rponses de chaque cellule d'un tableau ou dans l'atelier lexical celles caractrisant les effectifs utilisant tel ou tel mot (Caractriser).

Slection selon la variable


Avec Dpouiller / Produire des listes, on choisit la ou les variables dont on veut extraire le contenu en le restreignant ventuellement un profil donn. On peut jouer sur la prsentation : format liste ou table, fiches personnalises.

Slection en fonction du contenu


Dans latelier lexical, on peut faire de la Navigation lexicale partir des mots marqus, puis Copier le contenu de la fentre courante. Trs utile pour noter la vole le contenu d'une observation la fois. Extrait de lenvironnement dun mot pivot (Environnement, Co-occurrences ou lexiques relatifs). Permet de situer un mot dans son contexte pour en apprcier les variations smantiques. Verbatim permet de prsenter l'ensemble des extraits relatifs aux mots marqus dans le lexique. Idal pour faire du verbatim, pour restituer des rponses. Cette fonction offre de nombreuses possibilits : restreindre l'extrait la phrase. Trs utile dans le cas de rponses longues ; complter par des variables illustratives ; classer selon des indicateurs statistiques (banalit, longueur...) ; rsumer en regroupant les rponses similaires.

16

Dpouiller en produisant des listes

Atelier lexical : Verbatim

Atelier lexical : Environnement

Tableaux : Caractriser

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

18

Analyse syntaxique et lemmatisation

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement 2005

1. La lemmatisation
Principes de la lemmatisation
Lapproximation du contenu d'un texte par ses seules formes graphiques lmentaires peut conduire des contresens ou laisser planer une grande ambigut. Lanalyse syntaxique permet de rsoudre correctement les ambiguts lies la syntaxe. En appliquant les rgles de la grammaire, on peut, dans la plupart des cas, distinguer verbes, substantifs, adjectifs, et leur substituer leur forme racine (singulier dun substantif, infinitif dun verbe par exemple), mais aussi identifier les mots composs et les locutions. Voici un exemple illustrant ce procd :
Corpus et lexique originaux Jai aperu les grands avions que nous avions vus hier avec grand pre avions (2), aperu, avec, grand, grands, hier, j, pre que, les, nous, vus Corpus et lexique lemmatiss Je apercevoir_v le grand_a avion_n que nous avoir_v, voir_v hier_n avec grand_pre_n apercevoir_v, avoir_v, avec, avion_n grand_a, grand_pre_n, hier_n, je, que, le, nous, voir_v.

Chaque forme graphique a t remplace par sa forme canonique ou racine : le singulier pour un substantif ou un adjectif, linfinitif pour un verbe. Ainsi, par exemple, toutes les formes le, la l, les, une partie des du sont regroupes sous la forme racine le. Les diffrentes flexions du verbe tre (est, sont, ...) apparaissent linfinitif dans le lexique lemmatis. Les singuliers et pluriels ont t regroups : ainsi par exemple, homme et meilleur napparaissent quune fois dans le lexique lemmatis regroupant les effectifs des formes originales singulires et plurielles.

Rsoudre les ambiguts smantiques


Dans le lexique lemmatis et rduit, on voit le mot avance cit 54 fois. Il sagit du substantif avance (lavance technologique) et non du verbe avancer (il avance plus vite). Lanalyse syntaxique permet ainsi de rsoudre les ambiguts smantiques. Elle permet aussi de distinguer les mots composs et les locutions.

Identifier les formes grammaticales et les locutions


Dans lexemple prcdent, la marque du statut grammatical napparat pas, car, pour des raisons de lisibilit, le tiret du suffixe grammatical a t dclar comme sparateur de mots. En procdant diffremment, on peut faire apparatre la suite de chaque mot son suffixe grammatical. Cela permet trs rapidement de produire un lexique restreint aux Verbes (_V), aux Adjectifs (_A), aux substaNtifs (_N), aux adverBes (_B), aux mots Grammaticaux (_G).

Lambigut entre avions (avoir) et avions (aroplanes) disparat dans le corpus lemmatis. Le statut grammatical des mots est en outre signal par les suffixes _N, _V...

Rduire la forme graphique au mot racine


La lemmatisation permet ainsi de substituer au lexique initial un lexique beaucoup plus efficace dans la phase dapproximation lexicale. Ci-contre on peut comparer, pour un corpus de 2 378 slogans publicitaires comportant 15 610 mots, le haut du lexique original au lexique lemmatis.

20

Corpus lemmatis Corpus lemmatis avec indication des catgories syntaxiques

Lexique brut et lemmatis : exemple des slogans publicitaires.

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

2. Lancer la lemmatisation
Lanalyseur syntaxique
Le lemmatiseur intgr au Sphinx est l'analyseur syntaxique SYLEX, dvelopp par la socit Ingnia Langage Naturel. Il est constitu dun analyseur syntaxique et dun dictionnaire. Le dictionnaire franais contient 61 400 entres, 521 400 formes lexicales et 25 600 locutions. Une version anglaise de lanalyseur syntaxique et un dictionnaire danglais sont galement disponibles sur demande. La lemmatisation consiste faire lanalyse syntaxique de la variable. Une nouvelle variable contenant la version lemmatise du corpus sera ajoute la base de donnes. Cette variable pourra tre ouverte et analyse comme nimporte quelle autre variable texte. On accde au Lemmatiser. lemmatiseur par le bouton

Indiquer la catgorie des mots : chaque mot sera attach lun des suffixes qui le caractrise : _V pour le Verbe, _N pour un Nom commun, _P pour un nom Propre, _A pour un Adjectif, _B pour un adverBe, _G pour un mot Grammatical. Des conditions syntaxiques supplmentaires peuvent tre ajoutes en cliquant sur le bouton Grammaire complmentaire.

Faire un essai
Lanalyse syntaxique met en uvre des techniques de lintelligence artificielle, elle peut prendre quelques minutes pour un texte trs long, surtout si votre machine nest pas trs rapide. Vous pouvez vous faire une ide en ne lemmatisant quune partie du texte. Placez-vous sur lobservation de votre choix et cliquer sur le bouton Aperu pour lemmatiser le fragment correspondant.

Cration dune nouvelle variable contenant le texte lemmatis


Le bouton Lemmatiser lance la lemmatisation du corpus entier. Le rsultat saffiche dans une fentre o vous pouvez contrler et ventuellement modifier le rsultat. En effet, lanalyse syntaxique nest pas un procd fiable 100 %, certaines ambiguts ne peuvent tre rsolues : les fautes de frappe ou dorthographe sont un obstacle, le texte peut contenir des mots inconnus... Si c'est ncessaire, vous pourrez directement entrer vos corrections au clavier. Pour analyser le texte que vous avez sous les yeux, cliquer sur le bouton Etudier le texte lemmatis. Cette action cre une nouvelle variable et vous met en position pour l'analyser.

Options de lemmatisation
Lanalyseur syntaxique procde par tape. Il dtermine le statut du mot, recherche sa forme racine et tablit une nouvelle phrase compose des formes racines. Ces nouvelles phrases forment le corpus lemmatis. Les options disponibles sont les suivantes : Filtrer des mots grammaticaux : les mots grammaticaux napparatront pas dans le texte lemmatis. A la diffrence de la rduction du lexique par les mots outils, cette option a pour effet de faire disparatre du nouveau corpus les mots grammaticaux ; Reprer les locutions usuelles : elles figureront dans le nouveau corpus relis par un tiret : pomme_de_terre ;

22

Corpus dorigine

Choisir les options de lemmatisation

Contrler, corriger

Crer une nouvelle variable

Corpus lemmatis

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

3. Analyser un texte lemmatis


Il est trs souvent prfrable deffectuer lanalyse dune variable texte sous sa forme lemmatise. Lapproximation lexicale partir des mots les plus frquents du corpus sera de bien meilleure qualit. Cest notamment le cas lorsquil sagit dun texte comportant une syntaxe : rponses des questions ouvertes formules sous forme de phrases, interviews non directives, textes rdigs ou littraires. Nanmoins, cela peut faire perdre certaines nuances trs importantes vhicules par des diffrences que la lemmatisation fait disparatre (parler de la femme ou des femmes, de finance ou de finances...).

Limportance relative dans un texte de chacune de ces catgories peut apporter beaucoup dinformations, notamment pour qualifier dventuelles variations selon lorigine (qui rpond ?) ou selon la partie ( quel moment de largumentation ?)... A partir du panneau lexical, vous pouvez automatiquement obtenir la liste des mots les plus frquents classs selon leur statut grammatical. Cette fonction automatise des oprations que vous pouvez affiner dans l'atelier lexical.

Rechercher les caractristiques de lnonciation


Le travail sur un texte lemmatis facilite grandement ltude de lnonciation : usage des pronoms personnels (je et j se trouvent regroups) ; utilisation des adjectifs, adverbes... ; travail sur les substantifs et les verbes pour dceler la prsence de telle ou telle caractristique des actes de langage. Comme en PNL (Programmation Neuro Linguistique), rechercher les champs lexicaux visuels, kinesthsiques, auditifs..., les traits positifs, ngatifs...

Afficher le texte dorigine en mme temps que le texte lemmatis


Pour faciliter la navigation lexicale sur un texte lemmatis, il est utile de faire apparatre le texte de la variable dorigine (utiliser la squence N / Illustrer par la variable) dans la fentre dinformation sur lobservation courante (si ncessaire, cliquer dans cette zone pour voir la suite du texte).

Utiliser le type grammatical des mots


Les substantifs dnomment les choses, les objets, la scne, le monde. Les noms propres voquent les personnages, acteurs, lieux et objets personnifis. Les verbes indiquent laction, le mouvement, les transformations, et les adjectifs les apprciations, les valuations, les jugements... En travaillant sur un corpus lemmatis dot des marques grammaticales, il est trs facile par exemple de dnombrer la prsence de chaque type grammatical ou de dresser des listes selon le type.

24

Corpus lemmatis

Corpus dorigine

Raccourcis du panneau lexical

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Remplacer

4. Modifier le corpus
On peut directement apporter des modifications dans le corpus. Le plus souvent, on le fera pour corriger des fautes de frappe ou des fautes d'orthographe. A cet gard, lorsqu'on travaille sur des textes imports, on a tout intrt les soumettre au pralable au correcteur orthographique.

Cette fonction est analogue celle des logiciels de traitement de textes. Elle est trs utile pour faire des substitutions systmatiques. On y accde par le bouton Remplacer de la barre doutils.

Reconstruire le lexique
Tant que vous n'avez pas revenir sur le lexique des fins d'interprtation, vous n'avez pas intrt cocher le bouton Reconstruire immdiatement le lexique car cela peut ralentir inutilement le travail.

Corriger ou annoter le texte


Le bouton Modifier permet dcrire dans la fentre du corpus et de le corriger. Outre la correction des fautes de frappe, cette possibilit est trs utile pour : grer les polysmies : par exemple dans un corpus de slogans publicitaires, le mot aimer peut exprimer le got ou le sentiment amoureux. On peut distinguer ces 2 formes en ajoutant par exemple une marque spcifique lune des significations. On ajoutera par exemple un $ lorsquil sagit du sentiment ; faire des annotations dans le texte. On peut ainsi faire de lanalyse de contenu la manire classique en lisant les rponses et en notant dans un langage cod (mots prcds par un caractre particulier & par exemple) les thmes rencontrs. On retrouvera trs facilement lensemble des thmes marqus partir du caractre qui les distingue, pour enfin crer une nouvelle variable ferme sur ces thmes (Voir le bouton Recoder). Aprs chaque modification ou annotation, le texte est reconstruit et de nouveau enregistr. Pour gagner du temps, dcocher la case Reconstruire immdiatement le lexique. Dans ce cas, la fin de vos modifications, activer le bouton Rtablir pour que le lexique prenne en compte les modifications apportes.

26

Modifier le corpus

Entrer les modifications au clavier

Reconstruire le lexique ou non

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

28

La statistique lexicale

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

1. Les indicateurs lexicaux


Avec l'extraction du lexique, le logiciel calcule les indicateurs statistiques qui guident l'utilisateur dans son travail d'interprtation.

Statistiques des formes graphiques (mots)


Avec le bouton Compter, on choisit les indicateurs affichs dans le lexique en regard de chaque mot : Nombre doccurrences : cest le nombre de fois o un mot apparat dans le corpus. On le note mi,. i est l'indice du mot. Nombre dobservations : cest le nombre dobservations ou fragments contenant au moins une fois le mot. Il est not oi. Comme un mot peut apparatre plusieurs reprises dans une observation, on a mi >=oi.

Taille du corpus : c'est la longueur du texte, elle donne le nombre total de formes graphiques qui le composent. c = i . Le calcul ne tient pas compte des mots ignors (mots outils) ou supprims. S'il y en a, ils figurent entre parenthses. Rptition moyenne : c'est le nombre de fois qu'un mot se trouve en moyenne rpt dans le texte. Rep = c / l. Selon le cas, le calcul est effectu en ignorant les mots outils ou les mots supprims. La valeur de la rptitivit calcule sur la totalit du lexique et du corpus est donne entre parenthses.

Statistiques relatives au corpus

Statistiques relatives l'observation


Pour chaque observation, on lit dans le cadran situ en bas de la fentre : La taille de l'observation, en nombre de caractres et de mots (r) et le nombre de mots marqus (m) qu'elle contient. La banalit : c'est le nombre moyen d'occurrences dans le corpus, des mots prsents dans la rponse : b = (r) / r avec (r) indice des mots de la rponse et r taille de l'observation. Elle mesure aussi la rptition moyenne des mots utiliss. Plus elle est leve, plus la rponse est banale. La banalit est comprise entre 1 pour une observation ne contenant que des hapax et le nombre d'occurrences du mot le plus frquent (pour le cas d'une observation qui ne contiendrait que ce mot). L'intensit des mots marqus : c'est le rapport entre le nombre de mots marqus et le nombre de mots de la rponse ou du fragment (100* m/r). Cet indicateur permet d'apprcier l'intensit avec laquelle il fait rfrence au thme correspondant aux mots marqus dans le lexique.

Taille du lexique. : c'est le nombre de mots diffrents prsents dans le corpus, elle donne une indication sur la richesse du vocabulaire. Elle est note l. Cette valeur, affiche en bas droite de la fentre du corpus, est calcule sans les mots outils si ceux-ci ont t ignors et sans les mots supprims. Les nombres de mots ignors et supprims figurent entre parenthses. Nombre de mots marqus : ces mots sont utiliss pour le calcul du pourcentage de lecture du corpus et des intensits lexicales. Pourcentage de lecture du corpus : c'est le rapport entre le nombre doccurrences cumules des mots marqus et la taille du corpus total. PL = 100 * m / c avec c : taille du corpus, m indice des mots marqus. Il donne une indication de la fraction du corpus, vue par les termes slectionns dans le lexique.

Statistiques relatives au lexique

30

Nb. occurrences

Nb. observations

Stat. des mots marqus

Stat. globales

Stat. de l observation

pourcentage de lecture des mots marqus

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

2. Bilan lexical
Au stade du traitement, le tableau rcapitulatif des variables textes donne, pour chaque variable, la taille du corpus (nombre de mots), celle du lexique (nombre de mots diffrents), et la longueur moyenne d'une observation (nombre de mots moyens...). Ce tableau est trs utile pour comparer la manire dont ces variables sont documentes. Dans l'atelier lexical, on peut aller plus loin en comparant les caractristiques lexicales de la variable tudie selon les catgories dfinies par une autre variable (variable de contexte).

Lancer le bilan lexical


Aprs avoir ventuellement rduit et agrg le lexique, on choisit Bilan par contexte dans le menu Vue, puis on slectionne la variable de contexte. On peut, dans la liste des modalits de la variable choisie, dslectionner celles qui ne nous intressent pas ou slectionner nouveau celles qui nous intressent (Ctrl + clic).

Nombre de mots communs toutes les catgories et nombre de mots exclusifs de chaque catgorie : par diffrence avec le nombre total de mots, on obtient le nombre de mots partags (mais d'une manire partielle). Poids relatif du corpus des diffrentes catgories : ces indicateurs donnent une ide de la manire dont les zones de langage se recoupent : l'intersection d'une ligne et d'une colonne, on lit le pourcentage de lecture du corpus de la catgorie en colonne, par le lexique qu'il a en commun avec la catgorie en ligne. Dans l'exemple ci-contre, on constate que le lexique que les employs partagent avec les cadres moyens couvre 67% du corpus des cadres moyens, alors qu'il ne couvre que 53% de celui des employs.

Indicateurs propres chaque contexte


Les 2 premires sries d'indicateurs donnent des informations propres chaque contexte : Indications globales et de tendances : effectifs, nombre de mots, mot le plus frquent (cette dernire information est significative quand on a ignor les mots outils). Moyenne et dispersion : longueur moyenne, nombre de mots diffrents, rptition, nombre de mots uniques (hapax). Les indicateurs suivants mettent l'accent sur les points communs et diffrences entre contextes :

32

1 / Eventuellement rduire le lexique 2/ Choisir les contextes

Bilan lexical

Analyser les zones de langage

employs employs

Cas OVALE Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005 cadres moyens ouvriers

3. Construire un tableau lexical


Pour mettre en vidence les diffrences d'usage du vocabulaire selon l'identit des locuteurs, selon les parties d'un document, ou selon toute autre variable de contexte, on construit un tableau lexical. Ce tableau dispose en ligne les lments lexicaux et en colonne les catgories dfinies par les modalits dune variable nominale. On peut ainsi dnombrer la frquence de chaque terme pour chaque catgorie.

Les indices de spcificit : lindicateur de spcificit est le rapport entre le nombre dutilisations observes et le nombre thorique dutilisations tel quil rsulterait dun emploi proportionnel au nombre total de mots prononcs par la catgorie considre. Les termes spcifiques d'une catgorie (sur utiliss par cette catgorie) ont un indice suprieur 1. Les termes exclusifs sont suivis de *. Les mots sous reprsents ont un indice infrieur 1.

Modification des lignes ou colonnes du tableau lexical


A moins davoir des ides a priori bien arrtes pour ne sintresser qu un petit sous-ensemble du lexique, lanalyse dun tableau lexical conduit examiner de grands tableaux. Il est intressant de rduire la dimension de ces tableaux en slectionnant les mots intressants ou en se limitant au termes les plus significatifs par leur effectif (frquence absolue, spcificit...). On modifie les lignes du tableau en jouant sur les termes slectionns dans le lexique (utiliser la touche Esc pour revenir au lexique) ou en utilisant le bouton Slect (Voir Slections dans un tableau lexical). On peut changer les colonnes en revenant sur la slection des modalits avec le bouton Croiser. On dite avec Transfrer.

Dfinition du tableau
Pour dfinir les lignes du tableau, il faut marquer dans le lexique les mots qui figureront en ligne dans le tableau puis slectionner Tableau lexical dans le menu Vue. Le dialogue qui apparat permet de choisir la variable selon laquelle ventiler le lexique en cours d'analyse. On peut se limiter certaines catgories en slectionnant celles qui nous intressent dans la liste des modalits. Le bouton Croiser permet de slectionner une autre variable.

Choix des indicateurs calculer


Le bouton Compter permet de choisir les indicateurs afficher : Les effectifs : cest laffichage par dfaut. Il donne l'effectif de chaque catgorie. La dernire colonne fait la somme des effectifs en ligne. Si toutes les modalits n'ont pas t slectionnes, elle est diffrente de l'effectif sur l'ensemble du corpus. Les % en ligne : ils donnent une indication sur la rpartition entre modalits. Cette rpartition dpend videmment de leffectif des modalits. L'indice de spcificit permet de prendre la mesure de cet effet.

Poursuivre l'analyse du tableau lexical


Le bouton Analyser transfre le tableau dans l'environnement d'analyse des tableaux croiss. On pourra approfondir l'analyse (Chi, AFC) et illustrer les rsultats par des graphiques ou des cartes situant les locuteurs par rapport au vocabulaire employ. Retour l'atelier lexical par le bouton Lexique.

34

1/ Marquer les mots dans le lexique 2/ Choisir la variable de contexte

Tableau lexical

3/ Slectionner les mots significatifs

4/ Analyser

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Slectionner les termes

4. Listes des mots spcifiques


Un tableau lexical peut tre prsent de manire plus directe en dressant, pour chaque colonne du tableau, la liste des mots utiliss par la catgorie correspondante. On peut ainsi chercher quels sont les mots qui distinguent chaque catgorie et analyser la variation des noncs selon les parties du texte, selon les locuteurs, ou selon les catgories de rpondants, cest--dire selon le contexte.

Outre la slection pralable effectue dans le lexique, le bouton Select permet d'affiner les conditions de slection : les mots exclusifs de chaque catgorie ; les mots communs toutes les catgories ; les mots communs certaines catgories seulement. Ces choix peuvent tre complts par des conditions sur les effectifs et/ou sur la spcificit (Voir Slection dans un tableau lexical). En bas de la fentre des mots spcifiques, on peut lire le nombre total de mots retenus. On peut ainsi contrler la svrit des slections. Les boutons Analyser, Marquer, Rduire fonctionnent exactement comme dans la fentre du tableau lexical : Analyser pour poursuivre l'analyse en produisant des cartes d'AFC dans l'environnement d'analyse des tableaux croiss, Rduire pour liminer les mots outils du lexique. Marquer permet daller marquer dans le lexique les mots slectionns. Ceci est ncessaire si on veut examiner leur environnement textuel, les ajouter dans un dictionnaire ou faire toute autre opration sur ce lexique particulier.

Produire des listes de mots spcifiques


Pour obtenir la liste des mots spcifiques un contexte, allez dans la liste Vue et choisir Mots spcifiques. Comme pour un tableau lexical, choisissez la variable de contexte et / ou les modalits retenir. Si cette variable est numrique, l'ge par exemple, commencez par dfinir des classes (Recoder, Mettre les numriques en classes). Le bouton Croiser permet de changer la variable slectionne pour le croisement.

Prsenter les listes


Le Sphinx calcule le tableau lexical et affiche directement la liste des mots propres chaque contexte en appliquant les paramtres courants de slection (Voir Slections dans un tableau lexical). On peut faire afficher les frquences ou l'indice de spcificit en utilisant le bouton Compter qui permet galement de paramtrer le calcul de lindice de spcificit (Voir Indices de spcificit). Le bouton Classer permet dafficher la liste des mots selon l'ordre du lexique courant ou par ordre dcroissant des valeurs de l'indice de spcificit.

Les rponses caractristiques


Les rponses caractristiques d'une catgorie sont celles qui contiennent le plus de mots spcifiques cette catgorie. Grce un calcul effectu sur les indices de spcificit, on peut ainsi sortir, pour chaque catgorie, la liste des rponses qui la caractrisent le mieux. Pour lancer la recherche des rponses caractristiques, activez le bouton Rponses caractristiques qui se trouve en bas gauche de lcran.

36

1/ Marquer les mots dans le lexique 2/ Choisir la variable de contexte Nb. Occurrences

Liste de mots spcifiques Indice de spcificit

3/ Affiner les conditions de slection 4/ Sortir les rponses caractristiques

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Choisir les zones de langage

5. Slections dans un tableau lexical ou dans des listes de mots spcifiques


La recherche des caractristiques lexicales d'un tableau lexical ou de listes de mots spcifiques permet de mettre en vidence les zones de langage, le jargon, ou le langage commun. C'est un temps fort de l'analyse lexicale. On peut procder de manire systmatique et aveugle avec l'inconvnient de produire des tableaux et listes trs longs examiner et dont les lments ne sont pas forcment significatifs.

Les 3 cases cocher Inclure les mots exclusifs d'une catgorie, Inclure les mots communs toutes les catgories, Inclure les mots communs certaines catgories permettent de concentrer l'analyse sur des zones de langage particulires ; ce qui est essentiel du point de vue de la communication.

Limiter par la frquence


La case cocher Seuil de frquence permet de n'examiner que les termes suffisamment frquents dans le corpus (on peut par exemple ne retenir que les termes de frquence suprieure la moyenne). Cette condition peut tre nuance en l'imposant chaque catgorie ou une au moins.

Procder d'une manire slective


Le logiciel permet, par les actions sur le lexique et par un dialogue de slection (Slect), de cibler la recherche : Slectionner les lments lexicaux en fonction de leur contenu smantique : on travaillera de prfrence sur le texte lemmatis, ou mieux encore sur une seule catgorie syntaxique (nom, verbe...). On a tout intrt liminer les mots outils ou termes vides, effectuer des regroupements, ou slectionner les termes les plus significatifs. Ce travail s'effectue dans le lexique par les boutons Supprimer, Regrouper, Marquer. Filtrer par la statistique en tenant compte de 3 critres : la prsence dans une seule catgorie, toutes les catgories ou certaines seulement, la frquence et la spcificit.

Tenir compte de la spcificit


La spcificit indique dans quelle mesure un terme est sur-reprsent ou sous-reprsent dans une catgorie. L'indicateur est gal 1 si la proportion dans laquelle il est utilis est la mme que sur l'ensemble du corpus. Si le terme est sur-employ, lindicateur est suprieur 1. Il est infrieur 1 dans le cas inverse. On peut fixer un seuil et choisir de ne tenir compte que des termes de spcificit positive (case Positive coche). En cochant galement Ngative, on retient tous les termes sur-reprsents (marqus +) ou sous-reprsents (marqus -). Les exclusifs sont marqus dun *.

Slectionner selon le sens


La case cocher Uniquement les mots marqus permet de faire la slection dans le lexique. Seuls les mots marqus figureront dans le tableau ou les listes. Si aucun mot n'est marqu, le lexique entier est analys. Le bouton Marquer ralise l'opration inverse en marquant dans le lexique les mots slectionns grce la statistique.

Combiner les critres de slection


On joue sur l'ensemble de ces critres en les combinant. On rduit indiffremment la slection en jouant sur le seuil de spcificit ou sur la frquence. Le nombre de mots slectionns peut orienter la recherche. Cette indication figure au bas de la fentre.

38

Slection dans le tableau lexical et la liste de mots spcifiques Identifier les zones de langage

Limiter par la spcificit

Limiter par la frquence

Limiter selon le sens des mots Limiter par longueur de la liste Effectifs Indice de spcificit

Mot sur-reprsent

Mot sous-reprsent

Mots exclusifs

Nb. de mots retenus


Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

6. L'indice de spcificit
Dans le Sphinx, les calculs de spcificit sont utiliss en diffrentes circonstances : rechercher des caractristiques (Caractriser, Tableau de caractristiques), tablir des listes de modalits spcifiques (Tableau de modalits spcifiques). Ils obissent toujours au mme principe.

Par dfaut, cet indicateur est calcul par rapport l'effectif total des seuls mots figurant dans le tableau. Pour que N et Nc soient calculs pour tous les mots prsents dans le lexique courant il faut cocher loption Calcul sur lensemble du lexique (bouton Compter). En gnral, le calcul par rapport l'ensemble des mots du lexique a plus de pertinence. Il renvoie la globalit du discours. En se limitant l'ensemble des mots slectionns, on risque de se rfrer un ensemble dnu de fondement en terme d'nonciation.

Comparer la distribution observe une distribution de rfrence


Ces calculs s'apparentent aux calculs effectus 2 pour le test du Chi . Il s'agit de mettre en vidence des carts une rpartition de rfrence. On procde en calculant un effectif thorique rpondant une hypothse de rpartition proportionnelle des lments tudis. L'cart la rfrence est mis en vidence par le rapport entre l'effectif thorique et celui qu'on observe : si les 2 effectifs sont identiques, le rapport est gal 1, la rpartition est proportionnelle ; si l'effectif rel est suprieur l'effectif thorique, l'lment considr est sur-reprsent et le rapport est suprieur 1 ; si l'effectif rel est infrieur l'effectif thorique, l'lment considr est sous-reprsent et le rapport est infrieur 1.

Choisir un seuil de slection


A la diffrence du test du Chi , on n'utilise pas ici de modle probabiliste pour formuler un jugement sur la significativit de l'indicateur. Il s'agit plutt de l'utiliser d'une manire relative pour slectionner les carts les plus forts. Le problme est en effet ici de trouver des moyens efficaces et pertinents pour rduire la varit lexicale et ne retenir que les lments sur lesquels les diffrences sont les plus fortes. S'il s'agit maintenant d'apprcier la significativit de 2 ces carts, on pourra se reporter au test du Chi aprs avoir recod les lments lexicaux tudis dans une variable nominale (Voir Recoder les textes).
2

La mthode de calcul
Si on note N le nombre total de mots dans le corpus, m le mot utilis, c la catgorie considre, Nm le nombre de fois o le mot m est utilis par toutes les catgories confondues, Nc le nombre total de mots dans la catgorie c et Ncm le nombre de fois o le mot m est utilis dans la catgorie c, lindicateur de spcificit est gal : Ncm / (Nc * Nm / N)

40

Indicateur de spcificit

Tableau lexical

Effectif thorique (hypothse de rpartition proportionnelle)

Nb. total de tous les mots dans la catgorie (Nc)

Nb d occurrence du mot toutes catgories (Nm)

Nb. total d occurrence de tous les mots dans toutes les catgories (N)

Indicateur de spcificit

Effectif rel (Ncm)

1,09 = 9 / (33 * 27 / 108) )

Effectif thorique

Liste de mots spcifiques

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

7. Comparer un lexique de rfrence


La fonction Comparer, accessible par un des boutons de commande de latelier lexical, permet deffectuer une comparaison du lexique avec un dictionnaire de rfrence. Le dictionnaire de rfrence est un ensemble de mots assortis dune frquence. Comparer le lexique du corpus tudi avec un dictionnaire de rfrence, cest retrouver les mots qui sont surreprsents ou sous-reprsents dans le texte par rapport cette rfrence.

Ainsi, si on tudie chaque semaine le corpus dune mission tlvise, on pourra, semaine aprs semaine, construire le dictionnaire de rfrence de cette mission et comparer le vocabulaire de lmission en cours lensemble des missions prcdentes, et ceci, sans traiter le trop volumineux corpus de lensemble des missions.

Rsultats de la comparaison
Chacun des mots pourra tre : dans le corpus mais pas dans la rfrence ; dans la rfrence mais pas dans le corpus ; sous-reprsent dans le corpus ; sur-reprsent dans le corpus. On cochera les lments souhaits dans le dialogue des options.

Quelle rfrence ?
Un dictionnaire de rfrence peut tre gnral, par exemple le lexique de tous les mots utiliss dans tous les articles du journal Les Echos . On comparera une coupure de presse cette rfrence pour mesurer si elle est dans le ton. Un dictionnaire de rfrence peut tre thmatique, par exemple les verbes modaux dans lensemble des discours dune personnalit politique. On comparera lutilisation de ces verbes entre sa dernire prestation et lensemble de ses discours.

Options de calcul
Le calcul qui permet de fonder la sur-reprsentation ou la sous-reprsentation est le Rapport des frquences ou la Comparaison de frquences. Les frquences servant de base au calcul peuvent aussi tre calcules de deux manires : le pourcentage dapparition du mot par rapport lensemble des mots concerns (corpus ou rfrence) ; le pourcentage dapparition du mot par rapport lensemble des mots communs au corpus et la rfrence. Ces diffrents modes de calcul ont dj t dcrits dans le cadre des listes de mots spcifiques.

Crer / enrichir un dictionnaire de rfrence


La syntaxe dun dictionnaire de rfrence est : jaune 24 rouge 31 vert 23 bleu 94 noir 45 Chaque mot est suivi sur la mme ligne de sa frquence. Un tel dictionnaire peut tre construit dans un traitement de textes partir de valeurs obtenues par ailleurs. Le dictionnaire peut aussi tre enrichi en lui ajoutant le lexique du corpus en cours dtude.

Limiter la comparaison
Comme dans les listes de mots spcifiques, le rsultat de cette comparaison est trop volumineux et il faut limiter cette comparaison pour nen restituer que lessentiel. On limitera ainsi la comparaison aux seuls mots ayant une frquence minimale n dans le corpus tudi. On appliquera un seuil la comparaison pour ne restituer que les lments vraiment sur-reprsents ou sousreprsents. On ne restituera que les n mots les plus caractristiques.

42

5 des couleurs rfrences napparaissent pas dans le texte

Les couleurs dans le texte ne sont quau nombre de trois et ne reprsentent que 1,32% du corpus

Le mot rouge est nettement surreprsent dans le texte. En effet, il reprsente 77,8 % des occurrences des couleurs dans le corpus et 20,8 % des occurrences des couleurs dans le dictionnaire de rfrence.

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

44

Codification automatique des textes

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Slectionner une variable texte

1. Crer de nouvelles variables dorigine lexicale


Une variable texte peut tre transforme par la lemmatisation et enregistre sous la forme dune nouvelle variable contenant le texte lemmatis. Le Sphinx offre dautres opportunits pour crer de nouvelles variables partir du texte analys : Variables nominales pour reprer dans le texte la prsence dun ou plusieurs mots dfinis a priori comme les modalits de la nouvelle variable : le texte est codifi automatiquement en fonction des mots marqus dans le lexique. Variables numriques pour enregistrer une mesure de nature lexicale effectue sur chaque observation : le texte est quantifi. Variable texte pour enregistrer un texte modifi par rapport loriginal : le texte est transform. Toutes ces oprations donnent lieu la cration dune nouvelle variable qui vient sajouter la suite de la liste des variables et des questions. Ces nouvelles variables seront disponibles pour toutes les analyses statistiques que le Sphinx propose par ailleurs. La possibilit de crer ainsi de nouvelles variables nominales ou numriques permet de ramener lanalyse dun corpus textuel des procdures statistiques classiques. D'autre part, en transformant le texte, on peut conserver dfinitivement les rductions opres partir du lexique (liminations, regroupements thmatiques, solidarisation des expressions et segments...). La squence des oprations est la suivante :

L'article Etudier les textes du menu Stade et du menu Recoder permet de choisir la variable texte et vous place dans l'atelier lexical. Dans l'atelier, vous pouvez aussi directement choisir une autre variable en utilisant le bouton Autre.

Slectionner les lments lexicaux prendre en considration


Dans le lexique des mots ou opre les rductions, regroupements utiles. Puis lments partir desquels nouvelles variables. des expressions, on suppressions ou on slectionne les seront cres les

Slection d'une procdure de recodification


Le bouton Recoder ouvre le dialogue dans lequel on dfinit le type de la nouvelle variable et les oprations mettre en uvre pour la crer.

Dnomination et enregistrement de la nouvelle variable


Le dialogue habituel de cration d'une nouvelle variable s'affiche. La premire tape consiste donner un nom cette variable. Pour la suite des analyses, il est utile de noter toutes les indications ncessaires afin de retrouver lorigine des nouvelles variables ainsi cres. A cet effet, utiliser le cadre prvu pour la description de la variable en notant les principales tapes qui la dfinissent.

46

1/ Slectionner une variable texte 2/ Prparer le lexique et / ou marquer les lments prendre en considration

3/ Slectionner le type de la nouvelle variable

Recoder selon la prsence des mots marqus

Mesurer les proprits lexicales

Transformer le texte

4/ Nommer la nouvelle variable et la crer

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

2. Codification lexicale
Il s'agit de codifier le texte en reprant automatiquement la prsence, dans les rponses, des mots marqus dans le lexique. Cette mthode est trs efficace si le lexique a t au pralable correctement mis en forme : lemmatisation ou regroupement des diffrentes formes dun mme mot, regroupement des synonymes ou quivalents, usage de dictionnaires thmatiques pour regrouper entre eux tous les termes porteurs dune mme signification. Sous ces conditions, on peut faire lconomie de la mthode classique danalyse de contenu (Voir Coder des textes) dont les inconvnients sont largement compenss par le caractre automatique et objectif de la procdure qui suit. La dmarche gnrale est la suivante : prparer le lexique : analyser de prfrence un corpus lemmatis et effectuer les groupements ncessaires ; marquer dans le lexique les lments que lon souhaite reprer dans la rponse. Sil sagit de termes regroups (lments commenant par un #), la prsence dun au moins des lments du groupe suffit pour identifier la prsence du thme correspondant ; agir sur le bouton Recoder et choisir Variable ferme pour dfinir le type de variable crer.

Attention : le balayage des rponses se fait en suivant les rgles de la navigation lexicale. Si la liste droulante Navigation est sur loption Obs. avec le mot actif, seules les observations contenant ce mot activeront la modalit Oui . Pour reprer la prsence de l'un des mots, il convient donc de slectionner loption Obs. ayant un des mots marqus. Par dfaut, la liste des mots marqus est reprise dans le libell de la nouvelle variable sauf si vous entrez votre propre description. Lnumration est tronque si la liste est trop longue.

Cration dune variable ferme sur les mots du lexique


Si vous optez pour Ferme sur les mots marqus du lexique, la nouvelle variable a autant de modalits que de mots marqus dans le lexique. Au maximum 50 ; ce qui correspond la limite des rponses aux questions fermes. Une mme rponse peut contenir plusieurs mots marqus. Ainsi la nouvelle variable est rponses fermes multiples. Le nombre maximum de rponses possibles est a priori gal au nombre de mots slectionns. Il est finalement ajust par le logiciel en fonction du nombre maximum de mots effectivement prsents dans une rponse. Le rsultat du dpouillement plat de la nouvelle variable ne correspond pas ncessairement au nombre doccurrences affiches dans le lexique. En effet, les variables fermes sur les mots du lexique dnombrent des rponses et non des mots. Si un mot est prsent plusieurs fois dans une mme rponse, leffectif des rponses nest incrment que de 1. L'effectif obtenu indique le nombre d'observations contenant au moins une fois le mot considr.

Cration de variables oui/non


Si vous slectionnez loption Variable oui/non : la nouvelle variable aura deux modalits de rponses : Oui et Non . La modalit Oui correspond au cas o lun des mots slectionns dans le lexique est prsent au moins une fois dans la rponse.

48

Coder les mots marqus dans le lexique

Elments lexicaux pris en compte

Variable Oui / Non

Plaisir de manger 12 Oui Non TOTAL OBS.

Nb. cit. 236 74 310

Frq. 76,1% 23,9% 100%

Plaisir de manger_R2 Non- rponse manger bon repas ami got plaisir plat faim aliment #famille restaurant table Dveloppement 2005 TOTAL-OBS.

Nb. cit. 74 107 95 50 38 24 23 19 15 14 26 13 10 310

Frq. 23,9% 34,5% 30,6% 16,1% 12,3% 7,7% 7,4% 6,1% 4,8% 4,5% 8,4% 4,2% 3,2%

Variable ferme sur les mots du lexique

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx

3. Mesures lexicales
On cherche caractriser les noncs par le poids de certains mots ou l'nonciation par les caractristiques de chaque observation. Ceci peut donner lieu aux mesures suivantes :

Loption Pour chaque mot permet de crer autant de variables que de mots slectionns. Leur nom contient celui du mot suivi de l'extension _O. Elles enregistrent le nombre de fois o le mot est prsent dans l'observation. En slectionnant Pour l'ensemble des mots, une seule variable est cre : elle donne le nombre fois o l'un des mots marqus est prsent.

Indications relatives la prsence de certains mots


On cherche mesurer l'importance dans le corpus des mots slectionns dans le lexique : Nombre doccurrences des mots marqus : calculer le nombre de fois o ces mots apparaissent ; Intensit lexicale des mots marqus : calculer leur poids relatif par rapport au nombre total de mots de la rponse (100*Nb. mots marqus / Nb. total de mots). Ces calculs peuvent sappliquer lensemble des mots marqus ou chacun deux. Dans ce dernier cas, on cre autant de variables que de mots marqus.

Intensit lexicale des mots marqus


Cet indicateur permet de mesurer limportance relative dun mot ou dun groupe de mots. Il exprime, en pourcentages, la place accorde aux thmes ou significations que ces mots reprsentent. On a les mmes options que pour le nombre d'occurrences : calculer une variable pour chaque mot (note mot_I) ou une seule variable pour l'ensemble des mots.

Banalit de l'observation
Cet indicateur est gal au nombre de fois o les mots de l'observation apparaissent en moyenne dans tout le corpus. Cette variable permet ensuite de slectionner les rponses les plus banales, les moins banales et de les lister... Il est prfrable de calculer la banalit en ignorant les mots outils.

Caractristiques des observations


On prend en compte le lexique courant sans tenir compte des mots marqus : Longueur de l'observation : compter le nombre de mots utiliss ; Banalit de l'observation : calculer le nombre moyen de fois o les mots de la rponse sont rpts dans tout le corpus ; Richesse de l'observation : calculer le nombre de mots diffrents. Pour construire ces indicateurs, on slectionne l'une des mesure lexicales proposes.

Nombre total de mots (longueur de l'observation)


En calculant le nombre de mots de l'observation - la longueur - (sur la base du lexique courant et sans tenir compte des mots marqus), on obtient un indicateur trs utile dans l'analyse des questions ouvertes. Il est identique celui obtenu en choisissant Nombre doccurrences des mots marqus avec l'option Pour l'ensemble des mots et sans mots marqus dans le lexique.

Nombre doccurrences des mots marqus


S'il n'y a pas de mots marqus, le calcul tient compte de la totalit des mots du lexique courant (sans les mots ignors ou supprims).

Richesse de l'observation
Elle est gale au nombre de mots diffrents. Ce calcul ne tient pas compte des mots marqus et se fait sur la base des lments du lexique courant.

50

Mesures lexicales

Groupe des variables de chaque mot

Valeur moyenne manger_O bon_O repas_O chose_O #en_famille_O got_O plaisir_O plat_O faim_O aliment_O restaurant_O table_O Ensemble 0,37 0,34 0,17 0,09 0,08 0,08 0,08 0,06 0,05 0,05 0,04 0,03 0,12

Somme 115 105 53 29 26 24 24 20 15 14 13 10 448

Une variable pour lensemble des mots


Nb. cit. Frq.

Plaisir de manger__R

Nombre doccurrences des mots marqus

Non- rponse 1 0,3% Moins de 1,00 73 23,5% De 1,00 2,00 104 33,5% De 2,00 3,00 71 22,9% De 3,00 4,00 38 12,3% De 4,00 5,00 18 5,8% Plus de 5,00 5 1,6% TOTAL OBS. 310 100% Minimum = 0, Maximum = 6 Somme = 458 Moyenne = 1,48 Ecart-type = 1,24

Intensit

=100*Nb. Occurrence marques/ Nb. total de mots Longueur

Banalit
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Richesse

4. Modification du contenu d'une variable texte


Comme on le fait quand on lemmatise un texte, il sagit l de crer une nouvelle variable texte contenant un texte modifi. Cette possibilit permet : denregistrer un nouveau texte en tenant compte des rductions, suppressions et regroupements oprs dans le lexique des mots ou des expressions. Ceci est utile pour travailler ensuite sur des textes rectifis ou expurgs ; de changer le niveau danalyse dun texte en fractionnant chaque observation en fragment de texte plus fin.

Texte rduit aux mots du lexique


Aprs avoir fait dans le lexique les modifications dsires : ignorer des mots (Rduire), en supprimer (Supprimer), en regrouper (Regrouper), on excute la squence Recoder / Texte modifi / Texte rduit aux mots du lexique. Dans le contenu de la nouvelle variable texte, les mots ignors ou supprims n'apparatront plus, et les lments d'un groupement dfini dans le lexique seront remplacs par le nom de ce groupement. Si des mots sont marqus dans le lexique, eux seuls seront utiliss pour construire la nouvelle variable.

Lexique des mots : si c'est le lexique des mots qui est ouvert (menu Lexique / Mots), marquez dans le lexique les lments appartenant aux mots composs que vous souhaitez reconstituer, puis excutez : la squence Recoder / Texte modifi / Relier les mots marqus conscutifs. On cre ainsi un nouveau texte o les suites conscutives seront solidarises par un tiret ( _ ) pour ne former qu'une seule forme graphique. C'est une manire de solidariser les mots composs. Mais il est beaucoup plus intressant de procder partir du lexique des expressions. Lexique des expressions : lorsque le lexique des expressions est ouvert, le dialogue du bouton Recoder offre 2 possibilits : Texte rduit aux expressions (la nouvelle variable texte ne contiendra que ces expressions) ou Relier les mots de chaque expression. Dans ce dernier cas, la nouvelle variable conserve l'intgralit du texte original mais les expressions apparatront comme une seule forme graphique (les lments formant l'expression sont relis par _ : mot_compos).

Relier les mots conscutifs


Il faut distinguer 2 cas :

52

Modifier le texte Transformer en fonction des mots

Transformer les expressions Rduire aux mots du lexique

Relier les expressions

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

5. Fractionner une variable texte


Cette option est utile quand on analyse des textes dont le dcoupage initial se rvle inadquat ou quand les rponses sont longues et comportent plusieurs phrases. Il est en effet gnant, pour certaines oprations (lecture de la fentre corpus, navigation lexicale, cration de variables fermes sur les mots du lexique), davoir, au niveau de lobservation, un texte trop long ou comportant de trop nombreuses units de significations ou de trop nombreuses phrases. Le principe consiste alors fractionner chaque observation en fonction des sparateurs spcifis : retour chariot pour dcouper en paragraphes, point pour les phrases, autres signes de ponctuation pour les propositions, ou tout autre caractre introduit dans le texte cette fin. On opre ainsi un changement d'unit statistique (d'une population de paragraphes une population de phrases...). Une nouvelle enqute est alors cre : elle comporte un nombre dobservations suprieur la premire et rpond aux caractristiques suivantes : la nouvelle variable texte contient les fragments rsultant du dcoupage ; la valeur de toutes les autres variables est reprise lidentique pour chaque nouvelle observation cre par clatement de loriginale ; le texte des autres variables textes nest repris quune seule fois dans lobservation correspondant au premier fragment du texte clat. Pour les autres fragments, elle est vide ; une variable CLEF, de type numrique, est cre automatiquement la fin de la liste des variables. Elle contient, pour chaque nouvelle observation, la provenance de la partie fractionne. Pour fractionner une variable texte, procdez ainsi :

dans le dialogue ouvert par le bouton Recoder, slectionnez Texte modifi / Fractionner les rponses ; choisissez le ou les sparateurs dsirs en les tapant dans la bote Fractionner les rponses pour les sparateurs ; un dialogue vous avertit quune nouvelle enqute va tre gnre ; dans le dialogue standard de gestion de fichiers, donner un nom de rpertoire pour la nouvelle enqute ; le logiciel procde au dcoupage et la cration de la nouvelle enqute dans laquelle vous vous retrouvez. Cest la nouvelle variable qui se trouve maintenant active. Vous pouvez vrifier que le nombre dobservations a chang. Pour revenir lenqute dorigine, il faut louvrir nouveau.

Changement d'unit statistique


En procdant ainsi, on passe par exemple d'une population de paragraphes une population de phrases. On change d'unit statistique. Un cas particulier de cette opration consiste fractionner la rponse en autant de mots qu'elle contient. Ceci est particulirement intressant si la rponse contient par exemple des noms de marque. Ce fractionnement s'effectue au stade de la Saisie des rponses, dans le menu Grer et dans la fonction Changer d'unit statistique : option Autant d'units que de fragments d'une question texte (Voir le paragraphe Changer d'unit statistique).

54

Texte initial

E c l Texte fractionn a t e r

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

56

Ouvrir un fichier de donnes textuelles

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

1. Du corpus textuel la base de donnes


On peut, avec le Sphinx, analyser nimporte quel corpus disponible sous la forme dun fichier texte (ASCII) : interviews non structures, tables rondes, comptes rendus de runions, ... saisis dans un traitement de textes ; documents de toute nature : articles de presse, textes littraires, pages Html, rcuprs dans un fichier texte ; bases de donnes : fichiers dadresses, bases bibliographiques, exports sous forme de fichier texte. Pour analyser ce type de donnes, il faut tout dabord les intgrer dans Sphinx en crant, partir du ou des fichiers d'origine, une base de donnes adquate. Cest ce quon peut faire partir du menu Fichier et de la rubrique Ouvrir un fichier de donnes. Mais au pralable, il faut rflchir la structuration du corpus. Est-il form naturellement d'units lmentaires qui se rptent comme les enregistrements d'une base bibliographique ou les couples questions/rponses d'une interview ? Peut on identifier diffrents sous-ensembles de textes comme les titres et les rsums d'une base bibliographique, ou les questions et les rponses dans une interview ? Est-il structur en catgories homognes comme l'entretien auquel attribuer un couple de question / rponse dans un corpus regroupant plusieurs interviews o une anne situant le titre et le rsum d'un ouvrage ? La rponse ces questions dpend de la structuration "naturelle" du corpus, mais galement de la stratgie d'analyse envisage. Elle conduit : Dfinir les observations : selon quelles units lmentaires dcouper le corpus ?

Phrases, paragraphes, pages, parties, documents, rpliques, ensembles de rpliques, interviews, fiches... constitueront la population analyser. En analyse de donnes textuelles, on utilise souvent le mot fragment pour qualifier ces units lmentaires, qui correspondent aux individus ou observations formant la population tudie. Dfinir les variables : selon quels points de vue structurer le corpus ? On peut considrer le texte relatif une unit lmentaire comme un tout ou distinguer plusieurs sousensembles (la question et la rponse, le titre et le rsum...) et dfinir ainsi une ou plusieurs variables textes. On peut aussi identifier des catgories auxquelles appartiennent les units lmentaires : le document ou la partie qui situe la phrase, le nom de la personne interviewe qui situe la question et la rponse, l'anne pour le titre et le rsum. On cre pour cela des variables nominales dites variables de contexte qui situent les variables textes. La base de donnes cre partir du corpus sera organise en fonction des indications de dcoupage et de structuration. Elle sera compose dautant de fragments (lignes / observations...) que le texte contient dunits lmentaires. Chaque fragment sera compos dune ou plusieurs variables : textes et contextes dfinissant le statut des textes. A titre d'exemple, le schma ci-contre illustre les diffrentes manires de structurer le texte de 3 interviews non directives : dcouper selon l'entretien : la base comporte 3 observations (les interviews), une variable texte (texte des questions ou des rponses), une variable de contexte (l'entretien). On ne peut pas faire la diffrence entre question et rponse ; dcouper selon la prise de parole : la base comporte 24 observations (tour de parole ou rplique), une variable texte (texte des questions ou des rponses), 2 variables de contexte : l'interview, et le statut de la variable texte (Question ou Rponse). On ne peut pas croiser question et rponse ; dcouper selon l'change : la base comporte 12 observations (changes question / rponse), deux variables textes (le texte de la question et le texte de la rponse), une variable de contexte (l'interview). Cette solution permet de distinguer question et rponse et de croiser leur vocabulaire.

58

Du texte

... aux bases de donnes

Variables de contexte

Variables textes

Questions

Rponses

Questions

Rponses

Identit de linterview Statut du texte (question/rponse) Texte des questions ou des rponses
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

3 entretiens

24 rpliques

12 changes question/rponse

2. Ouvrir un texte analyser


C'est un cas particulier de l'ouverture de donnes externes. Vous devrez d'abord confirmer qu'il s'agit d'un texte analyser, ouvrir ensuite le fichier, et choisir enfin quel type de structuration il correspond.

Lancer la squence d'ouverture


Si vous venez de dmarrer le Sphinx, utilisez le bouton Fichier de donnes. Si vous tes dj en train de travailler, utilisez dans le menu Fichier, l'article Ouvrir un fichier de donnes. Vous pouvez galement utiliser le bouton Ouvrir un texte du panneau lexical. Dans le dialogue Ouvrir un fichier de donnes, choisissez l'option Un texte analyser. Ne choisissez Des donnes formates que si vos donnes sont prsentes sous forme de tables (en provenance d'Excel ou Access par exemple).

la premire correspond au cas o vous analysez un ou quelques textes, peu ou irrgulirement structurs : discours, livre, rapport, pice de thtre, compte rendu de runion, de table ronde, focus groups... ; la deuxime, au contraire, concerne des ensembles de textes rgulirement structurs : bases de donnes bibliographiques, sites Internet, collection de documents (coupures de presses, changes dans une messagerie...), entretiens non directifs... Dans le premier cas, choisir loption Les textes sont annots : les indications naturelles de structurations sont inexistantes ou peu nombreuses, hormis les annotations et marques introduites dans une phase prparatoire pour guider le logiciel. Dans le deuxime cas, choisir loption Les textes sont baliss : on trouve les traces de l'organisation des donnes (les balises), elles rsultent de leur origine informatique (bases de donnes, fichiers) ou de leur mode d'laboration (fiches de lectures, compte rendu d'entretiens...). Le choix renvoie aussi au caractre rptitif ou non du matriau analyser. L'option Les textes sont baliss correspond bien aux cas o la nature des donnes impose un dcoupage en units lmentaires (la note documentaire, la fiche, la coupure de presse, le couple question / rponse). Au contraire, loption Les textes sont annots correspond au cas o aucun choix ne s'impose a priori.

Ouvrir le fichier
Avec le dialogue habituel de Windows, cherchez votre fichier et ouvrez-le. Une nouvelle fentre apparat et vous montre le contenu du fichier. Si vous ne reconnaissez pas vos donnes, vous vous tes tromp de fichier ou ce n'est pas un fichier au format texte. L'ouverture ne se passera correctement que si le fichier n'est pas utilis en mme temps dans un autre logiciel.

Choisir le format correspondant la structuration des donnes


Avant de passer l'tape suivante, vous devez indiquer au logiciel comment il devra interprter les indications de structuration prsentes dans vos donnes. Deux possibilits vous sont offertes :

60

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

3. Texte balis
On obtient par exemple un texte balis en extrayant des lments d'une base de donnes ou en compilant un ensemble de messages lectroniques. Ces donnes sont en effet structures par les balises qui indiquent les diffrentes rubriques. Toutes ne sont pas forcment prsentes, mais chaque information est rattache l'une d'elles. A partir des balises, le logiciel peut organiser la nouvelle base de donnes : il repre les balises dans le texte et les soumet pour validation l'utilisateur. Puis il cre une variable par balise, et parcourt le texte en affectant ce qui suit chaque balise la variable correspondante. Lorsqu'il rencontre nouveau une balise, il cre une nouvelle observation.

Une autre case cocher permet d'indiquer si, lorsqu'une balise est absente, le contenu de la variable doit tre admis non rponse ou si on doit plutt Conserver la valeur prcdente.

Identification des variables et des observations


La validation des balises dfinit la structure de la table de donnes. A chaque balise correspond une variable de la table (colonnes). Il y a autant de variables que de balises et autant d'observations que le nombre de fois o la balise la plus frquente apparat dans le texte (lignes). Une observation est dfinie par l'ensemble des balises (variables). Le logiciel parcourt le texte en affectant ce qui suit une balise la variable correspondante. La rptition d'une balise marque le passage l'observation suivante. Pour les balises manquantes, la variable est mise non rponse ou reprend la valeur prcdente. En fin de lecture, le logiciel affiche la liste des variables et leur donne un type par dfaut. On peut le modifier en indiquant le plus appropri dans la liste.

Dfinir les caractres dlimitant les balises


Aprs avoir slectionn loption Les textes sont baliss, un cran vous propose de valider les caractres permettant de reprer les balises : remplir pour cela les cases Les balises commencent par, et Les balises finissent par. Le retour chariot (^p, saut la ligne) et les deux points ( : ) sont proposs par dfaut. Les blancs sont ignors. Le logiciel explore les donnes et dresse la liste de tout ce qui se trouve entre 2 caractres dlimiteurs. Les ":" qui peuvent par ailleurs tre prsents dans le texte sont des sources d'erreur qu'il conviendra d'ignorer.

Cration de la base Sphinx


Aprs avoir contrl les variables, validez et donnez un nom votre base. Une nouvelle enqute est cre, vous pourrez la reprendre et lanalyser comme toutes les autres.

Contrler la validit des balises trouves


Le logiciel parcourt le texte et dresse la liste de tout ce qu'il trouve entre les caractres dlimiteurs en indiquant les frquences d'apparition. L'cran suivant affiche cette liste ; ce qui permet de prciser les lments considrer comme balises et ceux qui doivent tre ignors. Utilisez la case cocher Ne pas considrer la chane comme une balise pour marquer d'un x les lments ignorer. Dans l'exemple ci-contre, c'est le cas de mdecine, conomie politique ...

Les questions / rponses

4. Prparer et ouvrir un fichier d'entretiens semi-directifs


Les entretiens semi directifs sont insuffisamment structurs pour tre saisis dans le cadre fix a priori pour les questionnaires Sphinx, mais ils prsentent un niveau de structuration qui conduit les analyser comme des textes baliss. C'est dans cette optique qu'il convient d'organiser leur saisie. Dans l'exemple ci-contre, on utilise des balises en dbut de ligne (dlimiteurs ^p et : ) pour : dfinir la signaltique de l'entretien (Entretien, Sexe, Age, CSP) ; indiquer les grandes parties de l'entretien (Partie) ; distinguer les questions et les rponses (Q, R).

Ces balises ne sont pas marques, elles dfinissent l'observation lmentaire, c'est--dire que leur rptition fait passer l'observation suivante. Si 2 "Q" se suivent, ils appartiennent ncessairement des observations diffrentes, et dans ce cas, on aura un "R" non rponse.

Prcautions prendre au moment de la saisie


Le logiciel applique aveuglment les "rgles de reconnaissance" du texte. Il faut par consquent s'assurer qu'elles ont bien t respectes la saisie : les dlimiteurs de balises ne doivent pas tre prsents ailleurs dans le texte. Attention au " : " ou utilisez d'autres caractres( <, >, ]...) ; toutes les balises de contexte doivent tre documentes (mme si elles sont ventuellement vides).

Traitement des variables signaltiques


A la lecture du fichier, le logiciel repre que les balises Entretien, Sexe, Age, Csp sont en nombre infrieur aux autres. Il propose de les liminer en les marquant comme lments ne pas considrer comme balise (case cocher Ne pas considrer la chane comme une balise). Il faut changer cela en indiquant que lorsque la balise est absente, la valeur prcdente doit tre conserve. En effet, on souhaite ici que le couple question/observation dfinisse l'observation lmentaire, les autres balises renvoyant des variables de contexte. Pour que ces variables soient bien documentes, il faut cocher la case Si la balise est absente, conserver la valeur prcdente.

Traitement des parties


On procde de la mme manire pour la balise Partie. Ceci implique que tout couple de question/rponse est rattach une partie. On peut ainsi indiquer la structuration gnrale de l'entretien sans devoir ncessairement trouver toutes les parties dans tous les entretiens ni tous les couples de questions/rponses d'une mme partie les uns la suite des autres. Seuls les changements de partie doivent tre signals ; c'est ce que permet l'option Si la balise est absente, conserver la valeur prcdente.

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Signaltique Variables de contexte Parties de linterview

Questions Rponses

Variables textes

5. Texte annot
On utilise cette approche lorsque le ou les textes analyser sont faiblement structurs ou pas du tout. Se pose alors la question du dcoupage en fragments lmentaires. La dmarche la plus simple consiste s'appuyer sur la structuration naturelle du texte. Enfin, la possibilit d'interprter des annotations apportes dans le texte permet d'en reprer les lments et/ou de les commenter.

les annotations globales de type JALON : tous les fragments, jusqu' la prochaine annotation globale, sont dsormais affects par cette annotation ; la syntaxe respecter est la suivante : le contenu est dfini entre crochets et prcd d'une mention prcisant son type : [MT= contenu ]
M= pour MARQUE (variable ferme) MT= pour MARQUE TEXTE (variable ouverte) J= pour JALON (variable ferme) JT= pour JALON TEXTE (variable ouverte)

Dcouper le texte en fragments lmentaires


Indiquez si vous souhaitez dcouper le texte en phrases ou en paragraphes en cochant les boutons appropris. Le Sphinx cre un nouveau fragment chaque caractre de ponctuation forte (Phrases) ou retour chariot (Paragraphes). Vous pouvez galement spcifier le caractre sparateur de votre choix pour dcouper selon vos propres indications (Caractres sparateurs). Une opration un peu plus complexe vous permet de dfinir plusieurs caractres sparateurs dont certains serviront structurer votre texte. Par exemple, pour distinguer des chapitres et des sections, portez, dans votre texte, chaque dbut de chapitre le caractre $, chaque dbut de section, le caractre . Pour indiquer que vous souhaitez dcouper votre texte en phrases et que les chapitres sont contenus dans des sections, cochez Niveaux et entrez vos caractres sparateurs sur le modle ci contre. Les sparateurs de fragments figurent gauche, ceux qui indiquent les chapitres et sections figurent en deuxime et troisime position (selon l'ordre d'inclusion).

Le bouton Dtail disponible dans loption Annotations permet : dindiquer les annotations qu'on souhaite utiliser (cocher la case correspondante) ; de donner un nom la variable ; de prciser si on souhaite conserver les annotations dans le texte ; dorganiser la propagation de la dernire annotation (Marque absente = Marque prcdente).

Numroter les fragments et les parties


Le bouton Numrotation permet de numroter les fragments et / ou de les rpartir en un nombre de parties dterminer (Indicateur de parties).

Interprter les annotations


Les annotations sont des repres ou commentaires rajouts dans le texte. Elles sont reconnues par le logiciel et permettent de crer des variables de contexte caractrisant les fragments auxquels elles s'appliquent. Le contenu de l'annotation peut donner lieu une variable ferme ou ouverte texte. On peut, d'autre part, les distinguer selon leur porte : les annotations locales de type MARQUE : un seul fragment sera affect par l'annotation (le fragment qui la contient) ;

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

1/ Dcouper 2/ Structurer

Structurer par niveaux

Structurer par dcompte des fragments Structurer par annotations Jalon Marque Sparateur

Slectionner les annotations et dfinir les variables

6. Exemples de textes annots


Selon la nature du corpus analys et des annotations qui ont t mises, on utilisera diffremment les possibilits offertes par le dialogue d'ouverture d'un Texte annot.

La nouvelle base contiendra la variable texte et 3 variables de contexte : le statut du texte (Question, Rponse), la Partie et le document d'origine (Fichier). En procdant ainsi, on peut dfinir la strate des questions, celle des rponses et se concentrer sur l'un ou l'autre des corpus. Mais on ne pourra pas rapprocher le texte d'une question de celui de la rponse qu'elle provoque. Cette stratgie convient aux entretiens non directifs. Mais si l'entretien est dirig avec des questions qui reviennent l'identique, il vaut mieux procder comme pour un texte balis. En assimilant le couple question / rponse une observation, on pourra croiser les vocabulaires correspondants.

Analyse de discours
On peut ramener ce cas celui de tout texte mono bloc dans lequel aucune structuration particulire n'est mise en vidence hors mis celle de la syntaxe. La solution la mieux approprie consiste : fragmenter le texte en phrases et dnombrer les paragraphes. Chaque phrase se trouve ainsi affecte un paragraphe repr par son numro. Pour cela, slectionner Niveaux et entrer les caractres de ponctuation forte dans la case de gauche et le retour chariot dans la case de droite ; dcouper le texte en 5 parties conscutives et de longueur gale (en nombre de fragments). On peut ainsi identifier des parties de dbut, de milieu et de fin du texte. Pour cela, dans le dialogue Numrotation cocher Numrotation des parties et Indicateur de partie : 5. La base de donnes obtenue comporte la variable texte et 3 variables de contexte contenant le numro de fragment le numro de paragraphe et de partie.

Pice de thtre
Ce cas peut se ramener au cas prcdent : on fait prcder chaque rplique d'une marque Personnage : [M=Harpagon], [M=Elise]. En dbut de chaque Scne, on pose un Jalon [J=Acte I Scne 1]..... Pour identifier les Actes indpendamment les uns des autres, on peut utiliser un sparateur de niveau en posant par exemple des $ au dbut de chaque Acte. La fragmentation peut se faire par phrases ou par rpliques. Dans ce dernier cas, faire concider la rplique et le paragraphe ou introduisez un niveau rplique.

Entretien non directif


Dans ce cas, on souhaite distinguer les questions des rponses pour pouvoir analyser le texte des rponses d'une manire isole. Dans le texte, on porte les annotations [M=Question] et [M=Rponse] au dbut de chaque Question / Rponse et aprs un retour la ligne. Pour identifier d'ventuelles parties, on ajoute des annotations de type jalon : [J=Introduction], [J=Partie 1]... au dbut de chaque partie. Pour dcouper le texte, choisissez Phrases et dans le dialogue Annotations, nommez Statut la variable Marque et Partie la variable Jalon. Cochez la case Marque absente = Marque prcdente (ceci permet de ne pas rpter la marque chaque phrase). Si vous avez plusieurs entretiens, vous pouvez faire un fichier pour chacun. Cochez alors la case Plusieurs fichiers.
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

AVARE.DOC : tel quil nous est parvenu


ACTE_V - SCENE_V ANSELME, HARPAGON, ELISE, MARIANE, FROSINE, VALERE, MAITRE_JACQUES, LE_COMMISSAIRE, SON_CLERC. HARPAGON : Oui, ils se sont donn l'un l'autre une promesse de mariage. Cet affront vous regarde, seigneur Anselme, et c'est vous qui devez vous rendre partie contre lui et faire toutes les poursuites de la justice pour vous venger de son insolence. ANSELME : Ce n'est pas mon dessein de me faire pouser par force et de rien prtendre un cur qui se serait donn ; mais, pour vos intrts, je suis prt les embrasser ainsi que les miens propres. HARPAGON : Voil, monsieur, qui est un honnte commissaire, qui n'oubliera rien, ce qu'il m'a dit, de la fonction de son office. (Au commissaire) Chargez-le comme il faut, monsieur, et rendez les choses bien criminelles.

Annotations
Jalons acte et scne liste des personnages prsents Marques nom du personnage didascalies

AVARE.TXT : aprs le traitement dans Word


$[J=ACTE_V - SCENE_V][JT=ANSELME, HARPAGON, ELISE, MARIANE, FROSINE, VALERE, MAITRE_JACQUES, LE_COMMISSAIRE, SON_CLERC] &[M = HARPAGON] Oui, ils se sont donn l'un l'autre une promesse de mariage. Cet affront vous regarde, seigneur Anselme, et c'est vous qui devez vous rendre partie contre lui et faire toutes les poursuites de la justice pour vous venger de son insolence. &[M = ANSELME] Ce n'est pas mon dessein de me faire pouser par force et de rien prtendre un cur qui se serait donn ; mais, pour vos intrts, je suis prt les embrasser ainsi que les miens propres. &[M = HARPAGON] Voil, monsieur, qui est un honnte commissaire, qui n'oubliera rien, ce qu'il m'a dit, de la fonction de son office. [MT=Au commissaire] Chargez-le comme il faut, monsieur, et rendez les choses bien criminelles.

AVARE.QUE : le dictionnaire des variables cres


1. REPLIQUES 2. DIDASCALIES 3. QUI PARLE 4. ACTE_SCENE 5. NUMERO_DANS_SCENE 6. NUMERO_DANS_PIECE 7. QUI EST SUR SCENE O(texte) O(texte) F(unique) F(unique) O(numrique) O(numrique) F(multiples;11) H quoi ! Charmante Elise,.... ( part) HARPAGON ; CLEANTE; ... ACTE1_SCENE1 ; .... 1 2 .......... 1 2 ...... HARPAGON ; CLEANTE; ...

7. Macro commandes pour la prparation des textes


Prparer un texte, nous l'avons vu, c'est indiquer par des caractres la structure du texte. Certains caractres sont des sparateurs de fragments, d'autres entourent les annotations qui illustrent le texte. Le texte original ne prsente pas en gnral cette structuration sous forme de caractres rservs. Par contre la typographie, les styles, la pagination contiennent des lments de structure. Les traitements de textes proposent des fonctions de Rechercher / Remplacer sophistiques qui sont trs utiles pour automatiser le processus. Elles sont assez difficiles mettre en uvre et, pour le traitement de textes Microsoft Word (version 6 et suivantes), un ensemble de macrocommandes est disponible pour effectuer simplement les oprations les plus courantes.

tous les n mots : on obtiendra des fragments de longueur identique ; avant le style "unstyle" : en rptant cette opration pour les styles Titre1, Titre2, Titre3, on aura un fragment pour chaque sous-partie du texte.

Reprer les annotations


Les annotations sont les portions de textes qui illustrent les fragments. Elles donneront lieu des variables fermes et n'apparatront pas dans le corpus proprement dit. Or dans le texte brut, ces annotations sont identifiables par le style (au sens de Word), par la typographie (gras, italique). Dans le dialogue, on trouve des options pour transformer en annotation : texte ayant le style "unstyle" texte en "gras" texte entre ( et ) : tous les textes entre parenthses seront transforms en annotations.

Installer les macro-commandes


Pour installer les macro-commandes, lancer Word, ouvrir le fichier Sphinx.dot qui se trouve dans le rpertoire Sphinx2000 puis rpondre affirmativement la demande de confirmation. Les macro-commandes sont dsormais disponibles et une barre d'outils spcifique a t cre. Dans cette barre d'outils, le bouton-outil lance un dialogue permettant d'oprer des transformations sur l'ensemble du texte. Ces transformations consistent insrer des sparateurs ou transformer des portions du texte en annotations.

Recherche / remplacement avec attributs


Word permet d'effectuer des remplacements sophistiqus : en se fondant sur les attributs (police, taille, style, ) ; en utilisant des caractres gnriques ( * @ ?). L'utilisation de ces fonctions, bien documentes dans l'aide de Word, permet de rsoudre automatiquement la plupart des cas de figures non traits directement par les macrocommandes installes par le Sphinx.

Ouvrir le fichier modifi


Avant de quitter Word et de lancer l'analyse du fichier, il faut encore l'enregistrer au format texte, qui est le seul format reconnu par le Sphinx.

Placer des sparateurs


Pour tre certain de ddier un caractre (DOLLAR '$' par exemple) la sparation de fragments, il est prudent de supprimer pralablement les occurrences ventuelles dans le texte (Enlever les sparateurs $ & ). L'insertion des sparateurs peut se faire : avant chaque page : on pourra construire un index des mots dans le texte ;
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Puis dsigner le fichier Lexica.dot Choisir le bon type de fichier

Mthodologie

La barre doutils pour transformer le texte slectionn en annotation ou bien pour lancer le dialogue ci-dessous

Microsoft Word propose des options de recherche gnriques ou par attributs

10

Etudes de cas

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

1. Analyse des rclamations clients Marque Hextra


Contexte gnral et objectifs du projet : Une multinationale du secteur de lagro-alimentaire souhaite exploiter le texte des rclamations clients qui lui sont adresses, des fins de suivi qualit et de recherchedveloppement. Plus prcisment, les objectifs sont : - exploiter les rclamations consommateurs enregistres par le centre de contacts clientle : des donnes gratuites et disponibles trop souvent sous-utilises - construire un baromtre de suivi quantitatif des principaux thmes de rclamations - isoler dans le corpus des ides damlioration des produits existants ou des sources dinnovation Ressources humaines et technologiques mises en oeuvre dans ce projet : La saisie des rclamations se fait systmatiquement dans une base spcifique par deux oprateurs ddis dans le centre de relations clientle. Lintgration dans le Sphinx Lexica est effectue par le charg dtude. Description de l'tude ou de l'application : La dmarche dtude est la suivante : Recherche automatise: 1. Identifier les thmes principaux 2. Quantifier les thmes Recherche manuelle 3. Explorer des sujets cibls 4. Dcouvrir des ides Extraits des rsultats : A. Identifier les thmes principaux - Analyse des co-occurrences sur les 100 mots et expressions les plus cits - Pour une premire vision synthtique faisant apparatre les thmatiques principales - Technique utilise : analyse factorielle des correspondances B. Quantifier les thmes - Regroupement des formes textuelles par thmes - Manuellement ou avec un dictionnaire - Cration dune nouvelle variable ferme 2/3 des dclarations voquent au moins un de ces thmes 3 sujets majeurs pratiquement ex-quo Croisement avec dautres variables de ltude Regroupement automatique des dates de saisie par mois Croisement en fonction du mois de saisie + reprsentation graphique

Identifier les produits Hextra voqus par le consommateur Reprage des produits recherchs dans le texte Regroupements de plusieurs intituls diffrents par produits

12

produits Non rponse ptes Knackis jambon lardon pte_feuillete pte_pizza pte_brise cervelas Total 281 46,9% 157 26,2% 76 12,7% 32 5,3% 26 4,3% 23 3,8% 21 3,5% 18 3,0% 8 1,3% 599 26,2% 12,7% 5,3% 4,3% 3,8% 3,5% 3,0% 1,3% 46,9%

conservation DLC jambon Knackis allergies ptes pte_brise pte_feuillete

pte_pizza

Exemples :
n 110 Ce consommateur trouve notre Poitrine Fume par 3 ou 4 trop paisse pour barder une volaille ou mme pour manger avec des oeufs. Nous suggre de faire des tranches de 4mm et en mettre 5 par paquet et est certain que l'on ratisserait de la clientle n 379 Bravo pour votre kit pizza. Cette exprienc e me permet de faire une suggestion. Pourquoi ne pas faire de pte feuillete comme les kit pizza , cela serait plus conforme la plaque du four, faciliterait la dcoupe soit avec des ciseaux soit la roulette n 431 "sur l'emballage, il y a marqu ""pensez sortir votre pte du rfrigrateur 20 min avant utilisation"" mais c'est l'intrieur de l'emballage et on ne peut pas le lire avant d'avoir ouvert l'emballage elle suggre de le marquer l'extrieur" n 439 Il est marqu 4 recettes l'intrieur, pou rquoi ne pas les faire figurer l'extrieur, c'est bien plus simple lorsque l'on fait ses courses pour connatre les ingrdients acheter. Moi, je viens de rentrer de mes courses, j'ouvre la pte, et je m'aperois que je n'ai pas tous les ingrdients, et qu'il faut que je ressorte acheter ce qu'il me manque ! Cela m'agace et c'est pourquoi, je vous fais cette suggestion. n 489 je suggre que soit not sur les emballages de pte quel moule cela correspond

lardon recettes

cervelas

C. Explorer des sujets cibls - Exploration autour de lallergie - Lire toutes les rponses relatives ce thme = concordances - Mise en vidence du lexique relatif autour du mot cl pour identifier les thmes dallergie les plus frquemment cits D. Dcouvrir des ides - Plusieurs stratgies de recherche envisages - Parmi celles-ci, recherche autour du verbe suggrer 5 propositions mises par les consommateurs

Mthodologies rsultats :

utilises

pour

le

traitement

des

Un ensemble de techniques de lanalyse de donnes textuelles dont : - analyse de contenu, - regroupement de lexique par dictionnaire thmatique, - analyse factorielle des correspondances sur les occurrences principales, - extractions slectives de verbatims,

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

2. Identification du territoire de communication dune marque


Contexte gnral et objectifs du projet : - trouver un territoire de communication pour un transporteur (nouvelle gamme de produits) face aux concurrents - peu dinformation interne chez notre client et budget limit - donner une allure spectaculaire aux rsultats, pour dynamiser une prsentation aux forces de vente => do mthodologie par analyse textuelle des concurrents : leurs plaquettes papiers et leurs sites Internet Description de l'tude ou de l'application : Objectif : trouver un territoire de communication pour un transporteur (nouvelle gamme de produits) face aux concurrents Mthodologie : Premire tape : saisie complte du contenu des plaquettes (scan + OCR) + Capture des textes des pages web (automatique ou copier-coller) Deuxime tape : analyse lexicale Univers analys : Plaquettes : ABX Logistics - Darfeuille - Exapaq - Gefco Geodis Calberson - Jet Services - Joyau - Mory - Norbert Dentressangle Web : ABX Logistics - Darfeuille - Exapaq - Gefco - Geodis Calberson - Jet Services - Joyau - Mory - Norbert Dentressangle - Extand - Graveleau Un grand thme absent = le positionnement que le consultant va recommander son client

Planning de mise en oeuvre : 10 jours Bnfices et limites de l'tude ou de l'application : Le client (transporteur) rassur sur la pertinence des intuitions, conduisant au choix de son nouveau positionnement. La force de vente comprend le nouveau positionnement Conclusion : confirmation dune intuition Rsultats : Sur la page, ci aprs, reprsentation des co-occurrences par analyse factorielle des correspondances.

14

3. Cas Ovale
Analyse comparative des sites concurrents En janvier 2004, nous avons rcupr le contenu complet des 5 sites institutionnels de Meyer, Fidel, Odense, Ovale et Onvista. Nous constatons des structures trs similaires, comme nous le voyons dans le tableau ci-dessous ; avec pour toutes les entreprises tudies, des espaces consacrs la philosophie/culture de lentreprise, aux produits, aux actionnaires/investisseurs, aux fournisseurs et parfois au sponsoring sportif. Une revue de presse est systmatiquement disponible. Pour les cinq entreprises, il sagit trs nettement de sites dits institutionnels .
Site www.meyer.com www.fidel.com Structure de premier niveau Home (company/news/maps) / Products / Locations / Contact / Jobs About us / Products / News / Investor information / Suppliers / Careers / Motorsports About Odense / Products / Technology / Environment / News Releases / Events / Investors About Ovale / Activities & Technologies / Finance / Press / Join us / Suppliers / Ovale Service About Onvista / Investor relations / Newsroom / Technology / Careers

Nous avons procd une analyse des donnes sur le logiciel Sphinx Lexica. Aprs rduction lexicale (retrait des mots outils du langage), nous constatons tout dabord que pour quatre dentre eux, ils sont de taille comparable (entre 30 000 et 40 000 mots), ce qui rend notre analyse statistique dautant plus fiable et pertinente. Seul le site de Meyer est plus petit avec 10 000 mots. Ceci nest pas trs tonnant car lentreprise ne couvre quune partie plus restreinte des technologies de lquipement automobile. Pour les revues de presse, par souci dhomognit, nous avons slectionn 20 articles par site, les plus rcents ou ceux qui taient prsents en premier sur la liste des articles. Bilan lexical (sur lexique rduit hors mots-outils) Hormis Meyer, le site de Fidel est le plus riche et le moins rptitif. Sur ce critre, Ovale est troisime sur quatre. Si lon compare les corpus des 5 sites et leurs intersections, le site de Ovale est plus original par rapport ses concurrents avec prs de 15% des mots qui lui sont exclusifs contre 9,5% Onvista. Dans les caractristiques de son corpus, le site de Ovale ressemble plutt celui de Onvista (77 et 79% de recouvrement)
Rptition moyenne : rptition moyenne de lensemble des mots du site, plus cet indicateur est haut plus le texte est rptitif. Mot exclusif : mot prsent exclusivement dans le site dune marque donne Recouvrement des corpus : % du corpus dune marque donne partage avec une autre marque

www.odense.com

www.ovale.com

www.onvista.com

Sur le plan technique, tous les sites sont construits et dvelopps en PHP, ce qui signifie qu partir dune structure statique pr-dfinie, le contenu des pages est dynamique : il est aliment et mis jour rgulirement depuis un menu dadministration et une base de donnes. Cela signifie par ailleurs que les versions des sites en diffrentes langues suivent exactement la mme structure et sont constitues de simples traductions. Autrement dit, il ny a pas dadaptation particulire au vocabulaire dun pays donn. Mthodologie gnrale

Nombre total de mots Mot le plus frquent Frquence de ce mot Nombre de mots diffrents Rptition moyenne

Ovale 37 874 ovale 1 390

Fidel 31 064 fidel 968

Odense 31 313 odense 849

Meyer 10 053 meyer 349

Onvista 39 306 onvista 1 415

Nous constatons dans le tableau ci-dessous que les concurrents ne se citent quasiment pas, peine 4 citations croises, dont 3 figurent sur le site de Onvista. Onvista Ovale Fidel Odense Meyer 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1

5 820 5 236 4 969 (2 652) 5 809 (15,4%) (16,9%) (15,9%) (26,3%) (14,8%) 6,51 5,93 6,30 (3,79) 6,77

Ovale.com Fidel.com Odense.com Meyer.com Onvista.com

Poids des 51.1% 48.4% 55.3% 1083 mots communs Nombre de 2 170 1 490 1 464 mots exclusifs (14.6%) (11.5%) (13.0%) Fidel Odense Recouvrement Ovale des corpus Ovale * 72.5% 76.9% Fidel 70.5% * 75.7% Odense 71.2% 70.3% * Meyer 58.3% 54.4% 62.8% Onvista 77.3% 81.1% 77.7%

63.4%

51.8%

Analyse thmatique des sites Nous avons dfini une liste de thmes-cl et avons mesur comparativement leur prsence sur chacun des cinq sites. On exclut pour linstant le thme de linnovation ou de la recherche, qui sera spcifiquement trait plus loin.

514 (9.7%) Meyer 77.5% 74.7% 76.2% * 80.7%

1 842 (9.5%) Onvista 79.7% 79.1% 73.0% 58.1% *

Citations des marques Nous avons calcul la frquence de citation de la marque sur lensemble du site (en excluant bien videmment les menus). Ovale est en tte avec un peu plus de 3%, suivi de prs par Onvista. Odense est la marque la moins mise en valeur avec moins de 2% de frquence. Nb citations marque 1 202 1 168 270 724 625 Corpus 37 874 39 306 10 053 31 064 31 313 149 610 Frquence marque 3,17% 2,97% 2,68% 2,33% 1,99%

1. Ovale 2. Onvista 3. Meyer 4. Fidel 5. Odense Total

D'aprs le tableau et la carte factorielle ci-dessous : On constate que le site de Ovale, comparativement ses concurrents, insiste principalement sur la qualit, la technique, les services et laprs-vente. On y voque plus souvent les fournisseurs et les actionnaires. Les sites de Fidel et Onvista sont assez proches. Onvista se caractrise par une mise en avant du consommateur et du client. Par ailleurs, on y parle beaucoup de performance, de design. Sur www.fidel.com, on cite souvent la puissance. Le site de Odense fait la part belle lenvironnement, mais aussi linvestissement et au dveloppement.
RAPPEL : Carte factorielle: reprsentation graphique sur deux dimensions des correspondances identifies statistiquement entre les marques et les thmes. Proximit signifie corrlation, loignement signifie rpulsion. Les mots placs au centre sont communs, ceux qui sont en priphrie sont trs spcifiques.
product development environment technology new customer services performance suppliers quality power design technical employees safety efficiency consumer shareholders international aftermarket investment cockpit

Key words x Firm Ovale 23.9% 26.6% 19.5% 20.4% 21.3% 15.3% 44.8% 19.1% 33.6% 34.8% 20.8% 18.7% 67.3% 21.3% 29.3% 22.2% 7.9% 42.8% 31.2% 50.8% 11.5% 19.3% Fidel 25.0% 9.4% 13.3% 21.3% 15.0% 20.3% 9.5% 29.9% 8.8% 12.0% 38.9% 22.3% 9.9% 14.5% 29.8% 16.3% 18.0% 2.5% 14.2% 5.1% 4.9% 40.1% Odense 27.2% 29.4% 50.0% 22.4% 23.2% 10.4% 8.9% 9.6% 13.4% 10.1% 14.0% 11.7% 4.9% 25.5% 19.2% 24.6% 4.5% 19.5% 22.7% 1.7% 37.7% 4.4% Meyer 4.7% 9.1% 3.2% 4.5% 11.7% 8.1% 4.9% 4.2% 8.5% 8.0% 3.0% 3.9% 5.3% 4.3% 5.8% 6.9% 0.0% 0.0% 13.5% 0.8% 6.6% 9.4% Onvista 19.1% 25.4% 14.0% 31.4% 28.8% 46.0% 31.9% 37.3% 35.7% 35.1% 23.4% 43.5% 12.7% 34.5% 15.9% 30.0% 69.7% 35.2% 18.4% 41.5% 39.3% 26.8%

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Key words x Firm Axe 2 (32.7%) consumer cockpit Fidel power performance customer design Onvista technology product employees safety new Meyer development international suppliers quality efficiency Axe 1 (41.1%) investment Odense environment

services

Ovale

shareholders aftermarket

technical

Utilisation des mots de linnovation Ovale est lentreprise qui accorde proportionnellement le plus de place aux mots de linnovation (innovation, innovations, innovative, research, new ou advanced technologies) dans son discours (0,47% du corpus du site), Onvista est n 2 avec 0,32%, les trois autres entreprises sont au mme niveau avec une frquence de 0,22%.
Innovation x Firm (frequency) 1. Ovale 2. Onvista 3. Fidel 3. Odense 3. Meyer Total Innovative Innovations Research 0,12% 0,10% 0,10% 0,06% 0,16% 0,04% 0,09% 0,02% 0,03% 0,03% 0,00% 0,07% 0,10% 0,01% 0,08% 0,08% 0,07% 0,06% Innovation 0,15% 0,05% 0,05% 0,01% 0,01% 0,06% New tech. 0,00% 0,00% 0,03% 0,05% 0,02% 0,02% Advanced tech. 0,01% 0,00% 0,01% 0,05% 0,00% 0,01% Total 0,47% 0,32% 0,22% 0,22% 0,22% 0,31%

Parmi ces 6 termes identifis, comme on peut le voir sur la carte factorielle ci-aprs, chaque firme a ses particularits ou ses prfrences : Odense se distingue trs nettement par lemploi de new technologies ou advanced technologies , Onvista se concentre trs nettement sur innovations au pluriel, Ovale et Fidel privilgient innovation et innovative , Meyer utilise plus volontiers research .
Innovation x Firm (nb. Citations) Ovale Onvista Fidel Odense Meyer Total Innovative Innovations Research 46 36 39 25 63 17 28 7 9 10 0 23 10 1 8 119 107 96 Innovation 55 20 14 3 1 93 New tech. 1 1 9 15 2 28 Advanced tech. 2 1 2 17 0 22 Total 179 127 69 68 22 465

Research

Advanced tech. Odense

Onvista

Innovation Innovations Ovale Meyer Fidel New tech.

Concordances autour des mots de linnovation pour chaque marque Nous avons isol grce aux lexiques relatifs (voir dfinition) les mots qui concordent avec le vocabulaire de linnovation sur les sites des cinq entreprises. On observe que Ovale fait rfrence ses rcompenses en matire dinnovation, la qualit, son engagement et son approche. Linnovation est prsente ici comme une culture dentreprise. Chez Onvista, la marque est systmatiquement associe linnovation. On parle de produits, dapplications et de solutions : un discours l encore trs orient vers le client. Fidel galement cite souvent sa marque, mais aussi son design et associe linnovation des adjectifs dynamiques comme responsive , proving et successful . Odense ne compte que peu de mots associs au thme de linnovation, quil met peu en exergue sur son site, comparativement aux autres firmes. Il prfre faire rfrence aux new ou advanced technologies.
Lexique relatif = principaux mots situs autour dun thme donn dans le texte, classs en fonction de leurs frquences de concordance. OVALE : Lexique relatif dInnovation pivot -2 -1 pivot +1 +2 114 mots-180 occ 117 mots-197 occ equipment 9 award original 9 technologies ovale 8 commitment latest 7 quality technical 6 styling constant 5 approach prix 5 design technological 5 equip automotive 4 protect combines 3 silencio auto products technology pivot -2 -1 64 mots-117 occ onvista corporate office audio feature story concepts deliver develop digital electronics

tools ONVISTA : Lexique relatif dInnovation pivot +1 +2 115 mots-198 occ home solutions vehicle center driving fuel high products wireless application continues deliver electronics enjoyment find help kerpen quickly systems technologies

19 5 5 4 4 4 3 3 3 3 3

6 6 6 5 4 4 4 4 4 3 3 3 3 3 3 3 3 3 3 3

10 9 7 7 6 5 4 4 4 4 3 3 3

Sur les fragments de texte que nous avons isols et qui incluent les mots de linnovation seulement (401 fragments), nous avons identifi les mots et expressions les plus spcifiques chacune des marques. On retrouve ici les spcificits prsentes dans les paragraphes prcdents. Ovale insiste sur ses quipes, ses services, laprs-vente, sa technique mais aussi son approche gnrale de linnovation. Odense voque ses efforts, ses cots et encore le contexte environnemental. Onvista lie trs fortement sa marque ses innovations, qui sont prsentes trs souvent au pluriel. Onvista voque toujours le consommateur mais aussi son ingnierie. Meyer situ ici au centre de la carte factorielle - tient un discours beaucoup moins spcifique sur linnovation.

Axe 2 (28.2%) fields

efforts area Denso

billion automakers

Axe 1 (36.7%)

communications energy costs new_technologies growth sales research car markets important new_ways year capabilities environmental components cabin engine Behrintegrated meet further create continues moresafety products four future air_conditioning Delphi module consumer company high production manufacturing air help automotive comfort only applications developed working ford audio visteon_innovations market performance experience today fuel offer deliver manufacturers cost right employees group concept voice excellence best engineering consumers engineers while bass features Visteon said tm satellite_radio service teams innovations vehicle design range Valeo international technical latest electrical project light approach aftermarket

engine_cooling category equip_auto prize discover wiper

4. Le rve des Franais


Si vous gagniez au Loto que feriez-vous ? Lanalyse de cet extrait dune tude mene par le Credoc en 1992 permet dillustrer les mthodes danalyse quantitatives et qualitatives disponibles dans Sphinx : Analyse quantitative : tri plats, tris croiss, analyses multivaries et typologie Analyse qualitative : approximation lexicale, smiomtrie et analyse de contenu par code book.

Le rve des franais. Echantillon total : 993 observations

Les lexiques

Lexique brut
je j de une 1182 653 613 566 464 412 385 362 362 355 286 286 280 257 244 240 208 198 194 192 182 158 156 150 137 122 120 118

Sans mots outils


maison enfants voiture voyage ferais voyages achterais famille argent acheter donnerais placerais faire reste monde placer travailler vacances achte voyagerais immobilier partie vie dons aider ct appartement profiter 355 286 198 192 182 158 150 122 118 115 113 111 107 97 95 84 79 79 69 68 67 64 64 62 61 61 58 58

Lemmatis
maison acheter voyage faire enfant placer voiture donner voyager aider argent famille partir travailler monde profiter investir don immobilier beau mettre placement appartement reste changer aller arrter association 354 350 310 297 264 230 194 187 148 122 118 117 91 91 81 81 76 75 74 72 71 71 65 65 63 59 58 57

Les substantifs
maison voyage enfant voiture argent famille monde don placement appartement reste association immobilier partie oeuvre vie tour vacance achat loisir besoin placer gens ami cadeau plaisir cancer enfants 354 310 259 194 118 117 81 75 71 65 65 57 55 54 51 49 45 43 41 39 36 35 34 33 33 33 27 24

Les verbes
acheter faire placer donner voyager aider partir travailler profiter investir mettre changer aller arrter amliorer prendre vivre partager payer rester pargner pouvoir dpenser distribuer faire_plaisir garder faire_le_tour 350 296 195 187 148 122 91 91 81 76 71 63 59 58 48 38 37 36 33 33 32 28 27 26 26 26 25

Si vous gagniez au Loto, que feriez vous ?


On peut se faire une ide du contenu des rponses par l'examen des termes les plus frquemments utiliss. Le lexique brut exprime la stimulation de l'go (je, j) sur un mode plutt indfini (une, un) que dfini (le la l)... Le lexique lemmatis (chaque terme est ramen sa forme racine) renvoie l'essentiel du contenu Les substantifs donnent les objets voqus et les verbes les actions... On accde ainsi trs rapidement au contenu des rponses comme les mots cl donnent celui d'un livre.

en le des un maison enfants la pour l mes les et voiture dans voyage ferais voyages ma achterais aux famille pas argent

avoir_besoin 30

Le rve des franais. Echantillon total : 993 observations

5 Substantifs selon le sexe Homme Femme 211 205 162 111 73 68 39 40 31 40 35 24 33 23 18 21 23 20 23 20 22 20 23 20 15 16 8 11 9


37.4% 33.7% 34.1% 42.5% 37.1% 41.4% 51.3% 42.9% 55.1% 36.5% 37.5% 56.4% 35.3% 52.1% 60% 51.2% 37.8% 48.7% 36.1% 41.2% 33.3% 39.4% 30.3% 25.9% 37.5% 33.3% 65.2% 50% 59.1% 62.6% 66.3% 65.9% 57.5% 62.9% 58.6% 48.8% 57.1% 44.9% 63.5% 62.5% 43.6% 64.7% 47.9% 40% 48.8% 62.2% 51.3% 63.9% 58.8% 66.7% 60.6% 69.7% 74.1% 62.5% 66.7% 34.8% 50% 40.9%

Les usages selon les contextes


maison voyage enfant voiture argent famille monde

Verbes selon le sexe Homme acheter faire placer donner voyager aider partir travailler profiter investir mettre changer aller arrter amliorer prendre vivre partager payer rester pargner avoir_besoin pouvoir dpenser distribuer faire_plaisir garder faire_le_tour essayer 135 116 91 57 70 40 34 53 43 46 26 29 30 33 19 20 17 10 11 19 13 10 9 15 9 8 9 13 14 Femme 191 141 101 114 77 71 56 37 36 30 45 32 24 25 29 17 19 26 21 13 18 20 17 12 17 18 16 12 9
41.4% 45.1% 47.4% 33.3% 47.6% 36.0% 37.8% 58.9% 54.4% 60.5% 36.6% 47.5% 55.6% 56.9% 39.6% 54.1% 47.2% 27.8% 34.4% 59.4% 41.9% 33.3% 34.6% 55.6% 34.6% 30.8% 36% 52% 60.9% 58.6% 54.9% 52.6% 66.7% 52.4% 64.0% 62.2% 41.1% 45.6% 39.5% 63.4% 52.5% 44.4% 43.1% 60.4% 45.9% 52.8% 72.2% 65.6% 40.6% 58.1% 66.7% 65.4% 44.4% 65.4% 69.2% 64% 48% 39.1%

126 104 84 82 43 48 41 30 38 23 21 31 18 25 27 22 14 19 13 14 11 13 10 7 9 8 15 11 13

Les analyses intrinsques qui prcdent sont menes sans rfrence au contexte et au statut des locuteurs. Elles peuvent tre compltes par l'analyse des spcificits lexicales. Par exemple les tableaux ci contre montrent que les hommes et les femmes ont tendance sur utiliser certains termes.....

don placement appartement association immobilier oeuvre vie tour vacance achat loisir besoin gens ami cadeau plaisir cancer enfants logement pauvre banque pays

p = <0.1% ; chi2 = 57.71 ; ddl = 28 (TS)

p = <0.1% ; chi2 = 63.91 ; ddl = 28 (TS)

Le rve des franais. Echantillon total : 993 observations

6 p = <0.1% ; chi2 = 741.32 ; ddl = 196 (TS) Axe 2 (13.7%) prendre

Les usages selon les contextes : zones de langage selon l'ge

vacance vie

travailler changer vivre payer 35-49 aller

L'analyse factorielle des correspondances permet de gnraliser la recherche des effets de contexte. Ici le choix des mots et des proccupations apparaissent comme clairement dtermins par l'ge

amliorer gens autour_de don profiter aider enfant 50-64 voyager humanitaire famille

arrter achat

placement

immobilier

25-34 maison placer voiture acheter tour de_ct beau cadeau partir

investir Axe 1 (72.2%) loisir

oeuvre

donner association faire

reste ami partie argent

voyage monde

en_vacances

partager

65+ besoin

mettre petit 18-24 un_peu appartement

Le rve des franais. Echantillon total : 993 observations

Mesures lexicales : caractriser l'nonciation


Longuer X Richesse Moyenne Longueur x Banalit Moyenne LONGUEUR BANALITE Total r = - 0.25 ( NS) BANALITE 8.47 109.53 58.92 BANALITE RICHESSE Total r = - 0.26 (NS) RICHESSE Banalit x Richesse Moyenne 109.53 8.22 58.80

La longueur des rponses, leur richesse (nombre de mots diffrents) et leur banalit (frquence moyenne dans le corpus des mots utiliss par chacun) permet de caractriser les rponses. Les rponse longues sont les plus riches, mais la banalit est indpendante de la longueur ou de la richesse. Les inactifs, ouvriers et agriculteurs font les rponses les plus courtes et les plus convenues (banalit).
LONGUEUR Moyenne = 8.47 Mdiane = 8.00 Min = 0.00 Max = 19.00
- NS

LONGUEUR RICHESSE Total r = + 0.99 (TS) RICHESSE

8.47 8.22 8.34

LONGUEUR

LONGUEUR

BANALITE

Les nuages de point ci dessus illustrent bien la mesure du coefficient de corrlation. Ci dessous l'ACP donne une image de ces corrlations. Longueur et richesse sont fortement liees. La banalit varie d'une manire totalement indpendante.
Longueur x Richesse x Banalit Axe 2 (29.4%) Longueur x Richesse x Banalit selon la CSP LONGUEUR RICHESSE Commerant, artisan BANALITE Employs Cadre.Prof.Intell. Sup. Prof.Intermdiares 9.32 8.91 8.55 8.38 8.34 8.27 7.86 7.34 8.47 9.15 8.64 8.33 8.18 8.07 8.07 7.60 7.13 8.22 BANALITE 98.85 113.40 103.05 104.76 101.51 110.42 125.10 110.70 109.53

BANALITE Moyenne = 109.53 Mdiane = 103.30 Min = 2.50 Max = 354.00


- NS + TS

Retraits LONGUEUR

RICHESSE Moyenne = 8.22 Mdiane = 8.00 Min = 0.00 Max = 19.00

Inactifs, Autre Ouvriers Agriculteurs Total

RICHESSE Axe 1 (70.3%)

CSP / LONGUEUR p = 8.0% ; F = 1.82 (PS) CSP / RICHESSE p = 5.3% ; F = 1.99 (PS) CSP / BANALITE p = 0.7% ; F = 2.80 (TS)

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Analyse de contenu Le code-book prpar dans Sphinx permet dindustrialiser le travail de lecture . Cette une approche alternative lanalyse lexicale. Elle a le mrite de reposer sur une lecture intelligente (mais peut tre biaise) et de reposer sur une rflexion modlisatrice pralable.

5. Les mots qui touchent : analyse textuelle des tubes de la chanson franaise.
L'objectif de ce travail consiste donc isoler les caractristiques lexicales des fleurons de la chanson franaise. Pour traiter la question pose, nous avons constitu deux groupes de textes crits par 20 artistes francophones. Le premier groupe est compos de 100 succs et le second inclut une centaine d'uvres restes dans l'anonymat. Grce au logiciel Sphinx Lexica, le travail consiste ensuite reprer les caractristiques de chaque auteur et surtout tablir les particularits des chansons succs. Nous analysons les diffrents lexiques afin de dterminer "les mots qui touchent", nous identifions les thmatiques centrales et les segments rpts les plus marquants. Les rsultats conduisent des conclusions trs intressantes. En prolongement de cette tude lexicale, nous nous sommes intresss la dimension phontique des textes, faisant l'hypothse qu'au del des mots proprement dits, l'importance des phonmes choisis tait prpondrante. Nous avons donc ensuite chang d'unit statistique pour nous concentrer sur les phonmes spcifiques des textes succs. Les issues de ce travail laissent entrevoir des perspectives de recherche tout fait prometteuses. Un chantillon de 200 uvres Nous avons constitu une base de donnes textuelles de 200 chansons crites en franais. Vingt artistes ont t choisis parmi les plus clbres de la profession. Pour chaque artiste, nous avons slectionn cinq succs et cinq chansons peu connues, ce qui constitue finalement deux chantillons, lun comprenant 100 tubes et lautre 100 nontubes. Cette classification effectue par lauteur a donn lieu une validation par un groupe de cinq experts : journalistes, disquaires, artistes, tous spcialistes de la chanson franaise. Ceux-ci - partir de la liste alphabtique des 200 titres - ont construit leur propre classification. Pour chacun des cinq juges, le taux daffectations diffrentes ne dpasse jamais 5%, ce qui est tout fait satisfaisant.

Les textes ont t rcuprs via lInternet au sein de sites ddis la chanson franaise (les sites web de Alain Pierre et de David Baltaro, de Mikhail Foursov, de Leni "Botanaige", la French Music Database de Anthony Patrick Lee). Le corpus final compte 48669 formes pour un lexique de 5968 mots. Prcisons que les refrains nont t saisis quune seule fois pour ne pas introduire de "fausses rptitions" au sein du texte. Des auteurs aux styles trs diffrents Avant de tester nos hypothses, nous nous sommes intresss aux diffrences entre les artistes. Afin de comparer les styles des auteurs, nous avons utilis quatre indicateurs usuels. La longueur de la chanson est considre tout dabord (N) puis nous mesurons sa richesse (V) qui indique la longueur du lexique. Ainsi, N dcompte le nombre total de formes graphiques prsentes dans le texte, V le nombre de formes diffrentes. La rptition (R) indique le nombre de fois o chaque forme du texte se trouve rpte. R=N/V. La banalit (B) calcule la frquence moyenne de chaque forme au niveau du lexique total. De par leur construction, la longueur et la richesse sont corrles, tout comme la rptition et la banalit.

Les artistes de la chanson franaise se distinguent par leurs options mlodiques mais aussi - comme on le voit sur la figure ci-dessus - par les caractristiques de leurs textes. On retrouve sur cette carte diffrents types dcriture. A droite, les auteurs de "chansons texte", qui se caractrisent par une certaine prolixit : Brassens, Renaud, Duteil, Goldman. A loppos, se retrouvent des artistes prfrant la chanson ludique de type "gag" dont le texte nest quun prtexte pour faire sonner la musique. Correspondant ce profil, Gainsbourg ou Polnareff sont dailleurs des musiciens prodiges. Sur le deuxime axe, nous reprons dune part, des chanteurs dont les paroles sont marques par la simplicit et luniversalit, traitant de thmes courants voire banals : Berger, Dassin, Fugain. Dautre part, Farmer ou Clerc traitent de sujets originaux et utilisent volontiers des formes lexicales remarquables. Les tubes : plus de rptition, moins doriginalit Le propos de notre recherche est de tenter de mettre en vidence les composantes lexicales qui pourraient caractriser les chansons succs, tant sur la forme que sur le fond. Les tubes sont ils plus courts, plus rptitifs ?

donc moins riches. Par ailleurs, les tubes emploient des formes lexicales moins originales et donc plus banales. En ce qui concerne la longueur, la diffrence nest pas statistiquement significative (F=0,3 et 1-p=41%). Le segment rpt : une composante du tube En isolant les segments rpts dont la frquence est suprieure 10 sur la totalit du corpus, on saperoit que ces fragments appartiennent 2 fois sur 3 une chanson succs. Sur des bases de statistique textuelle (chi2 = 258,88, 1-p = 99,99%), nous pouvons donc dire que le segment rpt est un lment qui semble faire partie intgrante de la chanson "performante". Favorisant la mmorisation, le principe de rptition est lun des premiers prceptes des techniques de persuasion, couramment utilis en publicit notamment. 5 premiers segments rpts des_petits_trous Ne_me_quitte_pas Y_a_pas_de_honte tout_le_monde Unis_vers_l_uni TOTAL des segments cits au moins 10 fois TUBES AUTRES TOTAL 30 23 23 2 18 220 0 0 0 16 0 100 30 23 23 18 18 320

TUBES Effectif de la catgorie Nombre total de mots Longueur moyenne Nb de mots diffrents Nombre d'hapax Rptition corpus Frquence maximum Mot le plus frquent Nombre de mots exclusifs Pourcentage du corpus 100 24704 247.04 3557 1484 6.95 655 de 1988 50.8%

AUTRES 100 23965 239.65 3980 1788 6.02 696 de 2411 49.2%

Lintrt dune implication plus personnelle de lartiste Lintensit lexicale permet de mesurer le poids dune forme au sein dune unit statistique. Ici, nous nous intressons au pourcentage de diffrents pronoms au sein des chansons. Nous lisons dans le tableau ci-dessous que lintensit lexicale de "je" est nettement plus forte dans les tubes, alors que le poids de "tu" nest pas statistiquement diffrent. Ce rsultat traduit limportance de limplication personnelle de lartiste dans sa communication avec son public. Intensit de JE Intensit de TU 2.70 0.86 1.83 0.69 2.26 0.78

TUBES AUTRES Total

Rptition de la chanson 2.33 2.15 2.24

TUBES AUTRES Total

On constate que les caractristiques textuelles des tubes sont statistiquement diffrentes en ce qui concerne la rptition. Les chansons succs sont plus rptitives et

Des verbes pour le dire

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

Ltude des verbes montre un phnomne intressant. Les verbes les plus frquemment utiliss et donc les plus courants sont employs indiffremment dans les deux types de chansons. En revanche, certains verbes sont spcifiquement usits dans les chansons succs. Il est difficile de les caractriser mme si lon pourrait dire quil sagit de verbes artistiques (chanter, danser), communicants (parler, regarder) ou affectifs (aimer, pleurer). Dans les tableaux suivants, nous prsentons les occurrences sur lunit statistique de la chanson (94% des tubes utilisent le verbe tre par exemple.

(extrait) Rimes en a Rimes en i Rimes en in Rimes en an Rimes en our Rimes en o Rime en ar Rimes en ou Rimes en re Rime en me

TUBES 284 79 114 104 86 40 32 45 32 52

AUTRES TOTAL 198 122 70 43 39 35 38 23 33 10 482 201 184 147 125 75 70 68 65 62

aimer parler chanter pleurer regarder connatre danser tomber

TUBES AUTRES 43 32 25 22 19 17 8 15 5 12 12 12 11 15 7 15

Des rimes qui sonnent Le dernier volet de nos rsultats traite des composantes phontiques. Comme nous lavons dit en introduction, en matire de chansons, il ne semble pas convenable de limiter notre rflexion aux seuls aspects textuels, la chanson est un exercice artistique o les mots, la musique et les sonorits entrent en synergie. Pour tester lhypothse selon laquelle il existerait des rimes privilgies au sein des "tubes", nous avons tout dabord isol la rime finale de chaque vers, grce une procdure particulire du Sphinx Lexica. Nous avons ensuite travaill sur les 50 rimes les plus frquentes en les regroupant par phonmes. Les rsultats observs sont trs significatifs. Il apparat tout dabord que les tubes utilisent des rimes beaucoup plus banales, ce qui confirme leur caractre rptitif. Par ailleurs, certains phonmes sont effectivement sur-reprsents dans lchantillon des chansons succs (chi2 = 175,75, 1-p = 99,99%). Il sagit de phonmes domins par les "a", "an" et "in" notamment, ce qui reprsente les voyelles dites "nasales" (Warnant, 1973) qui produisent des sonorits relativement chaudes. Ces rsultats valident les premires hypothses qui pouvaient tre formules. 4

Bibliographie

Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005

BENZECRI J.P : Pratique de lanalyse des donnes (DUNOD 1980) BLANCHET A. & Al : Lentretien dans les sciences sociales (DUNOD 1985) BROSSIER G. & DUSSAIX A.M. : Enqutes et sondages : Mthodes, modles, applications, nouvelles approches (DUNOD 1999) COURTES J. : Analyse ( HACHETTE SUP. 1991) smiotique du discours

VIARD V. : Statistiques (ECONOMICA 1985)

appliques

la

gestion (SAGE

WEBER R.P. : Basic content UNIVERSITY PRESS 1990)

analysis

DUGAST D. : La statistique lexicale (SLATKINE 1980) FLOCH J.M. : Smiotique marketing et communication (PUF 1980) GANASSALI S. : Les mots qui touchent : le marketing textuel appliqu la chanson franaise (Journes dAnalyse de donnes textuelles, 1998). GAVARD-PERRET M.L. MOSCAROLA J. : Enonc ou nonciation ? deux objets diffrents de lanalyse lexicale en marketing. Recherche et Applications en Marketing, (1998). GHIGLIONE R. & Al : Manuel danalyse de contenu (ARMAND COLIN 1985) GRANGE D. & LEBART L. : Traitement statistique des enqutes (DUNOD 1993) JAMBU M. : Exploration informatique statistique des donnes (DUNOD 1989) LAFON P. : Dpouillement et statistique en lexicomtrie (SLATKINE 1984) LAGARDE (DE) J. : Initiation lanalyse de donnes (DUNOD 1993) LEBART L. & SALEM A. : Analyse statistique des donnes textuelles (DUNOD 1988) MAINGUENEAU D. : Lanalyse de discours (HACHETTE 1991) MALARET G. : Statistiques appliques aux sciences humaines (PUF 1991) MOSCAROLA J. : Enqutes et analyse de donnes (VUIBERT 1990) 6

Das könnte Ihnen auch gefallen