Beruflich Dokumente
Kultur Dokumente
Manuel d'utilisation
Le Sphinx Dveloppement Parc Altas 74650 Chavanod Tlphone : 04 50 69 82 98 Fax : 04 50 69 82 78 e-mail : contact@lesphinx.eu Web : www.lesphinx.eu
Avant propos
Ce manuel accompagne la nouvelle version du Sphinx que vous venez d'acqurir : Le Sphinx V5. Nous vous en flicitons. Ce logiciel sappuie trs fortement sur les interfaces et les protocoles de Windows. Vous retrouverez ainsi les habitudes que vous avez dj acquises par lexprience de ce systme (gestion des fichiers, menus, dialogues, listes droulantes, raccourcis). Nous nous sommes efforcs de toujours respecter ces conventions bien tablies. Cest pour cela que vous parviendrez trs facilement lutiliser. Vous serez galement guid par votre connaissance du travail des enqutes, des tudes et de la statistique. Nous utilisons le langage de ces mtiers et avons structur le logiciel par rapport aux grandes tapes dune tude : questionnaire, saisie, dpouillement, analyse Notre souci constant est de faciliter votre comprhension devant lcran. A cette fin, de nombreux commentaires sont affichs pour vous aider vous situer et comprendre les menus, boutons de commande, options Pour les oprations les plus complexes, vous tes pris en charge par un assistant. Enfin, lorsque le sens dun article ou dun bouton vous chappe, il vous suffira dessayer pour comprendre trs vite son utilit. Pour toutes ces raisons, vous naurez aucune difficult vous servir de votre logiciel et peut-tre pourrez-vous mme vous passer du manuel. Mais vous risquez alors de le sous-utiliser ou de vous compliquer inutilement la vie. En effet, toutes les possibilits qu'il offre ne sont pas galement visibles ni toujours trs comprhensibles au premier abord et vous risquez de passer ct de fonctions trs utiles. Le premier objectif de ce manuel est de vous faire dcouvrir tout ce que vous pourrez faire avec le logiciel. A cette fin, il est organis en doubles pages dveloppant une tche, une fonction, un rsultat que vous pourrez entreprendre ou raliser. La partie de droite vous montre le logiciel, ses crans, ses menus, ses dialogues et les tats (tableaux, graphiques) quil permet de produire. La partie de gauche situe ce que fait le logiciel en terme de finalit, dutilit et de mthodes mises en uvre. Vous y trouverez galement une explication dtaille des modes opratoires. Si vous tes dj utilisateur du Sphinx, vous pourrez rapidement identifier les nombreuses nouveauts et vous retrouverez facilement vos habitudes. Si vous dcouvrez ce logiciel, vous comprendrez facilement son organisation et son systme de fonctionnement. La visite guide que nous vous proposons en tout dbut du manuel vous accompagnera dans vos premiers pas. En vous reportant ensuite au manuel vous apprendrez vous en servir compltement et deviendrez des experts. En vous souhaitant un bon travail. Yves Baulac, Jean Moscarola
Sommaire
Analyse des donnes qualitatives avec le Sphinx : les fondements ........... 5
1. Les tudes quali .................................. 6 2. Lacquisition des donnes textuelles ........ 2 3. Produire des extraits ou faire du verbatim .................................................... 3 4. Faire de lanalyse de contenu ................... 3 5. Analyse de donnes textuelles et approximation lexicale............................... 2 6. Privilgier une approche ou les combiner ? ................................................ 3
1. Caractres sparateurs et environnement ......................................... 15 2. Rechercher et marquer des lments dans le lexique ......................................... 17 3. Rduire les lexiques ................................ 19 4. Groupements automatiques .................... 21 5. La gestion des dictionnaires .................... 23 6. Les diffrents types de dictionnaires ....... 25 7. Analyse thmatique ................................. 27 8. Lexique des expressions** ........................ 2 9. Rechercher les segments rpts** .......... 4
Sphinx V5
Bibliographie .......................................... 5
Sphinx V5
Les bases de donnes bibliographiques, les moteurs de recherches permettent au chercheur de rcuprer trs facilement rfrences et publications. En gnralisant le format numrique les outils de traitement de texte rendent potentiellement accessibles toutes sortes de fichiers et archives lectroniques. Ces volutions mettent disposition du chercheur un matriau considrable et posent de nouveau problmes : comment traiter des informations dont labondance peut trs vite dcourager et dont la complexit pose des problmes spcifiques pour lesquelles la statistique noffre pas de rponse immdiate.
Les mthodes
Ceci nous conduit une autre caractristique des tudes quali . Le terme renvoie lapproche traditionnelle des textes par lecture et annotation sans autres instruments que le stylo le papier dans la tradition des tudes littraire et de la critique. Le travail du chercheur consiste rendre compte des textes tudis en citant des extraits et en produisant un nouveau texte comprhensif et dmonstratif dont, pour faire bref, la qualit ne tient quau talent de lecteur et dcrivain du chercheur. Avec lanalyse de contenu ou analyse thmatique, le classeur et le stylo de couleur sajoutent la panoplie des instruments de recherche. Le travail de lecture devient plus systmatique, le systme de comprhension sexplicite en une grille qui guide le classement des citations et le reprage par couleurs ou annotations des passages du texte. Cet effort de mthode dbouche naturellement sur le dnombrement des thmes, si on admet que la rptition ou la frquence peuvent galement faire sens et que largument du dcompte renforce la dmonstration. Lappellation quali voque ainsi le travail artisanal prudemment dmarqu des mthodes scientifiques et de la statistique, mais lapproche des textes a aussi de tout temps t marque par la fascination pour le chiffre ou le recours au comptage. Dans la tradition de la kabbale, de l exgse et dans le travail des moines copistes les chiffres et les nombres guident vers les significations caches ou permettent de contrler lexactitude des manuscrits. Des tudes sur la bible aux concordances de Saint Augustin le texte analys est mis en fragments puis en cartes perfores Les premires analyses par ordinateurs ont t effectues en
1945 par IBM qui pour reconstituer les concordances de Saint Augustin. Devenu donne textuelle, le texte chappe la tradition quali et se trouve aussi concern par les problmatiques quanti comme lont montrs des travaux sur ltude de lattribution des uvres littraires et lusage dj trs ancien des techniques informatique par les services de renseignements En banalisant ces mthodes et en les rendant accessibles, les volutions technologiques ajoutent lordinateur, le moteur de recherche et le logiciel danalyse de donnes textuelle la boite outil du chercheur.
tude de documents, ces corpus ont en commun dtre essentiellement forms de donnes textuelles. Elles ont la complexit et lambigut de la langue. Leur sens nest pas fix a priori comme cest le cas pour les donnes quanti pour lesquelles les units de mesures (variables numriques) et les tats observs (variables nominales) sont fixs par un accord tacite de comprhension entre le rpondant et lenquteur. La signification des donnes textuelles est dcouvrir dans le sens des mots des phrases et de lorganisation du discours. Chacun de ces niveaux (lexique, syntaxe, rhtorique) apporte une contribution au sens dgag par la lecture. Cette proprit justifie la mfiance de ceux qui pensent quon ne peut pas faire lconomie dune lecture humaine et quune machine ne peut pas comprendre un texte. Toutefois sans pour autant souscrire la prtention des tenants de lintelligence artificielle nous pouvons accepter que lordinateur et sa puissance de calcul apportent une aide pour lapproche des corpus textuels et notamment lorsque ceux-ci sont de trs grande taille.
La spcificit des donnes textuelles et les voies danalyse assiste par ordinateur.
Rponses aux questions ouvertes dans les enqutes, interviews ou entretiens de groupe, revue bibliographique,
Sphinx V5
Nous montrerons dans ce qui suit que lordinateur peut tre utilis comme un auxiliaire pour rendre plus systmatique les approches classiques et augmenter la productivit du chercheur et la qualit de ses rsultats. - En effet, les fonctions de recherche peuvent considrablement acclrer le travail traditionnel ncessit par lusage de la citation ou la production de verbatim - Pour lanalyse de contenu, la construction dune grille thmatique et la codification du corpus peuvent se faire en utilisant les ressources de linformatique. Le travail de conception devient ainsi plus explicite et rigoureux et on gagne en souplesse et productivit pour la lecture et la codification Mais il peut aussi tre mis en uvre dune manire beaucoup plus automatique en fournissant, partir du reprage des formes graphiques qui composent le texte, des indications sur son contenu. - Lanalyse de contenu peut ainsi tre automatise en construisant les listes de mots ou dictionnaires correspondant aux diffrentes catgories de la grille thmatique. La frquence avec laquelle ces lments se trouvent dans le texte sert dindicateurs pour mesurer la prsence et lintensit de ces catgories. On peut parler ici de smiomtrie puisque lusage des dictionnaires permet de mesurer les significations ainsi repres dans le texte - Lanalyse lexicale offre une autre voie. Elle consiste, sans aucun a priori sur le texte utiliser la redondance des donnes de langue et la statistique pour substituer la lecture du texte celle dlments lexicaux qui en sont extraits : listes des mots les plus frquents (mots cls), cartes visualisant la manires dont les mots se trouvent associs (zones thmatiques) ou leffets des circonstances ou des contextes (mots spcifiques) Ces approches sont particulirement bien adaptes au traitement de trs gros corpus. Plus le corpus est volumineux, plus on gagne de temps et plus les rgularits et effets statistiques sont significatifs.
mais quel logiciel choisir ? Tout dpend du type danalyse envisage et de degr de spcialisation des fonctions proposes. On peut distinguer 3 grandes classes de logiciels - Les logiciels de recherche. Ils permettent de retrouver dans le texte des passages en fonction du contenu ou du contexte et mettent en uvre des procdures plus ou moins sophistiques pour produire du verbatim (Lexico, WordMapper, Diction, Sphinx Lexica) - Les logiciels danalyse thmatique et de contenu : ils aident au reprage, la codification et lorganisation des ides du texte, ainsi qu leur analyse et leur synthse (Nudist, Atlas ti, Modalisa, Sphinx Lexica) - Les logiciels danalyse de donnes textuelles : ils abordent le texte par le biais de la statistique (Spad T, Alceste, Hyperbase, Sphinx Lexica, ) Ces logiciels sont plus ou moins spcialiss sur leur fonction principale. Alceste par exemple est trs spcialis, Modalisa lest beaucoup moins. Dans ce qui suit nous nous rfrerons principalement Sphinx Lexica qui est un outil trs gnraliste bien qu premier abord il semble sadresser plus spcifiquement au traitement denqute. Quelque soit loutil, le chercheur a un rle essentiel. Cest lui qui pilote le logiciel et cest lui qui lance slectionne les citations et le verbatim, labore la grille thmatique lit et code le texte, cest enfin lui, qui seul est capable dinterprter et de donner sens aux rsultats des statistiques lexicales. Pour cela il lui faudra matriser le passage oblig de lacquisition des donnes et de lintgration du corpus dans le logiciel et selon ces choix produire du verbatim, mener une analyse thmatique de contenu, ou faire de lanalyse de donnes textuelles. Les techniques avec lesquelles il devra se familiariser reposent galement sur une bonne connaissance des proprits de la langue des textes et discours quelle permet de construire. Quelques connaissances utiles sur les proprits de la langue, des textes et des ides.
2. Lacquisition textuelles
des
donnes
respecter des rgles qui permettront lordinateur de les reconnatre et de les interprter. Si seul le texte des rponses a t saisi il suffit dajouter en dbut le nom de la premire interview puis celui de la deuxime et ainsi de suite pour reprer le passage dune interview lautre. On appelle ces indications des jalons.
La premire chose faire consiste mettre le texte sous une forme utilisable par le logiciel. Cela implique non seulement de lavoir sous une forme numrique en le saisissant dans un traitement de texte ou en le recopiant depuis Internet par, mais aussi le dcouper en distinguant les diffrents lments qui le composent, bref le mettre sous la forme dune table de donnes . Tout dpend alors des circonstances.
Les questionnaires
Sil sagt dtudier les rponses aux questions ouvertes dune enqute par questionnaire faite avec le logiciel, les texte est acquis au moment de la saisie des questionnaires pour le enqutes papier crayon ou directement entr par le rpondant lorsquil rpond une enqute internet.
Les 2 approches par le contexte et par le contenu peuvent bien sr tre combines pour restituer le texte par fragments relatifs aux diffrents angles de vue ou problmatiques de ltude.
Sphinx V5
Analyser la frquence des thmes et faire du verbatim Une fois toutes les rponses lues et codes, lanalyse sachve par ltude statistique des thmes et leur illustration par le verbatim qui leur correspond. Toutes les ressources statistiques sont alors disponibles pour confronter les thmes entre eux ou les croiser avec les autres variables de lenqute. Si la grille thmatique est pertinente les rsultats seront coup sr intressants.
Lide est simple : prendre connaissance du texte partir de des mots les plus frquemment utiliss. Linformatique et la statistique permettent de faire cela trs vite quelque soit la taille du corpus. Plus il est volumineux, meilleurs sont les rsultats. Il faut ensuite pouvoir se faire une ide du texte partir dune simple liste de mots classs par frquences dcroissantes et bien choisir cette liste. Lexemple ci-dessous donne les diffrents lexiques tirs de ltude sur le rve des franais.
Les mots outils sont rvlateurs de lnonciation, ici la frquence des je et j est vraiment remarquable. Il faut descendre plus bas pour trouver les premiers mots pleins, ou les supprimer (Lexique sans mots outils). La lemmatisation ramne chaque mot sa forme racine : linfinitif des verbes, le masculin singulier des noms et adjectifs. Enfin, prsenter le lexique par catgories grammaticales permet de focaliser lattention sur les objets (substantifs), les actions (verbes) et valuations (adjectifs). On peut enfin chercher grouper les termes du lexique en utilisant des dictionnaires de termes quivalents pour encore rduire la varit lexicale et mieux approcher les diffrentes ides du texte et leur importance.
Les segments rpts (squences de mots rpts lidentique) renvoient les rigidits du texte, les formules toutes faites ou la langue de bois. Il permettent aussi de soulever bien des ambiguts (arrter de travailler) et rvlent les leitmotivs du corpus.
listes peuvent tre cartographies pour mettre en vidence des zones de langages. Les jeunes se distinguent par un vocabulaire utilitariste (voiture, appartement, meuble) la diffrence des plus gs qui privilgient laide et le don.
Comment procder dans la partie classique de Sphinx ? Lemmatiser : Panneau de commande : Crer les variables lexicale ou dans lAtelier Bouton Lemmatiser. Calculer les lexiques : Panneau de commande ou dans latelier bouton Rduire Regrouper Supprimer pour agir sur les mots marqus dans le lexique. Segments rpts : Panneau de commande, ou dans latelier article Expression du menu Lexique puis bouton Segments Cartes dassociations lexicales. Dans latelier : 1/ Slectionner les mots considrs dans la fentre du lexique
2/ Crer une variable codant la prsence de ces mots : Recoder, Ferm sur les mots marqus du lexique. Nommer la nouvelle variable 3/ Lancer lanalyse factorielle des correspondances multiples partir de la variable qui vient dtre cre : Menu Approfondir (menus droulants du haut de lcran), Analyse factorielle des correspondances multiples. 4/ Pour construire une typologie des thmes : bouton Typologie et dfinir interactivement les classes Bilan lexicaux : Panneau de commande, Bilan par catgories ou tableau de bord en croisant une variable texte avec loption de calcul Nombre de mots avec une autre variable ferme. Choisir les indicateurs (moyenne, somme, part) dans longlet Tableau . Tableaux croiss lexicaux : Panneau de commande ou atelier lexical menu Vues, article Tableau lexical. Bouton Croiser pour slectionner la variable croiser avec le texte. Mots spcifiques : Panneau de commande ou dans latelier 1/ calculer la liste article Mots spcifiques du menu Vue puis bouton Croiser pour choisir la variable et Select. Pour fixer les seuils de spcificits et de frquence. 2/ produire la liste des rponses caractristiques de chaque catgorie (verbatim des rponses contenant le plus de mots spcifiques) : bouton Rponses caractristiques. Intensits lexicales. La dfinition des dictionnaires peut se faire dans un traitement de texte ou en slectionnant les mots dans latelier lexical. La procdure la plus rapide consiste utiliser une thmatique (ensemble de dictionnaires correspondant chacun un thme) : atelier lexical, bouton Recoder et Analyse thmatique. Slectionner les fichiers des dictionnaires ou ouvrir une thmatique existante puis Recoder. Pour chaque dictionnaire de la thmatique une variable numrique contenant lintensit lexicale de la rponse ou du fragment est cre. Ces variables peuvent tre utilises pour crer une typologie : Menu Approfondir, Classification automatique.
Comment procder dans les tableau de bord multimdia ? La lemmatisation et la dfinition des variables dorigine lexicales dont le calcul des intensits lexicale et le calcul des doivent se faire dans la partie classique et latelier lexical. Il en galement ainsi pour le calcul de mots spcifiques. Calcul des lexiques : Choisir loption Mise en classe des mots dans longlet Calcul. Le bouton Dictionnaire permet de supprimer les mots outils et, ou de restreindre le lexique une liste ou au contenu dun dictionnaire. Dans le mme onglet les articles du menu Simplifier permettent de contrler la longueur de la liste en fixant le nombre de lignes ou la frquence minimum. Tableau croiss et cartes lexicales. Une variable texte prsente comme un lexique (mise en classes des mots) peut tre croise avec nimporte quelle autre variable avec la possibilit dutiliser des reprsentations cartographies des tableaux croiss ainsi obtenus (Carte dans onglet Graphique ou raccourcis montrer la carte ). Ceci permet notamment de caractriser les rponses selon les diffrentes catgories de rpondant. Dans le tableau de groupe ci-dessus caractrisant les rponses par sexe et CSP, la variable texte et calcule selon loption Nombre de mots de longlet Calcul et dans longlet Tableau, moyenne somme et effectif ont t slectionns.
Sphinx V5
Dautre par le vebatim associ chaque catgorie de codification permet dillustrer de manire concrte les ides gnrales et peut tre den affecter la comprhension en leur donnant plus de vigueur ou de pertinence. Cependant ces 2 mthodes souffrent galement de la subjectivit qui fatalement accompagne leur mise en uvre dans le choix final de telle ou telle citation et dans la dcision de coder de telle ou telle manire. Lusage des outils informatiques et statistiques permet de mieux contrler ces biais subjectifs grce la formalisation et aux possibilits de recoupement. Enfin malgr ses nombreux avantages lanalyse de contenu est trs consommatrice de temps et de ce fait trs coteuse pour lanalyse des gros corpus. Lanalyse des donnes textuelle offre une voie bien diffrente et beaucoup plus technique. Elle prsente lavantage dune relle objectivit dans la production de substituts lexicaux (listes, cartes). Bien que la subjectivit intervienne nouveau au moment de la lecture et de linterprtation elle bnficie ainsi dun crdit de scientificit que les autres approches nont pas. Dautre part, en dtournant le regard du sens de surface vers linterprtation des actes de langage (tout ce que le choix des mots rvle dans les rptitions ou les absences) ce procd cre les conditions dune distance critique et cratrice. Au risque bien sr dimportants contre sens dont il faut se prmunir par des prcautions lmentaires. - ces mthodes ne sont applicables que sur de trs gros corpus, l ou les grands nombre et la statistique peuvent lgitiment faire sens - un patient retour au texte reste absolument indispensable pour contrler les interprtations rapidement acquises par ces techniques. A nouveau le verbatim simpose - enfin certains aspects des contenus sont trs difficiles apprhender notamment pour tout ce qui concerne les valuations ou les jugements. Il est facile de voir quil est question de travail ou de prix mais beaucoup plus difficile dtablir si le travail ou les prix sont voqus positivement ou ngativement. Les formes lexicales de lvaluation et du jugement sont en effet trs varies et complexes apprhender (pas trop, trop, trop peu .). Lanalyse lexicale doit tre dconseille pour traiter les rponses ouvertes dans des enqutes sur un petit nombre de rpondants (moins de 200). Lanalyse de 4
contenu prendra moins de temps et les rsultats en seront coup sr probants. Il est en revanche des situations o seule, compte tenu du temps ou des budgets disponible, lanalyse des donnes textuelles est envisageable. Ctait par le exemple le cas pour lanalyse des 45000 pages du dbat national sur lavenir de lcole. Mais le plus souvent ces mthodes gagent tre mises en uvre de manire complmentaire. Dans un premier temps lanalyse lexicale utilise de manire exploratoire permet de rapidement prendre connaissance du corpus et dans les cas heureux de faire jaillir des pistes dinterprtation quon naurait peut tre jamais empruntes autrement. Cest ainsi que la thmatique mergente du texte peut tre complte par les problmatiques, modles et systmes dinterprtation gnraux qui permettront de construire ensuite une grille thmatique plus pertinente. Enfin le travail mthodique danalyse de contenu et de codage permettra si le corpus nest pas trop volumineux de rigoureusement catgoriser les ides prsentent dans le texte. Sinon il faudra lire le lexique pour le ventiler dans les dictionnaires qui permettront, par le calcul des intensits lexicales, dautomatiser le codage des ides prsentes dans le texte. Enfin, aprs lexpos des rsultats statistiques, le texte reprendra ses droits grce aux citations et verabtim qui ajouteront aux chiffres, le pouvoir du sens singulier des phrases ou des paroles.
Sphinx V5
Analyse de contenu
Dans cet environnement, on lit les rponses et on code leur contenu dans une nouvelle variable dcrivant les principaux thmes voqus dans les rponses. Cette thmatique peut tre enrichie en cours de lecture par lajout de nouvelles modalits. Ce travail est facilit par la possibilit de voir les rponses selon les mots quelles contiennent.
Verbatim
Cette fonction permet de slectionner des extraits en fonction de leur contexte (selon les rponses une autre variable) ou de leur contenu (vocabulaire de la rponse). Ces extraits peuvent tre prsents sous forme de liste organise par catgories de rponses. Linclusion de ces extraits dans un rapport permet de rendre compte de lenqute par une illustration raisonne.
Tableaux de rponses
On peut prsenter les rponses dans des tableaux. Cette prsentation est bien adapte dans le cas de rponses trs rptitives quon pourra croiser avec dautres variables caractrisant les rpondants. On peut galement dresser le tableau des mots prsents dans les rponses et ainsi oprer une recodification automatique en fonction du vocabulaire. 6
Sphinx V5
2. Faire du verbatim
La manire la plus simple de traiter les questions ouvertes consiste restituer les rponses dans leur intgralit ou d'une manire raisonne en oprant des slections par rapport au contexte ou au contenu. On pourra produire des listes de rponses : classes selon l'identit des rpondants ; restreintes tel ou tel profil (les satisfaits, les mcontents...) ; contenant tel ou tel mot. Les tapes consistent choisir la variable, dfinir les conditions de l'extraction, et transfrer les citations ainsi obtenues.
Les rsultats de la recherche s'affichent dans une fentre. Le bouton Options permet si ncessaire de changer les conditions. Avec le bouton Transfrer, on peut Imprimer ou Inclure dans le rapport...
Faire du Verbatim
Prsenter les rponses en les classant Slectionner les rponses en les limitant un profil
Sphinx V5
On peut crer une nouvelle variable dfinie partir des lments slectionns dans la liste des mots. Le bouton Recoder propose les choix suivants pour la nouvelle variable : Ferme : les modalits de la nouvelle variable indiquent la prsence ou labsence des mots slectionns dans la rponse. Ouverte numrique : la nouvelle variable enregistre le nombre de mots slectionns dans la rponse. Elle les dnombre tous si aucun nest slectionn. On obtient alors la longueur de la rponse (sans les mots outils). Cest un indicateur trs utile. Ouverte texte : la nouvelle variable est une variable texte dont les lments sont rduits aux mots slectionns dans la liste. On fabrique ainsi des textes expurgs ou rduits des squences remarquables.
Ces mots sont dfinis par le dictionnaire des mots outils prsent dans le rpertoire dictionnaires motoutils.dic .
10
Croiser
Slectionner
Analyser
Recoder
Sphinx V5
11
La codification
On code le contenu de la rponse en cours danalyse en cochant la case correspondante ou en slectionnant une ou plusieurs modalits dans la liste droulante. Si vous avez plus de 10 modalits, les boutons Listes et Boutons vous permettent de choisir le mode daffichage qui vous convient le mieux. Le passage la rponse suivante (flches de navigation ou retour chariot) valide les rponses pralablement recodes. Le bouton Revenir vous ramne ltat initial de la variable (avant validation de la dernire rponse).
12
Illustrer par une autre variable Tirer pour cacher ou montrer le lexique
Rponses en liste
Sphinx V5
13
14
Sphinx V5
15
1. Les interfaces
Pour aller plus loin dans lanalyse lexicale, Plus et Lexica donnent accs un environnement spcifique : latelier lexical (Etudier les textes / Atelier lexical / Panneau de commandes). Celui-ci permet de : Calculer diffrentes formes de lexiques (rduits, regroups par racine, relatifs un dictionnaire.) ; Slectionner des mots pour retrouver toutes les rponses qui les contiennent, produire des extraits ou des associations de termes ; Reprer les expressions du texte et les segments rpts ; Produire des tableaux lexicaux, des listes de mots spcifiques (relatifs aux modalits dune autre variable), et des rponses caractristiques ; Transformer une variable texte en produisant un nouveau texte expurg, fragment ou lemmatis ; Coder automatiquement le texte en fonction de son contenu lexical. Toutes ces fonctions dotent le Sphinx Lexica dun trs puissant outil danalyse. Pour en simplifier lusage, quelques procdures standards ont t isoles. On peut les lancer partir du panneau lexical disponible partir du stade Etudier des Textes ou partir de la fonction Etudier les textes. On obtient ainsi directement les rsultats attendus sans avoir en spcifier la procdure dans latelier lexical. Nanmoins, celui-ci sera trs utile pour affiner les rsultats et raliser les oprations plus complexes quil autorise.
Ltude des textes fait lobjet de procdures mettant en uvre des commandes complexes qui ont t en partie automatises et que lon peut ainsi directement excuter sans passer par latelier lexical : la production de diffrentes formes de lexiques 2 3 (rduits, lemmatiss , stemmatiss selon la forme grammaticale), la recherche dassociations lexicales (segments rpts, lexiques relatifs, cooccurrences). la mise en vidence des effets de contexte (indicateurs dnonciation, tableaux lexicaux, listes de mots spcifiques, rponses caractristiques). Enfin, ce panneau permet douvrir nimporte quel texte prsent sous forme de fichier texte.
Latelier lexical
Cet cran est compos de 4 grandes parties : A droite : une fentre prsente diffrentes vues du corpus ; A gauche : on peut voir le lexique des mots ou des expressions. En cliquant dans le lexique, on fait dfiler les contenus correspondants dans la fentre de droite (navigation lexicale). Le bandeau du haut contient un ensemble de boutons de commande contrlant le calcul et la prsentation du lexique, la mise en forme du corpus, sa prsentation, et sa codification dans de nouvelles variables. Les indications du bas de lcran donnent des statistiques gnrales sur le texte tudi. Sphinx V5
2 chaque forme est ramene sa racine grammaticale (infinitif, singulier) 3 chaque forme est ramene ses x premiers caractres
En combinant ces diffrentes fonctions, le Sphinx autorise une approche rapide des textes : Calcul du lexique pour comprimer le texte ; Navigation lexicale pour revenir au texte ; Dictionnaires, segments rpts, et lemmatisation pour une intelligence du texte. On peut ainsi rduire leffort de lecture en produisant un matriau moins volumineux que le texte initial. Mais ce nest l quune manire dapprocher son contenu. On y trouvera un gain de temps qui peut tre considrable et une prise de distance que la lecture naturelle interdit.
Lapproximation lexicale sommaire : Rduire le texte au dbut du lexique : lexamen des mots les plus frquents donne une ide du contenu.
Corpus texte
Lexique
Calculer le lexique
Corpus texte
Lapproximation lexicale contrle : Rduire le texte son lexique et contrler par la navigation lexicale le bien fond des interprtations faites partir du lexique.
Interpreter
Verbatim
Lapproximation lexicale slective : Travailler sur un lexique rduit aprs avoir limin les mots outils et solidaris les segments. Concentrer lattention sur lexamen des noms, verbes, adjectifs (utilisation de dictionnaires et de la lemmatisation).
Corpus texte
Slectionner
Lemmatisation
Segments rpts
Dictionnaire
Navigation lexicale
Verbatim
Appliquer les mthodes de lanalyse multivarie sur des variables dorigine lexicale considres entre elles ou en relation avec dautres variables de contexte. En intgrant ainsi lanalyse de donnes classiques avec lanalyse des donnes textuelles, on peut mettre jour les structures internes des textes tudis (analyse des co-occurrences) ou leur dpendance par rapport des donnes de contexte (analyse des spcificits).
Sphinx V5
Corpus texte
Segments rpts
Corpus texte
Lemmatisation
Segments rpts
Variable de contexte
Verbatim
Lexique rduit et structur Variables fermes sur les mots du lexique Mesures lexicales : intensits banalits Structures Stat.
Statistiques lexicales
Les caractristiques statistiques du corpus du lexique et de chaque observation / fragment sont affiches sous les fentres correspondantes (taille, richesse, longueur moyenne, banalit, % de lecture). Avec le bouton Compter, on choisit les indicateurs statistiques du lexique. Comparer permet de le confronter un lexique de rfrence. Dans le menu droulant Vues (Lexica uniquement), les articles Bilan lexical, Tableau lexical et Mots spcifiques donnent accs aux statistiques rsultant du croisement avec une autre variable.
Production de lexiques
Le lexique des mots ou liste des formes graphiques saffiche dans la fentre de gauche. Il dpend des caractres sparateurs retenus (bouton Apparier). Son contenu et sa prsentation sont affects par les boutons Supprimer, Rduire, Regrouper, Compter et Classer. On peut ainsi liminer ou regrouper des lments et choisir lordre de leur prsentation ainsi que les indicateurs statistiques les caractrisant (nombre doccurrences ou nombre de rponses / fragments concerns). Le lexique des expressions (Lexica uniquement) prend la place du lexique des mots. On slectionne pour cela Expressions dans le menu droulant Lexique. Dans la fentre qui apparat, on peut chercher les locutions et les segments rpts.
La barre d'outils
Toutes les fonctions qui viennent rapidement d'tre voques se lancent partir de la barre d'outils. Les fonctions suivantes ne sont disponibles que dans Lexica : rechercher des expressions et des segments rpts, analyser l'environnement d'un mot, construire des bilans, des tableaux lexicaux ou des listes de mots spcifiques, lemmatiser.
Navigation lexicale
La navigation lexicale permet de faire apparatre, dans la fentre du corpus, les fragments de texte contenant les mots marqus dans le lexique. On passe dun fragment lautre avec les flches situes sous la fentre droite. Les rgles de navigation peuvent tre modifies par le menu droulant Aller . Un double clic dans la fentre du lexique fait apparatre le contexte du mot slectionn (concordances ou lexiques relatifs). Ltendue du contexte est paramtrable avec le bouton Apparier. On revient par la touche Esc. Le bouton Marquer permet de slectionner des lments du lexique selon leurs proprits, et les boutons 0 <> @ servent annuler la slection, linverser ou tout slectionner. Grce au bouton Illustrer, on fait apparatre une autre variable illustrative dans la fentre du corpus. Sphinx V5
Latelier lexical
Lexique
Corpus
Statistiques lexicales
En dressant la liste des verbes, noms, adjectifs, vous dsignez les actions, les objets et les valuations du discours. Vous pouvez y ajouter la liste des noms propres et des mots grammaticaux Cette liste est construite partir dune forme du texte o les statuts grammaticaux sont reprs (Nom_LC).
Lexique rduit
Lexique lemmatis
Avec Lexiques relatifs, vous entrez le mot que vous voulez tudier puis slectionnez : Lexiques relatifs pour voir la frquence des termes gauche et droite du mot recherch (mot pivot) ; Concordance pour obtenir tous les passages contenant le mot. Les rsultats de la recherche apparaissent dans une fentre qui vous donne accs des options permettant daffiner les rsultats : enlever les mots outils (Rduire), modifier la dfinition de lenvironnement du mot (rponse, phrase, groupe) avec le bouton Apparier.
Sphinx V5
Segments rpts
10
Choisissez dabord une variable de contexte puis le bouton Restrictions vous permettra de fixer les conditions de recherche : se limiter aux mots exclusifs ou aux mots communs (Inclure les mots exclusifs, Inclure les mots communs toutes les catgories, Inclure les mots communs certaines catgories). Pour filtrer les mots selon leur spcificit, on coche la case Seuil de spcificit en donnant une valeur au seuil. Ne cocher Positive que pour limiter la liste aux mots surreprsents. Vous pouvez enfin vous limiter aux n mots les plus spcifiques par catgorie en cochant Limiter . Le rsultat dresse, par catgorie, la liste des mots rpondant aux conditions. Ils sont classs par ordre de spcificit ou de frquence. En regard apparat la frquence et/ou lindice de spcificit. Ces options sont modifiables dans latelier : Compter (faire afficher ou non la frquence et lindice) et Classer (dfinir lordre des listes).
Bilan lexical
Le bilan lexical rassemble les principaux indicateurs caractristiques de lnonciation : nombre de mots, longueur des fragments, richesse lexicale, spcialisation lexicale Ces indicateurs sont calculs pour les modalits dune variable et permettent ainsi de comparer diffrents locuteurs. La production du bilan est automatique : vous navez qu indiquer la variable selon laquelle vous voulez ltablir.
Rponses caractristiques
Cette fonction repose sur la slection de mots spcifiques mais donne comme rsultat une liste de rponses slectionnes en fonction du nombre de mots spcifiques quelles contiennent et de leur indice de spcificit moyen.
Tableaux lexicaux
Un tableau lexical ventile lutilisation des mots selon les modalits dune variable de contexte. Vous avez galement la possibilit de limiter la liste aux mots exclusifs, aux mots communs ou aux mots sur-reprsents ou sousreprsents dans chaque catgorie. A cet effet, choisissez dans le dialogue les mots que vous souhaitez inclure dans la liste : Inclure les mots exclusifs dune catgorie, Inclure les mots communs plusieurs catgories Vous pouvez enfin limiter le tableau aux mots ayant des effectifs minimums (Seuil de frquence).
Mots spcifiques
Un mot est spcifique dune catgorie sil est surreprsent dans cette catgorie. On utilise le rapport des frquences (observes / thoriques) comme indicateur de spcificit. Le mot est dautant plus sur-reprsent (resp. sous-reprsent) que ce rapport est suprieur (resp. infrieur) 1. Il est infini pour les mots exclusifs quon repre avec une toile.
Sphinx V5
11
Variable de contexte
Bilan lexical
Conditions spcifiques
Tableau lexical
Mots spcifiques
Rponses caractristiques
12
Sphinx V5
13
14
Apparier
La dfinition de ces sparateurs conditionne la construction du lexique et la recherche de lenvironnement dun mot (concordances, lexiques relatifs). On peut modifier ces paramtres dans un dialogue ouvert par le bouton Apparier. Celui-ci permet de modifier les sparateurs de mots (formes graphiques), groupes ou phrases, de fixer les rgles suivre pour traiter les accents et majuscules et grer les expressions formes de mots composs. Enfin, il permet de fixer lenvironnement prendre en considration pour examiner le contexte dun mot. On change les sparateurs en les frappant au clavier dans la zone qui leur est rserve. Les modifications introduites avec Apparier sont conserves la prochaine ouverture du logiciel, nanmoins le bouton Restaurer permet de rtablir les solutions par dfaut les plus courantes.
Sphinx V5
15
Lexique
16
En limitant aux plus frquents : cochez la case Les mots les plus frquents, taper le nombre de mots que vous souhaitez dans la bote en regard. Vous pourrez ainsi par exemple vous concentrer sur les 20 mots les plus frquents.
Rgles de recherche
Par dictionnaire
18
Ce mme dialogue donne la possibilit de revoir les groupes (Voir Groupement automatique). Les groupes sont conservs et retrouvs la prochaine consultation de la variable. Dfaire les groupes permet cependant dannuler dfinitivement tous les regroupements.
Lemmatiser
La lemmatisation (Lemmatiser) permet doprer des regroupements intelligents en utilisant les rgles de la syntaxe (singulier, pluriel, formes verbales ramenes linfinitif). Elle prsente lavantage de rduire certaines ambiguts en distinguant par exemple le nom du verbe (voyage peut correspondre au nom voyage ou au verbe voyager). Il est donc conseill doprer le travail de rduction sur la base du texte lemmatis.
Supprimer
On peut passer en revue tout le lexique et marquer les mots liminer. Le bouton Supprimer permettra de les faire disparatre.
Regrouper
Le bouton Regrouper offre plusieurs choix pour remplacer plusieurs lments par un seul : Grouper les mots marqus dans le lexique : slectionnez et donnez un nom au regroupement. Rechercher tous les mots rpondant un modle et les grouper. Entrez le modle : les lments qui y rpondent seront automatiquement regroups, par exemple, *isme pour les mots se terminant par isme. Grouper les mots commenant par les mmes lettres : groupement par racine ou stemmatisation. Indiquez le nombre de caractres retenir pour la racine. Vous pourrez contrler la validit de chaque groupe (Voir Stemmatisation). Grouper avec un dictionnaire. Choisissez un dictionnaire. En utilisant un dictionnaire de groupement ou thsaurus, vous pourrez oprer en une seule fois plusieurs groupements (Voir Gestion de dictionnaires).
Sphinx V5
19
20
4. Groupements automatiques
On gagne beaucoup de temps en procdant ainsi :
un dictionnaire de groupements regroupe plusieurs dictionnaires de mots. Chaque lment numre une liste de mots quivalents. Les mots sont spars par le signe =, et en tte de liste se trouve le nom de lquivalent. Appliquer un dictionnaire de regroupements revient appliquer successivement plusieurs dictionnaires de mots. Les mots dune mme ligne sont automatiquement remplacs par leur quivalent. Ces dictionnaires sont trs utiles et peuvent tre assimils des thsaurus de niveau 1. Ci-dessous, titre d'exemple, voici le dictionnaire correspondant l'tat du lexique de droite ci-contre :
' Dictionnaire de regroupements $ C:\Donnees\barchoc310\barchoc310.que Plaisir_de_manger_L 1 #faire*=faire=faire_la_cuisine=faire_plaisir= faire_envie=faire_attention #gote*=goter=goteux #gastronomi*=gastronomie=gastronomique #avoir_*=avoir_envie=avoir_faim #quelque*=quelque_chose=quelquechose #enfant*=enfant=enfants #nature*=naturel=nature #prendre*=prendre_son_temps=prendre #vouloir*=vouloir=vouloir_dire #nourri*=nourrir=nourriture #cuisine*=cuisiner=cuisine #lger*=lger=LEGERE #restau*=restaurant=restau
Stemmatisation
Ce terme indique le regroupement des mots ayant la mme racine. Slectionner la case Grouper automatiquement, puis de mme racine et indiquer le nombre de lettres minimum que doit contenir la racine commune.
Dictionnaires
On peut galement utiliser des dictionnaires. Slectionner pour cela Grouper automatiquement et avec un dictionnaire. Utiliser le bouton Dictionnaire pour ouvrir le dictionnaire dsir, puis faire Regrouper. Le logiciel cherche les mots du dictionnaire prsents dans le lexique et les regroupe sous un mme item. On peut galement procder en marquant partir du dictionnaire (Marquer les mots du dictionnaire). Dictionnaire de mots et de groupements : un dictionnaire de mot est une liste de termes ayant une mme signification ou proprit. Cette liste se prsente comme une numration.
Sphinx V5
21
22
Travailler sur un texte lemmatis et un dictionnaire de forme racine. Utiliser un dictionnaire thmatique pour marquer le lexique. Par exemple en cherchant les mots exprimant la satisfaction. Effacer les mots ainsi marqus (bouton Supprimer) et parcourir le lexique la recherche dautres mots se rapportant au thme du dictionnaire. Ajouter ces mots au dictionnaire avec la squence Dictionnaire / Ajouter. Ces mots viennent sajouter ceux qui sy trouvaient dj. Reconstruire le lexique (boutons Rduire, Reconstruire) pour retrouver tous les mots qui vous intressent partir du dictionnaire enrichi. En rptant cette procdure dune tude lautre, vous accumulerez une expertise conserve dans vos dictionnaires. La capacit maximum dun dictionnaire est de 6 000 mots.
Ouvrir un dictionnaire
Les dictionnaires sont enregistrs comme des fichiers textes. Le bouton Ouvrir donne accs au dialogue Windows de gestion des fichiers. Lextension propose par dfaut est .dic. Elle nest pas obligatoire mais permet de retrouver facilement les dictionnaires.
Crer un dictionnaire
Utiliser le bouton Nouveau, donner le nom au fichier (en remplacement du nom donn par dfaut "DICO.DIC"). Cette procdure ouvre un dictionnaire vide. Vous pouvez : Y ajouter les mots marqus dans le lexique : bouton Ajouter. Entrer au clavier les mots que vous dsirez. Placez le curseur l'endroit o vous voulez insrer un nouveau mot et entrez-le au clavier.
Ouvrir ou crer un dictionnaire Mettre dans le dictionnaire les mots marqus du lexique Entrer des lments nouveaux au clavier Marquer les mots correspondants dans le lexique
24
Un dictionnaire est un fichier texte qui comporte des mots se rapportant des thmes et/ou ayant une signification commune (champ lexical). La cration de dictionnaires peut se faire dans un traitement de textes. Il suffit de dresser les listes correspondantes en respectant la syntaxe du type de dictionnaire laborer. Quelques dictionnaires simples sont fournis avec le logiciel comme l'ensemble des formes du verbe avoir, les pronoms personnels, les locutions temporelles. Le lemmatiseur met galement en uvre des dictionnaires pour la reconnaissance des formes verbales et le reprage des locutions usuelles. Il n'y a pas de limitation la varit des dictionnaires envisageables.
Sphinx V5
25
Diffrents dictionnaires
de mots dexpressions
de groupements
Lexique de rfrence
Dictionnaire de codes
26
7. Analyse thmatique
Dans lenvironnement de latelier lexical, une analyse thmatique peut tre actionne en cliquant sur licne Dictionnaire Une thmatique est une liste de dictionnaires, chacun tant compos de mots ou de regroupements relevant dun mme thme. Les dictionnaires ont t prpars par ailleurs en format texte. Cette opration autorise la prsence dun mme mot dans plusieurs thmes. La gestion des dictionnaires est prsente dans le chapitre 5 p. 312 (Plus) ou 316 (Lexica) du manuel de rfrence. Une nouvelle thmatique est cre en ajoutant autant de dictionnaires que souhait dans la liste, grce au bouton Ajouter Au moment du recodage, le logiciel propose la sauvegarde de la thmatique, qui sera dnomme avec une terminaison .the et qui pourra tre rappele tout moment depuis le bouton Ouvrir une thmatique . En cliquant sur Recoder , on va pouvoir crer de nouvelles variables afin didentifier les thmes pour chaque observation : lintensit lexicale de chaque thme, - le nombre doccurrences de chaque thme, - des variables fermes sur les thmes, avec deux options de limitation : les n thmes les plus frquents dans la rponse et les thmes dont lintensit dans la rponse est au moins gale x.
Sphinx V5
27
En regard de la liste dexpressions ainsi constitue, saffiche le nombre doccurrences trouves dans le corpus. On peut alors, comme pour le lexique des mots, slectionner des lments et les retrouver dans le texte (navigation lexicale).
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Dfinir les conditions Editer Crer une nouvelle variable Ajouter au lexique des expressions
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Les flches permettent de passer d'une observation l'autre. Si des mots sont marqus dans le lexique, la navigation se fait selon la rgle choisie (Aller : d'un mot marqu l'autre, d'une observations contenant tous les mots marqus la prochaine...). On peut galement limiter la navigation aux seules observations rpondant au profil dfini par le bouton N (Voir aussi Modification / Consultation).
Navigation
Rgles de navigation
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Le dialogue propos par le bouton Apparier permet de : spcifier des ensembles de sparateurs. Par dfaut, le Sphinx considre 3 sparateurs de phrase : . ! ? . On peut modifier ces ensembles au clavier ; choisir le niveau de contexte dsir : groupe, phrase, rponse pour fixer ltendue du contexte analyser autour du mot choisi. Ds quun des sparateurs est rencontr, on arrte lextraction.
On tudie ainsi : la concordance du mot tudi, cest--dire lensemble des lments du texte contenant le mot. Ce procd sapparente la production de verbatim ou de liste de citations centres sur un mot particulier (Voir Consulter/Modifier et Listes structures) ; les lexiques relatifs droite et gauche du mot tudi. Deux boutons permettent de passer dune analyse lautre. Il convient de fixer ltendue du contexte quon souhaite analyser en agissant sur le bouton Apparier.
10
Concordance
Mot pivot
Lexiques relatifs
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Le bouton Classer permet dafficher les lexiques relatifs par ordre alphabtique ou par ordre dapparition des mots dans le corpus. Le bouton Rduire permet, dans ce contexte galement, dignorer ou de rtablir les mots outils. Le bouton Transfrer donne les possibilits habituelles dinclusion dans le rapport, de copie dans le pressepapiers et dimpression.
Le lexique de -1 +3 affiche les 3 indicateurs. Ils montrent notamment que les mots nouvelle, puissance, chang sont plus souvent associs France que Europe : Europe est 4 fois dans lenvironnement de France pour un total de 56 apparitions, ce qui indique une faible dpendance linguistique (7,14 %).
12
Nombre
Indicateurs statistiques
Lexique de l'environnement -2 +2
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
4. Production d'extraits
Dans Plus et Lexica, la production d'extraits offre de plus grandes possibilits que dans Primo. En la lanant depuis l'atelier lexical, on peut slectionner beaucoup plus finement les extraits selon leur contenu.
Ci-contre un exemple daffichage. Le mot manger est le mot slectionn. Les premires indications documentent la rponse : mesures lexicales, variable illustrative.
Le dialogue abrg
Celui-ci est directement disponible sans accder forcment latelier lexical, on peut gnrer du verbatim depuis une fonction spcifique. Choisir pour cela Etudier les textes dans le panneau de commandes ou dans la fonction Recoder puis Verbatim Dans ce menu, il est possible de dfinir des mots cls sur lesquels portera uniquement le verbatim. On peut aussi rduire cette opration un profil dobservations donn et trier les extraits selon les modalits dune variable choisie.Aprs avoir slectionn les lments du lexique, dont la pertinence peut tre vrifie grce la navigation lexicale, une action sur le bouton Verbatim ouvre un dialogue abrg dans lequel on fixe les lments diter (Mots ou Textes). Mots pour les lments du lexique, Textes pour les rponses ou extraits correspondants. On peut complter ventuellement les critres de slection en prcisant les options de prsentation. Les extraits ainsi slectionns apparaissent dans une fentre dont le contenu peut tre imprim grce au bouton Transfrer. Une version plus complexe du dialogue est accessible avec depuis lAtelier lexical. Elle offre les possibilits suivantes :
Le dialogue complet
Le dialogue tendu offre de nombreuses possibilits : restreindre aux observations contenant des mots marqus dans le lexique : cochez lun des boutons Les lments concerns ou Tous les lments. La slection des extraits se fait en fonction de la rgle de navigation lexicale retenue ; fixer le contenu des extraits (cadre Contenu) : afficher le texte de la variable tudie et ou celui d'une autre variable ; afficher la valeur des mesures lexicales relatives lobservation : nombre de mots de lobservation (M), nombre de mots marqus (MM), banalit de lobservation (frquence moyenne des mots de la rponse), intensit des mots marqus (MM/M) ;
14
Dialogue abrg
Dialogue complet
Nb de rponses similaires
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
En se plaant dans une strate (Changer de strate) et en oprant comme ci-dessus, on limite les productions d'extraits la strate slectionne. On peut galement procder de manire plus directe : en restreignant le contenu des Listes structures la dfinition dun profil (Uniquement les observations telles que) ; en restreignant le Verbatim la dfinition dun profil (Rduire un profil) ; en listant les rponses caractristiques (Mots spcifiques, Rponses caractristiques). Il faut enfin noter la possibilit, dans la fentre Caractriser les observations, de lister les rponses de chaque cellule d'un tableau ou dans l'atelier lexical celles caractrisant les effectifs utilisant tel ou tel mot (Caractriser).
16
Tableaux : Caractriser
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
18
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement 2005
1. La lemmatisation
Principes de la lemmatisation
Lapproximation du contenu d'un texte par ses seules formes graphiques lmentaires peut conduire des contresens ou laisser planer une grande ambigut. Lanalyse syntaxique permet de rsoudre correctement les ambiguts lies la syntaxe. En appliquant les rgles de la grammaire, on peut, dans la plupart des cas, distinguer verbes, substantifs, adjectifs, et leur substituer leur forme racine (singulier dun substantif, infinitif dun verbe par exemple), mais aussi identifier les mots composs et les locutions. Voici un exemple illustrant ce procd :
Corpus et lexique originaux Jai aperu les grands avions que nous avions vus hier avec grand pre avions (2), aperu, avec, grand, grands, hier, j, pre que, les, nous, vus Corpus et lexique lemmatiss Je apercevoir_v le grand_a avion_n que nous avoir_v, voir_v hier_n avec grand_pre_n apercevoir_v, avoir_v, avec, avion_n grand_a, grand_pre_n, hier_n, je, que, le, nous, voir_v.
Chaque forme graphique a t remplace par sa forme canonique ou racine : le singulier pour un substantif ou un adjectif, linfinitif pour un verbe. Ainsi, par exemple, toutes les formes le, la l, les, une partie des du sont regroupes sous la forme racine le. Les diffrentes flexions du verbe tre (est, sont, ...) apparaissent linfinitif dans le lexique lemmatis. Les singuliers et pluriels ont t regroups : ainsi par exemple, homme et meilleur napparaissent quune fois dans le lexique lemmatis regroupant les effectifs des formes originales singulires et plurielles.
Lambigut entre avions (avoir) et avions (aroplanes) disparat dans le corpus lemmatis. Le statut grammatical des mots est en outre signal par les suffixes _N, _V...
20
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
2. Lancer la lemmatisation
Lanalyseur syntaxique
Le lemmatiseur intgr au Sphinx est l'analyseur syntaxique SYLEX, dvelopp par la socit Ingnia Langage Naturel. Il est constitu dun analyseur syntaxique et dun dictionnaire. Le dictionnaire franais contient 61 400 entres, 521 400 formes lexicales et 25 600 locutions. Une version anglaise de lanalyseur syntaxique et un dictionnaire danglais sont galement disponibles sur demande. La lemmatisation consiste faire lanalyse syntaxique de la variable. Une nouvelle variable contenant la version lemmatise du corpus sera ajoute la base de donnes. Cette variable pourra tre ouverte et analyse comme nimporte quelle autre variable texte. On accde au Lemmatiser. lemmatiseur par le bouton
Indiquer la catgorie des mots : chaque mot sera attach lun des suffixes qui le caractrise : _V pour le Verbe, _N pour un Nom commun, _P pour un nom Propre, _A pour un Adjectif, _B pour un adverBe, _G pour un mot Grammatical. Des conditions syntaxiques supplmentaires peuvent tre ajoutes en cliquant sur le bouton Grammaire complmentaire.
Faire un essai
Lanalyse syntaxique met en uvre des techniques de lintelligence artificielle, elle peut prendre quelques minutes pour un texte trs long, surtout si votre machine nest pas trs rapide. Vous pouvez vous faire une ide en ne lemmatisant quune partie du texte. Placez-vous sur lobservation de votre choix et cliquer sur le bouton Aperu pour lemmatiser le fragment correspondant.
Options de lemmatisation
Lanalyseur syntaxique procde par tape. Il dtermine le statut du mot, recherche sa forme racine et tablit une nouvelle phrase compose des formes racines. Ces nouvelles phrases forment le corpus lemmatis. Les options disponibles sont les suivantes : Filtrer des mots grammaticaux : les mots grammaticaux napparatront pas dans le texte lemmatis. A la diffrence de la rduction du lexique par les mots outils, cette option a pour effet de faire disparatre du nouveau corpus les mots grammaticaux ; Reprer les locutions usuelles : elles figureront dans le nouveau corpus relis par un tiret : pomme_de_terre ;
22
Corpus dorigine
Contrler, corriger
Corpus lemmatis
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Limportance relative dans un texte de chacune de ces catgories peut apporter beaucoup dinformations, notamment pour qualifier dventuelles variations selon lorigine (qui rpond ?) ou selon la partie ( quel moment de largumentation ?)... A partir du panneau lexical, vous pouvez automatiquement obtenir la liste des mots les plus frquents classs selon leur statut grammatical. Cette fonction automatise des oprations que vous pouvez affiner dans l'atelier lexical.
24
Corpus lemmatis
Corpus dorigine
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Remplacer
4. Modifier le corpus
On peut directement apporter des modifications dans le corpus. Le plus souvent, on le fera pour corriger des fautes de frappe ou des fautes d'orthographe. A cet gard, lorsqu'on travaille sur des textes imports, on a tout intrt les soumettre au pralable au correcteur orthographique.
Cette fonction est analogue celle des logiciels de traitement de textes. Elle est trs utile pour faire des substitutions systmatiques. On y accde par le bouton Remplacer de la barre doutils.
Reconstruire le lexique
Tant que vous n'avez pas revenir sur le lexique des fins d'interprtation, vous n'avez pas intrt cocher le bouton Reconstruire immdiatement le lexique car cela peut ralentir inutilement le travail.
26
Modifier le corpus
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
28
La statistique lexicale
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Taille du corpus : c'est la longueur du texte, elle donne le nombre total de formes graphiques qui le composent. c = i . Le calcul ne tient pas compte des mots ignors (mots outils) ou supprims. S'il y en a, ils figurent entre parenthses. Rptition moyenne : c'est le nombre de fois qu'un mot se trouve en moyenne rpt dans le texte. Rep = c / l. Selon le cas, le calcul est effectu en ignorant les mots outils ou les mots supprims. La valeur de la rptitivit calcule sur la totalit du lexique et du corpus est donne entre parenthses.
Taille du lexique. : c'est le nombre de mots diffrents prsents dans le corpus, elle donne une indication sur la richesse du vocabulaire. Elle est note l. Cette valeur, affiche en bas droite de la fentre du corpus, est calcule sans les mots outils si ceux-ci ont t ignors et sans les mots supprims. Les nombres de mots ignors et supprims figurent entre parenthses. Nombre de mots marqus : ces mots sont utiliss pour le calcul du pourcentage de lecture du corpus et des intensits lexicales. Pourcentage de lecture du corpus : c'est le rapport entre le nombre doccurrences cumules des mots marqus et la taille du corpus total. PL = 100 * m / c avec c : taille du corpus, m indice des mots marqus. Il donne une indication de la fraction du corpus, vue par les termes slectionns dans le lexique.
30
Nb. occurrences
Nb. observations
Stat. globales
Stat. de l observation
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
2. Bilan lexical
Au stade du traitement, le tableau rcapitulatif des variables textes donne, pour chaque variable, la taille du corpus (nombre de mots), celle du lexique (nombre de mots diffrents), et la longueur moyenne d'une observation (nombre de mots moyens...). Ce tableau est trs utile pour comparer la manire dont ces variables sont documentes. Dans l'atelier lexical, on peut aller plus loin en comparant les caractristiques lexicales de la variable tudie selon les catgories dfinies par une autre variable (variable de contexte).
Nombre de mots communs toutes les catgories et nombre de mots exclusifs de chaque catgorie : par diffrence avec le nombre total de mots, on obtient le nombre de mots partags (mais d'une manire partielle). Poids relatif du corpus des diffrentes catgories : ces indicateurs donnent une ide de la manire dont les zones de langage se recoupent : l'intersection d'une ligne et d'une colonne, on lit le pourcentage de lecture du corpus de la catgorie en colonne, par le lexique qu'il a en commun avec la catgorie en ligne. Dans l'exemple ci-contre, on constate que le lexique que les employs partagent avec les cadres moyens couvre 67% du corpus des cadres moyens, alors qu'il ne couvre que 53% de celui des employs.
32
Bilan lexical
employs employs
Cas OVALE Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005 cadres moyens ouvriers
Les indices de spcificit : lindicateur de spcificit est le rapport entre le nombre dutilisations observes et le nombre thorique dutilisations tel quil rsulterait dun emploi proportionnel au nombre total de mots prononcs par la catgorie considre. Les termes spcifiques d'une catgorie (sur utiliss par cette catgorie) ont un indice suprieur 1. Les termes exclusifs sont suivis de *. Les mots sous reprsents ont un indice infrieur 1.
Dfinition du tableau
Pour dfinir les lignes du tableau, il faut marquer dans le lexique les mots qui figureront en ligne dans le tableau puis slectionner Tableau lexical dans le menu Vue. Le dialogue qui apparat permet de choisir la variable selon laquelle ventiler le lexique en cours d'analyse. On peut se limiter certaines catgories en slectionnant celles qui nous intressent dans la liste des modalits. Le bouton Croiser permet de slectionner une autre variable.
34
Tableau lexical
4/ Analyser
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Outre la slection pralable effectue dans le lexique, le bouton Select permet d'affiner les conditions de slection : les mots exclusifs de chaque catgorie ; les mots communs toutes les catgories ; les mots communs certaines catgories seulement. Ces choix peuvent tre complts par des conditions sur les effectifs et/ou sur la spcificit (Voir Slection dans un tableau lexical). En bas de la fentre des mots spcifiques, on peut lire le nombre total de mots retenus. On peut ainsi contrler la svrit des slections. Les boutons Analyser, Marquer, Rduire fonctionnent exactement comme dans la fentre du tableau lexical : Analyser pour poursuivre l'analyse en produisant des cartes d'AFC dans l'environnement d'analyse des tableaux croiss, Rduire pour liminer les mots outils du lexique. Marquer permet daller marquer dans le lexique les mots slectionns. Ceci est ncessaire si on veut examiner leur environnement textuel, les ajouter dans un dictionnaire ou faire toute autre opration sur ce lexique particulier.
36
1/ Marquer les mots dans le lexique 2/ Choisir la variable de contexte Nb. Occurrences
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Les 3 cases cocher Inclure les mots exclusifs d'une catgorie, Inclure les mots communs toutes les catgories, Inclure les mots communs certaines catgories permettent de concentrer l'analyse sur des zones de langage particulires ; ce qui est essentiel du point de vue de la communication.
38
Slection dans le tableau lexical et la liste de mots spcifiques Identifier les zones de langage
Limiter selon le sens des mots Limiter par longueur de la liste Effectifs Indice de spcificit
Mot sur-reprsent
Mot sous-reprsent
Mots exclusifs
6. L'indice de spcificit
Dans le Sphinx, les calculs de spcificit sont utiliss en diffrentes circonstances : rechercher des caractristiques (Caractriser, Tableau de caractristiques), tablir des listes de modalits spcifiques (Tableau de modalits spcifiques). Ils obissent toujours au mme principe.
Par dfaut, cet indicateur est calcul par rapport l'effectif total des seuls mots figurant dans le tableau. Pour que N et Nc soient calculs pour tous les mots prsents dans le lexique courant il faut cocher loption Calcul sur lensemble du lexique (bouton Compter). En gnral, le calcul par rapport l'ensemble des mots du lexique a plus de pertinence. Il renvoie la globalit du discours. En se limitant l'ensemble des mots slectionns, on risque de se rfrer un ensemble dnu de fondement en terme d'nonciation.
La mthode de calcul
Si on note N le nombre total de mots dans le corpus, m le mot utilis, c la catgorie considre, Nm le nombre de fois o le mot m est utilis par toutes les catgories confondues, Nc le nombre total de mots dans la catgorie c et Ncm le nombre de fois o le mot m est utilis dans la catgorie c, lindicateur de spcificit est gal : Ncm / (Nc * Nm / N)
40
Indicateur de spcificit
Tableau lexical
Nb. total d occurrence de tous les mots dans toutes les catgories (N)
Indicateur de spcificit
Effectif thorique
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Ainsi, si on tudie chaque semaine le corpus dune mission tlvise, on pourra, semaine aprs semaine, construire le dictionnaire de rfrence de cette mission et comparer le vocabulaire de lmission en cours lensemble des missions prcdentes, et ceci, sans traiter le trop volumineux corpus de lensemble des missions.
Rsultats de la comparaison
Chacun des mots pourra tre : dans le corpus mais pas dans la rfrence ; dans la rfrence mais pas dans le corpus ; sous-reprsent dans le corpus ; sur-reprsent dans le corpus. On cochera les lments souhaits dans le dialogue des options.
Quelle rfrence ?
Un dictionnaire de rfrence peut tre gnral, par exemple le lexique de tous les mots utiliss dans tous les articles du journal Les Echos . On comparera une coupure de presse cette rfrence pour mesurer si elle est dans le ton. Un dictionnaire de rfrence peut tre thmatique, par exemple les verbes modaux dans lensemble des discours dune personnalit politique. On comparera lutilisation de ces verbes entre sa dernire prestation et lensemble de ses discours.
Options de calcul
Le calcul qui permet de fonder la sur-reprsentation ou la sous-reprsentation est le Rapport des frquences ou la Comparaison de frquences. Les frquences servant de base au calcul peuvent aussi tre calcules de deux manires : le pourcentage dapparition du mot par rapport lensemble des mots concerns (corpus ou rfrence) ; le pourcentage dapparition du mot par rapport lensemble des mots communs au corpus et la rfrence. Ces diffrents modes de calcul ont dj t dcrits dans le cadre des listes de mots spcifiques.
Limiter la comparaison
Comme dans les listes de mots spcifiques, le rsultat de cette comparaison est trop volumineux et il faut limiter cette comparaison pour nen restituer que lessentiel. On limitera ainsi la comparaison aux seuls mots ayant une frquence minimale n dans le corpus tudi. On appliquera un seuil la comparaison pour ne restituer que les lments vraiment sur-reprsents ou sousreprsents. On ne restituera que les n mots les plus caractristiques.
42
Les couleurs dans le texte ne sont quau nombre de trois et ne reprsentent que 1,32% du corpus
Le mot rouge est nettement surreprsent dans le texte. En effet, il reprsente 77,8 % des occurrences des couleurs dans le corpus et 20,8 % des occurrences des couleurs dans le dictionnaire de rfrence.
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
44
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
L'article Etudier les textes du menu Stade et du menu Recoder permet de choisir la variable texte et vous place dans l'atelier lexical. Dans l'atelier, vous pouvez aussi directement choisir une autre variable en utilisant le bouton Autre.
46
1/ Slectionner une variable texte 2/ Prparer le lexique et / ou marquer les lments prendre en considration
Transformer le texte
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
2. Codification lexicale
Il s'agit de codifier le texte en reprant automatiquement la prsence, dans les rponses, des mots marqus dans le lexique. Cette mthode est trs efficace si le lexique a t au pralable correctement mis en forme : lemmatisation ou regroupement des diffrentes formes dun mme mot, regroupement des synonymes ou quivalents, usage de dictionnaires thmatiques pour regrouper entre eux tous les termes porteurs dune mme signification. Sous ces conditions, on peut faire lconomie de la mthode classique danalyse de contenu (Voir Coder des textes) dont les inconvnients sont largement compenss par le caractre automatique et objectif de la procdure qui suit. La dmarche gnrale est la suivante : prparer le lexique : analyser de prfrence un corpus lemmatis et effectuer les groupements ncessaires ; marquer dans le lexique les lments que lon souhaite reprer dans la rponse. Sil sagit de termes regroups (lments commenant par un #), la prsence dun au moins des lments du groupe suffit pour identifier la prsence du thme correspondant ; agir sur le bouton Recoder et choisir Variable ferme pour dfinir le type de variable crer.
Attention : le balayage des rponses se fait en suivant les rgles de la navigation lexicale. Si la liste droulante Navigation est sur loption Obs. avec le mot actif, seules les observations contenant ce mot activeront la modalit Oui . Pour reprer la prsence de l'un des mots, il convient donc de slectionner loption Obs. ayant un des mots marqus. Par dfaut, la liste des mots marqus est reprise dans le libell de la nouvelle variable sauf si vous entrez votre propre description. Lnumration est tronque si la liste est trop longue.
48
Plaisir de manger_R2 Non- rponse manger bon repas ami got plaisir plat faim aliment #famille restaurant table Dveloppement 2005 TOTAL-OBS.
Frq. 23,9% 34,5% 30,6% 16,1% 12,3% 7,7% 7,4% 6,1% 4,8% 4,5% 8,4% 4,2% 3,2%
3. Mesures lexicales
On cherche caractriser les noncs par le poids de certains mots ou l'nonciation par les caractristiques de chaque observation. Ceci peut donner lieu aux mesures suivantes :
Loption Pour chaque mot permet de crer autant de variables que de mots slectionns. Leur nom contient celui du mot suivi de l'extension _O. Elles enregistrent le nombre de fois o le mot est prsent dans l'observation. En slectionnant Pour l'ensemble des mots, une seule variable est cre : elle donne le nombre fois o l'un des mots marqus est prsent.
Banalit de l'observation
Cet indicateur est gal au nombre de fois o les mots de l'observation apparaissent en moyenne dans tout le corpus. Cette variable permet ensuite de slectionner les rponses les plus banales, les moins banales et de les lister... Il est prfrable de calculer la banalit en ignorant les mots outils.
Richesse de l'observation
Elle est gale au nombre de mots diffrents. Ce calcul ne tient pas compte des mots marqus et se fait sur la base des lments du lexique courant.
50
Mesures lexicales
Valeur moyenne manger_O bon_O repas_O chose_O #en_famille_O got_O plaisir_O plat_O faim_O aliment_O restaurant_O table_O Ensemble 0,37 0,34 0,17 0,09 0,08 0,08 0,08 0,06 0,05 0,05 0,04 0,03 0,12
Plaisir de manger__R
Non- rponse 1 0,3% Moins de 1,00 73 23,5% De 1,00 2,00 104 33,5% De 2,00 3,00 71 22,9% De 3,00 4,00 38 12,3% De 4,00 5,00 18 5,8% Plus de 5,00 5 1,6% TOTAL OBS. 310 100% Minimum = 0, Maximum = 6 Somme = 458 Moyenne = 1,48 Ecart-type = 1,24
Intensit
Banalit
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Richesse
Lexique des mots : si c'est le lexique des mots qui est ouvert (menu Lexique / Mots), marquez dans le lexique les lments appartenant aux mots composs que vous souhaitez reconstituer, puis excutez : la squence Recoder / Texte modifi / Relier les mots marqus conscutifs. On cre ainsi un nouveau texte o les suites conscutives seront solidarises par un tiret ( _ ) pour ne former qu'une seule forme graphique. C'est une manire de solidariser les mots composs. Mais il est beaucoup plus intressant de procder partir du lexique des expressions. Lexique des expressions : lorsque le lexique des expressions est ouvert, le dialogue du bouton Recoder offre 2 possibilits : Texte rduit aux expressions (la nouvelle variable texte ne contiendra que ces expressions) ou Relier les mots de chaque expression. Dans ce dernier cas, la nouvelle variable conserve l'intgralit du texte original mais les expressions apparatront comme une seule forme graphique (les lments formant l'expression sont relis par _ : mot_compos).
52
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
dans le dialogue ouvert par le bouton Recoder, slectionnez Texte modifi / Fractionner les rponses ; choisissez le ou les sparateurs dsirs en les tapant dans la bote Fractionner les rponses pour les sparateurs ; un dialogue vous avertit quune nouvelle enqute va tre gnre ; dans le dialogue standard de gestion de fichiers, donner un nom de rpertoire pour la nouvelle enqute ; le logiciel procde au dcoupage et la cration de la nouvelle enqute dans laquelle vous vous retrouvez. Cest la nouvelle variable qui se trouve maintenant active. Vous pouvez vrifier que le nombre dobservations a chang. Pour revenir lenqute dorigine, il faut louvrir nouveau.
54
Texte initial
E c l Texte fractionn a t e r
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
56
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Phrases, paragraphes, pages, parties, documents, rpliques, ensembles de rpliques, interviews, fiches... constitueront la population analyser. En analyse de donnes textuelles, on utilise souvent le mot fragment pour qualifier ces units lmentaires, qui correspondent aux individus ou observations formant la population tudie. Dfinir les variables : selon quels points de vue structurer le corpus ? On peut considrer le texte relatif une unit lmentaire comme un tout ou distinguer plusieurs sousensembles (la question et la rponse, le titre et le rsum...) et dfinir ainsi une ou plusieurs variables textes. On peut aussi identifier des catgories auxquelles appartiennent les units lmentaires : le document ou la partie qui situe la phrase, le nom de la personne interviewe qui situe la question et la rponse, l'anne pour le titre et le rsum. On cre pour cela des variables nominales dites variables de contexte qui situent les variables textes. La base de donnes cre partir du corpus sera organise en fonction des indications de dcoupage et de structuration. Elle sera compose dautant de fragments (lignes / observations...) que le texte contient dunits lmentaires. Chaque fragment sera compos dune ou plusieurs variables : textes et contextes dfinissant le statut des textes. A titre d'exemple, le schma ci-contre illustre les diffrentes manires de structurer le texte de 3 interviews non directives : dcouper selon l'entretien : la base comporte 3 observations (les interviews), une variable texte (texte des questions ou des rponses), une variable de contexte (l'entretien). On ne peut pas faire la diffrence entre question et rponse ; dcouper selon la prise de parole : la base comporte 24 observations (tour de parole ou rplique), une variable texte (texte des questions ou des rponses), 2 variables de contexte : l'interview, et le statut de la variable texte (Question ou Rponse). On ne peut pas croiser question et rponse ; dcouper selon l'change : la base comporte 12 observations (changes question / rponse), deux variables textes (le texte de la question et le texte de la rponse), une variable de contexte (l'interview). Cette solution permet de distinguer question et rponse et de croiser leur vocabulaire.
58
Du texte
Variables de contexte
Variables textes
Questions
Rponses
Questions
Rponses
Identit de linterview Statut du texte (question/rponse) Texte des questions ou des rponses
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
3 entretiens
24 rpliques
12 changes question/rponse
la premire correspond au cas o vous analysez un ou quelques textes, peu ou irrgulirement structurs : discours, livre, rapport, pice de thtre, compte rendu de runion, de table ronde, focus groups... ; la deuxime, au contraire, concerne des ensembles de textes rgulirement structurs : bases de donnes bibliographiques, sites Internet, collection de documents (coupures de presses, changes dans une messagerie...), entretiens non directifs... Dans le premier cas, choisir loption Les textes sont annots : les indications naturelles de structurations sont inexistantes ou peu nombreuses, hormis les annotations et marques introduites dans une phase prparatoire pour guider le logiciel. Dans le deuxime cas, choisir loption Les textes sont baliss : on trouve les traces de l'organisation des donnes (les balises), elles rsultent de leur origine informatique (bases de donnes, fichiers) ou de leur mode d'laboration (fiches de lectures, compte rendu d'entretiens...). Le choix renvoie aussi au caractre rptitif ou non du matriau analyser. L'option Les textes sont baliss correspond bien aux cas o la nature des donnes impose un dcoupage en units lmentaires (la note documentaire, la fiche, la coupure de presse, le couple question / rponse). Au contraire, loption Les textes sont annots correspond au cas o aucun choix ne s'impose a priori.
Ouvrir le fichier
Avec le dialogue habituel de Windows, cherchez votre fichier et ouvrez-le. Une nouvelle fentre apparat et vous montre le contenu du fichier. Si vous ne reconnaissez pas vos donnes, vous vous tes tromp de fichier ou ce n'est pas un fichier au format texte. L'ouverture ne se passera correctement que si le fichier n'est pas utilis en mme temps dans un autre logiciel.
60
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
3. Texte balis
On obtient par exemple un texte balis en extrayant des lments d'une base de donnes ou en compilant un ensemble de messages lectroniques. Ces donnes sont en effet structures par les balises qui indiquent les diffrentes rubriques. Toutes ne sont pas forcment prsentes, mais chaque information est rattache l'une d'elles. A partir des balises, le logiciel peut organiser la nouvelle base de donnes : il repre les balises dans le texte et les soumet pour validation l'utilisateur. Puis il cre une variable par balise, et parcourt le texte en affectant ce qui suit chaque balise la variable correspondante. Lorsqu'il rencontre nouveau une balise, il cre une nouvelle observation.
Une autre case cocher permet d'indiquer si, lorsqu'une balise est absente, le contenu de la variable doit tre admis non rponse ou si on doit plutt Conserver la valeur prcdente.
Ces balises ne sont pas marques, elles dfinissent l'observation lmentaire, c'est--dire que leur rptition fait passer l'observation suivante. Si 2 "Q" se suivent, ils appartiennent ncessairement des observations diffrentes, et dans ce cas, on aura un "R" non rponse.
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Questions Rponses
Variables textes
5. Texte annot
On utilise cette approche lorsque le ou les textes analyser sont faiblement structurs ou pas du tout. Se pose alors la question du dcoupage en fragments lmentaires. La dmarche la plus simple consiste s'appuyer sur la structuration naturelle du texte. Enfin, la possibilit d'interprter des annotations apportes dans le texte permet d'en reprer les lments et/ou de les commenter.
les annotations globales de type JALON : tous les fragments, jusqu' la prochaine annotation globale, sont dsormais affects par cette annotation ; la syntaxe respecter est la suivante : le contenu est dfini entre crochets et prcd d'une mention prcisant son type : [MT= contenu ]
M= pour MARQUE (variable ferme) MT= pour MARQUE TEXTE (variable ouverte) J= pour JALON (variable ferme) JT= pour JALON TEXTE (variable ouverte)
Le bouton Dtail disponible dans loption Annotations permet : dindiquer les annotations qu'on souhaite utiliser (cocher la case correspondante) ; de donner un nom la variable ; de prciser si on souhaite conserver les annotations dans le texte ; dorganiser la propagation de la dernire annotation (Marque absente = Marque prcdente).
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
1/ Dcouper 2/ Structurer
Structurer par dcompte des fragments Structurer par annotations Jalon Marque Sparateur
La nouvelle base contiendra la variable texte et 3 variables de contexte : le statut du texte (Question, Rponse), la Partie et le document d'origine (Fichier). En procdant ainsi, on peut dfinir la strate des questions, celle des rponses et se concentrer sur l'un ou l'autre des corpus. Mais on ne pourra pas rapprocher le texte d'une question de celui de la rponse qu'elle provoque. Cette stratgie convient aux entretiens non directifs. Mais si l'entretien est dirig avec des questions qui reviennent l'identique, il vaut mieux procder comme pour un texte balis. En assimilant le couple question / rponse une observation, on pourra croiser les vocabulaires correspondants.
Analyse de discours
On peut ramener ce cas celui de tout texte mono bloc dans lequel aucune structuration particulire n'est mise en vidence hors mis celle de la syntaxe. La solution la mieux approprie consiste : fragmenter le texte en phrases et dnombrer les paragraphes. Chaque phrase se trouve ainsi affecte un paragraphe repr par son numro. Pour cela, slectionner Niveaux et entrer les caractres de ponctuation forte dans la case de gauche et le retour chariot dans la case de droite ; dcouper le texte en 5 parties conscutives et de longueur gale (en nombre de fragments). On peut ainsi identifier des parties de dbut, de milieu et de fin du texte. Pour cela, dans le dialogue Numrotation cocher Numrotation des parties et Indicateur de partie : 5. La base de donnes obtenue comporte la variable texte et 3 variables de contexte contenant le numro de fragment le numro de paragraphe et de partie.
Pice de thtre
Ce cas peut se ramener au cas prcdent : on fait prcder chaque rplique d'une marque Personnage : [M=Harpagon], [M=Elise]. En dbut de chaque Scne, on pose un Jalon [J=Acte I Scne 1]..... Pour identifier les Actes indpendamment les uns des autres, on peut utiliser un sparateur de niveau en posant par exemple des $ au dbut de chaque Acte. La fragmentation peut se faire par phrases ou par rpliques. Dans ce dernier cas, faire concider la rplique et le paragraphe ou introduisez un niveau rplique.
Annotations
Jalons acte et scne liste des personnages prsents Marques nom du personnage didascalies
tous les n mots : on obtiendra des fragments de longueur identique ; avant le style "unstyle" : en rptant cette opration pour les styles Titre1, Titre2, Titre3, on aura un fragment pour chaque sous-partie du texte.
Mthodologie
La barre doutils pour transformer le texte slectionn en annotation ou bien pour lancer le dialogue ci-dessous
10
Etudes de cas
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Identifier les produits Hextra voqus par le consommateur Reprage des produits recherchs dans le texte Regroupements de plusieurs intituls diffrents par produits
12
produits Non rponse ptes Knackis jambon lardon pte_feuillete pte_pizza pte_brise cervelas Total 281 46,9% 157 26,2% 76 12,7% 32 5,3% 26 4,3% 23 3,8% 21 3,5% 18 3,0% 8 1,3% 599 26,2% 12,7% 5,3% 4,3% 3,8% 3,5% 3,0% 1,3% 46,9%
pte_pizza
Exemples :
n 110 Ce consommateur trouve notre Poitrine Fume par 3 ou 4 trop paisse pour barder une volaille ou mme pour manger avec des oeufs. Nous suggre de faire des tranches de 4mm et en mettre 5 par paquet et est certain que l'on ratisserait de la clientle n 379 Bravo pour votre kit pizza. Cette exprienc e me permet de faire une suggestion. Pourquoi ne pas faire de pte feuillete comme les kit pizza , cela serait plus conforme la plaque du four, faciliterait la dcoupe soit avec des ciseaux soit la roulette n 431 "sur l'emballage, il y a marqu ""pensez sortir votre pte du rfrigrateur 20 min avant utilisation"" mais c'est l'intrieur de l'emballage et on ne peut pas le lire avant d'avoir ouvert l'emballage elle suggre de le marquer l'extrieur" n 439 Il est marqu 4 recettes l'intrieur, pou rquoi ne pas les faire figurer l'extrieur, c'est bien plus simple lorsque l'on fait ses courses pour connatre les ingrdients acheter. Moi, je viens de rentrer de mes courses, j'ouvre la pte, et je m'aperois que je n'ai pas tous les ingrdients, et qu'il faut que je ressorte acheter ce qu'il me manque ! Cela m'agace et c'est pourquoi, je vous fais cette suggestion. n 489 je suggre que soit not sur les emballages de pte quel moule cela correspond
lardon recettes
cervelas
C. Explorer des sujets cibls - Exploration autour de lallergie - Lire toutes les rponses relatives ce thme = concordances - Mise en vidence du lexique relatif autour du mot cl pour identifier les thmes dallergie les plus frquemment cits D. Dcouvrir des ides - Plusieurs stratgies de recherche envisages - Parmi celles-ci, recherche autour du verbe suggrer 5 propositions mises par les consommateurs
Mthodologies rsultats :
utilises
pour
le
traitement
des
Un ensemble de techniques de lanalyse de donnes textuelles dont : - analyse de contenu, - regroupement de lexique par dictionnaire thmatique, - analyse factorielle des correspondances sur les occurrences principales, - extractions slectives de verbatims,
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Planning de mise en oeuvre : 10 jours Bnfices et limites de l'tude ou de l'application : Le client (transporteur) rassur sur la pertinence des intuitions, conduisant au choix de son nouveau positionnement. La force de vente comprend le nouveau positionnement Conclusion : confirmation dune intuition Rsultats : Sur la page, ci aprs, reprsentation des co-occurrences par analyse factorielle des correspondances.
14
3. Cas Ovale
Analyse comparative des sites concurrents En janvier 2004, nous avons rcupr le contenu complet des 5 sites institutionnels de Meyer, Fidel, Odense, Ovale et Onvista. Nous constatons des structures trs similaires, comme nous le voyons dans le tableau ci-dessous ; avec pour toutes les entreprises tudies, des espaces consacrs la philosophie/culture de lentreprise, aux produits, aux actionnaires/investisseurs, aux fournisseurs et parfois au sponsoring sportif. Une revue de presse est systmatiquement disponible. Pour les cinq entreprises, il sagit trs nettement de sites dits institutionnels .
Site www.meyer.com www.fidel.com Structure de premier niveau Home (company/news/maps) / Products / Locations / Contact / Jobs About us / Products / News / Investor information / Suppliers / Careers / Motorsports About Odense / Products / Technology / Environment / News Releases / Events / Investors About Ovale / Activities & Technologies / Finance / Press / Join us / Suppliers / Ovale Service About Onvista / Investor relations / Newsroom / Technology / Careers
Nous avons procd une analyse des donnes sur le logiciel Sphinx Lexica. Aprs rduction lexicale (retrait des mots outils du langage), nous constatons tout dabord que pour quatre dentre eux, ils sont de taille comparable (entre 30 000 et 40 000 mots), ce qui rend notre analyse statistique dautant plus fiable et pertinente. Seul le site de Meyer est plus petit avec 10 000 mots. Ceci nest pas trs tonnant car lentreprise ne couvre quune partie plus restreinte des technologies de lquipement automobile. Pour les revues de presse, par souci dhomognit, nous avons slectionn 20 articles par site, les plus rcents ou ceux qui taient prsents en premier sur la liste des articles. Bilan lexical (sur lexique rduit hors mots-outils) Hormis Meyer, le site de Fidel est le plus riche et le moins rptitif. Sur ce critre, Ovale est troisime sur quatre. Si lon compare les corpus des 5 sites et leurs intersections, le site de Ovale est plus original par rapport ses concurrents avec prs de 15% des mots qui lui sont exclusifs contre 9,5% Onvista. Dans les caractristiques de son corpus, le site de Ovale ressemble plutt celui de Onvista (77 et 79% de recouvrement)
Rptition moyenne : rptition moyenne de lensemble des mots du site, plus cet indicateur est haut plus le texte est rptitif. Mot exclusif : mot prsent exclusivement dans le site dune marque donne Recouvrement des corpus : % du corpus dune marque donne partage avec une autre marque
www.odense.com
www.ovale.com
www.onvista.com
Sur le plan technique, tous les sites sont construits et dvelopps en PHP, ce qui signifie qu partir dune structure statique pr-dfinie, le contenu des pages est dynamique : il est aliment et mis jour rgulirement depuis un menu dadministration et une base de donnes. Cela signifie par ailleurs que les versions des sites en diffrentes langues suivent exactement la mme structure et sont constitues de simples traductions. Autrement dit, il ny a pas dadaptation particulire au vocabulaire dun pays donn. Mthodologie gnrale
Nombre total de mots Mot le plus frquent Frquence de ce mot Nombre de mots diffrents Rptition moyenne
Nous constatons dans le tableau ci-dessous que les concurrents ne se citent quasiment pas, peine 4 citations croises, dont 3 figurent sur le site de Onvista. Onvista Ovale Fidel Odense Meyer 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1
5 820 5 236 4 969 (2 652) 5 809 (15,4%) (16,9%) (15,9%) (26,3%) (14,8%) 6,51 5,93 6,30 (3,79) 6,77
Poids des 51.1% 48.4% 55.3% 1083 mots communs Nombre de 2 170 1 490 1 464 mots exclusifs (14.6%) (11.5%) (13.0%) Fidel Odense Recouvrement Ovale des corpus Ovale * 72.5% 76.9% Fidel 70.5% * 75.7% Odense 71.2% 70.3% * Meyer 58.3% 54.4% 62.8% Onvista 77.3% 81.1% 77.7%
63.4%
51.8%
Analyse thmatique des sites Nous avons dfini une liste de thmes-cl et avons mesur comparativement leur prsence sur chacun des cinq sites. On exclut pour linstant le thme de linnovation ou de la recherche, qui sera spcifiquement trait plus loin.
Citations des marques Nous avons calcul la frquence de citation de la marque sur lensemble du site (en excluant bien videmment les menus). Ovale est en tte avec un peu plus de 3%, suivi de prs par Onvista. Odense est la marque la moins mise en valeur avec moins de 2% de frquence. Nb citations marque 1 202 1 168 270 724 625 Corpus 37 874 39 306 10 053 31 064 31 313 149 610 Frquence marque 3,17% 2,97% 2,68% 2,33% 1,99%
D'aprs le tableau et la carte factorielle ci-dessous : On constate que le site de Ovale, comparativement ses concurrents, insiste principalement sur la qualit, la technique, les services et laprs-vente. On y voque plus souvent les fournisseurs et les actionnaires. Les sites de Fidel et Onvista sont assez proches. Onvista se caractrise par une mise en avant du consommateur et du client. Par ailleurs, on y parle beaucoup de performance, de design. Sur www.fidel.com, on cite souvent la puissance. Le site de Odense fait la part belle lenvironnement, mais aussi linvestissement et au dveloppement.
RAPPEL : Carte factorielle: reprsentation graphique sur deux dimensions des correspondances identifies statistiquement entre les marques et les thmes. Proximit signifie corrlation, loignement signifie rpulsion. Les mots placs au centre sont communs, ceux qui sont en priphrie sont trs spcifiques.
product development environment technology new customer services performance suppliers quality power design technical employees safety efficiency consumer shareholders international aftermarket investment cockpit
Key words x Firm Ovale 23.9% 26.6% 19.5% 20.4% 21.3% 15.3% 44.8% 19.1% 33.6% 34.8% 20.8% 18.7% 67.3% 21.3% 29.3% 22.2% 7.9% 42.8% 31.2% 50.8% 11.5% 19.3% Fidel 25.0% 9.4% 13.3% 21.3% 15.0% 20.3% 9.5% 29.9% 8.8% 12.0% 38.9% 22.3% 9.9% 14.5% 29.8% 16.3% 18.0% 2.5% 14.2% 5.1% 4.9% 40.1% Odense 27.2% 29.4% 50.0% 22.4% 23.2% 10.4% 8.9% 9.6% 13.4% 10.1% 14.0% 11.7% 4.9% 25.5% 19.2% 24.6% 4.5% 19.5% 22.7% 1.7% 37.7% 4.4% Meyer 4.7% 9.1% 3.2% 4.5% 11.7% 8.1% 4.9% 4.2% 8.5% 8.0% 3.0% 3.9% 5.3% 4.3% 5.8% 6.9% 0.0% 0.0% 13.5% 0.8% 6.6% 9.4% Onvista 19.1% 25.4% 14.0% 31.4% 28.8% 46.0% 31.9% 37.3% 35.7% 35.1% 23.4% 43.5% 12.7% 34.5% 15.9% 30.0% 69.7% 35.2% 18.4% 41.5% 39.3% 26.8%
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Key words x Firm Axe 2 (32.7%) consumer cockpit Fidel power performance customer design Onvista technology product employees safety new Meyer development international suppliers quality efficiency Axe 1 (41.1%) investment Odense environment
services
Ovale
shareholders aftermarket
technical
Utilisation des mots de linnovation Ovale est lentreprise qui accorde proportionnellement le plus de place aux mots de linnovation (innovation, innovations, innovative, research, new ou advanced technologies) dans son discours (0,47% du corpus du site), Onvista est n 2 avec 0,32%, les trois autres entreprises sont au mme niveau avec une frquence de 0,22%.
Innovation x Firm (frequency) 1. Ovale 2. Onvista 3. Fidel 3. Odense 3. Meyer Total Innovative Innovations Research 0,12% 0,10% 0,10% 0,06% 0,16% 0,04% 0,09% 0,02% 0,03% 0,03% 0,00% 0,07% 0,10% 0,01% 0,08% 0,08% 0,07% 0,06% Innovation 0,15% 0,05% 0,05% 0,01% 0,01% 0,06% New tech. 0,00% 0,00% 0,03% 0,05% 0,02% 0,02% Advanced tech. 0,01% 0,00% 0,01% 0,05% 0,00% 0,01% Total 0,47% 0,32% 0,22% 0,22% 0,22% 0,31%
Parmi ces 6 termes identifis, comme on peut le voir sur la carte factorielle ci-aprs, chaque firme a ses particularits ou ses prfrences : Odense se distingue trs nettement par lemploi de new technologies ou advanced technologies , Onvista se concentre trs nettement sur innovations au pluriel, Ovale et Fidel privilgient innovation et innovative , Meyer utilise plus volontiers research .
Innovation x Firm (nb. Citations) Ovale Onvista Fidel Odense Meyer Total Innovative Innovations Research 46 36 39 25 63 17 28 7 9 10 0 23 10 1 8 119 107 96 Innovation 55 20 14 3 1 93 New tech. 1 1 9 15 2 28 Advanced tech. 2 1 2 17 0 22 Total 179 127 69 68 22 465
Research
Onvista
Concordances autour des mots de linnovation pour chaque marque Nous avons isol grce aux lexiques relatifs (voir dfinition) les mots qui concordent avec le vocabulaire de linnovation sur les sites des cinq entreprises. On observe que Ovale fait rfrence ses rcompenses en matire dinnovation, la qualit, son engagement et son approche. Linnovation est prsente ici comme une culture dentreprise. Chez Onvista, la marque est systmatiquement associe linnovation. On parle de produits, dapplications et de solutions : un discours l encore trs orient vers le client. Fidel galement cite souvent sa marque, mais aussi son design et associe linnovation des adjectifs dynamiques comme responsive , proving et successful . Odense ne compte que peu de mots associs au thme de linnovation, quil met peu en exergue sur son site, comparativement aux autres firmes. Il prfre faire rfrence aux new ou advanced technologies.
Lexique relatif = principaux mots situs autour dun thme donn dans le texte, classs en fonction de leurs frquences de concordance. OVALE : Lexique relatif dInnovation pivot -2 -1 pivot +1 +2 114 mots-180 occ 117 mots-197 occ equipment 9 award original 9 technologies ovale 8 commitment latest 7 quality technical 6 styling constant 5 approach prix 5 design technological 5 equip automotive 4 protect combines 3 silencio auto products technology pivot -2 -1 64 mots-117 occ onvista corporate office audio feature story concepts deliver develop digital electronics
tools ONVISTA : Lexique relatif dInnovation pivot +1 +2 115 mots-198 occ home solutions vehicle center driving fuel high products wireless application continues deliver electronics enjoyment find help kerpen quickly systems technologies
19 5 5 4 4 4 3 3 3 3 3
6 6 6 5 4 4 4 4 4 3 3 3 3 3 3 3 3 3 3 3
10 9 7 7 6 5 4 4 4 4 3 3 3
Sur les fragments de texte que nous avons isols et qui incluent les mots de linnovation seulement (401 fragments), nous avons identifi les mots et expressions les plus spcifiques chacune des marques. On retrouve ici les spcificits prsentes dans les paragraphes prcdents. Ovale insiste sur ses quipes, ses services, laprs-vente, sa technique mais aussi son approche gnrale de linnovation. Odense voque ses efforts, ses cots et encore le contexte environnemental. Onvista lie trs fortement sa marque ses innovations, qui sont prsentes trs souvent au pluriel. Onvista voque toujours le consommateur mais aussi son ingnierie. Meyer situ ici au centre de la carte factorielle - tient un discours beaucoup moins spcifique sur linnovation.
billion automakers
Axe 1 (36.7%)
communications energy costs new_technologies growth sales research car markets important new_ways year capabilities environmental components cabin engine Behrintegrated meet further create continues moresafety products four future air_conditioning Delphi module consumer company high production manufacturing air help automotive comfort only applications developed working ford audio visteon_innovations market performance experience today fuel offer deliver manufacturers cost right employees group concept voice excellence best engineering consumers engineers while bass features Visteon said tm satellite_radio service teams innovations vehicle design range Valeo international technical latest electrical project light approach aftermarket
Les lexiques
Lexique brut
je j de une 1182 653 613 566 464 412 385 362 362 355 286 286 280 257 244 240 208 198 194 192 182 158 156 150 137 122 120 118
Lemmatis
maison acheter voyage faire enfant placer voiture donner voyager aider argent famille partir travailler monde profiter investir don immobilier beau mettre placement appartement reste changer aller arrter association 354 350 310 297 264 230 194 187 148 122 118 117 91 91 81 81 76 75 74 72 71 71 65 65 63 59 58 57
Les substantifs
maison voyage enfant voiture argent famille monde don placement appartement reste association immobilier partie oeuvre vie tour vacance achat loisir besoin placer gens ami cadeau plaisir cancer enfants 354 310 259 194 118 117 81 75 71 65 65 57 55 54 51 49 45 43 41 39 36 35 34 33 33 33 27 24
Les verbes
acheter faire placer donner voyager aider partir travailler profiter investir mettre changer aller arrter amliorer prendre vivre partager payer rester pargner pouvoir dpenser distribuer faire_plaisir garder faire_le_tour 350 296 195 187 148 122 91 91 81 76 71 63 59 58 48 38 37 36 33 33 32 28 27 26 26 26 25
en le des un maison enfants la pour l mes les et voiture dans voyage ferais voyages ma achterais aux famille pas argent
avoir_besoin 30
Verbes selon le sexe Homme acheter faire placer donner voyager aider partir travailler profiter investir mettre changer aller arrter amliorer prendre vivre partager payer rester pargner avoir_besoin pouvoir dpenser distribuer faire_plaisir garder faire_le_tour essayer 135 116 91 57 70 40 34 53 43 46 26 29 30 33 19 20 17 10 11 19 13 10 9 15 9 8 9 13 14 Femme 191 141 101 114 77 71 56 37 36 30 45 32 24 25 29 17 19 26 21 13 18 20 17 12 17 18 16 12 9
41.4% 45.1% 47.4% 33.3% 47.6% 36.0% 37.8% 58.9% 54.4% 60.5% 36.6% 47.5% 55.6% 56.9% 39.6% 54.1% 47.2% 27.8% 34.4% 59.4% 41.9% 33.3% 34.6% 55.6% 34.6% 30.8% 36% 52% 60.9% 58.6% 54.9% 52.6% 66.7% 52.4% 64.0% 62.2% 41.1% 45.6% 39.5% 63.4% 52.5% 44.4% 43.1% 60.4% 45.9% 52.8% 72.2% 65.6% 40.6% 58.1% 66.7% 65.4% 44.4% 65.4% 69.2% 64% 48% 39.1%
126 104 84 82 43 48 41 30 38 23 21 31 18 25 27 22 14 19 13 14 11 13 10 7 9 8 15 11 13
Les analyses intrinsques qui prcdent sont menes sans rfrence au contexte et au statut des locuteurs. Elles peuvent tre compltes par l'analyse des spcificits lexicales. Par exemple les tableaux ci contre montrent que les hommes et les femmes ont tendance sur utiliser certains termes.....
don placement appartement association immobilier oeuvre vie tour vacance achat loisir besoin gens ami cadeau plaisir cancer enfants logement pauvre banque pays
vacance vie
L'analyse factorielle des correspondances permet de gnraliser la recherche des effets de contexte. Ici le choix des mots et des proccupations apparaissent comme clairement dtermins par l'ge
amliorer gens autour_de don profiter aider enfant 50-64 voyager humanitaire famille
arrter achat
placement
immobilier
25-34 maison placer voiture acheter tour de_ct beau cadeau partir
oeuvre
voyage monde
en_vacances
partager
65+ besoin
La longueur des rponses, leur richesse (nombre de mots diffrents) et leur banalit (frquence moyenne dans le corpus des mots utiliss par chacun) permet de caractriser les rponses. Les rponse longues sont les plus riches, mais la banalit est indpendante de la longueur ou de la richesse. Les inactifs, ouvriers et agriculteurs font les rponses les plus courtes et les plus convenues (banalit).
LONGUEUR Moyenne = 8.47 Mdiane = 8.00 Min = 0.00 Max = 19.00
- NS
LONGUEUR
LONGUEUR
BANALITE
Les nuages de point ci dessus illustrent bien la mesure du coefficient de corrlation. Ci dessous l'ACP donne une image de ces corrlations. Longueur et richesse sont fortement liees. La banalit varie d'une manire totalement indpendante.
Longueur x Richesse x Banalit Axe 2 (29.4%) Longueur x Richesse x Banalit selon la CSP LONGUEUR RICHESSE Commerant, artisan BANALITE Employs Cadre.Prof.Intell. Sup. Prof.Intermdiares 9.32 8.91 8.55 8.38 8.34 8.27 7.86 7.34 8.47 9.15 8.64 8.33 8.18 8.07 8.07 7.60 7.13 8.22 BANALITE 98.85 113.40 103.05 104.76 101.51 110.42 125.10 110.70 109.53
Retraits LONGUEUR
CSP / LONGUEUR p = 8.0% ; F = 1.82 (PS) CSP / RICHESSE p = 5.3% ; F = 1.99 (PS) CSP / BANALITE p = 0.7% ; F = 2.80 (TS)
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Analyse de contenu Le code-book prpar dans Sphinx permet dindustrialiser le travail de lecture . Cette une approche alternative lanalyse lexicale. Elle a le mrite de reposer sur une lecture intelligente (mais peut tre biaise) et de reposer sur une rflexion modlisatrice pralable.
5. Les mots qui touchent : analyse textuelle des tubes de la chanson franaise.
L'objectif de ce travail consiste donc isoler les caractristiques lexicales des fleurons de la chanson franaise. Pour traiter la question pose, nous avons constitu deux groupes de textes crits par 20 artistes francophones. Le premier groupe est compos de 100 succs et le second inclut une centaine d'uvres restes dans l'anonymat. Grce au logiciel Sphinx Lexica, le travail consiste ensuite reprer les caractristiques de chaque auteur et surtout tablir les particularits des chansons succs. Nous analysons les diffrents lexiques afin de dterminer "les mots qui touchent", nous identifions les thmatiques centrales et les segments rpts les plus marquants. Les rsultats conduisent des conclusions trs intressantes. En prolongement de cette tude lexicale, nous nous sommes intresss la dimension phontique des textes, faisant l'hypothse qu'au del des mots proprement dits, l'importance des phonmes choisis tait prpondrante. Nous avons donc ensuite chang d'unit statistique pour nous concentrer sur les phonmes spcifiques des textes succs. Les issues de ce travail laissent entrevoir des perspectives de recherche tout fait prometteuses. Un chantillon de 200 uvres Nous avons constitu une base de donnes textuelles de 200 chansons crites en franais. Vingt artistes ont t choisis parmi les plus clbres de la profession. Pour chaque artiste, nous avons slectionn cinq succs et cinq chansons peu connues, ce qui constitue finalement deux chantillons, lun comprenant 100 tubes et lautre 100 nontubes. Cette classification effectue par lauteur a donn lieu une validation par un groupe de cinq experts : journalistes, disquaires, artistes, tous spcialistes de la chanson franaise. Ceux-ci - partir de la liste alphabtique des 200 titres - ont construit leur propre classification. Pour chacun des cinq juges, le taux daffectations diffrentes ne dpasse jamais 5%, ce qui est tout fait satisfaisant.
Les textes ont t rcuprs via lInternet au sein de sites ddis la chanson franaise (les sites web de Alain Pierre et de David Baltaro, de Mikhail Foursov, de Leni "Botanaige", la French Music Database de Anthony Patrick Lee). Le corpus final compte 48669 formes pour un lexique de 5968 mots. Prcisons que les refrains nont t saisis quune seule fois pour ne pas introduire de "fausses rptitions" au sein du texte. Des auteurs aux styles trs diffrents Avant de tester nos hypothses, nous nous sommes intresss aux diffrences entre les artistes. Afin de comparer les styles des auteurs, nous avons utilis quatre indicateurs usuels. La longueur de la chanson est considre tout dabord (N) puis nous mesurons sa richesse (V) qui indique la longueur du lexique. Ainsi, N dcompte le nombre total de formes graphiques prsentes dans le texte, V le nombre de formes diffrentes. La rptition (R) indique le nombre de fois o chaque forme du texte se trouve rpte. R=N/V. La banalit (B) calcule la frquence moyenne de chaque forme au niveau du lexique total. De par leur construction, la longueur et la richesse sont corrles, tout comme la rptition et la banalit.
Les artistes de la chanson franaise se distinguent par leurs options mlodiques mais aussi - comme on le voit sur la figure ci-dessus - par les caractristiques de leurs textes. On retrouve sur cette carte diffrents types dcriture. A droite, les auteurs de "chansons texte", qui se caractrisent par une certaine prolixit : Brassens, Renaud, Duteil, Goldman. A loppos, se retrouvent des artistes prfrant la chanson ludique de type "gag" dont le texte nest quun prtexte pour faire sonner la musique. Correspondant ce profil, Gainsbourg ou Polnareff sont dailleurs des musiciens prodiges. Sur le deuxime axe, nous reprons dune part, des chanteurs dont les paroles sont marques par la simplicit et luniversalit, traitant de thmes courants voire banals : Berger, Dassin, Fugain. Dautre part, Farmer ou Clerc traitent de sujets originaux et utilisent volontiers des formes lexicales remarquables. Les tubes : plus de rptition, moins doriginalit Le propos de notre recherche est de tenter de mettre en vidence les composantes lexicales qui pourraient caractriser les chansons succs, tant sur la forme que sur le fond. Les tubes sont ils plus courts, plus rptitifs ?
donc moins riches. Par ailleurs, les tubes emploient des formes lexicales moins originales et donc plus banales. En ce qui concerne la longueur, la diffrence nest pas statistiquement significative (F=0,3 et 1-p=41%). Le segment rpt : une composante du tube En isolant les segments rpts dont la frquence est suprieure 10 sur la totalit du corpus, on saperoit que ces fragments appartiennent 2 fois sur 3 une chanson succs. Sur des bases de statistique textuelle (chi2 = 258,88, 1-p = 99,99%), nous pouvons donc dire que le segment rpt est un lment qui semble faire partie intgrante de la chanson "performante". Favorisant la mmorisation, le principe de rptition est lun des premiers prceptes des techniques de persuasion, couramment utilis en publicit notamment. 5 premiers segments rpts des_petits_trous Ne_me_quitte_pas Y_a_pas_de_honte tout_le_monde Unis_vers_l_uni TOTAL des segments cits au moins 10 fois TUBES AUTRES TOTAL 30 23 23 2 18 220 0 0 0 16 0 100 30 23 23 18 18 320
TUBES Effectif de la catgorie Nombre total de mots Longueur moyenne Nb de mots diffrents Nombre d'hapax Rptition corpus Frquence maximum Mot le plus frquent Nombre de mots exclusifs Pourcentage du corpus 100 24704 247.04 3557 1484 6.95 655 de 1988 50.8%
AUTRES 100 23965 239.65 3980 1788 6.02 696 de 2411 49.2%
Lintrt dune implication plus personnelle de lartiste Lintensit lexicale permet de mesurer le poids dune forme au sein dune unit statistique. Ici, nous nous intressons au pourcentage de diffrents pronoms au sein des chansons. Nous lisons dans le tableau ci-dessous que lintensit lexicale de "je" est nettement plus forte dans les tubes, alors que le poids de "tu" nest pas statistiquement diffrent. Ce rsultat traduit limportance de limplication personnelle de lartiste dans sa communication avec son public. Intensit de JE Intensit de TU 2.70 0.86 1.83 0.69 2.26 0.78
On constate que les caractristiques textuelles des tubes sont statistiquement diffrentes en ce qui concerne la rptition. Les chansons succs sont plus rptitives et
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
Ltude des verbes montre un phnomne intressant. Les verbes les plus frquemment utiliss et donc les plus courants sont employs indiffremment dans les deux types de chansons. En revanche, certains verbes sont spcifiquement usits dans les chansons succs. Il est difficile de les caractriser mme si lon pourrait dire quil sagit de verbes artistiques (chanter, danser), communicants (parler, regarder) ou affectifs (aimer, pleurer). Dans les tableaux suivants, nous prsentons les occurrences sur lunit statistique de la chanson (94% des tubes utilisent le verbe tre par exemple.
(extrait) Rimes en a Rimes en i Rimes en in Rimes en an Rimes en our Rimes en o Rime en ar Rimes en ou Rimes en re Rime en me
TUBES AUTRES 43 32 25 22 19 17 8 15 5 12 12 12 11 15 7 15
Des rimes qui sonnent Le dernier volet de nos rsultats traite des composantes phontiques. Comme nous lavons dit en introduction, en matire de chansons, il ne semble pas convenable de limiter notre rflexion aux seuls aspects textuels, la chanson est un exercice artistique o les mots, la musique et les sonorits entrent en synergie. Pour tester lhypothse selon laquelle il existerait des rimes privilgies au sein des "tubes", nous avons tout dabord isol la rime finale de chaque vers, grce une procdure particulire du Sphinx Lexica. Nous avons ensuite travaill sur les 50 rimes les plus frquentes en les regroupant par phonmes. Les rsultats observs sont trs significatifs. Il apparat tout dabord que les tubes utilisent des rimes beaucoup plus banales, ce qui confirme leur caractre rptitif. Par ailleurs, certains phonmes sont effectivement sur-reprsents dans lchantillon des chansons succs (chi2 = 175,75, 1-p = 99,99%). Il sagit de phonmes domins par les "a", "an" et "in" notamment, ce qui reprsente les voyelles dites "nasales" (Warnant, 1973) qui produisent des sonorits relativement chaudes. Ces rsultats valident les premires hypothses qui pouvaient tre formules. 4
Bibliographie
Cas OVALE - Analyse textuelle de sites Internet Copyright Le Sphinx Dveloppement - 2005
BENZECRI J.P : Pratique de lanalyse des donnes (DUNOD 1980) BLANCHET A. & Al : Lentretien dans les sciences sociales (DUNOD 1985) BROSSIER G. & DUSSAIX A.M. : Enqutes et sondages : Mthodes, modles, applications, nouvelles approches (DUNOD 1999) COURTES J. : Analyse ( HACHETTE SUP. 1991) smiotique du discours
appliques
la
gestion (SAGE
analysis
DUGAST D. : La statistique lexicale (SLATKINE 1980) FLOCH J.M. : Smiotique marketing et communication (PUF 1980) GANASSALI S. : Les mots qui touchent : le marketing textuel appliqu la chanson franaise (Journes dAnalyse de donnes textuelles, 1998). GAVARD-PERRET M.L. MOSCAROLA J. : Enonc ou nonciation ? deux objets diffrents de lanalyse lexicale en marketing. Recherche et Applications en Marketing, (1998). GHIGLIONE R. & Al : Manuel danalyse de contenu (ARMAND COLIN 1985) GRANGE D. & LEBART L. : Traitement statistique des enqutes (DUNOD 1993) JAMBU M. : Exploration informatique statistique des donnes (DUNOD 1989) LAFON P. : Dpouillement et statistique en lexicomtrie (SLATKINE 1984) LAGARDE (DE) J. : Initiation lanalyse de donnes (DUNOD 1993) LEBART L. & SALEM A. : Analyse statistique des donnes textuelles (DUNOD 1988) MAINGUENEAU D. : Lanalyse de discours (HACHETTE 1991) MALARET G. : Statistiques appliques aux sciences humaines (PUF 1991) MOSCAROLA J. : Enqutes et analyse de donnes (VUIBERT 1990) 6