Beruflich Dokumente
Kultur Dokumente
Rsum
Cette contribution est dordre mthodologique.
L'Analyse de Donnes Textuelles (A.D.T.) regroupe aujourdhui de nombreuses mthodes, et de
nombreux outils, qui visent dcouvrir l'information essentielle contenue dans un texte. En
sintressant plus particulirement la demande des chercheurs en Management Stratgique,
quatre exemples sont prsents, tous issus du mme laboratoire de recherche, des diffrentes
approches de lA.D.T. De quoi parle-t-on? Cest le domaine de lanalyse lexicale. Comment en
parle-t-on ? Il sagit alors danalyse linguistique. Comment structurer une pense ? Cest
lambition de la cartographie cognitive. Et enfin comment interprter un contenu ? Il sagit de
lassistance lanalyse thmatique. Pour ces quatre approches (illustres par les quatre outils
Alceste, Tropes, Decision Explorer, NVivo) on discute des problmes mthodologiques et
thoriques poss : discours et reprsentation, langage et nonciation, structuration et
communication, interprtation et abstraction
INTRODUCTION
L'Analyse de Donnes Textuelles (A.D.T.) regroupe les mthodes qui visent dcouvrir
l'information essentielle contenue dans un texte, et le foisonnement de nouveaux outils auquel
on peut assister aujourdhui est la conjonction de deux demandes diffrentes :
- dune part une demande des entreprises, qui peuvent aujourdhui collecter trs facilement
une grande quantit de textes avec Internet (articles, brevets, dpches, rapports, tudes, mais
aussi e-mails, messages de forums, enqutes clients, fiches de centres d'appel, descriptifs de
produits...). Il s'agit alors d'organiser automatiquement les contenus, d'extraire de l'information
partir d'un magma htrogne de textes peu structurs. On constate alors une extension de la
fouille de donnes textuelles Textmining ou de la cartographie Web Positioning System, pour la
veille stratgique bien sr, mais aussi pour lindexation automatique de documents ou la
capitalisation des connaissances (Wordmapper de GrimmerSoft, Zoom de Acetic, LexiQuest de
SPSS, TextMiner de SAS ). Ces outils ont tendance aujourdhui complter un noyau dur
doutils statistiques en ajoutant des environnements spcifiques : des lexiques et des ontologies
de domaine, des serveurs dannotations, le tout associ des fonctions de robots aspirateurs et
des outils de cartographie,
- et dautre part une demande des chercheurs, qui ont besoin dune alternative soit de
traditionnelles analyses de contenu juges trop subjectives, soit de simples analyses par mots-
cls juges trop pauvres (Bournois et al., 2002). On constate ici une extension des mthodologies
qualitatives assistes par des outils quantitatifs (SpadT, Sphinx-Lexica, Alceste, Tropes,
Decision Explorer, NVivo... parmi les plus cits en France) et les recherches en cours promettent
encore de nombreux dveloppements pour la formulation des requtes intelligentes sur un
corpus de donnes textuelles, que ce soit avec le Web smantique (la spcification des ontologies
en Informatique) ou avec le T.A.L. (la spcification des grammaires en Traitement Automatique
des Langues).
En sintressant plus particulirement la demande des chercheurs en Management Stratgique
qui considrent que les discours (les investigations de terrain) constituent une entre privilgie
de leur objet dtude, seront dabord prsents certains facteurs de choix dun outil dA.D.T.
Quatre exemples, tous issus du mme laboratoire de recherche, permettront ensuite de discuter les
diffrentes approches de lA.D.T. De quoi parle-t-on? Cest le domaine de lanalyse lexicale.
Comment en parle-t-on ? Il sagit alors danalyse linguistique. Comment reprsenter une
acceptables, et ils nont quune seule exigence : tre justifis. Le choix de loutil doit lui aussi
tre justifi par rapport ces choix mthodologiques.
En prenant le cas des analyses lexicales, on pourrait dire quelles semblent adaptes pour une
recherche exploratoire conduite sans a priori, puisquelles nexigent au dpart aucun prsuppos
concernant le contenu du texte. Mais le croisement possible de variables signaltiques (age,
catgorie sociale..) avec des spcificits lexicales rpond lide de la dtermination dun
contenu par son contexte, et lanalyse lexicale peut alors devenir aussi un outil pour une
recherche fonde sur un corps dhypothses (on verra dailleurs que certains outils ont ts
construits au dpart sur cette ide).
Lhomognit du corpus devient de plus en plus problmatique mesure que lon cherche
raliser la fameuse triangulation des donnes, pourtant juge si ncessaire la validit logique
des tudes qualitatives : analyser le discours dune personne ou les discours de personnes
diffrentes est un choix qui mrite rflexion. Lnonciation peut-elle tre considre comme lie
une certaine position socio-historique pour laquelle les nonciateurs seraient interchangeables ?
Certains locuteurs parlent-ils au nom dune structure (discours syndicaux et directoriaux) ou
sexpriment-ils en leur nom propre (entretiens, courriels ) ? Peut-on regrouper des
communications orales retranscrites (rptitions ncessaires, dialogue orient par un meneur de
jeu, anonymat relatif, fonction motive ) avec des crits institutionnels (texte argumentatif,
procds rhtoriques, fonction conative..) ? Doit-on considrer les rponses une question
ouverte et les rponses donnes lissue de la relance, comme deux questions indpendantes ou
comme une seule rponse ? Dans la construction progressive dun chantillon pour des entretiens,
la mthode classique des choix raisonns assure-t-elle la fois la similitude et la varit
(reprsentation suffisante des statuts formels et informels, des rles, des intrts, des ressources,
des relations dalliances et doppositions) ? Les rponses ces questions devraient orienter le
choix vers un type danalyse, mais on verra que les outils proposs mritent une large discussion
la fois mthodologique et thorique.
CLASSIFICATION
Aprs une opration de lemmatisation (c'est--dire la fabrication dune forme rduite du texte,
standardise par des dictionnaires) le premier dcoupage se fait dans Alceste en Units
Elmentaires de Contexte (appeles UCE) qui sont automatiquement composes dune trois
lignes de texte conscutives. Ces premires UCE sont ensuite regroupes en Units de Contexte
(appeles UC) qui contiennent un certain nombre de mots analyss diffrents (le logiciel calcule
ce nombre suivant la taille et la nature du texte analyser, mais on peut faire diffrentes
simulations).
A partir du tableau binaire de prsence/absence UCi x Mots, la phase de Classification
Descendante Hirarchique CDH consiste extraire automatiquement des classes d'noncs en
cherchant les partitions qui maximisent le Chi2 (une double classification est faite, sur des UC de
grandeurs lgrement diffrentes, ce qui minimise le risque derreur d au dcoupage).
Les rsultats donnent alors, pour chacune des classes trouves, les mots et les phrases les plus
significatifs, les segments rpts, les concordances des mots les plus caractristiques. Un
dendrogramme restitue sous forme schmatique les mesures de proximits et dloignements des
classes.
et donc de relire le texte avec des quasi-variables dont loprationnalisation peut alors presque
sapparenter aux chelles dun questionnaire ferm.
est un des plus aboutis : systme intgr de dictionnaires de type Delaf, Delacf, Delafm.. (formes
et polyformes, usages), dfinition de graphes pour crer des grammaires locales
personnalises, dfinition dautomates pour identifier et tiqueter des concordances complexes
(quasi-segments) (Bolasco 2000, Silberztein, 2001). Enfin on peut se demander si deux classes
lexicales pourtant bien diffrentes relatent toujours des prises de position dissemblables :
deux classes peuvent relever de modes d'expression htrognes au niveau de la forme et tre
pourtant trs proches sur le fond, si elles concernent en fait les mmes opinions mais exprimes
par des synonymes, des paraphrases, des priphrases, des formulations incompltes, des ellipses,
des commentaires sur les mots utiliss
Dun point de vue thorique, ce problme de fond et de forme rvle en fait une conception
particulire des rapports entre la ralit et le langage. Dans une analyse lexicale, on considre que
le langage sert reprsenter la ralit, ou que la parole reflte la pense : pense et
paroles ne font que rendre prsent un Rel, qui tait dj l mais partiellement absent. On
considre donc, dans une vision plutt positiviste, que les objets du monde ont des proprits
essentielles en dehors de la manire dont ils sont dcrits, et la vrit se dfinit ici comme une
adquation des noncs la ralit, le langage possdant alors un statut de dsignation et de
reprsentation (Qur, 1990).
Mais ce concept de reprsentation est pourtant loin dtre clair au niveau thorique : sagit-il
dun systme dinterprtation de la ralit ? dune image rapporte autre chose ? ou encore dun
processus de communication avec soi-mme ? Dans une acception plutt sociologique et
objective, les reprsentations sont proches des connaissances stabilises (ce sont alors des
concepts, paradigmes, noncs, visions du monde...), alors que dans une acception plutt
psychologique et cognitive les reprsentations sont plutt qualifies de modlisations
contingentes pour traiter une situation (ce sont alors des mythes, ides, penses...). Une analyse
lexicale considre finalement le langage comme une articulation de ces deux niveaux
(reprsentations/connaissances plutt collectives et reprsentations/ides plutt individuelles)
pour permettre de re-prsenter sans ambigut une ralit prexistante : on peut parler dune
approche positiviste du rapport entre langage et ralit.
dinteraction, acte dobservation, acte de perception.). Le rcit a ainsi permis danalyser la constitution des
actes ayant form le projet comme objet de pense : par familiarit avec un phnomne ( je peux le refaire ),
par schmatisation du client type ( je crois que ), etc.
3.1. PREMIER POINT DES ANALYSES LINGUISTIQUES : LE DECOUPAGE PAR PROPOSITIONS, PUIS
Tropes prend non pas la phrase mais la proposition grammaticale (sujet, verbe, prdicat)
comme unit de dcoupage : unit pertinente dans les thories cognitives et en mme temps unit
de dcoupage approprie un texte. A chaque proposition peut tre attribu un score calcul en
fonction de son poids relatif, de son ordre darrive et de son rle argumentatif, ce qui permet de
reprer des propositions remarquables (thmes, personnages, vnements) hors de toute
interprtation pralable.
La relation entre lactivit cognitive et ses traces dans le discours se justifie ici par la notion de
micro univers : Un sujet traite une information en mettant en scne un ensemble structur
et plus ou moins cohrent de micro univers, chacun tant peupl a minima dun actant qui fait
laction et de lacte que le verbe accomplit (Ghiglione et al, 1998). Pour chaque mot dune
proposition, les Univers reprsentent le contexte, ils sont construits en regroupant les principaux
substantifs du texte (noms communs et noms propres) grce des scnarios existants
(dictionnaires dquivalents smantiques) et/ou construire par le chercheur. Les relations entre
univers peuvent alors indiquer quels sont les univers frquemment rencontrs cte cte
l'intrieur d'une mme proposition, et on peut distinguer les univers qui sont gnralement placs
en position d'actant avant le verbe (effectue laction) ou en position d'act aprs le verbe (subit
laction). Dans lensemble dun texte on peut reprer la rpartition chronologique dun univers (il
peut apparatre beaucoup plus au dbut ou la fin du texte).
3.2. DEUXIEME POINT DES ANALYSES LINGUISTIQUES : LE REPERAGE DES INTENTIONS PAR LA
Comprendre un texte devient ici identifier les intentions, et les traces de lintention se voient lors
de larticulation de deux propositions et le rseau de causalit sous-jacent. Dans la pratique
deux notions sont alors utilises : les connecteurs et les rafales.
LE PRESUPPOSE DE LENONCIATION
de la subjectivit, qui permet au sujet de se situer dans et par le langage. Lacte dnonciation
rvle le sujet qui le pose, avant mme de dire quelque chose sur le monde. A linverse, ce quon
appelle lcole franaise de lanalyse du discours (Maingueneau, 1998) insiste sur les formations
discursives en se rfrant Michel Foucault : les discours religieux, judiciaires, thrapeutiques,
et pour une part aussi politiques, ne sont gure dissociables de cette mise en uvre dun rituel
qui dtermine pour les sujets parlant la fois des proprits singulires et des rles convenus
(cit par Jenny 1997). Le discours est ici envisag comme un ensemble de rgles socio-
historiques, dtermines dans le temps et lespace, et qui dfinissent les conditions dexercice de
la fonction nonciative : le discours mdical, le journal tlvis ou le cours magistral ne sont pas
dissociables du personnage statutairement dfini qui a le droit de les articuler. Laccent est mis ici
sur les stratgies discursives , que lon peut alors considrer soit comme des conventions
langagires plus ou moins consensuelles, soit comme des pratiques antagonistes de
domination/rsistance.
On voit quau-del des aspects techniques et mthodologiques des logiciels danalyse
smantique, la question de linterprtation de la modalisation dans un texte renvoie plusieurs
thories des rapports du langage et de la ralit.
GRH (politique en gnral, politiques centres sur les seniors, politiques centres sur les jeunes). Chaque
carte contient une cinquantaine de concepts inter-relis.
Dans un deuxime temps, comme lobjectif de ltude tait ainsi de comprendre pourquoi peu
dorganisations mettent en place des pratiques favorisant le maintien en emploi des seniors, on a tudi les
chanes dargumentation qui apparaissent sur les cartes. On a ainsi pu classer les chanes
dargumentation concernant les stratgies de rgulation et celles concernant les leviers dactions possibles
: les argumentations des directeurs apparaissent diffrentes suivant le type de situations rencontres
(situations harmonieuses ou situations conflictuelles) et suivant les visions du problme de lemployabilit
(visions centres sur les avantages/inconvnients des jeunes ou visions centres sur les
avantages/inconvnients des seniors).
Pour la collecte certaines approches sont trs structures pour assurer la fidlit ( Self-Q de
Bougon, 1986), dautres sont dlibrment ouvertes pour assurer la validit ( Soda de Eden et
al. (1992), Core de Rodhain et Reix (1998), enfin certaines pourraient tre qualifies de
mixtes (questions spontanes puis grilles dexploration systmatique, de Cossette (2003)). On
peut travailler partir de documents crits, mais ds quil sagit dentretiens retranscrits, la place
du chercheur est toujours considre comme cruciale : Une carte cognitive est une
reprsentation graphique de la reprsentation mentale que le chercheur se fait d'un ensemble de
reprsentations discursives nonces par un sujet partir de ses propres reprsentations
cognitives, propos d'un objet particulier. (Cossette et Audet 1994).
Pour le codage, ce sont les modalisations (connecteurs et joncteurs) qui permettent de reprer les
liens, et pour amliorer la fiabilit certains prconisent de soumettre aux rpondants les dlicates
oprations de fusion des concepts (Allard-Posi, 1997). Il est alors possible de construire des
cartes collectives, et l'laboration d'une carte peut faciliter la transmission d'ides entre plusieurs
individus : carte moyenne (un lien est retenu en fonction du score obtenu un vote), carte
assemble (runion de sous-cartes, aprs exclusion des concepts non communs) et souvent carte
composite (qui rsulte alors dune communication, d'une vritable ngociation de sens entre
participants). Ceci ne doit pas cacher les difficults du codage (diffrences entre donnes de faits
et variables daction, diffrences de niveau dabstraction, quivalents smantiques) et le retour
aux sujets apparat alors comme un gage de validit.
REPRESENTATIONS
Une fois construites de manire subjective mais rigoureuse, les cartes cognitives peuvent tre
analyses, avec ici lambition dune lecture plus structurelle que ne lautoriserait une
approche lexicale ou linguistique. Lintrt est de donner un poids aux concepts en fonction dun
indicateur, et non pas en fonction de limportance perue attribue par les frquences. Ces
indicateurs de complexit et de complication permettent alors didentifier les lments autour
desquels sarticulent les reprsentations des individus, leurs similarits et leurs divergences.
On peut dabord caractriser les proprits structurelles dune carte, qui rvlent l'organisation
des connaissances dun sujet, sans considration quant leur contenu : nombre total dides,
nombre dides isoles, nombre de relations, rapport ides/relations, nombre de boucles, longueur
des chanes dides, nombre dides en entre et en conclusion sur une chane d'argumentation
Lanalyse automatique de cluster consiste identifier dans la carte des groupes de concepts
mutuellement exclusifs, groupes dides faiblement dpendant les uns des autres.
La mesure de l'importance d'un concept peut ensuite tre apprhende par le nombre de
facteurs auxquels il est reli directement ou indirectement : dans Decision Explorer on parle
de domaine si on ne prend en compte que les concepts qui lui sont directement relis, et on
parle de centralit si on prend en considration la longueur moyenne de tous les sentiers
reliant ce concept d'autres. Bien que les cartes cognitives, dans la plupart des cas, ne prennent
pas en compte la force des liens qui unissent les concepts, ces analyses permettent quand mme
d'identifier les noyaux du rseau constitu par la carte, sans que les interviews aient toujours
pleinement conscience de leur rle.
CARTE ET LA PENSEE
Les penses dun sujet, refltes dans son discours, sont-elles antrieures la demande du
chercheur ? La pense est-elle premire et le langage second ? Merleau-Ponty (1945) rpond
clairement par la ngative, il ny a pas de pense hors des mots, la vie intrieure est un langage
intrieur : une pense qui se contenterait dexister pour soi, hors des gnes de la parole et de la
communication, aussitt apparue tomberait linconscience, ce qui revient dire quelle
nexisterait pas mme pour soi . Selon Pichot (1991) il sagit dune quasi-assimilation : la
conscience des abstractions et concepts est exclusivement linguistique, le langage est donc
lexpression consciente de la pense, laquelle est alors conue comme une activit psychique
(voire nerveuse) discursive calque sur lactivit linguistique qui est sa forme consciente. Le
discours met en forme les reprsentations mentales, il les influence : au fur et mesure que
lindividu sentend parler, il modifie sensiblement ou insensiblement ses reprsentations
mentales. Comment puis-je savoir ce que je pense avant davoir entendu ce que je dis ? (Weick
1979) : pour lindividu le discours quil tient peut devenir lui-mme sujet dcouverte.
Sil ny a pas indpendance entre la pense et le langage, les reprsentations discursives influent
alors sur la reprsentation mentale durant le processus de construction de la carte cognitive,
comme elles ont influenc le processus de reprsentation mentale des concepts. Que se passe-t-il
lorsque lindividu se trouve face la carte trace par le chercheur ? Il serait surprenant que la
carte ne soit pas source de questionnement sur la pense quelle est cense modliser et ainsi
de suite jusqu ce quintervenant et individu, fatigus par ce jeu, admettent que la reprsentation
graphique reprsente de manire satisfaisante une pense que lun et lautre vont supposer stable.
Le discours est de toute faon partial, puisquil a t amnag de manire ce quil soit reu par
le chercheur, et que la neutralit dans la rception du discours nexiste pas, on ne peut pas ne
pas communiquer disent Watzlawick et al. (1972). Il nexiste pas de non-comportement, tout
comportement a valeur de message.
(gestion des liens entre les verbatim et les catgories en construction, annotations volont en
ajoutant des proprits aux segments textuels...). On prend donc ici en compte les processus
interprtatifs dans la construction de la donne, mais avec la possibilit daugmenter la validit
des analyses de contenu classiques qui ne proposaient quune approche mthodique fonde
sur lexplicitation des rgles de lecture, dinterprtation et de codage. Ces outils ont lavantage de
permettre de manipuler des units non-linguistiques, ou du moins des units qui sont htrognes:
ce ne sont plus ni des lemmes ni des phrases, mais plutt des notions (des mots, des ides, des
paragraphes, des documents, des images, des propositions).
Une analyse de contenu consiste lire un corpus, fragment par fragment, pour en dfinir le
contenu en le codant selon des catgories qui peuvent tre construites et amliores au cours de la
lecture (cest une approche constructiviste, avec le risque de changer la question de recherche en
cours de travail). Dans un premier temps les significations des textes sont catgorises selon le
modle qui guide le chercheur, cest la fameuse grille danalyse : matrices par phases ou par
thmes, volution de ces matrices, cartes cognitives. Dans un deuxime temps intervient
lanalyse statistique sur les lments de la grille danalyse : frquence dapparition, variation
selon les locuteurs, selon les contextes, interdpendance entre les lments du modle
NVivo http://www.qsrinternational.com, HyperResearch www.researchware.com sont
des logiciels pour grer les liens entre des verbatim et des catgories en construction. Ils
permettent au chercheur de manipuler des masses importantes de documents htrognes de
faon itrative (allers-retours entre codage et dcodage) pour tudier dynamiquement la
complexit dun corpus. Ils nont pas t conus comme des outils danalyse statistique, mais ils
permettent lexportation travers la construction de rapports .
Encadr 4. Une analyse thmatique avec NVivo :
Pour analyser de multiples donnes sur les stratgies de Gestion de la Relation Client
Il sagit ici de la thse de B. Bousqui sur les stratgies de Gestion de la Relation Client (Bousqui 2006).
Le travail de terrain est une tude de cas en recherche participative sur plus dune anne, qui bnficie
donc dun volume trs important de donnes : plusieurs vagues dentretiens directifs approfondis, des
entretiens individuels semi directifs avec cinq nationalits, des entretiens semi directifs en groupe de
travail, des notes de runions, et trs nombreux documents secondaires (au dpart 60 Go de fichiers
divers disponibles) : gestion de projet, suivi de projet, communication autour du projet Dans un
premier temps, et cest la phase de dcontextualisation, chaque document a t numris (avec
rcupration en type texte des tableurs et diaporamas) et chaque document ou extrait de document a t
class suivant plusieurs Nuds dcrits par leurs attributs : thme prdfini pour un entretien, ide
NVivo utilise tout type de documents enregistrs au format .rtf (Rich Text Format), ce qui rend
quand mme exploitables certaines donnes issues de diaporama ou de tableurs. La
dcontextualisation consiste sortir de son contexte un extrait du texte, afin de le rendre
smantiquement indpendant : cette tape de codage, entirement libre et le plus souvent
manuelle, permet de stocker les informations, de les qualifier et de les organiser. Pour chaque
Document de base (documents numrises qui peuvent tre annots, lis entre eux, ou lis un
fichier extrieur) et pour chacun des Nodes qui sont crs (un Nud est comme un rpertoire qui
permet de coder chaque extrait de documents), on est amen dcrire ainsi des Attributs (avec
un type et une valeur, qui peuvent dailleurs tre imports dun tableur) et des Sets (ensembles de
Documents similaires ou de Nuds similaires).
MATRICES ET MODELES
Recontextualiser consiste dans NVivo regrouper les Noeuds pour en faire un tout intelligible et
porteur de sens. La premire fonctionnalit offerte permet de faire une relecture assiste du
corpus : recherche textuelle sur un mot ou une expression (avec cration possible dun nouveau
Nud pour chaque recherche), recherche des co-occurrences en croisant un Attribut et un Noeud
(ex : hommes x en dsaccord ), ou recherche matricielle (ex : Attributs x Valeurs x
Nuds) avec intersection, union, ngation, diffrence, matrice dintersection, matrice de
diffrence.
Dun point de vue mthodologique, une catgorisation en contexte repose sur les qualits du
codeur. Chaque occurrence est soumise une dcision : tablir d'abord la pertinence de retenir le
terme (a-t-il une signification forte et prcise , par rapport la grille ?) et, le cas chant,
lui affecter un marqueur informatique. Les codeurs sont ainsi appels choisir parmi les
diffrentes appartenances socio-smantiques possibles d'un mot, celle qui est la plus proche de la
signification en contexte de ce mot. Cela prsuppose une connaissance des implications
thoriques du systme de catgories, mais une dynamique d'aller-retour fait en sorte qu'il soit
possible de dtecter des rgularits dans les dcisions qui n'taient pas prvues et de dtecter des
inconsistances dans l'application de la grille. On peut donc dire qu'il s'agit d'un double processus
d'apprentissage (sur la base de l'accumulation de dcisions correctes) et de correction d'erreurs
(sur la base de l'identification des dcisions incorrectes).
Dun point de vue thorique, les analyses thmatiques ont prcisment comme problme la
dfinition du concept de Thme . Le thme, construction intellectuelle labore par le
lecteur partir dlments textuels rcurrents, est une abstraction. Il est donc tout fait possible
que le thme construit ne corresponde aucune expression prcise du texte, autrement dit que le
thme ne soit pas inscrit dans le texte (le thme du conflit de rle peut tre prpondrant dans
un texte, sans que les mots conflit ou rle y apparaissent jamais). On ne peut ignorer la
distinction fondamentale entre la fonction rfrentielle (le thme : ce dont on parle) et la fonction
descriptive (le rhme : ce qu'on en dit) du langage. Plus le thme est abstrait, plus est grande cette
possibilit dcart entre les mots du texte et le thme labor. Un thme tant une construction,
on peut alors considrer deux attitudes : soit prfrer, comme avec NVivo , partir de lectures
humaines du texte (il sagit donc de superposer aux donnes textuelles brutes un premier
systme de repres) puis raliser ensuite des recherches lexicomtriques ou hyper-textuelles, soit
comme cest possible avec Sato , obtenir des dfrichements logiciels pralables (richesse,
originalit lexicale ou syntaxique) que les interprtations humaines du thme et du contexte
viendront ensuite complter.
Une bonne interprtation des thmes devrait pouvoir expliquer une pratique sans en rduire la
richesse (c'est--dire la diversit avec laquelle elle peut donner lieu des ralisations concrtes,
dont lchantillon dobservation peut rendre compte). La fiabilit de cette interprtation est lie
la fois la stabilit des reprsentations des nonciateurs et celle du lecteur. Mais nous avons
vu que ce concept de reprsentation est loin dtre clair au niveau thorique : Ce nest pas
un hasard si ce concept de reprsentation apparat inoprant des neuro-biologistes, dlicat
utiliser des psychologues, utilisable pour des ergonomes et des gestionnaires, et imprcis aux
informaticiens de lintelligence artificielle (Teulier-Bourgine, 1997). On peut au moins dire
avec J.C. Abric (2001) que la reprsentation est un systme de pr-dcodage de la ralit, car
elle dtermine un ensemble danticipations et dentente Dans la pratique ce systme de pr-
codage de la ralit est videmment plus ou moins stable, et il se rvle donc dans un langage
plus ou moins partag. Indpendamment dune dmarche exploratoire ou confirmatoire (car le
choix dune de ces dmarches ne dpend pas de ltat du langage plus ou moins partag, mais de
l'tat des connaissances sur un sujet particulier), il y aurait donc des domaines o les nonciateurs
et le lecteur peuvent disposer d'un langage commun partag et structur (systme plutt clos,
qui autorise un pr-dcodage manuel de la ralit et permet une analyse thmatique avec a
priori ) et d'autres domaines o le langage est en construction (systme plutt ouvert, o les
analyses lexicales et linguistiques du texte permettent dans un premier temps de travailler sans
a priori ).
CONCLUSION
Au terme de cette prsentation, on peut faire deux constatations et une proposition.
- dune part les textes constituent bien des donnes. On peroit aujourdhui l'intrt de ces
donnes pour viter certains biais introduits par des techniques plus classiques comme le
questionnaire, qui impose des rubriques prtablies et influence les rponses des sujets. Mais ceci
impose alors des processus dobjectivation des units textuelles (processus de rduction et de
formalisation), et la statistique permet justement de tirer parti de la redondance de la langue pour
rduire considrablement leffort de lecture. Lanalyse de donnes textuelles ne prtend pas se
substituer linterprtation du sens des textes, il sagit dextraire des contenus ou une structure
pour rpondre des questions prcises, il sagit aussi de construire des procdures exposant le
regard du lecteur des niveaux opaques de laction stratgique dun sujet. L'intrt des classes
dnoncs qui rendent compte de l'organisation formelle du corpus rside finalement dans les
possibilits d'interprtation smantique qu'elles offrent : la linguistique nous propose des
visions schmatiques de la langue permettant de disposer des repres et daller, un peu plus
scuris, explorer les plis et replis de nos textes (Chateauraynaud 2003)
- car dautre part les textes sont aussi le fruit dune intention de la part des acteurs et lobjet dune
interprtation de la part de lanalyste. Comment faire cette interprtation ? Quel sens est-il
possible de donner ces classes ? On pourrait comparer les classes obtenues aux rsultats dun
lectrocardiogramme, et linterprtation des courbes ou le choix dune intervention revient
toujours au chirurgien Il n'est pas possible d'interprter les classes en se souciant uniquement
des significations apparentes auxquelles renvoient les mots qui lui sont spcifiques. Il importe de
replacer chaque terme dans son contexte, et les donnes textuelles nont pas de sens a priori : la
recherche du sens doit tre mene paralllement celle des mesures et des structures. Il sagit
finalement de confronter la lecture du texte et les ides sur le texte (Desmarais et Moscarola,
2002).
Que lon souhaite confronter un texte un modle de rfrence ou quon sengage dans un
processus exploratoire, la rigueur scientifique exige lexplicitation des mthodes et une certaine
formalisation. Les outils qui existent aujourdhui offrent dj une libert mthodologique, sans
senfermer dans une technique impose par un logiciel. Alors plutt que dopposer une approche
algorithmique une approche heuristique (analyse de contenu considre comme subjective,
analyse linguistique considre comme objective, analyse de la constitution du sens considre
comme projective), on peut appeler leur usage complmentaire dans une dmarche
algorithmique ET heuristique, compose des ncessaires cycles itratifs grille/texte,
codage/dcodage, extraction/validation
REFERENCES
Abric J.C., 2001, Pratiques sociales et reprsentations, Paris, PUF, 2001
Allard-Poesi F., 1997, Nature et processus dmergence des reprsentations collectives dans les
groupes de travail restreints, Thse de doctorat, Universit Paris-Dauphine.
Andrieux Y., 2005, Contribution la rflexion sur lvaluation des projets de cration
dentreprise : une approche centre sur llaboration du projet. Thse, dcembre 2005,
Universit Montpellier 2
Aubert-Lotarski A., Capdevielle-Mougnibas V., 2002, Dialogue mthodologique autour
lutilisation du logiciel Alceste : lisibilit du corpus et interprtation des rsultats. 6mes
journes JADT
Armony V., Duchastel J., 1995, La catgorisation socio-smantique, 3mes Journes JADT.
Peyrat-Guillard D., 2000, Une application de la statistique textuelle la gestion des ressources
humaines : apprhender le concept dimplication au travail de faon alternative, 5mes
journes JADT.
Pichot A., 1991, Petite phnomnologie de la connaissance, Aubier, 1991.
Pijoan N. Expliciter les reprsentations des seniors chez des directeurs : une analyse a partir de
cartes causales idiosyncrasiques, Journe de recherche AGRH, IAE Poitiers, Mai 2005.
Quatrain Y., Nugier S., Peradotto A., Garrouste D., 2004, Evaluation doutils de TextMining :
dmarche et rsultats, 7mes Journes JADT.
Qur L., 1990, Agir dans lespace public. Lintentionnalit des actions comme phnomne
social, in Les formes de laction, Paris, d. de lEHESS, p. 85-112
Reinert M., 1998, Quel objet pour une analyse statistique du discours ? Quelques rflexions
propos de la rponse Alceste. 4mes Journes JADT
Rodhain F., Reix R., 1998, CORE : proposition dune mthode pour llaboration des
portefeuilles de projets SI, Revue Systmes d'Information et Management, v.3, n3, pp.49-83.
Simon H., 1981, Sciences des Systmes, Sciences de l'Artificiel, traduction Dunod, Paris, 1996
Teulier-Bourgine R., 1997, Les reprsentations : mdiations de laction stratgique, in Avenier
M.J, La stratgie chemin faisant, Paris, Economica, 1997
Trebucq S. 2004, Finance organisationnelle : un essai de reprsentation, 7mes Journes JADT.
Silberztein M., 2001, Manuel INTEX, en franais, disponible sur le site www.intex.de
Verstraete T., La cartographie cognitive : outil pour une dmarche dessence heuristique
didentification des Facteurs Cls de Succs , Communication la 5e Confrence
Internationale de Management Stratgique. AIMS, Lille, mai 1996.
Watzlawick P., Helmick Beavin J. et Don D.Jackson, Une logique de la communication, Editions
du Seuil, 1972.
Weick K.E., The social psychology of organizing, Mc Graw Hill Inc., (premire dition :
1969), 1979.