Sie sind auf Seite 1von 24

Corpus

11 | 2012
La cooccurrence, du fait statistique au fait textuel

De la cooccurrence gnralise la variation du


sens lexical

Matthias Tauveron

diteur
Bases ; corpus et langage - UMR 6039

dition lectronique dition imprime


URL : http://corpus.revues.org/2236 Date de publication : 1 janvier 2012
ISSN : 1765-3126 ISSN : 1638-9808

Rfrence lectronique
Matthias Tauveron, De la cooccurrence gnralise la variation du sens lexical , Corpus [En ligne],
11 | 2012, mis en ligne le 18 juin 2013, consult le 30 septembre 2016. URL : http://
corpus.revues.org/2236

Ce document est un fac-simil de l'dition imprime.

Tous droits rservs


De la cooccurrence gnralise
la variation du sens lexical

Matthias TAUVERON

UR LiLPa, Fonctionnements Discursifs et Traduction,


Universit de Strasbourg, 22 rue Descartes, F- 67084 Strasbourg
Cedex, France

1. Introduction : une problmatique de sens lexical


en contexte
1.1 Le mot dans le texte
Cette tude1 sintresse aux relations entre les mots dun texte
et la textualit. Comment un mot sintgre-t-il lensemble du
lexique dun texte ? Comment le lexique dun texte est-il orga-
nis ? On sait que, au-del de ltude des seules occurrences des
mots, ltude de la cooccurrence est en soi une tude de lorga-
nisation des mots en discours. En synthtisant sur une mme
vue (cf. Figure 1 infra) lensemble des relations de cooccurrence
entre les mots dun texte, on accde une reprsentation de la
textualit qui permet de cerner le rle de chaque mot dans la
construction de lensemble du lexique textuel. Inversement, on
peut en tirer des faits concernant la place que le texte donne
chacun de ses mots, et sur linfluence que peut avoir le contexte
pris dans sa globalit sur le sens des mots. Cette tude
globale des relations de cooccurrence appele par Viprey
(2006) cooccurrence gnralise permet daborder linteraction
entre le sens des units lexicales et le sens des textes. Tout
mot plac dans un texte en reoit des dterminations sman-
tiques, et modifie potentiellement le signifi de chacun des mots

matthias.tauveron@etu.unistra.f
1 Lauteur tient remercier ici Damon Mayaffre de lui avoir tmoign si
spontanment sa confiance, et, si longuement son intrt pour ce travail.

Corpus n11, La cooccurrence : du fait statistique au fait textuel


(2012), 167-189
M. TAUVERON

qui le composent (Valette 2010), dans la plupart des cas, on


ne peut pas parler de dductibilit sens unique : il y a influence
rciproque entre les divers lments (Victorri & Fuchs 1996 :
174-175).
1.2 Le nom action en traduction
1.2.1 Le sens du nom action en discours
Cette question des influences et des dterminations smantiques
entre les mots dun mme texte est aborde ici par ltude du
nom franais action2. Si ce mot semble a priori monosmique3,
on nen a pas moins lintuition que son sens semble vaste, voire
vague, et donc a priori susceptible davoir une importante
variabilit en discours. La prsente tude cherche expliquer
des cas de variabilit en discours de son sens, une fois ces cas
constats par des diffrences de traduction.
En effet, si action est traduit en sudois par un nom dans
89 % des cas, il na pas dquivalent unique dans cette langue :
au moins deux noms (handling, dans 18 % des cas, tgrd, 44 %
des cas) le traduisent frquemment. Nous posons une premire
hypothse, selon laquelle cette diffrence de traduction corres-
pond une diffrence de sens4. Cependant, un regard lil nu5
sur le corpus ne permet pas dexpliquer pourquoi telles occur-
rences connaissent telle traduction, comme on le voit sur ces
deux exemples :

2 Notre corpus est form de 400 occurrences de ce nom, tires des dbats
tenus au Parlement Europen, tels quils figurent dans la base de
donnes Europarl (Koehn, 2005).
3 Les occurrences sont slectionnes de faon que ce terme soit monosmique.
En loccurrence, nous excluons les quelques cas dans lesquelles cest
son sens financier qui est actualis.
4 Nous supposons galement que lemploi des mots tel quil apparat dans ce
corpus reflte bien globalement son emploi dans le discours et le genre
en question (dbat politique), et ceci malgr le fait quil sagisse dun
corpus traduit (nous laissons donc de ct la notion de translationese,
Jonasson 2006).
5 Et ceci malgr lutilisation de notions thoriques usuelles en smantique
lexicale pour ltude de ce nom, dmarche laquelle nous ne pouvons
que renvoyer ici : Tauveron (2012, paratre) et Tauveron (en prpa-
ration).

168
De la cooccurrence gnralise la variation du sens lexical

(1) Nous organiserons et soutiendrons des actions comme, en


particulier, le dbat sur le besoin dlaborer un programme
lgislatif pour la mise en uvre du principe de la reconnais-
sance mutuelle des dcisions judiciaires en matire criminelle.
(traduit par tgrd)

(2) Je pense toutefois quil est tout fait vident quau moment
de prendre peu peu une dcision sur une mesure, on est
souvent face de nombreuses possibilits daction diffrentes.
(traduit par handling)

Cest ce fait qui nous incite tudier le sens du nom action


dans ce corpus, sans se focaliser sur son cotexte immdiat, mais
en largissant le champ dobservation.
Nous posons ici notre seconde hypothse, selon laquelle
les diffrences de sens du nom action dune occurrence lautre
sont explicables si on envisage ce nom dans un contexte suf-
fisamment tendu. Ce faisant, la taille du corpus traiter devient
trop importante pour en faire une analyse manuelle et justifie
lutilisation dun outil de statistique exploratoire quest le graphe
de cooccurrence (dfini section 2, cf. Figure 1 infra). Ce graphe
donne ainsi une vision synthtique du lexique de lensemble du
texte (ou dun corpus), et de la manire dont il est utilis. Comme
on le verra, cette vision synthtique permet de mettre en vidence
des faits smantiques pertinents qui expliquent la diffrence de
traduction constate.

169
M. TAUVERON

Figure 1. Exemple de graphe de cooccurrence (corpus Europarl)

1.2.2 Constitution du corpus


Le corpus utilis pour cette tude est un corpus parallle
(Granger 2003, Andersson & Norn 2010) form partir
dEuroparl, qui fournit au dpart 400 occurrences de action
avec un cotexte largi (environ 60 mots de part et dautre). Le
corpus est tri manuellement en fonction de lunit qui traduit le
nom action. Le corpus est ensuite rparti en deux parties : lune
contenant les occurrences traduites par handling (dornavant,
corpus AH), et lautre contenant celles traduites par tgrd
(dornavant, corpus AA)6.

6 Nous laissons de ct les 20 traductions minoritaires attestes.

170
De la cooccurrence gnralise la variation du sens lexical

1.2.3 Traitement informatique


Le texte est ensuite lemmatis par un programme Perl qui
exploite le dictionnaire fourni par lABU7. Puis vient ltape de
constitution du graphe de cooccurrence proprement parler, elle
aussi effectue grce un programme Perl crit par nos soins, qui
fournit la description du graphe dans un format CSV utilisable
par le logiciel de traitement de graphes Gephi8.
Selon nous, trois questions linguistiques se posent alors.
En premier lieu, la largeur de la fentre de cooccurrence
utilise. Nous considrons ici arbitrairement que deux termes
sont cooccurrents lorsquils sont co-prsents dans une fentre
contenant 7 mots contigus.
En deuxime lieu, le statut des ponctuations fortes dli-
mitant des phrases. Nous avons considr que les coupures de
phrases ntaient pas des limites suffisamment pertinentes9 pour
interrompre les liens de cooccurrence.
En troisime lieu, pour des raisons techniques, cest
lchelle du mot que porte la relation de cooccurrence. Il nous
est encore malheureusement impossible de travailler sur des
units proprement smantiques, comme la fait Valette (2010)
en travaillant sur des smes.
1.3 Dmarche
Nous exposerons dans un premier temps plus largement ce
quest un graphe de cooccurrence (2.). Nous montrons grce
cet outil mathmatique que la cooccurrence gnralise dispose
de deux formes dorganisation complmentaires, que nous en-
visagerons sparment. En premier lieu (3.), il y a une organi-
sation hirarchique, qui se manifeste dans le caractre plus ou
moins central de certaines units dans le graphe. Cette centralit
est mesure par le paramtre numrique quest la betweenness

7 Disponible : http://abu.cnam.fr/DICO/mots-communs.html. Si cette procdure


nest pas sans dfauts (non-exhaustivit consubstantielle la nature mme
du dictionnaire, aucune gestion de lhomonymie), ces dysfonctionnements
sont pour la plupart reprs par le lemmatiseur, et laissent la possibilit
une correction humaine par la suite.
8 Nous utilisons Gephi 0.7beta (www.gephi.org). Tous les calculs mentionns
sont effectus par Gephi.
9 Noailly (2002), en particulier pour des retranscriptions doral (Benzitoun
2004).

171
M. TAUVERON

centrality10. En second lieu (4.), il y a une organisation plus


dmocratique, qui montre que les units se regroupent en
classes du fait de leurs affinits. Cest lorganisation modulaire
du graphe.
Le principe sous-jacent cette tude est que, si action
est traduit tantt par handling et tantt par tgrd, cest no-
tamment pour des raisons touchant au sens global des textes et
aux contextes de action. Dans le premier temps (3.), nous
chercherons des diffrences de sens lchelle globale des deux
corpus. Dans le second temps (4.), nous identifierons les lemmes
du texte avec lesquels il a des affinits.

2. Graphes de cooccurrence
2.1 Construction et dfinition du graphe de cooccurrence
Le graphe de cooccurrence reprsente chaque lemme du texte
sous la forme dun point, et relie deux points si et seulement les
deux lemmes correspondants sont cooccurrents (Vronis 2004).
Chaque lien et chaque nud sont affects dun poids plus im-
portant mesure que le lemme correspondant ou la cooccurrence
en question sont plus frquents. Sur la Figure 1 (cf. supra),
limportance des nuds et des liens est reprsente par leur
taille. Lensemble du graphe donne accs une vue synthtique
de toutes les relations de cooccurrence dans un corpus donn.
Les relations de cooccurrences tablissent ainsi une sorte de
topographie, montrant lorganisation du lexique dans le discours.
Au-del de son caractre ergonomique, le graphe est
une structure mathmatique, qui dispose de descripteurs dfinis
dont certaines applications ont t bien dcrites (Albert &
Barabasi 2002).
2.2 La relation de cooccurrence gnralise
La premire application dun tel graphe est quil propose une
nouvelle reprsentation de la cooccurrence gnralise telle que
la dcrite Viprey (2006). Grce cet outil, on peut mener une
tude de la textualit qui fait le lien entre le niveau du texte et le

10 On lappelle parfois en franais centralit dintermdiarit. Nous gardons


ici lappellation anglo-saxonne et son abrviation courante dans la
littrature (BC).

172
De la cooccurrence gnralise la variation du sens lexical

niveau du lexique. En effet, tudiant la cooccurrence gnralise,


nous prtendons parcourir lensemble dun texte donn au tra-
vers de la relation de cooccurrence. [O]n peut voir en effet le
texte comme une entit rticulaire et la cooccurrence gnralise
comme lessence de cet entrelacs de mots corrls, de ce tissu
dassociations privilgies (Luong et al. 2010 : 322). La d-
marche que nous proposons ici permet de donner une vue
synthtique des relations au sein de ce rseau.
Par ailleurs, nous interprtons la cooccurrence ph-
nomne formel, coprsence matrielle des mots dans le texte
comme une corrlation, cest--dire que nous faisons une inter-
prtation smantique de cet arrangement formel (Mayaffre 2008).
Passer de la sorte du plan de lexpression au plan du contenu est
essentiel, et dfinitoire (daprs Rastier 2011 : 44) de la sman-
tique reposant sur lanalyse de corpus et la lexicomtrie.
2.3 Faits de discours tudis par la cooccurrence gnralise
2.3.1 La textualit
Nous prenons en premier lieu un point de vue strictement interne
sur le texte : ne sont jamais envisags ici les rapports quentre-
tient le texte donn avec les autres textes, ou au travers des
genres, discours, etc., phnomnes qui ont tous leur part dans la
construction du sens et lorganisation du discours.
Par ailleurs, le graphe de cooccurrence donne une image
fige du texte tel quil apparat dans son entier, sans pouvoir
envisager quoi que ce soit de son droulement. Est ainsi laisse
de ct ce que Legallois (2006) appelle la dimension incr-
mentielle du texte. Cest--dire le fait que celui-ci, sans se
rduire une dimension simplement linaire ou squentielle,
avance par accumulation successive.
2.3.2 Le sens lexical
En montrant les cooccurrents de tout lemme du texte, et ceci de
manire structure et qualitative11, le graphe de cooccurrence
donne accs aux cooccurrents, puis aux cooccurrents des co-
occurrents, et leurs relations mutuelles et ainsi de suite. Il

11 Cette vue est qualitative au sens o la reprsentation visuelle montre par


exemple, mieux quune liste, la plus ou moins grande densit des
diffrentes parties du rseau de cooccurrence, ou le caractre central de
tel ou tel mot dans le rseau de cooccurrence.

173
M. TAUVERON

montre donc la singularit de lemploi dun mot donn dans un


corpus. Comme nous le verrons, envisager qualitativement le
rseau de cooccurrence permet de rendre compte de la variabilit
smantique dune unit lexicale.
Nous reprsentons sur la Figure 2 infra une conception
de lhomonymie, de la polysmie et de la variabilit smantique
hrite de Victorri & Fuchs (1996 : 86 notamment) que nous
suivons ici.

Figure 2. Reprsentation de la variabilit


au sein dun unique sens lexical

Sur cette figure, la relation 1 est une relation dhomo-


nymie, tablie entre deux units entre lesquelles il ny a pas de
rapport de sens. La polysmie (relation entre les diffrents sens
dune mme unit) est reprsente par la relation 2. Elle met en
relation un sens avec un autre sens. Le phnomne que nous
tudions ici nest pas une diffrence entre deux sens, mais une
variabilit au sein dun mme sens, car nous supposons (avec
Victorri & Fuchs, op. cit.) quun sens nest pas une entit
ponctuelle, mais une rgion dun espace. Nous considrerons en
effet que, puisque lintuition linguistique ne peroit pas a priori
la diffrence entre nos occurrences 1 et 2 (section 1.1.1) comme
le passage dun sens un autre, elles actualisent toutes les deux
le mme sens en langue du nom action. La diffrence que met
en avant la traduction est due au discours. Cest--dire que les
diffrences que nous cherchons observer ne relvent ni de
lhomonymie ou de la polysmie telles que traites par Vronis
(2004). Il ny a quun seul sens en langue derrire lensemble
des occurrences du nom action que nous tudions, mais cet
unique sens est susceptible de variation.

174
De la cooccurrence gnralise la variation du sens lexical

Le caractre purement interne au texte de lanalyse


laquelle nous procdons implique donc que nous travaillons sur
le sens des mots du texte partir des seuls indices que sont les
autres mots du texte. Ceci ne signifie nullement pour autant que
le texte construise lui seul le sens de ses mots. Comme la
dfendu Kleiber (1997, notamment) contre Kayser (1987, no-
tamment), le mot est dot dun sens en langue, que le contexte
vient prciser, influencer dans un sens ou dautre. Chaque mot
dispose certes dune inertie smantique, plus ou moins impor-
tante, qui fait quil ne peut pas tout signifier, et que le contexte
ne peut pas tout. Mais lobjet dtude abord ici est justement
cette part de variation cre par le contexte.

3. Organisation hirarchique de la cooccurrence gnralise


3.1 La betweenness centrality
3.1.1 Dfinition de la betweenness centrality
La betweenness centrality permet de quantifier la centralit
dun nud dans un graphe ce que nous interprtons comme
un indicateur de saillance. Parmi les mesures disponibles dans
la littrature pour chiffrer cette importance, notre choix sest
port sur celle-ci pour trois raisons :
1. elle reflte lintuition : les units qui semblent lil
nu tre plus importantes dans le graphe ont une BC
plus leve, contrairement aux rsultats fournis par
les autres mesures de centralit (Wasserman & Faust
1994 : 215 sq.) ;
2. elle est en gnral assez bien corrle la frquence,
sans sy rduire : les lemmes les plus frquents du
texte ont souvent la BC la plus importante. La BC
amplifie cependant des diffrences tnues entre les
lemmes de frquence analogue, et claircit donc le
classement.
3. Par dfinition, elle renvoie une forme dorganisation
des units pertinente pour notre problmatique : les
units ayant la BC la plus leve ont la fois un rle
organisateur dans le graphe, et constituent un interm-
diaire entre les diffrentes rgions de celui-ci (Vergs
& Bouriche 2001 : 69). Dans le cas du graphe de co-

175
M. TAUVERON

occurrence, les units dotes de la BC la plus leve


apparaissent comme des dnominateurs communs
diffrents contenus du texte.
Ce dernier fait dcoule directement de la dfinition de la BC.
On obtient en effet la BC dun nud N donn de la manire
suivante (Anthonisse 1971). Etant donns deux nuds quel-
conques, on recherche tous les chemins qui relient ces deux
nuds, parmi lesquels on ne considre que celui ou ceux de
longueur minimale. On calcule la probabilit que le plus court
chemin entre ces deux nuds passe par N (i.e la proportion
de ces plus courts chemins qui passent par le nud N). Ce
calcul est fait sur toute paire de nuds dans le graphe, et la
BC est la somme de toutes ces probabilits. Dans le cas par-
ticulier du graphe de cooccurrence, Xie (2005) a montr que
la BC indiquait les units smantiquement les plus saillantes
du texte12.
3.1.2 Lorganisation hirarchique du graphe
Un examen de la BC permet donc de montrer lorganisation
hirarchique du lexique du texte : les units dotes de la BC la
plus leve sont les plus saillantes, une BC moins leve
indique une saillance moindre, et ainsi de suite. Lorganisation
mutuelle entre ces units saillantes est montre par les liens du
graphe.
3.2 Comparaison entre les deux corpus
3.2.1 Les units les plus saillantes
Les classements des units les plus centrales dans les deux
graphes sont similaires (Tableau 1). Cela montre que les deux
corpus se ressemblent, et traitent, dans les grandes lignes, des
mmes thmatiques.

12 En lespce, les noms dots de la BC la plus leve dans un texte ont une
dautant plus grande probabilit dapparatre dans les rsums de ces
textes faits par les humains.

176
De la cooccurrence gnralise la variation du sens lexical

Tableau 1. BC des units les plus centrales dans les deux corpus

Corpus AA Corpus AH

Rang Lemme BC Lemme BC

1 programme 1440 commission 2022


2 commission 1345 social 1061
3 europen 833 europen 1042
4 politique 685 politique 465
5 prsident 483 femme 435
6 conseil 406 prsident 361
7 action 349 tat 248
8 dveloppement 298 question 234
9 nergie 245 droit 233

Les deux emplois de action que nous observons sont donc


galement similaires. Est donc confirme notre hypothse de
dpart, savoir quon ne peut pas parler de polysmie au sujet
de ces deux emplois.
Nous allons nous attarder sur la diffrence la plus si-
gnificative entre les deux corpus : le rle important du nom
programme dans le corpus AA.
3.2.2 Le nom programme dans le corpus AA
La Figure 3 (infra) permet de voir que ce nom joue un rle
central dans ce corpus, aux cts de commission, europen et
politique, o il est reli de nombreuses units diffrentes. Cest
par son intermdiaire quun grand nombre dunits, dimpor-
tance moyenne ou secondaire, sont relies au reste du graphe,
ainsi action, initiative, communautaire, nergie, culture, objectif.
Dans le corpus AH, il joue en revanche un rle priphrique,
faisant le lien entre des thmatiques plus importantes que lui
(commission, social), et entre celles-ci et des units moins
importantes (action, laboration).

177
M. TAUVERON

Figure 3. Dtail du graphe du corpus AA

Programme joue donc bien un double rle dorganisateur


et dintermdiaire entre diffrents contenus. Cette observation
permet de supposer quun certain nombre de thmatiques sont
envisages, dans ce corpus, sous un angle programmatique ou
virtuel. Un retour sur les donnes textuelles le confirme :
(3) Il apparat, en outre, trs clairement quun certain nombre
dEtats membres ne sont gure enclins vouloir rduire la
capacit de leurs flottes de pche conformment aux objectifs
et dcisions des programmes. Dans le prolongement dun
renforcement des contrles, la Commission est invite
mettre en uvre des actions et, le cas chant, renforcer
les actions dj mises en uvre []. (Corpus AA, occurrence
n 107)
Dans cette occurrence, le nom programme contribue construire
une dimension virtuelle dans le discours, galement manifeste
par tre enclin (avec lattnuateur ne gure) et tre invit .
On retrouve un caractre analogue dans cette occurrence :
(4) [Le Programme Culture 2000] encourage la mobilit, et il
ouvre les portes de la culture aux personnes dfavorises
[]. Mon seul regret est que nous ne disposions pas dun

178
De la cooccurrence gnralise la variation du sens lexical

financement suffisant, dans la promotion de ce programme,


pour atteindre nos aspirations et garantir notre capacit de
ralisation. Nous disposerons ainsi dun outil tout fait apte
dvelopper, au cours des cinq prochaines annes, une action
claire, bien structure et, jen suis sre, fructueuse, [].
(Corpus AA, occurrence n 180)
La virtualit est ici dnote par des verbes et des locutions qui
renvoient des actions non effectues (encourager, ouvrir les
portes de la culture, regret, la rfrence un financement in-
suffisant, promotion, atteindre des aspirations, garantir, apte
faire), en plus de lemploi du futur (disposerons) et du moda-
lisateur jen suis sr qui vont tous deux dans le sens dune
virtualit.
3.3 Conclusions sur lorganisation hirarchique
3.3.1 Organisation du lexique dans les textes
Ltude de la cooccurrence gnralise sous forme de graphe
a permis de montrer une organisation hirarchique du lexique
dans les textes. En effet, le calcul de la BC permet de dceler les
lemmes ayant une position centrale dans la relation de cooccur-
rence gnralise, et que dautres ont une position marginale.
Malgr cette hirarchie, le graphe nest pas pour autant dispos
en arbre : il ny a aucune unit principale dont dpendraient les
autres. Ceci sexplique par le fait que la hirarchie se superpose
dautres formes dorganisation que nous exploiterons par la
suite.
3.3.2 Visualisation des notions
Cette reprsentation de la cooccurrence gnralise permet de
se faire une ide des lemmes les plus saillants du texte. Comme
on la vu, un tel outil permet de montrer comme le fait une
liste de frquences des diffrences globales entre deux corpus.
Cependant, la valeur ajoute du graphe de cooccurrence
est quil reprsente la manire dont ces units sorganisent et se
regroupent pour former des contenus smantiques de fond. Nous
pensons que lon peut ainsi aborder une reprsentation des
notions au sens de Culioli :
Il y a place [] pour des chanes dassocia-
tions smantiques o lon a des grappes de

179
M. TAUVERON

proprits tablies par lexprience, stockes et


labores sous des formes diverses []. Cette
ramification de proprits qui sorganisent les
unes par rapport aux autres [] tablit ce que
jappelle un domaine notionnel. Cest une repr-
sentation sans matrialit, ou plutt dont la ma-
trialit est inaccessible au linguiste. Les notions
ne correspondent dont pas directement des
items lexicaux. (Culioli 1991 : 10)

4. Organisation modulaire de la cooccurrence gnralise


4.1 La notion de classe de modularit
4.1.1 Une forme dorganisation en classes
On a vu comment le paramtre numrique quest la BC permet
de dceler une organisation hirarchique dans la cooccurrence
gnralise. Cette organisation ne permet cependant pas une
tude du comportement dune unit considre a priori, comme
le nom action dans notre cas. Nous allons nous focaliser ici sur
une autre forme dorganisation de la cooccurrence gnralise,
non hirarchique, et plus locale.
Ltude de la modularit dun graphe consiste rpartir
ses nuds en classes, chacune tant soude par des liens de
cooccurrence. Par construction, les nuds situs dans une
mme classe sont bien relis entre eux, et peu relis aux nuds
appartenant une autre classe13. Sur la Figure 4, chaque classe
est associe une couleur.
Cependant, lintrt de cette notion rside dans sa sub-
tilit : les classes sont poreuses et ponctuellement relies les
unes des autres, car tous les nuds dun graphe sont relis au
moins indirectement.

13 Parmi tous les algorithmes dcrits dans la littrature pour obtenir ce genre
de rsultats, Gephi utilise celui mis au point par Blondel et al., 2008.

180
De la cooccurrence gnralise la variation du sens lexical

Figure 4. Graphe de cooccurrence pour le corpus AH


faisant apparatre les classes de modularit

4.1.2 Linterprtation des classes de modularit


Dans ltude de rseaux sociaux, les classes de modularit ont
t considres comme un signe dhtrognit au sein dune
population (Kasper & Voelkl 2009) et donc comme un moyen
pour identifier plusieurs groupes souds par leurs relations
(Lusseau et al. 2008). Les individus faisant partie dune mme
classe ont des comportements similaires (comportements dachat,
chez Bonneau et al. 2009). Dune manire gnrale, on considre
quil y a des affinits de comportement ou didentit au sein de
chaque classe (Fortunato & Castellano 2007).
Paranyushkin (2010) a propos dinterprter ces classes
de modularit des graphes de cooccurrences comme autant de
parcours de sens possibles au sein dun texte. Avant cela, il
nous semble opportun de considrer que les classes de modularit
peuvent indiquer des thmes des textes.

181
M. TAUVERON

Les nuds et les liens dun graphe de cooccurrence


donnent en effet une image des units dinformation dun texte.
Les rpartir en diffrentes classes, et montrer la manire dont
elles sont hirarchises et relies est une vritable identification
du contenu thmatique, ou de la structuration thmatique du
texte (Wilson 1968, Hjrland 2001). Cest prcisment ce que
permet ltude des classes de modularit.
Pour rpondre notre problmatique sur le nom action,
nous allons nous focaliser, dans chacun de nos deux corpus, sur
la classe de modularit dont fait partie ce nom, pour relever les
termes avec lesquels il est en relation de manire privilgie.
4.2 Le placement du nom action dans les deux corpus
4.2.1 Le nom action dans le corpus AH
Dans ce corpus, on peut mettre en avant deux types dunits de
langue parmi celles avec lesquelles action noue des relations
privilgies :
1. dune part des noms dentits, qui dans le corpus sont
des noms dagents, ainsi pays, tat et membre ;
2. dautre part des units faisant rfrence la planification
des actions : directive, viser.
En particulier, aucun terme ne renvoie ni leffectuation des
actions, ni aux rsultats obtenus.
Cette occurrence apparat par exemple comme typique
de cette partie du corpus :
(5) En ce qui concerne les premires, la Commission nous a en-
voy une srie de propositions, contenues dans deux directives
et un plan daction, qui cherchent appliquer la dcision
suivante prise par les chefs dEtats et de gouvernements
Tampere : assurer un traitement quitable aux ressortissants
de pays tiers qui rsident lgalement sur le territoire de ses
Etats membres et une politique plus nergique en matire
dintgration qui devrait avoir pour ambition de leur offrir des
droits et obligations comparables ceux des citoyens de
lUnion . (Corpus AH, occurrence 394)

4.2.2 Le nom action dans le corpus AA


Dans le corpus AA, action fait partie dune classe de modularit
bien diffrente. Si on rencontre un certain nombre dunits

182
De la cooccurrence gnralise la variation du sens lexical

communes avec la classe de modularit prcdente, on remarque


a contrario 4 types dunits de langue qui font contraste :
1. des units qui indiquent que laction est dirige vers
quelque chose : contre, envers, destine ;
2. des noms concrets ou abstraits qui, dans le contexte,
dnotent des thmatiques ou des domaines sur lesquels
porte laction : pauvret, chmage, exclusion, criminalit
(problmes que rgle laction) et galit (objectif de
laction) ;
3. ladjectif concret, qui dans ce cas indique que laction a
des consquences ;
4. des noms dactions, qui, dans le contexte, apparaissent
comme servant dnoter les programmes suivis par
laction : protection, prvention.
Dans le corpus AH, laction est envisage sous langle de ses
consquences et de son effectuation. A ce titre, cette occurrence
apparat comme typique :
(6) Des propositions concrtes tant pour la lgislation que pour
des plans daction qui concernent la lutte contre les discri-
minations, et qui concernent ltablissement de liberts et
droits sociaux. Jen viens maintenant linitiative EQUAL
laquelle est bien sr base sur larticle 13. Linitiative EQUAL
concerne toutes les formes de discriminations sur la base de
larticle 13, cest--dire la lutte contre les discriminations
fondes sur le sexe, la race, lge, le handicap. (Corpus AA,
occurrence 231)

4.3 La mise en saillance de zones particulires du sens lexical


La comparaison des classes de modularit de action a donc
permis de mettre en vidence une diffrence smantique entre
les emplois de ce noms dans les deux corpus. On a ainsi pu
montrer que les deux traductions de action en sudois corres-
pondaient bien une diffrence smantique en franais. On ne
peut parler de polysmie entre ces deux emplois : il faut sup-
poser quils sont sous-tendus par un unique schma commun
(Lakoff 1987), mis en uvre de deux manires distinctes (Ruiz
de Mendoza 1998). Nous mettons cette diffrence de mise en
uvre sur le compte dune diffrence de saillance dans la
reprsentation du mme rfrent.

183
M. TAUVERON

Les observations des deux paragraphes prcdents


amnent adopter une reprsentation simple du schma sous-
tendu par le nom action ( la Langacker 1987) : en plus dun
processus (qui constitue le rfrent du nom proprement par-
ler), on fait figurer ce qui se trouve en amont de lui (les causes,
au nombre desquelles lagent), et ce qui se trouve en aval (les
rsultats de laction). Au vu des analyses faites dans les para-
graphes prcdents, il apparat que les deux emplois de action
(dans AH et dans AA) se caractrisent, lun par une mise en sail-
lance de lamont de laction, lautre par une mise en saillance
de laval :

Figure 5. Mises en saillance distinctes sur le mme schma


pour les deux emplois du nom action

5. Conclusion : la smantique de la cooccurrence gnralise


5.1 Organisation du lexique dans les noncs
Ltude faite sur la BC dune part, et sur les classes de modu-
larit dautre part a montr la prsence de deux organisations
complmentaires dans la cooccurrence gnralise. En premier
lieu, il apparat que le lexique des textes est organis hirar-
chiquement : des diffrences de saillance entre units lexicales
donnent un rle prminent certaines dentre elles. Ces units
prminentes ont une position centrale dans le rseau, ce qui
leur donne une certaine influence smantique sur les autres. En
second lieu, cette hirarchie se double dune organisation plus
dmocratique, qui regroupe les lemmes en classes selon leur
tendances tre co-occurrents les uns avec les autres. Cette
organisation modulaire scinde le lexique du texte en diffrentes
parties, que lon peut interprter comme des thmes.

184
De la cooccurrence gnralise la variation du sens lexical

En plagiant les propos dAdam (2004 : 35) sur les pro-


positions, nous avons donc pu montrer diffrents agencements
complexes mais non anarchiques de mots dans les textes.
5.2 Variabilit du sens en discours : la notion de micro-sens
Passant de la cooccurrence la corrlation, nous avons pu faire
une interprtation smantique des faits observs. Nous avons pu
en effet montrer que les deux traductions en sudois du nom
action correspondaient en franais deux emplois, certes dis-
tincts, dun mme sens. Il ne sagit pas l dun paradoxe, mais
dune possibilit fondamentale du sens linguistique, celle dune
invariabilit et variabilit non finie, ouverte, du sens dun
mme mot en emploi (Durafour 2005 : 85).
Dans le cas prcis du nom action, la variabilit que
nous avons constate est peut-tre reprsenter sous forme de
micro-sens (Croft & Cruse 2004 : 127). Les deux valeurs du
nom action sont en effet des ralits smantiques distinctes, qui
ne peuvent sactualiser sur la mme occurrence, et pourtant
associes au mme signifiant. De surcrot, malgr leur incom-
patibilit, elles peuvent passer pour des valeurs sous-ordonnes
une valeur plus gnrale, galement dnote par le nom action
(dans laquelle ni lagent ni la cible ne sont mis en saillance). La
notion de micro-sens apparat comme tentante, dans la mesure
o elle rend compte la fois de la similarit et la diffrence
entre deux valeurs rencontres en discours, puisquelles sont
considrer comme deux cohyponymes dune mme valeur
hyperonymique.
5.3 Le pouvoir de lactualisation en discours
Les phnomnes mis en avant ici (organisation du lexique,
variabilit du sens) sont il est ncessaire de le souligner des
ralits construites par le discours. En particulier, les organisa-
tions hirarchique et modulaire ne sont pertinentes que dans un
texte donn, et ne sont pas relier des ralits de la langue :
cest lactualisation en discours qui met en saillance telle unit
lexicale, ou qui place deux units dans la mme classe.
Cest dans la mme perspective quil faut souligner que
la diffrence demplois mise en vidence ici nest pas un signe
de polysmie. Nous nous rangeons en effet lavis de Kleiber
(2005 : 69) pour lequel ce nest que si le changement est

185
M. TAUVERON

conventionnalis ou prconstruit quil y a polysmie . Laissant


de ct les conventions ou les prconstructions de la langue,
notre tude a port sur la timide mais bien existante variabilit
du sens construite par lactualisation du mot en discours.

Rfrences bibliographiques
Adam J.-M. (2004). Linguistique textuelle. Des genres de
discours aux textes. Paris : Nathan.
Albert R. & Barabasi L. (2002). Statistical mechanics of
complex networks , Review of Modern Physics 74, 1 : 47-
97.
Andersson C. & Norn C. (2010). Comparer la finalit dans le
dbat parlementaire : lapport du corpus bilingue C-
ParlEur , Cahiers Sens public 13-14 : 35-53.
Anthonisse J.M. (1971). The rush in a directed graph ,
Stichting Mathematisch Centrum. Mathematische
Besliskunde 9, 71 : 1-10.
Benzitoun C. (2004). Lannotation syntaxique de corpus oraux
constitue-t-elle un problme spcifique ? , Actes de la
confrence RECITAL, 19-22 avril, Fs, 13-22.
Blondel V., Guillaume J.-L., Lambiotte R. & Lefebvre E. (2008).
Fast unfolding of communities in large network ,
Journal of Statistical Mechanics : Theory and Experiment,
P10008.
Bonneau J., Anderson J., Stajano F. & Anderson R. (2009).
Eight Friends Are Enough : Social Graph Approximation
via Public Listings , SNS 09, Nuremberg.
Croft W. & Cruse D.A. (2004). Cognitive Linguistics. Cambridge :
Cambridge University Press.
Culioli A. (1991). Structuration dune notion et typologie
lexicale. A propos de la distinction dense, discret,
compact , in Culioli A. (1999). Pour une linguistique de
lnonciation, tome 3. Paris : Ophrys, 9-17.
Durafour J.-P. (2005). De la double rfrence du langage en
smantique gntique , in Murguia A. (d.), Sens et

186
De la cooccurrence gnralise la variation du sens lexical

rfrences : mlanges Georges Kleiber. Tuebingen : Gunter


Narr Verlag, 83-120.
Fortunato S. & Castellano C. (2007). Community Structure in
Graphs , Disponible : http://lanl.arxiv.org/abs/0712.2716.
Granger S. (2003). The corpus approach : a common way
forward for Contrastive Linguistics and Translation
Studies ? , in Granger S., Lerot J. & Petch-Tyson S. (eds),
Corpus-based Approaches to Contrastive Linguistics and
Translation Studies. Amsterdam : Rodopi, 17-29.
Hjrland B. (2001). Towards a Theory of Aboutness, Subject,
Topicality, Theme, Domain, Field, Content and Rele-
vance , Journal of the American Society for Information
Science and Technology 52, 9 : 774-778.
Jonasson K. (2006). Dmonstratifs indfinis en sudois et
leurs correspondants en franais , Langue franaise 152 :
24-38.
Kasper C. & Voelkl B. (2009). A social network analysis of
primate groups , Primates 50 : 343-356.
Kayser D. (1987). Une smantique qui na pas de sens ,
Langages 87 : 33-45.
Kleiber G. (1997). Sens, rfrence et existence : que faire de
lextra-linguistique ? , Langages 127 : 9-37.
Kleiber G. (2005). Quand y a-t-il sens multiple ? Le critre
rfrentiel en question , in Soutet O. (dir.), La polysmie.
Paris : Presses de lUniversit Paris-Sorbonne, 51-73.
Koehn P. (2005). Europarl : A Parallel Corpus for Statistical
Machine Translation , MT Summit 2005, disponible :
http://homepages.inf.ed.ac.uk/pkoehn/publications/europar
l-mtsummit05.pdf.
Lakoff G. (1987). Women, Fire and Dangerous Things. What
Categories Reveal about the Mind. Chicago University
Press.
Langacker R. (1987). Foundations of Cognitive Grammar,
vol. 1. Stanford University Press.

187
M. TAUVERON

Legallois D. (2006). Prsentation gnrale. Le texte et le


problme de son et ses units : propositions pour une
dclinaison , Langages 163 : 3-9.
Luong X., Brunet E., Longre D., Mayaffre D., Mellet S. &
Poudat C. (2010). La cooccurrence, une relation asy-
mtrique ? , in Bolasco S., Chiari I. & Giuliano L.,
Statistical Analysis of Textual Data. Proceedings of
10th International Conference Journes dAnalyse statis-
tique des Donnes Textuelles, 321-331.
Lusseau D., Whitehead H. & Gero S. (2008). Incorporating
uncertainty into the study of animal social networks ,
Animal Behaviour 75, 5 : 1809-1815.
Mayaffre D. (2008). De loccurrence lisotopie. Les co-
occurrences en lexicomtrie , Syntaxe et smantique 9 :
53-72.
Noailly M. (2002). Lajout aprs un point nest-il quun
simple artifice graphique ? , in Authier-Revuz J. &
Lala M.-C. (d.), Figures dajouts. Phrase, texte, criture.
Paris : Presses Sorbonne Nouvelle, 133-145.
Paranyushkin D. (2010). Text network analysis , Performing
Arts Forum. Disponible : http://noduslabs.com/research/
pathways-meaning-circulation/.
Rastier F. (2011). La Mesure et le grain. Paris : Champion.
Ruiz De Mendoza F. J. (1998). On the nature of blending as a
cognitive phenomenon , Journal of Pragmatics 30 : 259-
274.
Tauveron M. (2012, paratre). Une ontologie multidomaine
des vnements. Noms dvnements comme noms dten-
dues , Syntaxe & Smantique 13.
Tauveron M. (en prparation). Smantique et cognition : les
noms gnraux dentits du 2me ordre dans une perspective
contrastive franais-sudois. Thse de doctorat lUniversit
de Strasbourg.
Valette M. (2010). Propositions pour une lexicologie
textuelle , Zeitschrift fr Frazsische Sprache und
Literatur 37 : 171-188.

188
De la cooccurrence gnralise la variation du sens lexical

Vergs P. & Bouriche B. (2001). Lanalyse des donnes par


les graphes de similitude . Disponible : http://www.
scienceshumaines.com/textesInedits/Bouriche.pdf.
Vronis J. (2004). HyperLex : Lexical Cartography for
Information Retrieval , Computer Speech & Language 18,
3 : 223-252.
Victorri B. & Fuchs C. (1996). La polysmie : construction
dynamique du sens. Paris : Herms.
Viprey J.-M. (2006). Structure non-squentielle des textes ,
Langages 163 : 71-85.
Wasserman S. & Faust K. (1994). Social Network Analysis.
Cambridge : Cambridge University Press.
Wilson P. (1968). Two kinds of power. An essay on biblio-
graphical control. Berkeley : University of California Press.
Xie Z. (2005). Centrality Measures in Text Mining : Prediction
of Noun Phrases that Appear in Abstracts , ACL05,
Proceedings of the Student Research Workshop, Ann
Arbor.

189

Das könnte Ihnen auch gefallen