Sie sind auf Seite 1von 9

D

etection fine dopinion et sentiments : attribution fine


de la polarit
e et calcul incr
emental de lintensit
e
Claude Martineau, Stavroula Voyatzi, Lidia Varga, Stephanie Brizard, Aurelie
Migeotte

To cite this version:


Claude Martineau, Stavroula Voyatzi, Lidia Varga, Stephanie Brizard, Aurelie Migeotte.
Detection fine dopinion et sentiments : attribution fine de la polarite et calcul incremental
de lintensite. Fryni Kakoyianni-Doa. 30th International Conference on Lexis and Grammar,
Oct 2011, Nicosia, Cyprus. Honore Champion, pp.319-334, 2014. <hal-00790253>

HAL Id: hal-00790253


https://hal-upec-upem.archives-ouvertes.fr/hal-00790253
Submitted on 20 Feb 2013

HAL is a multi-disciplinary open access


archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.

Larchive ouverte pluridisciplinaire HAL, est


destinee au depot et `a la diffusion de documents
scientifiques de niveau recherche, publies ou non,
emanant des etablissements denseignement et de
recherche francais ou etrangers, des laboratoires
publics ou prives.

DTECTION FINE DOPINIONS ET SENTIMENTS : ATTRIBUTION DE POLARIT ET


CALCUL INCRMENTAL DE LINTENSIT
Claude MARTINEAU(1), Stavroula VOYATZI(1), Lidia VARGA(1),
Stphanie BRIZARD(2), Aurlie MIGEOTTE(2)
(1) LIGM, Universit Paris-Est 77454 Marne-la-Valle Cedex 2
{claude.martineau, stavroula.voyatzi, lidia.varga}@univ-mlv.fr
(2) ARISEM 1-5 rue Carnot- 91883 Massy cedex
{stephanie.brizard, aurelie.migeotte}@arisem.com
Rsum. Cet article dcrit notre contribution sur la dtection fine dopinions dans les blogs et les
enqutes de satisfaction client, et porte plus spcifiquement sur ltude et la construction du
vocabulaire permettant de caractriser une opinion positive ou ngative dans les documents.
Lapproche adopte ici pour lanalyse et dtection dopinions sappuie sur la fusion dun modle
smantique et dun modle numrico-symbolique. Une mthode incrmentale est mise en uvre
permettant de calculer lintensit des segments valuatifs en tenant compte de phnomnes
linguistiques complexes tels que la ngation, la comparaison, la coordination ou lopposition.
Mots-cls : dtection dopinions et sentiments, segment valuatif, polarit, intensit.
1. Introduction
Avec lmergence du Web, et surtout du Web 2.0, le nombre de documents contenant des informations
exprimant des opinions, des sentiments ou des jugements dvaluation devient de plus en plus
important. Rcemment, les chercheurs de diffrentes communauts, i.e. Fouille de donnes,
Linguistique, Traitement Automatique des Langues, se sont intresss lextraction automatique de
ces donnes dopinions sur le Web. La dtection ou lextraction automatique dopinions ou encore
dassertions objectives ou subjectives dans un texte est alors un domaine de recherche en pleine
expansion (Wiebe et al., 2005 ; Yang et al., 2007).
Du point de vue des utilisateurs, les deux principales applications de ce type de dtection
concernent, dune part, lanalyse automatique dopinions dans des messages contenant par exemple
lavis de consommateurs sur un produit ou un phnomne particulier (Popescu & Etzioni, 2005), et
visent plus particulirement le dveloppement de tches de veille (technologique, concurrentielle,
socitale), lvaluation dun produit par la communaut avant un achat, la dtection de rumeurs (buzz)
sur le web ou encore la dtection dopinions mergents et/ou significatives dans les forums. Dautre
part, lanalyse de la subjectivit dune phrase est essentielle notamment pour les systmes de rsum
automatique ou de question/rponse (Riloff & Wiebe, 2003). Dun point de vue scientifique, la
problmatique pose par la dtection dopinions se situe dans le cadre de la comprhension
automatique de messages. Ce problme constitue une possibilit daborder un niveau intermdiaire
entre la simple dtection des entits prsentes et lanalyse smantique complte du message.
Nombreuses sont les questions1 qui sont lies la tche de dtection dopinions et qui sont au
cur des principaux axes de recherche. Dans cet article, nous nous intressons plus particulirement
ltape de construction et structuration du vocabulaire permettant de caractriser une opinion positive
ou ngative dun document. Larticle est organis de la manire suivante : la section 2 prsente
brivement un tat de lart des principales approches pour la dtection dopinion et de la polarit. La
section 3 dcrit les expriences ralises partir de donnes relles issues de blogs et denqutes de
satisfaction client. Le calcul incrmental de lintensit et son implmentation sont dcrits dans les
sections 4 et 5. La section 6 donne un aperu global des ressources lexicales dveloppes.
1

A savoir : (i) la modlisation linguistique et informatique ainsi que la gestion des donnes dopinion (quest-ce quune
opinion , comment la reprsenter informatiquement ?) ; (ii) lexpression en langue et en discours (comment les opinions,
sous leurs diffrentes facettes, sont-elles formules ?) ; (iii) la construction, lacquisition et la validation des ressources
linguistiques ; (iv) les mthodes pour identifier, annoter et extraire automatiquement opinions et sentiments dans des
documents textuels ou audiovisuels ; etc.

2. La dtection dopinions : tat de lart


Plusieurs travaux se sont intresss la dtection dopinions et la dtection de la polarit. La
dtection dopinions est une tche qui permet dextraire les opinions dun ensemble de documents
pertinents pour un sujet donn. Elle est confronte des problmes qui la distinguent de la recherche
traditionnelle thmatique dont les sujets sont souvent identifis par des mots-cls seulement. Lopinion
peut tre exprime de manires trs varies et subtiles, et donc il est souvent difficile de la dterminer
exactement. La classification des sentiments selon la polarit est une sous-tche de la dtection
dopinions. Elle consiste de faon gnrale dterminer si lopinion du document sur le sujet est
positive ou ngative. De ce fait, plusieurs travaux de recherche se sont intresses ce problme, par
exemple, (Pang & Lee, 2008) essaient de quantifier le sentiment, (Mishne & de Rijke, 2006a)
capturent les niveaux dhumeur dans des notes de blogs, ou encore (Mishne & Glance, 2006) prsident
les ventes de film en fonction des notes des Bloggers.
Afin dvaluer les rsultats des chercheurs dans le domaine, plusieurs campagnes
dvaluations ont vu le jour. Sur le plan international, citons tout dabord TREC qui signifie Text
Retrieval Conference et dsigne lensemble des confrences organises par le NIST (National
Institute of Standard and Technology)2 sur la recherche dinformation. Plusieurs tches ont fait lobjet
de recherches dans ces confrences, dont le Blog Track qui a t introduit en 2006. Chaque anne, de
nouvelles tches sont dfinies dans la dtection dopinions et la dtection de la polarit3. Signalons
encore la campagne dvaluation internationale SemEval 2007 qui intgre en complment de la tche
dannotation des textes en fonction de la polarit, une tche dannotation des textes partir dune liste
dmotions prdfinies (e.g. peur, colre, joie, surprise, etc.).
Sur le plan francophone, plusieurs sont les ateliers et les campagnes dvaluation en fouille de
donnes dopinion qui tmoignent dun intrt croissant pour leur traitement informatis. En 2007, le
dfi DEFT (Dfi Fouille de Textes) organis par le LIMSI a port sur la classification de textes en
franais selon le jugement favorable ou dfavorable quils expriment. En mai 2008, latelier
FODOP08 (Fouille de Donnes dOpinions) organis conjointement la Confrence INFORSID
avait pour objectif de promouvoir des changes entre chercheurs issus de diffrentes communauts.
Dans la littrature, il existe gnralement deux types dapproches pour la dtection dopinion
et de la polarit. Certaines sont bases sur le lexique, dautres sur lapprentissage. Le premier type
dapproche utilise un lexique de mots qui dsignent un sentiment. Ce lexique est soit externe cest-dire construit indpendamment de tout corpus, et dans ce cas, il peut tre gnral (SentiWordNet4,
lexique SUBJ, General Inquiry, Wilson lexicon) ou construit manuellement, soit gnr
automatiquement partir du corpus (les mots qui contiennent une opinion sont extraits directement du
corpus). chaque mot du lexique est associ un ensemble de scores dopinions et de score de
polarit. Ce score est trait diffremment par les diffrentes approches pour le calcul du score
dopinion dun document. La mthode la plus simple est de donner un document un score gal au
nombre total de mots qui contiennent une opinion prsents dans le document (e.g. Zhou et al., 2007 ;
Fautsch & Savoy, 2008).
Le deuxime type dapproche base sur lapprentissage automatique consiste attribuer des
donnes un classifieur pour lapprentissage. Ce dernier gnre un modle qui est utilis pour la
partie test de lapprentissage. Ce type dapproche comprend deux aspects : extraction de features et
apprentissage du classifieur. Les principales features utilises sont les suivants : mots seuls,
bigrammes, tri-grammes, parties du discours (POS, analyse de larbre syntaxique) et polarit. Les
principaux classifieurs sont les SVM, Naive Bayes, Maximum Entropy et la rgression logistique
(Song et al., 2007 ; Mishne & de Rijke, 2006b ; Lee et al., 2008).
Notre exprimentation utilise un modle de reprsentation et danalyse des opinions et
sentiments labor conjointement avec nos partenaires, THALES, ARISEM et le LIP65 qui sappuie
sur la fusion dun modle smantique et dun modle numrico-symbolique combinant une expertise
2

http://www.nist.gov/index.html.
http://trec.nist.gov/.
4
http://sentiwordnet.isti.cnr.it/.
5
le LIP6 est le Laboratoire dInformatique de Paris6, la socit ARISEM est une filiale de THALES.
3

linguistique avec des outils dintelligence artificielle. Nous prsentons notre approche plus en dtail en
section 3.2.
3. tude exprimentale
Notre tude sinscrit dans le cadre du projet de Recherche et Dveloppement DoXa, labellis par le
ple de comptitivit francilien CAP DIGITAL, et qui concerne le domaine de lIngnierie des
Connaissances. Le projet vise mettre en place une plateforme de technologies et mthodologies
danalyse automatique des opinions et sentiments (abrgs en O&S) au sein de grands volumes de
textes rdigs en langue franaise. Le prsent travail porte sur la construction et structuration du
vocabulaire permettant lextraction des donnes dopinion positives ou ngatives.
Dans le cadre de nos recherches, nous prenons lopinion au sens de jugement de valeur (par
opposition au jugement de ralit) sur une entit concrte ou abstraite laquelle peut tre un objet, une
ide, un projet, un fait, un vnement, une situation, ou une personne. Cette entit est le thme sur
lequel porte lopinion. Comme lindique (Kerbrat-Orecchioni, 1980), le jugement de valeur peut-tre
exprim de manire affective engagement affectif de lnonciateur vis--vis de lobjet qualifi ou de
manire valuative ou apprciative engagement intellectuel de lnonciateur vis--vis de lobjet
qualifi. Le jugement peut tre exprim la fois de manire affective et de manire valuative .
3.1. Corpus dtude et environnements logiciels
Le langage des opinions et sentiments dpend fortement du domaine concern, ce qui implique que,
malgr notre ambition de pouvoir couvrir laide de nos ressources de grands corpus avec des
domaines et sous domaines varis, plus nous diversifions le domaine moins les rsultats dextractions
seront prcis. Pour les besoins du projet, nous avons utilis deux corpus. Dune part, un corpus portant
sur les jeux vido, et compos de critiques, de blogs, de reportages sur des salons ou vnements ayant
traits au domaine des jeux vido et touchant parfois celui du cinma. Ce corpus se prsente sous la
forme de 7.665 articles et contient 13.601.826 mots. Dautre part, un corpus rassemblant des
conversations tlphoniques issues dune enqute de satisfaction client qui contient 7.256.055 mots.
Les textes analyss dans le cadre de nos travaux sont principalement des textes de types posts dont la
longueur est comprise en moyenne entre 200 et 2000 mots.
Nous utilisons conjointement deux environnements logiciels. Dune part, Unitex 3.0. beta
(Paumier, 2008), dvelopp lUniversit Paris-Est, est un environnement logiciel open source multiplateforme et multilingue. Il permet danalyser des textes en langue naturelle en utilisant des
ressources linguistiques telles que des dictionnaires lectroniques, des grammaires locales ou des
tables de lexique-grammaire qui sont reprsentes sous forme dautomates, de transducteurs ou (pour
les grammaires locales) de rseaux de transitions rcursifs RTN. Dautre part, le moteur danalyse
HST (High Speed Transducer) dvelopp par la compagnie Arisem, utilise des formats semblables
ceux dUnitex, et gre galement des ressources de type ontologique.
3.2. Mthode danalyse et de dtection des opinions et sentiments
La mthode danalyse et de dtection des opinions et sentiments propos ici sappuie sur la fusion
dun modle smantique et dun modle numrico-symbolique. Elle vise aller au-del dune
classification binaire permettant de catgoriser les textes selon laxe de la polarit ou dune
classification quaternaire croisant laxe de la polarit et laxe de lintensit. Elle vise galement
mettre en uvre pour un texte donn, une analyse locale des opinions ou sentiments exprims au
niveau phrastique, et une analyse globale des opinions ou sentiments exprims au niveau des portions
de texte et du texte entier. Lobjectif est de permettre la mise en uvre de parcours danalyse allant
dune vision macro et quantitative une vision micro et qualitative.
i.
ii.
iii.

En schmatisant, la reprsentation des O&S du modle DoXa sarticule sur trois niveaux :
MICRO : lanalyse est faite au niveau de la phrase ou portion de phrase.
MESO : lanalyse concerne le paragraphe ou la portion de texte.
MACRO : lanalyse porte sur lensemble du texte.

Au niveau MICRO, lanalyse est effectue grce une approche symbolique qui, malgr un
cot parfois lev, permet dannoter le plus finement possible des segments de texte sensiblement

longs (7 mots), appels segments valuatifs, et de leur attribuer des traits tels que la polarit et
lintensit. Cette annotation sappuie sur un ensemble de catgories smantiques dO&S que nous
dcrivons en dtail en section 3.3.
Lapplication du modle numrico-symbolique permet de synthtiser lensemble des
annotations poses au niveau MICRO afin de caractriser premirement le contenu valuatif de chaque
paragraphe (niveau MESO) et, ensuite, dans un second temps, celui du texte dans son intgralit
(niveau MACRO). Elle permet galement, notamment lorsque les informations sont ambiges,
imprcises, contrastes voire contradictoires, de prendre des dcisions sur des annotations isoles, par
exemple je suis ni content ni mcontent ou je suis la fois en colre et du . La composante
numrico-symbolique est fonde sur des oprateurs et des heuristiques dagrgation issus de
lapprentissage automatique et la thorie des ensembles flous. Nos travaux de recherche sont consacrs
lanalyse et annotation fine des O&S au niveau MICRO6.
3.3. Modle de reprsentation smantique des opinions et sentiments
Les annotations produites reposent sur le modle O&S du projet DoXa, qui est inspir des travaux de
(Mathieu, 2006) sur la classification des verbes de sentiment, et la thorie de lvaluation (Martin et
al., 2005). Un premier jeu de catgories smantiques a t soumis des annotateurs humains pour
valuation sur un corpus de posts issus de blogs portant sur les jeux vidos. Les retours des
annotateurs ont permis de simplifier le modle, en rduisant le nombre de catgories initialement
dfinies sur la base de regroupements des catgories. Le tableau 1 prsente les vingt catgories
smantiques retenues, munies de leur polarit intrinsque, de leur tiquette en anglais (utilise dans les
ressources avec le prfixe cat_), de celle de la catgorie antonyme si elle existe et, enfin, illustres
dun exemple.
Ces catgories smantiques sappliquent tout type de catgorie grammaticale appeles ici
constituants de base : adjectif, nom, verbe, adverbe et expression (semi-)fige. La prsence dune
ngation dans la phrase peut donner lieu une inversion de polarit qui se traduit dans lannotation du
segment valuatif trait, soit par un passage la catgorie antonyme (cf. Etiquette Cat. Antonyme) soit
par lajout de lattribut neg. En voici quelques exemples :
(1) intressant, cat_Satisfaction|int3
(2) inquiet, cat_Fear|int3
Catgorie Smantique
Accord
Colre
Apaisement
Valorisation
Ennui
Mpris
Dvalorisation
Msentente
Gne
Dplaisir
Insatisfaction
Crainte
Surprise Ngative
Plaisir
Surprise Positive
Tristesse
Satisfaction
Connotation mliorative
Connotation pjorative
Attente

Pol. Intrinsque
positive
ngative
positive
positive
ngative
ngative
ngative
ngative
ngative
ngative
ngative
ngative
ngative
positive
positive
ngative
positive
positive
ngative
neutre

pas intressant, cat_Dissatisfaction|int3


pas inquiet, cat_Fear|int3|neg
Etiquette
Agreement
Anger
Appeasement
Appraisal
Boredom
Contempt
Depreciation
Disagreement
Discomfort
Displeasure
Dissatisfaction
Fear
NegSurprise
Pleasure
PosSurprise
Sadness
Satisfaction
MelConnot
PejConnot
Expectation

Etiq. Cat. Ant.


Disagreement

Depreciation

Appraisal
Agreement

Satisfaction
PosSurprise
NegSurprise
Dissatisfaction

Exemple
approbation
exaspration
rassure
bienveillant
rbarbatif
<prendre> en grippe
dnigrer
<mettre> en doute
perturber
rpugnant
incomptent
effroi
sidr
divertir
<couper> le souffle
dcouragement
adorable
bravo
problmatique
souhaiterais

Tableau 1. Catgories smantiques des opinions et sentiments


6

Au sein du projet DoXa, la tche dagrgation dannotation est confie au LIP6, quant celle dannotation MICRO, elle est
le fruit de la collaboration du LIGM et de la socit ARISEM.

4. Annotation des segments valuatifs et calcul de lintensit


Lannotation dun segment valuatif indique son appartenance une ou plusieurs catgories
smantiques (tableau 1), chacune munie dune valeur dintensit prise sur une chelle en comportant
dix (1-10). Cette intensit rsulte de la prise en compte de lintensit intrinsque7 associe tout
constituant de base prenant ses valeurs entre 3 et 7, et ventuellement dun ou plusieurs modifieurs
spcifiques qui possdent trois niveaux en intensification comme en attnuation. Les valeurs
infrieures (<3) et suprieures (>7) sont respectivement atteintes par lapplication de ces modifieurs.
Lexemple suivant prsente un adjectif isol, puis combin avec deux modifieurs diffrents :
(3) intressant, cat_Satisfaction|int3
trs, AdvInt2
peu, AdvAtt1

trs intressant, cat_Satisfaction|int5


peu intressant, cat_Satisfaction|int2

La modification dintensit peut galement tre produite par la prsence de prfixes (e.g. ultra
intressant, mega jeu), de superlatifs (e.g. le jeu le plus marrant du monde), ou encore de modifieurs
adverbiaux divers (e.g. trs, extrmement, peu prs satisfait). Nous avons divis ces derniers en huit
classes8. Pour expliquer le processus du calcul de lintensit, nous avons construit une phrase
dexemple qui intgre lensemble des niveaux de modification dintensit traits par les ressources
dvelopps :
(4) Ce jeu est unanimement vraiment le plus hyper intressant quon connaisse
Ladjectif intressant est prcd de plusieurs mots qui contribuent chacun leur tour la
modification de son intensit de base (intensit intrinsque = 3). Lintensit de base pouvant prendre
dix valeurs, celle des modifieurs pouvant en prendre trois en intensification comme en attnuation, les
combinaisons savrent fort nombreuses. Cette explosion combinatoire rend quasiment impossible le
calcul de lintensit rsultante par un simple transducteur. Cest pourquoi nous avons d opter pour
une approche incrmentale qui calcule lintensit rsultante9 de proche en proche. Cette mthode est
explicite par la ligne ci-dessous dans laquelle les crochets symbolisent lintensit intrinsque ou la
modification dintensit apporte par un constituant de base ; et les parenthses, la manire dont ces
intensits sont deux deux combines :
(5) Intensit rsultante = ( ( [unanimement] [vraiment] ) ( [le plus] ( [hyper] [intressant] ) ) )
10
=
+1
+2
+2
+3
3
4.1. Annotation des segments valuatifs conscutifs
Les ressources de chaque catgorie smantique reprsentes sous forme de graphe dictionnaire et les
donnes indiquant lordre dans lequel les appliquer constituent un module. Lanalyse des segments
valuatifs consiste dabord traiter le texte par un module appel transverse qui reconnat les
modifieurs de toutes sortes ainsi que les ngations. Ensuite, les modules des catgories smantiques
(cf. tableau 1, section 3.3) sont successivement appliqus au texte afin de reconnatre chacun les
donnes lexicales qui leur sont propres. En les combinant avec les ngations et modifieurs
prcdemment identifis, on produit les annotations des segments complexes. Un ultime traitement,
sappuyant sur la prsence des connecteurs, permet de reprer parmi les segments reconnus ceux qui
seraient diversement relis entre eux : comparatifs (supriorit, galit, infriorit), conjonctifs
(coordination, disjonction, numration, opposition). En voici des exemples extraits de nos corpus
dtude :

Nous situant dans une perspective de TAL et de linguistique de corpus, nous avons adopt une dmarche empirique et
itrative pour lattribution des valeurs dintensit intrinsque aux constituants de base. Faute de donnes appropries pour le
franais, nous avons fait appel des linguistes de lquipe du LIGM qui ont attribu des intensits sur un certain nombre
reprsentatif des units lexicales (constituants de base). Puis, les retours des annotateurs ont permis, dune part, de rsoudre
les conflits de valeurs attribues et, dautre part, de dfinir une chelle oprationnelle pour le calcul de lintensit.
8
Bien quils ne soient pas tous des quantifieurs stricto sensu, nous avons tent de traduire au niveau de lintensit (seule
variable de notre modle) les variations aspectuelles ou modales quils peuvent apporter, et qui incluent des notions comme
par exemple, la source de linformation mise ou le positionnement du locuteur vis--vis de son nonc.
9
Toute valeur de lintensit rsultante qui dpasse lintensit maximale de 10 est remplace par 10.

(6) plus de frustration que de plaisir,.ComparSup+Annotation1=cat_Dissatisfaction|int5+


DissatisfactionNoun;Annotation2=cat_Pleasure|int3}+PleasureNoun
(7) charmante mais pas forcment comptente,.Opposition+Annotation1=cat_Satisfaction|int4+
SatisfactionAdj;Annotation2=cat_Depreciation|int3+DepreciationMais+MaisComp
5. Implmentation et importation sous Unitex
En termes dimplmentation, sous HST, cette approche sexprime laide dun format de ressources
intermdiaire entre dictionnaire et grammaire que nous appellerons dictionnaires de motifs. Ils sont
composs de lignes dont la partie gauche est semblable une expression rgulire simplifie et la
partie droite une entre de dictionnaire Dela. Chaque ligne est comparable une grammaire plat
reprsentable par un graphe ne comportant quun seul chemin comme par exemple : <faire> dune
pierre deux coups > Expression+Verbe.
Les dictionnaires de motifs sont utiliss pour reprsenter, dune part, des constituants de base
avec leur intensit intrinsque ou la modification dintensit quils oprent :
(8) <avoir> le bourdon > cat_Sadness|int4+SadnessSemiFrozen
Dautre part, ils reprsentent des rgles de modification de lintensit comme :
(9) {AdvInt2} {cat_Displeasure|int1} > cat_Displeasure|int3+DispleasureComp
En appliquant, dans lordre adquat, de tels dictionnaires, on peut reconnatre chaque
composant dun segment valuatif (simple ou complexe), et calculer de manire incrmentale son
intensit. Lors de lanalyse dune phrase, HST utilise, dune part, des ressources de type ontologique
pour capter les thmes sur lesquels portent les opinions exprimes dans les segments valuatifs ; et,
dautre part, des ressources reprsentes par des grammaires locales ou des dictionnaires pour traiter
les segments valuatifs.
Afin de profiter des possibilits des deux environnements HST et Unitex, et damliorer ainsi
potentiellement les ressources produites, nous avons dvelopp un programme qui permet dimporter
dans lenvironnement Unitex des donnes issues de HST. Chaque dictionnaire de motif est import
sous la forme dun graphe dictionnaire qui sapplique comme un dictionnaire Dela et construit
dynamiquement des entres dans le dictionnaire du texte. titre dexemple, considrons le mini
dictionnaire ci-dessous qui comprend divers types dentres10 impliques dans le traitement de notre
exemple :
hyper > PrefInt3+ModInt3+PrefModifier
<intressant> > cat_Satisfaction|int3+SatisfactionAdj+SatisfactionAdjInt3
{PrefInt3}={SatisfactionAdjInt3} > cat_Satisfaction|int6+SatisfactionAdjInt6+SatisfactionPref
Voici (cf. figure 1) le graphe dictionnaire quivalent gnr par le programme dimportation :

Figure 1. Graphe dictionnaire issu dun dictionnaire de motif


Lapplication dun ensemble de graphes dictionnaires notre exemple de rfrence permet de
visualiser sous Unitex (cf. figure 2), dans le dictionnaire du texte, les analyses et intensits partielles
conscutivement produites, i.e. hyper intressant, le plus hyper intressant, ainsi que le segment
valuatif intgralement reconnu avec lintensit correcte.
10

Hyper est un prfixe intensifieur entrainant une incrmentation dintensit +3, <intressant > permet de reconnaitre les
formes flchies de cet adjectif auxquelles une intensit intrinsque de 3 est attribue. La dernire ligne est une rgle qui
calcule lintensit rsultante dun prfixe intensifieur dintensit +3 appliqu un adjectif de catgorie Satisfaction
dintensit 3. Le signe = permet daccepter les formes avec ou sans trait dunion.

Figure 2. Dictionnaire du texte : segments valuatifs reconnus


6. Dictionnaires dopinions et sentiments
Les dictionnaires contiennent, ce jour, 6.703 entres de type lexical et 23.188 entres de type
grammatical (rgles de calcul dintensit rsultante et de ngation). Les tableaux 2 et 3 donnent, pour
les vingt catgories smantiques O&S (cf. tableau 1, section 3.3), le nombre dentres lexicales
respectivement par catgorie smantique et par catgorie syntaxique :
Catgorie smantique Entres Catgorie smantique Entres
Agreement
189
Dissatisfaction
169
Anger
283
Expectation
565
Appeasement
107
Fear
195
Appraisal
485
MelConnot
83
Boredom
61
NegSurprise
141
Contempt
245
PejConnot
264
Depreciation
653
Pleasure
339
Disagreement
223
PosSurprise
96
Discomfort
92
Sadness
288
Displeasure
126
Satisfaction
202

Catgorie syntaxique
Entres
Adjectifs
2279
Adverbes
169
Noms
826
Verbes
832
Expressions Figes
261
Expressions Semi-Figes
558
Adjectifs Modifieurs
51
Adverbes Modifieurs
535

Tableaux 2 et 3. Catgories smantiques et syntaxiques : nombre dentres


7. Conclusion et perspectives
Dans cet article, nous avons dcrit notre contribution sur la dtection dopinions et de la polarit dans
les blogs et les enqutes de satisfaction client, qui porte plus spcifiquement sur le dveloppement des
ressources linguistiques permettant de caractriser une opinion positive ou ngative dans les
documents. Ces ressources ont t dveloppes selon le modle des opinions et sentiments (O&S) du
projet DoXa. Nous avons propos une mthode incrmentale permettant de calculer lintensit des
segments de texte en tenant compte de phnomnes linguistiques complexes tels que la ngation, la
comparaison, la coordination ou lopposition. Dans la phase suivante du projet, nous envisageons une
valuation des ressources produites afin de pouvoir, dune part, procder des leves dambigit et,
dautre part, complter et raffiner les dictionnaires et grammaires existants. Une valuation globale de
la tche11 de dtection dopinions et sentiments est galement envisage la fin du projet12.
Remerciements
Ce travail a t financ conjointement par la Direction Gnrale de la Comptitivit, de lIndustrie et
des Services (DGCIS) et le Fonds unique interministriel dans le cadre du projet de Recherche et
Dveloppement collaboratif, DoXa, labellis par le ple de comptitivit CAP DIGITAL.
11

Les dveloppements dj raliss par lensemble des partenaires du projet DoXa fait lobjet dun chapitre du livre Next
Generation Search Engines: Advanced Models for Information Retrieval paraitre dbut 2012.
12
A cette priode, une version publique des ressources dveloppes sera mise la disposition de la communaut.

Bibliographie
FAUTSCH, C. & SAVOY, J., UniNE at TREC 2008: Fact and Opinion Retrieval in the Blogsphere, In
Proceedings of the 17th Text REtrieval Conference (TREC 2008), 2008.
KERBRAT-ORECCHIONI, C., Lnonciation. De la subjectivit dans le langage. Paris, Armand Colin,
1980.
LEE, Y., Na, S.-H., KIM, J., NAM, S.-H., JUNG, H.-Y. & LEE, J.-H., KLE at TREC 2008 Blog Track:
Blog Post and Feed Retrieval , In Proceedings of the 17th Text REtrieval Conference (TREC
2008), 2008.
MARTIN, J. R. & WHITE, P. R. R., The Language of Evaluation: Appraisal in English, London & New
York, Palgrave MacMillan, 2005.
MATHIEU, Y. Y., A Computational Lexicon of French Verbs of Emotion , Computing Attitude and
Affect in Text: Theory and Applications, Springer Dordrecht, The Netherlands, 2006, p. 109123.
MISHNE, G. & de RIJKE, M., Capturing global mood levels using blog posts , In Proceedings of the
AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW
2006), Stanford, California, USA, 2006a, p. 145152.
MISHNE, G. & de RIJKE, M., A study of blog search , In Proceedings of the 28th European
Conference on Information Retrieval (ECIR 2006), vol. 3936, London, UK, 2006b, p. 289301.
MISHNE, G. & GLANCE, N., Predicting movie sales from blogger sentiment , In Proceedings of the
AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW
2006), Stanford, California, USA, 2006, p. 155158.
PANG, B. & LEE L., Opinion Mining and Sentiment Analysis , Foundations and Trends in
Information Retrieval, vol. 2 (1-2), 2008, p. 1135.
PAUMIER, Sbastien, Unitex 2.0 user Manual, http://www-igm.univ-mlv.fr/~paumier/recherche.php,
2008.
POPESCU, A.-M. & ETZIONI, O., Extracting product features and opinions from reviews , In
Proceedings of the Conference on Human Language Technology and Empirical Methods in
Natural Language Processing (HLT/EMNLP05), Vancouver, B.C., Canada, 2005, p. 339346.
RILOFF, E. & WIEBE, J., 2003. Learning extraction patterns for subjective expressions , In
Proceedings of the Conference on Empirical Methods in Natural Language Processing
(EMNLP03), Sapporo, Japan, 2003, p. 105112.
SONG, R., TANG, Q., SHI, D., LIN, H. & Yang, Z., DUTIR at TREC 2007 Blog Track , In
Proceedings of the 16th Text REtrieval Conference (TREC 2007), 2007.
WIEBE, J., WILSON, T, & CARDIE, C., Annotating expressions of opinions and emotions in
language , Language Resources and Evaluation, vol. 39 (2-3), 2005, p. 165210.
YANG, K., Yu, N. & ZHANG, H., WIDIT in TREC 2007 Blog Track: Combining Lexicon-Based
Methods to Detect Opinionated Blogs , In Proceedings of the 16th Text REtrieval Conference
(TREC 2007), 2007.
ZHOU, G., Joshi, H. & BAYRAK, C., Topic categorization for relevancy and opinion detection , In
Proceedings of the 16th Text REtrieval Conference (TREC 2007), 2007.
Claude MARTINEAU
Stavroula VOYATZI
Lidia VARGA
Universit Paris-Est
77454 Marne-la-Valle Cedex 2
Stphanie BRIZARD
Aurlie MIGEOTTE
Arisem 1-5 rue Carnot
91883 Massy cedex

Das könnte Ihnen auch gefallen