Sie sind auf Seite 1von 157

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Analyse multidimensionnelle des donnes


Master 2me anne - Psychologie Sociale des Reprsentations
Rf. (polycopi et fichiers de donnes utiliss) :
http://geai.univ-brest.fr/~carpenti/

1 Prsentation
1.1 Introduction
Comment peut-on dfinir l'analyse multidimensionnelle des donnes ?
L'analyse statistique lmentaire s'applique des situations dans lesquelles une ou deux variables
ont t observes sur un ensemble d'individus statistiques (populations ou chantillons). L'extension
de ces mthodes aux cas o le nombre de variables devient plus lev est souvent appel analyse
multivarie. Cependant les conclusions ou rsultats obtenus par ces mthodes restent de mme
nature, unidimensionnelle. Par exemple, la MANOVA (analyse de variance multivarie) permet
d'tudier l'effet de facteurs de variation sur un "vecteur" de variables dpendantes, mais apporte une
conclusion analogue celle de l'ANOVA : les facteurs ont (ou n'ont pas) un effet sur le vecteur des
VD.
L'analyse multidimensionnelle (ou plutt, les mthodes qui en relvent) tudie galement des
situations o un ensemble de variables doit tre tudi simultanment sur un ensemble d'objets
statistiques. Par nature, ces donnes se modlisent dans un espace plusieurs dimensions. Mais, la
diffrence des mthodes prcdentes, l'analyse multidimensionnelle des donnes s'attache fournir
des rsultats en rduisant le nombre de dimensions, mais en ne se limitant pas une seule. La
plupart des mthodes d'analyse multidimensionnelle utilisent un modle gomtrique (une
gomtrie dans un espace de dimension suprieure 3) et ses possibilits de projection sur des
sous-espaces de dimension plus rduite, notamment sur des plans bien choisis. Les "carts" entre
objets y sont alors traduits par les distances habituelles.
G. Drouet d'Aubigny schmatise ce traitement d'un tableau de donnes complexes, ou systme
relationnel empirique de la faon suivante :
Mthodes danalyse

R
empirique

S
gomtrique

Interprtation

F.-G. Carpentier - 2012/2013

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Le plus souvent, les mthodes d'analyse multidimensionnelle s'appliquent des tableaux de l'un des
types suivants :
- Tableau protocole individus x variables numriques. Exemple :
On dispose des consommations annuelles de 8 types de denres alimentaires pour 8 catgories
socio-professionnelles (en 1972).

AGRI
SAAG
PRIN
CSUP
CMOY
EMPL
OUVR
INAC

PAO
167
162
119
87
103
111
130
138

PAA
1
2
6
11
5
4
3
7

VIO
163
141
69
63
68
72
76
117

VIA
23
12
56
111
77
66
52
74

POT
41
40
39
27
32
34
43
53

LEC
8
12
5
3
4
6
7
8

RAI
6
4
13
18
11
10
7
12

Lgende :
Variables :

Observations :

PAO
PAA
VIO
VIA
POT
LEC
RAI
PLP

AGRI Exploitants agricoles


SAAG Salaris agricoles
PRIN Professions indpendantes
CSUP Cadres suprieurs
CMOY Cadres moyens
EMPL Employs
OUVR Ouvriers
INAC Inactifs

Pain ordinaire
Autre pain
Vin ordinaire
Autre vin
Pommes de terre
Lgumes secs
Raisin de table
Plats prpars

PLP
6
15
41
39
30
28
16
20

- Tableau de contingence. Exemple :


Rpartition des tudiants selon la catgorie socio-professionnelle des parents et le type d'tudes
suivi en 1975-1976 (simplifi) :
Droit
Exp. agri.
Patron
Cadre sup.
Employ
Ouvrier

Sciences
99
137
400
133
193

80
168
470
145
166

Mdecine
65
208
876
135
127

IUT

- Tableau protocole pour des variables nominales

s1
s2
s3
s4
F.-G. Carpentier - 2012/2013

Sexe
F
F
F
F

Revenu
M
M
E
E
2

Preference
A
A
B
C

58
62
79
54
129

PSR92C - Analyse multidimensionnelle des donnes

s5
s6
s7
s8
s9
s10

2012/2013

F
H
H
H
H
H

E
E
E
M
M
M

C
C
B
B
B
A

- Tableau individus x variables comportant des variables numriques et une variable dichotomique
Age
1
2
3
4
5
6
7

13
45
19
42
27
19
37

EtatCivil
1
2
2
2
1
1
1

Feministe Frequence
102
101
102
102
77
98
96

2
3
2
1
1
0
1

Agressivite Harcelem
ent
4
0
6
0
7
1
2
1
1
0
6
1
6
0

On cherche analyser les rsultats contenus dans ces tableaux, en explicitant plusieurs dimensions,
si possible indpendantes l'une de l'autre.

1.2 Quelques mthodes utilises


De nombreuses mthodes ont t proposes. Ces mthodes peuvent tre regroupes d'une part selon
les outils mathmatiques utiliss (mthodes linaires ou non linaires), d'autre part selon la nature
du rsultat recherch (mthodes descriptives ou prdictives).
Mthodes descriptives : toutes les variables jouent des rles analogues.
Mthodes prdictives : on cherche "expliquer" ou "prvoir" une ou plusieurs variables (variables
dpendantes ou VD) l'aide des autres variables (variables indpendantes ou VI).
Exploratoires,
descriptives, non
supervises

Fondes sur
un modle
linaire

Statistiques lmentaires
Analyse en composantes principales
Mthodes de classification

Variable dpendante
quantitative

Rgression linaire multiple


Rgression en composantes principales
Partial Least Squares

Prdictives,
supervises
Mthodes
danalyse
de donnes

Variable dpendante
qualitative

Non linaires

Rseau
neuromimtique de
Kohonen

Non supervises

Prdictives
Supervises

F.-G. Carpentier - 2012/2013

Rgression Logistique
Analyse discriminante

Variable dpendante
quantitative ou qualitative

Rseau
neuromimtique
multicouche

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

1.3 Concepts fondamentaux


Selon [Doise], toute distribution de rponses sur plusieurs variables peut tre statistiquement
dcompose en trois lments : le niveau (la moyenne des rponses des individus), la dispersion (le
degr d'parpillement des rponses individuelles autour de la moyenne), et la corrlation (le lien
entre les rponses individuelles pour deux variables). Ces composantes sont autant de points de vue
sur les donnes.

Un tableau de donnes carr ou rectangulaire est appel matrice. L'lment gnrique du tableau est
dsign par une notation double indice, par exemple xij . En gnral, le premier indice dsigne le
numro de ligne, et le second indice le numro de colonne. Un tableau comportant n lignes et p
colonnes est dit de dimension (n, p).
Lorsque l'on traite un tableau Individus x Variables de dimension (n, p), les individus peuvent tre
reprsents comme des points d'un espace p dimensions, les variables comme des points d'un
espace n dimensions. L'ensemble des points reprsentant les individus est appel nuage des
individus.
La distance entre deux individus Mi, Mj est calcule par :

M i M 2j = d 2 (M i , M j ) = (xi1 x j1 ) + (xi 2 x j 2 ) + ... + (xip x jp ) = (xik x jk )


p

k =1

L'inertie du nuage de points par rapport un point donn O de l'espace est la somme des carrs des
distances des points Mi O.
n

I = OM i2
i =1

L'inertie du nuage de points par rapport au point moyen du nuage est encore appele somme des
carrs ou variation totale.
Le "lien" entre deux variables Xk et Xl peut tre mesur par leur coefficient de corrlation r(Xk,Xl).
Lorsque les variables sont centres et rduites, ce coefficient de corrlation est, une division par n
prs, le produit scalaire des vecteurs reprsentant ces variables. C'est aussi le cosinus de l'angle
entre ces deux vecteurs. Pour des variables centres rduites :
1 n
r ( X k , X l ) = xik xil = cos X k , X l
n i =1

F.-G. Carpentier - 2012/2013

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2 Mthodes exploratoires, descriptives


2.1 Analyse en composantes principales ou ACP
2.1.1 Introduction
On a observ p variables sur n individus. On dit qu'il s'agit d'un protocole multivari. Les donnes
traiter forment une matrice :
X 1 X 2 ... X p
i1

x11

x21 ... x1 p

i2

x21

x22

... x2 p

...

...

...

...

...

in xn1 xn 2 ... xnp


On cherche remplacer ces p variables par q nouvelles variables (composantes principales ou
facteurs) rsumant au mieux le protocole, avec q p et si possible q=2.
L'une des solutions ce problme est l'ACP, mthode qui a l'avantage de rsumer un ensemble de
variables corrles en un nombre rduit de facteurs non corrls. Les principaux rsultats d'une
ACP sont donns par :
- Les coordonnes des individus sur les composantes principales ou scores des individus ;
- Les coordonnes des variables sur les composantes principales, ou saturations des variables ; dans
le cas d'une ACP norme, les saturations sont aussi les coefficients de corrlation entre les variables
initiales et les composantes principales ;
- Les valeurs propres associes chacune des composantes principales, qui reprsentent l'inertie du
nuage prise en compte par la composante.

Principaux rsultats dune ACP


Variables

Coordonnes
factorielles ou
scores

Individus

n
p

Valeurs propres
Vecteurs propres (transposs)

F.-G. Carpentier - 2012/2013

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Principe de la mthode :
- Pour liminer les effets dus aux choix d'units des diffrentes variables, on fait un centragerduction des diffrentes variables.
- Les distances entre les individus sont mesures par la distance euclidienne dans un espace de
dimension p. Par exemple, pour les points reprsentant les individus 1 et 2 :
d 2 ( M 1 , M 2 ) = ( x11 x21 ) 2 + ( x12 x22 ) 2 + ... + ( x1 p x2 p ) 2
- On recherche alors la direction dans laquelle le nuage de points est le plus dispers : cette
direction est le premier axe principal, et l'inertie (dispersion) le long de cet axe est la valeur propre
associe cet axe.
- On projette alors les points dans le sous-espace orthogonal au premier axe principal, et on cherche
de nouveau la direction de plus grande dispersion du nuage projet. On obtient ainsi le deuxime
axe principal, et la seconde valeur propre.
- On poursuit la mthode, jusqu' ce que l'essentiel de l'inertie du nuage de points ait t prise en
compte.

2.1.2 Exemple
On reprend l'exemple donn en introduction : consommations annuelles de 8 types de denres
alimentaires pour 8 catgories socio-professionnelles (en 1972).

AGRI
SAAG
PRIN
CSUP
CMOY
EMPL
OUVR
INAC

PAO
167
162
119
87
103
111
130
138

PAA
1
2
6
11
5
4
3
7

VIO
163
141
69
63
68
72
76
117

VIA
23
12
56
111
77
66
52
74

POT
41
40
39
27
32
34
43
53

LEC
8
12
5
3
4
6
7
8

RAI
6
4
13
18
11
10
7
12

Lgende :
Variables :

Observations :

PAO
PAA
VIO
VIA
POT
LEC
RAI
PLP

AGRI Exploitants agricoles


SAAG Salaris agricoles
PRIN Professions indpendantes
CSUP Cadres suprieurs
CMOY Cadres moyens
EMPL Employs
OUVR Ouvriers
INAC Inactifs

Pain ordinaire
Autre pain
Vin ordinaire
Autre vin
Pommes de terre
Lgumes secs
Raisin de table
Plats prpars

F.-G. Carpentier - 2012/2013

PLP
6
15
41
39
30
28
16
20

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Donnes aprs centrage et rduction :

AGRI
SAAG
PRIN
CSUP
CMOY
EMPL
OUVR
INAC

PAO
1,43
1,25
-0,29
-1,44
-0,86
-0,58
0,10
0,39

PAA
-1,22
-0,90
0,35
1,92
0,04
-0,27
-0,59
0,67

VIO
1,72
1,16
-0,70
-0,85
-0,73
-0,62
-0,52
0,54

VIA
-1,15
-1,50
-0,09
1,66
0,58
0,23
-0,22
0,48

POT
0,30
0,17
0,05
-1,48
-0,84
-0,59
0,56
1,83

LEC
0,49
1,90
-0,58
-1,28
-0,93
-0,22
0,13
0,49

RAI
-0,93
-1,38
0,65
1,77
0,20
-0,03
-0,70
0,42

PLP
-1,50
-0,77
1,36
1,19
0,46
0,30
-0,68
-0,36

Corrlations entre variables :

PAO
PAA
VIO
VIA
POT
LEC
RAI
PLP

PAO
PAA
VIO
VIA
POT
LEC
RAI
PLP
1,00
-0,77
0,93
-0,91
0,66
0,89
-0,83
-0,86
-0,77
1,00
-0,60
0,90
-0,33
-0,67
0,96
0,77
0,93
-0,60
1,00
-0,75
0,52
0,79
-0,67
-0,83
-0,91
0,90
-0,75
1,00
-0,42
-0,84
0,92
0,72
0,66
-0,33
0,52
-0,42
1,00
0,60
-0,41
-0,55
0,89
-0,67
0,79
-0,84
0,60
1,00
-0,82
-0,75
-0,83
0,96
-0,67
0,92
-0,41
-0,82
1,00
0,83
-0,86
0,77
-0,83
0,72
-0,55
-0,75
0,83
1,00

Valeurs propres de l'ACP

1
2
3
4
5
6
7

Val Propre
Pourcentage Cumul Inertie Cumul %
6,2079
77,60
6,21
77,60
0,8797
11,00
7,09
88,60
0,4160
5,20
7,50
93,79
0,3065
3,83
7,81
97,63
0,1684
2,11
7,98
99,73
0,0181
0,23
8,00
99,96
0,0034
0,04
8,00
100,00

Reprsentation graphique des individus (plan 1-2)


Projection des ind. sur le plan factoriel ( 1 x 2)
Observations avec la somme des cosinus carrs >= 0,00
3,0

2,5

INAC

Fact. 2 : 11,00%

2,0

1,5

1,0
0,5
CSUP

PRIN

0,0

OUVR

AGRI
SAAG

-0,5
CMOY EMPL
-1,0
-6

-4

-2

0
Fact. 1 : 77,60%

F.-G. Carpentier - 2012/2013

Active

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Reprsentation graphique des variables (plan 1-2)


Projection des variables sur le plan factoriel ( 1 x 2)
1,0
POT

Fact. 2 : 11,00%

0,5

PAA
RAI
VIA

VIO
PAO
LEC

PLP

0,0

-0,5

-1,0
-1,0

-0,5

0,0

0,5

1,0

Active

Fact. 1 : 77,60%

Aides l'interprtation
Contributions ou inerties relatives des individus

AGRI
SAAG
PRIN
CSUP
CMOY
EMPL
OUVR
INAC

QLT
0,889
0,913
0,576
0,943
0,940
0,858
0,376
0,987

Coord. 1
1,35
1,41
-0,59
-1,75
-0,69
-0,32
0,36
0,23

Cos2
0,884
0,898
0,575
0,942
0,753
0,428
0,361
0,056

Ctr
22,89
24,97
4,36
38,26
5,94
1,31
1,63
0,64
100

Coord. 2
-0,26
-0,48
0,06
0,19
-0,91
-0,86
-0,20
2,46

Cos2
0,005
0,014
0,001
0,002
0,187
0,430
0,015
0,932

Ctr
0,86
2,84
0,05
0,44
10,43
9,29
0,48
75,61
100

Qualits de reprsentation

c2
O

Cosinus carrs

Cos 2 (OM , CP1 ) =

Oc22
Cos (OM , CP2 ) =
OM 2

c1

OM

: vecteur de lobservation

OP

: vecteur de la projection sur le plan factoriel

Oc1

: projection sur laxe 1

Oc2

: projection sur laxe 2

F.-G. Carpentier - 2012/2013

Oc12
OM 2

Qualit

QUAL = Cos 2 (OM , OP) =

OP 2
OM 2

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.1.3 Analyse en composantes principales avec Statistica


2.1.3.1 Prsentation de Statistica
Statistica : l'interface utilisateur
L'cran de travail

Statistica 7.1 est un logiciel ddi aux traitements statistiques. C'est galement la "brique" de base
des logiciels proposs par Statsoft, et ses possibilits d'interaction avec d'autres logiciels (tableurs,
systmes de gestion de bases de donnes, traitements de textes, ...) sont nombreuses. En revanche,
l'interface utilisateur pourra sembler un peu dconcertante au premier abord.

Les objets manipuls par Statistica

La feuille de donnes est organise en variables et observations. Les colonnes sont les variables.
Chaque ligne reprsente un individu statistique, appel observation.

F.-G. Carpentier - 2012/2013

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Les feuilles de donnes peuvent tre enregistres comme fichiers autonomes (fichiers *.sta). Elles
contiennent les donnes d'entre sur lesquelles s'effectuent les traitements statistiques. Les rsultats
de ces traitements s'affichent dans un document de sortie. Plusieurs possibilits sont offertes.

Fentre de rapport : C'est la mthode traditionnelle pour grer les rsultats produits par le logiciel.
Un rapport se comporte plus ou moins comme un document produit par un traitement de textes. On
peut insrer des commentaires, modifier la mise en forme, spcifier la mise en page, la
numrotation des pages, l'en-tte et le pied de page en vue de l'impression. Les rapports peuvent
tre enregistrs comme fichiers autonomes (fichiers *.str).
Les rsultats de sortie peuvent galement tre dirigs vers des fentres individuelles. Les rsultats
numriques sont alors affichs dans des fentres de donnes. Les graphiques sont affichs dans des
fentres de graphiques (fichiers *.stg).

Les classeurs : les donnes d'entre et de sortie peuvent galement tre stockes comme onglets
dans un classeur. Un classeur est un "container" accueillant d'autres objets, organiss sous forme
hirarchique. Ils correspondent aux fichiers de type *.stw.

Traitements statistiques
Statistica est organis en modules, accessibles partir du menu Statistiques. Chaque module
contient un groupe de procdures statistiques relies entre elles. Par exemple, le module
"Statistiques lmentaires" se prsente comme suit :

F.-G. Carpentier - 2012/2013

10

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Grer les sorties


Modifier le comportement de Statistica

Le comportement de Statistica peut tre modifi en intervenant dans la fentre de dialogue affiche
par le menu Outils - Options.
Par exemple, nous souhaitons :
- que Statistica n'ouvre plus systmatiquement la dernire feuille de donnes utilise lors du
chargement du logiciel ;
- que Statistica nous propose par dfaut le volume U: pour enregistrer nos documents, au lieu du
rpertoire "Mes Documents".
Excutez le menu Outils - Options. Sous l'onglet Gnralits, activez le bouton radio "Crer une
nouvelle feuille de donnes".
Dsactivez la bote cocher "mmoriser les rpertoires pour l'ouverture ou la sauvegarde des
fichiers". Compltez la zone d'dition "Rpertoire par dfaut" en indiquant U:\, puis ractivez la
bote cocher (N.B. Bien que l'option soit en apparence dsactive, Statistica proposera par dfaut
le rpertoire U:\ pour l'enregistrement de nouveaux documents.

Grer les sorties

Lorsqu'on utilise Statistica sans se proccuper des options de sortie des rsultats, on se retrouve vite
la tte d'une quantit de fentres (classeurs, feuilles de donnes de rsultats, fentres de
graphiques...). Pour raliser un travail que l'on souhaite conserver et reprendre au cours de plusieurs
F.-G. Carpentier - 2012/2013

11

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

sances de travail, il parat indispensable d'organiser correctement son espace de travail et ses
sauvegardes.
Enregistrer donnes et rsultats dans un seul classeur

Cette mthode consiste enregistrer les donnes, les rsultats de traitements, et les commentaires
ventuels comme objets d'un mme classeur. Ainsi, un unique fichier du disque rassemble
l'ensemble de notre travail sur un cas donn.
Ce comportement correspond aux rglages suivants dans le menu Outils - Options - Onglet
Gestionnaire de Sorties :

Remarque : Le rglage ne sera actif que si la feuille de donnes se trouve effectivement dans un
classeur. Or, ce ne sera pas le cas si la feuille de donnes a t ouverte partir d'un fichier *.sta, ou
importe partir d'une feuille Excel. Dans ce cas, vous devez insrer la feuille de donnes dans le
classeur comme il a t indiqu au paragraphe prcdent.
Indiquer quelle est la feuille de donnes active

Lors des premires manipulations avec Statistica, nous n'avons pas eu besoin de nous proccuper de
la notion de "feuille de donnes active", les choix par dfaut faits par Statistica nous convenant
parfaitement. Cependant, cette notion permet de rsoudre plusieurs problmes :
- Ouvrir plusieurs fichiers .sta et effectuer un travail sur l'un d'eux (pas ncessairement le
dernier ouvert)
- Utiliser une feuille de rsultats comme feuille de donnes pour des traitements ultrieurs.
- Lorsque l'on travaille avec une feuille de donnes insre dans un classeur, il arrive
couramment que Statistica ne retrouve pas la feuille partir de laquelle les traitements
doivent tre effectus. Mais on peut viter ce comportement en spcifiant la proprit
"feuille de donnes active" pour l'objet du classeur qui contient nos donnes.
Pour spcifier comme feuille de donnes active une feuille d'un classeur :
- Cliquez avec le bouton droit de la souris sur l'icne de la feuille de donnes dans le volet
gauche du classeur.
- Utilisez l'item Feuille de donnes active du menu local.
On peut galement utiliser le menu Donnes - Feuille de donnes active.
Remarquez que le volet gauche d'un classeur indique si une feuille insre dans le classeur est
active ou non : l'icne d'un feuille active est encadre en rouge :

F.-G. Carpentier - 2012/2013

12

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Enregistrer les donnes et l'ensemble des traitements raliss dans un mme classeur

Ouvrez un fichier de donnes (un fichier d'extension .sta) et ralisez un ou plusieurs traitements
relatifs ces donnes (par exemple, des statistiques descriptives et un graphique). Si vous avez
gard les options par dfaut de Statistica, les rsultats de tous ces traitements se trouvent dans un
classeur.
Pour enregistrer donnes, traitements et rapport dans un seul classeur :
Affichez la fentre du classeur contenant les rsultats.
Cliquez avec le bouton droit de la souris dans le volet gauche de la fentre du classeur.

Slectionnez l'item Insrer..., puis l'option "Toutes les fentres" :

N'oubliez pas, ensuite, de spcifier la feuille contenant les donnes de base comme feuille active du
classeur.
Manipuler les objets contenus dans un classeur
Copier - coller entre classeurs, entre un classeur et un objet Statistica

Pour dplacer un objet d'un classeur un autre, il suffit de dplacer son icne depuis le volet gauche
du premier classeur dans le volet gauche du second. On peut galement utiliser les menus locaux
Copier et Coller obtenus l'aide d'un clic droit dans le volet gauche de chaque classeur.
Le menu local "Insrer" du volet gauche d'un classeur permet galement d'insrer dans ce classeur
un document contenu dans une fentre indpendante. Il suffit de choisir les options : Document
Statistica - Crer partir d'une fentre.
L'opration faite par Statistica est soit une copie (l'original de l'objet est conserv) soit un
dplacement (l'original de l'objet n'est pas conserv) selon le paramtrage choisi dans le menu
Outils - Options - Onglet Classeurs - Item "En cas d'ajout d'un document dans le classeur".

F.-G. Carpentier - 2012/2013

13

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Supprimer un objet d'un classeur

Il est galement possible de supprimer un objet d'un classeur, l'aide d'un clic droit et de l'item de
menu Supprimer. Cela permet notamment de ne garder, pour un traitement donn, que le rsultat le
plus abouti. Attention cependant : lorsque l'on supprime un objet qui n'est pas une feuille de la
hirarchie, on supprime en mme temps tous les objets qui en dpendent.

2.1.3.2 Prsentation de l'exemple


Source de l'exemple : Claude FLAMENT, Laurent MILLAND, Un effet Guttman en ACP,
Mathmatiques & Sciences humaines (43e anne, n 171, 2005, p. 25-49)
Cet exemple a trait la reprsentation sociale de lhomosexualit. Le questionnaire, compos dune
liste de 31 traits plus ou moins sexus, a t administr 70 hommes homosexuels et 70 hommes
htrosexuels [Rallier, Ricou, 2000]. Tous les sujets devaient, dans un premier temps, se dcrire
partir de cette liste de traits, en se positionnant chaque fois sur une chelle allant de 1 (= ngatif)
7 (= positif). Aprs avoir ralis cette auto-description, les sujets devaient rpondre ce mme
questionnaire comme le feraient les X en gnral , la cible X pouvant tre : les hommes, les
femmes, ou les homosexuels. Nous disposons ainsi de 8 profils moyens, qui se dfinissent partir
de la combinaison entre les caractristiques des rpondants et les consignes donnes pour remplir
les questionnaires. Nous travaillons ici sur un extrait des donnes compltes (15 traits), extrait qui
respecte scrupuleusement le type de rsultat obtenu sur l'ensemble des 31 traits de l'tude.
Pour faciliter le reprage des consignes, nous avons fait le choix de coder les 8 profils en reprant
en premier les rpondants, puis le type de consigne parmi les 4 possibles :
Ho : Soi = sujets Homosexuels rpondant la consigne dauto-description Soi ;
H : Soi = sujets Htrosexuels rpondant la consigne dautodescription Soi ;
Ho : H = sujets Homosexuels rpondant comme le feraient les Hommes ;
H : H = sujets Htrosexuels rpondant comme le feraient les Hommes;
Ho : F = sujets Homosexuels rpondant comme le feraient les Femmes ;
H : F = sujets Htrosexuels rpondant comme le feraient les Femmes ;
Ho : Ho = sujets Homosexuels rpondant comme le feraient les Homosexuels ;
H : Ho = sujets Htrosexuels rpondant comme le feraient les Homosexuels.
Nous partons ici dun tableau de donnes comprenant, pour chacune des 8 conditions
exprimentales, les moyennes de chaque trait calcules sur les 70 rponses obtenues dans chacune
des conditions exprimentales. On retrouve, dans le tableau ci-dessous, le rang (solidarisation des
variables) de chacun des 15 traits dans les 8 profils
He:H
Est meneur
5
Aime competition
3
FEMININ
15
A confiance en soi
4
Devoue
11
MASCULIN
1
Bienveillant
10
Attentif aux besoins
12
des autres
Energique
8
Ambitieux
6
F.-G. Carpentier - 2012/2013

Ho:H
6
3
15
8
12
1
10
13
4
7

He:Soi Ho:Soi Ho:Ho Ho:F


12
13
15
13
13
14
11
14
15
15
13
2
6
11
14
12
10
7
10
11
1
12
12
15
9
9
7
9
11
4
9
8
5
3
14

8
10

6
8

10
7

He:Ho He:F
14
13
13
14
4
1
12
12
8
7
15
15
7
6
5
5
11
10

11
10

PSR92C - Analyse multidimensionnelle des donnes

Sensible
Agreable
Affectueux
A du caractere
Defend ses opinions

14
9
13
2
7

14
9
11
5
2

2012/2013

14
7
8
4
2

2
5
1
6
3

1
3
4
5
2

1
6
5
4
3

1
6
2
9
3

2
3
4
8
9

Remarque. A l'examen du tableau prcdent, on constate que les rangs ont t dtermins
l'inverse de ce qui est gnralement fait en statistiques : les rangs levs correspondent aux traits les
moins typiques du strotype considr, tandis que les rangs faibles correspondent aux traits les
plus typiques. Cette remarque est importante pour l'interprtation des rsultats de l'ACP.
Ouvrez le classeur Statistica Rep-Soc-Homo.stw.
Pour effectuer l'ACP, nous utilisons le menu Statistiques - Techniques exploratoires multivaries ACP " la franaise".

La fentre de dialogue permet de spcifier les variables qui participeront l'analyse. Elle permet
galement d'indiquer les diffrentes options choisies pour le traitement.
Utilisez l'onglet "Avanc" de cette fentre.
- Comment seront traites les valeurs manquantes ? Nous voyons que Statistica propose soit
de neutraliser la ligne correspondante, soit de remplacer la valeur manquante par la moyenne
observe sur la variable.
- L'analyse sera-t-elle base sur les covariances ou sur les corrlations ?
- Utilise-t-on les variances et covariances non corriges (SC/N) ou les variances et
covariances corriges (SC/(N-1)). Dans le cas d'une ACP norme, les deux mthodes
fournissent des rsultats presque identiques : seuls les scores des individus sont lgrement
modifis. En fait, l'ACP est une mthode descriptive et non une mthode infrentielle. Elle
est effectue dans un but exploratoire : on tudie les donnes pour elles-mmes, et non en
vue d'une gnralisation une population. C'est pourquoi l'utilisation des variances non
corriges est gnralement justifie.
Nous ferons ici une analyse base sur les corrlations, en utilisant les variances et covariances
corriges (SC/(N-1)), de manire retrouver les rsultats publis. Cliquez ensuite sur le bouton OK.
N.B. Ne fermez pas l'analyse en cours pendant la suite des manipulations. Ainsi, vous n'aurez pas
indiquer de nouveau les options ci-dessus, vos rsultats seront cohrents entre eux et se
rassembleront dans un mme classeur.

2.1.3.3 Statistiques descriptives - Matrice des corrlations


Ces rsultats peuvent tre obtenus l'aide de l'onglet "Descriptives".

F.-G. Carpentier - 2012/2013

15

PSR92C - Analyse multidimensionnelle des donnes


Corrlations (Repr-Soc-Homo dans Rep-Soc-Homo.stw)
He:H
Ho:H
He:Soi
Ho:Soi
Ho:Ho
Variable
He:H
1,0000
0,8679
0,5857
-0,4071
-0,3143
Ho:H
0,8679
1,0000
0,6786
-0,2393
-0,0607
He:Soi
0,5857
0,6786
1,0000
0,1679
0,2179
-0,4071
-0,2393
0,1679
1,0000
0,8429
Ho:Soi
Ho:Ho
-0,3143
-0,0607
0,2179
0,8429
1,0000
Ho:F
-0,6036
-0,4821
-0,1321
0,5607
0,6750
He:Ho
-0,8179
-0,6429
-0,2821
0,7143
0,6821
-0,8714
-0,8357
-0,4464
0,5036
0,4929
He:F

2012/2013
Ho:F
-0,6036
-0,4821
-0,1321
0,5607
0,6750
1,0000
0,8714
0,8071

He:Ho
-0,8179
-0,6429
-0,2821
0,7143
0,6821
0,8714
1,0000
0,8857

He:F
-0,8714
-0,8357
-0,4464
0,5036
0,4929
0,8071
0,8857
1,0000

2.1.3.4 Choix des valeurs propres


Affichez d'abord le tableau des valeurs propres et le diagramme correspondant.
Pour cela, cliquez sur les boutons "Valeurs propres" et "Trac des valeurs propres" de l'onglet
"Base".
Val. Propres (matrice de corrl.) & stat. associes
Variables actives seules
Val. propr % Total
Cumul
Cumul
variance Val. propr
%
Valeur numro
1
4,9682
62,1026
4,9682
62,10
2
2,0268
25,3355
6,9950
87,44
3
0,4045
5,0562
7,3995
92,49
4
0,3038
3,7979
7,7034
96,29
5
0,1308
1,6346
7,8341
97,93
6
0,1064
1,3301
7,9405
99,26
7
0,0391
0,4892
7,9797
99,75
8
0,0203
0,2541
8,0000
100,00
Val. Propres (matrice de corrl.)
Variables actives seules
5,5
62,10%

5,0
4,5

Valeur propre

4,0
3,5
3,0
2,5

25,34%

2,0
1,5
1,0
5,06%

0,5

3,80%

1,63%

1,33%

,49%

,25%

0,0
-0,5
-1

10

Numro de valeur propre

Dans notre cas, on peut choisir de retenir 2 composantes principales. Dans les manipulations qui
suivent, on indiquera donc 2 dans la zone d'dition "nombre de facteurs".
Pour les rsultats relatifs aux individus et aux variables, on utilisera de prfrence les onglets
correspondants.

2.1.3.5 Rsultats relatifs aux individus


On pourra obtenir successivement les scores des individus, leurs contributions la formation des
composantes principales et leurs qualits de reprsentation en utilisant les boutons "Coordonnes
des individus", "Contributions des individus", "Cosinus".

F.-G. Carpentier - 2012/2013

16

PSR92C - Analyse multidimensionnelle des donnes

Individus
Est meneur
Aime competition
FEMININ
A confiance en soi
Devoue
MASCULIN
Bienveillant
Attentif aux besoins
Energique
Ambitieux
Sensible
Agreable
Affectueux
A du caractere
Defend ses opinions

2012/2013

Coordonnes factorielles des ind.


Fact. 1
Fact. 2
Individus
-2,5273 1,6292
Est meneur
Aime competition
-2,7956 1,0317
FEMININ
2,2340
2,9293
A confiance en soi
-2,1315 0,6348
0,4389
1,0207
Devoue
MASCULIN
-3,9200 -0,7793
0,5732
0,4503
Bienveillant
1,6498
0,7581
Attentif aux besoins
Energique
-1,0549 -0,8752
Ambitieux
-0,8932 -0,6719
Sensible
3,9415 -0,0333
1,4885 -0,8338
Agreable
Affectueux
2,6229 -0,7360
A du caractere
-0,3598 -1,7357
0,7335 -2,7890
Defend ses opinions
Cosinus carrs,
Fact. 1
Fact. 2

Individus
Est meneur
Aime competition
FEMININ
A confiance en soi
Devoue
MASCULIN
Bienveillant
Attentif aux besoins
Energique
Ambitieux
Sensible
Agreable
Affectueux
A du caractere
Defend ses opinions

F.-G. Carpentier - 2012/2013

0,6759
0,7203
0,3100
0,8041
0,0875
0,9427
0,3866
0,6404
0,4364
0,3711
0,9502
0,6330
0,8600
0,0284
0,0582

17

0,2809
0,0981
0,5330
0,0713
0,4736
0,0373
0,2385
0,1352
0,3004
0,2099
0,0001
0,1986
0,0677
0,6621
0,8409

Contributions des ind.


Fact. 1
Fact. 2
9,18
9,35
11,24
3,75
7,18
30,24
6,53
1,42
0,28
3,67
22,09
2,14
0,47
0,71
3,91
2,03
1,60
2,70
1,15
1,59
22,34
0,00
3,19
2,45
9,89
1,91
0,19
10,62
0,77
27,41

Fact. 1 & 2
=v1+v2
0,9568
0,8184
0,8429
0,8755
0,5611
0,9800
0,6251
0,7757
0,7368
0,5810
0,9503
0,8317
0,9277
0,6906
0,8991

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Remarquez que les rsultats ainsi obtenus sont prsents dans des feuilles de rsultats sur lesquelles
il est possible d'effectuer les mmes transformations (tris, ajout ou suppression de colonne, etc) que
sur les feuilles contenant les donnes de base. Ainsi, une colonne supplmentaire a t ajout au
tableau des cosinus-carrs pour indiquer la qualit de reprsentation des individus dans le premier
plan factoriel.
On peut ensuite obtenir les projections du nuage des individus selon les premiers axes factoriels
l'aide du bouton "Projection de individus, 2D". Lorsque les individus ne sont pas anonymes (ce qui
est le cas ici), il est utile d'tiqueter chaque point. Plusieurs mthodes sont possibles :
- Utiliser les identifiants d'individus figurant dans la premire colonne du tableau de donnes
- Utiliser les numros des observations
- Utiliser les tiquettes indiques dans la variable "illustrative" : ces tiquettes peuvent tre
des identifiants des individus, mais peuvent galement reprsenter un groupe d'appartenance,
etc.
Projection des ind. sur le plan factoriel ( 1 x 2)
Observations avec la somme des cosinus carrs >= 0,00
4
FEMININ

Fact. 2 : 25,34%

Est meneur
Aime competition
A confiance en soi

Devoue
Attentif aux besoins
Bienveillant
Sensible

Ambitieux
Energique

MASCULIN

Affectueux

Agreable

-1
A du caractere
-2
Defend ses opinions
-3
-4
-5

-4

-3

-2

-1

Active

Fact. 1 : 62,10%

Dans certains cas, il pourra tre utile de modifier les chelles sur les axes de manire obtenir une
reprsentation en axes orthonorms. L'importance de la part d'inertie explique par le premier axe
principal apparat ainsi plus clairement.

2.1.3.6 Rsultats relatifs aux variables


Activons ensuite l'onglet "Variables".
On obtient les saturations des variables en cliquant sur le bouton "Coordonnes des variables" ou le
bouton "Corrlation facteurs et variables" : dans le cas d'une ACP norme, ces deux traitements
fournissent le mme rsultat.
On obtient leurs contributions la formation des composantes principales en utilisant le bouton
"Contributions des variables".
Les qualits de reprsentation sont calcules, de faon cumulative (qualit de la projection selon F1,
puis selon le plan (F1,F2), puis selon l'espace (F1,F2,F3) en utilisant le bouton "Communauts
(Cosinus)".

F.-G. Carpentier - 2012/2013

18

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Saturations des variables


Coord. factorielles des var.
Fact. 2
Variable Fact. 1
He:H
0,8863
0,3388
Ho:H
0,7743
0,5518
He:Soi
0,4047
0,8013
Ho:Soi
-0,6701
0,6053
Ho:Ho
-0,6317
0,7093
Ho:F
-0,8511
0,2387
He:Ho
-0,9663
0,1361
He:F
-0,9555
-0,1428

Contributions des variables


Contributions des var.
Fact. 2
Variable Fact. 1
He:H
0,1581
0,0566
0,1207
0,1502
Ho:H
He:Soi
0,0330
0,3168
Ho:Soi
0,0904
0,1808
Ho:Ho
0,0803
0,2482
Ho:F
0,1458
0,0281
0,1879
0,0091
He:Ho
He:F
0,1838
0,0101

Qualits des reprsentations des variables


Communauts,
Avec 1
Avec 2
facteur
facteurs
Variable
He:H
0,7856
0,9004
Ho:H
0,5996
0,9041
He:Soi
0,1638
0,8060
Ho:Soi
0,4491
0,8154
Ho:Ho
0,3991
0,9022
Ho:F
0,7243
0,7813
He:Ho
0,9337
0,9522
He:F
0,9131
0,9334

Reprsentation des variables


F.-G. Carpentier - 2012/2013

19

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Le bouton "Projection des variables, 2D" permet d'obtenir les diagrammes reprsentant les
projections des variables selon les plans dfinis par deux axes principaux.
Projection des variables sur le plan factoriel ( 1 x 2)
1,0
He:Soi
Ho:Ho
Ho:Soi

Ho:H

0,5
Fact. 2 : 25,34%

He:H
Ho:F
He:Ho
0,0

He:F

-0,5

-1,0
-1,0

-0,5

0,0

0,5

1,0

Active

Fact. 1 : 62,10%

On peut remarquer que toutes les variables se projettent dans un mme demi-plan du premier plan
factoriel. Autrement dit, une rotation des axes factoriels convenablement choisie permettrait de
ramener toutes les variables dans le demi-plan correspondant aux valeurs positives du premier
facteur.

2.1.3.7 Coefficients des variables


Les coefficients des variables (c'est--dire la matrice permettant de passer des variables centres
rduites aux composantes principales et vice-versa) sont obtenus l'aide du bouton "Vecteurs
propres" de l'onglet "Variables".
Vecteurs propres de la matrice de corrlation (Repr-Soc-Homo dans Rep-Soc-Homo.stw)
Variables actives seules
Fact. 2
Fact. 3
Fact. 4
Fact. 5
Fact. 6
Fact. 7
Fact. 8
Variable Fact. 1
He:H
0,398
0,238
0,172
-0,198
0,731
-0,039
-0,325
-0,272
Ho:H
0,347
0,388
0,135
-0,416
-0,440
-0,137
-0,329
0,466
He:Soi
0,182
0,563
0,217
0,750
-0,149
0,097
0,022
-0,092
Ho:Soi
-0,301
0,425
-0,617
0,082
0,318
-0,345
0,036
0,345
Ho:Ho
-0,283
0,498
-0,111
-0,411
-0,090
0,589
0,198
-0,309
Ho:F
-0,382
0,168
0,687
-0,142
0,196
-0,294
0,408
0,206
He:Ho
-0,434
0,096
0,065
-0,030
-0,261
-0,450
-0,496
-0,531
He:F
-0,429
-0,100
0,189
0,168
0,184
0,463
-0,577
0,401

2.1.4 Interprtation des rsultats de l'ACP


2.1.4.1 Examen des valeurs propres. Choix du nombre d'axes
On examine les rsultats relatifs aux valeurs propres.
Plusieurs critres peuvent nous guider :

F.-G. Carpentier - 2012/2013

20

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

- "mthode du coude" on examine la courbe de dcroissance des valeurs propres pour


dterminer les points o la pente diminue de faon brutale ; seuls les axes qui prcdent
ce changement de pente seront retenus.
- si l'analyse porte sur p variables et n > p individus, la variation totale est rpartie sur p
axes. On peut alors choisir de conserver les axes dont la contribution relative est
100%
suprieure
. Dans le cas d'une ACP norme, cela revient conserver les axes
p
correspondant aux valeurs propres suprieures 1.
Sur le cas tudi, les diffrentes mthodes conduisent ne garder que les deux premiers axes.

2.1.4.2 Interprter les rsultats relatifs aux individus


Trs souvent, les individus pris en compte pour une ACP sont en nombre trs lev et sont
considrs comme anonymes. Les lments qui suivent concernent videmment les cas o ils ne le
sont pas.
Contributions des individus la formation d'un axe
On relve, pour chaque axe, quels sont les individus qui ont la plus forte contribution la formation
de l'axe. Par exemple, on retient (pour l'analyse) les individus dont la contribution relative est
100%
suprieure
. On note galement si cette contribution intervient dans la partie positive ou
n
dans la partie ngative de l'axe.
On peut ainsi caractriser l'axe en termes d'opposition entre individus. Il peut galement tre
intressant d'tudier comment l'axe classe les individus.
Si un individu a une contribution trs forte la formation d'un axe, on peut choisir de recommencer
l'analyse en retirant cet individu, puis de l'introduire en tant qu'individu supplmentaire.
Ainsi, pour le premier axe, on relve les traits qui ont contribu pour plus de 6,67% sa formation
et le signe de la coordonne de chacun de ces traits. On obtient :
MASCULIN (22,09)
Aime competition (11,24)
Est meneur (9,18)

+
Sensible (22,34)
Affectueux (9,89)
FEMININ (7,18)

On voit que cet axe oppose le trait "masculin", et des traits qui sont souvent associs ce sexe
(meneur, aime comptition, a confiance en soi), sur la partie ngative de l'axe, des traits tels que
"sensible", "affectueux", "attentif", et "fminin" sur la partie positive.
Pour le deuxime axe, la mme dmarche conduit au tableau suivant :
+
Defend ses opinions
FEMININ (30,24)
(27,41)
Est meneur (9,35)
A du caractere (10,62)
Cet axe oppose deux traits pratiquement indpendants du premier axe (partie ngative de l'axe) au
trait "fminin" (partie positive de l'axe).

F.-G. Carpentier - 2012/2013

21

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Projections des individus dans un plan factoriel


Mme s'il s'agit du plan (F1, F2), les proximits entre individus doivent tre interprtes avec
prudence : deux points proches l'un de l'autre sur le graphique peuvent correspondrent des
individus loigns l'un de l'autre. Pour interprter ces proximits, il est ncessaire de tenir compte
des qualits de reprsentation des individus.
Se mfier galement des individus proches de l'origine : mal reprsents, ou proches de la moyenne,
ils ont, de toutes faons, peu contribu la formation des axes tudis.

2.1.4.3 Interprter les rsultats relatifs aux variables


Contributions des variables
L'examen du tableau des contributions des variables peut permettre d'identifier des variables qui ont
un rle dominant dans la formation d'un axe factoriel. Comme prcdemment, on retient (par
100%
. On note galement si
exemple) les variables dont la contribution relative est suprieure
p
cette contribution intervient dans la partie positive ou dans la partie ngative de l'axe.
Ainsi, pour le premier axe, en fixant la "limite" 12,5%, on obtient :
He:Ho (0,1879)
He:F (0,1838)
Ho:F (0,1458)

+
He:H (0,1581)

Ainsi, cet axe oppose les profils fminins et homosexuels vus par les htrosexuels (partie ngative
de l'axe) au profil masculin vu par les htrosexuels (partie positive de l'axe).

Remarque importante. L'analyse des individus (traits) avait associ la partie ngative du premier
axe aux traits masculins. L'analyse des variables semble a priori conduire un rsultat oppos. Mais
la contradiction n'est qu'apparente : ici, le protocole des rangs accorde le rang le moins lev au trait
le plus caractristique du profil. La variable He:H par exemple, est fortement corrle positivement
avec le facteur 1. Le trait "masculin" par exemple obtient un score faible aussi bien sur cette
variable (rang 1) que sur le premier facteur (-3,92, minimum des coordonnes de points).
Pour le second axe factoriel, on obtient :
-

+
He:Soi (0,3168)
Ho:Ho (0,2482)
Ho:Soi (0,1808)
Ho:H (0,1502)

On remarque que les quatre variables retenues sont celles qui ne figuraient pas dans le tableau
prcdent. Ces quatre variables sont corrles positivement avec le deuxime axe.
Analyse des projections des variables sur les plans factoriels
Les diagrammes reprsentant les projections des variables sur les axes factoriels nous fournissent
plusieurs types d'informations :
- La longueur du vecteur reprsentant la variable est lie la qualit de la reprsentation de la
variable par sa projection dans ce plan factoriel
F.-G. Carpentier - 2012/2013

22

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

- Pour les variables bien reprsentes, l'angle entre deux variables est li au coefficient de
corrlation entre ces variables (si la reprsentation est exacte, le coefficient de corrlation est
le cosinus de cet angle). Ceci permet de dgager des "groupes de variables" de significations
voisines, des groupes de variables qui "s'opposent", des groupes de variables relativement
indpendantes entre eux.
- De mme, pour les variables bien reprsentes, l'angle que fait la projection de la variable
avec un axe factoriel est li au coefficient de corrlation de cette variable et de l'axe factoriel.
Ainsi, dans notre exemple, toutes les variables sont bien reprsentes dans le premier plan factoriel.
Des variables telles que Ho:Soi et Ho:Ho par exemple, sont fortement corrles positivement entre
elles, alors que Ho:Ho et Ho:H sont pratiquement non corrles. Les variables He:Ho et He:F par
exemple, sont fortement anti-corrles (corrles ngativement) avec le premier axe.
Synthse des rsultats obtenus
On voit que les sujets htrosexuels ont tendance estimer que les homosexuels se dcrivent
comme "fminin" plutt que "masculin". L'tude des rsultats de l'ACP pourrait nous conduire
associer la description que les homosexuels se font d'eux-mmes "fminin". Mais, cette
conclusion est contredite par les donnes : les homosexuels ne se voient jamais comme "fminin",
mais font appel des items identifis ici comme des caractristiques fminines (sensible,
affectueux, etc). Le graphique suivant, dans lequel on a reprsent les scores des traits "fminin",
"masculin" et "sensible" en fonction des profils convenablement ordonns, le met en vidence :
16

14

12

10

FEMININ
MASCULIN
Sensible

0
He:H

Ho:H

He:Soi

Ho:Soi

Ho:Ho

Ho:F

He:Ho

He:F

Sur ce graphique, les profils sont ordonns en fonction de leur ordre d'apparition sur le cercle des
corrlations (graphique du paragraphe 2.1.3.6). Cet ordre peut galement tre schmatis de la
manire suivante :
Rpondants
He
Ho
Cible
H
H
Masculine
Soi
Soi
Homosexuelle
Ho
Fe
Ho
Fminine
Fe
F.-G. Carpentier - 2012/2013

23

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.1.5 ACP avec individus et variables supplmentaires


Lorsqu'on ralise une ACP, il est possible de dclarer certains individus "inactifs" et/ou certaines
variables "supplmentaires". Les donnes correspondantes n'interviennent plus dans le calcul de
dtermination des composantes principales. En revanche, on leur applique les mmes
transformations qu'aux autres donnes afin de les r-introduire dans les tableaux et graphiques de
rsultats.
Cette mthode peut notamment tre utilise lorsque des individus ou des variables ont une influence
trop importante sur les rsultats d'une ACP. On recommence alors les calculs en les dclarant
comme individus inactifs ou variables supplmentaires. Elle peut galement tre utilise pour
introduire des variables plus synthtiques, et des moyennes par groupe d'individus, comme c'est le
cas dans l'exemple ci-dessous.
Avec Statistica, il est simple de dclarer une variable comme variable supplmentaire : le premier
dialogue de l'ACP prvoit une zone d'dition pour cela. Pour dclarer des individus comme
"inactifs", il est ncessaire de construire une variable supplmentaire, qui ne contiendra que deux
modalits, et d'utiliser les zones d'dition "Variable avec individus actifs" et "Code des individus
actifs".
Ouvrez le fichier Proteines-2008.stw.
Source : Exemple fourni avec le logiciel Statistica.
Cet exemple particulier est prsent par Greenacre (1984) dans le cadre d'une comparaison entre
l'analyse en composantes principales (voir l'Analyse Factorielle) et l'analyse des correspondances.
Les donnes du fichier d'exemple Protein.sta reprsentent des estimations de la consommation
protique issue de 9 sources diffrentes, par habitant dans 25 pays (les donnes ont initialement t
reportes par Weber, 1973, dans un polycopi publi l'Universit de Kiel, Institut fr Agrarpolitik
und Marktlehre, intitul "Agrarpolitik im Spannungsfeld der Internationalen Ernhrungspolitik").
Au fichier de donnes initial ont t ajoutes les 5 variables suivantes :
- Consommation en protines animales (somme des variables v1 v5)
- Consommation en protines vgtales (somme des variables v6 v9)
- Un code du nom du pays sur 2 ou 3 lettres
- Le groupe auquel appartient le pays (4 groupes ont t dfinis : NW (Europe du Nord et de
l'Ouest), NE (Europe de l'Est, pays du Nord), SW (Europe de l'Ouest, pays du Sud) et SE
(Europe de l'Est, pays du Sud)).
- Une variable codant pour les individus actifs (1) et inactifs (0).
Quatre individus ont t ajouts, correspondant aux moyennes observes dans les 4 groupes de pays
dfinis prcdemment
Extrait des donnes :

F.-G. Carpentier - 2012/2013

24

PSR92C - Analyse multidimensionnelle des donnes


2012/2013
Evaluation des consommations de protnes, en grammes/habitant/jour
1
2
3
4
5
6
7
8
9
VIANDE
PORC_VOLOEUFS LAIT POISSON
CEREALES
FECULENTNOIX FRUI_LEG
13,5
9,3
4,1
17,5
4,5
26,6
5,7
2,1
4,0
Belgique/Lux.
7,8
6,0
1,6
8,3
1,2
56,7
1,1
3,7
4,2
Bulgarie
9,7
11,4
2,8
12,5
2,0
34,3
5,0
1,1
4,0
Tchcoslovaquie
10,6
10,8
3,7
25,0
9,9
21,9
4,8
0,7
2,4
Danemark
8,4
11,6
3,7
11,1
5,4
24,6
6,5
0,8
3,6
R.D.A.
9,5
4,9
2,7
33,7
5,8
26,3
5,1
1,0
1,4
Finlande

Toutes les variables s'expriment ici avec la mme unit (g.hab/jour). Pour raliser une ACP, deux
possibilits s'offrent nous :
- Faire une ACP sur les valeurs non rduites. Ainsi, une information telle que "l'apport
protique des viandes, porc et volailles est, dans tous les cas, suprieur celui des fruits et
lgumes" est prise en compte dans l'tude.
- Faire une ACP sur les valeurs rduites (ACP calcule partir du tableau des corrlations).
Dans ce cas, l'tude "gomme" les ingalits des apports protiques des diffrentes sources.
Ralisons une ACP sur les corrlations en spcifiant individus actifs et variables supplmentaires
comme suit :

Affichez les tableaux des covariances et des corrlations. On voit dj apparatre une opposition
entre protines d'origine animale et protines d'origine vgtale.
Combien de valeurs propres faut-il ici retenir ? Seules 3 valeurs propres sont suprieures 1, mais
la rgle du coude conduit retenir soit 2, soit 4 axes factoriels. En fait, il faut conserver 4 axes pour
mettre en vidence certaines spcificits des pays d'Europe Centrale (axe 3) ou de la France (axe 4).
Val. Propres (matrice de c orrl.)
Variables ac tiv es s eules
4,5
44,52%

4,0
3,5

Valeur propre

3,0
2,5
2,0
18,17%
1,5
12,53%
10,61%

1,0

5,15%

0,5

3,61%

3,02%

1,29%

1,10%

0,0
-0,5
-1

10

11

Numro de v aleur propre

Exercice : Calculez les rsultats de l'ACP pour les 4 premiers axes l'aide de Statistica, puis
interprtez les rsultats.

F.-G. Carpentier - 2012/2013

25

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.1.6 ACP avec rotation


Par construction, les composantes principales sont des abstractions mathmatiques et ne possdent
pas ncessairement de signification intuitive. Aprs avoir ralis l'ACP, il peut parfois tre
intressant de dfinir d'autres variables en effectuant une combinaison linaire des composantes
principales retenues, l'aide d'une "rotation". L'objectif est gnralement d'augmenter les
saturations, c'est--dire les corrlations entre ces nouveaux "facteurs" et certaines variables de
dpart. Les nouveaux "facteurs" ainsi obtenus perdent les proprits des facteurs principaux. Par
exemple, le premier d'entre eux ne correspond plus la direction de plus grande dispersion du
nuage des individus. En revanche, la part de variance explique par les facteurs retenus reste
identique. Il existe diffrents critres (varimax, quartimax, equamax, etc) permettant d'obtenir une
rotation conduisant des saturations proches de 1 ou -1, ou au contraire proches de 0.
Cette possibilit n'est pas disponible dans la mthode "ACP la franaise" de Statistica. En
revanche, on peut l'utiliser en utilisant le module "Analyse factorielle" convenablement paramtr.

2.1.7 Une ACP fournit-elle toujours des informations interprtables ?


Tout tableau de donnes peut tre soumis une ACP, et les mthodes d'analyse qui ont t
dveloppes permettent de "trouver des rsultats". Mais ces rsultats correspondent-ils une ralit
plus ou moins cache ou ne constituent-ils qu'un artefact de la mthode ?
Pour tudier cet aspect, ralisons une ACP sur des donnes ... o il n'y a rien dire (il s'agit de
donnes produites l'aide d'un gnrateur de nombres alatoires).
Ouvrez le fichier aleatoire-20sujets.stw et ralisez une ACP norme sur ces donnes. La
reprsentation graphique des valeurs propres nous indique dj l'absence d'intrt des donnes
traites :
V a l. Pr o p re s ( mat ri c e de c or rl .)
Va ri a ble s a cti v e s s e u le s
2 ,2
2 ,0

1 9 ,3 5%
1 8 ,3 4%

1 ,8
1 ,6
1 4 ,44 %
Valeur propre

1 ,4

1 2 ,66 %

1 ,2

1 0,9 8 %
9,3 0 %

1 ,0
0 ,8

5,8 7 %

0 ,6

4 ,6 1 %
3 ,4 6 %

0 ,4
0 ,2

1 ,0 0%

0 ,0
- 0 ,2
-1

N o mb r e de v a le ur s p r op r e s

F.-G. Carpentier - 2012/2013

26

10

11

12

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.2 Combiner description et prdiction : Analyse factorielle


2.2.1 Introduction
Le terme analyse factorielle (factor analysis ou FA) dsigne un ensemble de techniques dont les
origines peuvent tre situes dans les travaux de Pearson (1901). Elle a t tout d'abord dveloppe
par des psychologues, sans que les justifications thoriques, au niveau statistique ne soient
clairement tablies et a donn lieu diverses controverses entre psychologues. C'est pourquoi on a
pu parler son sujet de "mouton noir des statistiques". Ce n'est que plus tard, vers 1940 que les
fondements thoriques, au niveau statistique, ont t tablis pour certaines des variantes de l'analyse
factorielle.
Quelques noms associs ces mthodes : Spearman, Thomson, Thurstone, Burt, etc.
Comme l'ACP, l'analyse factorielle s'applique des protocoles multivaris, c'est--dire des tableaux
dcrivant n sujets l'aide de p variables numriques. Quelques remarques :
- l'intrt porte ici sur les variables et non sur les individus statistiques ; il s'agit donc plus d'une
mthode d'analyse multivarie que d'une mthode d'analyse multidimensionnelle.
- de nombreuses variantes existent : l'analyse factorielle est parfois dsigne par le terme "analyse
en facteurs communs et spcifiques", selon les variantes on parlera d'analyse factorielle
exploratoire (exploratory factor analysis ou EFA) ou d'analyse factorielle confirmatoire
(confirmatory factor analysis ou CFA). L'analyse en facteurs principaux (principal factor analysis
ou PFA) est l'une des variantes de l'analyse factorielle.

2.2.2 Exemple introductif


Source : Mardia, K.V., Kent, J.T., Bibby, J.M., Multivariate Analysis, Academic Press, London
1979.
On dispose des notes obtenues par 88 sujets dans 5 matires : Mechanics(C), Vectors(C),
Algebra(O), Analysis(O), Statistics(O). Pour deux matires, les tudiants n'avaient pas accs leurs
documents (closed book - C), pour les trois autres, les documents pouvaient tre consults (open
book - O).
On utilise le menu Statistiques - Statistiques exploratoires multivaries - Analyse Factorielle de
Statistica. Sous l'onglet "Avanc", on obtient le dialogue suivant :

F.-G. Carpentier - 2012/2013

27

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Nous voyons que Statistica nous demande de fixer a priori le nombre de facteurs extraire et nous
propose plusieurs mthodes d'extraction des facteurs. Choisissons d'extraire deux facteurs par la
mthode du maximum de vraisemblance.
Statistica fournit alors les rsultats sous plusieurs onglets :

Sous l'onglet "Variance explique", on obtient notamment les 4 tableaux de rsultats suivants :
- un tableau de "valeurs propres" :
Val. Propres (Open/Closed Book Data)
Extraction : Facteurs du max. de vrais.
Val Propre
% Total
variance
1
2,824170
56,48341
2
0,319491
6,38983

Cumul
Val propre
2,824170
3,143662

Cumul
%
56,48341
62,87323

- un tableau des "communauts" :


Communauts (Open/Closed Book) Rotation : Sans rot.
Pour 1
Pour 2
Facteur
Facteurs
Mechanics(C)
0,394878
0,534103
Vectors(C)
0,483548
0,580944
Algebra(O)
0,808935
0,811431
Analysis(O)
0,607779
0,648207
Statistics(O)
0,529029
0,568977

R-deux
Multiple
0,376414
0,445122
0,671358
0,540864
0,479319

- un test d'adquation du modle aux donnes, utilisant une statistique du khi-2


Qualit d'ajust.,2 (Open/Closed Book Data)
(Test de la nullit des lments en dehors de la diagonale dans la matrice de corr.)
% expl.
Chi
dl
p
Rsultat
62,87323
0,074710
1

0,784601

- un tableau dit "de corrlation des rsidus" :


Corrlations des Rsidus (Open/Closed Book Data) (Rsidus marqus sont > ,100000)
Mechanics(C) Vectors(C)
Algebra(O)
Analysis(O)
Statistics(O)
F.-G. Carpentier - 2012/2013

28

PSR92C - Analyse multidimensionnelle des donnes

Mechanics(C)
Vectors(C)
Algebra(O)
Analysis(O)
Statistics(O)

0,47
-0,00
0,00
-0,01
0,01

2012/2013

-0,00
0,42
-0,00
0,01
-0,01

0,00
-0,00
0,19
-0,00
0,00

-0,01
0,01
-0,00
0,35
-0,00

0,01
-0,01
0,00
-0,00
0,43

L'onglet "Poids factoriels" nous offre la possibilit de transformer les facteurs par rotation. Il nous
donne galement les rsultats suivants :
- les poids factoriels des variables selon chacun des facteurs :
Poids Factoriels(Sans rot.) (Open/Closed Book Data) (Poids marqus >,700000)
Facteur 1
Facteur 2
Mechanics(C)
-0,628393
0,373128
Vectors(C)
-0,695376
0,312083
Algebra(O)
-0,899408
-0,049958
Analysis(O)
-0,779602
-0,201066
Statistics(O)
-0,727344
-0,199869
Var. Expl.
2,824170
0,319491
Prp.Tot
0,564834
0,063898
- Le graphique correspondant :
Poids factoriels, Fact. 1 vs. Fact. 2
Rotation : Sans rot.
Extraction : Facteurs du max. de vrais.
0,5
0,4

Mechanics(C)
Vectors(C)

0,3

Facteur2

0,2
0,1
0,0

Algebra(O)

-0,1
Analysis(O) Statistics(O)

-0,2
-0,3
-0,95

-0,90

-0,85

-0,80

-0,75

-0,70

-0,65

-0,60

Facteur1

Enfin, l'onglet "Rsultats" nous fournit :


- les coefficients des scores factoriels :
Coefficients des Scores Factoriels (Open/Closed Book Data)
Extraction : Facteurs du max. de vrais.
Facteur
1
Mechanics(C)
-0,131635
Vectors(C)
-0,161949
Algebra(O)
-0,465496
Analysis(O)
-0,216280
Statistics(O)
-0,164691
- les scores factoriels des individus :
F.-G. Carpentier - 2012/2013

29

Facteur
2
0,457102
0,425053
-0,151209
-0,326209
-0,264662

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Scores Factoriels (Open/Closed Book Data)


Extraction : Facteurs du max. de vrais.
Facteur
1
1
-2,05705
2
-2,51565
3
-2,09181
4
-1,51263
....
...

Facteur
2
0,73671
-0,00951
0,35850
0,02871
....

Comme on peut le voir, l'analyse factorielle, par certains aspects, semble ressembler l'analyse en
composantes principales. Mais qu'en est-il vritablement ?

2.2.3 Justification conceptuelle de l'analyse factorielle exploratoire


L'analyse en composantes principales est une mthode qui, partir d'un ensemble X1, X2, ... Xp de
variables observes corrles entre elles permet d'obtenir un nouvel ensemble Y1, Y2, ... , Yp de
variables non corrles tout en conservant la dispersion observe entre les individus. La mthode
travaille sur les variances dans la mesure o Y1 est la combinaison linaire des Xi ayant la plus
grande variance, Y2 satisfait la mme condition tout en tant non corrle avec Y1, etc. L'analyse
en composantes principales est essentiellement une transformation des donnes. C'est une mthode
descriptive qui ne fait aucune hypothse a priori sur les variables traiter.
L'analyse factorielle est une mthode infrentielle qui vise expliquer la matrice des covariances
par un minimum, ou un petit nombre de variables hypothtiques (non observables) : les facteurs.
Par exemple, Spearman fait passer trois tests d'aptitude un chantillon de sujets et les scores
observs aux trois tests produisent la matrice de corrlation suivante :
0,83 0,78
1
0,83
1
0,67

0,78 0,67
1
On souhaiterait tudier l'hypothse suivante :
Les valeurs observes sont la somme de deux lments :
- Une quantit proportionnelle une variable ou facteur (non observable) mesurant l'intelligence du
sujet
- Une quantit spcifique au test, laquelle s'ajoute une erreur alatoire.

Autrement dit :
- On a observ un ensemble X1, X2, ..., Xp de variables sur un chantillon
- On fait l'hypothse que ces variables dpendent (linairement) en partie de k variables non
observables, ou variables latentes ou facteurs F1, F2, ..., Fk.
On cherche donc dcomposer les variables observes Xi (supposes centres) de la faon
suivante :
k

X i = lir Fr + Ei
r =1

ou, de faon moins formelle :


Variable observe = coeff. variable latente + erreur spcifique
avec les conditions suivantes :
F.-G. Carpentier - 2012/2013

30

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

- Le nombre k de facteurs est fix l'avance.


- Les facteurs Fr sont centrs rduits, non corrls entre eux
- Les termes d'erreur Ei sont non corrls avec les facteurs
- Les termes d'erreur Ei sont non corrls entre eux.
Remarque. Dans la formulation ci-dessus, on a choisi pour simplifier, de ne pas distinguer les
paramtres observs sur l'chantillon des paramtres thoriques sur la population. Comme nous
n'envisageons de dveloppements thoriques partir de ces quations, ce choix n'a gure
d'importance.
Afin d'exploiter les conditions indiques ci-dessus, le traitement mathmatique porte sur les
matrices de covariance (si les donnes ne sont pas rduites) ou de corrlation (si elles le sont).
Notons cij la covariance des variables Xi et Xj et vi la variance de la variable Ei.
On a les galits :
k

cii = lir2 + vi
r =1

cij = lir l jr si i j
r =1

c'est--dire, matriciellement :

C = LL '+V .

Ce problme n'admet en gnral pas une solution unique. On ajoute alors une condition
supplmentaire telle que :
J = L' V 1 L est diagonale
Mais, toute rotation des facteurs ainsi dtermins fournit galement aussi une solution.
Vocabulaire : les coefficients lir sont appels poids factoriels (loadings) des variables sur les
k

facteurs. La quantit hi2 = lir2 qui reprsente la partie de la variance de Xi due aux facteurs et
r =1

donc "partage" avec les autres variables est appele communaut (communality).
Remarque. L'analyse factorielle n'exige pas que les donnes de dpart soient centres et rduites.
Pour certaines mthodes insensibles aux chelles (scale free) les rsultats ne dpendent pas d'une
ventuelle rduction des donnes. Il importe par ailleurs de remarquer que, lorsque les donnes sont
centres rduites, les poids factoriels sont les coefficients de corrlation entre les facteurs et les
variables, et la communaut d'une variable reprsente le carr du coefficient de corrlation multiple
de cette variable par rapport aux facteurs.

2.2.4 Mthodes d'extraction des facteurs


Comme nous le montre Statistica, plusieurs mthodes d'extraction des facteurs ont t proposes et
fournissent des rsultats analogues, mais pas identiques.

2.2.4.1 Analyse en composantes principales


Une premire mthode (souvent appele PCA, principal component analysis dans les ouvrages
anglo-saxons) utilise les valeurs propres et la diagonalisation des matrices. Les rsultats sont alors
identiques ceux obtenus par ACP norme, se limitant k axes. La diffrence la plus importante
par rapport l'ACP est la possibilit d'effectuer une rotation des facteurs.

F.-G. Carpentier - 2012/2013

31

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.2.4.2 Mthode de l'axe principal


La mthode de l'axe principal (PFA, principal factor analysis ou PAF, principal axis factoring) est
une mthode itrative cherchant maximiser les communauts. Les estimations initiales des
communauts sont les coefficients de corrlation multiple de chaque variable par rapport toutes
les autres.

2.2.4.3 L'analyse factorielle du maximum de vraisemblance


Notion de vraisemblance d'une valeur d'un paramtre :
On cherche rpondre des questions du type : "Etant donn des rsultats observs sur un
chantillon, est-il vraisemblable qu'un paramtre donn de la population ait telle valeur ?".
Exemple 1 : (variable discrte) Lors d'un rfrendum, on interroge trois personnes. Deux dclarent
voter "oui", la troisime dclare voter "non".
Au vu de ces observations, laquelle de ces deux hypothses est la plus vraisemblable :
- Le rsultat du rfrendum sera 40% de "oui"
- Le rsultat du rfrendum sera 60% de "oui".
Solution. Si le rsultat du rfrendum est de 40% de "oui", la probabilit d'observer trois personnes
votant respectivement "oui", "oui" et "non" est : P1 = 0,4x0,4x0,6 = 0,096. Si le rsultat du
rfrendum est de 60% de oui, la mme probabilit est : P2 = 0,6x0,6x0,4 = 0,144. La seconde
hypothse est donc plus vraisemblable que la premire.
Exemple 2 (variable continue) Lors d'un test effectu sur un chantillon de 5 sujets, on a observ les
scores suivants :
90, 98, 103, 107, 112.
Deux modles sont proposs pour reprsenter la distribution des scores dans la population parente :
- La loi normale de moyenne 100 et d'cart type 15
- La loi normale de moyenne 102 et d'cart type 10.
Quel est le modle le plus vraisemblable ?
Dans le cas d'une variable continue, on utilise la valeur de la distribution de la loi thorique au lieu
de la probabilit de la valeur observe. La vraisemblance associe chaque hypothse, calcule
l'aide d'Excel, est donc :
Obs
90
98
103
107
112
Vraisemblance

Modle 1
0,02130
0,02636
0,02607
0,02385
0,01931

Modle 2
0,01942
0,03683
0,03970
0,03521
0,02420

6,74E-09

2,42E-08

On voit que le modle 2, dont la vraisemblance est de 2,42 10-8 est plus vraisemblable que le
modle 1.

F.-G. Carpentier - 2012/2013

32

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Estimation du maximum de vraisemblance


L'estimation du maximum de vraisemblance (EMV, maximum likelihood estimation ou MLE dans
les ouvrages anglo-saxons) est la valeur du paramtre pour laquelle la vraisemblance est maximum.
Reprenons l'exemple du rfrendum.
Si le pourcentage de "oui" est p, la probabilit d'observer trois personnes votant respectivement
"oui", "oui" et "non" est : P = p2(1-p). La drive de cette fonction est P' = p(2 - 3p). Cette drive
s'annule pour p=2/3=0,67, et cette valeur correspond un maximum de P. Ainsi, au vu des
observations, le rsultat le plus vraisemblable est : 67% de "oui" ... ce qui n'est gure surprenant.
On notera que les calculs de vraisemblance sont souvent multiplicatifs et conduisent des nombres
trs proches de 0. C'est pourquoi on utilise gnralement la fonction L, oppose du logarithme de la
vraisemblance. Dans le cas prcdent on aurait ainsi :
L = - ln P = - 2 ln p - ln(1 - p).
La recherche de l'estimation du maximum de vraisemblance revient alors chercher le minimum de
cette fonction.
Mthode du maximum de vraisemblance
La mthode du maximum de vraisemblance est la seule qui permette de calculer un test statistique
d'adquation du modle.
Dans cette mthode, on fixe a priori un nombre k de facteurs extraire. Les poids factoriels des
variables sur les diffrents facteurs sont alors dtermins de manire optimiser une fonction de
vraisemblance.
Cette mthode utilise des concepts de statistique infrentielle classiques. Mais elle suppose que les
donnes vrifient des proprits de rgularit convenables. La condition d'application est la
multinormalit des variables Xi sur la population parente de l'chantillon observ. Certains auteurs
expriment cette condition en termes d'asymtrie et d'aplatissement des distributions observes.
Un test statistique permet d'valuer la validit du rsultat. Selon Lawley et Maxwell, les hypothses
H0 et H1 du test sont :
H0 : Il y a exactement k facteurs communs.
H1 : Plus de k facteurs sont ncessaires.
La statistique utilise dpend videmment des covariances des Xi et des poids factoriels obtenus.
Elle dpend galement de la taille de l'chantillon tir. Elle suit approximativement une loi du khi-2
2
avec 12 ( p k ) ( p + k ) degrs de libert (p : nombre de variables, k : nombre de facteurs
extraits).
Selon Lawley et Maxwell, si le khi-2 trouv excde la valeur critique correspondant au niveau de
significativit choisi, H0 est rejete, et il faut considrer au moins k+1 facteurs dans le modle.

Remarques.
1. On doit avoir ( p + k ) < ( p k ) ce qui limite le nombre de facteurs.
2

2. Certains auteurs noncent une rgle en termes de taille des chantillons pour utiliser cette
statistique. Par exemple, Mardia et Kent indiquent : n p + 50 .

F.-G. Carpentier - 2012/2013

33

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

3. Cette statistique peut tre utilise pour dterminer le nombre de facteurs extraire. On calcule
alors la statistique pour k=1, k=2, ... L'extraction d'un facteur supplmentaire se traduit par une
diminution de la valeur de la statistique, mais galement par une diminution du nombre de degrs
de libert. La p-value correspondante n'est donc pas ncessairement amliore par l'augmentation
du nombre de facteurs. On choisit ensuite le nombre de facteurs qui conduit la meilleure p-value
(celle qui est la plus proche de 1).
4. Cette statistique est malheureusement trs sensible la taille de l'chantillon.

2.2.5 Rsultats obtenus - Scores des individus


2.2.5.1 Poids factoriels et communauts
Les rsultats obtenus sont essentiellement constitus des poids factoriels des variables sur les
diffrents facteurs et des communauts des diffrentes variables. Sur l'exemple donn en
introduction, les poids factoriels sont donns par :
Poids Factoriels(Sans rot.) (Open/Closed Book Data) (Poids marqus >,700000)
Facteur
Facteur
1
2
Mechanics(C)
-0,628393
0,373128
Vectors(C)
-0,695376
0,312083
Algebra(O)
-0,899408
-0,049958
Analysis(O)
-0,779602
-0,201066
Statistics(O)
-0,727344
-0,199869
Var. Expl.
2,824170
0,319491
Prp.Tot
0,564834
0,063898
On cherche alors attribuer une signification chacun des facteurs. Sur notre exemple, toutes les
variables sont fortement corrles (ngativement) avec le premier facteur, qui peut ainsi apparatre
comme une mesure "globale" relative l'individu. Quant au deuxime facteur, il oppose les
matires values livre ferm (poids factoriels positifs) celles values livre ouvert (poids
factoriels ngatifs). On pourra parler de facteur unipolaire dans le premier cas, de facteur bipolaire
dans le second.
Comme nous l'avons soulign plus haut, les facteurs ne sont pas dtermins de manire unique, et
notamment, toute transformation des facteurs par rotation orthogonale conduit une autre solution.
Il peut intressant d'effectuer une telle rotation pour obtenir des facteurs plus faciles interprter.
C'est ce que nous ferons un peu plus loin.
Dans l'exemple trait en introduction les communauts sont les suivantes :
Communauts (Open/Closed Book) Rotation : Sans rot.
Pour 1
Pour 2
R-deux
Facteur
Facteurs
Multiple
Mechanics(C)
0,394878
0,534103
0,376414
Vectors(C)
0,483548
0,580944
0,445122
Algebra(O)
0,808935
0,811431
0,671358
Analysis(O)
0,607779
0,648207
0,540864
Statistics(O)
0,529029
0,568977
0,479319

F.-G. Carpentier - 2012/2013

34

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Ces quantits se calculent facilement partir du tableau des poids factoriels. Par exemple, pour la
variable Mechanics(O), la communaut se calcule de la manire suivante :
h12 = (-0 ,628393) 2 + (0 ,373128) 2 = 0,534103
Pour une ACP, ces quantits sont interprtes en termes de qualit de reprsentation, ou de
dformation due la projection. Dans le cadre de l'analyse factorielle, elles nous indiquent quelle
est la part de variabilit de chacune des variables observes qui participe la variance "commune"
et, par diffrence, quelle est la part qui est spcifique chaque variable, et donc non prise en compte
dans le modle factoriel. Par exemple, pour la variable Algebra(O), la part "commune" est de 81%
et la part spcifique, non prise en compte par les facteurs est de 19%.

2.2.5.2 Scores des individus


Les valeurs prises par les diffrents facteurs (qui sont des variables statistiques, mme si elles ne
sont pas observables directement) sur les individus statistiques composant l'chantillon sont
appeles scores des individus. Contrairement l'ACP, l'exploitation des rsultats d'une analyse
factorielle n'utilise gnralement pas ces scores. En effet, les facteurs ne prennent pas en compte la
totalit de la variation observe sur les donnes et celles-ci comportent une part de variation
alatoire due aux fluctuations d'chantillonnage. Les scores des individus ne peuvent donc pas tre
calculs de manire exacte mais seulement estims partir des autres rsultats. Plusieurs mthodes
ont t proposes, par exemple une mthode base sur le maximum de vraisemblance a t
propose par Bartlett : le Bartlett factor score. La justification de ces mthodes approches est
particulirement dlicate lorsqu'on travaille sur les corrlations et non sur les covariances.
Dans l'exemple donn en introduction, Statistica nous donne d'une part l'expression des facteurs en
fonction des variables :
Coefficients des Scores Factoriels (Open/Closed Book Data)
Extraction : Facteurs du max. de vrais.
Facteur 1
Facteur 2
Mechanics(C)
-0,131635
0,457102
Vectors(C)
-0,161949
0,425053
Algebra(O)
-0,465496
-0,151209
Analysis(O)
-0,216280
-0,326209
Statistics(O)
-0,164691
-0,264662
Ainsi, par exemple :
Facteur 1 = 0,132 Mechanics 0,162 Vectors 0,465 Algebra 0,216 Analysis 0,165 Statistics
D'autre part, il donne galement les valeurs des facteurs sur les diffrentes observations, telles
qu'elles peuvent tre calcules partir des formules prcdentes et des valeurs centres rduites
associes aux valeurs observes. Par exemple pour le premier sujet, le logiciel indique :

Facteur 1
-2,05705

Les valeurs centres rduites des 5 variables sont :


Mechanics(C) Vectors(C)
Algebra(O)
1
2,17573873
2,38907869
1,54334732
Et on vrifie que :
F.-G. Carpentier - 2012/2013

35

Facteur 2
0,73671

Analysis(O)
1,36866891

Statistics(O)
2,24235647

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Facteur 1Sujet 1 = 0,132 2,176 0,162 2,390 0,465 1,543 0,216 1,369 0,165 2,242 = 2,057

Remarque. A l'exception des scores factoriels des individus, l'ensemble des rsultats d'une analyse
factorielle peut tre obtenu partir de la matrice des corrlations (ou des covariances) des variables,
et de la taille de l'chantillon. C'est pourquoi Statistica propose de deux formats pour les donnes
d'entre : donnes brutes ou matrice de corrlations.

2.2.6 Rotation des facteurs : rotations orthogonales, rotations obliques


Les facteurs extraits par l'une ou l'autre des mthodes prcdentes ne sont pas dtermins de
manire unique et c'est gnralement une condition arbitraire qui permet de choisir une solution
dans l'ensemble des solutions possibles.
Il en rsulte que les facteurs ainsi produits ne sont pas toujours simples interprter. Mais toute
rotation sur les facteurs produit une autre solution et on peut tre tent de rechercher une solution
qui "fasse sens", c'est--dire qui produise des facteurs plus simples interprter.
Il importe de noter que la transformation par rotation n'affecte pas l'adquation du modle aux
donnes. Les communauts, notamment, restent les mmes. Mais les solutions avant ou aprs
rotation peuvent tre interprts de faon notablement diffrente.
Ainsi, sur notre exemple :
Poids Factoriels (sans rotation)

Mechanics(C)
Vectors(C)
Algebra(O)
Analysis(O)
Statistics(O)
Var. Expl.
Prp.Tot

Facteur 1
-0,628393
-0,695376
-0,899408
-0,779602
-0,727344
2,824170
0,564834

Facteur 2
0,373128
0,312083
-0,049958
-0,201066
-0,199869
0,319491
0,063898

Poids Factoriels (aprs rotation


varimax normalis)
Facteur 1
Facteur 2
0,270028
0,679108
0,360346
0,671636
0,742939
0,509384
0,740267
0,316563
0,698141
0,285615
1,790119
1,353543
0,358024
0,270709

On examine les poids factoriels aprs rotation varimax. Les trois matires values livre ouvert
sont alors fortement corrles avec le premier facteur, alors que le second facteur correspond aux
deux matires values livre ferm et dans une moindre mesure l'algbre.
La rotation la plus frquemment utilise est la rotation varimax (Kaiser 1958). L'effet produit par
une telle rotation est gnralement le suivant : pour chaque facteur, les poids factoriels levs
concernent un nombre rduit de variables et les autres poids factoriels sont proches de 0.
D'autres rotations ont galement t proposes. Les rotations dites orthogonales produisent des
facteurs non corrls entre eux, tandis que les transformations par rotation oblique produisent de
nouveaux facteurs qui peuvent tre corrls.

2.2.7 Analyse factorielle confirmatoire


L'analyse factorielle confirmatoire est apparente l'analyse factorielle exploratoire. Mais c'est
aussi un cas particulier de modlisation d'quations structurelles (SEM : structural equation
modelling). Diffrents algorithmes ont t dvelopps dans ce cadre (par exemple : LISREL).
F.-G. Carpentier - 2012/2013

36

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

En analyse factorielle confirmatoire, le point de vue est diffrent de celui de l'analyse factorielle
exploratoire : on se fixe a priori un modle :
- nombre de facteurs
- corrlations ventuelles entre ces facteurs
- termes d'erreur attachs chaque variable observe et corrlations ventuelles entre eux
- pour chaque facteur, variables avec lesquelles il sera significativement corrl.

- Une variable observe est reprsente dans un rectangle :

- Une variable latente (un facteur) est reprsente dans un ovale :

- Un terme d'erreur, ou perturbation du modle, est reprsent par une variable sans cadre :
- Une flche entre deux variables signifie que les variations de la seconde sont dues, au moins en
partie, aux variations de la premire.

Exemple :
Source : pages en ligne de Michael Friendly l'adresse :
http://www.psych.yorku.ca/lab/psy6140/fa/facfoils.htm
Calsyn et Kenny (1971) ont tudi la relation entre les aptitudes perues et les aspirations scolaires
de 556 lves du 8 grade. Les variables observes taient les suivantes :
Self : auto-valuation des aptitudes
Parent : valuation par les parents
Teacher : valuation par l'enseignant
Friend : valuation par les amis
Educ Asp : aspirations scolaires
Col Plan : projets d'tudes suprieures
Sur l'chantillon tudi, les corrlations observes entre ces six variables sont les suivantes :

Self
Parent
Teacher
Friend
Educ Asp
Col Plan

Self
1,00
0,73
0,70
0,58
0,46
0,56

Parent
0,73
1,00
0,68
0,61
0,43
0,52

Teacher
0,70
0,68
1,00
0,57
0,40
0,48

Friend
0,58
0,61
0,57
1,00
0,37
0,41

Educ Asp
0,46
0,43
0,40
0,37
1,00
0,72

Col Plan
0,56
0,52
0,48
0,41
0,72
1,00

Le modle tester fait les hypothses suivantes :


- Les 4 premires variables mesurent la variable latente "aptitudes"
- Les deux dernires mesurent la variable latente "aspirations".
Ce modle est-il valide ? Et, s'il en est bien ainsi, les deux variables latentes sont-elles corrles ?

F.-G. Carpentier - 2012/2013

37

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Le schma correspondant ce modle peut tre reprsent ainsi (les variables sont renommes X1
X6 et les facteurs sont dsigns par la lettre grecque dans ce schma emprunt Michael
Friendly) :

Traitement avec Statistica.


La matrice de corrlations prcdente est saisie comme objet de type "matrice" de Statistica :
Feuille de donnes3
1
2
Self
Parent
Self
1,00
0,73
Parent
0,73
1,00
Teacher
0,70
0,68
Friend
0,58
0,61
Educ Asp
0,46
0,43
Col Plan
0,56
0,52
Moyennes
0,00000
0,00000
Ec-Types
1,00000
1,00000
Nb Obs. 556,00000
Matrice
1,00000

3
Teacher
0,70
0,68
1,00
0,57
0,40
0,48
0,00000
1,00000

4
5
6
Friend
Educ Asp
Col Plan
0,58
0,46
0,56
0,61
0,43
0,52
0,57
0,40
0,48
1,00
0,37
0,41
0,37
1,00
0,72
0,41
0,72
1,00
0,00000
0,00000
0,00000
1,00000
1,00000
1,00000

On choisit ensuite le menu Statistiques - Modles linaires / non linaires avancs - Modlisation
d'quations structurelles.
Sous l'onglet "Avanc", on clique sur le bouton "Assistant liaisons" et on choisit l'option "Analyse
factorielle confirmatoire" :

F.-G. Carpentier - 2012/2013

38

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

On peut alors saisir le modle sous la forme suivante :

Lorsqu'on clique sur le bouton OK, Statistica affiche une fentre permettant d'indiquer les
corrlations entre les facteurs. On peut la complter comme suit :

Lorsque la fentre suivante s'affiche, cliquer sur OK :

Le modle spcifi est alors traduit en "langage" PATH1 sous la forme suivante :
(Aptitudes)-1->[Self]
(Aptitudes)-2->[Parent]
(Aptitudes)-3->[Teacher]
(Aptitudes)-4->[Friend]
(Aspirations)-5->[Educ Asp]
(Aspirations)-6->[Col Plan]
(DELTA1)-->[Self]
(DELTA2)-->[Parent]
(DELTA3)-->[Teacher]

F.-G. Carpentier - 2012/2013

39

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

(DELTA4)-->[Friend]
(DELTA5)-->[Educ Asp]
(DELTA6)-->[Col Plan]
(DELTA1)-7-(DELTA1)
(DELTA2)-8-(DELTA2)
(DELTA3)-9-(DELTA3)
(DELTA4)-10-(DELTA4)
(DELTA5)-11-(DELTA5)
(DELTA6)-12-(DELTA6)
(Aspirations)-13-(Aptitudes)

Ce "programme" peut ventuellement tre enregistr dans un fichier autonome.


Cliquez ensuite sur le bouton "Paramtres de l'analyse". Le dialogue qui s'affiche est
particulirement abscons, mais nous nous contenterons d'y indiquer que les donnes analyses sont
de type "corrlations", en laissant les autres paramtres leurs valeurs par dfaut :

Cliquez ensuite sur OK (Excuter modle), puis sur le bouton OK de la fentre suivante.
Le bouton "Synthse du modle" permet d'obtenir la feuille de rsultats suivante :
Modle Estim (Ability and Aspiration dans AFC.stw)
Estimation
Erreur
Stat.
Niveau
Paramtre
Type
T
Proba
(Aptitudes)-1->[Self]
0,863
0,015
57,973
0,000
(Aptitudes)-2->[Parent]
0,849
0,016
54,296
0,000
(Aptitudes)-3->[Teacher]
0,805
0,018
44,287
0,000
(Aptitudes)-4->[Friend]
0,695
0,025
28,217
0,000
(Aspirations)-5->[Educ Asp]
0,775
0,026
30,279
0,000
(Aspirations)-6->[Col Plan]
0,929
0,024
39,165
0,000
(DELTA1)-->[Self]
(DELTA2)-->[Parent]
(DELTA3)-->[Teacher]
(DELTA4)-->[Friend]
(DELTA5)-->[Educ Asp]
(DELTA6)-->[Col Plan]
(DELTA1)-7-(DELTA1)
0,255
0,026
9,915
0,000
(DELTA2)-8-(DELTA2)
0,279
0,027
10,487
0,000
(DELTA3)-9-(DELTA3)
0,352
0,029
12,020
0,000
(DELTA4)-10-(DELTA4)
0,517
0,034
15,078
0,000
(DELTA5)-11-(DELTA5)
0,399
0,040
10,061
0,000
(DELTA6)-12-(DELTA6)
0,137
0,044
3,111
0,002
F.-G. Carpentier - 2012/2013

40

PSR92C - Analyse multidimensionnelle des donnes

(Aspirations)-13-(Aptitudes)

2012/2013

0,666

0,031

21,528

0,000

On retrouve dans ce tableau le poids factoriel de chacune des variables sur le facteur spcifi par le
modle (sur une seule colonne - ce qui ne facilite pas la lecture du tableau). On y trouve galement
les variances des termes d'erreur DELTA1 DELTA6 et enfin l'estimation de la corrlation entre
les facteurs Aspirations et Aptitudes : 0,666.
Ces rsultats seraient plus lisibles disposs de la faon (plus classique) suivante :
Modle Estim (Ability and Aspiration dans AFC.stw)
Aptitudes
Aspirations Communaut Spcificit
Self
0,863
0,745
0,255
Parent
0,849
0,721
0,279
Teacher
0,805
0,648
0,352
Friend
0,695
0,483
0,517
Educ Asp
0,775
0,601
0,399
Col Plan
0,929
0,863
0,137
Dans ce tableau, les communauts sont simplement les carrs des poids factoriels et les spcificits
sont les complments 1 des communauts.
Le logiciel donne ensuite de nombreux indices valuant la qualit du modle.
En particulier, le bouton "Statistiques de synthse" nous fournit la valeur d'une statistique du khi-2
du maximum de vraisemblance :
Statistiques de Synthse (Ability and Aspiration dans AFC.stw)
Valeur
Chi-Deux MV
9,256
Degrs de Libert
8,000
Niveau p
0,321
La valeur trouve ici (p-value = 0,32) montre une bonne adquation du modle aux donnes.
D'autres indices de qualits
D'autres indices sont aussi couramment utiliss :
- AIC (Akaike Information Criterion ou Critre d'information de Akaike)
- BIC (Bayesian Information Criterion ou Critre Baysien de Schwarz)
- TLI (Tucker-Lewis Index) : les modles "acceptables" doivent vrifier TLI>0,90, les
"bons" modles, TLI>0,95
- RMSEA (root mean square error of approximation). les modles "acceptables" doivent
vrifier RMSEA<=0,08, les "bons" modles, RMSEA <= 0,05
- CFI (Comparative Fit Index)

2.2.8 Bibliographie :
Ouvrages :
Lawley, D.N., Maxwell, A.E., Factor Analysis as a Statistical Method, Butterworths Mathematical
Texts, England, 1963.
Mardia, K.V., Kent, J.T., Bibby, J.M., Multivariate Analysis, Academic Press, London 1979.
Articles :
F.-G. Carpentier - 2012/2013

41

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Sites internet :
http://faculty.chass.ncsu.edu/garson/PA765/factor.html
Documents mis en ligne par Michael Friendly et notamment :
http://www.psych.yorku.ca/lab/psy6140/lectures/
Une discussion intressante sur l'utilisation pratique de l'analyse factorielle :
http://core.ecu.edu/psyc/wuenschk/stathelp/EFA.htm
Pages mises en ligne par Peter Tryfos
http://www.yorku.ca/ptryfos/methods.htm
Site pour tlcharger ce polycopi et les fichiers d'exemples :
http://geai.univ-brest.fr/~carpenti/

F.-G. Carpentier - 2012/2013

42

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.3 Analyse Factorielle des Correspondances


Bibliographie :
Escofier, Pags : Analyses factorielles simples et multiples
Lebart, Morineau, Piron, Statistique exploratoire multidimensionnelle
G. Saporta. Probabilit, Analyse des donnes et statistique. Editions Technip , 1990

2.3.1 Introduction
L'analyse factorielle des correspondances (AFC), ou analyse des correspondances simples, est une
mthode exploratoire d'analyse des tableaux de contingence. Elle a t dveloppe essentiellement
par J.-P. Benzecri durant la priode 1970-1990.
Soient deux variables nominales X et Y, comportant respectivement p et q modalits. On a observ
les valeurs de ces variables sur une population et on dispose d'un tableau de contingence p lignes
et q colonnes donnant les effectifs conjoints c'est--dire les effectifs observs pour chaque
combinaison d'une modalit i de X et d'une modalit j de Y.
Les valeurs de ce tableau seront notes n ij , l'effectif total sera not N.
L'AFC vise analyser ce tableau en apportant des rponses des questions telles que :
- Y a-t-il des lignes du tableau (modalits de X) qui se "ressemblent", c'est--dire telles que
les distributions des modalits de Y soient analogues ?
- Y a-t-il des lignes du tableau (modalits de X) qui s'opposent, c'est--dire telles que les
distributions des modalits de Y soient trs diffrentes ?
- Mmes questions pour les colonnes du tableau.
- Y a-t-il des associations modalit de X - modalit de Y qui s'attirent (effectif conjoint
particulirement lev) ou qui se repoussent (effectif conjoint particulirement faible) ?
La mthode se fixe galement comme but de construire des reprsentations graphiques mettant en
vidence ces proprits des donnes.

2.3.2 Traitement classique d'un tableau de contingence : test du khi-2 sur un exemple
Droit Sciences Mdecine IUT
Exp. agri.
80
99
65
58
Patron
168
137
208
62
Cadre sup. 470
400
876
79
Employ
145
133
135
54
Ouvrier
166
193
127
129
Effectifs et frquences marginaux

Exp. agri.
Patron
Cadre sup.
Employ
Ouvrier
Effectifs
marginaux
colonnes
F.-G. Carpentier - 2012/2013

Droit

Sciences Mdecine IUT

80
168
470
145
166
1029

99
137
400
133
193
962

65
208
876
135
127
1411

43

58
62
79
54
129
382

Effectifs
marginaux
lignes
302
575
1825
467
615
3784

Frquence

0,0798
0,1520
0,4823
0,1234
0,1625

PSR92C - Analyse multidimensionnelle des donnes

Frquence

0,2719 0,2542

2012/2013

0,3729

0,1010

Frquences thoriques dans l'hypothse d'indpendance

0,0798
0,0217
0,1520
0,0413

0,4823 [0,2719 0,2542 0,3729 0,1010] = 0,1312

0,1234
0,0336
0,1625
0,0442

0,0203 0,0298
0,0386 0,0567
0,1226

0,1798

0,0314 0,0460
0,0413 0,0606

0,081
0,0153
0,0487

0,0125
0,0164

Effectifs thoriques dans le cas d'indpendance


0,0217
0,0413
0,1312
0,0336
0,0442

0,0203
0,0386
0,1226
0,0314
0,0413

0,0298
0,0567
0,1798
0,0460
0,0606

0,0081
0,0153
0,0487
0,0125
0,0164

x 3784 =

82,12
156,36
496,28
126,99
167,24

76,78
146,18
463,97
118,72
156,35

Effectifs observs O

Exp. agri.
Patron
Cadre sup.
Employ
Ouvrier

Droit Sciences Mdecine IUT


80
99
65
58
168
137
208
62
470
400
876
79
145
133
135
54
166
193
127 129

Effectifs thoriques T

Exp. agri.
Patron
Cadre sup.
Employ
Ouvrier

Droit
Sciences Mdecine IUT
82,12
76,78
112,61 30,49
156,36
146,18
214,41 58,05
496,28
463,97
680,52 184,24
126,99
118,72
174,14 47,14
167,24
156,35
229,32 62,09

Ecarts l'indpendance : E = O - T
Droit Sciences Mdecine IUT
Exp. agri.
-2,12
22,22
-47,61
27,51
Patron
11,64
-9,18
-6,41
3,95
Cadre sup. -26,28
-63,97
195,48 -105,24
Employ
18,01
14,28
-39,14
6,86
Ouvrier
-1,24
36,65
-102,32
66,91
Contributions au khi-2 : (O - T)2/T

Exp. agri.
Patron
Cadre sup.
F.-G. Carpentier - 2012/2013

Droit Sciences Mdecine IUT


0,05
6,43
20,13 24,83
0,87
0,58
0,19 0,27
1,39
8,82
56,15 60,11
44

112,61
214,41
680,52
174,14
229,32

30,49
58,05
184,24
47,14
62,09

PSR92C - Analyse multidimensionnelle des donnes

Employ
Ouvrier

2012/2013

2,55
0,01

1,72
8,59

8,80 1,00
45,66 72,12

D'o : Khi-2 = 320,2.


Pour raliser un test du 2 (ce qui suppose que les donnes observes constituent un chantillon tir
au hasard dans une population), on pose les hypothses :
H0 : Les variables X et Y sont indpendantes
H1 : Les variables X et Y sont dpendantes
Sous l'hypothse H0, la distance entre les deux tableaux suit une loi du 2 12 degrs de libert. Ce
dernier nombre est dfini par la formule :
ddl = (Nb Modalits lignes - 1)(Nb Modalits colonnes - 1) = 12
On choisit un seuil (5% par exemple) et on lit dans une table la valeur critique correspondante :

On formule ensuite la rgle de dcision :

F.-G. Carpentier - 2012/2013

45

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Loi du khi-2
y=ch i2(x;12)
0,10

0,08

0,06

0,04

95%

5%
0,02

0,00
0

10

15

20

H0 retenue

25

30

H0 rejete ; H1 retenue
2
Crit
= 21,03

Dans notre exemple, le 2 observ est trs suprieur au 2 critique. On retient donc l'hypothse H1 :
il existe une lien entre les deux variables tudies.

2.3.3 Analyse factorielle des correspondances proprement dite


Notations :
Soit un tableau de contingence comportant p lignes et q colonnes.
- L'lment du tableau situ l'intersection de la ligne i et de la colonne j est not nij.
- La somme des lments d'une ligne est note ni..
- La somme des lments d'une colonne est note n.j.

Distance (du Phi-2) entre deux profils lignes :


n nij ni ' j

d =

ni '
j =1 n j ni
Exemple : distance entre les lignes 1 et 2
q

2
ii '

Exp. agri.
Patron
Cadre sup.
Employ
Ouvrier
F.-G. Carpentier - 2012/2013

Droit Sciences Mdecine IUT Effectifs marginaux


lignes
80
99
65
58
302
168
137
208
62
575
470
400
876
79
1825
145
133
135
54
467
166
193
127
129
615
46

PSR92C - Analyse multidimensionnelle des donnes

Effectifs marginaux
colonnes

1029

2012/2013

962

1411

382

3784

3784 80 168 3784 99 137 3784 65 208 3784 58


62
d =

1029 302 575


962 302 575 1411 302 575
382 302 575

2
12

Distance (du Phi-2) entre deux profils colonnes :


n
n n
d = ij ij '

n j '
i =1 ni n j
Exemple : distance entre les colonnes 1 et 2
p

2
jj '

d122 =

3784 80
99 3784 168 137 3784 470 400 3784 145 133 3784 166 193

302 1029 962


575 1029 962 1825 1029 962
467 1029 962
615 1029 962

Proprit d'quivalence distributionnelle :


- Si on regroupe deux modalits lignes, les distances entre les profils-colonnes, ou entre les autres
profils-lignes restent inchanges.
- Si on regroupe deux modalits colonnes, les distances entre les profils-lignes, ou entre les autres
profils-colonnes restent inchanges.

L'analyse des correspondances dtermine une reprsentation "optimale" de la distance du Phi-2


entre les individus lignes, et de mme, une reprsentation optimale de la distance du Phi-2 entre les
individus colonnes. Elle permet galement de reprsenter les individus lignes et les individus
colonnes sur une mme carte factorielle.

Principaux rsultats de l'AFC :

F.-G. Carpentier - 2012/2013

47

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Principaux rsultats dune AFC


Modalits (individus) colonnes

Coordonnes
factorielles des
lignes

Modalits
(individus)
lignes

p
q

Valeurs propres
Coordonnes factorielles des colonnes

Valeurs propres

1
2
3

ValProp.
0,082
0,002
0,001

%age inertie
97,35
2,01
0,64

%age cumul
97,35
99,36
100,00

Chi
311,78
6,45
2,04

Rsultats relatifs aux lignes


Coord. Coord. Masse Qualit Inertie
Inertie Cosinus Inertie Cosinus
Dim.1 Dim.2
Relative Dim.1 Dim.1
Dim.2 Dim.2
Exp. Agri.
0,410 0,026 0,080
0,991
0,161 0,163
0,987 0,032
0,004
Patrons
0,020 -0,027 0,152
0,336
0,006 0,001
0,123 0,063
0,213
Cadres Sup. -0,263 0,016 0,482
0,999
0,395 0,404
0,996 0,069
0,004
Employs
0,142 -0,097 0,123
0,985
0,044 0,030
0,670 0,686
0,315
Ouvriers
0,451 0,040 0,163
1,000
0,395 0,402
0,992 0,150
0,008

Rsultats relatifs aux colonnes


Coord. Coord. Masse Qualit Inertie
Inertie Cosinus Inertie Cosinus
Dim.1 Dim.2
Relative Dim.1 Dim.1
Dim.2 Dim.2
Droit
0,028 -0,061 0,272
0,942
0,015 0,003
0,165 0,588
0,777
Sciences
0,160 -0,003 0,254
0,948
0,082 0,079
0,948 0,001
0,000
Mdecine -0,303 0,030 0,373
1,000
0,409 0,416
0,990 0,193
0,009
IUT
0,640 0,061 0,101
0,998
0,494 0,502
0,989 0,219
0,009
F.-G. Carpentier - 2012/2013

48

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Carte factorielle lignes et colonnes


Trac 2D des Coordonnes Ligne & Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 5 x 4
Standardisation : Profils ligne et colonne
Dimension 2; Valeur Propre : ,00170 (2,013 % d'Inertie)

0,08
IUT

0,06
0,04

Ouvriers
Mdecine

0,02

Exp.Agri.

CadresSup.
Sciences

0,00
-0,02

Patrons

-0,04
Droit

-0,06
-0,08

Employs
-0,10
-0,12
-0,4

-0,3

-0,2

-0,1

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

Coord.L.
Coord.C.

Dimension 1; Valeur Propre : ,08239 (97,35 % d'Inertie)

2.3.4 Analyse factorielle des correspondances avec Statistica


2.3.4.1 Traitement des donnes avec Statistica
Source : Site Eurostat de l'Union Europenne.
http://epp.eurostat.ec.europa.eu/portal/
Ouvrez le classeur Regions-2001.stw
La feuille "Regions-Milliers-2001" rapporte des donnes relatives la structure de la population :
elle indique, pour chacune des 22 rgions franaises (en lignes) le nombre d'habitants (en milliers)
par ge (en colonnes) :
HF00 signifie Hommes et Femmes de 0 4 ans,
HF05 signifie Hommes et Femmes de 5 9 ans, ...
HF80 signifie Hommes et Femmes de plus de 80 ans

ILEF
CHAM
PICA
HNOR

1
2
3
4
HF00
HF05
HF10
HF15
744
724
703
706
82
86
93
95
120
128
138
134
114
120
129
131

Pour effectuer l'AFC, nous utilisons le menu Statistiques - Techniques exploratoires multivaries Analyse des correspondances.

F.-G. Carpentier - 2012/2013

49

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

La fentre de dialogue permet d'indiquer la manire dont se prsentent nos donnes. La situation la
plus classique est celle d'un tableau de contingence : les modalits lignes sont indiques dans une
variable spcifiques, les modalits colonnes sont les autres variables du tableau, et la feuille de
donnes contient les effectifs nij.
On indique galement les variables qui participeront l'analyse (ici toutes les variables). Notez que
les zros ventuels sont obligatoires, car une cellule laisse vide est interprte comme une valeur
manquante, et c'est alors l'ensemble de la ligne qui est limin de l'analyse.
N.B. Ne fermez pas l'analyse en cours pendant la suite des manipulations. Ainsi, vous n'aurez pas
indiquer de nouveau les options ci-dessus, vos rsultats seront cohrents entre eux et se
rassembleront dans un mme classeur.

Statistiques descriptives
Les principaux rsultats de statistiques descriptives pourront tre obtenus partir de l'onglet
"Etude".
On peut ainsi obtenir les frquences, les frquences lignes, les frquences colonnes et les profils
moyens.

Par exemple, le tableau des frquences et les profils ligne et colonne moyens sont :

F.-G. Carpentier - 2012/2013

50

PSR92C - Analyse multidimensionnelle des donnes


2012/2013
Pourcentages Totaux (Regions-Milliers-2001 dans Regions-2001-Def.stw)
Table d'Entre (Lignes x Colonnes) : 22 x 17
Inertie Totale = ,00882 Chi = 515,83 dl = 336 p = 0,0000
HF00 HF05 HF10 HF15 HF20 HF25 HF30 HF35 HF40 HF45 HF50 HF55 HF60 HF65 HF70 HF75 HF80 Total
ILEF 1,27 1,24 1,20 1,21 1,29 1,59 1,56 1,49 1,37 1,37 1,26 0,88 0,74 0,67 0,57 0,46 0,54 18,71
CHAM 0,14 0,15 0,16 0,16 0,15 0,17 0,16 0,17 0,17 0,17 0,15 0,10 0,11 0,10 0,09 0,08 0,08 2,29
PICA 0,21 0,22 0,24 0,23 0,20 0,23 0,23 0,24 0,23 0,24 0,20 0,13 0,14 0,14 0,12 0,10 0,09 3,17
HNOR 0,19 0,21 0,22 0,22 0,19 0,22 0,22 0,22 0,23 0,22 0,19 0,13 0,13 0,13 0,11 0,09 0,10 3,04
CENT 0,24 0,26 0,27 0,27 0,24 0,29 0,29 0,30 0,30 0,31 0,27 0,19 0,21 0,21 0,19 0,16 0,18 4,17
BNOR 0,15 0,15 0,17 0,17 0,15 0,16 0,17 0,17 0,18 0,17 0,15 0,10 0,12 0,12 0,11 0,09 0,09 2,43
BOUR 0,15 0,16 0,17 0,18 0,16 0,18 0,19 0,19 0,20 0,20 0,18 0,13 0,14 0,15 0,13 0,11 0,12 2,75
NORD 0,46 0,48 0,52 0,54 0,49 0,50 0,49 0,49 0,49 0,48 0,41 0,26 0,29 0,29 0,26 0,21 0,18 6,82
LORR 0,23 0,25 0,27 0,28 0,26 0,28 0,29 0,30 0,29 0,29 0,24 0,18 0,19 0,19 0,17 0,12 0,12 3,95
ALSA 0,19 0,19 0,19 0,19 0,19 0,23 0,24 0,23 0,23 0,22 0,17 0,14 0,14 0,13 0,11 0,09 0,08 2,96
0,12 0,12 0,13 0,14 0,12 0,14 0,14 0,14 0,14 0,14 0,12 0,09 0,09 0,09 0,08 0,06 0,07 1,91
FCOMTE
PAYS 0,34 0,35 0,37 0,40 0,36 0,38 0,38 0,39 0,39 0,39 0,34 0,24 0,26 0,26 0,24 0,19 0,20 5,51
BRET 0,29 0,30 0,32 0,34 0,32 0,34 0,34 0,36 0,35 0,35 0,31 0,22 0,26 0,26 0,24 0,19 0,19 4,97
POIT 0,15 0,16 0,17 0,18 0,16 0,18 0,19 0,19 0,20 0,20 0,18 0,14 0,15 0,16 0,14 0,12 0,13 2,80
AQUI 0,26 0,28 0,30 0,31 0,30 0,33 0,34 0,36 0,36 0,37 0,33 0,24 0,25 0,26 0,25 0,21 0,22 4,97
MIDI 0,23 0,24 0,25 0,27 0,27 0,29 0,31 0,32 0,31 0,31 0,28 0,21 0,22 0,23 0,22 0,18 0,20 4,36
LIMO 0,05 0,06 0,06 0,07 0,07 0,08 0,08 0,08 0,09 0,09 0,08 0,06 0,07 0,08 0,07 0,06 0,07 1,21
RHON 0,61 0,63 0,64 0,66 0,62 0,70 0,73 0,72 0,69 0,68 0,63 0,47 0,43 0,43 0,38 0,31 0,32 9,65
AUVE 0,11 0,12 0,13 0,14 0,14 0,15 0,15 0,16 0,16 0,17 0,15 0,11 0,12 0,12 0,11 0,10 0,10 2,24
LANG 0,22 0,23 0,24 0,25 0,24 0,26 0,26 0,28 0,27 0,28 0,25 0,19 0,20 0,22 0,20 0,17 0,17 3,92
PROV 0,44 0,47 0,48 0,48 0,45 0,50 0,54 0,55 0,54 0,54 0,51 0,41 0,39 0,40 0,36 0,31 0,34 7,70
CORS 0,02 0,03 0,03 0,03 0,02 0,03 0,03 0,03 0,03 0,03 0,03 0,03 0,02 0,02 0,02 0,02 0,02 0,44
Total 6,09 6,29 6,55 6,74 6,36 7,20 7,31 7,37 7,22 7,22 6,43 4,66 4,66 4,66 4,17 3,43 3,63 100,00

Remarque :
Statistica ne permet pas d'obtenir directement le tableau des taux de liaison, qui est pourtant un outil
exploratoire intressant. Mais on pourra utiliser les tableaux "Observs moins thoriques" et
"Effectifs thoriques". On peut mme recopier ces deux tableaux dans une feuille Excel et diviser
chaque cellule du premier par la cellule correspondante du second pour obtenir le tableau des taux
de liaison :
ILEF
CHAM
PICA
HNOR
CENT
BNOR
BOUR
NORD
LORR
ALSA
FCOM
PAYS
BRET
POIT
AQUI
MIDI
LIMO
RHON
AUVE
LANG
PROV
CORS

HF00
0,12
0,00
0,06
0,05
-0,04
0,00
-0,09
0,11
-0,03
0,03
-0,00
0,02
-0,04
-0,14
-0,13
-0,12
-0,26
0,04
-0,17
-0,09
-0,06
-0,12

HF05
0,05
0,02
0,10
0,07
-0,02
0,01
-0,06
0,12
0,01
0,04
-0,00
0,01
-0,04
-0,12
-0,11
-0,11
-0,22
0,04
-0,15
-0,07
-0,03
-0,08

HF10
-0,02
0,06
0,14
0,11
-0,01
0,05
-0,03
0,17
0,04
0,01
0,04
0,03
-0,02
-0,07
-0,09
-0,12
-0,18
0,02
-0,12
-0,06
-0,05
-0,06

HF15
-0,04
0,05
0,07
0,09
-0,03
0,05
-0,03
0,16
0,04
-0,02
0,06
0,09
0,02
-0,04
-0,06
-0,09
-0,14
0,02
-0,06
-0,05
-0,07
-0,09

F.-G. Carpentier - 2012/2013

HF20
0,09
0,01
-0,03
-0,01
-0,09
-0,04
-0,09
0,12
0,02
0,01
-0,03
0,03
0,00
-0,08
-0,07
-0,03
-0,11
0,00
-0,05
-0,04
-0,09
-0,21

HF25
0,18
0,00
-0,01
-0,01
-0,05
-0,07
-0,09
0,02
-0,02
0,07
-0,02
-0,04
-0,06
-0,12
-0,07
-0,07
-0,12
0,01
-0,09
-0,09
-0,10
-0,09

HF30
0,14
-0,02
0,01
-0,02
-0,05
-0,07
-0,07
-0,03
-0,01
0,10
-0,01
-0,05
-0,08
-0,09
-0,06
-0,03
-0,13
0,03
-0,07
-0,08
-0,04
-0,00

HF35
0,08
-0,01
0,01
-0,00
-0,03
-0,04
-0,05
-0,02
0,02
0,07
-0,03
-0,03
-0,03
-0,06
-0,03
-0,01
-0,08
0,01
-0,06
-0,05
-0,03
-0,01

51

HF40
0,02
0,00
0,02
0,04
-0,01
0,00
-0,01
-0,01
0,03
0,06
0,00
-0,01
-0,01
0,01
-0,00
-0,01
-0,02
-0,01
-0,00
-0,05
-0,03
0,01

HF45
0,02
0,01
0,04
0,02
0,01
-0,02
0,02
-0,03
0,02
0,01
-0,01
-0,01
-0,02
0,01
0,02
-0,01
0,01
-0,02
0,04
-0,02
-0,03
0,01

HF50
0,05
-0,00
-0,02
-0,01
0,01
-0,05
0,01
-0,07
-0,04
-0,09
0,02
-0,05
-0,03
-0,01
0,02
0,01
0,03
0,02
0,06
0,00
0,02
0,02

HF55
0,01
-0,07
-0,10
-0,08
-0,01
-0,08
0,02
-0,18
-0,02
0,04
-0,00
-0,07
-0,05
0,04
0,04
0,04
0,06
0,04
0,08
0,07
0,13
0,24

HF60
-0,15
-0,01
-0,06
-0,06
0,05
0,09
0,09
-0,10
0,04
-0,02
0,02
0,02
0,11
0,14
0,10
0,10
0,21
-0,04
0,13
0,09
0,08
0,15

HF65
-0,23
-0,02
-0,09
-0,07
0,07
0,10
0,15
-0,08
0,04
-0,06
0,02
0,02
0,12
0,19
0,14
0,14
0,33
-0,05
0,18
0,18
0,11
0,16

HF70
-0,27
-0,02
-0,08
-0,10
0,08
0,10
0,16
-0,08
0,01
-0,11
-0,01
0,03
0,15
0,23
0,19
0,19
0,42
-0,06
0,23
0,20
0,13
0,11

HF75
-0,28
-0,02
-0,12
-0,10
0,11
0,07
0,18
-0,11
-0,08
-0,14
-0,03
0,03
0,14
0,25
0,22
0,22
0,44
-0,08
0,25
0,24
0,17
0,12

HF80
-0,21
-0,04
-0,18
-0,10
0,20
0,01
0,23
-0,28
-0,17
-0,24
-0,04
0,02
0,06
0,31
0,24
0,27
0,59
-0,08
0,22
0,22
0,21
0,17

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Choix des valeurs propres


C'est ensuite l'onglet "Avanc" qui nous permettra d'afficher les valeurs propres, et donc de choisir
le nombre d'axes garder.

Valeurs Propres et Inertie de toutes les Dimensions)


Table d'Entre (Lignes x Colonnes) : 22 x 17
Inertie Totale = ,00882 Chi = 515,83 dl = 336 p = 0,0000
%age
%age
Chi
Nombre ValSing. ValProp.
Inertie
Cumul
de Dims.
0,0850
0,0072
81,92
81,92
422,54
1
0,0340
0,0012
13,14
95,06
67,78
2
0,0123
0,0002
1,71
96,76
8,81
3
0,0113
0,0001
1,44
98,20
7,42
4
0,0086
0,0001
0,85
99,05
4,37
5
0,0058
0,0000
0,38
99,43
1,97
6
0,0042
0,0000
0,20
99,64
1,05
7
0,0035
0,0000
0,14
99,78
0,71
8
0,0024
0,0000
0,07
99,84
0,35
9
0,0023
0,0000
0,06
99,90
0,30
10
0,0018
0,0000
0,04
99,94
0,18
11
0,0015
0,0000
0,02
99,96
0,13
12
0,0012
0,0000
0,02
99,98
0,08
13
0,0010
0,0000
0,01
99,99
0,06
14
0,0008
0,0000
0,01
100,00
0,04
15
0,0006
0,0000
0,00
100,00
0,02
16
Trac des Valeurs Propres
Table d'Entre (Lignes x Colonnes) : 22 x 17
Inertie T otale = ,00882 Chi = 515,83 dl = 336 p = 0,0000
0,008
0,007

Valeur Propre

0,006
0,005
0,004
0,003
0,002
0,001
0,000
2

10

12

14

16

18

Nbre de Dimensions

Rsultats relatifs aux individus-lignes et aux individus-colonnes.


Pour les rsultats qui suivent, on indique le nombre d'axes factoriels conserver sous l'onglet
"Base" ou sous l'onglet "Options". Ce dernier permet galement de choisir plusieurs types d'chelles
pour reprsenter lignes et colonnes. Le type de reprsentation le plus classique, qui fait jouer des
rles symtriques aux lignes et aux colonnes, correspond la premire option.

F.-G. Carpentier - 2012/2013

52

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

On retourne ensuite sous l'onglet "Avanc" pour afficher les coordonnes des individus-lignes et
des individus-colonnes. On notera que Statistica produit deux tableaux de rsultats, et on passera de
l'un l'autre l'aide des onglets du classeur.
Coordonnes Ligne et Contributions l'Inertie (Regions-Milliers-2001 dans Regions-2001-Def.stw)
Table d'Entre (Lignes x Colonnes) : 22 x 17
Standardisation : Profils ligne et colonne
Ligne
Coord.
Coord.
Masse Qualit
Inertie
Inertie Cosinus Inertie Cosinus
Dim.1
Dim.2
Relative
Dim.1
Dim.1
Dim.2
Dim.2
NomLigne Numro
-0,0427
0,1871
0,9968
0,3574
0,3877
0,8885
0,2944
0,1082
ILEF
1 -0,1223
0,0222
0,0229
0,7971
0,0022
0,0005
0,1997
0,0098
0,5974
CHAM
2 -0,0129
0,0396
0,0317
0,8540
0,0202
0,0142
0,5745
0,0430
0,2794
PICA
3 -0,0568
0,0356
0,0304
0,8471
0,0132
0,0083
0,5163
0,0332
0,3308
HNOR
4 -0,0444
-0,0018
0,0417
0,8358
0,0170
0,0173
0,8349
0,0001
0,0009
CENT
5 0,0547
0,0420
0,0243
0,9231
0,0086
0,0037
0,3556
0,0369
0,5675
BNOR
6 0,0332
0,0005
0,0275
0,9771
0,0258
0,0308
0,9771
0,0000
0,0000
BOUR
7 0,0900
-0,0774
0,0788
0,0682
0,9772
0,0967
0,0566
0,4795
0,3662
0,4977
NORD
8
0,0250
0,0395
0,4218
0,0090
0,0012
0,1126
0,0213
0,3092
LORR
9 -0,0151
-0,0090
0,0296
0,6520
0,0201
0,0157
0,6385
0,0021
0,0135
ALSA
10 -0,0618
0,0160
0,0191
0,3961
0,0014
0,0000
0,0124
0,0042
0,3837
FCOMTE
11 -0,0029
0,0342
0,0551
0,8109
0,0096
0,0006
0,0498
0,0557
0,7611
PAYS
12 0,0088
0,0241
0,0497
0,8945
0,0241
0,0223
0,7586
0,0249
0,1359
BRET
13 0,0569
-0,0047
0,0280
0,9891
0,0481
0,0580
0,9876
0,0005
0,0015
POIT
14 0,1223
-0,0184
0,0497
0,9830
0,0576
0,0668
0,9500
0,0145
0,0330
AQUI
15 0,0985
-0,0293
0,0436
0,9659
0,0550
0,0597
0,8888
0,0323
0,0771
MIDI
16 0,0994
-0,0393
0,0121
0,9774
0,0663
0,0765
0,9454
0,0162
0,0321
LIMO
17 0,2133
-0,0007
0,0965
0,7453
0,0143
0,0130
0,7450
0,0000
0,0003
RHON
18 -0,0312
-0,0238
0,0224
0,9426
0,0374
0,0413
0,9042
0,0110
0,0385
AUVE
19 0,1155
-0,0046
0,0392
0,9730
0,0460
0,0546
0,9709
0,0007
0,0021
LANG
20 0,1002
-0,0202
0,0770
0,9122
0,0638
0,0667
0,8561
0,0272
0,0561
PROV
21 0,0791
-0,0389
0,0044
0,7346
0,0063
0,0047
0,6129
0,0058
0,1216
CORS
22 0,0872

F.-G. Carpentier - 2012/2013

53

Cos
1&2
0,9968
0,7971
0,8540
0,8471
0,8358
0,9231
0,9771
0,9772
0,4218
0,6520
0,3961
0,8109
0,8945
0,9891
0,9830
0,9659
0,9774
0,7453
0,9426
0,9730
0,9122
0,7346

PSR92C - Analyse multidimensionnelle des donnes


2012/2013
Coordonnes Colonne et Contributions l'Inertie (Regions-Milliers-2001 dans Regions-2001-Def.stw)
Table d'Entre (Lignes x Colonnes) : 22 x 17
Standardisation : Profils ligne et colonne
Colonne
Coord.
Coord.
Masse Qualit
Inertie
Inertie Cosinus Inertie Cosinus
Numro
Dim.1
Dim.2
Relative
Dim.1
Dim.1
Dim.2
Dim.2
Nom Col.
-0,0882
0,0106
0,0609
0,9564
0,0570
0,0656
0,9427
0,0059
0,0137
HF00
1
0,0262
0,0629
0,9260
0,0365
0,0353
0,7916
0,0374
0,1343
HF05
2 -0,0637
0,0602
0,0655
0,9515
0,0424
0,0164
0,3172
0,2047
0,6342
HF10
3 -0,0426
0,0634
0,0674
0,9676
0,0372
0,0064
0,1407
0,2338
0,8269
HF15
4 -0,0262
0,0094
0,0636
0,7551
0,0336
0,0302
0,7360
0,0049
0,0191
HF20
5 -0,0585
-0,0335
0,0720
0,9645
0,0753
0,0774
0,8427
0,0698
0,1219
HF25
6 -0,0881
-0,0373
0,0731
0,9848
0,0485
0,0443
0,7471
0,0878
0,2378
HF30
7 -0,0661
-0,0207
0,0737
0,9260
0,0172
0,0150
0,7180
0,0271
0,2080
HF35
8 -0,0384
-0,0029
0,0722
0,3271
0,0039
0,0015
0,3089
0,0005
0,0182
HF40
9 -0,0121
-0,0067
0,0722
0,1446
0,0034
0,0002
0,0391
0,0028
0,1055
HF45
10 -0,0041
-0,0329
0,0643
0,6808
0,0116
0,0000
0,0021
0,0601
0,6788
HF50
11 -0,0018
-0,0602
0,0466
0,7834
0,0312
0,0065
0,1696
0,1456
0,6138
HF55
12 0,0316
0,0074
0,0466
0,9549
0,0537
0,0623
0,9495
0,0022
0,0054
HF60
13 0,0982
0,0229
0,0466
0,9866
0,1086
0,1274
0,9612
0,0211
0,0255
HF65
14 0,1405
0,0250
0,0417
0,9936
0,1361
0,1615
0,9719
0,0225
0,0217
HF70
15 0,1672
0,0122
0,0343
0,9904
0,1351
0,1626
0,9861
0,0044
0,0043
HF75
16 0,1851
-0,0471
0,0363
0,9643
0,1688
0,1876
0,9103
0,0694
0,0540
HF80
17 0,1932

Cos
1&2
0,9564
0,9260
0,9515
0,9676
0,7551
0,9645
0,9848
0,9260
0,3271
0,1446
0,6808
0,7834
0,9549
0,9866
0,9936
0,9904
0,9643

On utilise ensuite les boutons du bloc "Trac des coordonnes" pour obtenir des reprsentations
graphiques des rsultats de l'AFC.

Les graphiques "par axe" pourront tre obtenus l'aide du bouton "Ligne & colonne, 1D". Le
graphique dans un plan, superposant les rsultats des lignes et des colonnes, pourra tre obtenu
l'aide du bouton "2D" de la mme ligne. En revanche, il n'est pas vident d'liminer certaines
tiquettes pour amliorer la lisibilit du graphique. La seule mthode parat tre de faire un clic
droit sur une tiquette, de slectionner l'item de menu "Proprits..." puis d'diter manuellement le
tableau des tiquettes qui s'affiche.

F.-G. Carpentier - 2012/2013

54

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Trac 2D des Coordonnes Ligne & Colonne ; Dimension : 1 x 2


Table d'Entre (Lignes x Colonnes) : 22 x 17

Dimension 2; Valeur Propre : ,00116 (13,14 % d'Inertie)

Standardisation : Prof ils ligne et colonne


NORD

0,08

HF15
HF10
0,06

HF05
HF00

PAY S
LORR
CHAM
FCOMTE

0,02

BRET

ALSA

RHONHF40
HF45

CENT

HF25

HF70

HF60
BOUR
LANG POIT
PROV AQUI
AUVE
MIDI

HF35

-0,02

HF65

HF75

HF20

0,00

-0,04

BNOR

PICA
HNOR

0,04

HF50
HF30

CORS

ILEF

LIMO
HF80

HF55

-0,06

-0,1

0,0

0,1

0,2

Coord.L.
Coord.C.

Dimension 1; Valeur Propre : ,00722 (81,92 % d'Inertie)

2.3.5 Interprtation des rsultats de l'AFC


On sait que la distance du khi-2 est sensible l'importance de l'effectif observ. Sans surprise,
mme en exprimant les effectifs en milliers, nous obtenons ici un khi-2 de 515,83. En revanche, le
coefficient Phi-2 est assez faible : 0,0088.
De mme, on constate que les taux de liaison restent modrs, compris entre -0,28 et +0,59.
Autrement dit le dficit d'une classe d'ge est au plus de 28% de l'effectif thorique que l'on
obtiendrait si la structure par ge de la population franaise se retrouvait l'identique dans toutes les
rgions, et l'excs d'une classe d'ge est d'au plus 59% de cet effectif thorique.
On sait que, dans une AFC, les valeurs propres sont toutes infrieures 1, et que leur somme est
gale au coefficient Phi-2. Ici, la dcroissance des valeurs propres est trs rapide, puisque la
premire reprsente plus de 80% de l'inertie. La deuxime, bien que trs infrieure la premire, est
suprieure la moyenne 0,0088/16 = 0,00055. Nous tudierons donc les deux premiers axes
factoriels.

2.3.5.1 Interprtation du premier axe


Les individus lignes dont la contribution l'inertie du premier axe est suprieure la moyenne
sont :
ILEF (39%)
NORD (5,7%)

F.-G. Carpentier - 2012/2013

+
LIMO (7,7%)
AQUI (6,7%)
PROV (6,7%)
MIDI (6%)
55

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

POIT (5,8%)
LANG (5,5%)
On voit que cet axe oppose des rgions telles que l'Ile de France et le Nord Pas de Calais un
ensemble de rgions "du sud" : Limousin, Aquitaine, Provence, etc. L'Ile de France reprsente elle
seule 39% de l'inertie de cet axe, et on peut s'tonner que cette rgion, malgr son poids
dmographique, soit reprsente par un point aussi loign de l'origine des axes.
Pour les individus colonnes, les rsultats sont :
-

+
HF80 (19%)
HF75 (16%)
HF70 (16%)
HF65 (13%)
HF60 (6%)

HF25 (8%)
HF00 (7%)

Clairement, le premier axe oppose les classes d'ge leves (partie positive de l'axe) aux autres
classes, notamment la classe 25-29 ans et la classe 0-4 ans.
La synthse des tudes menes sur les individus lignes et sur les individus colonnes en dcoule
aussitt : le premier axe oppose des rgions o la population ge est importante des rgions plus
jeunes, ou dans lesquelles apparat un dficit en personnes ges (Ile de France et Nord Pas de
Calais, mais aussi Alsace, Picardie, Haute Normandie, etc).

2.3.5.2 Etude du second axe factoriel


Les individus lignes dont la contribution l'inertie du premier axe est suprieure la moyenne
sont :
ILEF (29,4%)

+
NORD (36,6%)

Les individus colonnes dont la contribution l'inertie du premier axe est suprieure la moyenne
sont :
HF55 (14,6%)
HF30 (8,8%)
HF25 (7%)
HF80 (7%)
HF50 (6%)

+
HF15 (23,3%)
HF10 (20,4%)

Le tableau des individus lignes semble montrer que cet axe oppose essentiellement deux rgions
"jeunes" : l'Ile de France et le Nord Pas de Calais. En fait, dans la partie ngative de cet axe, on
retrouve la fois des rgions "jeunes", telles que l'Ile de France et des rgions "ges" telles que le
Limousin, pendant que la partie positive de l'axe rassemble des rgions (Nord, mais aussi Picardie,
Basse Normandie, Pays de la Loire, etc) o la population des adolescents (HF10, HF15) est bien
reprsente.

F.-G. Carpentier - 2012/2013

56

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.3.5.3 Quelques remarques sur les qualits de reprsentation


On voit que les ges correspondant aux adultes actifs (HF35, HF40, HF45) sont trs peu intervenus
dans l'tude. Les effectifs de ces classes d'ge diffrent peu de l'indpendance : il y a peu de
diffrences entre les rgions du point de vue de la proportion de 35-49 ans dans la population. De
faible inertie et donc intervenant peu dans la formation des premiers axes, ces individus colonnes
peuvent tre mal reprsents (qualit de reprsentation gale 0,14, par exemple, pour HF45 et
0,32 pour HF40 : il faut donc s'abstenir d'interprter, sans lment supplmentaire, leur proximit
sur le graphique).
De mme, la qualit de reprsentation de la Franche Comt (0,39) est assez faible, car cette rgion
est peu importante numriquement et a un profil assez proche du profil moyen. Sur le schma, elle
apparat proche de la Champagne, ce qui ne correspond pas vraiment la ralit.

2.3.5.4 Synthse
L'lment dominant que l'AFC fait apparatre est l'opposition entre d'une part les rgions
comportant beaucoup de personnes ges (60 ans et plus), et par voie de consquence, un dficit
d'enfants et de jeunes adultes, et d'autre part, les rgions comportant beaucoup de jeunes de moins
de 35/40 ans et peu de personnes ges. Une structure secondaire distingue, parmi les rgions
"jeunes" celles dont la population comporte de nombreux adultes (classes HF25, HF30
particulirement nombreuses) celles dont la population comporte beaucoup d'enfants (HF05,
HF10, HF15).
On est ainsi tent de dfinir quatre groupes de rgions, sans pour autant pouvoir affecter
objectivement chaque rgion un groupe :
- Rgions population de personnes ges importante : Limousin, Corse, Midi-Pyrnes, Auvergne,
Provence, Aquitaine, Languedoc, Poitou, Bourgogne.
- Rgions "intermdaires" : Centre, Bretagne, Basse Normandie, Pays de la Loire et peut-tre
Lorraine, Champagne, Franche Comt
- Rgions forte population de jeunes adultes : Ile de France, Alsace et peut-tre Rhne-Alpes.
- Rgions forte population de jeunes enfants : Nord Pas-de-Calais, Picardie, Haute-Normandie.

2.3.6 Structures possibles pour les donnes d'entre


Source : Exemple fourni avec le logiciel Statistica.
Supposons que vous ayez collect des donnes sur les habitudes de diffrents salaris d'une
entreprise concernant la cigarette. Les donnes suivantes sont prsentes dans l'ouvrage de
Greenacre (1984, p. 55).
Ouvrez le classeur Smoking.stw et observez les 3 feuilles de donnes saisies.

2.3.6.1 Donnes structures sous forme d'un tableau de contingence


Commenons, par exemple, par rendre active la feuille de donnes Smoking1.sta (tableau de
contingence).

F.-G. Carpentier - 2012/2013

57

PSR92C - Analyse multidimensionnelle des donnes


2012/2013
Analyse des correspondances simple.
1
2
3
4
NON_FUM OCCAS
MOYEN
GROS_FUM
CADRE_EXPER
4
2
3
2
CADRE_DEBUT
4
3
7
4
EMPLOY_EXPER
25
10
12
4
EMPLOY_DEBUT
18
24
33
13
SECRETAIRES
10
6
7
2

Ralisez une AFC sur ce tableau de donnes.


N.B. On remarquera que le test du khi-2 sur ce tableau ne dmontre pas l'existence d'une
dpendance significative entre les habitudes concernant la cigarette et l'emploi occup. L'analyse
factorielle des correspondances est donc d'un intrt trs limit ici.

2.3.6.2 Donnes structures sous forme de tableau d'effectifs


Statistica nous permet galement de raliser l'AFC partir d'un tableau d'effectifs (feuille de
donnes Smoking2.sta).
Refaites l'AFC prcdente, d'abord en utilisant Smoking2.sta comme feuille de donnes active.

2.3.6.3 Donnes structures sous forme de tableau protocole


On peut aussi raliser l'AFC partir d'un tableau protocole (donnes non recenses - feuille de
donnes Smoking3.sta).
Refaites l'AFC prcdente, d'abord en utilisant Smoking3.sta comme feuille de donnes active.

2.3.7 Ajout de lignes ou de colonnes supplmentaires : application la comparaison de


tableaux de frquence binaire
On dispose des donnes suivantes relatives aux lves scolariss en 1972/73, sortis du systme
ducatif en 1973 et ayant trouv un emploi :
Hommes

Agriculteurs

Sans
diplme
15068

2701

5709

297

BAC
techniqu
e
1242

322

25339

337

309

917

308

4383

6254

Ingnieurs
Techniciens

BEPC

BEP/CA
P

BAC
gnral

DEUG/EN
T

DUT/BTS/
Sant

SUP

Total

302

1697

2242

1969

1399

357

1943

381

10290

Ouvriers Qualifis

10143

3702

30926

314

1861

337

47283

Ouvriers non
qualifis
Cadres suprieurs

59394

8087

17862

2887

1696

323

90249

596

298

892

1227

298

2362

318

6781

12772

Cadres Moyens

2142

2801

672

6495

924

2807

2301

4030

22172

Employs qualifis

5445

7348

4719

4353

1280

614

982

24741

Employs non
qualifis
Total

4879

4987

1514

3478

886

1326

661

17731

97969

31958

64845

21937

9586

7774

5866

16896

256831

Femmes
Agriculteurs

Sans
diplme
5089

Ingnieurs

F.-G. Carpentier - 2012/2013

BEPC

BEP/CAP

BAC
gnral

1212

1166

BAC
technique
0

316

58

DEUG/ENT
0

DUT/BTS/
Sant
0

304

SUP

Total
0

7467

1033

1653

PSR92C - Analyse multidimensionnelle des donnes


Techniciens

281

2012/2013

320

320

283

683

1887

Ouvriers Qualifis

7470

1859

4017

1752

657

285

16040

Ouvriers non
qualifis
Cadres suprieurs

29997

4334

4538

1882

40751

2236

595

911

569

6788

11099

1577

1806

4549

17063

875

4152

15731

3991

49744

Employs qualifis

21616

19915

32452

16137

5865

1256

3332

1286

101859

Employs non
qualifis
Total

19849

7325

6484

5111

898

294

635

40596

85879

36451

53526

44817

9173

6613

21539

13098

271096

Cadres Moyens

Source : B. Escoffier, J. Pags, Analyses factorielles simples et multiples, 3 dition - Dunod 1998.
Ces tableaux croisent trois variables qualitatives : l'emploi, le diplme et le sexe. Les buts de notre
tude peuvent tre multiples. D'une part, on peut s'intresser la liaison entre emploi et diplme,
indpendamment du sexe, et mettre ainsi en vidence une structure commune ces deux tableaux.
D'autre part, et de faon complmentaire, on peut s'intresser aux carts entre ces deux tableaux :
les rpartitions croises des emplois et des diplmes sont-elles similaires selon le sexe, ou au
contraire, sont-elles trs diffrentes ?

2.3.7.1 Premire analyse : les tableaux "par sexe" en lments supplmentaires dans l'AFC de
leur somme
Ouvrez le classeur Diplomes-emploi-1973.stw et observez la manire dont les donnes y ont t
saisies. Ouvrez galement le classeur Excel Diplomes-emplois-1973.xls.
On va raliser une AFC sur le tableau "somme", en plaant en lments supplmentaires les
tableaux relatifs aux donnes par sexe.
Ralisez une AFC sur les variables 1 8 du tableau de donnes Statistica :

Activez ensuite l'onglet "Points supplmentaires" et cliquez sur le bouton "Ajouter des points
lignes". Plutt que de saisir ces donnes supplmentaires la main, copiez, puis collez dans la
fentre la plage A11:I30 de la feuille "Donnees" du classeur Excel.

F.-G. Carpentier - 2012/2013

59

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Aprs avoir valid, cliquez de mme sur "Ajouter des points colonnes" et collez la plage A10:J27
de la feuille Excel "Donnees transposees".

Poursuivez ensuite l'excution de l'ACP : valeurs propres, coordonnes lignes et colonnes,


graphiques des points lignes, des points colonnes et graphique lignes et colonnes.
Pour interprter les rsultats trouvs, on commence par s'intresser aux individus lignes et colonnes
actifs. Ici, le premier axe classe les emplois et les diplmes en plaant sur la partie gauche de l'axe
"Sans diplme" et les emplois peu qualifis et sur la partie droite les diplmes "suprieurs" et les
emplois d'ingnieurs et cadres suprieurs. Le second axe oppose les diplmes et emplois "moyens"
(techniciens, cadres moyens, Bac, DEUG), qui occupent la partie ngative de l'axe aux diplmes et
emplois "extrmes" (emplois non qualifis, cadres suprieurs, sans diplme, tudes suprieures) sur
la partie positive de l'axe. Cette configuration est classique lorsque l'AFC s'applique des variables
ordinales, et porte le nom d'effet Guttman.
Pour tudier les points lignes et points colonnes supplmentaires, on compare leur position celle
du point correspondant du tableau "somme" :

F.-G. Carpentier - 2012/2013

60

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Trac 2D des Coordonnes Ligne & Colonne ; D imens ion : 1 x 2


Dimension 2; Valeur Propre : ,22397 (23,83 %d'Inertie)

Table d'Entre (Lignes x Colonnes ) : 9 x 8


Standardisation : Profils ligne et colonne
H-DEUG

0,25

0,00
H-Cadre Moyen
-0,25

-0,50

-0,75

DEU G

H-BACG
BACG
F-BACG
CadreMoyen F-DEU G

H-Tech
Tec h

F-Cadre Moy en
-1,00

F-Tec h

H-DUT

DUT
F-DUT

-1,25
0,25

0,50

0,75

1,00

1,25

1,50

1,75

2,00

C oord.L.
Suppl.Lig.
C oord.C.
Suppl.Col.

Dimens ion 1; Valeur Propre : ,53926 (57,38 % d'Inertie)

Le point DEUG, par exemple, est situ la moyenne pondre des points H-DEUG et F-DEUG.
Comme les effectifs masculins et fminins pour le DEUG sont sensiblement quivalents, ce point se
trouve approximativement au milieu du segment (H-DEUG, F-DEUG).
On constate que, sur le premier axe, pour tous les diplmes, les deux points reprsentant les
hommes et les femmes sont presque confondus. En revanche, pour les points relatifs au DEUG par
exemple, la diffrence des coordonnes sur le deuxime axe est trs importante. D'une manire
gnrale, on constate que, s'agissant des diplmes, les points relatifs aux femmes ont gnralement
une coordonne sur l'axe 2 infrieure celle du correspondant relatif aux hommes : les femmes
occupent, plus que les hommes, les emplois "moyens". Inversement, les hommes sont plus
nombreux occuper des emplois "extrmes".
Deux remarques mritent d'tre faites
- Dans l'tude mene ici, l'inertie prise en compte (Phi-2 = 0,94) est celle du tableau
"somme". On ne tient donc pas compte de la dispersion des donnes due aux discriminations
lies au sexe.
- Deux points supplmentaires correspondant aux deux sexes peuvent tre reprsents
proches l'un de l'autre sur le graphique, alors qu'il existe une forte disparit entre hommes et
femmes pour cette modalit, et nous disposons de peu de moyens pour le mettre en
vidence. Ce type de situation se produit lorsque la dispersion "entre sexes" est orthogonale
la dispersion due aux autres deux autres facteurs.

2.3.7.2 Deuxime analyse : tableaux "par sexe" juxtaposs et tableau "somme" en lments
supplmentaires.
Ralisez une autre AFC, en indiquant comme variables v9 v24.

Ajoutez comme points colonnes supplmentaires des donnes relatives au tableau somme et la
synthse des emplois par sexe, c'est--dire les plages A2:J9 et A26:J27 de la feuille Excel "Donnees
transposees".
F.-G. Carpentier - 2012/2013

61

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Dimension 2; Valeur Propre : ,32140 (24,24 % d'Inertie)

Trac 2D des Coordonnes Ligne & Colonne ; Dimension : 1 x 2


Table d'Entre (Lignes x Colonnes) : 9 x 16
Standardisation : Profils ligne et colonne
2,0
Ing
H-SUP

1,5

SUP
CadreSup
F-SUP

1,0

0,5

H-BEP/CAP
H-Sans
OuvQ
Agri
Ouvnon-Q
Sans

H-Tous Dipl

H-DEUG

H-BACT
Tech

0,0

BEP/CAP
H-BEPC
F-Sans

DEUG
H-BACG

BACT
Emplnon-Q
F-Tous Dipl
BEPC

H-DUT
CadreMoyen
F-DEUG

BACG
F-BACG

-0,5

DUT
F-DUT

F-BEPC
EmplQ
F-BEP/CAP F-BACT

-1,0
-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

Coord.L.
Coord.C.
Suppl.Col.

Dimension 1; Valeur Propre : ,55771 (42,07 % d'Inertie)

L'interprtation du graphique se fait comme prcdemment. Cependant, l'inertie du nuage de points


fait maintenant intervenir les points relatifs aux diplmes par sexe. On constate que le coefficient
Phi-2 est plus lev que dans l'tude prcdente : 1,326 au lieu de 0,940. La diffrence entre les
deux coefficients reprsente l'inertie "intra" (dispersion lie au sexe, pour chaque diplme), qui
reprsente ici presque 30% du total. Une tude plus pousse (dont les dtails sortent du cadre de ce
cours) permettrait de montrer que cette inertie intra est trs faible sur le premier axe, mais
reprsente presque la moiti de l'inertie du deuxime axe. Ainsi cette mthode permet, dans une
certaine mesure, d'valuer l'importance des carts des colonnes homologues aux colonnes
moyennes.

2.3.8 Quelques configurations remarquables dans les rsultats produits par une AFC.
On pourra consulter le fichier Configurations-Types.stw qui rassemble quelques configurations
classiques de nuages, gnres partir de donnes fictives.

2.3.8.1 Forme gnrale du nuage


L'inertie totale (le Phi-2) est un indicateur de la dispersion totale du nuage. La comparaison des
inerties de chacun des axes (c'est--dire des valeurs propres associes aux axes) renseigne sur la
forme du nuage de points. Si les premires valeurs propres sont proches les unes des autres, la
dispersion est relativement homogne : il n'y a pas vraiment de direction privilgie et le nuage de
points est approximativement sphrique. Si au contraire, les valeurs propres sont nettement
diffrentes, cela traduit un nuage de points fortement allong selon une (ou plusieurs) direction.

F.-G. Carpentier - 2012/2013

62

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Trac 2D des Coordonnes Ligne & Colonne ; Dim ens ion : 1 x 2


Table d'Entre (Lignes x Colonnes ) : 8 x 10
Dimension 2; Valeur Propre : ,08897 (26,78 % d'Inertie)

Standardi satio n : Pro fils l ig ne et colonne


0,8
0,6

L4
L8

0,4
C2

C9

C1

0,2
C7

L3

L5
C5
C6
L7

C10

0,0

C8

-0,2

L2

L1

L6

-0,4

C4
C3

-0,6
-0,8
-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

Coord.L.
Coord.C.

Dim ens ion 1; Valeur Propre : ,10941 ( 32,93 % d'Ine rtie)

2.3.8.2 Deux paquets de points - Valeurs propres proches de 1


Les valeurs propres sont toutes infrieures 1. Mais, une valeur propre proche de 1 indique une
dichotomie des donnes, c'est--dire un tableau de contingence qui, aprs reclassement des
modalits, aurait l'allure suivante :
0
0
Le nuage est alors divis en deux paquets de points. La feuille de donnes "Deux-paquets" fournit
une illustration de cette situation.
Trac 2D des Coordonnes Ligne & Colonne ; Dim ens ion : 1 x 2
Tab le d'En tre (Lign es x Colonnes ) : 1 0 x 10
Dimension 2; Valeur Propre : ,12598 (13,31 % d'Inertie)

Standardi satio n : Pro fils l ig ne et colonne


0,6
C6L7
C7
L5
C5

0,4
0,2
0,0

L1 C2
C1
L3

C4
C9
L10
L6
L4

C3
L2

-0,2

L8

-0,4
C10

-0,6

C8

-0,8
-1,0

L9

-1,2
-1,4
-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

Coord.L.
Coord.C.

Dim ens ion 1; Valeur Propre : ,67651 (71,45 % d'Inertie)

2.3.8.3 Trois paquets de points


De mme, l'existence de deux valeurs propres proches de 1 indique une partition des observations
en 3 groupes. Si toutes les valeurs propres sont proches de 1, cela indique une correspondance entre
chaque modalit ligne et une modalit colonne "associe". Avec une rorganisation convenable des
modalits, les effectifs importants se trouvent alors le long de la diagonale.
La feuille de donnes "Trois-paquets" fournit une illustration de cette situation.

F.-G. Carpentier - 2012/2013

63

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Trac 2D des Coordonnes Ligne & Colonne ; Dim ens ion : 1 x 2


Tab le d'En tre (Lign es x Colonnes ) : 1 0 x 10
Dimension 2; Valeur Propre : ,48977 (43,37 % d'Inertie)

Standardi satio n : Pro fils l ig ne et colonne


1,5
L1
1,0

C2
C3
C1 L3
L2

0,5

0,0

L9 L10
C8C9
C7
C10
L7 L8

-0,5
L6
C4

C6
C5L5
L4

-1,0

-1,5
-1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

Coord.L.
Coord.C.

Dim ens ion 1; Valeur Propre : ,55373 ( 49,04 % d'Ine rtie)

2.3.8.4 L'effet Guttman.


Un nuage de points de forme parabolique indique une redondance entre les deux variables tudies :
la connaissance de la ligne i donne pratiquement celle de la colonne j. Dans un tel cas, pratiquement
toute l'information est contenue dans le premier facteur. Cette configuration se rencontre
notamment lorsque les deux variables sont ordinales, et classent les sujets de la mme faon. Dans
ce cas, le premier axe oppose les valeurs extrmes et classe les valeurs, tandis que le deuxime axe
oppose les intermdiaires aux extrmes.
La feuille de donnes "Effet-Guttman" fournit une illustration assez caractristique de cette
situation. Dans ce cas, on a intrt ne pas limiter l'tude au plan (1, 2). La configuration-type dans
les trois plans de projection dfinis par les 3 premiers axes prend souvent les allures indiques dans
l'exemple.
Il pourra alors tre intressant d'examiner les accidents des courbes qui joignent les points, qui
refltent les particularits des situations tudies. Voir par exemple la situation des modalits L10 et
C10 dans l'exemple "Guttman-perturb".
Trac 2D des Coordonnes Ligne & Colonne ; Dim ens ion : 1 x 2
Tab le d'En tre (Lign es x Colonnes ) : 1 0 x 10

Trac 2D des Coordonnes Ligne & Colonne ; Dim ens ion : 1 x 2


Tab le d'En tre (Lign es x Colonnes ) : 1 0 x 10
Standardi satio n : Pro fils l ig ne et colonne

1,0
0,8

C1
L1

L2
C2

0,6

C9L9

C10
L10

C3

0,4

L3

C8
L8

0,2
0,0

L7

-0,2

C6
L6

-0,4

C7

L4
C4 C5
L5

-0,6
-0,8
-1,5

Dimension 2; Valeur Propre : ,23644 (21,74 % d'Inertie)

Dimension 2; Valeur Propre : ,23998 (21,36 % d'Inertie)

Standardi satio n : Pro fils l ig ne et colonne


1,2

-1,0

-0,5

0,0

0,5

1,0

1,5

Coord.L.
Coord.C.

Dim ens ion 1; Valeur Propre : ,41376 (36,84 % d'Inertie)

1,2
1,0

C1
L1

L2
C2

0,8
C9
L9

0,6

L10
0,4

C3

C8
L8
C10

L3

0,2

L7

0,0
C6
L6

-0,2

C7

-0,4
L4 C5
L5
C4

-0,6
-0,8
-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

Coord.L.
Coord.C.

Dim ens ion 1; Valeur Propre : ,42410 (38,99 % d'Inertie)

2.3.8.5 Nuage ttradrique


Le premier exemple ("Deux-paquets") est galement caractristique d'une forme classique de
nuage : ttradrique, ou en forme de "berlingot" comme on peut s'en rendre compte en construisant
les projections du nuage sur les 3 premiers axes.

F.-G. Carpentier - 2012/2013

64

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.3.9 L'extension de la notion de tableau de contingence


En toute rigueur, l'analyse de correspondances ne s'applique qu'aux tableaux de contingence. Elle
peut cependant tre applique des tableaux qui, a priori, ne sont pas des tableaux de contingence.
Un critre essentiel pour dcider si un tableau peut tre assimil un tableau de contingence est le
suivant : on doit pouvoir donner un sens la somme des cases du tableau, qu'elle soit faite par ligne
ou par colonne.

2.3.9.1 Tableaux juxtaposs


Considrons l'exemple fourni dans le classeur Echelles-Likert.stw. On obtient ainsi un point par
produit et deux points par chelle bipolaire. On peut facilement montrer que le barycentre (pondr)
des deux points correspondant une chelle donne se trouve au centre de gravit du nuage. Si le
point "+" se trouve plus prs de l'origine que le point "-", cela signifie que l'intensit de la proprit
positive est suprieure celle de la proprit ngative correspondante. Cet effet est connu sous le
nom d'effet de levier.
Trac 2D des Coordonnes Ligne & Colonne ; Dim ens ion : 1 x 2

Dimension 2; Valeur Propre : ,03630 (28,78 % d'Inertie)

Table d'Entre (Lignes x Colonnes ) : 20 x 8


Standar di satio n : Pro fils l ig ne et colonne
0,5
Di ffi ci l e
P5
te ni re nm a in Raye -

0,4
0,3
R siste l 'usage +

0,2

Ne fai tpa sb ril l erAb m el eso ngl es-

Perm etde bi en r curer+

0,1

P9
Fa cil e
rin ce r+
P2 eso deu rs+
P10
PermNe
etde
ga rd
biepa
ennslettoyer+

Neva pasdan sl esco in s-

Vad an sl escoi ns+

0,0

P8
P4l eten i re nm ai n +
Faci
N'abm ep asl e son gl es+

-0,1
-0,2

P1

Ga rd el esode ursNepe
Di ffirm
cileetpasdeb
rin ce r-ie nn etto yer-

Nellraer+
yepa s+
Fai tbri

-0,3

P3
Ne pe rm e tp asd eb ie nrcurerNersiste pa sl 'usage -

-0,4
-0,5
-0,5

-0,4

-0,3

-0,2

-0,1

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

Coord.L.
Coord.C.

Dim ens ion 1; Valeur Pr opre : ,06312 ( 50,04 % d'Ine rtie)

Dans certains cas, on peut juxtaposer, par exemple, deux tableaux de contingence correspondant
des dates diffrentes, par exemple la ventilation de la population franaise par rgion et par CSP
pour deux recensements diffrents. Il sera alors pertinent d'tudier comment chaque modalit s'est
dplace entre l'poque 1 et l'poque 2.

2.3.9.2 Juxtaposer plusieurs tableaux : vers l'ACM


Source : Hahn A., Eirmbter W. H., Jacob R., Le sida : savoir ordinaire et inscurit, traduction
franaise de Herrmann M.
Il s'agit d'une enqute ralise durant l't 1990, auprs d'un chantillon reprsentatif des mnages
de RFA.

Rsum du questionnaire :
Variable
Sexe

F.-G. Carpentier - 2012/2013

Modalit
masculin
fminin

Codage
m
f
65

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Confession

protestant
catholique
autre
sans

ev
rk
an
ke

Liens avec l'glise

forts
moyens
inexistants

f1
f2
f3

Catgorie Sociale

lves/tud
classe sup.
cl. moy. sup.
cl. moyenne
cl. moy. inf.
cl. populaire
autres

s1
s2
s3
s4
s5
s6
s7

Taille du lieu de rsidence

<2
2<5
5 < 20
20 < 50
50 < 100
100 < 500
> 500

k1
k2
k3
k4
k5
k6
k7

Classe d'ge

18 < 30
30 < 40
40 < 50
50 < 60
60 et plus

a1
a2
a3
a4
a5

Fidlit dans les rapports sexuels trs pour


plutt pour
indcis
plutt contre
trs contre

t1
t2
t3
t4
t5

Plusieurs partenaires

oui
non

p1
p2

Prfrences politiques

CDU/CSU
SPD
FDP
Verts

cd
sp
fd
gr

Nombre de situations juges contaminantes


0
1
2
3
4
5
6
F.-G. Carpentier - 2012/2013

w0
w1
w2
w3
w4
w5
w6
66

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

7
8

w7
w8

Le sida est la consquence d'une faute et d'une punition


trs pour
c1
plutt pour
c2
indcis
c3
plutt contre c4
trs contre
c5
Dispositions d'vitement et d'expulsion des contamins de la sphre personnelle
trs pour
m1
plutt pour
m2
indcis
m3
plutt contre m4
trs contre
m5
Nombre de mesures obligatoires acceptes
0
1
2
3
4
5

z0
z1
z2
z3
z4
z5

Nombre de situations en public juges dangereuses


0-1
o1
2
o2
3
o3
4
o4
5-6
o5
Le sida est un pril omniprsent
d'accord
indcis
pas d'accord

g1
g2
g3

Ouvrez le classeur Hahn.stw et observez la faon dont a t constitu le tableau de contingence : la


variable "groupe" est croise avec toutes les autres variables, et on juxtapose ainsi 14 tableaux de
contingence portant sur des populations presque identiques (presque, car pour la plupart des
questions, il y a quelques non-rponses).
Ralisez une analyse des correspondances sur ce tableau et retrouvez ainsi les rsultats de l'auteur :
"L'analyse des correspondances confirme l'existence de deux syndromes nettement
distincts, attribuables, avec la prudence qui s'impose, deux catgories ou milieux, qu' la
suite de Schulze on pourrait appeler "milieu harmoniste" et "milieu autodterministe".
Notre analyse utilise la dangerosit ressentie du sida comme la variable dcrire, les
autres caractristiques servant d'indices de cette apprciation. Etant donn les trois
configurations de la variable dcrire, une solution bidimensionnelle serait thoriquement
possible. Mais, puisque le premier axe d'inertie rend compte de 90,25% de la variation, nous
ngligerons ce deuxime axe.
F.-G. Carpentier - 2012/2013

67

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Graphique et tableau numrique montrent que la vision du sida comme pril a t


reporte sur l'ordonne. On distingue nettement deux groupes, qui approuvent ou rejettent les
termes de la question. Ceux qui ne se prononcent pas se situent entre les deux, mais sont
enclins le cas chant considrer le sida comme une maladie omniprsente et trs
infectieuse.
cela correspond la localisation des indicateurs de dispositions (perceptions,
ractions) et des repres de morphologie sociale. Les enquts considrant le sida comme un
pril le jugent trs infectieux jusque dans la vie quotidienne (3 situations courantes ou plus
juges contaminantes par un taux suprieur la moyenne). La maladie est ressentie comme
consquence et punition d'une faute morale; les dispositions d'exclusion se manifestent
nettement, et les mesures obligatoires antisida - y compris la gnralisation du test obligatoire
- rencontrent un taux d'adhsion suprieur la moyenne. Ceci vrifie nos hypothses de
dpart : pousse l'extrme, la conception du sida comme danger permanent de
contamination fait considrer comme porteurs de virus potentiels non seulement les membres
des principaux groupes risque.(donc une minorit), mais tous les trangers. Les mmes
enquts ressentent la sphre publique comme gnralement inquitante et hostile. Leurs
opinions politiques plutt conservatrices sont attestes par une prfrence trs nette pour les
partis CDU/CSU. Ce groupe comprend une proportion importante de personnes ges, de
niveau social peu lev, rsidant plutt dans des communes petites ou trs petites.
A l'inverse, ceux pour qui le sida n'est pas un pril au sens indiqu ci-dessus, ont pour
caractristique commune de ne pas chercher un risque de contamination l o, en l'tat actuel
des connaissances, un tel risque n'existe pas. On n'envisage gure la maladie en termes de
culpabilit, et on rclame rarement l'exclusion des contamins ou l'adoption de mesures
rpressives. Or, ces, personnes sont objectivement plus exposes la contamination.: la
fidlit sexuelle est juge relativement moins importante, le changement de partenaire est
relativement frquent. Les considrations thico-religieuses passent l'arrire-plan, la
proportion des personnes sans confession est relativement leve. Politiquement, ce segment
se situe majoritairement gauche du centre, avec une prfrence marque pour les Verts.
Morphologiquement, il s'agit d'une population plutt jeune, tudiante, de niveau social lev
et majoritairement citadine."

F.-G. Carpentier - 2012/2013

68

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Dimension 2; Valeur Propre : ,00687 (9,705 % d'Inertie)

Trac 2D des Coordonnes Ligne & Colonne ; Dimension : 1 x 2


Table d'Entre (Lignes x Colonnes) : 69 x 3
Standardisation : Profils ligne et colonne
0,4
m1
w6

0,3
c5
m2

0,2

an

c1

Groupe 1
z5

o5

0,1

s1

w5

w4

-0,1

m5
w0
z0
k3
a1 s3
fd
t5
t1
ke t4
mf 3
k7
cd
o1
ev p2
k1
Groupegr3 o2s2
f2
s4
a3a2 p1
o3 m4
a5 c2 t2 z3
s6
s7 f k6
z4o4
z2
z1
w1
rk
t3
s5
f 1k4 sp
a4
w3
Groupe
2
c3
k2

w8

0,0

c4

w2

-0,2

k5

m3

-0,3
-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

Coord.L.
Coord.C.

Dimension 1; Valeur Propre : ,06388 (90,29 % d'Inertie)

2.3.10 Conclusion
Au travers des exemples qui prcdent, on voit que l'AFC peut tre utilise dans des situations
varies. En revanche, comme l'indique Philippe Cibois dans son article "les piges de l'AFC", il
existe des situations o il vaut mieux s'abstenir d'utiliser cette mthode :
- L'AFC mettra toujours en vidence des attractions - rpulsions entre modalits lignes et modalits
colonne. Mais, lorsqu'on travaille sur un chantillon et que le khi-2 du tableau de contingence n'est
pas significatif, l'effet mis en vidence n'est que le fruit du hasard.
- L'AFC n'a d'intrt que si notre tude porte sur les liaisons existant entre lignes et colonnes.
Comme exemple, caricatural, d'un mauvais usage de l'AFC, P. Cibois fournit le tableau suivant qui
donne, pour 30 pays, le nombre de mdailles d'or, d'argent et de bronze obtenues aux Jeux
Olympiques d'Atlanta :
Or
Etats-Unis
Russie
Allemagne
Chine
France
Italie
Australie
Cuba
Ukraine
Core du Sud
Pologne
Hongrie
Espagne
Roumanie
Pays-Bas

F.-G. Carpentier - 2012/2013

44
26
20
16
15
13
9
9
9
7
7
7
5
4
4

Argent
32
21
18
22
7
10
9
8
2
15
5
4
6
7
5

Bronze
25
16
27
12
15
12
23
8
12
5
5
10
6
9
10

69

Or
Grce
Tchquie
Suisse
Danemark
Turquie
Canada
Bulgarie
Japon
G.-Bretagne
Iran
Armnie
Portugal
Costa-Rica
Slovnie
Zambie

4
4
4
4
4
3
3
3
1
1
1
1
1
0
0

Argent
4
3
3
1
1
11
7
6
8
1
1
0
0
2
1

Bronze
0
4
0
1
1
8
5
5
6
1
0
1
0
0
0

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Le pays le plus "attir" par la modalit "Or" est le Costa-Rica, qui n'a obtenu qu'une seule mdaille,
mais en or, alors que des pays tels que Cuba et l'Iran, avec des palmars trs diffrents, sont
reprsents proches l'un de l'autre, au voisinage de l'origine. En effet, les rsultats de l'AFC ne
concernent pas le nombre de mdailles obtenues par les diffrents pays, mais l'cart entre les
proportions de mdailles de bronze, argent, or obtenues par le pays et la distribution totale (environ
1/3 de mdailles de chaque type). Mais cet cart constitue-t-il vraiment un sujet d'tude ?
Trac 2D des Coordonnes Ligne & Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 31 x 3
Standardisation : Profils ligne et colonne
1,5

Dimension 2; Valeur Propre : ,05629 (44,38 % d'Inertie)

Costa-Rica

1,0

Danemark
Turquie

Portugal

0,5
Suisse
Armnie
Grce

0,0

Or
Ukraine
France
Etats-Unis
Pologne
Russie
Italie
Tchquie
Hongrie
Cuba
Iran Allemagne
Bronze
Chine
Espagne
Australie
Pays-Bas
Argent
Roumanie
CoreduSud
Japon
Bulgarie
Ouganda

Canada
-0,5

G.-Bretagne

Zambie
Slovnie
-1,0
-1,0

-0,5

0,0

0,5

Dimension 1; Valeur Propre : ,07053 (55,62 % d'Inertie)

F.-G. Carpentier - 2012/2013

70

1,0

1,5

Coord.L.
Coord.C.

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.4 Analyse des Correspondances Multiples


2.4.1 Introduction
L'analyse factorielle des correspondances, vue dans le paragraphe prcdent, s'applique des
situations o les individus statistiques sont dcrits par deux variables nominales. Mais il est frquent
que l'on dispose d'individus dcrits par plusieurs (deux ou plus) variables nominales ou ordinales.
C'est notamment le cas lorsque nos donnes sont les rsultats d'une enqute base sur des questions
fermes. Une extension de l'AFC ces situations a donc t propose. Elle est gnralement appele
Analyse des Correspondances Multiples1 ou ACM.
Nous nous plaons donc dans la situation o nous disposons de N individus statistiques, dcrits par
q variables nominales ou ordinales X1, X2, ..., Xq. L'ACM vise mettre en vidence :
- les relations entre les modalits des diffrentes variables ;
- ventuellement, les relations entre individus statistiques ;
- les relations entre les variables, telles qu'elles apparaissent partir des relations entre
modalits.

2.4.2 Forme des donnes d'entre


Selon leur origine, les donnes sur lesquelles nous nous proposons de faire une ACM peuvent se
prsenter sous diffrentes formes.
Imaginons, par exemple, une mini-enqute dans laquelle nous avons pos trois questions 10
sujets : le sexe (F ou H), le niveau de revenus (M : modeste, E : lev) et leur prfrence sur un
sujet donn (3 modalits : A, B ou C). Les donnes peuvent se prsenter sous l'une des formes
dcrites ci-dessous. Le classeur Mini-ACM.stw contient 5 feuilles de donnes correspondant ces 5
formes.

2.4.2.1 Tableau protocole


1
Sexe
s1
s2
s3
s4
s5
s6
s7
s8
s9
s10

F
F
F
F
F
H
H
H
H
H

2
Revenu
M
M
E
E
E
E
E
M
M
M

Cette mthode est aussi parfois appele homogeneity analysis.


F.-G. Carpentier - 2012/2013
71

3
Preference
A
A
B
C
C
C
B
B
B
A

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.4.2.2 Tableau d'effectifs


1
Sexe
1
2
3
4
5
6
7

F
F
F
H
H
H
H

2
3
4
Revenu Preference Effectif
M
A
2
E
B
1
E
C
2
E
C
1
E
B
1
M
B
2
M
A
1

2.4.2.3 Tableau disjonctif complet


Le tableau disjonctif complet ou TDC comporte une colonne pour chaque modalit des variables
tudies et une ligne pour chaque individu statistique. Les cellules du tableau contiennent 1 ou 0
selon que l'individu considr prsente la modalit ou non.
1
Sexe:F
s1
s2
s3
s4
s5
s6
s7
s8
s9
s10

2
Sexe:H
1
1
1
1
1
0
0
0
0
0

3
Rev:M
0
0
0
0
0
1
1
1
1
1

4
Rev:E
1
1
0
0
0
0
0
1
1
1

5
Pref:A
0
0
1
1
1
1
1
0
0
0

6
Pref:B
1
1
0
0
0
0
0
0
0
1

7
Pref:C
0
0
1
0
0
0
1
1
1
0

0
0
0
1
1
1
0
0
0
0

2.4.2.4 Tableau disjonctif des patrons


En regroupant les lignes identiques du tableau disjonctif complet, on obtient le tableau disjonctif
des patrons :
1
Sexe:F
FMA
FEB
FEC
HEC
HEB
HMB
HMA

2
Sexe:H
2
1
2
0
0
0
0

3
Rev:M
0
0
0
1
1
2
1

4
Rev:E
2
0
0
0
0
2
1

5
Pref:A
0
1
2
1
1
0
0

6
Pref:B
2
0
0
0
0
0
1

7
Pref:C
0
1
0
0
1
2
0

0
0
2
1
0
0
0

2.4.2.5 Tableau de Burt


L'ACM peut galement tre ralise partir d'une structuration particulire des donnes, appele
tableau de Burt (TdB). Ce dernier tableau comporte une ligne et une colonne pour chaque modalit
des variables tudies. Chaque cellule du tableau indique le nombre d'individus statistiques qui
possdent en mme temps la modalit ligne et la modalit colonne correspondantes. Le tableau de
Burt apparat ainsi comme une juxtaposition de tableaux de contingence des variables prises deux
deux.

F.-G. Carpentier - 2012/2013

72

PSR92C - Analyse multidimensionnelle des donnes


Table Observe (Effectifs) (Protocole dans Classeur2)
Table d'Entre (Lignes x Colonnes) : 7 x 7 (Table de Burt)
F
H
M
E
A
B
Sexe:F
Sexe:H
Revenu:M
Revenu:E
Preference:A
Preference:B
Preference:C

5
0
2
3
2
1
2

0
5
3
2
1
3
1

2
3
5
0
3
2
0

3
2
0
5
0
2
3

2
1
3
0
3
0
0

2012/2013

C
1
3
2
2
0
4
0

2
1
0
3
0
0
3

On peut noter qu'il est possible, sans grand problme de passer de l'une des 4 premires structures
de donnes une autre. De mme, le TdB peut tre obtenu facilement partir du tableau disjonctif
complet. En revanche, il n'existe pas de moyen simple pour recomposer l'une des 4 premires
structures de donnes partir du tableau de Burt.

2.4.3 Quelques rgles d'interprtation


On cherchera d'une part interprter les oppositions entre modalits (ou entre groupes d'individus,
si l'tude porte sur le TDC), et d'autre part interprter les proximits entre modalits.

L'interprtation des proximits entre les modalits devra tenir compte de la remarque suivante :
- Si deux modalits d'une mme variable sont proches, cela signifie que les individus qui
possdent l'une des modalits et ceux qui possdent l'autre sont globalement similaires du
point de vue des autres variables ;
- Si deux modalits de deux variables diffrentes sont proches, cela peut signifier que ce sont
globalement les mmes individus qui possdent l'une et l'autre.
Nous pouvons, comme en AFC, nous intresser aux profils ligne et colonne, aux taux de liaison et
au 2 du tableau disjonctif complet, vu comme un tableau de contingence. Le nombre de lignes de
ce tableau est gal au nombre d'individus statistiques tudis. Cependant, nous avons vu que la
mtrique du 2 , utilise pour l'AFC, possde la proprit d'quivalence distributionnelle : si on
regroupe deux lignes correspondant au mme patron de rponses, on ne change rien aux autres
profils lignes, ni aux autres profils colonnes. Autrement dit, on retrouvera les mmes rsultats en
effectuant une AFC sur le tableau disjonctif des patrons.
Comme en AFC, on peut calculer des frquences, des frquences lignes, des frquences colonnes et
des profils lignes et profils colonnes moyens.
L'lment le plus facile interprter est le profil colonne moyen : ce sont les frquences des
diffrents patrons de rponses dans la population tudie.
L'lment le plus facile interprter est le profil colonne moyen : ce sont les frquences des
diffrents patrons de rponses dans la population tudie.
Le profil ligne moyen est obtenu en calculant, pour chaque modalit, le quotient de sa frquence par
le nombre Q de questions. En notant respectivement nk et fk l'effectif et la frquence de la modalit
k, on a :
n
Nombre d ' individus ayant choisi la modalit k
fk = k =
N
Nombre total d ' individus
et le k-ime lment du profil-ligne moyen est :
F.-G. Carpentier - 2012/2013

73

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

f
n
Nombre d ' individus ayant choisi la modalit k
f k = k = k =
Q QN
Nombre de questions Nombre total d ' individus
N.B. Ici, fk et fk dsignent des quantits diffrentes : fk est la frquence de la modalit k dans la
population tudie; fk est dfinie comme pour l'AFC, frquence ligne marginale de la k-ime
colonne du tableau disjonctif des patrons.

2.4.3.1 Taux de liaison et Phi-2


Pour le tableau disjonctif complet, ou le tableau disjonctif des patrons, considrs comme des
tableaux de contingence, le coefficient Phi-2 vaut :
K Q Nombre de modalits Nombre de questions
2 =
=
Q
Nombre de questions
o K dsigne le nombre de modalits et Q le nombre de questions

7
1 = 1,33.
3
Ce coefficient reprsente l'inertie totale du nuage de points des modalits colonnes. On montre que
l'inertie absolue de chacune des questions est donne par :
K 1
I (X q ) = q
Q

Dans notre exemple, on a : K=7, Q=3, et donc : 2 =

o Kq reprsente le nombre de modalits de la question q.


L'inertie relative de chacune des questions est donne par :
K 1
Nb de modalits de la question 1
Inr ( X q ) = q
=
K Q Nb total de modalits - Nb de questions
Sur notre exemple, on a, pour l'inertie absolue :

I (Sexe) = I (Revenu ) =
I (Pref ) =

2 1
= 0,33
3

3 1
= 0,67
3

Quant aux inerties relatives :

Inr (Sexe) = Inr (Revenu) =


Inr (Pref ) =

2 1
= 25%
4

3 1
= 50%
4

L'inertie d'une question est ainsi directement lie au nombre de ses modalits : on vitera donc
d'utiliser la mthode lorsque les diffrentes questions prsentent des nombres de modalits trop
diffrents.

2.4.3.2 Distances entre profils lignes


En AFC, nous avions donn les formules permettant de calculer les distances entre deux profils
lignes ou entre deux profils colonnes. La distance utilise est la mtrique du 2 . Ici, compte tenu de
la structure particulire du tableau de contingence utilis, les formules indiques deviennent :

F.-G. Carpentier - 2012/2013

74

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

d 2 2 ( Li , Li ' ) =

1
( ik i ' k )

Q k
fk

Notations utilises : Li et Li' dsignent deux patrons, Q est le nombre de questions. ik prend la
valeur 1 si la modalit k fait partie du patron i, et la valeur 0 sinon. Enfin, f k est la frquence de la
modalit k dans la population.
Cette formule montre que deux individus (ou deux patrons) sont d'autant plus loigns que leurs
rponses diffrent pour un plus grand nombre de questions et pour des modalits rares. Cette
formule peut encore tre crite sous la forme :
1
1
d2 2 ( Patron i, Patron i') =

Nb de Questions
frquence de la modalit k
o la somme est tendue toutes les modalits faisant partie de l'un des deux patrons, sans faire
partie des deux patrons.
Autrement dit, deux individus (ou deux patrons) sont d'autant plus loigns que leurs rponses
diffrent pour un plus grand nombre de questions et pour des modalits rares.
Ainsi, sur notre exemple :
1 1
1
d 2 2 ([FMA],[HMA]) =
+
= 1,33
3 0,5 0,5
La distance d'un patron au profil ligne moyen est :
1
d 2 2 (O, Li ) = ik 1
Q k fk
Autrement dit, un patron sera d'autant plus loin de l'origine qu'il fait intervenir des modalits plus
rares. On peut aussi crire cette formule sous la forme :

1
1
1
d2 2 (O, Patron i) =

frquence de la modalit k
Nombre de Questions
o la somme est tendue toutes les modalits faisant partie du patron i.

Par exemple :

1 1
1
1
d 2 2 (O, [ FMA]) =
+
+
1 = 1,44
3 0,5 0,5 0,3
La contribution (absolue) d'un patron la variance du nuage est obtenue en multipliant la distance
prcdente par la frquence du patron dans la population.

2.4.3.3 Distances entre profils colonnes


La distance entre les modalits k et k' est donne par :
1
1
f
n + n k' 2n kk'
d2 2 (M k , M k' ) = +
2 kk' = k
f k f k'
f k f k'
n k n k' / n
o f kk ' est la frquence de la combinaison de modalits k et k', ou encore :
Effectif de k + Effectif de k ' 2 Effectif de la combinaison k & k '
d2 2 ( M k , M k' ) =
Effectif de k Effectif de k ' / Effectif total

F.-G. Carpentier - 2012/2013

75

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Deux modalits sont dautant plus loignes quelles sont de frquences faibles et rarement
rencontres simultanment.
Exemple :

d 2 2 (Sexe : F, Revenu : M ) =

1
1
0,2
5 + 5 2 2
+
2
=
= 2,4
0,5 0,5
0,5 0,5
5 5 / 10

La distance d'une modalit au profil colonne moyen est donne par :


1
n
Effectif total
d2 2 (O, M k ) = 1 = 1 =
1
nk
Effectif de k
fk
Autrement dit, une modalit sera d'autant plus loigne du profil moyen que sa frquence est faible.
Afin d'viter que quelques modalits trs rares ne prennent une importance excessive dans les
rsultats obtenus, il sera ncessaire de regrouper les modalits de frquence trop faible (frquence
infrieure 5% par exemple).
Exemple :

d 2 2 (O, Pref : B) =

1
10
1 = 1 = 1,5
0,4
4

La contribution absolue d'une modalit la variance du nuage de points est :


1 fk
Cta ( M k ) =
Q
La contribution relative d'une modalit la variance du nuage de points est :
1 fk
Ctr ( M k ) =
K Q
Exemples :
1 0,5
Ctr ([Sexe : F]) =
= 12,5%
4
1 0,3
Ctr ([Pref : A]) =
= 17,5%
4

2.4.4 Rsultats de l'ACM sur l'exemple


Le tableau des valeurs propres est donn par :
Valeurs Propres et Inertie de toutes les Dimensions (Protocole dans Mini-ACM-v7.stw)
Table d'Entre (Lignes x Colonnes) : 7 x 7 (Table de Burt)
Inertie Totale = 1,3333
Nombre ValSing. ValProp.
%age
%age
Chi
de Dims.
Inertie
Cumul
1
0,7764
0,6028 45,2128 45,2128 25,3794
2
0,6810
0,4637 34,7781 79,9909 19,5221
3
0,4505
0,2030 15,2219 95,2128 8,5446
4
0,2526
0,0638
4,7872 100,0000 2,6872

Taux d'inertie modifis


La dcroissance des valeurs propres est en gnral trs lente. Pour dterminer le nombre d'axes
factoriels conserver, Benzcri a propos de calculer des taux d'inertie modifis en utilisant la
mthode suivante.
F.-G. Carpentier - 2012/2013

76

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

K Q
La somme des valeurs propres est gale l'inertie totale, c'est--dire
et la moyenne des
Q
1
1
valeurs propres est gale m = =
. On ne conserve que les valeurs propres
Q Nb de questions
suprieures m et on calcule pour chacune d'entre elles : ' = ( m ) 2 . Le taux d'inertie modifi
'
et on conserve les valeurs propres dont le taux modifi est suprieur la
est alors calcul par :
'
moyenne (des taux modifis). Pour l'exemple trait, l'application de cette mthode donne les
rsultats suivants :
1
= 0,33 , ce qui conduit ne conserver que les 2
3
premires valeurs propres. La transformation prcdente donne alors :
La moyenne des valeurs propres est : m =

Nb de dim.
1
2
3
4

Val Prop.
0,6028
0,4637
0,2030
0,0638

' = ( m ) 2
0,0726
0,0170

Taux d'inertie modifi


81,04%
18,96%

Le taux d'inertie modifi moyen est de 100%/2= 50%. Seule la premire valeur propre dpasse ce
taux, mais une tude limite seulement au premier axe principal prsenterait peu d'intrt. Nous
tudierons donc les deux premiers.
Remarque : Selon Benzcri, les taux modifis reprsentent l'cart du nuage de points par rapport au
nuage parfaitement sphrique qui serait obtenu si aucun lien n'existait entre les modalits.

NomLigne
Sexe:F
Sexe:H
Revenu:M
Revenu:E
Preference:A
Preference:B
Preference:C

Coordonnes Colonne et Contributions l'Inertie (Protocole dans Mini-ACM-v7.stw)


Table d'Entre (Lignes x Colonnes) : 7 x 7 (Table de Burt)
Inertie Totale = 1,3333
Ligne Coord. Coord. Masse Qualit Inertie Inertie CosinusInertie Cosinus
Numro Dim.1 Dim.2
Relative Dim.1 Dim.1 Dim.2 Dim.2
1

-0,311

0,788

0,311

-0,788

0,167

0,718

0,125

0,027

0,097

0,223

0,621

0,938

0,138

0,167

0,899

0,125

0,243

0,880

0,007

0,019

-0,938

-0,138

0,167

0,899

0,125

0,243

0,880

0,007

0,019

1,032

1,024

0,100

0,906

0,175

0,177

0,456

0,226

0,450

0,193

-1,007

0,133

0,701

0,150

0,008

0,025

0,292

0,677

-1,288

0,319

0,100

0,755

0,175

0,275

0,711

0,022

0,044

F.-G. Carpentier - 2012/2013

0,167

77

0,718

0,125

0,027

0,097

0,223

0,621

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2


Table d' Entr e( Lignes x Colonnes) : 7x 7 (Table de Burt)
Dimension 2; Valeur Propre : ,46371 (34,78 % d'Inertie)

1,5
Preference:A
1,0
Sexe:F
0,5

Preference:C
Revenu:M

0,0

Revenu:E

-0,5
Sexe:H
Preference:B

-1,0

-1,5
- 2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

Dimension 1; Valeur Propre : ,60284 (45,21 % d'Inertie)

Bien que l'exemple ne comporte qu'un petit nombre d'observations, on remarque la proximit des
modalits Prfrence:B et Sexe:H, de mme que l'opposition Prfrence C, revenu E d'une part,
Prfrence A, Revenu M d'autre part selon le premier axe.
On note galement que l'origine du repre est le milieu du segment joignant les deux modalits de la
variable "Sexe", et aussi le milieu du segment joignant les deux modalits de la variable "Revenu".
En effet, ces deux variables ont seulement deux modalits (d'o l'alignement de l'origine avec les
modalits) et les deux modalits sont quiprobables (d'o la proprit du milieu).
La reprsentation du nuage de points reprsentant simultanment les modalits et les patrons de
rponses est la suivante :
Trac 2D des Coordonnes Ligne & Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 7 x 7
Standardisation : Profils ligne et colonne
Dimension 2; Valeur Propre : ,46371 (34,78 % d'Inertie)

1,5

FMA

1,0

Pref:A

Sexe:F
0,5

FEC
Pref:C
HMA
Rev:M

0,0

Rev:E
HEC

FEB

-0,5
Sexe:H HMB
HEB
-1,0

-1,5
-2,0

-1,5

-1,0

-0,5

Pref:B

0,0

0,5

1,0

1,5

Coord.L.
Coord.C.

Dimension 1; Valeur Propre : ,60284 (45,21 % d'Inertie)

L'tude mene partir du tableau de Burt mrite un commentaire particulier. En effet, dans un
expos thorique sur l'ACM, tels que ceux de [Crucianu] ou de [Rouanet, Le Roux], l'analyse du
tableau de Burt est distingue de celle du TDC ou du tableau disjonctif des patrons. Il est
notamment indiqu que les valeurs propres produites par cette analyse sont les carrs des valeurs
propres prcdentes, et que le Phi-2 du tableau de Burt n'est pas celui du TDC. Cependant, les
reprsentations graphiques produites (limites aux seules modalits) peuvent tre interprtes de
faon analogue.

F.-G. Carpentier - 2012/2013

78

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Lorsque l'on effectue une AFC en spcifiant le tableau de Burt comme tableau de contingence, on
retrouve alors les rsultats indiqus dans les exposs thoriques. Par exemple, le tableau des valeurs
propres est alors donn par :
Valeurs Propres et Inertie de toutes les Dimensions (Tableau de Burt dans Mini-ACM-v7.stw)
Table d'Entre (Lignes x Colonnes) : 7 x 7
Inertie Totale = ,62370 Chi = 56,133 dl = 36 p = ,01747
Nombre ValSing. ValProp.
%age
%age
Chi
de Dims.
Inertie
Cumul
1
0,6028
0,3634 58,2668 58,2668 32,7071
2
0,4637
0,2150 34,4755 92,7423 19,3523
3
0,2030
0,0412
6,6045 99,3468 3,7073
4
0,0638
0,0041
0,6532 100,0000 0,3667
0,0000
0,0000
0,0000 100,0000 0,0000
5
6
0,0000
0,0000
0,0000 100,0000 0,0000

2.4.5 Exploration de l'ACM sur des mini-exemples


Etudions comment seront disposes les modalits colonnes lorsque la situation comporte 2
questions A et B 2 modalits chacune (respectivement A1 et A2, B1 et B2). L'espace de
reprsentation est alors de dimension 2, autrement dit, l'ACM produit une reprsentation non
dforme dans un plan.

Cas 1 : les effectifs des modalits sont donns par :


A1
B1
B2
Total

A2
50
50
100

Total
100
100
200

50
50
100

La reprsentation est alors :


Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)
Dimension 2; Valeur Propre : ,50000 (50,00 % d'Inertie)

1,5

B:B2

1,0

0,5

0,0

A:A1

A:A2

-0,5

B:B1

-1,0

-1,5
-1,5

-1,0

-0,5

0,0

0,5

1,0

Dimension 1; Valeur Propre : ,50000 (50,00 % d'Inertie)

Cas 2 : les effectifs des modalits sont donns par :


A1
B1
B2
Total
F.-G. Carpentier - 2012/2013

A2
80
80
160

20
20
40
79

Total
100
100
200

1,5

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

A2 est alors plus loign de O que A1. B1 et B2 sont gale distance de O, et cette distance est
intermdiaire entre celle de A1 et celle de A2. La reprsentation est alors :
Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)
Dimension 2; Valeur Propre : ,50000 (50,00 % d'Inertie)

1,5

B:B2

1,0

0,5

0,0

A:A2

A:A1

-0,5

B:B1

-1,0

-1,5
-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

Dimension 1; Valeur Propre : ,50000 (50,00 % d'Inertie)

Cas 3 : les effectifs des modalits sont donns par :


A1
B1
B2
Total

A2
72
48
120

Total
120
80
200

48
32
80

A2 est alors plus loign de O que A1. A1 et B1 sont gale distance de O, et cette distance est
intermdiaire entre celle de A1 et celle de A2. La reprsentation est alors :
Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)
Dimension 2; Valeur Propre : ,50000 (50,00 % d'Inertie)

1,5

1,0

A:A1

0,5

B:B1

0,0

B:B2

-0,5

-1,0
A:A2
-1,5
-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

Dimension 1; Valeur Propre : ,50000 (50,00 % d'Inertie)

Cas 4 : les effectifs des modalits sont donns par :


A1
B1
B2
Total

A2
80
50
130

50
20
70

Total
130
70
200

La situation est en apparence analogue la prcdente. En fait l'inertie due aux combinaisons de
modalits l'emporte ici sur celle lie aux questions, et on obtient :
F.-G. Carpentier - 2012/2013

80

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2


Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)

Dimension 2; Valeur Propre : ,45055 (45,05 % d'Inertie)

1,2
1,0

A:A2

B:B2

0,8
0,6
0,4
0,2
0,0
-0,2
-0,4

B:B1

A:A1

-0,6
-0,8
-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

Dimension 1; Valeur Propre : ,54945 (54,95 % d'Inertie)

Cas 5 : les effectifs des modalits sont donns par :


A1

A2

B1
B2
Total

73
40
113

Total
129
72
201

56
32
88

C'est la situation la plus gnrale. On obtient :


Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)

Dimension 2; Valeur Propre : ,49501 (49,50 % d'Inertie)

1,2
1,0

B:B2

0,8
A:A1
0,6
0,4
0,2
0,0
-0,2
-0,4

B:B1

-0,6
A:A2

-0,8
-1,0
-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

Dimension 1; Valeur Propre : ,50499 (50,50 % d'Inertie)

2.4.6 ACM avec Statistica


Comme l'indiquent Rouanet et Le Roux :

Effectuer l'analyse des correspondances multiples, c'est effectuer l'analyse factorielle des
correspondances du tableau disjonctif complet, muni des relations K<Q> (modalits embotes
dans les questions) et I<K<q>> (individus embots dans les modalits de chaque question).
Quelle que soit la forme des donnes d'entre, l'ACM sera ralise partir du menu Statistiques Techniques exploratoires multivaries - Analyse des correspondances. Mais, selon la structure des
F.-G. Carpentier - 2012/2013

81

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

donnes, c'est l'onglet "Analyse de correspondances" ou l'onglet "Analyse des correspondances


multiples (ACM)" qui sera utilis, selon le tableau suivant :

Format des donnes


Tableau protocole

Onglet
"Analyse
Correspondances"
Non

Tableau d'effectifs

Non

Tableau Disjonctif
Complet
Tableau Disjonctif des
patrons
Tableau de Burt

Oui

des Onglet
"Analyse
des Observations
Correspondances Multiple"
Oui
AFC impossible si
plus de 2 variables
Oui
AFC impossible si
plus de 2 variables
Non

Oui

Non

Oui

Oui

Les deux analyses ne


fournissent pas les
mmes rsultats

Exemple.
Ref. L'exemple qui suit est accessible sur Internet partir des adresses :
http://www.skeptron.uu.se/broady/sec/k-10-gda.htm
http://www.math-info.univ-paris5.fr/~lerb/livres/MCA/MCA_en.html
Le Roux, B., Rouanet, H., Savage, M., Warde, A., Class and Cultural Division in the UK,
Sociology 2008, No 42, pp.1042-1071
http://soc.sagepub.com/content/42/6/1049
Il s'agit vraisemblablement de donnes recueillies dans le cadre de l'enqute "Cultural Capital and
Social Exclusion" (CCSE) administre en 2003 et 2004 au Royaume-Uni par le National Centre for
Social Research.
Le questionnaire comportait notamment les questions suivantes :
Q1 : do you prefer leisure activities you ca
Leisure:friends
Leisure:family
Leisure:alone
Leisure:partner
Q2 : Would you say that during your free time
lack time
always sth to do
Stimes nothing to do
often do nothing
Q3 : If you had more time, 1st choice would b
home DIY
artistic activities
to rest
develop knowledge
physical activities
take care of family
to take courses
F.-G. Carpentier - 2012/2013

82

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Q4 : When you go out in the evening, do you u


GoingOut:friends
GoingOut:alone
GoingOut:partner
don't go out
GoingOut:family
Q5 : Time watching TV (hours by week)
TV:never
TV:<10h
TV:[10;19h[
TV:[19;30h[
TV:>=30h
Q6 : # of books or comic trips during last 12
no book
1-4 books
5-12 books
13 -39 books
40 books or more
QS1 : Gender
women
men
QS2 : Education level
no degree
CEP
CAP-BEP
BEPC
Bac
Bac+2
>Bac+2
Students
QS3 : Age
<=25
25-35
35-45
45-55
55-65
>65
QS4 : PCS
Femmes au foyer
Retraits
Etudiants, lves
Autres inactifs
Cadres et profession
Employs
Ouvriers non qualifi
Professions intermd
Artisans, commerant
F.-G. Carpentier - 2012/2013

83

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Ouvriers qualifis
Agriculteurs
Ouvrez le fichier Culture.stw. Les donnes y sont saisies sous forme de tableau protocole. Deux
jeux de donnes sont disponibles :
- la feuille de donnes Culture contient les rsultats relatifs 3002 observations, mais un
certain nombre de rponses aux questions qui feront l'objet de l'ACM (Q1, Q2, Q3, Q4, TV et Q6)
sont incompltes, et la variable ISUP indique que les individus correspondants sont rendus
"inactifs".
- la feuille de donnes Culture (Actifs) contient les rponses des 2720 individus actifs.
Ralisons, par exemple, une ACM sur les variables Q1, Q2, Q3, Q4, TV et Q6, partir du tableau
protocole. Aprs avoir dclar cette feuille de donnes comme 'feuille active", on slectionne
l'onglet "Analyse des correspondances multiple" et on complte le premier dialogue comme suit :

Une fois ce dialogue valid, un second dialogue s'affiche :

Le bouton "Effectifs Observs de l'onglet "Etude" permet d'obtenir un tableau similaire au tableau
de Burt. Les pourcentages ligne, pourcentages colonne, khi-2, etc utilisent ce dernier tableau.
L'onglet "Avanc" permet d'obtenir les autres rsultats :

F.-G. Carpentier - 2012/2013

84

PSR92C - Analyse multidimensionnelle des donnes


2012/2013
Valeurs Propres et Inertie de toutes les Dimensions (culture(Actifs) dans Culture.stw)
Table d'Entre (Lignes x Colonnes) : 30 x 30 (Table de Burt)
Inertie Totale = 4,0000
%age
%age
Chi
Nombre ValSing. ValProp.
Inertie
Cumul
de Dims.
1
0,5409
0,2925
7,3131
7,3131
5080,9201
2
0,4914
0,2415
6,0374 13,3504
4194,5915
3
0,4742
0,2248
5,6210 18,9714
3905,2809
4
0,4553
0,2073
5,1814 24,1528
3599,8892
5
0,4416
0,1950
4,8745 29,0273
3386,6677
6
0,4281
0,1832
4,5808 33,6081
3182,5987
7
0,4230
0,1790
4,4738 38,0818
3108,2367
8
0,4193
0,1758
4,3960 42,4779
3054,2426
9
0,4162
0,1733
4,3313 46,8092
3009,2644
10
0,4108
0,1688
4,2197 51,0288
2931,6975
11
0,4068
0,1655
4,1363 55,1651
2873,7570
12
0,4007
0,1605
4,0132 59,1783
2788,2769
13
0,3991
0,1593
3,9821 63,1605
2766,6609
14
0,3952
0,1562
3,9042 67,0646
2712,5159
15
0,3905
0,1525
3,8123 70,8769
2648,6693
16
0,3881
0,1506
3,7658 74,6427
2616,3419
17
0,3801
0,1445
3,6113 78,2540
2509,0210
18
0,3777
0,1427
3,5665 81,8205
2477,8935
19
0,3691
0,1362
3,4062 85,2267
2366,5577
20
0,3618
0,1309
3,2734 88,5000
2274,2318
21
0,3535
0,1249
3,1235 91,6236
2170,1442
22
0,3469
0,1203
3,0083 94,6319
2090,0819
23
0,3417
0,1168
2,9198 97,5517
2028,5967
24
0,3129
0,0979
2,4483 100,0000 1701,0171

Taux d'inertie modifis


On ne conserve que les valeurs propres suprieures m et on calcule pour chacune d'entre elles :
'
' = ( m ) 2 . Le taux d'inertie modifi est alors calcul par :
et on conserve les valeurs
'
propres dont le taux modifi est suprieur la moyenne (des taux modifis). Pour l'exemple trait,
l'application de cette mthode donne les rsultats suivants :
ValSing. ValProp.
1
2
3
4
5
6
7
8
9
10
11
12
13
14

0,5409
0,4914
0,4742
0,4553
0,4416
0,4281
0,4230
0,4193
0,4162
0,4108
0,4068
0,4007
0,3991
0,3952

F.-G. Carpentier - 2012/2013

0,2925
0,2415
0,2248
0,2073
0,1950
0,1832
0,1790
0,1758
0,1733
0,1688
0,1655
0,1605
0,1593
0,1562

Val. Prop.
Modifies
0,0158
0,0056
0,0034
0,0016
0,0008
0,0003
0,0002
0,0001
0,0000
0,0000

85

%age modifi

Cumuls

56,92%
20,12%
12,16%
5,92%
2,88%
0,99%
0,54%
0,30%
0,16%
0,02%

56,92%
77,04%
89,20%
95,12%
98,00%
98,98%
99,53%
99,83%
99,98%
100,00%

PSR92C - Analyse multidimensionnelle des donnes

15
16
17
18
19
20
21
22
23
24

0,3905
0,3881
0,3801
0,3777
0,3691
0,3618
0,3535
0,3469
0,3417
0,3129

2012/2013

0,1525
0,1506
0,1445
0,1427
0,1362
0,1309
0,1249
0,1203
0,1168
0,0979
0,1667

0,0278

Le taux d'inertie modifi moyen est de 100%/10= 10%. Les trois premires valeurs propres
modifies dpassent ce taux. Nous tudierons ici les deux premiers axes.
Les coordonnes, contributions et qualits de reprsentation sont donnes dans le tableau cidessous.
Coordonnes Colonne et Contributions l'Inertie (culture(Actifs) dans Culture.stw)
Table d'Entre (Lignes x Colonnes) : 30 x 30 (Table de Burt)
Inertie Totale = 4,0000
Ligne Coord. Coord. Masse Qualit Inertie Inertie Cosinus Inertie Cosinus
Numro Dim.1 Dim.2
Relative Dim.1 Dim.1 Dim.2 Dim.2
NomLigne
-0,033
0,537
0,031
0,066
0,034
0,000
0,000
0,037
0,066
Q1:Leisure:partner
1
-0,563
0,065
0,413
0,025
0,073
0,211
0,085
0,202
Q1:Leisure:friends
2 0,575
0,841
0,044
0,343
0,031
0,037
0,089
0,129
0,254
Q1:Leisure:family
3 -0,498
-0,645
0,027
0,134
0,035
0,027
0,055
0,046
0,079
Q1:Leisure:alone
4 -0,540
-0,091
0,071
0,047
0,024
0,013
0,041
0,002
0,006
Q2:always sth to do
5 -0,236
0,392
0,396
0,069
0,218
0,024
0,036
0,108
0,045
0,110
Q2:lack time
6
-0,707
0,015
0,049
0,038
0,000
0,000
0,031
0,049
Q2:Stimes nothing to do 7 0,071
-0,840
0,012
0,123
0,039
0,035
0,067
0,036
0,056
Q2:often do nothing
8 -0,914
0,022
0,026
0,094
0,035
0,045
0,094
0,000
0,000
Q3:home DIY
9 -0,715
-0,003
0,024
0,082
0,036
0,040
0,082
0,000
0,000
Q3:artistic activities
10 0,695
-0,741
0,019
0,159
0,037
0,045
0,089
0,042
0,069
Q3:to rest
11 -0,843
-0,171
0,028
0,013
0,035
0,003
0,007
0,003
0,006
Q3:develop knowledge 12 0,187
-0,010
0,035
0,102
0,033
0,046
0,102
0,000
0,000
Q3:physical activities
13 0,619
1,076
0,019
0,195
0,037
0,022
0,043
0,093
0,152
Q3:take care of family 14 -0,571
-0,155
0,016
0,004
0,038
0,001
0,001
0,002
0,003
Q3:to take courses
15 0,099
0,117
0,027
0,078
0,035
0,036
0,075
0,002
0,003
TV:less than 10h
16 0,628
0,225
0,043
0,019
0,031
0,000
0,001
0,009
0,018
TV:19-30 hrs
17 -0,046
0,241
0,049
0,051
0,030
0,011
0,027
0,012
0,024
TV:10-19 hrs
18 0,258
-0,507
0,032
0,240
0,034
0,082
0,178
0,034
0,062
TV:over 30 hrs
19 -0,859
-0,519
0,016
0,028
0,038
0,000
0,000
0,018
0,028
TV:never
20 0,035
-0,299
0,037
0,251
0,032
0,100
0,226
0,014
0,025
Q6:no books
21 -0,891
0,182
0,039
0,022
0,032
0,005
0,012
0,005
0,010
Q6:5-12 books
22 0,199
-0,258
0,325
0,030
0,037
0,034
0,007
0,014
0,013
0,023
Q6:1-4 books
23
-0,286
0,026
0,041
0,035
0,012
0,025
0,009
0,015
Q6:40 books or more
24 0,366
0,053
0,034
0,117
0,033
0,053
0,116
0,000
0,001
Q6:13-39 books
25 0,667
-0,540
0,029
0,388
0,034
0,154
0,327
0,035
0,061
Q4:don't go out
26 -1,253
-0,928
0,036
0,452
0,033
0,095
0,212
0,129
0,240
Q4:GoingOut:friends/others
27 0,873
0,060
-0,428
0,012
0,015
0,039
0,000
0,000
0,009
0,015
Q4:GoingOut:alone
28
0,421
0,056
0,119
0,028
0,011
0,029
0,041
0,089
Q4:GoingOut:partner
29 0,242
0,926
0,033
0,237
0,033
0,010
0,022
0,119
0,215
Q4:GoingOut:family
30 -0,296

F.-G. Carpentier - 2012/2013

86

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Dans le graphique suivant, les modalits qui ont une contribution suprieure 3,3% la formation
du premier axe sont indiques en caractres rouges, celles qui ont une contribution suprieure la
moyenne sur le second axe sont reprsentes en caractres gras.
Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 30 x 30 (Table de Burt)

Dimension 2; Valeur Propre : ,24149 (6,037 % d'Inertie)

1,5

Q3:take care of family


1,0

Q4:GoingOut:family
Q1:Leisure:family

Q1:Leisure:partner
0,5

Q4:GoingOut:partner
Q2:lack time
Q6:1-4 books
TV:19-30 hrs TV:10-19 hrs
Q6:5-12 books
TV:less than 10h
Q6:13-39 books
Q3:artistic
activities
Q3:physical
activities
Q2:always sth to do
Q3:to
take courses
Q3:develop
knowledge

Q3:home DIY
0,0

Q6:40 books or more

Q6:no books

-0,5

Q4:don't go out

Q4:GoingOut:alone
TV:never

TV:over 30 hrs

Q1:Leisure:alone
Q3:to rest
Q2:often do nothing

Q1:Leisure:friends

Q2:Stimes nothing to do
Q4:GoingOut:friends/others

-1,0
-1,5

-1,0

-0,5

0,0

0,5

1,0

Dimension 1; Valeur Propre : ,29252 (7,313 % d'Inertie)

2.4.7 Autres exemples d'ACM


Les autres exemples d'ACM que nous traiterons sont donns l'aide d'un tableau de Burt. En effet,
c'est gnralement sous cette forme que l'on trouve des donnes susceptibles de servir de base un
exercice.

2.4.7.1 Le cas "Aspirations des Franais"


Ouvrez le classeur Aspi.stw. La prsentation du cas, rappele dans un rapport contenu dans le
classeur est la suivante :
Source : Morineau A., Morin S., Pratique du traitement des enqutes - Exemple d'utilisation du
systme SPAD, Cisia-Ceresta, Montreuil, 2000
On travaille sur des donnes extraites d'une enqute d'opinion ralise en 1978, concernant les
conditions de vie et les aspirations des Franais.
Les questions prises en compte ici, et leurs modalits, sont les suivantes :
1- Sexe de la personne interroge :
masc : masculin
femi : fminin
2- Possdez-vous des valeurs mobiliaires
vmo1 : oui
vmo2 : non
3- Taille d'agglomration
agg1 : moins de 2000 h
agg2 : de 2000 20000 h
agg3 : de 20000 100000 h
agg4 : plus de 100000h
F.-G. Carpentier - 2012/2013

87

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

agg5 : Paris
4- Diplome de l'enqut :
die1 : aucun
die2 : CEP ou fin d'tudes
die3 : BEPC - BE - BEPS
die4 : bac - brevet sup.
die5 : universit, gde cole
5- Statut du logement
slo1 : en accession
slo2 : propritaire
slo3 : locataire
slo4 : log gratuit, autre
6- Age de l'enqut
agc1 : moins de 25 ans
agc2 : 25 34 ans
agc3 : 35 49 ans
agc4 : 50 64 ans
agc5 : plus de 65 ans
7- Type d'emploi
emp1 : ouvriers
emp2 : employs
emp3 : cadres
emp4 : autres
empNR : non rponse
Remarque : pour une ACM sur la totalit des 27 modalits du TDB, les auteurs retiennent 5 axes
principaux.
Faites tout d'abord une ACM sur la totalit du tableau de Burt (27 modalits - remarquez que seules
4 modalits de la variable "Type d'emploi" sont prsentes.

Remarque : le graphique ainsi obtenu est assez peu lisible. Il est cependant possible de l'amliorer
en utilisant l'outil "Balayage/Habillage" :
. A l'aide de cet outil, il est par exemple possible de
supprimer certains points qui se superposent au centre du graphique. Attention cependant ce que
le graphique conserve une certaine honntet intellectuelle !
Ralisez ensuite une ACM en ne prenant en compte que certaines variables, par exemple, la
variable 2 (valeurs mobiliaires), la variable 5 (statut du logement) et la variable 6 (ge de l'enqut).
Pour cela :
- Slectionnez les variables comme suit :

F.-G. Carpentier - 2012/2013

88

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

- Slectionnez ensuite les observations correspondantes, par exemple en les dsignant par leurs
numros. Pour cela, cliquez sur le bouton "Select Cases" et compltez le dialogue comme suit :

- Structurez enfin les variables (bouton "Structure de la table") de la faon suivante :

On obtient ainsi le graphique suivant :


T rac 2D des Coordonnes Colonne ; Dimension : 1 x 2
T able d'Entre (Lignes x Colonnes) : 11 x 11 (T able de Burt)
Dimension 2; Valeur Propre : ,39744 (14,90 % d'Inertie)

2,5
LOG:slo1

2,0

1,5
AGE:agc3
1,0

0,5

0,0

LOG:slo2
VMO:vmo1

AGE:agc4

AGE:agc2

VMO:vmo2

LOG:slo3
-0,5
AGE:agc5
LOG:slo4
AGE:agc1

-1,0

-1,5
-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

Dimension 1; Valeur Propre : ,48987 (18,37 % d'Inertie)

La possession de valeurs mobiliaires est ainsi plutt associe l'occupation d'un logement en
proprit, et une personne relativement ge (agc4, agc5), alors que la non-possession est plutt le
fait de personnes jeunes, locataires. L'ge agc3 est dans une certaine mesure associ l'accession
la proprit alors que le dernier statut du logement est plutt le fait des moins de 25 ans (qui, par
ailleurs, ne possdent gnralement pas de valeurs mobiliaires).

2.4.7.2 Le cas "Avignon"


Source : Croutsche, J.-J., Pratiques statistiques en gestion et tudes de marchs, Editions ESKA,
Paris, 1997
F.-G. Carpentier - 2012/2013

89

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Une enqute sur la frquentation du centre ville d'Avignon. On trouvera ci-dessous le texte d'une
partie des questions poses, ainsi que le codage des modalits de rponse.
1- Combien de fois par mois allez-vous dans le centre ville pour faire des achats ?
- a1 : Plus de 3 fois par mois
- a2 : de 2 3 fois
- a3 : de 1 2 fois
- a4 : Autre
2- Votre frquentation du centre ville est-elle plus ou moins importante qu'il y a 5 ans ?
- f1 : Beaucoup moins importante
- f2 : Un peu moins importante
- f3 : Identique
- f4 : Un peu plus importante
- f5 : Beaucoup plus importante
345- Etes-vous satisfait de la propret du centre ville ?
- p1 : trs satisfait
- p2 : satisfait
- p3 : moyennement satisfait
- p4 : peu satisfait
- p5 : trs peu satisfait
6- Que pensez-vous de la scurit dans le centre ville ?
- s1 : Trs faible
- s2 : Faible
- s3 : Normale
- s4 : Importante
- s5 : Trs importante
7- Si vous observez des problmes de scurit : vous arrive-t-il de ne pas vous rendre dans le centre
ville cause de ce problme ?
- r1 : oui
- r2 : non
891011- O habitez-vous ?
- h1 : Avignon intra-muros
- h2 : Avignon extra-muros
- h3 : autre
1213- Dans quelle tranche d'ge vous situez-vous ?
- 1 : 15-19 ans
- 2 : 20-30 ans
- 3 : 31-40 ans
- 4 : 41-50 ans
- 5 : 51-60 ans
- 6 : Plus de 60 ans
14Dans le classeur Avignon.stw se trouvent diverses feuilles de donnes contenant les tableaux de
Burt obtenus en slectionnant 3 ou 4 des items du questionnaire. Analysez chacun des aspects ainsi
dfinis l'aide d'une ACM.
F.-G. Carpentier - 2012/2013

90

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.5 Mthodes de classification


Bibliographie : Lebart, L., Morineau, A., Piron M., Analyse exploratoire multidimensionnelle,
Dunod, Paris, 2000.

2.5.1 Introduction
Classifier, c'est regrouper entre eux des objets similaires selon tel ou tel critre. Les diverses
techniques de classification (ou d'"analyse typologique", de "taxonomie", ou "taxinomie" ou encore
"analyse en clusters" (amas)) visent toutes rpartir n individus, caractriss par p variables X1, X2,
..., Xp en un certain nombre m de sous-groupes aussi homognes que possible.
On distingue deux grandes familles de techniques de classification :
- La classification non hirarchique ou partitionnement, aboutissant la dcomposition de
l'ensemble de tous les individus en m ensembles disjoints ou classes d'quivalence ; le
nombre m de classes est fix.
- La classification hirarchique : pour un niveau de prcision donn, deux individus peuvent
tre confondus dans un mme groupe, alors qu' un niveau de prcision plus lev, ils
seront distingus et appartiendront deux sous-groupes diffrents.
Remarques. Ces mthodes jouent un rle un peu part dans l'univers des mthodes statistiques. En
effet :
- L'aspect infrentiel est ici inexistant ;
- Il existe un grand nombre de variantes de ces mthodes, et on peut tre amen appliquer
plusieurs de ces mthodes sur un mme jeu de donnes, jusqu' obtenir une classification
"qui fasse sens" ;
- Au contraire des mthodes factorielles, l'accent est souvent mis sur les n individus et non
sur les p variables qui les dcrivent.

2.5.2 Mthodes de type "centre mobile" : K-moyennes


2.5.2.1 Principe de la mthode
On dispose d'un ensemble d'individus, ou observations, dcrits par des variables numriques. On
veut crer une partition de cet ensemble, en regroupant ces individus en un nombre dtermin K de
classes : chaque individu devra appartenir une classe et une seule. Pour cela :
On fixe de faon alatoire K "centres de classes", ou "centres de gravit" et on excute l'algorithme
suivant :
1) Chaque observation est classe en fonction de sa proximit au centre de gravit.
2) Chaque centre de gravit est dplac de faon tre au centre du groupe correspondant.
3) On continue jusqu' ce que les centres de gravit ne bougent plus

F.-G. Carpentier - 2012/2013

91

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Mthodes de type centres mobiles


Au dpart
Cration alatoire de
centres de gravit.

Etape 1

Chaque observation est classe


en fonction de sa proximit aux
centres de gravits.

Etape 2
Chaque centre de gravit est
dplac de manire tre au
centre du groupe
correspondant

Etape 1
On rpte ltape 1
avec les nouveaux
centres de gravit.

F.-G. Carpentier - 2012/2013

92

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Etape 2
De nouveau, chaque centre
de gravit est recalcul

On continue jusqu ce que les centres de gravit ne bougent plus

Choix des variables reprsentant les individus


Les distances tant calcules sur les valeurs observes des variables, la classification n'aura pas de
sens si les variables s'expriment avec des units diffrentes, et ont des plages de variation trs
diffrentes. Si c'est le cas, il faut au pralable transformer les variables (par exemple en faisant un
centrage-rduction) afin d'quilibrer les "poids" des diffrentes variables.
Dans le cas o les donnes observes sont les valeurs de p variables numriques sur n individus, on
pourra choisir d'effectuer une classification des individus, ou une classification des variables. On
peut choisir, par exemple, de retenir certains "traits" des individus (autrement dit certaines variables
qui ont servi les dcrire) et raliser la classification sur les individus dcrits par ce choix de
variables.

2.5.2.2 Mise en oeuvre avec Statistica sur un mini-exemple


On dispose de 8 individus dcrits par 2 variables. Une troisime variable est constante sur
l'ensemble des individus. Les donnes sont les suivantes :
X
5
5
1
-1
-5
-5
1
-1

1
2
3
4
5
6
7
8

Y
1
-1
5
5
1
-1
-5
-5

Z
10
10
10
10
10
10
10
10

Nuage de points correspondant :


Nuage de Points (Mini-K-Means dans Mini-K-Means.stw 10v*10c)
6

-2

-4

-6
-6

-4

-2

0
X

F.-G. Carpentier - 2012/2013

93

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Nous souhaitons dfinir 4 classes partir de ces 8 objets.


Ouvrez le classeur Mini-K-Means.stw.
Utilisez le menu Statistiques - Techniques exploratoires multivaries - Classifications et
slectionnez la mthode K-moyennes.

Slectionnez X et Y comme variables d'analyse, et, sous l'onglet "Avanc", spcifiez une
classification sur les observations, comportant 4 classes. Cochez galement la case "traitements et
rapports par lots", ce qui permettra de produire en une seule manipulation l'ensemble des rsultats
de la classification.

Comme prvu, les 4 classes formes par Statistica sont {O1, O2}, {O3, O4}, {O5, O6} et {O7, O8}
(cf. les 4 feuilles de rsultats "composition de la classe N ...). Par exemple, pour la premire
classe :
Composition de la Classe 1 et Distances au Centre de Classe Respectif
Classe avec 2 obs.

Distance

Obs. #
O_1
0,707

Obs. #
O_2
0,707

Le centre C1 de cette classe est videmment le point de coordonnes (5, 0). On peut remarquer que
la distance calcule par Statistica n'est pas tout fait la distance euclidienne dans le plan, mais
correspond la formule suivante :
( x1 x) 2 + ( y1 y ) 2
2
d (O1 , C1 ) =
2
Le dnominateur introduit dans la formule reprsente le nombre de variables, comme on peut s'en
rendre compte en introduisant la troisime variable (Z) dans la classification.
La mme rgle est applique pour le calcul des distances entre classes, autrement dit entre centres
de classes :

F.-G. Carpentier - 2012/2013

94

PSR92C - Analyse multidimensionnelle des donnes


Distances Euclidiennes Inter-Classes
Dist. sous la diagonale
Classe (Dist.) au dessus de la diagonale
N 2
N 3
N 4
(Numro) N 1
N 1
0,00
25,00
50,00
25,00
N 2
5,00
0,00
25,00
50,00
7,07
5,00
0,00
25,00
N 3
N 4
5,00
7,07
5,00
0,00

2012/2013

Les coordonnes des centres de classes sont disponibles dans la feuille de rsultats "Moy. Classes" :
Moy. Classes (Mini-K-Means dans Mini-K-Means.stw)
Classe
Classe
Classe
Classe
N 1
N 2
N 3
N 4
Variable
X
5,00
0,00
-5,00
0,00
Y
0,00
5,00
0,00
-5,00

Statistica effectue galement une analyse de variance un facteur sur chacune des variables. Le
facteur pris en compte ici est l'appartenance de l'observation l'une des classes :
Analyse de Variance
SC
dl
SC
Inter
Intra
Variable
X
100,00
3
4,00
100,00
3
4,00
Y

dl

4
4

33,33
33,33

signif.
p
0,0027
0,0027

Ces rsultats peuvent tre retrouvs l'aide du menu ANOVA. On introduit une quatrime variable,
nomme "Groupe", contenant le numro de la classe laquelle appartient l'observation. Puis, on
effectue une analyse de variance un facteur en indiquant X (par exemple) comme variable
dpendante et Groupe comme variable de classement.
Le seul rsultat qui n'est pas automatiquement produit par le traitement par lots est le graphique des
moyennes. Pour l'obtenir, r-affichez la fentre du traitement en cours, dsactivez la case
"traitement par lots" et cliquez sur OK. Dans la fentre de dialogue "Rsultats de l'analyse par les kmoyennes", cliquez sur le bouton "Graphique" :
Trac des Moyennes par Classe
8
6
4
2
0
-2
-4
-6
-8
-10
X

Y
Variables

Classe 1
Classe 2
Classe 3
Classe 4

2.5.2.3 Mise en oeuvre sur les exemples traits dans les paragraphes ACP et AFC
Classification des variables du cas "Reprsentations sociales de l'homosexualit"
On reprend l'exemple "Reprsentations sociales de l'homosexualit" que nous avions trait par une
ACP (classeur Statistica Rep-Soc-Homo.stw). Rappelons que les variables sont ici homognes,
puisque chaque variable est un protocole de rangs observs sur les 15 traits tudis.

F.-G. Carpentier - 2012/2013

95

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Une classification en 3 classes, portant sur les variables va-t-elle confirmer les rsultats que nous
avions obtenus en analysant les rsultats de l'ACP ?

He:H
Ho:H
He:Soi
Ho:Soi
Ho:Ho
Ho:F
He:Ho
He:F

Repr-Soc-Homo dans Rep-Soc-Homo-correction.stw


1
2
3
VARIABL
CLASSE
DISTANC
1
3
1,79
2
3
1,43
3
3
2,36
4
1
1,21
5
1
1,21
6
2
1,48
7
2
1,10
8
2
1,42

On constate que la classe 3 regroupe les variables correspondant une cible masculine, la classe 1
regroupe les jugements ports par les homosexuels sur eux-mmes et sur leur strotype, tandis que
la classe 2 rassemble non seulement les variables correspondant une cible fminine mais aussi
He:Ho, c'est--dire la description de la cible "homosexuels" faite par les htrosexuels.

Classifications sur le cas "Protines"


On reprend le fichier Proteines-2008.stw.
La rpartition en 2 groupes "protines animales v/s protines vgtales" apparat-elle naturellement
dans les donnes tudies ?
Effectuez une classification de type K-moyennes, portant sur les variables 1 9 de la feuille
"Protein et Groupes" en indiquant deux classes. Faites une slection des observations, de manire
liminer de l'tude les moyennes par zone gographique :

On voit que l'une des classes est constitue de la seule variable "crales" pendant que l'autre classe
rassemble les 8 autres variables. En effet, l'tendue de la variable "Crales" est trs diffrente de
celle des autres variables, et le rsultat produit ne fait que l'illustrer.
On peut rsoudre ce problme soit en travaillant sur des donnes centres rduites, soit en utilisant
les coordonnes des variables selon les axes factoriels produites par une ACP norme. Par exemple,
activez la feuille "Proteines-Centre-Reduit". Reprenez une classification analogue, mais portant sur
les variables centres-rduites. Cette fois, la classification recouvre assez bien l'origine (animale v/s
vgtale) des protines, mais les fculents restent regroups avec les protines animales :

F.-G. Carpentier - 2012/2013

96

PSR92C - Analyse multidimensionnelle des donnes


Proteines-Centre-Reduit dans Proteines-2008.stw
1
2
3
VARIABL CLASSE DISTANC
VIANDE
1
2
0,75
PORC_VOL
2
2
0,82
OEUFS
3
2
0,54
4
2
0,69
LAIT
POISSON
5
2
0,94
CEREALES
6
1
0,65
FECULENT
7
2
0,73
8
1
0,46
NOIX
9
1
0,77
FRUI_LEG

2012/2013

Classification des lignes dans le cas "Rgions-2001"


On reprend le classeur Statistica Regions-2001.stw.
Une classification base sur le tableau de contingence n'aurait pas grand sens. En revanche, on peut
utiliser les rsultats de l'AFC comme donnes de base pour essayer de faire une classification des
rgions en 3 ou 4 ensembles.
Refaites au besoin une AFC sur ce tableau de contingence et rendez active la feuille contenant les
rsultats relatifs aux individus lignes (les rgions). Faites ensuite une classification de type "Kmoyennes", en utilisant les variables "Coord." de cette feuille et en spcifiant 3 ou 4 classes. Vous
devriez retrouver en grande partie la typologie que nous avions obtenue en analysant les rsultats de
l'AFC.

Remarque. Les rsultats de la classification dpendent-ils du nombre d'axes factoriels reprsents


dans la feuille de rsultats de l'AFC ? On pourra essayer de refaire la classification sur les
coordonnes factorielles d'un plus grand nombre d'axes, et constater qu'il en rsulte peu de
modifications des rsultats produits : l'essentiel de la variation est reprsent par les premiers axes.
2.5.2.4 Remarques et conclusion
Cette mthode produit des rsultats qui peuvent tre facilement exploitables. On notera cependant
que l'on doit indiquer a priori le nombre de classes, ce qui nuit l'aspect vritablement
"exploratoire" de la mthode. D'autre part, les variables traites doivent tre homognes (s'exprimer
avec la mme unit, ou au moins avoir la mme plage de variation) et c'est toujours la distance
euclidienne qui est utilise pour valuer les distances entre objets.

2.5.3 Classification Ascendante Hirarchique


2.5.3.1 Les 4 tapes de la mthode
Choix des variables reprsentant les individus
Les distances tant calcules sur les valeurs observes des variables, la classification n'aura pas de
sens si les variables s'expriment avec des units diffrentes, et ont des plages de variation trs
diffrentes. Si c'est le cas, il faut au pralable transformer les variables (par exemple en faisant un
centrage-rduction) afin d'quilibrer les "poids" des diffrentes variables.
Dans le cas o les donnes observes sont les valeurs de p variables numriques sur n individus, on
pourra choisir d'effectuer une classification des individus, ou une classification des variables. On
peut choisir, par exemple, de retenir certains "traits" des individus (autrement dit certaines variables
F.-G. Carpentier - 2012/2013

97

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

qui ont servi les dcrire) et raliser la classification sur les individus dcrits par ce choix de
variables.
On peut noter qu'il revient au mme par exemple :
- de raliser la CAH des individus partir de p variables centres rduites ;
- de raliser la CAH des individus partir des p facteurs obtenus l'aide d'une ACP norme
sur les variables prcdentes.
Toutefois, il peut tre intressant de raliser la CAH partir des q premiers facteurs (q<p). Cela a
pour effet d'liminer une partie des variations entre individus, qui correspond en gnral des
fluctuations alatoires, c'est--dire un "bruit statistique".
Dans le cas o les donnes observes sont reprsentes par un tableau de contingence, c'est--dire
sont les valeurs de 2 variables nominales sur n individus, on pourra effectuer une CAH des
modalits-lignes par exemple, partir des coordonnes lignes obtenues par une AFC. On pourra, de
mme, raliser une CAH des modalits-colonnes.
Enfin, si les donnes observes sont les valeurs de p variables nominales sur n individus, on pourra
effectuer une CAH des individus en partant du tableau disjonctif complet, ou en utilisant les
coordonnes des individus obtenues par une ACM. On pourra galement traiter les modalits
comme dans le cas d'une AFC.

Choix d'un indice de dissimilarit


De nombreuses mesures de la "distance" entre individus ont t proposes. Le choix d'une (ou
plusieurs) d'entre elles dpend des donnes tudies. Statistica nous propose les mesures suivantes :
- Distance Euclidienne. C'est probablement le type de distance le plus couramment utilis. Il
s'agit simplement d'une distance gomtrique dans un espace multidimensionnel.

d( Ii, I j ) =

( x

ik

x jk ) 2

- Distance Euclidienne au carr. On peut lever la distance euclidienne standard au carr afin
de "sur-pondrer" les objets atypiques (loigns).
d ( Ii , I j ) = ( x ik x jk ) 2
k

- Distance du City-block (Manhattan) :


d ( Ii , I j ) = x ik x jk
k

- Distance de Tchebychev :

d( Ii , I j ) = Max x ik x jk
- Distance la puissance.

p
d ( Ii , I j ) = x ik x jk
k

- Percent disagreement. Cette mesure est particulirement utile si les donnes des dimensions
utilises dans l'analyse sont de nature catgorielle.
Nombre de x ik x jk
d( Ii, I j ) =
K
- 1- r de Pearson : calcule partir du coefficient de corrlation, l'aide de la formule :
d ( I i , I j ) = 1 rij
1/ r

Indices de dissimilarit et distances

F.-G. Carpentier - 2012/2013

98

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

On peut galement utiliser d'autres indices de dissimilarit puisque Statistica permet d'effectuer la
classification partir du tableau des scores de dissimilarits entre individus. En fait, un indice de
dissimilarit doit simplement satisfaire les conditions suivantes :
- non-ngativit : d ( Ii , I j ) 0
- symtrie : d ( Ii, I j ) = d ( I j , Ii )
- normalisation : d(Ii ,Ii ) = 0
Un indice de dissimilarit est une "vraie" distance, s'il vrifie galement l'ingalit triangulaire :
d ( I i , I j ) d ( Ii , Ik ) + d ( I k , I j ) .
La plupart des "distances" proposes par Statistica sont de vritables distances.
De nombreux indices de dissimilarit (ou au contraire de similarit) ont t proposs dans le cas de
variables qualitatives ( deux modalits, ou aprs codage disjonctif). Par exemple, si les individus
sont dcrits par K variables dichotomiques (oui/non), on peut introduire :

aij = Nombre co occurrences entre les individus i et j


dij = Nombre co absences entre les individus i et j

bij = Nombre d'attributs prsents chez i et absents chez j


c ij = Nombre d'attributs absents chez i et prsents chez j
On peut proposer par exemple, comme indice de dissimilarit :
d(Ii,I j ) = bij + c ij
ou au contraire, comme indice de similarit :
aij
s( Ii , I j ) =
aij + bij + c ij
Un indice de similarit peut tre converti en distance par la relation :
d ( Ii , I j ) = smax s( Ii , I j )

Choix d'un indice d'agrgation


L'application de la mthode suppose galement que nous fassions le choix d'une "distance" entre
classes. L encore, de nombreuses solutions existent. Il faut noter que ces solutions permettent
toutes de calculer la distance entre deux classes quelconques sans avoir recalculer celles qui
existent entre les individus composant chaque classe.
Les choix proposs par Statistica sont les suivants :
- Saut minimum ou "single linkage" (distance minimum). C'est celle que nous avons utilise
ci-dessus.
- Diamtre ou "complete linkage" (distance maximum). Dans cette mthode, les distances
entre classes sont dtermines par la plus grande distance existant entre deux objets de
classes diffrentes (c'est--dire les "voisins les plus loigns").
D( A, B) = max max d ( I, J )
I A

J B

- Moyenne non pondre des groupes associs. Ici, la distance entre deux classes est calcule
comme la moyenne des distances entre tous les objets pris dans l'une et l'autre des deux
classes diffrentes.
1
D( A, B) =
d(I, J )
n A n B I A ,J B
F.-G. Carpentier - 2012/2013

99

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

- Moyenne pondre des groupes associs. La moyenne prcdente est tendue l'ensemble
des paires d'objets trouves dans la runion des deux classes.
1
D( A, B) =
d(I, J )
(n A + n B )( n A + n B 1) I ,J A B
- Centrode non pondr des groupes associs. Le centrode d'une classe est le point moyen
d'un espace multidimensionnel, dfini par les dimensions. Dans cette mthode, la distance
entre deux classes est dtermine par la distance entre les centrodes respectifs.
- Centrode pondr des groupes associs (mdiane). Cette mthode est identique la
prcdente, la diffrence prs qu'une pondration est introduite dans les calculs afin de
prendre en compte les tailles des classes (c'est--dire le nombre d'objets contenu dans
chacune).
- Mthode de Ward (mthode du moment d'ordre 2). Cette mthode se distingue de toutes les
autres en ce sens qu'elle utilise une analyse de la variance approche afin d'valuer les
distances entre classes. En rsum, cette mthode tente de minimiser la Somme des Carrs
(SC) de tous les couples (hypothtiques) de classes pouvant tre forms chaque tape. Les
indices d'agrgation sont recalculs chaque tape l'aide de la rgle suivante : si une classe
M est obtenue en regroupant les classes K et L, sa distance la classe J est donne par :
(N + N K )D(K,J) + (N J + N L )D(L,J) N J D(K,L)
D(M,J) = J
NJ + NK + NL
La mthode de Ward se justifie bien lorsque la "distance" entre les individus est le carr de la
distance euclidienne. Choisir de regrouper les deux individus les plus proches revient alors choisir
la paire de points dont l'agrgation entrane la diminution minimale de l'inertie du nuage. Le calcul
des nouveaux indices entre la paire regroupe et les points restants revient alors remplacer les
deux points formant la paire par leur point moyen, affect du poids 2.

Algorithme de classification et rsultat produit


L'algorithme de classification

La classification proprement dite peut tre dcrite de la manire suivante : :


tape 1 : il y a n lments classer (qui sont les n individus);
tape 2 : on construit la matrice de distances entre les n lments et lon cherche les deux plus
proches, que lon agrge en un nouvel lment. On obtient une premire partition n-1 classes;
tape 3 : on construit une nouvelle matrice des distances qui rsultent de lagrgation, en calculant
les distances entre le nouvel lment et les lments restants (les autres distances sont inchanges).
On se trouve dans les mmes conditions qu ltape 1, mais avec seulement (n-1) lments
classer et en ayant choisi un critre dagrgation. On cherche de nouveau les deux lments les plus
proches, que lon agrge. On obtient une deuxime partition avec n-2 classes et qui englobe la
premire;
tape m : on calcule les nouvelles distances, et lon ritre le processus jusqu navoir plus quun
seul lment regroupant tous les objets et qui constitue la dernire partition.
Hirarchie de classes et partition de l'ensemble des individus

Oprer une classification, c'est dfinir une partition de l'ensemble des individus, c'est--dire, dfinir
un ensemble de parties, ou classes de l'ensemble I des individus telles que :
F.-G. Carpentier - 2012/2013

100

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

- toute classe soit non vide


- deux classes distinctes sont disjointes
- tout individu appartient une classe.
Le rsultat d'une CAH n'est pas une partition de l'ensemble des individus. C'est une hirarchie de
classes telles que :
- toute classe est non vide
- tout individu appartient une (et mme plusieurs) classes
- deux classes distinctes sont disjointes, ou vrifient une relation d'inclusion (l'une d'elles est
incluse dans l'autre)
- toute classe est la runion des classes qui sont incluses dans elle.
Ce rsultat est souvent reprsent sous forme de dendrogramme :
Dendrogramme de 9 Obs.
Mth. de Ward
Carr distances Euclidiennes

HUCHON
COPE
SANTINI
LEPEN
BAY
LAGU
ABSTEN
PELEG
BUFFET

0,0

0,1

0,2

0,3

0,4

Dist. Agrgation

Sur la figure ci-dessus, l'axe vertical indique les individus statistiques qui ont t rassembls pour
former les classes, tandis que la graduation de l'axe horizontal indique la distance sparant les deux
classes qui ont t rassembles une tape donne.
Choix d'une partition partir de la hirarchie des classes

Le dendrogramme nous indique l'ordre dans lequel les agrgations successives ont t opres. Il
nous indique galement la valeur de l'indice d'agrgation chaque niveau d'agrgation. Il est
gnralement pertinent d'effectuer la coupure aprs les agrgations correspondant des valeurs peu
leves de l'indice et avant les agrgations correspondant des valeurs leves. En coupant l'arbre
au niveau d'un saut important de cet indice, on peut esprer obtenir une partition de bonne qualit
car les individus regroups en-dessous de la coupure taient proches, et ceux regroups aprs la
coupure sont loigns.

2.5.3.2 CAH " la main"


Le dessin suivant reprsente 5 objets "en vraie grandeur". La distance utilise entre les objets est la
distance euclidienne (mesure au double-dcimtre). L'indice d'agrgation est celui du "saut
minimal".
Ralisez une CAH sur ces donnes :

F.-G. Carpentier - 2012/2013

101

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

2.5.3.3 La CAH avec Statistica


CAH sur le cas "Reprsentations sociales de l'homosexualit
On reprend le classeur Rep-Soc-Homo.stw.
Faites une classification ascendante hirarchique des variables, en utilisant le carr de la distance
euclidienne et la mthode de Ward. Pour cela, utilisez le menu Statistiques - Techniques
exploratoires multivaries - Classifications. Slectionnez l'item "Classification hirarchique" et
compltez la fentre de dialogue comme suit :

Pour l'essentiel, les rsultats de la CAH rejoignent ceux de la classification prcdente. Les
principaux rsultats fournis par Statistica sont les suivants :

La matrice des distances initiales entre les diffrents objets :


Carr distances Euclidiennes
Ho:H
He:Soi Ho:Soi
Variable He:H
He:H
0
74
232
788
Ho:H
74
0
180
694
He:Soi
232
180
0
466
Ho:Soi
788
694
466
0
Ho:Ho
736
594
438
88
Ho:F
898
830
634
246
He:Ho
1018
920
718
160
He:F
1048
1028
810
278

F.-G. Carpentier - 2012/2013

102

Ho:Ho
736
594
438
88
0
182
178
284

Ho:F
898
830
634
246
182
0
72
108

He:Ho
1018
920
718
160
178
72
0
64

He:F
1048
1028
810
278
284
108
64
0

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Le dendrogramme de la classification :
Dendrogramme de 8 Variables
Mth. de Ward
Carr distances Euclidiennes

He:H
Ho:H
He:Soi
Ho:Soi
Ho:Ho
Ho:F
He:Ho
He:F
0

500

1000

1500

2000

2500

Dist. Agrgation

Le tableau donnant les diffrentes tapes de la classification :


Agrgation Finale (Repr-Soc-Homo dans Rep-Soc-Homo-correction.stw)
Mth. de Ward
Carr distances Euclidiennes
distance Objet # Objet # Objet # Objet # Objet # Objet # Objet # Objet #
1
2
3
4
5
6
7
8
agrgat.
64,00
He:Ho He:F
74,00
He:H
Ho:H
88,00
Ho:Soi Ho:Ho
98,66
Ho:F He:Ho He:F
250,00
He:H
Ho:H He:Soi
413,33
Ho:Soi Ho:Ho Ho:F He:Ho He:F
2453,5
He:H
Ho:H He:Soi Ho:Soi Ho:Ho Ho:F He:Ho He:F

Le graphique de l'agrgation finale, donnant chaque tape l'indice d'agrgation des deux classes
que l'on runit :
Distances d'Agrgation par Etapes (Pas)
Carr distances Euclidiennes
3000
2500

Dist. d'Agrgat.

2000
1500
1000
500
0
-500
0

Pas

Distance
agrgat.

Remarques.
1. Contrairement d'autres logiciels de traitement statistique, Statistica ne propose pas de faire un
centrage rduction des variables avant de faire la CAH. Si les variables retenues pour dcrire les
individus s'expriment avec des units diffrentes, ou ont des plages de variation trs diffrentes, une
telle transformation des variables est pourtant indispensable.
2. Statistica ne permet pas de choisir a priori un nombre dterminer de classes et, en consquence ne
fournit pas non plus de table d'appartenance du type suivant (produit par Statgraphics) :

Table d'appartenance
-------------------Mthode de classification: Ward
Distance: Euclidienne au carr
Variable
F.-G. Carpentier - 2012/2013

Classe
103

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

---------------------- ------He:H
1
Ho:H
1
He:Soi
1
Ho:Soi
2
Ho:Ho
2
Ho:F
3
He:Ho
3
He:F
3
---------------------- ------Ces limitations ne sont gure gnantes sur l'exemple trait ici (8 variables et 15 individus) mais le
deviennent lorsque le nombre d'objets classer est important.
Un exemple de CAH effectu partir d'un tableau de contingence
Source : Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidimensionnelle.
L'exemple concerne l'analyse d'un tableau de contingence qui croise 8 professions et catgories
socioprofessionnelles (PCS) et 6 types de mdias pour un chantillon de 12 388 "contacts mdia"
relatifs 4433 personnes interroges. L'individu statistique sera pour nous le "contact mdia" et non
la personne interroge dans l'enqute. Les donnes sont extraites de l'Enqute Budget-temps
Multimdia 1991-1992 du CESP.
Afin d'interprter plus efficacement les reprsentations obtenues, on projettera en lments
supplmentaires certaines autres caractristiques de la population enqute telles que le sexe, l'ge,
le niveau d'instruction.
Tables de contingence croisant les types de contacts-mdia (colonnes) avec professions, sexe, ge,
niveau d'ducation (lignes).
Radio
Professions
Agriculteur
Petit patron
Prof. Cad. S.
Prof. interm
Employ
Ouvrier qual
Ouvrier n-q
Inactif

96
122
193
360
511
385
156
1474

Tl.

Quot.N.
118
136
184
365
593
457
185
1931

2
11
74
63
57
42
8
181

Quot R.
71
76
63
145
217
174
69
852

P.Mag.
50
49
103
141
172
104
42
642

P.TV
17
41
79
184
306
220
85
782

Nous disposons des tables de contingence suivantes (cf. tableau) : On trouve, l'intersection de la
ligne i et de la colonne j le nombre kij d'individus appartenant la catgorie i et ayant eu la veille
(un jour de semaine) au moins un contact avec le type de mdia j. Une personne interroge pouvant
avoir des contacts avec plusieurs mdias, les valeurs en ligne reprsentent des "nombres de
contacts".
Nous nous proposons de raliser une CAH sur les professions partir de ce tableau. Comme nous
l'avons vu dans le paragraphe sur l'AFC, la "distance" pertinente entre deux lignes du tableau est la
distance du khi-2, ou, ce qui revient au mme, le carr de la distance euclidienne entre les images
des modalits lignes obtenues par AFC.

F.-G. Carpentier - 2012/2013

104

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Dans un premier temps, ouvrez le classeur Contacts-Medias.stw et ralisez une AFC en calculant
les coordonnes lignes et colonnes sur tous les facteurs.
Rendez ensuite active la feuille de donnes contenant les rsultats relatifs aux lignes.
Utilisez ensuite le menu Statistiques - Techniques Exploratoires Multivaries - Classifications .
On choisit ici comme mesure des distances, le carr des distances euclidiennes. Cela revient
mesurer la distance entre deux lignes l'aide de la distance du khi-2 (proprit de l'AFC). L'indice
d'agrgation choisi est celui calcul par la mthode de Ward.

On obtient ainsi les rsultats suivants :


- un tableau donnant les tapes de la classification :
Agrgation Finale (Coordonnes Ligne et Contributions l'Inertie (Contacts-medias.sta dans Classeur4) dans Classeur4)
Mth. de Ward
Carr distances Euclidiennes
distance
agrgat.

,0041508
,0120153
,0225031
,0496726
,0805143
,2296203
,4046085

Objet #
1

Objet #
2

Objet #
3

Objet #
4

Objet #
5

Objet #
6

Objet #
7

Objet #
8

Employ Ouvrier qual


Employ Ouvrier qual
Petit patron

Ouvrier n-q

Inactif

Prof. interm

Employ Ouvrier qual

Ouvrier n-q

Petit patron

Inactif

Prof. interm

Agriculteur

Petit patron

Inactif

Prof. interm

Employ Ouvrier qual

Employ Ouvrier qual

Ouvrier n-q
Ouvrier n-q

Agriculteur

Petit patron

Inactif

Prof. interm

Employ Ouvrier qual

Ouvrier n-q

- Le tableau des distances entre individus :


Agriculteur Petit
patron
N Obs.
Agriculteur
Petit patron
Prof. Cad. S.
Prof. interm
Employ
Ouvrier qual
Ouvrier n-q
Inactif

0,00
0,04
0,42
0,19
0,19
0,19
0,17
0,10

Prof.
Cad. S.

0,04
0,00
0,26
0,06
0,07
0,06
0,06
0,02

0,42
0,26
0,00
0,12
0,22
0,25
0,33
0,22

- Le dendrogramme correspondant la CAH :


F.-G. Carpentier - 2012/2013

105

Prof. Employ Ouvrier Ouvrier Inactif


interm
qual
n-q
0,19
0,06
0,12
0,00
0,02
0,03
0,06
0,03

0,19
0,07
0,22
0,02
0,00
0,00
0,01
0,02

0,19
0,06
0,25
0,03
0,00
0,00
0,01
0,02

0,17
0,06
0,33
0,06
0,01
0,01
0,00
0,03

0,10
0,02
0,22
0,03
0,02
0,02
0,03
0,00

Prof. Cad. S.

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Dendrogramme de 8 Obs.
Mth. de Ward
Carr distances Euclidiennes

Agriculteur
Petit patron
Inactif
Prof. interm
Employ
Ouvrier qual
Ouvrier n-q
Prof. Cad. S.

0,0

0,1

0,2

0,3

0,4

0,5

Dist. Agrgation

Une CAH analogue, ralise partir des individus colonnes, conduit au dendrogramme suivant :
Dendrogramme de 6 Obs.
Mth. de Ward
Carr distances Euclidiennes

Radio

Tl.

Quot R.

P.Mag.

P.TV

Quot.N.

0,0

0,1

0,2

0,3

0,4

0,5

0,6

Dist. Agrg ation

Une telle classification, dans laquelle chaque nouvelle classe est obtenue en agrgeant un unique
individu la classe forme l'tape prcdente revient en fait dfinir une relation d'ordre sur les
individus, et ne prsente qu'un intrt fort limit.

Classification partir d'un tableau Individus x Variables Numriques


Rf. Lebart L., Piron M., Steiner J.-F., La Smiomtrie, Dunod, Paris, 2003.
Dans l'ouvrage cit en rfrence, les auteurs ont fait le choix de 210 mots. Il est ensuite demand
aux personnes interviewes de noter les mots en fonction de la sensation, agrable ou dsagrable,
que provoque leur lecture. L'chelle de notation comporte 7 modalits variant de -3 3. Pour les
traitements statistiques ultrieurs, cette chelle est ramene une chelle variant de 1 7.
L'chantillon interrog entre 1990 et 2002 s'lve 11055 personnes. Une enqute analogue, mene
pour la Belgique, a conduit au rsultat suivant (deux premiers axes d'une ACP) :

F.-G. Carpentier - 2012/2013

106

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

On mesure la proximit entre deux mots l'aide du coefficient de corrlation des sries statistiques
obtenues pour les deux mots. Plus prcisment, le carr de la distance entre deux mots a et b est
gal (1-r(a, b)), o r(a,b) dsigne le coefficient de corrlation des deux sries. Pour chaque mot,
les autres mots qui lui sont le mieux corrls constituent son champ smantique interne. Cependant,
un mme mot peut tre corrl avec des mots non corrls entre eux.
Une classification ascendante hirarchique est effectue partir de la distance dfinie
prcdemment. Il n'est pas vident a priori que des notes fondes seulement sur l'agrment ou le
dsagrment engendrent des proximits smantiques. On constate cependant que les classes
obtenues regroupent des mots qui ne sont pas de vrais synonymes (la liste de mots excluait a priori
la prsence de synonymes) mais appartiennent au mme halo smantique. Dans une partition en 12
classes, par exemple, on trouvera rassembls des mots ayant trait au concept de "sublimation" tels
que :
absolu, immense, infini, admirer, adorer, ternel, prcieux, secret, sublime.

Exercice :
A partir de la liste de 7 mots suivants :
efficace, courage, sensuel, montagne, magie, douceur, campagne
imaginez les rponses fournies par dix interviews et traitez-les l'aide d'une CAH en utilisant,
videmment , la "distance" 1-r de Pearson.
Reprsentation des similitudes par l'arbre de longueur minimale
Lensemble des n objets classer peut tre considr comme un ensemble de points dun espace. Si
lon ne dispose que des valeurs dun indice de dissimilarit , on peut reprsenter les objets par des
points (dun plan par exemple), chaque couple dobjets tant joint par une ligne continue, laquelle
est attache la valeur de lindice de dissimilarit. On reprsente ainsi lensemble des objets et des
valeurs de lindice par un graphe complet valu. On cherchera ensuite extraire de ce graphe un
graphe partiel (ayant les mmes sommets, mais moins dartes) plus ais reprsenter, et
F.-G. Carpentier - 2012/2013

107

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

permettant nanmoins de bien rsumer les valeurs de lindice. Parmi tous les graphes partiels, ceux
qui ont une structure darbre sont particulirement intressants, car ils peuvent faire lobjet dune
reprsentation plane. La longueur dun arbre sera la somme des "longueurs" (valeurs de lindice) de
ses artes. Parmi tous les graphes partiels qui sont des arbres, larbre de longueur minimale a retenu
depuis longtemps lattention des statisticiens en raison de ses bonnes qualits descriptives, qui ne
sont pas trangres sa parent avec les classifications hirarchiques. On peut, par exemple,
montrer l'quivalence avec la classification selon le saut minimal.
Dans la procdure de Kruskal, par exemple, on range les n(n - 1)/2 artes dans lordre des valeurs
croissantes de lindice. On part des deux premires artes, puis on slectionne successivement
toutes les artes qui ne font pas de cycle avec les artes dj choisies. On interrompt la procdure
ds que lon a n-1 artes. De cette faon, on est sr davoir obtenu un arbre (graphe sans cycle ayant
n-1 artes).
Exemple : Dans l'ouvrage "Reprsentations sociales et analyse des donnes", Doise et al. donnent
l'exemple suivant :
Donnons un exemple que Flament emprunte Abric et Vacherot (1976). Il s'agit d'une recherche
effectue sur la reprsentation d'une tche de type dilemme du prisonnier, tche qui peut tre
perue comme une situation de jeu ou une situation de rsolution de problmes. Les auteurs
retiennent 26 termes d'une pr-enqute permettant de traduire l'une ou l'autre de ces situations. Ils
demandent ensuite des sujets ayant effectu une tche de type dilemme du prisonnier de choisir
parmi les 26 termes ceux qui voquent la situation dans laquelle ils se trouvaient. L'arbre maximum
du systme de similitude (comprenant 325 corrlations) est de la forme suivante :

Dans cette figure, chaque terme reprsente un sommet. Le long des liaisons entre sommets (ou
artes) sont indiqus les indices de similitude. Pour construire un tel arbre, la procdure est la
suivante. Il s'agit d'abord d'ordonner les artes selon la valeur dcroissante de l'indice de similitude
qui leur est associ. On retient ensuite les deux premires artes qui appartiendront forcment
l'arbre maximum du fait qu'elles ne peuvent tre les plus petites dans aucun cycle. Enfin, on ajoute
F.-G. Carpentier - 2012/2013

108

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

ces deux premires artes, toute arte qui ne forme pas de cycle avec celles dj retenues. Les artes
qui sont donc retenues dans l'arbre maximum sont celles qui ne sont minimum dans aucun cycle
(voir Degenne et Verges, 1973). Pour illustrer ce propos, prenons l'exemple des lments Chance,
Hasard et Casino qui figurent dans l'arbre maximum ci-dessus. Les artes (Chance, Hasard) et
(Casino, Hasard) sont inscrites sur le graphe et valent respectivement .50 et .36. On en dduit par
consquent que l'arte (Chance, Casino) est infrieure .36 ; si tel n'tait pas le cas, l'arte (Casino,
Hasard) serait supprime au profit de l'arte (Chance, Casino). En termes de similitude, on peut dire
que Chance et Hasard, d'une part, et Hasard et Casino, d'autre part, sont plus proches l'un de l'autre
que Chance et Casino.
Sur la base de l'arbre maximum, il est possible de rpondre la question pose par Abric et
Vacherot qui est d'identifier les termes associs jeu ou rsolution de problme comme
reprsentation de la tche. Flament (1986, 144) en propose la lecture suivante: Supprimons de
l'arbre maximum les artes se trouvant entre items de catgories initiales diffrentes (voir figure) ;
les sous-graphes ainsi obtenus sont alors de composition homogne (soit tout jeu, soit tout
problme) ; on observe des items isols (Travail, Probabilit, Actif, etc.), dont la signification
initiale est fortement remise en cause (puisque chacun ressemble plus des items de catgorie
oppose qu'aux items de sa propre catgorie). Restent trois sous-graphes importants (indiqus dans
la figure) - un pour jeu, deux pour problme -, dont les items voient leur signification initiale
confirme dans la reprsentation par le voisinage d'items de mme catgorie.

F.-G. Carpentier - 2012/2013

109

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

3 Mthodes prdictives
3.1 Rgression linaire
Bibliographie :
Bry, X., Analyses factorielles multiples, Economica, Paris, 1996.

3.1.1 Rgression linaire multiple


Sur un chantillon de n individus statistiques, on a observ :
- p variables numriques X1, X2, ..., Xp (variables indpendantes ou explicatives)
- une variable numrique Y (variable dpendante, ou " expliquer").
Exemple (source : fichiers d'exemples fournis avec Statistica) :
On dispose, pour 30 comts amricains, des donnes suivantes :
VARI_POP
N_AGRIC
TX_IMPOS
PT_PHONE
PT_RURAL
AGE
PT_PAUVR

Variation de la Population (1960-1970)


Nb. de personnes travaillant dans le secteur primaire (agriculture)
Taux d'imposition des proprits rsidentielles et fermes
Pourcentage de rsidences quips d'une installation tlphonique
Pourcentage de la population vivant en milieu rural
Age mdian
Pourcentage de familles en dessous du seuil de pauvret

L'objectif est d'identifier les facteurs lis au pourcentage de familles en de du seuil de pauvret
dans ces comts (Pt_Pauvr), et de construire un modle prdictif pour cette variable. Nous allons
donc traiter la variable Pt_Pauvr comme la variable dpendante (rponse), et les 6 autres variables
comme des prdicteurs continus.
Les donnes sont les suivantes :
Benton
Cannon
Carrol
Cheatheam
Cumberland
DeKalb
Dyer
Gibson
Greene
Hawkins
Haywood
Henry
Houston
Humphreys
Jackson
Johnson
Lawrence
McNairy
Madison

VARI_POP

N_AGRIC

PT_PAUVR

TX_IMPOS

PT_PHONE

PT_RURAL

AGE

13,7
-0,8
9,6
40,0
8,4
3,5
3,0
7,1
13,0
10,7
-16,2
6,6
21,9
17,8
-11,8
7,5
3,7
1,6
8,4

400
710
1610
500
640
920
1890
3040
2730
1850
2920
1070
160
380
1140
690
1170
1280
2270

19,0
26,2
18,1
15,4
29,0
21,6
21,9
18,9
21,1
23,8
40,5
21,6
25,4
19,7
38,0
30,1
24,8
30,3
19,5

1,09
1,01
0,40
0,93
0,92
0,59
0,63
0,49
0,71
0,93
0,51
0,80
0,74
0,44
0,81
1,05
0,73
0,65
0,48

82
66
80
74
65
64
82
85
78
74
69
85
69
83
54
65
76
67
85

74,8
100,0
69,7
100,0
74,0
73,1
52,3
49,6
71,2
70,6
64,2
58,3
100,0
72,0
100,0
100,0
69,5
81,0
39,1

33,5
32,8
33,4
27,8
27,9
33,2
30,8
32,4
29,2
28,7
25,1
35,9
31,4
30,1
34,1
30,5
30,0
32,4
28,7

F.-G. Carpentier - 2012/2013

110

PSR92C - Analyse multidimensionnelle des donnes

Marshall
Maury
Montgomery
Morgan
Sevier
Shelby
Sullivan
Trousdale
Unicoi
Wayne
Weakley

2,7
5,6
12,7
-4,8
16,5
15,2
11,6
4,9
1,1
3,8
19,0

960
1710
1410
200
960
11500
1380
530
370
440
1630

2012/2013

15,6
17,2
18,4
27,3
19,2
16,8
13,2
29,7
19,8
27,7
20,5

0,72
0,62
0,84
0,73
0,45
1,00
0,63
0,54
0,98
0,46
0,68

84
84
86
66
74
87
85
70
75
48
83

58,4
42,4
36,4
99,8
90,6
5,9
44,2
100,0
52,6
100,0
72,1

33,4
29,9
23,3
27,5
29,5
25,4
28,8
33,1
30,8
28,4
30,4

3.1.1.1 Formulation explicative : le modle linaire


On cherche exprimer Y sous la forme :
Y = b0 + b1 X 1 + b2 X 2 + ... + b p X p + E
o E (erreur commise en remplaant Y par la valeur estime) est nulle en moyenne, de variance
minimale et indpendante des Xi..
La solution ce problme est obtenue en prenant pour b0 :
b0 = Y b1 X 1 b2 X 2 ... bp X p
et pour les autres coefficients bi, les solutions du systme d'quations linaires :
Cov( X 1 , X 1 )b1 + Cov( X 1 , X 2 )b2 + ... + Cov(X 1 , X p )bp = Cov( X 1 , Y )
Cov( X , X )b + Cov( X , X )b + ... + Cov(X , X )b = Cov( X , Y )

2
1 1
2
2 2
2
p
p
2

....

Cov(X p , X 1 )b1 + Cov(X p , X 2 )b2 + ... + Cov (X p , X p )bp = Cov(X p , Y )


Pour les donnes cites en introduction, on obtient :
PT_PAUVR = 31,2660 - 0,3923 VARI_POP + 0,0008 N_AGRIC+ 1,2301 TX_IMPOS - 0,0832
PT_PHONE + 0,1655 PT_RURAL - 0,4193 AGE
Interprtation des coefficients bi : d'une manire gnrale, chaque coefficient bi reprsente la
variation relative de la variable Y rapporte celle de la variable Xi, toutes les autres variables
restant constantes.
Problme : les coefficients bi dpendent des units choisies pour mesurer les Xi. C'est pourquoi, on
donne aussi les coefficients i, lis aux bi par la relation :
(Xi)
i =
b
(Y ) i
Dans l'exemple, les coefficients i sont donns par :
VARI_POP N_AGRIC TX_IMPOS PT_PHONE PT_RURAL AGE
-0,630788
0,238314
0,038799
-0,129627
0,618746
-0,188205
Mme ainsi "norms", les coefficients de la rgression restent d'interprtation dlicate. En effet, il
est impossible de faire varier l'une des Xi en laissant les autres constantes, car ces variables sont
elles-mmes corrles entre elles.
F.-G. Carpentier - 2012/2013

111

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Sur notre exemple, on constate que le coefficient correspondant la variable N_AGRIC est positif
(PT_PAUVR et N_AGRIC semblent varier dans le mme sens), alors que le coefficient de
corrlation entre les deux variables PT_PAUVR et N_AGRIC est ngatif (r=-0,17), ce qui
indiquerait plutt une variation en sens contraires. Les corrlations entre les variables sont en effet
donnes par :
VARI_POP
N_AGRIC
PT_PAUVR
TX_IMPOS
PT_PHONE
PT_RURAL
AGE

VARI_POP
1,00
0,04
-0,65
0,13
0,38
-0,02
-0,15

N_AGRIC
0,04
1,00
-0,17
0,10
0,36
-0,66
-0,36

PT_PAUVR
-0,65
-0,17
1,00
0,01
-0,73
0,51
0,02

TX_IMPOS
0,13
0,10
0,01
1,00
-0,04
0,02
-0,05

PT_PHONE
0,38
0,36
-0,73
-0,04
1,00
-0,75
-0,08

PT_RURAL
-0,02
-0,66
0,51
0,02
-0,75
1,00
0,31

AGE
-0,15
-0,36
0,02
-0,05
-0,08
0,31
1,00

Les coefficients bi et i tant des valeurs "thoriques" estimes partir des valeurs prises par les
variables Xi sur l'chantillon de n individus statistiques, il est possible :
- de donner pour chaque bi un intervalle de confiance un degr de confiance donn ;
- de tester si chacun des coefficients est significativement diffrent de 0.
Dans l'exemple trait, on obtient pour les bi :
PT_PAUVR PT_PAUVR PT_PAUVR PT_PAUVR -95,00% +95,00%
(param.)
Err-Type
t
p
Lim.Conf Lim.Conf
Ord.Orig.
31,2660
13,2651
2,3570
0,0273
3,8251
58,7070
VARI_POP
-0,3923
0,0805
-4,8742
0,0001
-0,5589
-0,2258
N_AGRIC
0,0008
0,0004
1,6903
0,1045
-0,0002
0,0017
TX_IMPOS
1,2301
3,1899
0,3856
0,7033
-5,3686
7,8288
PT_PHONE
-0,0832
0,1306
-0,6376
0,5300
-0,3533
0,1868
PT_RURAL
0,1655
0,0618
2,6766
0,0135
0,0376
0,2935
AGE
-0,4193
0,2554
-1,6415
0,1143
-0,9476
0,1091
N.B. : Tableau obtenu sous Statistica, l'aide du menu Statistiques - Modles gnraux de
rgression - Rgression Multiple puis l'onglet Synthse et le bouton Coefficients.
On voit que seuls b0, b1 et b5 sont significativement diffrents de 0.
En raison des difficults d'interprtation des rsultats d'une rgression multiple, diffrentes
alternatives la rgression linaire "ordinaire" ont t proposes. En particulier, l'interprtation
d'une rgression est nettement plus simple lorsque les prdicteurs sont non corrls entre eux. C'est
pourquoi il peut tre intressant de raliser une ACP sur les prdicteurs, puis une rgression de Y
sur les facteurs de l'ACP. Cette mthode est appele : rgression sur les composantes principales.

3.1.1.2 Approche factorielle de la rgression


Aprs centrage des donnes, le problme de la rgression linaire se ramne au suivant :
On cherche expliquer la variabilit de Y partir de celle des Xj : on cherche une combinaison
linaire des Xj qui reproduit "au mieux" la variabilit des individus selon Y. On prend donc la
combinaison linaire la plus corrle avec Y. La solution est fournie par la combinaison linaire des
Xj qui fait avec Y un angle minimum.

F.-G. Carpentier - 2012/2013

112

PSR92C - Analyse multidimensionnelle des donnes

2012/2013
Y

X1

Y = b1 X 1 + b2 X 2
X2

A chaque valeur observe yi de la variable Y correspond une valeur yi estime l'aide de l'quation
de rgression. La variabilit de Y se dcompose comme suit :
Variance de Y = Variance explique + Variance rsiduelle
Var (Y ) = Var (Y ) + Var (Y Y )
L'analyse de variance permet de tester globalement si la variable rgresse dpend significativement
des rgresseurs qui ont t considrs :
Sommes
dl
Carrs
932,065
265,662
1197,727

Rgress.
Rsidus
Total

Moyennes
F
Carrs
6
155,3441
23
11,5505

Le coefficient de dtermination est le rapport : R 2 =

niveau p
13,44909

0,000002

Var (Y )
.
Var (Y )

Cette valeur est aussi le carr du coefficient de corrlation r (Y , Y ) , appel coefficient de corrlation
multiple. Sur l'exemple trait, on obtient :
R = 0,8822 ; R2 = 0,7782
Le graphique suivant compare les valeurs observes de Y (les yi) avec les valeurs estimes par la
rgression (les yi ) :
Valeurs Prvues vs. Observes
Var. dpendante : PT_PAUVR
45

40

Val. Observes

35

30

25

20

15

10
14

16

18

20

22

24

26

28

Valeurs Prvues

F.-G. Carpentier - 2012/2013

113

30

32

34

36

38

95% de confiance

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

3.1.2 Une application de la rgression linaire : analyse de mdiation


Rf. http://www.psychologie-sociale.org/reps2.php?article=7
Lanalyse de mdiation est une technique statistique trs utile pour identifier les processus
responsables de leffet dune variable indpendante sur une variable dpendante. Ainsi, la
mdiation permet de distinguer, dans leffet expliquer, ce qui est directement imputable la
variable indpendante (effet direct de la VI sur la VD) et ce qui relve plutt de lintervention dun
facteur intermdiaire (effet indirect de la VI sur la VD via une variable de mdiation M).

Principe de la mthode :
On effectue la rgression linaire de la VD sur la VI. On obtient l'quation de rgression :
VD = b0 + b1 VI
et un coefficient de rgression standardis : 1 :
1
VI
VD
On effectue ensuite la rgression linaire de la variable de mdiation M sur la VI. On obtient
l'quation de rgression :
M = b'0 + b'1 VI
et le coefficient de rgression standardis : '1
Enfin, on effectue la rgression linaire multiple de la VD sur les deux variables M et VI. On
obtient l'quation de rgression :
VD = b"0 + b"1 VI + b"2 M
et les coefficients de rgression standardiss "1 et "2 :
1

VI
1

VD

2
M

Interprtation :
Si "2 est significativement diffrent de 0 et que "1 est nettement plus proche de 0 que 1, en
particulier si "1 nest pas significativement diffrent de 0 alors que 1 ltait, il y a mdiation
(partielle ou totale).
Exemple :
Ref. Costarelli, S., Call, R.-M.. Self-directed negative affect: The distinct roles of ingroup
identification and outgroup derogation, Current research in Social Psychology, Volume 10 No 2,
2004.
Le Sud-Tyrol est une rgion de l'Italie du Nord dans laquelle coexistent une population de langue
italienne et une population de langue allemande. La population de langue allemande a fait l'objet
d'une discrimination ngative durant le rgime fasciste, puis a bnfici de dispositions favorables
F.-G. Carpentier - 2012/2013

114

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

ensuite. De ces vnements rsulte un fort sentiment d'appartenance un groupe pour les membres
de chacun de ces deux groupes ethniques.
Une enqute par questionnaire a t mene en 2002 auprs d'un chantillon de 71 lycens
italophones. En particulier, les sujets devaient se positionner sur des chelles unipolaires 6 points
(cotes de 0 5, 0=pas du tout, 5=extrmement), selon leur opinion relativement aux deux
communauts. Pour moiti, les adjectifs utiliss taient connotation positive (par exemple : les
germanophones : ne sont pas du tout/sont extrmement sympathiques), et pour moiti, les adjectifs
utiliss taient connotation ngative (par exemple : antipathique, repoussant, mprisable). En
calculant un score moyen par sujet pour les chelles de mme connotation, appliques la mme
cible ethnique, on obtient ainsi pour chaque sujet quatre mesures comprises dans l'intervalle de 0
5:
- l'valuation positive de l'endogroupe, note ici ENDOP
- l'valuation positive de l'exogroupe, note ici EXOP
- l'valuation ngative de l'endogroupe, note ici ENDON
- l'valuation ngative de l'exogroupe, note ici EXON.
Par ailleurs, le questionnaire comportait galement des questions permettant d'valuer deux autres
variables, galement dans l'intervalle de mesure de 0 5 :
- l'intensit de l'identification l'endogroupe, note ici IDENT;
- l'estime ngative de soi (self-directed negative affect), note ici SDNA.
Les paramtres descriptifs des variables observes sont donns par :
Description
Identification l'endogroupe
Estime ngative de soi
Evaluation positive de l'endogroupe
Evaluation positive de l'exogroupe
Evaluation ngative de l'endogroupe
Evaluation ngative de l'exogroupe

Notation
IDENT
SDNA
ENDOP
EXOP
ENDON
EXON

Moyenne
3.61
3.07
4.39
3.66
0.56
1.58

Ecart type
0.57
0.63
0.71
0.66
0.50
0.59

On cherche expliquer les variations de la variable "estime ngative de soi" (SDNA) par celles des
autres variables.
On dfinit une variable note DEROG (outgroup derogation, ou partialit envers l'exogroupe) en
formant la diffrence EXON - ENDON.
a) La rgression linaire de la variable SDNA sur la variable IDENT fournit les rsultats suivants :

OrdOrig.
IDENT

Synthse de la Rgression; Variable Dp. : SDNA


F(1.69)=4.0587 p<.04784 Err-Type de l'Estim.: .62106
Bta
Err-Type
B
Err-Type
de Bta
de B
2.129557
0.472590
0.235700
0.116994
0.260511
0.129309

t(69)

niveau p

4.506145
2.014632

0.000026
0.047842

L'effet de IDENT sur SDNA est donc significatif au seuil de 5%.


La rgression linaire de IDENT sur DEROG fournit les rsultats suivants :
Synthse de la Rgression; Variable Dp. : DEROG
F(1.69)=8.4320 p<.00495 Err-Type de l'Estim.: .52667
F.-G. Carpentier - 2012/2013

115

PSR92C - Analyse multidimensionnelle des donnes

Bta
OrdOrig.
IDENT

0.329994

Err-Type
de Bta
0.113642

2012/2013

B
-0.129500
0.318421

Err-Type
de B
0.400765
0.109657

t(69)

niveau p

-0.323132
2.903799

0.747572
0.004948

L'effet de IDENT sur DEROG est donc significatif au seuil de 5% ?


Enfin, on ralise une rgression linaire multiple de SDNA sur les variables DEROG et IDENT.
Les rsultats sont alors les suivants :

OrdOrig.
IDENT
DEROG

Synthse de la Rgression; Variable Dp. : SDNA


F(2.68)=5.1029 p<.00861 Err-Type de l'Estim.: .60028
Bta
Err-Type
B
Err-Type
de Bta
de B
2.172575
0.457119
0.140000
0.119789
0.154737
0.132398
0.290005
0.119789
0.332182
0.137210

t(68)

niveau p

4.752756
1.168723
2.420970

0.000011
0.246596
0.018154

Dans cette dernire rgression, l'effet de IDENT sur SDNA n'est plus significatif. L'effet constat
dans la premire rgression s'explique donc par un effet de mdiation jou par la variable DEROG.

Remarque 1. Dans l'article cit supra, les auteurs dfinissaient galement la variable FAVO
(favoritisme pour l'endogroupe) comme la diffrence ENDOP-ENDON et ralisaient une analyse de
mdiation analogue. Mais, au contraire de la variable DEROG, la variable FAVO ne joue pas de
rle de mdiation significatif.
Remarque 2. Ces rsultats, obtenus sur des donnes analogues celles utilises par les auteurs
peuvent tre retrouvs dans le classeur Statistica Analyse-mediation1.stw.

3.1.3 Rgression linaire avec Statistica


Exemple
Source : A study on significant sources of the burnout syndrome in workers at occupational centres
for mentally disabled, Pedro R. Gil-Monte and Jos Ma Peir, Psychology in Spain, 1997, Vol. 2.
No 1, 116-123.
Page Web : http://www.psychologyinspain.com/content/full/1997/6bis.htm

Subjects
Subjects were 95 employees in occupational institutions for mentally retarded people in the
Valencia Autonomous Community (...).
Description des variables.

Self-confidence levels were measured by using five items of an adaptation of the Trait SportConfidence Inventory" (TSCI) (Vealey, 1986), in which the word "athlete" was replaced by
"workmate". Cronbach's alpha coefficient for the present study was .84.
Social support at work was estimated using 6 items of the "Organisational Stress Questionnaire"
(OSQ) (Caplan, Cobb, French, Van Harrison and Pinneau, 1975). These items reflect some aspects
of social support coming from workmates (3 items) and supervisors (3 items). Reliability
coefficient in this study was a=.86 for the supervisors' social support scale, and a=.76 for the
workmates' social support scale.
F.-G. Carpentier - 2012/2013

116

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Perceived role conflict and role ambiguity levels were measured by 3 items, for each of the
variables, taken from their respective OSQ scales. Reliability values were a=.69 for role ambiguity
and .68 for the role conflict scale.
The burnout syndrome was estimated by MBI (Maslach and Jackson, 1986). This instrument is
comprised of 22 items measuring the three dimensions in the syndrome: personal accomplishment
(8 items), emotional exhaustion (9 items), and depersonalisation (5 items). Reliability coefficients
obtained in the study were: a=.76 for the personal accomplishment subscale, a=.87 for emotional
exhaustion, and a=.52 for depersonalisation.
Ouvrez le classeur Valencia-Burnout.stw.
N.B. Les donnes figurant dans ce classeur ont t gnres partir des indications (moyennes,
carts-types, coefficients de corrlation) figurant dans l'article. Cela explique qu'il ne s'agisse pas de
valeurs entires, comme on aurait pu le penser la lecture de la description des variables.
Affichez les statistiques descriptives concernant ces variables. Vous devriez obtenir :

Variable
Self-Confidence
Workmates Social Support
Supervisor Social Support
Role Conflict
Role Ambiguity
Personal Accomplishment
Emotional Exhaustion
Depersonalisation

Statistiques Descriptives (Valencia-Burnout dans Valencia-Burnout.stw)


N Actifs Moyenne Minimum Maximum Ecart-type
95
6,4800
4,1632
9,4430
1,0656
95
3,2500
1,5810
5,0078
0,6635
95
2,9000
0,5435
5,2818
0,8545
95
2,7300
0,9488
4,7904
0,7942
95
2,1100
0,1915
4,3977
0,7640
95
36,4300 23,2596
57,2632
6,9266
95
17,5600 -5,4779
42,1888
10,1737
95
4,6900
-4,6758
15,3578
4,4636

Affichez de mme la matrice des corrlations :


Corrlations (Valencia-Burnout dans Valencia-Burnout.stw)
Corrlations significatives marques p < ,05000
N=95 (Observations VM ignores)
Self-Confidence
WorkmatesSupervisor
Role
Role
Personal Emotional
Depersonalisation
Social
Social
Accomplishment
Exhaustion
Conflict Ambiguity
Support Support
Variable
1,00
0,08
0,16
-0,11
-0,33
0,35
-0,14
0,00
Self-Confidence
0,08
1,00
0,50
-0,41
-0,40
0,33
-0,45
-0,22
Workmates Social Support
0,16
0,50
1,00
-0,37
-0,43
0,22
-0,40
-0,12
Supervisor Social Support
-0,11
-0,41
-0,37
1,00
0,38
-0,32
0,69
0,32
Role Conflict
-0,33
-0,40
-0,43
0,38
1,00
-0,48
0,40
0,28
Role Ambiguity
0,35
0,33
0,22
-0,32
-0,48
1,00
-0,40
-0,28
Personal Accomplishment
-0,14
-0,45
-0,40
0,69
0,40
-0,40
1,00
0,40
Emotional Exhaustion
-0,22
-0,12
0,32
0,28
-0,28
0,40
1,00
Depersonalisation 0,00

Comparez avec les valeurs indiques dans l'article :

F.-G. Carpentier - 2012/2013

117

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

3.1.3.1 La rgression linaire ordinaire


Effectuez ensuite une rgression multiple ordinaire des 3 dernires variables sur les 5 premires :
Pour la variable Personal Accomplishment :
Le bouton "Synthse de la rgression" (onglet "Avanc") affiche les rsultats suivants :

N=95
OrdOrig.
Self-Confidence
Workmates Social Support
Supervisor Social Support
Role Conflict
Role Ambiguity

Synthse de la Rgression; Variable Dp. : Personal Accomplishment


R= ,56173332 R= ,31554432 R Ajust = ,27709175
F(5,89)=8,2061 p<,00000 Err-Type de l'Estim.: 5,8892
Bta
Err-Type
B
Err-Type
t(89)
niveau p
de Bta
de B
32,4726 7,3143
4,4396
0,0000
0,2293
0,0932
1,4906
0,6057
2,4610
0,0158
0,1730
0,1074
1,8063
1,1213
1,6109
0,1108
-0,0923
0,1071 -0,7479 0,8678 -0,8618 0,3911
-0,1351
0,1006 -1,1779 0,8773 -1,3426 0,1828
-0,3235
0,1071 -2,9325 0,9710 -3,0201 0,0033

La colonne "B" donne les coefficients de l'quation de rgression linaire. Le modle fourni par la
rgression linaire est le suivant :
Personal Accomplishment = 32,47 + 1,49 *Self-Confidence +1,81 * Workmates Social Support 0,75 * Supervisor Social Support - 1,18 * Role Conflict - 2,93 * Role Ambiguity
La valeur de R2 est de 0,315 : 31,5% de la variance de la variable Personal Accomplishment est
explique par le modle.
Les coefficients de la colonne "Bta" sont les coefficients standardiss, c'est--dire les coefficients
que l'on observerait si on utilisait des variables centres rduites au lieu des variables observes. On
peut galement les interprter comme suit : lorsque "Self-Confidence" augmente d'un cart type, la
variable "Personal Accomplishment" estime augmente de 0,23 cart type, lorsque la variable "Role
Conflict" augmente d'un cart type, "Personal Accomplishment" diminue de 0,135 cart type.
Par exemple, on pourra vrifier que
Beta( Self Confidence) =

Ecart type( Self Confidence)


1,0656
B ( Self Confidence) =
1,4906 = 0,2293
Ecart type( Personal Accomplishment )
6,9266

Les valeurs de t sont obtenues en divisant la valeur correspondante de B par son erreur type.
Autrement dit, on teste si le coefficient B est significativement diffrent de 0.
On peut afficher les rsultats de l'ANOVA (bouton ANOVA) montrant qu'ici, le coefficient de
rgression multiple est significativement diffrent de 0, ou encore qu'il existe un lien linaire
significatif entre la variable dpendante et les autres variables :
F.-G. Carpentier - 2012/2013

118

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Analyse de Variance (Valencia-Burnout dans Valencia-Burnout.stw)


Sommes
dl
Moyennes
F
niveau p
Carrs
Carrs
Effet
Rgress. 1423,058
5
284,6115
8,2061
0,0000
1Rsidus 3086,793
89
34,6831
Total
4509,850

Sous l'onglet "Nuage", on pourra obtenir diffrentes reprsentations graphiques dont, par exemple,
le graphique illustrant l'adquation entre les valeurs observes et les valeurs thoriques :
Valeurs Prvues vs. Observes
Var. dpendante : Personal Accomplishment
60

55

Val. Observes

50

45

40

35

30

25

20
24

26

28

30

32

34

36

38

Valeurs Prvues

40

42

44

46

48

95% de confiance

3.1.3.2 La rgression linaire pas pas


Dans l'article, les auteurs indiquent qu'ils ont fait une rgression linaire pas pas des dimensions
du MBI sur les 5 premires variables.
Principe de la mthode
Les donnes sont formes par une VD Y et plusieurs variables explicatives X1, X2, ..., Xp.
On choisit, parmi les variables explicatives, celle qui est le mieux corrle Y. Pour simplifier les
notations, nous supposerons qu'il s'agit de la variable X1.
On calcule l'quation de rgression linaire de Y sur X1 : Y = b1 X1 + b0.
On calcule alors les rsidus : R1 = Y - b1 X1.- b0
On choisit, parmi les variables explicatives restantes, celle qui est le mieux corrle R1. Nous
supposons ici qu'il s'agit de la variable X2.
On calcule l'quation de rgression linaire de Y sur X1 et X2 : Y = b'1 X1 + b2 X2 + b'0.
On calcule les nouveaux rsidus : R2 = Y - (b'1 X1 + b2 X2 + b'0) et on poursuit la mthode jusqu'
ce que les variables explicatives restantes ne soient plus significativement corrles aux rsidus.
La rgression linaire pas pas pour la variable Personal Accomplisment
Utilisez de nouveau le menu Statistiques - Rgression Multiple
Sous l'onglet "Avanc", spcifiez "Personal Accomplishment" comme variable dpendante, les 5
premires variables comme variables indpendantes. Cochez l'option "rgression ridge ou pas-pas".
F.-G. Carpentier - 2012/2013

119

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Dans le dialogue suivant, activez l'onglet "pas--pas" et slectionnez la mthode "pas pas
ascendante", et l'affichage des rsultats chaque tape :

A la premire tape, Statistica affiche les rsultats suivants :

Cliquez sur "suivant". On obtient :

Puis :

Statistica accepte encore de faire rentrer deux autres variables dans la rgression. Cependant, en
affichant les rsultats disponibles sous le bouton "Synthse de la rgression", on se rend compte que
seules ces deux premires variables sont significativement corrles aux rsidus :

F.-G. Carpentier - 2012/2013

120

PSR92C - Analyse multidimensionnelle des donnes


2012/2013
Synthse de la Rgression; Variable Dp. : Personal Accomplishment
R= ,55662608 R= ,30983259 R Ajust = ,27915848
F(4,90)=10,101 p<,00000 Err-Type de l'Estim.: 5,8808
Bta
Err-Type
B
Err-Type
t(90)
niveau p
de
Bta
de
B
N=95
OrdOrig.
30,8772 7,0660
4,3698
0,0000
Role Ambiguity
-0,3029
0,1043 -2,7456 0,9451 -2,9050 0,0046
Self-Confidence
0,2253
0,0929
1,4647
0,6041
2,4247
0,0173
Workmates Social Support
0,1406
0,1005
1,4680
1,0489
1,3996
0,1651
Role Conflict
-0,1225
0,0994 -1,0682 0,8668 -1,2323 0,2210

On peut alors reprendre la mthode en ne spcifiant que deux tapes et retrouver les rsultats
indiqus par les auteurs :

N=95
OrdOrig.
Role Ambiguity
Self-Confidence

Synthse de la Rgression; Variable Dp. : Personal Accomplishment


R= ,52114960 R= ,27159690 R Ajust = ,25576205
F(2,92)=17,152 p<,00000 Err-Type de l'Estim.: 5,9755
Bta
Err-Type
B
Err-Type
t(92)
niveau p
de Bta
de B
35,1981 4,9107
7,1677
0,0000
-0,4090
0,0943 -3,7083 0,8545 -4,3395 0,0000
0,2150
0,0943
1,3976
0,6127
2,2811
0,0249

Rsultats indiqus dans l'article :

3.1.4 Un exemple d'analyse de mdiation avec Statistica


Source : Congruence de valeurs et engagement envers l'organisation et le groupe de travail.
Stinglhamber, F., Bentein, K., Vandenberghe, C., Psychologie du Travail et des Organisations, Vol.
10, pp. 165-187, 2004.

F.-G. Carpentier - 2012/2013

121

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

L'tude cite supra avait pour objectif d'examiner le rle des valeurs individuelles,
organisationnelles et groupales ainsi que celui de la congruence de valeurs dans la prdiction de
l'engagement des salaris envers l'organisation et le groupe de travail.
On lit notamment dans la partie consacre aux objectifs de l'tude :
"La plupart des tudes ayant examin les effets des valeurs culturelles sur les attitudes et les
comportements des employs se sont concentrs sur le niveau organisationnel. Pourtant, il est de
plus en plus reconnu dans la littrature que l'organisation est compose d'entits multiples. Celles-ci
peuvent produire leurs propres valeurs culturelles (...)
Nous faisons l'hypothse que le niveau d'ancrage des valeurs culturelles aura une importance
dcisive dans la prdiction des attitudes du personnel. Plus spcifiquement, les valeurs manant de
l'organisation en tant que telle devraient jouer un rle primordial dans le dveloppement d'attitudes
diriges vers l'organisation, alors que les valeurs caractrisant le groupe de travail devraient
influencer en priorit les attitudes envers le groupe (Hypothse 1). (...)
Par ailleurs, il est vraisemblable que cette influence des valeurs vhicules au sein dune entit
particulire (organisation ou groupe de travail) sur les attitudes du personnel envers cette mme
entit se fasse par lintermdiaire dun ou de plusieurs des mcanismes voqus prcdemment,
savoir des effets directs de ces valeurs, un effet de la congruence (objective ou subjective) de
valeurs, ou des effets interactifs. En outre, les rsultats des travaux de Judge et Cable (1997 ; Cable
et Judge, 1996) laissent penser que la congruence subjective pourrait tre un mdiateur de la
relation postule entre valeurs ou congruence objective de valeurs lie une entit particulire et les
attitudes diriges vers cette entit (Hypothse 2). (...)"
Les auteurs dfinissent 18 variables mesures partir d'items valus sur des chelles de Likert ou
de facteurs issus d'une analyse factorielle exploratoire sur un ensemble d'items. Le classeur
Statistica Stinglhamber.stw contient un fichier de donnes cres artificiellement partir du tableau
des moyennes, variances et corrlations publi dans l'article cit et respectant le nombre
d'observations faites (200 questionnaires).
N.B. Les auteurs ont utilis une mthode de rgression polynomiale diffrente de l'analyse de
rgression utilise ici. C'est pourquoi les rsultats publis, tout en tant proches des rsultats
obtenus sous Statistica, ne sont pas identiques ces derniers.
On s'intresse ici aux 5 variables prdictives :
- valeurs orientes vers le support interpersonnel au niveau individuel (Support P)
- valeurs orientes vers le support interpersonnel au niveau organisationnel (Support O)
- valeurs orientes vers le support interpersonnel au niveau du groupe de travail (Support G)
- la congruence entre les valeurs personnelles et organisationnelles (par exemple "mes valeurs de
travail correspondent celles qui sont en vigueur dans mon organisation") (Congruence subj P-O)
- la congruence entre les valeurs personnelles et groupales (mes valeurs sont en accord avec celles
des autres membres de mon groupe de travail) (Congruence subj P-G).
Les variables dpendantes tudies sont :
- l'engagement affectif envers l'organisation (EA-Organisation)
- l'engagement normatif envers l'organisation (EN-Organisation)
- l'engagement affectif envers le groupe de travail (EA-Groupe)
- l'engagement normatif envers le groupe de travail (EN-Groupe).
Effectuez une rgression linaire multiple de EA-Organisation sur les trois variables support. Vous
devriez obtenir :
F.-G. Carpentier - 2012/2013

122

PSR92C - Analyse multidimensionnelle des donnes


2012/2013
Synthse de la Rgression; Variable Dp. : EA-Organisation
R= ,35553188 R= ,12640292 R Ajust = ,11303153
F(3,196)=9,4532 p<,00001 Err-Type de l'Estim.: ,84974
b*
Err-Type
b
Err-Type
t(196)
valeur p
de
b*
de
b
N=200
OrdOrig.
2,03
0,52
3,88
0,00
Support P
-0,03
0,08
-0,05
0,12
-0,44
0,66
Support O
0,26
0,07
0,21
0,06
3,46
0,00
Support G
0,18
0,08
0,16
0,07
2,28
0,02

Effectuez galement une rgression linaire multiple de EA-Organisation sur les 5 variables
prdictives. Vous devriez obtenir :

N=200
OrdOrig.
Support P
Support O
Support G
Congruence subj P-O
Congruence subj P-G

Synthse de la Rgression; Variable Dp. : EA-Organisation


R= ,54964813 R= ,30211306 R Ajust = ,28412629
F(5,194)=16,796 p<,00000 Err-Type de l'Estim.: ,76339
b*
Err-Type
b
Err-Type
t(194)
valeur p
de b*
de b
1,42
0,48
2,95
0,00
-0,04
0,07
-0,06
0,10
-0,55
0,58
0,10
0,07
0,08
0,06
1,40
0,16
0,09
0,08
0,08
0,08
1,11
0,27
0,46
0,07
0,45
0,07
6,49
0,00
0,03
0,08
0,02
0,08
0,32
0,75

Quels sont les lments de la conclusion suivante qui peuvent tre noncs partir des tableaux cidessus ?
"Les valeurs de support de lorganisation sont associes positivement lengagement affectif envers
lorganisation (...) Par ailleurs, les valeurs de support du groupe de travail sont positivement lies
lengagement tant affectif que normatif envers le groupe. En outre, la congruence de valeurs
subjective PO a un impact significatif sur lengagement affectif envers lorganisation et la
congruence subjective PG a un effet significatif sur lengagement affectif envers le groupe."
Ralisez les autres rgressions linaires multiples permettant de justifier les autres lments
indiqus.
Ralisez galement des rgressions linaires multiples montrant que les variables support n'ont pas
d'effet sur l'engagement normatif envers l'organisation mais qu'en revanche, un effet apparat
lorsqu'on introduit les 5 variables prdictives dans le modle.
De mme, quels sont les lments de ces tableaux qui permettent d'noncer la conclusion suivante :
"Les rsultats indiquent que la congruence subjective PO agit comme mdiateur total dans la
relation entre les valeurs organisationnelles de support et lengagement affectif envers
lorganisation. En effet :
ces valeurs organisationnelles de support ont un effet principal sur lengagement affectif
organisationnel ;
ces valeurs organisationnelles de support sont positivement lies la congruence subjective PO
(r = 0,41, p < 0,01) ;
cette dernire a un effet indpendant sur lengagement affectif envers lorganisation ;
et leffet principal des valeurs organisationnelles de support sur lengagement affectif envers
lorganisation disparat lorsque la congruence subjective PO est introduite dans lquation de
rgression."
Procdez de faon analogue pour obtenir les autres rsultats indiqus par les auteurs :
F.-G. Carpentier - 2012/2013

123

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

- "La congruence subjective PG est un mdiateur de leffet des valeurs de support du groupe sur
lengagement affectif envers le groupe. tant donn que les valeurs de support du groupe exercent
encore un effet significatif sur lengagement affectif envers ce groupe lorsque la congruence
subjective PG est introduite dans lquation, nous ne pouvons cependant conclure qu une
mdiation partielle et non totale."
- Les variables de congruence subjective n'ont pas d'effet de mdiateur sur l'engagement normatif
envers le groupe.

F.-G. Carpentier - 2012/2013

124

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

3.2 Rgression logistique


Bibliographie :
Howell, D.C., Mthodes Statistiques en Sciences Humaines, De Boeck, Paris Bruxelles, 1998.
Lebart, L., Morineau, A., Piron M., Analyse exploratoire multidimensionnelle, Dunod, Paris, 2000.

3.2.1 La rgression logistique


La rgression logistique peut tre vue comme une extension de la rgression linaire au cas o la
variable dpendante est dichotomique. Plus prcisment, sur un chantillon de n individus
statistiques, on a observ :
- p variables numriques ou dichotomiques X1, X2, ..., Xp (variables indpendantes ou
explicatives)
- une variable dichotomique Y (variable dpendante, ou " expliquer").
Dans le cas le plus simple, on cherche expliquer une variable dichotomique Y par une variable
numrique X. On dispose donc d'un tableau de donnes sous la forme :
s1
Y
X

s2

1
x1

sn

0
x2

...

0
xn

Exemple : On considre un chantillon de 30 sujets pour lesquels on a relev :


- d'une part le niveau des revenus (variable numrique)
- d'autre part la possession ou non d'un nouvel quipement lectro-mnager.
On a obtenu les donnes suivantes :
Revenu
Possde

1085
0

1304
0

1331
0

1434
0

1541
0

1612
0

1729
0

1759
0

1863
0

2121
0

2395
0

2681
0

3390
0

4237
0

1241
1

Revenu
Possde

1798
1

1997
1

2234
1

2346
1

2436
1

2753
1

2813
1

3204
1

3564
1

3592
1

3762
1

3799
1

4037
1

4168
1

4484
1

3.2.1.1 Principe de la mthode


Ces donnes peuvent tre reprsentes l'aide d'un nuage de points, qui a l'allure suivante :
Nuage de Points (Feuille de donnes dans Reg-Logit-Cours.stw 10v*30c)
1,2

1,0

Possede

0,8

0,6

0,4

0,2

0,0

-0,2
500

1000

1500

2000

2500

3000

Revenu

F.-G. Carpentier - 2012/2013

125

3500

4000

4500

5000

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

On cherche un modle permettant d'estimer Y ("Possde") connaissant X ("Revenu"). Plutt que de


rechercher un modle mathmatique donnant pour une valeur donne X exactement la valeur 0 ou
la valeur 1, il peut sembler pertinent de rechercher un modle produisant des valeurs comprises
entre 0 et 1 qui seront interprtes comme des probabilits. Par exemple :
Y = 0,1 signifie que : il y a 10% de chances que Y=1
Cependant, la droite de rgression de la variable Y par rapport la variable X ne constitue pas un
bon modle car les valeurs estimes ne seront pas limites 0 et 1.
Pour passer d'une variable prenant ses valeurs dans [0, 1] une variable prenant ses valeurs dans
[0, +[, on introduit le rapport de chances ou cote :
P(Y = 1)
p1 =
1 P(Y = 1)
Ainsi, si P(Y=1)=0,9, le rapport de chances vaut p1 = 0,9/0,1=9 : on a 9 fois plus de chances
d'observer Y=1 que Y=0.
De mme, si P(Y=1)=0,2, le rapport de chances vaut p1 = 0,2/0,8=1/4 : on a 4 fois plus de chances
d'observer Y=0 que Y=1.
Pour passer d'une quantit (le rapport de chances) variant dans [0, +[ une quantit prenant
n'importe quelle valeur relle, on applique une nouvelle transformation, en prenant le logarithme
nprien du rapport. On obtient ainsi la transformation logit :
P
logit( P) = ln

1 P
Ainsi,
- si P = 0,9, logit(P) = ln 9 = 2,1972
- si P = 0,5, logit(P) = ln 1 = 0
- si P = 0,2, logit(P) = ln(1/4) = -1,3863.
A partir d'une "valeur logit" y, on peut facilement revenir la probabilit P correspondante en
appliquant la transformation :
ey
P=
1+ ey
On ajuste alors logit(P) par une fonction affine, ce qui revient dterminer une "sigmode" qui
passe au mieux par les points exprimentaux :
Modle:Rg. logistique (logit)
y=exp(-2,7271+(,001151)*x)/(1+exp(-2,7271+(,001151)*x))
1,2
C:15

1,0

C:16 C:17 C:18


C:19
C:20

C:21
C:22

C:23

C:24
C:25C:26
C:27 C:28
C:29

C:30

0,8

0,6

0,4

0,2

0,0

-0,2
500

C:1

1000

C:2
C:3C:4C:5
C:6C:7
C:8C:9

1500

C:10

2000

C:11

C:12

2500

C:13

3000

Revenu

F.-G. Carpentier - 2012/2013

126

3500

C:14

4000

4500

5000

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

L'quation correspondant cet ajustement est :


logit(Y ) = 2,7271 + 0,001151 X
Exemple d'utilisation de cette quation : partir de quel revenu a-t-on 90% de chances de tirer un
sujet possdant l'quipement envisag ?
P = 0,9 correspond P/(1-P) = 0,9/0,1 = 9 d'o logit(P) = 2,1972.
Or : 2,1972 = -2,7271 + 0,001151 X donne X = (2,1972 + 2,7271)/0,001151, c'est--dire : X=4278.
Remarque : Cette quation n'est pas obtenue par une "simple" rgression linaire, mais par des
mthodes itratives. D'une part, il n'est pas envisageable de faire les calculs manuellement, d'autre
part, il faudra, dans certains cas, "aider" les logiciels en indiquant des valeurs initiales plausibles
pour les coefficients.

3.2.1.2 Aides l'interprtation. Evaluation de la qualit du modle obtenu.


La qualit du modle peut tre value en comparant les rsultats obtenus avec ceux du modle
"constant" qui attribuerait la probabilit 14/30 la valeur 0 et 16/30 la valeur 1. Une fonction de
vraisemblance est value dans les deux cas, et la diffrence des deux fonctions suit une loi du khi2 1 degr de libert lorsqu'il n'y a qu'une seule variable indpendante.
Sur notre exemple, on obtient :
Chi-deux = 7,636181 ; dl = 1 ; p = ,0057242
Le revenu est donc un prdicteur significatif de la variable Y.
Une autre aide l'interprtation courante est le rapport de cotes ou odds-ratio (OR). En particulier,
la contribution de la variable X la variation de Y est calcule par :
OR = exp(Coefficient de X dans le modle)
Ainsi, sur notre exemple, l'odds-ratio correspondant au coefficient 0,001151 est : e0,001151=1,0012.
Autrement dit, une augmentation du revenu de 1 unit se traduit par une multiplication de la
probabilit par 1,0012.
D'une manire gnrale, l'odds-ratio est dfini comme le rapport de deux rapports de chances.
Ainsi, l'odds-ratio relatif l'tendue des valeurs observes est dfini de la manire suivante :
- On calcule le rapport de chances relatif la plus grande valeur observe du revenu :
P1
Pour X = 4484, P1=0,919325 et
= 11,3954
1 P1
- On calcule le rapport de chances relatif la plus petite valeur observe du revenu :
P2
Pour X = 1085, P2=0,185658 et
= 0,2280
1 P2
- L'odds-ratio est obtenu comme quotient des deux rapports prcdents :
P1
1 P1 11,3954
OR =
=
= 49,98
P2
0,2280
1 P2
F.-G. Carpentier - 2012/2013

127

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

On value galement un Odds-ratio comparant valeurs observes et valeurs prvues. Pour cela, on
dfinit deux classes dans les valeurs prvues : celles infrieures 0,5 et celles suprieures 0,5 et
on forme le tableau de contingence croisant les valeurs observes (0 ou 1) avec les classes ainsi
dfinies. Sur notre exemple, on obtient :
Prv.
Prv.
Obs
< 0,5
> 0,5
0
10
4
1
5
11
Le rapport est alors obtenu en formant le rapport ad/bc (produit des effectifs des cases d'accord
divis par le produit des effectifs des cases de dsaccord.
On obtient ainsi :
10 11
= 5,50
OR =
5 4
Signification approximative : si la valeur prvue est suprieure 0,5, on a 5,5 fois plus de chances
d'observer Y=1 que Y=0.

3.2.2 La rgression logistique avec Statistica


Source : Howell. p. 633, ex. 15.31 a 15.33
La feuille de donnes Harass contient des donnes lgrement modifies relatives 343 cas crs
pour rpliquer les rsultats d'une tude sur le harclement sexuel (Brooke et Perot 1991). Les
variables sont :
- l'ge
- l'tat-civil (1 = mari(e), 2 = clibataire) (NB tonnant, n'est-ce pas l'inverse? cf donnes)
- l'idologie fministe
- la frquence du comportement
- le caractre agressif du comportement
- le fait qu'il ait t ou non signale (0 = non, 1 = oui).
1) Utiliser un programme de rgression logistique et examiner la probabilit qu'un sujet signale un
cas de harclement sexuel sur la base des VI.
2) Mme question, mais en n'utilisant que le prdicteur dichotomique relatif l'tat civil. Faire une
table de contingence, calculer les rapports de chances et comparer ces rsultats ceux de la
rgression logistique. (rsultats son significatifs, mais cela importe peu, selon Howell).
3) Apparemment, la frquence du comportement n'est pas lie la probabilit de voir la victime
signaler le cas de harclement. Peut-on en imaginer les raisons ?
Ouvrez le classeur Harassment.stw.
Un premier rsultat peut tre obtenu l'aide du menu : Statistiques, Analyses par groupes, Modles
linaires/non-linaires avancs, Estimation non linaire, Rgression Logit lmentaire.
Indiquez "Harcelement" comme variable dpendante et les 5 autres variables comme variables
idpendantes.

F.-G. Carpentier - 2012/2013

128

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Lorsqu'on laisse les options par dfaut (minimum de rsultats), on obtient la feuille de rsultats
suivante :
Modle: Rg. logistique (logit) Nbre de 0 : 174 1 : 169
Var dp. : Harcelement Perte : Max vraisemblance (MC-er. posit.
Perte finale= 219,99193498 Chi( 5)=35,442 p=,00000
Const.B0
Age
Etat-Civil
Feministe Frequence
N=343
Estimat.
-1,7317
-0,0137
-0,0723
0,0070
-0,0464
Erreur-type
1,4296
0,0129
0,2338
0,0146
0,1525
t(337)
-1,2113
-1,0614
-0,3091
0,4771
-0,3043
niveau p
0,2266
0,2893
0,7575
0,6336
0,7611
-95%CL
-4,5439
-0,0391
-0,5321
-0,0218
-0,3464
+95%CL
1,0804
0,0117
0,3876
0,0358
0,2536
Chi de Wald
1,4672
1,1265
0,0955
0,2277
0,0926
niveau p
0,2258
0,2885
0,7573
0,6333
0,7609
Odds ratio (unit)
0,1770
0,9864
0,9303
1,0070
0,9547
-95%CL
0,0106
0,9617
0,5874
0,9784
0,7072
+95%CL
2,9460
1,0118
1,4734
1,0364
1,2887
Odds r. (tendue)
0,4644
0,9303
1,3985
0,8306
-95%CL
0,1121
0,5874
0,3509
0,2501
+95%CL
1,9244
1,4734
5,5731
2,7579

Agressivite
0,4878
0,0949
5,1409
0,0000
0,3011
0,6744
26,4292
0,0000
1,6287
1,3514
1,9629
80,6394
15,0336
432,5462

On peut aussi utiliser le menu Statistiques, Modles linaires/non-linaires avancs, Estimation non
linaire, Rgression Logit: On indique de la mme faon la variable dpendante et les variables
indpendantes :

On peut ensuite choisir un algorithme d'estimation et ventuellement indiquer manuellement les


valeurs initiales des coefficients bi, ce qui est souvent utile, si les plages de variations des VI sont
trs diffrentes de l'intervalle [0, 1] (et n'est pas prvu par le menu prcdent).

F.-G. Carpentier - 2012/2013

129

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Le tableau de rsultats produit par la mthode prcdente est alors accessible par le bouton
"Synthse : paramtres et erreurs-types" du dialogue des rsultats.
L'quation de la courbe de rgression est :
logit P = -1,7317-0,013698 Age -0,072251 EtatCivil + 0,0069870 Feministe -0,046408 Frequence + 0,4878 Agressivite

Le khi-2 correspondant au modle vaut 35,442, et il est significatif au seuil de 1%. En revanche,
seule la variable Agressivite semble avoir un rle explicatif suprieur celui que le hasard est
susceptible de produire.
Les odds-ratio unitaires correspondant aux diffrentes variables sont :

N=343
Odds ratio (unit)

Modle: Rg. logistique (logit) Nbre de 0 : 174 1 : 169 (HARASS)


Var dp. : Harcelement Perte : Max vraisemblance (MC-er. posit.
Perte finale= 219,99193498 Chi( 5)=35,442 p=,00000
Const.B0
Age
Etat-Civil
Feministe Frequence
0,1770
0,9864
0,9303
1,0070
0,9547

Agressivite
1,6287

On voit que seules les variables Feministe et Agressivite possdent des odds-ratio unitaires
suprieurs 1 et que seul celui de Agressivite est nettement diffrent de l'unit.

On peut galement afficher le tableau des valeurs observes et des valeurs prvues de la variable
dpendante :

1
2
3
4

Modle : (HARASS dans Harassment-correction.stw)


Var. Dp. : Harcelement
Observe
Prv.
Rsidus
0,0000
0,6431
-0,6431
0,0000
0,7312
-0,7312
1,0000
0,8696
0,1304
1,0000
0,3080
0,6920

Sous l'onglet Rsidus, on peut obtenir le calcul de l'odds-ratio pour le modle :

F.-G. Carpentier - 2012/2013

130

PSR92C - Analyse multidimensionnelle des donnes


Classification d'obs. (HARASS)
Odds ratio : 2,1051 Pourc. corrig : 59,18%
Prv.
Prv.
%
0,000000
1,000000
Corrig
Observe
0,000000
111
63
63,79310
1,000000
77
92
54,43787

2012/2013

On peut galement utiliser le menu : Statistiques, Modles linaires/non-linaires avancs, Modles


linaires/non linaires gnraliss, puis l'item Modle logit dans l'onglet Base ou les items :
Rgression simple (ou multiple), Distribution: Binomiale et Fonction de liaison : logit de l'onglet
Avanc.
Lorsqu'on indique les variables et leur rle, il est important de prciser que c'est le code "1" de la
variable Harcelement qui doit tre assimil la modalit "succs" de la variable binomiale, faute de
quoi les rsultats seraient inverss :

On retrouve ainsi les rsultats obtenus par les deux autres mthodes, mais avec une prsentation
diffrente. On peut galement obtenir des rsultats supplmentaires, tels que l'volution des valeurs
des coefficients chaque itration de l'algorithme :
Harcelement - Historique itrations (HARASS )
Distribution : BINOMIALE
Fonction de Liaison : LOGIT
Niveau Colonne Itrat.
Itrat.
Itrat.
Itrat.
Effet
0
1
2
3
Effet
Ord.Orig
1
0,000
-1,556
-1,727
-1,732
Age
2
0,000
-0,012
-0,014
-0,014
Etat-Civil
3
0,000
-0,066
-0,072
-0,072
Feministe
4
0,000
0,006
0,007
0,007
Frequence
5
0,000
-0,044
-0,046
-0,046
6
0,000
0,438
0,486
0,488
Agressivite
Vraisembl.
-237,749 -220,156 -219,992 -219,992

On peut galement noter que l'on obtient des rsultats lgrement diffrents lorsque l'on indique
"Etat-Civil" comme variable catgorielle.

3.2.3 Un exemple de rgression logistique issu d'un article.


Rf. : Factors Influencing Adolescents Engagement in Risky Internet Behavior, ALBERT KIENFIE
LIAU, Ph.D., ANGELINE KHOO, Ph.D., and PENG HWAANG, Ph.D., CYBERPSYCHOLOGY
& BEHAVIOR, Volume 8, Number 6, 2005, pp 513-520.
Dans l'article cit supra les auteurs se sont intresss aux facteurs lis la prise de risques dans le
comportement sur Internet pour des adolescents de Singapour. Ils identifient notamment comme
conduite risques le fait de rencontrer physiquement une personne qu'ils ont d'abord connu
"online".
Dans les rsultats de leur tude, les auteurs indiquent notamment :
F.-G. Carpentier - 2012/2013

131

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

1045 (93.0% of the total sample) adolescents reported having used the Internet, and 827 (73.6%)
adolescents reported having chatted on the Internet. The study focused on this group of 827
adolescents who have experienced chatting on the Internet. These adolescents have a mean age =
14.42 (SD = 1.33) and are 51.4% girls. (...)
A total of 169 adolescents (16.2% of Internet users, or 20.4% of those who chat) reported having
met someone in real life that they first encountered online.
A series of multiple logistic regression analyses was used to examine the factors that influence
adolescents engagement in risky internet behavior, in particular, meeting in person with someone
encountered online. Odds ratios (OR) were calculated to approximate relative risk and are presented
with 99% confidence intervals. Age was a significant predictor of the risky behavior (OR = 1.26,
99% CI (1.06, 1.48), p < 0.0001) but gender was not a significant predictor; 80 out of the 169
(47.3%) adolescents were girls. For ease of interpretation, the frequency of use of the Internet
variable was dichotomized so that 1 = at least once a day and 0 = less than once a day.
Controlling for age, frequency of use of the Internet was a significant predictor of the risky behavior
(OR = 1.68, 99% CI (1.07, 2.65), p < 0.01). Parents educational background and whether parents
lived together were not significant predictors of the risky behavior. All subsequent analyses include
age and frequency of use as covariates in order to control for the influence of these factors. The
following factors were examined as predictors of the risky behavior: frequency of chatting and
gaming behavior, parental supervision, communication with parents, type of personal information
given out, amount of inappropriate messages received, whether inappropriate websites have been
visited, and type of internet advice heard. Significant and marginally significant predictors of the
risky behavior are reported in Table 2.
TABLE 2. SIGNIFICANT AND MARGINALLY SIGNIFICANT PREDICTORS OF THE RISKY INTERNET BEHAVIOR
MEETING IN PERSON SOMEONE ENCOUNTERED ONLINE
Predictor
OR
99% CI
Frequency of Internet activities
3.13** 1.75, 5.55
Frequency of chatting
1.77*
1.07, 2.91
Frequency of gaming
Parental supervision
Rules for Internet use
Not allowed to meet in person someone encountered online
0.49** 0.30, 0.81
Not allowed to talk to strangers in chatrooms
0.46*
0.23, 0.93
Not allowed to give out personal information
0.62
0.39, 1.01
People usually at home when arrive from school
1.56
1.06, 1.48
Communication with parents
Tell parents about receiving pornographic junk mail
0.49
0.22, 1.06
Giving out personal information
Phone number
2.17*
1.15, 4.09
Photograph
2.68*
1.16, 6.18
Favorite band, music
1.67*
1.03, 2.90
Receiving inappropriate message
Met someone on the Internet who asked for personal information 4.16** 2.42, 6.67
Sent pornography from someone met only on the Internet
1.80
0.97, 3.34
Received unwanted sexual comments on the Internet
2.59** 1.58, 4.23
Received pornographic junk mail in e-mail or Instant Messaging
1.90** 1.19, 3.04
Visiting Inappropriate websites
Accidentally ended up in a pornographic website
1.68*
1.04, 2.73
Purposely visited a pornographic website
2.39** 1.33, 4.28
Accidentally ended up in a website with violent/gruesome images 1.60*
1.01, 2.54
Accidentally ended up in a hate website
1.44
0.90, 2.33
Heard of the following Internet safety advice
Never arrange to meet anyone
0.55*
0.33, 0.90
Do not download anything
1.88*
1.06, 3.17
**p < 0.0001.
*p < 0.01.
p < 0.05.
F.-G. Carpentier - 2012/2013

132

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

3.3 Introduction l'analyse discriminante


3.3.1 Prsentation de la mthode
3.3.1.1 Position du problme
On dispose de n observations sur lesquelles on a relev :
- les valeurs d'une variable catgorielle comportant quelques modalits (2, 3, ...) : c'est le
groupe ou diagnostic.
- les valeurs de p variables numriques : X1, X2, ..., Xp : ce sont les prdicteurs.
On se pose des questions telles que :
- dans quelle mesure la valeur de Y est-elle lie aux valeurs de X1, X2, ..., Xp ?
- Etant donn d'autres observations, pour lesquelles X1, X2, ..., Xp sont connues, mais Y ne
l'est pas, est-il possible de prvoir Y (le groupe), et avec quel degr de certitude ?
Exemples de situations o une telle mthode peut tre intressante :

Exemple 1. On tudie les diffrentes espces de poissons peuplant un lac, mais la dtermination
exacte de l'espce suppose que l'on sacrifie l'animal. Peut-on se contenter de relever diffrents
paramtres concernant les poissons prlevs, et dduire l'espce partir de ces paramtres avec un
degr de certitude raisonnable ?
Exemple 2. Pour dterminer le type d'utilisation de parcelles agricoles, on peut videmment faire
des relevs sur le terrain. Mais pourrait-on utiliser les informations donnes par des images
satellites ?
La mthode est galement utilise sans que l'on ait un objectif de prdiction; on souhaite seulement
dterminer les prdicteurs les plus lis au groupe d'appartenance. De ce point de vue, l'analyse
discriminante est alors un complment l'analyse de variance multivarie ou MANOVA.

3.3.1.2 Prcautions et limites de la mthode


Comme dans le cas de la rgression linaire, l'emploi de cette mthode suppose que les variables
prdictrices possdent des proprits de rgularit satisfaisantes : distribution normale (voire
multinormale) des variables Xi dans les diffrentes populations.
Par ailleurs (comme pour la rgression linaire), l'analyse discriminante peut conduire des
rsultats incorrects si les variables Xi sont trop fortement corrles entre elles.

3.3.2 Analyse discriminante sur un mini-exemple


3.3.2.1 Prsentation de l'exemple
On a relev les valeurs de deux variables X1 et X2 sur 40 individus statistiques rpartis en deux
groupes. Le nuage de points reprsentant ces observations est le suivant :

F.-G. Carpentier - 2012/2013

133

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Nuage de Points (Feuille de donnes dans Mini-AnaDiscrim.stw 4v*50c)

Nuage de Points (Feuille de donnes dans Mini-AnaDiscrim.stw 4v*50c)


Fonction = X
Fonction = -X +19

20
24

18

22
16

20
18

14

14

10

12
X2

X2

16
12

10
8
6

4
4

2
0

-2
Groupe: G2
Groupe: G1

0
-2

10

12

14

16

18

20

22

-4
-2

10

X1

12

14

16

18

20

22

Groupe: G2
Groupe: G1

X1

Prise isolment, aucune des deux variables X1 et X2 ne permet de diffrencier les deux groupes G1
et G2. Cependant, on voit bien que les deux groupes occupent des rgions du plan bien spcifiques.
On voit intuitivement que notre problme pourrait tre rsolu en considrant une variable abstraite,
combinaison linaire de X1 et X2 (approximativement X1 + X2) dfinie de faon que :
- la variance (dispersion) intra-groupes soit la plus petite possible
- la variance inter-groupes (variance calcule partir des points moyens pondrs des
groupes) soit la plus grande possible.
Ainsi, sur notre exemple, la droite d'quation X2= - X1 + 19 semble sparer correctement les deux
groupes et il semblerait que c'est en projetant les points sur la droite X2=X1 que l'on obtiendra une
dispersion minimale dans les groupes et maximale entre les groupes.

Remarque : distance de Mahalanobis. Dans notre exemple, les deux groupes prsentent peu prs
la mme dispersion de valeurs. Cependant, dans d'autres situations, l'un des groupes peut tre
nettement plus dispers que l'autre.
Considrons la situation suivante, o l'on a reprsent la distribution des valeurs issues de deux
groupes sur un "facteur discriminant". Dans le premier groupe, cette distribution est normale, de
moyenne 0 et d'cart type 1. Dans le second groupe, elle est normale, de moyenne 5 et d'cart type
3. On souhaite, par exemple, affecter la valeur x=2 l'un des deux groupes. Pour la distance
"habituelle" (euclidienne), cette valeur est plus prs du centre du premier groupe (valeur x1 = 0 ) que
du centre du second groupe (valeur x2 = 5 ). Cependant, x=2 a plus de chances d'tre une
observation provenant du second groupe qu'une observation provenant du premier groupe.
Fonction = =normal(x;0;1)
Fonction = normal(x;5;3)
y=normal(x;0;1)
0,6

0,5

0,4

0,3

0,2

0,1

0,0
-3

-2

-1

10

Pour rsoudre ce problme, on introduit une distance particulire : la distance de Mahalanobis


pour valuer la distance entre un point et le centre d'un groupe. Pour calculer cette distance, on fait
intervenir les carts rduits entre x et les centres de groupes. On aura ainsi :
F.-G. Carpentier - 2012/2013

134

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

20
2 5
2
d12 ( x1 ,2 ) =
= 4 ; d 2 ( x2 ,2 ) =
=1
1
3
La dfinition de la distance de Mahalanobis est nettement plus complique lorsqu'il y a plusieurs
variables prendre en compte, car elle fait intervenir les covariances des variables prises deux
deux.

3.3.2.2 Traitement de l'exemple prcdent avec Statistica


Ouvrez le fichier Mini-AnaDiscrim.stw
Faites une analyse discriminante (menu Statistiques - Techniques exploratoires multivaries Analyse discriminante) en indiquant les codes G2 et G1 comme codes pour la variable catgorielle
"Groupe", X1 et X2 comme variables indpendantes.
N.B. Un troisime code existe : G?. Mais nous voulons utiliser ces dernires observations pour
tester les capacits de prdiction du modle.

L'onglet Avanc nous donne accs aux boutons suivants :

Synthse (variables dans le modle) :


Synthse de l'Analyse Discriminante (Mini-AnaDiscri dans Mini-AnaDiscrim.stw)
Vars dans le modle : 2; Classmt : Groupe (2 grps)
Lambda Wilk : ,38021 F approx. (2,37)=30,158 p< ,0000
Wilk
Partiel
F d'exc. niveau p
Tolr.
1-Tolr.
(Lambda)
(Lambda)
(1,37)
(R)
N=40
X1
0,676419 0,562090 28,82580 0,000004 0,838237 0,161763
X2
0,668372 0,568857 28,04266 0,000006 0,838237 0,161763

Cette feuille donne les rsultats de plusieurs tests.


Dans la bote de synthse, on lit la valeur du test lambda de Wilk pour le modle form par
l'ensemble des prdicteurs : = 0,3821 . Il s'agit en fait de la statistique d'une MANOVA un
facteur : globalement, les centres de gravit des diffrents groupes sont-ils discernables (H1) ou non
(H0) partir des prdicteurs choisis ? La significativit de cette statistique de test est value
partir d'une approximation par un F de Fisher (F=30,158, p<10-4). On retrouve la valeur de cette
statistique en ralisant une analyse de variance un facteur dans laquelle on indique X1 et X2
comme variables dpendantes (menu Statistiques - ANOVA). On notera que les valeurs
significatives de lambda sont les valeurs proches de 0.
Sur notre exemple, on constate que les deux groupes sont trs significativement discernables (p <104
).
La colonne Wilk (Lambda) indique la valeur du lambda de Wilk que l'on obtiendrait en supprimant
du modle, la variable concerne. Par exemple, si on reprend l'analyse discriminante en n'indiquant
seulement X2 comme prdicteur, on obtient lambda=0,676419.
F.-G. Carpentier - 2012/2013

135

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

La colonne Partiel (Lambda) donne la valeur du lambda de Wilk associe la variable


correspondante. Les deux colonnes suivantes testent la significativit de ce lambda partiel.
La colonne 1-Tolr. indique la valeur de R2, o R est un coefficient de corrlation calcul partir de
la rgression de cette variable sur toutes les autres, avec neutralisation de l'effet d aux groupes. La
tolrance est une mesure de la redondance de la variable correspondante. Par exemple, une valeur
de tolrance de 0,10 signifie que la variable est redondante 90% avec toutes les autres variables du
modle.
La valeur indique pour notre exemple peut tre retrouve de la manire suivante :
- On calcule les carts la moyenne des diffrentes observations; pour chaque variable dans
chaque groupe.
- On calcule le carr du coefficient de corrlation entre les deux variables ainsi obtenues.

Distances inter-groupes fournit trois feuilles de rsultats :


1. Distance entre les centrodes des deux groupes
Dist. de Mahalanobis au Carr (Mini-AnaDiscri dans Mini-AnaDiscrim.stw)
G2
G1
Groupe
G2
0,000000 6,194525
G1
6,194525 0,000000

Il s'agit de la distance entre les points moyens des deux groupes, mesure l'aide de la distance de
Mahlanobis.
2. Un test statistique concernant la sparation des deux groupes
Valeurs F ; dl 2,37 (Mini-AnaDiscri dans Mini-AnaDiscrim.stw)
G2
G1
Groupe
G2
30,15756
G1
30,15756

Il s'agit d'un test du mme type que le lambda de Wilk global, men en considrant les groupes
deux deux. La feuille suivante indique les niveaux de significativit des valeurs trouves :
niveau p (Mini-AnaDiscri dans Mini-AnaDiscrim.stw)
G2
G1
Groupe
G2
1,6998E-8
G1
1,6998E-8

On retrouve ainsi le rsultat dj observ dans la synthse : les centres de gravit des deux groupes
sont trs significativement distincts.
L'aspect "classification et prdiction" de la mthode est accessible sous l'onglet Classification qui
donne accs aux rsultats suivants :
N.B. Les rsultats qui suivent dpendent des probabilits a priori spcifies pour les groupes. Ici,
nous pouvons prendre p=0,5 dans chacun des groupes. Mais dans d'autres situations, on peut savoir
qu'a priori, un groupe est nettement plus frquent que l'autre, mme si les chantillons sont
quilibrs.

F.-G. Carpentier - 2012/2013

136

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Fonctions de classification
Fonctions de classif. ; classement: Groupe
G2
G1
Variable p=,50000 p=,50000
X1
1,4380 0,83765
1,5504 0,91594
X2
Constte -18,8231 -6,93504

La fonction de classification du groupe G2 est :


F2 = 1,4380 X1 + 1,5504 X2 - 18,8231
Celle du groupe G1 est :
F1 = 0,83765 X1 + 0,91594 X2 - 6,93504
La mthode classe un lment dans le groupe G1 si F1 > F2 et dans G2 dans le cas contraire.

Matrice de classification
Ce tableau est encore appel Matrice de confusion. Il croise la classification observe avec la
classification calcule par la mthode, l'aide des fonctions de classification prcdentes.
Matrice de Classification
Lignes : classifications observes
Colonnes : classifications prvues
%
G2
G1
Groupe Correct p=,50000 p=,50000
G2
90,00000
18
2
G1
95,00000
1
19
Total
92,50000
19
21

Sur notre exemple, 18 des 20 observations du groupe 1 et 19 des 20 observations du groupe 2 sont
correctement classes par la mthode.

Classification d'observations
Classification d'observations
Classif. incorrectes indiques par *
Classif.
1
2
Observation Observe p=,50000 p=,50000
1
G2
G2
G1
2
G1
G1
G2
3
G1
G1
G2
4
G2
G2
G1
5
G2
G2
G1
*
6
G2
G1
G2
7
G2
G2
G1

Ce tableau donne pour chaque observation, le groupe le plus probable (selon le calcul), ainsi que le
second candidat. Il indique galement le classement calcul des valeurs qui n'taient pas classes a
priori :

F.-G. Carpentier - 2012/2013

137

PSR92C - Analyse multidimensionnelle des donnes


Classification d'observations
Classif. incorrectes indiques par *
Classif.
1
2
Observe
p=,50000
p=,50000
Observation
40
G2
G2
G1
41
--G2
G1
--G1
G2
42
43
--G1
G2
44
--G2
G1
45
--G1
G2
46
--G1
G2

2012/2013

Distances de Mahalanobis au carr


Dist. Mahalanobis Carres aux Centrodes de Groupe
Classif. incorrectes indiques par *
Classif.
G2
G1
Observation Observe p=,50000 p=,50000
1
G2 1,02516 3,21197
2
G1 9,43294 0,46701
3
G1 4,30475 0,81343
4
G2 1,71089 3,08567
5
G2 0,20940 6,53698
*
6
G2 2,95094 2,71562
7
G2 0,48679 4,17369

Probabilits a posteriori
Probabilits a posteriori
Classif. incorrectes indiques par *
Classif.
G2
G1
Observation Observe p=,50000 p=,50000
1
G2 0,749022 0,250978
G1 0,011174 0,988826
2
G1 0,148595 0,851405
3
4
G2 0,665386 0,334614
5
G2 0,959449 0,040551
*
6
G2 0,470618 0,529382
G2 0,863356 0,136644
7

En fait pour chaque observation la mthode calcule une probabilit d'appartenance chacun des
deux groupes et affecte l'observation au groupe le plus probable.

Enregistrer les scores


Ce bouton permet de gnrer une feuille de donnes avec la classification produite par la mthode,
et ventuellement, les variables et la classification initialement observes. Cette feuille de donnes
peut tre utilise pour produire un nuage de points tel que le suivant :

F.-G. Carpentier - 2012/2013

138

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Nuage de Points (Feuille de donnes23 5v*46c)


20
18
16
14

X2

12
10
8
6
4
2
0
-2

10

12

14

16

18

20

22

Groupe: G2,
CLASS_1: G2
Groupe: G2,
CLASS_1: G1
Groupe: G1,
CLASS_1: G2
Groupe: G1,
CLASS_1: G1
Groupe: G?,
CLASS_1: G2
Groupe: G?,
CLASS_1: G1

X1

Dans ce graphique, les points bien classs sont reprsents par des cercles, les points mal classs
par des triangles, et les points supplmentaires par des carrs. La couleur (rouge ou noir) correspond
au groupe calcul.
La mthode correspondant aux rsultats qui viennent d'tre dcrits est appele analyse
discriminante dcisionnelle (predictive discriminant analysis). Comme le montrent ces rsultats,
son but est de dfinir une rgle d'affectation permettant de classer un individu donn dans un groupe
donn, parmi plusieurs groupes dfinis pralablement. Mais, la fentre de dialogue de Statistica
comporte galement un bouton "Raliser une analyse canonique". Cette dernire mthode, appele
analyse canonique discriminante ou analyse factorielle discriminante (canonical discriminant
analysis, descriptive discriminant analysis) a pour objectif de dcrire les diffrences lies aux
facteurs tudis.
Le bouton Raliser une analyse canonique donne accs aux rsultats suivants :

Onglet avanc :
Le bouton "Coefficients des variables canoniques" produit deux feuilles de rsultats, dont la
dfinition de la premire variable canonique.
Coefficients bruts
des Variables Canoniques
Comp_1
Variable
X1
-0,241220
X2
-0,254916
Constte
4,776475
V.Propre
1,630138
Prop.Cum 1,000000

Ici, la premire (et seule) variable canonique est C1 = -0,24122 X1 - 0,25916 X2 + 4,776475.
Cette variable est (dfinie un facteur et une constante prs) la combinaison linaire des variables
X1 et X2 qui discrimine le mieux les deux groupes, au sens suivant : pour chaque combinaison
linaire Y des variables X1 et X2, on peut comparer les deux groupes G1 et G2 du point de vue de
cette variable l'aide d'une ANOVA un facteur et calculer le rapport F correspondant. La variable
canonique est alors celle pour laquelle le rapport F est maximum.

F.-G. Carpentier - 2012/2013

139

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Dans le tableau ci-dessous, on a effectu l'ANOVA un facteur pour diffrentes combinaisons


linaires : la variable canonique, la combinaison linaire X1+X2, la combinaison linaire
X1+0,5X2, la combinaison linaire X1-X2 :

Variable
Canonique
CombLin 1
CombLin 2
CombLin 3

Analyse de la Variance (Mini-AnaDiscri dans Mini-AnaDiscrim.stw)


Effets significatifs marqus p < ,05000
SC
dl
MC
SC
dl
MC
F
Effet
Effet
Effet
Erreur Erreur Erreur
61,95
1
61,95
38,00
38
1,00
61,95
1008,88
1
1008,88 620,00
38
16,32
61,83
582,97
1
582,97
463,91
38
12,21
47,75
1,66
1
1,66
1451,50
38
38,20
0,04

p
0,00
0,00
0,00
0,84

La combinaison linaire X1+X2 produit un F proche de celui correspondant la variable canonique,


les deux autres des valeurs de F nettement infrieures. On peut galement remarquer que les
coefficients de la variable canonique sont choisis de faon que le carr moyen de l'erreur soit 1; la
constante est alors choisie de manire que cette variable soit centre (variable de moyenne nulle).
Le bouton "Test du Chi avec suppr. des Comp. Successives" fournit des informations relatives au
nombre d'axes factoriels conserver.
Test du Chi avec suprr. des Comp. Successives (Mini-AnaDiscri dans Mini-AnaDiscrim.stw)
R
Lambda
Chi
dl valeur p
Exclusion Valeur
propre
canoniq.
de
Wilk
Compos.
0
1,630138 0,787269 0,380208 35,78034 2 0,000000

Les valeurs propres mesurent la dispersion des valeurs sur chacun des axes factoriels. La colonne
"R canoniq." indique les corrlations canoniques successives. Leurs carrs sont calculs partir de
quotients du type (Somme des carrs intergroupes)/(Somme des carrs totale).
La premire ligne correspond au modle complet, la seconde ligne au modle priv de la premire
composante, etc. Les tests du khi-2 permettent d'valuer quels sont les rapports de corrlation qui
sont significativement diffrents de 0.
Le bouton "Structure factorielle" affiche les corrlations des variables avec les fonctions
discriminantes respectives, une fois neutralis l'effet li aux classes. Ces corrlations sont analogues
aux poids factoriels dans l'analyse factorielle.
Enfin le dernier bouton donne les moyennes des composantes canoniques sur les diffrentes classes.
Moyenne des Vars Canoniques
Groupe Comp_1
G2
-1,24444
G1
1,24444

Onglet Scores canoniques


Le bouton "Scores canoniques de chaque observation" donne la valeur de la variable canonique sur
chaque observation. On voit ainsi que, sauf exception, les observations classes dans le groupe G2
ont des scores ngatifs pendant que celles classes dans le groupe G1 ont des scores positifs.
En cliquant sur le bouton Annuler, on revient aux rsultats de l'analyse discriminante proprement
dite.

F.-G. Carpentier - 2012/2013

140

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

3.3.3 Les iris de Fisher


Ouvrez le classeur Iris.stw. Il s'agit d'un exemple, initialement propos par Fisher, et utilis comme
donnes de rfrence par la plupart des logiciels de statistiques.
On a not, pour 150 iris, l'espce (setosa, versicolor, virginica) et 4 variables numriques : la
longueur et la largeur des spales, la longueur et la largeur des ptales. Pour chaque espce, on
dispose de 50 observations. Les 25 premires observations de chaque espce vont contituer
l'ensemble d'apprentissage, tandis que les 25 observations restantes seront classifies l'aide des
rsultats de l'analyse discriminante. La classification ainsi obtenue pourra ainsi tre compare aux
donnes relles.
Procdez de mme une analyse discriminante sur ces donnes. Comme nous avons ici 4 variables
numriques et 3 groupes, nous aurons deux facteurs discriminants, et Statistica nous permet de
construire un graphique reprsentant les observations selon les valeurs de leurs scores canoniques :

3.3.4 Un exemple d'interprtation des rsultats d'une analyse discriminante


Rfrence : Chrea, C., Valentin, D., Sulmont-Ross, C., Hoang Nguyen, D., Abdi, H.. Semantic,
Typicality and Odor Representation: A Cross-cultural Study, Chemical Senses, 2005, Vol. 30 No 1,
pp. 37-49.
Dans l'tude cite en rfrence, une quipe de chercheurs s'est intresse l'effet de la culture sur la
catgorisation des odeurs . Dans une premire exprience, trois groupes de sujets ont t recruts :
30 tudiants de l'Universit de Bourgogne (Dijon - France), 30 tudiants de l'Universit de Dallas
(Texas - USA) et 30 tudiants de l'Institut Polytechnique de Danang (Vietnam). Les sujets devaient
accomplir une tche de classification sur 40 odorants fournis par une socit spcialise. Cette
premire exprience a permis de rpartir les 40 odorants en 5 classes (floral, mdical, doux,
mauvais, naturel) pour la culture franaise et en 4 classes (floral, doux, mauvais, naturel) pour
chacune des deux autres cultures.
Dans une deuxime exprience, on recrute de nouveau trois groupes de sujets correspondant aux
trois cultures. Chacun des 40 odorants tait prsent aux sujets, qui devaient valuer la typicalit de
son odeur par rapport 11 catgories (animal, ptisserie, sucrerie, nettoyant, cosmtique, fleur,
fruit, pharmacie, moisissure, nature, pice). Les sujets donnaient leurs rponses sur des chelles de
Likert en 7 points (1 = non typique, 7 = tout fait typique).
On considre alors, pour chaque groupe et chaque odorant, la moyenne du score de typicalit
observe sur l'ensemble des participants. Pour valuer si les classes produites par les classifications
de la premire exprience s'organisent en fonction de la typicalit, les auteurs ont ralis une srie
F.-G. Carpentier - 2012/2013

141

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

d'analyses discriminantes. Ces analyses utilisent les 11 scores de typicalit pour prdire l'affectation
des 40 odorants dans les classes dfinies par la premire exprience.
On se propose d'utiliser Statistica pour retrouver les rsultats indiqus par les auteurs.
Chargez le classeur Statistica Odors-AnaDiscrim.stw.
Dans ce classeur, les trois feuilles Odors-FR, Odors-US et Odors-VN donnent les scores de
typicalit moyen pour chaque culture et chaque catgorie. La dernire variable de chaque feuille
(variable "Classe") indique la classe de rfrence dtermine par la premire exprience. La feuille
Odors-Moyennes pourra tre utilise pour faciliter la correspondance entre les dnominations en
franais et en anglais.

Pour chacune des 3 feuilles ralisez une analyse discriminante permettant de retrouver les rsultats
suivants :
- Utilisez le bouton "Synthse - Variables dans le modle" pour vrifier que :
L'analyse discriminante produit des rsultats significatifs pour chacune des trois cultures
[F(44,77)=5,63, P<0,0001 pour la France, F(33,77)=9,10, P<0,0001 pour les USA,
F(33,77)=3,28, P<0,0001 pour le Vietnam)].
- Utilisez le bouton "Raliser une analyse canonique" puis les boutons "Synthse: Test du Chi2,
composantes successives" et "Coefficients des variables canoniques" pour vrifier que :
Trois fonctions discriminantes pour la France et les USA et deux fonctions discriminantes
pour le Vietnam maximisent la discrimination des 40 odorants. Ces fonctions
discriminantes linaires prises ensemble reprsentent 97% de la variance pour la France,
99% pour les USA et 91% pour le Vietnam. Ainsi, dans chacune des cultures, les scores de
typicalit permettent de prdire l'affectation des odorants dans les classes.
- Utilisez le bouton "Structure factorielle" pour dterminer les corrlations entre les variables de
typicalit et les fonctions linaires discriminantes et vrifier que :
C'est le score de typicalit "candy" qui a le poids le plus fort dans la premire fonction,
pour toutes les cultures. Cela signifie que la premire fonction spare les classes
essentiellement selon le gradient de la typicalit "candy". Pour la seconde fonction,
"musty" et "animal" ont un poids fort pour les USA et le Vietnam, pendant que "cleaner",
"candy" et "fruit" ont les poids les plus forts pour la France. Enfin, "cosmetic" a un poids
lev dans la troisime fonction pour la France et les USA.
- Enfin, utilisez le bouton "Moyennes des variables canoniques" puis ralisez des graphiques de
type "nuage de points" bass sur les feuilles de rsultats produites pour raliser les graphiques
suivants :

F.-G. Carpentier - 2012/2013

142

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

France :
Nuage de Points de Comp_2 en fonction de Comp_1
Moyenne des Vars Canoniques (Odors-FR dans Odors1WdisciAna.stw)
sur Odors-AnaDiscrim-correction.stw 4v*5c
2

Floral

Nature

Nuage de Points de Comp_3 en fonc tion de C omp_2


Moy enne des Vars Canoniques (Odors-FR dans Odors 1Wdis ciAna.s tw)
sur Odors -AnaDisc rim-c orrec tion.s tw 4v*5c

Medicine
2,5

Medic ine

2,0
1,5

N ature

Comp_3

Comp_2

1,0

-1

0,5
Sweet
Bad

Bad

-0,5

-2

-1,0
-1,5

Sweet

Floral

-2,0

-3
-3

-2

-1

-3

-2

-1

Comp_2

Comp_1

USA :
Nuage de Points de Comp_2 en fonction de Comp_1
Moyenne des Vars Canoniques (Odors-US dans Odors1WdisciAna.stw)
sur Odors-AnaDiscrim-correction.stw 3v*4c
4

Nuage de Points de Comp_3 en fonc tion de C omp_2


Moy enne des Vars Canoniques (Odors-US dans Odors 1Wdis ciAna.s tw)
sur Odors -AnaDisc rim-c orrec tion.s tw 3v*4c

Bad
2,0

Nature
1,5

0,5

Comp_3

Comp_2

1,0

Sweet

Bad

-0,5

Nature
Floral

-1,0

-1

Floral

Sweet

-1,5
-2,0

-2
-3

-2

-1

-2

-1

Comp_2

Comp_1

Vietnam :
Nuage de Points de Comp_2 en fonction de Comp_1
Moyenne des Vars Canoniques (Odors-VN dans Odors1WdisciAna.stw)
sur Odors-AnaDiscrim-correction.stw 3v*4c
2,0
Floral
1,5
1,0

Comp_2

0,5
Sweet
Nature
-0,5
-1,0
-1,5
-2,0
-1,5

Bad

-1,0

-0,5

0,5

1,0

1,5

2,0

2,5

3,0

Comp_1

La discrimination entre les classes n'est pas identique dans les trois cultures. Par exemple,
la premire dimension oppose les classes "bad" et "nature" aux classes "sweet",
"medecine" et "floral" en France alors qu'elle oppose la classe "sweet" aux classes
"floral" et "nature" pour les USA et le Vietnam.
Nous avons trouv que certains odorants ont t valus comme plus typiques d'une
catgorie donne que d'autres. Ces rsultats suggrent que les odeurs l'intrieur d'une
catgorie ne sont pas quivalentes. De plus, les rsultats de l'analyse discriminante ont
montr que les odorants taient discrimins dans les trois cultures par quatre scores de
typicalit (candy, animal, musty et cosmetic).(...) Nos rsultats rvlent qu'une certaine
variabilit dans les scores de typicalit a aussi contribu des diffrences culturelles dans
la discrimination des classes. Cette variabilit peut tre due des diffrences culturelles
dans la consommation en ce qui concerne la nourriture et les produits cosmtiques et aussi
des diffrences culturelles dans la familiarit avec certaines odeurs spcifiques.

F.-G. Carpentier - 2012/2013

143

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

3.4 Analyse et rgression PLS


3.4.1 Position du problme
On a observ sur un chantillon de n individus statistiques :
- d'une part, p variables indpendantes ou explicatives : X1, X2, ..., Xp
- d'autre part, q variables dpendantes, ou " expliquer" : Y1, Y2, ..., Yq.
On souhaite tablir entre les variables indpendantes et les variables explicatives une relation
linaire du type :
Y1 = b10 + b11 X 1 + ... + b1 p X p + 1

Y2 = b20 + b21 X 1 + ... + b2 p X p + 2


...
Yq = bq 0 + bq1 X 1 + ... + bqp X p + q

On dispose dj d'un outil s'appliquant ce type de problme : la rgression linaire multiple.


Cependant, la rgression linaire classique prsente les inconvnients suivants :
- Elle "met en comptition" les diffrentes variables Xi, et elle est trs sensible aux collinarits
entre les Xi, et mme inutilisable si l'une des variables Xi est combinaison linaire des autres
variables.
- Elle ne peut pas tre utilise si le nombre d'observations (n) est infrieur au nombre de prdicteurs
(p).
Une faon de contourner ces problmes consiste faire d'abord une ACP sur les prdicteurs, puis de
raliser la rgression des variables dpendantes sur les variables principales ainsi dfinies. Mais le
rsultat n'est pas facilement interprtable par l'utilisateur.
L'ide de la rgression PLS est de procder de faon analogue la rgression sur composantes
principales, mais en formant des composantes ou variables latentes tenant compte des variables
expliquer.

3.4.2 Le principe de la rgression PLS sur un mini-exemple


Considrons les donnes suivantes (1 variable dpendante Y, 4 variables explicatives Xj, 3 sujets
observs) :
Y X1 X2 X3
s1 12 8 2 7
s2 10 2 12 5
s3 5 15 6 5
Afin d'liminer les effets dus aux units avec lesquelles
variables Zj, variables centres rduites associes aux Xj.

X4
6
7
5
sont mesurs les Xj, on introduit les

Ainsi, les variables Zj sont ici donnes par :

Y
0,8321
0,2774
-1,1094

Z1
-0,0512
-0,9734
1,0246

Z2
-0,9272
1,0596
-0,1325

Z3
1,1547
-0,5774
-0,5774

Z4
0,0000
1,0000
-1,0000

La premire composante, ou variable latente P1 est obtenue en pondrant les Zj proportionnellement


aux coefficients de corrlation wj=r(Y, Xj).
F.-G. Carpentier - 2012/2013

144

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Sur notre exemple, les coefficients de corrlation valent :


Y
X1
-0,7247
X2
-0,1653
X3
0,7206
X4
0,6934
On divise ces coefficients par un mme nombre, de manire que la somme des carrs des poids soit
gale 1. On obtient ainsi les poids suivants :
w1=-0,582 ; w2 = -0,133 ; w3 = 0,578 ; w4 = 0,556
La variable latente P1 a donc pour valeur :
P1 = - 0,582 * Z1 - 0,133 * Z2 + 0,578 * Z3+ 0,556 * Z4.
Sur les 3 observations, elle prend les valeurs suivantes :
P1
s1 0,8206
s2 0,6481
s3 -1,4687
La rgression de Y par rapport P1 conduit l'quation :
Y = 2,7640 P1 +9
et les valeurs estimes de Y sont :
Y
Y estim Rsidus
s1
12 11,2682 0,7318
s2
10 10,7915 -0,7915
s3
5
4,9404 0,0596
D'o un coefficient de dtermination :
R2(Y, Y estim) = 0,955
Il serait ensuite possible de recommencer la mme mthode partir des rsidus de Y, pour produire
une deuxime variable latente, et amliorer la qualit de l'estimation.

3.4.3 Un exemple de rgression PLS avec Statistica


Dans l'ouvrage : M. Lewis-Beck, A. Bryman, T. Futing (Eds): Encyclopedia for research methods
for the social sciences. Thousand Oaks (CA): Sage. pp. 792-795, Herv Abdi donne l'exemple
suivant, que l'on trouve galement sur son site, partir de la page
http://www.utdallas.edu/~herve/#Articles.
On veut prvoir l'valuation subjective d'un ensemble de 5 vins. Les variables dpendantes que
nous voulons prdire sont son apprciation gnrale et la faon dont il s'accorde avec la viande et
les desserts. Les prdicteurs sont le prix, le taux de sucre, le taux d'alcool, et l'acidit.
Les donnes sont les suivantes :

1
Wine
1
2
3
4
5
F.-G. Carpentier - 2012/2013

2
Hedonic
1
2
3
4
5

14
10
8
2
6

3
Goes
with
meat

4
Goes
with
dessert
7
7
5
4
2
145

5
Price
8
6
5
7
4

7
4
10
16
13

6
Sugar

7
Alcohol
7
3
5
7
3

13
14
12
11
10

8
Acidity
7
7
5
3
3

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Ouvrez le fichier PLS-Abdi.stw.


La rgression PLS est accessible partir du menu : Statistiques - Modles linaires/non-linaires
avancs - Modles gnraux PLS - Modles linaires gnraux.
Slectionnez les variables comme suit :

La fentre de dialogue "Rsultats" permet d'indiquer le nombre de variables latentes souhait et


comporte diffrents onglets :

L'onglet "Base" est entirement repris dans l'onglet "Synthse".


Le bouton "Synthse" produit le rsultat suivant :
Synthse de la PLS (Donnes ABDI dans PLS-Abdi.stw)
Rponses : Hedonic Goes with meat Goes with dessert
Options : NO-INTERCEPT AUTOSCALE
Augmente Moyenne Augmente Moyenne
R de
R de
R de
R de Y
R de Y
R de X
R de X Hedonic Goes with Goes with
meat
dessert
Comp 1
0,6333
0,6333
0,7045
0,7045
0,7053
0,9374
0,2572
Comp 2
0,2206
0,8540
0,2790
0,9835
0,7071
0,9851
0,8697
Comp 3
0,1044
0,9583
0,0165
1,0000
1,0000
1,0000
0,8750

F.-G. Carpentier - 2012/2013

146

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Ce tableau nous donne le pourcentage de variance de chacune des variables dpendantes expliqu,
pris en compte par le modle, en sparant l'apport de chacune des composantes (colonnes R2 de
Hedonic, R2 de Goes with meat, R2 de Goes with dessert). Il donne galement le pourcentage
global pour l'ensemble des 3 variables dpendantes (R2 de Y), obtenu simplement comme moyenne
des 3 pourcentages prcdents. Il indique galement le pourcentage de variance des prdicteurs pris
en compte par les composantes.
Le bouton "Poids des X" conduit au tableau suivant, qui donne l'expression des composantes en
fonction des prdicteurs :
Poids des prdicteurs (Donnes ABDI dans PLS-Abdi.stw)
Rponses : Hedonic Goes with meat Goes with dessert
Options : NO-INTERCEPT AUTOSCALE
Price
Sugar
Alcohol
Acidity
Compo 1 -0,5137
0,2010
0,5705
0,6085
Compo 2
0,2343
0,9611
0,1267
0,0734
Compo 3 -0,3747
0,1291
-0,8069
0,4380

Ainsi, on a, sur les donnes centres rduites :


Compo 1 = -0,51 * Price + 0,20 * Sugar + 0,57 * Alcohol + 0,61 * Acidity
Le bouton "Poids Factoriels" donne l'expression des prdicteurs en fonction des composantes :
Pds Fac. X (Donnes ABDI dans PLS-Abdi.stw)
Rponses : Hedonic Goes with meat Goes with dessert
Options : NO-INTERCEPT AUTOSCALE
Price
Sugar
Alcohol
Acidity
Comp 1 -0,5678
0,0142
0,5933
0,6032
Comp 2
0,3302
0,9638
-0,0136
-0,0268
Comp 3 -0,3496
0,1613
-0,8220
0,4222

Ainsi, en donnes centres rduites :


Price = -0,57 * Compo1 + 0,33 * Compo2 - 0,350 * Compo3
Les boutons Coefficients de rgression et Coefficients de rgression centrs donnent les rsultats de
la rgression (utilisant le modle PLS). Les variables dpendantes estimes y sont exprimes en
fonction des variables de dpart.

Hedonic
Goes with meat
Goes with dessert

Hedonic
Goes with meat
Goes with dessert

Coefficient de rgression PLS (Donnes ABDI dans PLS-Abdi.stw)


Rponses : Hedonic Goes with meat Goes with dessert
Options : NO-INTERCEPT AUTOSCALE
Ord.Ori
Price
Sugar Alcohol Acidity
48,5000 -1,0000 0,7500 -4,0000 2,7500
-8,9167 -0,0333 0,2750
1,0000
0,1750
-3,8542 0,0417
0,5937
0,5000
0,0937

PLS coefficients de rgression centrs (Donnes ABDI dans PLS-Abdi.stw)


Rponses : Hedonic Goes with meat Goes with dessert
Options : NO-INTERCEPT AUTOSCALE
Price
Sugar Alcohol Acidity
-1,0607 0,3354 -1,4142 1,2298
-0,0745 0,2593
0,7454
0,1650
0,1250
0,7510
0,5000
0,1186

Ainsi, par exemple, en donnes non centres rduites, on a :


F.-G. Carpentier - 2012/2013

147

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Hedonic estim = 48,5 - Price + 0,75 * Sugar - 4 * Alcohol + 2,75 * Acidity


(et il s'agit d'une valeur exacte, puisque R2=1 pour cette variable).
Le bouton "Poids des Y" donne l'expression des variables dpendantes (centres rduites) en
fonction des composantes :
Poids des rponses (Donnes ABDI dans PLS-Abdi.stw)
Rponses : Hedonic Goes with meat Goes with dessert
Options : NO-INTERCEPT AUTOSCALE
Hedonic Goes with Goes with
meat
dessert
Comp 1
0,6093
0,7024
0,3680
Comp 2 -0,0518
0,2684
0,9619
Comp 3
0,9672
-0,2181
-0,1301

L'onglet "Observ." donne quant lui des tableaux des valeurs observes, valeurs prvues et rsidus
des variables dpendantes sur les diffrents individus statistiques observs :

1
2
3
4
5

Valeurs prvues (Donnes ABDI dans PLS-Abdi.stw)


Rponses : Hedonic Goes with meat Goes with dessert
Options : NO-INTERCEPT AUTOSCALE
Hedonic Goes with Goes with
meat
dessert
14,0000
7,0000
7,7500
10,0000
7,0000
5,7500
8,0000
5,0000
6,0000
2,0000
4,0000
6,7500
6,0000
2,0000
3,7500

Il donne galement les scores des individus sur les composantes, calculs soit partir des variables
prdictives, soit partir des variables dpendantes :

1
2
3
4
5

Valeurs des prdicteurs et rponses (Donnes ABDI dans PLS-Abdi.stw)


Rponses : Hedonic Goes with meat Goes with dessert
Options : NO-INTERCEPT AUTOSCALE
Comp. X Comp. X Comp. X Comp. Y Comp. Y Comp. Y
1
2
3
1
2
3
1,4952
0,9663
0,2937
1,9451
0,7611
0,6191
1,7789 -1,0239 -0,2380
0,9347
-0,5305
-0,5388
0,0000
0,0000
0,0000
-0,2327 -0,6084
0,0823
-1,4181 1,1040
-0,2724 -0,9158
1,1575
-0,6139
-1,8560 -1,0464
0,2167
-1,7313 -0,7797
0,4513

F.-G. Carpentier - 2012/2013

148

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

3.5 Analyse de segmentation


Bibliographie:
Lebart, L., Morineau, A., Piron M., Analyse exploratoire multidimensionnelle, Dunod, Paris, 2000.
Doise, W., Clmence A., Lorenzi-Cioldi, F., Reprsentations sociales et analyses de donnes,
Presses Universitaires de Grenoble, Grenoble, 1992
Idams : http://ead.univ-angers.fr/~statidams/

3.5.1 But de la mthode


On a observ sur un chantillon d'individus statistiques une variable dpendante numrique ou
qualitative Y et plusieurs variables numriques ou catgorielles X1, X2, ..., Xp.
La segmentation vise expliquer la variable Y laide dune ou plusieurs variables quantitatives ou
qualitatives. Elle permet galement de crer des groupes dindividus ou dobservations homognes.
Le rsultat est fourni sous la forme d'un arbre de dcision binaire du type suivant :

3.5.2 Rappel : dcomposition de l'inertie


Du point de vue de la variable dpendante, l'inertie totale est la somme des carrs des carts la
moyenne gnrale :

(y y )
n

I=

i =1

On suppose les observations rparties en g groupes (j=1, 2, ..., g). Pour chacun des groupes, on a
nj

une moyenne du groupe : y j , un effectif nj et une inertie intra-groupe : I j = yi ' y j .


i ' =1

Une relation fondamentale est donne par le thorme de Huygens : l'inertie totale est la somme des
inerties intra-groupes et de l'inertie des points moyens des groupes, pondrs par l'effectif des
groupes.
g

I=

j =1

F.-G. Carpentier - 2012/2013

n (y
g

Ij +

j =1

149

PSR92C - Analyse multidimensionnelle des donnes


Inertie
Inertie des points moyens
Inertie
=
dans
+
pondrs par
totale
les groupes les effectifs des groupes

2012/2013

Exemple : Soient les 4 observations suivantes, rparties en deux groupes A et B :


Groupe
Y

A
1

B
2

A
3

B
4

La moyenne gnrale est donne par : y = 2,5 . L'inertie totale vaut :

Inertie totale = (1 2,5) + (2 2,5) + (3 2,5) + (4 2,5) = 5


Les inerties des deux groupes A et B (inerties intra-groupes) sont donnes par :
2
2
2
2
I A = (1 2 ) + (3 2 ) = 2
I B = (2 3) + (4 3) = 2
L'inertie des points moyens pondrs, ou inertie inter-groupes vaut :
2
2
I Inter = 2 (2 2,5) + 2 (3 2,5) = 1
On vrifie bien que :
Inertie totale = I A + I B + I Inter = 2 + 2 + 1 = 5
2

3.5.3 Principe de la mthode :


L'inertie inter-groupes mesure lhtrognit entre les diffrents groupes alors que l'inertie intragroupes mesure lhomognit lintrieur des groupes. Pour obtenir des groupes les plus distincts
possibles, il faut une inertie inter-groupes le plus leve possible. L'inertie intra-groupe sera alors
faible et donc les individus dun mme groupe seront homognes.

1) Au dpart, on dispose d'un seul segment contenant l'ensemble des individus.


2) A la premire tape, la procdure de construction de l'arbre examine une par une toutes les
variables explicatives. Pour chaque variable, elle passe en revue toutes les divisions possibles (de la
forme Xj< A et Xj > A si Xj est numrique, regroupement des modalits en deux sous-ensembles si
Xj est catgorielle). Pour chaque division, l'inertie inter-groupes est calcule.
3) La division choisie est celle qui maximise l'inertie inter-groupes.
4) On recommence la procdure dans chacun des deux groupes ainsi dfinis.
Critres d'arrt :
On peut utiliser comme critres darrt de lalgorithme de segmentation :
- La taille des groupes (classes) dcouper
- Le rapport entre l'inertie intra et la variance totale
- Des tests statistiques (tests de Student de comparaison de moyennes, tests du Khi deux)

3.5.4 Exemple d'analyse de segmentation


Source : http://lib.stat.cmu.edu/datasets/

Determinants of Wages from the 1985 Current Population Survey

F.-G. Carpentier - 2012/2013

150

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Summary:
The Current Population Survey (CPS) is used to supplement census information between
census years. These data consist of a random sample of 534 persons from the CPS, with information
on wages and other characteristics of the workers, including sex, number of years of education,
years of work experience, occupational status, region of residence and union membership. We wish
to determine (i) whether wages are related to these characteristics and (ii) whether there is a gender
gap in wages.
Based on residual plots, wages were log-transformed to stabilize the variance. Age and work
experience were almost perfectly correlated (r=.98). Multiple regression of log wages against sex,
age, years of education, work experience, union membership, southern residence, and occupational
status showed that these covariates were related to wages (pooled F test, p < .0001). The effect of
age was not significant after controlling for experience. Standardized residual plots showed no
patterns, except for one large outlier with lower wages than expected. This was a male, with 22
years of experience and 12 years of education, in a management position, who lived in the north and
was not a union member. Removing this person from the analysis did not substantially change the
results, so that the final model included the entire sample.
Adjusting for all other variables in the model, females earned 81% (75%, 88%) the wages of
males (p < .0001). Wages increased 41% (28%, 56%) for every 5 additional years of education (p <
.0001). They increased by 11% (7%, 14%) for every additional 10 years of experience (p < .0001).
Union members were paid 23% (12%, 36%) more than non-union members (p < .0001). Northerns
were paid 11% (2%, 20%) more than southerns (p =.016). Management and professional positions
were paid most, and service and clerical positions were paid least (pooled F-test, p < .0001). Overall
variance explained was R2 = .35.
In summary, many factors describe the variations in wages: occupational status, years of
experience, years of education, sex, union membership and region of residence. However, despite
adjustment for all factors that were available, there still appeared to be a gender gap in wages. There
is no readily available explanation for this gender gap.
Authorization: Public Domain
Reference: Berndt, ER. The Practice of Econometrics. 1991. NY: Addison-Wesley.
Description: The datafile contains 534 observations on 11 variables sampled from the Current
Population Survey of 1985. This data set demonstrates multiple regression, confounding,
transformations, multicollinearity, categorical variables, ANOVA, pooled tests of significance,
interactions and model building strategies.
Variable names in order from left to right:
EDUCATION: Number of years of education.
SOUTH: Indicator variable for Southern Region (1=Person lives in South, 0=Person lives
elsewhere).
SEX: Indicator variable for sex (1=Female, 0=Male).
EXPERIENCE: Number of years of work experience.
UNION: Indicator variable for union membership (1=Union member, 0=Not union member).
WAGE: Wage (dollars per hour).
AGE: Age (years).
RACE: Race (1=Other, 2=Hispanic, 3=White).
OCCUPATION: Occupational category (1=Management, 2=Sales, 3=Clerical, 4=Service,
5=Professional, 6=Other).
SECTOR: Sector (0=Other, 1=Manufacturing, 2=Construction).
MARR: Marital Status (0=Unmarried, 1=Married)

F.-G. Carpentier - 2012/2013

151

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Ces donnes (avec des noms de variables franciss) se trouvent dans la feuille de donnes du
classeur CPS_85_Wages.stw.
La variable expliquer est videmment la variable WAGE.
On constate que les variables SOUTH, SEX, UNION, RACE, OCCUPATION, SECTOR, MARR
sont des variables catgorielles, alors que les variables EDUCATION, EXPERIENCE, AGE
peuvent tre considres comme numriques.
On prsente ci-dessous l'arbre obtenu en indiquant "Salaire" comme variable dpendante,
Education, Exprience et Age comme variables numriques, Localisation, Sexe, Syndicalisation,
Origine Ethnique, Emploi, Secteur et Situation de famille comme variables catgorielles et en
adoptant la rgle d'arrt : on ne segmente pas les groupes d'effectifs infrieurs 100 :
Diagramme de l'arbre 1 pour Salaire
Nb de noeuds non-terminaux : 7, Noeuds terminaux : 8
ID=1

N=534

Mu=9,024064
Var=26,360859
Emploi
= 1, 5
ID=2
N=160

= Autre(s)
ID=3
N=374

Mu=12,207500
Var=39,315648

Mu=7,662166
Var=14,628422

Education

Syndicalisation

<= 12,500000
ID=4
N=32

> 12,500000
ID=5
N=128

Mu=8,377187
Var=17,259876

Mu=13,165078
Var=40,244811

=1
ID=8

= Autre(s)
ID=9
N=304

N=70

Mu=7,042336
Var=11,571203

Mu=10,354000
Var=18,991035

Age

Age

<= 38,500000
ID=6
N=85

> 38,500000
ID=7
N=43

<= 26,500000
ID=10
N=84

> 26,500000
ID=11
N=220

Mu=12,115529
Var=38,284434

Mu=15,239767
Var=37,638151

Mu=5,369881
Var=4,204942

Mu=7,680909
Var=12,908015
Education
<= 13,500000
ID=12
N=176

> 13,500000
ID=13
N=44

Mu=7,189148
Var=10,799488

Mu=9,647955
Var=16,505534

Sexe
=1
ID=14

N=97

Mu=6,493814
Var=7,225321

= Autre(s)
ID=15
N=79
Mu=8,042911
Var=13,865461

3.5.5 Traitements sous Statistica


Ouvrir le classeur CPS_85_Wages.stw.
Utiliser le menu Statistiques - Data Mining - Modles d'arbres de classification et de rgression C&RT Standard.
N.B. "C&RT" signifie : classification and regression trees. L'aide de Statistica indique : "Modles
d'Arbres de Classification et de Rgression (GC&RT)",
Sous l'onglet "Standard", indiquer "Salaire" comme variable dpendante, Education, Exprience et
Age comme variables numriques (prdicteurs continus), Localisation, Sexe, Syndicalisation,
Origine Ethnique, Emploi, Secteur et Situation de famille comme variables catgorielles
(prdicteurs catgoriels) :

F.-G. Carpentier - 2012/2013

152

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Sous l'onglet "Arrt", indiquer 100 comme nombre minimum d'observations.

Cliquer sur le bouton OK puis cliquer sur le bouton "Diagramme de l'arbre" du dialogue "Rsultat".
Vous devriez obtenir le graphique reprsent ci-dessus.

3.5.6 Retrouver avec Statistica les rsultats indiqus dans la prsentation de l'exemple
Observez la colonne 12 : les logarithmes des salaires y ont t calculs.
Observez galement la colonne 13 : la variable Emploi y a t recodifie afin que les codes
numriques des types d'emploi soient classs dans le mme ordre que les salaires moyens des
diffrents types.
Calculez le coefficient de corrlation entre Age et Exprience : on trouve effectivement r=0,977.
Faites la premire rgression indique : Log-Salaire (v12) est la variable dpendante, Sexe, Age,
Education, Exprience, Syndicalisation, Localisation et Emploi-recodifi (v1 v5, v7 et v13) sont
les prdicteurs. On trouve effectivement F(7, 526)=39,56 et donc un effet significatif de l'ensemble
de ces variables.
Calcul de l'effet de l'ge aprs contrle de l'exprience : on peut, par exemple, calculer les rsidus
de la rgression de Log-Salaire par rapport Exprience, puis coller ces rsidus dans une colonne
supplmentaire de la feuille de donnes et tester le rsultat de la rgression de ces rsidus par
rapport Age. Le coefficient b* vaut alors 0,09, significatif 3% seulement.
La valeur atypique cite dans le texte pourra tre mise en vidence sur l'un des graphiques de la
premire rgression multiple (par exemple en demandant le trac des bandes de prvision). Il s'agit
de l'observation n 200.
F.-G. Carpentier - 2012/2013

153

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

Les indications de l'avant-dernier paragraphe pourront tre retrouves en effectuant une nouvelle
rgression linaire multiple en prenant Log-Salaire (v13) comme variable dpendante, Education,
Localisation, Sexe, Exprience, Syndicalisation, Emploi-recodifi (v1 v5 et v13) comme variables
prdictrices.
On trouve bien un coefficient de dtermination voisin de 0,35. On remarque que les coefficients des
variables prdictrices sont alors tous significativement diffrents de 0. Pour retrouver les
pourcentages indiqus, il faut reconvertir les effets (linaires, additifs) des coefficients bi sur LogSalaire en effets multiplicatifs sur Salaire (qui est l'exponentielle de Log-Salaire).
Par exemple, le coefficient bi pour Exprience est b4 = 0,011. Pour 10 ans d'exprience
supplmentaires (toutes choses gales par ailleurs), Log-Salaire augmente de 0,1103. L'effet
multiplicatif sur le salaire est obtenu en calculant l'exponentielle de cette valeur :
exp(0,1103)=1,1166. L'effet se traduit donc par une augmentation du salaire de 11,66%.
Pour l'ensemble des prdicteurs, les calculs mens sous Excel conduisent au tableau suivant :

OrdOrig.
Education
Localisation
Sexe
Experience
Syndicalisation
Emploirecodifi

b*

ErrType

0,3788
-0,0923
-0,1791
0,2587
0,1407
0,2288

0,0409
0,0358
0,0365
0,0382
0,0362
0,0386

0,6457
0,0764
-0,1070
-0,1895
0,0110
0,1932
0,0870

ErrType
0,1193
0,0083
0,0415
0,0387
0,0016
0,0497
0,0147

t(527)

valeur p

5,4100
9,2611
-2,5751
-4,9009
6,7643
3,8904
5,9227

0,0000%
0,0000%
1,0294%
0,0001%
0,0000%
0,0113%
0,0000%

b* Coef %
Variation
0,3822
-0,1070
-0,1895
0,1103
0,1932

46,55%
-10,15%
-17,26%
11,66%
21,32%

Enfin, concernant l'effet du sexe, on pourra faire une troisime rgression multiple en prenant
l'ensemble des prdicteurs de la rgression prcdente, l'exception du sexe. On calcule les rsidus
de cette rgression et on les place dans une nouvelle colonne de la feuille de donnes. Enfin, on
ralise une rgression linaire en utilisant ces rsidus comme variable dpendante et le sexe comme
prdicteur. On obtient alors (en ajoutant le traitement sous Excel) :
b*
OrdOrig.
Sexe
-0,2015

ErrType
0,0425

b
0,0810
-0,1765

ErrType
0,0252
0,0372

t(532)

valeur p

b* Coef

%
Variation

3,2135
-4,7442

0,14%
0,00%

-0,1765

-16,18%

Il est assez remarquable que cet cart entre les sexes se retrouve, avec des valeurs presque
identiques, dans l'ensemble des rgressions qui ont t faites.
Remarque. Les rsultats ainsi obtenus sont proches de ceux annoncs dans la prsentation de
l'exemple, sans tre strictement identiques. Les diffrences proviennent probablement de la faon de
traiter les variables catgorises, notamment la variable Emploi.

F.-G. Carpentier - 2012/2013

154

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

4 Bibliographie :
Lebart, L., Morineau, A., Piron M., Analyse exploratoire multidimensionnelle, Dunod, Paris, 2000.
Doise, W., Clmence A., Lorenzi-Cioldi, F., Reprsentations sociales et analyses de donnes,
Presses Universitaires de Grenoble, Grenoble, 1992
Escofier, B., Pags J., Analyses factorielles simples et multiples, Dunod, Paris, 1998.
Bry, X., Analyses factorielles simples, Economica, Paris, 1995.
Bry, X., Analyses factorielles multiples, Economica, Paris, 1996.
Morineau A., Morin S., Pratique du traitement des enqutes - Exemple d'utilisation du systme
SPAD, Cisia-Ceresta, Montreuil, 2000
Croutsche, J.-J., Pratiques statistiques en gestion et tudes de marchs, Editions ESKA, Paris, 1997
Howell, D.C., Mthodes Statistiques en Sciences Humaines, De Boeck, Paris Bruxelles, 1998.
Saporta, G., Probabilit Analyse des donnes et statistique. Editions Technip , 1990
Articles :
Flament C., Milland L., Un effet Guttman en ACP, Mathmatiques & Sciences humaines (43e
anne, n 171, 2005, p. 25-49)
Hahn A., Eirmbter W. H., Jacob R., Le sida : savoir ordinaire et inscurit, traduction franaise de
Herrmann M.
Costarelli, S., Call, R.-M.. Self-directed negative affect: The distinct roles of ingroup identification
and outgroup derogation, Current research in Social Psychology, Volume 10 No 2, 2004.
Gil-Monte P. R., Ma Peir J., A study on significant sources of the burnout syndrome in workers at
occupational centres for mentally disabled, , Psychology in Spain, 1997, Vol. 2. No 1, 116-123.
Page Web : http://www.psychologyinspain.com/content/full/1997/6bis.htm
Stinglhamber, F., Bentein, K., Vandenberghe, C. Congruence de valeurs et engagement envers
l'organisation et le groupe de travail, Psychologie du Travail et des Organisations, Vol. 10, pp. 165187, 2004.

Sites internet :
Site Eurostat de l'Union Europenne : http://epp.eurostat.ec.europa.eu/portal/
Site d'Herv Abdi : http://www.utdallas.edu/~herve/#Articles.
Idams : http://ead.univ-angers.fr/~statidams/
Statlib - datasets archive : http://lib.stat.cmu.edu/datasets/
Psychologie Sociale : http://www.psychologie-sociale.org/reps2.php?article=7
Site pour tlcharger ce polycopi et les fichiers d'exemples : http://geai.univ-brest.fr/~carpenti/

F.-G. Carpentier - 2012/2013

155

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

5 Table des matires


1 Prsentation .......................................................................................................................................1
1.1 Introduction ................................................................................................................................1
1.2 Quelques mthodes utilises ......................................................................................................3
1.3 Concepts fondamentaux .............................................................................................................4
2 Mthodes exploratoires, descriptives ................................................................................................5
2.1 Analyse en composantes principales ou ACP ............................................................................5
2.1.1 Introduction .........................................................................................................................5
2.1.2 Exemple...............................................................................................................................6
2.1.3 Analyse en composantes principales avec Statistica...........................................................9
2.1.4 Interprtation des rsultats de l'ACP .................................................................................20
2.1.5 ACP avec individus et variables supplmentaires.............................................................24
2.1.6 ACP avec rotation .............................................................................................................26
2.1.7 Une ACP fournit-elle toujours des informations interprtables ? .....................................26
2.2 Combiner description et prdiction : Analyse factorielle.........................................................27
2.2.1 Introduction .......................................................................................................................27
2.2.2 Exemple introductif...........................................................................................................27
2.2.3 Justification conceptuelle de l'analyse factorielle exploratoire .........................................30
2.2.4 Mthodes d'extraction des facteurs ...................................................................................31
2.2.5 Rsultats obtenus - Scores des individus...........................................................................34
2.2.6 Rotation des facteurs : rotations orthogonales, rotations obliques....................................36
2.2.7 Analyse factorielle confirmatoire......................................................................................36
2.2.8 Bibliographie :...................................................................................................................41
2.3 Analyse Factorielle des Correspondances................................................................................43
2.3.1 Introduction .......................................................................................................................43
2.3.2 Traitement classique d'un tableau de contingence : test du khi-2 sur un exemple............43
2.3.3 Analyse factorielle des correspondances proprement dite ................................................46
2.3.4 Analyse factorielle des correspondances avec Statistica...................................................49
2.3.5 Interprtation des rsultats de l'AFC .................................................................................55
2.3.6 Structures possibles pour les donnes d'entre..................................................................57
2.3.7 Ajout de lignes ou de colonnes supplmentaires : application la comparaison de
tableaux de frquence binaire.....................................................................................................58
2.3.8 Quelques configurations remarquables dans les rsultats produits par une AFC. ............62
2.3.9 L'extension de la notion de tableau de contingence ..........................................................65
2.3.10 Conclusion.......................................................................................................................69
2.4 Analyse des Correspondances Multiples..................................................................................71
2.4.1 Introduction .......................................................................................................................71
2.4.2 Forme des donnes d'entre...............................................................................................71
2.4.3 Quelques rgles d'interprtation ........................................................................................73
2.4.4 Rsultats de l'ACM sur l'exemple .....................................................................................76
2.4.5 Exploration de l'ACM sur des mini-exemples ..................................................................79
2.4.6 ACM avec Statistica..........................................................................................................81
2.4.7 Autres exemples d'ACM ...................................................................................................87
2.5 Mthodes de classification .......................................................................................................91
2.5.1 Introduction .......................................................................................................................91
2.5.2 Mthodes de type "centre mobile" : K-moyennes.............................................................91
2.5.3 Classification Ascendante Hirarchique ...........................................................................97
3 Mthodes prdictives.....................................................................................................................110
3.1 Rgression linaire .................................................................................................................110
3.1.1 Rgression linaire multiple............................................................................................110
3.1.2 Une application de la rgression linaire : analyse de mdiation ...................................114
3.1.3 Rgression linaire avec Statistica ..................................................................................116
F.-G. Carpentier - 2012/2013

156

PSR92C - Analyse multidimensionnelle des donnes

2012/2013

3.1.4 Un exemple d'analyse de mdiation avec Statistica........................................................121


3.2 Rgression logistique .............................................................................................................125
3.2.1 La rgression logistique ..................................................................................................125
3.2.2 La rgression logistique avec Statistica ..........................................................................128
3.2.3 Un exemple de rgression logistique issu d'un article.....................................................131
3.3 Introduction l'analyse discriminante....................................................................................133
3.3.1 Prsentation de la mthode..............................................................................................133
3.3.2 Analyse discriminante sur un mini-exemple...................................................................133
3.3.3 Les iris de Fisher .............................................................................................................141
3.3.4 Un exemple d'interprtation des rsultats d'une analyse discriminante ..........................141
3.4 Analyse et rgression PLS......................................................................................................144
3.4.1 Position du problme.......................................................................................................144
3.4.2 Le principe de la rgression PLS sur un mini-exemple ..................................................144
3.4.3 Un exemple de rgression PLS avec Statistica ...............................................................145
3.5 Analyse de segmentation........................................................................................................149
3.5.1 But de la mthode............................................................................................................149
3.5.2 Rappel : dcomposition de l'inertie .................................................................................149
3.5.3 Principe de la mthode : ..................................................................................................150
3.5.4 Exemple d'analyse de segmentation................................................................................150
3.5.5 Traitements sous Statistica ..............................................................................................152
3.5.6 Retrouver avec Statistica les rsultats indiqus dans la prsentation de l'exemple.........153
4 Bibliographie :...............................................................................................................................155
5 Table des matires .........................................................................................................................156

F.-G. Carpentier - 2012/2013

157

Das könnte Ihnen auch gefallen