Beruflich Dokumente
Kultur Dokumente
Francois Brucker
28 janvier 2007
2
Table des matieres
1 Les donnees 7
1.1 Espaces de representation . . . . . . . . . . . . . . . . . . . . 7
1.2 Espaces engendres par des variables . . . . . . . . . . . . . . . 8
1.2.1 Variables numeriques . . . . . . . . . . . . . . . . . . . 8
1.2.2 Variables ordinale et nominales . . . . . . . . . . . . . 9
1.3 Espace des modeles . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Distances et similitude dans les espaces de representation . . . 12
1.4.1 Dissimilarites et similarites . . . . . . . . . . . . . . . 13
1.4.2 Variables continues . . . . . . . . . . . . . . . . . . . . 14
1.4.3 Variables booleennes (presence/absence) . . . . . . . . 15
3
4 TABLE DES MATIERES
4 Classification 65
4.1 Modeles de classification . . . . . . . . . . . . . . . . . . . . . 66
4.1.1 Partitions et hierarchies . . . . . . . . . . . . . . . . . 68
4.2 Methodes de partitionnement . . . . . . . . . . . . . . . . . . 71
4.2.1 Choix dune partition . . . . . . . . . . . . . . . . . . . 71
4.2.2 k-means . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2.3 Algorithme des transferts . . . . . . . . . . . . . . . . 80
4.3 Lalgorithme de Classification Ascendante Hierarchique (C.A.H.)
82
4.3.1 Pseudo-code . . . . . . . . . . . . . . . . . . . . . . . . 82
4.3.2 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . 83
4.3.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 83
TABLE DES MATIERES 5
5 Lanalyse discriminante 87
5.1 Principe de la methode . . . . . . . . . . . . . . . . . . . . . . 87
5.1.1 Matrices de variances intraclasse et interclasses . . . . 88
5.1.2 Variance dun caractere . . . . . . . . . . . . . . . . . . 88
5.1.3 Facteurs et caracteres discriminants . . . . . . . . . . . 89
5.1.4 Recherche des facteurs . . . . . . . . . . . . . . . . . . 90
5.2 Lanalyse discriminante decisionnelle . . . . . . . . . . . . . . 90
5.3 Lanalyse discriminante comme cas particulier dA.C.P. . . . . 91
Les donnees
7
8 CHAPITRE 1. LES DONNEES
Une variable ordinale induit un ordre total sur lensemble X des objets,
lespace de representation associe est donc un produit direct dordre totaux.
Nous ne parlerons que tres peu de ce genre de donnees par la suite, et nous
nous restreindrons aux variables booleennes, dont le tableau 1.2 donne un
exemple.
A: lanimal pond-t-il des ufs ?
B: presence de plumes ?
C: presence decailles ?
D: presence de dents ?
E: lanimal vole-t-il ?
F: lanimal nage-t-il ?
G: lanimal respire-t-il dans lair (1) ou dans leau (0) ?
Ce genre de donnees peut etre represente en utilisant une terminologie
booleenne. Soit X lensemble des n objets decrits par un ensemble A =
{A, B, C, . . .} de m attributs ou variables binaires. Chacun, par exemple A,
peut prendre les valeurs a (dite forme directe, codee 1) et a (dite forme
indirecte, codee 0). Ceci peut etre ramene a un tableau de valeurs 0 ou 1
avec n lignes correspondant aux elements de X et m colonnes correspondant
aux attributs. Par abus de notation, la variable A sera parfois confondue avec
sa forme directe a.
10 CHAPITRE 1. LES DONNEES
A B C D E F G
Autruche 1 1 0 0 0 1 1
Canari 1 1 0 0 1 0 1
Canard 1 1 0 0 1 1 1
Requin 1 0 0 1 0 1 0
Saumon 1 0 1 0 0 1 0
Grenouille 1 0 0 0 0 1 1
Crocodile 1 0 0 1 0 1 1
Barracuda 1 0 1 1 0 1 0
Le tableau 1.2 est alors equivalent a la formule ci-apres qui est verifiee
par les assignations induites par les lignes :
fg abcde
= abcde fg
abcdef g abcdef g
g abcdef
abcdef g
abcdef g abcdef g
f e d g d c
Autruche Canari Requin Grenouille Requin Saumon
Canari Canard Crocodile Barracuda Barracuda
La figure 1.1 montre par exemple que les differences entre un canard et
une autruche est alors e et f , une autruche ne volant pas et un canard ne
nageant pas.
Attention, les animaux peuvent se retrouver dans plusieurs branches, ainsi
la difference entre une autruche et un canari etant uniquement la variable e
(lautruche se differenciant du canari par le fait quelle ne vole pas).
nous renseigner sur les objets eux-memes (ceux du vrai monde). Ce processus
est schematise dans la figure 1.2.
connaissances re-codage
codage re-codage
Le vrai Espace de Espace des
monde reprsentation modles
info
ma rithm
rm
alg
?
ths
atio
ns
o
tio
+
ns
es
qu
es
Rponses
et plus generalement Lq :
X 1 1
d(xi , xj ) = ( |xki xkj |q ) q
1kp
p
Candidat no 1 2 3 4 5 6 7 8 9 10 11 12 13
x 15 15 20 10 15 30 10 10 5 5 5 10 10
y 4 5 10 0 4 10 2 5 0 1 0 3 3
Candidat no 14 15 16 17 18 19 20 21 22 23 24 25 26
x 20 15 10 5 20 30 30 30 40 10 5 10 10
y 6 3 2 0 6 8 5 10 12 3 0 2 3
17
18 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES
2.1.1 Distribution
Definition 2 On appellera distribution statistique (ou encore fonction de
repartition) de X la donnee des couples {(c1 , n1 ), . . . , (ci , ni ), . . . , (ck , nk )}
tel que les ci forment un partition en k intervalles (appeles aussi classes)
de lensemble des valeurs prises par la variable ( c1 = [a0 , a1 ], ci =]ai1 , ai ],
ck =]ak1 , ak ]) et les ni le nombre de valeurs observees dans lintervalle ci .
Par convention le centre des intervalles est egalement note ci .
Remarque 2 Pour une variable discrete, la distribution statistique associee
est egalement notee {(c1 , n1 ), . . . , (ci , ni ), . . . , (ck , nk )}, mais ici, les ci repre-
sentent toutes les valeurs prises par la variable et les ni le nombre de fois que
la valeur ci a ete prise.
Le nombre dintervalles dans une distribution statistique est choisi en
fonction de n, de maniere
P a representer le mieux possible la distribution des
valeurs et on a n = 1ik ni . Il nexiste pas de choix pertinent du nombre
et de lamplitude des classes, mais il est plus aise de prendre des classes
de meme amplitude et, empiriquement, on a coutume dutiliser la regle de
Sturges comme choix de k :
10 ln (n)
k =1+
3 ln (10)
Parfois, cependant, la decoupe en intervalles ira de soi, par exemple lorsque
x ne prend que des valeurs entieres puisque lon se ramenera au cas dune
variable discrete.
Definition 3 Pour une distribution statistique donnee, on appellera frequence
ni
de i le rapport
P fi = n , et sa frequence cumulee la somme Fi = f1 + f2 +
. . . + fi = 1ji fj .
Definition 4 On appelle histogramme des frequences pour une distribution
statistique donnee ((]aji , aj ], nj ) pour 1 j k), le graphique tel que les
classes sont reportees en abcisse et au-dessus de chacune delle un rectangle
daire egale ou proportionnelle a la frequence de la classe est trace.
2.1. DESCRIPTION DUNE VARIABLE 19
Attention, ce sont les aires des rectangles qui sont importantes. Lorsque
les bases des rectangles est identique la hauteur est alors proportionnelle
a laire mais dans quelques (rares) cas les bases seront de longueurs differentes
et dans ces cas la il faudra faire attention.
Histogram of temps
8
6
Frequency
4
2
0
10 20 30 40
temps
0 55555
1 000000000
1 5555
2 000
2
3 0000
3
4 0
Cette representation consiste en un histogramme dont la representation
separe dizaine (a gauche) et unite (a droite), chaque unite etant repete autant
de fois quil y a delements (dans lexemple ci-dessus, il y a 5 element qui
valent 5, 9 qui valent 10, 0 qui valent 20, . . .).
Definition 5 Un camembert est un disque dont les parts sont egales ou pro-
portionnelles a la frequence de la classe associee.
10
40
15 30
20
ecdf(temps)
1.0
0.8
0.6
Fn(x)
0.4
0.2
0.0
10 20 30 40
1
P
1. Pour la norme || ||1 (||~v (x)||1 = i n |xi |) la mediane de x est solution
du probleme,
1
2. Pour la norme euclidienne || ||2 (||~x(x)||22 = 2
P
i n |xi | ), la moyenne x
est lunique solution du probleme,
3. Pour la norme uniforme || || (||~v (x)|| = maxi xi ), la solution du
probleme est la moyenne des valeurs extremes 12 (mini xi maxi xi ).
4. Plus generalement, on appellera valeur centrale dordre q de la va-
riable x toute solution du probleme pour la norme || ||q (||~v (x)||q =
1
( i n1 |xi |q ) q ).
P
1 X n 2
s2c (x) = (xi x)2 = s (x)
n 1 1in n1
(Tn )
1
P
(x (X)) = (Pn 1in xi (X))
1
= n P1in (xi ) (X)
= n1 1in (X) (X)
= 0
2 (x) = 2 ( n1 P1in xi )
P
= n12 2 ( 1in xi )
= n12 (n 2 (xi ))
= n1 2 (X)
Finalement :
1
(s2 (x) 2 (X)) = 2 (X)
n
2
Lestimateur s (x) est donc seulement asymptotiquement sans biais, sa
moyenne etant egale a n1
n
2 (X) et donc sous-estime constamment la veritable
variance de X.
En refaisant les calculs avec s2c (x) on se rend compte que (s2c (X)) =
2 (X) et donc quil est sans biais.
Lorsque les (xi ) sont un echantillon dune population plus grande on a
coutume dutiliser la variance corrigee s2c (x) puisquelle est sans biais. Cepen-
dant dans le cas qui nous occupe, les (xi ) representent la population en son
entier, sa variance est donc egale a s2 (x) et nous navons pas a nous soucier
de la variance corrigee.
Comparaisons de variances
Une variance ne peut etre comparee (et interpretee) que par rapport a une
autre variance puisque cest la moyenne des carres des ecarts a la moyenne.
En pratique, cest lecart-type qui est le plus utilise car il sexprime avec la
26 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES
meme unite que la variable, et donc que sa moyenne. On peut ainsi combiner
ecart-type et moyenne pour obtenir un parametre de dispersion appele coef-
ficient de variation qui represente une variabilite relative de la variable (au
contraire de lecart-type qui represente une variabilite absolue). De la meme
maniere que lon peut definir les valeurs centrales par rapport a des normes
Lq (cf. 2.1.2), si lon considere la quantite
s(x)
cv(x) = 100
x
Si la population est plus grande que lechantillon considere, le coefficient
de variation utilise sc (x) et non plus s(x), il est alors defini par lexpression :
cv(x) = 100 scx(x) .
Letendue dune variable qui est le parametre de dispersion e(x) defini par
la difference entre la plus grande et la plus petite valeur de la variable etant
tres sensible aux valeurs extremes, on preferera utiliser les quartiles pour
calculer la repartition des valeurs.
On peut egalement rajouter deux points marquant les valeurs les plus
extremes si elles ne sont pas dans les moustaches, et un autre point en regard
de la moyenne. La figure 2.4 montre ce type de graphique pour la variable
x et y de la table 2.1, ou pourra remarquer que la mediane de x est egale a
q0,25 et est tres differente de la moyenne.
Les extremites de la bote a moustache sont appelees valeurs adjacentes,
et lorsque quune valeur se trouve au-dela des valeurs adjacentes, elle peut
etre considere comme extreme et peut eventuellement etre omise.
40
30
20
10
0
temps erreurs
12
10
8
erreurs
+
4
2
0
5 10 15 20 25 30 35 40
temps
La maniere la plus courante pour arriver a nos fins est dutiliser la methode
des moindres carres, cest a dire trouver deux reels a et b qui realisent le mi-
nimum de :
n
X 1
h(a, b) = (yi a bxi )2 = ||~v (y) ~v (ax + b)||22
i=1
n
h(a, b) 1X
= 2 (yi a bxi ) = 2y + 2a + 2bx
a n i
h(a,b)
De la, a
= 0 implique que :
a = y bx
30 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES
h(a,b)
= 2 n1P i xi (yi a bxP
P
b i)
1
= 2[ i xi yi ax b n i x2i ]
En remplacant a par y bx, on obtient alors :
h(a,b)
= 2[Pi xi yi (y bx)x b n1 P
P P 2
b i xi ]
1 2 1 2
= 2[ P i n (xi yi xy) + b(x n i xi )]
= 2[ n1 i (xi x)(yi y) + bs2 (x)]
cov(x, y)
b=
s2 (x)
12
10
8
erreurs
+
4
2
0
5 10 15 20 25 30 35 40
temps
12
10
8
erreurs
+
4
2
0
5 10 15 20 25 30 35 40
temps
(xi,yi)
droite D
La figure 2.9 montre le nuage de points de la table 2.1, les deux droites
de regressions (en traits pleins) et laxe principal (en pointilles).
12
10
8
erreurs
+
4
2
0
5 10 15 20 25 30 35 40
temps
si les variables sont liees, D2 sera grand. On peut quantifier cette liaison entre
variable en utilisant les statistiques.
Les valeurs Cij du tableau sont alors considerees comme des valeurs dune
variable aleatoire C dont on ne connat pas la loi. Si D2 est petite, il y a toute
les chances que la loi regissant C soit le produit de deux lois independantes,
lune regissant les lignes lautre les colonnes. Ci cest le cas, D2 est une
variable aleatoire dont on connat la loi : elle suit une loi du 2 a (p1)(q 1)
degres de liberte. Par abus de notation au appellera par la suite 2 dun
tableau de contingence la quantite D2 .
La densite de probabilite f (x) dune loi du 2 a n degre de liberte est
egale a :
1
ex/2 xn/21 si x > 0
f (x) = 2n/2 (n/2)
0 sinon
R +
avec (z) = 0 tz1 et dt qui est appelee fonction gamma.
Lesperance et la variance dune variable aleatoire X suivant une loi du
2 a n degres de liberte est (X) = n et 2 (X) = 2n. La figure 2.10 montre
la densite de probabilite dune loi du 2 a 4 degres de libertes.
Dans notre exemple, p = 10 et q = 6 et donc si les deux variables sont
independantes, D2 suit une loi du 2 a 45 degres de liberte. Dans ce cas la,
D2 a 99% de chances detre compris entre 0 et 70 (lintegrale de la fonction
de densite entre 0 et 70 vaut 0.99). Il y a donc moins d1% de chance que la
valeur de D2 soit plus grand que 70. On trouve que D2 = 95.3, qui est une
valeur tres hypothetique si D2 suivait une loi du 2 . On a donc moins d1% de
chance de se tromper en rejetant lhypothese dindependance, risque que lon
peut prendre : on considere alors que nos donnees ne sont pas independantes,
36 CHAPITRE 2. DESCRIPTION DUNE OU DEUX VARIABLES
densit de probabilit
0.15
densit
0.10
0.05
0 20 40 60 80 100 120
valeur
Analyse en composantes
principales
y y y
x x x
Absence de liaison Forte liaison Trois groupes homognes
37
38 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
erreurs erreurs
temps temps
Nuage 1 Nuage 2
entre variables.
On a alors :
1
...
r(xi , xj )
R = D1 V D1 = 1
s s
...
1
soit petite (pi est toujours le poids de lindividu i). En effet, si ||xi p(xi )||
est petite, ceci signifie que le point et son projete sont proches.
On appelle
P alors sous-espace principal un sous-espace de Rp minimisant
la quantite i pi ||xi p(xi )||2 .
44 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
xi
p(xi) p(g)
H
Or :
pi ||xi p(g)||2 = Pi pi (||xi ||2 + ||p(g)||2 2P
P P
i < xi , p(g) >)
= Pi pi ||xi ||2 + ||p(g)||2 2 iPpi < xi , p(g) >
2 2
= Pi pi ||xi || + ||p(g)|| 2 < i pi xi , p(g) >
2 2
= i pi ||xi || + ||p(g)|| 2 < g, p(g) >
Comme g est egale a lorigine du repere on a < g, p(g) >=< 0, p(g) >= 0 et
donc finalement que :
X X
pi ||xi p(g)||2 = pi ||xi ||2 + ||p(g)||2
i i
= t ( i i ui )( j j V uj )
P P
= t ( i i ui )( j j j uj )
P P
P P
= < i i ui , j j j uj >
P P
= i (i < ui , j j j uj >)
P P
= i( j (i j j < ui , uj >))
De plus :
variance non normee (on ne divise pas par le nombre de points). On peut de
plus montrer que
1 XX
I= pi pj ||xi xj ||2
2 i j
en effet :
2
p p (||xi ||2 + ||xj ||2 2 < xi , xj >)
P P P P
p i p j ||x i x j || =
i j Pi Pj i j
pi pj ||xi ||2 + i j pi pj ||xj ||2
P P
= i Pj P
2 i j pi pj < xi , xj >
= 2 i pi ||xi ||2 2 j < i pi xi , xj >
P P P
P
On conclut en remarquant que i pi xi est egal au centre de gravite du nuage
qui est egal a 0 puisque les donnees sont centrees.
On peut egalement definir linertie par rapport
P a un autre point.2 Linertie
par rapport a un point h est alors egale a Ih = 1in pi ||xi h|| . Grace a
la formule de Huygens, on peut montrer que :
Linertie par rapport a un point different du centre de gravite est donc tou-
jours superieure a linertie du nuage.
Les notions dinertie et de sous-espace principal sont lies puisque les sous-
espaces principaux sont ceux qui maximisent linertie des projetes des indi-
vidus. De plus, on a que linertie totale du nuage est egale a la somme des
inerties des axes principaux (cf. partie precedente).
Linertie tient donc le role de linformation du nuage, information repar-
tie dans tous les axes principaux. P
On a en effet que linertie du nuage est egale a : I = 1jp j et que
linertie associee a laxe principal j est egal a j . De plus, comme la somme
des valeurs propres dune matrice est egale a sa trace (i.e. la somme de
ses elements diagonaux), on a egalement que I = trace(V ). Nos donnees
etant reduites, les elements diagonaux de V sont tous egaux a 1 et donc
trace(V ) = p.
Chaque axe principal explique donc une part dinertie etant egale a son
inertie divisee par linertie totale, cette quantite valant ici pi .
La part dinertie expliquee par le plan forme par les facteurs ui et uj est
egale a linertie des projetes sur ce plan divise par linertie totale. Les ui
+
formant une base orthogonale de Rp , cette inertie expliquee vaut : i p j .
50 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
1
x i x i
1 2
c i c i
1 2
u u
2
x i
x
i
g q
cj
cj
i
cov(xk , cj )
r(xk , cj ) =
s(cj )s(xk )
Nos donnees etant reduites, s(xk ) = 1. Calculons s(cj ). Nos donnees etant
centrees, on a :
s2 (cj ) = t cj Dcj
= t (Xuj )DXuj
= t uj t XDXuj
= t uj V u j
= j
p
On a donc s(cj ) = j .
Passons au calcul de cov(xk , cj ). Les xk et les cj etant centrees, on a :
cov(xk , cj ) = t k
x Dcj
t k
= x DXxj
xk etant la keme colonne de X, en notant ek le vecteur colonne de Rn
valant 0 sur toutes ses lignes sauf a la ligne k ou il vaut 1, on a xk = Xek .
Donc :
j (uj )k
r(cj , xk ) =
p j
= j (uj )k
0
Comme on a toujours r2 (xj , ck ) + r2 (xj , ck ) 1 (pour sen convaincre,
0
remarquez que ck et ck sont orthogonaux, et donc une correlation lineaire
de 1 avec un axe entrane une correlation lineaire de 0 avec lautre. De facon
plus formelle, le resultat vient du fait que r(xj , ck ) est le cosinus entre les axes
definis par xj et ck , cf. partie 3.8.3) en projetant les xj sur le plan principal
0
(c1 , c2 ) (ou plus generalement sur le plan (ck , ck )), on obtient des points a
linterieur dun cercle de rayon 1 (cf. figure 3.6).
c2
j 2 xj
r(x ,c )
j 1
r(x ,c ) c1
Ce cercle permet de voir dun seul coup doeil les correlations lineaires de
toutes les variables initiales avec deux composantes principales particulieres.
cj = Xuj
54 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
X
X= c j t uj
1jp
On trouve que la derniere valeur propre est nulle, ce qui est normal
puisque la somme des colonnes fait toujours 100 dans la table 1.1, les ca-
racteres sont lies par une relation lineaire (chaque ligne correspond en effet
a des pourcentages par categorie socioprofessionnelles).
On voit que les deux premiers axes principaux expliquent a eux seul plus
de 80% de linertie du nuage, nous resumerons donc nos donnees sur le plan
forme de ces deux axes.
Il ny a pas de methode generale pour savoir combien daxes principaux
considerer, rien ne remplacant lexperience. Un critere pouvant etre utilise
est cependant de reperer une chute dinertie entre deux axes consecutifs. La
methode la plus sur consistant a ne choisir quapres avoir etudie la significa-
tion possible des axes.
Les deux premiers vecteurs propres sont donnes dans la table 3.4 ci-apres.
attributs u1 u2
LIV -0.470 0.230
ELB -0.510 0.072
POA -0.417 0.311
ACT 0.403 0.418
PIE 0.414 0.041
TER -0.109 -0.818
associes aux deux premiers facteurs principaux (cf. table 3.4) est represente
dans la table 3.5.
Tab. 3.5 les deux premieres composantes principales associees aux vecteurs
propres de la figure 3.4
categorie c1 c2
socioprofessionnelle
AI 2.77 -0.35
PL 1.46 0.20
IAC 2.59 0.45
CS 1.31 0.90
AG -1.30 -2.44
AA -0.70 -1.98
AS -0.14 0.56
PI -0.94 0.83
EM -1.58 0.50
OU -3.48 1.31
OU
+
CS
1
PI +
+
EM AS
+ + IAC
+
PL
+
deuxieme facteur
AI
+
1
AA
+
2
AG
+
3
3 2 1 0 1 2 3
premier facteur
AI PL IAC CS AG AA AS PI EM OU
cos2 () 0.79 0.62 0.96 0.50 0.90 0.94 0.20 0.88 0.78 0.96
On remarque que tous les individus sont bien representes dans le plan
principal, a part lindividu correspondant a la categorie socioprofessionnelle
AS (Anciens Salaries) qui forme un angle de 63 degres (arccos( 0.20) ' 63 )
avec le plan principal.
1.0
ACT
0.5
+
POA
+
LIV
+
ELB
+ PIE
+
0.0
c2
0.5
TER
1.0
c1
3.8.1 Metrique
Dune facon generale, si M est une matrice symetrique definie positive
(cest a dire dont toutes ses valeurs propres sont strictement positives), on
definit un produit scalaire comme etant :
ei et ej etant des vecteurs colonnes. Une distance d peut alors etre definie
via la norme associee au produit scalaire :
||ei ||M est la norme associee a d et est appelee M -norme ; M est alors
appelee metrique de lespace. La distance euclidienne est un cas particulier
de la definition ci-dessus, en prenant M egal a la matrice identite. De plus,
toute norme est issue dun produit scalaire de ce type.
On peut montrer que si M est une matrice symetrique definie positive, il
existe une matrice T (inversible puisque M est inversible) telle que M = t T T .
On a ainsi
||ei ej ||2M = t
(ei ej )M (ei ej )
t
= (ei ej )t T T (ei ej )
t
= (T ei T ej )(T ei T ej )
Tout se passe alors comme suit : on commence par trouver une metrique M ,
puis on transforme notre tableau de donnees par X t T (tableau que nous
continuerons a appeler X par abus de notations) et on utilise la metrique
euclidienne.
Cest exactement ce que nous avons fait precedemment en reduisant nos
donnees, comme le montre la partie suivante.
< ei , ej >
cos ij =
||ei ||||ej ||
xji =
P j k
aj Gi + k bk Bi + cj Sij
facteur general facteur de groupe facteur specifique
Classification
65
66 CHAPITRE 4. CLASSIFICATION
figure 4.1.
Modele de classe
Definition 16 Une partition P est un recouvrement tel que pour toutes
classes A et B de P : A B = si A =
6 B.
Definition 17 Une hierarchie est un systeme de classes H tel que pour
toutes classes A et B de P : A B {A, B, }
Pour une hierarchie, de part la definition, deux classes sont donc toujours
soit incluses lune dans lautre, soit dintersection vide. On peut donc, en ra-
joutant les classes triviales, considerer une partition comme un cas particulier
dune hierarchie.
Les classes dune hierarchie etant soient incluses lune dans lautre soit
dintersection vide. On a coutume de representer cet arbre sous la forme de
la figure 4.3 ou chaque classe est represente par un segment. On appelle cette
representation un dendrogramme.
Indicage
On peut munir une hierarchie, ou plus generalement tout systeme de
classe K, dun indice.
Definition 18 Un indice sur une systeme de classe K est une fonction f de
lensemble des classes de K dans lensemble des reels positifs, et telle que :
4.1. MODELES DE CLASSIFICATION 69
La paire (K, f ) est alors appelee systeme de classe indice. Le reel f (A)
ou A K est alors appele hauteur de A. La representation dune hierarchie
indicee est aisee en utilisant les dendrogrammes. La hauteur de chaque classe
etant proportionnelle a la heur du segment la representant. Un exemple de
hierarchie indicee est presente en figure 4.4.
Il est clair que toute hierarchie peut etre indicee. On peut par exemple
utiliser comme indice dune classe A la valeur f (A) = |A| 1.
Indicer une hierarchie va nous permettre de les mettre en relation avec
un type particulier de dissimilarite, les ultrametriques.
Ultrametriques
Definition 19 Une dissimilarite d sur X est une ultrametrique si et seule-
ment si linegalite suivante (appelee inegalite ultrametrique) est verifiee quelques
soient x, y, z X :
x y z
x 0
y 1 0
d: z 3 3 0
t 3 3 2 0
u 4 4 4 4 0
x y z t u
4.2. METHODES DE PARTITIONNEMENT 71
x y z t u
(cf. partie 3.5). On suppose donc que les elements xi de X sont tous munis
dun poids pi (on pourra, par exemple, considerer que les poids sont tous
egaux a n1 ). Chaque classe est alors affectee dun poids Pi egal a la somme
des points des elements dicelle.
En notantP gi le centre de gravite de la classe Ci , linertie de Ci est alors
egale a Ii = xj Ci pj d2 (xj , gi ). La somme de toutes les inertie des classes
est appelee inertie intraclasse et on la note IW :
X
IW = Ii
1ip
max
g1 g2
min
Fig. 4.7 Exemple de mesures de ressemblance entre classe pour une distance
euclidienne.
Les parties precedentes montrent que lon peut, une fois une mesure de
stabilite choisie, comparer deux partitions sur X au regard de la dissimilarite
decrivant les donnees. De plus, les differentes remarques montrent que, choisir
la meilleure partition, ne peut se faire que si lon determine a lavance le
nombre de classes quelle doit contenir.
On est donc en face dun probleme doptimisation : il faut choisir une
partition minimisant une mesure de stabilite choisie. Une solution possible
est dessayer toutes les partitions possibles (leur nombre est fini) et choisir la
meilleure. Cependant, cette solution est irrealisable en pratique car le nombre
de partitions possible explose exponentiellement avec |X|.
On peut montrer que le nombre de partitions sur un ensemble X (avec
|X| = n) est egal au nombre de Bell Bn . Ce nombre se calcul avec la
recurrence suivante :
B0 = 1P
i1
Bn = 1in Cn1 Bni
La table 4.1 donne les premiers nombres de Bell et de stirling. Ces nombres
grossissent exponentiellement.
La triste nouvelle est que pour les mesures de stabilites donnees dans la
partie precedente, trouver une partition a k classes minimisant une de ces
mesures se trouve etre un probleme NP-diffile. Cest a dire qua priori il ny
a pas dautre maniere que de regarder toutes les partitions possibles avant
den determiner une qui realise le minimum. Cest pourquoi, les algorithmes
de partitionnement utilisees sont tous des heuristiques (cest a dire quils
trouvent la plupart du temps une partition acceptable, mais sans garanti
doptimalite). Nous en presentons trois, parmi les plus couramment utilises.
4.2. METHODES DE PARTITIONNEMENT 75
Sn,k n\ k 1 2 3 4 5 6 7 Bn
1 1 1
2 1 1 2
3 1 3 1 5
4 1 7 6 1 15
5 1 15 25 10 52
6 1 31 90 65 15 1 203
7 1 63 301 350 140 21 1 877
4.2.2 k-means
Les algorithmes de regroupement autour de centres mobiles (Forgy, 1965,
McQUeen 1967 ou encore All et Ball, 1967) admettent beaucoup de variantes.
Ils peuvent etre iteratifs (et proche des pratiques dapprentissage) ou non.
Les centres ainsi que le critere de regroupement peuvent aussi etre calcules
de diverses manieres. Nous nous contenterons ici de presenter lalgorithme
classique des k-means ainsi que sa variante online. Nous mentionnerons ici
et la quelques variantes sans pour autant les expliciter.
Lalgorithme des k-means, appele aussi algorithme des centres mobiles est
certainement du a LLoyd (1957), Forgy (1965) et vraisemblablement dautres.
Les k-means (algorithme 4.2.2) sont fait pour partitionner des donnees
euclidiennes. On considerera donc dans la suite de cette partie que chaque
objet x est un point de Rp tel que xi soit sa ieme coordonnee et que la
distance utilisee d est la distance euclidienne, cest a dire :
X
d2 (x, y) = (xi y i )2
1ip
1
P
Pour tout sous-ensemble C de X, on notera g(C) = |C| xC x son centre
de gravite.
k-means : Partitionnement en k classes a partir dun ensemble X de points
de Rp .
debut
soient x1 , . . ., xk , k elements de X
76 CHAPITRE 4. CLASSIFICATION
gi xi pour tout 1 i k
Ci pour tout 1 i k
on s arrete FAUX
tant que on s arrete est FAUX
Ci0 pour tout 1 i k
pour chaque x X
soit i0 tel que d(x, gi0 ) = min{d(x, gj )|1 j k}
Ci00 Ci00 {x}
fin (pour chaque)
6 {C10 , . . . , Ck0 }
si {C1 , . . . , Ck } =
alors
Ci Ci0 pour tout 1 i k
gi g(Ci ) pour tout 1 i k
fin (alors)
sinon on s arrete VRAI
fin (tant que)
fin
Voici un exemple du deroulement des k-means. On considere les huit
points de R2 de la figure 4.8.
5
4
3
2
1
1 2 3 4 5
Les nouvelles classes sont alors C1 = {(1, 1), (2, 1)} de centre de gravite
g1 = ( 32 , 1) et C2 = {(1, 2), (2, 2), (4, 4), (4, 5), (5, 4), (5, 5)} de centre de gra-
4.2. METHODES DE PARTITIONNEMENT 77
vite g2 = ( 72 , 22
6
). La distance au carre des points au centre est alors :
Apres cette etape, les nouvelles classes sont alors les classes naturelles :
C1 = {(1, 1), (1, 2), (2, 1), (2, 2)},
C1 = {(4, 4), (4, 5), (5, 4), (5, 5)}.
et donc :
d2 (x, gi0 )
P P
IW ({C1 , . . . , Ck }) 1ik xCi0
IW ({C10 , . . . , Ck0 })
78 CHAPITRE 4. CLASSIFICATION
debut
soient x1 , . . ., xk , k elements de X
gi xi pour tout 1 i k
j1
tant que j < m
ni 1 pour tout 1 i k
pour chaque x X
soit i0 tel que d(x, gi0 ) = min{d(x, gj )|1 j k}
gi0 ni 1+1 (ni0 gi0 + x)
0
ni0 ni0 + 1
4.2. METHODES DE PARTITIONNEMENT 79
2 19
1 18 20 35
Pseudo-code
Initialisation
choix de k classes arbitraires C1 , . . .Ck
4.2. METHODES DE PARTITIONNEMENT 81
xt
it
jt
ft 0
STOP FAUX
Tant Que STOP est FAUX
ft f ({C1 , . . . Ck })
Pour Tout 1 i k
Pour Tout x Ci
Pour Tout 1 j k tel que i 6= j
Si f ({C1 , . . . , Ci \{x}, . . . Cj {x} . . . Ck }) < ft
Alors
ft f ({C1 , . . . , Ci \{x}, . . . Cj {x} . . . Ck })
xt x
it i
jt j
Fin Alors
Fin Si
Fin Pour Tout
Fin Pour Tout
Fin Pour Tout
Si ft < f ({C1 , . . . Ck })
Alors
Cit Cit \{xt }
Cjt Cjt {xt }
Fin Alors
Sinon
STOP VRAI
Fin Sinon
Fin Si
Fin Tant Que
Convergence de lalgorithme
La convergence de lalgorithme est assuree par le fait que la suite des
mesures de stabilite a chaque iteration est decroissante et positive, donc
convergente.
82 CHAPITRE 4. CLASSIFICATION
4.3.1 Pseudo-code
Soit f une mesure de ressemblance sur X.
Initialisation
k=n
C1 , C2 , . . . , Cn est une partition de X en n classes
Pour Tous x, y X
u(x, y) f ({x}, {y})
Fin Pour Tout
Tant Que k > 1
Soient x0 et y0 tels que pour tous z et t : u(x0 , y0 ) u(z, t)
Soient i0 et j0 tels que x0 Ci0 et y0 Cj0
Pour Tous x Ci0 Cj0 , y Ck tel que k 6= i0 et k 6= j0
u(x, y) f (Ci0 Cj0 , Ck )
Fin Pour Tous
Ci0 = Ci0 Cj0
De j = j0 + 1 a j = k
Cj1 Cj
Fin De
k k1
4.3. LALGORITHME DE CLASSIFICATION ASCENDANTE HIERARCHIQUE (C.A.H.) 83
4.3.3 Exemples
On utilisera dans cette partie la matrice d ci-apres.
x 0
y 1 0
d: z 1 2 0
t 3 5 3 0
u 5 5 5 4 0
x y z t u
Que lon utilise le lien simple, le lien moyen ou le lien complet, un choix
soffre a nous des la premiere iteration. On peut, soit choisir la paire xy, soit
la paire xz. Dans le premier cas, on obtient les 3 hierarchies indicees de la
figure 4.10, dans lautre, les trois hierarchies indicees de la figure 4.11.
On peut tirer deux remarques essentielles de ces exemples :
la hierarchie solution depend de la mesure de ressemblance choisie (la
classe {x, y} nexistant pas pour le lien simple et la classe {t, u} nexis-
tant que pour le lien moyen),
lordre dagregation des paires de classes modifie la hierarchie resultante.
84 CHAPITRE 4. CLASSIFICATION
5 5 5
4 4 4
3 3 3
2 2 2
1 1 1
x y z t u x y z t u x y z t u
lien simple lien complet lien moyen
5 5 5
4 4 4
3 3 3
2 2 2
1 1 1
x y z t u x z y t u x z y t u
lien simple lien complet lien moyen
Lanalyse discriminante
Lanalyse discriminante porte sur les classements que lon peut effectuer
au sein dune population. On a coutume de distinguer :
la discrimination a but descriptif : une population en q classes de X
etant donnee (on les note X1 , . . ., Xq ) et X etant par ailleurs decrit
par des variables quantitatives x1 , . . ., xp . On cherche de nouvelles
variables, combinaisons lineaires des xj , independantes et separant au
mieux ces classes.
La discrimination a but decisionnel : on dispose toujours dune partition
de X et de p variables xj . X est considere comme un echantillon dun
ensemble X (X X ) sur lequel sont definis les xj . Le probleme est de
determiner, a partir des valeurs xj , a quelle classe if faudrait affecter
i X X.
On supposera dans la suite de ce chapitre que les donnees, et donc la
matrice X, sont centrees.
87
88 CHAPITRE 5. LANALYSE DISCRIMINANTE
les individus dune meme classe se projettent sur des valeurs voisines,
deux individus de classes differentes se projettent sur des valeurs differentes.
Ceci signifie que sur chaque axe, la variance des projections des individus
dune meme classe doit etre la plus faible possible et la variance dindividus
de classes differentes la plus grande possible.
Ainsi :
2(t uV u)Bu 2(t uBu)V u = 0
t uBu
Bu = t uV u
Vu
t uBu
1
V Bu = t uV u u
t uBu
etant un scalaire, on en deduit que u est un vecteur propre de la
t uV u
t uBu
matrice V 1 B associe a la plus grande valeur propre puisque t uV u
est maxi-
mum.
u = V 1 (g2 g1 ) = W 1 (g2 g1 )
Dcision d1 Dcision d2
Classe 1
Classe 2
g1
g2
V = t GDq G = B
92 CHAPITRE 5. LANALYSE DISCRIMINANTE
Ainsi, puisque les facteurs principaux sont les vecteurs propres de la ma-
trice M V (ou M est la metrique utilisee, cf. 3.6), en utilisant la metrique
M = V 1 (on utilise la distance de Mahalanobis) on retrouve les vecteurs et
valeurs propres de lanalyse discriminante.
Chapitre 6
93
94CHAPITRE 6. LANALYSE FACTORIELLE DES CORRESPONDANCES
P
cadres agriculteurs ouvriers/ employes autre
ouvriers\ employes 11 14 107 75 207
matrise 1 10 60 30 102
cadre 23 2 166 40 81
P
35 26 183 146 390
n1 n1
... ...
0 0
DL = ni DK = nj
... ...
0 0
nL nK
De meme, si lon sinteresse aux frequences, on pourra noter :
n
fij = nij ,
fi = nni ,
n
fj = nj ,
Le 2 du tableau (cf. partie 2.2.3) secrit alors :
X (nij ni nj )2 X (fij fi fj )2
2 n
= ni nj = n
ij n ij
fi fj
6.3 La distance
Selon lespace considere, RL ou RK , on pourrait prendre la distance eu-
clidienne :
entre deux lignes i et i0 :
X nij ni0 j 2 X fij fi0 j 2
L2 (i, i0 ) = ( ) = ( )
j
ni ni0 j
fi fi0
6.4.1 Matrices V
La matrice V = t XDX de lACP etait egale a la matrice de variance-
covariance car les donnees etaient centrees. Ici, les donnees etant non centree,
les matrices correspondantes ne correspondent plus a la variance. La matrice
D est la matrice des poids. Pour lanalyse en ligne, cette matrice correspond
alors a n1 DL , et a n1 DK pour lanalyse ne colonne. On a donc :
98CHAPITRE 6. LANALYSE FACTORIELLE DES CORRESPONDANCES
Analyse en ligne
Ici la matrice M V = ML VL . On a alors :
1 t
ML VL = (nDK )( XL ( n1 DL )XL )
= nDK (DL1 N ) n1 DL DL1 N
1 t
1 t t 1 1
= nDK N DL n DL DL1 N
1 t
= DK N DL1 N
Analyse en colonne
Ici la matrice M V = MK VK . On a alors :
ML VL = (nDL1 )(t XK ( n1 DK )XK )
= nDL1 t (DK1 t 1 t
N ) n1 DK DK N
1 tt t 1 1 1 t
= nDL N DK n DK DK N
= DL1 N DK 1 t
N
Remarque 16 Si lon avait centre les donnees, les centres de gravites (des
donnees non centrees) auraient ete vecteurs propres de la valeur propre 0.
Ceci participe du fait quon les ignore dans notre analyse non centree.
trace(ML VL ) = trace(MK VK )
= 1 + 1 + . . . + min{K,L}1
P P n2ij
= i j ni nj
2
= 1+ n
ci = XL ui = DL1 N ui
(ML VL )dj = j dj
Les normes des composantes principales ci et di etant egales a i (cf.
partie 3.8, les normes sont associes aux matrices des poids), on a les egalites
suivantes
:
i v i = c i
i ui = di
6.6 Interpretations
Pour une AFC, on a vue que ce qui tenait lieu dinformation etait le
2
.
Les parts de 2 fournissent une estimation globale de la qualite des
representations factorielles. Localement, on dispose de deux indices : les
contributions absolues et relatives.
De meme : nj
||di ||2 = ((di )j )2
P
P1jK n
nj
= 1jK n
(i (ui )j )2
On a alors pour tout axe h (1 h min{K, L}) :
XK = DK t N : 3 points dans R5
1 1
1 0 3 3
0
0 1 1
0 1
3 3 3
1 1 1
0 0 3 3 3
Le nuage XL est represente sur la figure 6.1. Il est situe dans le plan
dequation x + y + z = 1.
(Spirou)
Axe 1
Axe 2
Fille
Ain
Cadet
(Elle)
Mre
Pre
(l'quipe)
Pre Mre
l'quipe Elle
Ain
AXE 1 (75%)
Cadet Fille
Spirou