Beruflich Dokumente
Kultur Dokumente
II Formulation matricielle
III Geometrie des nuages de points
IV Approche matricielle du probleme
Variables quantitatives : V Les elements de lACP
analyse en composantes VI Aspects pratiques
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 3 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 4
Variance et ecart-type Mesure de liaison entre deux variables
Definition la variance de x est definie par Definitions la covariance observee entre deux variables x et y est
n n
1X X n
X n
X
x2 = (xi x)2 ou x2 = pi(xi x)2
n i=1 xy = pi(xi x)(yi y) = pixiyi xy.
i=1
i=1 i=1
i=1
Ces deux grandeurs sont symetriques : xy = yx et rxy = ryx.
La variance est la moyenne des carres moins le carre de la moyenne . Lecart-type,
qui a la meme unite que x, est une mesure de dispersion.
Attention ! les calculatrices utilisent lestimateur sans biais de la variance dans lequel
le 1/n est remplace par 1/(n1).
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 5 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 6
0.8
x1 0.13
0.99 0.099
0.4
Borne On a toujours (inegalite de Cauchy-Schwarz)
0.0
0.8
0.89
x2 0.15
0.4
0.0
1 rxy 1.
0.0
0.8
x4
0.4
0.0
0.0 0.2 0.4 0.6 0.8 1.0 1.5 1.0 0.5 0.0
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 7 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 8
Que signifie une correlation lineaire ?
Quest ce qui est significatif ? si on a assez de donnees, on peut considerer quune I Les donnees quantitatives
correlation superieure a 0, 5 est forte, et une correlation entre 0, 3 et 0, 5 est moyenne.
Une correlation egale a un indique que les deux variables sont equivalentes. II Formulation matricielle
Quest-ce que cela veut dire ? une correlation significative indique une liaison III Geometrie des nuages de points
entre deux variables, mais pas necessairement un lien de causalite. Exemple :
IV Approche matricielle du probleme
Le nombre de pompiers presents pour combattre un incendie est correle aux
degats de lincendie. Mais ce ne sont pas les pompiers qui causent les degats. V Les elements de lACP
Et une decorrelation ? voici un exemple ou r = 0 VI Aspects pratiques
VII Qualite de lanalyse
5
4 2 0 2 4
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 11 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 12
Tableau de donnees La matrice des poids
xj est une variable. Un individu est represente par Cas uniforme tous les individus ont le meme poids pi = 1/n et D = n1 In.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 13 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 14
Y = X 1ng0 = (I 1n10nD)X
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 15 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 16
Matrice de correlation
I Les donnees quantitatives
II Formulation matricielle
Definition Si lon note rk` = k`/k `, cest la matrice p p
III Geometrie des nuages de points
1 r12 r1p
r21 1 IV Approche matricielle du probleme
R=
.. ...
,
V Les elements de lACP
rp1 1
VI Aspects pratiques
Formule matricielle R = D1/ VD1/ , ou VII Qualite de lanalyse
VIII Interpretation externe
1
1 0
... IX LACP en trois transparents
D1/ =
1
0 p
x1
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 19 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 20
Exemple en dimension 2 (suite) Distance entre individus
On cherche la direction qui differencie le plus les points entre eux.
Motivation afin de pouvoir considerer la structure du nuage des individus, il faut
x2 definir une distance, qui induira une geometrie.
Distance euclidienne classique la distance la plus simple entre deux points de Rp
est definie par
p
X
d2(u, v) = (uj vj )2 = ku vk2
j=1
p
X
2
d (u, v) = mj (uj vj )2
j=1
Utiliser ce poids est equivalent a multiplier la coordonnee j par mj
x1
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 21 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 22
Espace metrique il est defini par le produit scalaire hu, v + wiM = hu, viM + hu, wiM,
hu, viM = hu, viM pour tout R.
p
X
hu, viM = u0Mv = mj uj vj .
Identite remarquable
j=1
On notera que kuk2M = hu, uiM. ku + vk2M = kuk2M + kvk2M + 2hu, viM
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 23 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 24
Le cas de la metrique D1/2 Utilisation des metriques
Travailler avec la metrique D1/2 est equivalent a diviser chaque variable par son ecart-
type et a utiliser la metrique I.
Donnees centrees reduites cest le tableau Z contenant les donnees
xji xj x1 x1
zij = ,
j
Exemple utiliser la metrique reduite est equivalent a travailler sur les donnees centrees
qui se calcule matriciellement comme Z = YD1/ . reduites Z = YD1/ .
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 25 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 26
Linertie totale est aussi donnee par la trace de la matrice VM (ou MV)
Ig = Tr(VM) = Tr(MV),
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 27 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 28
Lanalyse de composantes principales (version 2)
I Les donnees quantitatives
II Formulation matricielle
Principe on cherche a projeter le nuage de points sur un espace Fk de dimension
k < p. III Geometrie des nuages de points
Critere on veut que la moyenne des carres des distances entre les points projetes soit IV Approche matricielle du probleme
maximale (elle est toujours plus petite que pour le nuage original).
V Les elements de lACP
VI Aspects pratiques
VII Qualite de lanalyse
Pour cela on cherche Fk , sous espace de dimension k de Fp, tel que
linertie du nuage projete sur Fk soit maximale. VIII Interpretation externe
IX LACP en trois transparents
Rappels : valeurs propres et vecteurs propres Valeurs et vecteurs propres : un exemple concret
Definition un vecteur v 6= 0 de taille p est un vecteur propre dune matrice A de
taille p p sil existe C telle que
La matrice
5 1 1
Av = v. 2 4 2
1 1 3
est une valeur propre de A associee a v.
a pour vecteurs propres
Domaine En general, les vecteurs propres et valeurs propres sont complexes ; dans
tous les cas qui nous interessent, ils seront reels.
0 1 1
Interpretation des vecteurs propres ce sont les directions dans lesquelles la ma- v1 = 1 , v2 = 0 , v3 = 1 .
trice agit. 1 1 0
A(c) = Av = v = (v).
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 31 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 32
Valeurs et vecteurs propres : cas particuliers Quelques matrices diagonalisables
Matrice nulle sa seule valeur propre est 0, et tout vecteur est vecteur propre. Matrice symetrique une matrice symetrique reelle (A0 = A) possede une base de
vecteurs propres orthogonaux et ses valeurs propres sont reelles
Matrice identite tout vecteur est vecteur propre de I avec valeur propre 1, puisque
Iv = v.
hvi, vj i = 0 si i 6= j, et i R.
Matrice diagonale si D est une matrice diagonale avec les coefficients 1, . . . , p,
alors le i-eme vecteur coordonnee est vecteur propre de D associe a la valeur propre Matrice M-symetrique une matrice M-symetrique reelle (A0M = MA) possede
i . une base de vecteurs propres M-orthogonaux et ses valeurs propres sont reelles
Laction dune matrice diagonale est de multiplier chacune des coordonnees dun
vecteur par la valeur propre correspondante.
hvi, vj iM = 0 si i 6= j, et i R.
Matrice diagonalisable cest une matrice dont les vecteurs propres forment une
base de lespace vectoriel : tout vecteur peut etre represente de maniere unique comme Matrice definie positive cest une matrice symetrique dont les valeurs propres sont
combinaison lineaire des vecteurs propres. strictement positives
Une matrice A de taille p p qui a p valeurs propres reelles distinctes est diagona-
lisable dans R et hvi, vj i = 0 si i 6= j, et i > 0.
Tr(A) = 1 + 2 + + p.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 33 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 34
Ils sont M-orthonormaux. ou fk+1 est le sous espace de dimension 1 M-orthogonal a Fk portant linertie
maximale : les solutions sont embotees ;
Signe des valeurs propres les valeurs propres de VM sont positives et on peut les 2. Fk est engendre par les k vecteurs propres de VM associes aux k plus grandes
classer par ordre decroissant valeurs propres.
1 2 3 p 0. Interpretation du theoreme lACP sur k + 1 variables est obtenue par ajout dune
variable dinertie maximale a lACP sur k variables. Il nest pas necessaire de refaire tout
le calcul.
Idee du lien avec linertie on sait que Tr(VM) = 1 + + p. Si on ne garde
que les donnees relatives a a1, . . . , aq , on gardera linertie 1 + + q , et cest le
mieux quon puisse faire.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 35 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 36
Les composantes principales
I Les donnees quantitatives Pp
Coordonnees des individus supposons que ei g = `=1 ci` a` , alors
II Formulation matricielle
p
X
III Geometrie des nuages de points
hei g, ak iM = ci`ha`, ak iM = cik
IV Approche matricielle du probleme `=1
V Les elements de lACP La coordonnee de lindividu centre ei g sur laxe principal ak est donc donne par
la projection M-orthogonale
VI Aspects pratiques
VII Qualite de lanalyse cik = hei g, ak iM = (ei g)0Mak .
VIII Interpretation externe
Composantes principales ce sont les variables ck = (c1k , . . . , cnk ) de taille n
IX LACP en trois transparents
definies par
ck = YMak .
Chaque ck contient les coordonnees des projections M-orthogonales des individus
centres sur laxe defini par les ak .
Representation des individus dans un plan principal Proprietes des composantes principales
Quest-ce que cest ? pour deux composantes principales c1 et c2, on represente Moyenne arithmetique les composantes principales sont centrees :
chaque individu i par un point dabscisse ci1 et dordonnee ci2.
ck = c0k D1n = a0k MY0D1n = 0
Axe 2
e6 car Y0D1n = 0 (les colonnes de Y sont centrees).
e1 Variance la variance de ck est k car
e7
Quand ? Elle est utile quand les individus sont discernables. Les composantes principales ne sont pas correlees entre elles.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 39 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 40
Facteurs principaux Formules de reconstruction
Reconstruction Les ck et uk permettent de reconstruire le tableau centre Y
p
X p
X
Definition on associe a un axe principal ak le facteur principal uk = Mak de taille
Y= ck a0k = ck u0k M1.
p. Cest un vecteur propre de MV car
k=1 k=1
1 2 3 p 0
Dimension de lespace des individus LACP visant a reduire la dimension de Eboulis des valeurs propres on cherche un coude dans le graphe des valeurs
lespace des individus, on veut conserver aussi peu daxes que possible. Il faut pour cela propres
que les variables dorigine soient raisonnablement correlees entre elles.
Les seuls criteres utilisables sont empiriques.
3.5
3.0
Interpretation des axes on sefforce de ne retenir que des axes a propos desquels
une forme dinterpretation est possible (soit directement, soit en terme des variables
2.5
avec lesquels ils sont tres correles). On donnera des outils a cet effet plus loin dans le
2.0
cours.
1.5
Critere de Kaiser (variables centrees-reduites) on ne retient que les axes asso-
1.0
cies a des valeurs propres superieures a 1, cest-a-dire dont la variance est superieure a
0.5
Une autre interpretation est que la moyenne des valeurs propres etant 1, on ne garde
0.0
2 4 6 8 10
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 45 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 46
cov(x, y) = hx, yiD, V (x) = kxk2D, et donc le vecteur des correlations de ck avec Z est
hx, yiD
cor(x, y) = c
= cos(xy). Z0Dck
kxkDkykD r(Z, ck ) = (r(z1, ck ), . . . , r(zp, ck ))0 = .
k
Exemple les vecteurs ck / k forment une base D-orthonormale
Comme Z0Dck = Z0DZuk = Ruk = k uk , on a finalement
(
ck c` 1, si k = `, p p
, = cor(ck , c`) = r(Z, ck ) = k uk , et donc r(zj , ck ) = k ujk .
k ` D 0, sinon.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 47 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 48
Le cercle des correlations Le cercle des correlations (suite)
Quest-ce que cest ? cest une representation ou, pour deux composantes princi- Pourquoi un cercle ? comme les ck / k forment une base D-orthonormale,
pales, par exemple c1 et c2, on represente chaque variable zj par un point dabscisse
r(zj , c1) et dordonnee r(zj , c2). Xp Xp
j ck j ck ck
z = ,z = r(ck , zj )
k=1
k D k i=1
k
et donc p
X
kzj k2D = V (zj ) = 1 = r2(ck , zj ).
k=1
Les points sont bien a linterieur dun cercle de rayon 1.
Interpretation
les points sont la projection orthogonale dans D des variables dans le plan defini
par les composantes principales c1 et c2.
Il ne faut interpreter la proximite des points que sils sont proches de la circonfe-
Effet taille cela arrive quand toutes les variables sont le meme signe de correlation
rence.
avec la premiere composante principale (positif ou negatif). Cette composante est alors
appelee facteur de taille , la seconde facteur de forme .
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 49 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 50
Pn
Definition On sait que V (ck ) = k = i=1 pic2ik . La contribution de lindividu i Quest-ce que cest ? cest un individu qui joue un role trop fort dans la definition
a la composante k est donc dun axe, par exemple
pic2ik pic2ik
> 0, 25
k k
Interpretation la contribution dun individu est importante si elle excede dun facteur Effet il tire a lui laxe k et risque de perturber les representations des autres points
le poids pi de lindividu concerne, cest-a-dire sur les axes de rang k. Il est donc surtout problematique sur les premiers axes. Un
tel individu peut etre le signe de donnees erronees.
pic2ik
pi, Solution on peut le retirer de lanalyse et le mettre en individu supplementaire .
k
ou de maniere equivalente
p
|cik | k
Choix de selon les donnees, on se fixe en general une valeur de lordre de 2 a 4,
que lon garde pour tous les axes
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 51 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 52
Qualite globale de la representation
I Les donnees quantitatives
II Formulation matricielle
Calcul de linertie on se souvient que Ig = Tr(VM) ; comme la trace dune matrice
III Geometrie des nuages de points est la somme de ses valeurs propres, on a
IV Approche matricielle du probleme
Ig = 1 + 2 + + p.
V Les elements de lACP
VI Aspects pratiques Definition la qualite de la representation obtenue par k valeurs propres est la pro-
portion de linertie expliquee
VII Qualite de lanalyse
VIII Interpretation externe 1 + 2 + + k
1 + 2 + + p
IX LACP en trois transparents
Si par exemple 1 + 2 est egal 90% de Ig , on en deduit que le nuage de points
est aplati autour du premier plan principal.
Utilisation cette valeur sert seulement a evaluer la projection retenue, pas a choisir
le nombre daxes a garder.
But on cherche a determiner si le nuage de points est tres aplati par la projection sur Il est defini par son cosinus carre. Le cosinus de langle entre lindividu centre i et
les sous-espaces principaux. Dans ce cas, deux individus eloignes pourraient artificielle- laxe principal k est
ment sembler proches les uns des autres. hei g, ak iM
cos(e[i , ak ) = .
kei gkM
car les ak forment une base orthonormale. Comme hei g, ak iM = cik ,
c2ik
cos2(e[
i , ak ) = Pp 2
.
`=1 ci`
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 55 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 56
Angle entre un individu et un sous-espace principal
I Les donnees quantitatives
Cest langle entre lindividu et sa projection orthogonale sur le sous-espace. La II Formulation matricielle
Pq
projection de ei g sur le sous-espace Fq , q p, est k=1 cik ak , et donc III Geometrie des nuages de points
Pq IV Approche matricielle du probleme
2 \ c2ik
cos (ei, Fq ) = Pk=1
p 2
.
k=1 cik V Les elements de lACP
VI Aspects pratiques
La qualite de la representation de lindividu i sur le plan Fq est donc la somme des
qualites de representation sur les axes formant Fq . Elle est significative quand le point VII Qualite de lanalyse
ei nest pas trop pres de g.
VIII Interpretation externe
Criteres Un cos2 egal a 0, 9 correspond a un angle de 18 degres. Par contre, une
valeur de 0, 5 correspond a un angle de 45 degres ! On peut considerer par exemple les IX LACP en trois transparents
valeurs superieures a 0, 80 comme correctes.
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 59 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 60
Individus supplementaires
I Les donnees quantitatives
II Formulation matricielle
Methode on met de cote certains individus pour quils ne soient pas utilisees dans
lanalyse (ils ne sont pas pris en compte dans le calcul des covariances). On cherche III Geometrie des nuages de points
ensuite a savoir si ils sont lies a un axe donne.
IV Approche matricielle du probleme
Cas des individus sur-representes on peut decider dutiliser ces points en indi-
V Les elements de lACP
vidus supplementaires, en particulier quand les points constituent un echantillon et ne
presentent pas dinteret en eux-memes. VI Aspects pratiques
Representation on les ajoute a la representation sur les plans principaux. Pour cal- VII Qualite de lanalyse
culer leur coordonnee sur un axe fixe, on ecrit
VIII Interpretation externe
p
X
ck = hz, uk i = z j ujk , IX LACP en trois transparents
j=1
Un Deux
Donnees les donnees representent les valeurs de p variables mesurees sur n individus ;
les individus peuvent avoir un poids. En general (et dans ce resume), on travaille sur
des donnees centrees reduites Z (on retranche la moyenne et on divise par lecart type). Nombre daxes on se contente en general de garder les axes interpretables de valeur
propre superieure a 1 (critere de Kaiser).
Matrice de correlation cest la matrice R de variance-covariance des variables
centrees reduites. Elle possede p valeurs propres 1 p 0. Cercle des correlations il permet de visualiser comment les variables sont correlees
Inertie totale cest la moitie de la moyenne des distances au carre entre les individus ; (positivement ou negativement) avec les composantes principales. A partir de la, on
elle mesure letendue du nuage de points. Cest la grandeur quon cherche a garder peut soit trouver une signification physique a chaque composante, soit montrer que les
maximale et elle peut secrire composantes separent les variables en paquets.
Representation des individus pour un plan principal donne, la representation des
Ig = 1 + 2 + + p = p. projections des individus permet de confirmer linterpretation des variables. On peut
aussi visualiser les individus aberrants (erreur de donnee ou individu atypique).
Facteurs principaux uk ce sont des vecteurs propres orthonormes de R associes
aux k : Ruk = k uk . Leur j-ieme composante (sur p) ujk est le poids de la variable Contribution dun individu a une composante cest la part de la variance dune
j dans la composante k. composante principale qui provient dun individu donne. Si cette contribution est su-
perieur de 2 a 4 fois au a son poids, lindividu definit la composante. Si elle est tres
Composantes principales ck ce sont les vecteurs Zuk de dimension n. Leur i- superieure aux autres, on dit quil est sur-represente et on peut avoir interet a mettre
ieme coordonnee cik est la valeur de la composante k pour lindividu i. Les ck sont lindividu en donnee supplementaire.
decorrelees et leur variance est V (ck ) = k .
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 63 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 64
Trois