Beruflich Dokumente
Kultur Dokumente
Marie Chavent
Plan
1 Notions de base
1 ... j ... p
1
. .
. .
. .
i ... xij ...
. .
. .
. .
n
On notera :
X = (xij )n×p la matrice des données brutes où xij ∈ R est la valeur du i ème
individu sur la j ème variable.
xi1 x1j
.. .
x i = . ∈ Rp xj = .. ∈ Rn
xip xnj
la description du i ème individu la description de la j ème
(ligne de X) variable (colonne de X).
Chapitre 1 ACP 3/64
n= p= X= x3 = x2 =
Vincent
Brigitte
Alex
6.2
6.0
Marie
5.8 Manue
syst
chol
150
5.6
Fred
140
130
5.4
120
110
5.2
100
90
5.0
80
60 65 70 75 80 85 90
diast
En ACP, on va s’interesser
Vincent
Brigitte
Alex
0.4
Marie
0.2
Manue
0.0
Fred
syst
chol
−0.2
20
10
0
−0.4
−10
−20
−0.6
−30
−40
−0.8
−50
−15 −10 −5 0 5 10 15
diast
Vincent
Brigitte
Alex
1.5
1.0
Marie
0.5
Manue
0.0
chol
syst
Fred
−0.5
1.0
0.5
0.0
−1.0
−0.5
−1.0
−1.5
−1.5
−2.0
−2.0
−2.5
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
diast
8
6
6
4
4
chol
chol
chol
syst
syst
syst
2
2
150 150 150
100 100 100
0
0
50 50 50
0 0 0
−2
−2
−2
−50 −50 −50
−20 0 20 40 60 80 100 −20 0 20 40 60 80 100 −20 0 20 40 60 80 100
diast diast diast
p
X 1
dM (xi , xi 0 ) =
2
(xij − xi 0 j )2 = dI2p (zi , zi 0 )
sj2
j=1
print(stat[2,],digits=3) #écarts-types
Et si M = Ip :
- L’inertie I(Y) du nuage centré des individus est égale à la somme des
variances des p variables.
- L’inertie I(Z) du nuage centré-réduit des individus est égal à p.
sum(s^2) #inertie
## [1] 533
I(Z) = 1 + 1 + 1 = 3
En ACP, on va s’interesser
On en déduit que :
Covariance et produit-scalaire
La covariance empirique cjj 0 mesure la liaison entre deux variables j et j 0 :
n
1X 0
cjj 0 = (xij − x̄ j )(xij 0 − x̄ j )
n
i=1
On en déduit que :
C = Yt NY
On en déduit que :
- La corrélation est le cosinus de l’angle entre les variables centrées :
0
< yj , yj >N j0
rjj 0 = j 0 = cos θN (y j
, y ).
ky kN kyj kN
R = Zt NZ
1 Notions de base
Brigitte
Vincent
Brigitte Vincent
1
Alex
1.5
Dim 2 (35.07%)
1.0
Manue
0.0
chol
Fred
−1
syst
−0.5
1.0
0.5
0.0
−1.0
−0.5
−1.0
−1.5
−2
−1.5 Fred
−2.0
−2.0
−2.5
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−3 −2 −1 0 1
diast
Dim 1 (52.69%)
Objectif : trouver le plan de projection tel que les distances entre les individus
soient les mieux conservées possible.
0.641 0.4433
v1 = 0.72 , v2 = −0.0652 .
−0.265 0.894
Vincent
1.0
Vincent
Brigitte
Alex
0.5
1.5
Marie Alex
1.0
0.0
Marie Manue
0.5
Manue
f2
−0.5
0.0
chol
Fred
syst
−0.5
1.0
−1.0
0.5
0.0
−1.0
−0.5
−1.5
−1.0
−1.5
−1.5
−2.0
Fred
−2.0
−2.5
−2.0
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−2 −1 0 1
diast
f1
max vt Rv,
kvk=1
λ1 = var (f 1 ).
F = ZV
1
## Alex 0.13 -0.035
## Manue 0.85 -0.257
## Fred 0.68 -1.903
Alex
Dim 2 (35.07%)
0
Marie
Manue
−1
−2
Fred
−3 −2 −1 0 1
Dim 1 (52.69%)
var (f α ) = λα
1 Notions de base
Objectif : trouver le plan de projection tel que les angles entre les variables (et
donc les corrélations) soient les moins déformés possible.
apα
0.81 0.45
a = Z u1 =
1 t 0.91 , a = Z u2 =
2 t −0.07 .
−0.33 0.92
1.0
chol
diast
0.5
syst
0.0
a2
−0.5
−1.0
a1
A = Zt NU
plot(res,choix="var", cex=1.8,
title="Projection des 3 variables sur le plan 1-2")
1.0
0.5 chol
diast
Dim 2 (35.07%)
0.0
syst
−0.5
−1.0
Dim 1 (52.69%)
Plan
1 Notions de base
I(F) = λ1 + . . . + λq ≤ I(Z).
λα
.
λ1 + . . . + λr
λ1 + . . . + λq
.
λ1 + . . . + λr
res$eig
0.0
On peut choisir de retenir q = 2 composantes
principales pour résumer les données décrites sur
comp 1
comp 2
comp 3
p = 3 variables.
Si deux individus sont bien projetés, alors leur distance en projection est proche
de leur distance dans Rp .
Retrouver que le cos2 entre "Marie" et le premier axe vaut 0.98. Calculer ensuite le
cos2 entre "Marie" le premier plan factoriel.
Brigitte
Vincent
1
Dim 2 (35.07%)
0
Marie
−1
−2
Fred
−3 −2 −1 0 1
Dim 1 (52.69%)
## comp 1 comp 2
## 1.6 1.1
Brigitte
1
Dim 2 (35.07%)
Marie
−1
−2
Fred
−3 −2 −1 0 1
Dim 1 (52.69%)
Si deux variables sont bien projetées, alors leur angle en projection est proche
de leur angle dans Rn .
Sachant que la corrélation entre deux variables est le cosinus de l’angle entre
les variables centrées-réduites :
1.0
chol
0.5
diast
Dim 2 (35.07%)
0.0
syst
−0.5
−1.0
Dim 1 (52.69%)
50
40 60
30
40
20
20
10
0 0
syst
diast
chol
chol
diast
syst
Chapitre 1 ACP 59/64
chol
Brigitte
Vincent
1
0.5
diast
Dim 2 (35.07%)
Dim 2 (35.07%)
Alex
0
Marie Manue
0.0
syst
−1
−0.5
−2
Fred
−1.0
Interpreter la position des patients (gauche, doite, haut, bas) en fonction des
variables.
Chapitre 1 ACP 60/64
Plan
1 Notions de base
Z = UΛVt (1)
où
√ √
- Λ = diag( λ1 , . . . , λr ) est la matrice diagonale des valeurs singulières de
ZMZt N et Zt NZM, avec r le rang Z,
- U est la matrice n n × r des vecteurs propres de ZMZt N avec Ut NU = Ir
- V est la matrice p × r des r vecteurs propres de Zt NZM avec Vt MV = Ir .
Les solutions v1 , . . . , vr sont les vecteurs propres de Zt NZM soit les vecteurs
singuliers de droite dans (1).
Les coordonnées des projections des n lignes de Z sur ces r axes sont les
coordonnées factorielles des individus. On note F la matrice n × r des
coordonnées factorielle des individus. Par définition :
F = ZMV, (3)
Loadings. Les p colonnes de Z sont projetées selon la métrique N sur les axes
de vecteurs directeurs u1 , . . . , ur obtenus en résolvant la séquence (indexée par
i) des problèmes d’optimisation :
Les solutions u1 , . . . , ur sont les vecteurs propres de ZMZt N soit les vecteurs
singuliers de gauche dans (1).
Les coordonnées des projections des p columns de Z sur ces r axes sont les
coordonnées factorielles des variables encore appelées loadings des variables. On
note A la matrice p × r des coordonnées factorielles des variables. Par
définition :
A = Zt NU, (6)
et on déduit de (1) que :
A = VΛ. (7)
Soit ai = Zt Nui la ième colonne de A. La colonne ai ∈ Rp est appellée le ième
vecteur de loadings and la solution de (5) donne kai k2M = λi .