Polyalgmatc PDF

ements de Calcul Matriciel El et dAnalyse Factorielle de Donn ees
Jean-Fran cois Durand

jfd@helios.ensam.inra.fr
Universit e Montpellier II
Licence MASS Ma trise MASS Ma trise dIng enierie Math ematique DEA de Biostatistique
Novembre 2002
Calcul Matriciel et Analyse Factorielle des Donn ees
J.F. Durand
Table des mati` eres

1 Matrices, D enitions et Propri et es 1.1 1.2 1.3 Notations et premi` eres d enitions . . . . . . . . . . . . . . . . . . . . . . . 9 9
Matrice associ ee ` a une application lin eaire . . . . . . . . . . . . . . . . . . 11 Quelques matrices particuli` eres . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.1 1.3.2 Matrice adjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Matrices hermitiennes . . . . . . . . . . . . . . . . . . . . . . . . . 12 Image dune matrice . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Noyau dune matrice . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Rang dune matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4
Image, noyau, rang dune matrice . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.1 1.4.2 1.4.3
1.5 1.6 1.7
D eterminant dune matrice carr ee . . . . . . . . . . . . . . . . . . . . . . . 14 Inverse dune matrice carr ee . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Changements de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.7.1 1.7.2 Eet sur les coordonn ees dun vecteur . . . . . . . . . . . . . . . . . 16 Eet sur les el ements dune matrice . . . . . . . . . . . . . . . . . . 17
1.8 1.9
Valeurs propres, vecteurs propres . . . . . . . . . . . . . . . . . . . . . . . 18 Trace dune matrice carr ee . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.10 Formes lin eaires, formes quadratiques . . . . . . . . . . . . . . . . . . . . . 20 1.11 Matrices orthogonales et unitaires . . . . . . . . . . . . . . . . . . . . . . . 22 1.11.1 Les matrices de permutation . . . . . . . . . . . . . . . . . . . . . . 22 1.11.2 Les matrices de rotation . . . . . . . . . . . . . . . . . . . . . . . . 23 1.11.3 Construction dune base orthonorm ee par le proc ed e de Gram-Schmidt 24 1.12 Op erateur vec et produit de Kronecker . . . . . . . . . . . . . . . . . . . . 24 1.12.1 Lop erateur vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.12.2 Produit de Kronecker . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.12.3 Matrice de commutation . . . . . . . . . . . . . . . . . . . . . . . . 27 3
1.13 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2 D ecomposition de Matrices 2.1 2.1.1 2.1.2 2.1.3 2.2 2.3 2.4 33
Les projecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Sous espaces suppl ementaires et projecteurs . . . . . . . . . . . . . 34 Exemple fondamental . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Dautres matrices orthogonales : les matrices de r eexion . . . . . . 36 . . . . . . . . . . . . . . . . 38
Matrices carr ees diagonalisables . . . . . . . . . . . . . . . . . . . . . . . . 37 Factorisation QR dune matrice rectangulaire 2.4.1 2.4.2 D ecomposition unitaire des matrices carr ees . . . . . . . . . . . . . . . . . 39 Le th eor` eme de Schur . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Matrices normales . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.5
D ecomposition en valeurs singuli` eres . . . . . . . . . . . . . . . . . . . . . 42 2.5.1 2.5.2 Deux versions de la DVS . . . . . . . . . . . . . . . . . . . . . . . . 43 D ecomposition polaire . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.6 2.7
Factorisation de Cholesky dune matrice sym etrique d enie positive . . . . 47 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 51
3 Normes de Matrices 3.1 3.1.1 3.1.2 3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.3 3.4 3.5
Normes de vecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Normes de H older . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 G en eralisation de la norme Euclidienne, la M -norme . . . . . . . . 54 Normes subordonn ees ` a des normes vectorielles . . . . . . . . . . . 56 Normes Euclidiennes par vectorisation . . . . . . . . . . . . . . . . 58 Normes matricielles sous multiplicatives . . . . . . . . . . . . . . . 60 Normes unitairement invariantes . . . . . . . . . . . . . . . . . . . . 61
Normes de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Suites de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Conditionnement dune matrice . . . . . . . . . . . . . . . . . . . . . . . . 63 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 67
4 Inverses G en eralis es, Projecteurs M -Orthogonaux 4.1 4.1.1 4.1.2 4.2
Inverses G en eralis es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 D enition et propri et es . . . . . . . . . . . . . . . . . . . . . . . . . 67 Inverse de Moore-Penrose . . . . . . . . . . . . . . . . . . . . . . . 70
Projecteurs M -orthogonaux . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4
J.F. Durand
4.2.1 4.2.2 4.3
Projecteur M -orthogonal sur Im A . . . . . . . . . . . . . . . . . . 72 Un probl` eme aux moindres carr es . . . . . . . . . . . . . . . . . . . 74
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 77
5 D erivation Matricielle 5.1 5.2
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 D erivation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2.1 5.2.2 Matrices Jacobiennes . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Hessien de fonctions num eriques . . . . . . . . . . . . . . . . . . . . 81 Probl` emes dextremums libres . . . . . . . . . . . . . . . . . . . . . 84 Probl` emes dextremums li es . . . . . . . . . . . . . . . . . . . . . . 84
5.3
Extremums de fonctions num eriques . . . . . . . . . . . . . . . . . . . . . . 82 5.3.1 5.3.2
5.4
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6 Le paysage math ematique et statistique de lAnalyse Factorielle de Donn ees : la g eom etrie Euclidienne 6.1 6.2 89 Le triplet (T, M, D ) des donn ees . . . . . . . . . . . . . . . . . . . . . . . . 90 Statistique et g eom etrie sur (I Rn , D ), espace des variables . . . . . . . . . . 91 6.2.1 6.2.2 6.2.3 6.2.4 6.2.5 6.3 Le simplexe des poids statistiques et la droite des constantes . . . . 91 Moyenne et centrage vus comme une projection . . . . . . . . . . . 92 Variance et ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . 93 Proximit e entre deux variables, covariance et corr elation lin eaire . . 94 D enitions et notations pour la statistique multivari ee . . . . . . . 96
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7 G en eralisation de la D ecomposition en Valeurs Singuli` eres. Analyse en Composantes Principales du triplet (X, M, D ) 7.1 7.1.1 7.1.2 7.1.3 7.1.4 7.1.5 7.2 7.2.1 7.2.2 101 D ecomposition en Valeurs Singuli` eres du triplet . . . . . . . . . . . . . . . 102 Lemme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 La DVS du triplet (X, M, D ) . . . . . . . . . . . . . . . . . . . . . 103 Relation avec la DVS usuelle . . . . . . . . . . . . . . . . . . . . . . 104 Projecteurs orthogonaux associ es ` a la DVS . . . . . . . . . . . . . . 105 Th eor` eme dapproximation dEckart-Young . . . . . . . . . . . . . . 105 D enitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Principe fondamental de lAnalyse Factorielle . . . . . . . . . . . . 108 5
J.F. Durand
Analyse en Composantes Principales dordre k du triplet (X, M, D ) . . . . 106
7.2.3 7.3 7.3.1 7.3.2 7.3.3 7.3.4 7.4 7.5
LACP usuelle dordre k . . . . . . . . . . . . . . . . . . . . . . . . 110 D enitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Projections des points lignes . . . . . . . . . . . . . . . . . . . . . . 114 Projections des vecteurs colonnes . . . . . . . . . . . . . . . . . . . 118 ements suppl El ementaires . . . . . . . . . . . . . . . . . . . . . . . 121
Repr esentations factorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Formulaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 7.5.1 7.5.2 ACP usuelle dordre k du triplet (X, M = Ip , D = n1 In ) . . . . . . 132 DVS du triplet (X, M, D ) . . . . . . . . . . . . . . . . . . . . . . . 132 denqu etes, Analyse Factorielle des Correspondances 135
8 Traitement 8.1
Simples et Multiples 8.1.1 8.1.2 8.2 8.2.1 8.2.2 8.2.3 8.3 8.3.1 8.3.2 8.3.3 8.3.4 8.4
Variables dune enqu ete, codage . . . . . . . . . . . . . . . . . . . . . . . . 135 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . 135 Indicatrice des modalit es . . . . . . . . . . . . . . . . . . . . . . . . 136 D enitions et notations . . . . . . . . . . . . . . . . . . . . . . . . . 138 Ind ependance de deux variables qualitatives L et C . . . . . . . . . 140 Prols lignes et colonnes, distributions conditionnelles . . . . . . . . 141 D enition et propri et es . . . . . . . . . . . . . . . . . . . . . . . . . 143 ements propres des op El erateurs en dualit e . . . . . . . . . . . . . . 145 Pratique de lAFC . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 Cas dune variable ordinale, rapport de corr elation et optimal scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 Analyse Factorielle des Correspondances Multiples . . . . . . . . . . . . . . 152 8.4.1 8.4.2 D enitions et propri et es . . . . . . . . . . . . . . . . . . . . . . . . 152 Pratique de lAFCM . . . . . . . . . . . . . . . . . . . . . . . . . . 155 Analyse Factorielle des Correspondances . . . . . . . . . . . . . . . 156 Analyse Factorielle des Correspondances Multiples . . . . . . . . . . 161 165
Table de contingence, liaison entre deux variables qualitatives . . . . . . . 137
Analyse Factorielle des Correspondances . . . . . . . . . . . . . . . . . . . 143
8.5
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 8.5.1 8.5.2
9 La r egression Partial Least-Squares lin eaire 9.1
Motivations pour les r egressions factorielles . . . . . . . . . . . . . . . . . . 166 6
J.F. Durand
9.2 9.3 9.4
La r egression sur composantes principales . . . . . . . . . . . . . . . . . . . 167 Le contexte et le mod` ele PLS . . . . . . . . . . . . . . . . . . . . . . . . . 168 Lalgorithme PLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 9.4.1 9.4.2 9.4.3 Le centrage des variables . . . . . . . . . . . . . . . . . . . . . . . . 170 Construction de la composante ti . . . . . . . . . . . . . . . . . . . 171 Les r egressions partielles . . . . . . . . . . . . . . . . . . . . . . . . 173
9.5 9.6 9.7 9.8
Premi` ere ecriture des mod` eles PLS en les composantes . . . . . . . . . . . 175 Orthogonalit e des composantes principales et des poids . . . . . . . . . . . 176 Ecriture d enitive des mod` eles PLS en les composantes . . . . . . . . . . . 178 Les composantes PLS, compromis lin eaires des variables explicatives initiales180 9.8.1 9.8.2 9.8.3 Expression du vecteur des poids . . . . . . . . . . . . . . . . . . . . 181 Orthogonalit e des vecteurs des poids au sens de V . . . . . . . . . . 182 Propri et es des vecteurs des poids . . . . . . . . . . . . . . . . . . . 183 Le mod` ele sur variables centr ees, eventuellement r eduites . . . . . . 185 Le mod` ele en les variables initiales . . . . . . . . . . . . . . . . . . 185
9.9
Le mod` ele de r egression PLS en les variables explicatives . . . . . . . . . . 184 9.9.1 9.9.2
9.10 R egression PLS et Analyse en Composantes Principales usuelle . . . . . . . 186 9.11 Repr esentations factorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 9.11.1 Repr esentation des pr edicteurs et des r eponses . . . . . . . . . . . . 188 9.11.2 Repr esentation des individus . . . . . . . . . . . . . . . . . . . . . . 190 9.12 M etriques pour les individus et optiques photographiques associ ees . . . . . 193 9.12.1 M etriques g en erales pour les individus . . . . . . . . . . . . . . . . 193 9.12.2 R egression PLS discriminante . . . . . . . . . . . . . . . . . . . . . 194 9.13 Choix du nombre de composantes . . . . . . . . . . . . . . . . . . . . . . . 195 9.13.1 Crit` eres bas es sur lajustement . . . . . . . . . . . . . . . . . . . . . 195 9.13.2 Crit` eres bas es sur la pr ediction . . . . . . . . . . . . . . . . . . . . 197 9.14 Pratique de la r egression PLS . . . . . . . . . . . . . . . . . . . . . . . . . 199 9.14.1 PLS univari e, les donn ees de Cornell . . . . . . . . . . . . . . . . . 199 9.14.2 Calibration PLS en spectroscopie proche infrarouge . . . . . . . . 207 9.15 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
J.F. Durand
J.F. Durand
Chapitre 1 Matrices, D enitions et Propri et es

Ce chapitre nest pas un cours de calcul matriciel mais a pour objectif dune part de rappeler de fa con succincte les principales d enitions et propri et es etudi ees au cours du premier cycle et dautre part, den introduire de nouvelles utilis ees en statistique et en calcul di erentiel matriciel. On supposera que les notions de I K -espace vectoriel (I K est I R ou C I ) et dapplications lin eaires sont connues. De fa con commode, pour eviter dalourdir les notations, lorsquune base de lespace vectoriel I K n est sp eci ee, on notera de fa con identique le vecteur et la matrice colonne donnant les coordonn ees de ce vecteur dans la base. La base choisie par d efaut est la base canonique.
1.1
Notations et premi` eres d enitions

a11 . . . a1n . . . . . A = [aij ] = . . am1 . . . amn
Une matrice m n, A, est un tableau d el ements de I K , tel que
L el ement courant aij , i` eme ligne, j i` eme colonne, sera parfois not e aj i . La somme de deux matrices de m eme dimensions est d enie par A + B = [aij ] + [bij ] = [aij + bij ]. Le produit dune matrice par un scalaire I K , est d eni par A = A = [aij ] . 9
Ces deux op erations conf` erent ` a lensemble Mmn (I K ) des matrices de m lignes et n colonnes sur I K , une structure despace vectoriel de dimension mn qui sera aussi not eI K mn . On note {Eij (m, n)}i,j la base canonique de I K mn , d enie par 0 . . . . . 0 . . . . . . Eij (m, n) = Eij = 0 0 1 0 0 . . . . . . 0 . . . . . 0 matrice dont le seul el ement non nul est l el ement ij qui vaut 1.
m n
A=
i=1 j =1
ai j Eij (m, n).
Outre les op erations li ees ` a la structure despace vectoriel, il existe une autre op eration appel ee produit matriciel. Soient A = [aij ], m n, et B = [bij ], n p, alors le produit AB est la matrice m p d enie par
n
C = AB = cij =
k =1
aik bkj .
Soit A = [aij ], une matrice m n. La matrice identit e dordre m, Im =
Eii (m, m). Alors, A = Im A = AIn .

i=1
La matrice A , transpos ee de A, est la matrice n m, A = [aij = aji ]. La base canonique pour Mm1 (I K) = I K m1 identi e` aI K m , est not ee ou {ei }i lorsquil ny aura pas dambigu t e sur la dimension. On a les propri et es : Eij (m, n) = ei (m)ej (n). Assimilant I R et I R11 , le symbole de Kronecker, ij = ei (n)ej (n) = Eij er = colonne r de Eij = jr ei er Eij = ligne r de Eij = ir ej . Soient Ai la ligne i et Aj la colonne j de A. aij = ei (m)Aej (n).
m n
{ei (m) = Ei1 (m, 1)}i=1,...,m ,
1 si i = j 0 si i = j
Aj = Aej (n) =
i=1 n
aij ei (m) aij ej (n)

j =1
et
A=
j =1 m
Aj ej (n) . ei (m)Ai .
i=1
Ai =
J.F. Durand
ei (m)A
et
A=
10
1.2
Matrice associ ee ` a une application lin eaire
Rappelons la d enition dune application lin eaire g du I K -espace vectoriel E dans le I K -espace vectoriel F g (x + y ) = g (x) + g (y ), (, ) I K 2 , (x, y ) E 2 .
Soient E et F deux I K -espaces vectoriels de dimensions nies (E = I K n et F = I K m ), {e1 , . . . , en } une base de E et {f1 , . . . , fm } une base de F . Soit enn g une application lin eaire de E dans F (on dira g L(E, F )), telle que x y = g (x). sions m n d enie par colonnes On appelle matrice de g relativement aux deux bases, la matrice A = [aij ] de dimeng (e1 ) . . . g (en ) ... An ]
A = [ A1
La j i` eme colonne Aj contient les coordonn ees de g (ej ) exprim ees dans la base {f1 , . . . , fm }. Plus pr ecis ement, g (ej ) =
m i=1
aij fi .
en fonction de la matrice colonne X = [xj ] des coordonn ees de x dans la base {ej }, gr ace au produit matriciel Y = AX o` u yi =
m j =1 aij xj .
Alors, la matrice colonne Y = [yi] des coordonn ees de y dans la base {fi }, sexprime
En outre, soit A une matrice de Mmn (I K ). Alors A est la matrice dune unique espaces. On dit que gA est lapplication lin eaire canoniquement associ ee ` a A.
application lin eaire gA de I K n dans I K m relativement aux bases canoniques de ces
1.3
1.3.1
Quelques matrices particuli` eres

Matrice adjointe
Dans ce cours, les nombres et matrices complexes sont seulement li es aux valeurs propres et vecteurs propres de matrices carr ees r eelles non-sym etriques. Aussi, un traitement d etaill e des el ements de C I mn est omis. Soit A = [aij ] C I mn , A = [a el ement de C I nm tel que a ij ], adjointe de A, est l ij = aji . a11 . . . a1n . . = X + iY . . A= . . am1 . . . amn a11 . . . am1 . . = X iY . . A = . . a1n . . . amn
11
J.F. Durand
Remarquons que A = A si et seulement si A est r eelle. On a les propri et es suivantes P1 : (A ) = A, P2 : (A + B ) = A + B , P3 : (A) = A , P4 : (AB ) = B A .
1.3.2
Matrices hermitiennes
On dit que A est hermitienne (respectivement sym etrique) si A = A (respectivement A = A). Bien s ur, des matrices hermitiennes (resp. sym etriques) sont carr ees. Remarquons que le produit de deux matrices hermitiennes nest pas en g en eral une matrice hermitienne. La propri et e suivante sera d emontr ee au chapitre suivant P0 : Une matrice hermitienne A a toutes ses valeurs propres r eelles et il existe une base orthonorm ee de C I n form ee par les vecteurs propres de A. Notons = diag (1 , . . . , n ), i I R
la matrice diagonale des valeurs propres de A hermitienne et V = [v 1 , . . . , v n ] la matrice dont les colonnes sont les vecteurs propres correspondants. i, i, j Av i = i v i v i v j = ij AV = V V V = In ,
o` u In est la matrice identit e dordre n. Si A est sym etrique r eelle, les vecteurs propres sont r eels et forment une base orthonorm ee de I Rn .
1.4
Image, noyau, rang dune matrice

On d enit limage, le rang et le noyau de la matrice A comme etant respectivement
limage, le rang et le noyau de lapplication lin eaire gA canoniquement associ ee ` a A. Dans le chapitre 2, nous verrons que la d ecomposition en valeurs singuli` eres dune matrice est un outil ecace permettant de d eterminer le rang de la matrice et de construire des bases orthogonales pour limage et pour le noyau lorsque celui-ci nest pas r eduit ` a {0}.
J.F. Durand
12
1.4.1
Image dune matrice
Limage de A I K mn , not ee Im A, est le sous espace vectoriel de I K m engendr e par les colonnes de A. Im A = E{A1 , . . . , An } = {y I K m | x I K n, Ax = y }.
Cest lensemble des combinaisons lin eaires, y = A1 x1 + . . . + An xn , des colonnes de A. La i` eme coordonn ee, xi , de x sappelle le poids de Ai dans lexpression de y . Syst` emes d equations lin eaires compatibles Soit A I Rmn la matrice des coecients du syst` eme et soit y I Rm le vecteur second
membre. R esoudre le syst` eme lin eaire d eni par le couple (A, y ), cest chercher une solution x telle que Ax = y . On dit que le syst` eme lin eaire Ax = y est compatible sil admet au moins une solution cest ` a dire si y Im A. Tous les syst` emes lin eaires seront suppos es r eels, car un syst` eme sur C I , se d ecompose en deux syst` emes sur I R lun correspondant ` a la partie r eelle et lautre ` a la partie imaginaire des nombres complexes. On verra au chapitre 4 comment r esoudre un syst` eme compatible gr ace ` a la notion dinverse g en eralis e dune matrice. Un syst` eme qui nest pas compatible est dit impossible. La r esolution dun probl` eme aux moindres carr es etudi e au chapitre 4, permet, entre autres r esultats, de d ecider si un syst` eme lin eaire est impossible ou compatible. Un syst` eme lin eaire d eni par (A, 0) est dit homog` ene. Un syst` eme lin eaire homog` ene est toujours compatible. Lensemble des solutions dun syst` eme homog` ene Ax = 0, sappelle le noyau de A.
1.4.2
Noyau dune matrice

Ker A = {x I K n | Ax = 0m }.
Le noyau de A I K mn est le s.e.v. de I K n dont limage est le z ero de I Km
On a les propri et es suivantes, P1 : Ker A est non-vide car 0n Ker A. 13

J.F. Durand
P2 : gA est injective si et seulement si Ker A = {0n }.
P3 : {Im A} = Ker A et {Ker A} = Im A (clef chapitre 2).
1.4.3
Rang dune matrice
Le rang de A I K mn , not e rang (A), est le nombre de colonnes de A lin eairement ind ependantes, rang (A) = dim Im A.
Outre que rang (X ) min(m, n), on a les propri et es suivantes P0 : Th eor` eme du rang : n = rang (A) + dim Ker A. P1 : gA est surjective (injective) si et seulement si rang (A) = m (rang (A) = n). P2 : rang (A) = rang (A ) = rang (A A) = rang (AA ). P4 : rang (A + B ) rang (A) + rang (B ). P3 : rang (AB ) min(rang (A), rang (B )).
P5 : Soient B et C deux matrices carr ees inversibles. Alors, rang (BAC ) = rang (A).
1.5
D eterminant dune matrice carr ee

est une permutation sur {1, . . . , n} si et seulement si est une bijection de {1, . . . , n} sur lui m eme.
On verra dans la section 1.11.1 les propri et es dune matrice associ ee ` a une permutation. Le d eterminant dune matrice n n, A = [aij ] est lunique nombre not e d et(A) d et(A)= ( )a1(1) a2(2) . . . an(n) ,
Sn
o` u Sn est lensemble des n! permutations de {1, 2, . . . , n} et ( ) est la signature de permutations el ementaires, -1 si cest une composition dun nombre impair de permutations el ementaires ( est dite el ementaire si (i) = j , (j ) = i et (k ) = k pour k = i, j ). Cette d enition est dun co ut calculatoire tr` es elev e. Elle exprime le d eterminant comme une fonction polynomiale des el ements de la matrice. Lexpression suivante
J.F. Durand
la permutation . La signature vaut +1 si est une composition dun nombre pair de
14
permet un calcul du d eterminant de proche en proche en fonction de d eterminants de matrices extraites de A, ce qui dans certains cas peut simplier le calcul. Si A = [a] C I 11 , alors d et(A) = a.
n
Si A C I nn , d eveloppement du d eterminant selon la colonne j d et(A) =

i=1
cij aij pour j {1, . . . , n},
matrice Aij est la matrice extraite de A en supprimant la ligne i et la colonne j .
o` u cij est le cofacteur de l el ement aij de A, cest ` a dire cij = (1)i+j d et(Aij ). La P0 : Le d eterminant dune matrice carr ee A = [A1 . . . An ] est une forme multilin eaire avec altern ee des colonnes de A, cest ` a dire, (A1 , . . . , An ) D (A1 , . . . , An ) = d et(A)
D (A1 , . . . , Aj + V j , . . . , An ) = D (A1 , . . . , Aj , . . . , An ) + D (A1, . . . , V j , . . . , An ) D (A1 , . . . , Ai , . . . , Aj , . . . , An ) = D (A1 , . . . , Aj , . . . , Ai , . . . , An ). Cons equences : * D (A1 , . . . , Aj , . . . , An ) = D (A1 , . . . , Aj , . . . , An ). ** On ne change pas le d eterminant dune matrice carr ee si a ` une colonne (une ligne) on ajoute une combinaison lin eaire des autres colonnes (lignes). P1 : d et(AB ) = d et(A)d et(B ). P2 : d et(A ) = d et(A). P3 : Si A est diagonale ou triangulaire alors d et(A) est le produit des el ements diagonaux.
1.6
Inverse dune matrice carr ee

On dit que A carr ee dordre n est inversible ou r eguli` ere sil existe une matrice not ee A1 appel ee inverse de A, telle que A1 A = AA1 = In . Si A1 existe, cette matrice est unique.
P1 : (AB )1 = B 1 A1 si A et B sont inversibles. P2 : si A est inversible, (A1 ) = (A )1 . P3 : Soit C = [cij ] la matrice des cofacteurs de A, alors si A est inversible, A1 = C /d et(A). 15
J.F. Durand
P4 : A carr ee est inversible si et seulement si A est de plein rang rang (A) = n cest ` a dire d et(A) = 0. P5 : Si A est inversible, d et(A1 ) = 1/d et(A). P6 : Syst` emes d equations lin eaires de Cramer : Soient A I Rnn et y I Rn , alors le syst` eme lin eaire Ax = y est dit de Cramer si de fa con equivalente (i) : d et(A) = 0, (ii) : rang (A) = n, (iii) : Il existe une unique solution x = A1 y . P7 : Caract erisation du rang dune matrice n p : Soit A I K np , Il existe un entier (i) : on peut extraire de A au moins une sous-matrice carr ee r eguli` ere dordre r ; (ii) : toute sous-matrice carr ee dordre sup erieur ` a r nest pas r eguli` ere. Ce nombre r est appel e le rang de A. Ceci ` a pour cons equence la propri et e P2 rang (A) = rang (A ) du rang dune matrice. P8 : Si A = diag (a1 , . . . , an ) est inversible alors A1 = diag (1/a1 , . . . , 1/an ). naturel r min(n, p), poss edant les propri et es suivantes :
1.7
Changements de base
dancienne base. On choisit dans E une autre base F = {f1 , . . . , fn } appel ee nouvelle base.
Soit E un espace vectoriel muni dune base E = {e1 , . . . , en } que lon qualie
Cette matrice est r eguli` ere. La matrice de passage de F ` a E est la matrice P 1 .
dont les colonnes expriment les coordonn ees des vecteurs de F dans la base E .
On appelle matrice de passage de la base E ` a la base F , la matrice P carr ee dordre n,
1.7.1
Eet sur les coordonn ees dun vecteur
dans les matrices colonnes X et Y . Alors X = PY Exemple : Une base utile en statistique
Soit x un el ement de E dont les coordonn ees dans les deux bases E et F sont stock ees et Y = P 1 X .
En statistique, une s erie de n mesures est pratiqu ee sur une variable x. On note x .1 X= . . xn
J.F. Durand
16
les coordon ees de x dans la base canonique E = {ei }i . Le statisticien pr ef` ere exprimer les mesures dans la base F = {fi = n ei }i . La matrice de passage de la base E ` a la base F est P = nIn de telle sorte que, dans la nouvelle base, l echantillon de x devient Y = P 1 X = 1/ n X . Soient maintenant, deux variables u et v dont les n- echantillons sexpriment dans E par les deux matrices colonnes U et V . Ces deux echantillons s ecrivent (1/ n) U et (1/ n) V < u, v > sexprime dans F par
n
dans la nouvelle base F . Cest cette base que retiendra le statisticien car le produit scalaire 1 (1/ n ui)(1/ n vi ) = n i=1
n
ui vi
i=1
et prend un sens statistique pour calculer des moyennes, des covariances et des variances. Il est parfois utile dindividualiser le poids statistique de chaque mesure, pi au lieu de 1/n. La nouvelle base est alors F = {fi = (1/ pi ) ei}i , avec 0 < pi < 1 et i pi = 1. La matrice de passage s ecrit P = diag (1/ p1 , ..., 1/ pn ) et lexpression de Y devient Y = P 1X = diag ( p1 , ..., pn ) X . Le produit scalaire entre u et v s ecrit dans la nouvelle base
n
pi uivi .
i=1
1.7.2
Eet sur les el ements dune matrice
et F sont munis chacun dune base E = {e1 , . . . , en } pour E et F = {f1 , . . . , fm } pour F , on change maintenant la base E en une base U = {u1 , . . . , un } et la base C en une base V = {v1 , . . . , vm }, la m eme application lin eaire g va sexprimer dans ces nouvelles bases I K mn ? Soit P la matrice de passage de E ` a U et soit Q la matrice de passage de F ` a V , alors B = Q1 AP . selon une autre matrice B . Quelle relation lie A et B qui appartiennent toutes deux ` a alors g sexprime ` a laide dune matrice A I K mn dans les deux bases pr ec edentes. Si
Soient E et F deux I K espaces vectoriels de dimension nie et g L(E, F ). Si E
On dit que les matrices A et B sont equivalentes. de la base E en la base F se traduit par B = P 1 AP . On dit alors que les matrices carr ees 17
J.F. Durand
Dans le cas particulier dun endomorphisme g L(E, E ), linuence du changement
A et B sont semblables. Si A et B sont semblables, d et(A) = d et(B ). Sil existe une base ` a dire semblable ` a une matrice diagonale. Les conditions pour que A soit diagonalisable sont pr esent ees au chapitre 2. F telle que B soit une matrice diagonale, on dit que la matrice A est diagonalisable cest
1.8
Valeurs propres, vecteurs propres

Un vecteur v non nul de C I n est appel e vecteur propre dune matrice A C I nn sil existe un scalaire C I tel que Av = v . (1)
Le scalaire est appel e valeur propre de A associ ee ` a v. Lensemble des n valeurs propres est le spectre de la matrice. On appelle rayon spectral de A le nombre positif ou nul (A) = maxi |i |. Remarquer que (1) s ecrit v=0 et v Ker (A In ). (1)
Les vecteurs propres n etant d enis qu` a une homoth etie pr` es, le plus souvent, on choisit de normer ` a 1 un vecteur propre et la norme choisie est la norme Euclidienne (chapitre 3) v
2
= 1.
Dans ce cas, un vecteur propre est d eni au signe pr` es. D eterminer le sous-espace propre associ e` a cest ` a dire le sous-espace de C I n engendr e par lensemble des vecteurs propres d enis par (1), revient ` a r esoudre le syst` eme d equations lin eaires homog` ene (A In )v = 0n . Plus pr ecis ement, (a11 )v1 + a12 v2 + . . . + a1n vn = 0 a21 v1 + (a22 )v2 + . . . + a2n vn = 0 ......................... . . an1 v1 + an2 v2 + . . . + (ann )vn = 0.
J.F. Durand
18
Pour x e, ce syst` eme de n equations ` a n inconnues poss` ede une solution non nulle si et seulement si il nest pas de Cramer. Le spectre de A est donc lensemble des n solutions, {1 , . . . , n }, de l equation caract eristique PA () = d et(A In ) = 0 dont le premier membre est appel e le polyn ome caract eristique de A. Ce polyn ome de degr e n en , s ecrit en fonction des el ements de A (on nexprime que les coecients les plus connus) PA () = (1)n n + (1)n1 trace(A)n1 + . . . + d et(A), o` u la trace de la matrice A est la somme de ses el ements diagonaux trace(A) = a11 + . . . + ann , voir section 1.9. Une valeur propre de multiplicit e ou dordre r de A est donc un z ero dordre r du polyn ome caract eristique. Si A est r eelle, alors, ` a toute valeur propre complexe, i , est associ ee sa valeur propre conjugu ee, i . P1 : Deux matrices semblables ont m emes polyn omes caract eristiques. Comme cons equence, les coecients de ce polyn ome ne d ependent pas de A mais de g . En particulier le d eterminant et la trace dune matrice ne d ependent que de g . P2 : Si (, v ) est un el ement propre de A, alors Ak v = k v , pour k entier positif. P3 : Soit {1 , . . . , n } le spectre de A, alors, d et(A) = n i=1 i = 1 . . . n . Comme cons equence, pour quune matrice A soit r eguli` ere, il faut et il sut quelle nadmette aucune valeur propre nulle. P4 : Si (, v ) est un el ement propre de A inversible, A1 v = 1 v . P6 : Cayley-Hamilton : PA (A) = 0nn P5 : Si (, v ) est un el ement propre de A, P (A)v = P ()v pour tout polyn ome P . (2)
P7 : Perron : Pour une matrice carr ee ` a el ements positifs, la valeur propre la plus grande en module est egalement positive. Cest une valeur propre simple et le vecteur propre associ e est ` a coordonn ees de m eme signe (positives). P8 : Les valeurs propres non-nulles des produits AB et BA sont les m emes. Plus pr ecis ement, soient A n m et B m n (m > n), alors d et(Im BA) = mn d et(In AB ) . P9 : Si A est une matrice diagonale ou triangulaire, alors i = aii , i. 19
J.F. Durand
1.9
Trace dune matrice carr ee

La trace de A = [aij ] C I nn est d enie par la somme des el ements diagonaux
n
trace(A) =
i=1
aii .
Propri et es P1 : trace(A) = trace(A ). P2 : Lin earit e : trace(A + B ) = trace(A) + trace(B ) trace(A) = trace(A). P3 : Invariance par permutation : trace(AB ) = trace(BA), si AB et BA sont carr ees. P4 : trace(A) =
i
P5 : Deux matrices semblables ont m eme trace, trace(P 1 AP ) = trace(A).
i , si {1 , . . . , n } = spect(A). (Clef, th eor` eme de Schur).
1.10
Formes lin eaires, formes quadratiques
Produit scalaire d eni sur un espace vectoriel E : Soit E un espace vectoriel pas forc ement de dimension nie, une application de E E dans C I (I R) est un produit scalaire si et seulement si ` a tout couple (x, y ) elle fait correspondre le nombre complexe (r eel) < x, y > tel que D1 : < x, y >= < y, x >. D2 : < 1 x1 + 2 x2 , y >= 1 < x1 , y > +2 < x2 , y > D3 : < x, x > 0 (r eel dapr` es D1). D4 : < x, x >= 0 x = 0E . 1 , 2 C I (I R).
Comme premi` ere propri et e < x, y >= < x, y > . La norme Euclidienne dun el ement x associ ee au produit scalaire est d enie par x = < x, x >.
Lin egalit e suivante dite de Cauchy-Schwarz est donn ee par | < x, y > | x y . L egalit e a lieu si les vecteurs sont colin eaires. En dimension nie, on note par x = [x1 , . . . , xn ] le vecteur ligne transpos e du vecteur
J.F. Durand
20
colonne x et par x = [x1 . . . , xn ] le vecteur adjoint, alors le produit scalaire usuel se calcule par < x, y >= y x =
i=1 n n
xi y i xi yi
i=1
sur C I n, sur I Rn .
< x, y >= y x =
On verra au chapitre 3 que la norme Euclidienne associ ee au produit scalaire usuel est la 2-norme de H older d enie par
n ,
=
i=1
|xi |2 .
Soit a C I n , lapplication de C I n dans C I est appel ee une forme lin eaire si x (x) =< x, a >= a x . quadratique si Soit A C I nn hermitienne, lapplication de C I n dans I R est appel ee une forme x (x) =< Ax, x >= x Ax.
En eet, dapr` es D1, A hermitienne entra ne que < Ax, x > est r eel < Ax, x >= x Ax = x A x =< x, Ax >= < Ax, x > . eel, supposons A I Rnn non sym etrique et x I R, alors Remarque : Dans le cas r 1 A (x) = x Ax = x ( (A + A ))x = 1 (A+A ) (x). 2 2 La matrice 1 (A + A ) est sym etrique. Dans le cas r eel, lhypoth ese de sym etrie de A est 2 donc toujours implicitement admise. On dit que A hermitienne, est d enie positive semi d enie positive si x Ax > 0 si x Ax 0
x = 0, x.
La forme quadratique associ ee est d enie positive (resp. semi d enie positive) . De fa con evidente, les matrices r eelles BB et B B sont semi d enies positives. Montrons le pour B B , x B Bx = Bx 21
2 2
0.
J.F. Durand
B B est d enie positive si et seulement si Ker B = {0}, cest ` a dire, B est de plein rang colonne. En eet, dans ce cas : Bx =
i
Application :
B i xi = 0 x = 0. A = (P 1 ) P 1
o` u P est la matrice de passage de la base de x dans une autre base (voir paragraphe 1.7.1), P 1x est le vecteur des coordonn ees dans la nouvelle base. A est bien sym etrique d enie positive.
1.11
Matrices orthogonales et unitaires
du produit scalaire usuel. On dit que U est unitaire si les colonnes de U sont des vecteurs 2 ` a 2 orthogonaux et de norme unit e, cest ` a dire si U U = In . Lorsque U est r eelle ont dit que U est orthogonale, dans ce cas U U = In .
Soit une matrice U de C I mn (m n), lespace C I m des colonnes de U etant muni
Premi` eres propri et es des matrices unitaires : P1 : Le produit de 2 matrices unitaires est une matrice unitaire. P2 : Une matrice carr ee est unitaire si et seulement si U 1 = U . P3 : Le d eterminant dune matrice carr ee unitaire est de module egal ` a 1.
1.11.1
Soit
Les matrices de permutation

une i permutation 1 2 3 4 d enie . dans la section 1.5, par exemple sur
{1, 2, 3, 4},
(i) 3 1 4 2
La matrice de passage de la base canonique {ei } de I Rn ` a la base {fi = e(i) }, Q = [e(1) , . . . , e(n) ], est appel ee la matrice de permutation associ ee ` a , 0 0 Q= 1 0
J.F. Durand
1 0 0 0 22
0 0 0 1
0 1 0 . 0
La permutation inverse 0 0 1 0 0 Do` u Q1 = 1 0 0 0 0 1 0 permutation.
1 2 3 4 i . est d enie par 1 (i) 2 4 1 3 0 0 et e est vraie pour toutes les matrices de 1 = Q . Cette propri 0
Soit X = [x1 , x2 , x3 , x4 ] la matrice colonne des coordonn ees dun vecteur dans {ei } et Y la matrice colonne des coordonn ees de ce vecteur dans la base permut ee, alors Y = Q1 X = [x3 , x1 , x4 , x2 ] . Multiplier ` a gauche une matrice par Q1 revient ` a permuter ses lignes selon et la multiplier ` a droite par Q permute ses colonnes selon . Sur lexemple, X = [x1 , x2 , x3 , x4 ] alors XQ = [x3 , x1 , x4 , x2 ].
1.11.2
Les matrices de rotation
La dimension 2 : Une matrice Q, 2 2, orthogonale est une matrice de rotation si Q= cos() sin() sin() cos() , (d et(Q) = 1) .
Alors, y = Qx est obtenu par rotation de x dun angle . La dimension n : Une matrice Q(i, k, ), n n, orthogonale est une matrice de rotation de Givens si elle est de la forme 1 . . . 0 Q(i, k, ) = . . . 0 . . . 0 colonnes i et k . 23
J.F. Durand
... 0 . .. . . . . . . cos() . . . . . . sin() . . . ... 0
... ... .. . ... ...
0 . . . sin() . . . cos() . . . 0
... 0 . . . ... 0 . . . ... 0 .. . . . . ... 1
et(Q(i, k, )) = 1) , , (d
obtenue par modication de la matrice identit e In ` a lintersection des lignes,
Si y = Q(i, k, )x, y est obtenu par la rotation de x dun angle dans le sens direct dans le plan d eni par les deux vecteurs ei et ek de la base canonique (y di` ere de x seulement sur les coordonn ees i et k ).
1.11.3
Construction dune base orthonorm ee par le proc ed e de Gram-Schmidt
Proposition : A partir dun ensemble de vecteurs lin eairement ind ependants de I Kn {f1 , . . . , fk }, on peut construire un ensemble de vecteurs {q1 , . . . , qk } orthonorm es qui engendrent le m eme espace E{f1 , . . . , fk } = E{q1 , . . . , qk } . gonaux. 2
Preuve : Construisons dabord une suite de k vecteurs {p1 , . . . , pk } deux ` a deux orthop1 = f1 p2 = f2 . . ... pi = fi < p1 , f2 > p1 p1 2 2 < p1 , fi > < p2 , fi > < pi1 , fi > p1 p2 . . . pi1 2 2 p1 2 p2 2 pi1 2 2 i k.
On v erie que < pi , pj >= 0 pour j < i et que E{f1 , . . . , fi } = E{p1 , . . . , pi } . La suite {qi = pi }i=1...k pi 2 2
est bien une suite de vecteurs orthonorm es. Si de plus k = n, cest une base de I K n.
1.12
1.12.1
Op erateur vec et produit de Kronecker

Lop erateur vec
Soit A = [A1 , . . . , Ap ], une matrice n p. On d enit lop erateur vec dempilement des colonnes par A1 . . vec(A) = K np . I Ap 24
J.F. Durand
A1 . Si A = . , lempilement en colonne des lignes de A se fait par vec(A ) I K np . En . An g en eral, vec(A) = vec(A ) sauf si A est une matrice colonne, Notations : (vec(A)) = vec (A) et (vec(A)) = vec (A) Propri et es P1 : Lin earit e : vec(A + B ) = vec(A) + vec(B ) P2 : Soient X et Y deux matrices n p trace(Y X ) =
p j =1 n i=1
y ij xij = vec (Y )vec(X ) =< vec(X ), vec(Y ) >.
1.12.2
Produit de Kronecker
Soient A = [aij ] une matrice n p et B = [bij ] une matrice m q . Alors le produit de Kronecker de A par B est une matrice nm pq. a B a1p B 11 .. . . . . A B = [aij B ] = . . aij B . . .. an1 B anp B
Propri et es Les trois premi` eres propri et es justient le nom de produit. P1 : ( A) B = A ( B ) = (A B ). P2 : Soient A et B deux matrices de m emes dimensions, C et D , deux autres matrices de m emes dimensions, alors (A + B ) (C + D ) = A C + A D + B C + B D. P3 : (A B ) C = A (B C ). P4 : Inp = In Ip = Ip In . P5 : (A B ) = A B . P6 : (AC ) (BD ) = (A B )(C D ). P7 : Soient A,B , deux matrices r eguli` eres, (A B )1 = A1 B 1 P8 : Soient A,B , deux matrices carr ees, alors 25 trace(A B ) = trace(A)trace(B ).
J.F. Durand
P9 : Si x et y sont x1 y1 . . xy = . xn y1
P10 : Soient A, B , deux matrices carr ees respectivement n n et p p avec spect(A) = {1 , . . . , n } et spect(B ) = {1 , . . . , p } alors spect(A B ) = {i j / i = 1, . . . , n; j = 1, . . . , p}, xi yj est vecteur propre de A B , 2
des matrices colonnes alors x1 yp . .. . . . = x y = y x = [y1 x| |yp x]. xn yp y1 x . . vec(xy ) = . = y x. yp x
si xi et yj sont les vecteurs propres associ es respectivement ` a i et ` a j . est une matrice hermitienne (semi) d enie positive.
P11 : Soient A et B , deux matrices hermitiennes (semi) d enies positives, alors A B P12 : Si A est n n et B est p p, d et(A B ) = (d et(A))p (d et(B ))n .
P13 : rang (A B ) = rang (A)rang (B ). P14 : Le produit de Kronecker de 2 matrices unitaires est une matrice unitaire. P15 : Le produit de Kronecker de 2 matrices diagonales (rep. triangulaires) est une matrice diagonale (resp. triangulaire). Vectorisation dun produit de matrices Proposition : Soient A, B et C telles que ABC existe. Alors, vec(ABC ) = (C A)vec(B ). Preuve : Soit p le nombre de colonnes de B , B = donne
p p
2
p j j =1 B ej .
La propri et e P9
vec(ABC ) = vec
j =1 p
AB j ej C
j
=
j =1
vec AB j (C ej )
p
=
j =1
(C ej ) (AB ) = (C A)
p
j =1
ej B j
p
= (C A)
J.F. Durand
vec(B j ej )
j =1
= (C A)vec
B j ej
j =1
26
Cas particulier vec(AB ) = (Ip A)vec(B ) = (B Im )vec(A) avec A matrice m n et B matrice n p. Corollaire : Soient A, B , C et D telles que ABCD soit carr ee trace(ABCD) = vec (A )(D B )vec(C ) . 2
1.12.3
Matrice de commutation
Lorsque lon a besoin dexprimer vec(A ) en fonction de vec(A), la matrice de commutation permet ce passage. On appelle Kmn , la matrice de commutation dordre m n avec dim(Kmn ) = mn mn
m n
Kmn =
i=1 j =1
Eij (m, n) Eij (m, n).
Remarque : Kmn est une matrice de permutation. Proposition : Soit A une matrice m n, alors
Exemple : Soit m = 3 et n = 2 alors K32 est une 1 0 0 0 0 0 0 1 0 1 0 0 K32 = 0 0 0 0 0 0 1 0 0 0 0 0
matrice 6 6 0 0 0 0 0 0 . 1 0 0 0 0 1
vec(A ) = Kmn vec(A). Remarque : vec(A) = Knm vec(A ). Propri et es

1 P1 : Kmn = Knm = Kmn
P2 : K1n = Kn1 = In . P3 : Soient A et B , deux matrices respectivement n s et m t 27 Kmn (A B ) = (B A)Kts B A = Kmn (A B )Kst A B = Knm (B A)Kts .
J.F. Durand
1.13
Exercices
R-espace vectoriel de dimension 4. Exercice 1 : Dans lespace I 1) Soit D = {u1, u2 , u3 , u4} une base de E et soit g une application lin eaire de E dans lui-m eme (on dit un endomorphisme de E ) ayant pour matrice N dans la base D : (a, b, 1 0 a b c et d d esignent des r eels quelconques)
On notera Im g limage de g et Ker g son noyau. b) Donner une base pour Im g .
0 1 c d . N = 0 0 0 0 0 0 0 0
a) Calculer le rang de g ainsi que la dimension de Ker g . c) Soient v1 = au1 + cu2 u3 , v2 = bu1 + du2 u4 . D emontrer que {v1 , v2 } est une base de Ker g . 2) Soit B = {e1 , e2 , e3 , e4 } une base de E . On pose : c4 = 2e1 + 3e2 + 3e3 + 3e4 . a) D emontrer que C = {c1 , c2 , c3 , c4 } est une base de E . c) Soit f lendomorphisme de E d eni par f (e1 ) = e1 3e2 6e3 7e4 , f (e2 ) = 2e1 +5e2 +10e3 +12e4 , f (e3 ) = 3e1 5e2 10e3 13e4 matrice M de f dans la base C . d) Donner une base BI pour Im f et une base BK pour Ker f (les vecteurs de BI et BK devront etre exprim es dans la base B ). e) Soit V le sous-espace vectoriel de E engendr e par c1 et c2 . Soit q la projection de E sur V . Calculer Q la matrice de q dans la base B Exercice 2 : Soit E lespace vectoriel des polyn omes sur I R de degr e inf erieur ou egal ` a 3. u1 = 4 + 3X + 2X 2 + X 3 , u2 = 6 + 2X + 2X 2 + 2X 3 et u3 = 8 11X 6X 2 + X 3 . Exercice 3 : Soit B = {e1 , e2 , e3 , e4 } une base de I R4 . On consid` ere lendomorphisme
J.F. Durand
c1 = e2 + 2e3 + 2e4 , c2 = e1 + e2 + 2e3 + 3e4 , c3 = 2e1 + 2e2 + 2e3 + 3e4 et
b) Ecrire la matrice de passage P de B ` a C et calculer son inverse.
et f (e4 ) = 2e1 + 3e2 + 6e3 + 8e4 . Calculer la matrice M de f dans la base B puis la
D eterminer le rang du syst` eme de vecteurs {u1 , u2 , u3} de E d eni par :
28
f de I R4 et sa matrice Af,B associ ee dans la 0 1 Af,B = 1 1 1) Calculer les valeurs propres de f . 3) D eduire que f est diagonalisable.
base B 1 1 1 0 1 1 . 1 0 1 1 1 0
2) Pour chaque valeur propre de f , d eterminer lespace propre correspondant. 4) Trouver en lexprimant dans la base B , une base C = {u1 , u2 , u3, u4 } de I R4 avec Af,C diagonale et pr eciser quelle est la matrice Af,C . Exercice 4 : Soit la matrice A= 1 4 . 1 3 4 3 1 3 -4
I + A est inversible.
Calculer A2 . Calculer (I + A)(I A) o` u I est la matrice unit e dordre 3. En d eduire que
1) Calculer les valeurs propres de A.
Exercice 5 : On consid` ere la matrice 7 4 0 0 12 7 0 0 A= 20 11 6 12 12 6 6 11
2) A est-elle diagonalisable ? Inversible ? 3) D eterminer une base de lespace propre associ e` a la plus grande valeur propre de A. Exercice 6 : La matrice suivante est-elle inversible ? Si oui, calculer son inverse 1 2 3 1 1 3 3 2 . A= 2 4 3 3 1 1 1 1 29
J.F. Durand
son inverse
Exercice 7 : Montrer que la matrice suivante est inversible dans M33 (I R) et calculer . A= 1 0 1 2 1 1 3 5 6
Exercice 8 :
D emontrer ces quelques petits r esultats utiles, les matrices sont suppos ees r eelles. 1.1. A m n, B n p, C n p, M m m sym etrique d enie positive, x n 1. a) Ax = 0 A Ax = 0 et Ker A = Ker A MA. b) AB = 0 A AB = 0.
1.2. A m n, B n n, C n n sym etrique. b) (x Ay = 0, x I Rm , y I Rn ) A = 0. a) (Ax = 0, x I Rn ) A = 0.
c) A AB = A AC AB = AC.
1.3. Soient B m p et C p n, alors A = BC s ecrit

p
d) (x Bx = 0, x I Rn ) B = B.
c) (x Cx = 0, x I Rn ) C = 0.
A=
i=1
B i Ci ,
o` u B i et Ci sont respectivement la i` eme colonne de B et la i` eme ligne de C . Si D = diag(d1 , . . . , dp ) alors A = BDC s ecrit
p
A=
i=1
d i B i Ci .
Exercice 9 : Montrer que trace(AB ) = trace(BA).
p p et spect(B ) = {j }j . Montrer que les np valeurs propres de A B sont i j et que, si x est un vecteur propre de A et y un vecteur propre de B , alors, x y est vecteur propre de A B . V erier sur lexemple A = B = 0 1
Exercice 10 : Soit A une matrice n n et spect(A) = {i }i . Soit B une matrice
quil y a des vecteurs propres de A B qui ne 0 0 se d eduisent pas des vecteurs propres de A et B .
J.F. Durand
30
Exercice 11 : Soient A et B deux matrices carr ees dordre respectifs n et p. sym etrique (semi) d enie positive. a) Montrer que si A et B sont sym etriques (semi) d enies positives, alors A B est
rang (A B ) = rang ((AA) (BB )) et conclure en utilisant la DVS.
c) Montrer que : rang (A B ) = rang (A)rang (B ). Indication : Montrer que
b) Montrer que : d et(A B ) = [d et(A)]p [d et(B )]n
Exercice 12 : Soit A une matrice n n. D emontrer que vec(A ) = Kmn vec(A) avec
m n Eij (m, n) Eij (m, n).
Kmn =
i=1 j =1
31
J.F. Durand
J.F. Durand
32
Chapitre 2 D ecomposition de Matrices

On a vu quune application lin eaire f de lespace vectoriel E dans lespace vectoriel F , tous deux de dimension nie, pouvait etre repr esent ee par une matrice A relativement aux bases choisies dans ces espaces. Une application lin eaire etant ainsi repr esent ee par di erentes matrices selon les bases choisies, le probl` eme se pose de trouver des bases dans lesquelles la matrice repr esentant lapplication lin eaire soit la plus simple possible. Cest le probl` eme de la r eduction dune matrice. Le cas le plus simple est celui des matrices carr ees diagonalisables. Mais toutes les matrices carr ees ne sont pas diagonalisables... Dautre part, toutes les matrices ne sont pas carr ees. Comment r eduire des matrices rectangulaires ? Ou plut ot, comment d ecomposer une matrice en un produit de matrices ayant de bonnes propri et es ? Cependant, avant daborder les di erents types de r eduction ou de d ecomposition et pour mieux comprendre leur interpr etation g eom etrique, il est n ecessaire daborder la notion de projecteur qui sera d evelopp ee au chapitre quatre.
2.1
Les projecteurs
La notion de projection est fondamentale tant en analyse fonctionnelle lors de lap-
proximation par des s eries de fonctions quen statistique o` u pour prendre un exemple simple, la moyenne dune variable sexprime comme la projection sur la droite des constantes. De nombreuses m ethodes statistiques comme la r egression lin eaire, lanalyse en composantes principales, etc, sont bas ees sur les projecteurs. Dans tous les espaces vectoriels sur lesquels on a d eni un produit scalaire, la projection est un outil pour r esoudre de nombreux probl` emes doptimisation. On reviendra sur cette notion dans la section quatre. 33
2.1.1
Sous espaces suppl ementaires et projecteurs
Soient F et G deux s.e.v. du I K -e.v. E . F + G = {x + y | x F, y G} et F G = {(x, y ) | x F, y G} . G = {0E } et F + G = E . s ecrit de mani` ere unique
On dit que F et G sont suppl ementaires si F
De fa con equivalente : tout vecteur x de E E est alors somme directe de F et G not e E =F G
x = u + v avec u F et v G.
Remarquons que le suppl ementaire dun s.e.v. nest pas unique. Si F et G sont suppl ementaires, les applications p et q de E dans E d enies par sont lin eaires (endomorphismes de E ) et v erient : P1 P2 P3 P4 p2 = p ; q 2 = q (idempotence) poq=q op=0 p + q = IdE Im p = F = Ker q et Im q = G = Ker p. x E, x = p(x) + q (x) avec p(x) F et q (x) G
On dit que p est la projection sur F parall` element ` a G et que q = IdE p est la projection sur G parall` element ` a F ou encore le projecteur suppl ementaire de p. On appelle projecteur dans un I K -e.v. E tout endomorphisme idempotent de E . Dans le cas particulier o` u les deux sous espaces suppl ementaires sont orthogonaux (bien s ur, E est muni dun produit scalaire) E = F F alors les projecteurs p et q associ es sont dits projecteurs orthogonaux.
2.1.2
Exemple fondamental
Soient u et v de I K n muni du produit scalaire usuel, tels que < u, v >= v u = 1 . Remarquons que, puisque < u, v >= u
2
2 cos(u, v ),
la condition pr ec edente impose
que langle vectoriel entre u et v est aigu. Consid erons la matrice n n P = uv .

J.F. Durand
34
Cette matrice jouit des propri et es suivantes : P 2 = uv uv = uv = P et si x Im u, cest ` a dire si x = u, P x = uv (u) = uv u = u = x . Mais, si x est orthogonal ` a v , alors P x = uv x = u(v x) = 0 . Limage de P est donc Im u, le noyau de P est le sous espace vectoriel de dimension n 1 orthogonal ` a v. I K n = Im u {Im v } . P est donc la matrice de lapplication lin eaire projection sur u parall` element ` a {Im v } .
x
Ker P
v
Px
Im P
Figure 1 : Projection sur u parall` element ` a {Im v } . Si on choisit v = u et u

2
= 1, dans ce cas, le projecteur orthogonal s ecrit P = uu.
Dune fa con plus g en erale, soit F donn e ainsi quune base {u1, . . . , ur } orthonorm ee de
r
F . Soit U = [u1 , . . . , ur ], alors U U = Ir . On montrera au chapitre suivant que la matrice P =

i=1 ui u i = UU
est le projecteur orthogonal sur F = Im U . Le projecteur (P 2 = P ) est orthogonal car P = P . 35

J.F. Durand
2.1.3
Dautres matrices orthogonales : les matrices de r eexion
La dimension 2 : Une matrice Q, 2 2, orthogonale et sym etrique, est une matrice de r eexion si elle est Q= cos() sin() , (d et(Q) = 1) .
de la forme
sin() cos()
Si y = Qx = Q x, y est obtenu par sym etrie du vecteur x par rapport ` a la droite vectorielle d enie par S = Im La dimension n : Soit v I Rn , v = 0, une matrice Q, n n, orthogonale et sym etrique, est une matrice de r eexion de Householder si elle est de la forme Q(v ) = In 2vv /v v , (d et(Q(v )) = 1) . cos(/2) sin(/2) .
Par un l eger abus de langage on convient que Q(0) = In bien que d et(Q(0)) = 1.
Reflexion Q(v) = I - 2 P Projection orthogonale P = vv/ vv u = Px v x=z+u
z = (I - P) x {Im v}
-u y = Q(v) x = z - u
Figure 2 : Sym etrie par rapport ` a lhyperplan vectoriel {Im v } .

J.F. Durand
36
Si y = Q(v )x = Q (v )x, y est obtenu par sym etrie du vecteur x par rapport ` a lhyperplan vectoriel {Im v } = {z = (z1 , . . . , zn ) I Rn | z v = v1 z1 + . . . vn zn = 0}. Cela r esulte du fait que la matrice P = vv /v v est la matrice de projection orthogonale sur Im v (clef section 2 1.2). Proposition : Toute matrice Q n n orthogonale peut s ecrire comme le produit v1 , . . . , vn I Rn , Q = Q(v1 ) . . . Q(vn ) .
de n r eexions
Remarque : Les endomorphismes de (I Rn , . 2 ) canoniquement associ es ` a des matrices carr ees orthogonales Q, sont appel es des isom etries de (I Rn , . 2) car dapr` es P4 les normes sont conserv ees ( Qx
2
= x 2 ) ou de fa con equivalente les produits scalaires
(< Qx, Qy >= y Q Qx =< x, y >). Pour les angles, on a cos(Qx, Qy ) = < Qx, Qy > = cos(x, y ). Qx 2 Qy 2
2.2
Matrices carr ees diagonalisables

Une matrice carr ee A dordre n est diagonalisable si elle est semblable ` a une matrice diagonale = diag(1 , . . . , n ), cest ` a dire sil existe une matrice S inversible (matrice de passage de lancienne base ` a la base diagonalisante) telle que La i` eme colonne de S est le vecteur propre de A associ e` a la valeur propre i . = S 1 AS A = S S 1 AS = S S 1 A = S 1 .
Condition n ecessaire et susante : Une condition n ecessaire et susante pour que A carr ee dordre n, soit diagonalisable est que ses n vecteurs propres soient lin eairement ind ependants. 2 Condition susante : Les vecteurs propres associ es ` a des valeurs propres distinctes sont lin eairement ind ependants. Si toutes les valeurs propres de A sont distinctes, alors A est diagonalisable. 2 D ecomposition spectrale de A diagonalisable : Soit A diagonalisable telle que A = S S 1. Associ es ` a i , notons ui la i` eme colonne de S et v i la i` eme ligne de S 1 . La d ecompositon spectrale de A s ecrit
n
A=
i=1
i u i v i 37
J.F. Durand
Le vecteur v i est vecteur propre de A associ e` a i et v j ui = 0, si j = i. Ceci signie que les vecteurs propres distincts de A et de A sont orthogonaux. 2 Preuve : La diagonalisation donne S 1 A = S 1 . La i` eme ligne de cette equation matricielle s ecrit v i A = i v i et en prenant ladjointe A v i = i v i . Dautre part, S 1 S = I signie que v j ui = ij . 2 Remarquons que les valeurs propres i ne sont pas toutes forc ement distinctes. Regroupons les valeurs propres egales. Soit ni la multiplicit e de i , n = n1 + . . . + ns . Posons N0 = 0 et pour i = 1 ` a s, Ni = n1 + . . . + ni . A s ecrit
s Ni
A=
i=1
Posons
k =Ni1 +1 Ni
uk v k .
Pi =
k =Ni1 +1
uk v k
s
alors A=
i Pi
i=1 s
I=
i=1
Pi .
Cest l ecriture de la d ecomposition spectrale de A par les projecteurs sur les sous espaces propres Ker (A i I ). En eet les matrices Pi v erient les propri et es suivantes. APi = i Pi Pi2 = Pi et Pi Pj = 0 j = i.
2.3
Factorisation QR dune matrice rectangulaire
Nous avons vu comment par le proc ed e de Gram-Schmidt, il est possible ` a partir {Q1 , . . . , Qn } orthonorm ee qui engendre le m eme espace. La construction de la matrice unitaire Q1 = [Q1 , . . . , Qn ] ` a partir de la matrice de plein rang colonne A = [A1 , . . . , An ] est ainsi bas ee sur le syst` eme d equations A1 = r11 Q1 A2 = r Q1 + r Q2 12 22 . . n A = r1n Q1 + r2n Q2 + + rnn Qn . 38 dune famille libre {A1 , . . . , An } de vecteurs de I K m (m n), de construire une famille
J.F. Durand
Ceci conduit ` a la forme maigre de la factorisation QR. Version maigre de la factorisation QR Soit A C I mn (m n) une matrice de plein rang colonne, A = Q1 R1 est unique avec Q1 matrice m n unitaire et R1 C I nn matrice triangulaire sup erieure 2
` a el ements diagonaux r eels positifs.
La construction de Q1 et de R1 par la proc edure de Gram-Schmidt est num eriquement instable ` a cause de la propagation des erreurs darrondi dues au fait que les colonnes de Q1 sont calcul ees en cascade : Q2 est construite ` a partir de de Q1 , Q3 en fonction de Q2 et Q1 , etc. Dautres m ethodes (voir exercice) num eriquement plus stables sont mises en oeuvre. Il est dicile de conna tre ` a priori le rang dune matrice. La version pleine de la factorisation QR supprime lhypoth` ese de plein rang colonne pour A. Version pleine de la factorisation QR Soit A C I mn (m n), il existe Q et R telles que A=Q R 0
diagonaux r eels positifs ou nuls. Si A est de plein rang colonne alors les n premi` eres colonnes de Q forment une base orthonorm ee de ImA et la diagonale de R est ` a el ements positifs. 2
avec Q matrice m m unitaire et R C I nn matrice triangulaire sup erieure ` a el ements
2.4
D ecomposition unitaire des matrices carr ees
Le th eor` eme suivant indique que toute matrice carr ee est triangularisable.
2.4.1
Le th eor` eme de Schur
UU = In ) et une matrice triangulaire sup erieure T telles que A = UT U , U AU = T , AU = UT ,
Th eor` eme de Schur : Si A C I nn , il existe une matrice unitaire U C I n n (U U = U A = T U ,
o` u T = + N avec = diag (1, . . . , n ) matrice diagonale des valeurs propres de A et N matrice triangulaire sup erieure stricte. 2 39
J.F. Durand
Remarque : Les colonnes de U ou vecteurs de Schur, solutions de AU = U + UN , peuvent etre complexes m eme si A est r eelle. Dans le cas A r eel, les valeurs propres complexes sont deux ` a deux conjugu ees. Les vecteurs de Schur ne sont vecteurs propres de A que si N = 0 (matrices normales), dans ce cas, A est diagonalisable. Premi` eres applications A1 trace(A) = trace(UT U ) = trace(U UT ) = trace(T ) =
i
i .
i
A2 d et(A) = d et(UT U ) = d et(U )d et(T )d et(U 1 ) = d et(T ) =
i .
2.4.2
Matrices normales
Une matrice carr ee A est normale si et seulement si A A = AA . Exemples : Les matrices hermitiennes A = A, unitaires A A = AA = I , antihermitiennes A = A, sont normales. telle que A = U U , U AU = , AU = U , U A = U . Proposition : A est normale si et seulement si il existe une matrice carr ee U unitaire
est la matrice diagonale form ee des valeurs propres de A. Autrement dit, une matrice normale est diagonalisable et les vecteurs propres (les colonnes de U ) sont orthonorm es. Preuve : 2 A = U U = A A = AA
?
A A = U U et AA = U U .
Or = = diag (|i |2 ). Donc A A = AA .

?
La d ecomposition de Schur donne A = UT U avec T triangulaire sup erieure. Si A est normale alors T triangulaire sup erieure est normale ce qui implique T diagonale (voir exercice). 2
A A = AA = A = U U
Remarque : Lorsque A est normale, la d ecomposition spectrale de A s ecrit

n s Ni
A=
i u u =
i i
i=1
i=1
Le projecteur Pi =
k =Ni1 +1
uk uk .
Ni
uk uk
k =Ni1 +1
J.F. Durand
40
sur le sous espace propre associ e` a i est maintenant orthogonal car Pi = Pi . Revenons sur les trois exemples de matrices normales. Matrices hermitiennes H1 Une matrice hermitienne est diagonalisable. Ses valeurs propres sont r eelles et ses vecteurs propres orthogonaux. = ce qui implique i = i . 2 2 2 2 Preuve : Seul reste ` a montrer que les valeurs propres sont r eelles. A = A, donc H2 Une matrice sym etrique et r eelle est diagonalisable. Ses valeurs propres sont r eelles et ses vecteurs propres sont r eels et orthogonaux. Preuve : Une matrice sym etrique r eelle est hermitienne. Tout vecteur propre u est H3 Une matrice hermitienne est (semi) d enie positive si et seulement si toutes ses valeurs propres sont positives (non n egatives). Preuve : Soit (, u) avec u est positif (positif ou nul). R eciproquement, soit A hermitienne, A = U U , < Ax, x >=< U U 1 x, x >=< U 1 x, U 1 x > . Posons y = U 1 x. Les composantes du vecteur y sont les composantes du m eme vecteur dans la base de I K n form ee des vecteurs propres {u1 , . . . , un } de A.
n 2 2
r eel puisque solution du syst` eme lin eaire r eel (A I )u = 0. 2
= 1 un el ement propre de A hermitienne (semi)
d enie positive. Alors, < Au, u >=< u, u >= . Si A est (semi) d enie positive
< Ax, x >=

i=1
i | y i | 2 .
Le vecteur y est non nul si et seulement si x est non nul. Supposons tous les i strictement positifs, alors x = 0 < Ax, x > > 0. Supposons maintenant tous les I = {i {1, . . . , n} | i = 0} non vide. Alors, ImA = E{ui}iI et KerA = E{ui}iI sont des sous espaces vectoriels suppl ementaires orthogonaux et < Ax, x >=
iI
i 0. Notons I = {i {1, . . . , n} | i > 0} et supposons son compl ementaire
i | y i | 2 0 . 2
La nullit e est obtenue pour x dans KerA.
H4 Crit` ere de Sylvester : Une matrice hermitienne est (semi) d enie positive si et seulement si tous ses mineurs principaux sont positifs (non-n egatifs). Preuve, voir exercice 6. 41
J.F. Durand
H5 Soit A une matrice hermitienne (semi) d enie positive. On peut construire une matrice hermitienne (semi) d enie positive not ee A1/2 telle que A = (A1/2 )2 . 2
Preuve : A = U U o` u = diag (i) avec i positif ou (positif ou nul). D enissons 1/2 = diag ( i ) ; donc, (1/2 )2 = . Alors, A1/2 = U 1/2 U est hermitienne (semi) d enie positive et (A1/2 )2 = A. Matrices unitaires U1 Une matrice carr ee unitaire est diagonalisable, ses valeurs propres ont pour module 1 et ses vecteurs propres sont orthogonaux. 2 Preuve : Reste ` a montrer que les valeurs propres sont de module 1. A est carr ee unitaire, A = A1 . Comme AA = A A = I , = = I . L egalit e des el ements diagonaux donne |i|2 = 1. Matrices anti-hermitiennes AH1 Une matrice anti-hermitienne est diagonalisable, ses valeurs propres sont des imaginaires purs et les vecteurs propres sont orthogonaux. 2 2 Preuve : Reste ` a montrer que les valeurs propres sont des imaginaires purs. A = A implique que = et en ecrivant les el ements diagonaux, i = i . 2 2
2.5
D ecomposition en valeurs singuli` eres
Pour une matrice rectangulaire la notion de valeur propre na pas de sens. N eanmoins, les matrices carr ees A A et AA sont hermitiennes semi d enies positives. De plus, rang (A) = rang (AA) = rang (AA ) = r , et dapr` es la propri et e P8 de la section 1.8, les r valeurs propres non nulles (positives) de A A et AA sont identiques. On appelle valeurs singuli` eres de A les racines carr ees des valeurs propres non nulles de A A ou de A A i = i (A A) = i (AA ).
J.F. Durand
42
2.5.1
Deux versions de la DVS
Version maigre (DVS1) : Soit A m n telle que rang (A) = r . Alors

r /2 A = U 1 r V = i=1
i u i v i
U = [u1 | |ur ] unitaire m r est telle que ui est vecteur propre de AA associ e` a la valeur propre non nulle i . V = [v 1 | |v r ] unitaire n r est telle que v i est vecteur propre de A A associ e` a la valeur propre non nulle i .
1/2
r = diag(1 , ..., r ) et r singuli` ere de A. 2
= diag(1 , ..., r ), o` u i =
i est la i` eme valeur
Version pleine (DVS2) : Soit A m n de rang r . Alors A = P Q . ] carr P = [u1 |...|ur |ur+1 |...|um] = [U |U ee m m unitaire et Q = [v 1 |...|v r |v r+1|...|v n ] = ] carr [V |V ee n n unitaire, ont leurs colonnes form ees respectivement par les vecteurs
propres de AA et de A A. Pour obtenir P (resp. Q) on compl` ete les vecteurs colonnes (resp V ) qui sont les vecteurs de U (resp. V ) de la DVS1 par les vecteurs colonnes de U
orthonorm ee de I K m (resp. I K n) : P P = P P = I m , Q Q = QQ = In . De plus 1 0 1/2 r 0 1/2 . , r r. 2 .. = , mn, r = 0 0 0 r
propres de AA (resp A A) associ es ` a la valeur propre multiple 0. On forme ainsi une base
Remarque : Lorsque A est r eelle, A = A est r eelle ainsi que U, V, P et Q.
Preuve : AA et AA sont hermitiennes (sym etriques), semi-d enies positives et ont m emes valeurs propres non nulles. Par Schur, Q unitaire telle que
2 Q A AQ = diag(2 1 , ..., n ).
Posons C = AQ. Soit cj la j` eme colonne de C , alors ci cj = 2 i ij . Comme rang(AQ) = r , on peut supposer que 1 , ..., r sont strictement positifs et que r+1 , ..., n sont nuls. Alors cj = 0m pour j = r + 1, ..., n, car cest un vecteur associ e` a une valeur propre 43
J.F. Durand
nulle et donc cj
2 2
= 0. (*)
On construit P par colonnes :

1 j pj = j c si j = 1, ..., r .
pi pj = (i j )1 ci cj = ij pour 1 i, j r . On compl` ete la matrice P pour former une base orthonorm ee de I K m , P = [p1 pm ] et i, j {1, ..., m} pi pj = ij . V erions DVS2 en calculant un el ement de la matrice P AQ : Si 1 i, j r , [P AQ]ij = pi cj = j ij . Si j > r , [P AQ]ij = 0 car alors cj = 0m . Si j r et si i > r , pi cj = j pi pj = 0.
Donc, P AQ = .
V erions que les colonnes de P sont les vecteurs propres de AA : AA P = AIn A P = AQQ A P = AQ = P 2 0 0 1 . .. . . . = P . 2 0 0 r 0 0 0
Par construction les colonnes de Q sont vecteurs propres de A A. Remarque : Dans la pratique :
Le nombre de valeurs singuli` eres fournit le rang de la matrice. Ces valeurs singuli` eres de V . sont ordonn ees, 1 . . . r > 0, ce qui induit un ordre sur les colonnes de U et
Dans le calcul de U et de V , on ne calcule les vecteurs propres de AA ou de A A que pour celle de ces matrices de plus petite dimension, les vecteurs propres de lautre on calcule les vecteurs propres v 1 , . . . , v r de A A, ceux de AA associ es aux valeurs propres non nulles, sont donn es par
1/2 U = AV r ,
se d eduisent par des formules de transition (*) et (**). Par exemple, si m n,
( )
o` u r
1/2
= (r )1 = diag (1/1, . . . , 1/r ). Dans lautre cas, on utilise

1/2 V = A U r .
1/2
()
J.F. Durand
44
Pour obtenir la DVS pleine il faut calculer les vecteurs propres associ es aux valeurs propres nulles. Corollaire 1 : La d ecomposition en valeurs singuli` eres donne
r
A A = V r V =
i=1 r
i i 2 iv v ,
AA = U r U =
i=1
i i 2 iu u .
Cas particulier : DVS dune matrice hermitienne semi-d enie positive A A = AA = A2 et les valeurs singuli` eres de A sont egales ` a ses valeurs propres. Alors, U = V dans la DVS1 et la d ecomposition de Schur co ncide avec la DVS (modulo le signe des vecteurs propres). Corollaire 2 : Soit A m n avec rang(A) = r . La DVS2 de A s ecrit A = P Q, avec ] et Q = [V |V ]. Alors, P = [U |U = E (v r+1 , ..., v n ), Ker A = Ker A A = Im V Im A = Im AA = Im U = E (u1 , ..., ur ), Im A = Im V = E (v 1 , ..., v r ) = {Ker A} , = E (ur+1, ..., um ) = {Im A} , Ker A = Ker AA = Im U o` u E (xi , . . . , xj ) d esigne lespace vectoriel engendr e par les vecteurs xi , ..., xj . Preuve de la premi` ere egalit e Ax = 0 A Ax = 0. Donc Ker A = Ker A A. Comme A = U r V dapr` es la DVS1, x Ker A U r V x = 0. Comme (AB = 0) (A AB = 0), on obtient : r U U r V x = 0 r V x = 0 V x = 0, puisque r est inversible. x orthogonal aux vecteurs colonnes de V , cest-` a-dire ` a (v 1 , ..., v r ), appartient ` a E (v r+1, ..., v n ). 2
1/2 1/2 1/2 1/2
Corollaire 3 : Il y a dimportantes projections orthogonales associ ees ` a la d ecomposition en valeurs singuli` eres. Soit A suppos ee de rang r et A = U r V = P Q , la DVS de 45
J.F. Durand
1/2
A. Rappelons les partitions colonnes de P et de Q ] , P = [U |U ]. Q = [V |V
Les r esultats sur la projection orthogonale pr esent es dans lexemple fondamental et qui seront d emontr es au chapitre 4 doivent etre associ es au corollaire 2 pour donner V V = projection orthogonale sur {Ker A} = Im A V = projection orthogonale sur Ker A V UU = projection orthogonale sur Im A U = projection orthogonale sur {Im A} = Ker A U ements propres de la matrice de projection sur Im A Corollaire 4 : El Proposition : Soit A = U r V = P Q , la DVS de la matrice A de rang r . La matrice PA = UU est diagonalisable, ses vecteurs propres sont les colonnes de P et donc orthonorm es, ses valeurs propres sont 0 ou 1. Les vecteurs propres associ es ` a la valeur . De plus, propre 1 sont les colonnes de U ceux associ es ` a 0 sont les colonnes de U trace(PA ) = rang (PA ) = rang (A). carr ee unitaire donne P = P 1 et 2 ] est Preuve : Bien s ur, PA = UU hermitienne est diagonalisable. Le fait que P = [U |U Ir 0 0 0
1/2
PA = P En outre, trace(PA ) = trace(Ir ) = r . 2
P 1 .
2.5.2
D ecomposition polaire
matrice H hermitienne semi d enie positive telles que A = UH . 2
ee unitaire U et une Proposition : Soit A carr ee n n, alors il existe une matrice carr
Preuve : Si A = P Q est carr ee n n, alors P , et Q de la DVS2 sont carr ees n n. On pose . A = P Q = (P Q ) (QQ ) = U H avec U = P Q et H = QQ . U est unitaire comme produit de matrices unitaires et H est par construction hermitienne semi d enie positive. 2 Remarque : Le nom de d ecomposition polaire rappelle la repr esentation polaire dun
J.F. Durand
46
nombre complexe z = ei ( r eel positif ou nul et ei nombre complexe unitaire). Il y a analogie entre ces deux id ees car les valeurs propres de H sont des nombres r eels non n egatifs, et les valeurs propres de U sont des nombres complexes unitaires. Pour une matrice A normale, lanalogie est encore plus stricte : une valeur propre de A est de la forme = ei o` u est une valeur propre de H et ei est valeur propre de U . En eet, par Schur, pour A normale, de valeurs propres {j eij }j , V unitaire telle que A = V diag(ei1 , . . . , ein ) diag(1 , . . . , n )V = V diag(ei1 , . . . , ein )V (V diag(1 , . . . , n ) V ) = UH .
2.6
Factorisation
de
Cholesky
dune
matrice
sym etrique d enie positive

sup erieure avec Tii > 0 telle que Proposition : Soit A n n r eelle sym etrique, d enie positive. Il existe T triangulaire A = T T . Cette d ecomposition est unique. Int er et A sym etrique d enie positive est souvent utilis ee en statistique comme m etrique sur I Rn et d enit ainsi le produit scalaire : x, y I Rn , < x, y >A = y Ax. La d ecomposition de Cholesky de A donne < x, y >A =< T x, T y >In . Changer de m etrique revient donc ` a eectuer un transformation lin eaire des donn ees. Cette transformation nest pas unique : une autre transformation est obtenue par la factorisation A = A1/2 A1/2 o` u A1/2 est la matrice hermitienne d enie positive obtenue ` a partir de la d ecomposition en valeurs singuli` eres de la matrice A hermitienne d enie positive, ou par la d ecomposition de Schur, voir la propri et e H4 des matrices hermitiennes. Cette d ecomposition donne < x, y >A =< A1/2 x, A1/2 y >In . 47
J.F. Durand
2.7
Exercices
Exercice 1 : Soient un angle exprim e en radians et w dont lexpression dans la base canonique est w= cos(/2) sin(/2) .
1.1 Calculer en fonction de le vecteur v I R2 d eduit de w par une rotation de /2. 1.2 Soit x un vecteur de I R2 muni du produit scalaire usuel. a) Calculer u, projection orthogonale de x sur Im v . Montrer que u = vv x. On note P = vv , la matrice de la projection orthogonale sur Im v . V erier les deux propri et es qui caract erisent un projecteur orthogonal. Calculer P en fonction de . Quel est le rang de P ? Calculer les valeurs propres et les vecteurs propres de P . b) Soit y le vecteur d eduit de x par sym etrie par rapport ` a la droite vectorielle Im w = {Im v } . Exprimer y en fonction de u et de x. On note Q la matrice telle que y = Qx. Exprimer Q en fonction de v et v erier que Q= cos() sin() .
sin() cos()
Quelles sont les propri et es de Q appel ee matrice de r eexion par rapport ` a {Im v } ? Exercice 2 : D emonstration du th eor` eme de Schur : soit triangulaire sup erieure dont les el ements diagonaux soient 1 et 2 , valeurs propres de A. En supposant ce r esultat vrai ` a lordre n 1 montrer quil est vrai ` a lordre n. Soit A C I nn , construire pour n = 2, une matrice U carr ee unitaire telle que T = U AU
Exercice 3 : Montrer quune matrice triangulaire sup erieure normale est diagonale.
Exercice 4 : La norme de Frob enius dune matrice A etant d enie par A
(trace(A A))1/2 , montrer que pour une matrice A carr ee quelconque, on peut mesurer l ecart de A ` a la normalit e gr ace ` a la norme de Frob enius de la partie hors diagonale N de la matrice T dans la d ecompsition de Schur de A, N
J.F. Durand
2 F
= A
2 F
. |i |2 = 2 (A) .
48
Cette quantit e ne d epend pas du choix de U , plus 2 (A) est proche de 0, plus A est pr` es d etre normale. Dire pourquoi une autre mesure de l ecart de A ` a la normalit e est AA A A
2 F.
Exercice 5 : D ecomposer la matrice
en valeurs singuli` eres. Dans lespace vectoriel I R3 muni de la base canonique, repr esenter Im A et {Im A} . Donner lexpression des matrices de projection orthogonale sur Im A, {Im A} , Im A et {Im A } .
1 2 A= 0 0 , 1 2
Exercice 6 : Crit` ere de Sylvester On se propose de montrer que pour A sym etrique r eelle, {A d enie positive} { les mineurs principaux sont positifs }. matrice principale de A, not ee Ak , la matrice k k obtenue en supprimant les n k Soit A = [aij ] une matrice r eelle sym etrique, n n, d enie positive. On appelle k i` eme
derni` eres lignes et derni` eres colonnes de A. Remarquer que An = A. On appelle k i` eme mineur principal de A, le d eterminant de Ak , not e d et(Ak ). 6.1. a. Montrer que aii > 0 pour i = 1, . . . , n. b. Ecrire la d ecomposition spectrale de A. Calculer d et(A) en fonction des valeurs propres de A. Dire pourquoi d et(A)> 0 et A1 est sym etrique d enie positive. 6.2. Soient B et P les matrices (n + 1) (n + 1) d enies par A b In A1 b B= , P = . b 0 1 a. Calculer C = P BP par blocs. Quel est le spectre de C ? Montrer que d et(C ) = d et(B ) = d et(A) ( b A1 b). b. Montrer que d et(B ) d et(A) et que l egalit e a lieu si et seulement si b = 0. c. Montrer que B est d enie positive si et seulement si C est d enie positive. d. Montrer que d et(B ) > 0 si et seulement si C est d enie positive. e. D eduire des pr ec edentes questions que d et(B ) > 0 si et seulement si B est d enie positive 49
J.F. Durand
6.3. Montrer que pour A sym etrique, {A d enie positive} {d et(Ak ) > 0 , k = 1, . . . n}. a. Sens = : on note Ek la matrice k n, d enie par blocs par Ek = [Ik 0k(nk)], o` u Ik est la matrice identit e dordre k . Calculer Ak en fonction de A (suppos ee d enie positive) et de Ek . En d eduire que toute matrice Ak est d enie positive et donc que tout mineur principal est positif. b. Sens = : exprimer les blocs de Ak+1 en fonction de Ak , ak+1 k+1 et dun vecteur r ecurrence que toutes les matrices principales sont d enies positives. Exercice 7 : Soit la matrice X= et le vecteur y= 1 1 1 . 1 -1 0 1 0 1 0 1 1 bk+1 ` a d eterminer. V erier que A1 est sym etrique d enie positive. Montrer par
1. Calculer la d ecomposition en valeurs singuli` eres (dvs) maigre de X (les valeurs singuli` eres de X etant class ees par ordre d ecroissant). Puis la dvs pleine. 2. Quel est le rang de X ? Expliciter le noyau de X. Ecrire la matrice de la projection orthogonale sur Ker X , puis le vecteur projection de y sur Ker X . 3. Ecrire lexpression analytique du plan vectoriel Im X , lexpression de la matrice de la projection orthogonale sur Im X , puis le vecteur projection de y sur Im X .
J.F. Durand
50
Chapitre 3 Normes de Matrices

En Analyse Num erique, en Statistique et dans dautres disciplines, les inconnues de certains probl` emes sont des vecteurs ou des matrices. De nombreuses m ethodes consistent ` a construire un el ement dun sous espace vectoriel le plus proche dun autre el ement qui lui, est connu. Il est donc n ecessaire de savoir mesurer des distances entre vecteurs ou entre matrices. Pour cela on peut d enir une norme sur lespace vectoriel auquel ils appartiennent.
3.1
Normes de vecteurs
Soit E un I K -espace vectoriel (I K est I R ou C I ). Une norme sur E est une application . de E dans I R+ telle que x = 0 x = 0E x = || x x+y x + y x E, I K x, y E .
Une norme d enit une distance entre deux el ements de E par d(x, y ) = x y . Ainsi, la norme de x est la distance de x au vecteur nul d(x, 0E ) = x . 51
3.1.1
Normes de H older
Lorsque E est de dimension nie, E = I K n , une norme de H older ou p-norme (p 1) est d enie par
1/p
=
i=1
|xi |
Les deux premiers axiomes sont evidents, on montre le troisi` eme par une in egalit e dite de H older
n
i=1
xi yi x
1 1 + = 1. p q
Un cas particulier important est celui o` u p = q = 2 qui donne lin egalit e de CauchySchwarz. Les 1, 2, normes sont les plus usuelles
n
=
i=1
|xi |
1/2
=
i=1
|xi |
= max |xi | .
i=1,n
La 2-norme est dite Euclidienne car elle est associ ee ` a un produit scalaire < ., . > sur E ,
< x, x > .
La boule unit e Bp = {x E | x la fronti` ere Sp = {x E | x

p
Bp ). Lorsque E = I R2 , la gure ci dessous repr esente les sph` eres unit es S1 , S2 et S .

J.F. Durand
lensemble des el ements de Bp qui nappartiennent pas ` a Sp ( est remplac e par < dans 52
= 1} est la sph` ere unit e. La boule unit e ouverte est
1} est un compact (ferm e, born e) de E dont

1 Sinf
S2 S1
Figure 3 : sph` ere unit e pour les p-normes usuelles, p = 1, p = 2 et p = +. Toutes les normes de I K n sont equivalentes, cest ` a dire si il existe des constantes positives c1 et c2 telles que c1 x La relation pr ec edente s ecrit n( p q ) x
1 1
et
sont deux normes
c2 x
p > q 1.
Supposons que x est une approximation de x, pour une norme donn ee on dit que abs = x x est lerreur absolue tandis que, si x = 0 rel = est lerreur relative. En particulier, si xx 10p x alors la plus grande composante a approximativement p d ecimales correctes. On dit quune suite {xk } de vecteurs converge vers x si
k
xx x
lim xk x = 0 .
Les normes sur I Kn etant equivalentes, la notion de convergence ne d epend pas de la norme choisie. 53
J.F. Durand
3.1.2
G en eralisation de la norme Euclidienne, la M -norme
Il est possible dutiliser des produits scalaires d enis a ` partir de formes hermitiennes d enies positives, qui sont plus g en eraux que le produit scalaire usuel pr esent e dans la section 1.10. En statistique en particulier, de tels produits scalaires sont utilis es pour d enir des normes, des notions dorthogonalit e et de projection plus adapt ees aux probl` emes etudi es. En dimension nie, E = C I n (ou I Rn ), la donn ee dune matrice M hermitienne (sym etrique) d enie positive, appel ee une m etrique, permet de d enir un produit scalaire
< x, y >M = y Mx = < Mx, y >In .
La norme vectorielle Euclidienne sur (E, M ) est d enie par
< x, x >M =
x Mx .
Remarques : R1 : Le produit scalaire usuel et la 2-norme vectorielle associ ee d enis dans la section 1.10 correspondent ` a M = In cest ` a dire ` a la m etrique d enie par la matrice identit e. R2 : (I Rn , M ) est aussi lespace ane dorigine o attach e ` a lespace vectoriel (I Rn , M ). On d enit pour deux points m1 et m2 , om1 = x, om2 = y , et la M -distance entre m1 et m2 par dM (m1 , m2 )2 = (y x) M (y x). La sph` ere unit e SM = {x E | x Mx = 1} est lensemble de niveau 1 de la forme 1 5 3 4 est une ellipse dont les axes principaux sont les vecteurs propres de M . Par exemple, la gure suivante montre la sph` ere unit e de (I R2 , M =
J.F. Durand

quadratique d enie positive x x
2 M
= x Mx.
3 ) qui 7
54
S M
Figure 4 : sph` ere unit e pour lespace (I R2 , M ). Dans le cas n = 2 r eel, la ligne de niveau k dune forme quadratique d enie positive est donc une ellipse de centre lorigine des coordonn ees. Si la forme quadratique est semi d enie positive (rang M = 1), lensemble de niveau k est form e de 2 droites parall` eles ` a Ker M . Le graphe G = {(x, y = x Mx) I R3 | x I R2 } est repr esent e selon le cas, par :
e3
e3
e1 x x1
e2
e1
O e2
x2
x2
x1
Figure 5 : graphe dune forme quadratique d enie positive puis semi d enie positive de (I R2 , M ). Lorthogonalit e au sens de M ou M -orthogonalit e entre deux vecteurs s ecrit < x, y >M = y Mx = 0 . 55
J.F. Durand
3.2
Normes de matrices
Lanalyse dalgorithmes matriciels n ecessite souvent lusage de normes matricielles. Par exemple, telle m ethode de r esolution de syst` emes lin eaires pourra etre peu performante si la matrice des coecients est proche de la singularit e. Dautre part en statistique exploratoire de donn ees multivari ees, il arrive que lon d esire approcher une matrice X par une matrice X de rang plus petit. On d esire donc quantier la notion de distance sur lespace vectoriel des matrices de dimension n p not eI K np . Il y a deux fa cons de construire une norme de matrice : la subordination ` a une
norme vectorielle ou la vectorisation du tableau de nombres. La premi` ere fait appel ` a lapplication lin eaire associ ee ` a la matrice. La seconde consiste ` a identier les deux espaces vectoriels I K np et I K np gr ace ` a lop erateur vec. Dans cette derni` ere approche, nous n etudierons que les normes Euclidiennes.
3.2.1
Normes subordonn ees ` a des normes vectorielles
G en eralit es Soient (E, .

E)
et (F, .
F)
deux I K espaces vectoriels norm es de dimension quel-
conque pas forc ement nie. Soit f une application lin eaire de E dans F f (x + y ) = f (x) + f (y ) Il est de plus grand int er et de comparer x
E
, I K, x, y E .
F.
et f (x)
Supposons x = 0E , et construisons le rapport r (x) = f (x) F . x E
Ce rapport est invariant par homoth etie, r (x) = r (x), I K {0}. Proposition : Pour que lapplication lin eaire f de E dans F soit continue, il faut et il sut que r (x) soit major e. Proposition : Sur L(E, . continues de (E, .
E)
2 .
F)
E ; F,
espace vectoriel des applications lin eaires
dans (F, . f
E,F
F ),
= sup
x=0E
f (x) F = sup f (x) x E x E =1 56
J.F. Durand
est une norme dite subordonn ee aux normes vectorielles . f (x)

F
et . 2
F.
Comme corollaire,
E,F
xE.
Normes matricielles subordonn ees Soient E = I K n et F = I K m munis de la m eme p-norme .

p
pour simplier. A chaque
choix dune base E = {ej }j =1,n pour E et dune base F = {fi }i=1,m pour F , lapplication lin eaire f est caract eris ee par la matrice A = [ai j ] de dimensions m n telle que
m
f (ej ) =
i=1
aij fi .
Les el ements de la j i` eme colonne de A sont les composantes du vecteur f (ej ) dans F . Les composantes du vecteur y = f (x) dans la base F sont calcul ees ` a partir des composantes de x dans la base E par le produit matriciel y = Ax . Toute application lin eaire f de I K n dans I K m munis de nimporte quelle norme, etant continue, on d enit
= sup
x=0E
Ax p = sup Ax x p x p =1
= Ax
pour un x de la sph` ere unit e de I K n . On obtient la relation Ax

p
xI Kn .
Remarquons que la matrice identit e est de p-norme egale ` a 1 quelle que soit la valeur de p. On verra quil existe dautres normes matricielles qui donnent des valeurs di erentes. Le calcul des normes p = 1 et p = est tr` es simple
m
= max
j =1...n
i=1 n
|aij | |aij | .
A On v erie imm ediatement que A
= max
i=1...m
j =1
= A 1 . Le calcul de la 2-norme nest pas aussi
explicite. Son calcul n ecessite lusage des propri et es des matrices hermitiennes. 57
J.F. Durand
La 2-norme subordonn ee Pour A C I mn , il sagit de maximiser la quantit e r (x) = Ax 2 . x 2
propres de A A ordonn es par ordre d ecroissant des valeurs propres, 1 . . . n 0.

n n
Un vecteur x C I n se d ecompose sur la base orthonorm ee {v i } form ee par les vecteurs
x=
i=1
xi v i
et
x =
j =1
xj v j .
Lorthonormalit e de la base choisie conduit ` a n r (x) =

2 i
i |xi |2 1 . 2 i |xi |
Le maximum est r ealis e pour x = v 1 , premier vecteur propre. Pour r esumer A

2
= 1 =
(A A) ,
o` u 1 est la plus grande valeur singuli` ere de A et (A A) est le rayon spectral de A A. Si de plus, A est hermitienne, alors A
2
= (A) .
3.2.2
Normes Euclidiennes par vectorisation
Lidentication de I K mn avec I K mn gr ace ` a lop erateur vec, permet de d enir par vectorisation, des normes matricielles associ ees aux p-normes de H older. Cependant, nous ne pr esenterons que le cas p = 2, Euclidien, qui conduit ` a la norme de Frob enius. Norme de Frob enius On a vu pr ec edemment dans la propri et e P2 de lop erateur vec, que pour deux matrices X et Y de C I mn , trace(Y X ) =
n j =1 m i=1
y ij xij = vec (Y )vec(X ) =< vec(X ), vec(Y ) >,
ce qui d enit le produit scalaire usuel sur Mnp (C I ) par < X, Y >= trace(Y X ).
J.F. Durand
58
La norme de Frob enius de A C I mn est d enie par

n m 1/2 n 1/2
trace(A A)
=
j =1 i=1
|aij |
=
j =1
Aj 2 2
o` u Aj est la j i` eme colonne de A. On v erie que cette norme Euclidienne nest pas subordonn ee ` a une norme vecto rielle car In F = n alors que le r esultat est 1 pour toute p-norme subordonn ee. Lin egalit e de Cauchy-Schwarz s ecrit : |trace(Y X )|2 trace(X X )trace(Y Y ) ; egalit e si Y = kX . La propri et e P4 de la trace permet d ecrire, si rang (A) = r ,
n r
A Il en r esulte que
2 F
=
i=1
i (A A) =
i=1
2 i .
A Comme cons equence, il vient Ax

2
n A
On dit alors que la norme de Frob enius et la norme vectorielle Euclidienne sont compatibles. Norme de Hilbert-Schmidt En analyse statistique des donn ees on est amen e ` a d enir des m etriques sur chacun des espaces vectoriels associ es aux lignes et aux colonnes dune matrice r eelle. On d enit le triplet (I Rnp , M, D ) par la donn ee de I Rnp espace vectoriel des matrices r eelles n p, M m etrique Euclidienne sur lespace I Rp des lignes,
D m etrique Euclidienne sur lespace I Rn des colonnes. Dapr` es P11, M D est une m etrique sur I Rnp et dautre part, 59
J.F. Durand
trace(Y DXM ) = vec (Y )(M D )vec(X ) =< vec(X ), vec(Y ) >M D . Le produit scalaire de Hilbert-Schmidt associ e au triplet (I Rnp , M, D ) est obtenu par identication de ce triplet ` a le.v. Euclidien (I Rnp , M D ). Il est d eni par < X, Y >M D = trace(Y DXM ). X
M D
La norme de Hilbert-Schmidt associ ee est alors = trace(X DXM ).
De fa con sym etrique, X Cas particuliers
M D
trace(XMX D ) = X
D M .
(I Rnp , M = Ip , D = In ). Alors, M D = Inp . X D.

2 I p I n
On retrouve les produits scalaires usuels et la norme de Frob enius de X , = trace(X X ) = X

2 F.
(I Rnp , M = Ip , D ). La structure de M D est bloc-diagonale, chaque bloc etant Dans ce cas, le carr e de la norme de X sexprime comme la somme des carr es des D -normes des colonnes X i , X
2 I p D
= trace(X DX ) = X
2 D D
p i=1
Xi
2 D.
(ES , D , D ), o` u ES est le s.e.v. de I Rnn form e des matrices sym etriques. Alors, = trace((XD)2 ).
2 F
Remarque X
2 M D
= D 1/2 XM 1/2
On retrouve la norme Euclidienne usuelle des matrices par transformation des lignes et des colonnes.
3.2.3
Normes matricielles sous multiplicatives
Les normes matricielles consid er ees ont et e d eduites des normes vectorielles soit par subordination soit par vectorisation. Ces normes sont construites sur lespace vectoriel des matrices rectangulaires, cest ` a dire que seules les op erations + et multiplication par un scalaire sont d enies. Cependant une autre op eration joue un r ole fondamental : la multiplication entre matrices. Que peut-on dire de la norme dun produit AB ? La d enition et la proposition suivantes permettent de r epondre ` a cette question.
J.F. Durand
60
Une norme matricielle est dite sous multiplicative si AB A B A C I mn , B C I np .
Proposition : La norme de Frob enius ainsi que toute p-norme sont des normes sous multiplicatives. bordonn ee A appliqu ee ` a 2 (Preuve en exercice). Remarquons que lon peut construire des contre-exemples. Ainsi la norme non su
= max |aij | (v erier que cest une norme obtenue par vectorisation)
i,j
A= donne AB
1 1 1 1
> A
Proposition : A toute norme matricielle sous multiplicative on peut toujours associer une norme vectorielle qui lui soit compatible. Preuve : Soit A 2
une norme matricielle de la matrice A. Pour une maAB = [x, 0, . . . , 0] o` u les colonnes sont nulles sauf la x = X est une norme vectorielle. Donc, x . 2 X = A A B . A un vecteur
trice B telle que le produit AB existe on a x associons la matrice X premi` ere egale ` a x. Il est clair que Ax = [Ax, 0, . . . , 0] = AX A
Proposition : Quelle que soit la norme matricielle . sous multiplicative, pour une matrice carr ee A on a (A) A . 2
Preuve : Pour le vecteur Au = u, on choisit une norme vectorielle compatible et || u = u = Au A u . 2.
Quelle que soit la valeur propre, || A , ce qui ach` eve la preuve multiplicatives.
Cons equence : Si A est hermitienne, la 2-norme est la plus petite des normes de A sous
3.2.4
Normes unitairement invariantes
Dans la section 1.11 la notion de matrice unitaire (orthogonale, dans le cas r eel) a d ej` a et e expos ee dans le cadre du produit scalaire usuel. Si lon dispose dun M -produit scalaire, la d enition de matrices M -unitaires est imm ediate. 61
J.F. Durand
M -unitaire si les colonnes de U sont des vecteurs 2 ` a 2 M -orthogonaux et de M -norme unit e, cest ` a dire si U MU = In . Lorsque U et M sont ` a coecients r eels ont dit que U est M -orthogonale, dans ce cas U MU = In . Une matrice est unitaire (orthogonale) si M = Im .
Une matrice U de C I mn (m n), C Im etant muni de la m etrique Euclidienne M , est
Les normes Euclidiennes ne changent pas lorsque la matrice concern ee est multipli ee par une matrice orthogonale ou unitaire. Normes unitairement invariantes : Voici la suite des propri et es P1, P2 et P3 concernant les matrices unitaires d enies dans la section 1.11 : P4 : La norme vectorielle Euclidienne est unitairement invariante Ux Ux transformation unitaire. UAV = A , U, V unitaires, V carr ee.
2
= x 2,
P5 : Pour les M - normes vectorielles, on obtient

M
U unitaire.
= x 2,
P6 : La 2-norme et la norme de Frob enius sont des normes matricielles invariantes par
U M -unitaire.
3.3
Suites de matrices
Comme pour les suites de vecteurs, en consid erant lensemble C I mn comme un espace vectoriel de dimension mn, la convergence dune suite de matrices est ind ependante de la norme choisie. Elle equivaut ` a la convergence des mn suites de scalaires form ees par les el ements des matrices. Le th eor` eme suivant donne les conditions n ecessaires et susantes pour que la suite des puissances dune matrice carr ee donn ee converge vers la matrice nulle. Le deuxi` eme th eor` eme concerne la convergence de la s erie g eom etrique de matrices carr ees. Proposition : Soit B une matrice carr ee. Les conditions suivantes sont equivalentes.
J.F. Durand
62
(i) (ii) (iii) (iv)
lim B k = 0.
k
lim B k v = 0 (B ) < 1.
pour tout vecteur v . 2
B < 1 pour au moins une norme matricielle subordonn ee . .
Proposition : La s erie I + B + B 2 + . . . converge vers (I B )1 si et seulement si (B ) < 1 . 2
3.4
Conditionnement dune matrice
En analyse num erique matricielle ainsi quen statistique, les donn ees sont g en eralement entach ees derreurs et parfois une l eg` ere perturbation sur les donn ees peut entra ner une grande perturbation sur la solution du probl` eme consid er e. Prenons lexemple d u` a R.S. Wilson du syst` eme lin eaire 10 7 8 7 x1 32 7 5 6 5 x2 23 de solution 8 6 10 9 x = 33 3 7 5 9 10 x4 31 1 1 1 . 1
Si lon perturbe l eg` erement le second membre b dune erreur relative de lordre de 1/200 pour obtenir b = [32.1, 22.9, 33.1, 30.9], alors, la solution du nouveau syst` eme
(d et(A) = 1), cest ` a dire bien que ses vecteurs colonnes soient lin eairement ind ependants,
devient x = [9.2, 12.6, 4.5, 1.1] ! ! Bien que la matrice A du syst` eme soit inversible
cependant, les colonnes de A sont deux ` a deux presque colin eaires. Le statisticien mesure cette notion par la proximit e ` a 1 ou ` a -1 du coecient de corr elation lin eaire r . Le coecient r entre A1 et A2 est de 0.985. Il est de 0.90 entre A3 et A4 . Cette colin earit e quasi parfaite conf` ere ` a la solution du syst` eme lin eaire une forte instabilit e num erique vis ` a vis de petites perturbations des donn ees. Cette notion est mesur ee num eriquement par le conditionnement dune matrice inversible : soit . une norme matricielle, le conditionnement de A r eguli` ere associ e` a cette norme, est le nombre cond(A) = A A1 .
Propri et es : P1 : cond(A1 ) = cond(A) et cond(A) = cond(A). P2 : cond(A) 1 si le conditionnement est calcul e pour une norme sous multiplicative. 1 o` u 1 et n sont respectivement la plus grande et la plus petite P3 : cond2 (A) = n des valeurs singuli` eres de A. 63
J.F. Durand
P4 : cond2 (A) = 1 si et seulement si A = Q o` u est un scalaire et Q est une matrice unitaire. Dans les propri et es 3 et 4 on note condp le conditionnement associ e ` a la p-norme matricielle. Remarque : on dira quune matrice est bien conditionn ee si son conditionnement et e 4 montre que les matrices unitaires nest pas beaucoup plus grand que 1. La propri sont les mieux conditionn ees possibles. En analyse num erique comme en statistique on utilisera le plus possible des syst` emes de vecteurs orthonorm es. Proposition : Soit A une matrice inversible. Soient x et x + x les solutions des syst` emes lin eaires Ax = b On a et A(x + x) = b + b .
x b cond(A) . 2 x b Proposition : Soit A une matrice inversible. Soient x et x +x les solutions des syst` emes lin eaires Ax = b et (A + A)(x + x) = b .
On a
A x cond(A) . x + x A
3.5
Exercices
Exercice 1 : Soit E = I R2 muni de la m etrique euclidienne M dans la base canonique {e1 , e2 } 1 M= 4 5 3 3
V erier que M est une m etrique euclidienne. Calculer les axes principaux de la sph` ere unit e BM = {x E | x Mx = 1} . Indications : Faire un changement de rep` ere de telle fa con que dans le nouveau rep` ere {u1 , u2}, l equation de BM soit de la forme
2 2 y1 y2 + = 1. a2 b2
J.F. Durand
64
On poura aussi bien poser le probl` eme sous forme dun probl` eme doptimisation du carr e de la norme euclidienne usuelle avec contrainte de type egalit e.
Exercice 2 : Montrer que la norme de Frob enius est sous multiplicative ainsi que toute p norme subordonn ee.
65
J.F. Durand
J.F. Durand
66
Chapitre 4 Inverses G en eralis es, Projecteurs M -Orthogonaux

Lorsque les colonnes (lignes) dune matrice carr ee A sont lin eairement ind ependantes, linverse A1 de A est d enie par A1 A = AA1 = I . Si A est inversible, alors le syst` eme lin eaire Ax = y ( )
dit de Cramer, admet une solution unique x = A1 y . M eme lorsque A nest pas carr ee, le syst` eme (*) admet une solution pas forc ement unique, si y appartient ` a lespace vectoriel Im A engendr e par les colonnes de A. La notion dinverse g en eralis e dune matrice rectangulaire permet de construire de telles solutions. On supposera maintenant que toutes les matrices sont r eelles car r esoudre un syst` eme lin eaire sur C I revient ` a r esoudre deux syst` emes lin eaires sur I R associ es aux parties r eelles et imaginaires.
4.1
4.1.1
Inverses G en eralis es
D enition et propri et es
Soit A une matrice n p, A inverse g en eralis e de A, est une matrice p n telle que D enition 1 : D enition 2 : x = A y est solution de Ax = y , y ImA. AA A = A.
Equivalence des d enitions 67
AA A = A AA Ax = Ax Soit y = Ai une colonne de A , y ImA AA y = y , y = Ax (*) A y est sol. de (*) 2 AA Ai = Ai , AA A = A. 2 i
D enition 2 D enition 1

D enition 1 D enition 2
Construction et non unicit e dun inverse telles que P P = P P = In , QQ = Q Q = Ip et A=P r

1/2
Soit A une matrice n p telle que rang (A) = r . Dapr` es la DVS 2, P, Q orthogonales r
1/2
0 0 r
1/2
Q . 0 0 r
1/2
AXA = A P
0 0
Q XP
Q =P
0 0
Q .
Multipliant ` a gauche et ` a droite par P et Q respectivement, r

1/2
0 0
Q XP
1/2
0 0
1/2
0 0
En d ecomposant par blocs, Q XP = T12 , T21 , T22 arbitraires. Alors, A =Q
T11 T12 T21 T22
, AXA = A T11 = r
1/2
et
1/2
T12 T22
T21
P ,
avec T12 , T21 , T22 arbitraires et on na pas lunicit e de linverse. Quelques propri et es de A P1 : rang (A ) rang (A). P2 : Si A est carr ee inversible alors A = A1 . 1/2 1/2 r 0 r T12 P3 : AA = P Q Q P = P 0 0 T21 T22 et AA est idempotente car (AA )2 = AA . P4 : A A = Q Ir
1/2 T21 r
Ir r T12 0 0
1/2
P ,
0 0
Q et A A est idempotente.
P5 : rang (A) = rang (AA ) = rang (A A). P6 : A = A(A A) A A.

J.F. Durand
68
En eet, dapr` es la d enition 2, A A(A A) A A = A A. On conclut en utilisant A AB = A AC AB = AC . P7 : Le projecteur orthogonal sur Im A PA = A(A A) A , matrice sym etrique idempotente est la matrice de projection orthogonale sur Im A, invariante quel que soit linverse g en eralis e utilis e. Soit A = U r V = P Q la DVS de A, alors PA = A(A A) A = UU = P Ir 0 0 0 P 1 .
1/2
2 PA = A(A A) A A(A A) A = A(A A) A = PA , dapr` es P6. On sait que PA PA = A(A A) A A[(A A) ] A = PA dapr` es P6. En transposant PA = PA PA = PA et PA est sym etrique. Soient P1 = A(A A) 1 A , P1 A = A, et P2 = A(A A) 2 A , P2 A = A. Donc P1 A = P2 A A P1 = A P2 A A(A A) 1 A = A A(A A)2 A
et PA est invariant quelque soit linverse g en eralis e utilis e car

P1 = A(A A) 1 A = A(A A)2 A = P2 .
Enn, PA A = A dapr` es P6, ce qui montre que PA est le projecteur sur Im A. De plus, un inverse g en eralis e de A A s ecrit (A A) = Q ce qui implique PA = P Ir 0 0 0 P = UU .
1 T12 r T12
T22
P8 : Soit A un inverse g en eralis e de A. Une solution g en erale du syst` eme homog` ene Ax = 0 est : Ax=y est : P9 : Soit A un inverse g en eralis e de A et y Im A. Une solution g en erale du syst` eme P10 : Si A est un inverse g en eralis e de A, un inverse g en eralis e quelconque s ecrit G = A + V (I AA ) + (I A A)W , 69 G = A + U A AUAA , pour U , V , W arbitraires.
J.F. Durand
x = (I A A)u,
pour u arbitraire. pour u arbitraire.
x = A y + (I A A)u,
4.1.2
Inverse de Moore-Penrose
A n etant pas unique, on construit une matrice inverse particuli` ere appel ee inverse de Moore-Penrose qui poss` ede de bonnes propri et es. Soit A une matrice n p, A+ , inverse de Moore-Penrose de A, est une matrice p n v eriant les propri et es suivantes D1 : AA+ A = A. D2 : A+ AA+ = A+ . D3 : (AA+ ) = AA+ . D4 : (A+ A) = A+ A. Construction de linverse Soit A une matrice n p telle que rang (A) = r. Dapr` es la DVS 1, U, V orthogonales telles que A = U r V o` u U U = V V = Ir et r A+ = V r v erie les axiomes D1, D2, D3 et D4. Unicit e de linverse
+ + + + + Soit A+ es D2 et D3, A+ 1 et A2 , deux matrices inverses. Dapr` 1 = A1 AA1 = A1 (AA1 ) , + + + + + A+ 1 = A1 (A1 ) A = A1 (A1 ) (AA2 A) par D1 + + + + + + + + + + + + A+ 1 = A1 (A1 ) A (AA2 ) = A1 (A1 ) A AA2 = A1 (AA1 ) AA2 = A1 AA1 AA2 par D3 + + A+ 1 = A1 AA2 par D1. + + + + De m eme, A+ 2 = A2 AA2 = (A2 A) A2 par D2 et D4 + + + + + + A+ 2 = (A2 AA1 A) A2 = (A1 A) (A2 A) A2 par D1 + + + + + A+ 2 = A1 AA2 AA2 = A1 AA2 par D4 et D2. 1/2 1/2 1/2
= diag{1 , ..., r } avec i > 0. Do` u
U ,
Linverse de Moore-Penrose est donc unique. Propri et es de A+
P0 : Si A = kB alors A+ = k 1 B + avec k I R . P1 : A+ = A1 si A est inversible. P2 : (A+ )+ = A. P3 : (A )+ = (A+ ) . P4 : Si A est une matrice sym etrique et idempotente alors A+ = A.
J.F. Durand
70
P5 : AA+ et A+ A matrices sym etriques sont idempotentes. Ce sont les projecteurs orthogonaux respectivement sur Im A et sur Im A = {Ker A} . Soit A = U r V la DVS maigre de A, alors AA+ = UU et A+ A = V V . P6 : A, A+ , AA+ et A+ A sont des matrices de m eme rang. P7 : A = A AA+ = A+ AA . P8 : A+ = A (A+ ) A+ = A+ (A+ ) A . P9 : (A A)+ = A+ (A+ ) , (AA )+ = (A+ ) A+ .
1/2
P10 : A = A(A A)+ A A = AA (AA )+ A. P11 : A+ = (A A)+ A = A (AA )+ . P12 : Si A est une matrice de plein rang colonne, alors A+ = (A A)1 A . P13 : Si A est une matrice de plein rang ligne, alors A+ = A (AA )1 . P14 : A = 0 A+ = 0. P15 : AB = 0 B + A+ = 0. P16 : A+ B = 0 A B = 0. P17 : (A B )+ = A+ B + . P18 : Si y ImA, la solution de norme Euclidienne minimum de Ax = y , est x = A+ y . P19 : A AB = A C AB = AA+ C. P20 : Soient A n p, B n r , C p r telles que rang (A) = rang (B ) = rang (C ) = r et A = BC , alors A+ = (C + ) B + = C (C C )1 (B B )1 B .
4.2
Projecteurs M -orthogonaux
On a vu au chapitre 2 que P est un projecteur si P 2 = P (idempotence) et un projecteur orthogonal au sens du produit scalaire usuel si P est de plus, sym etrique. De plus, la DVS maigre de A = U r V permet de d enir PA = UU comme la matrice de projection orthogonale sur lespace engendr e par les colonnes de A. Ce projecteur s ecrit aussi PA = A(A A) A = AA+ gr ace aux inverses g en eralis es. En statistique, du on est souvent scalaire amen e usuel et 71 et ` a d enir bas es x
2 M 1/2
des sur
produits des
scalaires M,
di erents
produit
m etriques
M est une matrice sym etrique d enie positive, di erentes de lidentit e < x, y >M = y Mx = x Mx.
J.F. Durand
Soit lespace vectoriel Euclidien I E=I Rm muni dun M -produit scalaire et soit I E1 un
s.e.v. de I E tel que I E=I E1 I E1 o` uI E1 = {y I E | < y, x >M = 0 , x I E1 }. Pour
tout x de I E la d ecomposition
est unique. P est un projecteur M -orthogonal sur I E1 si et seulement si P x = x1 (I P )x = y 1 .
x = x1 + y1 , x1 I E1 , y1 I E1
La notion de M -orthogonalit e est li ee ` a une notion de sym etrie particuli` ere, la M sym etrie, plus g en erale que la sym etrie usuelle des matrices. Un matrice A I Rmm est M -sym etrique si
MA = A M ,
cest ` a dire si MA est sym etrique (car M est sym etrique). Pour r eel non nul, une matrice ( Im )-sym etrique est sym etrique au sens usuel. Propri et e caract eristique dun projecteur M -orthogonal Proposition : Un projecteur P est un projecteur M -orthogonal si et seulement si P est M -sym etrique. 2 Px I E1 ,
(I P )y I E1 au sens de M .
Preuve : Soit P un projecteur (P 2 = P ) sur I E1 tel que cest ` a dire, x P M (I P )y = 0 P M (I P ) = 0 P M = P MP. Puisque M est sym etrique, P M est aussi sym etrique, P M = MP . 2 x, y I E,
4.2.1
Projecteur M -orthogonal sur Im A
orthogonal sur lespace Im A engendr e par les colonnes de A, est la matrice m m

M A = A(A MA) A M .
Proposition : Soit A I Rmn et M une m etrique sur I Rm , M A projecteur M -
Ce projecteur est unique quel que soit le choix de linverse g en eralis e. Preuve : Soit x I R gauche par A M ,
m
d ecompos e en x = x1 + x2 sur Im A {Im A} . Multipliant ` a
A M x = A M x1 + A M x2 = A M x1 = A MA . Le syst` eme lin eaire

J.F. Durand
72
A MA = A M x admet des solutions puisque Im A MA = Im A M = Im A . Pour un choix dinverse g en eralis e, = (A MA) A M x ce qui donne x1 = A = A(A MA) A Mx et
M A = A(A MA) A M .
Pour montrer lunicit e, d ecomposons M par Cholesky, M = T T , et posons B = T A.

1 T triangulaire sup erieure est inversible et A = T 1 B . Alors M B (B B ) B T . La A = T
d ecomposition de Cholesky est unique et B (B B ) B ne d epend pas de linverse g en eralis e choisi (propri et e P7 des inverses g en eralis es). 2 Cons equence : Dans la pratique, l ecriture du projecteur utilise linverse de MoorePenrose M = A(A MA)+ A M et, lorsque A est de plein rang colonne M = A A A(A MA)1 A M . Cas particulier 1 : A(A A)+ A = AA+ . Cas particulier 2 : Les colonnes de A sont M -orthogonales A MA = diag ( A1
2 M, . . . ,
M = I , o` u est un r eel positif.
Pour tout positif, le projecteur est le projecteur orthogonal usuel A(A A) A =
An
2 M) .
Dans ce cas ImA est de dimension n suppos e plus petit que m. Le projecteur sur ImA se d ecompose en la somme des projecteurs sur chacun des vecteurs de la base A1 , . . . , An
y Thorme des 3 perpendiculaires ( A=[ A , A ] )
^ 1 A1 M ^ y 2 = A2 1 2
y =
y y
^ 2
A y2
^ ^
y= y1+ y 2
Im A
M M Figure 6 : Th eor` eme des 3 perpendiculaires : M [A1 ,A2 ] y = A1 y + A2 y . n
M A =
i=1
M Ai , 73
J.F. Durand

i i i o` u M Ai = A A M/ A 2 M.
Si de plus la base est M -orthonorm ee, cest ` a dire si A est M 2 M
orthogonale, alors
n i=1
M Ai
= Ai Ai M . Lorthogonalit e des colonnes de A donne M A y

2 M
M Ai y
2 M
. =
n i=1
Lorsque y Im A, y
M Ai y
2 M,
cest le cas en particulier lorsque la matrice
A est carr ee (les colonnes de A forment une base de lespace tout entier). ements propres du projecteur M -orthogonal sur Im A El
Proposition : La matrice M A = A(A MA) A M est diagonalisable, ses valeurs propres
sont 0 ou 1 et ses vecteurs propres sont M -orthonorm es. De plus,

M trace(M A )= rang(A) = rang(A ).
M Preuve : M etrique (M M A est M -sym A = A M ). On ne peut pas appliquer directement
les propri et es des matrices sym etriques. Utilisons la d ecomposition M = M 1/2 M 1/2 (on peut aussi utiliser Cholesky) et posons B = M 1/2 A dont le rang est celui de A. La DVS de B = U r V = P Q et la propri et e P7 des inverses g en eralis es appliqu ee ` a B donnent
1/2 M P A = M 1/2
Ir 0 0 0
P 1M 1/2 = M 1/2 UU M 1/2 . 2
1/2 Les vecteurs propres de M P qui sont M -orthonorm ees. A sont les colonnes de M
4.2.2
Un probl` eme aux moindres carr es
peut toujours se poser le probl` eme de chercher x I Rn tel que Ax y au sens de la norme .
M. 2 M
pas n ecessairement de solution. Pour quil existe une solution il faut que y Im A. On = min Ax y n
xI R 2 M.
Si A est une matrice r eelle m n (m n) et y I Rm , le syst` eme lin eaire Ax = y na
( )
Ce probl` eme s ecrit comme la recherche de l el ement y = Ax de ImA le plus proche de y
yy
2 M
= min
vImA
vy
2 M.
( )
Proposition : Une solution du probl` eme aux moindres carr es (*) est donn ee par x = (A MA)+ A My . La solution est unique si rang (A) = n. Si la solution nest pas unique, toute solution de y est unique, cest la projection M -orthogonale de y sur Im A. s ecrit x = x + u avec u Ker (A MA) = Ker A. Lapproximation y = Ax = Ax = M A y 2
J.F. Durand
74

y
^ e=y-y
0
Im A
^ ^ y =A x
Figure 7 : solution du probl` eme aux moindres carr es, y = M A y. Preuve : Notons (x) = Ax y
2 M
la fonction ` a minimiser dite fonction objectif. Cest une fonction de I Rn dans I R+ , cest ` a dire une fonction num erique des n variables [x1 , . . . , xn ] = x. Cette fonction est une fonction quadratique di erentiable sur I Rn . Les equations aux d eriv ees partielles dites equations normales fournissent les points stationnaires (x) = 2A MAx 2A My = 0IRn , est un minimum local si la d eriv ee seconde, la matrice Hessien H(x), calcul ee en x est semi d enie positive dans un voisinage de x. Cest bien le cas, H(x) = 2A MA est constante ind ependante de x. Cest une matrice sym etrique semi d enie positive. Pour obtenir un minimum, il faut donc r esoudre le syst` eme lin eaire A MA x = A My . Si la matrice A MA n n est inversible, cest ` a dire si rang (A) = rang (A) = n, alors il y a une seule solution x = (A MA)1 A My . Dans le cas contraire, le syst` eme admet une innit e de solutions car le second membre appartient ` a Im A et puisque M est r eguli` ere Im A = Im A MA. Plut ot que d ecrire les solutions en utilisant un inverse g en eralis e (A MA) on pr ef` ere construire une solution 75
J.F. Durand
(x) = (Ax y )M (Ax y ) = x A MAx 2y MAx + y My .
o` u (x) est le vecteur gradient de calcul e en x. Une solution x du syst` eme pr ec edent
x = (A MA)+ A My . Soit x une autre solution des equations normales, alors Puisque M est sym etrique d enie positive, en d ecomposant M par Cholesky ou par M = (M 1/2 )2 , on montre ais ement que Ker (A MA) = Ker A. Alors, quil y ait unicit e ou non, lapproximation de y par y y = Ax = Ax = M A y, o` u M A est le projecteur M -orthogonal sur Im A, est unique. Un fa con de mesurer la qualit e de lapproximation est fournie par lindice R2 (y ; ImA) = y y
2 M 2 M
A MA(x x) = 0IRn
et
x = x + u, avec u Ker (A MA).
appel e coecient de d etermination entre y et ImA. On le note R2 pour simplier. Cest le carr e du M -cosinus du M -angle form e par les vecteurs y et y . R2 = 1 R2 = 0 y=y y=0
Propri et es du projet ey= P2 y

2 2 M = yy M + P3 M Ay M y M, M A est contractante.
M A y
y {Im A} . y = Ax
y Im A.
2 u Im A.
P1 e = y y {Im A} , cest ` a dire < y y, u >M = 0 ,

2 M.
Cest le th eor` eme de Pythagore.
y I Rm , ou 0 R2 1. On dit que lapplication lin eaire
4.3
Exercices
Exercice 1 : Soit lespace vectoriel Euclidien (I Rp , Ip ) et E le s.e.v. engendr e par les deux vecteurs 1 Ip = (1, . . . , 1) et (1, 2, . . . , p) . Calculer la matrice du projecteur orthogonal sur E .
a. Montrer que E est un s.e.v. de I R2n . Quelle est sa dimension ? b. On munit I R2n de la m etrique identit e. Soit x I R2n , calculer y = arg min x y
y E 2 2.
Exercice 2 : Soit E = {(y1 , . . . , y2n ) I R2n | yt = yt+2 , 1 t 2n 2}.
J.F. Durand
76
Chapitre 5 D erivation Matricielle

5.1 Introduction
Dans de nombreux domaines dapplication de lanalyse num erique et de la statistique comme l econom etrie, la chimiom etrie, etc, on est amen e` a r esoudre des probl` emes du type min (X )
X
o` u la fonction ` a minimiser est une fonction num erique qui a pour argument une matrice X . Il est alors commode dutiliser les outils de vectorisation pour tenter de r esoudre le probl` eme lorsque est di erentiable. Lobjectif de cette section nest pas de proposer un cours de calcul di erentiel ou doptimisation mais seulement dexaminer le r ole jou e par les op erateurs vec et , etudi es dans le chapitre 1, pour le calcul pratique des d eriv ees de fonctions matricielles lors de la r esolution de certains probl` emes doptimisation.
5.2
5.2.1
D erivation matricielle
Matrices Jacobiennes
Classication des fonctions et des variables Les fonctions scalaires ou num eriques sont not ees . Les fonctions vectorielles sont not ees f . Les fonctions matricielles sont not ees F . Les variables r eelles sont not ees . Les variables vectorielles sont not ees x. 77
Les variables matricielles sont not ees X .
Variables num eriques vectorielles matricielles Fonctions num eriques vectorielles matricielles ( ) f ( ) F ( ) (x) f (x) F (x) (X ) f (X ) F (X )
Exemples ( ) = 2 f ( ) = 2 (x) = a x f (x) = Ax F (x) = xx (X ) = a Xa f (X ) = Xa F (X ) = X 1 .
F ( ) =
cos( ) sin( ) sin( ) cos( )
Matrices Jacobiennes de fonctions di erentiables Soit : x (x), une fonction num erique di erentiable de I Rn dans I R. La d eriv ee D(x) = [D1 (x), . . . , Dn (x)] = cest le vecteur ligne 1 n tel que d = D(x) dx =
i=1 n
D(x) ou matrice Jacobienne s ecrit
(x) x
Di (x)dxi .
Le gradient de en x est le vecteur colonne transpos e de D(x) (x) = (D(x)) . Soit f une fonction vectorielle di erentiable de I Rn dans I Rm , cest ` a dire 1 (x) . . . x f (x) = . m (x) La d eriv ee de f o` u matrice Jacobienne est la matrice dordre m n D1 1 (x) Dn 1 (x) f (x) . . .. . . Df (x) = = . . . x D1 m (x) Dn m (x)
J.F. Durand
78
telle que df = Df (x)dx, o` u df = [d1 , . . . , dm] . Soit F une fonction matricielle di erentiable de I Rnq dans I Rmp , 11 (X ) 1p (X ) . . .. . . X = [xij ] F (X ) = . . . m1 (X ) mp (X )
la matrice Jacobienne de F en X est la matrice dordre mp nq D11 11 (X ) Dnq 11 (X ) . . .. . . . . . D11 m1 (X ) Dnq m1 (X ) . . .. . . DF (X ) = . . . D11 1p (X ) Dnq 1p (X ) . . .. . . . . . D11 mp (X ) Dnq mp (X ) o` u Dij kl (X ) = kl (X ) . On la note xij . vec(F (X )) DF (X ) = . vec (X )
Le th eor` eme didentication pour les fonctions matricielles di erentiables donne d vec(F (X )) = A(X ) d vec(X ) Formulaire dx11 dx1p . . .. . X = [xij ] n p, d X = . . . . . dxn1 dxnp d C ste = 0. d (X + Y ) = d X + d Y. d ( X ) = d X. d (X ) = (d X ). d (trace(X )) = trace(d X ). d (vec(X )) = vec(d X ). d (XY ) = (d X )Y + X (d Y ). d (X Y ) = ((dX ) Y ) + (X (d Y )). 79
J.F. Durand
A(X ) = DF (X ).
Tableau didentication
fonctions
di erentielles
matrices Jacobiennes
ordre de D
autres notations
( ) (x) (X )
d = d d = a dx d = vec (A)dvec(X ) = trace(A dX )
D( ) = D(x) = a D(X ) = vec (A)
11 1n 1 nq (x) = a (X ) = A nq X
f ( ) f (x) f (X )
df = ad df = Adx df = Advec(X )
Df ( ) = a Df (x) = A Df (X ) = A
mn
m1
m nq mp 1 mp n mp nq d F ( ) =A mp d
F ( ) F (x) F (X )
dvec(F ) = vec(A)d dvec(F ) = Adx dvec(F ) = Advec(X )
DF ( ) = vec(A) DF (x) = A DF (X ) = A
Remarque : Dans deux cas particuliers on r eorganise les d eriv ees partielles
n q
Soit (X ) avec X = [xij ] n q , alors d =
i=1 j =1
(X ) (X ) dxij = trace(( ) dX ). xij X
(X ) (X ) = n q. X xij Soit F ( ) avec F ( ) = [Fij ( )] qui est dordre m p
d F ( ) d Fij ( ) = . d d
Marche ` a suivre (pr esent ee dans le cas F (X )) : 1) On calcule d F (X ). 2) On vectorise d F (X ) cest-` a-dire, on calcule vec (d F (X )) = d vec (F (X )). 3) On met sous la forme d vec (F (X )) = A(X )d vec (X ). 4) On identie A(X ) = DF (X ).
J.F. Durand
80
D erivation des fonctions matricielles compos ees : Soit T un ouvert de I Rmp tel que F (X ) T pour tout X S et supposons que G : Soit S un ouvert de I Rnq et supposons que F : S I Rmp soit di erentiable en C S .
T I Rrs soit di erentiable en B = F (C ). Alors, la fonction compos ee H : S I R r s d enie par H (X ) = G(F (X )) est di erentiable en C et DH (C ) = [DG(B )] [DF (C )]. La formule pr ec edente sappelle la r` egle de d erivation en chaine pour les Jacobiens. Exemple : Calcul du Jacobien de (X ) = trace(AXB ) avec A et B constantes. Premi` ere m ethode : d(X ) = dtrace(AXB ) = trace(d(AXB )) = trace(A(dX )B ) = trace(BA(dX )) = vec (A B )dvec(X ) D(X ) = vec (A B ) ou en r eorganisant les d eriv ees partielles selon la position des el ements de X trace(AXB ) = A B . X vec(dF (X )) = dvec(F (X )) = (B A)vec(dX ). Soit (Y ) = trace(Y ), alors d(Y ) = trace(dY ) = trace(IdY ) = vec (I )vec(dY ). Donc DF (X ) = B A. 2
Deuxi` eme m ethode : Soit F (X ) = AXB , alors dF (X ) = A(dX )B
Donc D trace(Y ) = vec (I ). Bien s ur, on peut r eorganiser les d eriv ees partielles selon la position des el ements de Y , et trace(Y ) =I. Y Mais ici, il faut user du Jacobien pour utiliser la d erivation de fonctions compos ees D(F (X )) = vec (I )(B A) = [(B A )vec(I )] = vec (A IB ) = vec (A B ). 2
5.2.2
Hessien de fonctions num eriques

2 H(x) = [Dij (x)]
Soit : I Rn I R une fonction deux fois di erentiable, alors est une matrice sym etrique dordre n appel ee le Hessien de en x. 81
J.F. Durand
Th eor` eme didentication

1 d2 = d (d ) = (dx2 ) B (dx1 ) H(x) = 2 (B + B ).
Tableau didentication
F onctions ( ) (x) (X )
Di erentielles dordre 2 d2 = (d1)(d2 ) d2 = (dx2 ) Bdx1 d2 = (dvec(X 2 )) B dvec(X 1 )
Hessien H( ) = H(x) = 1 (B + B ) 2
Ordre 11 nn
H(X ) = 1 (B + B ) nq nq 2
Proposition : Soit (X ) une fonction num erique de X, matrice n q, alors

1 d2 = trace(B (dX2 ) C (dX1 )) H(X ) = 2 (B C + B C ) 1 d2 = trace(B (dX2 )C (dX1 )) H(X ) = 2 Kqn (B C + C B ).
Preuve On sait que trace(ABCD) = vec (D )(C A)vec(B ) = vec (D )(A C )vec(B ). Donc trace(B (dX2 ) C (dX1 )) = vec (dX1 )(B C )vec(dX2 )
1 H(X ) = 2 (B C + B C ).
trace(BdX2 CdX1 ) = vec (dX1 )(B C )vec(dX2 ) = vec (dX1 )(B C )Knq vec(dX2 ) C )). 2
1 H(X ) = 2 ((B C )Knq + Kqn (B C )) = 1 (Kqn (C B ) + Kqn (B 2
5.3
Extremums de fonctions num eriques
Les probl` emes doptimisation consid er es dans cette section sont des probl` emes de minimisation dune fonction num erique r eelle appel ee fonction objectif. Pour maximiser une fonction on se ram` ene ` a la minimisation de .
J.F. Durand
82
Soient : S I Rn I R et x un point de S . On dit que pr esente en x (x) (x) pour tout x B (x) S ,
un minimum local ou relatif, sil existe une boule ouverte B (x) centr ee en x telle que un minimum strict local, sil existe une boule ouverte B (x) centr ee en x telle que
un minimum global ou absolu, si un minimum strict global, si
(x) > (x) pour tout x B (x) S , x = x, (x) (x) pour tout x S ,
(x) > (x) pour tout x S , x = x. eme est un minimum local, local Par abus de langage on dira que le point x lui m strict... Transformations strictement croissantes Th eor` eme 1 : Soit S I Rn et une fonction de S dans I R. Notons T = (). Soit une application strictement croissante de T dans I R. Alors pr esente un minimum relatif) en x. 2 absolu (resp. relatif) en x si et seulement si = pr esente un minimum absolu (resp. Preuve : Soit une fonction croissante sur T et x un minimum local ou global pour , cest ` a dire (x) (x) = ((x)) ((x)) = (x). (x) sur un certain ensemble O. Alors
Dans lautre sens, supposons que x soit un minimum local ou global pour , (x) (x) pour tout x dans un certain ensemble O. Supposons quil existe x0 de O tel que (x0 ) < (x). La stricte croissance de implique (x0 ) = ((x0 )) < ((x)) = (x) ce 2
Applications :
qui est impossible. Donc (x) (x) pour tout x O.
A1 : Minimisation dune norme Euclidienne : La fonction tif, on minimise = .

2 2
nest pas
di erentiable en 0, aussi pour r ecup erer la di erentiabilit e de la fonction objecplut ot que = .

2
(on choisit donc ( ) = 2 qui est
A2 : Maximum de vraisemblance : Maximiser (x) = exp( (x)) est equivalent ` a maximiser ln((x)) ce qui est encore equivalent ` a minimiser (x). 83
strictement croissante sur [0, +[).
J.F. Durand
5.3.1
Probl` emes dextremums libres
Conditions n ecessaires de minimum local Th eor` eme 2 : Soit un ouvert de I Rn et une fonction de dans I R di erentiable sur . Si admet un minimum local en un point x de , alors D(x) = 01n Remarques : ou ( x ) = 0 n 1 . (*) 2
R1 : Importance de lhypoth` ese est un ouvert. Contre-exemple evident : minimiser la fonction de la variable r eelle ( ) = 2 sur lintervalle ferm e [ 1, 2 ] admet pour = 1 en lequel D(1) = 2 = 0. solution eme (*) des n equations aux d eriv ees parR2 : Toute solution x du syst` tielles ou equations normales ou encore equations dEuler, est appel ee point stationnaire ou point critique. D eterminer la nature dun point critique, cest etudier sil sagit dun minimum, dun maximum ou dun point-selle. Le th eor` eme 3 fournit des conditions susantes dans le cas o` u la fonction obectif est 2 fois di erentiable. R3 : Lorsque la fonction objectif (X ) a un argument matriciel Xnp , la condition ecrit n ecessaire dextremum local en X de louvert , s (X ) D(X ) = 01np ou encore = 0np . X Conditions susantes doptimalit e (convexit e) locale est un minimum local si une des conditions suivantes est r ealis ee ee en x telle que (1) Il existe une boule B (x) centr le Hessien H(x) est une matrice semi d enie positive pour tout x B (x) . (*)
Th eor` eme 3 : Si est 2 fois di erentiable sur ouvert de I Rn , un point critique x de
(2) Le Hessien H(x) est une matrice d enie positive, cest ` a dire, les mineurs principaux du d eterminant de H(x) sont positifs. Dans ce cas le minimum est strict. 2 Remarque : Les conditions susantes pr ec edentes s etendent au cas (X ) dune fonction de matrice, par le calcul de H(X ).
5.3.2
Probl` emes dextremums li es
[g1 , . . . , gm ] : I Rm permettant de d enir lensemble S des contraintes S = {x I Rn | x ; g1 (x) = 0 , . . . , gm (x) = 0}.

J.F. Durand
Soit la fonction ojectif : ouvert I Rn I R et soit la fonction vectorielle g =
84
Le probl` eme est maintenant le suivant : minimiser (x) sous la contrainte : x S La fa con la plus ecace pour r esoudre ce type de probl` eme dextremums li es par les m contraintes de type egalit e, est en g en eral dutiliser les multiplicateurs de Lagrange. Conditions n ecessaires doptimalit e locale Th eor` eme 4 (Lagrange) : Hypoth` eses sur les contraintes Soient g : ouvert de I Rn I Rm (n > m) et x tels que H1 : g (x) = 0, H2 : g est di erentiable sur une boule ouverte B (x), H3 : la matrice Jacobienne Dg (x) m n est continue en x, H4 : Dg (x) est de rang m. Hypoth` eses sur la fonction objectif Soit : I R telle que H5 : est di erentiable en x,
Conclusion
H6 : (x) (x) pour tout x de B (x) v eriant g (x) = 0.
Il existe un (unique d u` a H4) vecteur l = [1 , . . . , m ] appel e vecteur des multiplicateurs de Lagrange, tel que D(x) + l Dg (x) = 01n , ou en transposant Remarques : (x) +
m i=1
(**) (**) 2
i gi (x) = 0n1 .
R1 : M ethode des multiplicateurs de Lagrange : Dans la recherhe doptimums locaux, on construit dabord la fonction de Lagrange L : I Rm I R Les conditions n ecessaires doptimalit e locale pour le probl` eme dextremums libres min L(x, l) s ecrivent I Rm x L(x, l) = (x) +
m i=1
L(x, l) = (x) + l g (x) = (x) +
m i=1
i gi (x).
l L(x, l) = g (x) = 0. Elles fournissent comme solutions les point critiques (x, l). Parmi eux se trouvent les optimums locaux de relatifs ` a S . Il faut enn s electionner parmi les points 85
J.F. Durand
i gi (x) = 0
(**)
critiques ceux qui sont des minimums. R2 : Cas o` u est fonction dune matrice Xnp . devient Soient : (ouvert de I R np ) I R et G : I Rmq , le probl` eme doptimisation min (X )
G(X ) = 0mq Par vectorisation, ce probl` eme est un probl` eme doptimisation ` a mq contraintes. On de la fonction de Lagrange L(X, ) denie par introduit = [ij ], matrice m q des multiplicateurs de Lagrange, dans lexpression L(X, ) = (X ) + vec ()vec(G(X )) = (X ) + trace( G(X )).
Il faut d eterminer les points critiques (X, ) de la fonction L(X, ) et enn etudier la nature ces points. Conditions susantes de minimum local sous contraintes Th eor` eme 5 : Supposons que L(x, l) soit 2 fois di erentiable au point critique (x, l) et que la matrice Jacobienne m n Dg (x) soit de rang m. Si de plus u Hx L(x, l) u > 0 o` u Hx L(x, l) = H(x) +
m i=1
pour tout u I Rn tel que Dg (x) u = 0m1 , i Hgi(x), alors pr esente un minimum strict en x sous la
contrainte g (x) = 0.
5.4
Exercices
Exercice 1 : Fonctions num eriques dun vecteur : Etablir le tableau didentication suivant (x) a x x Ax
1 (x) 2 (x)
d (x) a dx x (A + A )dx
2 d1 1 d2 2 2
D (x) a x (A + A ) (2 D1 1 D2)/2 2
(x) a (A + A )x
2 (x)1 (x)1 (x)2 (x) 2 2 (x)
Exercice 2 : Fonctions num eriques dune matrice a) Montrer que trace(X ) =I ; X

J.F. Durand
trace(X X ) = 2X ; X 86
trace(X 2 ) = 2X . X
b) Etablir le tableau didentication suivant (X ) trace(AX ) trace(XAXB ) d (X ) trace(AdX ) trace[(AXB + BXA)dX ] D (X ) vec (A ) vec (B XA + BXA) (X )/X A B XA + BXA
trace(XAX B ) trace[(AX B + A X B )dX ]
vec (B X A + A X B ) B X A + A X B
Exercice 3 : Fonctions vectorielles Calculer les matrices Jacobiennes de f (x) = Ax, f (x) = a(x x), f (X ) = Xa. Exercice 4 : Fonctions matricielles : Etablir le tableau didentication suivant F (X ) X X

d F (X ) dX dX

D F (X ) Inq Knq (In2 + Knn )(X In )
XX
(dX )X + X (dX )
X X o` u X est une matrice n q .
(dX ) X + X (dX ) (Iq2 + Kqq )(Iq X )
Exercice 5 : Calculer les matrices Hessiennes des fonctions scalaires suivantes : (x) = x Ax, (X ) = trace(X AX ), (X ) = trace(AXBX ), (X ) = trace(X 2 ).
Exercice 6 : R esoudre le probl` eme doptimum libre suivant min Y AX

X 2 F
o` u les matrices Y m n et A m p sont donn ees. Exercice 10 : Soient A une matrice sym etrique d enie positive n n et B une matrice trace(X AX ) trace[(BA1 B )1 ] X = A1 B (BA1 B )1 . Indication : exprimer le probl` eme sous forme dun probl` eme doptimisation avec contraintes de type egalit e et le r esoudre.
m n. Alors,
pout toute matrice X n m satisfaisant BX = Im . Le minimum etant obtenu pour
87
J.F. Durand
J.F. Durand
88
Chapitre 6 Le paysage math ematique et statistique de lAnalyse Factorielle de Donn ees : la g eom etrie Euclidienne
Lanalyse factorielle de donn ees a pris son essor dans le deuxi` eme tiers du XX i` eme si` ecle avec lapparition des ordinateurs et le devoir de traiter des donn ees dont la taille na fait que cro tre avec les progr` es de linformatique. Traiter ou analyser les donn ees, cest dabord essayer de d etecter la pr esence d eventuelles erreurs de saisie ou de donn ees atypiques, ensuite tenter de visualiser certaines structures communes diciles voire impossibles ` a mettre a priori en evidence ` a cause de la taille des donn ees. La diversit e de nature des variables mesur ees est ` a lorigine de la cr eation des di erentes m ethodes danalyse factorielle. Historiquement, lAnalyse en Composantes Principales (ACP), dite classique ou usuelle, est la premi` ere apparue (Hotelling, 1901, Spearman, 1904) pour traiter des mesures sur des variables quantitatives. Cependant dautres m ethodes danalyse factorielle portant sur des variables qualitatives ou bool eennes, par exemple les m ethodes danalyse dune enqu ete, proc` edent du m eme principe : celui de la r eduction de la dimension, cest ` a dire, la mise en evidence de variables latentes ou Composantes Principales, en petit nombre, qui r esument les variables mesur ees, au sens o` u ces nouvelles variables synth etiques sont des combinaisons lin eaires des variables originelles dont les poids sont appel es les facteurs principaux. On emploie aussi de ce fait, la d enomination danalyse factorielle lin eaire. Lobjectif de ce chapitre est de d enir vocabulaire et notations aptes ` a mettre en evidence les analogies entre la g eom etrie Euclidienne et la statistique 89
6.1
Le triplet (T, M, D ) des donn ees
Un jeu de donn ees est constitu e par un triplet (T, M, D ) d eni par les trois el ements suivants.
T = [Tij ] I Rnp est la matrice des donn ees brutes exprimant les n mesures de
p variables, x1 , . . . , xp , par exemple quantitatives. Le tableau T pourra aussi etre
obtenu ` a partir des r esultats dune enqu ete ; on verra plus loin dans ce cas, la nature des donn ees. M , p p, est une m etrique Euclidienne sur lespace I Rp des lignes de T . nique de lespace (I Rp , M ), de l echantillon du i` eme individu. D , m etrique sur lespace Euclidien I Rn des colonnes de T , est une matrice, n n, qui sera toujours diagonale D = diag(p1 , . . . , pn ) . La j` eme colonne de T , not ee T j , sera consid er ee comme lexpression dans la base canonique de (I Rn , D ), de l echantillon de la j` eme variable, xj . La i` eme ligne de T, not ee Ti , sera consid er ee comme lexpression dans la base cano-
Les espaces Euclidiens (I Rn , D ) et (I Rp , M ) consid er es sont respectivement les espaces des individus et des variables. Ces espaces sont soit des espaces vectoriels soit des espaces anes selon que lon parlera de vecteurs ou de points, un point origine ayant alors et e choisi au pr ealable. Par abus de langage, on confondra parfois lorsquil ny aura pas dambigu t e, un point-vecteur ligne (respectivement un point-vecteur colonne) avec la matrice ligne (colonne) de son expression dans la base canonique. echantillonn ees, Im T , et lespace des individus echantillonn es, Im T , sont de m eme dimension r Dautre part, on notera r le rang de T , r min(n, p). Lespace des variables
dim Im T = dim Im T = r.
J.F. Durand
90
6.2
Statistique et g eom etrie sur (I Rn , D ), espace des variables
6.2.1
Le simplexe des poids statistiques et la droite des constantes
Dans les applications, les poids pi sont les poids statistiques des individus. La matrice diagonale D = diag(p1 , . . . , pn )
est appel ee la matrice des poids statistiques aect es aux n individus.

p
3
trace(D ) = i pi = 1 p > 0 pour i = 1 . . . n, i

000000000000000000 111111111111111111 111111111111111111 000000000000000000 111111111111111111 000000000000000000 000000000000000000 111111111111111111 000000000000000000 111111111111111111 000000000000000000 111111111111111111 000000000000000000 111111111111111111 n 00000000000000000 11111111111111111 111111111111111111 000000000000000000 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 111111111111111111 000000000000000000 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 111111111111111111 000000000000000000 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 111111111111111111 000000000000000000 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 1 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 111111111111111111 000000000000000000 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 111111111111111111 000000000000000000 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 111111111111111111 000000000000000000 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 000000000000000000 111111111111111111 00000000000000000 11111111111111111 111111111111111111 000000000000000000 00000000000000000 11111111111111111 000000000000000000 111111111111111111 000000000000000000 111111111111111111 000000000000000000 111111111111111111 111111111111111111 000000000000000000 000000000000000000 111111111111111111 000000000000000000 111111111111111111 000000000000000000 111111111111111111 111111111111111111 000000000000000000 000000000000000000 111111111111111111 000000000000000000 111111111111111111 000000000000000000 111111111111111111 111111111111111111 000000000000000000 000000000000000000 111111111111111111 000000000000000000 111111111111111111 000000000000000000 111111111111111111
1|
p
2
Figure 8 : simplexe des poids statistiques (n = 3). On appelle simplexe des poids lensemble Remarquer que si un poids est nul, la matrice D nest que semi-d enie positive et ne peut plus etre consid er ee comme une m etrique sur I Rn . Le cas le plus usit e en statistique est celui des poids uniform ement r epartis i Soit 1 In =
i ei (n)
D = { (p 1 , . . . , p n ) I Rn | pi 0, i = 1, . . . , n et
pi = 1 } .
pi =
1 , n
et
D=
1 In . n
Dans ce cas la projection D -orthogonale co ncide avec la projection au sens usuel. = [1, . . . , 1] . Le vecteur 1 In est In -orthogonal au plan vectoriel 1 In x = x1 + . . . + xn = 0 qui est associ e au plan ane x1 + . . . + xn = 1 contenant D . De plus, 91
J.F. Durand
ce vecteur est de D -norme egale ` a 1, en eet trace(D ) = 1 In D 1 In = 1 In P1 Le projecteur D -orthogonal sur 1 In est egal ` a 1 In (1 In D 1 In )1 1 In D 1 In 1 In D
2 D
= 1.
On appelle droite des constantes la droite vectorielle engendr ee par 1 In . p1 p2 p2 . p2 ... ... ... ... pn
P1n =
Cest une matrice n n de rang egal ` a 1.
p1 = . p1
pn . . pn
Dans le cas usuel de poids statistiques egaux, P1n = n1 1 In 1 In .
6.2.2
Moyenne et centrage vus comme une projection
Soit t = [t1 , . . . , tn ] un n- echantillon dune variable statistique munie des poids statistiques d enis par la diagonale de D . La moyenne de t, not ee t, est d enie par le D -produit scalaire entre t et le vecteur 1 In . En eet, t=
i
pi ti = 1 In Dt =< 1 In , t >D .
La projection du vecteur t sur 1 In a pour mesure alg ebrique t. En eet, P1n t = 1 In 1 In Dt = 1 In t = t1 In . P2 Centrer une variable t au sens de D , on dira D -centrer t, cest construire t1 t
cest ` a dire projeter t sur le sev de I Rn D -orthogonal ` a1 In . Preuve : x = t t1 In = t 1 In t = t P1n t.

J.F. Durand
t2 t x= ... tn t
= t t1 In = (In P1n )u = P1 t n 2
92

t2 t 1 2 t1 t2
| 1
t2 1
| 1
| 1
Figure 9 : La moyenne vue comme une projection sur la droite des constantes (n = 2).
6.2.3
Variance et ecart-type
enit un param` etre de position pour la variable t ` a partir de la La moyenne t d g eom etrie Euclidienne bas ee sur la m etrique diagonale des poids statistiques. Caract eriser la position dune variable statistique na de sens que si on lui associe un autre param` etre statistique caract erisant la dispersion autour de la moyenne appell e l ecart-type ou la d eviation standard. Ce param` etre est d eni ` a partir de la variance de t. La variance de t, on dit aussi la D -variance ou encore la variance g eom etrique ou empirique, not ee var (t), est d enie par
n
var (t) =
i=1
pi (ti t)2 = var (x).
L ecart-type, not e (t), est d eni par (t) = var (t) = (x).
Il sexprime dans la m eme unit e de mesure que celle des observations, t1 , . . . , tn , de la variable t. P3 La variance de t est le carr e de la D -norme de la variable centr ee x, var (t) = x Formule d evelopp ee : var (t) = t t1 In 93
2 D 2 D. 2 D
= t
t =
pi t2 i t .
J.F. Durand
L ecart-type est la norme de x, (t) = Preuve : Par d enition, var (t) = Le vecteur x/ x
D i
var (t) = x
2
= (x).
2 D.
2 2
est appel e la variable d eduite de t par centrage et r eduction (au sens
pi (ti t) = x Dx = x
de D ), ont dit aussi variable r eduite ou standardis ee. Bien s ur, la moyenne dune variable r eduite est nulle, sa variance et son ecart-type sont egaux ` a 1.
6.2.4
Proximit e entre deux variables, covariance et corr elation lin eaire
Soient deux n- echantillons t = [t1 , . . . , tn ] et u = [u1 , . . . , un ] munis des m emes poids statistiques de la diagonale de D . Notons x et y les deux variables centr ees respectivement associ ees ` a t et u. On mesure la proximit e entre t et u par le coecient de corr elation lin eaire r (t, u) dont la d enition d ecoule de celle de la covariance entre ces deux variables. La covariance entre t et u est d enie par
n n
cov (t, u) =
i=1
pi (ti t)(ui u) =
pi xi yi = cov (x, y ).
i=1
De fa con evidente, cov (t, u) = cov (u, t). La variance dune variable peut etre d enie ` a partir de la covariance, var (t) = cov (t, t), ce qui est la cons equence de linterpr etation g eom etrique suivante P4 La covariance entre deux variables t et u est le D -produit scalaire entre les variables centr ees, cov (t, u) = x Dy =< x, y >D = cov (x, y ). Formule d evelopp ee : cov (t, u) =< t, u >D tu = i pi ti ui tu. 2 Preuve : Evidente. 2 Le coecient de corr elation lin eaire entre t et u, not e r (t, u), est d eni par r (t, u) = cov (t, u) = r (x, y ). (t) (u)
P5 Le coecient de corr elation lin eaire sinterpr` ete dans I Rn comme le cosinus du D -angle form e par les vecteurs D -centr es. cov (t, u) < x, y >D r (t, u) = = , (t) (u) x D y D Le th eor` eme de Cauchy-Schwarz donne 1 r (t, u) 1.
J.F. Durand
94
L egalit e na lieu que si x et y sont colin eaires. y sont D -orthogonales.
On dit que t et u sont non corr el es si r (t, u) = 0 cest ` a dire si les variables centr ees x et P6 Droite de r egression lin eaire et coecient de corr elation La propri et e P5 de r (t, u) fournit linterpr etation g eom etrique de la proximit e entre t et u dans lespace (I Rn , D ) qui est lespace Euclidien des variables. Dans ce cas bivari e, on peut visualiser linterpr etation de r (t, u) dans lespace (I R2 , I2 ) des individus. Le nuage N des n points-individus Mi de coordonn ees (ti , ui) dans la base canonique {e1 , e2 }, et de poids respectifs pi est repr esent e Figure 10. On appelle droite de r egression, la droite passant par G, individu moyen de
coordonn ees (t, u), et d equation y = a x dans le rep` ere (x, y ). Le coecient angulaire, a , de est solution du probl` eme de la minimisation de la fonction de I R dans I R d enie par
n
(a) =
i=1
pi (yi axi )2 = y ax
y
2 D.
u ui
( M i , pi )
yi
yi - a x
y=ax
0 1 0 1 000000000 a xi 111111111 0 1
u G xi x
e2
1111 0000
e1
ti
Figure 10 : Ajustement lin eaire dun nuage de points bivari es. Cette fonction mesure la somme pond er ee des carr es des ecarts verticaux entre les individus et leurs homologues sur une droite quelconque passant par G et de pente a. En quelque sorte, (a) mesure l ecart vertical entre le nuage N des points pesants 95 et une telle droite. Le minimum de est atteint pour la valeur a qui d enit, dans
J.F. Durand
le rep` ere (t, u), la droite de r egression ou dajustement lin eaire . u=a t+ b cov (t, u) a = Equation de : var (t) u=a t+ b ( a) = var (u)[1 r 2 (t, u)], ce qui permet de mesurer gr ace ` a r (t, u) lajustabilit e du nuage par une droite.
La valeur minimale de sexprime en fonction de r (t, u)
r = - 0.8
r = 0.9
r=0
r=0
Figure 11 : Ajustabilit e dun nuage bivari e suivant les valeurs de r . Remarquer que lorsque t et u sont non corr el es, cov (t, u) = 0, a pour equation u = u.
6.2.5
D enitions et notations pour la statistique multivari ee
On dispose dun echantillon de mesures de p variables toutes mesur ees sur les m emes n individus. Ces mesures sont stock ees dans la matrice T des donn ees brutes. On suppose que les n individus sont munis des poids statistiques form es par la diagonale de D .
J.F. Durand
96
On appelle individu moyen le vecteur ligne, not e T , form e des moyennes de p variables (colonnes de T ). T = [t1 , . . . , tp ] = 1 In DT. La matrice X obtenue par centrage des variables est d enie par X = (In 1 In 1 In D )T . Elle sinterpr` ete du point de vue des individus (lignes) comme la di erence entre chaque individu et lindividu moyen. On est amen e` a etudier les liens de proximit e entre les variables prises deux ` a deux : La matrice des covariances g eom etriques est d enie par V = [Vij = cov (ti , tj )] = X DX, o` u ti est la i` eme colonne de T . Cette matrice carr ee dordre p, est sym etrique semi d enie positive, rang (V) = rang (X ). Elle est d enie positive si rang (X ) = p. Remarquer que Vii = var (ti ). On appelle variance totale la somme des variances des p variables Variance totale = trace(V) . Standardiser les p variables, cest ` a dire D -centrer r eduire les variables sur l echantillon, revient ` a construire Z = XQ
1 1 o` u Q = diag(1 , . . . , p ). La matrice des corr elations entre les variables est
R = [Rij = r (ti , tj )] = Z DZ = Q V Q.
Remarquer que la diagonale de R est form ee de 1 car r (t, t) = 1. P7 Supposons Y n 1 et X = [X 1 | . . . |X p ] n p deux matrices D -centr ees. Soit Y = PX Y la projection D -orthogonale de Y sur ImX . Puisque X est D -centr ee, Y est de moyenne nulle et Y
2 D
= var (Y ). Le coecient de d etermination entre Y et
ImX d eni dans la section 4.2.2, s ecrit R2 (Y, ImX ) = 97 var (Y ) . var (Y )
J.F. Durand
De plus, R2 (Y, ImX ) = cov (Y, Y ) Y DY = = r 2 (Y, Y ). Y DY var (Y )
Preuve : Cest la cons equence de la D -sym etrie du projecteur PX , cest ` a dire DPX = (PX ) D . Alors, Y r esulte R2 (Y, ImX ) = cov (Y, Y ) cov 2 (Y, Y ) var (Y ) = = = r 2 (Y, Y ). 2 var (Y ) var (Y ) var (Y )var (Y )
2 D
= Y (PX ) DPX Y = Y DPX PX Y = Y D Y . Il en
On peut montrer, voir exercice, que R2 (Y, ImX ) = max r 2 (Y, W ) ,

W ImX
et que le maximum est r ealis e pour W = PX Y . On utilise aussi R(Y, ImX ) = R2 (Y, ImX ) = r (Y, Y )
qui sappelle le coecient de corr elation multiple entre Y et ImX .
6.3
Exercices
Exercice 1 : R egression lin eaire simple de u sur t. Dans le contexte de la propri et e P6 de la section 6.2.4, la r egression lin eaire de u sur t est pr esent ee sur les variables centr ees y et x respectivement, cet exercice la pr esente maintenant sur les variables initiales. On dispose de deux n- echantillons, t variable explicative et u variable r eponse, dont les observations sont munies des poids statistiques {pi | i = 1, . . . , n} stock es dans la diagonale de D .
n
Lobjectif est de minimiser la fonction de I R2 dans I R+ d enie par (a, b) =

i=1
pi (ui ati b)2 . b
Posons X = [1 In t], matrice n 2, et =
vecteur colonne des inconnues a et b. a 1 1) Montrer que ( ) = u X 2 et X Du. D . Calculer X DX , (X DX ) = b en utilisant les r 2) Soit solution du probl` eme. Calculer esultats de la seca tion 4.2.2. V erier que lon retrouve les r esultats de P6. Quelle est linterpr etation 98
J.F. Durand
dans (I g eom etrique de u = X Rn , D ) ? ) en fonction de r (t, u). 3) Exprimer (
Exercice 2 : Dans le contexte de la propri et e P7 de la section 6.2.5, on se propose de montrer que R2 (Y, ImX ) = max r 2 (Y, W ) ,
W ImX
et que le maximum est r ealis e pour W = PX Y . 1) Quelle est linterpr etation g eom etrique de cette propri et e? 2) Calculer le vecteur gradient de lapplication de I Rp dans I R v (v ) = (Y DXv )2 . Y 2 D (v X DXv )
Soit (v ) ce vecteur. Montrer que l equation (v ) = 0 s ecrit P X P Y W = (v )W . En d eduire que le vecteur W = Xv optimal est vecteur propre de PX PY associ e` a la plus grande valeur propre. = PX Y , montrer que PX PY admet une seule valeur propre non nulle 3) Si Y egale ` a Y DY = R2 (Y, ImX ) . Y 2 D est le vecteur propre associ V eriez enn que W = Y e` a cette valeur propre.
99
J.F. Durand
J.F. Durand
100
Chapitre 7 G en eralisation de la D ecomposition en Valeurs Singuli` eres. Analyse en Composantes Principales du triplet (X, M, D)
La plupart des m ethodes de lAnalyse Factorielle des Donn ees peuvent etre pr esent ees dans un cadre commun : celui de lextension du th eor` eme de la D ecomposition en Valeurs Singuli` eres (DVS) au cadre despaces Euclidiens plus g en eraux. La pr esentation synth etique qui va suivre, est bas ee sur lintroduction de m etriques sur les espaces Euclidiens envisag es. Le choix dune m etrique permettra dadapter cette technique g en erale, appel ee ACP du triplet (X, M, D ), au probl` eme pos e par le type de donn ees ` a traiter. Historiquement, la premi` ere m ethode apparue pour analyser un tableau issu de mesures sur variables quantitatives, est lAnalyse en Composantes Principales (ACP) dite usuelle. Elle correspond au triplet X matrice, n p, des variables centr ees ( eventuellement r eduites), M = Ip , m etrique usuelle sur lespace des lignes, poids egaux pour les individus. On verra que dautres m ethodes danalyse des donn ees n ecessitent des choix di erents, en particulier lorsque les donn ees sont issues du d epouillement dune enqu ete statistique. Toutes ces m ethodes rentrent dans le cadre de la d ecomposition en valeurs singuli` eres du triplet (X, M, D ). 101 D = n1 In , m etrique sur lespace des variables, form ee par la matrice diagonale des
7.1
D ecomposition en Valeurs Singuli` eres du triplet

Dans la DVS usuelle examin ee au chapitre 2, les matrices X Xpp et XXn n ,
sym etriques, jouent un r ole fondamental. Dans la DVS du triplet (X, M, D ), ce r ole va etre attribu e respectivement aux matrices X DXMpp et XMX Dnn . Ces matrices ne sont pas sym etriques, sauf dans le cas o` u M et D sont de la forme kI comme dans la DVS usuelle et dans le cas de lACP usuelle. Elles sont respectivement M et D -sym etriques. Il est dautre part n ecessaire de sassurer que les valeurs propres de telles matrices sont nonn egatives et que les vecteurs propres sont orthogonaux au sens de la m etrique concern e e. Cest lobjectif du Lemme suivant.
7.1.1
Lemme
La matrice X DXM (resp. XMX D ) est M -sym etrique (resp. D -sym etrique), ses r valeurs propres non-nulles sont r eelles positives et ses vecteurs propres forment une base M -orthonorm ee de Im X (resp. D -orthonorm ee de ImX ). Preuve : Une matrice carr ee A est M -sym etrique si et seulement si MA = A M , ce qui est le cas pour X DXM ` a cause de la sym etrie de M et de D . La matrice M etant sym etrique d enie-positive, soit M = M 1/2 M 1/2 sa d ecomposition par la DVS (M 1/2 est sym etrique d enie positive). On peut aussi utiliser Cholesky : M = T T , o` u T est triangulaire inf erieure ` a diagonale positive. Notons r = diag (1 , . . . , r ) et V = [V 1 , . . . , V r ] les matrices des valeurs propres non-nulles et des vecteurs propres associ es pour X DXM de rang r X DXMV = V r X DXM 1/2 (M 1/2 V ) = V r M 1/2 X DXM 1/2 (M 1/2 V ) = (M 1/2 V )r On pose Y = M 1/2 V ou V = M 1/2 Y . La matrice M 1/2 X DXM 1/2 est sym etrique semid enie positive de rang r , ses r valeurs propres non-nulles sont r eelles positives et ses r vecteurs propres {Y j } sont orthonorm es au sens usuel (m etrique identit e). Il en r esulte Ir = Y Y = V (M 1/2 ) M 1/2 V = V MV.
1 Puisque V = X DXMV r , Im V Im X et comme rang (V ) = rang (X ) = r , il en
r esulte que les deux espaces vectoriels co ncident, Im V = Im X .
Remarque : La construction eective des vecteurs propres {V } de X DXM passe

J.F. Durand
102
dabord par le calcul des vecteurs propres {Y j } de M 1/2 X DXM 1/2 puis par le calcul de V j = M 1/2 Y j .
7.1.2
La DVS du triplet (X, M, D)
Th eor` eme : Soient X I Rnp de rang r , M m etrique sur I Rp et D m etrique sur I Rn . Il existe Unr , D -orthonorm ee (U DU = Ir ), dont les colonnes sont les vecteurs propres as Vpr , M -orthonorm ee (V MV = Ir ), dont les colonnes sont les vecteurs propres r associ es aux m emes valeurs propres {1 , . . . , r } non-nulles de X DXM ,
1/2 1/2 1/2 1/2
soci es aux valeurs propres {1 , . . . , r } non-nulles de XMX D ,
(X, M, D ),
= diag (1 , . . . , r ) matrice diagonale des valeurs singuli` eres {i } du triplet

r
telles que X s ecrive X=

1/2 U r V
=
i=1
i U i V i .
Les valeurs singuli` eres sont toujours class ees par ordre d ecroissant 1
1/2 /2 . . . 1 >0 r
ce qui induit un classement sur les colonnes de U = [U 1 , . . . , U r ] et de V = [V 1 , . . . , V r ]. Preuve : La d ecomposition spectrale de X DXM s ecrit dapr` es le Lemme pr ec edent X DXMV V MV = Ir . Posons
1/2 U = XMV r ,
= V r
( )
appel ee premi` ere formule de transition qui permet dexprimer U en fonction de V . Propri et es de U Les colonnes de U sont vecteurs propres de la matrice XMX D qui ` a les m emes 103
J.F. Durand
valeurs propres non-nulles que X DXM : XMX DU = XMX DXMV r = XMV r r = XMV r = U r . Les colonnes de U forment une base D -orthonorm ee de Im X (preuve imm ediate).
Montrons que X = U r V . Pour cela, notons M V = V V M , le projecteur M -orthogonal 1/2 1/2 1/2 1/2
sur Im V = Im X . U r V = XMV r
1/2 1/2 M r V = XMV V = (M V X ) = (X X ) = (X ) = X . 1/2
Deuxi` eme formule de transition : De fa con duale, on peut aussi d emontrer le th eor` eme de la DVS de X en partant de la d ecomposition spectrale de la matrice XMX D . On construit la deuxi` eme formule de transition qui exprime V en fonction de U
1/2 V = X DU r .
()
Corollaire : d ecomposition des matrices V = X DX et W = XMX

r r
V = V r V =
i=1
i V i V i
et W = U r U =
i=1
i U i U i .
7.1.3
Relation avec la DVS usuelle

(X, M = Ip , D = In ) .
La DVS usuelle de X est la DVS du triplet
La DVS usuelle d ej` a etudi ee au chapitre 2, correspond au cadre Euclidien naturel pour les espaces des lignes et des colonnes du tableau X . Relation entre la DVS de (X, M, D ) et de (Z = D 1/2 XM 1/2 , Ip , In ) La DVS du triplet (X, M, D ) est equivalente ` a la DVS usuelle de la matrice Z = D 1/2 XM 1/2 au sens suivant : toutes deux ont les m emes valeurs singuli` eres ; si Z = Uz r Vz et X = Ux r Vx sont les deux d ecompositions, alors Ux = D 1/2 Uz et Vx = M 1/2 Vz . Preuve : Exercice 1.
J.F. Durand
1/2 1/2
2 104
7.1.4
Projecteurs orthogonaux associ es ` a la DVS
Les colonnes de V = [V 1 , . . . , V r ] forment une base M -orthonorm ee de Im X , celles de U = [U 1 , . . . , U r ] forment une base D -orthonorm ee de Im X . Il en r esulte lexpression des projecteurs orthogonaux sur ces espaces vectoriels de dimension r . Soit X = U r V la DVS de (X, M, D ). Le projecteur M -orthogonal sur Im X et le projecteur D -orthogonal sur Im X sont donn es par :
r 1 M X = V (V MV ) V M = V V M = i=1 r r 1/2
V iV iM =
i=1 r
M Vi ,
D X
= U (U DU ) U D = UU D =
i=1
UU D=
i=1
D Ui .
Notons que lorsquon dispose dune base orthogonale dun sous-espace vectoriel, le projecteur sur cet espace se d ecompose en la somme des projecteurs sur chacun des espaces de dimension 1 engendr es par les vecteurs de base.
7.1.5
Th eor` eme dapproximation dEckart-Young

1/2
U et de V , et k singuli` eres.
entier, k r . On note Uk = [U 1 , . . . , U k ] et Vk = [V 1 , . . . , V k ] les matrices extraites de

1/2 1/2 1/2
Th eor` eme : Soient X I Rnp de rang r , X = U r V la DVS de (X, M, D ) et k un
= diag (1 , . . . , k ) la matrice diagonale des k premi` eres valeurs
On cherche un el ement Xk de Ek = {Xk I Rnp | rang (Xk ) = k }, le plus proche de X au sens de la norme .
M D .
Alors,
r Xk Ek
min
Xk 2 M D
= X
Xk 2 M D
=
i=k +1
i ,
loptimum etant atteint par la DVS incompl` ete de rang k , Xk = Uk k Vk .

1/2
Les valeurs propres (carr es des valeurs singuli` eres) etant class ees par ordre d ecroissant, le carr e de lerreur lors de lapproximation de X par Xk est la somme des plus petites valeurs propres restantes. Preuve : Admettons le r esultat dans le cadre Euclidien usuel, voir Exercice 2 : pour toute matrice 105
J.F. Durand
Z , n p, de rang r , el ement du triplet (Z, Ip , In )

r Zk Ek
min Z
Zk 2 F
= Z
Zk 2 F
=
i=k +1
i .
Loptimum est atteint par la DVS incompl` ete de rang k de Z Zk = [Uz ]k k [Vz ]k . Posons Z = D 1/2 XM 1/2 et notons que Ek est lensemble des matrices Xk = D 1/2 Zk M 1/2 pour toute matrice Zk de rang k . De fa con evidente Z Zk
2 F 1/2
= trace((Z Zk ) (Z Zk )) = trace((X Xk ) D (X Xk )M ) = X Xk
2 M D .
L equivalence de la DVS des triplets (X, M, D ) et (Z, Ip , In ) au sens de la Section 7.1.3, implique que la solution Xk = D 1/2 Zk M 1/2 = D 1/2 [Uz ]k k [Vz ]k M 1/2 = [Ux ]k k [Vx ]k , est fournie par la DVS incompl` ete de rang k de X . 2
1/2 1/2
7.2
Analyse en Composantes Principales dordre k du triplet (X, M, D )

ee au choix LAnalyse en Composantes Principales, en bref ACP, usuelle associ
M = Ip et D = n1 In , est une m ethode danalyse exploratoire de donn ees multivari ees dont lun des objectifs est la vision plane ` a deux dimensions des points lignes et des points colonnes (photos obtenues par projection sur des plans dits factoriels). Le fait denvisager des m etriques plus g en erales introduit une distorsion dans la repr esentation des distances, voir les remarques de la section 2.6. et la section 7.1.3. Cependant, dans la plupart des m ethodes factorielles, outre D , la m etrique M est diagonale. Dans ce cas, pour une vision naturelle dun point il sut de multiplier chaque coordonn ee i par la racine carr ee du i` eme el ement diagonal de la m etrique. Cela est cependant inutile dans lACP usuelle o` u tous les points lignes ont le m eme poids ainsi que les points colonnes. Dans lAnalyse Factorielle des Correspondances (AFC) simple ou multiple, des transformations sur les donn ees sont eectu ees pour que les distances Euclidiennes associ ees au triplet correspondent ` a la distance du 2 entre vecteurs des fr equences conditionnelles des donn ees dune enqu ete. La vision naturelle des points nest pas, dans ce cas, lobjectif ` a atteindre.
J.F. Durand
106
Les plans factoriels de projection ne sont autres que ceux form es par les couples de vecteurs des bases orthonorm ees de la DVS du triplet : (V i , V j ) pour voir les points lignes, ou (U i , U j ) pour voir les points colonnes. Reste ` a d ecider quels sont les k meilleurs plans factoriels, cest ` a dire ceux pour qui les photos obtenues seront porteuses dinformations interpr etables : lACP dordre k est d enie ` a partir de la DVS en eliminant la part de bruit incluse dans les donn ees et mesur ee gr ace au th eor` eme dEckart-Young.
7.2.1
brutes
D enitions
La matrice X est suppos ee D -centr ee en colonnes ` a partir dune matrice T des donn ees X = (In 1 In 1 In D )T . Le point origine de lespace des points lignes de X sinterpr` ete comme le point ligne moyen, 1 In DT , du tableau T . La matrice des covariances entre les variables est V = X DX , celle ` ces matrices sont associ des produits scalaires entre les individus W = XMX . A es les op erateurs aux valeurs propres-vecteurs propres de la DVS du triplet. Op erateurs en dualit e et inertie du triplet (X, M, D ) Op erateur des covariances : VM = X DXM Op erateur des produits scalaires entre individus : WD = XMX D Inertie totale du triplet : X
2 M D
= trace(XMX D ) = trace(X DXM )
Expression tir ee de la terminologie de la m ecanique du point mat eriel, linertie totale des n points lignes Mi pesant chacun pi
n n
p i Xi
i=1
2 M
=
i=1
pi Xi MXi = trace(XMX D ) = X
2 D M
= X
2 M D
est la mesure du moment dinertie du nuage des n points par rapport ` a lorigine des coordonn ees, ici le point ligne moyen. Cette expression mesure l eloignement de lorigine des points Mi par les carr es de leurs distances pond er es par les poids statistiques. Dans le cas particulier M = Ip , linertie totale trouve une interpr etation duale par rapport aux colonnes de X . En eet, trace(X DX ) =
p j =1 n i=1 j p j =1
Vj j =
p j =1
n i=1
pi (Xij )2 =
des p variables. Si de plus les variables sont D -centr ees r eduites linertie totale est dans 107
J.F. Durand
a dire la somme des variances pi (Tij T )2 est aussi la variance totale cest `
ce cas, egale ` a p. Proposition : X

2 M D r
= trace(r ) =
i=1
i . 2
Preuve : utiliser la DVS du triplet et lorthogonalit e des matrices U et V .
ACP dordre k du triplet (X, M, D ) La matrice X etant suppos ee de rang r et D -centr ee en colonne, on appelle ACP dordre k , k r , du triplet (X, M, D ), la DVS incompl` ete de rang k Xk = Uk k Vk , telle quelle est d enie dans le th eor` eme dEckart-Young. Les deux formules de transition s ecrivent ` a lordre k Uk = XMVk k
1/2 1/2
( )
et
Vk = X DUk k
1/2
() .
Proposition : Lapproximation de rang k de X a pour colonnes (pour lignes) les projections des colonnes (des lignes) de X sur lespace vectoriel Im Uk (sur Im Vk ) Xk = D Uk X et
Xk = M Vk X .
Preuve : Faisons la preuve pour les colonnes. La deuxi` eme formule de transition (**) donne
D Uk X = Uk Uk DX
= Uk (X DUk ) = Uk k Vk .
1/2
7.2.2
Principe fondamental de lAnalyse Factorielle
Ce principe est la justication de la projection du nuage des individus sur les axes factoriels {V 1 , . . . , V k }, class es par ordre d ecroissant des valeurs propres, 1 . . . k . Principe de lAnalyse Factorielle : Si on admet que le meilleur clich e unidimensionnel est fourni par un axe sur lequel, en projection, le nuage des points lignes est dinertie maximale, alors, laxe factoriel V 1 est le meilleur axe ; ensuite, V 2 est meilleur second, orthogonal au premier...
J.F. Durand
108
Preuve : Montrons que, parmi tous les vecteurs V (I Rp , M ) de longueur 1,

M V 1 = arg max trace((M V X ) M (V X )D ) . 2 V
M =1
La fonction objectif ` a maximiser qui est linertie des points lignes projet es sur V , s ecrit
M (V ) = trace((M V X ) M (V X )D ) = trace(XMV V MX D ) = V M VMV .
Ecrivons les equations aux d eriv ees partielles pour la fonction de Lagrange L(V, ) = (V ) + (1 V MV ), V L(V, ) = V (V ) V (V MV ) = 2M VMV 2MV = 0 . ce qui donne = (V ) et VMV = V . Do` u la conclusion que le maximum est donn e par V 1 vecteur propre de VM associ e` a la plus grande valeur propre 1 . Montrons seulement que V 2 maximise (V ) sous les contraintes V
2 M
= 1 et V 1 MV = 0.
La restriction de la fonction objectif ` a lespace vectoriel V 1 = {V I Rp | V 1 MV = 0}, associ ee ` a la contrainte V

2 M
ethode de Lagrange peut s ecrire V 1 (V ) = V M (V 1 V 1 V 1 )MV . Sur V 1 , la m = 1, conduit ` a = V 1 (V ) et ` a (V 1 V 1 V 1 )MV = V . 2
Le maximum est donc r ealis e par le couple (V 2 , 2 ), 2 plus grande valeur propre de (V 1 V 1 V 1 )M , etant la deuxi` eme valeur propre de VM ... Remarque : Si tous les points lignes ont le m eme poids, le principe de lanalyse factorielle
est un principe g eom etrique dallongement maximum des points projet es sur chacun des axes. ACP du triplet et d eations successives de X : Notons X(0) = X , on appelle d eation de X ` a lordre j , j = 1, . . . , k , la matrice, n p, d enie par r ecurrence,
D X(j ) = X(j 1) D U j X(j 1) = (In U j )X(j 1) .
La matrice des covariances d eat ee est not ee V(j ) = X(j ) DX(j ) . Proposition : pour j = 1, . . . , k , a)
D D U j X(j ) = U j X =
Lorthonormalit e des axes factoriels {U 1 , . . . , U k } a pour cons equences :
j U j V j
b) X(j ) = X(j 1) j 1 U j 1 V j 1 = X 109 1 U 1 V 1 . . . j . k U j V j = X X

J.F. Durand
c)
j
V(j ) = V(j 1) j V V 2 Preuve :
=V
i V i V i .
i=1
D D D D a) Lorthogonalit e donne D U j X(j ) = U j (In U j 1 )X(j 1) = U j X(j 1) = . . . = U j X =
j U j V j gr ace ` a la formule de transition (**).
b) De fa con evidente, en ajoutant les matrices d eat ees, X(j ) = X c) Evident. 2
j i=1
i U i V i .
LACP dordre k du triplet (X, M, D ) peut donc etre consid er ee dun double point de vue. Dabord de fa con directe, par la DVS du triplet et le th eor` eme dEckart-Young, comme de lapproximation de rang k de X . Ensuite de fa con it erative, comme une suite de k r egressions partielles, D etant la r egression num ero j de la matrice d eat ee U j X(j 1) X(j 1) sur la variable U j . La matrice X(j ) , de rang r j , est la matrice des r esidus de la r egression partielle num ero j . La derni` ere matrice des r esidus, X(k) , donne lapproximation de rang k de X par la relation k = Uk 1/2 Vk = X X(k) . X k
7.2.3
LACP usuelle dordre k

1 In ) n
LACP usuelle, dite r eduite ou norm ee, est lACP dordre k du triplet (X, M = Ip , D =
o` u X est form ee par les n mesures de p variables quantitatives D -centr ees r eduites. Dans ce cas la matrice des covariances V =
1 X X n
est la matrice des corr elations
entre les p variables. Parfois, lorsque les variables sont homog` enes, cest ` a dire ont des variances du m eme ordre de grandeur, il nest pas n ecessaire de r eduire les variables. On dit alors que lACP est centr ee. Remarques :
1 1 R1 Les deux op erateurs VM = n X X et WD = n XX jouent un r ole sym etrique.
On retrouvera cette sym etrie des op erateurs dans le cas o` u, comme D pour les lignes, M est une matrice diagonale des poids statistiques des points colonnes. LAnalyse Factorielle des Correspondances est lexemple type de ce choix.
J.F. Durand
110
R2 Dans lespace des variables, la D -orthogonalit e est identique ` a lorthogonalit e usuelle

1 < x, y >D = n y x = 0 y x =< x, y >= 0,
n D X = X 1
In
1 1 n =n X(n X X )+ X = X (X X )+ X = I X.
R3 Puisque M = Ip et D = n1 In , le carr e de lerreur dapproximation entre Xk et X s ecrit X Xk 2 M D 1 = trace[(X Xk ) D (X Xk )M ] = X Xk n

r 2 F
=
i=k +1
i .
7.3
Repr esentations factorielles
Au del` a de la d enition pr ec edente, lACP est une m ethode danalyse et dexploration des donn ees bas ee sur lexamen des points lignes et des points colonnes projet es sur des {U1 , . . . , Uk } des deux espaces respectifs Im Xk et Im Xk . espaces de dimensions 1 ou 2 obtenus ` a partir des bases orthonorm ees {V1 , . . . , Vk } et
Gr ace aux possibilit es actuelles des logiciels informatiques concernant la vision ` a trois dimensions, il est parfois int eressant de visionner les projections dans les rep` eres {V1 , V2 , , V3 }
et {U1 , U2 , U3 }.
7.3.1
D enitions
Crit` ere global du choix de lordre k Le th eor` eme dEckart-Young conduit ` a un crit` ere de la qualit e globale de lACP. Le pourcentage de lInertie Reconstitu ee ` a lordre k est d eni par Xk %IR(k ) = X
2 M D 2 M D
100 =
k i=1 r i=1
i 100 . i
Une cassure dans la croissance du diagramme des valeurs {%IR(k ) | k = 1, . . . , r } permet de d eterminer lordre k ` a retenir. Ce diagramme porte souvent le nom de diagramme de linertie cumul ee. La r` egle empirique pr ec edente fournit, lorsque cela est possible, le nombre k de vecteurs de base (vecteurs propres) ` a retenir. Le choix de k devra permettre de retenir des 111
J.F. Durand
vecteurs qui pris deux ` a deux, fourniront de bons plans de projection, cest ` a dire des repr esentations ` a deux dimensions des points lignes ou colonnes facilement interpr etables.
%IC 100 85
Figure 12 : diagramme des pourcentages dinertie cumul ee ou reconstitu ee. Axes factoriels et principaux, composantes principales et facteurs principaux Axes factoriels On note Vk = [V 1 , . . . , V k ] et Uk = [U 1 , . . . , U k ] les matrices dont les colonnes sont les k vecteurs de base retenus : {V 1 , . . . , V k } vecteurs M -orthonorm es dans
dans lespace des points colonnes (Uk DUk = Ik ).
lespace des points lignes (Vk MVk = Ik ) et {U 1 , . . . , U k } vecteurs D -orthonorm es Un plan factoriel est un espace vectoriel de dimension 2 form e par lun des couples daxes factoriels (V i , V j ) ou (U i , U j ). On va d enir des vecteurs colin eaires ` a ces vecteurs et de m eme sens mais de norme non plus egale ` a 1 mais egale ` a la valeur singuli` ere correspondante. Ces vecteurs vont jouer un r ole capital dans le calcul des projections sur les plans factoriels des points lignes, respectivement des points colonnes.
Axes principaux Les k axes principaux {Aj (I Rp , M ) | j = 1, . . . , k } d enis par Aj = sont M -orthogonaux et de M -longueur
J.F. Durand
j V j
j .
112
La matrice Ak = [A1 , . . . , Ak ], p k , est telle que Ak = Vk k

1/2
et
Ak MAk = k .
La deuxi` eme formule de transition (**) devient Ak = X DUk . ()
La DVS du triplet permet dautre part de d ecomposer la matrice des covariances V en V = X DX = V r V = Ar Ar . Composantes principales Les k composantes principales {C j (I Rn , D ) | j = 1, . . . , k } d enies par Cj = sont D -orthogonales et de D -longueur j U j
j .
La matrice Ck = [C 1 , . . . , C k ], n k , est telle que Ck = Uk k

1/2
et
Ck DCk = k .
La premi` ere formule de transition (*) devient Ck = XMVk . ( )
La DVS du triplet permet aussi de d ecomposer la matrice des produits scalaires entre individus W en
W = XMX = U r U = Cr Cr .
Facteurs principaux On appelle matrice des facteurs principaux la matrice p k Fk = [F 1 , . . . , F k ] = MVk ,
de telle sorte que (*) s ecrire Ck = XFk . 113 ( )

J.F. Durand
Remarquer que dans le cas particulier M = Ip , Fk = Vk et une composante principale s ecrit C j = XV j =

p i=1
X i Vij .
Interpr etation des composantes principales par rapport aux variables-colonnes : Une composante principale
p
C = XF =
i=1
X i Fij
s ecrit comme une combinaison lin eaire des p colonnes de X . Pour cette raison, une composante principale peut etre consid er ee comme lexpression dans la base tique qui r esume lin eairement les variables naturelles x1 , . . . , xp . canonique, dune variable latente, not ee C j , cest ` a dire une variable synth e-
Le scalaire Fij est le facteur principal qui mesure linuence de la variable xi sur la variable C j . Une composante principale voisine du 0 de I Rn fournit une relation de d ependance lin eaire approch ee entre les variables : C j = XF j = P1 : C j est D -centr ee.
p i=1
Propri et es statistiques des composantes principales-variables latentes Le fait que les variables soient D -centr ees implique que (*) a pour cons equence que les variables latentes{C j } sont D -centr ees : 1 In DC j = 1 In DXF j = 0. j .
X i Fij 0.
P2 : L ecart type de la variable latente C j est Cela r esulte de P1

n
Cj 2 D
= C DC =
i=1
pi (Cij )2 = var (C j ) = j .
P3 : Les variables latentes sont deux ` a deux non corr el ees cov (C i, C j ) = C j DC i = 0, si i = j.
7.3.2
Projections des points lignes
{M1 , . . . , Mn } appartient ` a lespace ane Im X , sous-espace de dimension r de lespace
La matrice X etant D -centr ee en colonnes, le nuage N des n points lignes
(I Rp , M ), et dorigine le point ligne moyen O calcul e sur les donn ees brutes. Pour visionner la position relative des points lignes par rapport ` a ce point de r ef erence, on pourrait bien s ur, projeter les points du nuage N sur des axes ou des plans de la base canonique.
J.F. Durand
114
Mais ces repr esentations ne sont pas forc ement les plus simples ` a interpr eter. On va voir pourquoi il est pr ef erable dutiliser des projections sur des espaces de dimension 1 ou 2 d enis ` a partir des axes factoriels V j . Projection des points lignes sur l axe factoriel V j Le vecteur OMl dont lexpression dans la base canonique de (I Rp , M ) est le transpos e de la ligne Xl , not e Xl , se projette orthogonalement au sens de M sur laxe V j selon
j j j j j j M V j Xl = V V MXl = V (Xl MV ) = V Cl .
Le scalaire Clj est la mesure alg ebrique de la projection du vecteur OMl sur le vecteur unitaire V j . Interpr etation dune composante principale C j par rapport aux individus-lignes : Le nuage N des points lignes se projette sur V j selon les coordonn ees du vecteur au point moyen O, du nuage des points projet es munis des poids pi , est egale ` a j . En eet, les n points projet es sur V i etant donn es par les colonnes de la matrice V i C i , linertie par rapport ` a O de ces n points sexprime par la quantit e trace(V j C j DC j V j M ) = trace(V j MV j C j DC j ) = C j DC j = j .
N
M M1
k
C j , voir Figure 13. Dapr` es la propri et e P2 dune composante C j , linertie par rapport
V
j
C2 C
j k
Cn Axe factoriel j
C1
individu moyen : O
Mn
Figure 13 : Nuage N des points lignes de (I Rp , M ) et projections sur laxe V j . 115

J.F. Durand
Projection des points lignes sur un plan factoriel (V i , V j ) Notons [V i , V j ] la matrice p 2 extraite des colonnes de Vk , les propri et es des axes fac-
toriels impliquent que [V i , V j ] M [V i , V j ] = I2 . La matrice de la projection M -orthogonale sur le plan factoriel Im [V i , V j ], not ee M ecompose en la somme des projecteurs [V i ,V j ] , se d sur chacun des axes
M M M [V i ,V j ] = V i + V j .
Le vecteur OMl se projette sur le plan factoriel, appel e (i, j ) pour simplier, selon le vecteur Oml dont les coordonn ees dans le rep` ere (V i , V j ) sont donn ees par (Cli , Clj )
i i j j M [V i ,V j ] Xl = V Cl + V Cl .
Ck
j
mk
m2
V
i
individu moyen O
Ck
mn m1
Figure 14 : Projection du nuage des individus sur le plan factoriel (V i , V j ). La matrice p n des projections du nuage des n points sur le plan (i, j ) est donn ee par
i i j j M [V i ,V j ] X = V C + V C .
La M -orthonormalit e des {V i } permet de montrer que linertie par rapport ` a O des points lignes projet es sur le plan (i, j )
M i i j j trace[(M [V i ,V j ] X )D ([V i ,V j ] X ) M ] = C DC + C DC = i + j ,
est la somme des inerties des points projet es sur chacun des axes. Pour faire une bonne photo de points lignes, il faut trouver un plan sur lequel en projection, le nuage des points est dinertie maximale : alors le plan factoriel (1,2) est le meilleur plan possible ; on peut ensuite tirer les photos (1, 3), (2, 3)...
J.F. Durand
116
Aides ` a linterpr etation des points lignes Contributions absolues On d esire quantier la contribution de chaque individu-ligne l ` a lexpression de linertie du nuage projet e sur laxe factoriel V j . On a vu que linertie autour du point ligne moyen est caract eris ee par la variance de C j , cest ` a dire C j DC j = j ; alors
n
1=
l=1
pl j 2 (C ) . j l
La contribution absolue de lindividu l ` a la dispersion du nuage projet e sur laxe j est CT Aj l = pl j 2 (C ) . j l
Si tous les individus ont le m eme poids statistique pl = 1/n alors la dispersion ne d epend que du carr e de la coordonn ee de la projection de lindividu sur laxe. Dans ce cas, les individus ` a forte CT A sont ceux les plus eloign es de lindividu moyen. Ce nest plus forc ement le cas si les poids statistiques ne sont pas identiques. Contributions relatives Tous les points dune photo uni ou bi-dimensionnelle ne sont pas visibles avec la m eme pr ecision. En cons equence, on ne pourra interpr eter la position relative de deux points projet es ml1 et ml2 que si elle re` ete bien la position des points Ml1 et Ml2 de lespace (I Rp , M ). De fa con plus pratique, on mesurera la proximit e relative entre ml et Ml par le carr e du cosinus du M -angle entre les vecteurs Oml et OMl cos2 l = Oml OMl
2 M 2 M
Oml 2 M = = Xl MXl
Oml Wl l
2 M
Oml 2 M r j 2. ( C l) j =1
On dira que lindividu l est bien repr esent e par ml si cette expression, appel ee aussi contribution relative de laxe ou du plan factoriel ` a la repr esentation de lindividu l, est voisine de 1, mal repr esent ee si elle est voisine de 0.
i,j i i j Notons mi l et ml les projections de Ml sur laxe V respectivement sur le plan (V , V ).
Lorthonormalit e de V et V implique canonique est V i Cli + V j Clj . Il vient V i Cli + V j Clj

2 M
i Omi,j l =Oml
+ Omj l dont lexpression dans la base
= Vi
2 i 2 M (C l )
+ Vj
j 2 2 M (C l )
= (Cli )2 + (Clj )2 .
J.F. Durand
117
On obtient ainsi les contributions relatives de laxe i et du plan (i, j ) ` a lindividu l

i CT Rl = cos2 li =
(Cli )2 (Cli )2 + (Clj )2 i,j 2 i,j 2 i 2 j et CT R = cos = l l r r j 2 j 2 = cos l + cos l . j =1 (Cl ) j =1 (Cl )
De fa con evidente, la somme des contributions relatives pour un m eme individu l est egale ` a 1,
r i=1
cos2 li = 1 .
7.3.3
Projections des vecteurs colonnes
Dans lACP usuelle, les colonnes sont plut ot consid er ees comme lexpression de vecteurs-variables, ` a la di erence des lignes consid er ees comme des points. La proximit e de deux variables est bas ee sur lexamen du coecient de corr elation qui dun point de vue g eom etrique, est le cosinus du D -angle entre ces deux vecteurs. Il sera toujours possible, dans lACP g en eralis ee de consid erer les points extr emit es de ces vecteurs et appel es points colonnes.
Projections sur les axes et plans factoriels De fa con duale ` a celle des lignes, les matrices n n de projection D -orthogonale sur
un axe factoriel Im U i = Im C i et sur un plan factoriel Im [U i , U j ] = Im [C i , C j ] sont donn ees par

i i D Ui = U U D
et
D D D [U i ,U j ] = U i + U j .
La mesure alg ebrique de la projection dun vecteur-variable xl sur un vecteur de base U i est egale ` a Ai l . En eet, la formule de transition (**) donne
l i i D U i X = U Al
et
l i i j j D [U i ,U j ] X = U Al + U Al .
J.F. Durand
118

j
U U
i
Ak A
k
X
j
Ak
Figure 15 : Projection dune variable xk sur le plan factoriel (U i , U j ). Laxe principal Ai est le vecteur des coordonn ees des projections des p points colonnes sur laxe factoriel U i . Une composante C j sinterpr` ete comme le vecteur des coordonn ees des projections du nuage des individus sur laxe factoriel V j mais aussi comme lexpression dune variable variable synth etique il est n ecessaire dexaminer quelles sont les variables qui lui sont xi , i = 1, . . . , p, r (C j , xi ) = latente C j dans la base canonique de (I Rn , D ). An de pouvoir donner un nom ` a cette Coecient de corr elation entre la variable latente C j et une variable xi
statistiquement voisines. Lexamen des coecients de corr elation entre C j et les variables cov (C j , xi ) = (C j ) (xi ) X i DC j X i DXMV j = = j X i D j X i D j Vij j X i =
D
Aj i , Xi D
permet de s electionner celles qui sont fortement corr el ees avec la variable latente. Cas de lACP usuelle r eduite Dans le cas particulier, (xi ) = X i
D
= 1, et
r (C j , xi ) = Aj i . Les points colonnes sont situ es sur la sph` ere unit e de (I Rn , D ). Ils se projettent sur un plan factoriel (U i , U j ) ` a lint erieur du cercle trigonom etrique appel e cercle des corr elations. Dans ce cas, la projection dun point colonne sur un axe factoriel est la corr elation de la variable avec la variable latente correspondante.
119
J.F. Durand

j
j j
A
2
U
j
Ck
j
mk
A2
m2
V
i
A1 A2 X
3 i
U
i
individu moyen O
Ck
A A1
j
mn m1
Figure 16 : Visualisation duale des plans factoriels (i, j ) pour les individus et les variables dans lACP usuelle norm ee. Cercle des corr elations. La Figure 16, pr esente les deux repr esentations duales individus-variables sur les plans factoriels (i, j ). Un plan factoriel est de bonne qualit e globale si i + j est grand. Les points lignes bien repr esent es dans ce plan sont assez nombreux ; on peut interpr eter leur position relative au point moyen, en expliquant les variables latentes gr ace aux variables naturelles bien repr esent ees (voir paragraphe suivant). Dans ce cas particulier de lACP usuelle, une variable est bien repr esent ee dans un plan factoriel si son point colonne associ e est proche du cercle des corr elations. Sur la Figure 5, X 1 et X 2 sont bien repr esent ees, alors que X 3 ne lest pas. Lindividu num ero n a une valeur au dessus de la moyenne pour la variable x1 , inf erieure ` a la moyenne pour x2 ...
Aides ` a linterpr etation des variables Contributions absolues : cas o` u M est diagonale Les ACP les plus courantes concernent le cas o` u M = diag (m1 , . . . , mp ) : M = Ip (ACP usuelle) ou bien M est la matrice des poids statistiques des colonnes (Analyses Factorielles des Correspondances simples et multiples). On a vu que la projection dune variable xi sur laxe U j ` a pour mesure alg ebrique Aj i , voir Figure 4. Dans ce cas particulier, le nuage des points colonnes pond er es {(xi , mi )} projet es sur laxe j , a pour inertie Aj MAj = j ; ce qui donne
p
1=
i=1
mi j 2 (A ) . j i
J.F. Durand
120
On appelle contribution absolue de la variable xi ` a linertie sur laxe j , lexpression CT Aj i = mi j 2 (A ) . j i
Comme pour les CTA des points lignes, la CTA dun point colonne prend en compte non
2 seulement l eloignement de lorigine (Aj i ) mais aussi le poids mi dun point colonne.
Contributions relatives On dira quun point colonne xk est bien repr esent e sur laxe U i ou sur le plan (U i , U j ) si le carr e du cosinus du D -angle entre le vecteur projet e et le vecteur colonne initial, est voisin de 1. On appelle contribution relative de laxe ou du plan factoriel ` a la variable X k
i i CT Rk = cos2 k = j 2 2 2 (Ai (Ai i,j j k) 2 i,j k ) + (Ak ) i ou CT R = cos = = cos2 k +cos2 k . k k r r j 2 j 2 ( A ) ( A ) k k j =1 j =1
En eet, la contribution relative de laxe i ` a la variable k est le carr e du coevariable k est le coecient de d etermination R2 entre xk et le couple de variables latentes (C i , C j ). Remarquons que le d enominateur,
r j 2 j =1 (Ak ) k = Vk k = X 2 D,
cient de corr elation entre xk et C i . La contribution relative du plan factoriel (i, j ) ` a la est egal ` a 1 dans
le cas dune ACP usuelle sur variables centr ees r eduites.
7.3.4
ements suppl El ementaires
Les individus et variables du tableau X sur lesquels a et e eectu e une ACP sont dits actifs. Ils ont et e visualis es et interpr et es gr ace aux bases orthonorm ees qui ont servi ` a les montrer en photo. On peu repr esenter sur celles ci des individus ou variables nayant pas pris part ` a la d etermination des axes factoriels. Ces individus ou variables dits suppl ementaires peuvent apporter des compl ements dans lanalyse.
121
J.F. Durand
individus et variables
variables
Y X supplactifs mentaires
individus Z supplmentaires
Variables suppl ementaires Soit Y le tableau des variables suppl ementaires mesur ees sur les m emes n individus et transform ees comme les variables actives lont et e : Y est centr e mais peut etre eventuellement r eduit... Gr ace ` a la deuxi` eme formule de transition (**), la coordonn ee de la variable Y k sur laxe factoriel actif U j , s ecrit Aj k = Y k DC j = j
n
i=1
pi Yik Cij . j
On peut repr esenter la variable suppl ementaire k sur un plan factoriel et par exemple, visualiser par lACP usuelle, les corr elations de Y k avec les variables actives... Individus suppl ementaires Le tableau Z des individus suppl ementaires est suppos e D -centr e par rapport ` a lindividu moyen actif 1 I DT . Ce tableau Z a et e r eduit si les colonnes de X lont et e, en utilisant les ecarts types des variables actives. La premi` ere formule de transition (*) permet de calculer la coordonn ee sur laxe actif V j , de la projection M -orthogonale de lindividu l Clj = Zl MAj . j
On peut visualiser sur le plan factoriel (i, j ) une population dindividus suppl ementaires et la comparer ` a celle des individus actifs.
J.F. Durand
122
7.4
Exercices
Exercice 1 valeurs singuli` eres des deux triplets (X, M, D ) et (Z = D 1/2 XM 1/2 , Ip , In ). Soit X une matrice r eelle n p dont le rang est r . Comparer la d ecomposition en
Exercice 2 : Approximation dune matrice par une matrice de rang donn e Th eor` eme : Soit Z une matrice r eelle n p de rang r dont la d ecomposition en valeurs 1/2 1/2 singuli` eres s ecrit Z = Ur r Vr o` u r = diag ( 1 , . . . , r ) avec 1 . . . r > 0. canonique pour les matrices r k . Alors
Zk Ek
On note Ek lensemble des matrices n p de rang x e k (k r ) et {Eij (r, k )}i,j la base

r 2 F
min Z
Zk 2 F
k = ZZ
=
i=k +1
i ,
k i=1
k = Uk 1/2 V avec Uk = o` u Z k k diag ( 1 , . . . , k ). 2
k i=1
Ur Eii (r, k ), Vk =
Vr Eii (r, k ) et k
1/2
1. Exprimer Uk (respectivement Vk ) en fonction des colonnes de Ur (respectivement k lorsque k = r ? Vr ). Quelle est la valeur de Z 2. Sachant que la norme de Frob enius .
F,
( X
2 F
= trace(X X )) est invariante par
transformation orthogonale, montrer queil existe deux matrice B et C respectivement n k et k p de rang maximum telles que Z Zk
2 F 2 F
= BC
= (B, C )
o` u est la matrice n p de la d ecomposition en valeurs singuli` eres compl` ete contenant les valeurs singuli` eres de Z . que pour B x e, (B ) def C = arg min (B, C ) = (B B )1 B
C
3. Lobjectif etant maintenant de minimiser (B, C ), montrer dans un premier temps
(B ))revient ` et que minimiser (B, C a maximiser (B ) = trace(B (B B )1 B ). 4. Utiliser les propri et es de B = B (B B )1 B pour montrer que (B ) = B
r 2 F
Ecrire dans la base canonique {Eij (n, p)}i,j des matrices n p et montrer que (B ) =
i=1
i ai ,
J.F. Durand
123
o` u ai = B ei (n) d eduire que
2 F. n i=1
5. D emontrer que 0 ai 1, pour i = 1, . . . , n et que

k
ai = rang (B ) = k . En
max (B ) =
B i=1 k i=1
i (B ). Eii (n, k ). Calculer C
= et que la maximum est r ealis e pour B 6. Conclure en montrant que
k = arg min Z Zk Z
Zk Ek
2 F
LACP usuelle norm ee ou non
Exercice 3 Une etude gastronomique a conduit ` a appr ecier le service, la qualit e et le prix de quatre restaurants. Pour cela, un expert a not e ces restaurants avec des notes allant de -3 ` a 3. Les r esultats sont les suivants Restaurant R1 R2 R3 R4 La matrice des covariances est V = 3 5 2 1/2 2 3/2 5/2 3 1/2 Service -2 -1 2 1 Qualit e Prix 3 1 -1 -3 -1 0 -1 2
Pour l etude , on eectuera une ACP centr ee avec des poids equir epartis. 1. Etude des valeurs propres
J.F. Durand
et celle des corr elations (aux erreurs darrondi pr` es) 1 0.85 0.26 R= 1 0.73 0.85 0.26 0.73 1
124
a. V erier simplement que V admet une valeur propre 3 = 0. b. On donne 1 = 30.5/4. En d eduire 2 . c. Calculer les pourcentages dinertie. Quelle est la dimension a retenir ? ` 0.5 0.65 2. a. On donne, aux erreurs darrondi pr` es, v1 = 0.8 et v2 = 0.11 0.3 0.75 Calculer les composantes principales. b. Repr esenter les individus dans le plan principal (1,2). 3. a. D eterminer les corr elations entre les variables et les composantes. b. Repr esenter les variables sur le cercle des corr elations dans le plan factoriel (1,2). c. Interpr eter les r esultats. Exercice 4 Soit la matrice X = [X 1 , X 2 , X 3 ] dont les 1 R= variables ont pour matrice des corr elations 1 , 1
avec1 1. On d esire eectuer une ACP centr ee r eduite de X . 1 1 . 1. V erier que R admet pour vecteur propre 1 3 1 2. D eterminer les autres valeurs propres et vecteurs propres de R. 3. Quelles sont les valeurs possibles de ? 5. Calculer dans ce cas les pourcentages de variance expliqu ee. 4. Justier le fait que lACP na dint er et que si 1 < < 0.
6. Comment sinterpr` ete par rapport ` a X 1 , X 2 , et X 3 lunique composante ` a retenir ici ? Exercice 5 Soit la matrice T = 10 2 3 1 2 2 2 1 0 1 1 3 2 3 4 3
des mesures de 5 individus munis de poids statististiques egaux, sur 3 variables not ees T 1 , T 2 et T 3 . On d esire eectuer une Analyse en Composantes Principales (ACP) sur variables centr ees-r eduites. 125
J.F. Durand
1. Calculer lindividu moyen, le vecteur (1 , 2 , 3 ) des ecarts types et la X des variables centr ees-r eduites. 2. Calculer la matrice R des corr elations. 3. Calculer les el ements propres de R. et 2 = 1, sont : 2 1 v1 = 1 2 1 et 0 1 v2 = 1 . 2 1 4. Les deux premiers vecteurs propres de R associ es aux valeurs propres 1 = 1+ 2/2
D eterminer les composantes principales c1 et c2 dont on v eriera les propri et es statistiques. 5. Repr esenter les individus et les variables dans les plans factoriels (1,2). Quelle est 6. Repr esenter dans le plan (1,2) lindividu supl em entaire ( 10, 2 10, 2 10).
2 2 Exercice 6 : ACP usuelle norm ee et ACP du triplet (X, diag (1 , . . . , p ), n1 In )
linterpr etation des variables c1 et c2 ?
Soit T la matrice des n mesures sur p variables quantitatives et X la matrice des

1 variables centr ees au sens des poids statistiques n . On note j = 1 n n j 2 i=1 (Xi ) ,
l ecart
type de la variable X j et Y = r eduites.
1 1 Xdiag (1 , . . . , p )
la matrice des variables centr ees
1. Etude de lACP norm ee dordre k du triplet (Y, M = Ip , D = n1 In ) : a. Ecrire lexpression des op erateurs VY M = Y DY M et WY D = Y MY D b. Ecrire la d enition des axes principaux et des composantes principales pour lACP norm ee.
2 2 2. Etude de lACP dordre k du triplet (X, M = diag (1 , . . . , p ), D = n1 In ) :
a. Ecrire lexpression des op erateurs VX M = X DXM et WX D = XMX D b. Ecrire la d enition des axes principaux et des composantes principales pour cette lACP. 3. Comparer les r esultats des questions 1 et 2. Conclusions quant-` a la repr esentation des individus et des variables pour ces deux ACP ? Exercice 7 : ACP dun ensemble de notes Les donn ees jointes ont et e restreintes pour les besoins de ce probl` eme ` a 10 etudiants. Pour chaque individu on dispose dun ensemble de 3 notes , Math ematiques (Maths), Physique (Phys) et Technologie (Techn) ainsi que dune information suppl ementaire sur la provenance de l etudiant fournie par la variable bool eenne indicatrice de lorigine (Orig).
J.F. Durand
126
Les r esultats de lAnalyse en Composantes Principales des 3 premi` eres variables actives centr ees sont donn es en annexe. a. Analyser les r esultats. Dire pourquoi le premier axe factoriel a ses coordonn ees positives. Dans ce cas, le premier axe est appel e axe de taille le second axe de forme. b. Pour examiner si la provenance des individus est li ee aux r esultats obtenus, repr esenter la variable Orig en variable suppl ementaire sur le plan factoriel (1,2). c. Situer dans le plan factoriel (1,2) un individu suppl ementaire dont les notes seraient : Math = 12, Phys = 12, Techn = 12.
__________________________________________________________________ ANNEXE : -----Notes et Origine Math Phys Techn Orig 1 17 12 13 1 2 9 10 8 0 3 12 12 13 1 4 15 12 14 1 5 9 10 11 0 6 13 15 12 1 7 11 9 10 0 8 14 15 16 1 9 9 11 11 0 10 13 14 13 1 ________________________________________________________________ moyenne et variances des variables Matrice des covariances Math Phys Techn moy 12.2 12 12.1 var 6.76 4 4.49 Math Phys Techn Math 6.76 2.9 3.98 Phys 2.90 4.0 3.10 Techn 3.98 3.1 4.49 __________________________________________________________________ Inertie totale = 15.25 __________________________________________________________________ val.pro. % inert. % cumul. 1 11.9718 78.50 78.50 2 2.3033 15.10 93.60 3 0.9750 6.39 100.00 _______________________________________________________________ aides a linterpretation pour les u.s. : Composantes Principales c1 c2 c3 1 3.795 -3.022 0.560 2 -5.417 -0.263 1.278 127
J.F. Durand
3 0.365 0.367 -0.763 4 2.981 -1.409 -0.758 5 -3.743 0.508 -1.089 6 1.893 1.499 1.955 7 -3.395 -1.793 -0.325 8 4.812 1.849 -0.936 9 -3.276 1.197 -0.534 10 1.985 1.067 0.611 Contributions absolues des 10 u.s. pour les 3 premieres composantes CTA1 CTA2 CTA3 1 1203 3965 322 2 2451 30 1675 3 11 58 597 4 743 863 589 5 1170 112 1215 6 299 975 3919 7 963 1396 108 8 1934 1484 899 9 896 622 292 10 329 494 383 Contributions relative des 3 premieres composantes pour les 10 u.s. COS1 COS2 COS3 1 6039 3829 132 2 9452 22 526 3 1569 1583 6847 4 7763 1735 502 5 9066 167 767 6 3713 2328 3959 7 7764 2165 71 8 8435 1245 319 9 8620 1151 229 10 7226 2088 685 _______________________________________________________________ aides a linterpretation pour les variables : Axes Principaux a1 a2 a3 Math 2.374 -1.029 0.261 Phys 1.615 1.046 0.548 Techn 1.932 0.390 -0.779 Contributions absolues des 3 variables pour les 3 premiers axes CTA1 CTA2 CTA3 Math 4706 4594 700 Phys 2178 4746 3077 Techn 3117 660 6223 Contributions relative des 3 axes pour les 3 premieres variables COS1 COS2 COS3 Math 8334 1565 101 Phys 6517 2733 750
J.F. Durand
128
Techn 8310 339 1351 _______________________________________________________________
6 9
10
a 2 2.3033 ( 15.1 %)
c 2 2.3033 ( 15.1 %)
0.5
1.0
Phys
Techn
1 4 2 0 2 4
1.0
0.5
0.0
Math 0.0 0.5 1.0 1.5 2.0
c 1 11.9718 ( 78.5 %)
a 1 11.9718 ( 78.5 %)
Figure 17 : plans factoriels (1, 2) pour les individus et les variables de lACP centr ee dun ensemble de notes.
Exercice 8 : LAnalyse Factorielle Discriminante (AFD)

j
Notation : Pour une matrice A, l el ement courant sera not e Ai , une colonne Aj , une ligne Ai , la matrice transpos ee Soit
A .
centr ees au sens des poids statistiques stock es dans la matrice diagonale matrice des covariances est not ee
X I Rnp matrice, de rang p, dun echantillon de n mesures sur p variables quantitatives D = diag (p1 , . . . , pn ). La ... Iq V. n individus en q groupes : {1, . . . , n} = I1
On dispose en outre dune partition des o` u
des groupes :
yk = i signie que k Ii et soit = diag (P1 , . . . , Pq ) la matrice diagonale des poids statistiques Pi =
j Ii
Ii = {k {1, . . . , n} | k groupe i}. Soit y le vecteur a ` valeurs enti` eres dont la coordonn ee pj est le poids du groupe i. On note Y la matrice n q , du codage bool een n individus aux q groupes : Y = [Yij ], Yij = 1 si i appartient a ` Ij ,
caract erisant lappartenance des
Yij = 0 si non. 129

J.F. Durand
Lobjectif de lAnalyse Factorielle Discriminante est de

p
d eterminer des axes factoriels de
I R sur lesquels, en projection, les individus moyens des groupes munis chacun du poids du groupe correspondant, ont une inertie maximale. La m etrique
Euclidienne utilis ee sur
I Rp est provisoirement not ee M .
1. Propri et es de la matrice G, q p, des individus moyens (centres de gravit e) des groupes : a. Sur le petit exemple suivant
1 -1 X= 0 2 -2 calculer 2 -2 1 , 0 -1
1 2 y= 3 , 1 2
D = diag (1/5, 1/5, 1/5, 1/5, 1/5),
Y et v erier que Y DY = . Dire pourquoi est une m etrique sur I Rq et V1 I Rp ? Lindividu moyen du groupe i, la i` eme ligne de G, est d eni par Gi = pj Xj . V erier sur lexemple que G = 1 Y DX .
une m etrique sur
1 Pi
j Ii
D = D X , o` b. Montrer que G est -centr ee. On note X u Y Y est la matrice de projection D -orthogonale sur Im Y . Calculer X en fonction de Y et de G et en d eduire linterpr etation
de la ligne courante
i . Soit B = G G la matrice p p des covariances entre les groupes X = (Between). Dans quel cas nest-elle s urement pas inversible ? Montrer que B = X D X DX . X
) D (X c. On appelle matrice des covariances a ` lint erieur des groupes (Within) W = (X X ). D X emontrer le th eor` eme dit de la d ecomposition de la variance totale : V = B+W. 2. Recherche du meilleur axe factoriel discriminant v 1 : a. Soit v (I Rp , M ) unitaire, v Mv = 1, et Dv la droite vectorielle d enie par v . On sait
que linertie par rapport a ` lorigine (lindividu moyen) du nuage des
n individus de X projet es
M -orthogonalement sur Dv , est donn ee par IV (v ) = v M VMv .
a1. On appelle variable discriminante l el ement de (I Rn , D ) d eni par d = XMv et f = Mv

le facteur discriminant de laxe v . Donner deux interpr etations de d, par rapport aux variables et respectivement aux individus de
X . Quelle est linterpr etation de IV (v ) en fonction de d ?
a2. Utiliser la d ecomposition de la variance totale pour donner lexpression de IB (v ) et IW (v )

de telle sorte que IV (v ) se d ecompose en fonction de IB (v ), inertie entre, inertie des individus moyens projet es munis des poids de leurs groupes, et de
IW (v ), inertie dans les groupes
projet es, somme des inerties de chaque classe autour de son individu moyen projet e (th eor` eme dHuygens). J.F. Durand
130
b. On consid` ere les probl` emes doptimisation suivants :
(1)
v M v=1
max IB (v ) ,
(2)
max
v
IB (v ) , IW (v )
(3)
max
v
IB (v ) . IV (v )
La valeur de la fonction objectif du probl` eme (i), not ee i (v ), mesure le pouvoir discriminant de laxe v , cest a ` dire, quantie sa capacit ea ` s eparer les groupes projet es sur v . Loptimum de
(i) est r ealis e par un vecteur not ev (i) . b1. Equivalence entre (2) et (3) : En utilisant lidentit e
objectifs
a b
1 1a/(a+b)
equivalence entre (2) et (3). On exprimera la relation qui lie les valeurs des deux fonctions
1, montrer l
2 (v ) et 3 (v ). Montrer que ces fonctions sont homog` enes de degr e 0. Donner les v correspondent a ` ces valeurs extr emes ? On choisira de r esoudre le probl` eme
bornes de leurs intervalles de variation. Quels types de congurations g eom etriques du nuage de points et de laxe
(3) en exprimant le syst` eme d equations aux d eriv ees partielles en fonction du facteur discriminant
f sous la forme dun probl` eme aux valeurs propres. M = V1 .
esoudre (1) par la m ethode des multiplicateurs de Lagrange et montrer b2. R esolution de (1) : R que les trois probl` emes sont equivalents en prenant
3. On choisit maintenant M = V1 et on note v 1 le meilleur axe discriminant solution des trois

probl` emes equivalents de la question pr ec edente. Lobjectif est de chercher un meilleur second, v 2 ,
V1 -orthogonal au premier, puis un troisi` eme orthogonal aux pr ec edents, etc ... On va v erier
comment les ACPs dordre
k de deux triplets conduisent de deux mani` eres di erentes, au m eme
probl` eme aux valeurs propres que celui de la question 2. pour ainsi r ealiser lobjectif x e.
a. ACP des individus moyens : le triplet (G, V1 , ). b. ACP des variables instrumentales X : le triplet (X, V1 BV1 , D ).
Pour chacun des triplets ecrire lexpression de lop erateur des covariances en fonction de de
B et
{C 1 , . . . , C k } les composantes principales. Comment peut-on faire le lien entre V 1 , le premier

axe discriminant
V. Soient {V 1 , . . . , V k } les k premiers vecteurs propres (axes factoriels) de cette matrice et
v 1 et le facteur discriminant f 1 ? Comment retrouver la variable discrininante
d1 .
Pour le triplet b. on ecrira en outre lop erateur des produits scalaires entre individus et lon v eriera quil est identique a ` celui du triplet
, 1 , D ) o` = (Y uY
D X
Y est la projection D -
orthogonale de Y sur lespace vectoriel des colonnes de X . Quen d eduire quant-aux repr esentations factorielles des individus pour ces deux derniers triplets.
131
J.F. Durand
7.5
7.5.1
Formulaires
ACP usuelle dordre k du triplet (X, M = Ip, D = n1In)
T ; np X = (In n1 1 I1 I )T V = n1 X X n individus (actifs), p variables quantitatives (actives) tableau des variables centr ees matrice des covariances (des corr elations si variables r eduites) V V i = i V i 1 . . . k {V 1 , . . . , V k } {A1 , . . . , Ak } {C 1 , . . . , C k }
p 1
i = trace(V) = Variance totale = Inertie

2 2
Facteurs principaux, V i I Rp , V i Axes principaux, Ai = i V i , Ai Composantes principales, C i I Rn C i = XV i = X 1 V1i + . . . + X p Vpi
= 1, V i V j = 0 = i , Ai Aj = 0
moy (C i) = 0 ; var (C i ) = i ; cov (C i , C j ) = 0, i = j C i vecteur propre de n1 XX associ e` a i ; W = XX

i r (C j , X i ) = Aj i / (X ) k
Xk =
i=1
1 C i Ai i
Approximation de rang k de X ; X
Xk 2 F
=n
i=k +1 n
i CT Ai k = 1
Contributions absolues
i 2 de lindividu k ` a laxe i : CT Ai k = (Ck ) /(ni ), p i 2 de la variable k ` a laxe i : CT Ai k = (Ak ) /i , k =1 p k =1
CT Ai k = 1
i CT Rk =1 i=1 p i CT Rk =1 i=1
Contributions relatives
i i 2 de laxe i ` a lindividu k : CT Rk = (Ck ) /W k k, i 2 k de laxe i ` a la variable k : CT Rk = (Ai k ) / Vk ,
Formules de transition
C = XA / i
i i
A = X C / (n i )
i i
7.5.2
DVS du triplet (X, M, D)
J.F. Durand
132
DVS du triplet (Xnp , Mpp , Dnn ) ; X = U r V = C r

1/2 1/2
rang (X ) = r 1 . . . r > 0 WD = XMX D XMX DU = U r XMX DC = C r
A ;
r = diag (1 , . . . , r ) ;
VM = X DXM Op erateurs X DXMV = V r X DXMA = Ar Inertie totale Espaces 133 Vi

M 1
2 M D
= trace(VM ) = trace(WD ) =
r i
Axes Principaux Ai = (**) i V i

1/2 1/2
Composantes Principales
Individus Bases M de Im (X ) (I Rp , M ) V = [V 1 , . . . , V r ], A = [A1 , . . . , Ar ], = 1, V MV = Ir A MA = r Ai M = i
A = V r
A = X DU = X DC r V = AA
Facteurs Principaux F = MV
Variables Bases D de Im (X ) (I Rn , D ) U = [U 1 , . . . , U r ],
r
Ci = (*)
i U i
1/2 1/2
C = U r
U DU = Ir
C = XMV = XMAr W = CC
= XF
C = [C , . . . , C ],
J.F. Durand
Ui
= 1,
C DC = r C i D = i
J.F. Durand
134
Chapitre 8 Traitement denqu etes, Analyse Factorielle des Correspondances Simples et Multiples
LACP g en eralis ee dun triplet (X, M, D ) etudi ee au chapitre pr ec edent, na jusqu` a pr esent puis e ses applications que dans le cas de variables quantitatives trait ees par une ACP usuelle. Ce chapitre pr esente deux nouvelles m ethodes, lAnalyse Factorielle des Correspondances (AFC) dites simples par opposition ` a la suivante qui est lAnalyse Factorielle des Correspondances Multiples (AFCM). Toutes deux sont utilis ees dans le traitement de variables qualitatives issues du d epouillement des questions dune enqu ete statistique. LAFC permet danalyser le comportement de la population confront ee ` a deux questions seulement alors que lAFCM est d edi ee au traitement de deux questions et plus.
8.1
Variables dune enqu ete, codage
Une enqu ete portant sur une population de N individus consiste pour un individu i, ` a choisir une r eponse ` a chaque question. Le fait que les r eponses possibles soient impos ees aux personnes interrog ees, est caract eristique dune enqu ete ` a questions ferm ees.
8.1.1
Variables qualitatives
En langage statistique, on parle de variable qualitative (question) ` a m modalit es (m r eponses possibles). Remarque : un individu ne peut choisir quune seule r eponse ` a chaque question 135
La contrainte pr ec edente rend possible le codage bool een de lappartenance ou non dun individu ` a telle modalit e de telle variable qualitative. Prenons lexemple du d epouillement des r eponses des six premiers individus pour la variable qualitative couleur des yeux ` a quatre modalit es, noir, noisette, vert ou bleu. Individus 1 2 3 4 5 6 couleur des yeux noisette noir bleu vert noisette bleu Codage 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 1
............................................ Il est clair que lon a impos e un choix ` a chaque personne interrog ee qui doit se d eterminer parmi les 4 r eponses possibles. On est souvent en pr esence dun jeu de donn ees comportant des variables qualitatives et des variables quantitatives. Un possibilit e consiste ` a transformer le quantitatif en qualitatif. On eectue une partition de l etendue dune variable quantitative en m intervalles gr ace au choix de m 1 valeurs seuils, construisant ainsi une variable qualitative ` am modalit es faible, moyen et fort. modalit es caract erisant chacune lintervalle consid er e. Souvent, on est amen e` a choisir 3 Remarque : variable quantitative variable qualitative
8.1.2
Indicatrice des modalit es
La matrice de codage disjonctif complet dune variable qualitative ` a N observations et m modalit es est la matrice N m U = [Uij ], o` u Uij = 1 si le i` eme individu est dans la modalit e j , Uij = 0 sinon. Les N individus de la population sont munis de poids statistiques egaux (1/N ). On note D = (1/N )IN la m etrique de lespace I RN des colonnes de U . Propri et es de U
J.F. Durand
136
Marge ligne : la marge ligne est le vecteur colonne somme des colonnes de U . Elle vaut U1 Im = 1 IN .
Linformation contenue dans U est de fait contenue dans m 1 colonnes. Il sut en eet de conna tre m 1 colonnes pour calculer la colonne restante, do` u le qualicatif de complet pour le codage ` a m colonnes.
Marge colonne de U : la marge colonne de U est le vecteur ligne
1 IN U = [U.1 , . . . , U.m ]
des eectifs des modalit es de la variable. Soit U c la matrice des colonnes D -centr ees, U c est de rang plus petit ou egal ` a m1 puisque les colonnes de U c somment ` a 0,
U c1 Im = 0N . 2
U U = diag (U.1, . . . , U.m ), car les colonnes de U sont deux ` a deux orthogonales.
Preuve : Le fait que U 1 Im = 1 IN donne U c 1 Im = (U
1 1 I 1 I U )1 Im N N N
= 0N .2
8.2
Table de contingence, liaison entre deux variables qualitatives
On sint eresse maintenant au tableau crois e ventilant une population selon les modalit es de deux caract` eres qualitatifs. Lindividu va dispara tre en se fondant dans leectif correspondant au croisement dune modalit e de la premi` ere variable et dune modalit e de la seconde. 137
J.F. Durand
8.2.1
D enitions et notations
Soient deux variables qualitatives not ees L (pour Ligne) et C (pour Colonne) ayant et UC . La table de contingence T croisant les eectifs des modalit es de L et C est la T = [nij ] = UL UC . L el ement nij est leectif des individus dans la modalit e i de L et dans la modalit ej de C . respectivement I et J modalit es et des matrices de codage N I et N J not ees UL
matrice
N=
i=1 j =1
nij .
On appelle tableau des fr equences associ e` a T, la matrice I J P = d el ement courant pij = nij /N .
I J
1 T, N
1=
i=1 j =1
pij .
marges ligne et marges colonnes : On appelle marge ligne de P (resp. de T ) le vecteur colonne P 1 IJ (resp. T 1 IJ ), dont l el ement courant i pi. =
j =1 J
pij
(resp. ni. ), est la fr equence (resp. leectif) des individus qui sont dans la modalit e i de On appelle marge colonne de P (resp. de T ) le vecteur ligne 1 II P (resp. 1 II T ), dont l el ement courant j
I
L. On a pi. = ni. /N .
p.j =
i=1
pij
(resp. n.j ), est la fr equence (resp. leectif) des individus qui sont dans la modalit ej de C . On a p.j = n.j /N .
J.F. Durand
138
C
1 1 j J
ij
i.
I p .j 1
Figure 18 : Tableau P des fr equences, marge ligne et marge colonne de P .
M etriques associ ees ` aP : Lespace I RI des colonnes de P est muni de la m etrique diagonale des poids statistiques de la marge ligne, DI = diag (p1. , . . . , pI. ). Lespace I RJ des lignes de P est muni de la m etrique diagonale des poids statistiques de la marge colonne, DJ = diag (p.1, . . . , p.J ).
Propri et es des m etriques

I J I J
M1 : 1 = 1 II DI 1 II = 1 I J DJ 1 IJ = 1 II P 1 IJ ou encore 1 =
i=1
pi. =
j =1
p.j =
i=1 j =1
pij .
M2 : La marge ligne s ecrit P 1 IJ = DI 1 II et la marge colonne 1 II P = 1 IJ DJ . Les propri et es pr ec edentes vont jouer un r ole cl e dans lAnalyse Factorielle des Correspondances du tableau de contingence T . En fait, les m etriques diagonales form ees par les marges de P fournissent les poids statistiques au nuage des points lignes et au nuage des points colonnes repr esent es dans les plans factoriels de lAFC. 139
J.F. Durand
8.2.2
Ind ependance de deux variables qualitatives L et C
C sont empiriquement ind ependantes si et seulement si pij = pi. p.j i = 1, . . . , I,
Soient L et C deux variables qualitatives et P leur tableau I J des fr equences. L et j = 1, . . . , J .
Soit le tableau de lind ependance construit ` a partir des marges de P = [ij = pi. p.j ] = DI 1 II 1 IJ DJ . Lind ependance empirique signie P = . On construit une mesure de l ecart ` a lind ependance par
I J
d =N
i=1 j =1
1 (pij pi. p.j )2 . pi. p.j
Ainsi, d2 = 0 si et seulement si P = . Lind ependance empirique est exceptionnellement r ealis ee en pratique, la question qui se pose est de savoir si la valeur calcul ee du d2 de lind ependance est proche ou non de 0 ! Pearson a montr e que sous lhypoth` ese H0 : L et C sont ind ependantes, d2 est une Test de lind ependance entre L et C
libert e.
r ealisation dune variable al eatoire D 2 qui suit une loi du 2 ` a (I 1)(J 1) degr es de
f (D ) 2
2
(I-1)(J-1)
Figure 19 : Densit e de probabilit e de la loi du 2 , r egion (hachur ee) peu probable des valeurs elev ees .
J.F. Durand
140
Pour un risque derreur , le plus souvent 0.05, on rejette lhypoth` ese H0 si d2 est sup erieur
2 ` a la valeur critique 2 e de d epasser, voir c quune variable (I 1)(J 1) a une probabilit
Figure 19. Si d2 < 2 ese dind ependance. Dans ce cas, linformation c on ne peut rejeter lhypoth` contenue dans P est bien r esum ee par ses marges ligne et colonne que lon visualise par des histogrammes classiques.
8.2.3
Prols lignes et colonnes, distributions conditionnelles
On appelle prol ligne i le vecteur ligne des fr equences conditionnelles ` a i x e Li = [pi1 /pi. , . . . , pij /pi. , . . . , piJ /pi. ].
1 La matrice I J des I prols lignes est not ee L = DI P (L pour Ligne).
Lespace Euclidien des prols lignes (points lignes de L) est RJ . Dans cet espace, chaque On appelle prol colonne j le vecteur colonne des fr equences conditionnelles ` a j x e C j = [p1j /p.j , . . . , pij /p.j , . . . , pIj /p.j ] .
1 La matrice I J des J prols colonnes est not ee C = P DJ (C pour Colonne).
point ligne i est aect e de son poids pi. , pour former le nuage NL .
Lespace Euclidien des prols colonnes (points colonnes de C ) est RI . Dans cet espace,
chaque point colonne j est aect e de son poids p.j , pour former le nuage NC . litatives et matrices des prols. Propri et es de L et C : L1 IJ = 1 II et 1 II C = 1 IJ , (Preuve evidente, propri et es des m etriques). Le point ligne moyen de L est la marge colonne de P . De fa con duale, le point colonne moyen de C est la marge ligne de P . 2 Preuve : Montrons le pour les points lignes. Soit L le point ligne moyen,
1 L=1 II DI L = 1 II DI DI P =1 II P , qui est bien la marge colonne de P . 2
Il ne doit pas y avoir dambigu t e sur les notations L et C , nom des variables qua-
Dans le cas de lind ependance empirique, les lignes de L sont egales ` a la marge colonne de P , les colonnes de C sont identiques ` a la marge ligne de P . 2 Preuve : Montrons le pour les points lignes. Dans le cas de lind ependance empi1 1 rique, P = , alors L = DI = DI DI 1 II 1 IJ DJ = 1 II 1 IJ DJ . 2
141
J.F. Durand
Le nuage des points lignes de L est concentr e au point ligne moyen (la marge colonne de P ). Idem pour le nuage des points colonnes de C concentr e au point moyen qui est la marge ligne de P . distance du 2 entre prols On est en pr esence de deux nuages de points pesants. Le nuage des I prols lignes, chaque prol ligne i est muni du poids pi. . Le nuage des J prols colonnes, chaque prol colonne j est muni de son poids p.j . Se pose maintenant la question de mesurer des distances Euclidiennes entre prols. Le type de distance utilis e est la distance du 2 qui est une distance Euclidienne.
1 Espace des prols lignes, (I R J , DJ ) : Soient Li1 et Li2 deux lignes de L,
d2 2 (Li1 , Li2 )
=
j =1
1 p.j
pi1 j pi j 2 pi1 . pi2 .
1 Espace des prols colonnes, (I R I , DI ) : Soient C j1 et C j2 deux colonnes de C ,
I j1 j2 d2 2 (C , C )
=
i=1
1 pi.
pij1 pij 2 p.j1 p.j2
La raison essentielle pour choisir la distance du 2 est quelle v erie la propri et e suivante equivalence distributionelle : Lorsque lon eectue dans le tableau P , la somme de deux colonnes proportionnelles (ou de deux lignes), les distances du 2 entre prols lignes (ou colonnes) restent inchang ees. Lien avec le 2 de contingence : d2 = N
I J
pi. d2 2 (Li , L)
i=1
=
j =1
j p.j d2 2 (C , C )
Le coecient d2 /N est egal ` a linertie du nuage des prols lignes (des prols colonnes). 2 Preuve : d2 = N
I J
i=1 j =1
1 (pij pi. p.j )2 = pi. p.j
pi.
i=1 j =1
1 p.j
pij p.j pi.
On termine en rappelant que L est la marge colonne de P . 2

J.F. Durand
142
R esum e matrice nuages poids espace point moyen inertie
Points lignes
1 L = DI P
Points colonnes
1 C = P DJ
NL = {L1 , . . . , LI } NC = {C 1 , . . . , C J } DI DJ
1 (I R J , DJ ) L=1 II P 1 (I R I , DI )
C = P1 IJ d2 /N
d2 /N
8.3
Analyse Factorielle des Correspondances
LAnalyse Factorielle des Correspondances (AFC) est une m ethode danalyse de tables de contingences en termes de prols. Lorsque le test dind ependance entre les deux variables qualitatives a donn e comme r esultat que lhypoth` ese dind ependance ne pouvait etre rejet ee, linformation contenue dans le tableau des fr equences P est bien r esum ee par les marges ligne et colonne que lon visualise par des diagrammes en b atons classiques. En eet, les nuages des points prols lignes et prols colonnes sont dans le cas de lind ependance empirique, confondus avec leurs points moyens correspondants qui sont les marges de P . Lobjectif de lAFC est de visualiser dans des plans factoriels, les nuages moyens respectifs. La notion de proximit e est bas ee sur la distance du 2 . On peut NL et NC des points prols et de situer ces nuages par rapport ` a leurs points
1 donc eectuer deux ACP g en eralis ees, celle du triplet (X = L, M = DJ , D = DI ) puis 1 celle du triplet (X = C , M = DI , D = DJ ) dont les composantes principales fourniront
ce cours pr esente lavantage de neectuer quune ACP g en eralis ee dont les repr esentations duales des lignes et des colonnes fourniront les projections des deux nuages.
respectivement les repr esentations en projection de NL et de NC . La d enition choisie dans
8.3.1
D enition et propri et es
LAFC dordre k du tableau T est lACP g en eralis ee dordre k du triplet

1 1 ( X = DI P DJ , M = D J , D = DI ) .
La matrice X = Propri et es du triplet
pij pi. p.j
est de dimensions I J .
143
J.F. Durand
Lespace des points lignes de X est (I RJ , DJ ) celui des points colonnes (I RI , DI ). O` u lon retrouve les distances du 2 entre prols. Soient Xi1 et Xi2 deux vecteurs lignes de X ,
d2 DJ (Xi1 , Xi2 ) = (Xi1 Xi2 ) DJ (Xi1 Xi2 ) J
=
j =1 J
p.j 1 p.j
pi1 j pi2 j pi1 . p.j pi2 . p.j pi1 j pi j 2 pi1 . pi2 .

2
= =
j =1 d2 2 (Li1 , Li2 ) .
j1 j2 2 j1 j2 On v erie de m eme que pour deux colonnes, d2 DI (X , X ) = d2 (C , C ). 2
On notera donc NL et NC les deux nuages de points lignes et colonnes puisque la position relative de leurs points est mesur ee de fa con identique ` a celle des lignes de L et celle des colonnes de C . Centrage des colonnes de X au sens de DI : (utiliser M2, paragraphe 8.2.1) 1 IJ est le point ligne moyen de X car 1 II DI X = 1 IJ . La matrice X c obtenue par DI -centrage des colonnes de X est egale ` a Xc = X 1 II 1 IJ = pij 1 . pi. p.j
Remarquer que XDJ 1 IJ = 1 II ce qui signie 1 II est le point colonne moyen de X et que X c est DJ -centr ee en lignes. Interpr etation du point ligne (colonne) moyen :
2 j j d2 IJ ) = d2 II ) = d2 D J ( Xi , 1 2 (Li , L) et dDI (X , 1 2 (C , C ) .
a dire Le point ligne (colonne) moyen sinterpr` ete donc comme L (comme C ), cest ` la marge colonne (ligne) de P . Op erateurs du triplet (X c = X 1 II 1 I J , M = D J , D = DI ) : De fait, cest la DVS du triplet sur matrice centr ee qui est mise en oeuvre :
1 1 VM = X c DI X c DJ = X DI XDJ 1 IJ 1 IJ DJ = DJ P DI P 1 IJ 1 IJ DJ 1 1 WD = X c DJ X c DI = XDJ X DI 1 II 1 II DI = DI P DJ P 1 II 1 II DI
Par dualit e, on passe de lun ` a lautre en permutant I avec J , P avec P .

J.F. Durand
144
Inertie des nuages NL et NC :
Dapr` es le paragraphe 7.2.1, linertie des nuages NL et NC de poids DI et DJ , par rapport ` a leurs points moyens respectifs, est egale ` a d2 . N
trace(WD ) = trace(VM ) =
Cette relation fournit le lien entre le 2 de lind ependance et la somme des valeurs propres des op erateurs =
d2 . N
8.3.2
ements propres des op El erateurs en dualit e
Les deux op erateurs en dualit e dans la DVS du triplet, calcul es au paragraphe pr ec edent, fournissent comme vecteurs propres les axes factoriels de lAFC. VMV = V et WDU = U .
Le formulaire du paragraphe 7.4.2 r esume les propri et es de ces vecteurs. Pr esentons maintenant leurs propri et es sp eciques dans le cadre de lAFC. 0 1, voir paragraphe 8.5.1, Exercice 1. Valeur propre triviale et vecteurs propres triviaux : 0 est valeur propre dite triviale associ ee aux vecteurs propres 1 IJ pour VM et 1 II pour WD . 2
1 1 que VM = DJ P DI P 1 IJ 1 IJ DJ . Alors, les propri et es M1 et M2 des m etriques
Preuve : Montrons le seulement pour 1 IJ . Lop erateur VM est la matrice J J telle DI et DJ enonc ees au paragraphe 8.2.1, donnent VM 1 IJ = 01 IJ . 2
Lop erateur VM , calcul e sur la matrice X c centr ee en colonnes, sexprime simplement en fonction de la matrice X non centr ee. On a donc VM 1 IJ = X DI XDJ 1 IJ 1 IJ = 01 IJ , Ce qui signie que 1 est valeur propre triviale associ ee au vecteur trivial 1 IJ , pour lop erateur VM calcul e sur la matrice X non centr ee. Ces propri et es se reconduisent par dualit e pour lop erateur WD . Soient valeur propre non triviale, V = 1 IJ et U = 1 II les vecteurs propres de VM et de WD associ es ` a . Alors, est aussi valeur propre des op erateurs calcul es sur la matrice X non centr ee, avec les m emes vecteurs associ es V et U . 145
J.F. Durand
2 Preuve : Montrons le seulement sur VM . V est vecteur propre non trivial de VM VMV = X c DI X c DJ V = X DI XDJ V 1 IJ 1 I J DJ V = V . V et 1 IJ sont deux vecteurs propres de VM distincts. Les vecteurs propres forment une base DJ -orthonorm ee de I RJ . Il en r esulte que 1 IJ DJ V = 0. 2
1 1 En r esum e, que lon centre ou non la matrice X = DI P DJ , les axes factoriels sont les
m emes. La seule di erence vient de la valeur propre triviale qui est 0 ou 1 suivant que X est DI -centr ee en colonnes ou non. Dans la pratique, la matrice X est toujours centr ee.
8.3.3
Pratique de lAFC
LAFC permet de visualiser les ecarts des deux nuages des prols par rapport ` a leurs moyennes respectives (les marges de P ). Il est donc primordial danalyser avant tout les deux distributions marginales de P . Une fois analys e les marges, on peut se poser le probl` eme du choix du nombre k daxes factoriels ` a retenir, on sait en outre que k min(I 1, J 1). Le crit` ere global de qualit e bas e sur le pourcentage dinertie reconstruite avec k axes factoriels, est identique ` a celui de toute ACP g en eralis ee, voir paragraphe 7.2.1. Examinons maintenant les particularismes de lAFC qui en font une m ethode qui se d emarque de lACP usuelle. Les axes principaux sont centr es : Cest une cons equence du fait que 1 IJ est vecteur propre de VM et que les vecteurs propres sont DJ -orthogonaux
J
1 IJ DJ A =
j =1
p.j A j = 0.
Ce qui signie que les axes principaux sont DJ -centr es. En particulier, pour = 1, ne peut donc etre un axe de taille comme cest le cas, parfois, en ACP usuelle, voir paragraphe 7.3, Exercice 7. Repr esentations simultan ees des points lignes et colonnes Les prols lignes barycentres des prols colonnes : Consid erons, dans lespace I RJ , laxe factoriel V sur lequel le point ligne Li se projette au point de coordonn ee Ci , o` u C = U est la composante principale num ero . Pour ne pas confondre avec les prols colonnes C j , ceux ci sont
J.F. Durand
on ne peut avoir A1 j > 0 j = 1 . . . , J . Le premier axe principal de lAFC
146
indic es sup erieurement par une lettre latine, les composantes principales sont indic ees sup erieurement par une lettre grecque. La formule de transition (*), voir donne
1 1 P DJ 1 II 1 IJ et M = DJ , Formulaire 7.4.2, appliqu ee au cas de lAFC o` u X c = DI
A A A 1 C = X c M = DI P = L . Ci A = Li =
J
Il r esulte
j =1
pij A j . pi.
1 Ainsi, gr ace ` a un changement d echelle (dilatation car 0 1), Ci est au barycentre des points {A j , j = 1, . . . , J } munis des poids du prol ligne Li .
j Mais, dans lespace I RI , A j est la projection du point colonne C sur laxe factoriel
U . Il en r esulte quil est l egitime de repr esenter simultan ement dans un m eme plan factoriel (, ), Figure 20, les prols lignes au barycentre des prols colonnes. Figure 20, un seul prol ligne Li est repr esent e, pour ne pas alourdir la gure.
C ,C A , A
Composantes Principales Axes Principaux Profil Ligne Profils Colonnes
A/
Li C, C , C
1 2
( C J, LJ )
i
A j/
Ci
Li
A / J
A/ Ci C
( C , Li )
( C , Li )
Figure 20 : repr esentation barycentrique dans le plan factoriel (, ) du prol ligne Li au barycentre des prols colonnes munis des poids puis es dans les valeurs du prol Li . Les prols colonnes barycentres des prols lignes : 147
J.F. Durand
Par dualit e, gr ace ` a la formule de transition (**), on obtient
A j
=
i=1
pij Ci . p.j
Ce qui l egitime la repr esentation simultan ee sur un plan factoriel des prols colonnes au barycentre des points lignes (toujours ` a un facteur de dilatation). Le facteur de dilatation associ e` a un axe factoriel est n egligeable si la valeur propre est voisine de 1 ; il est de plus en plus important au fur et ` a mesure que laxe factoriel est associ e` a une valeur propre de plus en plus proche de 0. Dans la pratique, on admet comme l egitime la repr esentation simultan ee des prols lignes et des prols colonnes sur un m eme plan factoriel, sans facteur de dilatation, bien que pour les premiers axes, les valeurs propres sont souvent plus proches de 0 que de 1. Au vu de leur proximit e sur un plan factoriel, on ne peut l egitimer la proximit e entre un prol ligne et un prol colonne que si ceux ci sont bien repr esent es sur ce plan. ements suppl El ementaires Les formules de transition, dans le cas particulier de lAFC, s ecrivent
A C =L
(*) ,
C A =C

(**).
Si les el ements suppl ementaires sont des fr equences conditionnelles (prols), il est parfaitement valable dutiliser ces formules dans lesquelles on remplace L, matrice des prols lignes actifs, par une matrice de prols lignes suppl ementaires et C , matrice des prols colonnes actifs, par une matrice de prols colonnes suppl ementaires. Un point ligne suppl ementaire se trouvera au barycentre des points colonnes actifs munis des poids de cette ligne. Par dualit e, un point colonne suppl ementaire sera situ e au barycentre des points lignes actifs munis des poids de cette colonne.
J.F. Durand
148
8.3.4
Cas dune variable ordinale, rapport de corr elation et optimal scoring
Rapport de corr elation : Soient x et y deux variables quantitatives ` a I et J valeurs dont les fr equences des r ealisations (xi , yj ) sont stock ees dans P d eni en 8.2.1. D u` a Guttman, le rapport de corr elation de y par rapport ` a x est lindice statistique dont le carr e est
2 y/x
var (E (y/x)) = = var (y )
I i=1
pi. (E (y/x = xi ) y )2 . var (y )
Remarquons que x peut etre une variable qualitative, dans ce cas xi est la i` eme modalit e de x. La variance de y se d ecompose en
J I I
var (y ) =
j =1
p.j (yj y ) =
pi. var (y/x = xi ) +

i=1 i=1
pi. (E (y/x = xi ) y )2 = Vw + Vb ,
o` u Vb = var (E (y/x)) est la variance entre (between) les modalit es repr esent ees par les moyennes conditionnelles E (y/x = xi ) et Vw = E (var (y/x)) est la variance ` a lint erieur (within) des modalit es x = xi encore appel ee moyenne des variances conditionnelles. Ceci a pour cons equence
2 0 y/x 1. 2 Si y/x = 1, cela signie que Vw = 0 cest ` a dire que, ` a i x e, J
var (y/x = xi ) =
j =1
pij (yj E (y/x = xi ))2 = 0. pi.
Cela est r ealis e si sur chaque ligne i de P , il ny a quune seule valeur pij non nulle. Dans ce cas, la connaissance de x d etermine celle de y par une relation fonctionnelle.
2 Si y/x = 0, alors, pour tout i, E (y/x = xi ) = y . Ce cas est r ealis e lorsque les
variables y et x sont ind ependantes empiriquement. En eet, sous cette hypoth` ese,
J
E (y/x = xi ) =
j =1
pij yj = pi.
p.j yj = y.
j =1
Lorsque x est une variable quantitative, on peut montrer la relation suivante entre le rapport de corr elation et le coecient de corr elation lin eaire
2 2 0 r 2 (x, y ) y/x 1 et 0 r 2 (x, y ) x/y 1.
149
J.F. Durand
Optimal scoring en AFC Il arrive souvent dans lAFC du tableau P quune des deux variables qualitatives, par exemple C , soit une variable ordinale, par exemple le temps ou toute autre variable dont associer une variable quantitative y = [y1 , . . . , yJ ] ` a valeurs ordonn ees y1 < . . . < yj < . . . < yJ , que lon supposera DJ -centr ee r eduite y=1 IJ DJ y = 0, var (y ) = y DJ y = 1. les modalit es pr esentent un ordre naturel, voir Exercice 3 paragraphe 8.5.1. On peut lui
les scores lignes
On peut alors associer ` a la variable qualitative L une variable quantitative t form ee par
1 t = DI P y = Ly
cest ` a dire, le score ti est la moyenne des y sachant la modalit e Li

J
ti = Li y =
j =1
pij yj = E (y/L = Li ). pi.
Remarquer que t est DI -centr ee car, dapr` es M2, t = 1 II DI t = 1 II P y = 1 IJ DJ y = 0. d enie par La variance de t, not ee var (t), ou variance des moyennes conditionnelles de y ` a L x e, est
1 var (t) = var (E (y/L)) = t DI t = y P DI P y.
Le probl` eme appel e optimal scoring est celui-ci : Comment choisir y pour que les scores miser est donc celui de la variance de t lignes {t1 , . . . , tI } soient optimaux au sens le plus s epar es possibles ? Le crit` ere ` a maxi1 max y P DI P y.
y DJ y =1
Par la m ethode des multiplicateurs de Lagrange, la solution y est donn ee par le premier vecteur propre non trivial, le premier axe factoriel, de lop erateur VM dans lAFC de P
1 1 DJ P DI P y = 1 y .
Il faut noter que la relation dordre nest pas forc ement conserv ee sur les valeurs de y puisque le domaine des contraintes du probl` eme doptimisation ne la prend pas en compte. Elle est cependant conserv ee dans de tr` es nombreux cas, et il convient danalyser
J.F. Durand
150
pr ecis ement les anomalies eventuelles. Les scores lignes de dispersion maximale sont donn es par la formule de transition 1 = DI est la premi` Py = Ly , ce qui signie que t ere composante principale de lAFC de t P. On note que la premi` ere valeur propre non triviale est la valeur optimale du carr e du rap1 2 port de corr elation de y par rapport ` a L , 1 = y P DI Py = var (E ( y /L))/var ( y) = y /L .
Leet Guttman
La repr esentation conjointe du plan factoriel (1, 2), Figure 21, est typique de leet Guttman encore appel e eet fer ` a cheval.
60
axe 2 0.0033 ( 24.71 %)
0.10
0.15
0.20
agricultural sciences chemistry
0.05
earth sciences economics
psychology 75 anthropology
0.00
biological sciences
74 sociology 73
65
0.05
70 physics
71
72
other social sciences
mathematics engineering
0.2
0.1 axe 1
0.0
0.1
0.2
0.0093 ( 70.55 %)
Figure 21 : Repr esentation conjointe (1,2) des modalit es des variables ann ee et doctorats es-sciences aux USA. 151
J.F. Durand
Il sagit de lAFC dun jeu de donn ees d u` a Gabriel et Zamir, voir aussi [6, Greenacre], croisant les eectifs des types de doctorats es-sciences accord es aux USA et les modalit e 1960,1965-1975 de la variable ann ee. Une fourche parabolique repr esente souvent les modalit es de la variable ordinale lorsque lon peut r eordonner les modalit es de lautre variable (selon lordre des valeurs sur laxe 1) pour faire appara tre une diagonale forte dans le tableau des prols. Laxe 1 oppose les valeurs faibles aux valeurs fortes de la variable ordinale, alors que laxe 2 oppose ses valeurs extr emes aux valeurs moyennes. Laxe 1 sinterpr` ete comme une evolution au cours du temps des prols types de doctorats, la tendance de la courbe r eguli` ere traduit un changement allant des sciences dures traditionnelles vers les sciences humaines. Les doctorats agricultural sciences, earth sciences, et economics, situ es ` a lint erieur du fer ` a cheval du cot e des ann ees anciennes, sont des prols situ es au dessus du prol ligne moyen pour les ann ees extr emes.
8.4
Analyse Factorielle des Correspondances Multiples
Cette m ethode, en abr eg e AFCM, est une AFC appliqu ee non pas ` a une table de contingence, mais au tableau des fr equences issu de la super-matrice de codage dun nombre de variables qualitatives sup erieur ou egal ` a deux. Dans le cas dun questionnaire, cela revient ` a juxtaposer en colonnes les matrices de codage disjonctif complet de toutes les questions. Au contraire de lAFC, les individus interrog es sont directement pris en compte dans lAFCM en tant que lignes du tableau analys e.
8.4.1
D enitions et propri et es
La variable j , 1 j Q, ` a mj modalit es, est cod ee par la matrice U j , N mj . M= U = U . . . U . . . U Q est la super-matrice N M de codage des Q variables.
Q j =1 mj 1 j
Q : nombre de variables qualitatives observ ees sur les m emes N individus (Q 2). est le nombre total de modalit es.
Clairement, 1 IN U 1 IM = NQ est la somme de tous les el ements de U . On est amen e ` a d enir la matrice des fr equences et ses marges lignes et colonnes.
J.F. Durand
152
La matrice des fr equences associ ee ` a U est F = 1 U. NQ 1 1 IN . N
La marge ligne de F est le vecteur colonne F 1 IM = La marge colonne de F est le vecteur ligne
1 Q U 1 . . . U.1m1 . . . U.Q 1 . . . U. mQ , NQ .1 o` u [U.j1 . . . U.jmj ] est la marge colonne de U j . M etriques associ ees aux marges de F Lespace I RN des colonnes de F est muni de la m etrique diagonale DI des poids statistiques des individus, 1 IN . N des lignes de F est muni de la m etrique diagonale DJ des poids statistiques DI = 1 Q 1 Q diag U.1 1 . . . U. m1 | . . . |U.1 . . . U. mQ . NQ
Lespace I RM
puis es dans la marge colonne de F , DJ =
La marge colonne de F s ecrit, 1 IN F = 1 IM DJ . Proposition : Soit F c la matrice des colonnes de F , DI -centr ees. Alors rang (F c ) min(N 1, M Q) . 2 Preuve : F c = U 1 c . . . U Q c , o` u U j c est la matrice centr ee en colonnes du bloc U j . Les propri et es du codage, voir paragraphe 8.1.2, impliquent que U j c 1 Imj = 0N , pour j = 1, . . . , Q, ce qui implique que rang (F c ) M Q. Puisque F c est centr ee, N 1 1 IN F c = 0M , ce qui termine la preuve. 2
LAFCM dordre k du tableau U est lAFC dordre k du tableau F des fr equences, cest ` a dire lACP g en eralis ee dordre k du triplet
1 1 ( X = DI F DJ , DJ , DI ) .
Les m etriques utilis ees etant les matrices diagonales des marges de F . Comme dans lAFC, cest le triplet (X c = X 1 IN 1 IM , D J , D I ) qui est eective153
J.F. Durand
ment mis en oeuvre. Comme

1 1 c 1 X c = NF c DJ = DI F DJ ,
on en d eduit que le rang de X c est egal ` a celui de F c . Lexpression des op erateurs en dualit e sobtient ` a partir de celle de lAFC, en rempla cant P, 1 II et 1 IJ respectivement par F , 1 IN et 1 IM .
1 1 VM = X c DI X c DJ = X DI XDJ 1 IM 1 IM DJ = DJ F DI F 1 IM 1 IM DJ 1 1 WD = X c DJ X c DI = XDJ X DI 1 IN 1 IN DI = F DJ F DI 1 IN 1 IN DI .
Valeurs propres et inertie des nuages Comme en AFC, les valeurs propres sont comprises entre 0 et 1 ; le nombre de valeurs propres non nulles, egal au rang de X c , v erie nombre de valeurs propres non nulles min(N 1, M Q). Dautre part, linertie du nuage NC des modalit es colonnes et celle du nuage NL des individus ont pour valeur, M 1= Q
I = trace(WD ) = trace(VM ) =
partielles repr esentant la part de chaque variable

Q
Si lon sint eresse au nuage NC on peut d ecomposer linertie I en une somme dinerties mq 1 . Q
I=
q =1
I (q )
o` u
I (q ) =
Linertie I (q ) imput ee ` a la variable q est dautant plus importante que la variable poss` ede de modalit es. On peut tenir compte de cette remarque dans la construction dun questionnaire denqu ete. Linertie I (q ) peut elle aussi se d ecomposer pour faire appara tre linuence des modalit es
mq
I (q ) =
j =1
I (q ; j )
o` u
q 1 U.j /N I (q ; j ) = . Q
Une modalit e` a eectif faible aura relativement plus dinuence quune modalit e` a fort eectif.
J.F. Durand
154
8.4.2
Pratique de lAFCM
Repr esentation des individus Il arrive parfois que le nombre des individus est si important que leur repr esentation dans des plans factoriels est dicile voire impossible ` a analyser. Cependant, la repr esentation barycentrique des individus prend un sens particulier en AFCM. composante principale C . Les projections du nuage N des individus sur laxe factoriel V sont donn ees par la A 1 A C = XDJ = U . Q Lindividu i se projette donc selon Ci =
j Mi
1 A j , Q
o` u Mi = {j {1, . . . , M } | Uij = 1} est lensemble, de cardinal egal ` a Q, des modalit es es, lindividu i est donc ` a liso-barycentre de prises par lindividu i. Au facteur 1/ pr` ses choix de r eponses. Repr esentation des modalit es Centrage global des modalit es : Comme en AFC, les modalit es projet ees sur laxe factoriel U sont DJ -centr ees. En eet, 1 IJ , vecteur propre trivial, est DJ -orthogonal ` a laxe principal A dont les coordonn ees donnent les projections du nuage NC sur laxe factoriel. De l` a r esulte le centrage de A . 1 IJ DJ A = 0. Centrage des modalit es ` a lint erieur dune variable : Notons Dq la matrice diagonale des fr equences associ ee ` a la variable qualitative q , Dq = diag ( Laxe principal A est d ecoup e en Q blocs A = U. mq U.q 1 ,..., ). N N
q
A (1) . . . A (q ) . . . A (Q) 155
.
J.F. Durand
Le vecteur colonne A (q ), de dimension mq , fournit les coordonn ees des projections des modalit es de la variable q , sur laxe factoriel U . Alors, 1 Imq Dq A (q ) = 0, ce qui signie que les modalit es dune variable sont centr ees en projection par rapport ` a leurs fr equences, voir Exercice 1 du paragraphe 8.5.2.
8.5
8.5.1
Exercices
Analyse Factorielle des Correspondances
a I et J modalit es. Une enqu ete Exercice 1 : Soient L et C deux variables qualitatives ` portant sur une population de N individus a donn e comme d epouillement les deux matrices de codage disjonctif complet UL et UC . 1. Expliciter UL UL , UC UC , UL UC , 1 IN UL et 1 IN UC . 2. On note A et C laxe principal et la composante principale associ es ` a la valeur propre . Rappeler la d enition de ces deux vecteurs. Soient = UL C et = UC A , vecteurs de (I RN , N 1 IN ). Montrer que ces deux vecteurs sont centr es, ont pour variance et que est le coecient de corr elation lin eaire entre et . En d eduire que en AFC, 0 1. Exercice 2 : Analyse des correspondances dune matrice condens ee, [6, Greenacre]. H J , H < I , la matrice d eduite de P en ajoutant ensemble des groupes disjoints de disjonctif complet des H groupes (une matrice de 0 et de 1 avec un seul 1 dans chaque ligne, U0 1 IH = 1 II ). 1. Soit DI la matrice diagonale telle que DI 1 II = P 1 IJ . Comment sont form ees les lignes de la matrice U0 DI ? Quelle est la marge ligne de cette matrice ? Ecrire lexpression matricielle des prols lignes de P . Montrer que chaque prol ligne de P0 est le centre de gravit e du groupe des prols lignes de P qui ont et e regroup es pour former la ligne correspondante. 2. Soient C , A et r = diag (1 , . . . , r ) respectivement les matrices des composantes principales, des axes principaux et des inerties non nulles non triviales associ ees ` a lAFC de P . Ecrire les formules de transition de lAFC de P .
J.F. Durand
Soit P , I J , la matrice des fr equences associ ee ` a un tableau de contingence T et P0 ,
lignes de P , ce qui peut s ecrire : P0 = U0 P , o` u U0 , I H , est la matrice du codage
156
3. Montrer comment les lignes de P0 peuvent etre repr esent ees comme points lignes suppl ementaires ` a lAFC de P et, r eciproquement, comment les lignes de P peuvent etre repr esent ees comme points suppl ementaires dans lAFC de P0 . Exercice 3 : AFC dune enqu ete sur le tabagisme dans une entreprise, [6, Greenacre]. Apr` es la publication des r esultats dune enqu ete nationale sur le tabagisme, le directeur du personnel dune grande entreprise am ericaine a d ecid e de mener une enqu ete ` a lint erieur de son etablissement. Ayant consult e une soci et e de consulting en statistique, il d ecida de partager les membres du personnel en 5 cat egories : (1) senior management, (2) junior management, (3) senior employees, (4) junior employees, (5) secretarial sta. Un echantillon al eatoire de 10% est tir e au sort ` a lint erieur de chaque groupe et chacune des personnes est interrog ee pour savoir si il ou elle (a) ne fume pas, (b) fume 1-10 cigarettes par jour, (c) fume 11-20 cigarettes par jouur, (d) fume plus de 20 cigarettes par jour. Ces seuils ont et e choisis pour s eparer respectivement non-fumeurs, fumeurs l egers, fumeurs moyens, gros fumeurs. Lenqu ete portant sur 193 individus est r esum ee dans le tableau de contingence.
Smoking Sta group Senior managers Junior managers Senior employees Junior employees Secretaries % national None 4 4 25 18 10 42 Light 2 3 10 24 6 29 Medium 3 7 12 33 7 20 Heavy 2 4 4 13 2 9
Consum. Alcool NO 0 1 5 10 7 YES 11 17 46 78 18 Not relevant
Dautre part, les pourcentages de non fumeurs, fumeurs l egers, fumeurs moyens et gros fumeurs fournis par lenqu ete nationale sont rapport es dans la ligne suppl ementaire du tableau. Enn, l echantillon denqu ete sur lentreprise a et e class e en deux groupes suivant quune personne consomme des boissons alcolis ees ou non. Les r esultats sont pr esent es dans les deux derni` eres colonnes du tableau. Voici les diagrammes des prols des donn ees actives. Commenter. 157
J.F. Durand
Profils Lignes + Marge Colonne
Profils Colonnes + Marge Ligne
SM (0.057)
0.4 0.4
JM (0.093)
0.4
SE (0.264)
No (0.316)
Li (0.233)
ME (0.321)
0.4
0.4
0.2
0.2
0.2
0.2
0.2
0.0
0.0
0.0
0.0
0.0
No
Li
ME
He
No
Li
ME
He
No
Li
ME
He
SM
SE
SM
SE
0.0
SM
0.2
0.4
SE
JE (0.456)
0.4 0.4
S (0.13)
0.4
Profil Moyen
He (0.13)
Profil Moyen
0.4
0.2
0.2
0.2
0.2
0.0
0.0
0.0
0.0
No
Li
ME
He
No
Li
ME
He
No
Li
ME
He
SM
SE
0.0
SM
0.2
0.4
SE
Donner linterpr etation des r esultats num eriques et graphiques pour lAFC de cette enqu ete. _______________________________________________________________ - AFC de Fumeurs _______________________________________________________________ Inertie totale = 0.0851899 nb de lignes = 5 nb de colonnes = 4 effectif total = 193 D2 dindependance = 16.44165 , d.d.l. = 12 , Chi2 critique = 21.02607 (0.05) _______________________________________________________________ val.pro. % inert. % cumul. 1 2 3 4 0.07476 0.01002 0.00041 0.00000 87.76 11.76 0.49 0.00 87.76 99.51 100.00 100.00 158
J.F. Durand
_______________________________________________________________ Axes principaux a1 No -0.39330844 Li ME He a2 0.030492161 a3 0.0008904801 0.0256590885
0.09945589 -0.141064311 -0.0219980424 0.19632095 -0.007359155 0.29377603 0.197765591 -0.0262108345
_______________________________________________________________ Composantes principales c1 SM -0.06576826 JM JE S 0.25895861 SE -0.38059494 c2 0.24330479 0.01065995 c3 0.033705222 0.005155762 0.008081082 0.19373722 -0.070981088
0.23295191 -0.05774398 -0.003305374 -0.20108920 -0.07891130
_______________________________________________________________ Contributions absolues (x 10000) des 5 modalites pour les 3 prem. compo. CTA1 CTA2 CTA3 SM JM 33 2136 6943 837 5512 2562 30 805 170 120 205
SE 5120 S 701
JE 3310 1518
Contributions relative (x 10000) des 5 modalites pour les 3 prem. compo. COS1 COS2 COS3 SM 922 8003 1074 89 2 2 14 8 579 JM 5264 4647 SE 9990 JE 9419 S
8653 1333
_______________________________________________________________ Contributions absolues (x 10000) des 4 modalites pour les 3 premiers axes CTA1 CTA2 CTA3 No 6540 Li 293 6 308 4632 2728 159
J.F. Durand
ME 1656
17 5114
He 1495 5058 2152 Contributions relative (x 10000) des 4 modalites pour les 3 premiers axes COS1 COS2 COS3 No 9940 ME 9818 60 14 0 160 168 54 Li 3267 6573 He 6844 3102
_______________________________________________________________
JM
0.2
SM
He
axe 2 0.01 ( 11.76 %)
0.1
drink
0.0
No SE ME JE
0.1
S Nationwide average Li
0.3
0.2
do not drink
0.4
0.3
0.2 axe 1
0.1
0.0
0.1
0.2
0.3
0.0748 ( 87.76 %)
A laide des formules de transition, calculer la position du prol ligne et des prols colonnes suppl ementaires sur ce plan factoriel. Enrichir lanalyse par lapport de ces el ements suppl ementaires.
J.F. Durand
160
8.5.2
Analyse Factorielle des Correspondances Multiples
Exercice 1 : Le centrage des modalit es ` a lint erieur dune variable q On appelle tableau de Burt associ e` a la super-matrice de codage U , la matrice B = U U . 1. Quelles sont les propri et es des blocs de cette matrice indic es par les num eros des variables ?
1 1 2. Calculer en fonction de B , lop erateur VM bas e sur la matrice X = DI F DJ non
centr ee. Soit A un vecteur propre non trivial de VM associ e` a . Calculer A (q ), le vecteur bloc colonne q de A , de dimension mq , en fonction du bloc ligne Bq de B . En d eduire que 1 Imq Dq A (q ) = 0,
.1 o` u Dq = diag ( N ,...,
Uq
U.qmq N
) est la matrice diagonale des fr equences de q .
Exercice 2 : Deux variables qualitatives T 1 et T 2 ont et e observ ees sur 20 individus. La premi` ere a trois modalit es, la seconde deux. Le r esultat des observations est donn e dans la table suivante Individus 1 2 3 4 5 6 7 8 9 10 T1 1 2 1 1 1 2 3 1 2 3 T2 2 2 2 1 1 2 1 1 2 2 Individus 11 12 13 14 15 16 17 18 19 20 T1 1 2 3 3 1 1 1 2 2 2 T2 1 2 2 1 2 2 1 2 1 2
1. Construire la matrice de codage disjonctif complet sur laquelle a et e mise en oeuvre une AFCM dont les r esultats num eriques partiels associ es aux variables, sont pr esent es en Annexe. On constate que seulement trois valeurs propres sont non nulles. Pouvait-on pr evoir ce r esultat ? 2. Comparer le total des contributions absolues des deux variables. Commenter. 3. La repr esentation des modalit es de la seconde variable est-elle bonne dans le plan (1, 2) ? Donner une br` eve interpr etation de la repr esentation des variables dans ce plan factoriel. D eduire la repr esentation des individus dans ce plan. 161
J.F. Durand
2.0
a 2 0.5 ( 33.33 %)
0.0
0.5
1.0
1.5
2 2
-0.5
1 -1.0 -0.5 0.0 0.5 1.0
a 1 0.6937 ( 46.25 %)
ANNEXE : ====== val.prop. 1 2 3 4 5 0.69373 0.50000 0.30627 0.00000 0.00000 %I 46.25 33.33 20.42 0.00 0.00 %Icum. 46.25 79.58 100.00 100.00 100.00
Contributions absolues (x 10000) des 5 modalites pour les 3 premiers axes CTA1 CTA2 CTA3 1 1511 2478 1511 2 3211 3 1 3000 2 2000 77 3211 278 0 3000 0 2000 278 7445
Contributions relative (x 10000) des 5 modalites pour les 3 premiers axes

J.F. Durand
162
COS1 COS2 COS3 1 3812 4505 1683 2 6855 3 1 6937 2 6937 119 3026 212 0 3063 0 3063 481 9306
163
J.F. Durand
J.F. Durand
164
Chapitre 9 La r egression Partial Least-Squares lin eaire

Due ` a Herman Wold et ` a Svante Wold, la r egression Partial Least-Squares, en abr eg e PLS, est apparue dans les ann ees 70. Dans ce chapitre, la r egression PLS est pr esent ee dune fa con di erente de celle usuellement pratiqu ee dans la litt erature statistique o` u lapproche algorithmique est le plus souvent d evelopp ee et expliqu ee, voir par exemple [12, Tenenhaus], avec pour objectif le traitement des donn ees manquantes et aussi pour coller le plus possible aux logiciels d evelopp es dans le commerce. Notre objectif est de situer PLS dans le contexte et les notations des chapitres pr ec edents d edi es ` a lanalyse du triplet (X, M, D ) avec ses propri et es de dualit e. Cette optique permet la mise en evidence dune repr esentation factorielle des individus, nouvelle ` a ce jour pour PLS, qui a pour avantage d etre une repr esentation exacte, cest ` a dire bas ee sur une projection du nuage des individus, et interpr etable car en relation, certes non duale mais explicit ee et mesur ee, avec lautre repr esentation factorielle, celle des variables explicatives et des r eponses. Il en r esulte, de fa con pratique, un nouveau crit` ere pour le choix du nombre de composantes qui compl` ete les crit` eres existants, ainsi que des aides ` a linterpr etation pour mesurer la qualit e de repr esentation des individus. La version 9.9 de la fonction pls() programm ee par lauteur dans le langage Splus, contient la mise en oeuvre num erique et graphique des r esultats pr esent es dans ce chapitre. Nous avons vu jusqu` a pr esent des m ethodes pour lanalyse factorielle exploratoire dun seul tableau de donn ees. Ce chapitre proc` ede dun contexte de r egression, cest ` a dire que le statisticien est en pr esence de deux jeux de variables, les premi` eres (x1 , . . . , xp ) appel ees explicatives, les secondes (y 1 , . . . , y q ) ` a expliquer, toutes mesur ees sur les m emes n individus dont les poids statistiques seront 1/n sauf avis contraire, mais usuel165
lement stock es, comme dans les chapitres pr ec edents, dans la diagonale de la matrice D . On note X , n p, et Y , n q , les matrices des observations sur les variables centr ees r eduites. On utilisera les n eologismes pr edicteurs pour d esigner les premi` eres variables
et r eponses pour les secondes et lobjectif est dexp erimenter un mod` ele lin eaire de pr ediction des r eponses par les pr edicteurs bas e sur la construction de composantes principales qui r esument les pr edicteurs. Lajustement de la r eponse y j est alors donn e par j (k ) + j (k )x1 + . . . + j (k )xp , y j (k ) = 0 1 p (9.1) j (k )}i et donc la r o` u les coecients { eponse estim ee y j (k ), d ependent du nombre k de i On verra que cette approche factorielle de la r egression ore une alternative int eressante ` a la r egression lin eaire multiple usuelle dans le cas, par exemple, o` u lon d esire conserver dans le mod` ele tous les pr edicteurs bien que certains dentre eux soient fortement corr el es, ou encore lorsque lon dispose de peu dobservations par rapport au nombre, parfois tr` es grand, de variables explicatives (plusieurs centaines dans le cas des probl` emes de calibration en spectroscopie proche de linfrarouge). Deux m ethodes factorielles de r egression sont en comp etition : la R egression sur Composantes Principales ou RCP, et la r egression PLS, encore appel ee en anglais, Projections onto Latent Structures. La m ethode RCP sera bri` evement pr esent ee ainsi que les motivations pour les r egressions factorielles.
composantes principales utilis ees.
9.1
Motivations pour les r egressions factorielles
Consid erons pour simplier le cas q = 1 dune seule r eponse et le mod` ele lin eaire Y = X + . Sous les hypoth` eses N (0, 2 In ) et X de plein rang colonne, lestimateur aux moindres = (X X )1 X Y ) = . La matrice X qui est sans biais, E ( etant centr ee r eduite, il est possible dinterpr eter les coecients = [1 , . . . , p ] sous r eserve dune faible variance i ) = 2 [(X X )1 ]ii = var (
J.F. Durand
carr es de , obtenu par la r egression lin eaire multiple, est
2 , 2 1 R( i)
i = 1, . . . , p,
166

2 o` u R( etermination de la r egression de la variable explicative xi i) est le coecient de d
sur les autres variables explicatives, voir Exercice 1. Lerreur quadratique moyenne ou Mean Squared Error, 2 ) = 2 trace[(X X )1 ] = 2 MSE = E ( 2 1 2 1 R( i)
est donc grande lorsque certaines variables explicatives sont fortement corr el ees. Cela OLS , OLS pour Ordinary signie que dans ce cas, lestimateur aux moindres carr es, not e Least-Squares, est tr` es impr ecis. Le domaine dapplication de la r egression lin eaire multiple exclue les cas la matrice des covariances nest pas inversible (X nest pas de plein rang colonne), certains pr edicteurs sont tr` es fortement corr el es. Pour contourner ces dicult es, appel ees probl` eme de la multicolin earit e, une solution possible est dutiliser une r egression lin eaire pas ` a pas qui eliminera du mod` ele un certain nombre de variables explicatives. Notre objectif est ici de conserver toutes les variables et la fa con de proc eder est deectuer la r egression des r eponses sur des variables latentes non corr el ees construites sur les variables explicatives. Cest ce que lon appelle des m ethodes factorielles de r egression. Un des avantages de ces m ethodes, outre de construire des mod` eles robustes face au probl` eme de la multicolin earit e des pr edicteurs, est de proposer aussi un outil exploratoire des donn ees gr ace aux plans factoriels construits sur les composantes principales.
9.2
La r egression sur composantes principales
Comme son nom lindique la RCP consiste dans un premier temps ` a eectuer une ACP usuelle sur la matrice X des variables explicatives centr ees r eduites pour r egresser ensuite une r eponse, on supposera q = 1, sur les composantes principales retenues. Soit C (k ) = [C 1 . . . C k ] la matrice dont les colonnes sont form ees de k composantes principales et V (k ) = [V 1 . . . V k ] celle des vecteurs propres de la matrice V associ es ` a ces composantes principales. Le mod` ele de la RCP s ecrit Y = C (k )(k ) + . Lestimateur RCP des coecients du mod` ele devient (k ) = (C (k ) C (k ))1 C (k ) Y 167 (k ) = C (k ) et Y (k ).
J.F. Durand
Lorthogonalit e des composantes donne pour (k ) = [ (k ) 1 , . . . , (k )k ] (k )i = C iY cov (Y, C i ) = , ni i i = 1, . . . , k.
Lorsque les composantes principales ont une interpr etation naturelle, il est peut etre souhaitable de conserver ce mod` ele. Cependant, La formule de transition C (k ) = XV (k ) permet de retrouver le mod` ele en les variables explicatives. Lestimateur du mod` ele en les pr edicteurs s ecrit (k ) = V (k ) (k ). (k ) = X (k ) et Y On exprime simplement le carr e du coecient de corr elation entre Y et C i , r 2 (Y, C i) = i ( (k )i )2 . var (Y )
Lorthogonalit e des composantes principales permet la d ecomposition de la variance de (k ) Y

k
(k )) = var (Y
i=1
( (k )i )2 i
ce qui permet dexprimer la proportion de la variance de Y expliqu ee par le mod` ele ` ak composantes (k )) var (Y R (Y, Im C (k )) = = var (Y )
2 k
r 2 (Y, C i ).
i=1
Linconv enient de lapproche RCP vient de ce que les k plus grandes composantes, celles de plus grande variance, ne sont pas forc ement celles qui expliquent le mieux la r eponse Y . On est amen e` a s electionner les composantes selon un autre crit` ere, celui de la plus forte corr elation dune composante avec la r eponse. Cette d emarche nest pas bien pratique en particulier lorsque lon cherche un m eme groupe de composantes qui puisse pr edire conjointement plusieurs r eponses (r egression multir eponses, q > 1). Cest pour cette raison que la r egression PLS est pr ef er ee ` a la RCP, car elle s electionne automatiquement les composantes principales les plus explicatives des r eponses.
9.3
Le contexte et le mod` ele PLS
La r egression PLS a pour objectif de pallier les inconv enients de la RCP. Les composantes principales permettant de reconstruire lespace des pr edicteurs, sont construites dans le m eme temps que des r egressions partielles sont eectu ees ce qui conduit ` a une meilleure approximation des r eponses.
J.F. Durand
168
On suppose que les n individus fournissant les observations sur les p variables explicatives et des q r eponses sont munis des poids statistiques stock es dans la diagonale de la matrice D = diag (d1, . . . , dn ). On suppose que la matrice X = [X 1 . . . X p ], n p des observations sur les variables explicatives ainsi que celle des observations sur les r eponses Y = [Y 1 . . . Y q ], n q , sont D -centr ees en colonnes 1 In DX = 0p et 1 In DY = 0q .
Si les variables sont D -centr ees r eduites, la matrice, V = X DX , des covariances entre les pr edicteurs est la matrice des corr elations et la variance totale vaut dans ce cas
p
trace(V) =
i=1
var (X i ) = p.
La version matricielle sur variables D -centr ees, du mod` ele PLS (9.1), ` a k composantes, est, pour la j i` eme r eponse, j (k ) = j (k )X 1 + . . . + j (k )X p . j (k ) = X Y 1 p (9.2)
Nous verrons par la suite quune propri et e attractive de PLS, comme pour la RCP dailleurs, est que lorsque k = rang (X ), on retrouve le mod` ele classique de la r egression lin eaire multiple si k = rang (X ), j (k ) = j . OLS
Une autre propri et e int eressante est que PLS fait le lien entre le mod` ele lin eaire de r egression et lanalyse exploratoire, au sens o` u lACP usuelle peut etre consid er ee comme lauto-r egression PLS de X sur lui m eme, ce qui se r esume par la formule P LS (X, Y = X ) ACP (X ).
9.4
Lalgorithme PLS
On note X(0) = X et Y(0) = Y les matrices de l echantillon des variables explicatives et des r eponses D -centr ees. Le plus souvent ces variables sont standardis ees. On supposera quil ny a pas de donn ees manquantes pour une exposition plus claire de la m ethode. Lalgorithme PLS calcule les composantes t1 , . . . , tk etape par etape, l etape i (i = 1, . . . , k ) permet de construire ti et deectuer deux r egressions partielles sur cette nouvelle variable. 169
J.F. Durand
Initialisation
X(0) = X, 1) Construction de ti
Y(0) = Y u = Y(i1) v max (9.3)
t = X(i1) w, (w i , v i ) = arg ti = X(i1) w i,
Etape i
` a X(i1) et Y(i1) x es
w w =v v=1
cov (t, u) (9.4) (9.5)
ui = Y(i1) v i
i = 1, . . . , k
2) R egressions partielles, actualisation de X(i) et Y(i)
X(i) = X(i1) D ti X(i1) Y(i) = Y(i1) D ti Y(i1) .
(9.6) (9.7)
Notons que bien que ui soit, comme ti , un compromis lin eaire de variables, on r eserve le nom de composante principale uniquement ` a ti . La partie 2) n ecessite un commentaire imm ediat. Il sagit de r egressions sur la variable ti , car D ti est la matrice (de rang 1) de la projection D -orthogonale sur cette variable D ti = 1 ti 2 D ti ti D. (9.8)
Dapr` es (9.6) et (9.7), la matrice X(i) (respect. Y(i) ), matrice dont les colonnes sont les pr edicteurs (r eponses) actualis es, est construite de la fa con suivante : chaque variable variable ti . actualis ee (i) est le r esidu de la r egression de son homologue (i 1) sur la
Deux matrices vont jouer un r ole cl e dans la m ethode PLS, celle, n k , qui stocke en colonnes les k composantes successivement construites, T (k ) = [t1 . . . tk ], et celle, p k , dont les colonnes sont vecteurs des poids correspondants W (k ) = [w 1 . . . w k ].
9.4.1
Le centrage des variables

2 170
P1 : Pour i = 1, . . . , k , les variables actualis ees X(i) et Y(i) , les composantes ti et les variables ui sont D -centr ees.
J.F. Durand
Preuve : Montrons le par r ecurrence, seulement du c ot e des X . Supposons les colonnes de X(i1) D -centr ees, ce qui est vrai pour X(0) = X , alors ti = X(i1) w est D -centr ee car 1 In Dti = 1 In DX(i1) w = 0. Ce qui implique que les colonnes de X(i) sont aussi centr ees car, dapr` es (9.6) et (9.8), 1 In DX(i) = 1 In DX(i1) 1 In Dti ti X(i) / ti
n 2 D
= 0p .
Comme cons equence, toutes ces variables appartenant ` a (I R , D ) ont pour covariances
et variances respectivement les produits scalaires et les normes Euclidiennes associ ees. Ainsi, pour i = 1, . . . , k , var (ti ) = ti
2 D
et var (ui ) = ui
2 D,
yy xy yx Vxx (i) = X(i) DX(i) , V(i) = Y(i) DY(i) et V(i) = X(i) DY(i) = (V(i) )
(9.9)
sont les matrices des covariances entre variables actualis ees, respectivement ` a lint erieur des pr edicteurs, ` a lint erieur des r eponses et entre les pr edicteurs et les r eponses. Bien s ur, est aussi D -centr ee toute combinaison lin eaire des pr edicteurs actualis es ainsi que des r eponses actualis ees. Dapr` es (9.3), t = u = 0 et si lon suppose que les matrices des variables actualis ees sont de plein rang colonne, var (t) = t
2 D
= w
2 , Vxx (i1)
var (u) = u
2 D
= v
2 , Vyy (i1)
cov (t, u) = t Du = w Vxy (i1) v.
Il faut noter que dans de nombreuses applications, les matrices des variables explicatives ne sont pas de plein rang colonne quand, par exemple, il y a plus de variables que dindividus ce qui rend structurellement Vxx enie positive pour tout i. (i) semi d
9.4.2
Construction de la composante ti
Le crit` ere du probl` eme doptimisation (9.4), est la covariance entre t = X(i1) w et u = Y(i1) v , compromis lin eaires des variables (i 1) (` a l etape 1, ce sont des compromis des variables naturelles ou initiales)
cov (t, u) = (t) (u)r (t, u) = t Cest la fonction de I Rp I Rq dans I R
cos((t, u).
yx (w, v ) (w, v ) = w Vxy (i1) v = v V(i1) w,
et lensemble compact des contraintes est le produit cart esien des deux sph` eres unit es {(w, v ) (I Rp , Ip ) (I Rq , Iq ) | w w = 1 et v v = 1} 171
J.F. Durand
des espaces Euclidiens (I Rp , Ip ) et (I Rq , Iq ). Construisons la fonction de Lagrange de I Rp I Rq I RI R dans I R, not ee L, (w, v, , ) L(w, v, , ) = (w, v ) + (1 w w ) + (1 v v ), 2 2 o` u et sont les multiplicateurs de Lagrange associ es aux deux contraintes. Le probl` eme (9.4) est equivalent ` a la maximisation de L(w, v, , ) sans contrainte dont les equations aux d eriv ees partielles, ou equations normales, s ecrivent w L L v dL 2 d 2 dL d = Vxy (i1) v w = 0p Vyx (i1) w v = 0q = 0 = 0 = = 1 ww 1 vv (e.1) (e.2) (e.3) (e.4)
Les equations (e.1) et (e.2) donnent les formules de transition, ` a l etape i, entre les vecteurs w et v . Les solutions de ce syst` eme fournissent les points critiques ou stationnaires du probl` eme (9.4). Il faudra s electionner ceux qui donnent un maximum. Calcul et interpr etation des multiplicateurs : Multiplions (e.1) ` a gauche par le vecteur ligne w et utilisons (e.3), de m eme, multiplions (e.2) ` a gauche par le vecteur ligne v et utilisons (e.4). Il vient
yx = = w Vxy (i1) v = v V(i1) w = cov (t, u).
Les multiplicateurs de Lagrange sont egaux ` a la valeur de la fonction objectif ` a maximiser dans le probl` eme doptimisation (9.4). On suppose maintenant que = = 0. Calcul de w et de v : Multiplions (e.1) par , et rempla cons dans cette equation v par son expression puis ee dans (e.2). Faisons de m eme en dualit e sur (e.2). Il vient
yx 2 Vxy (i1) V(i1) w = w xy 2 Vyx (i1) V(i1) v = v .
(9.10) (9.11)
y Si lon note Wx enis par (9.3), (i1) = X(i1) X(i1) et W(i1) = Y(i1) Y(i1) , t et u d
v erient
y 2 Wx (i1) D W(i1) D t = t x 2 Wy (i1) D W(i1) D u = u .
(9.12) (9.13)
J.F. Durand
172
Il sut pour cela de multiplier respectivement (9.10) et (9.11) par X(i1) et par Y(i1) . On peut maintenant, enoncer la proposition donnant la solution de la partie 1) de la i` eme etape de lalgorithme PLS. Proposition 9.1 : Le triplet (i = cov (ti , ui ), w i, v i) solution du probl` eme (9.4) est donn e par celui associ e` a la plus grande valeur singuli` ere dans la d ecomposition en valeurs
singuli` eres de la matrice Vxy (i1) = X(i1) DY(i1) .
Remarque : Dans la pratique on ne recherche la plus grande valeur propre que pour une seule des equations (9.10), (9.11), celle de plus faible dimension, et on calcule lautre vecteur solution par la formule de transition (e.1) ou (e.2) ad equate. Dans le cas dune seule r eponse (q = 1), historiquement appel e PLS1 par opposition ` a PLS2 qui correspond au cas multi-r eponses, (9.11) devient triviale, v = 1 avec une seule valeur propre
i =
j =1
cov 2 (Y(i1) , X(ji1) ).
` l A etape 1, on a aussi dans ce cas, u1 = Y(0) = Y .
9.4.3
Les r egressions partielles
Visitons maintenant la partie 2) de lalgorithme PLS, celle des r egressions partielles sur la composante ti = X(i1) w i pr ec edemment calcul ee dans la partie 1). Notons
q X(i) = [X(1i) . . . X(pi) ] et Y(i) = [Y(1 i) . . . Y(i) ] les matrices dont les colonnes sont les variables
actualis ees ` a l etape i. 173

J.F. Durand
On appelle r egression partielle de l etape i, la r egression simple dune variable actualis ee de l etape i 1 sur la composante ti . (i) = [X 1 . . . X p ] et Y (i) = [Y 1 ...Y q ] les matrices des mod` On note X eles partiels de (i) (i) (i) (i) l etape i (i) = D X ti X(i1) , Notons : pi = (X(i1) ) Dti / ti
2 D
(i) = D Y ti Y(i1) .
(9.14)
= [cov (X(1i1) , ti )/var (ti ), . . . , cov (X(pi1) , ti )/var (ti )] (9.15)
le vecteur des coecients des r egressions partielles des p variables explicatives et P (k ) = [p1 . . . pk ] la matrice des vecteurs obtenus apr` es k etapes ; ci = (Y(i1) ) Dti / ti
2 D q i i i i = [cov (Y(1 i1) , t )/var (t ), . . . , cov (Y(i1) , t )/var (t )]
(9.16)
le vecteur des coecients des r egressions partielles des q variables r eponses, et C (k ) = [c1 . . . ck ] la matrice des vecteurs obtenus apr` es k etapes. Les matrices des variables estim ees dans les r egressions partielles de l etape i, s ecrivent (i) = ti pi , X (i) = ti ci . Y (9.17)
Lactualisation des variables ` a l etape i, consiste ` a enlever linformation apport ee par la composante ti en prenant les r esidus des r egressions partielles (i) , X(i) = X(i1) X (i) = Y(i1) Y (i) . Y (9.18)
Les expressions (9.17) se d eduisent directement de (9.14) gr ace ` a lexpression (9.8) du projecteur sur ti . La Figure 22 repr esente une r egression partielle (simple) de l etape i pour une variable seulement, par exemple la variable explicative X(ji1) , du double point de vue de lespace (I Rn , D ) des variables (partie gauche) et de celui de lespace I R2 des individus (partie droite).
J.F. Durand
174
Projection dune variable explicative actualise sur la composante
Droite de rgression
X( i-1 )
de pente
pi
j
( i-1 )
1 0 1 0 0 1
ti 0 ( R ,D)
n
pj
^j i t= X
(i-1)
1 0 1 0
ti
1 0
individu moyen
Figure 22 : R egression partielle, ` a l etape i, de la variable X(ji1) sur la composante ti . Bien s ur, on peut pr esenter une gure analogue pour les r egressions partielles du c ot e des Y .
9.5
Premi` ere ecriture des mod` eles PLS en les composantes
La r egression PLS construit pas ` a pas, k composantes, t1 , . . . , tk , o` u k , appel e la dimension du mod` ele, est le super-param` etre de la m ethode quil faudra d eterminer avec soin. Supposons connue, pour le moment, la dimension du mod` ele. Examinons, tout dabord, la propri et e qui exprime que les variables actualis ees sexpriment en fonction des variables initiales et des composantes. P2 : Pour tout i variant de 1 ` a k,
D D X(i) = D ti ti1 . . . t1 X , D D Y(i) = D ti ti1 . . . t1 Y ,
(9.19)
o` u D = In D Rn ti ti est le projecteur D -orthogonal sur le sous espace vectoriel de I
orthogonal ` a la droite vectorielle Im ti de proche en proche. 2
Preuve : Il sut d ecrire les matrices des r esidus des r egressions partielles (9.6) et (9.7) La r egression PLS construit deux mod` eles ` a partir des composantes principales, lun pour reconstruire X , lautre pour expliquer et pr edire Y . 175
J.F. Durand
Ecrivons, seulement du c ot e des X pour faire court, les relations (9.18), ou bien (9.6) et (9.7), pour i allant de 1 ` a k . On obtient en sommant membre ` a membre les equations, X X(1) = = (1) X (2) X + X(1) + X(2)
.......................... (k) + X(k) X(k1) = X X PLS en les composantes principales (k ) + X(k) , X =X

k
k i=1 X(i)
+ X(k) .
On fait de m eme du c ot e des Y , pour obtenir, gr ace ` a (9.14) ou (9.17), les deux mod` eles (k ) + Y(k) , Y =Y
(9.20) (9.21)
(k ) = X
i=1 k
(i) = t1 p1 + . . . + tk pk = T (k )P (k ) , X (i) = t1 c1 + . . . + tk ck = T (k )C (k ) . Y
i=1
(k ) = Y
(9.22)
Dans (9.20), les matrices des r esidus des mod` eles ` a l etape k , sont X(k) et Y(k) , les derni` eres matrices des variables actualis ees.
9.6
Orthogonalit e des composantes principales et des poids
Lorthogonalit e, au sens de D , des composantes PLS, cest ` a dire, la non corr elation des variables latentes, est une propri et e cruciale qui a de multiples applications. Cest une cons equence des r egressions partielles (9.6) du c ot e des X . Montrons dans un premier temps lorthogonalit e des composantes 1, . . . , j avec lespace engendr e par les variables actualis ees (les r esidus des r egressions partielles) de l etape j . P3 :
D Preuve : Le projecteur D -orthogonal est une matrice D -sym etrique (D D tj = (tj ) D ).
Pour i j ,
ti DX(j ) = 01p ,
Alors, pour i = j ,
j j D j D j tj D D tj = t D t D tj = t D (tj t ) D = 01n . D D Dapr` es (9.19), tj DX(j ) = tj D D tj tj 1 . . . t1 X = 01p . Montrons de proche en
proche, si bien s ur, j 2, pour i = j 1, . . . , 1, ti DX(j ) = 01p .

J.F. Durand
176
Dabord, avec (9.6) et (9.5), pour i = j 1, tj 1 DX(j ) = tj 1 D (X(j 1) D tj X(j 1) ) = tj 1 Dtj tj DX(j 1) /var (tj ) = tj 1 D D tj X(j 1)
= tj 1 DX(j 1) w j tj DX(j 1) /var (tj ) = 01p . 2
Ainsi de suite jusqu` a t1 DX(j ) = 01p . la suite. P4 : La propri et e P3 a pour cons equence : Pour i j , ti DY(j ) = 01q ,
On ne montrera pas la preuve de la propri et e suivante qui est un r esultat accessoire pour 2
Proposition 9.2 Les composantes PLS sont deux ` a deux orthogonales, ti Dtj = 0, Et , r esultat accessoire, ti Duj = 0, si i < j. (9.24) si i < j. (9.23)
Preuve : Montrons seulement (9.23). Il r esulte de la propri et e P3 et de (9.5) que, pour i j, ti Dtj +1 = ti DX(j ) w j +1 = 0. 2
La variable latente tj +1 est donc non corr el ee avec t1 , . . . , tj .
La D -orthogonalit e des composantes a des cons equences sur l ecriture des mod` eles. Rappelons dabord, sans d emonstration, quelques propri et es des projecteurs lorsque lon dispose dune base orthogonale.
1 P5 : Notons D T (k ) = T (k )[T (k ) DT (k )] T (k ) D la matrice de la projection D -
orthogonale sur le sous-espace vectoriel de I Rn , Im {t1 , . . . , tk }, de dimension k , engendr e par les composantes.
D D ti tj = 0nn , k D D ti = T (k ) , i=1 D D D D D tk tk1 . . . t1 = In T (k ) = T (k ) .
si i = j
(9.25) (9.26) (9.27)
2 Comme cons equence de (9.27) et (9.26) la propri et e P2 se r e ecrit. 177

J.F. Durand
P2 : Pour tout i variant de 1 ` a k,

i D D D D X(i) = D ti ti1 . . . t1 X = T (k ) X = X T (k ) X = X
D tj X
j =1 i
(9.28)
Y(i) = 2
D ti
D ti1
. . . D t1
Y =
D T (k ) Y
=Y
D T (k ) Y
=Y
D tj Y .
j =1
(9.29)
Les vecteurs des poids {w i} sont des el ements de lespace Euclidien (I Rp , Ip ). Ils sont orthogonaux, dapr` es la proposition suivante, au sens habituel selon la m etrique Ip . Proposition 9.3 : Preuve : Faire lexercice. Pour j i, w j X(i) = 01n , et, pour j < i, w j w i = 0. 2 2
La proposition suivante permet de pr eciser la nature de la matrice P (k )W (k ) qui joue un r ole important le calcul des mod` eles PLS. Proposition 9.4 : La matrice P (k ) W (k ), carr ee dordre k , est triangulaire sup erieure, ` a diagonale unit e. 2 ti DX(i1) w j . ti 2 D 2 Preuve : L el ement (i, j ) de cette matrice est, dapr` es (9.15), pi w j =
Les el ements diagonaux sont donc egaux ` a 1 et la proposition 9.3 indique que si i > j , X(i1) w j = 0n1 ce qui termine la d emonstration.
9.7
Ecriture d enitive des mod` eles PLS en les composantes
Revisitons, les r egressions partielles et les mod` eles PLS en les composantes principales au vu de leur orthogonalit e. Les r egressions partielles des variables actualis ees donnent les m emes r esultats que les r egressions des variables initiales sur les composantes. En eet, ` a l etape i, les r egressions partielles (9.14) deviennent avec (9.25), (9.28) et (9.29)
i1 D (i) = D X ti X(i1) = ti (In D i i D tj )X = ti X = t p , j =1 i1 D (i) = D Y ti Y(i1) = ti (In D i i D tj )Y = ti Y = t c . j =1
(9.30)
(9.31)
J.F. Durand
178
Les vecteurs des coecients des r egressions partielles sont les m emes que ceux des r egressions des variables initiales sur la composante ti pi = X Dti /var (ti ) , ci = Y Dti /var (ti) . (9.32) (9.33)
La Figure 23 reprend le sch ema de la Figure 22 et illustre, du double point de vue de lespace (I Rn , D ) des variables et de lespace (I R2 , I2 ) des individus, le fait que les deux r egressions simples sur la composante ti , de la variable naturelle X j et de la variable actualis ee X(ji1) , donnent la m eme estimation pi j.
Projection dune variable explicative actualise Droite de rgression
X(i-1) et naturelle X ti
X( i-1 )
de pente
pi
j
X(i-1 ) X
sur la composante
1 1 0 0
ti 0 ( R ,D)
n
pj
i i
^j=X ^j t=X (i-1 )
10 0 1
0 1 00 11 ti 00 11 00 1 11 0 00individu moyen 11
Figure 23 : La r egression partielle, ` a l etape i, de la variable X(ji1) et la r egression de la variable naturelle X j sur la composante ti , donnent le m eme coecient pi j. Le m eme sch ema est valable du c ot e de Y , o` u ci eme coecient dans les deux j est le m
i r egressions simples de Y j dune part et de Y(j i1) dautre part sur la composante t .
Gr ace ` a (9.15) et (9.16), les matrices des covariances des variables actualis ees d enies en (9.9) s ecrivent
xx i Vxx (i) = V(i1) t 2 D
pi pi
yy i et Vyy (i) = V(i1) t 2 D
2 i i Dc c
(9.34) (9.35)
xy i Vxy (i) = V(i1) t
p i ci .
Les mod` eles PLS, (9.20), (9.21), 9.22), en les k composantes sexpriment comme la r egression lin eaire multiple des variables naturelles sur ces composantes (k ) + X(k) , X=X 179 (k ) + Y(k) , Y =Y (9.36)
J.F. Durand

k
(k ) = X
i=1 k
(i) = D X = t1 p1 + . . . + tk pk = T (k )P (k ) , X T (k )
(9.37)
(k ) = Y
i=1
(i) = D Y = t1 c1 + . . . + tk ck = T (k )C (k ) , Y T (k )
(9.38)
o` u les matrices P (k ) = [p1 . . . pk ] et C (k ) = [c1 . . . ck ], d enies en (9.15) et 9.16) se r e ecrivent P (k ) = X DT (k )diag ( C (k ) = Y DT (k )diag ( 1 1 ,..., ), 1 var (t ) var (tk ) (9.39) (9.40)
1 1 , . . . , ). var (t1) var (tk )
Gr ace ` a (9.34) et (9.35), les matrice des covariances sont mod elis ees en fonction des matrices des covariances actualis ees qui jouent le r ole de r esidus
k
X DX =
i=1 k
ti
2 D
pi pi + Vxx (k )
(9.41.a)
Y DY =
i=1 k
ti
2 i i Dc c
+ Vyy (k )
(9.41.b)
X DY =
i=1
ti
2 D
pi ci + Vxy (k )
(9.41.c)
Pour que le mod` ele (9.38) soit r eellement un mod` ele de r egression sur les pr edicteurs X , il reste ` a montrer que les composantes t1 , . . . , tk appartiennent ` a lespace Im X engendr e par les variables explicatives naturelles.
9.8
Les composantes PLS, compromis lin eaires des variables explicatives initiales
Une des raisons qui a fait que la r egression PLS a et e consid er ee pendant longtemps comme scientiquement mal etablie, est quelle a et e souvent pr esent ee seulement du point de vue algorithmique. Ainsi il napparaissait pas de fa con tr` es claire comment les composantes, qui etaient des compromis lin eaires des r esidus des r egressions partielles, etaient aussi des combinaisons lin eaires des variables explicatives naturelles.
J.F. Durand
180
9.8.1
Expression du vecteur des poids
Par (9.5), la composante construite ` a l etape i, ti = X(i1) w i , est une combinaison lin eaire des variables actualis ees ` a l etape i 1. Lorsque i = 1, t1 est bien un compromis lin eaire de X(0) = X . Quen est il pour les etapes suivantes ? la proposition suivante r epond ` a cette question en construisant les vecteurs des poids par r ecurrence. Proposition 9.5 : Im T (k ) est un sous-espace vectoriel de Im X , de dimension k . Plus pr ecis ement, ti = Xw i , avec w = w ,
1 1 i1
(9.42)
et w = Ip
j =1
w j w j var (tj )
V wi ,
i>1,
(9.43) 2
o` u V = X DX est la matrice des covariances des variables explicatives initiales.
Preuve : De fa con evidente, les composantes, deux ` a deux orthogonales, sont lin eairement ind ependantes et Im T (k ) est est de dimension k . Montrons 9.43 par r ecurrence. Supposons que, pour j = 1, . . . , i 1, tj = Xw j . Alors (9.5) et (9.28) donnent
i1
= X(i1) w = = X Ip
X
i1
j =1
tj tj DX var (tj )
wi
j =1
w j w j var (tj )
X DX w i . 2
Lhypoth` ese de r ecurrence est v eri ee pour j = 1, ce qui termine la preuve. Im T (k ) = Im X . En eet, X(k) = 0np dans (9.36) car, dans (9.37), (k) = D X = D X = X. X T (k ) X Alors,
D (k ) = D Y T (k ) Y = X Y = YOLS .
Corollaire : Si k = rang (X ), les composantes PLS permettent de reconstruire X car
Le mod` ele PLS de dimension k = rang (X ) co ncide avec le mod` ele de la r egression lin eaire multiple, sous r eserve que cette derni` ere soit applicable. P LS (X, Y ) = OLS (X, Y ), 2 Ce corollaire ouvre la question du choix du nombre k de composantes. Il apporte une borne sup erieure ` a l etendue des choix possibles : la dimension k du mod` ele sera inf erieure ou egale au rang de X . 181
J.F. Durand
si k = rang (X ).
(9.44)
9.8.2
Orthogonalit e des vecteurs des poids au sens de V
Gr ace ` a (9.42), on va pouvoir repr esenter les individus de X dans des plans factoriels de la proposition suivante. (9.43) s ecrit (w i, w j ) si lon peut montrer que la famille des {w i} est orthogonale. Cest lobjectif
Proposition 9.6 : Si rang (X ) = p, deux vecteurs {w i} distincts sont V-orthogonaux et w 1 = w 1 ,

i V i et w i = V W (i1) w = Ip W (i1) w ,
i>1,
(9.45)
V-orthogonal sur Im W (i).
o` u W (i) = [w 1 . . . w i ] est la matrice des vecteurs de poids et V W (i) est le projecteur 2
Preuve : La matrice V, de rang p, sym etrique d enie positive, fournit une m etrique sur lespace I Rp . Les w i sont V-orthogonaux car, dapr` es (9.42), < w i , w j >V = w j Vw i = tj Dti =< ti , tj >D = 0 si i = j. Le projecteur V-orthogonal sur la droite vectorielle Im w i est la matrice V w i = Dapr` es (9.43), si i > 1, w i s ecrit
i1
w i w i V. var (ti )
w = Ip
i V w j w . j =1
les {w j } sont V-orthogonaux,
Enn, soit W (i) = [w 1 . . . w i] la matrice p i des vecteurs des poids, alors, puisque
k
V W (k ) et
=
j =1
V w j
i w i = V W (i1) w .
2 Remarque : Tr` es souvent dans les applications, la r egression PLS est utilis ee hors du contexte de la proposition 9.6, cest ` a dire lorsque X nest pas de plein rang colonne. Cela arrive, en particulier, lorsque n < p, ce qui est le cas, par exemple, pour des jeux de donn ees issus de la calibration de spectres proche de linfrarouge. La matrice des covariances est, dans ce cas, seulement semi d enie positive, ce qui signie que .
J.F. Durand
V
est une semi-norme
182
sur I Rp . Cependant, tant que les composantes t1 , . . . , tk sont non nulles, cest ` a dire tant que k r = rang (X ) = rang (X ), les vecteurs w 1 , . . . , w k produits par lalgorithme scalaire sur lespace Im X est d eni par le produit scalaire de ses vecteurs de base pour i, j {1, . . . r } , < w i, w j >V = < ti , tj >D . PLS sont V-orthogonaux et dans Im X comme le montre la proposition 9.7. Le V-produit
9.8.3
Propri et es des vecteurs des poids
teurs w i des poids sont calcul es de proche en proche, au fur et ` a mesure du d eroulement liaison avec les poids w i et donne une formule explicite pour leur calcul.
Une composante sexprime de deux fa cons possibles, ti = X(i1) w i = Xw i. Les vec-
de lalgorithme. La proposition suivante pr ecise quelques propri et es de ces vecteurs en Proposition 9.7 : Les matrices W (k ) = [w 1 . . . w k ], W (k ) = [w 1 . . . w k ] et P (k ) = [p1 . . . pk ], de dimensions p k , issues de la r egression PLS v erient les propri et es : a)
V W (k ) = W (k )P (k )
b) c) 2 Preuve : a)
Im W (k ) = Im W (k ) est un sous-espace vectoriel de dimension k de Im X W (k ) = W (k ) [(P (k ) W (k )]1 .
La matrice P (k ) sexprime de deux fa cons en (9.15) et (9.39). Cest la seconde qui est utile ici,
k k
W (k )P (k ) =
j =1
w p =
j =1
w j w j V/ tj
2 D
= V W (k ) .
b) Supposons la vraie pour k 1, Im W (k 1) = Im W (k 1). Alors, on a l egalit e des

V V W (k 1) = W (k 1)
De fa con evidente, la propri et e est vraie pour k = 1 puisque w 1 = w 1 .
projecteurs
et (9.45) donne
k w k = w k V W (k 1) w ,
Im W (k ). Le fait que ces vecteurs soient lin eairement ind ependants, ` a cause de lorthogonalit e, implique Im W (k ) = Im W (k ). La propri et e, vraie pour k = 1, est donc vraie 183
J.F. Durand
ce qui implique que w k Im W (k ) et que les k vecteurs {w 1, . . . , w k } sont dans
pour k . De fa con evidente, tant que, pour i = 1, . . . , k , ti = Xw i = 0, alors w i nest pas dans Ker X = {Im X } . Il est donc dans Im X . Les vecteurs w i qui engendrent le m eme espace que celui engendr e par les w i, sont aussi dans Im X . En conclusion, les familles sous-espace de Im X . c) Dapr` es (b), W (k ) = V et e (a) donne W (k ) W (k ). La propri W (k ) = W (k )P (k ) W (k ). La proposition 9.4 a montr e que P (k ) W (k ) est une matrice triangulaire sup erieure ` a diagonale unit e. Elle est donc inversible, ce qui termine la preuve. 2 On peut montrer, [12, Tenenhaus], que P (k ) W (k ) est en fait bidiagonale ` a droite, seuls sont non nuls les termes diagonaux egaux ` a 1 et les termes imm ediatement ` a droite de ceux ci.
orthogonales {w 1 , . . . , w k } et {w 1, . . . , w k } engendrent le m eme espace de dimension k ,
9.9
Le mod` ele de r egression PLS en les variables explicatives
Notons Xb et Yb les matrices des donn ees brutes sur les variables initiales, X b = 1 In DXb et Y b = 1 In DYb les individus moyens pour les variables explicatives et pour les variables r eponses. Soient Xc = Xb 1 In X b et Yc = Yb 1 In Y b les matrices des variables D -centr ees. Les dardis ees si de trop grandes disparit es dans la mesure des variances des variables risquent de perturber linterpr etation des coecients des mod` eles. On ecrit,
1 X = Xc Q x 1 et Y = Yc Q y ,
matrices X et Y utilis ees dans PLS sont n ecessairement centr ees, eventuellement stan-
o` u Qx = Ip et Qy = Iq si les variables sont seulement centr ees,

1 Qx = diag ( Xc D, . . . , p Xc D)
et Qy = diag ( Yc1
D, . . . ,
Ycq
D ),
matrices diagonales des ecart-types, si les variables sont standardis ees.

J.F. Durand
184
9.9.1
santes,
Le mod` ele sur variables centr ees, eventuellement r eduites
Le mod` ele de la r egression PLS, exprim e en (9.36) et (9.38) en fonction des compo (k ) + Y(k) , Y =Y
k
(9.36) (9.38)
(k ) = Y
i=1
(i) = D Y = t1 c1 + . . . + tk ck = T (k )C (k ) , Y T (k )
sexprime simplement en fonction des variables explicatives puisque T (k ) = XW (k ), (k ) (k ) = X Y (k ) = [ 1 (k ) . . . q (k )], p q , des coecients avec pour expression de la matrice (k ) = W (k )C (k ) = W (k )[P (k )W (k )]1 C (k ) . La propri et e (9.44) s ecrit pour les coecients, (k ) = OLS si k = rang (X ). (9.47) (9.46)
Dans ce cas, la r egression PLS multi-r eponses est equivalente ` a q r egressions lin eaires multiples. Notons que, g en eralement, le mod` ele obtenu pour une r eponse nest pas le m eme suivant que cette r eponse est pr edite s epar ement (PLS uni-r eponse) ou simultan ement avec dautres r eponses (PLS multi-r eponses). Dans la pratique, plus de composantes sont n ecessaires pour obtenir une m eme qualit e dajustement dans le cas q > 1 et on effectue une r egression PLS multi-r eponses lorsque les q r eponses ` a pr edire simultan ement sont fortement corr el ees deux ` a deux.
9.9.2
Le mod` ele en les variables initiales
Le mod` ele d eni par (9.36), (9.46) et (9.47), se transforme en les variables initiales pour s ecrire b(k ) + Yb = Y avec b (k ) , b (k ) = 1 Y In ( k ) + Xb et b (k ) = Q1 (k )Qy , x b (k ), p q , est la Le vecteur (k ), 1 q , donne les ordonn ees ` a lorigine et la matrice 185
J.F. Durand
(9.48)
et = Y(k) Qy ,
(9.49)
b (k ) . et (k ) = Y b X b
(9.50)
matrice des coecients des variables naturelles pour les q mod` eles.
9.10
R egression PLS et Analyse en Composantes Principales usuelle
Nous allons etudier dans cette section une r egression PLS multi-r eponses tr` es particuli` ere dans laquelle la matrice des r eponses est prise identique ` a la matrice des variables explicatives. Cette auto-r egression PLS des pr edicteurs sur eux m emes est lACP usuelle ACP (X ) P LS (X, Y = X ) . Rappelons que lACP usuelle est lACP du triplet (X, M = Ip , D = n1 In ) dont les propri et es sont r esum ees dans le paragraphe 7.4.1. Nous supposerons donc, que les individus sont munis des m emes poids statistiques, D= 1 In , n
ce qui est le plus souvent le cas en r egression PLS. Proposition 9.8 : La r egression PLS(X,Y=X) est lACP usuelle de X puisque, pour i = 1, . . . , k , lalgorithme PLS de la section 9.4, conduit ` a: w i = v i = pi = ci = w i est le vecteur propre de V, associ e` a la i` eme valeur propre, i = var (ti), dans lordre d ecroissant et les matrices actualis ees s ecrivent, X(i) = Y(i) = X t1 w 1 . . . ti w i . Les matrices des covariances actualis ees sont donn ees par
yy 1 1 i i Vxx (i) = V(i) = V 1 w w . . . i w w .
Preuve : Examinons tout dabord, l etape i = 1 de lalgorithme. Puisque Y = X , la maximisation du crit` ere de covariance conduit ` a w 1 = v 1 qui maximise la variance de t = Xw . Le vecteur w 1 est donc le premier axe factoriel et t1 = u1 , la premi` ere composante principale de lACP. Alors, (9.32) et (9.33) s ecrivent p1 = c1 = X Dt1 /1 = X DXw 1 /1 = w 1 . Le (c) de la proposition 9.7 donne w 1 = w 1 /(p1 w 1 ) = w 1 /(w 1 w 1 ) = w 1 . Lactualisation Les covariances actualis ees (9.34) et (9.35) deviennent des variables par (9.6) et (9.7), donne, gr ace ` a (9.30) et (9.31), X(1) = Y(1) = X t1 w 1 .
yy 1 1 Vxx (1) = V(1) = V 1 w w .
par (9.10) et (9.11), puisque X(i1) = Y(i1) , w i = v i vecteur propre associ e ` a la plus
J.F. Durand
Supposons la proposition vraie pour j = 1, . . . , i 1. Lalgorithme (9.4) a pour solution, 186
grande valeur propre de la matrice des covariances d eat ee Vxx (i1) . Cette valeur propre, i = var (ti), est la i` eme valeur propre par ordre d ecroissant de V, voir le paragraphe 7.2.2 qui pr esente aussi lACP du triplet comme une succession de r egressions partielles. orthogonal au sens usuel ` a tous ses pr ec edents. Il est donc aussi V-orthogonal aux vecteurs La formule (9.45) montre que w i = w i puisque dapr` es la proposition (9.3), w i est
{w 1 = w 1 , . . . , w i1 = w i1 } puisque ces derniers sont vecteurs propres de V. Par Les d eations de X et de V ` a lordre i sont evidentes dapr` es (9.37) et (9.41.a) puisque pj = w j pour j = 1, . . . , i. La proposition est donc vraie ` a tous les ordres. 2
construction (9.39), P (i) = X DT (i)[T (i) DT (i)]1 = X DXW (i)[T (i)DT (i)]1 = W (i).
9.11
Repr esentations factorielles
Les repr esentations factorielles sont les projections orthogonales des points-variables et des points-individus sur des espaces vectoriels ` a deux dimensions, appel es plans factoriels engendr es par des couples daxes factoriels orthogonaux. Il faut donc pr eciser, dune part, quels sont les vecteurs qui vont jouer le r ole daxes factoriels et, dautre part, quelles sont les m etriques qui vont d enir les projections orthogonales dans les espaces concern es. On va voir que la dualit e parfaite de la DVS du triplet (X, M, D ) qui donnait une double interpr etation sym etrique aux vecteurs propres des op erateurs VM et WD associ es ` a la m eme valeur singuli` ere, ` a savoir, axe factoriel dune part et coordonn ees des projections sur lautre axe factoriel dautre part, ne tient plus dans PLS. En eet, les composantes PLS, t1 , . . . , tk , permettent une repr esentation factorielle des variables mais ne fournissent pas directement les coordonn ees des individus projet es sur la famille V-orthogonale, {w 1 , . . . , w k } daxes factoriels. Cependant, le vecteur ti des coordonn ees des individus projet es sur w i sexprime simplement en fonction de ti . Pour visualiser les variables explicatives et les individus, on dispose donc dans PLS de deux repr esentations factorielles associ ees ` a deux triplets. Le premier triplet, (X, Ip , D ), a pour r ole fondamental la construction des composantes et la visualisation des pr edicteurs, le second, (X, V, D ), sert doptique photographique auxiliaire pour voir les individus. Ces deux triplets ne fournissent des repr esentations duales que dans des cas extr emes, mais il est possible de quantier un ecart ` a la dualit e pour chaque axe factoriel i, par le coecient de corr elation lin eaire entre ti et ti . 187
J.F. Durand
9.11.1
Repr esentation des pr edicteurs et des r eponses
Lespace Euclidien des variables centr ees, eventuellement r eduites, est (I Rn , D ). Dans cet espace, le D -produit scalaire entre deux vecteurs donne la covariance empirique entre les deux variables correspondantes. Les mod` eles (9.36), (9.37), (9.38) associ es au fait que les composantes t1 , . . . , tk sont D -orthogonales, vont permettre de projeter les colonnes de X et de Y sur les plans factoriels (ti , tj ). Notons i = ti / ti t
D
1 . . . t k ] = T (k )(T (k )DT (k ))1/2 et T (k ) = [t
les vecteur norm es, cest ` a dire, les vecteurs des mesures sur les variables latentes standardis ees. Eectuons la projection des colonnes de X et de Y sur laxe factoriel i, cest ` a i dire, sur la droite vectorielle engendr ee par t i i D i X = t t DX, t i i et D i Y = t t DY. t
i DX et t i DY Les coordonn ees des projections sont donn ees par les vecteurs lignes t [ r (ti , X 1) (X 1 ), . . . , r (ti , X p ) (X p ) ], et [ r (ti, Y 1 ) (Y 1 ), . . . , r (ti, Y q ) (Y q ) ] ,
qui lorsque les variables sont standardis ees, sont les coecients de corr elations lin eaires entre les variables et la variable latente ti . Dautre part, r (ti , X l ) (X l ) = ti
D
pi l,
et r (ti , Y h ) (Y h ) = ti
i D ch
(9.51)
Di erentes cartes des variables sont propos ees par les logiciels pour repr esenter pr edicteurs et r eponses sur laxe i. Carte des variables X l , l = 1...p, et Y h , h = 1...q , sur laxe i projections coecients de r egression (poids des pr edicteurs, coe. de r eg. des r eponses) (r (ti , X l ) (X l ) , r (ti , Y h ) (Y h ))
i (p i l , ch ) i (w i l , ch )
Seules les deux premi` eres m eritent le nom de repr esentations factorielles car, di erant dun facteur d echelle ti num ero i. Nous retiendrons la premi` ere, qui lorsque les variables sont standardis ees, conduit ` a repr esenter les variables sur le plan factoriel (i, j ) ` a lint erieur du cercle des corr elations.
J.F. Durand
D,
elles donnent bien les projections des variables sur laxe factoriel
188
En eet, lorthogonalit e des composantes permet de d ecomposer la projection sur le plan factoriel (i, j ) en la somme des projections sur chacun des axes. Pour les pr edicteurs, par exemple, la projection des variables sur le plan (i, j ) est
D D D i ,t j ) X = t i X + t j X. (t
Mesure de la qualit e de la repr esentation dune variable Il sagit dexprimer la proximit e dune variable avec un axe i ou un plan (i, j ). Cest la contribution relative de laxe ou du plan ` a la repr esentation de la variable qui permet de quantier cette proximit e. Elle sexprime en termes de cosinus carr es. Prenons lexemple dune r eponse h, R2 (Y h ; {ti }) = r 2 (Y h , ti ), et R2 (Y h ; {ti , tj }) = r 2 (Y h , ti ) + r 2 (Y h , tj ) .
Lexamen de ces valeurs est une aide ` a linterpr etation des composantes PLS : une composante ti sinterpr` ete par rapport aux variables dont elle est proche. D ecomposition de linertie du nuage des points-variables Supposons maintenant que les variables sont aect ees de poids egaux ` a 1. On peut consid erer les triplets (X, Ip , D ) et (Y, Iq , D ) pour calculer et d ecomposer linertie des nuages de points-variables, cest ` a dire la variance totale des variables. Linertie des nuages s ecrit gr ace ` a (9.41.a) et (9.41.b) avec k = r = rang (X )
p r
I = trace(V) =
q
var (X l ) =
l=1 r i=1
ti
2 D
pi
(9.52.a)
I = trace(Y DY ) =
var (Y h ) =
h=1 i=1
ti
2 D
ci
+ trace(Vyy (r ) )
(9.52.b)
o` u linertie des variables projet ees sur laxe i est

p
Iix Iiy
ti 2 D
i 2
=
l=1 q
r 2 (X l , ti )var (X l ) ,
(9.52.c)
ti 2 D
i 2
=
h=1
r 2 (Y h , ti )var (Y h ) .
(9.52.d)
On peut mettre en evidence la contribution de Im T (k ) dans lapproximation de la variance totale par

p
I (k ) =
l=1
var (X l )R2 (X l ; Im T (k )) et I x (r ) = I x , 189
(9.53.a)
J.F. Durand

q
I (k ) =
h=1
var (Y h )R2 (Y h ; Im T (k )) et I y (r ) I y .
(9.53.b)
On va voir maintenant comment les composantes PLS permettent de repr esenter les individus du tableau des variables explicatives.
9.11.2
Repr esentation des individus
Par analogie ` a lAnalyse en Composantes Principales usuelle, la plupart des logiciels pr esentent une carte des individus fournie par la repr esentation graphique (ti , tj ). On va voir pourquoi ce nest pas une repr esentation factorielle bas ee sur une projection, on la qualie de pseudo factorielle. Elle est cependant, souvent globalement proche de de la carte factorielle exacte (ti , tj ) d enie dans ce paragraphe et ` a laquelle est associ ee une mesure de la qualit e de la repr esentation de chaque individu. nales, {w 1 , . . . , w k } et {w 1 , . . . , w k }, dans lespace, Im X , des individus du tableau des part, une composante s ecrit ti = X(i1) w i = Xw i . Il est clair que si lon projette X sur w i , les coordonn ees du nuage des points projet es ne sexprime pas simplement en fonction de ti et il est impossible dinterpr eter les individus projet es par rapport aux variables les plus proches de ti . cela, munirons lespace Im X de la m etrique V. La repr esentation des individus est ainsi associ ee au triplet (X, V, D ) qui sert doptique photographique. Proposition 9.9 : Les points du nuage des individus de X projet es sur laxe factoriel d eni par le vecteur unitaire w i = w i/ w i coordonn ees du vecteur i = XX Dti / ti ti = WD t 2 Preuve :
V i w i VX = w i (XX DX w i) = w i (XX Dti / w i w i X = w V) D V,
Pour k {1, . . . , r }, on dispose par la proposition 9.7 (b), de deux familles orthogo-
pr edicteurs. La premi` ere est orthogonale au sens usuel, la seconde V-orthogonale. Dautre
Nous utiliserons donc, lautre famille, {w 1 , . . . , w k }, comme axes factoriels et pour
ont pour mesures alg ebriques les
= Xpi ti
D.
(9.54)
Lexpression de p donn ee par (9.32) termine la preuve.

J.F. Durand
190
H elas ! Le vecteur ti nest pas, en g en eral, colin eaire ` a ti sauf dans deux cas limites pour PLS, celui de lACP de X et celui o` u les variables explicatives standardis ees sont non corr el ees deux ` a deux (V = Ip ). Ainsi, repr esenter les individus par la carte (ti , tj ) nest l egitimement fond e que dans ces deux cas extr emes o` u lon retrouve la dualit e dinterpr etation dune composante, ` a la fois axe factoriel du c ot e des variables et vecteur des coordonn ees des individus projet es. L ecart ` a la dualit e pour une composante ti , appel e saut de dualit e et not e SDi , est lexpression comprise entre 0 et 1, SDi = 1 ri , o` u ri = r (ti , ti ) est le coecient de corr elation lin eaire entre ti et ti . Dapr` es (9.32), cov (ti , ti ) = pi 2 var (ti ) > 0 si i rang (X ). Comme cons equence, ri est positif, langle entre ti et ti est aigu et SDi est compris entre 0 et 1. Cas SDi = 0 : i > 0 tel que XX Dti = i ti Y =X V = Ip P LS (X, Y ) ACP (X ), alors i, i = i non corr elation, alors i, i = 1
Plus SDi sera voisin de 0 (ri voisin de 1) et plus il sera justi e dinterpr eter la repr esentation des individus donn ee par ti , gr ace aux variables explicatives et aux variables r eponses projet ees sur ti . La V-orthogonalit e de deux axes factoriels (w i , w j ) permet de d ecomposer la projection des individus sur le plan (i, j ) comme la somme des projections sur chacun des axes
V V V (w i , w j ) X = w i X + w j X .
Mesure de la qualit e de la repr esentation dun individu De fa con habituelle, une mesure de la qualit e de la repr esentation de lindividu l sur laxe i ou sur le plan factoriel (i, j ), est donn ee par le carr e du cosinus du V-angle form e par les deux vecteurs dorigine lorigine des coordonn ees, et dont les extr emit es sont le pointindividu l dune part et sa projection dautre part. Soit r = rang (X ), les contributions relatives de laxe i et du plan factoriel (i, j ) ` a la repr esentation de lindividu l sont cos2 li =
i 2 (t l ) r j 2 j =1 (tl )
et
cos2 li,j = cos2 li + cos2 lj .
(9.55)
Remarquons que dans (9.55), le d enominateur est egal ` a Xl VXl o` u Xl est la li` eme ligne de X . En eet, si lon note W (k ) la matrice des vecteurs unitaires, et T (k ) la matrice 191
J.F. Durand
des vecteurs donnant les coordonn ees des projections, W (k ) = [w 1 . . . w k ] = W (k )[T (k ) DT (k )]1/2 , T (k ) = [t1 . . . tk ] = XX D T (k ),
alors, puisque Im W (r ) = Im X , X = V f (r ) X = W (r )T (r ) et W
(9.56.a) (9.56.b)
T (r )T (r ) = T (r )Ir T (r ) = T (r )[W (r ) VW (r )]T (r ) = X VX . L el ement diagonal (l, l) de ces matrices donne le r esultat. D ecomposition de linertie du nuage des individus
(9.57)
Le nuage des individus a pour inertie, not ee I ind , le carr e de la norme de Frob enius de V I ind = trace(X VX D ) = trace(V2 ) = V
2 F.
(9.58)
incorpore dans PLS, non seulement les variances mais aussi les covariances des variables explicatives.
p p
sur variables standardis ees. Linertie des individus I ind , egale ` a I x dans lACP usuelle,
En outre, I ind trace(V) = I x si pour tout i, (X i ) 1, ce qui est le cas dans PLS
ind
=
i=1
var (X ) + 2
i=j
cov (X , X )
var 2 (X i ).
i=1 p i=1
Il est int eressant de regarder si I ind est assez proche de
var 2 (X i ) (de p dans le cas
standardis e) cest ` a dire si V est proche d etre diagonale (de la matrice identit e dans le cas
standardis e). Dans ce cas, toutes les composantes PLS sont certes proches de la dualit e au sens d eni plus haut mais PLS perd de son int er et. Dautre part, linertie se d ecompose en la somme des inerties des points projet es sur chacun des r axes possibles,
r r
ind
= trace(T (r )T (r ) D ) =
i=1
trace(t t D ) =
i=1
i i
Iiind .
Linertie des individus projet es sur laxe i est, puisque ti est D -centr e, Iiind = trace(ti ti D ) = ti Dti = var (ti ), On d enit, en pourcentage, la qualit e globale du plan factoriel (i, j ) par 100
J.F. Durand
ind ind Ii,j Ij Iiind = 100 + 100 . I ind I ind I ind
192
Proposition 9.10 : Expression des inerties associ ees aux deux triplets Linertie des variables explicatives et linertie des individus correspondants peuvent sexprimer de deux fa cons di erentes en fonction de ti ou de ti
r r
I x = trace(V) = I ind = V 2 Preuve

2 F
ti
i=1 r
2 D
pi
=
i=1
ti ti
2 D
D ri
(9.59)
=
i=1
ti
2 D
=
i=1
pi
2 V
(9.60)
: Seule la derni` ere egalit e dans chacune des formules est ` a d emontrer, les
premi` eres ayant d ej` a et e obtenues. Si lon prend k = r = rang (X ), X est invariant par projection sur Im W (r ) de m eme, X est invariant par projection sur Im T (r ). Il vient, X = W (r )T (r ) et X = T (r )W (r )V. Alors, trace(X DX ) = trace(W (r )T (r ) D T (r )W (r ) V) = trace(T (r ) D T (r ))
r r
=
i=1
cov (ti , ti ) = ti D ti
2 D
ti
i=1
D ri
.
r i=1
Pour (9.60), avec (9.54), 2
r i=1
r i i i=1 t Dt
ti
2 D
pi Vp i .
9.12
M etriques pour les individus et optiques photographiques associ ees
9.12.1
M etriques g en erales pour les individus
Nous avons vu dans les paragraphes pr ec edents, que lespace des variables est (I Rn , D ) et que celui des individus est (I Rp , Ip ) pour les mesures sur les pr edicteurs et (I Rq , Iq ) pour celles des r eponses. Sur ces espaces sont construites les suites {w i }i et {v i }i des vecteurs des poids et, par l` a, les composantes {ti }i et les {ui}i de (I Rn , D ) d enis par (9.5) ti = X(i1) w i et ui = Y(i1) v i .
La m etrique V = X DX sert doptique photographique adapt ee ` a la visualisation exacte des individus de X : elle permet de projeter les individus sur la famille {w i }i qui est V-orthogonale. Une composante s ecrit avec (9.42) ti = Xw i 193
J.F. Durand
et les coordonn ees des projections du nuage des individus sur Im w i sont donn ees par (9.54) ti = WDti / ti
D
= XX Dti / ti
D.
Dans ce paragraphe, nous adoptons la d emarche classique en Analyse Factorielle de Donn ees, qui consiste ` a choisir des m etriques plus g en erales not ees M x et M y en remplacement de Ip et Iq , pour mesurer des distances sur les individus de X et de Y . Dans ce cas, les formules (9.5) deviennent ti = X(i1) M x w i et ui = Y(i1) M y v i .
Cela induit loptique photographique adapt ee ` a la vision exacte des individus de X M x VM x , en remplacement de V, car (9.42) devient ti = XM x w i et la D -norme dune composante s ecrit ti
D
= w i
M x VM x .
Du cot e des pr edicteurs, le triplet (X, M x , D ) ne peut d enir une inertie des variables que si M x est diagonale. Linertie totale des individus pour le triplet (X, M x VM x , D ) devient I ind = trace((VM x )2 ) = X
2 (M x VM x )D
et les projections du nuage sur Im w i , donn ees par (9.54), s ecrivent ti = WDti / ti
D
= XM x X Dti / ti
D.
9.12.2
R egression PLS discriminante
Une application de la d emarche pr ec edente est donn ee par P LS (X, Y ) dans le contexte est lindicatrice des q groupes dindividus mesur es sur p variables explicatives, la matrice X des observations est suppos ee de plein rang colonne. Du cot e de Y , M y = (Y DY )1 , alors que du cot e de X , M x = V1 , appel ee m etrique de Mahalanobis, est aussi dans ce cas, loptique photographique n ecessaire pour une vision exacte des individus M x VM x = V 1 = M x .
J.F. Durand
de lAnalyse Factorielle Discriminante, voir chapitre 7.4 Exercice 8. La matrice Y , n q ,
194
Les axes PLS discriminants {w i }i sont V1 -orthogonaux. Le saut de dualit e entre une variable discriminante ti = X V1 w i et les projections des individus est toujours nul car ti = X V1 X Dti / ti
D i i = D Xt / t D
= ti / ti
D.
En r egression PLS discriminante, les repr esentations pseudo-factorielles des individus sont trace((Ip )2 ) = p. Lorsque rang (X ) < p, M x = V+ et les propri et es ci dessus tiennent toujours, sauf pour linertie, I ind = trace((VV+ )2 ) = rang (X ). donc des repr esentations factorielles. Linertie des individus est egale ` a p car I ind =
9.13
Choix du nombre de composantes
Tout dabord, on conna t une borne sup erieure de k , k r = rang (X ). Lorsque lon choisit k = rang (X ), le mod` ele de r egression PLS est identique ` a celui de la r egression aux moindres carr es usuelle lorsque cette derni` ere est applicable. Trois types de crit` eres permettent de d eterminer le nombre k de composantes, aussi appel e la dimension du mod` ele. Le premier type est bas e sur le t cest ` a dire, lajustement de l echantillon dapprentissage (X, Y ) par (X (k ), Y (k )) contruit par PLS ` a k composantes. Les deux autres sont bas es sur la pr ediction. Lun, bas e sur la pr ediction interne aux donn ees dapprentissage, est appel e crit` ere de validation crois ee. Lautre, bas e sur la pr ediction externe, n ecessite un jeu de donn ees suppl ementaire, appel e echantillon test ou echantillon de validation et not e (Xt , Yt ). Finalement, la d etermination de k est une d ecision qui fait la synth` ese des informations recueillies par lexamen des crit` eres disponibles.
9.13.1
Crit` eres bas es sur lajustement
Trois crit` eres permettent de mesurer lapport des composantes dans lajustement aux donn ees. Les deux premiers concernent la reconstruction de X et un troisi` eme est associ e ` a lajustement de Y . Crit` eres sur X V-inertie des individus reconstruite par k composantes
k
ind
(k ) =
i=1
var (ti ) et I ind (r ) = V 195
2 F
= X
2 V D
=
h,l
cov 2 (X l , X h ) .
J.F. Durand
Le pourcentage dinertie totale reconstruite par k axes

k
%I
ind
(k ) =
i=1
100
Iiind I ind
(9.61)
donne le crit` ere mesurant lapport des k composantes dans la repr esentation des individus. D -variance reconstruite par k composantes
k p p x 2 l i l x 2 D
I (k ) =
r (X , t )var (X )
i=1 l=1
et I (r ) = trace(V) = X
=
l=1
var (X l ) .
Le pourcentage de variance totale reconstruite par k axes est donn e par %I (k ) = 100
x k x j =1 Ij Ix
(9.62)
Ainsi PLS poss` ede comme propri et e secondaire, mais pr ecieuse, le fait de calculer le rang de X comme etant le nombre de composantes reconstruisant 100% des deux crit` eres bas es sur lajustement de X . Crit` ere sur Y D -variance reconstruite par k composantes
k q q y 2 h i h y
I (k ) =
r (Y , t )var (Y )
i=1 h=1
et I (r ) trace(Y DY ) =
var (Y h ) .
h=1
Le pourcentage de variance totale reconstruite par k axes est donn e par %I (k ) = 100
y k y j =1 Ij Iy
(9.63)
Gr ace ` a (9.61), (9.62) et (9.63), un premier crit` ere du choix du nombre de composantes peut etre enonc e comme suit : on choisira k de telle fa con que linertie des individus et la variance de X soient susamment reconstruites pour un gain faible dans lapproximation de la variance de Y . La Figure 24 pr esente le diagramme de l evolution de ces crit` eres en fonction du nombre de composantes. Bas e sur un exemple r eel, il donne une premi` ere indication pour le choix de k .
J.F. Durand
196
Based on Fit Criteria

100
3 3 3 2 3 2 3 1 2 1 3 3 2 3 2 3 2 3 2 3 2 2 3
80
1 2 1 2 1
60
% varY % varX % Inertia
40
2
10
11
12
13
Figure 24 : Evolution des trois crit` eres bas es sur lajustement aux donn ees en fonction du nombre de composantes. Sur lexemple, le rang de X est egal ` a 13. Il semble raisonnable, pour eviter un sur-ajustement aux donn ees, de choisir k dans lintervalle [5, 7] pour 80% de la variance de Y reconstitu ee et pour plus de 80% de X reconstruit par les deux crit` eres, inertie et variance. Notons que pour k = 1, . . . , r , ces trois crit` eres fournissent, par construction, des suites croissantes de valeurs.
9.13.2
Crit` eres bas es sur la pr ediction
Le mod` ele de r egression PLS (9.46) (k ) , (k ) = X Y b ati sur l echantillon dapprentissage (X, Y ) permet de faire de la pr ediction. Il est indispensable de valider le choix de k par une mesure bas ee sur la pr ediction. Validation externe On dispose parfois dun deuxi` eme jeu de donn ees, appel e echantillon test et not e (Xt , Yt ), 197
J.F. Durand
mesur e sur les m emes variables mais sur N individus suppl ementaires suppos es de poids identique. Les matrices Xt et Yt sont suppos ees centr ees ( eventuellement r eduites) par rapport aux individus moyens (aux ecart-types) des donn ees brutes de l echantillon dapprentissage tels quils ont et e d enis au paragraphe 1.9. On dispose en outre, dune famille j (k ) = [ (k )] , k = 1, . . . , r }, pour lesquels on de mod` eles { evalue on evalue lerreur quai
dratique moyenne de pr ediction sur l echantillon (Xt , Yt ) 1 MSE (k ) = q 1 MSE (k ) o` u MSE (k ) = N j =1

j j q
N 2 j (Y t | j i Xt |i (k )) .
(9.64)
i=1
Le minimum de {MSE (k ) , k = 1 . . . , r } est g en eralement obtenu pour une valeur unique
kopt qui d epend, bien s ur, de l echantillon test s electionn e. Cependant, cette valeur opti-
male (au sens du crit` ere) nest pas forc ement celle ` a retenir lors du choix du nombre de composantes, tout d epend de la fa con dont elle a et e obtenue et de la valeur MSE (kopt ).
(a)
MSE ( k ) 4 3.5 3 2.5 2 1.5 1 0.5 1 2 3 4 5 6 7 4 3.5 3 2.5 2 1.5 1 0.5 1 2 3 MSE ( k )
(b)
MSE ( k ) 4 3.5 3 2.5 2 1.5 1 0.5 4 5 6 7 1 2 3
(c)
Figure 25 : Exemples d evolution des crit` eres de pr ediction externe avec k ; (a) et (b), validation externe acceptable ; (c), remise en cause du mod` ele et/ou de l echantillon test. Figure 25, trois exemples de validation externe sont pr esent es qui tous trois montrent une evolution r eguli` ere du crit` ere avec le nombre de composantes. Ce nest pas toujours le cas, il arrive parfois que larriv ee dune composante dans le mod` ele capture linuence dune donn ee atypique et provoque un brusque saut dans l evolution du crit` ere. Une valeur limite pour refuser le mod` ele PLS, sous lhypoth` ese dune echantillon test able, est MSE (kopt ) = 1, dans le cas standardis e. En eet, une telle valeur signie que, en moyenne, lapproximation dune r eponse donne sa valeur moyenne. Ainsi, Figure 25 (c), le mod` ele PLS est rejet e car kopt = 1 et MSE (kopt ) > 1. Il faut dans le cas multi-r eponses,
J.F. Durand
198
examiner les graphiques des MSE j (k ) pour savoir quelle r eponse est mal pr edite ou bien pr edite. Les cas (a) et (b), Figure 25, sont ceux pour lesquels le mod` ele PLS est bien valid e par l echantillon test. Si le choix du nombre de composantes est clair pour (a), k = kopt = 4, il est moins evident pour (b) et d epend dans ce cas des autres crit` eres et aussi du principe d economie : choisir la plus petite dimension dans le cas de valeurs du crit` ere tr` es voisines. Validation interne ou validation crois ee Le principe est le m eme que pour la validation externe mais bas e cette fois sur l echantillon dapprentissage. On partage l echantillon en deux groupes dindividus, lun pour b atir le mod` ele, lautre pour le valider et on mesure lerreur de pr ediction. On recommence le proc ed e sur dautres bi-partitions de telle sorte quun individu ne soit pr edit quune seule ` la n, on calcule la somme (ou la moyenne) des erreurs quadratiques moyennes fois... A obtenues pour les q r eponses, avec k = 1, . . . , r . Ce proc ed e appel e validation crois ee, est le plus souvent utilis e en enlevant, pour etre pr edit, un seul individu ` a la fois. Dans ce cas, la m ethode est appel ee leave-one-out. En g en eral, on tol` ere 10% dindividus s electionn es ` a chaque etape. Ecrivons le crit` ere dans le cas leave-one-out. On suppose que tous les individus ont (i) (k ) = [ (i) (k )|j ] la matrice p q des coecients du mod` le m eme poids et on note ele i obtenu pour lindividu i out. Alors, le PRESS (Predictive Error Sum of Squares), s ecrit 1 P RESS (k ) et P RESS (k ) = P RESS (k ) = n j =1
j j q n
i=1
(i) (k )|j )2 . (9.65) (Yij Xi
La discussion sur le choix de k est identique ` a celle de la validation externe. Cependant, la fa con dont les groupes dindividus sont enlev es-pr edits ` a une inuence sur le choix de k . Il est souvent conseill e de recommencer un certain nombre de fois la proc edure avec permutation des individus. On obtient ainsi une statistique sur le PRESS ce qui robustie la d ecision nale en ce qui concerne le choix des partitions.
9.14
9.14.1
Pratique de la r egression PLS

PLS univari e, les donn ees de Cornell
Les donn ees de Cornell On trouve analys e dans [12, Tenenhaus] cet exemple trait e par PLS. Lindice doctane moteur y de douze di erents m elanges a et e enregistr e pour d eterminer linuence de sept composants. Les sept variables repr esentent des proportions et somment ` a 1. 199
J.F. Durand
Calcul Matriciel et Analyse Factorielle des Donn ees no 1 2 3 4 5 6 7 8 9 10 11 12 moy. stdev
x1 0.00 0.00 0.00 0.00 0.00 0.00 0.17 0.17 0.17 0.17 0.21 0.00 0.07 0.09
x2 0.23 0.10 0.00 0.49 0.00 0.62 0.27 0.19 0.21 0.15 0.36 0.00 0.22 0.19
x3 0.00 0.00 0.00 0.00 0.00 0.00 0.10 0.10 0.10 0.10 0.12 0.00 0.04 0.05
x4 0.00 0.00 0.10 0.00 0.62 0.00 0.38 0.38 0.38 0.38 0.25 0.55 0.25 0.22
x5 0.00 0.12 0.12 0.12 0.12 0.00 0.00 0.02 0.00 0.02 0.00 0.00 0.04 0.05
x6 0.74 0.74 0.74 0.37 0.18 0.37 0.00 0.06 0.06 0.10 0.00 0.37 0.31 0.28
x7 0.03 0.04 0.04 0.02 0.08 0.01 0.08 0.08 0.08 0.08 0.06 0.08 0.06 0.03
y 98.7 97.8 96.6 92.0 86.6 91.2 81.9 83.1 82.4 83.2 81.4 88.1 88.58 6.24
La matrice des corr elations montre que la variable x1 est tr` es fortement corr el ee avec x3 ainsi que x4 avec x7 . La r eponse y lest avec x6 et ` a un degr e moindre avec x1 et x3 . Le pr edicteur x5 est peu corr el e avec les autres variables.
x2 x1 x2 x3 x4 x5 x6 x7 0.10 x3 0.999 0.10 x4 0.37 -0.54 0.37 x5 -0.55 -0.29 -0.55 -0.21 x6 -0.80 -0.19 -0.81 -0.65 0.46 x7 0.60 -0.59 0.61 0.92 -0.27 -0.66 y -0.84 -0.07 -0.84 -0.71 0.49 0.99 -0.74
Le tableau ci-dessus pr esentant les corr elations donne, pour ce qui concerne les variables explicatives, les el ements hors-diagonaux de la matrice V = n1 X X . Les deux expressions d eduites de V qui jouent un r ole cl e dans PLS valent I x = trace(V) = 7, et I ind = V
2 F
= 20.411 .
Remarquons dabord que le rang de X est six, puisque les variables somment ` a un, ce qui implique que la r egression lin eaire multiple de y sur les sept variables explicatives ne peut etre eectu ee. La r egression lin eaire pas ` a pas descendante retient les variables x1 , x2 , x4 , x5 ce qui nest pas satisfaisant car x6 , fortement corr el ee ` a y , nest pas retenue. De plus, le chimiste d esire un mod` ele qui laide ` a r ealiser un m elange qui doit int egrer les sept composants.
J.F. Durand
200
Choix de la dimension du mod` ele Pour d eterminer le nombre de composantes PLS, on ne dispose pas, ici, dun jeu de donn ees test. Seuls les crit` eres bas es sur lajustement aux donn ees et sur la validation crois ee sont utilisables.
Based on Fit Criteria
100
1 3 1 3 2 1 2 3 1 2 3 1
opt. Dim. 3 , y PRESS = 0.03 ( 1 out )
90
PRESS
70
60
0.03
0.04
0.05
% varY % varX % Inertia
0.06
80
0.07
0.08
3 Model Dim.
Figure 26 : Crit` eres daide ` a la d ecision pour le choix du nombre de composantes pour les donn ees de Cornell. Avec trois composantes, PLS reconstitue 99% de variance de y ainsi que 98.4% de linertie des individus et 91.2% de la variance de X . La valeur optimale du P RESS est obtenue pour trois composantes avec P RESS (3) = 0.03. L evolution des di erents crit` eres, Figure 26, indique sans ambigu t e que trois est le meilleur choix pour la dimension du mod` ele. La validation crois ee permet aussi dexaminer quels sont les individus qui sont correctement pr edits et quels sont ceux qui le sont moins. Pour cela, la partie gauche de la Figure 26 pr esente le graphique des valeurs observ es sur y contre les valeurs pr edites par validation crois ee ` a trois composantes. L ecart-type de lerreur de pr ediction est egal ` a 0.177. Ce sont les individus 1, 6 et 12 qui sont le moins bien pr edits par le mod` ele ` a trois dimensions. Une autre indication pour le choix du mod` ele est fournie par l evolution des coefj (i) au cours de sa construction, cest ` cients a dire pour pour k = 1, . . . , rang (X ). Sur lexemple de Cornell, une seule r eponse (j = 1) est ` a pr edire et la partie droite de la Figure 27 pr esente l evolution des coecients suivant le nombre de composantes qui 201
J.F. Durand
entrent dans le mod` eles. Notons ` a l etape 6 une explosion des coecients des variables X 1 et X 3 , qui pr esentaient auparavant des signes identiques n egatifs. D` es l etape 5, la variable X 7 voit son coecient changer de signe. On note donc une zone dinstabilit e pour les variables explicatives les plus corr el ees qui commence sur cet exemple ` a k = 5. Le type de graphique pr ec edent incite donc ` a choisir k dans la zone de stabilit e des coecients, cest ` a dire, ici, k 4.
Dim = 3 , std. error = 0.17734
1.5
3 2
0.4 -0.4 -0.2 0.0 0.2
1
1.0
6
predict. y 0.5
4 12
-0.5
0.0
5 10 11 9 8 7 -1.0 -0.5 0.0 obs. y 0.5 1.0 1.5
-1.0
-0.8
-0.6
x1 x2 x3 x4
x5 x6 x7
MODEL DIM.
` gauche, individus observ Figure 27 : A es contre individus pr edits par validation crois ee ` a (k ) suivant le nombre de ` droite, trois composantes. A evolution des coecients composantes rentrant dans le mod` ele. Le mod` ele PLS Finalement, le mod` ele retenu, ` a trois composantes, s ecrit sur les variables standardis ees, (3) = 0.1391 X 10.2087 X 2 0.1376 X 30.2932 X 40.0384 X 5+0.4564 X 60.1434 X 7 Y Il est tout ` a fait coh erent avec les coecients de corr elation et X 6 est le pr edicteur qui contribue le plus ` a la construction de Y alors que linuence de X 5 est n egligeable. Figure i i 28, les graphiques des fonctions coordonn ees (x , i (3)x ) montrent linuence additive des observations sur la r eponse. Les variables explicatives sont class ees, de gauche ` a droite et de haut en bas, par ordre d ecroissant dinuence selon la valeur absolue des coecients.
J.F. Durand
202
Predictors influence on y (dim 3)

0.456 x6
1.0 1.0
-0.293 x4
1.0
-0.209 x2
0.5 0.5 1.0
-0.143 x7
3 2 1
0.5 0.5
2 1 4 6
0.0
0.0
0.0
11 10 7 8 9 12 5
0.0
12 4 6 10 8 9 11 7 5
3 5 12
210 891 7
6 4 1 2 3
11
11
10 12 9 8 5 7
-0.5
-0.5
-0.5
-1.0 -0.5 0.0 0.5 1.0 1.5
-1.0-0.5 0.0 0.5 1.0 1.5
-1
-0.5
-1.5 -1.0 -0.5 0.0 0.5 1.0
-0.139 x1
1.0 1.0 0.5 0.5
-0.138 x3
0.5 1.0
-0.038 x5
0.0
0.0
0.0
6 5 4 3 2 1 12 10 9 11 8 7
6 5 4 3 2 1 12 10 7 8 9 11
12 11 1 6 9 7 10 8
2 3 4 5
-0.5
-0.5
-0.5 0.0 0.5 1.0 1.5
-0.5 0.0 0.5 1.0 1.5
-0.5
-0.5 0.0 0.5 1.0
i (3)xi ) Figure 28 : Graphiques des observations sur les fonctions coordonn ees (xi , class ees par ordre d ecroissant dinuence sur la r eponse y standardis ee. Sur les donn ees dorigine, le mod` ele devient, (3) = 92.6769.828 X 16.96 X 216.666 X 3 8.422 X 44.389 X 5 +10.161 X 634.529 X 7 Y Repr esentation des variables La r egression PLS ayant et e eectu ee sur variables centr ees r eduites, une variable est bien repr esent ee sur un plan factoriel (i, j ) si sa projection est proche du cercle des corr elations. La Figure 29, pr esente les deux plans factoriels (1,2) pour les individus, ` a 203
J.F. Durand
gauche, et pour les variables, ` a droite.

2
12 5
1
3
( 15.25 %VX) ( 5.27 %VY)
t *2 (8.09 %) (r2=0.831)
10 98
0
2 1
0.5
1.0
x7 x4
x6 y x5
0.0 -0.5
x3 x1
-1
11
-2
4 x2 6 -4 -2 0 2 4
-1.0
t2
-1.0 t1
-0.5
0.0
0.5
1.0
t *1 (79.13 %) (r1=0.999)
( 57.36 %VX) ( 92.36 %VY)
Figure 29 : Plans factoriels (1,2) des individus et des variables, les sauts de dualit e sont tr` es faibles ` a faibles, ils correspondent ` a r1 = 0.999 et r2 = 0.831. Toutes les variables sont bien repr esent ees sur le plan (1,2) sauf X 5 qui est tr` es peu corr el ee avec les autres variables. Pour chaque axe de projection des variables, est indiqu e, gr ace ` a (9.52.c) et (9.52.d), le pourcentage de la variance reconstruite. Par exemple, t1 apporte 57.36% de la variance de X et 92.36% de celle de Y . Repr esentation des individus Rappelons que le plan factoriel (i, j ) est la projection V-orthogonale des individus sur le plan (w i , w j ). Les coordonn ees du nuage des points projet es sont donn ees par le couple (ti , tj ). Les deux plans factoriels (i, j ) individus-variables ne sont pas en dualit e. On ne peut interpr eter un axe-coordonn ee t , par rapport aux variables projet ees sur laxe-projection t, de m eme nom, que si le saut de dualit e entre t et t est faible, cest ` a dire si le coecient de corr elation entre ces deux variables est voisin de un. donn es dans le tableau ci-dessous, sont faibles sauf le cinqui` eme SD1
0.001 0.999
Pour les donn ees de Cornell, les sauts de dualit e mesur es par les coecients SDi = 1 ri SD2
0.169 0.831
SD3
0.112 0.888
SD4
0.008 0.992
SD5
0.651 0.349
SD6
0.016 0.984
r1
J.F. Durand
r2
r3 204
r4
r5
r6
Seul laxe 5 nest pas interpr etable mais ne pr esente ici aucun int er et. Les trois axes utiles sont interpr etables et la Figure 30 montre les di erences pour les individus entre la repr esentation pseudo-factorielle (t1 , t2 ) et la repr esentation factorielle (t1 , t2 ).
1.0 2
12 10 98 7 11 5
3 2
12
5 3 2 1
0.5
1 (8.09 %)
t2
10 98 7 11
0.0
-0.5
-1.0
t *2
-1
-1.5
6 -2 -1 0 t1 1
-2
4 6 -4 -2 0 2 t *1 (79.13 %) 4
4 2
r1 = 0.999
2 4 3 1
2
r2 = 0.831
5
1
12 3 89 10 2 1
t *1
-1
5 12
t *2
7 11 4 6
-2
-4
10 98 711 -2 -1 0 t1 1 2
-2
-1.5
-1.0
-0.5 t2
0.0
0.5
1.0
Figure 30 : Comparaison entre les repr esentations pseudo-factorielles et factorielles pour le plan (1,2) des individus. Visualisation des individus dans les r egressions de t sur t pour les axes 1 et 2. Ces deux repr esentations, globalement tr` es proches ` a cause des faibles sauts de dualit e, di` erent, cependant, sur quelques individus : lindividu 5 et ` a un degr e moindre, les individus 1,2 et 3. Le graphique en bas ` a droite, Figure 30, qui montre les observations de la r egression simple de t2 sur t2 , met en evidence les d ecalages verticaux pour ces individus. Figure 29, le plan (1,2) qui repr esente 87.2% de linertie totale permet de voir les individus 1, 2, 3 qui sont bien repr esent es comme le montrent les cos2 ci-dessous. 205
J.F. Durand
cos2 1
1 2 3 4 5 6 7 8 9 10 11 12 0.8951 0.9601 0.8868 0.8211 0.0007 0.4946 0.9893 0.9937 0.9942 0.9828 0.8245 0.0341
cos2 2
0.0004 0.0123 0.0511 0.1511 0.1768 0.2524 0.0017 0.0031 0.0013 0.0129 0.0521 0.4020
cos2 3
0.0837 0.0094 0.0453 0.0200 0.8224 0.2250 0.0089 0.0001 0.0045 0.0002 0.1190 0.4106
cos2 4
0.0207 0.0182 0.0165 0.0078 0.0001 0.0279 0.0000 0.0032 0.0000 0.0040 0.0043 0.1520
cos2 5
0.0001 0.0001 0.0002 0.0000 0.0000 0.0001 0.0000 0.0000 0.0000 0.0000 0.0001 0.0013
cos2 6
0 0 0 0 0 0 0 0 0 0 0 0
6
2
11
( 19.21 %IX) ( 1.42 %IY) t *3 (11.24 %) (r3=0.888) 0.5
1
1
1.0
x2 x1 x3 y x6
4 7
0
9 8 10 2
-1
3 12
0.0
t3
-0.5
x7 x5 x4
-3
-2
5 -2 -1 0 1 2
-1.0
-1.0
-0.5 t2
0.0
0.5
1.0
t *2 (8.09 %) (r2=0.831)
( 15.25 %IX) ( 1.42 %IY)
Figure 31 : Plans factoriels (2,3) pour les individus et les variables des donn ees de Cornell. Ils permettent de voir les individus 5 et 12 et la variable x2 . Sur la Figure 29, ces trois individus se caract erisent par de faibles valeurs pour les variables x1 , x3 , x4 , x7 , par opposition ` a de fortes valeurs pour x6 et y . La Figure 30 est lhomologue de la Figure 28, mais pour les axes 2 et 3. Les individus 12 et 5, biens repr esent es se caract erisent par de faibles valeurs sur x2 . Il est ` a noter que cette analyse de lindividu 5 ne peut se faire par lexamen de la repr esentation pseudo-factorielle (t1 , t2 ). En outre, ce type de carte des individus ne permet pas de quantier la qualit e de la repr esentation comme il est habituel de proc eder dans lACP du triplet (X, M, D ).
J.F. Durand
206
9.14.2
Calibration PLS en spectroscopie proche infrarouge
L etalonnage multidimensionnel (traduction de lexpression multivariate calibration), permet de mod eliser sur un echantillon dapprentissage ou de calibration, (X, Y ), une ou plusieurs r eponses, Y , ` a partir de mesures spectroscopiques ou chromatographiques.
Calibration Sample
Absorbance 1.5
800
2.0
2.5
3.0
850
900
950 wavelengths
1000
1050
1100
Figure 32 : Spectres dabsorbances proches de linfrarouge pour les donn ees de Poligny. La matrices X contient, par exemple, les valeurs discr etis ees de n spectres dabsorbance proches de linfrarouge. En calibration PLS, les p variables explicatives sont dun type particulier, puisque chacune correspond ` a une valeur num erique qui est soit une longueur donde (wavelength) discr etis ee, soit un temps discr etis e. La Figure 32, pr esente l echantillon dapprentissage des pr edicteurs form e de n = 56 spectres qui fournissent les valeurs des pr edicteurs x1 = 800, x2 = 802, x3 = 804, ..., x150 = 1098. Lexemple trait e provient dune analyse eectu ee au centre de recherche sur le lait ` a lINRA de Poligny [9, Mazerolles et al.], des taux dhumidit e, Hum, et de mati` ere grasse, Gr , de 56 fromages provenant pour une part du commerce et pour une autre part de fabrication exp erimentale, la fabrication de ces derniers ayant eu pour objectif daugmenter la variabilit e de la variable Gr ` a Hum x e. L echantillon dapprentissage des r eponses est donc une matrice Y de dimensions 56 2 et celui des pr edicteurs est 207 une matrice X , 56 150. Dautre part, on dispose dun echantillon test ou de validation,
J.F. Durand
form e de 35 fromages dorigine mixte comme pour l echantillon de calibration.
Calibration Sample
1.5 2.0 2.5 3.0
800
850
900
950 wavelengths
1000
1050
1100
-4 -2 0 2 4 6
800
850
900
950 wavelengths
1000
1050
1100
-200
800
850
900
950 wavelengths
1000
1050
1100
Figure 33 : Du haut vers le bas, le spectre moyen (+/ 2 ), sa d eriv ee premi` ere et sa d eriv ee seconde.
Nous remercions G. Mazerolles pour nous avoir aimablement communiqu e les donn ees sur les fromages illustrant lapplication de PLS en spectroscopie proche de linfrarouge (NIR spectroscopy). Pour une raison d economie de place, seule est trait ee ici la r eponse Hum, taux dhumidit e des fromages. Sur des donn ees issues de la calibration, les pr edicteurs etant homog` enes, il est habituel de ne pas les standardiser. Lutilisation de la d eriv ee seconde du spectre moyen, Figure 33, apporte des pr ecisions sur la nature des plages de longueurs donde constituant le massif centr e sur 970 et attribu e, cl e [9, Mazerolles et al.], au 2i` eme harmonique de la vibration de l elongation de la liaison O H . l echantillon de validation. Cinq composantes sont retenues par la validation crois ee et aussi par la pr ediction sur
J.F. Durand
208
mean relative err in % = 1.23

55
Mean Relative Error=0.78% 30 29

50
70 69
27 32 33 23 28 24 25 31 22 26 21 20 56 19 49 46 54 48 55 43 51 47 50 4453
est. HUM , Dim. 5
est. HUM , Dim 5
45
45
45
9091 67 84 68 88 86 89 87 8283 65 85 80 81 66
50
63 64 62 61
17 18 15 16 14 11 13 12 810 6 5 9 39 7 36
52
40
40
34 35 4 41 3 42 40 37 38 1 2
60 59 76 72 57 58 73 77 78 7175 7974
40 45 obs. HUM 50 55 40 45 obs. HUM 50
Figure 34 : Hum observ e contre Hum pr edit par la validation crois ee, ` a gauche, et sur l echantillon test, ` a droite.
Figure 34 est pr esent ee une comparaison de la qualit e de pr ediction ` a 5 dimensions, par la validation crois ee, gure de gauche, et sur l echantillon test, gure de droite. L ecart type de lerreur r esiduelle est donn e, on note que lindividu 52 de l echantillon dapprentissage est le moins bien pr edit par la validation crois ee : cest le spectre atypique situ e au dessus des autres, Figure 32.
Outre la pr ediction, un des objectifs de PLS en calibration est de s electionner les variables explicatives (longueurs donde) inuentes. Le moyen utilis e consiste ` a examiner, Figure 35, les coecients de ces variables dans le mod` ele obtenu pour d etecter les plus grands en valeur absolue. On en d eduit que les bandes dabsorption aux environ de 925, 970 et 1020 sont utilis ees par le mod` ele destin e ` a la pr ediction du taux dhumidit e. Le signe des coecients trouve son interpr etation, [9, Mazerolles et al.], dans le fait que la bande caract eristique de leau, signe positif autour de 970, ne peut etre dissoci ee des bandes caract eristiques de mati` ere s` eche, signe n egatif autour de 925 pour la mati` ere grasse et et de 1020 pour les prot eines. 209
J.F. Durand
HUM
-1.0
800
-0.5
0.0
0.5
850
900
950 wavelengths
1000
1050
1100
(5) selon les di Figure 35 : Evolution des coecients erentes longueurs donde.
( 0.73 %IX) ( 16.86 %IY)
t *2 (0.01 %) (r2=0.907)
-0.2
60 2827 6 59 5 29 30 14 17 2 3 7 8 13 21 19 18 20 4 1 22 26 16 12 11 58 57 23 55 24 64 25 9 63 15 68 67 10 91 66 8165 90 56 33 54 61 62 75 32 73 69 71 44 4384 70 7476 51 80 42 48 45 36 37 38 39 47 31 49 88 77 72 34 78 41 87 86 35 40 79 53 50 46 89 82
0.5
1.0
HUM
-0.4
83 52
984 982 980 978 976 986 974 990 988 972 992 970 968 994 996 966 998 1000 964 1002 1004 962 1006 960 1008 1010 958 1012 1014 956 1016 1018 1020 954 1022 1024 952 1026 1028 1030 950 1032 1034 948 1036 1038 1098 1096 1040 1094 946 1042 1092 1044 1090 1046 1088 1048 1086 944 1050 1084 1052 1054 1082 1080 1056 1078 1058 1076 1074 1060 1072 1070 1064 1062 942 1068 1066 940 938 936 934 932 930 928 926 924 922 920 918 916 914 912 910 908 906 904 902 900 898 896 894 892 890 888 886 884 882 880 878 876 874 872 870 868 866 864 862 860 858 856 854 852 850 848 846 844 842 840 838 836 834 832 830 828 826 824 822 820 818 816 814 812 810 808 806 804 802 800
-0.6
t2
85 -10 0 10 20
-1.0
-1.0
-0.5
0.0
-0.5 t1
0.0
0.5
1.0
t *1 (99.99 %) (r1=1)
( 99.21 %IX) ( 75.19 %IY)
Figure 36 : Repr esentations factorielles (1,2) des individus et des variables.
Les individus actifs et suppl ementaires sont repr esent es Figure 36, ainsi que le cercle des corr elations. On note que laxe 1 fournit 99.99% de linertie des individus et que les sauts de dualit e sont tr` es faibles. Du c ot e des variables, les axes 1 et 2 apportent 92.05% de la variance de Hum ce qui signie que les trois composantes suppl ementaires utilis es par le mod` ele permettent de capturer une part petite, mais signicative, de la variance de la r eponse.
J.F. Durand
210
9.15
Exercices
Exercice 1 : Images et anti-images T j de T = [T 1 , . . . , T p ] est de moyenne nulle (le poids statistique de chaque observation est 1/n). La matrice X = [X 1 , . . . , X p ] est d eduite de T par X j = T j /
j 2 i (Ti ) .
Soit T I Rnp la matrice des n mesures sur p variables. On supposera que chaque colonne On
supposera que le rang de X est egal ` a p. Les espaces I Rn et I Rp sont munis du produit scalaire usuel < . , . > et de la norme Euclidienne . associ ee. On note PX le projecteur orthogonal sur Im(X ), le sous espace vectoriel de I Rn engendr e par les colonnes de X , et un s.e.v. de Im(X ). P(j ) le projecteur orthogonal sur Im(X (j ) ) = Im{X 1 , . . . , X j 1, X j +1, . . . , X p } qui est On appelle image, respectivement anti-image, de X j , le projet e sur Im(X (j ) )
j XI = P(j ) X j ,
respectivement, le projet e sur lorthogonal de Im(X (j ) )

j j XA = (In P(j ) )X j = P( j ) X .
1. Montrer que V = X X est la matrice des corr elations empiriques. Montrer que PX P(j ) = P(j ) ,
j j < XI , XA >= 0
et
j j X j = XI + XA .
p p 1 1 2. Dans toute la suite on notera XI = [XI , . . . , XI ] et XA = [XA , . . . , XA ]. 2 a) Montrer que le coecient de d etermination R( j ) = j 2 XI / Xj 2
entre X j et
Im(X (j ) ) v erie
j 2 j j j R( j ) =< XI , X >= X XI . 2 b) On note dj = 1 R( j ) et DI = diag (d1 , . . . , dp ). Montrer que
XI = P X XI , En d eduire que XA = X V 1 DI ,
X A = P X XA
et que X XA = DI .
X A XA = DI V 1 DI
et que XI XI = V 2DI + DI V1 DI .
c) Montrer que les el ements diagonaux de V1 s ecrivent

1 [V1 ]jj = d j .
Discuter les deux cas suivants : X j est non corr el e aux autres variables ; 211
J.F. Durand
X j est fortement corr el e avec dautres variables. Exercice 2 : Un exemple d ecole a) Mettre en oeuvre la r egression PLS sur les donn ees suivantes qui constituent un exemple d ecole permettant de trouver la solution ` a la main 2 1 1 X = 1 2 2 1 1 avec ceux de PLS. 1 3 0 . 2 1
Y =
b) Eectuer la r egression lin eaire multiple sur ces donn ees et comparer le mod` ele obtenu
Exercice 3 : Equivalence entre la r egression PLS1 et la r egression non orthogonale de Martens Nous sommes dans le contexte de la r egression multiple, une seule r eponse est ` a pr edire observations. Toutes les variables etant suppos ees centr ees r eduites au sens de la matrice diagonale D des poids statistiques. 1. La r egression PLS1 l etape k etant d enie par (1.1) (1.2) (1.3) Soit X0 = X et y0 = y , les composantes {t1 , . . . , tA } sont construites en s equence, w k = arg max yk1 DXk1 w
w w =1
` a partir de p pr edicteurs. Soit y (n 1) et X (n p) les matrices de l echantillon des
tk = Xk1w k Xk = Xk1 Ptk Xk1
ou Ptk a. Ecrire le probl` eme de Lagrange associ e` a (1) et les equations aux d eriv ees partielles correspondantes. b. On note Pk la matrice de la projection D -orthogonale sur le sous espace vectoriel de (I Rn , D ) engendr e par {t1 , . . . , tk }. Dire pourquoi (1.3) et (1.4) s ecrivent 2. La r egression PLS non orthogonale de Martens 0 = X et y 1 , . . . , t A } sont construites en s Soit X 0 = y , les composantes {t equence, l etape k etant d enie par
J.F. Durand
(1.4) yk = yk1 Ptk yk1 est la matrice de la projection D -orthogonale sur tk .
respectivement Xk = (In Pk )X et yk = (In Pk )y .
212
(2.1) (2.1) (2.3) (2.4)
k 1 D y w k = X k1 k 1 w k = X t k /w k w k k = X k 1 t k w X k k y y k = y k1 P k1
a. Dans lespace I Rp des individus munis du produit scalaire usuel, on note w k
k est la matrice de la projection D -orthogonale sur le sous espace vectoriel de o` uP 1 , . . . , t k }. (I Rn , D ) engendr e par {t la matrice de projection orthogonale sur la droite vectorielle engendr ee par w k. k . Quelle est linterpr Montrer que w kt etation g eom etrique de la i` eme k Xk 1 = w b. Montrer que k = (Ip w k k coordonn ee t eduire que X k ) Xk 1 . i de t ? En d k = X w 1 . . . w k t k . X 1t (2.5)
Montrer que w 2 est orthogonal ` aw 1 et par r ecurrence que w k est orthogonal ` a l k k tous les w pr ec edents. En d eduire que w = X Dy k1. Montrer que w Xk = 0 et par (2.5) d eduire k = X w t k /w k w k . (2.6)
Dire pourquoi, au contraire de (1.3), (2.3) ne permet pas dassurer lorthogonalit e k , do` des vecteurs t u le nom de lalgorithme propos e par Martens. 3. Equivalence des deux r egressions Montrer par r ecurrence sur lindice k , que lalgorithme de la r egression PLS1 et lalgorithme de Martens sont equivalents au sens suivant a. w k = Xk1 Dy et w k = w k/ w k . 1 , . . . , t k } engendrent le m b. Les vecteurs {t1 , . . . , tk } et {t eme espace, ce qui imk . plique Pk = P c. yk = y k .
213
J.F. Durand
J.F. Durand
214
Bibliographie
[1] X. Bry. Analyses Factorielles Simples, Economica, Paris, 1995. [2] X. Bry. Analyses Factorielles Multiples, Economica, Paris, 1996. [3] F. Cailliez et J. P. Pages, Introduction ` a lAnalyse des Donn ees, SMASH, Paris, 1976. [4] P. G. Ciarlet. Introduction ` a lAnalyse Num erique Matricielle et ` a lOptimisation, Masson, Paris, 1990. [5] European Courses in Advanced Statistics. Methods for Multidimensional Data Analysis, Dipartimento di Matematica e Statistica, Universit` a di Napoli, 1987. [6] M. J. Greenacre. Theory and Applications of Correspondence Analysis, Academic Press, London, 1984. [7] P. Lascaux et R. Theodor. Analyse Num erique Matricielle Appliqu ee ` a lArt de lIng enieur, tome 1, Masson, Paris, 1986. [8] J. R. Magnus et H. Neudecker. Matrix Dierential Calculus with Applications in Statistics and Econometrics, Wiley & Sons, Chichester, 1988 [9] G. Mazerolles, G. Duboz et S. Hugot. D etermination des taux dhumidit e et de mati` ere grasse de fromages type p ate press ee par spectroscopie proche de linfrarouge en mode transmission, Lait 80, 371-379, 2000. [10] C. R. Rao et S. K. Mitra. Generalized Inverse of Matrices and Its Applications, Wiley, New-York, 1971. [11] G. Saporta. Probabilit es, Analyse de Donn ees et Statistique, Technip, Paris, 1990. [12] M. Tenenhaus. La r egression PLS, Th eorie et Pratique, Technip, Paris, 1998.
215

Polyalgmatc PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Polyalgmatc PDF

Hochgeladen von

Copyright:

Verfügbare Formate

ements de Calcul Matriciel El et dAnalyse Factorielle de Donn ees

Jean-Fran cois Durand

Calcul Matriciel et Analyse Factorielle des Donn ees

Table des mati` eres

Image, noyau, rang dune matrice . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.1 1.4.2 1.4.3

1.5 1.6 1.7

Valeurs propres, vecteurs propres . . . . . . . . . . . . . . . . . . . . . . . 18 Trace dune matrice carr ee . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Calcul Matriciel et Analyse Factorielle des Donn ees

Factorisation de Cholesky dune matrice sym etrique d enie positive . . . . 47 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 51

Suites de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Conditionnement dune matrice . . . . . . . . . . . . . . . . . . . . . . . . 63 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 67

4 Inverses G en eralis es, Projecteurs M -Orthogonaux 4.1 4.1.1 4.1.2 4.2

Inverses G en eralis es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 D enition et propri et es . . . . . . . . . . . . . . . . . . . . . . . . . 67 Inverse de Moore-Penrose . . . . . . . . . . . . . . . . . . . . . . . 70

Calcul Matriciel et Analyse Factorielle des Donn ees

4.2.1 4.2.2 4.3

Projecteur M -orthogonal sur Im A . . . . . . . . . . . . . . . . . . 72 Un probl` eme aux moindres carr es . . . . . . . . . . . . . . . . . . . 74

5 D erivation Matricielle 5.1 5.2

Extremums de fonctions num eriques . . . . . . . . . . . . . . . . . . . . . . 82 5.3.1 5.3.2

Analyse en Composantes Principales dordre k du triplet (X, M, D ) . . . . 106

Calcul Matriciel et Analyse Factorielle des Donn ees

7.2.3 7.3 7.3.1 7.3.2 7.3.3 7.3.4 7.4 7.5

Repr esentations factorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Table de contingence, liaison entre deux variables qualitatives . . . . . . . 137

Analyse Factorielle des Correspondances . . . . . . . . . . . . . . . . . . . 143

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 8.5.1 8.5.2

9 La r egression Partial Least-Squares lin eaire 9.1

Motivations pour les r egressions factorielles . . . . . . . . . . . . . . . . . . 166 6

Calcul Matriciel et Analyse Factorielle des Donn ees

9.2 9.3 9.4

9.5 9.6 9.7 9.8

Calcul Matriciel et Analyse Factorielle des Donn ees

Chapitre 1 Matrices, D enitions et Propri et es

Notations et premi` eres d enitions

Une matrice m n, A, est un tableau d el ements de I K , tel que

Calcul Matriciel et Analyse Factorielle des Donn ees

ai j Eij (m, n).

Soit A = [aij ], une matrice m n. La matrice identit e dordre m, Im =

Eii (m, m). Alors, A = Im A = AIn .

{ei (m) = Ei1 (m, 1)}i=1,...,m ,

aij ei (m) aij ej (n)

Calcul Matriciel et Analyse Factorielle des Donn ees

Matrice associ ee ` a une application lin eaire

application lin eaire gA de I K n dans I K m relativement aux bases canoniques de ces

Quelques matrices particuli` eres

Calcul Matriciel et Analyse Factorielle des Donn ees

Image, noyau, rang dune matrice

Calcul Matriciel et Analyse Factorielle des Donn ees

Image dune matrice

Noyau dune matrice

Le noyau de A I K mn est le s.e.v. de I K n dont limage est le z ero de I Km

On a les propri et es suivantes, P1 : Ker A est non-vide car 0n Ker A. 13

Calcul Matriciel et Analyse Factorielle des Donn ees

P2 : gA est injective si et seulement si Ker A = {0n }.

P3 : {Im A} = Ker A et {Ker A} = Im A (clef chapitre 2).

Rang dune matrice

D eterminant dune matrice carr ee

la permutation . La signature vaut +1 si est une composition dun nombre pair de

Calcul Matriciel et Analyse Factorielle des Donn ees

Si A C I nn , d eveloppement du d eterminant selon la colonne j d et(A) =

cij aij pour j {1, . . . , n},

matrice Aij est la matrice extraite de A en supprimant la ligne i et la colonne j .

Inverse dune matrice carr ee

Calcul Matriciel et Analyse Factorielle des Donn ees

Cette matrice est r eguli` ere. La matrice de passage de F ` a E est la matrice P 1 .