CHAP1 - ACP Mni3i PDF

0.1.
INTRODUCTION
0.1 Introduction
Il n’y a pas très longtemps, on ne pouvait pas traiter un tableau de 3000 lignes et 300
colonnes. L’apparition et le développement des ordinateurs a du coup levé cet obstacle de
calcul, et a permis la conservation et l’exploitation des grandes masses de données. Cette
amélioration continue de l’outil informatique a fortement contribué au développement et à
la vulgarisation de nombreuses méthodes statistiques, devenues maintenant d’usage assez
courant.
Les données se présentent généralement sous la forme d’un tableau rectangulaire, dont
les lignes correspondent à des individus ou unités statistiques et les colonnes à des variables
appelées caractères ou caractéristiques.
Les données sont des résultats d’expériences ou d’enquêtes mesurés, observés sur des in-
dividus.
II
Les valeurs des variables peuvent être :
— quantitatives ordinales (jugement humain, température) ;
MN
— quantitatives mesurables (poids d’un individu, revenu) ;
— qualitatives ordinales (classe d’âge, le rang) ;
— qualitatives nominales (sexe, situation matrimoniale).
Lorsque dans un tableau, toutes les variables choisies sont quantitatives, on peut établir
un tableau de données quantitatives ; c’est le cas par exemple où l’on observe sur un ensemble
LA
de sujets I, un certain nombre de mesures J : poids, taille, âge. Ce tableau est encore appelé
tableau de mesures.
Variable quantitative
A.
Une variable quantitative prend des valeurs entières ou réelles, elle est dite alors discrète
ou continue. Cette propriété ayant des incidences sur la nature de sa distribution et donc sur
les graphiques associés.
Variable quantitative
En statistique, une variable qualitative, une variable catégorielle, ou bien un facteur est
une variable qui prend pour valeur des modalités, des catégories ou bien des niveaux.
Par définition, les observations d’une variable qualitative ne sont pas des valeurs numériques,
mais des caractéristiques, appelées modalités. Lorsque ces modalités sont naturellement or-
données (par exemple, la mention au bac ou une classe d’âge), la variable est dite ordinale.
Dans le cas contraire (par exemple, la profession dans une population de personnes actives
ou la situation familiale) la variable est dite nominale.
2
0.1. INTRODUCTION
But du cours
— Comprendre les méthodes ;
— Savoir interpréter les tables et graphiques issus de ces méthodes ;
— Être capable de mener soi-même une telle étude.
II
MN
LA
A.
3
Chapitre 1
Analyse en Composantes Principales

(ACP)
1.1 Introduction
L’analyse en Composantes Principales (ACP) est un grand classique de l’analyse des don-
nées.
Lorsqu’on étudie simultanément un nombre important de variables quantitatives (>>> 4),
comment en faire des graphiques ? La difficulté vient de ce que les individus étudiés ne sont
plus représentés dans un plan, espace de dimension 2, mais dans un espace de dimension
II
plus importante (par exemple 4).
MN
L’objectif de l’Analyse en Composantes Principales (ACP) est de revenir à un espace de
dimension réduite (par exemple 2) en déformant le moins possible la réalité.
Il s’agit donc d’obtenir le résumé le plus pertinent possible des données initiales.
LA
C’est la matrice des variances-covariances (ou celle des corrélations) qui va permettre de
réaliser ce résumé pertinent, parce qu’on analyse essentiellement la dispersion des données
considérées.
C’est la matrice des variances-covariances (ou celle des corrélations) qui va permettre de
A.
réaliser ce résumé pertinent, parce qu’on analyse essentiellement la dispersion des données
considérées. De cette matrice, on va extraire, par un procédé mathématique adéquat, les
facteurs que l’on recherche, en petit nombre. Ils vont permettre de réaliser les graphiques
désirés dans cet espace de petite dimension (le nombre de facteurs retenus), en déformant le
moins possible la configuration globale des individus selon l’ensemble des variables initiales
(ainsi remplacées par les facteurs). C’est l’interprétation de ces graphiques qui permettra de
comprendre la structure des données analysées.
L’Analyse en composantes principales est une méthode de la famille de l’analyse des don-
néeset plus généralement de la statistique multivariée, qui consiste à transformer des va-
riables liées entre elles (dites "corrélées" en statistique) en nouvelles variables non corrélées
les unes des autres. Ces nouvelles variables sont nommées "composantes principales", ou
"axes".
Ces nouvelles variables correspondent à une combinaison linéaire des variables originels.
Le nombre de composantes principales est inférieur ou égal au nombre de variables d’origine.
En d’autres termes, l’ACP réduit les dimensions d’une donnée multivariée à deux ou trois
4
1.2. OBJECTIFS
composantes principales, qui peuvent être visualisées graphiquement, en perdant le moins

possible d’information.
L’ACP permet au praticien de réduire l’information en un nombre de composantes plus

limité que le nombre initial de variables. Le choix des variables à inclure dans l’analyse et
le nombre de composantes à retenir sont deux étapes importantes dans l’analyse en compo-
santes principales.
De façon très résumé, en pratique l’ACP va rechercher l’axe dans lequel les observations
sont le plus dispersées.
— Objectifs
— Construction d’un espace factoriel
— Construction d’un espace factoriel
— Les étapes d’une ACP
— Interprétation
II
1.2 Objectifs
MN
— Apprendre à extraire de l’information provenant de tableaux de données quantitatives.
— S’applique à des tableaux à 2 dimensions croisant individus et variables
— Individus en ligne, variable en colonnes
— Pour deux individus, on essaie d’évaluer leur ressemblance : deux individus se res-
semblent d’autant plus qu’ils possèdent des valeurs proches pour l’ensemble des va-
LA
riables
— Pour deux variables, on évalue leur liaison à partir du coefficient de corrélation linéaire
— Bilan des relations entre individus
— Quels sont les individus qui se ressemblent ?
A.
— Peut-on mettre en évidence une typologie des individus ?

— Quelles variables sont corrélées entre elles ? Peut on mettre en évidence une typo-
logie des variables ?
— Résumer l’ensemble des variables par des variables synthétiques appelées composantes
principales
1.3 Notions de base

L’ACP, l’analyse en composantes principales, s’intéresse à des tableaux de données rectan-
gulaires avec en lignes des individus et en colonnes des variables qui sont de nature quanti-
tative.
Donc on peut considérer qu’on a n individus et p variables.
5
1.3. NOTIONS DE BASE
Définition 1.3.1 (Tableau de données en ACP)
1... j ... p
1
.. ..
. .
i ... xij . . .
.. ..
. .
n
1� n
On définit la moyenne d’une variable par : x̄j = xij
n i=1
�
�
�1 �
n
L’écart-type par : σj = � (x ij − x̄k )2
n i=1
La dispersion est forte si l’écart-type est supérieur à (1/2 moyenne).
II
— n individus décrits (en lignes)
— p variables quantitatives (en colonnes)
MN
— Tableau Xn×p = xij , des données brutes
— xij = valeur de la variable j pour l’individu i
— On cherche la meilleure ń image approchée ż du nuage en projection sur une droite Δ ;
c’est celle qui respecte au mieux les distances (distance euclidienne canonique) entre
LA
tous les couples de points : le 1er axe factoriel F1.

— Puis on cherche orthogonalement la 2ème ....
— Le tableau X peut être analysé à travers ses lignes (les individus) ou à travers ses
colonnes (les variables)
A.
1.3.2 Centrage & Réduction

Centrer-réduire les données permet de donner le même poids à toutes les variables dans
le calcul de la distance entre deux individus.
Cette opération est importante si les ordres de grandeur des variables sont très différents.
6
Définition 1.3.3 (Centrage & Réduction)
1 ... j ... p
1 (x11 − x̄1 ) . . . (x1j − x̄j ) . . . (x1p − x̄p )
..
. (x21 − x̄1 ) . . . (x2j − x̄j ) . . . (x2p − x̄p )
Y = .. ..
i . . ... ...
.. .. ..
. . .
n (xn1 − x̄1 ) . . . (xnj − x̄j ) . . . (xnp − x̄p )
1 ... j ... p
1 (x11 − x̄1 ) /σ1 . . . (x1j − x̄j ) /σj . . . (x1p − x̄p ) /σp
..
. (x21 − x̄1 ) /σ1 . . . (x2j − x̄j ) /σj . . . (x2p − x̄p ) /σp
Z= .. ..
i . . ... ...
.. .. ..
. . .
n (xn1 − x̄1 ) /σ1 . . . (xnj − x̄j ) /σj . . . (xnp − x̄p ) /σp
II
MN
Remarque 1.3.4
Une variable centrée réduite a :

— une espérance nulle ;
— une variance égale à 1 ;
LA
— un écart type égal à 1.

On obtient :
— des données indépendantes de l’unité ou de l’échelle choisie ;
— des variables ayant même moyenne et même dispersion.
A.
1.3.5 Distance entre deux individus

On munit l’espace Rp d’une métrique M (matrice p × p symétrique définie positive).
— un produit scalaire : < x, y >M = xt My
√
— une norme : �x�M = < x, x >M
— une distance : dM (x, y) = �x − y�M
M est diagonale  
m1
 
M = .. 


. 

mp
— En ACP mj = 1
p
�
�xi �2M = mj x2ij
j=1
7
p
�
d2M (xi , xi� ) = mj (xij − xi� j )2
j=1
1.3.6 Inertie du nuage des individus

C’est une mesure de dispersion du nuage des n points-individus de Rp définie par :
p
� � �
I(X) = mj var xj
j=1
Et si M = Ip (ACP) :
— L’inertie I(Y ) du nuage centré des individus est égale à la somme des variances des p
variables.
— L’inertie I(Z) du nuage centré-réduit des individus est égal à p.
1.3.7 Covariance
II
La covariance mesure la liaison entre deux variables j et j � :
MN
1� n � ��
=
�
cij � xij − x̄j xij � − x̄j
n i=1
— La covariance cij � est le produit scalaire entre les variables centrées :

LA
cij � =< yj , yj >N

�
— La matrice p×p de covariance notée C se calcule matriciellement à partir de la matrice

Y des données centrées :
A.
C = Yt NY
— Si la covariance est grande (en valeur absolue) alors les grandes valeurs de la variable
j sont associées aux grandes valeurs de la variable j � (en valeur absolue).
1.3.8 Corrélation et cosinus

La corrélation est une autre mesure de liaison entre deux variables j et j � qui prend ses
valeurs dans [−1, 1] : � ��
1� n
xij − x̄j xij � − x̄j
rij � =
n i=1 sj sj �
— La corrélation est le cosinus de l’angle entre les variables centrées :
< y j , y j >N
�
� �
r jj � = j = cos θ N y j
, y j�
�y �N �y� �N
8
et le produit scalaire et le cosinus de l’angle entre les variables centrées-réduites :

� �
rjj � =< zj , zj >N = cos θN zj , zj
� �
— La matrice p×p de corrélations notée R se calcule matriciellement à partir de la matrice

Z des données centrées-réduites :
R = Zt NZ
1.3.9 Recherche des valeurs propres et des vecteurs propres

L’ACP consiste à calculer des variables transformées qui sont des combinaisons linéaires
des variables initiales de manière à rendre leur variance maximale.
L’ACP recherche d’abord la combinaison linéaire des variables de variance maximale. Cette
nouvelle variable (ou indice) est la première composante principale, elle définit le premier
axe principal, ensuite on cherche un axe orthogonal, donc une nouvelle variable n’ayant au-
II
cune corrélation avec la première et qui montre également la plus grande variance possible
et ainsi de suite, donc l’ACP transforme un ensemble de caractères plus ou moins corrélés en
MN
un nouvel ensemble de caractères non corrélés et d’importance décroissante appelés compo-
santes principales.
Mathématiquement le procédé consiste à rechercher les valeurs propres et les vecteurs propres
d’une matrice carrée.Pour que la transformation des coordonnées puisse s’appliquer correc-
tement, il faut que tous les caractères soient centrés.
LA
— Résoudre : Det(Y − λIp ) = 0 pour calculer les valeurs propres.

— Calcul des vecteurs propres. Résoudre : Y V = λV
— Les vecteurs propres forment la matrice de passage
— Les valeurs propres sont les covariance des nouvelles variables
A.
La recherche des composantes principales revient à calculer les valeurs propres et les
vecteurs propres de la matrice de corrélation.
Règle 1.3.10
— règle de Kaiser (= inertie moyenne) : On ne retient que les valeurs propres

�
supérieures à leur moyenne > p1 λk (ACP normée)
— Eboulis des valeurs propres : On représente la courbe décroissante des va-
leurs propres (en fonction de leur ordre
Le principe est de chercher un coude dans ce graphe, et on ne garde que les
valeurs propres avant ce point d ?inflexion.
— Parts d ?inertie : On retient les axes dont la part d ?inertie cumulée est supé-
rieure à un seuil fixé par l ?utilisateur (en général 66%).
9
Algorithme 1.3.11
— Centrer les données : {xi ∈ Rp }ni=1 −→ {xi = xi − x̄ ∈ Rp }�ni=1 �

— Calculer la matrice de covariance C = n1 X � X avec X � = x1 · · · xn
— Calculer la décomposition en valeurs propres {vj ∈ Rp , λj ∈ R}pj=1 de C.
— Ordonner les valeurs propres λj par ordre décroissant
— Nouvelle base de représentation des données :
V = (v1 , · · · , vd ) ∈ Rp×d
{v1 , · · · , vd } sont les d vecteurs propres associés aux d plus grandes λj .

— Projection de tous les points via V s ?obtient matriciellement : XV
II
MN
LA
A.
Traitements réalisés
1. Réaliser une ACP sur un fichier de données.
2. Afficher les valeurs propres. Construire le graphique séboulis des valeurs propres.
3. Construire le cercle de corrélations.
4. Projeter les observations dans le premier plan factoriel.
5. Positionner des variables illustratives quantitatives dans le cercle de scorrélations.
6. Positionner les modalités d’une variable illustrative catégorielle.
7. Positionner des observations illustratives.
10
1.4. EXEMPLE : ACP AVEC R
1.4 Exemple : ACP avec R

Dans cet exemple on va traiter les notes de 15 étudiants d’une classe en tronc commun
en huit matières : l’arabe, le français, l’anglais, la philosophie, les maths, la physique et la
chimie, les sciences de la vie et de la terre et l’éducation sportive.
Les résultats sont regroupés dans le tableau ci-dessous :
Etd Ar Fr Ang Phi Math PC SVT ES

c1 16.00 14.50 14.75 13.50 10.00 11.75 11.00 16.50
c2 11.50 14.00 13.00 10.00 16.00 17.50 15.75 15.50
c3 12.00 11.75 14.00 11.25 14.75 16.00 16.50 16.00
c4 13.50 12.00 15.00 12.50 15.00 14.50 14.75 15.00
c5 15.75 16.50 15.00 14.25 9.75 11.00 11.25 14.75
c6 11.75 10.75 13.00 12.75 15.00 14.50 16.00 15.50
c7 14.50 13.75 16.00 15.50 15.00 14.00 13.75 13.00
c8 12.50 10.00 11.00 13.00 13.50 12.75 15.00 14.00
II
c9 13.50 15.00 12.75 10.00 12.50 11.75 10.00 15.00
c10 17.00 14.25 16.00 15.75 11.75 13.00 12.50 16.75
MN
c11 15.50 16.00 14.75 13.25 12.00 12.50 12.75 13.75
c12 13.75 16.00 17.50 13.50 16.75 17.00 16.50 15.00
c13 14.00 11.75 14.50 12.50 13.00 11.75 14.00 16.25
c14 10.50 9.50 11.75 13.00 11.00 12.50 10.00 17.00
LA
c15 15.50 13.25 14.00 14.00 13.75 15.00 14.50 14.00
1. Présentation du tableau de l’exercice

2. Première mise en pratique de l’ACP.
A.
3. Présentation sommaire de R.
4. Importation des données.
5. Lancer une première analyse. Nous allons montrer comment :
— Trouver un espace de dimension faible (2 ou 3) qui permet d’observer la variation
de ses données ?
— Détecter soit des groupes d’individus homogènes ou quelques individus qui présen-
tant des observations abérantes par rapport au jeu de données ?
— Détecter les variables qui sont les plus corrélées entre elles ?
11
1- Importer la table note.txt dans R

Code R 1.4.1
> note=read.table(’Bureau//AnDonn//note.txt’, header=TRUE, row.names=1)

> note
La fonction read.table() permet de lire un fichier dans un format tabulaire et de
créer une dataframe à partir de ce dernier.
Ar Fr Ang Phi Math PC SVT ES

c1 16.00 14.50 14.75 13.50 10.00 11.75 11.00 16.50
c2 11.50 14.00 13.00 10.00 16.00 17.50 15.75 15.50
c3 12.00 11.75 14.00 11.25 14.75 16.00 16.50 16.00
c4 13.50 12.00 15.00 12.50 15.00 14.50 14.75 15.00
c5 15.75 16.50 15.00 14.25 9.75 11.00 11.25 14.75
c6 11.75 10.75 13.00 12.75 15.00 14.50 16.00 15.50
c7 14.50 13.75 16.00 15.50 15.00 14.00 13.75 13.00
c8 12.50 10.00 11.00 13.00 13.50 12.75 15.00 14.00
c9 13.50 15.00 12.75 10.00 12.50 11.75 10.00 15.00
c10 17.00 14.25 16.00 15.75 11.75 13.00 12.50 16.75
c11 15.50 16.00 14.75 13.25 12.00 12.50 12.75 13.75
II
c12 13.75 16.00 17.50 13.50 16.75 17.00 16.50 15.00
c13 14.00 11.75 14.50 12.50 13.00 11.75 14.00 16.25
c14 10.50 9.50 11.75 13.00 11.00 12.50 10.00 17.00
c15 15.50 13.25 14.00 14.00 13.75 15.00 14.50 14.00
MN
2- Effectuer une analyse univariée : Calcul de la moyenne
Les fonctions sapply applique la même fonction sur tous les éléments d ?un vecteur ou
d ?une liste.
LA
Code R 1.4.2
> Moy.note=sapply(note, mean)

> Moy.note
> plot(Moy.note,pch=4,lwd=8, col=’red’)
A.

13.81667 13.26667 14.20000 12.98333 13.31667 13.70000 13.61667 15.20000
12
3- Effectuer une analyse univariée : Calcul de l’écart-type

sd : standard déviation en anglais
Code R 1.4.3
> sd.note=sapply(note, sd) > sd.note

> plot(sd.note,pch=4,lwd=18, col=’red’)

1.902692 2.220977 1.703987 1.659568 2.134886 2.011574 2.261610 1.177164
Commentaire : Les variables Phi et ES sont très dispersées tandis que les autres variables
ont une dispersion moyenne et les variables Fr, Math sont proches de la moyenne. On peut
conclure qu’il y ait une dispersion importante du nuage.
II
MN
LA
4- Calcul de la matrice des corrélations

A.
Code R 1.4.4
> mat.cor=round(cor(note),2)
> mat.cor

Ar 1.00 0.67 0.62 0.63 -0.44 -0.39 -0.30 -0.19
Fr 0.67 1.00 0.65 0.15 -0.15 -0.04 -0.20 -0.28
Ang 0.62 0.65 1.00 0.51 0.16 0.19 0.16 -0.11
Phi 0.63 0.15 0.51 1.00 -0.27 -0.26 -0.13 -0.18
Math -0.44 -0.15 0.16 -0.27 1.00 0.87 0.85 -0.30
PC -0.39 -0.04 0.19 -0.26 0.87 1.00 0.80 -0.10
SVT -0.30 -0.20 0.16 -0.13 0.85 0.80 1.00 -0.22
ES -0.19 -0.28 -0.11 -0.18 -0.30 -0.10 -0.22 1.00
Commentaire : La plus part des variables sont corrélées entre elles.
13
5- Calcul de la matrice des covariances

Code R 1.4.5
> mat.cov=round(cor(note),2)
> mat.cov

Ar 3.62 2.82 2.02 1.98 -1.78 -1.50 -1.29 -0.42
Fr 2.82 4.93 2.47 0.56 -0.71 -0.18 -1.03 -0.73
Ang 2.02 2.47 2.90 1.45 0.57 0.64 0.60 -0.22
Phi 1.98 0.56 1.45 2.75 -0.97 -0.86 -0.49 -0.36
Math -1.78 -0.71 0.57 -0.97 4.56 3.73 4.13 -0.76
PC -1.50 -0.18 0.64 -0.86 3.73 4.05 3.64 -0.23
SVT -1.29 -1.03 0.60 -0.49 4.13 3.64 5.11 -0.60
II
ES -0.42 -0.73 -0.22 -0.36 -0.76 -0.23 -0.60 1.39
MN
Code R 1.4.6 (Matrice des covariances)
cornote=round(cor(note),2)
cornote
library(corrplot)
corrplot(cornote, type="upper", order="hclust", tl.col="black", tl.srt=45)
LA
library(PerformanceAnalytics)
mydata <- note[, c(1,2,3,4,5,6,7,8)]
chart.Correlation(mydata, histogram=TRUE, pch=19)
A.
14
II
6- Visualiser en trois dimensions
On fait appel à la bibliothèque rgl
MN
Code R 1.4.7
library(rgl)
rgl.open()
LA
rgl.spheres(note$Ar,note$Fr,note$Ang, radius = 0.1,color=colors)

x =c(0,1,0,0)
y= c(0,0,1,0)
z = c(0,0,0,1)
labels = c(" " , colnames(note[,c(1,2,3)]))
A.
i = c(1,2,1,3,1,4)
rgl.texts(x,y,z,labels)
rgl.lines(x[i], y[i], z[i])
15
7- ACP
Fonction R : PCA() [FactoMineR].
Format simplifié :
PCA(X, scale.unit = TRUE, ncp = 5, graph = TRUE)

— X : jeu de données de type data frame. Les lignes sont des individus et les colonnes
sont des variables numériques
— scale.unit : une valeur logique. Si TRUE, les données sont standardisées/normalisées
avant l’analyse.
— ncp : nombre de dimensions conservées dans les résultats finaux.
— graph : une valeur logique. Si TRUE un graphique est affiché.
Code R 1.4.8
> library(FactoMineR)
II
> res.pca = PCA(note, graph = TRUE)
> print(res.pca)
MN
**Results for the Principal Component Analysis (PCA)**
The analysis was performed on 15 individuals, described by 8 variables
*The results are available in the following objects:
LA
name description
1 "$eig" "eigenvalues"
2 "$var" "results for the variables"
3 "$var$coord" "coord. for the variables"
4 "$var$cor" "correlations variables - dimensions"
5 "$var$cos2" "cos2 for the variables"
6 "$var$contrib" "contributions of the variables"
A.
7 "$ind" "results for the individuals"

8 "$ind$coord" "coord. for the individuals"
9 "$ind$cos2" "cos2 for the individuals"
10 "$ind$contrib" "contributions of the individuals"
11 "$call" "summary statistics"
12 "$call$centre" "mean of the variables"
13 "$call$ecart.type" "standard error of the variables"
14 "$call$row.w" "weights for the individuals"
15 "$call$col.w" "weights for the variables"
Commentaire : ! ! ? ?
16
La fonction pairs()
La fonction pairs() produit une matrice de nuages ("scatterplot matrix, draftman’s plot)
et attend un matrice comme argument.
Code R 1.4.9
pairs(note,col=c(1:8))
library(GGally)
ggpairs(notec)
II
MN
LA
A.
Détermination de nombre d’axes à retenir

On utilise pour cela l’éboulis des valeurs propres.
Les fonctions suivantes, de factoextra, seront utilisées :
— get_eigenvalue(res.pca) : Extraction des valeurs propres / variances des composantes
principales
— fviz_eig(res.pca) : Visualisation des valeurs propres
— get_pca_ind(res.pca), get_pca_var(res.pca) : Extraction des résultats pour les indivi-
dus et les variables, respectivement.
17
1.4. EXEMPLE: ACP AVEC R
II
MN
Code R 1.4.10
> library("factoextra")
> eig.val = get_eigenvalue(res.pca)
LA
> eig.val
eigenvalue variance.percent cumulative.variance.percent

A.
Dim.1 3.24020101 40.5025127 40.50251

Dim.2 2.45497385 30.6871732 71.18969
Dim.3 0.92144722 11.5180902 82.70778
Dim.4 0.86994441 10.8743051 93.58208
Dim.5 0.23405417 2.9256771 96.50776
Dim.6 0.16575691 2.0719613 98.57972
Dim.7 0.08360959 1.0451199 99.62484
Dim.8 0.03001284 0.3751606 100.00000
On appelle inertie la quantité d’information contenue dans un tableau de données.

Une inertie nulle signifie que tous les individus sont presque identiques.
Code R 1.4.11
> inertie=eig.val[,2]
> inertie
18
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8

40.5025127 30.6871732 11.5180902 10.8743051 2.9256771 2.0719613 1.0451199 0.3751606
Dim1,..., Dim8 sont les composantes principales de l’ACP, les valeurs de la 1ere colonne
sont les valeurs propres associées aux vecteurs propres Dim1,..., Dim8.
Chaque valeur propre λs étant la variance de la séme composante principale.
La 2éme colonne représente le pourcentage de la variance c-a-d pour chaque composante s
son pourcentage de variance est λ�
s ×100
λi
.
i
Code R 1.4.12
> fviz_eig(res.pca, addlabels = TRUE, ylim = c(0, 50))
II
MN
LA
A.
Critère de Kaiser : on ne retient que les axes dont l’inertie est supérieure à l’inertie
moyenne I/p (un peu étroit).
Kaiser en ACP normée : I/p= 1 : On ne retiendra que les axes associés à des valeurs propre
supérieures à 1
Commentaire : On constate alors que la cassure (le coude) se commence à partir de la troi-
sième valeur propre ;
On ne retient alors que les deux premiers axes factoriels correspondants.
1.4.13 Coordonnées, contributions et qualités des individus

Les tableaux suivants résument les coordonnées, les contributions et la qualité des indivi-
dus de l’exemple précédent
19
Code R 1.4.14
summary(res.pca)
Eigenvalues
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8
Variance 3.240 2.455 0.921 0.870 0.234 0.166 0.084 0.030
% of var. 40.503 30.687 11.518 10.874 2.926 2.072 1.045 0.375
Cumulative % of var. 40.503 71.190 82.708 93.582 96.508 98.580 99.625 100.000
Les deux axes retenus expliquent 71.190% de la variance totale.
Individuals (the 10 first)

Dist Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
c1 | 2.879 | -2.571 13.604 0.798 | -0.713 1.380 0.061 | 0.995 7.169 0.120 |
II
c2 | 3.498 | 3.056 19.220 0.763 | 0.108 0.032 0.001 | 0.528 2.014 0.023 |
c3 | 2.604 | 2.395 11.798 0.846 | -0.146 0.058 0.003 | 0.852 5.251 0.107 |
MN
c4 | 1.357 | 1.037 2.211 0.584 | 0.506 0.695 0.139 | 0.073 0.038 0.003 |
c5 | 3.239 | -3.098 19.750 0.915 | 0.179 0.087 0.003 | -0.354 0.906 0.012 |
c6 | 2.299 | 2.028 8.461 0.778 | -0.581 0.917 0.064 | -0.069 0.035 0.001 |
c7 | 2.878 | -0.411 0.348 0.020 | 2.141 12.446 0.553 | -1.396 14.095 0.235 |
c8 | 2.893 | 1.206 2.994 0.174 | -1.425 5.515 0.243 | -1.924 26.795 0.442 |
LA
c9 | 2.976 | -0.734 1.109 0.061 | -1.608 7.021 0.292 | -0.512 1.899 0.030 |
c10 | 3.195 | -2.392 11.774 0.561 | 0.800 1.737 0.063 | 1.494 16.144 0.219 |
Variables
Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
A.
Ar | -0.800 19.767 0.640 | 0.492 9.872 0.242 | 0.018 0.036 0.000 |

Fr | -0.507 7.928 0.257 | 0.604 14.838 0.364 | 0.084 0.769 0.007 |
Ang | -0.321 3.180 0.103 | 0.833 28.297 0.695 | 0.364 14.413 0.133 |
Phi | -0.568 9.956 0.323 | 0.409 6.811 0.167 | -0.078 0.664 0.006 |
Math | 0.840 21.756 0.705 | 0.493 9.900 0.243 | -0.030 0.100 0.001 |
PC | 0.788 19.173 0.621 | 0.488 9.689 0.238 | 0.214 4.976 0.046 |
SVT | 0.768 18.209 0.590 | 0.502 10.271 0.252 | 0.017 0.032 0.000 |
ES | -0.031 0.030 0.001 | -0.503 10.324 0.253 | 0.853 79.011 0.728 |
20
individus Axe 1 Contribution Cos2 Axe 2 Contribution Cos2

1 -2.571 13.604 0.798 -0.713 1.380 0.061
2 3.056 19.220 0.763 0.108 0.032 0.001
3 2.395 11.798 0.846 -0.146 0.058 0.003
4 1.037 2.211 0.584 0.506 0.695 0.139
5 -3.098 19.750 0.915 0.179 0.087 0.003
6 2.028 8.461 0.778 -0.581 0.917 0.064
7 -0.411 0.348 0.020 2.141 12.464 0.553
8 1.206 2.994 0.174 -1.425 5.515 0.243
9 -0.734 1.109 0.061 -1.608 7.021 0.292
10 -2.392 11.774 0.561 0.800 1.737 0.063
11 -1.593 5.223 0.491 0.889 2.146 0.153
12 1.284 3.394 0.125 3.161 27.142 0.759
13 -0.235 0.113 0.022 -0.824 1.843 0.266
14 0.031 0.002 0.000 -3.617 35.522 0.847
15 -0.002 0.000 0.000 1.129 3.458 0.421
Coordonnées des individus :
Les coordonnées des individus dans le repère des composantes principales sont données par
la table individus.
La coordonnée de l’individu i sur la composante s est Fs (i), par exemple F1 (c1) = −2.571
II
Contribution des individus :
On rappelle que la contribution d’un individu d’un individu i par la composante s est Contribs (i) =
MN
Fs (i)2
pλs
ou p est le nombre d’individus.
Plus la contribution est grande, plus la représentation est meilleure.
Qualité de représentation des individus :

LA
On rappelle que la qualité de représentation d’un individu i par la composante s est
Fs (i)2
QLTs (i) = � = cos(θ)2
F
t t (i) 2
A.
ou θ est l’angle entre la droite (Oi) est l’axe s.

Plus la qualité est proche de 1, l’individu est proche de l’axe s.
Pour connaître la qualité de représentation d’un individu, on suit les règles énoncées dans
le tableau ci-contre :
Valeur de cos2 (θ) Signification

≈1 Très bonne représentation
≥ 0.5 Représentation acceptable
< 0.5 Mauvaise représentation
En sommant les cos2 et en adoptant les règles dans le tableau précédent on conclut que
tous les individus, à l’exception des individus 8, 9, 13 et 15, sont bien représentés dans le
21
plan principal.
Les individus bien Les individus bien Les individus bien

Rep. dans l’axe 1 Rep. dans l’axe 2 Rep. dans le plan
1, 2, 3, 4, 5, 6, 10, 7, 12, 14, 1, 2, 3, 4, 5, 6, 7,
10, 11, 12, 14
Les individus qui participent le plus à la formation du premier axe sont ceux qui ont une
contribution supérieure à la moyenne c.-à-d. supérieure à 100
15
% = 6.66667 (res.pca$call)
Les individus contribuent Les individus contribuent

à la formation de l’axe 1 à la formation de l’axe 2
1, 2, 3, 5, 6, 10 7, 12, 14,
Code R 1.4.15
II
> fviz_contrib(res.pca, choice = "ind", axes = 1, top = 15)
> fviz_contrib(res.pca, choice = "ind", axes = 2, top = 15)
MN
LA
A.
Graphique des individus. Les individus similaires sont groupés ensemble.
Code R 1.4.16
> plot(res.pca, choix = "ind", autoLab = "yes")
Les individus qui contribuent le plus à la formation de l’axe 1 se caractérisent par des résul-
tats meilleurs dans l’une des deux disciplines et moyens dans l’autre.
22
Or les individus qui contribuent à la formation de deuxième axe se caractérisent par des ré-
sultats homogènes dans toutes les matières, bonnes ou moyennes.
II
Pour l’axe 1 on constate que les points individus 1, 2, 3, 5 et 10 sont éloignés de l’origine
MN
ce qui justifie leur bonne qualité de représentation, ainsi ils sont très proches de cet axe ce
qui justifie leur importante contribution à la formation de cet axe.
De même pour l’axe 2 les individus 14, 7 et 12 sont très éloignés de l’origine donc ils ont
une bonne qualité de représentation dans cet axe, ils sont ainsi proches de cet axe chose qui
signifie leur forte contribution à la formation de cet axe.
LA
A.
Les deux individus 2 et 5 s’opposent par rapport au deuxième axe ce qui traduit que leurs
résultats des différentes matières le sont.
Les trois individus 1, 5 et 10 sont proches, ils ont alors une ressemblance réelle de point de
vue des variables, ces trois individus se caractérisent par des bons résultats aux disciplines
littéraires et moyens aux disciplines scientifiques, il en est de même pour le groupe {2, 3, 6}
mais celui-là a par contre des résultats meilleurs en math, PC et SVT et moyens en arabe,
23
1.4. EXEMPLE: ACP AVEC R
français et anglais.
La qualité de représentation des individus sur la carte de l’ACP s’appelle cos2 (cosinus
carré) . Vous pouvez accéder au cos2 comme suit :
Code R 1.4.17
head(res.pca$ind$coord, 4)
library("corrplot")
corrplot(res.pca$ind$cos2, is.corr=FALSE)
II
MN
LA
De même que pour les individus on n’interprète que les variables qui sont bien représen-
A.
tées.
Pour cela on étudie la qualité de représentation de chaque variable ainsi que leur contribution
à la formation des deux axes principaux, on a alors le tableau suivant fournie par L’ACP :
Code R 1.4.18
> summary(res.pca)
Variables
Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
Ar | -0.800 19.767 0.640 | 0.492 9.872 0.242 | 0.018 0.036 0.000 |
Fr | -0.507 7.928 0.257 | 0.604 14.838 0.364 | 0.084 0.769 0.007 |
Ang | -0.321 3.180 0.103 | 0.833 28.297 0.695 | 0.364 14.413 0.133 |
Phi | -0.568 9.956 0.323 | 0.409 6.811 0.167 | -0.078 0.664 0.006 |
Math | 0.840 21.756 0.705 | 0.493 9.900 0.243 | -0.030 0.100 0.001 |
PC | 0.788 19.173 0.621 | 0.488 9.689 0.238 | 0.214 4.976 0.046 |
24
SVT | 0.768 18.209 0.590 | 0.502 10.271 0.252 | 0.017 0.032 0.000 |
ES | -0.031 0.030 0.001 | -0.503 10.324 0.253 | 0.853 79.011 0.728 |
On résume ces résultats dans les deux sous tableaux suivants :
Les variables bien Les variables bien Les variables bien

Rep. dans l’axe 1 Rep. dans l’axe 2 Rep. dans le plan
Ar, M ath, P C, SV T Ang Ar, F r, Ang, M ath, P C, SV T
Les variables qui contribuent le plus à la formation sont ceux qui ont une contribution supé-
rieure à la moyenne c.-à-d. supérieure à 1008
% = 12.5 (summary(res.pca$eig))
Les variables contribuent Les variables contribuent

à la formation de l’axe 1 à la formation de l’axe 2
Ar, M ath, P C, SV T Ang, (F r!)
II
Code R 1.4.19
> fviz_contrib(res.pca, choice = "var", axes = 1, top = 8)

MN
> fviz_contrib(res.pca, choice = "var", axes = 2, top = 8)
LA
A.
La qualité de représentation des variables sur la carte de l’ACP s’appelle cos2 (cosinus
carré) . Vous pouvez accéder au cos2 comme suit :
Code R 1.4.20
head(res.pca$ind$coord, 4)
library("corrplot")
corrplot(res.pca$var$cos2, is.corr=FALSE)
25
II
MN
LA
A.
Le cercle de corrélation résume clairement les résultats décrits précédemment.
Code R 1.4.21
> plot(res.pca, choix = "var", autoLab = "yes")

ou bien
> fviz_pca_var(res.pca, col.var = "cos2",
+ gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
+ repel = TRUE # Évite le chevauchement de texte )
Le cercle des corrélations montre que les deux variables phi et ES (éducation sportive)
sont mal représentées dans le plans principales car ils sont éloignées du cercle et que toutes
les autres variables sont bien représentées dans ce plan.
On peut résumer les résultats de contributions des individus et des variables à la formation
26
de ces axes dans le tableau suivant :
II
Contribution pour l’axe 1 Contribution pour l’axe 2
Lesvariables Ar, M ath, P C, SV T Ang
Lesindividus 1, 2, 3, 5, 10 7, 12, 14
MN
Chaque individus de l’ensemble { 1, 2, 3, 5, 10} a soit des résultats meilleures en arabe et moyennes en math , PC et SVT soit l’inverse, et
ils ont en générale des bons résultats en une discipline et moyenne à l’autre, par contre, les individus 7 12 14 ont des résultats homogènes
dans toutes les matières et la note d’anglais est la plus fortes pour le 7 et le 12 (resp. 16 et 17.5)
De ces constatation on peut dire que l’axe 1 correspond aux étudiants qui sont soit littéraires soit scientifique et l’axe 2 correspond à ceux
qui ont des scores presque identique dans tous les modules.
LA
Les trois variables Math, PC et SVT sont très corrélées entre elles, la corrélation étant positive ce qui justifie que les trois variables
agissent dans le même sens pour les individus c.-à-d. qu’une bonne note dans l’un de ces trois modules s’accompagne par des bonnes notes
aux deux autres et inversement.
L’examen de la matrice des corrélations ci-dessous nous indique que les deux disciplines littéraire et scientifique sont corrélées négati-
vement et les modules de même discipline sont corrélés positivement, ce qui signifie que les deux groupes de modules s’opposent pour les
A.
individus qui les décrivent.
Code R 1.4.22
> mat.cor=round(cor(note),2)
> mat.cor

Ar 1.00 0.67 0.62 0.63 -0.44 -0.39 -0.30 -0.19
Fr 0.67 1.00 0.65 0.15 -0.15 -0.04 -0.20 -0.28
Ang 0.62 0.65 1.00 0.51 0.16 0.19 0.16 -0.11
Phi 0.63 0.15 0.51 1.00 -0.27 -0.26 -0.13 -0.18
Math -0.44 -0.15 0.16 -0.27 1.00 0.87 0.85 -0.30
PC -0.39 -0.04 0.19 -0.26 0.87 1.00 0.80 -0.10
SVT -0.30 -0.20 0.16 -0.13 0.85 0.80 1.00 -0.22
ES -0.19 -0.28 -0.11 -0.18 -0.30 -0.10 -0.22 1.00
27

CHAP1 - ACP Mni3i PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

CHAP1 - ACP Mni3i PDF

Hochgeladen von

Copyright:

Verfügbare Formate

0.1.

Analyse en Composantes Principales

composantes principales, qui peuvent être visualisées graphiquement, en perdant le moins

L’ACP permet au praticien de réduire l’information en un nombre de composantes plus

— Peut-on mettre en évidence une typologie des individus ?

1.3 Notions de base

Déﬁnition 1.3.1 (Tableau de données en ACP)

tous les couples de points : le 1er axe factoriel F1.

1.3.2 Centrage & Réduction

Déﬁnition 1.3.3 (Centrage & Réduction)

Une variable centrée réduite a :

— un écart type égal à 1.

1.3.5 Distance entre deux individus

1.3.6 Inertie du nuage des individus

— La covariance cij � est le produit scalaire entre les variables centrées :

cij � =< yj , yj >N

— La matrice p×p de covariance notée C se calcule matriciellement à partir de la matrice

1.3.8 Corrélation et cosinus

et le produit scalaire et le cosinus de l’angle entre les variables centrées-réduites :

— La matrice p×p de corrélations notée R se calcule matriciellement à partir de la matrice

1.3.9 Recherche des valeurs propres et des vecteurs propres

— Résoudre : Det(Y − λIp ) = 0 pour calculer les valeurs propres.

— règle de Kaiser (= inertie moyenne) : On ne retient que les valeurs propres

— Centrer les données : {xi ∈ Rp }ni=1 −→ {xi = xi − x̄ ∈ Rp }�ni=1 �

{v1 , · · · , vd } sont les d vecteurs propres associés aux d plus grandes λj .

1.4 Exemple : ACP avec R

Etd Ar Fr Ang Phi Math PC SVT ES

c15 15.50 13.25 14.00 14.00 13.75 15.00 14.50 14.00

1. Présentation du tableau de l’exercice

1- Importer la table note.txt dans R

> note=read.table(’Bureau//AnDonn//note.txt’, header=TRUE, row.names=1)

Ar Fr Ang Phi Math PC SVT ES

> Moy.note=sapply(note, mean)

Ar Fr Ang Phi Math PC SVT ES

3- Effectuer une analyse univariée : Calcul de l’écart-type

> sd.note=sapply(note, sd) > sd.note

Ar Fr Ang Phi Math PC SVT ES

4- Calcul de la matrice des corrélations

Ar Fr Ang Phi Math PC SVT ES

Commentaire : La plus part des variables sont corrélées entre elles.

5- Calcul de la matrice des covariances

Ar Fr Ang Phi Math PC SVT ES

rgl.spheres(note$Ar,note$Fr,note$Ang, radius = 0.1,color=colors)

PCA(X, scale.unit = TRUE, ncp = 5, graph = TRUE)

7 "$ind" "results for the individuals"

Détermination de nombre d’axes à retenir

eigenvalue variance.percent cumulative.variance.percent

Dim.1 3.24020101 40.5025127 40.50251

On appelle inertie la quantité d’information contenue dans un tableau de données.

Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8

> fviz_eig(res.pca, addlabels = TRUE, ylim = c(0, 50))

On ne retient alors que les deux premiers axes factoriels correspondants.

1.4.13 Coordonnées, contributions et qualités des individus

Les deux axes retenus expliquent 71.190% de la variance totale.

Individuals (the 10 first)

Ar | -0.800 19.767 0.640 | 0.492 9.872 0.242 | 0.018 0.036 0.000 |

individus Axe 1 Contribution Cos2 Axe 2 Contribution Cos2

Qualité de représentation des individus :

On rappelle que la qualité de représentation d’un individu i par la composante s est

ou θ est l’angle entre la droite (Oi) est l’axe s.

Valeur de cos2 (θ) Signiﬁcation

Les individus bien Les individus bien Les individus bien

Les individus contribuent Les individus contribuent