Beruflich Dokumente
Kultur Dokumente
INTRODUCTION
0.1 Introduction
Il n’y a pas très longtemps, on ne pouvait pas traiter un tableau de 3000 lignes et 300
colonnes. L’apparition et le développement des ordinateurs a du coup levé cet obstacle de
calcul, et a permis la conservation et l’exploitation des grandes masses de données. Cette
amélioration continue de l’outil informatique a fortement contribué au développement et à
la vulgarisation de nombreuses méthodes statistiques, devenues maintenant d’usage assez
courant.
Les données se présentent généralement sous la forme d’un tableau rectangulaire, dont
les lignes correspondent à des individus ou unités statistiques et les colonnes à des variables
appelées caractères ou caractéristiques.
Les données sont des résultats d’expériences ou d’enquêtes mesurés, observés sur des in-
dividus.
II
Les valeurs des variables peuvent être :
— quantitatives ordinales (jugement humain, température) ;
MN
— quantitatives mesurables (poids d’un individu, revenu) ;
— qualitatives ordinales (classe d’âge, le rang) ;
— qualitatives nominales (sexe, situation matrimoniale).
Lorsque dans un tableau, toutes les variables choisies sont quantitatives, on peut établir
un tableau de données quantitatives ; c’est le cas par exemple où l’on observe sur un ensemble
LA
de sujets I, un certain nombre de mesures J : poids, taille, âge. Ce tableau est encore appelé
tableau de mesures.
Variable quantitative
A.
Une variable quantitative prend des valeurs entières ou réelles, elle est dite alors discrète
ou continue. Cette propriété ayant des incidences sur la nature de sa distribution et donc sur
les graphiques associés.
Variable quantitative
En statistique, une variable qualitative, une variable catégorielle, ou bien un facteur est
une variable qui prend pour valeur des modalités, des catégories ou bien des niveaux.
Par définition, les observations d’une variable qualitative ne sont pas des valeurs numériques,
mais des caractéristiques, appelées modalités. Lorsque ces modalités sont naturellement or-
données (par exemple, la mention au bac ou une classe d’âge), la variable est dite ordinale.
Dans le cas contraire (par exemple, la profession dans une population de personnes actives
ou la situation familiale) la variable est dite nominale.
2
0.1. INTRODUCTION
But du cours
— Comprendre les méthodes ;
— Savoir interpréter les tables et graphiques issus de ces méthodes ;
— Être capable de mener soi-même une telle étude.
II
MN
LA
A.
3
Chapitre 1
1.1 Introduction
L’analyse en Composantes Principales (ACP) est un grand classique de l’analyse des don-
nées.
Lorsqu’on étudie simultanément un nombre important de variables quantitatives (>>> 4),
comment en faire des graphiques ? La difficulté vient de ce que les individus étudiés ne sont
plus représentés dans un plan, espace de dimension 2, mais dans un espace de dimension
II
plus importante (par exemple 4).
MN
L’objectif de l’Analyse en Composantes Principales (ACP) est de revenir à un espace de
dimension réduite (par exemple 2) en déformant le moins possible la réalité.
Il s’agit donc d’obtenir le résumé le plus pertinent possible des données initiales.
LA
C’est la matrice des variances-covariances (ou celle des corrélations) qui va permettre de
réaliser ce résumé pertinent, parce qu’on analyse essentiellement la dispersion des données
considérées.
C’est la matrice des variances-covariances (ou celle des corrélations) qui va permettre de
A.
réaliser ce résumé pertinent, parce qu’on analyse essentiellement la dispersion des données
considérées. De cette matrice, on va extraire, par un procédé mathématique adéquat, les
facteurs que l’on recherche, en petit nombre. Ils vont permettre de réaliser les graphiques
désirés dans cet espace de petite dimension (le nombre de facteurs retenus), en déformant le
moins possible la configuration globale des individus selon l’ensemble des variables initiales
(ainsi remplacées par les facteurs). C’est l’interprétation de ces graphiques qui permettra de
comprendre la structure des données analysées.
L’Analyse en composantes principales est une méthode de la famille de l’analyse des don-
néeset plus généralement de la statistique multivariée, qui consiste à transformer des va-
riables liées entre elles (dites "corrélées" en statistique) en nouvelles variables non corrélées
les unes des autres. Ces nouvelles variables sont nommées "composantes principales", ou
"axes".
Ces nouvelles variables correspondent à une combinaison linéaire des variables originels.
Le nombre de composantes principales est inférieur ou égal au nombre de variables d’origine.
En d’autres termes, l’ACP réduit les dimensions d’une donnée multivariée à deux ou trois
4
1.2. OBJECTIFS
II
1.2 Objectifs
MN
— Apprendre à extraire de l’information provenant de tableaux de données quantitatives.
— S’applique à des tableaux à 2 dimensions croisant individus et variables
— Individus en ligne, variable en colonnes
— Pour deux individus, on essaie d’évaluer leur ressemblance : deux individus se res-
semblent d’autant plus qu’ils possèdent des valeurs proches pour l’ensemble des va-
LA
riables
— Pour deux variables, on évalue leur liaison à partir du coefficient de corrélation linéaire
— Bilan des relations entre individus
— Quels sont les individus qui se ressemblent ?
A.
5
1.3. NOTIONS DE BASE
1... j ... p
1
.. ..
. .
i ... xij . . .
.. ..
. .
n
1� n
On définit la moyenne d’une variable par : x̄j = xij
n i=1
�
�
�1 �
n
L’écart-type par : σj = � (x ij − x̄k )2
n i=1
La dispersion est forte si l’écart-type est supérieur à (1/2 moyenne).
II
— n individus décrits (en lignes)
— p variables quantitatives (en colonnes)
MN
— Tableau Xn×p = xij , des données brutes
— xij = valeur de la variable j pour l’individu i
— On cherche la meilleure ń image approchée ż du nuage en projection sur une droite Δ ;
c’est celle qui respecte au mieux les distances (distance euclidienne canonique) entre
LA
Cette opération est importante si les ordres de grandeur des variables sont très différents.
6
1.3. NOTIONS DE BASE
1 ... j ... p
1 (x11 − x̄1 ) . . . (x1j − x̄j ) . . . (x1p − x̄p )
..
. (x21 − x̄1 ) . . . (x2j − x̄j ) . . . (x2p − x̄p )
Y = .. ..
i . . ... ...
.. .. ..
. . .
n (xn1 − x̄1 ) . . . (xnj − x̄j ) . . . (xnp − x̄p )
1 ... j ... p
1 (x11 − x̄1 ) /σ1 . . . (x1j − x̄j ) /σj . . . (x1p − x̄p ) /σp
..
. (x21 − x̄1 ) /σ1 . . . (x2j − x̄j ) /σj . . . (x2p − x̄p ) /σp
Z= .. ..
i . . ... ...
.. .. ..
. . .
n (xn1 − x̄1 ) /σ1 . . . (xnj − x̄j ) /σj . . . (xnp − x̄p ) /σp
II
MN
Remarque 1.3.4
7
1.3. NOTIONS DE BASE
p
�
d2M (xi , xi� ) = mj (xij − xi� j )2
j=1
Et si M = Ip (ACP) :
— L’inertie I(Y ) du nuage centré des individus est égale à la somme des variances des p
variables.
— L’inertie I(Z) du nuage centré-réduit des individus est égal à p.
1.3.7 Covariance
II
La covariance mesure la liaison entre deux variables j et j � :
MN
1� n � �� �
=
�
cij � xij − x̄j xij � − x̄j
n i=1
C = Yt NY
— Si la covariance est grande (en valeur absolue) alors les grandes valeurs de la variable
j sont associées aux grandes valeurs de la variable j � (en valeur absolue).
< y j , y j >N
�
� �
r jj � = j = cos θ N y j
, y j�
�y �N �y� �N
8
1.3. NOTIONS DE BASE
R = Zt NZ
II
cune corrélation avec la première et qui montre également la plus grande variance possible
et ainsi de suite, donc l’ACP transforme un ensemble de caractères plus ou moins corrélés en
MN
un nouvel ensemble de caractères non corrélés et d’importance décroissante appelés compo-
santes principales.
Mathématiquement le procédé consiste à rechercher les valeurs propres et les vecteurs propres
d’une matrice carrée.Pour que la transformation des coordonnées puisse s’appliquer correc-
tement, il faut que tous les caractères soient centrés.
LA
La recherche des composantes principales revient à calculer les valeurs propres et les
vecteurs propres de la matrice de corrélation.
Règle 1.3.10
9
1.3. NOTIONS DE BASE
Algorithme 1.3.11
V = (v1 , · · · , vd ) ∈ Rp×d
II
MN
LA
A.
Traitements réalisés
1. Réaliser une ACP sur un fichier de données.
2. Afficher les valeurs propres. Construire le graphique séboulis des valeurs propres.
3. Construire le cercle de corrélations.
4. Projeter les observations dans le premier plan factoriel.
5. Positionner des variables illustratives quantitatives dans le cercle de scorrélations.
6. Positionner les modalités d’une variable illustrative catégorielle.
7. Positionner des observations illustratives.
10
1.4. EXEMPLE : ACP AVEC R
II
c9 13.50 15.00 12.75 10.00 12.50 11.75 10.00 15.00
c10 17.00 14.25 16.00 15.75 11.75 13.00 12.50 16.75
MN
c11 15.50 16.00 14.75 13.25 12.00 12.50 12.75 13.75
c12 13.75 16.00 17.50 13.50 16.75 17.00 16.50 15.00
c13 14.00 11.75 14.50 12.50 13.00 11.75 14.00 16.25
c14 10.50 9.50 11.75 13.00 11.00 12.50 10.00 17.00
LA
3. Présentation sommaire de R.
4. Importation des données.
5. Lancer une première analyse. Nous allons montrer comment :
— Trouver un espace de dimension faible (2 ou 3) qui permet d’observer la variation
de ses données ?
— Détecter soit des groupes d’individus homogènes ou quelques individus qui présen-
tant des observations abérantes par rapport au jeu de données ?
— Détecter les variables qui sont les plus corrélées entre elles ?
11
1.4. EXEMPLE : ACP AVEC R
II
c12 13.75 16.00 17.50 13.50 16.75 17.00 16.50 15.00
c13 14.00 11.75 14.50 12.50 13.00 11.75 14.00 16.25
c14 10.50 9.50 11.75 13.00 11.00 12.50 10.00 17.00
c15 15.50 13.25 14.00 14.00 13.75 15.00 14.50 14.00
MN
2- Effectuer une analyse univariée : Calcul de la moyenne
Les fonctions sapply applique la même fonction sur tous les éléments d ?un vecteur ou
d ?une liste.
LA
Code R 1.4.2
12
1.4. EXEMPLE : ACP AVEC R
Commentaire : Les variables Phi et ES sont très dispersées tandis que les autres variables
ont une dispersion moyenne et les variables Fr, Math sont proches de la moyenne. On peut
conclure qu’il y ait une dispersion importante du nuage.
II
MN
LA
Code R 1.4.4
> mat.cor=round(cor(note),2)
> mat.cor
13
1.4. EXEMPLE : ACP AVEC R
> mat.cov=round(cor(note),2)
> mat.cov
II
ES -0.42 -0.73 -0.22 -0.36 -0.76 -0.23 -0.60 1.39
MN
Code R 1.4.6 (Matrice des covariances)
cornote=round(cor(note),2)
cornote
library(corrplot)
corrplot(cornote, type="upper", order="hclust", tl.col="black", tl.srt=45)
LA
library(PerformanceAnalytics)
mydata <- note[, c(1,2,3,4,5,6,7,8)]
chart.Correlation(mydata, histogram=TRUE, pch=19)
A.
14
1.4. EXEMPLE : ACP AVEC R
II
6- Visualiser en trois dimensions
On fait appel à la bibliothèque rgl
MN
Code R 1.4.7
library(rgl)
rgl.open()
LA
i = c(1,2,1,3,1,4)
rgl.texts(x,y,z,labels)
rgl.lines(x[i], y[i], z[i])
15
1.4. EXEMPLE : ACP AVEC R
7- ACP
Fonction R : PCA() [FactoMineR].
Format simplifié :
Code R 1.4.8
> library(FactoMineR)
II
> res.pca = PCA(note, graph = TRUE)
> print(res.pca)
MN
**Results for the Principal Component Analysis (PCA)**
The analysis was performed on 15 individuals, described by 8 variables
*The results are available in the following objects:
LA
name description
1 "$eig" "eigenvalues"
2 "$var" "results for the variables"
3 "$var$coord" "coord. for the variables"
4 "$var$cor" "correlations variables - dimensions"
5 "$var$cos2" "cos2 for the variables"
6 "$var$contrib" "contributions of the variables"
A.
Commentaire : ! ! ? ?
16
1.4. EXEMPLE : ACP AVEC R
La fonction pairs()
La fonction pairs() produit une matrice de nuages ("scatterplot matrix, draftman’s plot)
et attend un matrice comme argument.
Code R 1.4.9
pairs(note,col=c(1:8))
library(GGally)
ggpairs(notec)
II
MN
LA
A.
17
1.4. EXEMPLE: ACP AVEC R
II
MN
Code R 1.4.10
> library("factoextra")
> eig.val = get_eigenvalue(res.pca)
LA
> eig.val
Code R 1.4.11
> inertie=eig.val[,2]
> inertie
18
1.4. EXEMPLE : ACP AVEC R
Dim1,..., Dim8 sont les composantes principales de l’ACP, les valeurs de la 1ere colonne
sont les valeurs propres associées aux vecteurs propres Dim1,..., Dim8.
Chaque valeur propre λs étant la variance de la séme composante principale.
La 2éme colonne représente le pourcentage de la variance c-a-d pour chaque composante s
son pourcentage de variance est λ�
s ×100
λi
.
i
Code R 1.4.12
II
MN
LA
A.
Critère de Kaiser : on ne retient que les axes dont l’inertie est supérieure à l’inertie
moyenne I/p (un peu étroit).
Kaiser en ACP normée : I/p= 1 : On ne retiendra que les axes associés à des valeurs propre
supérieures à 1
Commentaire : On constate alors que la cassure (le coude) se commence à partir de la troi-
sième valeur propre ;
19
1.4. EXEMPLE : ACP AVEC R
Code R 1.4.14
summary(res.pca)
Eigenvalues
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8
Variance 3.240 2.455 0.921 0.870 0.234 0.166 0.084 0.030
% of var. 40.503 30.687 11.518 10.874 2.926 2.072 1.045 0.375
Cumulative % of var. 40.503 71.190 82.708 93.582 96.508 98.580 99.625 100.000
II
c2 | 3.498 | 3.056 19.220 0.763 | 0.108 0.032 0.001 | 0.528 2.014 0.023 |
c3 | 2.604 | 2.395 11.798 0.846 | -0.146 0.058 0.003 | 0.852 5.251 0.107 |
MN
c4 | 1.357 | 1.037 2.211 0.584 | 0.506 0.695 0.139 | 0.073 0.038 0.003 |
c5 | 3.239 | -3.098 19.750 0.915 | 0.179 0.087 0.003 | -0.354 0.906 0.012 |
c6 | 2.299 | 2.028 8.461 0.778 | -0.581 0.917 0.064 | -0.069 0.035 0.001 |
c7 | 2.878 | -0.411 0.348 0.020 | 2.141 12.446 0.553 | -1.396 14.095 0.235 |
c8 | 2.893 | 1.206 2.994 0.174 | -1.425 5.515 0.243 | -1.924 26.795 0.442 |
LA
c9 | 2.976 | -0.734 1.109 0.061 | -1.608 7.021 0.292 | -0.512 1.899 0.030 |
c10 | 3.195 | -2.392 11.774 0.561 | 0.800 1.737 0.063 | 1.494 16.144 0.219 |
Variables
Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
A.
20
1.4. EXEMPLE : ACP AVEC R
II
Contribution des individus :
On rappelle que la contribution d’un individu d’un individu i par la composante s est Contribs (i) =
MN
Fs (i)2
pλs
ou p est le nombre d’individus.
Plus la contribution est grande, plus la représentation est meilleure.
Fs (i)2
QLTs (i) = � = cos(θ)2
F
t t (i) 2
A.
Pour connaître la qualité de représentation d’un individu, on suit les règles énoncées dans
le tableau ci-contre :
21
1.4. EXEMPLE : ACP AVEC R
plan principal.
Les individus qui participent le plus à la formation du premier axe sont ceux qui ont une
contribution supérieure à la moyenne c.-à-d. supérieure à 100
15
% = 6.66667 (res.pca$call)
Code R 1.4.15
II
> fviz_contrib(res.pca, choice = "ind", axes = 1, top = 15)
> fviz_contrib(res.pca, choice = "ind", axes = 2, top = 15)
MN
LA
A.
Code R 1.4.16
Les individus qui contribuent le plus à la formation de l’axe 1 se caractérisent par des résul-
tats meilleurs dans l’une des deux disciplines et moyens dans l’autre.
22
1.4. EXEMPLE : ACP AVEC R
Or les individus qui contribuent à la formation de deuxième axe se caractérisent par des ré-
sultats homogènes dans toutes les matières, bonnes ou moyennes.
II
Pour l’axe 1 on constate que les points individus 1, 2, 3, 5 et 10 sont éloignés de l’origine
MN
ce qui justifie leur bonne qualité de représentation, ainsi ils sont très proches de cet axe ce
qui justifie leur importante contribution à la formation de cet axe.
De même pour l’axe 2 les individus 14, 7 et 12 sont très éloignés de l’origine donc ils ont
une bonne qualité de représentation dans cet axe, ils sont ainsi proches de cet axe chose qui
signifie leur forte contribution à la formation de cet axe.
LA
A.
Les deux individus 2 et 5 s’opposent par rapport au deuxième axe ce qui traduit que leurs
résultats des différentes matières le sont.
Les trois individus 1, 5 et 10 sont proches, ils ont alors une ressemblance réelle de point de
vue des variables, ces trois individus se caractérisent par des bons résultats aux disciplines
littéraires et moyens aux disciplines scientifiques, il en est de même pour le groupe {2, 3, 6}
mais celui-là a par contre des résultats meilleurs en math, PC et SVT et moyens en arabe,
23
1.4. EXEMPLE: ACP AVEC R
français et anglais.
La qualité de représentation des individus sur la carte de l’ACP s’appelle cos2 (cosinus
carré) . Vous pouvez accéder au cos2 comme suit :
Code R 1.4.17
head(res.pca$ind$coord, 4)
library("corrplot")
corrplot(res.pca$ind$cos2, is.corr=FALSE)
II
MN
LA
De même que pour les individus on n’interprète que les variables qui sont bien représen-
A.
tées.
Pour cela on étudie la qualité de représentation de chaque variable ainsi que leur contribution
à la formation des deux axes principaux, on a alors le tableau suivant fournie par L’ACP :
Code R 1.4.18
> summary(res.pca)
Variables
Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
Ar | -0.800 19.767 0.640 | 0.492 9.872 0.242 | 0.018 0.036 0.000 |
Fr | -0.507 7.928 0.257 | 0.604 14.838 0.364 | 0.084 0.769 0.007 |
Ang | -0.321 3.180 0.103 | 0.833 28.297 0.695 | 0.364 14.413 0.133 |
Phi | -0.568 9.956 0.323 | 0.409 6.811 0.167 | -0.078 0.664 0.006 |
Math | 0.840 21.756 0.705 | 0.493 9.900 0.243 | -0.030 0.100 0.001 |
PC | 0.788 19.173 0.621 | 0.488 9.689 0.238 | 0.214 4.976 0.046 |
24
1.4. EXEMPLE : ACP AVEC R
SVT | 0.768 18.209 0.590 | 0.502 10.271 0.252 | 0.017 0.032 0.000 |
ES | -0.031 0.030 0.001 | -0.503 10.324 0.253 | 0.853 79.011 0.728 |
Les variables qui contribuent le plus à la formation sont ceux qui ont une contribution supé-
rieure à la moyenne c.-à-d. supérieure à 1008
% = 12.5 (summary(res.pca$eig))
II
Code R 1.4.19
La qualité de représentation des variables sur la carte de l’ACP s’appelle cos2 (cosinus
carré) . Vous pouvez accéder au cos2 comme suit :
Code R 1.4.20
head(res.pca$ind$coord, 4)
library("corrplot")
corrplot(res.pca$var$cos2, is.corr=FALSE)
25
1.4. EXEMPLE : ACP AVEC R
II
MN
LA
A.
Code R 1.4.21
Le cercle des corrélations montre que les deux variables phi et ES (éducation sportive)
sont mal représentées dans le plans principales car ils sont éloignées du cercle et que toutes
les autres variables sont bien représentées dans ce plan.
On peut résumer les résultats de contributions des individus et des variables à la formation
26
1.4. EXEMPLE : ACP AVEC R
II
Contribution pour l’axe 1 Contribution pour l’axe 2
Lesvariables Ar, M ath, P C, SV T Ang
Lesindividus 1, 2, 3, 5, 10 7, 12, 14
MN
Chaque individus de l’ensemble { 1, 2, 3, 5, 10} a soit des résultats meilleures en arabe et moyennes en math , PC et SVT soit l’inverse, et
ils ont en générale des bons résultats en une discipline et moyenne à l’autre, par contre, les individus 7 12 14 ont des résultats homogènes
dans toutes les matières et la note d’anglais est la plus fortes pour le 7 et le 12 (resp. 16 et 17.5)
De ces constatation on peut dire que l’axe 1 correspond aux étudiants qui sont soit littéraires soit scientifique et l’axe 2 correspond à ceux
qui ont des scores presque identique dans tous les modules.
LA
Les trois variables Math, PC et SVT sont très corrélées entre elles, la corrélation étant positive ce qui justifie que les trois variables
agissent dans le même sens pour les individus c.-à-d. qu’une bonne note dans l’un de ces trois modules s’accompagne par des bonnes notes
aux deux autres et inversement.
L’examen de la matrice des corrélations ci-dessous nous indique que les deux disciplines littéraire et scientifique sont corrélées négati-
vement et les modules de même discipline sont corrélés positivement, ce qui signifie que les deux groupes de modules s’opposent pour les
A.
Code R 1.4.22
> mat.cor=round(cor(note),2)
> mat.cor
27