Sie sind auf Seite 1von 53

Ingénierie de l'analyse des données

Jean-Louis Girard

http://www.u-picardie.frTOUS/Documentation/Master1/IAD

Plan de cours
1. Introduction générale.......................................................................................................... 2
1.1. Les Egyptiens antiques savaient-ils peindre ?............................................................ 2
1.2. Une autre illustration.................................................................................................. 3
1.3. Plan............................................................................................................................. 6
1.4. Lexique....................................................................................................................... 7
1.5. Principe de représentation géométrique ..................................................................... 9
2. L'inertie comme somme des distances des points d'un nuage.......................................... 10
3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de
l'analyse en composantes principales… ................................................................................... 15
3.1. Quelques rappels sur les matrices et le calcul matriciel........................................... 15
3.2. Pour préparer une "bonne" matrice, il faut…........................................................... 15
3.3. Maximiser l'inertie projetée, c'est rendre maximale la somme des distances entre les
projections de chaque point du nuage… .............................................................................. 17
3.4. Quelles sont les coordonnées des points projetés ?.................................................. 19
3.5. Comment représenter les variables (relations de transition) ? ................................. 20
3.6. Compléments et interprétations................................................................................ 22
3.7. Résumé ..................................................................................................................... 26
3.8. Exemples .................................................................................................................. 29
4. Passons maintenant à l'analyse de tableaux de variables qualitatives….......................... 37
4.1. L'analyse des correspondances (croisement de deux variables qualitatives) ........... 37
4.2. L'analyse des correspondances multiples (croisement de nombreuses variables
qualitatives) .......................................................................................................................... 48
5. Mais dans les ordinateurs, comment ça marche ? Approche algorithmique de l'analyse
factorielle......................................................................................... Erreur ! Signet non défini.
5.1. Quelques algorithmes de diagonalisation................................................................. 53
5.2. Et les autres directions d'allongement ? ................................................................... 53
Ingénierie de l'analyse des données - Introduction générale

1. Introduction générale
"Il avait appris sans effort l'anglais, le français, le portugais, le latin. Je soupçonne
cependant qu'il n'était pas très capable de penser. Penser, c'est oublier des différences,
c'est généraliser, abstraire. Dans le monde surchargé de Funes il n'y avait que des
détails, presque immédiats."
Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956)

1.1. Les Egyptiens antiques savaient-ils peindre ?

Pourquoi les Egyptiens antiques peignaient les personnages dans une position peu naturelle
alors que par ailleurs ils savaient depuis très longtemps représenter un corps en 3D ?

Le roi Amenemhat III Stèle de la dame Tapéret (Détail)


XIX° siècle avant J.-C. Xe ou IXe siècle avant J.-C.

Jean-Louis Girard -2-


Ingénierie de l'analyse des données - Introduction générale

1.2. Une autre illustration

On dispose d'un tableau donnant les coordonnées de points dans un espace tridimensionnel :

IND X Y Z
1 52,58 -25,13 -101,93
2 51,5 -24,86 -101,77
3 52,49 -23,58 -101,61
4 52,03 -26,22 -101,55
5 54,32 -23,64 -101,44
6 53,63 -26,4 -101,4
7 50,47 -25,56 -101,36
… … … …
21488 -49,21 79,23 60,14
21489 -47,28 86,02 60,15
21490 -46,34 87,09 60,16
21491 -48,21 81,83 60,19
21492 -46,91 79,37 60,19
21493 -43,92 87,68 60,2
21494 -47,29 84,45 60,23
21495 -45,55 81,08 60,23
21496 -44,41 83,48 60,25
21497 -43,46 85,53 60,26
21498 -45,39 85,67 60,3
21499 -45,39 85,67 60,3

Quelle forme a ce nuage de point ( reconnaissance de forme) ?

Représentation des différents plans :

Plan X-Y

Jean-Louis Girard -3-


Ingénierie de l'analyse des données - Introduction générale

Plan Y-Z

Plan X-Z

Quel est le meilleur plan de représentation ? Est-ce l'un des précédents ?

Jean-Louis Girard -4-


Ingénierie de l'analyse des données - Introduction générale

Graphique factoriel

Jean-Louis Girard -5-


Ingénierie de l'analyse des données - Introduction générale

1.3. Plan

1. Introduction générale
1.1. Les Egyptiens antiques savaient-ils peindre ?
1.2. Une autre illustration
1.3. Plan
1.4. Lexique
1.5. Principe de représentation géométrique
2. L'inertie comme somme des distances des points d'un nuage
3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de
l'analyse en composantes principales…
3.1. Quelques rappels sur les matrices et le calcul matriciel
3.2. Pour préparer une "bonne" matrice, il faut…
3.3. Maximiser l'inertie projetée, c'est rendre maximale la somme des distances entre les
projections de chaque point du nuage…
3.4. Quelles sont les coordonnées des points projetés ?
3.5. Comment représenter les variables (relations de transition) ?
3.6. Compléments et interprétations
3.7. Résumé
3.8. Exemples
4. Passons maintenant à l'analyse de tableaux de variables qualitatives…
4.1. L'analyse des correspondances (croisement de deux variables qualitatives)
4.2. L'analyse des correspondances multiples (croisement de nombreuses variables
qualitatives)
5. Compléments
5.1. Quelques algorithmes de diagonalisation
5.2. Et les autres directions d'allongement ?

Jean-Louis Girard -6-


Ingénierie de l'analyse des données - Introduction générale

1.4. Lexique


Ensemble (au sens mathématique du terme)
Population (ou population statistique)
concerné par une étude statistique. On parle
parfois du champ de l'étude
x∈Ω
Individu (ou unité statistique)
Tout élément de la population Ω
Sous-ensemble de la population sur lequel
Echantillon
sont effectivement réalisées les observations
Taille de l'échantillon Cardinal du sous-ensemble correspondant
Opération consistant à observer (ou mesurer,
Enquête (statistique) ou questionner…) l'ensemble des individus
d'un échantillon
Enquête dans laquelle l'échantillon observé
Recensement est la population tout entière (enquête
exhaustive)
Enquête dans laquelle l'échantillon observé
Sondage est un sous-ensemble strict de la population
(enquête non exhaustive)
 ε si qualitative
Ω →x
 |
 R si quantitative
Caractéristique (âge, salaire, sexe…) définie
sur une population et observée sur
l'échantillon ; mathématiquement, il s'agit
Variable (statistique) d'une application définie sur l'échantillon. Si
la variable est à valeurs dans |R (ou une partie
de |R , ou un ensemble de parties de |R ), elle
est dite quantitative (âge, salaire, taille…) ;
sinon, elle est dite qualitative (sexe, CSP…)
et les valeurs que peut prendre cette variable
sont appelées modalités.
Ensemble des individus observés
(échantillon), des variables considérées, et
des observations de ces variables sur ces
individus. Elles sont généralement présentées
sous forme de tableaux (individus en lignes
Données (statistiques) et variables en colonnes) et stockées dans un
fichier informatique. Lorsqu'un tableau ne
comporte que des nombres (valeurs des
variables quantitatives ou codées associées
aux variables qualitatives), il correspond à la
notion mathématique de matrice.

Jean-Louis Girard -7-


Ingénierie de l'analyse des données - Introduction générale

∇ : chaque individu est doté d'un "poids" (ou masse) différent. Par exemple, il n'y a aucune
raison a priori de traiter différemment les personnes qui constituent une population (une
personne = une personne) ; mais les régions ou les département ont des importances
différentes, dont il faut parfois tenir compte (notion à rapprocher de celle de moyenne
pondérée).

∇ : une variable quantitative peut être "classée" ou ordonnée, en effectuant par exemple des
découpages sur les valeurs que peut prendre cette variable
Exemple : [{moins de 20 ans} ; {de 20 ans à 39 ans}; {de 40 ans à 59 ans}, {60 ans et plus}].
Dans ce cas, cette variable peut être traitée comme une variable qualitative, identique à
[{jeune}, {adulte}, {mûr}, {âgé}]

∇ : les modalités d'une variable peuvent être :


• Exhaustives :
o modalités non-exhaustives [{adulte}, {âgé}]  les jeunes n'y figurent pas
o êtes-vous venu à la Préfecture pour :
 retirer votre permis de conduire ?
 retirer votre passeport ?

 d'autres réponses sont possibles.

• Exclusives :
o modalités non exclusives [{moins de 30 ans} ; {de 20 ans à 39 ans}; {de 40
ans à 59 ans}, {60 ans et plus}]  si l'on a de 20 à 30 ans, on figure dans deux
modalités
o êtes-vous venu à la Préfecture pour :
 retirer votre permis de conduire ?
 retirer votre passeport ?

 les deux réponses sont possibles.


∇ :  On peut rendre les modalités exhaustives en proposant, par exemple, une modalité
{autre}
 On peut rendre les modalités exclusives en demandant, par exemple, "quelle est la
principale raison qui vous a fait venir à la préfecture ?"

Jean-Louis Girard -8-


Ingénierie de l'analyse des données - Introduction générale

1.5. Principe de représentation géométrique


Les tableaux peuvent être vus comme un ensemble de lignes ou de colonnes. Par convention,

• En lignes figurent les individus


• En colonnes figurent les variables

Deux nuages de points peuvent alors être construits :

• Le nuage des individus (les points-lignes) qui opère dans un espace dont le nombre de
dimensions (le nombre d'axes) est égal au nombre de variables
• Le nuage des variables (les points-colonnes) qui opère dans un espace dont le nombre
de dimensions (le nombre d'axes) est égal au nombre d'individus

1 j p
1 ,
,
,
,
,
,
,
i , , , xij , , ,
,
,
,
n ,

Vecteurs lignes Vecteurs colonnes


1 j p j j'
1

i'

n points p points

dans un espace à dans un espace à

p dimensions (axes) n dimensions (axes)

Jean-Louis Girard -9-


Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un
nuage

2. L'inertie comme somme des distances des points d'un


nuage

On considère ici un nuage de points dont les coordonnées sont présentées dans un tableau du
type :

Variable 1 Variable 2 … Variable j … Variable p


Individu 1 …
Individu 2 …
… …
Individu i … … … tij … …
… …
Individu n …

Les tij sont donc numériques.

Définition 1 : l'inertie est la somme des carrés des distances qui relient chaque point du
nuage à un point quelconque de l'espace.

x
x
x

O
x
x

In =

Jean-Louis Girard - 10 -
Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un
nuage
 Comment mesurer la distance (métrique) ?

yA .A

yB .B

x
xA xB

Équation 1

• Distance euclidienne (usuelle) : ( xB − xA) 2 + ( yB − yA) 2


• Distance quadratique : ( xB − xA) 2 + ( yB − yA) 2
• Distance de Manhattan : xB − xA + yB − yA
• Distance entre ensembles : cf. TD
• …

Définition 2 : l'inertie projetée est la somme des carrés des longueurs des projections de
chaque point du nuage sur une direction quelconque.

Jean-Louis Girard - 11 -
Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un
nuage
 Qu'est-ce qu'une projection (orthogonale) ?

x
x
x

x O
x

In =

Fin 1ère séance (2 h)

Jean-Louis Girard - 12 -
Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un
nuage
 Quelles directions peuvent être intéressantes ?

a)

x x x x x

In = 0

x
|

b)

x x x x x

In =
x x x x x
| | | | |

c)

x x x | x x

In =

x x x | x x

In c) > In b)

Jean-Louis Girard - 13 -
Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un
nuage

 l'inertie projetée croît lorsque la projection se fait sur l'axe d'étirement maximal du
nuage de points.

 l'intérêt d'utiliser cette direction est qu'elle permet de voir plus de choses

Voir au mieux le nuage de points (c'est-à-dire de maximiser l'inertie projetée) implique


de connaître les directions maximales d'étirement du nuage de points.

Jean-Louis Girard - 14 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

3. Passons à la formalisation mathématique à partir de


variables quantitatives : l'exemple de l'analyse en
composantes principales…
On reprend le tableau précédent (cf. 2).

3.1. Quelques rappels sur les matrices et le calcul matriciel

 Qu’est-ce qu’une matrice ?

 relatif à une application linéaire


 codage d’un tableau

 Propriétés des matrices


 Qu’est-ce qu’un produit scalaire ?
• <x, x> = 0 ssi x = 0,
• <x, y> = <y, x> (symétrie),
• <ax + by, z> = a<x, z> + b<y, z> (bilinéarité 1),
• <z, ax + by> = a<z, x> + b<z, y> (bilinéarité 2),
• induit une norme par la relation : ||x||² = <x, x>,
• produit scalaire canonique (usuel) de R² : <x, y> = x1y1 + x2y2

• produit scalaire canonique (usuel) de Rn : <x, y> = ,


• <x, y> = 0 ⇔ x ⊥ y

 Qu'est-ce que le produit d'une matrice par un vecteur ?


 Qu'est-ce que la diagonalisation d'une matrice ?

3.2. Pour préparer une "bonne" matrice, il faut…

 Centrer et réduire les variables…

Au préalable, afin d'éliminer les effets dus aux différences entre moyennes et unités, on centre
et on réduit chaque variable : la moyenne de chaque variable est nulle (on se situe au centre
du nuage), l'écart-type de chaque variable est unitaire (le choix des unités n'importe pas).

Équation 2

t ij − t j
xij =
sj n

Jean-Louis Girard - 15 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

∇ : en fait, la distance entre deux individus est mesurée par :


2
 t ij − t i ' j ' 
( )
p n
d 2 (i, i ' ) = ∑   , avec l'écart-type de j qui est égal à : s i = 1

2
t ij − t j
 s n  j
n
j =1
 j  i =1

Comme les variables sont centrées-réduites, elles se situent sur le bord d'une hypersphère de
rayon 1.

j'

 Pondérer les individus

Il est possible que les individus statistiques n'aient pas la même importance : si les individus
statistiques sont par exemple les régions de France, il faut accorder plus d'importance aux
grandes régions (Île-de-France, PACA, Nord-Pas-de-Calais entre autres). On va donc mettre
en place une pondération non uniforme des individus.

Les individus ont toujours un poids ; lorsque les individus ont la même importance, leurs
poids sont identiques (uniformes) et cette étape peut être négligée.

Fin cours 2 (3h)

Jean-Louis Girard - 16 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…
3.3. Maximiser l'inertie projetée, c'est rendre maximale la
somme des distances entre les projections de chaque point
du nuage…

On cherche un sous-espace vectoriel (un ensemble de vecteurs, c'est-à-dire un ensemble de


directions) qui permette de rendre maximale l'inertie projetée dans ce sous-espace. Ces axes
doivent être les directions d'étirement maximal du nuage de points.

 données du problème

z
u
0

Pour l'ensemble des vecteurs x du nuage de point, on cherche la direction v qui permette de
rendre maximale la somme des projections carrées z².

Comme le nuage est désormais centré, les coordonnées de l'origine sont nulles.

z = xu  ||z||² = (xu)² = (xu)' (xu) = u'x'xu

A l'échelle du nuage de points (pour l'ensemble des x), on a donc l'inertie qui est égale à :

Inu = ∑i mi u ' X i ' DX i u = u ' X ' DXu

En posant Ci = Xi'DXi, on a :

Inu = ∑i mi u ' C i u = u ' Cu

∇ : C est la matrice des corrélations entre variables. En effet, d'après Équation 2, elle est de
terme général :

n
c jj ' = ∑ mi xij xij ' =
( )( )
1 n mi t ij − t j t ij ' − t j '
i

n i s j s j'
= cor ( jj ' )

En conséquence, Tr C = p, le nombre de variables. D'une autre manière, avec la distance


= ∑ mi (xij ) = Tr C .
n n
euclidienne (cf. Équation 2), In = ∑ mi xi
2 2

i i

Jean-Louis Girard - 17 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

Le programme de maximisation s'écrit alors :

Max u ' Cu

 s.c. u ' u =1
L = u ' Cu − λ (u ' u −1)
 ∂L
 ∂u = 2(Cu − λu ) = 0
 ∂L
 = u ' u −1 = 0
 ∂λ
Cu = λu

 u =1

 L'inertie projetée sera maximale lorsque les axes (le sous-espace vectoriel) sur
lesquels s'effectue la projection sur les vecteurs propres de la matrice d'inertie C.

λα
 L'inertie expliquée par l'axe porté par le vecteur propre uα est Inα = p
.

α
λα
=1
Les axes conservant le maximum d'inertie seront ceux portés par les vecteurs propres
associés aux plus grandes valeurs propres.

Soit U = (u1 ... u n ) , avec ui les vecteurs propres colonnes.

Jean-Louis Girard - 18 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…
3.4. Quelles sont les coordonnées des points projetés ?
 Les vecteurs propres étant orthogonaux deux à deux (cf. TD), ils constituent une base
orthonormée dans laquelle on peut représenter les vecteurs initiaux.

 Les coordonnées des vecteurs initiaux dans la nouvelle base sont données par leurs
projections sur les vecteurs propres.

Fαi = Xiuα
ou F = XU

Jean-Louis Girard - 19 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…
3.5. Comment représenter les variables (relations de
transition) ?
Faut-il refaire une analyse similaire pour les variables, et quels liens y a-t-il entre les variables
et les individus ?

 Individus et variables opèrent dans des espaces vectoriels différents, mais sont intimement
liés

On montre (cf. TD) que :

1
v= Xu est un vecteur propre de la matrice XX'
λ

Alors,

mi
Gαi = X ' i Fαi
∑ mi λα
i

Inversement,

1
Fαi = X i Gαi
λα

 On ne doit procéder qu'à la diagonalisation la plus rapide, et déduire les résultats de la


seconde diagonalisation de ceux de la première. Dans la majeure partie des cas, comme le
nombre de lignes est fréquemment plus élevé que celui des colonnes, on étudie d'abord les
individus (C = X'DX de dimension (p,p)) et ensuite les variables (Z = XDX' de dimension
(n,n)).

 corrélation variables/axes

1 n tij − t j   F 
Gαi = X 'i Fαi = ∑   αi  = cor ( j, F )
αi
λα 
i =1 s j n  λ 
  α 

Donc, la coordonnée d'une variable sur un axe est le coefficient de corrélation de cette
variable avec cet axe. Cette représentation est ainsi appelée "cercle des corrélations".

Jean-Louis Girard - 20 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

Fin cours 3 (2 h)

Lien vers application

Jean-Louis Girard - 21 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

3.6. Compléments et interprétations

 Individus supplémentaires et variables illustratives

X XVI+

XIS+

Individus supplémentaires

Il est possible d'ajouter des individus dans la représentation graphique (par exemple des
femmes si l'analyse initiale traitait des hommes, les régions si l'on traitait des départements,
etc.). Pour ce faire, il faut positionner l'individu supplémentaire par rapport au centre de
gravité du nuage et diviser les coordonnées par les écarts-types :

t ijIS + − t j
xijIS + =
sj

Les coordonnées des individus supplémentaires (regroupés dans la matrice XIS+) sont alors
trouvées par projection sur les vecteurs propres :

FαIS + = X IS + uα

Variables illustratives continues

Il peut s'agir alors d'enrichir l'analyse par des indicateurs qui vont venir expliquer davantage
les résultats obtenus. On procède alors de manière similaire:

t ijVI + − t VIj +
xijVI + =
s VIj +

Les coordonnées des variables illustratives (regroupés dans la matrice XVI+) sont alors
trouvées par projection sur les vecteurs propres :

GαVIS + = ( X VI + )' uα

Jean-Louis Girard - 22 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…
Variables illustratives nominales

Il est également possible de faire figurer des variables illustratives nominales (hors
programme du Master).

 Règles d'interprétation

Pour les individus (dans un espace à p dimensions) :

"La représentation des individus sur les axes factoriels fournit la meilleure visualisation
approchée des distances entre les individus. […]Les proximités entre individus s'interprètent
en termes de similitudes de comportement vis-à-vis des variables. "

Par construction, le centre du graphique des individus représente les valeurs moyennes de
chaque variable, c'est-à-dire le profil de l'individu moyen (ou profil moyen)

En conséquence, plus un individu est éloigné du centre, plus il va présenter un profil différent
du profil moyen : on parle alors de profils marginaux.

Pour les variables (dans un espace à n dimensions) :

"La représentation des variables sur les axes factoriels fournit une synthèse graphique de la
matrice des corrélations. […] Les proximités entre variables [s'interprètent] en termes de
corrélations. Il faut bien se garder d'interpréter la distance séparant un point-variable d'un
point-individu car ces deux points ne font pas partie d'un même nuage dans un même
espace : la superposition de ces deux plans factoriels est dénuée de sens1."

Pour les individus et les variables

Si la superposition des deux graphiques initiaux est dénuée de sens (cf. supra), elle devient
possible si l'on ne s'intéresse plus aux points-variables mais aux directions des variables.

Pour ce faire, on représente les anciens axes unitaires (les p variables du début de l'analyse)
qui, pour la variable j, s'écrivent :

12… j…p
ej' = (0 0 … 1 … 0)

On traite alors la matrice EAAU+ des anciens axes unitaires comme individus supplémentaires.
Les coordonnées de ces anciens axes unitaires dans l'espace à n dimensions sont données par :

FαAAU + = E AAU + uα

1
Souligné par moi.

Jean-Louis Girard - 23 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

∇ : Ces vecteurs sont, par définition, orthogonaux deux à deux ce qui distingue le graphique
obtenu du précédent graphique des variables.
∇ : Les deux nuages ne coïncident pas : ils diffèrent par une dilatation de λα . Ils
néanmoins des allures très voisines.
∇ : Les individus situés dans le voisinage de la direction d'une variable prennent des valeurs
supérieures à la moyenne de cette variable ; les individus situés dans le voisinage de la
direction opposée prennent des valeurs inférieures à la moyenne de cette variable.

 Les CONT décrivent les contributions des individus à l'inertie des axes
m
CONTαi = i Fα2i
λα
n
avec ∑ CONTαi =1
i =1

Par construction, les individus les plus contributeurs sont excentrés.

 Les cosinus carrés (cos²) décrivent les qualités de représentation des individus

Fα2i
COS α2i =
X i2

Un COS² proche de 0 implique une mauvaise représentation de l'individu.


Un COS² proche de 1 implique une bonne représentation de l'individu.

Les deux individus i et j suivant ont la même projection ; mais i est loin du plan (sa projection
est éloignée de sa position réelle), alors que i est proche du plan (sa projection est donc
représentative de sa position réelle).

Jean-Louis Girard - 24 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

En conséquence, un individu dont la projection est loin du centre sera bien représenté, alors
qu'un individu dont la projection est proche du centre est soit un individu moyen bien
représenté, soit un individu marginal mal représenté.

 "Effet taille"

Il arrive parfois que toutes les variables soient situées d'un même côté du cercle des
corrélations. Cela fait état d'une corrélation entre toutes les variables, i.e. elles prennent toutes
des valeurs plus élevées (respect. faibles) que la moyenne en même temps. Nous sommes
alors en présence de "grands" individus et de "petits" individus, d'où l'expression "effet taille".
Pour annihiler cet effet, on peut :

- faire la lecture sur le plan suivant (axe2-axe3 et non plus axe1-axe2) : mais alors les
corrélations seront beaucoup plus faibles ;
- refaire l'analyse en s'intéressant par exemple à la structure du profil des individus
(lorsque cela est possible), notamment en exprimant la structure en pourcentage. Il
convient alors de pondérer les individus pour respecter la structure du profil moyen.

Jean-Louis Girard - 25 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

3.7. Résumé

Toutes les analyses factorielles contiennent une étape de diagonalisation de matrice. En


fonction du type de tableaux que l'on doit analyser et de la façon dont on veut l'analyser, la
matrice à diagonaliser est différente. Son élaboration est intimement liée à la manière dont on
mesure les distances dans les espaces concernés (i.e. la métrique utilisée).

Dans l'analyse en composantes principales, cette métrique est la distance euclidienne entre les
individus pris deux à deux.

Jean-Louis Girard - 26 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…
Etape Formalisation
Variable 1 … Variable j … Variable p
Individu 1

Matrice initiale M Individu i tij

Individu n

Variable 1 … Variable j … Variable p


Individu 1
Réduction et centrage de M : …
matrice centrée réduite X Individu i xij

Individu n

D X
Calcul de X'DX (généralement, n>p)

X' X'D X'DX

Diagonalisation de la matrice d'inertie X'DX u = λu

Fαi = Xiuα et mi
Gαi = X 'i Fαi
Relations de transition
∑m
i
i λα

x x x

x xx

Représentation graphique
x x

x x x

X XVI+

Individus supplémentaires et variables


illustratives

XIS+

FαIS + = X IS + uα et GαVIS + = ( X VI + )' uα

Jean-Louis Girard - 27 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

x x x

x xx

Représentation simultanée x x

x x x

FαAAU + = E AAU + uα
mi
CONTαi = Fα2i Fα2i
λα COS α2i =
Interprétation n
X i2
avec ∑ CONTαi =1
i =1

Jean-Louis Girard - 28 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…
3.8. Exemples

Une analyse factorielle a été réalisée sur un tableau du fichier SINE qui donne la répartition
géographique et sexuée de la part de chaque principal mobile de création d’entreprise.

Jean-Louis Girard - 29 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

ANALYSE EN COMPOSANTES PRINCIPALES


STATISTIQUES SOMMAIRES DES VARIABLES CONTINUES
EFFECTIF TOTAL : 22 POIDS TOTAL : 124713.00
+-------------------------------------------------------+----------------------+----------------------+
| NUM . IDEN - LIBELLE EFFECTIF POIDS | MOYENNE ECART-TYPE | MINIMUM MAXIMUM |
+-------------------------------------------------------+----------------------+----------------------+
| 2 . idée - idée nouvelle 22 124713.00 | 0.11 0.01 | 0.08 0.16 |
| 3 . goût - goût d'entreprendre 22 124713.00 | 0.39 0.02 | 0.34 0.44 |
| 4 . oppo - opportunité 22 124713.00 | 0.22 0.01 | 0.19 0.24 |
| 5 . exem - exemple de l'entoura 22 124713.00 | 0.07 0.01 | 0.05 0.09 |
| 6 . sans - sans emploi, a chois 22 124713.00 | 0.16 0.01 | 0.13 0.20 |
| 7 . sans - sans emploi, a été c 22 124713.00 | 0.05 0.01 | 0.03 0.06 |

Jean-Louis Girard - 30 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

D'après un sondage IPSOS, Télérama, mai 2002.


Le sondage suivant donne en pourcentage les intentions de votes des lecteurs de différents
journaux.

CHENENEMENT

BLANCS/NULS
BESANÇENOT

SAINT-JOSSE
LAGUILLER

MADELIN
TAUBIRA

MAMERE

BAYROU

MEGRET
LEPAGE

BOUTIN
CHIRAC

LE PEN

TOTAL
JOSPIN
HUE
La Croix 0 2 2 3 2 2 4 5 3 20 2 29 8 2 14 2 100
La Figaro 2 2 0 7 1 2 1 3 1 8 9 35 3 3 22 1 100
Libération 6 8 3 40 5 5 10 0 1 2 2 9 0 0 7 2 100
Le Monde 5 6 2 25 3 5 7 2 1 5 4 18 1 2 12 2 100
Le Parisien 4 3 4 12 2 4 6 1 1 6 2 23 2 2 26 2 100
Le Canard Enchaîné 8 7 5 26 2 7 9 2 4 4 4 8 0 2 10 2 100
L'Express 4 2 1 15 2 4 5 2 3 8 9 21 1 5 16 2 100
Marianne 6 6 2 19 3 14 4 2 3 10 5 9 1 3 10 3 100
Le Nouvel Observateur 4 7 2 35 3 5 8 1 1 6 3 14 1 0 9 1 100
Paris Match 4 2 1 15 0 2 2 2 3 7 4 29 2 2 22 3 100
Télérama 4 8 5 28 4 7 13 2 0 10 3 9 2 0 3 2 100
Le Point 2 2 1 7 3 2 1 2 1 8 9 41 2 1 16 2 100

Une ACP effectuée sur ce tableau donne les graphiques suivants :

Jean-Louis Girard - 31 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 32 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…

Jean-Louis Girard - 33 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…
Du fichier SINE a été extrait un tableau donnant par région et par motif le pourcentage de
nouvelles entreprises de l'industrie créées en 1994 ayant en 1997 des liens de coopération
avec d'autres entreprises. Plusieurs motifs pouvant être invoqués, le pourcentage total est
supérieur à 100 %. Du reste, le total est traité en variable supplémentaire.

Graphique des individus

Jean-Louis Girard - 34 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…
Cercle des corrélations

Statistiques sommaires des variables continues


Libellé de la variable Moyenne

achat 7,762

aucun lien de coopération étroit avec des entreprises 76,619

conception de biens ou de services 7,381

finance 1,762

gestion 2,571

production de biens ou de services 3,857

publicité 2,524

vente 5,762

Total 108,238

Jean-Louis Girard - 35 -
Ingénierie de l'analyse des données - Passons à la formalisation mathématique à partir de
variables quantitatives : l'exemple de l'analyse en composantes principales…
Matrice des corrélations
aucun lien
de conception production
coopération de biens de biens
achat finance gestion publicité vente
étroit avec ou de ou de
des services services
entreprises
achat 1,00

aucun lien de coopération étroit


-0,36 1,00
avec des entreprises
conception de biens ou de
-0,15 -0,51 1,00
services
finance 0,11 -0,43 0,32 1,00
gestion 0,02 -0,59 0,13 0,07 1,00
production de biens ou de
0,33 -0,52 0,17 0,45 0,01 1,00
services
publicité 0,37 -0,27 -0,07 0,51 -0,27 0,51 1,00

vente -0,36 -0,31 0,12 0,14 0,28 0,23 0,15 1,00

Tableau des valeurs propres


Valeur
Numéro
propre
1 2,7779
2 1,7617
3 1,2215
4 0,9773
5 0,5745
6 0,4009
7 0,2067
8 0,0796
Somme 8,0000

Jean-Louis Girard - 36 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…

4. Passons maintenant à l'analyse de tableaux de variables


qualitatives…

4.1. L'analyse des correspondances (croisement de deux


variables qualitatives)

 Analyse dédiée à des tableaux croisant 2 variables qualitatives (couleur des cheveux x
couleur des yeux)

 Tableau de contingence

Variable 2
Profil moyen
Modalité 1 Modalité 2 Modalité 3
Modalité 1 k11 k12 k13 k1.
Modalité 2 k21 k22 k23 k2.
Variable 1
Modalité 3 k31 k32 k33 k3.
Modalité 4 k41 k42 k43 k4.
Profil moyen k.1 k.2 k.3 n

L’analyse des correspondances va consister à étudier la répartition de chaque classe de la


variable 1 suivant les modalités de la variable 2 (et inversement).
On parle alors de profils lignes (lorsqu’on étudie les classes de la variable 1) et de profils
colonnes (lorsqu’on étudie les classes de la variable 2).

 Tableau des fréquences tel que fij = kij/n

Variable 2
Profil moyen
Modalité 1 Modalité 2 Modalité 3
Modalité 1 f11 f12 f13 f1.
Modalité 2 f21 f22 f23 f2.
Variable 1
Modalité 3 f31 f32 f33 f3.
Modalité 4 f41 f42 f43 f4.
Profil moyen f.1 f.2 f.3 1

 Tableau des contributions

Variable 2
Modalité 1 Modalité 2 Modalité 3
Modalité 1
Modalité 2
Variable 1 (f − fi f j )
cij =
ij
Modalité 3
fi f j
Modalité 4

Jean-Louis Girard - 37 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…
Les fortes valeurs sont intéressantes, puisqu'elles dénotent une valeur "inattendue" par rapport
à la structure générale du tableau ; en lecture rapide de tableaux, les raisons de ces fortes
valeurs sont à étudier.

 Profils lignes tel que fij/fi. = kij/ki.

Variable 2
Masse
Modalité 1 Modalité 2 Modalité 3
Modalité 1 f11/f1. f12/f1. f13/f1. 1
Modalité 2 f21/f2. f22/f2. f23/f2. 1
Variable 1
Modalité 3 f31/f3. f32/f3. f33/f3. 1
Modalité 4 f41/f4. f42/f4. f43/f4. 1

Les profils-lignes donnent, pour chaque modalité de la variable 1, la répartition des modalités
de la variable 2.

 Profils colonnes f.j/f.j = k.j/k.j

Variable 2
Modalité 1 Modalité 2 Modalité 3
Modalité 1 f11/f.1 f12/f.2 f13/f.3
Modalité 2 f21/f.1 f22/f.2 f23/f.3
Variable 1
Modalité 3 f31/f.1 f32/f.2 f33/f.3
Modalité 4 f41/f.1 f42/f.2 f43/f.3
Masse 1 1 1

Les profils-colonnes donnent, pour chaque modalité de la variable 2, la répartition des


modalités de la variable 1.

Jean-Louis Girard - 38 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…

 La représentation des profils-lignes et des profils colonnes est intéressante

Ils donnent la structure de répartition des lignes (respectivement des colonnes)

Cas d'une variable


continue classée

Cas d'une variable


nominale ordonnée

Cas d'une variable


nominale quelconque

Jean-Louis Girard - 39 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…
 Tableau des fréquences théoriques

Les deux variables sont indépendantes si :

fij = fi. f.j

Alors, pour chaque modalité de la variable 1, le produit de la fréquence de chaque modalité de


la variable 2 par la fréquence de la variable 1 est constant.

Réciproquement, pour chaque modalité de la variable 2, le produit de la fréquence de chaque


modalité de la variable 1 par la fréquence de la variable 2 est constant.

Variable 2
Profil moyen
Modalité 1 Modalité 2 Modalité 3
Modalité 1 f1. f.1 f1. f.2 f1. f.3 f1.
Modalité 2 f2. f.1 f2. f.1 f2. f.3 f2.
Variable 1
Modalité 3 f3. f.1 f3. f.1 f3. f.3 f3.
Modalité 4 f4. f.1 f4. f.1 f4. f.3 f4.
Profil moyen f.1 f.2 f.3 1

Le cœur de l'AFC est de représenter les similitudes entre les différentes modalités d'une même
variable, c'est-à-dire à représenter les proximités entre les profils et le profil moyen. Il faut
donc considérer le nuage centré sur son centre de gravité.

 Le nuage des n lignes dans l'espace des p colonnes


p f
• Comme ∑ = 1 , le nuage est même situé dans un sous-espace à p-1 dimensions
ij

j =1 f i .

• Le centre (de gravité) du nuage de points composé des f.j

 Le nuage des p colonnes dans l'espace des n lignes


n f
• Comme ∑ =1 , le nuage est même situé dans un sous-espace à n-1 dimensions
ij

i =1 f . j

• Le centre (de gravité) du nuage de points composé des fi..

Exemple avec 3 variables initiales : le nuage de points est contenu dans un espace à 2
dimensions, centré sur le centre de gravité G.

Jean-Louis Girard - 40 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…

V3

V2

u1
G
1

V1
1

V3

u2

u3
G

V2
V1

 Le vecteur propre associé à la plus grande valeur propre (1 par construction) concerne la
direction qui sépare l'origine du centre de gravité (information qui peut être négligée) ; les
vecteurs propres associés aux valeurs propres suivantes sont les seuls qui apportent une
information relative aux positions relatives des points entre-eux.

Jean-Louis Girard - 41 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…
 Quelle distance utiliser ?

• La distance euclidienne entre des points-lignes (respectivement colonnes) réalisée dans


un tableau de données brutes traduirait la différence d'effectif entre deux modalités de
la variable 1 (respectivement variable 2).

• La distance euclidienne entre profils-lignes (respectivement colonnes) traduirait bien la


ressemblance entre deux modalités de la variable 1 (respectivement variable 2) sans
tenir compte des effectifs totaux de ces deux modalités. Mais cette distance favorise les
colonnes qui ont une fréquence élevée.

Pour palier cela, on pondère chaque écart par l'inverse de l'effectif de la colonne (profils-
lignes) ou de la ligne (profils-colonnes). Cette distance est appelée distance du χ² :

2
p
 f ij f i ' j 
d χ 2 (i, i') = ∑
1
2
 −  pour les profils-lignes
j =1 f. j  f i. f i '. 

2
n
1  f ij f ij ' 
d χ 2 ( j , j ') = ∑
2
− pour les profils-colonnes
i =1 f i.  f. j f. j ' 

 Propriétés de la distance du χ²

• Equivalence distributionnelle : on peut agréger deux modalités d'une même variable


sans changer les distances entre modalités de cette variable, ni aux distances entre
modalité de l'autre variable (on peut par exemple agréger les départements d'une même
région)

• Relations quasi-barycentriques : les modalités de la variable 1 sont des centres de


gravité pour les modalités de la variable 2 prises ensemble, et réciproquement. En
d'autres termes, l'ensemble des modalités de la variable 2 est contenu dans
"l'enveloppe" des modalités de la variable 1, et réciproquement

Jean-Louis Girard - 42 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…
 Notations

0
Dn fi.
matrice des marges-lignes
0

0
1/fi.
Dn−1 inverse de Dn
0

0
Dp f.j
matrice des marges-colonnes
0

0
D −1
inverse de D p 1/f.j
p
0

fij fi.
F matrice des fréquences

f.j 1

Jean-Louis Girard - 43 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…

 Analyse du nuage des points-lignes


 distance
du χ 2
 des projections
 sur l 'axe u
par rapport
 à l 'origine
pondérée
 par les
 fréquences
des lignes
 6 78


Max
u
∑ i
f 2
i . d χ 2 (i, O )

s.c. u ' D p−1u


 123
 pour
vecteur unitaire
la métrique
 utilisée

∇ : On pondère les modalités par leurs fréquences afin de ne pas privilégier les classes de
faible effectif.

Cela revient à résoudre le programme :

(
Max u ' D p−1 F ' ) ( ) (14
{
D F ')'
Dn−1 −1
p ( ) ( )
u = u ' D p−1 F ' Dn−1 FD p−1 u = u ' D p−1 F ' Dn−1 FD p−1u
 1 2 3 24
3
Métrique
Pr ofils − colonnes
 Transposée des
profils − colonnes
s.c. u ' D −1u
 12p3
 pour
vecteur unitaire
 la métrique
utilisée

En excluant la valeur propre triviale unitaire (analyse par rapport au barycentre), cela revient à
diagonaliser la matrice :

S = F ' Dn−1 FD p−1

de terme général :

n f ij f ij '
s jj ' = ∑
i =1 f i. f . j '

Jean-Louis Girard - 44 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…
 Analyse du nuage des points-colonnes

 distance
du χ 2
 des projection s
 sur l ' axe u
par rapport
 à l ' origine
pondérée
 par les
 fréquences
des colonnes
 678
 Ma Max ∑ f . j d χ2 2 ( j , O )
 v
j
 s .c . v ' D n− 1 v
 123
 vecteur unitaire
pour la métrique
 utilisée

Cela revient à résoudre le programme :

Max v' Dn−1 F(


123
) ({
D ) (D F )' v = v' (D F )D (F ' D )v = v' D
123
−1
p
−1
n
−1
n
−1
p
−1
n
−1
n FD p−1 F ' Dn−1v
 Pr ofils −lignes Métrique Transposée des
 profils − lignes
s.c. v' D p−1v
 123
 pour
vecteur unitaire
 la métrique
utilisée

En excluant la valeur propre triviale unitaire (analyse par rapport au barycentre), cela revient à
diagonaliser la matrice :

T = FD p−1 F ' Dn−1

de terme général :

p f ij f i ' j
t ii ' = ∑
j =1 f . j f i '.

Jean-Louis Girard - 45 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…
 Résumé

Dans Rp Dans Rn
S = F ' Dn−1 FD p−1 Matrice à T = FD p−1 F ' Dn−1
diagonaliser
Suα = λαuα Axes factoriels Tvα= λαvα
ψ α = Dn−1 FD p−1uα ϕα = D p−1 F ' Dn−1vα
Coordonnées
p f ij n f ij
ψ αi = ∑ u αj factorielles ϕ αj = ∑ vαi
j =1 f i. f . j i =1 f i. f . j
1 1
uα = F ' Dn−1vα vα = FD p−1uα
λα λα
ψ α = λα Dn−1vα Relations de ϕα = λα D p−1uα
transition
λα λα
ψ αi = vαi ϕ αj = u αj
f i. f. j
1 p f ij 1 n f ij
ψ αi =
λα
∑f
j =1
ϕ αj Relations quasi-
barycentriques
ϕ αj =
λα
∑f
i =1
ψ αi
i. .j

1 p k ij+ Eléments 1 n k ij+


ψ α+i =
λα
∑k
j =1
+
ϕ αj
supplémentaires
ϕα+j =
λα
∑k
i =1
+
ψ αi
i. .j

f i. ψ α2i f . j ϕ α2j
Crα (i ) = Contributions Crα (i ) =
λα λα
ψ 2
αi ϕα2i
Cosα2 (i ) = Cosinus carrés Cosα2 ( j ) =
d χ2 2 (i, G ) d χ2 2 ( j , G )

 Généralement, les matrices S et T ne sont pas symétriques : il faut donc les "symétriser"

A la place de S, on diagonalise A = D p−1 / 2 F ' Dn−1 D p−1 / 2 , c'est-à-dire on calcule Aw=λw. Ces
matrices ont les mêmes valeurs propres ; on montre que u = D p−1 / 2 w .

De même, on ne diagonalise par T mais B = Dn−1 / 2 FD p−1 Dn−1 / 2 c'est-à-dire on calcule Bz=λz.
Ces matrices ont les mêmes valeurs propres ; on montre que v = Dn−1 / 2 z .

 Les relations barycentriques nous indiquent que les projections des points d'un nuage sont
les barycentres des projections des points de l'autre nuage : les coordonnées d'une modalité i
d'une variable sont les moyennes des coordonnées des modalités j de l'autre variable
pondérées par les fréquences conditionnelles du profil de la modalité i. On peut donc trouver
les positions des points d'un nuage à partir des positions des points de l'autre nuage

Jean-Louis Girard - 46 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…
 Ce sont ces relations qui permettent de trouver les positions des éléments (colonnes ou
lignes) supplémentaires.

 Bien souvent, lorsque les variables sont ordonnées, un effet "Guttman" apparaît

Il désigne une certaine redondance entre les variables impliquées : un axe (souvent le
premier), oppose alors les valeurs extrêmes de ces variables

Jean-Louis Girard - 47 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…

4.2. L'analyse des correspondances multiples (croisement de


nombreuses variables qualitatives)

 On considère ici un nuage de points dont les coordonnées sont présentées dans un tableau
R du type :

Tableau de données condensées R

Variable 1 Variable 2 … Variable q … Variable s


Individu 1 …
Individu 2 …
… …
Individu i … … … riq … …
… …
Individu n …

Le terme riq désigne la modalité de la question q choisie par l'individu i.

 Un tel tableau est inexploitable tel quel (les sommes des lignes ou des colonnes n'ont pas
de sens) ; il faut recoder les variables pour former le tableau disjonctif complet Z (ou tableau
logique).

Tableau disjonctif complet Z

Var 1 … Var q ... Var y


… Mod … Mod … Mod qr … Mod … Mod … Mod
Mod 11 Mod q1 Mod y1
1r 1a qb yr yc
Individu 1 …
Individu 2 …
… …
… … … … … … = 1 si .… … … …
cette
modalité
Individu i … … … … … …
est
choisie,
0 sinon
… …
Individu n …

Jean-Louis Girard - 48 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…

Pour un individu et une variable donnés, la ligne ne contient que des 0 sauf pour la modalité
choisie :

Σ
… Variable q
Modalité r de la variable q

= 1 si la modalité est choisie Nombre
Individu i …  … de
= 0 sinon variables

Nombre d'individus ayant


Σ
choisi cette modalité

Faire une analyse des correspondances multiples revient à faire une analyse des
correspondances sur un tableau disjonctif complet.

 Tableau de Burt B

Le tableau de Burt associé au tableau disjonctif complet Z est défini par :

B = Z'Z, de taille (p,p)


n
de terme général b jj ' = ∑ z ij z ij '
i =1

Modalités Modalités Modalités


de la de la de la
variable 1 variable 2 variable 3
Modalités 0 0
de la 0 0
variable 1
0 0
0 0 0 0
Modalités 0 0 0 0
de la 0 0 0 0
variable 2
0 0 0 0
0 0 0 0
Modalités 0 0
de la 0 0
variable 3
0 0

Ce tableau croise deux à deux toutes les modalités ; chaque cellule donne le nombre
d'individus présentant à la fois la modalité j et la modalité j' :

Jean-Louis Girard - 49 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…
• La diagonale donne le nombre d'individu présentant la modalité j (ou j' puisque j = j') ;

• Les sous-matrices diagonales ne sont donc composées que de zéros, sauf sur leur
première diagonale.

 A partir du tableau de Burt, on construit la matrice diagonale D, qui ne comporte que des
zéros sauf sur sa première diagonale où figurent les éléments diagonaux de B :

Modalités Modalités Modalités


de la de la de la
variable 1 variable 2 variable 3
Modalités 0 0 0 0 0 0 0 0 0 0
de la 0 0 0 0 0 0 0 0 0 0
variable 1
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
Modalités 0 0 0 0 0 0 0 0 0 0
de la 0 0 0 0 0 0 0 0 0 0
variable 2
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
Modalités 0 0 0 0 0 0 0 0 0 0
de la 0 0 0 0 0 0 0 0 0 0
variable 3
0 0 0 0 0 0 0 0 0 0

 On conserve la distance du χ² qui a ici encore du sens

2
 z ij z ij ' 
n
• La distance entre deux modalités s'écrit : d χ 2 ( j , j ' ) = ∑ n −
2 
 z
i =1  . j z ' 
.j 

Si chaque individu a choisi les modalités j et j' ensemble, alors zij = zij' et d χ2 2 ( j , j ' ) = 0 .
D'autre part, les modalités avec des effectifs faibles sont éloignées les unes des autres.

(i, i ' ) = ∑ (z ij − z i ' j )


1 p n
• La distance entre deux individus s'écrit : d χ 2 2

s j =1 z. j
avec s le nombre de variables.
Si les individus i et i' ont choisi les mêmes modalités, alors zij = zi'j et d χ2 2 (i, i ' ) = 0.

Jean-Louis Girard - 50 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…
 Notations

1 δ ij
Dn In f i. =
n n
inverse de Dn n
f i. = si i =j
Dn−1 (métrique de δ ij
la distance du χ²) 0 sinon
1 z. j
Dp D f . j = δ ij
ns ns
ns
f. j = si i=j
D p−1 inverse de D p δ ij z. j
0 sinon
1 z ij
F Z f ij =
ns ns

avec δij = 1 si i=j, 0 sinon.

 Résumé

Dans Rp Dans Rn
1 Matrice à 1
S = F ' Dn−1 FD p−1 = Z ' ZD −1 T = FD p−1 F ' Dn−1 = ZD −1 Z '
s diagonaliser s
1 1
Z ' ZD −1 uα = λαuα Axes factoriels ZD −1Z ' vα = λαvα
s s
1 −1 Coordonnées 1
D Z ' Z ψ α = λα ψ α ZD −1 Z 'ϕ α = λα ϕα
s factorielles s
1 1
ψα = Dn−1 Z 'ϕα Relations de ϕα = Zψ α
λα transition s λα
1 p z ij 1 n z ij
ψ αi =
λα
∑z
j =1
ϕ αj Relations quasi-
barycentriques
ϕ αj =
λα
∑z
i =1
ψ αi
i. .j

1 p k ij+ Eléments 1 n k ij+


ψ α+i =
λα
∑k
j =1
+
ϕ αj
supplémentaires
ϕ α+j =
λα
∑k
i =1
+
ψ αi
i. .j

f i. ψ α2i f . j ϕα2j
Crα (i ) = Contributions Crα (i ) =
λα λα
ψ 2
αi ϕ α2i
Cosα2 (i ) = Cosinus carrés Cosα2 ( j ) =
d χ2 2 (i, G ) d χ2 2 ( j , G )

Jean-Louis Girard - 51 -
Ingénierie de l'analyse des données - Passons maintenant à l'analyse de tableaux de variables
qualitatives…

∇ : Notons qu'il est également possible d'introduire des variables illustratives continues sans
les découper en classes, en calculant le coefficient de corrélation entre des variables et les
axes.

1  z. j 
∇ : l'inertie d'une modalité est égale à I ( j ) = 1 −  ; elle est d'autant plus grande que
s n 
l'effectif dans cette modalité est faible, d'où l'attention à porter lors du codage à ne pas
construire des classes de faibles effectifs qui troubleraient le calcul des axes : on s'arrange
souvent pour faire des classes d'effectifs proches (par équivalence distributionnelle).

L'inertie d'une question est donc I (q) = ∑ I ( j ) = ( p q −1) ; elle est d'autant plus grande que le
pq
1
j =1 s
nombre de modalités est élevé, d'où l'attention à porter dans le système de questions à
l'équilibre du questionnaire.

 Règles d'interprétation

• Proximité entre individus en termes de ressemblances : les individus ayant choisi


globalement les mêmes modalités seront situés à proximité les uns des autres ;

• Proximité entre modalités de variables différentes : les modalités choisies globalement


ensemble par les mêmes individus seront situées à proximité les unes des autres ;

• Proximités entre modalités d'une même variable : par construction, les modalités d'une
même variable s'excluent les unes des autres : si elles apparaissent proches, cela
signifie une certaine ressemblances des profils des individus qui les ont choisies.

• Il est intéressant de calculer la contribution d'une variable afin d'obtenir un indicateur


de liaison entre les variables et les axes.

Jean-Louis Girard - 52 -
Ingénierie de l'analyse des données - Compléments

5. Compléments
5.1. Quelques algorithmes de diagonalisation
Cf. TD

5.2. Et les autres directions d'allongement ?

 Généralement (!) le nuage s'étire dans plusieurs directions. Comment les traiter ?

On procède à la déflation de la matrice, c'est-à-dire qu'on lui ôte sa plus grande dimension
(cela revient à "enrouler" le nuage de points sur sa plus grande dimension).

Pour cela, on appelle "matrice déflatée" la matrice Vd = V - λuu'.

On réitère le processus (maximisation de l'inertie + déflation de la matrice) autant de fois que


nécessaire pour trouver l'ensemble des valeurs et vecteurs propres.

Jean-Louis Girard - 53 -

Das könnte Ihnen auch gefallen