Sie sind auf Seite 1von 62

8.

ANALYSE
MULTIDIMENSIONNELLE 2

Groupements
1

Recherche des discontinuits dans les ensembles de


donnes

Une partition est une division de l'ensemble en sousensembles, telle que chaque objet (ou descripteur)
appartienne une et une seule sous-collection

Grandes familles de
mthodes de groupement
1. Algorithmes squentiels ou simultans
2. Agglomration ou division
3. Mthodes monothtiques ou polythtiques
4. Mthodes hirarchiques ou non
5. Mthodes probabilistes ou non

Exemple

Classification cologique de prlvements (1-5) sur la


base des abondances des espces prsentes

On
obtiendrait
exactement
la
mme
chose
avec
S
17

Ide sous-jacente : les milieux partageant les mmes


Mesure de distance : D14

espces sont cologiquement proches

Groupement agglomratif liens


Groupement agglomratif liens simples
Lien avec un seul lment du groupe
________________________________________
2
3
4
5
1
0.20
0.25
0.45
0.80
2
0.40
0.35
0.50
3
0.30
0.60
4
0.70
________________________________________
0.0
1
2
3
4
5

0.1

0.2

0.3

0.4

0.5

D14

0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,60
0,70
0,80

Paires formes
1-2
1-3
3-4
2-4
2-3
1-4
2-5
3-5
4-5
1-5

Groupement agglomratif liens complets


Lien avec tous les lments du groupe
________________________________________
2
3
4
5
1
0.20
0.25
0.45
0.80
2
0.40
0.35
0.50
3
0.30
0.60
4
0.70
________________________________________
0.0
1
2
3
4
5

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

D14

0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,60
0,70
0,80

Paires formes
1-2
1-3
3-4
2-4
2-3
1-4
2-5
3-5
4-5
1-5

Liens simples : contracte lespace entre objets


(enchanements)

Liens complets : dilate lespace entre les objets


(groupes bien spars)
0.0

0.1

0.2

0.3

0.4

0.5

0.0

0.1

0.2

0.3

0.4

0.5

1
2
3
4
5

1
2
3
4
5

0.6

0.7

0.8

Groupement agglomratif liens intermdiaires


Lien avec une proportion donne des lments du
groupe

Proportion = connexit.Varie entre 0 (liens


simples) et 1 (liens complets)

Connexit = 0,5
0.0
1
2
3
4
5

0.1

0.2

0.3

0.4

0.5

Groupement agglomratif moyen

Groupement selon lassociation moyenne


UPGMA (unweighted pair-group method using
arithmetic average)

Chaque lment du groupe garde le mme poids


pendant lanalyse

La matrice dassociation est reforme chaque


tape ( groupement liens)

Chaque nouveau groupe form est remplac par


sa valeur moyenne

Objets

0,20

0,25

0,45

0,80

0,40

0,35

0,50

0,30

0,60

0,70

2
1

3
4
5

0,65

0,30

0,60

0,70

1-2
3

0,325

0,3625 0,65

3-4

0,65

5
4

0.0

0,40

1-2
2

1-2-3-4
5

0,65
-

0.1

0.2

0.3

0.4

0.5

0.6

WPGMA
Idem UPGMA mais avec pondration selon le
nombre dlments dans le groupe

Augmente le contraste entre les groupes

Groupement centrode
UPGMC et WPGMC
Comme UPGMA et WPGMA mais en utilisant une
moyenne gomtrique plutt quarithmtique :
centrode (= barycentre, point de coordonnes
moyennes)

Peut conduire des inversions dans le


dendrogramme

Violation de la proprit ultramtrique :


D(A,B) Max |D(A,C) , D(B,C)|

Interprtation : polytomie

0.0
1
2
3
4
5

0.1

0.2

0.3

0.4

0.5

UPGMC

10

4
A

B
8
6,32

6
4

9,40

2
0
D

Mthode de Ward

Hirarchique
Sur donnes brutes ou matrices de distance
Minimise la somme des carrs des distances au centrode
de chaque groupe (variance l'intrieur de chaque
groupe) si applique aux donnes brutes, ou la somme
des carrs des distances entre paires si applique
une matrice de distance

Distances Euclidiennes (double zro) sur donnes

brutes (mthode originale), ou tout type de distance si


matrice de distance

K-means
Non hirarchique
Mthode divisive
Nombre de groupes dfini par l'utilisateur
Minimise la variance intragroupe des
donnes brutes

Distances Euclidiennes (double zro)

La matrice cophntique

Appele aussi matrice ultramtrique car elle rpond aux


4 proprits d'une matrice mtrique, et en plus la
proprit ultramtrique cite plus haut (si pas
d'inversion)

Matrice dassociation dont les distances (ou similarits)


sont calcules partir de larbre

A partir dun arbre phylogntique, cest la matrice de


distances patristiques

1
1

r et le coefficient de
La corrlation cophntique
2
dtermination r

Corrlation cophntique r : corrlation linaire


de Pearson entre la matrice d'association de
dpart et la matrice cophntique

Coefficient de dtermination r2 : variance

exprime par la matrice cophntique par


rapport la matrice d'association de dpart

La corrlation cophntique ne peut tre teste :


deux distributions pas indpendantes

Exemple
Corrlation cophntique r : 0.89
2
2
Coefficient de dtermination r : (0.89) = 0.79,

donc le dendrogramme du groupement selon


l'association moyenne de l'exemple reproduit 79%
de la variance de la matrice de distances
Euclidiennes

On peut utiliser le de Kendall ou le de Spearman


si on est plus intress par la topologie du
dendrogramme que par la longueur des branches

Ordination en espace rduit


Reprsentation de n objets sur lesquels on a mesur p
variables (avec gnralement p < n)

But : passer dun espace multidimensionnel complexe

un espace comprenant moins de dimensions (2 voire 3)

Lensemble des donnes (objets et/ou variables) sera


reprsent (ordonn) dans cet espace rduit

Problme : comment choisir ces dimensions ?

Le nuage de points

Les points-objets forment dans le repre dorigine


(les p dimensions) une hyperellipsode

Si la distribution des objets est multinormale, on

connat certaines proprits mathmatiques du


nuage de points (les mthodes dordination sont
assez robustes)

Ces proprits vont tre utilises pour choisir les


meilleures dimensions reprsentant la variabilit
des donnes

La forme du nuage de points dpend des relations


entre les variables
r = 0,7

r = -0,3

r=0

r=1

Axes principaux

On peut tablir les axes passant par le maximum de


variance du nuage de points

Ils sajustent au nuage de points selon le critre des


moindres carrs

Chaque axe est perpendiculaire aux autres (donc ils


sont linairement indpendants)

Ces axes sont des combinaisons linaires des


variables dorigine

On les appelle les axes principaux (parfois facteurs)

Masse

Axe Principal 1

Axe Principal 2
Longueur
Ha
ut

eu
r

Valeur propre et vecteur propre

A chaque axe sont associs une valeur propre et un


vecteur propre

Valeur propre () : variance exprime par laxe


Vecteur propre (u) : direction de laxe

La variance exprime par un plan form par deux

axes principaux est la somme des variances (valeur


propres) exprimes par ces axes

Il y a autant de et de u que de variables dorigines :


redcoupage et hirarchisation de la variance

Coordonnes dans le nouveau


systme daxes : composantes
principales

Axe Principal 1
1 = 50 %

u2

u1

Axe Principal 2
2 = 30 %

Plan 1 X 2 : 80 % de la variance totale du nuage de


points

Nombre de composantes
interprtables

Problme : la variance de nimporte quel nuage de

point peut-tre exprime sur des axes principaux, mais


il ne contient pas forcment de structure informative

Critres pour savoir si la variance exprime est

intressante, et le nombre daxes interprter

>
Bton bris
Diagramme de Shepard
moyen

Modle du bton bris


50
45
40
% variance

35
30
Alatoire
Observ

25
20
15
10
5
0
1

Valeurs propres

10

Diagramme de Shepard

Passage en espace rduit : projection des points sur


le plan exprimant le maximum de variance (1 X 2)

Le plan 1 X 2 peut ne pas suffire, on peut alors


utiliser dautres projections (1 X 3, 2 X 3)
Axe 3

Axe 2

+++
+

Axe 1

Axe 1

+
++ +
+

Mise en vidence des :


Ressemblances entre les objets (observations)
Ressemblances entre les variables
Relations entre les variables et les observations
Ordination sans contrainte : toute la variation de
lhyperellipsode est exprime puis interprte a
posteriori (analyse indirecte)

Analyse en composantes
principales (ACP)

Pour des donnes quantitatives ou semi-quantitatives


Suppose une relation linaire ou monotone entre les
variables

Utilisable avec des abondances despces avec certaines


transformations (ex. Legendre & Gallagher 2001)

Transpose un nuage de points-objets, situ dans un

espace multidimensionnel complexe, dans un sousespace plus simple, pour observer graphiquement les
relations entre les objets

Principales tapes du calcul

Matrice de donnes de dpart : centrage ou


centrage et rduction des donnes

Calcul de la matrice de covariance (= matrice de


corrlation si donnes standardises, cest le cas
gnral)

Calcul des valeurs propres et vecteurs propres


partir de cette matrice

Calcul des nouvelles coordonnes des objets

dans le repre form par les axes principaux : ce


sont les composantes principales

Projection des points dans un espace rduit, en


gnral les deux premiers axes

Calcul des coordonnes des descripteurs


originaux dans le nouveau repre

Reprsentation graphique

Diagramme dordination : projection sur le plan choisi


Diagramme de double projection dans lespace rduit
(= biplot) : objets et descripteurs
II
Descripteurs

Objets

Interprtation dans lespace rduit

Position des objets


Proximit des points : prserve la distance Euclidienne
Position des descripteurs
Flches se terminant sur les points-descripteurs
Angle entre les flches : covariance ou corrlation
Interprter les descripteurs ayant suffisamment
dinfluence sur le plan de projection : dpassant le
cercle des contributions quilibres (longueur des axes si
contribution gale chaque dimension) et proches du
cercle de rayon 1 (pour une matrice de corrlation)

Cercle des contributions


quilibres
II

Cercle de rayon 1

Projection des objets sur les descripteurs :

contribution de lobjet laxe. Plus la projection est


loin du centre, plus la valeur est loin de la moyenne
II


Entre une variable i et un axe descripteur k, labscisse

Pour un angle entre deux variables i et j : cos = rij


de i sur k (projection) est gal rik, pour des variables
centres-rduites (matrice de corrlation)
II

V1
rV1,I

Les deux principaux types dACP

Vecteurs propres norms 1


Les distances entre les objets sont
interprtables

Angles entre descripteurs non interprtables

Vecteurs propres norms


Angles entre descripteurs = corrlations
Distances entre objets non prserves

Rsum
Variables
Individus

II

u norms :
angles
=
corrlations

u norms 1 :
proximits
=
distances

Biplot

Variables
= descripteurs
Individus
= objets

II

Cercle des contributions


quilibres
Cercle de rayon 1

Exemple

Classification despces de Gyrodactylus (parasites) sur


la base de variables morphologiques mesures sur les
pices sclrifies du hapteur (Shinn et al., 2001)

Analyse factorielle de
correspondances (AFC)

Mme principe que lACP


Pour variables qualitatives, binaires, semi-quantitatives
et quantitatives

Typiquement : tude des relations entre deux


variables nominales

Donnes sous forme de tableau de contingence :


lanalyse cherche mettre en vidence les
correspondances (relations) entre les lignes et les
colonnes

En cologie : traitement des donnes

dabondance despces (descripteurs ici)


Espces

Stations

Trucus
S1

Frquence 1,1

S2

Frquence 2,1

Machinus

Bidulus

...

Exempla

S3

...

S4

Frquence i,j

Frquence n,p

Ide sous-jacente : expliquer la rpartition des stations


et/ou des espces selon des critres cologiques


Non affecte par le problme du double-zro
Suppose une relation unimodale avec les variables
2
Prserve la distance du entre les points

environnementales

Principales tapes du calcul

Transformation des frquences absolues en


probabilits : frquences relatives centres

= f.j

= fi.

= f..

Frquences absolues
qij

Q
Frquences relatives centres

fij

pij

pi.

= fij/f..

= fi./f..

p.j
= f.j/f..

=1

Frquences relatives

Avec qij = pij - pi.p.j / pi.p.j soit

- centrage (- frquence thorique)


- pondration

Calcul de la matrice de covariance partir de la


matrice Q

Calcul des valeurs propres et vecteurs propres


partir de cette matrice de covariance

Calcul des nouvelles coordonnes des objets dans


le repre form par les axes principaux

Projection des points dans un espace rduit, en


gnral les deux premiers axes

On peut placer les lignes et les colonnes du

tableau de contingence dans le mme espace


factoriel

Inertie totale = I =
On peut effectuer un test dindpendance des
deux variables

2
= npI avec np = effectif total
H
:
quelle
que
soit
la
station,
la
distribution
des
0
2
Test du , avec (n-1)(p-1) degrs de libert

espces est la mme

H0 : quelle que soit lespce, la rpartition selon


les stations est la mme

Interprtation dans lespace rduit

Variance du plan lie celles des valeurs propres


Comme en ACP, on peut ne placer que les sites
(objets) ou les espces (descripteurs) sur le
diagramme ; ou les deux (biplot)

Proximit entre objets (stations) et descripteurs

(espces) : ressemblance. Attention, cela est fonction


de la variance exprime par le plan considr

Plus les points sont proches du centre, plus ils sont


proches des caractristiques moyennes de
lchantillon

Interprtation des axes principaux en terme de

facteurs biologiques, en relation avec la projection


des objets et des descripteurs (comme ACP)

Relations de type barycentrique. On a deux


options pour la projection :

Type I. Placer les lignes (sites) au barycentre

(=centrode) des colonnes (espces) : meilleure


ordination des sites

Type II. Linverse donne une meilleure


ordination des espces :

Espces places au centre de gravit

(=barycentre = centrode) des sites o


elles sont prsentes

Chaque site est pondr par la frquence


relative de lespce considre

Les points-espces sont donc plus proches


des points-sites o leur occurrence est la
plus forte

Frquence relative du
site 8 pour lespce 11 :
raret ce site
Espce 4

Frquence relative de
lespce 3 au site 5 :
occurrence forte

Espce 2
Site 5
Espce 11

Espce 9

Site 8

Espce 3

Site
12

Site 9
Site 2
Espce 19

Type I

Type II

Exemple
Descripteurs
= espces

II

Sites

Espces

Objets =
stations

Ordination sur matrices de


distances
Analyse en coordonnes principales (PCoA) : permet
lutilisation de beaucoup de coefficients. Mthode
base sur les vecteurs propres pour reprsenter
objets ou variables

Nonmetric multidimensional scaling (NMDS) : mthode


non base sur les vecteurs propres, place les objets
dans un repre comportant un nombre prdfini
daxes, en minimisant une fonction de stress (0 1,
bien si 0,2). Fonctionne avec des valeurs
manquantes. Procd itratif assez intense en calcul

Test de Mantel

Test de la corrlation linaire entre deux matrices de


distances ou de similarits obtenues indpendamment

Hypothse nulle H0 : les distances (ou similarits) entre les


objets dans la matrice A ne sont pas en relation linaire avec
les distances (ou similarits) correspondantes dans la
matrice B

Lhypothse nulle est teste par permutations des


objets, car les distances ne sont pas indpendantes les
unes des autres

Statistique Z de Mantel
A

A
xij

yij

xij

.....

+X
+

yij

Test
1. Permutation alatoire des objets (A-D)
2. Calcul dun nouveau Z : Zp
3. Rptition n fois (ex : 999) des tapes 1 et 2
4. Ajout de la valeur observe Z aux 999 valeurs de
Zp
5. Trac de la distribution : histogramme de
frquences
6. H0 est rejete si Z fait partie des valeurs
extrmes (ex : 5%)

Statistique r de Mantel centre-rduite


(corrlation linaire de Pearson)

r = [ 1/(n-1)]

[ (x
i

ij -

x)/s x] (y i j - y)/s y

On peut aussi transformer les valeurs en rangs


et calculer le de Spearman

Exemple
Deux
matrices
de
distances
entre
4
sites
(S
-S
)
1 4

Distances
en
terme
dabondances
despces
(D
)
14

Distances
environnementales
(D
),
sur
la
base
de
1

plusieurs descripteurs du milieu

Matrice de distance D14


S2

S3

Matrice de distances D1
S2

S4

S3

S4

S1 0.25 0.43 0.55

S1 0.43 0.41 0.47

S2

0.17 0.39

S2

0.22 0.60

S3

0.66

S3

0.71

Calcul du Z de Mantel
Z = (0.25 x 0.43) + (0.43 x 0.41) + (0.55 x 0.47) +

(0.17 x 0.22) + (0.39 x 0.60) + (0.66 x 0.71) =


1.2823 (valeur observe)

: confrontation de la valeur observe


Test
lensemble des valeurs obtenues par permutations
alatoires (100 ici)

Permutations (Zp)

Observ

Proba (z)

Zobs

< Zobs

= Zobs

> Zobs

1.2823

95

0.05

(P = (2 + 3)/(95 + 2 + 3) = 5/100 = 0,05)


Observ

Permutations

Proba (r)

robs

< robs

= robs

> robs

0.7982

95

0.05

2
Le pourcentage de variance explique (R ), ainsi que la

puissance du test sont moins levs pour un test de


Mantel que pour une corrlation de Pearson sur les
donnes brutes correspondantes

Mieux dutiliser les donnes brutes quand cest


possible

Rserver le test de Mantel et ses drivs dans les


cas ou lutilisation des matrices de distance est
ncessaire

Pour contrler leffet dune troisime matrice (ex :

donnes temporelles ou spatiales), il existe un test de


Mantel partiel

Rgression multiple sur


matrices de distance

Gnralisation du test de Mantel plusieurs


matrices de distance : rgression multiple

Une matrice dpendante (Y)


N
matrices
indpendantes
(X
,
X
,
X
,...)
1 2 3

Test par permutations des objets de la matrice Y


Test des coefficients de rgression