Beruflich Dokumente
Kultur Dokumente
Analyse multidimensionnelle
Dfinition
cologie numrique: domaine de l'cologie quantitative qui traite de
l'analyse numrique des complexes de donnes (surtout dans un
contexte syncologique) (Legendre & Legendre, 1984). La plupart
des mthodes sont multivariables ou multidimensionnelles (voir cidessous). Contrairement la biostatistique, lcologie numrique (...)
combine systmatiquement les mthodes statistiques appropries
lcologie avec des techniques numriques non statistiques
(groupements, etc.), ceci trs souvent sans rfrence des distributions
thoriques (tests statistiques) (Legendre & Legendre, 1984).
Ajoutons quune partie importante des mthodes dcologie
numrique, particulirement dans les approches nouvelles labores
depuis les annes 1980, a t conue et mise au point par des
cologistes (et non des statisticiens purs) en fonction de
problmatiques spcifiques lcologie.
Analyse multivariable, analyse multidimensionnelle: ensemble de
mthodes d'analyse numrique traitant en bloc de tableaux de donnes
o chaque observation, chaque lment dchantillonnage est dfini
par plusieurs variables: abondances despces, mesures de climat,
etc.
Bio-2042
Analyse multidimensionnelle
1. Les donnes
En lieu et place de variables dpendantes prises isolment les unes des
autres, l'analyse multivariable traite de tableaux de donnes. Le
tableau de donnes de l'cologiste est en gnral une matrice
rectangulaire de la forme suivante:
Descripteurs
Variable 1
Variable 2
Variable j
Variable p
Objets
Objet 1
Objet 2
.
Objet i
.
Objet n
y11
y21
y12
y22
...
...
y1j
y2j
...
...
y1p
y2p
yi1
yi2
...
yij
...
yip
yn1
yn2
...
ynj
...
ynp
Bio-2042
Analyse multidimensionnelle
Descripteurs
Espces
p
Variables
spatiales
1
l
Objets
Variables
environnementales
1
m
Bio-2042
Analyse multidimensionnelle
a 11
Mode Q
a 1i
a 1n
a 11
Mode R
a 1j
a 1p
Ann = a i1
a ii
a in
A pp = a j1
a jj
a jp
a n1
a ni
a nn
a p1
a pj
a pp
Bio-2042
Analyse multidimensionnelle
Bio-2042
Analyse multidimensionnelle
Relev
1
Relev
2
Relev
3
Classe de taille 1
Classe de taille 2
Classe de taille 3
- quantitatifs: - discontinus (ex.: nombre de personnes dans cette
salle, nb. d'individus par espce...
Esp. 1 Esp. 2 Esp. 3
Relev
1
Relev
2
Relev
3
12
18
56
Bio-2042
Analyse multidimensionnelle
Bio-2042
Analyse multidimensionnelle
indices symtriques
binaires
indices asymtriques
Donnes
quantitatives
indices symtriques
indices asymtriques
Bio-2042
Analyse multidimensionnelle
a+d
S1 =
a+b+c+d
Figure 5: construction de l'indice de simple concordance S1.
a reprsente les descripteurs pour lesquels les deux objets sont cods
1, d ceux o les deux objets sont cods 0, b et c ceux o l'un des
objets est cod 1 et l'autre 0. (a + b + c + d) = le nombre total de
descripteurs. On peut aussi reprsenter cela sous la forme d'un tableau
double entre:
Bio-2042
Analyse multidimensionnelle
10
Bio-2042
Analyse multidimensionnelle
11
a
a+b +c
2a
S8 =
2a + b + c
S7 =
W
2W
=
( A + B) 2 A + B
Exemple:
Bio-2042
Analyse multidimensionnelle
S17 =
Objet 1
Objet 2
70
64
3
4
4
7
5
4
1
3
Minima
64
12
83
82
76
2 76
= 0.921
83 + 82
Bio-2042
Analyse multidimensionnelle
13
D = 1 S2
D = 1 S
D = 1 S Smax
Ces conversions fournissent tous les indices appropris dans le cas des
indices portant sur des descripteurs qualitatifs ou binaires.
2.4.5.2 Mesures de distance pour descripteurs quantitatifs
Au contraire des mesures de similarit, les mesures de distance
accordent une valeur maximale deux objets compltement diffrents
et minimale (0) deux objets identiques. On distingue deux catgories
principales dindices de distance selon leurs proprits gomtriques:
- les mtriques, qui obissent aux quatre proprits suivantes:
1. Si a = b alors D(a,b) = 0
2. Si a b alors D(a,b) > 0
3. D(a,b) = D(b,a)
4. D(a,b) + D(b,c) D(a,c)
- les semi-mtriques, qui nobissent pas la quatrime proprit cidessus, et quon ne peut donc positionner correctement dans un
espace euclidien (comme on cherche le faire en analyse des
coordonnes principales, voir plus loin).
Le plus vident des indices de distance mtriques est la distance
euclidienne (D1). Chaque descripteur est considr comme une
dimension dans un espace euclidien, les objets sont positionns dans
Bio-2042
Analyse multidimensionnelle
14
2
y
y
(
)
1j 2 j
j =1
Bio-2042
Analyse multidimensionnelle
15
Bio-2042
Analyse multidimensionnelle
16
Bio-2042
Analyse multidimensionnelle
17
3. Groupement
3.1. Aperu gnral
Le groupement ( clustering en anglais) est une analyse
multidimensionnelle qui vise partitionner lensemble des objets (ou
des descripteurs, pour le mode R). Une partition est une division de
lensemble en sous-ensembles, telle que chaque objet (ou descripteur)
appartienne une et une seule sous-collection (les groupes sont
mutuellement exclusifs: par exemple, une espce ne peut appartenir
deux genres en mme temps).
Dans la grande majorit des cas, les mthodes de groupement oprent
partir de matrices dassociation (similarit, distance ou
dpendance), do la ncessit de choisir une mesure de ressemblance
approprie.
On peut classer ainsi les grandes familles de mthodes de groupement:
1. Algorithmes squentiels ou simultans. La plupart des mthodes sont
squentielles et consistent en la rptition dune procdure donne jusqu ce que tous les
objets aient trouv leur place: recherche des deux objets les plus proches, puis du troisime
ou dune autre paire, et ainsi de suite, ou division en deux groupes, puis en 4... Les
algorithmes simultans, au contraire, sont ceux o lon arrive la solution en une seule
tape de calcul.
2. Agglomration ou division.
Bio-2042
Analyse multidimensionnelle
18
Bio-2042
Analyse multidimensionnelle
19
1
2
3
4
0.20
0.25
0.40
0.45
0.35
0.30
0.80
0.50
0.60
0.70
______________________________________________________________
Bio-2042
Analyse multidimensionnelle
20
0.1
0.2
Connexit 0.000
0.3
0.4
0.5
1
2
3
4
5
Figure 7: Dendrogramme du groupement liens simples de lexemple
ci-dessus.
Lchelle
reprsente
les
distances.
Liaison
proportionnelle et connexit: voir texte.
Bio-2042
Analyse multidimensionnelle
21
Bio-2042
Analyse multidimensionnelle
Liaison proportionnelle
0.0
0.1
0.2
0.3
0.4
22
Connexit 1.000
0.5
0.6
0.7
1
2
3
4
5
Figure 8: Dendrogramme du groupement liens complets de
lexemple ci-dessus. Lchelle reprsente les distances.
La comparaison entre les deux dendrogrammes rvle la diffrence de
philosophie et de rsultats des deux mthodes: le groupement liens
simples permet un objet de rejoindre facilement un groupe, puisquil
suffit quil soit li un seul membre de ce groupe (on pourrait dire que
ladmission fonctionne par parrainage par un seul membre du
groupe!). Il sensuit une tendance produire des enchanements: une
paire se forme, bientt rejointe par un objet, puis par un autre, etc.
Cette proprit rend la mthode intressante pour mettre en vidence
des gradients (l'ordination, vue au chapitre prochain, est cependant
mieux adapte l'tude des gradients). Le groupement liens
complets, au contraire, est plus contraignant. Un groupe nadmet un
nouveau membre qu lunanimit, puisque le candidat doit tre li
tous les membres du groupe pour y entrer. Il sensuit aussi que plus
le groupe grandit, plus il est difficile dy entrer. On constate par
consquent la formation spare de plusieurs petits groupes (moins il
y a de membres, plus cest facile d'y entrer), qui ne se rejoignent qu
grande distance (ou faible similarit). Cette mthode est donc
particulirement propice pour trouver des sparations dans des
donnes a priori assez compactes. En dautre termes, la premire
mthode contracte lespace entre les objets, alors que la deuxime le
dilate.
Bio-2042
Analyse multidimensionnelle
23
Bio-2042
Analyse multidimensionnelle
24
Moyennes
arithmtiques
Poids gaux
Groupement selon
lassociation moyenne (UPGMA)
Poids ingaux
Groupement poids
proportionnels (WPGMA)
Groupement
centrode
Groupement
centrode (UPGMC)
Groupement
mdian (WPGMC)
Bio-2042
Analyse multidimensionnelle
25
0.1
0.2
0.3
0.4
0.5
0.6
1
2
3
4
5
Figure 9: Dendrogramme du groupement selon lassociation moyenne
de lexemple.
Ce rapide survol n'inclut de loin pas toutes les mthodes de
groupement disponibles. Mais il montre au moins que, contrairement
ce qu'on pourrait imaginer, il existe de trs nombreuses manires
d'obtenir un groupement partir d'une matrice d'association, et que le
choix dpend des buts du chercheur.
Bio-2042
Analyse multidimensionnelle
26
Bio-2042
Analyse multidimensionnelle
27
Bio-2042
Analyse multidimensionnelle
28
Chacun de ces axes est (entre autres) caractris par une valeur
propre (1 et 2); ces valeurs propres mesurent la quantit de
variation du nuage de points absorb par l'axe correspondant.
Ce systme d'axes peut aussi tre vu comme un nouveau rfrentiel
dans lequel on peut exprimer les coordonnes des objets: on projette
les objets orthogonalement sur chacun des axes pour obtenir leurs
coordonnes sur les axes en question:
Bio-2042
Analyse multidimensionnelle
29
Bio-2042
Analyse multidimensionnelle
30
Legendre, P. & Gallagher, E. D. 2001. Ecologically meaningful transformations for ordination of species
data. Oecologia 129: 271-280.
Bio-2042
Analyse multidimensionnelle
31
1
4
5
4
2
6
Obj.3
Obj.4
3
1
Obj.5
3
2
0
5
Obj.6
4
0
Bio-2042
Analyse multidimensionnelle
32
Bio-2042
Analyse multidimensionnelle
33
Les axes factoriels d'une ACoP se lisent comme ceux d'une AFC,
ceci prs que, dans sa forme simple, l'ACoP ne permet pas la
reprsentation simultane des objets et des descripteurs. La fonction
wascores de vegan, ainsi que la fonction biplot.pcoa de la librairie
PCNM (Legendre et al.) permettent toutefois la projection des espces
dans le graphe des objets.
4.5. Cadrage multidimensionnel non-mtrique
En anglais: nonmetric multidimensional scaling (NMDS ou MDS).
Cette mthode cherche reprsenter dans un nombre rduit et
primpos d'axes les relations d'ordre entre les objets. Elle peut se
baser sur des indices non-mtriques, et peut mme s'accommoder de
valeurs de distances manquantes, pour autant qu'il y ait assez
d'information pour positionner un objet par rapport quelques autres.
Le cadrage des objets est ralis itrativement par minimisation d'une
fonction de stress. Pour un nombre donn et petit de dimensions (par
exemple 2 ou 3), le cadrage non-mtrique permet souvent de
reprsenter une matrice de distances avec moins de dformations que
l'analyse en coordonnes principales.
4.6. Ordination canonique: analyses canoniques de redondance et
des correspondances (ACR et ACC)
En anglais: (canonical) redundancy analysis (RDA) et canonical
correspondence analysis (CCA). Les mthodes passes en revue cidessus sont destines reprsenter la variation d'une matrice de
donnes en un nombre rduit d'axes. L'interprtation des structures
dgages se fait a posteriori, par exemple en corrlant les coordonnes
des objets sur les axes d'ordination avec des variables explicatives. Le
processus de lordination nest pas influenc par les variables
explicatives. On laisse la matrice de donnes sexprimer sans
contrainte. Cette dmarche est de type exploratoire, ou descriptif. On
Bio-2042
Analyse multidimensionnelle
34
Variables explicatives
1 variable
m variables
m variables
Type danalyse
Rgression simple
Rgression multiple
Ordination simple
Ordination canonique
Bio-2042
Analyse multidimensionnelle
35
Bio-2042
Analyse multidimensionnelle
36
Figure 14: diagramme de triple projection (triplot) d'ACC montrant les objets (cercles
noirs), les variables dpendantes (carrs blancs), les variables explicatives quantitatives
(flches) et les variables explicatives binaires (toiles). L'affinit des espces pour les
variables environnementales quantitatives s'estime par projection orthogonale des espces
sur les vecteurs, et l'affinit des espces pour les variables binaires se mesure leur
proximit ces dernires. Cadrage de type 1 (voir Legendre & Legendre 1998).
Bio-2042
Analyse multidimensionnelle
37
Figure 15:
Bio-2042
Analyse multidimensionnelle
38
Bio-2042
Analyse multidimensionnelle
39
Legendre, P. & D. Borcard. 2006. Quelles sont les chelles spatiales importantes dans un cosystme? In:
J.-J. Droesbeke, M. Lejeune et G. Saporta (ds), Analyse statistique de donnes spatiales.
Editions TECNIP, Paris.
Bio-2042
Analyse multidimensionnelle
40
Mantel, N. 1967. The detection of disease clustering and a generalized regression approach. Cancer Res.
27: 209-220.
Bio-2042
Analyse multidimensionnelle
41
zM =
xij yij
i=1 j =i+1
rM =
d 1 i=1 j =i+1 sx sy
o i et j sont comme ci-dessus, x-barre, y-barre, sx et sy sont les
moyennes et carts-types des valeurs de chacune des matrices,
et d = n(n1)/2 est le nombre de valeurs de similarit ou distance dans
une des matrices (sans la diagonale).
Bio-2042
Analyse multidimensionnelle
42
5.2.2. Exemple:
Imaginons deux matrices de similarits entre 4 objets:
1
2
3
0.25
0.43
0.55
0.43
0.41
0.47
0.17
0.39
0.22
0.60
0.66
Matrice espces
0.71
Matrice tldtection
Bio-2042
Analyse multidimensionnelle
43
Bio-2042
Analyse multidimensionnelle
44
1 0.55 0.63
0.15
0.26
0.28
0.31
0.46
0.09
0.26
0.37
0.52
0.78
0.86
0.77
3
4
5
0.62
Matrice Espces
1
Matrice Modle
Mise en garde
Le paragraphe ci-dessous est traduit d'un manuscrit de Pierre
Legendre7. Il met en garde les usagers contre une utilisation
inapproprie du test de Mantel.
"Les empiristes qui sourcillent la vue de justifications thoriques
seront peut-tre intresss par le fait que le R2M d'un test de Mantel ou
d'une rgression sur matrices de distances est toujours beaucoup plus
bas que le R2 d'une rgression (multiple) ou d'une analyse canonique
calcule sur les donnes brutes, lorsqu'une telle opration est possible;
cela a souvent t relev par les usagers du test de Mantel. C'est aussi
l'un des rsultats rapports par Dutilleul et al. (2000, Tableau 2)8; on
peut aisment le vrifier sur n'importe quel jeu de donnes. Legendre
7
8
Legendre, P. Mantel and partial Mantel tests: practical aspects. Submitted (Evolution).
Dutilleul, P., J. D. Stockwell, D. Frigon, and P. Legendre. 2000. The Mantel-Pearson paradox: statistical
considerations and ecological implications. Journal of Agricultural, Biological, and
Environmental Statistics 5: 131-150.
Bio-2042
Analyse multidimensionnelle
45
Legendre, P. 2000. Comparison of permutation methods for the partial correlation and partial Mantel tests.
Journal of Statistical Computation and Simulation 67: 37-73.
Legendre, P., D. Borcard and P. R. Peres-Neto. 2005. Analyzing beta diversity: partitioning the spatial
variation of community composition data. Ecological Monographs 75: 435-450.
11
Legendre, P., D. Borcard and P. R. Peres-Neto. 2008. Analyzing or explaining beta diversity: Comment.
Ecology 89: 3238-3244.
10