Beruflich Dokumente
Kultur Dokumente
Notes de cours
P. Ailliot & V. Monbet
Université de Bretagne Sud
20 novembre 2007
2
Table des matières
1 Introduction 5
1.1 Qu'est-ce que la statistique spatiale ? . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Quelles données ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Quelques problèmes typiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Quelles méthodes ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Les logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Stationarité, isotropie et ergodicité . . . . . . . . . . . . . . . . . . . . . . . 8
3 Geostatistique 33
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Interpolation par la méthode des distances inverses . . . . . . . . . . . . . . 36
3.3 krigeage ordinaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1 Processus stationnaire . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Analyse variographique . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.3 krigeage ordinaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3
4 TABLE DES MATIÈRES
La statistique spatiale est l'ensemble des outils et methodes statistiques qui permettent de
décrire et d'interpréter des données spatialisées pour l'aide à la décision. Il s'agit de prendre
en compte la variation du caractère d'intérêt dans plusieurs dimensions simultanément et
de mettre en évidence des structures spatiales. Dans le cadre de la statistique spatiale, on
considère en eet que la localisation peut avoir une valeur explicative. Par exemple, deux
valeurs dans deux localités voisines ont plus de chance d'être proches que deux valeurs dans
deux localités éloignées.
On retrouve ce type d'idées en séries chronologiques. Cependant, dans les séries chronolo-
giques, le processus est indexé par le temps qui est en général unidimensionel et ordonné.
On ne retrouve pas cette notion d'ordre dans les séries temporelle. La notion de voisinage
devient plus complexe.
Dans le cadre de la statistique spatiale, on voit souvent revenir le terme géomatique. Selon le
Journal Ociel, 14 février 1994, "La géomatique est l'ensemble des techniques de traitement
informatique des données géographiques".
Le développement des capacités des ordinateurs puis des logiciels permettant de développer
et gérer des Sytèmes d'Informaion géographique (SIG) ont largement démocratisé l'usage de
la statistique spatiale ces dernières années. Auparavant, elle était essentiellement utilisée par
les géographes et quelques chercheurs. Aujourd'hui, de nombreuses disciplines utilisent des
techniques géodécisionnelles. Quelques exemples de domaines d'application et de problèmes :
géographie : cartographie
géologie : estimation de réserves de pétrole, de minerais, ...
épidémiologie : estimation des risques pour la santé liés au voisinage d'incinérateurs, ex-
pansion d'une épidémie, ...
archéologie : répartition de silex taillés
CRM : recherche d'iris à fort taux de client potentiels
écologie : répartition d'espèces dans une zone déterminée
Chaque champ disciplinaire dispose de données spéciques (de nature diérente) et chacune
des disciplines a tendance à développer ses méthodes propres. Un des roles du statisticien est
de mettre en place un formalisme standardisé et des techniques de validation des méthodes.
5
6 CHAPITRE 1. INTRODUCTION
Dans le cadre de ce cours, nous nous intéresserons en particulier aux processus ponctuels (cas
1.) et aux données géostatistiques (cas 2.). Le cas des données sur un réseaux régulier peut
être vu comme un cas particulier du cas 2. Mais la régularité du réseau permet généralement
de développer des modèles spéciques comme des modèles markoviens.
Images
1.4. QUELLES MÉTHODES ? 7
Données géostatistiques
Processus ponctuel
Comme en statistique appliquée, une étude en statistique spatiale voit se succéder plusieurs
approches. Dans un premier temps, il s'agit de décrire les données étudiées pour en dégager
les principales caractéristiques et en particulier de mettre en évidence une structure spatiale.
Les propriétés d'ordre un, telles que la moyenne pour un processus continu ou l'intensité
pour un processus ponctuel, donnent des informations locales.
Les propriétés d'ordre supérieur permettent de caractériser la dépendance spatiale. Par
exemple, on se pose la question de savoir si la mesure en un point s apporte de l'infor-
mation sur ce qui se passe dans un voisinage de s. Pour les données géostatistiques, si si
et sj sont proches on peut s'attendre à ce que zi apporte de l'information sur zj . Pour les
processus ponctuels, si on a observé un point en s, on s'attend à ce que ça nous informe sur
l'existence d'autres points dans un voisinage de s. Le plus souvent, on ne caractérise que
les propriétés d'ordre un et deux, car les propriétés d'ordre supérieur sont plus diciles à
estimer. Pour les données géostatistiques, , les propriétés du second ordre sont caractérisées
par le variogramme et pour les processus ponctuels par l'intensité d'ordre deux.
On peut chercher ensuite à modéliser cette structure pour répondre à diérents problèmes :
simulation, interprétation, prévision.
8 CHAPITRE 1. INTRODUCTION
On donne ci-dessous une liste non exhaustive des logiciels disponibles sur le marché. carto-
graphie
MapInfo, ArcGis, Grass (freeware), Philcarto (freeware)
Traitement statistique
Splus, R (Splancs, Statspat), matlab (EasyKrig, DACE), SAS Macro
Avant d'introduire les outils qui vont permettre d'estimer les caractéristiques des processus
spatiaux, il est nécessaire de dénir les notions de stationnarité, d'isotropie et d'ergodicité.
(voir Cressie).
Dénition 1 On dit qu'un processus est stationnaire s'il est invariant par translation,
c'est à dire si ses propriétés ne varient pas d'un point à l'autre de l'espace.
Dénition 2 On dit qu'un processus est isotrope s'il est invariant par rotation, c'est à
dire si ses propriétés ne varient pas avec l'orientation de l'espace.
Les hypothèses de stationarité et d'isotropie assurent que le processus présente les mêmes
propriétés partout dans le domaine d'étude. Cependant, en théorie, elles ne susent pas à
estimer des statistiques générales à partir d'une réalisation sans la propriété d'ergodicité.
1.6. STATIONARITÉ, ISOTROPIE ET ERGODICITÉ 9
Pour une série temporelle, l'hypothèse d'ergodicité consiste à admettre que l'évolution d'un
processus aléatoire au cours du temps apporte la même information qu'un ensemble de
réalisations. Pour toute fonction intégrable h,
N
1 X
Z
h(zi ) = h(z)dF (z)
N i
Pour les processus spatiaux, l'ergodicité est mal dénie. On peut cependant montrer que des
proprités de stationnarité et d'isotropie susent pour estimer les statistiques d'ordre deux
(voir Cressie).
10 CHAPITRE 1. INTRODUCTION
47.68 25
47.66
47.64
13
47.62
47.6
47.58
1
47.56
47.54
47.52 −11
−3 −2.95 −2.9 −2.85 −2.8 −2.75 −2.7
47.68 28
47.66
47.64
15
47.62
47.6
47.58
2
47.56
47.54
47.52 −12
−3 −2.95 −2.9 −2.85 −2.8 −2.75 −2.7
Fig. 1.1 Bathymétrie du Golfe du Morbihan - Haut : points de mesure, Bas : carte interpolée
1.6. STATIONARITÉ, ISOTROPIE ET ERGODICITÉ 11
6.6 6.6
6.4 6.4
6.2 6.2
6 6
5.8 5.8
5.6 5.6
5.4 5.4
5.2 5.2
5 5
3.5 4 4.5 3.5 4 4.5
4 4
x 10 x 10
55
50
45
40
35
30
25
20
15
10
0
0 5 10 15 20 25 30 35 40 45 50 55
Fig. 1.3 Répartition spatiale de Toupelos des forêts (nom latin Nyssa sylvatica) dans un
carré ; les cercles sont proportionnels aux diamètres des arbres
5 2
1.5
3
2
1
0.5
0
−1
0
−2
−3 −0.5
0 0.5 1 1.5 −1.5 −1 −0.5 0 0.5 1 1.5
2.1 Généralités
En statistique spatiale, les processus ponctuels sont introduits pour modéliser des individus
localisés et caractériser leur distribution (répartition) dans l'espace. Chaque individu est re-
présenté par un point dans la zone étudiée. La représentation graphique correspondante est
parfois appelée semis de points. Les points peuvent éventuellement être marqués ie qu'on
leur associe des informations supplémentaires (hauteur et diamètre d'un arbre par exemple).
On veut caractériser le semis par sa structure et non par la position des points, ie déduire
les propriétés de la population à partir de la réalisation observée. Par exemple, on va tes-
ter l'existence de contraintes sur les positions relatives (cluster, régularité, complètement
aléatoire).
Exemples de phénomèmes modélisés par des processus ponctuels : positions d'une certaine
espèce d'arbres (points), positions de 2 sous espèces (points marqués).
55
50
45
40
35
30
25
20
15
10
0
0 5 10 15 20 25 30 35 40 45 50 55
13
14 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX
En pratique, on observe les points dans une fenêtre bornée D ⊂ S (par exemple un rectangle)
et le plus souvent on se place dans R2 ie d = 2.
On suppose que le semis de points observé {Si }i=1,...,n est une réalisation d'un processus {s}
déni sur un domaine S ⊂ R2 (faire l'analogie avec les séries temporelles où {xt } est une
réalisation de {Xt }.
Dénition 4 On dit qu'une réalisation S d'un processus ponctuel spatial S est localement
nie si le cardinal de s noté n(sD ) est ni, où sD = s ∩ D .
Un processus ponctuel est caractérisé par la façon dont les points se répartissent dans l'espace.
Et on remarque qu'il est naturel de caractériser un processus ponctuel par la loi jointe de tout
k -uplet (N(A1 ), · · · , N(Ak )) avec A1 , · · · , Ak des sous ensembles bornés de D . Cependant,
dans la plupart des cas, il est dicile de caractériser ou modéliser la loi jointe et on se
restreint aux propriétés d'ordre deux.
1 1 1
0 0 0
Fig. 2.2 Diérentes répartitions spatiales d'un semis de 50 points - (a) : aléatoire uniforme,
(b) : regulière, (c) : aggrégée
2.1. GÉNÉRALITÉS 15
Le processus de Poisson
Le processus de Poisson joue un role particulier car c'est le modèle généralement utilisé pour
tester l'hypothèse de répartition uniforme d'un semis de points.
Nous considérons un procesus de Poisson déni sur un espace S ⊂ Rd et spécié par une
fonction d'intensité λ : S → [0, ∞[
R telle que B λ(ξ)dξ < ∞ pour tout B ⊂ S . On dénit la
R
Dénition 5 On dit qu'un processus ponctuel est un processus de Poisson, s'il est inté-
grable et si pour tout système de boréliens bornés disjoints A1 , · · · , An , les variables aléa-
toires N(A1 ), · · · , N(An ) sont indépendantes et suivent des lois de Poisson de paramètres
µ(Bk ),k = 1 · · · , n. La famille des lois conjointes est donc complètement déterminée par la
donnée de l'intensité λ.
Nous reviendrons sur ces notions un peu plus loin. Dans le cas général, λ dépend de la
position.
Dénition 6 On dit que le processus de Poisson est homogène si sa densité λ(.) est
constante.
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 0.5 1 0 0.5 1
Fig. 2.3 Réalisation d'un processus de Poisson homogène - à gauche : 50 points, à droite :
500 points
16 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX
Comment dénir l'analogue de la moyenne pour un processus spatial ponctuel ? L'idée na-
turelle est de dénir le nombre de points par unité de volume, c'est à dire l'intensité.
Dénition 7 La fonction d'intensité (d'ordre un) d'un processus ponctuel spatial est dénie
par
E[N(∆s)]
λ(s) = lim
|∆s|→0 |∆s|
λ(s) = λ = cte
Estimation globale
Lorsque le processus S est homogène, son intensité λ(s) est constante pour tout s ∈ S et
dans ce cas, le meilleur estimateur de λ est
n
λ̂ =
|S|
Estimation locale
Lorsque l'intensité λ n'est pas constante sur tout le domaine ou si on veut mettre en évidence
2.2. PROPRIÉTÉS D'ORDRE UN 17
des phénomènes locaux, il est naturel d'utiliser des estimateurs de densité pour estimer λ,
comme par exemple des histogramme ou des estimateurs à noyau. En eet, d'après la déni-
tion, on déduit facilement que pour toute observation {s1 , · · · , sn } d'un processus ponctuel
S , si A est un carré de côté a contenant s alors
n
1 X
1A (si ) tend vers λ(s)
na2 i=1
quand a tend vers 0. Autrement dit, l'histogramme bivarié construit à partir de l'échantillon
{s1 , · · · , sn } est un estimateur de la fonction λ.
On obtient une version lissée de l'histogramme en utilisant un estimateur à noyau λ̂h :
n
1 X
λ̂h (s) = κh (s − si )
ρh i=1
où
κh est le noyau, c'est à dire une fonction de densité symétrique autour de l'origine.
ρh est une constante de normalisation qui dépend de h et de n. Par exemple, dans R2 ,
ρh = nh2 .
h est la largeur de fenêtre, correspond à la largeur des bandes dans un histogramme. Plus h
est grand et plus l'estimation de la densité est lisse, et plus h est petite et plus l'estimation
prend en compte la variation dans les données.
Exemples de noyaux
fonction indicatrice (cas de l'histogramme)
Choix de h (voir Silverman, 1986) - On dénit la largeur de fenêtre optimale h∗ par le h qui
minimise l'erreur en moyenne quadratique entre l'intensité estimée et l'intensité théorique.
En pratique, on ne connait pas l'intensité théorique, mais pour toute largeur de fenêtre h,
on peut utiliser des techniques de bootstrap (ou de validation croisée) pour estimer l'erreur
en moyenne quadratique (cf Berman et Diggle, 1989).
Remarque - Visualiser la fonction d'intensité est une façon parmi d'autres de synthétiser
l'information liée au processus ponctuel.
Attention - Deux processus ponctuels peuvent avoir la même fonction d'intensité et des pro-
priétés d'ordre 2 diérentes : processus inhomogène + indépendance ou processus homogène
+ dépendance.
(a) (b)
0.16
40
40
0.5
0.1
20
20
0.2
0.04
0
0
0 20 40 0 20 40
(c) (d)
0.16
40
40
0.1
0.1
20
20
0.06
0.04
0
0 20 40 0 20 40
Fig. 2.4 Estimation à noyau de l'intensité des toupelos des forêts - R package - (a) h par
défaut (' 5), (b) h=1, (c) h=10, (d) h par défaut et edge correction
50
−3 45
x 10
1.5
40
35
1
30
25
0.5
20
15
0
60
50 10
50
40
40
30 5
30
20 20
10 10 0
0 0 0 5 10 15 20 25 30 35 40 45 50
Fig. 2.5 Estimation à moyau de l'intensité des toupelos des forêts - pas de correction de
bord, h=5
50
−3 45
x 10
1.5
40
35
1
30
25
0.5
20
15
0
60
50 10
50
40
40
30 5
30
20 20
10 10 0
0 0 0 5 10 15 20 25 30 35 40 45 50
Fig. 2.6 Estimation à moyau de l'intensité des toupelos des forêts - correction de bord,
h=5
points dans un quadrat A d'aire |A| doit suivre une distribution de Poisson de moyenne λ|A|
où λ est l'intensité du processus de Poisson.
Ainsi pour tester l'hypothèse selon laquelle la répartition est complètement aléatoire, on
utilise un test du chi 2. Prenons comme exemple, le premier comptage des tupelos. La table
2.1 reporte le nombre de quadrats comportant 0, 1, ..., 15 arbres, ainsi que les eectifs
attendus pour un processus de Poisson homogène de paramètre 2.25. Pour mettre en oeuvre
le test du chi 2, on regroupe les classes 5 à 13 de façon à avoir au moins 5 réalisations dans
chaque classe.
Nombre d'arbres
par quadrat 0 1 2 3 4 5 6 7 8 9 10 11 12
Eectif observé 31 23 14 9 7 8 5 1 1 1 0 0 1
Eectif attendu 9 32 16 18 12 2 1 0 0 0 0 0 0
Tab. 2.1 Méthode des quadrats pour l'échantillon tupelo 1 - Eectif espéré estimé selon
une loi de Poisson de paramètre 2.25
50
−3 45
x 10
1
40
0.8 35
0.6 30
25
0.4
20
0.2
15
0
60
50 10
50
40
40
30 5
30
20 20
10 10 0
0 0 0 5 10 15 20 25 30 35 40 45 50
Fig. 2.7 Estimation à noyau de l'intensité des toupelos des forêts - correction de bord,
h=10
50
−3 45
x 10
1.5
40
35
1
30
25
0.5
20
15
0
60
50 10
60
40 50
30 40 5
20 30
20
10 10 0
0 0 0 5 10 15 20 25 30 35 40 45 50
Fig. 2.8 Estimation à noyau de l'intensité d'un processus de Poisson homogène - correction
de bord, h=10
L'intensité ne sut pas à caractériser un processus ponctuel spatial. En eet l'intensité per-
met de décrire ce qu'il se passe au voisinage d'un point, mais pas les relations de dépendance
qu'il peut exister entre diérents sous dommaines. En d'autres termes, on a besoin d'outils
pour décider si la répartition est complètement aléatoire et si non pour quantier le degré
d'aggrégation ou d'aléa (voir gure 2.10).
Dans le cadre des processus spatiaux dénis sur des réseaux ou sur un espace continu, la
notion correspondante au degré d'aggrégation ou d'aléa est la covariance spatiale (structure
d'ordre 2 du processus).
2.3. PROPRIÉTÉS D'ORDRE 2 21
(a) (b)
11 13 10 19
29 12 14 16
13 6 7 5
22 25 13 9
Fig. 2.9 Comptage dnas les quadrats des toupelos des forêts - R package - Résultat du
test du chi 2 : X-squared = 49.2857, df = 15, p-value = 1.574e-05
(a) (b) (c)
1.5 1.5 1.5
1 1 1
0 0 0
Fig. 2.10 Diérentes répartitions spatiales d'un semis de 50 points - (a) : aléatoire, (b) :
regulière, (c) : aggrégée
Dénitions et propriétés
Une question naturelle, quand on veut caractériser la structure de dépendance d'un processus
ponctuel, est de se demander comment dénir l'analogue de la structure de covariance pour
un processus ponctuel.
Dénition 8 La fonction d'intensité d'ordre deux d'un processus ponctuel spatial est dénie
22 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX
par
E[N(∆s1 )N(∆s2 )]
λ2 (s1 , s2 ) = lim
|∆s1 |→0,|∆s2 |→0 |∆s1 ||∆s1 |
La fonction λ2 est délicate à interpréter. Cependant, on observe que si N(∆s1 ) est indépen-
dant de N(∆s2 ), alors λ2 (s1 , s2 ) = λ(s1 )λ(s2 ).
Dénition 9 Le densité de covariance d'un processus ponctuel spatial est donnée par
γ(s1 , s2 ) = λ2 (s1 , s2 ) − λ(z1 )λ(s2 )
Dénitions et généralités
Il est plus facile d'interpréter la fonction moment d'ordre 2 réduit que la fonction λ2 .
La fonction K de Ripley est aussi connue sous le nom fonction de moment d'ordre 2 réduit.
Certains auteurs donnent une dénition alternative :
K est une fonction de distance qui décrit la structure d'ordre deux à diérentes échelles. On
observe que
si le semis de point est aggrégé, chaque évenement est vraisemblablement entouré d'autres
points du même groupe et K(r) va être grand pour de petites valeurs de r ;
alors que si les points sont répartis régulièrement, chacun va être entouré par un espace
vide et K(r) va être plutôt faible pour de petites valeurs de r .
2.3. PROPRIÉTÉS D'ORDRE 2 23
Remarque : on peut montrer que la fonction K de Ripley ne varie pas si des points sont
retirés ou ajoutés selon un tirage complètement aléatoire.
Processus de Poisson
Exercice : Montrer que pour un processus de Poisson spatial homogène,
K(r) = πr 2
2 /4σ 2
K(r) = πr 2 + (1 − e−r )/ρ
Le processus de Neymann-Scott ainsi déni est isotrope et stationnaire. L'intensité du pro-
cessus est λ = ρm. On remarque que si s1 et s2 sont deux évènements du même cluster de
coordonnées (x1 , y1 ) et (x2 , y2 ), alors
√
(x1 − x2 , y1 − y2 )0 / 2σ 2 ∼ Gau(0, I)
et ainsi
1 2 2
∼ χ22
z= (x1 − x2 ) + (y 1 − y 2 )
2σ 2
√
Si r = 2σ 2 s est la distance entre 2 évènements arbitraires du même cluster, alors la densité
f2 (r) est une densité de Rayleigh
r
f2 (r) = exp(−r 2 /4σ 2 ) (2.3.1)
2σ 2
Or, d'après Cressie (1993),
et
E(Ne (Ne − 1))F2 (r)
K(r) = πr 2 +
ρm2
On remarque que, Ne étant un processus de Poisson de moyenne m, on a E(Ne (Ne −1)) = m2 .
Et en intégrant la densité de Rayleigh donnée par l'équation (2.3.1), on obtient
et nalement
1
K(r) = πr 2 + (1 − exp(−r 2 /4σ 2 ))
ρ
Processus de Strauss
(cf Dixon, p 38)
Estimation
Comme nous l'avons indiqué plus haut, on exhibe naturellement un estimateur empirique de
la fonction K . Pour une observation {s1 , · · · , sn }, en notant dij la distance entre si et sj ,
n
1 XX
K̂(r) = 1dij ≤r
nλ̂ i=1 i6=j
Cependant cet estimateur est biaisé négativement. En eet, on observe le processus sur une
fenètre bornée, et on ne voit donc qu'une partie des voisins des points proches du bord. Une
solution usuelle pour palier à ce problème est d'introduire des poids ωij :
n
1 XX
K̂(r) = ωij−11dij ≤r
nλ̂ i=1 i6=j
Le poids ωij est choisi égal à la proportion du périmètre du cercle de centre si et de rayon
dij inclut dans D . Faire un dessin et donner un exemple de calcul (en exercice ?).
Remarques
La correction du biais est seulement approximative. Elle marche en général assez bien pour
les rayons r petits mais se dégrade pour les r grands.
La correction du biais à en général pour conséquence d'augmenter la variance de l'estima-
teur. Elle n'est donc pas toujours opportune.
En général, on calcule K̂ pour r variant
q de 0 à 1/2 de la dimension la plus courte.
On construit un estimateur L̂(r) = K̂(r)/π − r . La variance de L̂(r) est approximative-
ment constante.
H0 : Le semis de point observé est une réalisation d'un processus de Poisson homogène
2.3. PROPRIÉTÉS D'ORDRE 2 25
On suppose donc que l'intensité λ est constante et qu'on peut l'estimer de façon globale.
Sous H0 on peut simuler autant de réalisations du processus de Poisson que l'on veut et en
déduire des IC, un degré de signication (pvalue).
Attention pour faire un test il est peut-être préférable de caculer la stat de test D : pb de
dépendance ? !.
1. Choisir le processus de référence (par ex, un processus de Poisson homogène sur le
domaine d'observation)
2. Simuler une réalisation de ce processus
3. Estimer K̂(s) (resp. L̂(s) pour cette réalisation
4. Répéter 2. et 3. un grand nombre de fois (si possible environ 500 fois)
5. A partir des estimations de K̂(s) (resp. L̂(s), déduire la moyenne, l'écart-type de K̂
(resp. L̂) et des quantiles de la loi de K̂ (resp. L̂) ou la pvalue pour la réalisation testée.
K L
500
12
400
10
sqrt(cbind(iso, theo)/pi)
8
300
K(r)
6
200
4
100
2
0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
r r
1.4 1.4
1.2 1.2
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
−0.2 −0.2
−0.4 −0.4
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
de référence (échantillon aléatoire de la population par exemple). Dans l'exemple des malades
atteints d'un cancer du foie (g. 2.14), on observe une concentration de malades au sud ouest
de la zone. Mais cette concentration correspond aussi à une concentration de population. On
peut alors se poser la question de savoir s'il y a des diérences signicatives de répartition
entre la population (contrôle) et celle des malades (cas).
Diggle propose de comparer les structures d'ordre 2 des deux nuages de points. Il utilise
la fonction K . Il ne sut pas, bien sûr, de comparer les estimations K̂0 pour l'échantillon
de la population et K̂1 pour les malades. Il faut mettre en oeuvre un test pour prendre en
compte l'incertitude liée à l'estimation. L'hypothèse H0 est Il n'y a pas de clustering spatial,
le groupe des malades et le groupe de témoins sont deux échantillons indépendants issus de
la même population.
2.4 Modélisation
Dans la section précédente, nous avons proposé des méthodes an de détecter si un semis
de point est issu d'un processus ponctuel réparti de façon complètement aléatoire dans un
2.4. MODÉLISATION 27
sous ensmble de R2 . Si ce n'est pas le cas, on ne peut pas utiliser le modèle de processus de
Poisson homogène et il faut donc proposer des modèles alternatifs.
Considérons qu'on modélise l'intensité par une fonction λ(x; θ) où θ est un vecteur de para-
mètres à estimer et x un vecteur de covariables. On a alors plusieurs méthodes d'estimations
possibles :
Poisson regression
maximum de vraisemblance
Poisson regression
Le principe de cette méthode est de discrétiser le domaine en quadrats et d'écrire un modèle
de régression pour prédire le nombre d'observation dans chaque quadrat. On peut alors
utiliser le formalisme des modèles linéaires généralisés.
L'avantage de cette approche est qu'elle est facile à mettre en oeuvre : on dispose d'outils
logiciels, de test d'adéquation, ...
L'inconvénient est qu'on suppose que l'intensité est constante dans les quadrat et que les
estimateurs dépendent donc fortement de la taille des boites.
Maximum de vraisemblance
On suppose que les points sont indépendants et d'intensité variable et on cherche le paramètre
qui maximise la log vraisemblance d'un processus de Poisson inhomogène.
Soit λ(si ; θ) l'intensité à la position si . Soit s = {s1 , · · · , sn } un échantillon. La log vraisem-
blance du processus de Poisson correspondant s'écrit :
n
X Z
log L(θ, s) = log λ(si ; θ) − λ(u; θ)du (2.4.1)
i=1 R
Le premier terme est facile à calculer. Le second est l'intégrale de l'intensité sur tout le
domaine. Son calcul nécessite de connaitre la valeur des covariables en tout point du domaine
et il se fait le plus souvent numériquement.
On maximise la log vraisemblance en utilisant un algorithme d'optimisation non linéaire.
L'estimateur ainsi construit a les propriétés des estimateurs du maximum de vraisemblance :
normalité asymptotique
28 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX
L
r
8
10
12
K(r)
K
r
8
10
12
29 MODÉLISATION 2.4.
30 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX
6.6 6.6
6.4 6.4
6.2 6.2
6 6
5.8 5.8
5.6 5.6
5.4 5.4
5.2 5.2
5 5
3.5 4 4.5 3.5 4 4.5
4 4
x 10 x 10
7
x 10
1
0.5 0.2
−0.5 0.15
−1
−1.5
0.1
−2
−2.5
0.05
−3
−3.5
0
0 200 400 600 800 1000 1200 1400 1600 1800 2000 200 400 600 800 1000 1200 1400 1600 1800 2000
0.6
0.5
15
0.4
10
0.3
0.2
5
0.1
0
0 5 10 15 20 25 30
Fig. 2.16 Répartition des nids de canards (à gauche), estimation de l'intensité (à droite)
2.4. MODÉLISATION 31
0.01
0.009
0.008
0.007
0.006
0.005
0.004
0.003
0.002
0.001
0
−5 0 5 10 15
Distance au bord
Fig. 2.17 Inuence de la distance au bord du domaine sur l'intensité des nids
32 CHAPITRE 2. PROCESSUS PONCTUELS SPATIAUX
Chapitre 3
Geostatistique
3.1 Introduction
Dans cette partie du cours, on se consacre aux données geostatistique. On oberve alors une
variable en diérents sites expérimentaux xés, et on cherche à en déduire une information
en d'autres point de l'espace. Dans la suite de ce cours, on notera s1 , s2 , ..., sn les coordonnées
des sites où les mesures sont eectuées et z = (z1 , ..., zn ) la valeur de la variable considérée
en ces sites (on considérera uniquement des variables numériques). L'objectif principal est
de prédire la valeur de la variable en un point arbitraire s0 .
La géostatistique a tout d'abord été développée pour la prospection minière (d'où le terme
"geostatistique"). Des carrotages sont alors eectués en diérents sites pour mesurer cer-
taines propriétés d'un minerai (hauteur ou épaisseur du lon par exemple), et on cherche à
estimer à partir de ces mesures certaines caractéristiques du lon (volume/masse totale par
exemple). Ces méthodes ont été développées au début des années 1960 (Matheron).
Dans ce cours, on considérera un jeu de données issues de carrotages, relatif à une nappe
fréatique située à cheval entre les états du Nevada, Texas et Washington. Ces données sont
étudiées dans Cressie (1993) dans le cadre d'une étude sur le choix d'un site d'enfouissage
pour des déchets radioactifs. Le but est de caractériser la manière dont se propagerait une
pollution de la nappe fréatique autour du site choisi en cas de fuite. Pour cela, on dispose de
mesures de la profondeur (en feet au dessus du niveau de la mer) de la nappe fréatique en
n = 85 sites. Les données sont montrées sur les gures 3.1 (2D) et 3.2 (3D). A partir de ces
données, on cherche à réaliser une carte permettant de mieux visualiser la surface de cette
nappe fréatique. Pour cela, on cherche à interpoler les données sur une grille régulière pour
obtenir des gures du type 3.3 et 3.4.
Ces méthodes sont utilisées dans de nombreux domaines d'application. Dans certains cas,
les données sont disponibles sur une grille régulière (données satellitaires par exemple). Les
méthodes introduites dans ce cours peuvent être utilisées pour ce type de données, mais des
techniques spéciques ("traitement d'images") existent.
La plupart des méthodes d'interpolation spatiale consistent à utiliser des combinaisons li-
33
34 CHAPITRE 3. GEOSTATISTIQUE
3571
150
2722
Nord−Sud
100
1873
50
0 1024
−150 −100 −50 0 50 100
Est−Ouest
Fig. 3.1 Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Données
brutes.
3571
4000
profondeur (feet)
3000
2722
2000
1000
1873
0
0
50
100 −100
150 0 1024
100
Nord−Sud Est−Ouest
Fig. 3.2 Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Données
brutes, 3D
néaires pondérées des oservations. La valeur interpolée au site s0 est alors dénie par
n
X
ẑ(s0 ) = wi (s0 )zi
i=1
où wi (s0 ) est le poids aecté à l'obervation si : plus ce poids est grand, plus la valeur inter-
3.1. INTRODUCTION 35
3559
150
2716
Nord−Sud
100
1873
50
0 1030
−150 −100 −50 0 50 100
Est−Ouest
Fig. 3.3 Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Données
interpolées sur une grille régulière avec la méthode des distances inverses (R=200 et p=2),
visualisation 3D.
180
15
00
160
23
00
140
25
19
21
27
00
00
00
00
17
120 00
Nord−Sud
100 15
00
80
290
230
60
0
2500
0
1700
210
1900
40 27
00
0
20
−100 −50 0 50 100
Est−Ouest
Fig. 3.4 Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Données
interpolées sur une grille régulière avec la méthode des distances inverses (R=200 et p=2),
visualisation des lignes de niveau.
Les méthodes d'interpolation diérent alors par la manière dont sont choisis ces poids. Cer-
36 CHAPITRE 3. GEOSTATISTIQUE
taines reposent sur des constructions géomètriques (distance entre les points, etc), alors que
d'autres reposent sur des méthodes probabilistes.
Dans le paragraphe suivant, nous allons rapidement illustrer le premier type de méthode en
introduisant la méthode des distances inverses. Les paragraphes suivants seront consacrés
aux méthodes probabilistes ("krigeage").
La méthode des distances inverses est sans doute la méthode de type "géométrique" la plus
répandue. Elle est en particulier proposée dans Mapinfo (cf TP). Elle consiste à associer au
point si un poids inversement proportionnel à la distance d(si , s0 ) entre ce point et le point
où l'on cherche à réaliser l'interpolation s0 .
Plus précisément, la surface interpolée ẑ en un point s0 est dénie par :
Pn zi
i=1 d(si ,s0 )
ẑ(s0 ) = Pn 1
i=1 d(si ,s0 )
Cette formule est dénie seulement lorsque s0 6= si pour i ∈ {1...n}, mais il est possible de
vérier que lim(ẑ(s)) = zi lorsque s → si et on posera ẑ(si ) = zi pour i ∈ {1...n}.
Les poids sont choisis de tel manière que ni=1 wi (s0 ) = 1, et on verra dans le paragraphe
P
suivant que cela garantit, sous des conditions de stationarité, le caractère "non biaisé" de la
prédiction.
Exercice On considère les 4 points suivants s1 = (0, 0), s2 = (0, 2), s3 = (2, 0) et s4 = (2, 2)
avec les valeurs z1 = 0, z2 = 3, z3 = 1 et z4 = 5. Calculer ẑ(s0 ) avec s0 = (0, 1) et représenter
graphiquement le résultat obtenu.
Quelques remarques
3.2. INTERPOLATION PAR LA MÉTHODE DES DISTANCES INVERSES 37
Quand p tend vers 0, les poids deviennent tous égaux, et ẑ(s0 ) converge vers la moyenne
arithmétique des valeurs aux points situés à une distance inférieure à R de s0 , i.e.
P
i|dist(si ,s0 )≤R zi
ẑ(s0 )→ quand p → 0
card{i|dist(si, s0 ) ≤ R}
En particulier, lorsque R = +∞,
n
1X
ẑ(s0 )→ zi quand p → 0
n i=1
Montrer gure
Au contraire, lorsque p tend vers l'inni, alors tous les poids tendent vers 0, excepté celui
associé au point le plus proche de s0 (si ce point est unique...). La surface prédite converge
alors vers celle obtenue en utilisant la méthode des polynomes de Thiessen, qui consiste à
attribuer à s0 la valeur observée au point le plus proche de s0 (cf gure 3.5).
3571
150
2722
Nord−Sud
100
1873
50
0 1024
−150 −100 −50 0 50 100
Est−Ouest
Fig. 3.5 Profondeur d'une nappe fréatique (en feet) en 85 points de mesure (US). Données
interpolées sur une grille régulière avec la méthode des distances inverses (R=200 et p=50),
visualisation 3D
Nous allons voir que les méthodes de krigeage présentées dans la section suivante permettent
de résoudre certains de ces problèmes.
Les méthodes proposées dans ce paragraphe reposent sur une modélisation probabiliste. On
suppose alors qu'il existe un processus aléatoire, noté Z(s), qui est déni pour s ∈ D avec
D ⊂ Rd (généralement d = 2). On suppose ensuite que les observations (z1 , ..., zn ) forment
une réalisation de la variable aléatoire multivariée (Z(s1 ), ..., Z(sn )). En toute généralité,
la loi du processus Z est dénie par la loi jointe de (Z(x1 ), ..., Z(xN )) pour tout N -uplet
(x1 , ..., xN ), mais en pratique on est amené à faire des hypothèses simplicatrices sur le
processus an de pouvoir inférer sa distribution à partir des données disponibles. Ici on ne
peut généralement pas supposer que les observations sont indépendantes, et une hypothèse
alternative usuelle consiste alors à supposer que le processus possède une forme d'invariance
par translation dans l'espace : la stationnarité.
Lorsque n = 1, on obtient que les lois de Z(s) et Z(s0 ) sont identiques pour tout s, s0 ∈ D .
En particulier, si les moments d'ordre 1 et 2 de Z(s) existent, alors
E[Z(s)] = E[Z(s0 )]
et
var(Z(s)) = var(Z(s0 ))
Lorsque n = 2, on obtient que les lois L[Z(s), Z(s0 )] et L[Z(s + h), Z(s0 + h)] sont identiques
pour tout s, s0 ∈ D , et donc que
Dénition 11 On dit que le processus Z est stationnaire à l'ordre 2 si les deux conditions
suivantes sont vériées :
il existe µ ∈ R tel que, pour tout s ∈ D , E[Z(s)] = µ (i.e. l'espérance mathématique est
la même en tout point de l'espace)
il existe une fonction C telle que, pour tout s, s0 ∈ D , cov(Z(s), Z(s0)) = C(s − s0 ) (i.e. la
covariance entre deux points est invariante par translation)
µ est appelé la "moyenne" du processus Z et C la fonction d'autocovariance du processus Z .
Dénition 12 On dit que le processus Z est intrinsèque lorsque les accroissements Z(s +
h) − Z(s) sont stationnaire à l'ordre 2, c'est à dire lorsque les deux conditions suivantes sont
vériées :
E[Z(s) − Z(s0 )] = 0
il existe une fonction γ telle que var(Z(s) − Z(s0 )) = E[(Z(s) − Z(s0 ))2 ] = 2γ(s − s0 )
La fonction γ est appelée variogramme du processus Z .
Par contre, la réciproque est fausse et il existe des processus intrinsèques qui ne sont pas
stationnaires d'ordre 2.
Exercice :
On considère la marche aléatoire dénie pour n ∈ N par Z0 = 0 et la formule de récurrence,
pour n > 0, Zn = Zn−1 + n avec n i.i.d. N (0, 1).
1. Calculer E[Zn ] et var(Zn). Le processus Zn est-il stationnaire ?
2. Calculer E[Zn − Zn0 ] et var(Zn − Zn0 ). Le processus Zn est-il intrinsèque ?
blabla
40 CHAPITRE 3. GEOSTATISTIQUE
En particulier, un processus intrinsèque peut être tel que var(Z(s)) = +∞. Par exemple,
considérons le processus (marche aléatoire) déni pour t ∈ N par la relation de récurrence
et
var[Z(t + k) − Z(t)] = var[(t + 1) + ... + (t + k)] = k
Le processus est donc intrinsèque. Par contre, var(Z(t)) = var(Z(0) + (1) + ... + (t)) = t,
donc le processus n'est pas stationnaire à l'ordre 2 !
Une hypothèse supplémentaire est souvent faite pour simplier l'estimation des fonctions C
et γ : il s'agit de l'hypothèse d'isotropie. On suppose alors que la structure des champs est
invariante par rotation, c'est à dire, selon le cas, que
C(h) = C(|h|)
γ(h) = γ(|h|)
Variogramme expérimental
D'après la dénition du variogramme γ(h) = 21 E[(Z(s + h) − Z(s))2 ], un estimateur naturel
est le variogramme expérimental déni pour h > 0 par
1 X
γ̂(h) = (z(si ) − z(sj ))2
2card(N(h))
(i,j)∈N (h)
nuee variographique
7
0
0 50 100 150 200 250 300
Fig. 3.6 Nuée variographique (|si − sj |, (z(si ) − z(sj ))2 ) pour les données relatives à la
profondeur de la nappe fréatique
Variogramme paramétrique
Le variogramme expérimental n'est pas directement utilisable pour le krigeage. En eet, on
a besoin de connaitre le variogramme pour toutes les distances et que ce soit une fonction de
type négatif. Une solution consiste alors à utiliser des formes paramètriques qui dénissent
bien des fonctions de type négatif. Diérents modèles paramétriques usuels pour les proces-
sus intrinsèques stationnaires sont dénis ci-dessous.
h=1 h=5
3 3
2 2
1 1
0 0
0 100 200 300 0 100 200 300
h=10 h=20
3 3
2 2
1 1
0 0
0 100 200 300 0 100 200 300
Fig. 3.7 Variogramme estimé Ñ (h) pour les données relatives à la profondeur de la nappe
fréatique et h=1, 5, 10 ,20, respectivement
h=1 h=5
1000 1000
500 500
0 0
0 100 200 300 0 100 200 300
h=10 h=20
1000 1000
500 500
0 0
0 100 200 300 0 100 200 300
Fig. 3.8 Nombre de points ayant servi à estimer les variogrammes empiriques de la gure
3.7
Modèle linéaire
0 si h = 0
γ(h) = (3.3.2)
C0 + bh si h > 0
avec c0 ≥ 0 la pépite et b ≥ 0.
Modèle puissance
0 si h = 0
γ(h) = (3.3.3)
C0 + bhλ si h > 0
avec c0 ≥ 0 la pépite, b ≥ 0 et 0 ≤ λ < 2.
Modèle exponentiel
0 si h = 0
γ(h) = (3.3.5)
c0 + c(1 − exp(− ha )) si h > 0
avec c0 ≥ 0 la pépite, c ≥ 0 et a > 0
Modèle gaussien
0 si h = 0
γ(h) = h2 (3.3.6)
c0 + c(1 − exp(− a )) si h > 0
avec c0 ≥ 0 la pépite, c ≥ 0 et a > 0
Le choix d'un modèle approprié est une étape subjective qui se base sur la forme du vario-
gramme empirique. Faire gure main levee variogramme théorique.
An d'ajuster le modèle sélectionné, on utilise généralement la méthode des moindres carrés.
Notons θ l'ensemble des paramètres à estimer et γ(h; θ) le modèle paramétrique choisi. On
minimise alors par rapport au paramètre inconnu θ la fonction
44 CHAPITRE 3. GEOSTATISTIQUE
Fig. 3.9 (a) Modèle péptitique, (b) modèle linéaire, (c) modèle puissance (d) Modèle
rationnel quadratique (e) modèle exponentiel (f) modèle gaussien
X
(γ̃(h) − γ(h; θ))2
h
L'inconvénient de cette méthode est qu'elle attribue le même poids à toutes les classes de
distance, même quand un faible nombre de points a servi à réaliser l'estimation. On lui
préfère généralement l'estimateur des moindres carrés pondérés qui minimise la fonction
X
w(h)(γ̃(h) − γ(h; θ))2
h
Lorsque le processus est seulement intrinsèque, alors les moments d'ordre 1 et 2 du processus
n'existent pas forcement, et seules les combinaisons linéaires des accroissements sont bien
dénies, et on doit alors travailler avec des combinaisons linéaires dont la somme des poids
Pn nulle. Plus précisemment, si le processus Z est intrinsèque avec un variogramme γ et
est
i=1 wi = 0, alors " #
X
E wi Z(si ) = 0
i
" #
X X
var wi Z(si ) = − wi wj γ(sj − si )
i i
A fortiori, ces relations sont également valables lorsque le processus est stationnaire à l'ordre
2.
dans laquelle les poids wi sont choisis de telle manière qu'ils minimisent la variance :
n
X
var(Z(s0 ) − wi Z(si ))
i=1
Pn
Dans le cas intrinsèque, pour que cette variance soit bien dénie, il faut que i=1 w i = 1.
Cette contrainte garantit en outre que l'estimateur soit non biaisé, i.e.
n
X
E[Z(s0 ) − wi Z(si )] = 0
i=1
Finalement, les poids correspondant au krigeage ordinaire sont dénis comme les poids mi-
nimisant la fonction
n
!
X
var Z(s0 ) − wiZ(si )
i=1
n X
X n n
X
= C(0) + wi wj C(si − sj ) − 2 wi C(si − s0 ) (3.3.7)
i=1 j=1 i=1
n
XXn n
X
= − wi wj γ(si − sj ) + 2 wiγ(si − s0 ) (3.3.8)
i=1 j=1 i=1
Pn
avec la contrainte de non-biais i=1 w i = 1.
avec m une inconnue (appelée "multiplicateur de Lagrange") introduite pour que la condition
de non-biais soit satisfaite. Cela se réécrit sous la forme matricielle Ax = b avec b = (γ(s1 −
s0 ), ..., γ(sn − s0 ), 1)0 , x = (w1 , ..., wn , m)0 et A = (ai,j )i,j∈{1,...,n+1} dénis par
Interprétation ?
Z(s) = ax + by + c + E(s)
3.3. KRIGEAGE ORDINAIRE 47
Graphiquement, on obtient des données qui semblent sans tendance, et on suppose qu'elles
sont stationnaires. L'analyse variographique montre qu'un modèle puissance semble appro-
prié. On réalise ensuite le krigeage sur une grille régulière en utilisant le variogramme puis-
sance ajusté. On peut aussi regarder l'erreur de krigeeage : plus importante dans les zones
où on a peu d'observations. Finalement, si on rajoute la tendance, on obtient une surface
interpolée correspondant aux valeurs initiales.
150
0
Nord−Sud
100
−1
50
0 −1
−150 −100 −50 0 50 100
Est−Ouest
Fig. 3.10 Profondeur d'une nappe fréatique après extraction de la tendance linéaire
0.8
0.6
0.4
0.2
0
0 50 100 150 200 250 300
Fig. 3.11 Profondeur d'une nappe fréatique - Variogramme des données sans tendance
−367
1000
profondeur (feet)
500
−500
0
50
100 −100
150 0
100
Nord−Sud Est−Ouest
Fig. 3.12 Profondeur d'une nappe fréatique - Interpolation par krigeage données sans
tendance
Références
N. Cressie
P. Diggle
Ph. Dixon
Ripley
3.3. KRIGEAGE ORDINAIRE 49
0
50
45
50
40
Nord−Sud 35
100
30
25
150
20
15
200
−150 −100 −50 0 50 100 150
Est−Ouest
Fig. 3.13 Profondeur d'une nappe fréatique - Estimation de l'erreur de krigeage ; données
sans tendance
4000
profondeur (feet)
3000
2000
1000
0
0
50
100 −100
150 0
100
Nord−Sud Est−Ouest
Fig. 3.14 Profondeur d'une nappe fréatique - Interpolation par krigeage avec ajout de la
tendance
50 CHAPITRE 3. GEOSTATISTIQUE
19 3515
17
21
25
23
00
00
00
00
00
150
15
00
2587
Nord−Sud
27
00
100
1659
50
19
17
21
25
23
29
00
00
00
00
00
00
0 731
−150 −100 −50 0 50 100
Est−Ouest
Fig. 3.15 Profondeur d'une nappe fréatique - Interpolation par krigeage avec ajout de la
tendance