Control Datos-Chapitre8

Chapitre 8 - L'organisation et le contrôle des données Page 1 sur 20
CHAPITRE 8
L'ORGANISATION ET LE CONTROLE DES

DONNEES
8.1 L'organisation des données

La compréhension des processus intervenant dans le cycle de l'eau ainsi que l'étude de leurs variations spatiales et
temporelles nécessitent de disposer de données. Celles -ci sont essentielles et constituent un pr éalable à toute analyse
hydrologique, que ce soit dans le but de proc éder à une étude du cycle de l'eau, d'impacts environnementaux ou pour
procéder au dimensionnement d'ouvrages hydrauliques.
De façon générale, pour permettre le passage de l'acquisition des données à leur utilisation effective dans le cadre d'une
analyse hydrologique on distingue les étapes suivantes : acquisition, traitement, contrôle et validation, organisation, diffusion
et publication. Une collaboration entre l'Institut d'Aménagement des Terres et des Eaux de l'EPFL et des bureaux priv és a
permis par exemple la création d'un logiciel complet de traitement des données hydrologiques nommé CODEAU qui
comprend une partie de ces étapes.
8.1.1 Acquisition des donn ées
L'acquisition de données consiste à procéder, par le biais d'un instrument de mesure, à acquérir de l'information (par
exemple : hauteur d'eau d'une station limnim étrique, comptage des basculements d'un pluviographe à augets, vitesse du
vent etc…). Le chapitre 7 traite en détails de la mesure hydrologique. Le proc édé peut être automatisé ou non. Ceci aura une
influence sur le type d'erreurs que l'on peut commettre.
8.1.2 Traitement primaire des données
La donnée acquise pr écédemment nécessite souvent un traitement préalable - ou traitement primaire - afin de la rendre
pertinente et exploitable. Il s'agit pour l'essentiel de la conversion de la mesure effectu ée en une grandeur qui soit
hydrologiquement significative (par exemple : transformation d'impulsions électriques en intensit és de précipitations, de
hauteurs d'eau en débits, génération de données à pas de temps constant à partir de mesures effectuées à pas de temps
variables etc.
Le traitement des donn ées inclut aussi le contrôle primaire des données qui comprend les contrôles de cohérence à
l'exclusion de tous traitements statistiques. Il s'agit par exemple, dans le cas d'une acquisition manuelle des données, de les
convertir en fichiers informatiques. Dans ce cas, on procède généralement à une double saisie des données puis les fichiers
sont comparés afin de déceler d'éventuelles erreurs de saisie. Dans la situation où l'on procède à l'acquisition de donn ées de
précipitations et de débits, on vérifie encore la coh érence temporelles des données acquises, à savoir par exemple qu'une
crue est bien la conséquence d'un épisode pluvieux
8.1.3 Contrôle des données
Avant de pouvoir exploiter les données et bien qu'elles soient dans un format adéquat, il importe de contrôler la fiabilité et la
précision de ces dernières. Le contrôle permet de valider les données avant leur organisation au sein d'une banque de
données pour leur mise à disposition à des fins opérationnelles. Lors de cette opération, on introduit des indices de qualité
de la donnée ainsi que des indices indiquant que celle-ci est reconstituée, calculée voire manquante. Par exemple, le logiciel
CODEAU utilise pour ce faire toute une série d'indice ou flags permettant de qualifier des donn ées présentant une rupture de
continuité, une ou plusieurs mauvaises valeurs, des valeurs manquantes ou à vérifier etc.
8.1.4 Organisation des données
Au vu de l'importance quantitative et qualitative des données, il importe de les organiser avec soin. Ceci se fait à partir d'un
corpus de documents originels (formulaires de terrain, diagrammes, unité de stockage électronique) constituant les archives
http://hydram.epfl.ch/e-drologie/chapitres/chapitre8/chapitre8.html 12.03.2004
qui sont en règle générale accessibles uniquement à un personnel spécifique (responsable du centre de collecte,
archiviste…). La traduction des archives sous la forme de fichiers de base génère les "fichiers en l'état" et fournit une
indication sur la provenance de la donnée (mesure, calcul, copie etc.) ainsi que sur sa qualité (fiable, compl ète ou non) et sa
précision. Enfin, on constitue un fichier de travail provisoire permettant une visualisation des données et permettant de
procéder aux différents tests de qualité et de précision des données qui seront développés tout au long de ce chapitre.
L'élément ultime de cette chaîne opératoire est la constitution des fichiers opérationnels avec indices de qualit é pouvant être
publiés et distribués auprès des utilisateurs.
8.1.5 Diffusion et publication
La diffusion des données en vue de leur utilisation opérationnelle peut-être faite selon deux modes :
l Publication papier : Il s'agit par exemple de la publication d'annuaires comme l'annuaire hydrologique de la Suisse
ou de bulletins journaliers tels ceux émis par MétéoSuisse accessible par une ligne téléphonique (fax).
l Diffusion informatique : Actuellement et grâce aux développements des interfaces liées au réseau Internet, les
données sont de plus en plus accessibles de manière conviviale et en tout temps. Le site de MétéoSuisse
(http://www.meteosuisse.ch) présente notamment des cartes de situation météorologique. L'annuaire hydrologique de
la suisse est également publié par le Service hydrologique et géologique national :
http://www.admin.ch/lhg/daten/f/index.htm.
Le shéma suivant présente les différentes étapes de la cha îne d'acquisition et de traitement des données :
8.2 Le contrôle des données

La constitution d'une série de valeurs, constituant un échantillon au sens statistique du terme, est un processus long,
parsemé d'embûches, et au cours duquel de nombreuses erreurs, de nature fort différentes, sont susceptibles d'être
commises.
Des erreurs peuvent en effet être perpétrées lors de l'une ou de l'autre des quatre phases du déroulement classique des
opérations, à savoir : la mesure ; la transmission de l'information ; le stockage de l'information ; le traitement de l'information
(prétraitement et analyse). Il est donc indispensable, avant d'utiliser des séries de donn ées, de se préoccuper de leur qualité
et de leur repr ésentativité en utilisant diverses techniques en général de type statistique ou graphiques.
Une erreur de mesure est définie comme étant la différence entre la vraie valeur (qui est l'id éal recherché, mais qui n'est en
principe et malheureusement jamais connue) et la valeur mesur ée. Il est commode, tant pour les présenter que pour
différencier la façon de les aborder, de considérer deux types d'erreur : les erreurs al éatoires et les erreurs
systématiques.
l Les erreurs al éatoires (ou accidentelles) - Elles affectent la précision des données et sont non corrélées. Ce type
d'erreur est dû à des raisons nombreuses et variées, généralement inconnues, affectant différemment chaque
mesure individuelle. Généralement on considère que ces erreurs sont les réalisations d'une variable aléatoire
normale centrée en 0 et de variance s 2 . Ces erreurs étant inévitables, il faut en estimer l'importance afin de pouvoir
en tenir compte lors de l'évaluation de l'incertitude finale. Dans la mesure du possible, la technique de mesure
induisant les erreurs aléatoires les plus faibles devrait être préférée.
l les erreurs syst ématiques - Elles affectent la fiabilité des données et sont totalement corrélées. On parle aussi
d'inconsistance. Supposons qu'aucune erreur aléatoire n'affecte les mesures. La différence entre la vraie valeur et la
valeur mesur ée, si elle existe, est alors due à une erreur systématique. L'origine des erreurs systématiques est le
plus souvent li ée à la calibration de l'appareil de mesure qui n'est pas parfaite ou à un phénomène extérieur qui
perturbe la mesure (erreur d'appareillage, changement d'observateur…).
8.3 Recherche des erreurs et corrections des mesures

Selon la nature des erreurs constatées ou suppos ées la recherche de ces dernières fait appel à différentes techniques et
méthodes
l « in situ » qui consiste à vérifier sur place la manière dont les données ont été organisées, traitées et/ou
transformées.
l Investigation de bureau qui consiste à vérifier la cha îne de traitement de la mesure/donnée à chaque étape de son
élaboration, tout comme la manière dont on a constitué les séries de données soumises à contrôle et/ou publication.
l Investigation statistique qui, à l'aide d'outils spécifiques, permet de mettre en évidence certaines erreurs ou
inconsistance. Ces techniques efficientes ont largement été utilisées dans la pratique professionnelle et se basent sur
des hypothèses spécifiques qu'il convient de bien connaître.
Hypothèses de l'analyse statistique :
Les calculs statistiques sont bas és sur un certain nombre d'hypoth èses qui doivent en principe être vérifi ées. Parmi celles -
ci, citons :
l Les mesures reflètent les vraies valeurs - Cette hypothèse n'est malheureusement jamais réalisée en pratique,
du fait des erreurs systématiques ou aléatoires.
l Les données sont consistantes - Aucune modification dans les conditions internes du système n'intervient durant
la période d'observation (position du pluviomètre, procédures d'observation, observateur unique).
l La série de données est stationnaire - Les propriétés de la loi statistique qui régit le ph énomène (moyenne,
variance ou moments d'ordre supérieur) sont invariantes au cours du temps.
l Les données sont homogènes - Une série de données est réputée non homogène lorsque:
l elle provient de la mesure d'un phénomène dont les caractéristiques évoluent durant la période de mesure; le
phénomène est alors dit non-stationnaire (par exemple: variations climatiques, variations du régime des débits dues
à une déforestation ou un reboisement). Il est également possible d'observer des signes d'une non stationnarité
apparente lorsque l'électronique intégrée à l'équipement de mesure pr ésente une dérive temporelle ou lors du
changement de l'observateur.
l elle reflète deux ou plusieurs phénomènes différents. Le régime d'une rivière à l'aval de la confluence de deux sous
bassins dont le comportement hydrologique est très contrasté constitue un bon exemple de ce défaut
d'homog énéité.
l La série de données est aléatoire et simple - Le caractère aléatoire et simple d'une série d'observations est une
hypothèse fondamentale pour l'analyse statistique. Un échantillon aléatoire signifie que tous les individus de la
population ont la même probabilité d'être prélevés. Un échantillon simple signifie que le prélèvement d'un individu
n'influe pas la probabilité d'apparition des individus suivants. Autrement dit, si toutes les observations de la série
sont issues de la même population et qu'elles sont indépendantes entre elles, la série est alors aléatoire et simple.
La non vérification du caractère aléatoire et simple peut avoir plusieurs causes, parfois simultanément. Ces causes
se groupent en deux catégories, les défauts d'autocorrélation d'une part (caractère non al éatoire des séries) et les
défauts de stationnarité du processus d'autre part (dérive à long terme et d érive cyclique).
l La série doit être suffisamment longue - La longueur de la série influe sur les erreurs d'échantillonage,
notamment sur le calcul des moments d'ordre supérieurs donc sur les tests inhérents à leur fiabilité.
8.4 Introduction aux tests statistiques
8.4.1 Démarche d'un test : exemple introductif - Les faiseurs de pluie
Cet exemple est adapté de G. Saporta, Probabilités, Analyse des données et statistique, Technip, 1990. Des relevés
effectués pendant de nombreuses années ont permis d'établir que la hauteur annuelle des pluies dans la Beauce (France)
[en mm] suit une loi normale N(600, 100). Des entrepreneurs, surnommés faiseurs de pluie, prétendaient pouvoir augmenter
de 50 mm le niveau moyen de pluie, ceci par l'insémination des nuages au moyen d'iodure d'argent et au-delà augmenter le
taux de production requise donc un véritable grenier français (cf. Charles Péguy). Leur proc édé fut mis à l'essai entre 1951 et
1959 et on releva les hauteurs de pluies suivantes (tableau 8.1) :
Tableau 8.1 - Hauteur annuelle des pluies dans la Beauce (France) [en mm] de 1951 et 1959.
Année 1951 1952 1953 1954 1955 1956 1957 1958 1959
mm 510 614 780 512 501 534 603 788 650
Que pouvait-on en conclure ? Deux hypothèses s'affrontaient. Ou bien l'insémination était sans effet, ou bien elle augmentait
réellement le niveau moyen de pluie de 50 mm. Ces hypothèses pouvaient se formaliser comme suit,
si m désigne l'espérance mathématique de X variable aléatoire égale à la hauteur annuelle de pluie, on formule alors les
hypothèses suivantes :
Les agriculteurs hésitant à opter pour le procédé forcément onéreux des faiseurs de pluie tenaient pour l'hypothèse H0 et il
fallait donc que l'expérience puisse les convaincre ; c'est-à-dire que les faits observés contredisent nettement la validité de
l'hypothèse H0 dite « hypothèse nulle » (H1 est l'hypoth èse alternative).
Ils choisirent a=0,05 comme niveau de probabilité, c'est-à-dire qu'ils étaient prêts à accepter H1 si le résultat obtenu faisait
partie d'une éventualité improbable qui n'avait que 5 chances sur 100 de se produire. Autrement dit, ils admettaient
implicitement que des événements rares ne sauraient se produire sans remettre en cause le bien-fondé de l'hypothèse de
départ H0 ; ce faisant, ils assumaient le risque de se tromper dans 5 cas sur 100, cas où précisément les événements
« rares » arrivent quand même.
Comment décider ? Puisqu'il s'agit de « tester » la valeur il est naturel de s'int éresser à moyenne des observations qui
nous apporte le plus de renseignements sur . est la « variable de décision ».
Si est vraie, comme l'expérience a porté sur ans, doit suivre une loi normale :
En principe, de grandes valeurs de sont improbables et on prendra comme règle de décision la suivante : si est trop
grand, c'est-à-dire si est supérieur à un seuil qui n'a que 5 chances sur 100 d'être dépassé, on optera pour H1 avec une
probabilité 0,05 de se tromper. Si on ne pourra pas rejeter H0 faute de preuves suivantes. est appelé valeur
critique.
Il est facile de calculer la valeur critique gr âce aux tables de la loi normale et on trouve :
La règle de décision est donc la suivante :
l Si , repousser H0 ,et accepter H1 ;
l Si , conserver H0.
L'ensemble d'événements s'appelle la région critique ou région de rejet de H0 . L'ensemble complémentaire
s'appelle la région de non rejet de H 0. Or les données relevées indiquent que =610,2 mm. La conclusion était
donc de conserver H0 ;c'est-à-dire que l'insémination était sans effet notable sur le niveau des pluies : les valeurs observées
pouvaient donc être dues au hasard en l'absence de toute influence de l'iodure d'argent. Cependant, rien ne dit que ne pas
rejeter H0 mette à l'abri de se tromper : en effet, les faiseurs de pluie ont peut-être raison, mais on ne s'en est pas aperçu.
Il y avait en fait deux manières de se tromper : croire les faiseurs de pluie, alors qu'ils n'étaient pour rien dans le résultat
obtenu (probabilité ; ne pas croire les faiseurs de pluies, alors que leur méthode est bonne et que seul le hasard
(malencontreux pour eux), dû au faible nombre d'observations, a donné des résultats insuffisants pour convaincre les
agriculteurs.
Supposons que les faiseurs de pluie ont raison, on commet alors une erreur chaque fois que prend une valeur inférieure à
655 mm, c'est-à-dire avec une probabilité :
ce qui est considérable.
l s'appelle le risque de première espèce (probabilité de choisir H1 alors que H0 est vraie) (en l'occurrence 5%
dans cet exemple);
l s'appelle le risque de deuxième espèce (probabilité de conserver H0, alors que H1 est vraie) (c'est-à-dire 56%
dans cette application).
Ces erreurs correspondent à des risques différents en pratique ; ainsi dans l'exemple des faiseurs de pluie le risque de
première espèce consiste à acheter un procédé d'insémination qui ne vaut rien ; le risque de deuxième espèce à laisser
perdre une occasion d'augmenter le niveau de pluie et peut-être de récoltes plus abondantes. Dans la pratique des tests
statistiques, il est de règle de se fixer comme donnée (les valeurs courantes sont par exemple 0,05 ; 0,01 ou 0,1) de
préférence en fonction du risque de première espèce couru, ce qui fait jouer à H0 un rôle prééminent.
Sur la base de cet exemple, la démarche d'un test peut se résumer comme suit :
l Formulation et choix de H0 et de H1 .
l Détermination de la variable de décision.
l Calcul de la valeur critique et de la région critique en fonction de .
l Calcul de la valeur expérimentale de la variable de décision.
l Conclusion : rejet ou acceptation de H0.
8.4.2 Les grandes catégories de tests
On peut classer les tests soit selon leur objet (but) ou selon leurs propriétés mathématiques.
8.4.2.1 Tests selon leurs propriétés mathématiques
Un test est dit paramétrique si son objet est de tester certaines hypothèses relatives à un ou plusieurs paramètres d'une
variable aléatoire de loi spécifiée. Dans la plupart des cas, ces tests sont bas és sur la considération de la loi normale et
supposent donc explicitement l'existence d'une variable aléatoire de référence suivant une loi normale. La question se
pose alors de savoir si les résultats restent encore valables lorsque n'est pas normale : si les résultats sont valables on dit
que le test en question est robuste. La robustesse d'un test par rapport à un certain modèle est donc la qualité de rester
relativement insensible à certaines modifications du modèle. Un test est dit non param étrique s'il ne fait pas appel à des
paramètres ou d'hypothèses pr écises concernant la distribution sous-jacente.
8.4.2.2 Tests selon leur objet
Les tests sont généralement classés en quatre groupes principaux qui contiennent la plupart des tests statistiques
généralement utilisés en hydrologie.
l Test de conformité : comparaison d'une caract éristique d'un échantillon à une valeur de référence, destinée à
vérifier si la caractéristique correspondante de la population peut être admise égale à la valeur de référence. Par
exemple ; est la valeur de référence (ou norme), est la moyenne, inconnue, de la population.
l Test d'homogénéité ou test de comparaison d'échantillons: Etant donné deux échantillons de taille et , peut-
on admettre qu'ils ont été prélevés dans une même population indépendamment l'un de l'autre ?
Mathématiquement le problème se formalise de la manière suivante : on observe sur le premier échantillon les réalisations
d'une variable aléatoire de fonction de répartition et sur le deuxième échantillon les réalisations d'une variable
aléatoire de fonction de répartition .
On veut tester :
Le choix de est dicté par des considérations pratiques car est trop vague pour obtenir une région
critique. Dans la pratique on se contentera de vérifier l'égalité des espérances math ématiques et des variances de et
, en disposant de , et moyennes et variances empiriques des deux échantillons.
l Test d'ajustement : vérifier si un échantillon donné peut être consid éré comme tiré d'une population-parente
spécifiée.
l Test d'autocorrélation : vérifier si une dépendance (due à la proximité dans le temps par exemple) existe dans des
données chronologiques d'une série d'observations.
¡ L'autocorrélation de décalage , d'une série temporelle stationnaire est définie par :
(8.1)
¡ L'autocovariance = est estimée au moyen d'une série de observations
par :
(8.2)
L'autocorrélation est une mesure de la mémoire, donc de la persistance, du phénomène.
8.4.2.3 Tests selon la nature des informations
En hydrologie diverses situations peuvent se rencontrer en fonction des situations hydrologiques particulières. Ainsi il est
parfois n écessaire de contrôler un seul type de données (pluie, température, évaporation) à l'échelle locale (à l'endroit où la
mesure a été effectuée) ou à l'échelle régionale (d'un bassin versant où plusieurs sites de mesures ont été établis). Il est
également parfois souhaitable de vérifier la qualit é de plusieurs types de données (par exp. pluie-débit, température-vitesse
du vent…) aussi bien à l'échelle locale que régionale. Ainsi divers contrôles de donn ées, recoupant à la fois des tests
numériques (strictement statistiques) et graphiques (à caractère plus hydrologique), peuvent être classés en 4 grands
groupes selon l'échelle spatiale et le nombre de paramètres consid érés : 1 param ètre – échelle locale ; 1 paramètre –
échelle régionale ; plusieurs paramètres – échelle locale ; plusieurs paramètres – échelle régionale.
8.5 Contrôle des données : application au débit de la Viege

Les divers test expos és ci-dessous vont être appliqués à l'aide du jeu de données suivant repr ésentant les débits de pointe
annuels en m3/s de la Viège à Viège de 1922 à 1996 (tableau 8.2). Cette série de débits possède la particularité qu'un
changement de nature anthropique a eu lieu en 1964. En effet, à cette date, un barrage a été construit en amont du point de
mesure (barrage du Mattmark)
Tableau 8.2 - Débits de pointe annuels en m3 /s de la Viège à Viège de 1922 à 1996.
année Qp annuel année Qp annuel année Qp annuel

[m3/s] [m3/s] [m3/s]
1922 240 1947 210 1971 150
1923 171 1948 375 1972 140
1924 186 1949 175 1973 115
1925 158 1950 175 1974 87
1926 138 1951 185 1975 105
1927 179 1952 140 1976 92
1928 200 1953 165 1977 88
1929 179 1954 240 1978 143
1930 162 1955 145 1979 89
1931 234 1956 155 1980 100
1932 148 1957 230 1981 168
1933 177 1958 270 1982 120
1934 199 1959 135 1983 123
1935 240 1960 160 1984 99
1936 170 1961 205 1985 89
1937 145 1962 140 1986 125
1938 210 1963 150 1987 285
1939 250 1964 125 1988 105
1940 145 1965 115 1989 110
1941 160 1966 100 1990 110
1942 150 1967 85 1991 115
1943 260 1968 76 1992 110
1944 235 1969 110 1993 330
1945 245 1969 110 1994 55
1946 155 1970 94 1995 63
1996 49
La figure 8.3 pr ésente nos données sous forme de série temporelle. Les moyennes avant et après barrage sont représentés
sous forme de droite.
Fig. 8.3- Débits de pointe annuels de la Viège à Viège [m 3/s] de 1922 à 1996.
Les principales caractéristiques statistiques des deux sous séries avant et après barrage ainsi que de la série complète sont
résumées dans le tableau ci-dessous (tableau 8.3) :
Tableau 8.3 - Principales caractéristiques statistiques des deux sous séries (avant et après barrage) .
série longueur moyenne médiane écart-type asymétrie kurtosis
1922-1963 42 190.26 176 48.52 1.47 2.88
1964-1996 33 117.27 110 55.51 2.47 6.54
1922-1996 75 158.14 150 62.99 0.90 0.96
8.5.1 1 paramètre – échelle locale
Il s'agit par exemple de tester la série de débits de pointe ci-dessus (1 param ètre) à l'endroit où ils ont été mesurés donc à
Viège (échelle locale) .
8.5.1.1 Tests param étriques
l Tests de conformité
Les tests de conformité comparent la moyenne ou la variance d'un échantillon à la moyenne ou la variance de la loi
théorique (de la population dont il est issu). Deux tests sont utilisés pour la conformité de la moyenne selon que la variance
est connue ou doit être estimée, il s'agit respectivement des test z et de Student (appelé aussi test t). Pour ces tests
statistiques de base, le lecteur se référera à un ouvrage général de statistiques (exp. S. Morgenthaler, Introduction à la
Statistique, PPUR, 1997, p.129).
Exemple : On aimerait tester si la moyenne des débits de pointe de la Viège à Viège pour la période avant
barrage est égale à 200 m3 /s. Pour tous les tests ci-dessous le seuil de signification choisi est .
Nous avons donc :
Comme la variance n'est pas connue, nous utilisons le test t de Student. Le score est donné par :
= .
Comme le test est bilatéral la valeur critique est donnée par le quantile à 97,5% d'une loi t de Student à
degrés de liberté. Nous avons qt41 (97,5 %)=2,01 (cf. tables) et . On ne peut
donc pas rejeter l'hypothèse nulle que la moyenne des débits est égale à 200 m3/s.
Pour la conformité de la variance on se base sur l'étude de la distribution d'échantillonnage de l'écart

par comparaison du rapport des variances. La fonction discriminante suit une loi du chi-carré. La
procédure de ce test est résumée dans le tableau ci-dessous.
Tableau 8.4 : Procédure du test de conformité pour la variance
Etapes Hypoth èses alternatives
H0:
H1:
Fonction
discriminante , suit une loi du chi-carré à degrés de liberté
Non rejet de
H0:
Exemple : Un hydrologue vous affirme que la variance des débits de pointe de la Viège à Viège de 1922 à
1963 est de (soit ). Votre expérience d'hydrologue vous incite à penser que celle-ci est
en fait supérieure à la valeur donnée par votre collègue.
Nous avons dans ce cas :
a fonction discriminante : =61,80.
Comme le test est unilatéral à droite, le quantile à considérer est le quantile à 95%. Comme les tables
numériques nous indiquent que qc 241 (95%) = 56,94<61,80, on rejette l'hypothèse nulle. Votre intuition
d'hydrologue s'avère correcte !
l Tests d'homogénéité
Le test d'homogénéité de la moyenne se base sur la statistique de Student pour deux échantillons tandis que le test
d'homog énéité de la variance correspond au test de Fisher-Snedecor. Dans ce cas également le lecteur se référera à un
ouvrage classique de statistique (exp. P. Meylan et A. Musy, Hydrologie Fréquentielle, polycopié, EPFL, 1998, annexe e-12
et e-13).
Exemple : Motiv ée par le fait qu'une intervention humaine a eu lieu sur le bassin versant de la Viège en 1964,
la série de débits de pointes est séparée en deux échantillons :
(débits de pointe de 1922 à 1963)
et (débits de pointe de 1964 à 1996).
Comme dans le test t de Student nous devons faire l'hypothèse que les variances sont égales mais
inconnues, il est judicieux de réaliser d'abord le test de Fisher-Snedecor.
Nous avons dans ce cas :
1
La fonction discriminante : =1,31.
La valeur critique est Fn -1;n -1(97.5 %)=F 41,32(97.5%)=1.72 (cf. tables). Comme 1,31<1,72, on ne peut pas
1 2
rejeter l'hypothèse nulle que les variances sont égales et l'on peut appliquer le test de Student pour deux
échantillons.
Connaissant les effets de la construction du barrage, on peut s'attendre à avoir une diminution significative
des débits pour le deuxième échantillon, cela nous guide dans la formulation de l'hypothèse alternative pour
tester l'homogénéité des échantillons à partir de la valeur moyenne.
Nous avons ainsi :
avec :
La valeur critique est donnée par . On rejette donc l'hypothèse nulle

puisque 1,66 < 5,90 et, comme on s'y attendait, la moyenne des débits de pointe a diminué significativement
après barrage.
1En pratique pour la fonction discriminante, on met toujours au numérateur la plus grande des deux quantités
n1s2 x/(n1-1) et n2 s2 y/(n2-1), ainsi la région critique est de la forme F>k avec k>1.
l Tests d'adéquation
Le test paramétrique servant à l'adéquation, bas é sur la comparaison des fréquences théoriques et effectives, est le test de
chi-carré développ é dans ce cours dans l'annexe consacré à l'analyse fréquentielle.
Exemple : on se pose la question de savoir si toute notre série de débits de pointe (i.e. 1922-1996) suit une
distribution normale. Posons Z la variable aléatoire modélisant les débits.
Les deux paramètres de la loi normale sont estimés respectivement par la moyenne et la variance
d'échantillonnage et on a donc : . On répartit les observations dans
12 classes (choix arbitraire) et apr ès calculs des effectifs observés et théoriques, on obtient :
La valeur critique nous est donnée par le quantile d'une loi chi-carré à 12 -1-2=9 degr és de liberté
. On ne peut donc pas rejeter l'hypothèse nulle et on conclut que nos
2.
débits suivent bien une loi normale
Fig. 8.4 - Superposition de la densité normale à l'histogramme normalisé (12 classes) de toute la s érie des débits
22 degrés de liberté ont été enlev és à la loi chi-carré car les deux paramètres de la loi normale ont été
estim és.
l Tests d'autocorr élation
Il faut tout d'abord remarquer que la façon la plus simple et la plus immédiate d'évaluer l'ind épendance sérielle, adoptée
dans de nombreux ouvrages d'hydrologie statistique, consiste à calculer le coefficient d'autocorrélation de rang un de la
série, et d'appliquer ensuite l'un des tests « classiques » paramétriques ou non-paramétriques proposés pour le coefficient
de corrélation rx,y « standard », à savoir :
¡ Test de nullité du coefficient de corrélation selon Fisher .
¡ Test de nullité du coefficient de corrélation des rangs de Spearman.
¡ Test de nullité du coefficient de corrélation des rangs de Kendall.
Ces trois tests ont un comportement nominal tout à fait correct, lorsqu'ils sont appliqués à une série bivariée « classique »,
mais s'av èrent inapplicables dans le cas du coefficient d'autocorrélation, comme cela ressort de certains d éveloppements. (cf
Meylan P. et Musy A., Hydrologie Fréquentielle, Edition HGA Bucarest, 1999).
Anderson a étudié la distribution du coefficient d'autocorrélation pour une population parente normale. Dans ce cas le
coefficient d'autocorrélation est calculé sur n paires de valeurs (x1, x 2 ), (x2 , x3 ), …, (xn-1 , xn ), et (xn , x1).
Pour une taille n « assez grande » (Anderson fixe une limite de 75 valeurs!) le coefficient d'autocorrélation suit une loi
normale de moyenne et variance :
(8.3)
Pour des tailles inférieures d'échantillons la distribution est assez compliquée. Anderson donne par cons équent des tables
des valeurs critiques du coefficient de corrélation (tableau 8.5).
Exemple : Testons la nullité du coefficient d'autocorrélation de décalage 1 sur notre première série de débits.
Les hypothèses de ce test sont :
Si on estime le coefficient d'autocorrélation de décalage 1 sur nos données (1922 à 1963) on obtient : 0,002.
La valeur critique étant selon le tableau ci-dessus d'environ 0,22, on ne peut pas rejeter l'hypothèse nulle. Il
est à remarquer que ce résultat était prévisible puisque nous avons affaire à une série annuelle donc l'effet de
persistance est nul.
Tableau 8.5 - Table des valeurs critiques du coefficient d'autocorrélation d'Anderson pour les tests
unilatéraux. Les valeurs entre parenthèses ont été interpolées par Anderson.
N a= 5 % a= 10 %
5 0,253 0,297
6 0,345 0,447
7 0,370 0,510
8 0,371 0,531
9 0,366 0,533
10 0,360 0,525
11 0,353 0,515
12 0,348 0,505
13 0,341 0,495
14 0,335 0,485
15 0,328 0,475
20 0,299 0,432
25 0,276 0,396
30 0,257 0,370
(35) 0,242 0,347
(40) 0,229 0,329
45 0,218 0,314
(50) 0,208 0,301
(55) 0,199 0,289
(60) 0,191 0,278
(65) 0,184 0,268
(70) 0,178 0,259
75 0,173 0,250
8.5.1.2 Tests non param étriques
Il est rappelé que les tests non paramétriques ne font pas appel à des paramètres ou d'hypothèses précises concernant la
distribution sous -jacente.
l Tests de conformité
Le test de conformité de la moyenne classique non param étrique est le test de Wilcoxon pour un échantillon (cf. S.
Morgenthaler, Introduction à la Statistique, PPUR, 1997, p. 255).
Nous allons reprendre les mêmes hypothèses que dans le cas paramétrique ci-dessus (test de Student) :
Le score de Wilcoxon pour un seul échantillon est :
W +=signe(x -norme)R+( x -norme)+…+signe(x -norme)R+( x -norme) (8.4)

1 1 n n
Où : R+ est le rang sign é (i.e.) le rang de la valeur absolue de l'observation signe (u)
Exemple : On obtient dans notre cas W+ = 497. Pour un échantillon de taille supérieur à 15, l'approximation
normale suivante est possible :
Et = 608
Comme 497<608, on ne peut pas rejeter l'hypothèse nulle que la moyenne de ces débits de pointe est de 200
m3 /s.
l Tests d'homogénéité
a) Test de Wilcoxon
Pour tester l'homog énéité de données issues de deux populations on utilise les deux statistiques
équivalentes de Mann-Whitney et Wilcoxon (cf. S. Morgenthaler, Introduction à la Statistique, PPUR,
1997, p.251), ainsi que le test de la médiane.
Exemple : test de Wilcoxon pour deux échantillons. Comme on s'attend à avoir une diminution
significative des débits après 1964, on pose les hypoth èses suivantes :
Les débits en gras sont ceux de la deuxième série.
débits 49 55 63 76 … 125 125 135 138 … 270 285 330 375
rang 1 2 3 4 … 26.5 26.5 28 29 … 72 73 74 75
La statistique de Wilcoxon est la somme des rangs du premier échantillon. On a donc :
et
=676.
Pour , on utilise l'approximation suivante :
La valeur critique est 1750. Comme , on rejette l'hypothèse nulle ce qui est
conforme à notre attente.
b) Test de la médiane
Soit un échantillon de n valeurs (série chronologique par exemple) de médiane (une
variante consiste à utiliser la moyenne ). Chaque observation est affectée d'un signe + si
elle est sup érieure à la médiane, d'un signe - dans le cas contraire. Tout groupe de valeurs
« + » est une séquence positive (ou suite positive), et tout groupe de valeurs « – » est une
séquence négative (ou suite n égative).Il s'agit de d éterminer le nombre total de séquences
positives ou négatives ainsi que , la taille de la plus longue de ces suites.
On sait alors que : et que suit une loi binomiale.
Pour un seuil de signification compris entre 91 et 95%, les conditions de vérification du test
sont les suivantes :
et (8.5)
Si ces conditions sont vérifi ées, la série est homogène.
Exemple : On veut vérifier l'homogénéité de la série des débits de pointe de la Viège sur la
période totale d'observation.
débits 240 171 186 158 … 145 155 230 270 330 55 63 49
signe + + + + … - + + + + - - -
On a que et 9. Comme < =29.5, on rejette
l'hypothèse nulle
l Tests d'autocorr élation
A la suite des travaux d'Anderson, Wald et Wolfowitz ont développé un test non param étrique du coefficient d'autocorrélation.
La statistique du test est calculée comme :
(8.6)
Pour n «suffisamment grand », cette statistique suit une distribution normale de moyenne et de variance :
(8.7)
avec: . (8.8)
8.5.2 1 paramètre – échelle r égionale
Ces méthodes s'appliquent par exemple pour contrôler des données pluviométriques à plusieurs stations situ ées dans un
bassin versant.
Les deux tests développés dans ce paragraphe sont essentiellement utilisés en hydrologie. Leur but spécifique est de
comparer un ou plusieurs échantillons, acquis à des stations voisines, afin de déceler une éventuelle inhomogénéité (dont la
cause la plus classique est une modification de l'une des stations, par exemple, le d éplacement du pluviom ètre).
8.5.2.1 M éthode du double cumul
Le principe de la méthode consiste à vérifier la proportionnalité des valeurs mesurées à deux stations. L'une des stations
(station X) est la station de base ou station de référence, suppos ée correcte. L'autre station (Y) est la station à contrôler. Un
effet de lissage est obtenu en comparant, au pas de temps choisi (année, saison, mois, décade), non pas les valeurs
observées, mais leur cumul. La méthode est d'un concept extrêmement simple, puisqu'il suffit de tracer un graphe des
quantités :
(8.9)
Exemple : Nous voulons tester graphiquement l'homogénéité des donn ées des débits de pointe de la Viège à
Viège. Pour cela, nous allons utiliser comme station de référence, les débits du Rhône à Brigue (après s'être
assuré que cette série ne présente pas d'inhomog énéité). La figure 8.5 ci-dessous présente l'application de la
méthode des doubles cumuls dans ce cadre. Elle nous montre une nette cassure de pente à la station que
l'on désire contrôler à partir de 1964. Cette méthode est capable de d étecter une anomalie (la construction du
barrage).
La méthode du double cumul a l'avantage d'être simple, bien connue de tous et très rapidement réalisable.
Par contre, l'interprétation des graphes obtenus n'est pas toujours aisée et, surtout, la méthode ne propose
aucune graduation en probabilité des défauts constatés: un test, au sens statistique, est donc exclu. Enfin ,
elle permet de détecter l'erreur mais pas de la corriger, du moins pas directement. Après une analyse
approfondie d'une situation critique constatée, une correction peut être toutefois envisagée.
Fig. 8.5 - Exemple d'application pratique de la méthode du double cumul.
8.5.2.2 M éthode du cumul des r ésidus
La méthode du cumul des résidus, due à Philippe Bois de l'Ecole nationale supérieure d'hydraulique de Grenoble, est une
extension de l'id ée de la méthode du double cumul, à laquelle elle ajoute un contenu statistique autorisant la pratique d'un
véritable test d'homogénéité : c'est donc un progrès décisif.
A nouveau pour une série double de valeurs xi (série de base) et yi (série à contrôler), l'idée de base consiste à étudier, non
pas directement les valeurs xi et yi (ou Sxi et Syi) mais les cumuls des résidus e i de la régression linéaire de y en x :
(8.10)
ou encore : - . (8.11)
La figure 8.6 ci-dessous présente une telle régression.
Fig 8.6 - Diagramme de dispersion des débits de pointe annuels du Rhône à Brigue et de la Viège à Viège (1922-1996)
De la théorie classique de la régression il découle que la somme des résidus est nulle par construction et que leur
distribution est normale, d'écart-type :
(8.12)
où r est le coefficient de corrélation linéaire entre X et Y .
Pour un échantillon d'effectif n, le cumul des résidus est défini comme :
(8.13)
Le report graphique des résidus cumulés Ej (en ordonnée) en fonction des numéros d'ordre j des valeurs (en abscisse, j = 0
à n, avec E0 = 0) devrait, pour une corrélation av érée entre X et Y, donner une ligne partant de 0, oscillant al éatoirement
autour de zéro entre j = 0 et j = n, et aboutissant à 0 pour j = n. La présence d'une inhomogénéité se manifeste par des
déviations non aléatoires autour de la valeur nulle.
Bois a décrit et testé de nombreux types d'inhomogénéités. Il a en outre montré que, pour un niveau de confiance 1 - a
choisi, le graphe des Ej en fonction de j ( j = 0 à n ) doit être inscrit dans une ellipse de grand axe n et de demi petit axe :
avec est le ème quantile de la loi normale centrée

(8.14)
réduite.
Ces développements fournissent un véritable test de l'homogénéité de deux stations.
La figure 8.7 pr ésente le test de Bois effectué pour les données des deux stations utilisées précédemment. Les résidus ont
été cumulés en partant de 1996, le dernier résidu étant celui de 1922. Les résidus sont décroissants pendant les 32
dernières ann ées, avant de devenir croissants: l'anomalie se situe donc autour de 1996-32=1964, ce qui a déjà été constaté
avec la méthode du double cumul.
Fig. 8.7 - Résultat du test de Bois pour les débits de pointe annuels de la Viège à Viège avec comme série de référence les débits du
Rh ône à Brigue, Ellipse de confiance à 95 %.
8.5.3 Plusieurs paramètres – échelle locale
Cette méthode est basée sur les relations existant entre certaines grandeurs hydrologiques telles que les précipitations et les
débits ou la température et l'humidité relative de l'air. Si on suppose cette relation connue, ou tout au moins approchée à
l'aide de modèles divers (physiques ou mathématiques), il est possible de détecter les données qui ne cadrent pas avec
cette relation.
8.5.4 Plusieurs paramètres – échelle régionale
Les méthodes qui prévalent à ce niveau sont d'ordre hydrologique ou statistique, selon les cas envisagés.
8.5.4.1 M éthode des bilans
L'équation simplifiée du bilan hydrologique (cf. chapitre 1) est la suivante :
(8.15)
Avec :
: pr écipitations ;
: ruissellement ;
: évapotranspiration ;
: variation de stockage.
Un contrôle possible des données est de mesurer tous les paramètres du bilan et vérifier l'égalité : si , alors on
déduit que . La mesure de la pluie et de l'écoulement nous donne une évaluation du degré de vraisemblance de
l'évapotranspiration. Si celui-ci n'est pas acceptable, on se doit alors de vérifier les données de pluie et de ruissellement.
Une autre analyse possible consiste à estimer grossièrement le coefficient de ruissellement (Cr=R/P) (cf. chapitre 2),
d'évaluer sa vraisemblance en regard des caractéristiques du bassin versant ou alors de vérifier si le calcul obtenu avec les
données pluie-débit donne un résultat similaire. Dans le cas où le calcul du coefficient de ruissellement donne des valeurs a
priori aberrantes (par exemple sup érieures à l'unité), l'erreur à priori est manifeste. Cette erreur a aussi des chances de
provenir de la non concordance des bassins topographiques et hydrogéologiques, à défaut d'une erreur sur les données de
pluie et de débit.
8.5.4.2 M éthode des d ébits sp écifiques maximaux
Un autre exemple de contrôle hydrologique simple est celui qui utilise les débits spécifiques maximaux. On sait que ces
débits spécifiques varient de manière inversément proportionnelle à la surface sur laquelle ils sont calculés. Ainsi, si on
dispose de plusieurs stations hydrom étriques sur un même réseau hydrographique, on peut tracer la courbe décroissante
qmax = f(A). Si un des points, correspondant à une station n'est pas « hydrologiquement » bien plac é il y a lieu de craindre
une erreur (figure 8.8). Cependant il faut être attentif au fait que cette erreur ne provient pas forcément d'une mauvaise
mesure du débit, elle peut provenir d'une erreur d'estimation de la superficie des bassins versants !
Fig. 8.8 - Méthode des débits spécifiques maximaux : visiblement une erreur est présente dans le débit spécifique de la station 4. Il
s'agit alors de chercher à découvrir les sources de cette erreur.
8.5.4.3 M éthodes statistiques multivari ées
Souvent, lors de l'étude d'un phénomène hydrologique, on observe une multitude de variables différentes qui pourraient
potentiellement offrir un intérêt. Dans ce cas on peut faire appel à des méthodes statistiques multivariées. Parmi ces
méthodes on trouve l'analyse en composantes principales et l'analyse factorielle.
l Le principe de l'analyse en composantes principales (ACP) est d'obtenir une représentation approchée d'une nuage
de individus dans un sous-espace de dimension faible. Ceci s'effectue par une projection. L ‘ACP construit de
nouvelles variables, artificielles, et des repr ésentations graphiques permettant de visualiser les relations entre
variables, ainsi que l'existence éventuelle de groupes d'individus et de groupes de variables. Il est à remarquer de
l'interpr étation des résultats est une phase délicate qui doit se faire en respectant une démarche.
l L'analyse factorielle est un modèle mathématique qui tente d'expliquer les corrélations entre un grand nombre de
variables par un nombre restreint de facteurs correspondants. Une hypothèse fondamentale de l'analyse factorielle
est qu'il n'est pas possible d'observer ces facteurs directement ; les variables dépendent des facteurs mais sont
également sujettes à des erreurs aléatoires.
8.5.5 Estimation des données manquantes, correction des données
On peut estimer les données manquantes ou erronées à une station à partir des valeurs provenant des stations voisines
soumises aux mêmes conditions climatiques et situ ées dans la même zone géographique. Trois méthodes sont propos ées
pour les données pluviométriques :
l remplacer la valeur manquante par celle de la station la plus proche ;
l remplacer la valeur manquante par la moyenne des stations voisines. Cette méthode est utilisée lorsque les
précipitations moyennes annuelles de la station à compléter ne diffèrent pas de plus de 10% des pr écipitations
moyennes annuelles aux stations de référence.
l remplacer la valeur manquante par une moyenne pondérée par la tendance annuelle des stations pluviométriques,
soit :
(8.16)
Où :
: donnée manquante de pr écipitation (par exemple), estimée
: nombre de stations de référence,
: pr écipitation à la station de référence ,
: pr écipitation moyenne à long terme de la station ,
: pr écipitation moyenne à long terme de la station de référence .
Pour reconstituer des données de hauteurs d'eau, on peut utiliser des crit ères de proportionnalité analogues dans le cas de
stations limnimétriques placées sur un même cours d'eau (transposition géographique, conservation des volumes,…).
Les méthodes basées sur l'analyse de régressions et corrélations (relations pluie -pluie ou pluie-débit, relations inter-postes)
sont utilisées à cet effet.
Le calcul de la régression se fait en déterminant les valeurs des paramètres de la relation entre la variable expliquée et la ou
les variables explicatives. Cette régression peut être simple ou multiple.
Exemple :
l Soit Y une variable hydrométéorologique dont on connaît valeurs : y 1, y 2 , …, yn .
l Soit X une autre variable observée de façon concomitante, avec les observations x 1, x 2, …, xn.
l mais on possède par ailleurs (sur une période d'observation antérieure par exemple) réalisations
complémentaires
Il s'agit de reconstituer les valeurs manquantes , concomitantes aux valeurs de la série
complémentaire comme illustré par la figure ci-dessous.
Fig. 8.9 - Reconstitution des séries manquantes.
Une méthode générale consiste à utiliser un modèle linéaire de régression du type :
(8.17)
On estime les param ètres et sur la série de couples connus.
On peut alors estimer les valeurs complémentaires pour chaque connu ( , à partir de
la relation estimée :
(8.18)
Notons que cette méthode néglige la dispersion naturelle des autour de la droite de régression ; on diminue
ainsi la dispersion des valeurs reconstituées et on fausse la distribution statistique de l'échantillon complet. Il
est nécessaire d'ajouter à la valeur moyenne conditionnelle yi donnée par la formule précédente, un écart
aléatoire simulé d'écart-type estim é s e , obtenu à partir de la loi de probabilité de e .

Control Datos-Chapitre8

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Control Datos-Chapitre8

Hochgeladen von

Copyright:

Verfügbare Formate

Chapitre 8 - L'organisation et le contrôle des données Page 1 sur 20

L'ORGANISATION ET LE CONTROLE DES

8.1 L'organisation des données

8.1.1 Acquisition des donn ées

8.1.2 Traitement primaire des données

8.1.3 Contrôle des données

8.1.4 Organisation des données

8.1.5 Diffusion et publication

8.2 Le contrôle des données

8.3 Recherche des erreurs et corrections des mesures

Hypothèses de l'analyse statistique :

8.4 Introduction aux tests statistiques

8.4.1 Démarche d'un test : exemple introductif - Les faiseurs de pluie

mm 510 614 780 512 501 534 603 788 650

La règle de décision est donc la suivante :

l Si , repousser H0 ,et accepter H1 ;

L'ensemble d'événements s'appelle la région critique ou région de rejet de H0 . L'ensemble complémentaire

ce qui est considérable.

l Détermination de la variable de décision.

l Calcul de la valeur critique et de la région critique en fonction de .

l Calcul de la valeur expérimentale de la variable de décision.

l Conclusion : rejet ou acceptation de H0.

8.4.2 Les grandes catégories de tests

8.4.2.1 Tests selon leurs propriétés mathématiques

8.4.2.2 Tests selon leur objet

¡ L'autocorrélation de décalage , d'une série temporelle stationnaire est définie par :

¡ L'autocovariance = est estimée au moyen d'une série de observations

L'autocorrélation est une mesure de la mémoire, donc de la persistance, du phénomène.

8.4.2.3 Tests selon la nature des informations

8.5 Contrôle des données : application au débit de la Viege

Tableau 8.2 - Débits de pointe annuels en m3 /s de la Viège à Viège de 1922 à 1996.

année Qp annuel année Qp annuel année Qp annuel

1922 240 1947 210 1971 150

1923 171 1948 375 1972 140

1924 186 1949 175 1973 115

1925 158 1950 175 1974 87

1926 138 1951 185 1975 105

1927 179 1952 140 1976 92

1928 200 1953 165 1977 88

1929 179 1954 240 1978 143

1930 162 1955 145 1979 89

1931 234 1956 155 1980 100

1932 148 1957 230 1981 168

1933 177 1958 270 1982 120

1934 199 1959 135 1983 123

1935 240 1960 160 1984 99

1936 170 1961 205 1985 89

1937 145 1962 140 1986 125

1938 210 1963 150 1987 285

1939 250 1964 125 1988 105

1940 145 1965 115 1989 110

1941 160 1966 100 1990 110

1942 150 1967 85 1991 115

1943 260 1968 76 1992 110

1944 235 1969 110 1993 330

1945 245 1969 110 1994 55

1946 155 1970 94 1995 63

série longueur moyenne médiane écart-type asymétrie kurtosis

1922-1963 42 190.26 176 48.52 1.47 2.88

1964-1996 33 117.27 110 55.51 2.47 6.54

1922-1996 75 158.14 150 62.99 0.90 0.96

8.5.1 1 paramètre – échelle locale

8.5.1.1 Tests param étriques