Beruflich Dokumente
Kultur Dokumente
A travers cette contre chaotique, des hommes audacieux et tenaces ont lanc le premier chemin de fer de
lAfrique centrale.
N'essayez pas de devenir un homme qui a du succs. Essayez de devenir un homme qui a de la valeur.
Albert Einstein
Ass. Cdrick Tombola M. 2
PLAN SOMMAIRE
AVANT PROPOS
INTRODUCTION
THEORIE DE LA CORRELATION
ANNEXES
Ass. Cdrick Tombola M. 3
AVANT-PROPOS
Je ne peux nier, quand jai commenc la rdaction de ce recueil, lambition de confectionner un vade-mecum
dintroduction lEconomtrie lintention des tudiants de premire licence FAS. Mais le nombre de projets
sur la file dattente et les nombreux dfis entre lesquels il me faut partager mon temps dune part, et le besoin
rel et urgent chez les tudiants de disposer dun recueil qui accompagne le cours magistral assur par le
professeur dautre part, mont oblig ne produire quune bauche.
Le projet de proposer ce recueil est n de la dception et de linsatisfaction que jprouvais, encore tudiant,
lors des sances TP dEconomtrie 1. Alors quailleurs ils prennent de la vitesse, nous, me semblait-il, on
tombait, paradoxalement, dans la suffisance.
Ce recueil a donc t rdig de faon permettre aux tudiants de porter un autre regard sur les notions quils
apprennent pendant le cours thorique et de voir plus loin que moi. Le choix des applications a galement t
fait dans cette optique. On remarquera que, par souci pdagogique et dexcellence, je me suis plus attard sur
les aspects et les dmonstrations les moins populaires, bref, sur les non-dits.
Les tudiants passionns et qui veulent aller loin en Economtrie, trouveront aussi, en annexe, une initiation au
logiciel conomtrique EVIEWS.
Enfin, en le mettant la disposition du public, je formule le vu que ce recueil suscite, parmi mes tudiants et
mes collgues de la FAS, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi viter que
nos efforts pour lavancement de cette facult ne sessoufflent et natteignent, prmaturment, un tat
stationnaire , ce qui serait dommage .
Remerciement
Je remercie le professeur Jean-Pierre Bosonga pour la confiance quil a eue en moi vrai dire, sans vraiment
me connatre et pour mavoir orient dans la rdaction de ce recueil.
Mes sincres remerciements vont mon an et mon ami lassistant Jean-Paul Tsasa V. Kimbambu, pour nos
nombreuses discussions, parfois laisses en queue de poisson, et pour lidal quil ma transmis.
Je remercie aussi mes tudiants de premire licence FAS, de la promotion 2011-2012, pour avoir beaucoup
exig et attendu de moi ; ils mont contraint plus de srieux dans le travail, et je leur en suis reconnaissant.
Bien entendu, ce support nengage que son auteur. Toute remarque pertinente pouvant en amliorer le
contenu sera la bienvenue.
Ddicace
Je ddie ce recueil lavenir du LAREQ et lmergence dune nouvelle classe denseignants lUPC.
Cdrick Tombola M.
cedrictombola@lareq.com
Ass. Cdrick Tombola M. 4
.I.
INTRODUCTION
I.1. Quelques points de lhistoire
Les premiers dveloppements de lEconomtrie1 peuvent remonter, selon Grard Grellet, au 17me sicle,
lpoque de lArithmtique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs
comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modlisation partir des
donnes empiriques.
Selon dautres auteurs, on doit la gense de lEconomtrie aux travaux de tentative dunification de
lEconomie et la Statistique dAuguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en
Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentrent dlaborer des lois
conomiques { linstar des lois de la physique newtonienne.
Mais il convient simplement de retenir que nombre de mthodes et techniques auxquelles recourt
lEconomtrie, ont t dveloppes bien avant son institutionnalisation comme discipline des sciences
conomiques. A titre dexemple :
- En 1805, dans son ouvrage intitul Nouvelles mthodes pour la dtermination des orbites des comtes ,
puis en 1806 dans la deuxime dition du mme ouvrage, le mathmaticien franais Adrien-Marie Legendre
propose, par une mthode algbrique, le premier dveloppement rigoureux de la mthode des moindres
carrs ordinaires.
- En 1809, Carl Friedrich Gauss, dans son trait Theoria motus corporum coelestium , propose, par une
approche probabiliste, un autre dveloppement rigoureux de la mthode des moindres carrs ordinaires
dont il se rclame la paternit. Dans une lettre adresse Pierre-Simon de Laplace2, il explique quil avait
fait usage de cette mthode dj en 1795, et de manire un peu plus frquente, dans ces calculs
astronomiques sur les nouvelles plantes, depuis 1802.
Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov dmontrent que lestimateur des moindres carrs
ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. Cest--dire quil est le meilleur
estimateur linaire non biais, variance minimale.
- En 1886, dans son tude sur la transmission des caractres hrditaires, Francis Galton, de qui le terme
rgression tire son origine, fournit une premire rgression linaire. Plus tard, son disciple Karl Pearson, en
1896, dans son ouvrage La Grammaire de la Science , dveloppe la notion de corrlation linaire et
propose un estimateur pour cette grandeur.
La corrlation a t introduite en Economie en 1902, avec louvrage de Arthur Lyon Bowley Elements of
Statistic .
- En 1909, Georges Udny Yule invente les premires applications conomiques de la mthode de la
corrlation et introduit la mme occasion la notion de corrlation partielle. Et en 1926, il dnonce les
1
On attribue souvent tort au norvgien R. Frisch, la cration du mot conomtrie qui revient plutt Pavel Compria.
2
Il inclut lui-mme un expos de la mthode des moindres carrs ordinaires dans son trait de 1820 : Thorie
analytique des probabilits . En 1808, le mathmaticien amricain Robert Adrain a aussi publi une formulation de la
mthode des moindres carrs.
Ass. Cdrick Tombola M. 5
spurrious correlations , ce quil convient de traduire par corrlations fallacieuses. Puis montre que la
corrlation de deux sries chronologiques peut tre totalement artificielle.
Linstitutionnalisation de lEconomtrie en tant que discipline des sciences conomiques sest ralise en
1930 exactement le 29 dcembre 1930 { loccasion de la cration { Cleveland, aux Etats-Unis, par 16
conomistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cits, de lEconometric Society [la Socit
dEconomtrie] avec comme devise : pour lavancement de la thorie conomique dans ses relations avec la
statistique et les mathmatiques.
Depuis la cration de cette socit, et de la Cowles commission spcialise dans les mthodes
destimation des modles { quations simultanes , fonde le 9 septembre 1932, deux ans aprs
lEconometric Society, par Alfred Cowles, lEconomtrie a connu un grand essor.
Cest ainsi quen 1933, R. Frisch cre la revue Econometrica pour la promotion des tudes qui ont pour but
une unification des approches quantitatives thoriques et empiriques des problmes conomiques.
On note aussi que ds le dpart, pour les promoteurs de lEconometric Society, il tait clair que deux
dviations devraient tre vites :
"L'exprience a montr que chacun des trois points de vue suivants, celui de la statistique, celui de la thorie
conomique et celui des mathmatiques est une condition ncessaire, mais par elle mme non suffisante, d'une
comprhension effective des relations quantitatives de la vie conomique moderne : c'est leur unification qui
est efficace. C'est cette unification qui constitue l'conomtrie .
Il faut noter galement que le krach financier des annes 30, la domination du keynsianisme jusqu{ la fin
des annes 60, le dveloppement de linfrence statistique la fin du 19me sicle et le consensus entre les
conomistes autour du cadre IS LM avant 1970, sont aussi parmi les facteurs explicatifs de lessor de
lEconomtrie depuis 1930, surtout au sein de la Cowles commission. La rvolution Keynsienne [1936], avec
la logique de circuit, a dvelopp un autre type de raisonnement macroconomique en termes dagrgats
objectivement mesurables par la comptabilit nationale et de comportements mesurs par les propensions.
Ainsi, entre 1944 et 1960, la plus grande partie de la recherche en Economtrie porta sur les conditions
destimation des modles macroconomtriques { quations simultanes.
- En 1935, Jan Tinbergen estime un premier modle conomtrique quations simultanes, du type
keynsien, comportant 31 quations de comportement et 17 identits. Il devient ainsi, dun point de vue
empirique, le pre des modles conomtriques.
- En 1944, Trygve Haavelmo pose les conditions gnrales de solvabilit dun systme dquations linaires.
3
R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart,
Snyder , Wedervang, Wiener, Wilson.
4
Premier laurat du prix de la Banque de Sude communment appel prix Nobel en mmoire de son fondateur
Alfred Nobel dconomie en 1969 avec Jan Tinbergen.
Ass. Cdrick Tombola M. 6
Plusieurs autres travaux seront produits au sein de la Cowles commission. En 1950, Durbin et Watson
laborent leur clbre test dautocorrlation des erreurs. En 1954, Henri Theil et Robert Lon Basmann
introduisent la mthode des doubles moindres carrs. Toujours dans les annes 50, il y eut un
dveloppement des modles retards distribus par Koyck, Almon, Cagan et Friedman.
Lon peut galement citer les travaux suivants dvelopps entre 1950 et 1970 : la mthode des moindres
carrs gnraliss et lintroduction du calcul matriciel en Economtrie par Aitken; les tests et corrections de
lhtroscedasticit [Glejser, White, ].
Lirruption de linformatique au dbut des annes 60 va donner un nouveau coup de pousse { lexpansion
de lEconomtrie.
En 1961, James Tobin dveloppe les modles microconomtriques. Il est, ce titre, considr comme le
pre des modles microconomiques. La mme anne, Yair Mundlak conoit les mthodes bases sur les
donnes de panel.
Les annes 1970 ont t marques par cinq faits majeurs qui ont conduit { lclatement du paradigme de la
Cowles commission. Cest--dire une remise en cause radicale des modles macroconomiques structurels
dvelopps au sein de cette institution. Ces faits sont :
Le premier choc ptrolier [en 1973] ou le quadruplement du prix des produits ptroliers, ce qui
marque, historiquement, la fin des Trente Glorieuses5 ;
La stagflation et la remise en cause de la courbe de Phillips;
La chute du keynsianisme et le rejet des modles conomtriques traditionnels devenus caducs
bass sur le paradigme IS LM ;
Le deuxime choc ptrolier [en 1979] ou le doublement du prix des produits ptroliers ;
La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroconomie
Microfonde, le retour aux modles walrassiens et le dveloppement des modles dquilibre
gnral calculable [MEGC].
Les critiques les plus acerbes et svres sont venues essentiellement, ds 1972, de Robert Emerson Lucas 6.
Cest ce que la littrature qualifie de la fameuse critique de Lucas. Il discrdite les modles
macroconomtriques traditionnels, en fustigeant leur incapacit expliquer et prvoir les
bouleversements provoqus par le 1r et le 2me chocs ptroliers. Il leur reproche de manquer de fondations
microconomiques suffisamment solides. De plus, Lucas interdit les prvisions myopes et adaptatives, il
pose la problmatique des anticipations rationnelles, ce qui veut dire que les agents conomiques sont
intelligents et capables de former leurs anticipations sur une base endogne et ainsi anticiper toute mesure
de politique conomique. De fait, toute mesure de politique conomique, ajoute-t-il, devient inefficace du
fait de la prise en compte des anticipations rationnelles, les agents pouvant lanticiper et la contrer.
5
Trente Glorieuses : Titre dun livre de Jean Fourasti, publi en 1977, qui dsigne la priode de forte croissance
conomique, de plein-emploi et daugmentation des salaires rels et des revenus, quont connu les pays dvelopps, de
laprs-guerre au premier choc ptrolier.
6
Laurat du prix Nobel dEconomie 1995.
Ass. Cdrick Tombola M. 7
Cette critique a pouss les conomtres penser plus profondment sur les fondements de leur discipline
et a donn lieu des critiques plus svres. LEconomtrie va connaitre un changement radical, surtout en
termes de relations quelle entretient avec la thorie conomique.
- En 1970, George Box et Gwilym Jenkins dveloppent le modle ARMA [AutoRegressive with Moving
Average] qui est un mlange des modles AR et MA dvelopps en 1927 respectivement par Georges Yule
et Eugen Slustsky , comme une rponse aux dfaillances constates dans la capacit de prvision des
modles labors la suite des travaux de Tinbergen.
- Dj en 1974, Clive William John Granger et Paul Newbold mettent en garde contre les spurrious
regressions ou rgression fallacieuse, pour le cas dajustement par les MCO dun modle avec sries non
stationnaires.
- En 1980, dans un article qui a connu un succs destime lors de sa parution, intitul Macroeconomics and
Reality, Christopher Sims7, en gnralisant le modle ARMA en modle VAR [Vector Auto Regressive] afin
de tenir compte, au mme moment, de plusieurs variables, reproche aux conomtres davoir mis la
charrue devant les bufs en remettant en cause la distinction priori entre variables endognes et
variables exognes, et considre toute variable comme potentiellement endogne 8. Cest ce que la
littrature appellera lEconomtrie sans thorie. La critique de Sims va permettre { lEconomtrie de devenir
beaucoup plus autonome et de smanciper de la tutelle de la thorie conomique.
- En 1987, Clive Granger et Robert Engle dveloppent la mthode de cointgration dans le traitement des
sries non stationnaires. Une anne aprs, en 1988, Johansen propose une version amliore du test de
cointgration Engle Granger.
- En 1982, Robert Engle dveloppe le modle ARCH afin de prendre en compte la non linarit et la forte
volatilit des variables financires, ce qui ntait pas possible avec les modles ARMA et VAR.
Plusieurs mthodes encore ont t dveloppes depuis la fameuse critique de Lucas, et plus loin encore
dans lhistoire, depuis la cration de la socit dEconomtrie. LEconomtrie a donc connu, ces deux
dernires dcennies, un essor vertigineux.
La dmarche en sciences conomiques est hypothtico-dductive. Cest--dire que les thories conomiques
ne sont valables que dans le domaine dfini par leurs hypothses. Sil est vrai que lusage des
mathmatiques est la garantie de la rigueur et de la cohrence interne des thories conomiques
modernes, la question reste cependant pose quant la pertinence de leurs hypothses. Ceci motive le
recours { des outils plus puissants notamment lEconomtrie, qui est un outil de validation des thories.
De fait donc, lconomiste ne doit-il pas tre aussi conomtre ? John Maynard Keynes, dans les annes
1930, crivait : Lconomiste doit tre mathmaticien, historien, philosophe, homme dEtat, . Sil faut
transfrer la pense de Keynes aujourdhui, naurait-il pas lui-mme ajout lconomiste doit tre
conomtre ?
Il est clair quil nest plus possible { ce jour, de faire un bras de fer avec lirruption et la domination de
lEconomtrie dans le champ de la science conomique, au risque, purement et simplement, de se
soustraire de la catgorie dconomistes modernes.
7
Laurat, avec Thomas Sargent, du prix Nobel dEconomie 2011.
8
Cette dmarche de Sims sinspire de lun des grands principes de la thorie de lquilibre gnral, selon lequel toutes
les variables conomiques sont dtermines simultanment.
Ass. Cdrick Tombola M. 8
Pour renchrir, dans une tude publie en 2006, les conomistes Kim, Morse et Zingales ont montr que le
nombre darticles empiriques cits en conomie est pass de 11 % 60 % entre 1970 et 2000. Ce qui confirme
limportance de plus en plus croissante de lEconomtrie dans lunivers des conomistes.
Par ailleurs, lEconomtrie s'applique tous les domaines auxquels s'applique la science conomique.
L'ouvrage de Levitt et Dubner, Freakonomics, tmoigne de la diversit des applications possibles de
l'conomtrie. Voici quelques exemples significatifs:
En conomie de guerre, Collier Hoeffler [1999] ont mis en vidence, par le recours un modle
conomtrique, les dterminants politiques permettant de mettre fin aux guerres civiles et de
relancer lconomie en priode post-conflit.
En conomie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilis un modle de rgression
linaire pour tester empiriquement la pertinence du modle de Solow. Ils montrent que le modle
de Solow augment du capital humain est cohrent avec les donnes observes. Barro et Sala-i-
Martin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux mthodes conomtriques afin
de rendre compte de leffet des dpenses publiques sur la croissance.
En conomie de la criminalit, Levitt, en 1997, a utilis un modle linaire variables instrumentales
pour estimer l'effet du nombre de policiers sur la criminalit.
En 2002, Acemoglu, Johnson et Robinson ont utilis une rgression linaire pour estimer l'effet des
institutions sur le dveloppement actuel des pays.
La force de la statistique est quon nest pas oblig dtudier toute la population. Il est possible de tirer des
conclusions sur une population, { partir dun chantillon suffisamment reprsentatif.
Et comme les donnes en elles-mmes ne sont pas intelligibles, le statisticien recherche la synthse. Sa
premire dmarche pour synthtiser les donnes consiste { calculer les paramtres de description, cest la
statistique descriptive. Plus tard, la dmarche du statisticien consistera contraster des donnes
empiriques aux lois thoriques, dont on connait parfaitement les comportements, en vue de faire de la
prdiction, cest la statistique infrentielle [ou mathmatique].
Le statisticien britannique Georges U. Yule a nonc un certain nombre de proprits souhaites pour les
indicateurs des sries statistiques ; ceux-ci doivent tre dune part, des rsums maniables et dautre
part, les plus exhaustifs possibles relativement { linformation contenue dans les donnes.
Dans son schma, une caractristique statistique doit tre une valeur-type :
En ralit, on ne dispose pas de caractristiques rpondant simultanment ces six conditions. Le choix
dun indicateur sera lobjet dun compromis guid par la spcificit de ltude en cours.
1. La moyenne arithmtique :
La moyenne arithmtique9 est la mesure de rpartition quitable. Elle conserve la somme totale et satisfait toutes les
conditions de Yule, sauf la 5me, car elle est une mesure sensible aux valeurs extrmes.
Lorsque les valeurs sont alatoires, la moyenne arithmtique est appele Esprance mathmatique .
2. La mdiane [Me] : est la mesure qui divise la srie en deux groupes de tailles gales. Aprs avoir class les
donnes en ordre croissant, elle correspond pour n impair [pair], au point milieu [ la moyenne arithmtique de deux
points milieux].
Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement la moyenne arithmtique, la mdiane rsiste aux
valeurs extrmes.
3. Le mode [Mo] : est la valeur dominante de la srie, celle qui a la frquence la plus leve.
Pour une distribution discrte, le mode satisfait aux conditions 1, 3 et 4 de Yule.
Le premier Quartile Q1 Valeur telle quau moins 25% des valeurs prises par X lui sont
[ou quantile dordre 1, infrieures. Aprs avoir class les donnes et spar la
x25%] population en deux, le Q1 est la mdiane de la premire sous-
population.
Le deuxime Quartile Q2
[ou quantile dordre 2, Le Q2 est la mdiane.
4. Les quartiles x50%]
Le troisime Quartile Q3 Valeur telle quau moins 75% des valeurs prises par x lui sont
[ou quantile dordre 3, infrieures. Le Q3 est la mdiane de la deuxime sous-
x75%] population.
Note : Les quartiles non plus ne subissent pas linfluence des valeurs extrmes. Comme la mdiane, les quartiles
satisfont aux conditions 1, 3, 4 et 5 de Yule.
Indicateurs de dispersion
La variance est la moyenne arithmtique des carrs des carts dune variable { sa moyenne arithmtique. Elle donne
une ide de la dispersion [ou dviation] de chaque observation xt autour de sa moyenne. Mais comme on le voit, avec
la variance on change dchelle, elle sexprime dans le carr de lunit en laquelle sexpriment les observations. Pour
revenir { lchelle du dpart, on prend sa racine carre qui est lcart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule.
Note : La variance empirique est lestimateur non biais de la variance. La variance est un estimateur biais car utilisant
un autre estimateur dans son calcul.
9
Dans le langage courant, on dit simplement moyenne. Or, selon la manire dont le total des individus est calcul, il
existe diffrentes moyennes [moyenne gomtrique, moyenne harmonique, moyenne quadratique].
Ass. Cdrick Tombola M. 10
a r
Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. A titre dexemple,
si a=0 et r=1, on retrouve la moyenne arithmtique, qui nest rien dautre que le moment non centr dordre 1. La
variance serait donc le moment centr sur la moyenne arithmtique dordre 2, etc.
Note : dans la suite, on dira moment centr pour parler de moment centr sur la moyenne arithmtique. On peut
aisment vrifier que le moment centr sur la moyenne arithmtique dordre 1 (1) est nul.
1 est nul pour une distribution symtrique, telle que la loi normale.
Asymtrie gauche [distribution Asymtrie droite [distribution
Distribution symtrique
tale droite] tale gauche]
10. Laplatissement [Kurtosis en grec, qui signifie bosse] : est bas sur le moment centr dordre 4 et permet de
mesurer limportance des queues dune distribution ou son aplatissement.
Distribution leptokurtique
Distribution mesokurtique
Distribution platokurtique
La loi normale est une des principales distributions de probabilit. On dit quelle est parfaite, car sa densit de
probabilit dessine une courbe en cloche ou courbe de Gauss, qui est la fois symtrique et mesokurtique.
Elle a t introduite, en 1733, par le mathmaticien Abraham de Moivre, et mise en vidente plus tard, au 19 me sicle,
par Carl F. Gauss. Elle est galement connue sous le nom de la loi de Gauss. Une variable distribue selon cette loi est
dite normale ou gaussienne.
Test dhypothse [un petit commentaire]
Ass. Cdrick Tombola M. 11
Un test d'hypothse est une dmarche consistant valuer une hypothse statistique en fonction d'un chantillon. Il
sagit donc de confronter une hypothse dite nulle [HO] contre une hypothse de recherche ou alternative [H1].
Une notion essentielle qui concerne les tests est la probabilit que l'on a de se tromper. Il existe deux faons de se
tromper lors dun test statistique :
La premire faon de se tromper est de commettre lerreur [ou risque] de premire espce, not , qui est
la probabilit de rejeter tort HO alors quelle est vraie. On dit, dans ce cas, que est la probabilit davoir un
faux positif.
La deuxime faon de se tromper est de commettre lerreur [ou risque] de deuxime espce, not , qui est
la probabilit de ne pas rejeter HO alors quelle est fausse. On dit, dans ce cas, que est la probabilit davoir
un faux ngatif.
Lidal serait que ces deux erreurs soient nulles, mais puisque lon ne dispose que dun nombre fini dobservations, il
faut faire un choix.
Le risque tant difficile { valuer, voire impossible, seul le risque est utilis comme critre de dcision.
Dans son article de 194410, qui a marqu une tape dcisive dans le dveloppement de lEconomtrie, crit
dans lobjectif de briser la rticence de ses contemporains vis--vis de lapplication des mthodes
statistiques aux donnes conomiques, Haavelmo a avanc deux thses. Dabord, il a dfendu l'ide que
l'emploi des mesures statistiques telles que les moyennes, les carts-type, les coefficients de corrlation,
des fins d'infrence n'a rellement de sens que dans un contexte probabiliste. De plus, estimait-il, peu
importe la vraie nature des faits conomiques, il suffisait, pour les analyser, de faire comme si les donnes
conomiques taient gnres par une loi de probabilit qu'il fallait identifier de faon adquate.
Avant donc toute tude formelle, le travail de lconomtre est de tester ladquation ou la conformit
dune distribution observe avec une distribution thorique associe une loi de probabilit. Parmi ces
tests dadquation, la conformit { la loi normale est le test le plus utilis, car elle sous-tend la plupart de
tests paramtriques utiliss en Economtrie. A titre de rappel, pour une distribution gaussienne, 2
contiennent 95% des observations.
Les nombreux tests11 de normalit dune distribution que fournit la littrature peuvent se regrouper en
deux familles : Les tests informels et les tests formels.
Les tests informels donnent une prsomption tandis que les tests formels apportent une approche plus rigoureuse et
objective.
Ci-aprs sont exposs uniquement les tests les plus frquemment utiliss et les plus oprationnels.
10
Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118.
11
Il existe une batterie de test de normalit, ici nous ne reprenons que quelques uns.
Ass. Cdrick Tombola M. 12
. Le Box plot
Synonyme : Bote pattes, Bote moustache, Diagramme en boites, Box and Whiskers Plot
Le Box plot, invent par Tukey en 1977, est un outil graphique trs pratique qui permet de caractriser
une distribution en fournissant un rsum riche dinformations sur sa dispersion et son asymtrie.
Du fait quil renseigne sur lasymtrie dune distribution, le Box plot est galement utilise comme test de
normalit.
Les tapes suivre dans sa construction peuvent tre rsumes comme suit :
a. Porter sur une chelle les valeurs calcules suivantes : Q1, Q2, Q3, Min xi et Max xi
b. Construire la bote : - La longueur de la bote est donne par lEIQ
- La largeur de la bote est fixe priori.
c. Calculer la longueur des moustaches ou des pattes [infrieure et suprieure] :
Pour savoir jusquo vont les moustaches, on calcule deux valeurs adjacentes :
Frontire Basse [FB]= Q1 1.5EIQ
Frontire Haute [FH]= Q3 + 1.5EIQ
Pour la longueur de la moustache suprieure : prendre, parmi les valeurs xi prises par X, la valeur maximale
xh directement infrieure FH, soit xh = max {xi| xi FH}.
A retenir : - Pour une distribution symtrique, Q2 divise la bote exactement en deux parties gales.
- Pour une distribution symtrique, Q2= .
Illustration
X 6 7 8 9 10 11 12 13 14 15 16 17 18
Q1 = 8.5 Q2 = 12 Q3 = 15.5 EIQ = 7 Min xi = 6 et Max xi= 18
FB = 8.5 (1.5)7 = 2 FH = 15.5 + (1.5)7 = 26 = 12 Etendue = 10 Xb = 6 Xh =18
Etendue
Min xi Q1 Q2 Q3 Max xi
FB FH
Xb Xh
EIQ
La croix lintrieur de la bote reprsente la moyenne.
Ass. Cdrick Tombola M. 13
Il ressort, puisque Q2 spare la bote en deux parties gales et que les queues ont une longueur identique,
que la distribution est symtrique, ce qui est une prsomption de normalit. De plus la mdiane (Q2) est
gale la moyenne.
Note : la Botepattes permet galement de dtecter les valeurs aberrantes ou singulires [dviants ou
atypiques ou encore outliers]. Aprs avoir construit le Box plot, est valeur aberrante celle situe au-del des
pattes.
Le test de Jarque-Bera, propos en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalit les
plus populaires dans les milieux acadmiques. Mais la remarque { faire, dores et dj{, est quil est
particulirement appropri pour grand chantillon, soit n > 88.
Le test JB est fond sur les coefficients dasymtrie et daplatissement. Sa richesse consiste { ce quil
permet de conclure { la fois sur lasymtrie et limportance des queues [aplatissement] dune distribution.
H0 : Normalit
H1 : Non normalit
Sous lhypothse de normalit de la srie, la statistique du test JB suit asymptotiquement une distribution
du Khi deux 2 { degrs de libert avec le risque davoir un faux positif [ou seuil de signification] = 5%.
JB = n =
Valeur lue dans la table de la loi du Khi carr deux degrs de libert
Seuil 1% 5%
Valeur
9.210 5.991
. Le test de Shapiro-Wilk
Le test de Shapiro Wilk, propos en 1965 par Samuel Shapiro et Martin Wilk, est considr dans la
littrature comme lun des tests de conformit { la loi normale les plus fiables et les plus efficaces,
particulirement pour petits chantillons [n 50] 12. Ce test est bas sur la statistique W, calcule comme
suit :
W=
12
Lire par exemple Royston (1982), Palm (2002).
Ass. Cdrick Tombola M. 14
n : est la taille de lchantillon ai : sont des valeurs lues dans la table des coefficients
: est la partie entire du rapport de Shapiro et Wilk, connaissant n et lindice i.
x(i) : correspond la srie des donnes tries en ordre
croissant
La statistique W est confronte une valeur lue dans la table des valeurs limites de W propose par
Shapiro et Wilk, avec n le nombre dobservations et au seuil [5% en gnral].
Critre de dcision : Si W < WTable(n) au seuil , alors RH0 [la variable est non gaussienne]13.
Note : Les deux tables utilises pour mener ce test sont reprises en annexe.
De par sa nature lEconomtrie est Pour tester les thories, Ce sont les mthodes statistiques qui
intimement lie la thorie lEconomtrie utilise les donnes permettent de mettre en uvre et
conomique qui lui fourni les observes, les informations fournies dexploiter un modle partir
modles et thories quelle teste. par un chantillon. dinformations provenant de
lchantillon.
Aujourdhui encore, malgr Lconomtrie a principalement
lmancipation de lEconomtrie recours trois types et deux formats La mthode la plus populaire en
depuis le fameux article de 1980 de de donnes. Economtrie est celle des moindres
Sims, lon ne peut trancher en carrs ordinaires.
dfaveur du mariage thorie Trois types de donnes :
conomique Economtrie. En recourant aux mthodes
Chroniques [times series en statistiques, et partir
Selon Ado et Davidson [1998], anglais], on parle galement des dinformations livres par le monde
L'conomtrie est prcisment le sries chronologiques ou sries rel, lconomtre poursuit un triple
moyen qui permet au discours objectif :
conomique d'chapper la vacuit temporelles, notes Xt : sont de
de son formalisme, en permettant donnes indices par le temps. Quantifier et tester les thories
une mise en correspondance des Ex. Le PIB de la RDC de 2000 Faire des prvisions
thories et des faits conomiques. 2010. Evaluer lefficacit des mesures
C'est elle qui permet de confirmer ou de politique conomique
13
Lire TSASA Jean Paul (2012) pour les illustrations.
Ass. Cdrick Tombola M. 15
d'infirmer les modles thoriques, du Donnes en Coupe longitudinale LEconomtrie na donc pas pour
moins ceux qui admettent une [cross section en anglais], on objet dnoncer la thorie mais de la
reprsentation conomtrique. parle aussi de coupe instantane, vrifier.
notes Xi : font rfrence aux
donnes observes au mme
moment, pour des individus
diffrents. Ex. Le PIB en 2009 de
tous les pays de lAfrique
Centrale.
Donnes en Panel [pooling en
anglais], on parle aussi des
donnes croises, notes Xit :
font rfrence la combinaison
de deux premiers types. Ex. Le
PIB de 2000 2010 de tous pays
de lAfrique Centrale. On parle
aussi de cohorte, lorsque
lchantillon sond reste le
mme dune priode { lautre.
. Modle conomique
Selon Barbancho14, un modle est lexpression mathmatique dune certaine thorie conomique.
Lexemple de la loi psychologique fondamentale de Keynes est assez pertinent { cet effet. Daprs cette loi,
en moyenne et la plupart du temps lorsque le revenu dun individu augmente, il augmente aussi sa
consommation, mais dans une proportion moindre { laugmentation de son revenu. Mathmatiquement, si
on note la consommation par Ct et le revenu par Yt, cette loi peut tre spcifie comme suit :
En gnral, le modle spcifi par lconomiste est dfini comme tant une maquette de la ralit ou dun
phnomne sous forme dquations dont les variables sont des grandeurs conomiques.
A ce sujet, Lester C. Thurow note ceci : Les quations dcrivent quoi ressemblerait le monde rel sil
ressemblait la thorie .
. Modle conomtrique
Toujours selon Barbancho, un modle conomtrique nest autre chose quun modle conomique qui
contient les spcifications ncessaires pour son application empirique. Cest donc le modle conomique
auquel on ajoute un terme derreur ut.
La premire partie de ce modle [0 + 1Yt] constitue sa partie systmatique et la deuxime [ut] sa partie
stochastique ou alatoire.
Il convient de noter galement que le terme derreur ut [bruit, perturbation ou ala] dnote de la diffrence
entre lconomiste et lconomtre. Il synthtise linfluence sur Ct [variable explique] de toutes les autres
variables oublies et des erreurs ventuelles de spcification de la forme fonctionnelle dans le modle
spcifi par lconomiste. De plus, sa prsence dans le modle rend les paramtres 0 et 1 inconnus, on ne
sait plus les calculer, il faut donc les estimer.
14
Cit par Kintambu Mafuku (2004).
Ass. Cdrick Tombola M. 17
.II.
THEORIE DE LA CORRELATION
Lanalyse de la corrlation a pour objet de prsenter les mesures statistiques destines { rendre compte du
sens et de la force de la liaison mathmatique qui peut exister entre deux variables quantitatives X et Y. Il
faut, dores et dj{, noter que dans ce cadre, la position des variables est symtrique. Lanalyse ne permet
pas de distinguer variable endogne de la variable exogne.
Loutil graphique diagramme de dispersion ou graphique nuage de points est le plus adapt et indiqu
pour dbuter ltude de la corrlation. Aprs lavoir ralis, la forme du nuage des points renseigne
partir dun simple coup dil sur le type dune ventuelle liaison entre X et Y. Plusieurs situations sont
possibles :
600 600
500 500
400 400
300 300
200 200
100 100
0 0
0 500 1000 1500 2000 0 500 1000 1500 2000
Figures B.1. Relation non linaire monotone Figures B.2. Relation non linaire Figures B. 3. Absence de liaison
non monotone
120
10 15 100
80
8 60
6 10 40
20
4 0
5 -100 -50 -20 0 50 100 150
2
-40
0 0 -60
0 5 10 15 -4 -2 0 2 4 -80
Lanalyse du plot donne certes une ide sur le sens et le type dassociation entre X et Y, mais elle ne permet
pas de quantifier son intensit.
Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours
au calcul de la covariance. Si on note par n la taille de lchantillon et i le numro de lobservation, la
covariance empirique15 entre X et Y est calcule par la formule :
Cov (X, Y) =
15
La covariance empirique tant un estimateur non biais de la covariance.
Ass. Cdrick Tombola M. 18
Lide est que si X et Y covarient, leur covariance devrait tre grande. Elle serait modrment faible si les
deux variables ne covarient pas.
Le coefficient de corrlation linaire de Bravais Pearson, not rXY, est un coefficient paramtrique qui
donne la mesure du degr de liaison linaire entre deux variables quantitatives X et Y normalement
distribues. Il est donn par le rapport entre leur covariance et le produit non nul de leurs carts types.
Ainsi, il standardise la covariance et la corrige de linfluence des units de mesure des variables.
rXY = = [2.1]
Si lon considre les carts { la moyenne arithmtique 16, la relation [2.1] peut galement scrire comme
suit :
rXY = [2.2]
Cov (X, Y) = Cov (Y, X) rXY = rYX Comme la covariance, le rXY est symtrique.
La corrlation entre une variable et elle-
Cov (X, X) = Var (X) rXX = 1
mme est gale { lunit.
La corrlation entre une constante et une
Cov (k, X) = 0 rkX = 0
variable est nulle.
Le coefficient de corrlation linaire est un
1 rXY 1 nombre sans dimension dont lintervalle de
variation est : [1, +1]17.
Le calcul du coefficient de corrlation linaire de Bravais Pearson entre les variables X et Y nest adapt
quau strict respect des hypothses suivantes :
Note : Lorsque la liaison entre X et Y est non linaire mais monotone, le r XY ne devient pas hors de propos.
Seulement, dans ce cas despce, il donne des informations sur lexistence de la liaison, mais estime mal son
intensit. Noublions pas que le coefficient de corrlation linaire sert avant tout { caractriser une liaison
linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur sur lexistence et lintensit de la
relation entre variables considres.
16
La somme des carts la moyenne arithmtique est toujours gale 0, soit = 0.
17
On peut aisment dmontrer que par construction, le rXY reste compris entre -1 et 1.
18
Cette information est livre par le graphique nuage des points.
Ass. Cdrick Tombola M. 19
Puisque le travail se fait sur un chantillon, aprs calcul et avant toute interprtation, le rXY doit tre soumis
un test de significativit qui permet de vrifier si la corrlation calcule existe bel et bien au sein de la
population.
Sous H0, on dmontre que la statistique du test suit une distribution de Student au seuil [5% sauf
indication contraire] et (n 2) degrs de libert.
La signification clinique ou linterprtation du rXY nest valable que si, aprs test, on rejette lhypothse de
dcorrlation.
Le travail dinterprtation dun coefficient de corrlation linaire se fait toujours en deux temps : une
interprtation par rapport au signe/sens de la liaison et une interprtation par rapport au degr de
dpendance.
Note : Le coefficient de corrlation linaire entre deux variables quantitatives gaussiennes indpendantes
Ass. Cdrick Tombola M. 20
est nul, mais la rciproque nest pas toujours vraie. Donc r XY = 0 ne signifie pas toujours quil y a
indpendance entre X et Y. Cela peut tout simplement vouloir dire quil y a absence dune liaison
linaire entre les variables tudies.
Ceci dit, le calcul dun coefficient de corrlation doit toujours commencer par un examen graphique.
Lautre faiblesse majeure du coefficient de Bravais Pearson est dtre trs sensible aux points aberrants.
Le coefficient de corrlation de Spearman, not XY, est un coefficient non paramtrique qui quantifie,
comme le rXY de Bravais Pearson, le degr dassociation linaire entre deux variables quantitatives. Il est
particulirement appropri lorsquau moins une de deux variables X et Y nest pas normalement distribue.
Son calcul ncessite que les donnes soient transformes en rang. Le rang de X est not par Ri et celui de Y
par Si. Le XY de Spearman nest rien dautre que le rapport entre la covariance (Ri, Si) et le produit non nul
de leurs carts-types. Il est donc un cas particulier du coefficient de corrlation de Bravais Pearson.
En tenant compte de certaines proprits de rang, le XY de Spearman peut tre calcul de manire plus
simple par la formule :
XY = 1 [2.3]
o Di = Ri - Si et n = nombre dobservations
La dmarche du test statistique sur le XY de Spearman est la mme que celle sur le coefficient de
corrlation de Bravais Pearson.
Le calcul du coefficient de corrlation de Spearman exige que les donnes soient remplaces par leurs
rangs. Et en prsence dex aequo dans les donnes, on leur affecte un rang moyen, donn par la moyenne
arithmtique de leurs rangs respectifs.
Ass. Cdrick Tombola M. 21
Mais lorsquon compte plusieurs ex aequo, aprs avoir remplac les donnes par leurs rangs, il est conseill
de faire subir au coefficient de Spearman quelques corrections ou simplement de lui prfrer le coefficient
de Bravais-Pearson, mais calcul sur les rangs. Dans ce recueil, nous optons pour cette dernire option.
En rsum, lestimation dun coefficient de corrlation suivra toujours [sauf indication contraire], dans
lordre, les cinq tapes suivantes :
Les coefficients de corrlation prsents dans ce chapitre prsentent essentiellement quatre faiblesses,
savoir :
La mesure ne concerne quune relation linaire. Le coefficient de corrlation linaire sert avant
tout { caractriser une liaison linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur,
surtout sur lintensit de la liaison entre variables considres.
La mesure ne concerne que les variables quantitatives. En prsence des variables qualitatives
comme la paix, la religion, , les deux coefficients prsents ci-haut ne sont plus adapts.
La corrlation nest ni impact ni causalit. Lobjet de la corrlation nest pas dtablir une causalit
mais simplement de rendre compte du sens et du degr dassociation ventuelle entre variables.
La corrlation peut tre fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une
corrlation leve ne peut tenir qu{ un facteur confondant ou artefact. En ralit, les deux
variables peuvent simplement tre lis un mme phnomne - source : une troisime variable
dont il faut neutraliser leffet.
Les alternatives face ces faiblesses sont notamment la corrlation pour variables qualitatives, le
coefficient de corrlation partiel, le rapport de corrlation, la rgression linaire et non linaire, la causalit,
la cointgration, etc.
Ass. Cdrick Tombola M. 22
Exercice 1
Un chercheur dsire examiner la relation quil peut exister entre lhabilit en lecture (X) et le nombre
dheures de lecture par semaine (Y). X est mesur en laboratoire { laide dun test dhabilit en lecture alors
que Y est estim par les sujets eux-mmes. 10 sujets ont t chantillons. Les rsultats sont :
X 20 5 5 40 30 35 5 5 15 40
Y 5 1 2 7 8 9 3 2 5 8
Solution de lexercice 1
10
8 Ce graphique fait tat dune association
6 linaire positive entre X et Y.
4
2
0
0 10 20 30 40 50
Puisqutant appropri pour petit chantillon, nous appliquons le test de Shapiro Wilk.
i X X(i) ai
1 20 5 -15 225 0,5739 35 20,0865
2 5 5 -15 225 0,3291 35 11,5185
3 5 5 -15 225 0,2141 30 6,423
4 40 5 -15 225 0,1224 25 3,06
5 30 15 -5 25 0,0399 5 0,1995
6 35 20 0 0 41,2875
7 5 30 10 100
8 5 35 15 225 W= = 0.83154032
9 15 40 20 400 Wtable =0.842 [ 5%, pour n=10]
10 40 40 20 400
Puisque W<Wtable, RH0. La variable X est non
0 2050
gaussienne.
=20 ; n=10 ; =5
Ass. Cdrick Tombola M. 23
i Y y(i) ai
1 5 1 -4 16 0,574 8 4,5912
2 1 2 -3 9 0,329 6 1,9746
3 2 2 -3 9 0,214 6 1,2846
4 7 3 -2 4 0,122 4 0,4896
5 8 5 0 0 0,04 0 0
6 9 5 0 0 8,34
7 3 7 2 4
8 2 8 3 9 W= = 0.915205263
9 5 8 3 9 Wtable =0.842 [ 5%, pour n=10]
10 8 9 4 16
Puisque W>Wtable, Non RH0. La variable Y est
0 76 gaussienne.
5 ; n=10 ; =5
Eu gard aux rsultats des tests de linarit et de normalit [X est non gaussienne], le coefficient de
corrlation appropri dans ce cas est le XY de Spearman. Les calculs sont confins dans le tableau ci-aprs :
Note : Deux nombres au moins identiques ont mme rang qui est donn par la moyenne arithmtique de leurs rangs
respectifs.
La statistique du test est : tcal= = 5. 45842979 et t0.025 ; 8 = 2.306 [Puisque tcal >ttable, alors RH0
Il existe bel et bien une corrlation linaire positive trs forte entre lhabilit en lecture (X) et le nombre
dheures de lecture par semaine (Y) au sein de la population tudie.
Ass. Cdrick Tombola M. 24
Exercice 2
Montrer rigoureusement que par construction le coefficient de corrlation linaire est toujours comprise
entre - 1 et 1 [Utiliser la formule de Bravais Pearson].
Solution de lexercice 2
Si le lien linaire entre X et Y est parfait, Y (X) scrirait comme une fonction affine de X (Y) :
Y = + X Y = X
Dune part, on aura : Dune part, on aura :
Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]} Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]}
= E{[X E(X)][ + X E( + X)]} = E{[X E(X)][ X E( X)]}
= E{[X E(X)][ + X E(X)]} = E{[X E(X)][ X + E(X)]}
= E{[X E(X)] [X E(X)]} = E{[X E(X)] [X E(X)]}
2 2
= [X E(X)] = [X E(X)]
= Var(X) = Var(X)
Dautre part, on a ceci : Dautre part, on a ceci :
2 2 2 2
Var(Y) = E[Y E(Y)] = E[ + X E(X)] Var(Y) = E[Y E(Y)] = E[ X + E(X)]
= 2var(X) = 2var(X)
Et par consquent, Et par consquent,
rXY = = = =1 rXY = = = =1
Exercice 3
Le tableau ci-aprs renseigne sur lvolution de loffre de jus de banane (X) et son prix en USD (Y).
N 1 2 3 4 5 6 7 8 9 10 11
X 10 8 9 11 14 6 4 12 7 5 8
Y 7 6 7 8 9 6 5 8 6 6 7
Travail faire :
- Calculer le coefficient de corrlation appropri.
- Tester sa significativit statistique
- Evaluer sa signification clinique
Solution de lexercice 3
1. Test de linarit
10
8
6
4
2
0
0 5 10 15
2. Test de normalit
i X ai
1 10 4 -4,5454545 20,661157 0,5601 10 5,601
2 8 5 -3,5454545 12,5702479 0,3315 7 2,3205
3 9 6 -2,5454545 6,47933884 0,226 5 1,13
4 11 7 -1,5454545 2,38842975 0,1429 3 0,4287
5 14 8 -0,5454545 0,29752066 0,0695 1 0,0695
6 6 8 -0,5454545 0,29752066 9,5497
7 4 9 0,4545455 0,20661157 W= = 0,983494579
8 12 10 1,4545455 2,11570248 Wtable=0,850
9 7 11 2,4545455 6,02479339
10 5 12 3,4545455 11,9338843 Puisque W >Wtable, alors Non RH0. La variable X
est normalement distribue.
11 8 14 5,4545455 29,7520661
0 92,7272727
= 8,545454545 ; n =11 ; = 5,5
Note : n tant impair, on na retenu que la partie entire du ratio , soit 5.
i Y ai
1 7 5 -1,818181818 3,30578512 0,5601 4 2,2404
2 6 6 -0,818181818 0,66942149 0,3315 2 0,663
3 7 6 -0,818181818 0,66942149 0,226 2 0,452
4 8 6 -0,818181818 0,66942149 0,1429 1 0,1429
5 9 6 -0,818181818 0,66942149 0,0695 1 0,0695
6 6 7 0,181818182 0,03305785 3,5678
7 5 7 0,181818182 0,03305785
8 8 7 0,181818182 0,03305785 W= = 0,933474435
9 6 8 1,181818182 1,39669421 Wtable=0,850
10 6 8 1,181818182 1,39669421
Puisque W >Wtable, alors Non RH0. La variable Y
11 7 9 2,181818182 4,76033058
est normalement distribue.
0 13,6363636
= 6,818181818 ; n=11 ; = 5,5
Les deux variables tant gaussiennes et linairement associes, on peut indiffremment estimer le rXY de
Bravais-Pearson ou le XY de Spearman. Dans ce cas, les deux coefficients devraient donner pratiquement la
mme chose. Aprs calcul, on a les rsultats suivants :
Ass. Cdrick Tombola M. 26
5. Signification clinique
il existe bel et bien une corrlation linaire positive trs forte entre quantit offerte de jus de banane et son
prix, ce qui est conforme la moi de loffre.
Exercice 4
A partir dun chantillon de 27 objets, on a trouv que la valeur dun coefficient de corrlation linaire tait
0.4. Peut-on en conclure, un seuil de signification de 0.05 que le coefficient de corrlation diffre
significativement de la valeur zro ? Quadviendrait la rponse obtenue prcdemment si lon considre un
seuil de signification de 0.01.
Solution de lexercice 4
Au seuil de signification de 0.01, t0.005 ; 25 = 2.787, ce coefficient de corrlation devient non significatif.
Exercice 5
Soit le jeu de donnes normalement distribues ci-dessous.
Travail demand :
Solution de lexercice 5
(ii) Pour les 4 blocs, on obtient pratiquement la mme valeur du coefficient de corrlation de Bravais-
Pearson, soit rXY = 0.82. Ce qui semble traduire dans ces diffrents cas, lexistence dun lien linaire
positif trs fort.
10 10 10
5
5 5 5
0 0 0 0
0 10 20 0 10 20 0 5 10 15 0 10 20
La leon tirer est que lestimation du coefficient de corrlation de Pearson doit toujours saccompagner dun
examen graphique. Car, comme on le voit, le coefficient estim rXY = 0.82, ne correspond, en toute rigueur,
quau premier graphique. Le deuxime, par exemple, fait tat dune liaison fonctionnelle presque parfaite
entre X et Y dont le rXY semble sous-estimer lintensit. Quant au troisime et au quatrime graphiques, il y a un
point atypique qui fausse compltement le rXY de Bravais-Pearson. Pour preuve, il suffit de retirer le point
aberrant, soit le couple (13, 12.74) et (19, 12.5), respectivement dans le troisime et quatrime graphiques, le
coefficient de corrlation de Pearson qui tait de r XY=0.82, devient respectivement de 0.99999655 et de 0
[puisque rkX=0].
(iv) On remarquera quau bloc IV, la variable X prsente plusieurs ex aequo, nous avons donc calcul le
coefficient de Bravais-Pearson sur les rangs.
A comparer au coefficient de Pearson, le coefficient de rang prsente lavantage de rsister aux points
atypiques.
Ass. Cdrick Tombola M. 28
Exercice 6
Voici un chantillon de deux variables gaussiennes :
X Y Travail faire :
-2 4
-1 1 - Estimez le coefficient de corrlation de Bravais - Pearson
- A quoi renvoie ce rsultat ?
0 0
- Faites maintenant un diagramme de dispersion. Que voyez-vous ? Quelle
1 1
nuance pouvez-vous donc formuler dans ce cas ?
2 4
Solution de lexercice 6
- Les deux variables tant supposes gaussiennes par lexercice, et puisque le test de linarit ici ne fait pas un
pralable, on passe directement lestimation du rXY comme prsente dans le tableau ci-dessous :
2
X Y Xi Yi (Xi )(Yi (Xi (Yi )2
-2 4 -2 2 -4 4 4
-1 1 -1 -1 1 1 1
0 0 0 -2 0 0 4
1 1 1 -1 -1 1 1
2 4 2 2 4 4 4
Somme 0 0 0 10 14
Moyenne 0 2
rXY = 0
0
-3 -2 -1 0 1 2 3
Il ressort de ce diagramme de dispersion quil existe bel et bien une liaison [de type non linaire] entre les
variables X et Y.
La nuance faire, au vu de ces rsultats, est quun coefficient de corrlation de Bravais Pearson nul ne
devrait pas toujours sinterprter comme une absence de relation entre variables en cause. La meilleure
interprtation serait que les deux variables tudies sont non linairement corrles, car un r XY =0 laisse
toujours la possibilit dexistence, entre les variables considres, dune liaison dun autre type.
Ass. Cdrick Tombola M. 29
Exercice 7
A Washington, un journaliste a dcouvert quil existe une trs forte corrlation entre le fait davoir un nid de
cigognes sur sa demeure et le fait davoir des enfants. Do il conclut que les cigognes apportent les bbs.
Quelle remarque pouvez-vous faire une telle conclusion ?
Solution de lexercice 7
La remarque principale formuler ce type de corrlation que rien ne peut expliquer ou qui en ralit tient
un autre phnomne-source est que la corrlation peut tre fortuite ou artificielle. Par ailleurs, bien
analyser les choses, tenant compte des ralits de Washington, la prsence dun nid de cigognes sur le toit
signifierait plutt que la famille qui y habite est aise et donc dispose, financirement, avoir plus denfants.
Exercice 8
En rsolvant un TP de statistique 1 sur le calcul du coefficient de corrlation linaire, un tudiant de G1 FASE
fournit le tableau suivant :
Sans avoir { refaire tous les calculs, { regarder ce tableau, vous concluez quil y a erreur de calcul. Par quoi la
voyez-vous ?
Solution de lexercice 8
Par la somme des carts de la variable X sa moyenne arithmtique. Cette somme est forcment gale zro,
une valeur diffrente indique tout simplement une erreur de calcul.
Exercice 9
Soient les donnes sur les variables X et Y reprises dans le tableau ci-aprs et le nuage de points
correspondant :
12
10
8
X 1 1,1 1,25 1,5 2 2,25
6
Y 3 6,8 8,3 9,3 9,81 9,85
4
2
0
0,9 1,4 1,9 2,4
Ass. Cdrick Tombola M. 30
Solution de lexercice 9
X Y x y xy x y Ri Si Di Di
1 3 -0,52 -4,84 2,50 0,2669 23,46 1 1 0 0
1,1 6,8 -0,42 -1,04 0,43 0,1736 1,09 2 2 0 0
1,25 8,3 -0,27 0,46 -0,12 0,0711 0,21 3 3 0 0
1,5 9,3 -0,02 1,46 -0,02 0,0003 2,12 4 4 0 0
2 9,81 0,483 1,97 0,95 0,2336 3,87 5 5 0 0
2,25 9,85 0,733 2,01 1,47 0,5378 4,03 6 6 0 0
5,21 1,28 34,77 0
Moyenne 1,52 7,84
rXY = 0,78 XY = 1
Les calculs montrent simplement que le XY de Spearman est prfr au rXY de Bravais-Pearson lorsque la
liaison entre X et Y est non linaire mais monotone, car comme on le voit, le r XY a sous-estim lintensit
dune relation non linaire certes, mais visiblement parfaite entre X et Y.
Exercice 10
[Il y a au moins une rponse exacte, cocher, la question suivante].
Le coefficient de corrlation linaire entre deux variables statistiques :
(a) ne peut tre calcul que si les deux variables sont quantitatives
(b) est un nombre positif ou nul
(c) nest gal zro que lorsque les variables sont indpendantes
(d) est un nombre sans dimension.
.III.
MODELE DE REGRESSION LINEAIRE SIMPLE
La corrlation, comme dveloppe au chapitre prcdent, sert avant tout { quantifier le degr dassociation
linaire entre deux variables quantitatives dont la position, dans ltude, est symtrique. Elle ne permet
donc ni dtablir une causalit, ni de mesurer limpact dune variable sur lautre.
Dans le modle de rgression linaire simple par contre, la position des variables dans lanalyse nest pas
symtrique. On connait, { priori, la variable alatoire qui cause lautre [Y=f(X)] 19, ce qui rend possible la
mesure de limpact ou de la contribution de X dans lexplication de Y. La plupart du temps, et comme le mot
lindique, le modle de rgression linaire simple considre que la variable expliquer Y est une fonction
affine de la variable explicative X. Mathmatiquement, cette dpendance linaire scrit de la sorte :
[3.1] Yt = 0 + 1Xt
o 0 et 1 sont les paramtres du modle qui permettent de caractriser la relation de dpendance linaire
qui existe chaque date t entre Xt et Yt.
19
Cette information est gnralement fournie par la thorie conomique, ou peut simplement dcouler de lobjectif de
ltude du modlisateur.
Ass. Cdrick Tombola M. 32
[3.2] Yt = 0 + 1Xt + ut
Dans ce cas de la rgression linaire simple 0 est le terme constant ou lorigine et 1 la pente.
Comme pour la corrlation, avant toute analyse, il intressant de toujours commencer par un examen
graphique travers un diagramme de dispersion du type de relation qui lie les deux variables
considres. Il faut noter, par ailleurs, que le raisonnement qui sera dvelopp dans la suite de ce chapitre,
ne peut sappliquer que si Y peut scrire comme une fonction affine de X.
Considrons le jeu de donnes ci-aprs o un chercheur veut expliquer lhabilit en lecture (Y) de dix sujets
chantillonns par le nombre dheures de lecture par semaine (X). Y est mesure en laboratoire { laide
dun test dhabilit en lecture alors que X est estim par les sujets eux-mmes.
Y 20 5 5 40 30 35 5 5 15 40
X 5 1 2 7 8 9 3 2 5 8
Ajuster un modle linaire pour expliquer les valeurs prises par Y par celles de X. Autrement, il
sagit de faire un ajustement linaire, cest--dire de remplacer le nuage de points des couples (x i,
yi) par une droite qui sy adapte le mieux que possible.
Prdire les valeurs de Y pour les nouvelles valeurs de X.
40 40
et
30 30
20 20
10 10
0 0
0 2 4 6 8 10 0 2 4 6 8 10
Lajustement linaire [ou rgression linaire] consiste donc { tracer une droite dajustement appele
galement droite de rgression qui, sans passer par tous les points du nuage, sy approche le mieux. Pour
a, il faut donc un critre quantifiant la qualit de lajustement.
Le critre auquel on se rfre dans ce chapitre, et trs souvent en conomtrie, est le critre ou la mthode
des Moindres Carrs Ordinaires [MCO] 20. On utilise souvent le terme anglais OLS [Ordinary Least Squares]
pour dsigner la mme mthode.
20
Certains auteurs ironisent en disant que la mthode nous sert { mettre un chapeau sur nos .
Ass. Cdrick Tombola M. 33
Hypothses
Lapplication du critre des moindres carrs ordinaires repose sur les hypothses suivantes :
Hypothses sur la partie systmatique Hypothses sur la partie stochastique
H1. Les variables X et Y sont observes sans erreur. Y est H5. Hypothse de centralit : E(ut)=0
alatoire par lintermdiaire de ut, cest--dire que la seule Cest--dire quen moyenne, linfluence de ut sur le
erreur possible sur Y provient des insuffisances de X modle est nulle, ce qui revient admettre que le modle
expliquer ses valeurs dans le modle. est correctement spcifi.
H2. Les variables X et Y doivent tre gaussiennes et H6. Hypothse non autocorrlation des erreurs :
stationnaires en niveau. E(uiuj) = 0 i j
H3. Le modle est linaire en ses paramtres tels que Les erreurs ut de diffrentes priodes sont indpendantes
lexprime lquation [3.2]. les unes des autres.
H4. Le nombre dobservations n doit tre suprieur au H7. Hypothse dhomoscdasticit des erreurs :
nombre des paramtres estimer. E(uiuj) = i =j
Les erreurs ut ont une variance constante et finie. Plus
explicitement, il sagit dassumer que les variables
explicatives omises dans le modle influent toutes
pratiquement de faon constante sur la variable
explique.
H8. Hypothse de normalit des erreurs: ut (0, )
Cette hypothse est la cl de linfrence statistique. Elle
est donc ncessaire pour mener les tests.
H8. Hypothse dindpendance entre la partie systmatique et la partie alatoire : Cov (Xt, ut)=0.
Cette hypothse signifie que lerreur et les variables explicatives ont une influence spare sur la variable endogne.
Note : (i) Lorsque les hypothses H4, H5 et H6 sont ralises, on dit que les erreurs sont des bruits blancs.
Et lorsquon y ajoute lhypothse H7, on parle des bruits blancs gaussiens.
(ii) Lorsque toutes les hypothses sous-tendant la mthode des MCO sont remplies, le thorme de
Gauss Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], cest--dire quils
sont les meilleurs estimateurs linaires, non biaiss et variance minimale.
Le critre des MCO permet dobtenir lquation de la meilleure droite dajustement : = + Xt, appele
galement droite des moindres carrs.
Le travail, qui permet dobtenir la droite, consiste choisir les paramtres et , en utilisant les
informations apportes par lchantillon, de manire rendre minimale la somme des carrs des carts
[rsidus] entre les valeurs observes de Y et ses valeurs prdites par le modle.
Note : Les rsidus, nots et, sont lestimation de lerreur ut sur base de donnes de lchantillon [et = ], elle
est donne par : et = Yt .
Min S = =
=0 [3.3]
=0 [3.4]
Ass. Cdrick Tombola M. 34
En appliquant ces drives partielles, on obtient les quations normales, partir desquelles sont tirs les
estimateurs des MCO :
Y = n + X [3.5]
XY = X + X2 [3.6]
= [3.7]
= [3.8]
= = [3.9]
= [3.10]
et sont donc les estimateurs des moindres carrs ordinaires. est le paramtre dintrt qui capture
entirement la dpendance linaire de Y envers X.
1re consquence : La droite des moindres carrs = + Xt passe forcment par lorigine et le point
de coordonnes ( , ), appel le centre de gravit ou le point moyen du nuage de points. Pour le vrifier, il
suffit de raliser une projection pour le point :
( )= +
=( )+
=
Ce rsultat montre que lorsquon travaille sur les carts { la moyenne arithmtique [variables centres], on
reste sur la mme droite dajustement ce qui implique que la pente reste inchange , mais lon soulve
les axes jusquau centre de gravit.
Y45 y
40
35
30
25
( , )
=20 x
15
10
5
0 X
0 1 2 3 4 =5 6 7 8 9 10
Ass. Cdrick Tombola M. 35
Ainsi, en travaillant avec les carts { la moyenne arithmtique, lorigine peut disparaitre
momentanment, car une petite manipulation suffit le retrouver. La fonction affine = + Xt devient
linaire :
= [3.11]
= (Xt ) [3.12]
=
=
= +
=
3me consquence : la somme et donc la moyenne arithmtique des rsidus est nulle dans une rgression
avec constante. En effet :
=
=n -n -n
= n n( )-n
=0
4me consquence : il existe un lien entre la pente dune rgression linaire simple et le coefficient de
corrlation de Bravais Pearson rXY:
= =
= rXY
Lcart type tant non ngatif, la pente et le coefficient de corrlation de Pearson r XY auront toujours le
mme signe.
XY = X + X2 = - est la pente de la
Formules = rXY
Estimateurs 21 droite, soit :
=
=
=
21
Lestimateur est une formule, et lestimation est la valeur quon trouve en appliquant lestimateur.
Ass. Cdrick Tombola M. 36
2
III.3. Dcomposition de la variance totale et coefficient de dtermination R
Soit yt = + et [3.13]
= [3.14]
SCT est la somme des carrs totaux. Elle indique la variabilit totale de Y.
SCE est la somme des carrs expliqus. Elle indique la variation de Y due sa rgression linaire sur X.
SCR est la somme des carrs rsiduels. Elle indique la variabilit de Y non explique par le modle.
2
Drivation du coefficient de dtermination R
2
A partir de lquation [3.15], le R correspond au rapport :
2
R = [3.17]
2
Ainsi, le R peut tre interprt comme la proportion de variance de Y explique par le modle.
= =
2 =
Autres formules du R
= =
2
Relation entre le coefficient de corrlation de Pearson et le R
2
Pour une rgression linaire simple, et seulement dans ce cas, le R nest rien dautre que le carr du
coefficient de corrlation de Pearson. La dmonstration est relativement simple.
= =
= =
2
=R
2
Note : Comme le coefficient de corrlation linaire de Pearson, le R , pour une rgression linaire simple,
est symtrique.
Etant donn que les valeurs et ne sont que des estimations des paramtres 0 et 1 inconnus de la
population, il faut donc sassurer de leur fiabilit statistique. Pour appliquer les tests sur les paramtres, il
est important de connatre leurs variances et la variance rsiduelle.
= =
22
Pour les dtails, lire par exemple Bourbonnais (2005), Bofoya (2007), Bosonga (2010).
23
Appele souvent matrice COVA, note par la lettre Omega ().
Ass. Cdrick Tombola M. 38
Le test de significativit individuelle porte sur chaque paramtre. Les hypothses du test sont :
Il sagit dun test bilatral [two-tail ou two-sided]24. Il est bas sur la statistique t de Student calcule
comme suit :
= [3.18]
= [3.19]
On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication
contraire] et (n 2) degrs de libert.
Critre de dcision : Si > t/2 ; (n 2) [valeur lue dans la table de Student], alors RH0, le paramtre est
statistiquement non nul, la variable lui associe est par consquent non pertinente dans la prdiction de Y.
Le RH0 revient simplement { refuser que le paramtre i de la population est nul, cela ne signifie nullement
que serait la vraie valeur du paramtre i. Ainsi, on peut, en se basant sur les paramtres estims et en
assumant un risque donn, construire des intervalles de confiance pour les paramtres i.
I= t/2 ; (n 2) [3.20]
Un autre test consiste tester la significativit conjointe de tous les paramtres estims du modle. Cest le
tes bas sur la statistique de Fisher, appel aussi test danalyse de la variance ANOVA. La statistique du test
est donne par le rapport suivant :
F= [3.21]
2
Une manipulation simple permet dexprimer F en fonction du R comme ci-aprs :
F= [3.22]
Le test F teste statistiquement la raison dtre du modle. Par ailleurs, partant de la relation [3.22], daucuns
considrent quil teste la significativit du coefficient de dtermination.
24
Cest--dire que H0 est rejete que le coefficient soit positif ou ngatif.
Ass. Cdrick Tombola M. 39
Dans le cas dune rgression linaire simple, le test F est confondu au test de significativit individuelle de la
pente. Les deux tests sont bass sur les mmes hypothses, et on dmontre dans ce cas que :
F= [3.23]
Preuve :
F= =
= =
= =
Comme on le voit, valider la significativit de la pente revient, en mme temps, admettre la bont du
modle.
Sous H0, on dmontre que la statistique F suit une loi de Fisher respectivement 1 et (n-2) degrs de libert.
Critre de dcision : Si F > F [1 ; (n 2)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on
rejette H0, le modle est bon.
Partant de la relation [3.22] et [3.23] ci-haut, on montre facilement que tester = 0, revient tester rXY = 0.
Cela implique quaccepter la significativit de la pente, cest accepter galement la significativit du
coefficient de corrlation linaire.
En effet, en considrant les relations [3.22] et [3.23], et en sachant que le R 2 correspond au carr du rXY, on
tablit :
=
25
Le test de significativit globale ne porte que sur les paramtres associs aux variables exognes.
Ass. Cdrick Tombola M. 40
Lun des objets de lajustement linaire quon effectue est de nous aider { prdire les valeurs de Y pour les
nouvelles de X, bref prvoir.
Connaissant la nouvelle valeur de X pour un horizon h, note Xn+h, on distingue deux types de prvision de la
valeur de Y { lhorizon considr : la prvision ponctuelle et la prvision par intervalle.
La prvision ponctuelle est trs simple. Connaissant Xn+h, il suffit de substituer cette valeur dans
lquation estime pour obtenir la valeur correspondante de Y, soit :
= + Xn+h [3.24]
Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ci-
aprs :
= [3.26]
Soit le modle : Yt = Xt + ut
Le travail destimation de ce modle doit inclure les nuances suivantes :
L'estimateur de la variance de l'erreur et le Student thorique doivent tenir compte des degrs de libert,
cest--dire :
= et = t/2 ; (n 1)
26
Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.
Ass. Cdrick Tombola M. 41
Exercice 1
Le tableau ci-dessous reprsente lvolution du revenu disponible brut et de la consommation des mnages
en euros pour un pays donn sur la priode 1992-2001. [Pour les calculs, prendre 4 chiffres aprs la virgule].
On cherche expliquer la consommation des mnages (C) par le revenu (R), soit :
Ct = + Rt + ut
Travail faire :
(i) Tracer le nuage de points et commenter.
(ii) Estimer la consommation autonome et la propension marginale consommer et .
(iii) En dduire les valeurs estimes de Ct.
(iv) Calculer les rsidus et vrifier la proprit selon laquelle la moyenne des rsidus est nulle.
(v) Calculer lestimateur de la variance de lerreur.
(vi) Tester la significativit de la pente.
(vii) Construire lintervalle de confiance au niveau de confiance de 95% pour le paramtre .
(viii) Calculer le coefficient de dtermination et effectuer le test de Fisher permettant de dterminer
si la rgression est significative dans son ensemble.
(ix) Ecrire et vrifier lquation danalyse de la variance. Interprter.
(x) Aprs un travail minutieux, un tudiant de L1 FASE trouve le coefficient de corrlation linaire
entre Ct et Rt suivant rXY = 0.99789619. Sans le moindre calcul, tester la significativit de ce
coefficient. Argumenter.
(xi) En 2002 et 2003, on prvoit respectivement 16800 et 17000 euros pour la valeur du revenu.
Dterminer les valeurs prvues de la consommation pour ces deux annes, ainsi que
lintervalle de prvision au niveau de confiance de 95%.
Solution de lexercice 1
15000
10000
5000
0
0 5000 10000 15000 20000
Ass. Cdrick Tombola M. 42
Ce graphique tmoigne de lexistence dune association linaire positive, presque parfaite, entre la
consommation des mnages (Ct) par le revenu (Rt), ce qui autorise lestimation de la relation les liant par la
mthode des moindres ordinaires.
= = = 0,78098
(iii) Voir tableau ci-dessous. Ces valeurs sont trouves en remplaant dans lquation de la droite des
moindres : = 1176,0896 + 0,78098Xt, pour chaque date, Xt par sa valeur.
(iv) Voir tableau ci-dessous. Les rsidus sont calculs daprs la formule et =
(v) Lestimateur de la variance de lerreur est donne par = , connaissant n =10 et (voir
tableau), on obtient :
= = 20646,1728
(vi) La pente ici est la propension marginale consommer, soit . Le test de significativit de ce
coefficient requiert son cart-type . Connaissant la variance de lerreur, la variance de est calcule comme
suit :
(vii) Lintervalle de confiance au niveau de confiance de 95% (au seuil de 5%) pour le paramtre 1 est
construire comme suit :
I = [ (t0.025 ; 8) ; + (t0.025 ; 8) ]
(viii) Le coefficient de dtermination R2 peut tre calcul par la formule (les valeurs viennent du tableau
ci-dessous) :
2
R = = = 0,9958
F= = (43,5352)2 = 1895,3136 F [1 ; 8] = 5, 32. Puisque F >Ftable RH0, la rgression est significative dans son
ensemble.
(x) Nous savons que dans un modle linaire simple, accepter la significativit de la pente revient
accepter celle du coefficient de corrlation linaire. La pente tant significative, le rXY lest aussi
naturellement.
(xi) La prvision ponctuelle ne pose aucun problme. La prvision par intervalle requiert lestimation de
lcart-type de lerreur de prvision. Elle est donne par :
Yn+h I= (t0.025 ; 8)
o
En effectuant les remplacements ncessaires, au niveau de confiance de 95% (au seuil de 5%), on a les rsultats
suivants :
Anne Yt Xt yt xt xtyt et
1992 7389,99 8000 -2595,585 -3280 8513518,8 10758400 7423,9516 -33,9615958 1153,389989 6737061,4922 -2561,6234 6561914,4650
1993 8169,65 9000 -1815,925 -2280 4140309 5198400 8204,93434 -35,28434098 1244,984718 3297583,6056 -1780,6407 3170681,1566
1994 8831,71 9500 -1153,865 -1780 2053879,7 3168400 8595,42571 236,2842864 55830,26401 1331404,4382 -1390,1493 1932515,0386
1995 8652,84 9500 -1332,735 -1780 2372268,3 3168400 8595,42571 57,41428643 3296,400286 1776182,5802 -1390,1493 1932515,0386
1996 8788,08 9800 -1197,495 -1480 1772292,6 2190400 8829,72054 -41,64053713 1733,934332 1433994,2750 -1155,8545 1335999,5393
1997 9616,21 11000 -369,365 -280 103422,2 78400 9766,89983 -150,6898313 22707,42527 136430,5032 -218,6752 47818,8294
1998 10593,5 12000 607,875 720 437670 518400 10547,8826 45,56742347 2076,390081 369512,0156 562,3076 316189,8106
1999 11186,1 13000 1200,535 1720 2064920,2 2958400 11328,8653 -142,7553217 20379,08188 1441284,2862 1343,2903 1804428,8884
2000 12758,1 15000 2772,515 3720 10313755,8 13838400 12890,8308 -132,7408121 17620,12319 7686839,4252 2905,2558 8440511,3336
2001 13869,6 16000 3884,045 4720 18332692,4 22278400 13671,8136 197,8064427 39127,38879 15085805,5620 3686,2386 13588354,7011
0 0 50104729 64156000 0 165169,3825 39296098,1837 0 39130928,8011
n=10 ; =9985,575
=11280
Exercice 2
Soit le modle linaire Yt = 0 + 1Xt + ut. O Yt reprsente la quantit offerte de pommes et Xt le prix.
On donne les informations suivantes : = 5 et =3.
Aprs estimation, on a la droite de rgression suivante : = + Xt. Connaissant le couple (Y=2.5 ; X=2) par lequel passe cette droite de rgression, trouver et .
Solution de lexercice 2
Connaissant le couple (Y=2.5 ; X=2) et le centre de gravit du nuage de points ( = 5 ; =3), on peut reproduire la droite des moindres carrs de cette estimation comme ci-
aprs :
Y 5 2.5
X 3 2
Ass. Cdrick Tombola M. 45
5,5
5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0 1 2 3 4
= = 5 (2,5)3 = 2,5
Exercice 3
Soit un modle linaire simple : Yt = 0 + 0Xt + ut
Travail demand :
Solution de lexercice 3
En fonction des donnes en prsence, les formules suivantes seront utilises pour rpondre aux trois questions
poses :
= et =
R2 =
F=
Le R2 tant relativement lev, environ 85%, lajustement effectu est de bonne qualit. Et puisque F > F [1 ; 5] =
6,61, on en conclut que le modle est globalement bon.
Ass. Cdrick Tombola M. 46
Exercice 4
On donne par ailleurs les informations suivantes : rXY= 0.951916 ; x=3.894440 et y=2.945636
Aprs estimation, sur base dun chantillon de 13 observations, un tudiant de L1 FBA prsente les rsultats
incomplets ci-aprs :
= 0.030769 + .. Xt
Travail demand :
Solution de lexercice 4
(i) Connaissant rXY, x et y, la pente est estime par la formule = rXY , ce qui donne, en
remplaant :
= 0,030769 + 0, 7200 Xt
(ii) Le t calcul pour rXY= 0,951916 donne tcal = 10,3054 et le t0.025 ; 11 = 2,201. Puisque tcal > ttable, on
conclut que le rXY est statistiquement non nul.
(iii) Il y a lien fort et positif entre le salaire moyen horaire par jour et le nombre dannes dtudes. En
effet, ces rsultats semblent logiques car il est tout fait normal que ceux qui beaucoup tudi gagnent un peu
plus que ceux qui ont tudi un peu moins.
(iv) On sait que, pour un modle de rgression linaire simple avec terme constant, le R 2 nest rien
dautre que le carr du coefficient de corrlation de Bravais Pearson. Ainsi :
(v) Connaissant le R2, on a : F = 106, 2009 F [1 ; 11] = 4, 84. On sait de plus que dans un modle linaire
simple, le F nest rien dautre que le carr du t de Student associ la pente. Le t de Student de la pente est
donc obtenu en prenant la racine carr de F, soit :
En conclusion, la pente est statistiquement significative et le modle est valable dans lensemble.
Ass. Cdrick Tombola M. 47
Exercice 5
Le tableau suivant donne lge et la tension artrielle Y de 12 femmes :
Individu 1 2 3 4 5 6 7 8 9 10 11 12
Age (X) 56 42 72 36 63 47 55 49 38 42 68 60
Tension artrielle (Y) 136 132 136 130 138 132 136 130 142 134 136 140
Travail demand :
Solution de lexercice 5
= 129,5193 + 0,1079Xt
(5,0449) (0,0942)
(.) : cart-type
La statistique t de Student de la pente est tcal = 0,1079/0,0942 = 1,1455. Le Student thorique, au seuil de 5% et
10 degrs de libert est ttable = 2,228. Do la pente est statistiquement nulle, ce qui signifie que lge nexplique
en rien la tension artrielle.
Exercice 6
Les donnes statistiques ci-dessous portent sur les poids respectifs des pres et de leur fils an.
Pre 65 63 67 64 68 62 70 66 68 67 69 71
Fils 68 66 68 65 69 66 68 65 71 67 68 70
Travail demand :
(i) Calculer la droite des moindres carrs du poids des fils en fonction du poids des pres.
(ii) Calculer la droite des moindres carrs du poids des pres en fonction du poids des fils.
(iii) Que vaut le produit des pentes des deux rgressions ?
(iv) Juger de la qualit des ajustements faits en (i) et (ii).
Solution de lexercice 6
La droite des moindres carrs du poids des fils en fonction en fonction des pres, aprs estimation est :
= 35,8248031 + 0,47637795Xt
Et la droite des moindres carrs du poids des pres en fonction en fonction des fils, aprs estimation est :
= -3,37687366 + 1,03640257Xt
Ass. Cdrick Tombola M. 48
Le produit de deux pentes donne le R2 qui, comme le coefficient de corrlation linaire, est un indicateur
symtrique. On a ainsi :
Au regard de la valeur du R2 faible, environ 49%, les ajustements effectus en (i) et (ii) ne sont de bonne qualit.
Exercice 7
Cocher la bonne la rponse.
1. La droite des MCO dune rgression linaire simple avec constante passe-t-elle par le point ( , ) ?
A. Toujours
B. Jamais
C. Parfois
2. Pour une rgression linaire simple, le R2 est symtrique :
A. Oui
B. Non
C. Parfois
3. Pour une rgression linaire simple, le R2 correspond au carr du F de Fisher :
A. Oui
B. Non
Solution de lexercice 7
1 A ; 2A ; 3B.
Exercice 8
Soient les donnes suivantes :
Indication : n = 6.
Exercice 9
Soit le modle suivant sans terme constant : Yt = Xt + ut.
Solution de lexercice 9
En appliquant le critre des MCO, minimisation de la somme des erreurs quadratiques, cette relation, on
obtient :
Ass. Cdrick Tombola M. 49
Exercice 10
Soit les rsultats dune estimation conomtrique :
= - 32.95 + 1.251Xt
n = 20
R2 = 0.23
= 10.66
1) A partir des informations connues, on demande de retrouver les statistiques suivantes : la somme
des carrs des rsidus (SCR), la somme des carrs totaux (SCT), la somme des carrs expliqus
(SCE), la statistique F de Fisher et lcart-type de la pente.
2) La pente est-elle significativement suprieur 1 ?
Exercice 11
Montrer algbriquement que :
1. La somme des rsidus est toujours gale 0.
2. Tester lhypothse H0 : 1 = 0 [avec 1 la pente], revient { tester lhypothse rXY = 0.
Exercice 12
Le tableau ci-aprs renseigne sur la quantit offerte dun bien (Y) et son prix (X)
N 1 2 3 4 5 6 7 8 9 10
Y 23 25 30 28 33 36 31 35 37 42
X 5 7 9 6 8 10 9 7 8 11
Travail faire :
Exercice 13
Le coefficient de corrlation linaire entre deux variables X et Y est r = 0.60. Si les carts-type de X et Y sont
respectivement 1.50 et 2 ; et leurs moyennes, respectivement, 10 et 20. Trouvez les quations de rgression
de Y en X et de X en Y.
Ass. Cdrick Tombola M. 50
.IV.
MODELE DE REGRESSION LINEAIRE MULTIPLE
Le modle de rgression linaire multiple nest quune extension du modle de rgression linaire simple au
cas multivari dans lequel interviennent plusieurs variables exognes dans lexplication du phnomne
tudi. On parle aussi de modle de rgression linaire gnral ou standard pour souligner que ce modle
reste valable quel que soit le nombre dexognes qui sy figurent. Dans sa forme gnrale, il scrit de la
sorte :
o chaque est un coefficient marginal qui aprs estimation saisit, ceteris paribus, leffet dune
variation dun point de la variable exogne Xj sur la variable endogne ; t=1, , n correspond { la date des
observations.
Si lon considre plusieurs dates, la relation [4.1], sous forme matricielle, scrit :
o k est le nombre de variables explicatives, k+1 le nombre de paramtres que lon prendra lhabitude de
noter par K dans la suite de ce chapitre.
[4.2] Y = X + U
En principe, le critre des moindres carrs ordinaires, comme pour le modle simple, ne soulve aucune
difficult, la diffrence que pour le modle multiple au lieu de calculer une droite, on calcule un plan ou un
hyperplan.
En algbre linaire, les hyperplans sont des sous-espaces vectoriels particuliers. Dans un espace 3 dimensions, la
notion dhyperplan est confondue avec celle de plan, mais cela nest plus vrai quand on dpasse 3 dimensions.
Ass. Cdrick Tombola M. 51
Hypothses de base
La mthode des moindres carrs ordinaires repose sur les hypothses suivantes :
Hypothses stochastiques Hypothses structurelles
H1. Les erreurs sont IID (0, ). Cette hypothse implique que H3. Le modle est linaire ou linarisable en X
les erreurs sont normalement distribues, non-autocorrles et [ou sur ses paramtres] tels que lexprime la
homoscdastiques. relation [4.2].
Comme vu au chapitre prcdent, les diffrents sont obtenus en minimisant la somme quadratique des
rsidus. Mathmatiquement, le problme se prsente comme suit :
[4.3]
[4.4]
Par consquent, on a :
[4.5]
[4.6]
Les termes et tant des scalaires provenant des variables identiques, ils sont gaux et on peut
donc les regrouper. Ce qui permet dcrire :
[4.7]
En appliquant les conditions du premier ordre, on obtient les quations normales telles que :
On retrouve ainsi les quations normales, vues au chapitre prcdent, pour un modle simple. Mais
pourquoi normales ? La rponse cette question est propose ci-aprs.
Dans le systme ci-haut, renvoyons tous les termes dans un membre, il vient :
Exprime sous forme vectorielle, la dernire quation scrit : Xe = 0. Un vecteur tel que e, orthogonal
tout vecteur de lhyperplan engendr par X, est dit normal { lhyperplan. Do le qualificatif "dquations
normales".
En pratique, lestimation ponctuelle par les MCO se fait en pr-multipliant chaque ct de la relation [4.8]
par , ce qui permet dcrire******** :
[4.9]
********
o est une matrice forcment symtrique, de mme que son inverse ( )1.
Ass. Cdrick Tombola M. 53
Le thorme de Gauss Markov avance, au respect des hypothses de base susmentionnes, que dans la
famille des estimateurs linaires non biaiss, ceux des MCO sont les meilleurs car ayant la variance la plus
faible.
. Estimateurs linaires
Pour dmontrer cette proprit, il suffit, dans lquation [4.9], de poser = , il vient :
Ainsi,
[4.10]
[4.11] E( =
. Estimateurs convergents
Var( ) = E
[4.12]
Ou encore :
Il faut noter en passant que la matrice est symtrique, elle est donc gale sa transpose.
Ass. Cdrick Tombola M. 54
Ainsi obtient-on :
[4.13]
Lorsque le nombre dobservations tend vers linfini, lexpression [4.13] ci-dessus tend vers zro. Par
consquent, lestimateur est convergent. Toutefois, la condition suffisante serait que les variables
exognes ne tendent pas devenir colinaires lorsque n tend vers l'infini. De plus, selon le thorme de
Gauss-Markov, Var( ) Var( ) [avec un estimateur linaire et non biais obtenu par une autre mthode
que les MCO]
La relation [4.13] est la matrice COVA. Sur sa diagonale principale, on lit les variances estimes de [ ],
ncessaires pour mener les tests statistiques.
1re consquence : Sous lhypothse de normalit des erreurs, non seulement que lestimateur des MCO est
BLUE par le thorme de Gauss-Markov, mais il devient le meilleur estimateur sans biais de . La variance
des estimateurs des MCO atteint la borne de lingalit de Cramer-Rao, borne infrieure pour tous les
estimateurs.
2re consquence : Sous lhypothse de normalit, on obtient des tests exacts. Sachant que
, cela revient dire que lon connat les distributions exactes des tests. On peut donc
construire les tests de Student et de Fisher dans les petits chantillons.
Ass. Cdrick Tombola M. 55
IV.3. R2 et R2 ajust
2
[4.14] R =
Lorsque la rgression est faite sur donnes centres, le coefficient de dtermination se calcule avec la
formule :
2
[4.15] R =
Il faut noter que, comme pour le modle simple, le coefficient de dtermination reste un indicateur du
caractre explicatif de lquation de rgression { bien modliser Y t. Il mesure ainsi la part de variance de la
variable endogne attribuable sa rgression sur les X. Ceci est confirm par le fait que le coefficient de
dtermination nest rien dautre que le carr du coefficient de corrlation de Bravais-Pearson entre les
valeurs observes et les valeurs prdites de Y.
[4.16] R2 = =
Bien videment [0 R2 1], plus R2 est proche de 1, plus le caractre explicatif du modle est important.
Le R2 est certes un indicateur de qualit, mais il prsente linconvnient dtre mcanique. Cest--dire que
sa valeur augmente avec laugmentation des variables explicatives, mmes non pertinentes { lexplication
du phnomne tudi.
A lextrme, si on augmente le nombre de variables explicatives, mmes impertinentes, tels que le nombre
de paramtres devienne gal au nombre dobservations, on aurait un R2=1. Ainsi, en tant que tel, le R2 nest
pas loutil appropri pour juger de lapport des variables supplmentaires lors de la comparaison de
plusieurs modles. Lorsquil augmente de manire mcanique, de lautre c t lon perd en degrs de
libert.
La mesure alternative, plus robuste { lajout des variables, qui corrige ce problme associ aux degrs de
libert est le R2 ajust de Henry Theil, appel aussi R2 corrig. Elle se dfinit comme suit :
[4.17]
Comme on le voit, il sagit l{ dun R2 corrig par les degrs de libert. Il peut dailleurs sexprimer en
fonction du R2 ; en manipulant la relation [4.17], on obtient :
[4.18]
Ass. Cdrick Tombola M. 56
Cependant, il faut faire attention de ne pas interprter le en termes de part de variance explique. Son
seul avantage est quil permet de comparer plusieurs modles. De plus, le peut prendre des valeurs
ngatives. Dans ce dernier cas, il faut lassimiler { zro.
Note importante :
Dans un modle linaire simple, R2
Dans un modle linaire multiple, < R2
Si n est grand, alors R2
Le R et le
2
nont de sens que dans un modle qui comporte un terme constant.
Dans le chapitre sur la corrlation, nous avions mis en vidence quil tait possible que la corrlation entre
deux variables Xi et Xj ne tienne qu{ un artefact statistique ou un facteur confondant une troisime
variable Xk laquelle Xi et Xj seraient lies en ralit , appel aussi phnomne-source. Lon peut se
souvenir de lexemple du journaliste qui a dcouvert quil existait une trs forte corrlation entre le fait
davoir un nid de cigognes sur sa demeure et le fait davoir des enfants { Washington, oubliant que cela ne
tenait quau rang social des familles tudis, car la prsence dun nid de cigognes sur le toit signifierait
plut t que la famille qui y habite est aise et donc dispose, financirement, { avoir plus denfants.
Ainsi, dans la slection des variables pertinentes { lexplication dun phnomne, pour viter une telle
ventualit o la corrlation entre la variable endogne et lexogne ne tiendrait qu{ un artefact, on a
recours au coefficient de corrlation partielle.
Le coefficient de corrlation partielle mesure la liaison entre deux variables lorsque linfluence dune
troisime variable [des autres variables prsentes dans le modle] est retire.
Coefficient de corrlation partielle du premier ordre Coefficient de corrlation partielle du deuxime ordre
Soit Y une variable endogne, et Xi, Xj et Xk des En considrant lexemple ci-contre, le coefficient de
exognes, le coefficient de corrlation partielle corrlation partielle du deuxime ordre sert quantifier
mesure le lien entre Y et chaque X, linfluence juste le lien entre Y et chaque X, linfluence de deux autres
tant exclue. Ainsi, partant du mme exemple, il est
dune troisime variable exogne tant exclue.
possible de calculer trois coefficients de corrlation
Partant de lexemple choisi, on peut calculer ainsi six partiels du deuxime ordre, soit :
coefficients de corrlation partielle du premier ordre : ; ;
; ; ; ; ; Etapes de calcul
Dans ce cas, le coefficient de corrlation partielle du Supposons que lon veule mesurer le lien entre Y et Xi,
premier ordre peut tre calcul partir des linfluence de Xj et de Xk tant neutralise, soit
coefficients de corrlation de Bravais-Pearson , on aura les tapes ci-aprs :
comme suit :
(i) Calcul des rsidus e1 issus de la rgression de
Y sur Xj et Xk ;
(ii) Calcul des rsidus e2 issus de la rgression de
Xi sur Xj et Xk ;
(iii) correspondra au carr du
En suivant les indices, ltudiant peut aisment coefficient de corrlation linaire calcul
gnraliser. entre e1 et e2 :
Pour la comparaison des modles, on utilise aussi les critres dinformation [Aikak (AIC) ; Schwarz (SC) ;
Hannan-Quinn (HQC), etc.]. A la diffrence que ces critres sont minimiser dans le choix du meilleur modle.
La notion de corrlation partielle est importante dans la mesure o elle permet de juger de la pertinence
dintroduire une variable exogne dans le modle. Plus lev sera le coefficient de corrlation partielle
dune variable, plus importante sera sa contribution { lexplication globale du modle.
Comme pour le cas simple, le test de significativit individuelle, qui porte sur chaque paramtre, est men
en calculant les ratios de Student. Pour un test bilatral, les hypothses du test sont :
[4.19] =
[4.20] =
On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication
contraire] et (n K) degrs de libert.
Critre de dcision : Si > t/2 ; (n K), alors RH0, le paramtre est statistiquement non nul, la variable lui
associe est par consquent non pertinente dans la prdiction de Y.
Comme cela a t vu au chapitre prcdent, lestimation par intervalle se fait en appliquant la formule ci-
aprs :
[4.21] I= t/2 ; (n 2)
Le test de significativit globale sert tester la pertinence du modle. Il rpond la question de savoir si
lensemble des exognes apporte de linformation utile { la connaissance de la variable endogne. Ceci dit,
seuls les paramtres associs aux variables explicatives interviennent dans le test, la constante nest donc
prise en compte ici, car cest bien linfluence des exognes sur la variable explique que lon cherche {
tablir.
Dans la littrature anglophone, ce test est parfois considr comme un test de significativit du R 2, dans le
sens o il valuerait le pouvoir explicatif des exognes, pris dans leur globalit, sur lendogne.
[4.22] F=
Sous H0, on dmontre que la statistique F suit une distribution de Fisher respectivement (K 1) et (n K)
degrs de libert.
Critre de dcision : Si F > F [(K 1) ; (n K)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire],
on rejette H0, le modle est bon.
[4.23] Ln Qt = Ln A + 1Ln Lt + 2 Ln Kt + ut
La thorie macroconomique avance quil y a rendements { lchelle constants sil se vrifie que :
[4.24] 1 + 2 = 1.
Pour tester cette restriction sur les paramtres, on suivra les tapes suivantes :
Estimer le modle [4.23] sans restriction sur les paramtres, dit modle non contraint ;
Calculer les variances de et , ainsi que leur covariance Cov( , )
Calculer ensuite le ratio de Student avec la formule :
[4.25] tcal =
Connaissant [4.24] et en sachant que Var = Var( ) + Var( ) + 2Cov( , ), la formule [4.25]
devient :
[4.26] tcal =
Tester enfin lhypothse des rendements dchelle constants contre celle des rendements
dchelle non constants, soit :
Critre de dcision : Si > t/2 ; (n K) RH0 selon laquelle il y a rendements { lchelle constants.
Ass. Cdrick Tombola M. 59
Si le vecteur des valeurs des exognes pour un horizon h est connu, soit R= ,
la prvision ponctuelle est faite en substituant R dans [4.27]. Ainsi obtient-on :
[4.29]
Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ci-aprs :
[4.31] =
*********
Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.
Ass. Cdrick Tombola M. 60
Formules Indications
Modle danalyse :
2 il sagit l{ dun R2 corrig par les degrs de
R ajust de Theil
libert.
Test de
individuelle = t/2 ; (n K) [sous H0] Si > t/2 ; (n K) RH0
significativit
Ponctuelle
Permet de deviner la valeur de Y
Prvision Yn+h I= t/2 ; (n K) la priode h, les exognes de la
Par intervalle mme priode tant fixes.
o =
Ass. Cdrick Tombola M. 61
Une variable indicatrice est une variable spciale qui ne prend que deux valeurs, savoir :
Elle est utilise en conomtrie pour saisir les facteurs qualitatifs comme la race, le sexe, la religion ou
mme un vnement tel quune guerre, une grve, un tsunami, etc. que lon dsire intgrer dans les
modles. Comme variable explicative, on la note gnralement par la lettre D, pour dire dummy.
Il est galement important de noter que les variables binaires peuvent intervenir dans le modle de deux
manires, soit comme endogne [modle de probabilit linaire, modles Logit, Probit, Tobit, Gombit] soit
comme exogne [modles ANOVA et ANCOVA]. Dans ce recueil, nous ne nous intressons quau cas o la
variable muette entre comme explicative dans le modle.
Aussi, lutilisation de ces variables dpend fortement du problme pos. Comme exognes, les variables
dummy sont utilises pour rpondre un triple objectif :
Lorsque la variable endogne comporte, certaines dates, des valeurs atypiques cest--dire des valeurs
anormalement leves ou anormalement basses associes en gnral la survenance de chocs ou
dvnement rares, il y a lieu dincorporer une dummy dans le modle afin den tenir compte. La dmarche
consisterait simplement dtecter les valeurs anormales et les corriger, en mettant 1 ces dates l et 0
ailleurs, afin que les dviants ne perturbent pas lestimation statistique des autres variables.
Considrons le jeu de donnes ci-aprs, o Yt est lendogne et Xt lexogne. On veut estimer le modle :
Yt = 0 + 1Xt + ut [A]
On observant lvolution de Yt, il y a un cart criant au 13 fvrier qui frappe notre attention. La consquence
directe serait que, sil faut rgresser Yt sur Xt, cette valeur aura tendance fausser la vraie relation existant
entre les deux variables en cause, en rabattant la droite des moindres carrs de faon avoir une moyenne.
On sen rend bien compte { travers le graphique nuage de points avec droite de rgression, y
correspondant, suivant.
20
15
10
0
0 2 4 6 8 10 12
= 1.6081 + 1.2297Xt
[0.1265] [0.7728]
R2 =0.1660
Avec [.] le ratio de Student. Comme on le voit, la valeur anormale a compltement perturb lestimation de
la relation, presque parfaite, entre Yt et Xt. On doit donc introduire une variable indicatrice Dt dans le
modle. On mettra 1 la date du 13 fvrier et 0 partout ailleurs. Le modle estimer devient :
Lincorporation dans le modle dune dummy a donc permis de corriger la valeur atypique.
Note importante :
La correction effectue nest valable que si le coefficient associ la variable dummy est
statistiquement significatif.
Aprs estimation, le signe affect { la variable binaire est proportionnelle { lanomalie constate
dans les donnes. Sil sagit dune observation anormalement basse, comme cest le cas dans
lexemple ci-haut, le signe affect la dummy sera , ce qui indique que lcart criant avait
tendance ramener la droite de rgression vers le bas. En revanche, sil est plut t question dune
observation anormalement leve, le signe affect la dummy sera +, ce qui indique que le dviant
avait tendance tirer la droite de rgression vers le haut.
Attention ne pas saisir les carts anormalement levs et anormalement bas par une mme une
variable muette. Lorsque la srie prsente la fois les deux types dcarts, il convient de les capter
par deux variables auxiliaires diffrentes, lune pour les observations exceptionnellement leves
et lautre pour celles exceptionnellement basses.
Ass. Cdrick Tombola M. 63
Lexplication dun phnomne peut parfois ncessiter la prsence des variables qualitatives. Supposons
que lon souhaite expliquer, pour dix tudiants de premire licence en Economie chantillonns, le
phnomne " cote obtenue en macroconomie CMi" ; tout naturellement les variables comme prsence au
cours PCi, nombre dheures dtude consacres la macroconomie HE isavrent pertinentes. Mais il est
tout fait aussi possible que des variables comme la religion de ltudiant REi, ou sa tribu TEi, soient
dterminantes dans lexplication du phnomne tudi. Dans ce cas, lutilisation dune variable binaire
permet de segmenter les individus en deux groupes et de dterminer si le critre de segmentation est
rellement discriminant.
Dans lexemple de tout { lheure sur la cote obtenue en macroconomie, si lon assume que lappartenance
ou non la religion catholique est dterminante dans la russite, ce qui revient dire que la religion est un
facteur de discrimination, le modle estimer sera :
o REi =
Puis estimer, comme vu prcdemment, en appliquant les MCO. Aprs estimation, si 3 est statistiquement
significatif, on en conclurait que la religion (catholique) a jou sur la cotation en macroconomie, elle est
donc bien un facteur discriminant de la note obtenue en macroconomie. A loppos, si 3 est
statistiquement non significatif, on en conclurait que la religion (catholique) na pas jou sur la russite en
macroconomie.
Note importante :
Dans le cas de variables dummy plusieurs modalits, par exemple ltat civil (clibataire, mari,
divorc, autres), il est convenable de coder alors autant de variables indicatrices quil y a de
modalits moins une. Ainsi, pour ltat civil, on dfinira trois variables binaires : clibataire (=1
si lindividu est clibataire, 0 sinon), mari (= 1 si lindividu est mari, 0 sinon), divorc (= 1 si
lindividu est divorc, 0 sinon), la modalit autres tant implicitement contenue dans le terme
constant [et ne serait donc spcifie part que dans un modle sans terme constant].
La codification dpend du modlisateur et doit tre prise en compte dans linterprtation des
rsultats. A titre exemplatif, si lon considre la variable qualitative sexe, le modlisateur est libre
de coder 1 = femme et 0 = homme et inversement. Il doit seulement en tenir compte lors de
linterprtation.
Les variables indicatrices sont aussi utilises pour prendre en compte les mouvements saisonniers qui
caractrisent certaines variables comme les dpenses de publicit, qui sont gnralement plus importantes
en certaines priodes de lanne quen dautres.
Supposons que lon sintresse { la relation entre le chiffre daffaires (Ch t) et les dpenses de publicit
(Dpubt). On peut crire :
En utilisant les donnes trimestrielles, il ne serait pas correct destimer directement le modle [i], parce
quon naurait pas tenu compte de leffet saisonnier, les dpenses de publicit ne sont pas les mmes tous
les trois mois [trimestre].
On peut capter leffet saisonnier en introduisant dans [i] une variable dummy. Pour notre cas, on aura
autant de variables dummy quil y a de trimestres, soit quatre dummy. Sachant quon compte quatre
trimestres par anne, lintroduction des variables dummy se fera comme suit :
ou encore :
Si le modle contient un terme constant, celui-ci joue doffice le r le de lune de quatre variables dummy.
Dans [ii] par exemple, 0 joue le rle de D4t [on a le choix pour la variable binaire carter]. En revanche, en
absence du terme constant, il convient de prendre en compte, comme dans la relation [iii], toutes les
variables dummy.
Une fois cette gymnastique termine, on peut alors, sans difficult normalement, appliquer les MCO soit
sur le modle [ii], soit sur le modle [iii].
Ass. Cdrick Tombola M. 65
ANNEXES DU CHAPITRE IV
Addition et soustraction
Soient deux matrices carres A et B de format 2. La somme ou la soustraction de ces deux matrices
seffectue comme suit :
A B= =
L'addition et la soustraction des matrices ne sont donc dfinies que pour des matrices de mme format ou de
mme ordre.
(i) A B=B A
(ii) A (B C) = (A B) C
Soient un scalaire k (un nombre rel) et la matrice carre A ci-dessus. La multiplication de A par le scalaire k
seffectue de la sorte :
kA =k =
La multiplication par un scalaire est donc possible quel que soit lordre de la matrice A.
(i) kA = Ak
(ii) k(A B) = kA kB
Produit matriciel
Soient les deux matrices carres A et B ci-dessus. Ces deux matrices sont conformables pour le produit ou la
multiplication matricielle puisque le nombre de colonnes de la premire matrice est gal au nombre de lignes
de la deuxime matrice [principe du produit matriciel]. Le produit matriciel seffectue en faisant la somme
algbrique des produits des lments de chaque ligne de la premire matrice par les lments
correspondants de chaque colonne de la deuxime matrice.
Une matrice carre est une matrice dont le nombre de lignes est gal au nombre de colonnes. On dit matrice
carre de format n ou dordre n m.
Ass. Cdrick Tombola M. 66
AB =
2 2 2 2
(i) A(B + C) = AB + AC
(ii) A(BC) = (AB)C
(iii) AB BA en gnral
La transpose dune matrice A de format m n, note AT ou A, est une matrice de format n m obtenue
en permutant les lignes et les colonnes de A.
Soit A = AT =
(i) (A + B + C)T = AT + BT + CT
(ii) (ABC)T = CTBTAT
(iii) (AT)T = A
(iv) (kA)T = kAT
Soit une matrice A dordre m n. Le rang de la matrice A, not r (A), est le nombre de ses vecteurs lignes [ou
ses vecteurs colonnes] linairement indpendants, dit autrement, cest le nombre de ses lignes (ou ses
colonnes) non entirement nulles, aprs chelonnement de la matrice.
Si le rang dune matrice A donne correspond au minimum entre le nombre de ses lignes et de ses
colonnes, on dira que A est de rang maximum.
Une matrice carre A dordre n est dite non singulire si son rang est maximum, soit [r (A) = n].
Ass. Cdrick Tombola M. 67
2. Matrices carres
est une matrice carre dont un au est une matrice diagonale dont note I, est une matrice scalaire dont
moins des lments situs sur sa tous les lments, non nuls, sur sa les lments sur la diagonale
diagonale principale est non nul, tous diagonale principale sont gaux. principale sont gaux 1.
les autres lments tant nuls.
Exemple : Exemple :
Exemple :
B=
A= I=
(i) II = I
(ii) InAn = An
(iii) tr (In) = n
Dordre 2
Soit la matrice carre A, dordre 2, son dterminant not est calcul comme suit :
Ass. Cdrick Tombola M. 68
Dordre 3
Le dterminant dune matrice carre A dordre 3 est calcul en appliquant la rgle de Sarrus********** comme
suit :
Dordre n quelconque
Le dterminant dune matrice A dordre n est donn par la somme algbrique des produits obtenus en
multipliant les lments dune ligne (ou dune colonne) de la matrice A par leurs cofacteurs correspondants,
nots Cij.
La matrice des cofacteurs, quant elle, est trouve en pr multipliant la matrice des mineurs, note Mij,
par (1)i+j, soit :
Cij = (1)i+jMij
La mthode des cofacteurs, dite aussi mthode dexpansion de LAPLACE , permet de calculer un
dterminant dordre n { laide des mineurs [dterminants dordre (n 1)]. On a toujours intrt
dvelopper un dterminant des lignes ou des colonnes o apparaissent beaucoup de zros.
Note : Le mineur mij de la matrice A est le dterminant calcul en supprimant la ligne i et la colonne j de A.
(i)
(ii)
(iii) Si une ou plusieurs lignes ou colonnes dune matrice sont linairement dpendantes, alors le
dterminant de cette matrice est nul. On dit quune telle matrice est singulire.
(iv) Si une matrice carre A est de rang maximum, alors son dterminant est diffrent de zro.
Soit A une matrice carre et B une autre matrice carre du mme ordre que A. On dit que B est l'inverse de A si
AB = BA = I.
1
L'inverse de A, not A , n'existe que si A est une matrice carre de rang maximum. Cet inverse est unique.
**********
Du nom du mathmaticien franais Pierre Frdric Sarrus (1798 1861).
Du nom du mathmaticien, astronome et physicien franais Pierre Simon de LAPLACE (1749 1827).
Ass. Cdrick Tombola M. 69
Il existe, dans la littrature, plusieurs mthodes de calcul de linverse dune matrice carre. Dans ce papier, nous
nen prsentons que deux.
B1 =
(i) B B1 = I
(ii) (B1)1 = B
(iii) (BT)1 = (B1)T (B1)TBT = I
La fonction DROITEREG dExcel permet dobtenir presque tous les rsultats, en un clic, mis en vidence
dans ce chapitre, et au chapitre prcdent. Il suffit, pour ce faire, de slectionner une plage en
consquence ayant 5 lignes et dont le nombre de colonnes doit correspondre au nombre de paramtres
estimer dans le modle, puis de saisir la commande DROITEREG (plage contenant Y ; plage contenant les
exognes ; VRAI ; VRAI) suivi de CTRL + SHIFT + ENTER.
Soit le modle Yt = 0 + 1X1t + 2X2t + 3X3t + ut, la figure ci-dessous montre comment procder sur Excel.
Sur le logiciel conomtrique Eviews, aprs cration de la feuille de travail et saisie des donnes, aller dans
Quick Estimate Equation, puis entrer les variables, spares par des espaces, dans lordre apparaissant
dans le modle estimer, en notant le terme constant par la lettre C, choisir ensuite la mthode
destimation pour notre cas LS ou Least squares et valider.
Dependent Variable: Y
Method: Least Squares
Sample: 1 8
Included observations: 8
Le mme rsultat peut tre obtenu en saisissant, sur la barre de commande Eviews, la commande LS suivi
de Y C X1 X2 X3.
Du tableau des rsultats ci-dessus, appels parfois output de lestimation, il ressort les informations
importantes suivantes :
Les colonnes coefficient, Std. Error, t-Statistic renseignent respectivement sur la valeur de chaque
paramtre estim, son cart type (Standard Error) et de son ratio de Student.
La colonne Prob. renvoie, pour chaque coefficient estim, la probabilit de commettre lerreur de
premire espce. Si cette probabilit est faible (< 0.05, de manire gnrale) RH0, le paramtre
concern est donc statistiquement significatif (non nul).
Les lignes R-squared, Adjusted R-squared, S.E. of regression, Sum squared resid, F-statistic et Prob(F-
statistic) correspondent respectivement au R2, au R2 ajust, au , la SCR, la statistique de
Fisher et la probabilit critique associe la statistique de Fisher.
Mean dependent var et S.D. dependent var reprsentent respectivement la moyenne et lcart
type de la variable dpendante.
Akaike info criterion, Schwarz criterion et Hannan-Quinn criter. sont des critres dinformation
intervenant dans le choix du modle optimal. Le meilleur modle tant celui qui minimise ces
critres.
A. Aprs estimation, la srie prdite est obtenue automatiquement en tapant, sur la barre de commande, la
commande FIT (nom de la srie) puis valider.
B. Aprs estimation, la srie des rsidus est gnre en saisissant la commande GENR (nom)=resid
Ass. Cdrick Tombola M. 72
Exercice 1
On examine lvolution dune variable Yt en fonction de deux exognes X1t et X2t. On dispose de n
observations de ces variables. On note X = o 1 est le vecteur constant et X1 et X2 sont les
vecteurs des variables explicatives.
(a) Calculer la somme des carrs expliqus (SCE), la somme des carrs totale (SCT), le R2 et le R2 ajust
de Theil.
(b) Dduire la matrice COVA, et tester la significativit individuelle de chaque paramtre ainsi que leur
significativit conjointe.
Exercice 2
Afin de dterminer les facteurs explicatifs de la russite de la licence en sciences conomiques, on spcifie
le modle suivant :
o :
NL = note moyenne obtenue en licence
ND = note moyenne obtenue en troisime graduat
DS = variable indicatrice de sexe (1 pour les hommes et 0 pour les femmes)
Travail demand : le sexe a-t-il une influence sur la note obtenue en licence de sciences conomiques ?
Solution de lexercice 2
La variable binaire DS a un ratio de Student de 2.3 >t (0,025 ; 57)=1.96, elle est donc statistiquement significative. Le
fait dtre homme ou femme est bel et bien un facteur discriminant de la russite de la licence en sciences
conomiques.
Ass. Cdrick Tombola M. 73
Il est noter que le signe ngatif affect DS indique quil est pnalisant dtre un homme (DS = 1) et quen
moyenne, sur lchantillon retenu, les femmes (0) ont une note de 8.5, tandis que les hommes ont une note
infrieure de 1.2 point celle des femmes, soit 7.3.
Exercice 3
Soit le modle :
Yi = 0 + 1Xi + 2Di1 + 2Di2 + ui
o Yi est le salaire peru par lindividu i ; Xi le nombre dannes dexprience ; Di1 et Di2 deux variables
dummy.
Ind. 1 2 3 4 5 6 7 8 9 10 11 12
Yi 350 150 305 290 310 270 340 400 430 410 400 290
Xi 2 1 2 2 2 2 5 3 5 4 3 2
Les individus 3, 5, 8, 10, 15, 12 sont des trangers (trangres) et les individus 3, 5, 7, 8 et 9 sont des ouvriers
(nationaux et trangers).
Di1 = et Di2 =
Exercice 4
Soit le modle :
Yt = 0 + 1X1t + 2X2t + ut
Exercice 5
Soit le tableau suivant :
TD :
- Si on considre le modle suivant : Yt = 0 + 1X1t + 2X2t + 3X3t + ut, estimer les paramtres 0, 1, 2,
3, et tester leur significativit individuelle et la significativit globale du modle.
- Calculer le R2. Quelle critique peut-on formuler lgard de cet indicateur ?
-
Calculer le 2
- Trouver lintervalle de prvision pour 1997 sachant que pour cette dernire anne X1t sera gal
78, X2t sera gal 54 et X3t atteindra 48.
Exercice 6
Soit le modle Yt = 0 + 1X1t + 2X2t + t
o Yt est la quantit offerte des pommes, X1t le prix des pommes, X2t une subvention forfaitaire accorde de
manire journalire et t le terme derreur.
.V.
MODELES DE REGRESSION NON LINEAIRES
Comme vu jusquici, lapplication de la mthode des moindres carrs ordinaires exige que le modle soit
linaire ou linarisable en X. Cependant, il est frquent de rencontrer en conomie des modles non
linaires dans leur spcification, comme cest le cas des fonctions de production de type Cobb Douglas et
CES [Constant Elasticity of Substitution].
Les modles non linaires sont gnralement regroups en deux familles, savoir :
Pour la premire famille de ces modles, le plus souvent, une transformation logarithmique suffit les
rendre linaires, ce qui, du reste, valide leur estimation par les MCO. Et cest prcisment sur ce type de
modles que porte ce chapitre. Quant { la deuxime famille de ces modles, il convient dappliquer les
mthodes destimation non linaire, que nous nabordons pas directement ici.
A. Le modle double log ou log log B. Le modle log lin (ou semi-log)
Exemple :
o = = La formule de lintrt compos Yt = Y0(1 + r)t [o]
o Y0 est une constante, (1 + r) un paramtre et t le temps
A prsent, en posant : (la variable exogne).
La fonction Cobb-Douglas, du nom de ses auteurs Charles William Cobb et Paul Douglas, a t propose en
1928 ; alors que la CES, appele aussi SMAC (des noms de Solow, Minhas, Arrow et Chenery), a t introduite en 1961.
Ass. Cdrick Tombola M. 76
Yt = 0 + + ut [v]
Avantage :
Ce modle permet lestimation des modles
dEngle : La dpense totale consacre la
nourriture tend crotre selon une progression
arithmtique lorsque la dpense totale augmente
en progression gomtrique.
Cette forme peut servir galement au traitement
de lhtroscdasticit dont il sera question plus
loin.
E. Les modles rciproques F. Le modle log hyperbole (ou log inverse)
G. Le modle polynomial
Forme : Yt =
Yt =
o =Xt ; = ;; =
Les modles de cycle de vie dun produit, appels parfois modles de diffusion, ont pour objet de
dterminer lvolution probable des ventes dun produit connaissant le seuil de saturation, puisquil est
vrifi que les ventes voluent en fonction du temps, { un rythme alternativement lent, puis rapide jusqu{
maturit (seuil de saturation) qui correspond { un point dinflexion { partir duquel le rythme de croissance
des ventes diminue.
ANNEXE DU CHAPITRE V
En effet, plusieurs modles non linaires se prtent facilement, comme vu prcdemment, la linarisation,
ce qui rend beaucoup plus aise leur estimation par la mthode des MCO. Mais lorsque cette gymnastique
de linarisation devient redoutable, ce qui est le cas des fonctions de production du type CES, on peut,
grce { la commande NLS dEviews qui donne lestimation fournie par la mthode des moindres non
linaires , directement estimer de tels modles sans avoir besoin de les rendre linaires.
Exemple
En considrant les donnes du tableau ci-dessous qui renseigne sur les quantits produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande destimer le modle ci-aprs :
Q=
Jour 1 2 3 4 5 6 7 8 9 10
Q 25 28 32 35 39 37 44 40 38 45
K 12 13 10 15 22 17 21 23 25 20
L 3 5 9 8 12 13 10 11 14 19
Solution
La commande Eviews est NLS Q=c(1)*K^c(2)*L^c(3). On obtient les rsultats suivants :
Dependent Variable: Q
Method: Least Squares
Sample (adjusted): 1 10
Included observations: 10 after adjustments
Convergence achieved after 8 iterations
Q=C(1)*K^C(2)*L^C(3)
o les coefficient c(2) et c(3) donnent directement les lasticits du produit au capital et au travail,
respectivement.
Ass. Cdrick Tombola M. 79
Exercice 1
Soit le modle log-linaire suivant : Yt = Y0(1 + r)t. Connaissant les valeurs du tableau ci-aprs qui montre
lvolution des ventes dune entreprise au cours de 15 mois, on demande dajuster cette fonction et de
trouver Y0 et r.
N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Yt 10 15 20 18 20 22 24 21 27 26 33 29 34 38 37
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Exercice 2
On dispose des informations suivantes sur les ventes des syllabus dconomtrie :
Anne 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Ventes 24 36 45 49 54 63 78 79 83 99
On Se propose dajuster, par OLS, sur ces donnes une fonction du type :
Yt =
Exercice 3
Mmes donnes et mmes questions qu{ lexercice 2, en ajustant le modle suivant :
Exercice 4
En considrant les donnes du tableau ci-dessous qui renseigne sur les quantits produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande destimer le modle ci-aprs :
Q=
Jour 1 2 3 4 5 6
Q 25 28 32 35 39 37
K 12 13 10 15 22 17
L 3 5 9 8 12 13
- Calculer le R2 et le 2.
-
Mener le test des rendements dchelle. Les rendements { lchelle sont-ils constants ?
Ass. Cdrick Tombola M. 80
.VI.
VIOLATION DES HYPOTHESES DE BASE
En prsentant la mthode des moindres carrs ordinaires, nous avions mis un faisceau dhypothses de
base, sous respect desquelles cette mthode fournissait les meilleurs estimateurs linaires,
convergents et sans biais, et que le thorme de Gauss-Markov tait vrifi. Cependant, dans la pratique, il
est possible que lune ou lautre de ces hypothses fondamentales soit relche.
Ce chapitre prsente donc la fois les tests de vrification et les stratgies adopter en cas de violation
ventuelle de lune ou lautre hypothse.
A. Problme
Il faut noter aussi que lautocorrlation des erreurs est un phnomne que lon ne retrouve quen travaillant
sur sries temporelles. En principe, le problme ne se pose pas sur cross sections, sauf le cas rare de
corrlation spatiale des rsidus, qui ne nous intresse pas directement ici.
B. Tests de dtection
On recourt gnralement { deux tests pour dtecter lventuelle autocorrlation des erreurs : le test de
Durbin et Watson et le LM Test de Breush Godfrey.
[6.1] Yt = 0 + 1Xt + ut
Le test trs populaire de Durbin et Watson (DW), du nom de ses auteurs James Durbin et Geoffrey Watson
qui lon propos en 1951, permet de dtecter une autocorrlation dordre 1, AR(1), selon la forme :
[6.2] ut = ut1 + vt
o vt est un bruit blanc*********** et (condition de convergence)
Erreurs homoscdastiques, non autocorrles et normalement distribues. De plus la matrice (XX) doit tre
non singulire, ce qui correspond { assumer labsence de multicolinarit.
***********
Voir annexe 3.
Ass. Cdrick Tombola M. 81
On fait donc lhypothse, pour des raisons de simplification, que lerreur nest lie qu{ son pass immdiat.
Et lestimateur de , bas sur les rsidus et issus de la relation [6.2], est donn par :
[6.3]
[6.4]
[6.5] DW = d =
Pour comprendre pourquoi d est une statistique pertinente pour tester lautocorrlation, on rcrit d
comme suit :
d=
[6.6] d=
Connaissant la relation [6.3], et en sachant que pour grands chantillons, = , [6.5] devient :
[6.7] DW=d )
Connaissant la taille de lchantillon n, le nombre des variables explicatives k et le risque (5% sauf
indication contraire), la table de Durbin-Watson donne deux valeurs dLower et dUpper, qui permettent de
mener le test en situant la statistique calcule DW dans lune des zones du schma ci-aprs :
Ass. Cdrick Tombola M. 82
0 dL dU 2 4 dU 4 dL 4
Doute
Doute
Zone I Zone III
Zone II
Autocorrlation Autocorrlation
Absence dautocorrlation
positive positive
On dira donc quil y a autocorrlation des erreurs (ou prsomption dautocorrlation zone de doute ou
zone dindtermination) si la statistique DW calcule tombe soit dans la zone I, dans lune de deux zones de
doute ou dans la zone III. La zone II tant la seule zone o lon conclurait { lindpendance des erreurs.
Note importante :
Comme cela vient dtre expliqu, le test DW ne permet de tester quune autocorrlation dordre 1, soit
AR(1). Or, il est tout fait possible que les erreurs nous poursuivent. Ainsi, les erreurs peuvent tre :
A cet effet, Trevor Breusch et Leslie Godfrey ont, sparment, propos, respectivement en 1979 et 1978, un
test qui porte leurs noms, appel aussi test du multiplicateur de Lagrange LM beaucoup plus complet
que le test DW en ce quil permet de tester une autocorrlation des erreurs dordre suprieur { 1, et qui
reste valide en prsence de la variable dpendante dcale en tant que variable explicative.
Yt = 0 + 1Xt + ut
o ut est prsent AR(p), p tant dterminer.
Comme le test DW, le test BG teste lH0 dabsence dautocorrlation contre H1 de prsence
dautocorrlation, et se droule en trois tapes suivantes :
(1). Estimer par les MCO le modle [6.8] et tirer les rsidus e t de cette estimation ;
(3). Calculer la statistique du test, sachant que ce test peut tre men deux niveaux :
Soit recourir la statistique LM qui suit une distribution du (p). P tant le nombre de retards
introduits dans le modle [6.8]. On a :
2
LM = n R
Lorsque le test conclut { lvidence dune autocorrlation, la correction se fait en appliquant la mthode
des Moindres Carrs Gnraliss [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste
simplement { lapplication des MCO sur les donnes transformes.
Revenons au modle simple { une variable o le terme derreur suit un processus AR(1) :
[6.9] Yt = 0 + 1Xt + ut
o ut = ut 1 + vt
[6.10] Yt = 0 + 1Xt + ut 1 + vt
o ut 1= Yt 1 0 1Xt 1
[6.12] = 0 + 1 + v t
o =Yt Yt 1 ; 0 = 0(1 ) ; 1 = 1 et = (Xt Xt 1)
Lorsque connu, lapplication des MCO sur ce dernier modle donne un estimateur BLUE. Le seul
inconvnient de la transformation en quasi-diffrences qui persisterait serait une perte dinformation, en
loccurrence et . Afin de contourner cette difficult, Prais et Winsten (1954) ont propos de prendre
en compte la premire observation en utilisant la procdure suivante :
et =
Procdures destimation de
Il existe plusieurs mthodes pour estimer , dont les plus populaires sont :
(a) Procdure (b) Mthode base sur (c) Mthode itrative de Cochrane-Orcutt
destimation directe la statitistique DW
Modle : Y = X + U [A]
On suppose que les erreurs suivent un processus AR(1) : ut = ut 1 + vt
A partir des rsidus et du A partir de la statistique DW Soit le modle linaire simple :
modle [A], estimer par la issue de lestimation du Yt = 0 + 1Xt + ut
formule : modle [A], et connaissant la o ut = ut 1 + vt
relation [6.7], estimer par
la formule : En quasi-diffrences, on a :
Yt Yt 1 = 0(1 ) + 1(Xt Xt 1) + vt
ou encore, pour grands
chantillons : En faisant fi de la premire observation que lon
perd, la procdure itrative de Cochrane-Orcutt
se prsente comme suit :
Note : Le logiciel Eviews permet automatiquement deffectuer la correction de lautocorrlation des erreurs
sans passer par tous ces calculs. Pour ce faire, il suffit tout simplement dinsrer, la commande
destimation, la variable AR(1) ou AR(2), ou encore MA(1) ou MA(2). Mais il faut noter galement que la
correction de lautocorrlation nest accepte que si le coefficient associ au processus introduit dans le
modle [AR(1), MA(1), etc.] est significatif.
VI.2. Htroscdasticit
A. Problme
Dun point de vue tymologique, le terme htroscdasticit comprend deux mots. Dabord htro qui
fait rfrence plusieurs , ensuite le terme scdasticit , associ la fonction scdastique , qui
signifie variance conditionnelle . Htroscdasticit signifie donc diffrentes variances. On dit quil y a
htroscdasticit lorsque lhypothse de la constance de lerreur , mise lors de la
prsentation de la mthode des moindres carrs ordinaires, est viole.
Comme pour lautocorrlation, la consquence directe de cette violation est que les estimateurs des MCO,
bien que encore non biaiss, ne sont plus efficients, puisque nayant plus une variance minimale. Et par
consquent les t de Student et F de Fisher ne sont plus utilisables { des fins dinfrence.
Il faut noter galement que lhtroscdasticit est un problme qui se pose plus dans les modles spcifis
en coupe transversale que ceux des chroniques.
B. Tests de dtection
Il existe toute une batterie de tests permettant de dtecter l htroscdasticit, dont notamment :
Le test de Park
Le test de Goldfeld Quandt
Le test de Glejser
Le test de Breusch Pagan Godfrey
Le test dgalit des variances
Le test de Koenker Basset
Le test de Harvey
Le test de rang de Spearman
Le test de White
Le test ARCH
Dans ce papier, nous ne revenons que sur les deux derniers tests, qui sont les plus utiliss dans la pratique.
Le test de White, propos par Halbert White en 1980, teste les hypothses suivantes :
Jinvite le lecteur qui dsire prendre connaissance de tous ces tests consulter les manuels de Kintambo
(2004) et Bosonga (2010).
Ass. Cdrick Tombola M. 86
Le test de White prsente lavantage quil ne ncessite pas que lon spcifie les variables qui sont { la cause
de lhtroscdasticit.
(i) Test de White avec termes croiss, qui est bas sur lestimation du modle :
[6.14]
o et sont les rsidus issus de lestimation par OLS du modle [6.13] et vt le terme derreur.
(ii) Test de White sans termes croiss, bas sur lestimation du modle suivant :
[6.14]
o et sont les rsidus issus de lestimation par OLS du modle [6.13] et vt le terme derreur.
LM = n R2 (m)
o m est le nombre de rgresseurs (exognes) dans lexpression estime.
Partant des rsidus et issus de lestimation du modle [6.13], la dtection de lhtroscdasticit par le test
ARCH se fait en rgressant le carr des rsidus et sur leurs dcalages puissance deux, soit :
[6.15]
Le test est fond soit sur un test de Fisher classique, soit sur le test du multiplicateur de Lagrange (LM) :
LM = n R2 (m)
o m est le nombre de rgresseurs (exognes) prsents dans le modle [6.15].
C. Correction de lhtroscdasticit
Soit le modle :
Yi = 0 + 1Xi + ui
La correction de lhtroscdasticit se fait en appliquant les moindres carrs pondrs, cest--dire les
moindres carrs ordinaires sur lun des modles transforms ci-dessous :
(1) si E(
(2) si E(
(3) si E(
VI.3. Multicolinarit
A. Problme
En cas de multicolinarit parfaite, la matrice est singulire, et par consquent son inverse ( )1
nexiste pas, ce qui rend la mthode OLS compltement dfaillante ; il est nest donc pas possible devant
une telle situation destimer les paramtres du modle.
Dans la pratique, cest plut t le cas de quasi multicolinarit qui est frquent. En effet, la multicolinarit
imparfaite correspond au cas o la matrice est non singulire, mais son dterminant est proche de 0. La
consquence directe est quon aura des valeurs trs grandes dans la matrice inverse ( )1 qui, par la
mthode classique, est calcule comme suit :
[6.16] ( )1 =
Dans [6.16], si 0, la matrice ( )1 aura des valeurs de plus en plus grandes, la matrice COVA
( ) galement. La consquence, et donc le problme pos par la multicolinarit est que, du
fait de la valeur leve des variances des coefficients estims, les rsultats de lestimation perdent en prcision,
cest--dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F
sont levs.
Lautre problme pos par la multicolinarit est linstabilit de paramtre et leffet de masque qui rend difficile
la mise en vidence de la contribution individuelle de diffrentes variables explicatives sur lendogne.
Note : Si les problmes dautocorrlation des erreurs et dhtroscdasticit peuvent se poser quel que soit
le nombre dexognes intervenant dans le modle, le problme de multicolinarit, en revanche, na de
sens que dans un modle de rgression linaire multiple.
La notion de multicolinarit a t introduite, dans les annes 50, par Lawrence Klein.
Ass. Cdrick Tombola M. 88
B. Tests de dtection
Les tests de dtection de la multicolinarit les plus populaires sont le test de Klein et le test de Farrar et
Glauber.
Le test de Klein
Soit le modle :
Note : Le test de Klein nest pas un test statistique au sens test dhypothses mais simplement un critre de
prsomption de multicolinarit. Cest pourquoi il doit tre complt par le test de Farrar et Glauber qui est
bien un test statistique.
Ce test est bas sur la statistique du , calcule { partir de lchantillon comme suit :
D=
C. Remdes la multicolinarit
Face ces artifices de calcul, la seule parade vraiment efficace consiste, lors de la spcification du modle,
liminer les sries explicatives susceptibles de reprsenter les mmes phnomnes et donc dtre corrles
entre elles, ceci afin dviter leffet masque ************.
A. Problme
Le problme dabsence de normalit se pose lorsque lhypothse ut (0, ) est viole. A titre de rappel,
lhypothse de normalit, mise lors de la prsentation de la mthode OLS, est la cl de linfrence
statistique. Elle est donc ncessaire pour mener les tests statistiques et construire les intervalles de
confiance. Sa violation ne touche pas le caractre non biais des paramtres mais rend linfrence, dans le
modle linaire, impossible car les distributions des estimateurs ne sont plus connues.
B. Tests de dtection
Les tests de normalit ont t rigoureusement prsents dans la partie introductive de ce recueil portant
sur les rappels statistiques, le lecteur est donc convi { sy rapporter.
Le meilleur remde la non-normalit des rsidus est dagrandir la taille de lchantillon. La transformation
de Box Cox, sur les variables non normales intervenant dans le modle, est souvent aussi indique.
************
Bourbonnais (2005).
Ass. Cdrick Tombola M. 90
Exercice 1
Soit le modle ci-aprs :
Yt = 0 + 1X1t + 2X2t + t
o (t= 1, , n) et n=30
En lestimant par OLS, on a obtenu =0,52 et =0,28. On aussi calcul la statistique de Durbin-Watson :
d=DW=0,78.
Exercice 2
En cherchant { expliquer le phnomne russite en conomtrie, en 2012, lassistant Dandy Matata a
spcifi le modle suivant :
Yi = 0 + 1X1i + 2X2i + i
o Yi est la cote obtenue en conomtrie par ltudiant i ; X1i est la prsence au cours dconomtrie et X2i le
nombre dheures dtudes consacres { ce cours.
Tester lautocorrlation du premier ordre dans le modle spcifi par lassistant Matata.
Exercice 3
Soit lchantillon de taille n=5 :
Yt X1t X2t
8 3 6
2 1 2
6 3 6
0 1 2
4 2 4
Yt=20 X1t=10 X2t=20
Yt = a + bX1t + dX2t + ut
(b) Comment peut-on le rsoudre ?
Exercice 4
Au regard des rsultats ci-aprs, sur lestimation de lhypothse de Kuznet en RDC pour la priode allant de
1975 2011, quel problme, selon vous, sest pos dans lestimation de cette relation ? Par quoi le voyez-
vous ?
Ass. Cdrick Tombola M. 91
o IGI est le coefficient dingalit de GINI et PIBH le PIB rel par habitant.
Exercice 5
Le tableau ci-dessous reporte les rsultats du test de White, aprs estimation de la relation entre coefficient
dingalit de GINI (IGI) et le PIB rel par habitant (PIBH) en RDC.
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 06/25/12 Time: 15:46
Sample: 1975 2011
Included observations: 37
Travail demand :
Aprs avoir rappel les principales caractristiques de ce test (hypothses nulle et alternative, principe
gnral du test, rgle de dcision), commenter les rsultats. Conclure quant la nature des rsidus.
Rappel : la valeur critique de la loi du Khi-deux 2 degrs de libert et au seuil de 5% est gale 5,991.
Ass. Cdrick Tombola M. 92
ANNEXES
ANNEXE 1 : TABLES STATISTIQUES
n
2 3 4 5 6 7 8 9 10
J
1 0.7071 0.7071 0.6872 0.6646 0.6431 0.6233 0.6052 0.5888 0.5739
2 0.0000 0.1677 0.2413 0.2806 0.3031 0.3164 0.3244 0.3291
3 0.0000 0.0875 0.1401 0.1743 0.1976 0.2141
4 0.0000 0.0561 0.0947 0.1224
5 0.0000 0.0399
n
11 12 13 14 15 16 17 18 19 20
J
1 0.5601 0.5475 0.5359 0.5251 0.5150 0.5056 0.4963 0.4886 0.4808 0.4734
2 0.3315 0.3325 0.3325 0.3318 0.3306 0.3290 0.3273 0.3253 0.3232 0.3211
3 0.2260 0.2347 0.2412 0.2460 0.2495 0.2521 0.2540 0.2553 0.2561 0.2565
4 0.1429 0.1586 0.1707 0.1802 0.1878 0.1939 0.1988 0.2027 0.2059 0.2085
5 0.0695 0.0922 0.1099 0.1240 0.1353 0.1447 0.1524 0.1587 0.1641 0.1686
6 0.0000 0.0303 0.0539 0.0727 0.0880 0.1005 0.1109 0.1197 0.1271 0.1334
7 0.0000 0.0240 0.0433 0.0593 0.0725 0.0837 0.0932 0.1013
8 0.0000 0.0196 0.0359 0.0496 0.0612 0.0711
9 0.0000 0.0163 0.0303 0.0422
10 0.0000 0.0140
n
21 22 23 24 25 26 27 28 29 30
J
1 0.4643 0.4590 0.4542 0.4493 0.4450 0.4407 0.4366 0.4328 0.4291 0.4254
2 0.3185 0.3156 0.3126 0.3098 0.3069 0.3043 0.3018 0.2992 0.2968 0.2944
3 0.2578 0.2571 0.2563 0.2554 0.2543 0.2533 0.2522 0.2510 0.2499 0.2487
4 0.2119 0.2131 0.2139 0.2145 0.2148 0.2151 0.2152 0.2151 0.2150 0.2148
5 0.1736 0.1764 0.1787 0.1807 0.1822 0.1836 0.1848 0.1857 0.1064 0.1870
6 0.1399 0.1443 0.1480 0.1512 0.1539 0.1563 0.1584 0.1601 0.1616 0.1630
7 0.1092 0.1150 0.1201 0.1245 0.1283 0.1316 0.1346 0.1372 0.1395 0.1415
8 0.0804 0.0878 0.0941 0.0997 0.1046 0.1089 0.1128 0.1162 0.1192 0.1219
9 0.0530 0.0618 0.0696 0.0764 0.0823 0.0876 0.0923 0.0965 0.1002 0.1036
10 0.0263 0.0368 0.0459 0.0539 0.0610 0.0672 0.0728 0.0778 0.0822 0.0862
11 0.0000 0.0122 0.0228 0.0321 0.0403 0.0476 0.0540 0.0598 0.0650 0.0697
12 0.0000 0.0107 0.0200 0.0284 0.0358 0.0424 0.0483 0.0537
13 0.0000 0.0094 0.0178 0.0253 0.0320 0.0381
14 0.0000 0.0084 0.0159 0.0227
15 0.0000 0.0076
Ass. Cdrick Tombola M. 93
N W 95% W 99%
10 0.842 0.781
11 0.850 0.792
12 0.859 0.805
13 0.856 0.814
14 0.874 0.825
15 0.881 0.835
16 0.837 0.844
17 0.892 0.851
18 0.897 0.858
19 0.901 0.863
20 0.905 0.868
21 0.908 0.873
22 0.911 0.878
23 0.914 0.881
24 0.916 0.884
25 0.918 0.888
26 0.920 0.891
27 0.923 0.894
28 0.924 0.896
29 0.926 0.898
30 0.927 0.900
31 0.929 0.902
32 0.930 0.904
33 0.931 0.906
34 0.933 0.908
35 0.934 0.910
36 0.935 0.912
37 0.936 0.914
38 0.938 0.916
39 0.939 0.917
40 0.940 0.919
41 0.941 0.920
42 0.942 0.922
43 0.943 0.923
44 0.944 0.924
45 0.945 0.926
46 0.945 0.927
47 0.946 0.928
48 0.947 0.929
49 0.947 0.929
50 0.947 0.930
Ass. Cdrick Tombola M. 94
Pr
0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.05 0.02 0.01 0.001
ddl
1 0.158 0.325 0.510 0.727 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657 636.619
2 0.142 0.289 0.445 0.617 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 31.598
3 0.137 0.277 0.424 0.584 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 12.929
4 0.134 0.271 0.414 0.569 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 8.610
5 0.132 0.267 0.408 0.559 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 6.869
6 0.131 0.265 0.404 0.553 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.959
7 0.130 0.263 0.402 0.549 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 5.408
8 0.130 0.262 0.399 0.546 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 5.041
9 0.129 0.261 0.398 0.543 0.703 0.883 1.100 1.383 1.833 2.263 2.821 3.250 4.781
10 0.129 0.260 0.397 0.542 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.587
11 0.129 0.260 0.396 0.540 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.437
12 0.128 0.259 0.395 0.539 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 4.318
13 0.128 0.259 0.394 0.538 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 4.221
14 0.128 0.258 0.393 0 537 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 4.140
15 0.128 0.258 0.393 0.536 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 4.073
16 0.128 0.258 0.392 0.535 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 4.015
17 0.128 0.257 0.392 0.534 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.965
18 0.127 0.257 0.392 0.534 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.922
19 0.127 0.257 0.391 0.533 0 688 0.961 1.066 1.328 1.729 2.093 2.539 2.861 3.883
20 0.127 0.257 0.391 0.533 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.850
21 0.127 0.257 0.391 0.532 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.819
22 0.127 0.256 0.390 0.532 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.792
23 0.127 0.256 0.390 0.532 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.767
24 0.127 0.256 0.390 0.531 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.745
25 0.127 0.256 0.390 0.531 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.725
26 0.127 0.256 0.390 0.531 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.707
27 0.137 0.256 0.389 0.531 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.690
28 0.127 0.256 0.389 0.530 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.674
29 0.127 0.256 0.389 0 530 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.649
30 0.127 0.256 0.389 0.530 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.656
40 0.126 0.255 0.388 0.529 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 3.551
80 0.126 0.254 0.387 0.527 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660 3.460
120 0.126 0.254 0.386 0.526 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617 3.373
0.126 0.253 0.385 0.524 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576 3.291
Ass. Cdrick Tombola M. 95
S12 est la plus grande des deux variances estimes. avec n degrs de libert au numrateur.
Ass. Cdrick Tombola M. 96
Table de Durbin-Watson
La table donne les limites infrieures et suprieures des seuils de signification du test de Durbin et Watson pour = 5 %.
0 2 4
Table de Durbin-Watson
La table donne les limites infrieures et suprieures des seuils de signification du test de Durbin et Watson pour = 1 %.
0 2 4
Les machines un jour pourront rsoudre tous les problmes, mais jamais aucune d'entre elles ne pourra en poser un !
Albert Einstein
Lancement de lcran daccueil Eviews
Une fois install, le logiciel Eviews est lanc comme tout autre en double-cliquant sur licne Eviews au
bureau.
Barre de commande
Le travail sur Eviews commence par la cration dune feuille de travail o lon spcifie essentiellement la
frquence des donnes [annuelles, trimestrielles, mensuelles, etc.], leur nature [rgulires, irrgulire,
panel] et la taille de lchantillon. Cette opration peut se faire de deux manires :
Supposons que lon ait une srie temporelle annuelle, qui va de 2000 2010. Il suffira de choisir :
Enfin, on peut nommer cette workfile [ECOMATH par exemple], et cette premire page [EXERCICE par
exemple] :
Considrons, pour la priode 2000-2010, les statistiques sur le taux de croissance du PIB [note TCPIB]
et le taux de chmage [note CHOM], produites par la BCC.
Pour crer les deux sries, dans la barre de commande, on saisit la commande data TCPIB CHOM puis
Enter.
Une fois les deux sries cres, on peut soit :
1. Enregistrer les donnes saisies sur Excel sous Excel 97-2003, en ayant en mmoire juste les noms
donns aux sries, puis fermer le fichier ;
2. Dans Eviews, crer une feuille de travail avec la mme taille dchantillon que les donnes
enregistres sur Excel. Puis crer les variables avec les mmes noms que sur Excel.
3. Dans la barre de Menu Eviews, aller dans File Import Read Text-Lotus-Excel Une bote
de dialogue apparat o il faut reprendre le nom du fichier Excel. Rechercher le fichier o il a t
enregistr, puis le slectionner. Dans Types de fichiers, choisir Excel (*.xls), puis valider.
4. Une nouvelle bote de dialogue apparat. L, dans Names of series or number if named in file, taper
les noms des sries dans le mme ordre que sur Excel, puis OK.
Ass. Cdrick Tombola M. 100
Illustration de ltape 3
Illustration de ltape 4
En un clic, Eviews peut galement fournir les paramtres essentiels de position, de dispersion et de
forme dune srie. Ce qui permet par exemple, pour grand chantillon, de trancher sur la conformit
dune distribution la loi normale partir de la statistique de Jarque Bera.
Pour avoir ces informations, aller dans la barre de commande Eviews et saisir la commande stats TCPIB
CHOM puis Enter [la commande est stats suivi du (des) nom(s) de(s) la variable(s)].
On lit par exemple, pour chaque srie, sa Moyenne [Mean], sa Mdiane [Median], son Maximum, son
Minimum, son Ecart-Type [Std. Dev.], son coefficient dasymtrie [Skewness], son coefficient
daplatissement [Kurtosis], sa statistique Jarque Bera, etc
De mme, il y a lieu davoir les mmes rsultats, dans la barre de commande, saisir la commande show
TCPIB CHOM puis valider, dans la fentre qui souvre, aller dans View Descriptive Stats
Common Sample.
Graphiques
Dans la barre de commande, saisir les commandes :
Pour avoir dautres types de graphiques proposs par Eviews, dans la fentre des donnes, aller dans
View Graph. Puis valider le graphique de son choix.
Aprs avoir affich les deux variables que lon veut mettre en cause, il suffit daller dans View
Covariance Analysis. En validant, Eviews renvoie une bote, o on a la possibilit de choisir soit un
coefficient paramtrique (Bravais-Pearson) ou non paramtrique (Spearman) :
Ass. Cdrick Tombola M. 102
Eviews renvoie le coefficient, son Student et la probabilit critique, ce qui facilite beaucoup
linterprtation des rsultats, avec comme critre : rejeter H0 si probabilit critique < au seuil de
signification.
Dans cet exemple, on observe une relation inverse significative entre le taux de taux de chmage et la
croissance du PIB en RDC, pour la priode 2000-2010, la loi dOkun se vrifie-t-elle ?
Pour estimer par OLS, il suffit daller dans Quick Estimate Equation, puis entrer les variables, spares
par des espaces, dans lordre apparaissant dans le modle estimer, en notant le terme constant par la
lettre C, choisir ensuite la mthode destimation pour notre cas LS ou Least squares et valider.
Le mme rsultat peut tre aussi obtenu en saisissant, sur la barre de commande Eviews, la commande
LS suivi de nom de la variable endogne C noms des variables exognes spares deux deux par un
espace
Pour estimer un modle sans terme constant, il suffit de retirer C dans la commande passer.
Tests
Aprs avoir lanc la commande destimation par OLS, tous les tests portant sur les rsidus figurent dans
longlet Residuals Tests.
Ass. Cdrick Tombola M. 103
Avertissement
Ce papier est crit dans lobjectif de mettre en garde contre le risque des conclusions errones lors des
tests Augmented Dickey Fuller (ADF) et Phillips-Perron (PP). Il est crit au moment o, parmi la plupart
de nos tudiants du niveau de la licence, la mauvaise procdure et la mauvaise interprtation de ces
tests ont gagn le terrain.
Lobjet de notre papier repose sur le fait que nombre dconomtres en herbe, en menant ces tests,
oublient que ceux-ci considrent que la composante dterministe suit une tendance linaire et quun
processus DS (stationnaire en dme diffrence) nexclut pas la possibilit dun trend dun autre type.
De plus, ironie du sort, on ne pense dtecter la nature du trend que si les tests concluent une non
stationnarit dterministe et quil convient dappliquer lcart la tendance. Ce qui, curieusement,
revient accepter la possibilit davoir un trend de type non linaire dont on ne sest pas donn la peine
de dtecter au dbut du test.
Que faire ? Ce papier se propose de rpondre, prudemment, cette question, dabord en privilgiant les
aspects thoriques, ensuite en considrant une tude des cas qui permet de mettre en exergue la
problmatique souleve ci-dessus.
A titre de rappel, un processus est stationnaire, au sens faible, si ses moments dordre 1 et dordre 2
sont indpendants du temps. Dans le cas contraire, il est dit non stationnaire. Pour ce dernier type de
chroniques, lune au moins de trois conditions ci-aprs est viole :
(i) E(Yt) =
(ii) E( )=
(iii) Cov (Yt, Yt+k) = k ou -k
Les travaux pionniers de Nelson et Plosser (1982), qui ont soulign la prsence dune racine unitaire dans
les principales sries macroconomiques, distinguent en effet deux types de processus dans la famille
des processus non stationnaires :
Ass. Cdrick Tombola M. 104
Les processus TS [Trend Stationary] qui sexpriment comme une fonction du temps et dun bruit
blanc :
Yt = f(t) + Zt o Zt est un bruit blanc [white noise]
Ce type de processus est rendu stationnaire en lui retirant sa tendance dterministe [Zt = Yt - f(t)].
Les processus DS [Differency Stationary] qui sont caractriss par la prsence dau moins une
racine unitaire. De tels processus sont rendus stationnaires aprs d diffrences, (1 B)dYt.
Dun point de vue conomique, un processus TS implique que les chocs alatoires frappant lconomie
nauront quun effet transitoire sur lvolution de la chronique qui aura tendance ensuite revenir sur son
trend de long terme stable. En revanche, les chocs frappant lconomie auront un effet persistant et
durable sur lvolution de la chronique si le processus est DS.
Le but et lavantage des tests de non stationnarit consistent en la confirmation ou non de la non
stationnarit46, en la dtermination du type de processus et en la prcision de la bonne mthode de
stationnarisation.
On fait gnralement deux catgorisations de ces tests, synthtises dans le tableau ci-aprs.
Tests dH0 de prsence de racine unitaire Tests dH0 dabsence de racine unitaire
- Test Dickey Fuller [DF] - Test de Kwiatkowski Phillips Schmidt Shin
- Test Augmented Dickey Fuller [ADF] [KPSS]
- Test de Phillips Perron [PP]
- Test de Ng Perron
- Etc.
Tests bass sur une tendance linaire Tests bass sur une tendance non linaire
- Test DF - Tendance polynomiale : Test de Ouliaris, Park et
- Test ADF Phillips
- Test PP - Tendance linaire par morceaux et chocs : test
- Test de Ng Perron de Perron
- Test KPSS
- Etc.
La critique que nous formulons dans ce papier concerne essentiellement linterprtation des rsultats de
tests ADF et PP.
46
En effet, un examen graphique est parfois assez loquent pour se prononcer sur la non stationnarit dune
chronique.
Ass. Cdrick Tombola M. 105
Dickey et Fuller (1976) sont les premiers avoir fourni un ensemble doutils statistiques formels pour
dtecter la non stationnarit dans un processus autorgressif du premier ordre. Dans leurs premiers
dveloppements, ils ont assum que le processus t tait un bruit blanc, or rien, priori, ne conduit la
satisfaction dune telle hypothse. La prise en compte de cette faiblesse a conduit les deux auteurs
proposer, en 1981, un test augment (ADF).
Le test de Phillips - Perron47, en revanche, propose une correction non paramtrique des tests de Dickey
Fuller afin de tenir compte des erreurs htroscdastiques.
La procdure des tests ADF et PP est base sur lestimation, par les MCO, de trois modles
autorgressifs, en intgrant tous les retards significatifs en diffrences premires, suivants :
[1] Yt = Yt-1 + + t
[2] Yt = c + Yt-1 + + t
[3] Yt = c + bt + Yt-1 + + t
Le modle [3] est le modle gnral o la composante dterministe suit un trend linaire (t). Rappelons
que les tests ADF et PP sont des tests dhypothse nulle de prsence de racine unitaire et portent sur le
paramtre :
47
Propos par Phillips (1987), Phillips et Perron (1988).
Ass. Cdrick Tombola M. 106
Dans lestimation du modle [3], on dit quune chronique est caractrise par une non stationnarit de
nature mixte, si aprs tests de significativit des paramtres b et , on conclut quil y a existence, la
fois, dun trend linaire et dune racine unitaire.
Pour ce dernier cas, on peut aisment appliquer le filtre aux diffrences pour stationnariser la srie. En
effet, Dickey, Bell et Miller (1986) ont montr que si lobjectif poursuivi est la prvision, appliquer le filtre
aux diffrences en prsence dune non stationnarit de nature mixte, est plus rconfortant qualarmant,
car dans ce cas, estiment ces auteurs, la diffrenciation limine le trend linaire.
En conclusion, lorsquon mne les tests ADF et PP, conclure sur un processus DS implique simplement
quon a rcus la prsence dune tendance linaire dans la srie. Il serait donc erron de conclure,
brutalement, labsence dun trend, oubliant que les tests mens sont eux-mmes bass sur lhypothse
dune tendance linaire.
37
121
37
49
73
97
181
49
73
121
97
181
61
109
133
169
193
61
109
133
169
193
25
85
25
85
145
145
157
157
13
13
89
23
61
85
12
34
144
199
1
45
78
25
37
155
67
111
73
145
166
177
13
121
100
122
133
188
49
97
157
181
109
133
169
193
Ass. Cdrick Tombola M. 107
III. Etude des cas de lindice des prix [rubrique alimentation] en RDC48
900
800
700
600
500
400
300
200
100
0
00 01 02 03 04 05 06 07 08 09
IP
La srie IP prsente une tendance haussire. Elle semble non stationnaire affecte dune tendance. Mais
de quel type ? Visiblement, dun trend non linaire.
Ce corrlogramme fait tat dune dcroissance lente de toutes les autocorrlations de IP. On constate
aussi que la premire autocorrlation partielle est significativement diffrente de zro. Ceci est indicatif
dune srie non stationnaire.
48
Les donnes sont reprises en annexe 1 et proviennent de la section conomique de lAmbassade Amricaine. Elles
sont mensuelles et couvrent la priode allant de 2000 2009.
Ass. Cdrick Tombola M. 108
Les rsultats de ces tests sont repris intgralement en annexe 2 de ce papier. Le nombre de retard,
retenu pour les deux tests, a t trouv en appliquant la stratgie destimation squentielle fonde sur
la significativit des coefficients des retards en diffrences premires, propose par Perron (1993).
Alors que lanalyse du plot a indiqu que la srie comportait un trend, les tests ADF et PP, synthtiss ci-
aprs, disent quil y a absence de trend. Cest donc ici quil faut viter toute conclusion htive. Il ny a
pas absence dun trend dans la srie IP, il y a plutt absence dun trend linaire.
La srie tant caractrise par une non stationnarit de nature stochastique (DS), il convient
dappliquer le filtre aux diffrences pour la rendre stationnaire.
En diffrences premires
Conclusion
Statistique ADF Statistique PP Valeur critique [ 5%]
IP 7.150804 7.167671 -1.943563 stationnaire
P-value 0.0000 0.0000
80
60
40
20
-20
-40
-60
00 01 02 03 04 05 06 07 08 09
DIP