Sie sind auf Seite 1von 109

E CONOMETRIE 1 Ass. Cdrick Tombola M.

Rappels et recueil dexercices [rsolus]

Sous la supervision du Professeur BOSONGA BOFEKI


Licence 1 Economie

Cdrick Tombola M. /Assistant


Copyright cdktombola-Larq - mars 2012
UPC
Ass. Cdrick Tombola M. 1

A travers cette contre chaotique, des hommes audacieux et tenaces ont lanc le premier chemin de fer de
lAfrique centrale.

Henry Merton Stanley

N'essayez pas de devenir un homme qui a du succs. Essayez de devenir un homme qui a de la valeur.

Albert Einstein
Ass. Cdrick Tombola M. 2

PLAN SOMMAIRE

AVANT PROPOS

INTRODUCTION

THEORIE DE LA CORRELATION

MODELE DE REGRESSION LINEAIRE SIMPLE

MODELE DE REGRESSION LINEAIRE MULTIPLE

MODELES DE REGRESSION NON LINEAIRES

VIOLATION DES HYPOTHESES DE BASE

ANNEXES
Ass. Cdrick Tombola M. 3

AVANT-PROPOS
Je ne peux nier, quand jai commenc la rdaction de ce recueil, lambition de confectionner un vade-mecum
dintroduction lEconomtrie lintention des tudiants de premire licence FAS. Mais le nombre de projets
sur la file dattente et les nombreux dfis entre lesquels il me faut partager mon temps dune part, et le besoin
rel et urgent chez les tudiants de disposer dun recueil qui accompagne le cours magistral assur par le
professeur dautre part, mont oblig ne produire quune bauche.

Le projet de proposer ce recueil est n de la dception et de linsatisfaction que jprouvais, encore tudiant,
lors des sances TP dEconomtrie 1. Alors quailleurs ils prennent de la vitesse, nous, me semblait-il, on
tombait, paradoxalement, dans la suffisance.

Ce recueil a donc t rdig de faon permettre aux tudiants de porter un autre regard sur les notions quils
apprennent pendant le cours thorique et de voir plus loin que moi. Le choix des applications a galement t
fait dans cette optique. On remarquera que, par souci pdagogique et dexcellence, je me suis plus attard sur
les aspects et les dmonstrations les moins populaires, bref, sur les non-dits.

Les tudiants passionns et qui veulent aller loin en Economtrie, trouveront aussi, en annexe, une initiation au
logiciel conomtrique EVIEWS.

Enfin, en le mettant la disposition du public, je formule le vu que ce recueil suscite, parmi mes tudiants et
mes collgues de la FAS, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi viter que
nos efforts pour lavancement de cette facult ne sessoufflent et natteignent, prmaturment, un tat
stationnaire , ce qui serait dommage .

Remerciement

Je remercie le professeur Jean-Pierre Bosonga pour la confiance quil a eue en moi vrai dire, sans vraiment
me connatre et pour mavoir orient dans la rdaction de ce recueil.

Mes sincres remerciements vont mon an et mon ami lassistant Jean-Paul Tsasa V. Kimbambu, pour nos
nombreuses discussions, parfois laisses en queue de poisson, et pour lidal quil ma transmis.

Je remercie aussi mes tudiants de premire licence FAS, de la promotion 2011-2012, pour avoir beaucoup
exig et attendu de moi ; ils mont contraint plus de srieux dans le travail, et je leur en suis reconnaissant.

Bien entendu, ce support nengage que son auteur. Toute remarque pertinente pouvant en amliorer le
contenu sera la bienvenue.

Ddicace

Je ddie ce recueil lavenir du LAREQ et lmergence dune nouvelle classe denseignants lUPC.

Cdrick Tombola M.
cedrictombola@lareq.com
Ass. Cdrick Tombola M. 4

.I.
INTRODUCTION
I.1. Quelques points de lhistoire

. Avant 1930 : Le Moyen-ge conomtrique

Les premiers dveloppements de lEconomtrie1 peuvent remonter, selon Grard Grellet, au 17me sicle,
lpoque de lArithmtique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs
comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modlisation partir des
donnes empiriques.

Selon dautres auteurs, on doit la gense de lEconomtrie aux travaux de tentative dunification de
lEconomie et la Statistique dAuguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en
Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentrent dlaborer des lois
conomiques { linstar des lois de la physique newtonienne.

Mais il convient simplement de retenir que nombre de mthodes et techniques auxquelles recourt
lEconomtrie, ont t dveloppes bien avant son institutionnalisation comme discipline des sciences
conomiques. A titre dexemple :

- En 1805, dans son ouvrage intitul Nouvelles mthodes pour la dtermination des orbites des comtes ,
puis en 1806 dans la deuxime dition du mme ouvrage, le mathmaticien franais Adrien-Marie Legendre
propose, par une mthode algbrique, le premier dveloppement rigoureux de la mthode des moindres
carrs ordinaires.

- En 1809, Carl Friedrich Gauss, dans son trait Theoria motus corporum coelestium , propose, par une
approche probabiliste, un autre dveloppement rigoureux de la mthode des moindres carrs ordinaires
dont il se rclame la paternit. Dans une lettre adresse Pierre-Simon de Laplace2, il explique quil avait
fait usage de cette mthode dj en 1795, et de manire un peu plus frquente, dans ces calculs
astronomiques sur les nouvelles plantes, depuis 1802.

Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov dmontrent que lestimateur des moindres carrs
ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. Cest--dire quil est le meilleur
estimateur linaire non biais, variance minimale.

- En 1886, dans son tude sur la transmission des caractres hrditaires, Francis Galton, de qui le terme
rgression tire son origine, fournit une premire rgression linaire. Plus tard, son disciple Karl Pearson, en
1896, dans son ouvrage La Grammaire de la Science , dveloppe la notion de corrlation linaire et
propose un estimateur pour cette grandeur.

La corrlation a t introduite en Economie en 1902, avec louvrage de Arthur Lyon Bowley Elements of
Statistic .

- En 1909, Georges Udny Yule invente les premires applications conomiques de la mthode de la
corrlation et introduit la mme occasion la notion de corrlation partielle. Et en 1926, il dnonce les

1
On attribue souvent tort au norvgien R. Frisch, la cration du mot conomtrie qui revient plutt Pavel Compria.
2
Il inclut lui-mme un expos de la mthode des moindres carrs ordinaires dans son trait de 1820 : Thorie
analytique des probabilits . En 1808, le mathmaticien amricain Robert Adrain a aussi publi une formulation de la
mthode des moindres carrs.
Ass. Cdrick Tombola M. 5

spurrious correlations , ce quil convient de traduire par corrlations fallacieuses. Puis montre que la
corrlation de deux sries chronologiques peut tre totalement artificielle.

. Depuis 1930 : La naissance de lEconomtrie moderne

Linstitutionnalisation de lEconomtrie en tant que discipline des sciences conomiques sest ralise en
1930 exactement le 29 dcembre 1930 { loccasion de la cration { Cleveland, aux Etats-Unis, par 16
conomistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cits, de lEconometric Society [la Socit
dEconomtrie] avec comme devise : pour lavancement de la thorie conomique dans ses relations avec la
statistique et les mathmatiques.

Depuis la cration de cette socit, et de la Cowles commission spcialise dans les mthodes
destimation des modles { quations simultanes , fonde le 9 septembre 1932, deux ans aprs
lEconometric Society, par Alfred Cowles, lEconomtrie a connu un grand essor.

Cest ainsi quen 1933, R. Frisch cre la revue Econometrica pour la promotion des tudes qui ont pour but
une unification des approches quantitatives thoriques et empiriques des problmes conomiques.

On note aussi que ds le dpart, pour les promoteurs de lEconometric Society, il tait clair que deux
dviations devraient tre vites :

La construction d'difices mathmatiques purement logiques et dconnects du rel conomique.


La mise en uvre de pures investigations statistiques qui, en dpit de leur caractre pouss et de
leur apparence raliste, risque de manquer de consistance ou de pertinence, sans le soutien d'une
pense conomique profonde et rigoureuse.

A ce sujet, R. Frisch crivit ainsi dans le premier numro de la revue Econometrica :

"L'exprience a montr que chacun des trois points de vue suivants, celui de la statistique, celui de la thorie
conomique et celui des mathmatiques est une condition ncessaire, mais par elle mme non suffisante, d'une
comprhension effective des relations quantitatives de la vie conomique moderne : c'est leur unification qui
est efficace. C'est cette unification qui constitue l'conomtrie .

Il faut noter galement que le krach financier des annes 30, la domination du keynsianisme jusqu{ la fin
des annes 60, le dveloppement de linfrence statistique la fin du 19me sicle et le consensus entre les
conomistes autour du cadre IS LM avant 1970, sont aussi parmi les facteurs explicatifs de lessor de
lEconomtrie depuis 1930, surtout au sein de la Cowles commission. La rvolution Keynsienne [1936], avec
la logique de circuit, a dvelopp un autre type de raisonnement macroconomique en termes dagrgats
objectivement mesurables par la comptabilit nationale et de comportements mesurs par les propensions.

Ainsi, entre 1944 et 1960, la plus grande partie de la recherche en Economtrie porta sur les conditions
destimation des modles macroconomtriques { quations simultanes.

- En 1935, Jan Tinbergen estime un premier modle conomtrique quations simultanes, du type
keynsien, comportant 31 quations de comportement et 17 identits. Il devient ainsi, dun point de vue
empirique, le pre des modles conomtriques.

- En 1944, Trygve Haavelmo pose les conditions gnrales de solvabilit dun systme dquations linaires.

3
R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart,
Snyder , Wedervang, Wiener, Wilson.
4
Premier laurat du prix de la Banque de Sude communment appel prix Nobel en mmoire de son fondateur
Alfred Nobel dconomie en 1969 avec Jan Tinbergen.
Ass. Cdrick Tombola M. 6

- En 1950, Lawrence Klein ouvre la vogue de la modlisation macroconomtrique. Il estime pour


lconomie amricaine (1921-1941), un modle macroconomtrique de type keynsien 16 quations. Ce
modle est amlior plus tard, en 1955, par L. Klein et Arthur Goldberger, et sera le premier modle utilis
des fins prvisionnelles. Klein introduit galement la notion de multicolinarit. Il est parfois considr
comme le pre des modles macroconomtriques.

Plusieurs autres travaux seront produits au sein de la Cowles commission. En 1950, Durbin et Watson
laborent leur clbre test dautocorrlation des erreurs. En 1954, Henri Theil et Robert Lon Basmann
introduisent la mthode des doubles moindres carrs. Toujours dans les annes 50, il y eut un
dveloppement des modles retards distribus par Koyck, Almon, Cagan et Friedman.

Lon peut galement citer les travaux suivants dvelopps entre 1950 et 1970 : la mthode des moindres
carrs gnraliss et lintroduction du calcul matriciel en Economtrie par Aitken; les tests et corrections de
lhtroscedasticit [Glejser, White, ].

Lirruption de linformatique au dbut des annes 60 va donner un nouveau coup de pousse { lexpansion
de lEconomtrie.

En 1961, James Tobin dveloppe les modles microconomtriques. Il est, ce titre, considr comme le
pre des modles microconomiques. La mme anne, Yair Mundlak conoit les mthodes bases sur les
donnes de panel.

. Les annes 1970 : La rvolution des anticipations rationnelles

Les annes 1970 ont t marques par cinq faits majeurs qui ont conduit { lclatement du paradigme de la
Cowles commission. Cest--dire une remise en cause radicale des modles macroconomiques structurels
dvelopps au sein de cette institution. Ces faits sont :

Le premier choc ptrolier [en 1973] ou le quadruplement du prix des produits ptroliers, ce qui
marque, historiquement, la fin des Trente Glorieuses5 ;
La stagflation et la remise en cause de la courbe de Phillips;
La chute du keynsianisme et le rejet des modles conomtriques traditionnels devenus caducs
bass sur le paradigme IS LM ;
Le deuxime choc ptrolier [en 1979] ou le doublement du prix des produits ptroliers ;
La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroconomie
Microfonde, le retour aux modles walrassiens et le dveloppement des modles dquilibre
gnral calculable [MEGC].

Les critiques les plus acerbes et svres sont venues essentiellement, ds 1972, de Robert Emerson Lucas 6.
Cest ce que la littrature qualifie de la fameuse critique de Lucas. Il discrdite les modles
macroconomtriques traditionnels, en fustigeant leur incapacit expliquer et prvoir les
bouleversements provoqus par le 1r et le 2me chocs ptroliers. Il leur reproche de manquer de fondations
microconomiques suffisamment solides. De plus, Lucas interdit les prvisions myopes et adaptatives, il
pose la problmatique des anticipations rationnelles, ce qui veut dire que les agents conomiques sont
intelligents et capables de former leurs anticipations sur une base endogne et ainsi anticiper toute mesure
de politique conomique. De fait, toute mesure de politique conomique, ajoute-t-il, devient inefficace du
fait de la prise en compte des anticipations rationnelles, les agents pouvant lanticiper et la contrer.

5
Trente Glorieuses : Titre dun livre de Jean Fourasti, publi en 1977, qui dsigne la priode de forte croissance
conomique, de plein-emploi et daugmentation des salaires rels et des revenus, quont connu les pays dvelopps, de
laprs-guerre au premier choc ptrolier.
6
Laurat du prix Nobel dEconomie 1995.
Ass. Cdrick Tombola M. 7

Cette critique a pouss les conomtres penser plus profondment sur les fondements de leur discipline
et a donn lieu des critiques plus svres. LEconomtrie va connaitre un changement radical, surtout en
termes de relations quelle entretient avec la thorie conomique.

- En 1970, George Box et Gwilym Jenkins dveloppent le modle ARMA [AutoRegressive with Moving
Average] qui est un mlange des modles AR et MA dvelopps en 1927 respectivement par Georges Yule
et Eugen Slustsky , comme une rponse aux dfaillances constates dans la capacit de prvision des
modles labors la suite des travaux de Tinbergen.

- Dj en 1974, Clive William John Granger et Paul Newbold mettent en garde contre les spurrious
regressions ou rgression fallacieuse, pour le cas dajustement par les MCO dun modle avec sries non
stationnaires.

- En 1980, dans un article qui a connu un succs destime lors de sa parution, intitul Macroeconomics and
Reality, Christopher Sims7, en gnralisant le modle ARMA en modle VAR [Vector Auto Regressive] afin
de tenir compte, au mme moment, de plusieurs variables, reproche aux conomtres davoir mis la
charrue devant les bufs en remettant en cause la distinction priori entre variables endognes et
variables exognes, et considre toute variable comme potentiellement endogne 8. Cest ce que la
littrature appellera lEconomtrie sans thorie. La critique de Sims va permettre { lEconomtrie de devenir
beaucoup plus autonome et de smanciper de la tutelle de la thorie conomique.

- En 1987, Clive Granger et Robert Engle dveloppent la mthode de cointgration dans le traitement des
sries non stationnaires. Une anne aprs, en 1988, Johansen propose une version amliore du test de
cointgration Engle Granger.

- En 1982, Robert Engle dveloppe le modle ARCH afin de prendre en compte la non linarit et la forte
volatilit des variables financires, ce qui ntait pas possible avec les modles ARMA et VAR.

Plusieurs mthodes encore ont t dveloppes depuis la fameuse critique de Lucas, et plus loin encore
dans lhistoire, depuis la cration de la socit dEconomtrie. LEconomtrie a donc connu, ces deux
dernires dcennies, un essor vertigineux.

. Applications et place de lconomtrie

La dmarche en sciences conomiques est hypothtico-dductive. Cest--dire que les thories conomiques
ne sont valables que dans le domaine dfini par leurs hypothses. Sil est vrai que lusage des
mathmatiques est la garantie de la rigueur et de la cohrence interne des thories conomiques
modernes, la question reste cependant pose quant la pertinence de leurs hypothses. Ceci motive le
recours { des outils plus puissants notamment lEconomtrie, qui est un outil de validation des thories.

De fait donc, lconomiste ne doit-il pas tre aussi conomtre ? John Maynard Keynes, dans les annes
1930, crivait : Lconomiste doit tre mathmaticien, historien, philosophe, homme dEtat, . Sil faut
transfrer la pense de Keynes aujourdhui, naurait-il pas lui-mme ajout lconomiste doit tre
conomtre ?

Il est clair quil nest plus possible { ce jour, de faire un bras de fer avec lirruption et la domination de
lEconomtrie dans le champ de la science conomique, au risque, purement et simplement, de se
soustraire de la catgorie dconomistes modernes.

7
Laurat, avec Thomas Sargent, du prix Nobel dEconomie 2011.
8
Cette dmarche de Sims sinspire de lun des grands principes de la thorie de lquilibre gnral, selon lequel toutes
les variables conomiques sont dtermines simultanment.
Ass. Cdrick Tombola M. 8

Pour renchrir, dans une tude publie en 2006, les conomistes Kim, Morse et Zingales ont montr que le
nombre darticles empiriques cits en conomie est pass de 11 % 60 % entre 1970 et 2000. Ce qui confirme
limportance de plus en plus croissante de lEconomtrie dans lunivers des conomistes.

Par ailleurs, lEconomtrie s'applique tous les domaines auxquels s'applique la science conomique.
L'ouvrage de Levitt et Dubner, Freakonomics, tmoigne de la diversit des applications possibles de
l'conomtrie. Voici quelques exemples significatifs:

En conomie de guerre, Collier Hoeffler [1999] ont mis en vidence, par le recours un modle
conomtrique, les dterminants politiques permettant de mettre fin aux guerres civiles et de
relancer lconomie en priode post-conflit.
En conomie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilis un modle de rgression
linaire pour tester empiriquement la pertinence du modle de Solow. Ils montrent que le modle
de Solow augment du capital humain est cohrent avec les donnes observes. Barro et Sala-i-
Martin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux mthodes conomtriques afin
de rendre compte de leffet des dpenses publiques sur la croissance.
En conomie de la criminalit, Levitt, en 1997, a utilis un modle linaire variables instrumentales
pour estimer l'effet du nombre de policiers sur la criminalit.
En 2002, Acemoglu, Johnson et Robinson ont utilis une rgression linaire pour estimer l'effet des
institutions sur le dveloppement actuel des pays.

I.2. Quelques rappels statistiques

La force de la statistique est quon nest pas oblig dtudier toute la population. Il est possible de tirer des
conclusions sur une population, { partir dun chantillon suffisamment reprsentatif.

Et comme les donnes en elles-mmes ne sont pas intelligibles, le statisticien recherche la synthse. Sa
premire dmarche pour synthtiser les donnes consiste { calculer les paramtres de description, cest la
statistique descriptive. Plus tard, la dmarche du statisticien consistera contraster des donnes
empiriques aux lois thoriques, dont on connait parfaitement les comportements, en vue de faire de la
prdiction, cest la statistique infrentielle [ou mathmatique].

Encadr 1. Conditions de Yule

Le statisticien britannique Georges U. Yule a nonc un certain nombre de proprits souhaites pour les
indicateurs des sries statistiques ; ceux-ci doivent tre dune part, des rsums maniables et dautre
part, les plus exhaustifs possibles relativement { linformation contenue dans les donnes.
Dans son schma, une caractristique statistique doit tre une valeur-type :

1. dfinie de faon objective et donc indpendante de lobservateur,


2. dpendante de toutes les observations,
3. de signification concrte pour tre comprise par les non-spcialistes,
4. simple calculer,
5. peu sensible aux fluctuations dchantillonnages,
6. se prtant aisment aux oprateurs mathmatiques classiques.

En ralit, on ne dispose pas de caractristiques rpondant simultanment ces six conditions. Le choix
dun indicateur sera lobjet dun compromis guid par la spcificit de ltude en cours.

Source : Adapt de B. Goldfard et C. Pardoux, 1995.


Ass. Cdrick Tombola M. 9

Indicateurs de position [ou de tendance centrale]


Soit une variable X observe sur un chantillon de n individus. xt est la valeur prise par X pour lobservation t.

1. La moyenne arithmtique :

La moyenne arithmtique9 est la mesure de rpartition quitable. Elle conserve la somme totale et satisfait toutes les
conditions de Yule, sauf la 5me, car elle est une mesure sensible aux valeurs extrmes.
Lorsque les valeurs sont alatoires, la moyenne arithmtique est appele Esprance mathmatique .

2. La mdiane [Me] : est la mesure qui divise la srie en deux groupes de tailles gales. Aprs avoir class les
donnes en ordre croissant, elle correspond pour n impair [pair], au point milieu [ la moyenne arithmtique de deux
points milieux].
Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement la moyenne arithmtique, la mdiane rsiste aux
valeurs extrmes.

3. Le mode [Mo] : est la valeur dominante de la srie, celle qui a la frquence la plus leve.
Pour une distribution discrte, le mode satisfait aux conditions 1, 3 et 4 de Yule.

Le premier Quartile Q1 Valeur telle quau moins 25% des valeurs prises par X lui sont
[ou quantile dordre 1, infrieures. Aprs avoir class les donnes et spar la
x25%] population en deux, le Q1 est la mdiane de la premire sous-
population.
Le deuxime Quartile Q2
[ou quantile dordre 2, Le Q2 est la mdiane.
4. Les quartiles x50%]
Le troisime Quartile Q3 Valeur telle quau moins 75% des valeurs prises par x lui sont
[ou quantile dordre 3, infrieures. Le Q3 est la mdiane de la deuxime sous-
x75%] population.

Note : Les quartiles non plus ne subissent pas linfluence des valeurs extrmes. Comme la mdiane, les quartiles
satisfont aux conditions 1, 3, 4 et 5 de Yule.
Indicateurs de dispersion

5. La variance : La variance empirique :

La variance est la moyenne arithmtique des carrs des carts dune variable { sa moyenne arithmtique. Elle donne
une ide de la dispersion [ou dviation] de chaque observation xt autour de sa moyenne. Mais comme on le voit, avec
la variance on change dchelle, elle sexprime dans le carr de lunit en laquelle sexpriment les observations. Pour
revenir { lchelle du dpart, on prend sa racine carre qui est lcart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule.
Note : La variance empirique est lestimateur non biais de la variance. La variance est un estimateur biais car utilisant
un autre estimateur dans son calcul.

6. Lcart-type : Lcart-type empirique :


Lcart-type est la racine carre de la variance. Il est la mesure de dispersion la plus utilise. Elle satisfait aux conditions
1, 2 et 6 de Yule, et est plus sensible aux fluctuations dchantillonnage et aux valeurs extrmes que la moyenne
arithmtique, en raison des lvations au carr.

7. Ltendue : max xt min xt


Ltendue est la diffrence entre la plus grande et la plus petite des valeurs observes. Elle est trs influence par les
valeurs extrmes et ne satisfait pas aux conditions 2 et 5 de Yule.

8. LEtendue [cart] interquartile : EIQ = Q3 Q1


Lcart interquartile nest pas sensible aux valeurs extrmes.

9
Dans le langage courant, on dit simplement moyenne. Or, selon la manire dont le total des individus est calcul, il
existe diffrentes moyennes [moyenne gomtrique, moyenne harmonique, moyenne quadratique].
Ass. Cdrick Tombola M. 10

Indicateurs de forme [de la distribution]


Parlons tout dabord de la notion des moments.
Le moment centr sur a dordre r

a r

Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. A titre dexemple,
si a=0 et r=1, on retrouve la moyenne arithmtique, qui nest rien dautre que le moment non centr dordre 1. La
variance serait donc le moment centr sur la moyenne arithmtique dordre 2, etc.

Note : dans la suite, on dira moment centr pour parler de moment centr sur la moyenne arithmtique. On peut
aisment vrifier que le moment centr sur la moyenne arithmtique dordre 1 (1) est nul.

9. Lasymtrie [Skewness en anglais]: est base sur le moment centr dordre 3.


Pour une distribution symtrique, telle que la loi normale, la moyenne arithmtique est gale la mdiane gale au
mode. De plus, les moments centrs dordre impair sont nuls pour une distribution symtrique.

Le coefficient dasymtrie de Fisher : 1 =

1 est nul pour une distribution symtrique, telle que la loi normale.
Asymtrie gauche [distribution Asymtrie droite [distribution
Distribution symtrique
tale droite] tale gauche]

1>0 =Me=Mo 1<0


1=0

10. Laplatissement [Kurtosis en grec, qui signifie bosse] : est bas sur le moment centr dordre 4 et permet de
mesurer limportance des queues dune distribution ou son aplatissement.

Le coefficient daplatissement de Fisher : 2 = 3


2 est nul pour une distribution mesokurtique. Cest le cas dune distribution gaussienne [normale].

Distribution leptokurtique
Distribution mesokurtique
Distribution platokurtique

2<0 2=0 2>0


Cas de la distribution de Student Cas de la distribution normale
La loi normale

La loi normale est une des principales distributions de probabilit. On dit quelle est parfaite, car sa densit de
probabilit dessine une courbe en cloche ou courbe de Gauss, qui est la fois symtrique et mesokurtique.

Elle a t introduite, en 1733, par le mathmaticien Abraham de Moivre, et mise en vidente plus tard, au 19 me sicle,
par Carl F. Gauss. Elle est galement connue sous le nom de la loi de Gauss. Une variable distribue selon cette loi est
dite normale ou gaussienne.
Test dhypothse [un petit commentaire]
Ass. Cdrick Tombola M. 11

Un test d'hypothse est une dmarche consistant valuer une hypothse statistique en fonction d'un chantillon. Il
sagit donc de confronter une hypothse dite nulle [HO] contre une hypothse de recherche ou alternative [H1].

Une notion essentielle qui concerne les tests est la probabilit que l'on a de se tromper. Il existe deux faons de se
tromper lors dun test statistique :
La premire faon de se tromper est de commettre lerreur [ou risque] de premire espce, not , qui est
la probabilit de rejeter tort HO alors quelle est vraie. On dit, dans ce cas, que est la probabilit davoir un
faux positif.
La deuxime faon de se tromper est de commettre lerreur [ou risque] de deuxime espce, not , qui est
la probabilit de ne pas rejeter HO alors quelle est fausse. On dit, dans ce cas, que est la probabilit davoir
un faux ngatif.

HO est vraie HO est fausse


Ne pas rejeter HO Erreur de 2me espce
Rejeter HO Erreur de 1re espce

Lidal serait que ces deux erreurs soient nulles, mais puisque lon ne dispose que dun nombre fini dobservations, il
faut faire un choix.
Le risque tant difficile { valuer, voire impossible, seul le risque est utilis comme critre de dcision.

Note : On accepte une hypothse en refusant sa fausset et non en acceptant sa vrit.

I.3. Quelques tests statistiques de normalit

Dans son article de 194410, qui a marqu une tape dcisive dans le dveloppement de lEconomtrie, crit
dans lobjectif de briser la rticence de ses contemporains vis--vis de lapplication des mthodes
statistiques aux donnes conomiques, Haavelmo a avanc deux thses. Dabord, il a dfendu l'ide que
l'emploi des mesures statistiques telles que les moyennes, les carts-type, les coefficients de corrlation,
des fins d'infrence n'a rellement de sens que dans un contexte probabiliste. De plus, estimait-il, peu
importe la vraie nature des faits conomiques, il suffisait, pour les analyser, de faire comme si les donnes
conomiques taient gnres par une loi de probabilit qu'il fallait identifier de faon adquate.

Avant donc toute tude formelle, le travail de lconomtre est de tester ladquation ou la conformit
dune distribution observe avec une distribution thorique associe une loi de probabilit. Parmi ces
tests dadquation, la conformit { la loi normale est le test le plus utilis, car elle sous-tend la plupart de
tests paramtriques utiliss en Economtrie. A titre de rappel, pour une distribution gaussienne, 2
contiennent 95% des observations.

Les nombreux tests11 de normalit dune distribution que fournit la littrature peuvent se regrouper en
deux familles : Les tests informels et les tests formels.

Si n est le nombre dobservations


Tests informels Tests formels
En termes defficacit
Histogramme des frquences [ou Test de Jarque Bera Si n > 88
tuyau dorgue]
Test de Shapiro Wilk Si n 50
Box plot [ou Bote--pattes]
QQ plot [ou droite de Henry] Test K2 dAgostino Pearson Si n 20

Les tests informels donnent une prsomption tandis que les tests formels apportent une approche plus rigoureuse et
objective.

Ci-aprs sont exposs uniquement les tests les plus frquemment utiliss et les plus oprationnels.

10
Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118.
11
Il existe une batterie de test de normalit, ici nous ne reprenons que quelques uns.
Ass. Cdrick Tombola M. 12

. Le Box plot

Synonyme : Bote pattes, Bote moustache, Diagramme en boites, Box and Whiskers Plot

Le Box plot, invent par Tukey en 1977, est un outil graphique trs pratique qui permet de caractriser
une distribution en fournissant un rsum riche dinformations sur sa dispersion et son asymtrie.

Du fait quil renseigne sur lasymtrie dune distribution, le Box plot est galement utilise comme test de
normalit.

Les tapes suivre dans sa construction peuvent tre rsumes comme suit :

a. Porter sur une chelle les valeurs calcules suivantes : Q1, Q2, Q3, Min xi et Max xi
b. Construire la bote : - La longueur de la bote est donne par lEIQ
- La largeur de la bote est fixe priori.
c. Calculer la longueur des moustaches ou des pattes [infrieure et suprieure] :
Pour savoir jusquo vont les moustaches, on calcule deux valeurs adjacentes :
Frontire Basse [FB]= Q1 1.5EIQ
Frontire Haute [FH]= Q3 + 1.5EIQ

Selon Tukey, la valeur 1.5 serait plus pragmatique.


Pour la longueur de la moustache infrieure : prendre, parmi les valeurs xi prises par X, la valeur minimale
xb directement suprieure FB, soit xb = min {xi| xi FB}.

Pour la longueur de la moustache suprieure : prendre, parmi les valeurs xi prises par X, la valeur maximale
xh directement infrieure FH, soit xh = max {xi| xi FH}.

A retenir : - Pour une distribution symtrique, Q2 divise la bote exactement en deux parties gales.
- Pour une distribution symtrique, Q2= .

Illustration

Considrons lexemple suivant :

X 6 7 8 9 10 11 12 13 14 15 16 17 18
Q1 = 8.5 Q2 = 12 Q3 = 15.5 EIQ = 7 Min xi = 6 et Max xi= 18
FB = 8.5 (1.5)7 = 2 FH = 15.5 + (1.5)7 = 26 = 12 Etendue = 10 Xb = 6 Xh =18

Etendue

Min xi Q1 Q2 Q3 Max xi
FB FH
Xb Xh
EIQ
La croix lintrieur de la bote reprsente la moyenne.
Ass. Cdrick Tombola M. 13

Il ressort, puisque Q2 spare la bote en deux parties gales et que les queues ont une longueur identique,
que la distribution est symtrique, ce qui est une prsomption de normalit. De plus la mdiane (Q2) est
gale la moyenne.

Note : la Botepattes permet galement de dtecter les valeurs aberrantes ou singulires [dviants ou
atypiques ou encore outliers]. Aprs avoir construit le Box plot, est valeur aberrante celle situe au-del des
pattes.

. Le test de Jarque-Bera [JB]

Le test de Jarque-Bera, propos en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalit les
plus populaires dans les milieux acadmiques. Mais la remarque { faire, dores et dj{, est quil est
particulirement appropri pour grand chantillon, soit n > 88.

Le test JB est fond sur les coefficients dasymtrie et daplatissement. Sa richesse consiste { ce quil
permet de conclure { la fois sur lasymtrie et limportance des queues [aplatissement] dune distribution.

Les hypothses du test sont :

H0 : Normalit

H1 : Non normalit

Sous lhypothse de normalit de la srie, la statistique du test JB suit asymptotiquement une distribution
du Khi deux 2 { degrs de libert avec le risque davoir un faux positif [ou seuil de signification] = 5%.

La statistique du test est calcule comme suit :

JB = n =

o n est la taille de lchantillon, S le Skewness et K la Kurtosis.

Valeur lue dans la table de la loi du Khi carr deux degrs de libert
Seuil 1% 5%
Valeur
9.210 5.991

Critre de dcision : Si JB la valeur du 2(2) de la table au seuil , alors RH0 de normalit.

. Le test de Shapiro-Wilk

Le test de Shapiro Wilk, propos en 1965 par Samuel Shapiro et Martin Wilk, est considr dans la
littrature comme lun des tests de conformit { la loi normale les plus fiables et les plus efficaces,
particulirement pour petits chantillons [n 50] 12. Ce test est bas sur la statistique W, calcule comme
suit :

W=

12
Lire par exemple Royston (1982), Palm (2002).
Ass. Cdrick Tombola M. 14

n : est la taille de lchantillon ai : sont des valeurs lues dans la table des coefficients
: est la partie entire du rapport de Shapiro et Wilk, connaissant n et lindice i.
x(i) : correspond la srie des donnes tries en ordre
croissant

Les hypothses du test sont :

H0 : la variable X est gaussienne

H1 : la variable X est non gaussienne

La statistique W est confronte une valeur lue dans la table des valeurs limites de W propose par
Shapiro et Wilk, avec n le nombre dobservations et au seuil [5% en gnral].

Critre de dcision : Si W < WTable(n) au seuil , alors RH0 [la variable est non gaussienne]13.

Note : Les deux tables utilises pour mener ce test sont reprises en annexe.

I.3. Trois piliers de lconomtrie

Lconomtrie se fonde sur trois piliers { savoir :


. La thorie conomique ;
. Les donnes ;
. Les mthodes.

Les trois piliers de lconomtrie

La thorie conomique Les donnes Les mthodes

De par sa nature lEconomtrie est Pour tester les thories, Ce sont les mthodes statistiques qui
intimement lie la thorie lEconomtrie utilise les donnes permettent de mettre en uvre et
conomique qui lui fourni les observes, les informations fournies dexploiter un modle partir
modles et thories quelle teste. par un chantillon. dinformations provenant de
lchantillon.
Aujourdhui encore, malgr Lconomtrie a principalement
lmancipation de lEconomtrie recours trois types et deux formats La mthode la plus populaire en
depuis le fameux article de 1980 de de donnes. Economtrie est celle des moindres
Sims, lon ne peut trancher en carrs ordinaires.
dfaveur du mariage thorie Trois types de donnes :
conomique Economtrie. En recourant aux mthodes
Chroniques [times series en statistiques, et partir
Selon Ado et Davidson [1998], anglais], on parle galement des dinformations livres par le monde
L'conomtrie est prcisment le sries chronologiques ou sries rel, lconomtre poursuit un triple
moyen qui permet au discours objectif :
conomique d'chapper la vacuit temporelles, notes Xt : sont de
de son formalisme, en permettant donnes indices par le temps. Quantifier et tester les thories
une mise en correspondance des Ex. Le PIB de la RDC de 2000 Faire des prvisions
thories et des faits conomiques. 2010. Evaluer lefficacit des mesures
C'est elle qui permet de confirmer ou de politique conomique

13
Lire TSASA Jean Paul (2012) pour les illustrations.
Ass. Cdrick Tombola M. 15

d'infirmer les modles thoriques, du Donnes en Coupe longitudinale LEconomtrie na donc pas pour
moins ceux qui admettent une [cross section en anglais], on objet dnoncer la thorie mais de la
reprsentation conomtrique. parle aussi de coupe instantane, vrifier.
notes Xi : font rfrence aux
donnes observes au mme
moment, pour des individus
diffrents. Ex. Le PIB en 2009 de
tous les pays de lAfrique
Centrale.
Donnes en Panel [pooling en
anglais], on parle aussi des
donnes croises, notes Xit :
font rfrence la combinaison
de deux premiers types. Ex. Le
PIB de 2000 2010 de tous pays
de lAfrique Centrale. On parle
aussi de cohorte, lorsque
lchantillon sond reste le
mme dune priode { lautre.

Deux formats des donnes :

Quantitatives [ex : PIB, Taux


dinflation, etc.]
Qualitatives [ex : paix, sexe,
religion, niveau dtude, etc.]
Ass. Cdrick Tombola M. 16

I.4. Modle conomique versus modle conomtrique

. Modle conomique

Selon Barbancho14, un modle est lexpression mathmatique dune certaine thorie conomique.
Lexemple de la loi psychologique fondamentale de Keynes est assez pertinent { cet effet. Daprs cette loi,
en moyenne et la plupart du temps lorsque le revenu dun individu augmente, il augmente aussi sa
consommation, mais dans une proportion moindre { laugmentation de son revenu. Mathmatiquement, si
on note la consommation par Ct et le revenu par Yt, cette loi peut tre spcifie comme suit :

Ct= 0 + 1Yt [avec 1 : propension marginale { consommer, 0 < 1 < 1]

En gnral, le modle spcifi par lconomiste est dfini comme tant une maquette de la ralit ou dun
phnomne sous forme dquations dont les variables sont des grandeurs conomiques.

A ce sujet, Lester C. Thurow note ceci : Les quations dcrivent quoi ressemblerait le monde rel sil
ressemblait la thorie .

. Modle conomtrique

Toujours selon Barbancho, un modle conomtrique nest autre chose quun modle conomique qui
contient les spcifications ncessaires pour son application empirique. Cest donc le modle conomique
auquel on ajoute un terme derreur ut.

Ct=0 + 1Yt + ut [modle spcifi par lconomtre]

La premire partie de ce modle [0 + 1Yt] constitue sa partie systmatique et la deuxime [ut] sa partie
stochastique ou alatoire.

Il convient de noter galement que le terme derreur ut [bruit, perturbation ou ala] dnote de la diffrence
entre lconomiste et lconomtre. Il synthtise linfluence sur Ct [variable explique] de toutes les autres
variables oublies et des erreurs ventuelles de spcification de la forme fonctionnelle dans le modle
spcifi par lconomiste. De plus, sa prsence dans le modle rend les paramtres 0 et 1 inconnus, on ne
sait plus les calculer, il faut donc les estimer.

14
Cit par Kintambu Mafuku (2004).
Ass. Cdrick Tombola M. 17

.II.
THEORIE DE LA CORRELATION

Lanalyse de la corrlation a pour objet de prsenter les mesures statistiques destines { rendre compte du
sens et de la force de la liaison mathmatique qui peut exister entre deux variables quantitatives X et Y. Il
faut, dores et dj{, noter que dans ce cadre, la position des variables est symtrique. Lanalyse ne permet
pas de distinguer variable endogne de la variable exogne.

Loutil graphique diagramme de dispersion ou graphique nuage de points est le plus adapt et indiqu
pour dbuter ltude de la corrlation. Aprs lavoir ralis, la forme du nuage des points renseigne
partir dun simple coup dil sur le type dune ventuelle liaison entre X et Y. Plusieurs situations sont
possibles :

Figures A. Relations linaires, de gauche droite, positive et ngative.

600 600
500 500
400 400
300 300
200 200
100 100
0 0
0 500 1000 1500 2000 0 500 1000 1500 2000

Figures B.1. Relation non linaire monotone Figures B.2. Relation non linaire Figures B. 3. Absence de liaison
non monotone
120
10 15 100
80
8 60
6 10 40
20
4 0
5 -100 -50 -20 0 50 100 150
2
-40
0 0 -60
0 5 10 15 -4 -2 0 2 4 -80

Lanalyse du plot donne certes une ide sur le sens et le type dassociation entre X et Y, mais elle ne permet
pas de quantifier son intensit.

Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours
au calcul de la covariance. Si on note par n la taille de lchantillon et i le numro de lobservation, la
covariance empirique15 entre X et Y est calcule par la formule :

Cov (X, Y) =

15
La covariance empirique tant un estimateur non biais de la covariance.
Ass. Cdrick Tombola M. 18

Lide est que si X et Y covarient, leur covariance devrait tre grande. Elle serait modrment faible si les
deux variables ne covarient pas.

Malheureusement, comme mesure du degr de dpendance entre X et Y, la covariance prsente la


faiblesse dtre fortement influence par les units de mesure des variables en prsence. Cest cette limite
qui a conduit au dveloppement des coefficients de corrlation.

II.1. Coefficient de corrlation de Bravais Pearson

Le coefficient de corrlation linaire de Bravais Pearson, not rXY, est un coefficient paramtrique qui
donne la mesure du degr de liaison linaire entre deux variables quantitatives X et Y normalement
distribues. Il est donn par le rapport entre leur covariance et le produit non nul de leurs carts types.
Ainsi, il standardise la covariance et la corrige de linfluence des units de mesure des variables.

Formellement, le rXY est donn par la formule :

rXY = = [2.1]

Si lon considre les carts { la moyenne arithmtique 16, la relation [2.1] peut galement scrire comme
suit :

rXY = [2.2]

Proprits de la covariance et proprits du coefficient de corrlation linaire

Proprits de la covariance Proprits du rXY Commentaires

Cov (X, Y) = Cov (Y, X) rXY = rYX Comme la covariance, le rXY est symtrique.
La corrlation entre une variable et elle-
Cov (X, X) = Var (X) rXX = 1
mme est gale { lunit.
La corrlation entre une constante et une
Cov (k, X) = 0 rkX = 0
variable est nulle.
Le coefficient de corrlation linaire est un
1 rXY 1 nombre sans dimension dont lintervalle de
variation est : [1, +1]17.

. Hypothses fortes au calcul du rXY

Le calcul du coefficient de corrlation linaire de Bravais Pearson entre les variables X et Y nest adapt
quau strict respect des hypothses suivantes :

Les variables X et Y doivent tre quantitatives ;


Les variables X et Y doivent tre sont gaussiennes ;
La relation entre X et Y doit tre linaire 18 ;

Note : Lorsque la liaison entre X et Y est non linaire mais monotone, le r XY ne devient pas hors de propos.
Seulement, dans ce cas despce, il donne des informations sur lexistence de la liaison, mais estime mal son
intensit. Noublions pas que le coefficient de corrlation linaire sert avant tout { caractriser une liaison
linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur sur lexistence et lintensit de la
relation entre variables considres.

16
La somme des carts la moyenne arithmtique est toujours gale 0, soit = 0.
17
On peut aisment dmontrer que par construction, le rXY reste compris entre -1 et 1.
18
Cette information est livre par le graphique nuage des points.
Ass. Cdrick Tombola M. 19

. Test sur le coefficient de corrlation de Bravais - Pearson

Puisque le travail se fait sur un chantillon, aprs calcul et avant toute interprtation, le rXY doit tre soumis
un test de significativit qui permet de vrifier si la corrlation calcule existe bel et bien au sein de la
population.

Les hypothses du test sont :

H0 : XY = 0 [hypothse dabsence de corrlation]

H1 : XY 0n [hypothse dabsence de dcorrlation]

XY est la corrlation thorique, inconnue au niveau de la population, r XY est la corrlation empirique


estime { partir dinformations fournies par lchantillon.

Sous H0, on dmontre que la statistique du test suit une distribution de Student au seuil [5% sauf
indication contraire] et (n 2) degrs de libert.

Le test est de la forme :

Rejet H0 si > t/2 ; (n 2) [valeur lue dans la table de Student]

. Signification clinique du coefficient de corrlation de Bravais - Pearson

La signification clinique ou linterprtation du rXY nest valable que si, aprs test, on rejette lhypothse de
dcorrlation.

Le travail dinterprtation dun coefficient de corrlation linaire se fait toujours en deux temps : une
interprtation par rapport au signe/sens de la liaison et une interprtation par rapport au degr de
dpendance.

Si rXY > 0, X et Y sont positivement corrles [la


relation linaire entre X et Y est positive].
Si rXY < 0, X et Y sont ngativement corrles [la
A. Interprtation par rapport au signe relation linaire entre X et Y est ngative].
Si rXY = 0, X et Y sont non corrles [pas de liaison
linaire, mais possibilit dune liaison dun autre
type].

Si rXY = 1, le lien linaire entre X et Y est parfait.


Dans ce cas, lune des variables est fonction
affine de lautre, les n points (xi, yi) sont aligns.
Si 0.80 < rXY < 1, le lien linaire est trs fort.
B. Interprtation par rapport lintensit
Si 0.65 < rXY < 0.80, le lien linaire est fort [lev].
Si 0.50 < rXY < 0.65, le lien linaire est modr.
Si 0.25 < rXY < 0.50, le lien linaire est faible.
Si 0.025 < rXY < 0.25, le lien linaire est trs faible.
Si rXY proche de 0, alors il y a absence de lien
entre X et Y.

Note : Le coefficient de corrlation linaire entre deux variables quantitatives gaussiennes indpendantes
Ass. Cdrick Tombola M. 20

est nul, mais la rciproque nest pas toujours vraie. Donc r XY = 0 ne signifie pas toujours quil y a
indpendance entre X et Y. Cela peut tout simplement vouloir dire quil y a absence dune liaison
linaire entre les variables tudies.
Ceci dit, le calcul dun coefficient de corrlation doit toujours commencer par un examen graphique.
Lautre faiblesse majeure du coefficient de Bravais Pearson est dtre trs sensible aux points aberrants.

II.2. Coefficient de corrlation de rang de Spearman

Le coefficient de corrlation de Spearman, not XY, est un coefficient non paramtrique qui quantifie,
comme le rXY de Bravais Pearson, le degr dassociation linaire entre deux variables quantitatives. Il est
particulirement appropri lorsquau moins une de deux variables X et Y nest pas normalement distribue.

Son calcul ncessite que les donnes soient transformes en rang. Le rang de X est not par Ri et celui de Y
par Si. Le XY de Spearman nest rien dautre que le rapport entre la covariance (Ri, Si) et le produit non nul
de leurs carts-types. Il est donc un cas particulier du coefficient de corrlation de Bravais Pearson.

En tenant compte de certaines proprits de rang, le XY de Spearman peut tre calcul de manire plus
simple par la formule :

XY = 1 [2.3]

o Di = Ri - Si et n = nombre dobservations

Avantages du XY de Spearman sur le rXY de Bravais Pearson


Le rXY de Bravais - Pearson Le XY de Spearman
A propos de la normalit
Pour calculer rXY, les variables doivent tre Le XY lve lhypothse de normalit. De plus, dans
gaussiennes. le cas des variables distribues normalement, le XY
reste adapt car il fournit les mmes rsultats que
le rXY de Bravais Pearson.
Concernant une liaison non linaire monotone
Le rXY donne une ide sur le sens de la liaison mais Dans ce cas, le XY est appropri, il estime mieux
estime mal sa force. que le rXY ce type de liaison.
La prsence des points atypiques
Le rXY est fortement influenc par la prsence des Le XY rsiste aux points aberrants. Dans ce cas, il
dviants [points aberrants]. est donc prfr au rXY.
Note : Lorsque la liaison entre les deux variables tudies est non linaire et non monotone, les deux
coefficients rXY et XY ne sont plus adapts. On peut soit transformer les donnes avant de les
calculer ou carrment, lorsquon dispose de plusieurs valeurs de Y pour chaque valeur de X ou
linverse, calculer le rapport de corrlation.

La dmarche du test statistique sur le XY de Spearman est la mme que celle sur le coefficient de
corrlation de Bravais Pearson.

Remarques importantes sur le calcul du XY de Spearman

Le calcul du coefficient de corrlation de Spearman exige que les donnes soient remplaces par leurs
rangs. Et en prsence dex aequo dans les donnes, on leur affecte un rang moyen, donn par la moyenne
arithmtique de leurs rangs respectifs.
Ass. Cdrick Tombola M. 21

Mais lorsquon compte plusieurs ex aequo, aprs avoir remplac les donnes par leurs rangs, il est conseill
de faire subir au coefficient de Spearman quelques corrections ou simplement de lui prfrer le coefficient
de Bravais-Pearson, mais calcul sur les rangs. Dans ce recueil, nous optons pour cette dernire option.

En rsum, lestimation dun coefficient de corrlation suivra toujours [sauf indication contraire], dans
lordre, les cinq tapes suivantes :

(i) Test de linarit [utiliser un diagramme de dispersion]


(ii) Test de normalit [choisir le plus appropri connaissant n]
(iii) Choix et estimation dun coefficient de corrlation
(iv) Test de significativit statistique sur le coefficient calcul
(v) Interprtation ou signification clinique du coefficient estim [valable seulement si H0 est rejete]

Critre synthtique de choix dun coefficient de corrlation


Informations fournies par les donnes Coefficient de corrlation appropri [en termes
Type de liaison Normalit de robustesse]
- Coefficient rXY de Bravais Pearson
linaire Variables normales
- Coefficient XY de Spearman
Lune au moins de deux
linaire
variables est non normale
- Coefficient XY de Spearman
Non linaire monotone Variables normales ou non
Prsence des points atypiques

II.3. Limites de la corrlation

Les coefficients de corrlation prsents dans ce chapitre prsentent essentiellement quatre faiblesses,
savoir :

La mesure ne concerne quune relation linaire. Le coefficient de corrlation linaire sert avant
tout { caractriser une liaison linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur,
surtout sur lintensit de la liaison entre variables considres.
La mesure ne concerne que les variables quantitatives. En prsence des variables qualitatives
comme la paix, la religion, , les deux coefficients prsents ci-haut ne sont plus adapts.
La corrlation nest ni impact ni causalit. Lobjet de la corrlation nest pas dtablir une causalit
mais simplement de rendre compte du sens et du degr dassociation ventuelle entre variables.
La corrlation peut tre fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une
corrlation leve ne peut tenir qu{ un facteur confondant ou artefact. En ralit, les deux
variables peuvent simplement tre lis un mme phnomne - source : une troisime variable
dont il faut neutraliser leffet.

Les alternatives face ces faiblesses sont notamment la corrlation pour variables qualitatives, le
coefficient de corrlation partiel, le rapport de corrlation, la rgression linaire et non linaire, la causalit,
la cointgration, etc.
Ass. Cdrick Tombola M. 22

Exercices rsolus sur la thorie de la corrlation

Exercice 1
Un chercheur dsire examiner la relation quil peut exister entre lhabilit en lecture (X) et le nombre
dheures de lecture par semaine (Y). X est mesur en laboratoire { laide dun test dhabilit en lecture alors
que Y est estim par les sujets eux-mmes. 10 sujets ont t chantillons. Les rsultats sont :

X 20 5 5 40 30 35 5 5 15 40
Y 5 1 2 7 8 9 3 2 5 8

Estimer la corrlation entre X et Y [passer par les cinq tapes]

Solution de lexercice 1

Etape 1. Test de linarit

10
8 Ce graphique fait tat dune association
6 linaire positive entre X et Y.
4
2
0
0 10 20 30 40 50

Etape 2. Test de normalit

Puisqutant appropri pour petit chantillon, nous appliquons le test de Shapiro Wilk.

La statistique calculer est : W =

Test sur la variable X

i X X(i) ai
1 20 5 -15 225 0,5739 35 20,0865
2 5 5 -15 225 0,3291 35 11,5185
3 5 5 -15 225 0,2141 30 6,423
4 40 5 -15 225 0,1224 25 3,06
5 30 15 -5 25 0,0399 5 0,1995
6 35 20 0 0 41,2875
7 5 30 10 100
8 5 35 15 225 W= = 0.83154032
9 15 40 20 400 Wtable =0.842 [ 5%, pour n=10]
10 40 40 20 400
Puisque W<Wtable, RH0. La variable X est non
0 2050
gaussienne.
=20 ; n=10 ; =5
Ass. Cdrick Tombola M. 23

Test sur la variable Y

i Y y(i) ai
1 5 1 -4 16 0,574 8 4,5912
2 1 2 -3 9 0,329 6 1,9746
3 2 2 -3 9 0,214 6 1,2846
4 7 3 -2 4 0,122 4 0,4896
5 8 5 0 0 0,04 0 0
6 9 5 0 0 8,34
7 3 7 2 4
8 2 8 3 9 W= = 0.915205263
9 5 8 3 9 Wtable =0.842 [ 5%, pour n=10]
10 8 9 4 16
Puisque W>Wtable, Non RH0. La variable Y est
0 76 gaussienne.
5 ; n=10 ; =5

Etape 3. Choix et estimation dun coefficient de corrlation

Eu gard aux rsultats des tests de linarit et de normalit [X est non gaussienne], le coefficient de
corrlation appropri dans ce cas est le XY de Spearman. Les calculs sont confins dans le tableau ci-aprs :

X Y Rang de X [Ri] Rang de Y [Si] Di = R i - Si Di2


20 5 6 5,5 0,5 0,25
5 1 2,5 1 1,5 2,25
5 2 2,5 2,5 0 0
40 7 9,5 7 2,5 6,25
30 8 7 8,5 -1,5 2,25
35 9 8 10 -2 4
5 3 2,5 4 -1,5 2,25
5 2 2,5 2,5 0 0
15 5 5 5,5 -0,5 0,25
40 8 9,5 8,5 1 1
18,5
XY = 1 = 0. 887878788

Note : Deux nombres au moins identiques ont mme rang qui est donn par la moyenne arithmtique de leurs rangs
respectifs.

Etape 4. Test de significativit statistique

La statistique du test est : tcal= = 5. 45842979 et t0.025 ; 8 = 2.306 [Puisque tcal >ttable, alors RH0

dabsence de corrlation entre X et Y, le coefficient de corrlation calcul est statistiquement significatif].

Etape 5. Signification clinique [interprtation]

Il existe bel et bien une corrlation linaire positive trs forte entre lhabilit en lecture (X) et le nombre
dheures de lecture par semaine (Y) au sein de la population tudie.
Ass. Cdrick Tombola M. 24

Exercice 2
Montrer rigoureusement que par construction le coefficient de corrlation linaire est toujours comprise
entre - 1 et 1 [Utiliser la formule de Bravais Pearson].

Solution de lexercice 2

Si le lien linaire entre X et Y est parfait, Y (X) scrirait comme une fonction affine de X (Y) :

Y = + X Y = X
Dune part, on aura : Dune part, on aura :
Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]} Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]}
= E{[X E(X)][ + X E( + X)]} = E{[X E(X)][ X E( X)]}
= E{[X E(X)][ + X E(X)]} = E{[X E(X)][ X + E(X)]}
= E{[X E(X)] [X E(X)]} = E{[X E(X)] [X E(X)]}
2 2
= [X E(X)] = [X E(X)]
= Var(X) = Var(X)
Dautre part, on a ceci : Dautre part, on a ceci :
2 2 2 2
Var(Y) = E[Y E(Y)] = E[ + X E(X)] Var(Y) = E[Y E(Y)] = E[ X + E(X)]
= 2var(X) = 2var(X)
Et par consquent, Et par consquent,

rXY = = = =1 rXY = = = =1

Le domaine de dfinition de rXY est donc [ 1, + 1]

Exercice 3
Le tableau ci-aprs renseigne sur lvolution de loffre de jus de banane (X) et son prix en USD (Y).

N 1 2 3 4 5 6 7 8 9 10 11
X 10 8 9 11 14 6 4 12 7 5 8
Y 7 6 7 8 9 6 5 8 6 6 7

Travail faire :
- Calculer le coefficient de corrlation appropri.
- Tester sa significativit statistique
- Evaluer sa signification clinique

Solution de lexercice 3

1. Test de linarit

10
8
6
4
2
0
0 5 10 15

Le diagramme de dispersion tmoigne de lexistence dune association linaire positive entre X et Y.


Ass. Cdrick Tombola M. 25

2. Test de normalit

Test sur la variable X

i X ai
1 10 4 -4,5454545 20,661157 0,5601 10 5,601
2 8 5 -3,5454545 12,5702479 0,3315 7 2,3205
3 9 6 -2,5454545 6,47933884 0,226 5 1,13
4 11 7 -1,5454545 2,38842975 0,1429 3 0,4287
5 14 8 -0,5454545 0,29752066 0,0695 1 0,0695
6 6 8 -0,5454545 0,29752066 9,5497
7 4 9 0,4545455 0,20661157 W= = 0,983494579
8 12 10 1,4545455 2,11570248 Wtable=0,850
9 7 11 2,4545455 6,02479339
10 5 12 3,4545455 11,9338843 Puisque W >Wtable, alors Non RH0. La variable X
est normalement distribue.
11 8 14 5,4545455 29,7520661
0 92,7272727
= 8,545454545 ; n =11 ; = 5,5
Note : n tant impair, on na retenu que la partie entire du ratio , soit 5.

Test sur la variable Y

i Y ai
1 7 5 -1,818181818 3,30578512 0,5601 4 2,2404
2 6 6 -0,818181818 0,66942149 0,3315 2 0,663
3 7 6 -0,818181818 0,66942149 0,226 2 0,452
4 8 6 -0,818181818 0,66942149 0,1429 1 0,1429
5 9 6 -0,818181818 0,66942149 0,0695 1 0,0695
6 6 7 0,181818182 0,03305785 3,5678
7 5 7 0,181818182 0,03305785
8 8 7 0,181818182 0,03305785 W= = 0,933474435
9 6 8 1,181818182 1,39669421 Wtable=0,850
10 6 8 1,181818182 1,39669421
Puisque W >Wtable, alors Non RH0. La variable Y
11 7 9 2,181818182 4,76033058
est normalement distribue.
0 13,6363636
= 6,818181818 ; n=11 ; = 5,5

3. Choix et estimation dun coefficient de corrlation

Les deux variables tant gaussiennes et linairement associes, on peut indiffremment estimer le rXY de
Bravais-Pearson ou le XY de Spearman. Dans ce cas, les deux coefficients devraient donner pratiquement la
mme chose. Aprs calcul, on a les rsultats suivants :
Ass. Cdrick Tombola M. 26

Le rXY de Bravais-Pearson Le XY de Spearman


Corrlation entre X et Y 0,95870624 0,95227273

4. Signification statistique du coefficient calcul

La statistique calcule est : = 10.1129979 pour le rXY de Bravais-Pearson, et = 9.3589914, pour le


XY de Spearman.

Et la valeur de la table, au seuil de 5%, est de : t0.025 ; 9 =2.262

Conclusion : le coefficient de corrlation calcul est statistiquement non nul.

5. Signification clinique

il existe bel et bien une corrlation linaire positive trs forte entre quantit offerte de jus de banane et son
prix, ce qui est conforme la moi de loffre.

Exercice 4
A partir dun chantillon de 27 objets, on a trouv que la valeur dun coefficient de corrlation linaire tait
0.4. Peut-on en conclure, un seuil de signification de 0.05 que le coefficient de corrlation diffre
significativement de la valeur zro ? Quadviendrait la rponse obtenue prcdemment si lon considre un
seuil de signification de 0.01.

Solution de lexercice 4

Lexercice livre les informations suivantes : rXY =0.4 ; n=27 ; = 0.05.

Aprs calcul, on a tcal=2.1821789. En considrant le seuil donn, = 0.05, et 25 degrs de libert, la


table de la loi de Student donne la valeur : t0.025 ; 25 = 2.060. On peut donc conclure, un seuil de signification
de 0.05 que le coefficient de corrlation diffre significativement de la valeur zro.

Au seuil de signification de 0.01, t0.005 ; 25 = 2.787, ce coefficient de corrlation devient non significatif.

Exercice 5
Soit le jeu de donnes normalement distribues ci-dessous.

Bloc I Bloc II Bloc III Bloc IV


X Y X Y X Y X Y
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,10 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,1 4 5,39 19 12,5
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
Ass. Cdrick Tombola M. 27

Travail demand :

(i) Estimer pour chaque cas le coefficient de corrlation de Bravais Pearson


(ii) Quel constat se dgage t-il de ces calculs ?
(iii) A prsent, raliser un graphique nuage des points pour chaque cas. Quelle leon peut-on tirer ?
(iv) Calculer le coefficient de Spearman pour le bloc IV. Quel avantage prsente-t-il ?

Solution de lexercice 5

(i) Aprs calcul, on a le coefficient de Bravais-Pearson ci-aprs, pour chaque cas :

Bloc I Bloc II Bloc III Bloc IV


rXY 0,81642052 0,81623651 0,81628674 0,81652144

(ii) Pour les 4 blocs, on obtient pratiquement la mme valeur du coefficient de corrlation de Bravais-
Pearson, soit rXY = 0.82. Ce qui semble traduire dans ces diffrents cas, lexistence dun lien linaire
positif trs fort.

(iii) Graphique nuage ds points pour chaque bloc


Bloc I Bloc II Bloc III Bloc IV
15 10 15 15

10 10 10
5
5 5 5
0 0 0 0
0 10 20 0 10 20 0 5 10 15 0 10 20

La leon tirer est que lestimation du coefficient de corrlation de Pearson doit toujours saccompagner dun
examen graphique. Car, comme on le voit, le coefficient estim rXY = 0.82, ne correspond, en toute rigueur,
quau premier graphique. Le deuxime, par exemple, fait tat dune liaison fonctionnelle presque parfaite
entre X et Y dont le rXY semble sous-estimer lintensit. Quant au troisime et au quatrime graphiques, il y a un
point atypique qui fausse compltement le rXY de Bravais-Pearson. Pour preuve, il suffit de retirer le point
aberrant, soit le couple (13, 12.74) et (19, 12.5), respectivement dans le troisime et quatrime graphiques, le
coefficient de corrlation de Pearson qui tait de r XY=0.82, devient respectivement de 0.99999655 et de 0
[puisque rkX=0].

(iv) On remarquera quau bloc IV, la variable X prsente plusieurs ex aequo, nous avons donc calcul le
coefficient de Bravais-Pearson sur les rangs.

Coefficient de Bravais-Pearson calcul sur les rangs


Bloc IV
0.5
Lien entre X et Y

A comparer au coefficient de Pearson, le coefficient de rang prsente lavantage de rsister aux points
atypiques.
Ass. Cdrick Tombola M. 28

Exercice 6
Voici un chantillon de deux variables gaussiennes :

X Y Travail faire :
-2 4
-1 1 - Estimez le coefficient de corrlation de Bravais - Pearson
- A quoi renvoie ce rsultat ?
0 0
- Faites maintenant un diagramme de dispersion. Que voyez-vous ? Quelle
1 1
nuance pouvez-vous donc formuler dans ce cas ?
2 4

Solution de lexercice 6

- Les deux variables tant supposes gaussiennes par lexercice, et puisque le test de linarit ici ne fait pas un
pralable, on passe directement lestimation du rXY comme prsente dans le tableau ci-dessous :

2
X Y Xi Yi (Xi )(Yi (Xi (Yi )2
-2 4 -2 2 -4 4 4
-1 1 -1 -1 1 1 1
0 0 0 -2 0 0 4
1 1 1 -1 -1 1 1
2 4 2 2 4 4 4
Somme 0 0 0 10 14
Moyenne 0 2
rXY = 0

- rXY = 0 signifie que les variables X et Y seraient non corrles [indpendance]

- Le diagramme de dispersion des couples (xi, yi) est :

0
-3 -2 -1 0 1 2 3

Il ressort de ce diagramme de dispersion quil existe bel et bien une liaison [de type non linaire] entre les
variables X et Y.
La nuance faire, au vu de ces rsultats, est quun coefficient de corrlation de Bravais Pearson nul ne
devrait pas toujours sinterprter comme une absence de relation entre variables en cause. La meilleure
interprtation serait que les deux variables tudies sont non linairement corrles, car un r XY =0 laisse
toujours la possibilit dexistence, entre les variables considres, dune liaison dun autre type.
Ass. Cdrick Tombola M. 29

Exercice 7
A Washington, un journaliste a dcouvert quil existe une trs forte corrlation entre le fait davoir un nid de
cigognes sur sa demeure et le fait davoir des enfants. Do il conclut que les cigognes apportent les bbs.
Quelle remarque pouvez-vous faire une telle conclusion ?

Solution de lexercice 7

La remarque principale formuler ce type de corrlation que rien ne peut expliquer ou qui en ralit tient
un autre phnomne-source est que la corrlation peut tre fortuite ou artificielle. Par ailleurs, bien
analyser les choses, tenant compte des ralits de Washington, la prsence dun nid de cigognes sur le toit
signifierait plutt que la famille qui y habite est aise et donc dispose, financirement, avoir plus denfants.

Exercice 8
En rsolvant un TP de statistique 1 sur le calcul du coefficient de corrlation linaire, un tudiant de G1 FASE
fournit le tableau suivant :

Xi Yi Xi Yi (Xi )*(Yi ) (Xi ) (Yi )


80 32 -20 -18 360 400 324
100 50 0 0 0 0 0
115 62 15 12 180 225 144
110 56 10 6 60 100 36
70 8 -30 -42 1260 900 1764
125 80 25 30 750 625 900
105 62 6 12 72 36 144
90 50 -10 0 0 100 0
110 62 10 12 120 100 144
95 38 -5 -12 60 25 144
1 0 2862 2511 3600

=100 =50 rXY = = 0.9519

Sans avoir { refaire tous les calculs, { regarder ce tableau, vous concluez quil y a erreur de calcul. Par quoi la
voyez-vous ?

Solution de lexercice 8

Par la somme des carts de la variable X sa moyenne arithmtique. Cette somme est forcment gale zro,
une valeur diffrente indique tout simplement une erreur de calcul.

Exercice 9
Soient les donnes sur les variables X et Y reprises dans le tableau ci-aprs et le nuage de points
correspondant :
12
10
8
X 1 1,1 1,25 1,5 2 2,25
6
Y 3 6,8 8,3 9,3 9,81 9,85
4
2
0
0,9 1,4 1,9 2,4
Ass. Cdrick Tombola M. 30

Estimer les coefficients de corrlation de Bravais-Pearson et de Spearman, puis commenter.

Solution de lexercice 9

Les calculs sont synthtiss dans le tableau ci-aprs :

X Y x y xy x y Ri Si Di Di
1 3 -0,52 -4,84 2,50 0,2669 23,46 1 1 0 0
1,1 6,8 -0,42 -1,04 0,43 0,1736 1,09 2 2 0 0
1,25 8,3 -0,27 0,46 -0,12 0,0711 0,21 3 3 0 0
1,5 9,3 -0,02 1,46 -0,02 0,0003 2,12 4 4 0 0
2 9,81 0,483 1,97 0,95 0,2336 3,87 5 5 0 0
2,25 9,85 0,733 2,01 1,47 0,5378 4,03 6 6 0 0
5,21 1,28 34,77 0
Moyenne 1,52 7,84

rXY = 0,78 XY = 1

Les calculs montrent simplement que le XY de Spearman est prfr au rXY de Bravais-Pearson lorsque la
liaison entre X et Y est non linaire mais monotone, car comme on le voit, le r XY a sous-estim lintensit
dune relation non linaire certes, mais visiblement parfaite entre X et Y.

Exercice 10
[Il y a au moins une rponse exacte, cocher, la question suivante].
Le coefficient de corrlation linaire entre deux variables statistiques :
(a) ne peut tre calcul que si les deux variables sont quantitatives
(b) est un nombre positif ou nul
(c) nest gal zro que lorsque les variables sont indpendantes
(d) est un nombre sans dimension.

Solution de lexercice 10 : (a), (b) et (d)


Ass. Cdrick Tombola M. 31

.III.
MODELE DE REGRESSION LINEAIRE SIMPLE

III.1. Modlisation et hypothses

La corrlation, comme dveloppe au chapitre prcdent, sert avant tout { quantifier le degr dassociation
linaire entre deux variables quantitatives dont la position, dans ltude, est symtrique. Elle ne permet
donc ni dtablir une causalit, ni de mesurer limpact dune variable sur lautre.

Dans le modle de rgression linaire simple par contre, la position des variables dans lanalyse nest pas
symtrique. On connait, { priori, la variable alatoire qui cause lautre [Y=f(X)] 19, ce qui rend possible la
mesure de limpact ou de la contribution de X dans lexplication de Y. La plupart du temps, et comme le mot
lindique, le modle de rgression linaire simple considre que la variable expliquer Y est une fonction
affine de la variable explicative X. Mathmatiquement, cette dpendance linaire scrit de la sorte :

[3.1] Yt = 0 + 1Xt

o 0 et 1 sont les paramtres du modle qui permettent de caractriser la relation de dpendance linaire
qui existe chaque date t entre Xt et Yt.

Encadr 2. Fonction affine


Une fonction affine est toute fonction de la forme : Y = a + bX [avec a et b *]
a : est lordonne { lorigine ou lorigine
b : est la pente de la droite ou le coefficient angulaire [directeur]
La fonction affine est appele aussi fonction linaire si a =0
Graphe dune fonction affine
[considrons le cas o a > 0 et b > 0] La pente dune droite mesure la variation de Y quand
on se dplace le long de la droite en accroissant X
dune unit.

Y Gomtriquement, la pente b est donne par :


Y = a + bX
E
b = tg () =

=
Y = Y1 Y0
D Et lquation dune droite passant par deux points, de
F
X = X1 X0 coordonnes (X0, Y0) et (X1, Y1), est :
a
Y Y0 = b (X X0)
0 X Algbriquement, la pente sobtient en
drivant Y par rapport X :

b= ou b= = [Si donnes discrtes]

19
Cette information est gnralement fournie par la thorie conomique, ou peut simplement dcouler de lobjectif de
ltude du modlisateur.
Ass. Cdrick Tombola M. 32

Sous sa spcification conomtrique, le modle [3.1] scrit comme suit :

[3.2] Yt = 0 + 1Xt + ut

Dans ce cas de la rgression linaire simple 0 est le terme constant ou lorigine et 1 la pente.

Comme pour la corrlation, avant toute analyse, il intressant de toujours commencer par un examen
graphique travers un diagramme de dispersion du type de relation qui lie les deux variables
considres. Il faut noter, par ailleurs, que le raisonnement qui sera dvelopp dans la suite de ce chapitre,
ne peut sappliquer que si Y peut scrire comme une fonction affine de X.

Considrons le jeu de donnes ci-aprs o un chercheur veut expliquer lhabilit en lecture (Y) de dix sujets
chantillonns par le nombre dheures de lecture par semaine (X). Y est mesure en laboratoire { laide
dun test dhabilit en lecture alors que X est estim par les sujets eux-mmes.

Y 20 5 5 40 30 35 5 5 15 40
X 5 1 2 7 8 9 3 2 5 8

Dun point de vue pratique, rgresser Y sur X prsente un objectif double :

Ajuster un modle linaire pour expliquer les valeurs prises par Y par celles de X. Autrement, il
sagit de faire un ajustement linaire, cest--dire de remplacer le nuage de points des couples (x i,
yi) par une droite qui sy adapte le mieux que possible.
Prdire les valeurs de Y pour les nouvelles valeurs de X.

Pour le jeu de donnes ci-dessus, on a les graphiques suivants :

Graphique nuage de points Sens de lajustement linaire


50 50

40 40
et
30 30

20 20

10 10

0 0
0 2 4 6 8 10 0 2 4 6 8 10

Lajustement linaire [ou rgression linaire] consiste donc { tracer une droite dajustement appele
galement droite de rgression qui, sans passer par tous les points du nuage, sy approche le mieux. Pour
a, il faut donc un critre quantifiant la qualit de lajustement.

Le critre auquel on se rfre dans ce chapitre, et trs souvent en conomtrie, est le critre ou la mthode
des Moindres Carrs Ordinaires [MCO] 20. On utilise souvent le terme anglais OLS [Ordinary Least Squares]
pour dsigner la mme mthode.

20
Certains auteurs ironisent en disant que la mthode nous sert { mettre un chapeau sur nos .
Ass. Cdrick Tombola M. 33

Hypothses

Lapplication du critre des moindres carrs ordinaires repose sur les hypothses suivantes :
Hypothses sur la partie systmatique Hypothses sur la partie stochastique
H1. Les variables X et Y sont observes sans erreur. Y est H5. Hypothse de centralit : E(ut)=0
alatoire par lintermdiaire de ut, cest--dire que la seule Cest--dire quen moyenne, linfluence de ut sur le
erreur possible sur Y provient des insuffisances de X modle est nulle, ce qui revient admettre que le modle
expliquer ses valeurs dans le modle. est correctement spcifi.
H2. Les variables X et Y doivent tre gaussiennes et H6. Hypothse non autocorrlation des erreurs :
stationnaires en niveau. E(uiuj) = 0 i j
H3. Le modle est linaire en ses paramtres tels que Les erreurs ut de diffrentes priodes sont indpendantes
lexprime lquation [3.2]. les unes des autres.
H4. Le nombre dobservations n doit tre suprieur au H7. Hypothse dhomoscdasticit des erreurs :
nombre des paramtres estimer. E(uiuj) = i =j
Les erreurs ut ont une variance constante et finie. Plus
explicitement, il sagit dassumer que les variables
explicatives omises dans le modle influent toutes
pratiquement de faon constante sur la variable
explique.
H8. Hypothse de normalit des erreurs: ut (0, )
Cette hypothse est la cl de linfrence statistique. Elle
est donc ncessaire pour mener les tests.
H8. Hypothse dindpendance entre la partie systmatique et la partie alatoire : Cov (Xt, ut)=0.
Cette hypothse signifie que lerreur et les variables explicatives ont une influence spare sur la variable endogne.

Note : (i) Lorsque les hypothses H4, H5 et H6 sont ralises, on dit que les erreurs sont des bruits blancs.
Et lorsquon y ajoute lhypothse H7, on parle des bruits blancs gaussiens.
(ii) Lorsque toutes les hypothses sous-tendant la mthode des MCO sont remplies, le thorme de
Gauss Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], cest--dire quils
sont les meilleurs estimateurs linaires, non biaiss et variance minimale.

III.2. Estimateurs des moindres carrs ordinaires

Le critre des MCO permet dobtenir lquation de la meilleure droite dajustement : = + Xt, appele
galement droite des moindres carrs.

Le travail, qui permet dobtenir la droite, consiste choisir les paramtres et , en utilisant les
informations apportes par lchantillon, de manire rendre minimale la somme des carrs des carts
[rsidus] entre les valeurs observes de Y et ses valeurs prdites par le modle.

Note : Les rsidus, nots et, sont lestimation de lerreur ut sur base de donnes de lchantillon [et = ], elle
est donne par : et = Yt .

Mathmatiquement, le critre des MCO se prsente comme suit :

Min S = =

La dtermination de et se fait en appliquant les conditions du premier ordre :

=0 [3.3]

=0 [3.4]
Ass. Cdrick Tombola M. 34

En appliquant ces drives partielles, on obtient les quations normales, partir desquelles sont tirs les
estimateurs des MCO :

Y = n + X [3.5]

XY = X + X2 [3.6]

A partir de [3.5], en divisant toute la relation par n, on dtermine lestimateur de 0 :

= [3.7]

Aprs substitution de dans la deuxime quation normale [3.6], on tire lestimateur de 1 :

= [3.8]

Un dveloppement mathmatique simple permet dexprimer par le produit de la covariance empirique


entre X et Y et de la variance empirique de X.

= = [3.9]

En utilisant les variables centres, est donne par le rapport :

= [3.10]

et sont donc les estimateurs des moindres carrs ordinaires. est le paramtre dintrt qui capture
entirement la dpendance linaire de Y envers X.

1re consquence : La droite des moindres carrs = + Xt passe forcment par lorigine et le point
de coordonnes ( , ), appel le centre de gravit ou le point moyen du nuage de points. Pour le vrifier, il
suffit de raliser une projection pour le point :
( )= +
=( )+
=
Ce rsultat montre que lorsquon travaille sur les carts { la moyenne arithmtique [variables centres], on
reste sur la mme droite dajustement ce qui implique que la pente reste inchange , mais lon soulve
les axes jusquau centre de gravit.

Y45 y
40
35
30
25
( , )
=20 x
15
10
5
0 X
0 1 2 3 4 =5 6 7 8 9 10
Ass. Cdrick Tombola M. 35

Ainsi, en travaillant avec les carts { la moyenne arithmtique, lorigine peut disparaitre
momentanment, car une petite manipulation suffit le retrouver. La fonction affine = + Xt devient
linaire :
= [3.11]

2me consquence : la droite des moindres carrs a pour quation :

= (Xt ) [3.12]

On dmontre aussi que la moyenne arithmtique de est gale :

=
=

= +
=

3me consquence : la somme et donc la moyenne arithmtique des rsidus est nulle dans une rgression
avec constante. En effet :
=
=n -n -n
= n n( )-n
=0
4me consquence : il existe un lien entre la pente dune rgression linaire simple et le coefficient de
corrlation de Bravais Pearson rXY:
= =
= rXY
Lcart type tant non ngatif, la pente et le coefficient de corrlation de Pearson r XY auront toujours le
mme signe.

Synthse des formules des formules pour lestimation des 0 et 1

Donnes brutes Variables centres rXY connu


Connaissant lorigine
= + Xt et le centre de gravit
Modle estim = + Xt
=
Equations normales
Y = n + X - Tracer la droite des
moindres carrs ;

XY = X + X2 = - est la pente de la
Formules = rXY
Estimateurs 21 droite, soit :
=
=
=

21
Lestimateur est une formule, et lestimation est la valeur quon trouve en appliquant lestimateur.
Ass. Cdrick Tombola M. 36

2
III.3. Dcomposition de la variance totale et coefficient de dtermination R

Lanalyse de la variance a pour objet de driver un indicateur synthtique, appel coefficient de


dtermination R2, qui value la qualit de lajustement ralis en appliquant le critre des moindres carrs. Il
indique donc dans quelle mesure, la variable explicative X nous permet damliorer nos connaissances sur la
variable endogne Y.

Soit yt = + et [3.13]

La somme des carrs, dans [3.13], donne :

= [3.14]

Aprs dveloppement de la relation [3.14], on obtient lquation danalyse de la variance :

SCT = SCE + SCR [3.15]


= + [3.16]

Interprtation de lquation danalyse de la variance :

SCT est la somme des carrs totaux. Elle indique la variabilit totale de Y.
SCE est la somme des carrs expliqus. Elle indique la variation de Y due sa rgression linaire sur X.
SCR est la somme des carrs rsiduels. Elle indique la variabilit de Y non explique par le modle.

2
Drivation du coefficient de dtermination R

2
A partir de lquation [3.15], le R correspond au rapport :

2
R = [3.17]
2
Ainsi, le R peut tre interprt comme la proportion de variance de Y explique par le modle.

Toujours partir de la relation [3.15], on peut dduire les informations suivantes :


Au meilleur des cas Au pire des cas
SCR = 0 SCE = 0
SCT = SCE SCT = SCR
2 2
R =1 R =0
Le modle est parfait, la droite de rgression passe Le modle est mauvais, la meilleure prdiction de Y
par tous les points du nuage. est sa propre moyenne.
2 2
Intervalle de variation du R 0R 1
2
R = = 1-

= =

2 =
Autres formules du R

= =

Avec la pente de la droite de rgression de X sur


Y, soit = + Yt.
2
Plus le R est proche de 1, meilleur est lajustement, la connaissance des valeurs de X permet de
Ass. Cdrick Tombola M. 37

deviner avec prcision celles de Y.


2
Plus le R est proche de 0, mauvais est lajustement, X napporte pas dinformations utiles sur Y.
2
Il faut tout de mme faire attention quant au crdit accorder au R , il doit toujours tre accompagn
dautres tests [Student et Fisher essentiellement] avant de trancher sur la bont dun modle, mais il
reste un critre non ngligeable pour la prvision.

2
Relation entre le coefficient de corrlation de Pearson et le R
2
Pour une rgression linaire simple, et seulement dans ce cas, le R nest rien dautre que le carr du
coefficient de corrlation de Pearson. La dmonstration est relativement simple.

Partant de la relation = rXY , on peut tirer rXY et en llevant au carr, on a :

= =

= =
2
=R

Par consquent rXY = signe ( )

2
Note : Comme le coefficient de corrlation linaire de Pearson, le R , pour une rgression linaire simple,
est symtrique.

III.4. Test de significativit des paramtres

Etant donn que les valeurs et ne sont que des estimations des paramtres 0 et 1 inconnus de la
population, il faut donc sassurer de leur fiabilit statistique. Pour appliquer les tests sur les paramtres, il
est important de connatre leurs variances et la variance rsiduelle.

La dmonstration22 du thorme de Gauss Markov conduit la construction de la matrice symtrique


des covariances variances suivante23 :

= =

Et la variance rsiduelle est donne par : =

22
Pour les dtails, lire par exemple Bourbonnais (2005), Bofoya (2007), Bosonga (2010).
23
Appele souvent matrice COVA, note par la lettre Omega ().
Ass. Cdrick Tombola M. 38

Test de significativit individuelle

Le test de significativit individuelle porte sur chaque paramtre. Les hypothses du test sont :

H0 : i = 0 [le paramtre est statistiquement nul, non significatif]

H1 : i 0n [le paramtre est statistiquement non nul, significatif]

Il sagit dun test bilatral [two-tail ou two-sided]24. Il est bas sur la statistique t de Student calcule
comme suit :

= [3.18]

Sous H0, la formule [3.18] devient :

= [3.19]

On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication
contraire] et (n 2) degrs de libert.

Critre de dcision : Si > t/2 ; (n 2) [valeur lue dans la table de Student], alors RH0, le paramtre est
statistiquement non nul, la variable lui associe est par consquent non pertinente dans la prdiction de Y.

Intervalle de confiance des paramtres i

Le RH0 revient simplement { refuser que le paramtre i de la population est nul, cela ne signifie nullement
que serait la vraie valeur du paramtre i. Ainsi, on peut, en se basant sur les paramtres estims et en
assumant un risque donn, construire des intervalles de confiance pour les paramtres i.

Ces intervalles de confiance sont trouvs en appliquant la formule :

I= t/2 ; (n 2) [3.20]

Test de significativit conjointe ou globale

Un autre test consiste tester la significativit conjointe de tous les paramtres estims du modle. Cest le
tes bas sur la statistique de Fisher, appel aussi test danalyse de la variance ANOVA. La statistique du test
est donne par le rapport suivant :

F= [3.21]

2
Une manipulation simple permet dexprimer F en fonction du R comme ci-aprs :

F= [3.22]

Le test F teste statistiquement la raison dtre du modle. Par ailleurs, partant de la relation [3.22], daucuns
considrent quil teste la significativit du coefficient de dtermination.

24
Cest--dire que H0 est rejete que le coefficient soit positif ou ngatif.
Ass. Cdrick Tombola M. 39

Dans le cas dune rgression linaire simple, le test F est confondu au test de significativit individuelle de la
pente. Les deux tests sont bass sur les mmes hypothses, et on dmontre dans ce cas que :

F= [3.23]

Preuve :

F= =

= =

= =

Les hypothses du test sont donc25 :

H0 : 1 = 0 [le modle nest pas bon]

H1 : 1 0n [le modle est bon]

Comme on le voit, valider la significativit de la pente revient, en mme temps, admettre la bont du
modle.

Sous H0, on dmontre que la statistique F suit une loi de Fisher respectivement 1 et (n-2) degrs de libert.

Critre de dcision : Si F > F [1 ; (n 2)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on
rejette H0, le modle est bon.

Significativit de la pente versus significativit du r XY de Bravais Pearson

Partant de la relation [3.22] et [3.23] ci-haut, on montre facilement que tester = 0, revient tester rXY = 0.
Cela implique quaccepter la significativit de la pente, cest accepter galement la significativit du
coefficient de corrlation linaire.

En effet, en considrant les relations [3.22] et [3.23], et en sachant que le R 2 correspond au carr du rXY, on
tablit :
=

25
Le test de significativit globale ne porte que sur les paramtres associs aux variables exognes.
Ass. Cdrick Tombola M. 40

III.5. Prvision dans le modle de rgression linaire simple

Lun des objets de lajustement linaire quon effectue est de nous aider { prdire les valeurs de Y pour les
nouvelles de X, bref prvoir.

Connaissant la nouvelle valeur de X pour un horizon h, note Xn+h, on distingue deux types de prvision de la
valeur de Y { lhorizon considr : la prvision ponctuelle et la prvision par intervalle.

La prvision ponctuelle est trs simple. Connaissant Xn+h, il suffit de substituer cette valeur dans
lquation estime pour obtenir la valeur correspondante de Y, soit :

= + Xn+h [3.24]

Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ci-
aprs :

Yn+h I= t/2 ; (n 2) [3.25]

o est lcart-type de lerreur de prvision26. Il est donn par la formule :

= [3.26]

Encadr 3. Rgression sans terme constant

Soit le modle : Yt = Xt + ut
Le travail destimation de ce modle doit inclure les nuances suivantes :

La droite des MCO passe forcment par l'origine des axes ;


La droite des MCO ne passe plus forcment par le barycentre ou le centre de gravit du nuage des
points ;
La dcomposition de la variance telle que dcrite dans ce chapitre n'est plus valable ;
Le test d'analyse de la variance (Fisher) n'a plus de sens ;
Le coefficient de dtermination R2 ne peut plus tre lu en termes de proportion de variance
explique par la rgression. Il peut mme prendre des valeurs ngatives ;
La pente de la rgression peut tre interprte d'une autre manire. Elle reprsente directement
le rapport entre les variables cest--dire = .

L'estimateur des MCO de la pente de la rgression sans constante s'crit :

L'estimateur de la variance de l'erreur et le Student thorique doivent tenir compte des degrs de libert,
cest--dire :
= et = t/2 ; (n 1)

Source : Adapt de R. Rakotomalala, 2011.

26
Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.
Ass. Cdrick Tombola M. 41

Exercices sur le modle de rgression linaire simple

Exercice 1
Le tableau ci-dessous reprsente lvolution du revenu disponible brut et de la consommation des mnages
en euros pour un pays donn sur la priode 1992-2001. [Pour les calculs, prendre 4 chiffres aprs la virgule].

Anne Revenu Consommation


1992 8000 7389.99
1993 9000 8169.65
1994 9500 8831.71
1995 9500 8652.84
1996 9800 8788.08
1997 11000 9616.21
1998 12000 10593.45
1999 13000 11186.11
2000 15000 12758.09
2001 16000 13869.62

On cherche expliquer la consommation des mnages (C) par le revenu (R), soit :
Ct = + Rt + ut
Travail faire :
(i) Tracer le nuage de points et commenter.
(ii) Estimer la consommation autonome et la propension marginale consommer et .
(iii) En dduire les valeurs estimes de Ct.
(iv) Calculer les rsidus et vrifier la proprit selon laquelle la moyenne des rsidus est nulle.
(v) Calculer lestimateur de la variance de lerreur.
(vi) Tester la significativit de la pente.
(vii) Construire lintervalle de confiance au niveau de confiance de 95% pour le paramtre .
(viii) Calculer le coefficient de dtermination et effectuer le test de Fisher permettant de dterminer
si la rgression est significative dans son ensemble.
(ix) Ecrire et vrifier lquation danalyse de la variance. Interprter.
(x) Aprs un travail minutieux, un tudiant de L1 FASE trouve le coefficient de corrlation linaire
entre Ct et Rt suivant rXY = 0.99789619. Sans le moindre calcul, tester la significativit de ce
coefficient. Argumenter.
(xi) En 2002 et 2003, on prvoit respectivement 16800 et 17000 euros pour la valeur du revenu.
Dterminer les valeurs prvues de la consommation pour ces deux annes, ainsi que
lintervalle de prvision au niveau de confiance de 95%.

Solution de lexercice 1

(i) Le graphique nuage de points est donn ci-dessous :

15000

10000

5000

0
0 5000 10000 15000 20000
Ass. Cdrick Tombola M. 42

Ce graphique tmoigne de lexistence dune association linaire positive, presque parfaite, entre la
consommation des mnages (Ct) par le revenu (Rt), ce qui autorise lestimation de la relation les liant par la
mthode des moindres ordinaires.

(ii) Pour simplifier lestimation de la consommation autonome ( ) et de la propension marginale


consommer , posons ce qui suit :
Yt =Ct ; Xt = Rt ; =0 et = 1. Ce qui nous permet dcrire le modle donn dans lexercice comme suit :
Yt = 0 + 1Xt + ut

A partir des calculs effectus dans le tableau ci-dessous, on a :

Estimation de la propension marginale consommer

= = = 0,78098

Estimation de la consommation autonome


= = 9985,575 0,78098(11280) = 1176,0896

Le modle estim est par consquent : = 1176,0896 + 0,78098Xt.

(iii) Voir tableau ci-dessous. Ces valeurs sont trouves en remplaant dans lquation de la droite des
moindres : = 1176,0896 + 0,78098Xt, pour chaque date, Xt par sa valeur.

(iv) Voir tableau ci-dessous. Les rsidus sont calculs daprs la formule et =

(v) Lestimateur de la variance de lerreur est donne par = , connaissant n =10 et (voir

tableau), on obtient :

= = 20646,1728

(vi) La pente ici est la propension marginale consommer, soit . Le test de significativit de ce
coefficient requiert son cart-type . Connaissant la variance de lerreur, la variance de est calcule comme
suit :

Var ( ) = = = 0,0003 = 0,0179

Par consquent son ratio de Student est :

= = = 43,5352 t0.025 ; 8 = 2.306.

Puisque > ttable la pente est statistiquement significative.

(vii) Lintervalle de confiance au niveau de confiance de 95% (au seuil de 5%) pour le paramtre 1 est
construire comme suit :
I = [ (t0.025 ; 8) ; + (t0.025 ; 8) ]

En faisant les remplacements ncessaires, on trouve : I = [0,7396 ; 0,8224]


Ass. Cdrick Tombola M. 43

(viii) Le coefficient de dtermination R2 peut tre calcul par la formule (les valeurs viennent du tableau
ci-dessous) :

2
R = = = 0,9958

Connaissant le t de Student de la pente, la statistique de Fisher peut se calculer comme suit :

F= = (43,5352)2 = 1895,3136 F [1 ; 8] = 5, 32. Puisque F >Ftable RH0, la rgression est significative dans son
ensemble.

(ix) Lquation danalyse de la variance est :

SCT = SCE + SCR = + 39296098,1837 =39130928, 8011 +165169, 3826

(x) Nous savons que dans un modle linaire simple, accepter la significativit de la pente revient
accepter celle du coefficient de corrlation linaire. La pente tant significative, le rXY lest aussi
naturellement.

(xi) La prvision ponctuelle ne pose aucun problme. La prvision par intervalle requiert lestimation de
lcart-type de lerreur de prvision. Elle est donne par :

Yn+h I= (t0.025 ; 8)
o

En effectuant les remplacements ncessaires, au niveau de confiance de 95% (au seuil de 5%), on a les rsultats
suivants :

Prvision ponctuelle Prvision par intervalle


Yn+h [13949,0697 ; 14644,1299]
2002 = 1176,0896 + 0,78098(16800) = 14296,5998
Yn+h [14105,2657 ; 14800,3269]
2003 = 1176,0896 + 0,78098(17000) = 14452,7963

Le tableau rcapitulant tous les calculs est repris ci-dessous.


Ass. Cdrick Tombola M. 44

Anne Yt Xt yt xt xtyt et

1992 7389,99 8000 -2595,585 -3280 8513518,8 10758400 7423,9516 -33,9615958 1153,389989 6737061,4922 -2561,6234 6561914,4650
1993 8169,65 9000 -1815,925 -2280 4140309 5198400 8204,93434 -35,28434098 1244,984718 3297583,6056 -1780,6407 3170681,1566
1994 8831,71 9500 -1153,865 -1780 2053879,7 3168400 8595,42571 236,2842864 55830,26401 1331404,4382 -1390,1493 1932515,0386
1995 8652,84 9500 -1332,735 -1780 2372268,3 3168400 8595,42571 57,41428643 3296,400286 1776182,5802 -1390,1493 1932515,0386
1996 8788,08 9800 -1197,495 -1480 1772292,6 2190400 8829,72054 -41,64053713 1733,934332 1433994,2750 -1155,8545 1335999,5393
1997 9616,21 11000 -369,365 -280 103422,2 78400 9766,89983 -150,6898313 22707,42527 136430,5032 -218,6752 47818,8294
1998 10593,5 12000 607,875 720 437670 518400 10547,8826 45,56742347 2076,390081 369512,0156 562,3076 316189,8106
1999 11186,1 13000 1200,535 1720 2064920,2 2958400 11328,8653 -142,7553217 20379,08188 1441284,2862 1343,2903 1804428,8884
2000 12758,1 15000 2772,515 3720 10313755,8 13838400 12890,8308 -132,7408121 17620,12319 7686839,4252 2905,2558 8440511,3336
2001 13869,6 16000 3884,045 4720 18332692,4 22278400 13671,8136 197,8064427 39127,38879 15085805,5620 3686,2386 13588354,7011
0 0 50104729 64156000 0 165169,3825 39296098,1837 0 39130928,8011
n=10 ; =9985,575
=11280

Exercice 2
Soit le modle linaire Yt = 0 + 1Xt + ut. O Yt reprsente la quantit offerte de pommes et Xt le prix.
On donne les informations suivantes : = 5 et =3.

Aprs estimation, on a la droite de rgression suivante : = + Xt. Connaissant le couple (Y=2.5 ; X=2) par lequel passe cette droite de rgression, trouver et .

Solution de lexercice 2

Connaissant le couple (Y=2.5 ; X=2) et le centre de gravit du nuage de points ( = 5 ; =3), on peut reproduire la droite des moindres carrs de cette estimation comme ci-
aprs :
Y 5 2.5
X 3 2
Ass. Cdrick Tombola M. 45

5,5
5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0 1 2 3 4

En mesurant la pente de cette droite, on trouve la pente = = 2,5.


Connaissant la pente et les deux moyennes et , est calcul comme suit :

= = 5 (2,5)3 = 2,5

Et le modle estim (quation de la droite des MCO) est : = 2,5+ 2,5Xt

Exercice 3
Soit un modle linaire simple : Yt = 0 + 0Xt + ut

On donne les informations suivantes :

YX=184500 Y2=26350 X2=1400000 =60 =400 n=7

Travail demand :

- Estimer les coefficients du modle


- Evaluer la qualit de cet ajustement
- Tester la significativit globale du modle

Solution de lexercice 3

En fonction des donnes en prsence, les formules suivantes seront utilises pour rpondre aux trois questions
poses :
= et =

R2 =

F=

Aprs calcul, sachant que YX =XY, on a les rsultats suivants :

=0,0589 ; = 36,44 ; R2=0,8455 ; F = 27, 3618

Le R2 tant relativement lev, environ 85%, lajustement effectu est de bonne qualit. Et puisque F > F [1 ; 5] =
6,61, on en conclut que le modle est globalement bon.
Ass. Cdrick Tombola M. 46

Exercice 4

Soit le modle : Yt= 0 + 1Xt + ut

Yt : salaire moyen horaire par jour [en USD]


Xt : nombre dannes dtudes

On donne par ailleurs les informations suivantes : rXY= 0.951916 ; x=3.894440 et y=2.945636

Aprs estimation, sur base dun chantillon de 13 observations, un tudiant de L1 FBA prsente les rsultats
incomplets ci-aprs :

= 0.030769 + .. Xt

Travail demand :

(i) Complter les pointills.


(ii) Tester la significativit du rXY.
(iii) Interprter ces rsultats. Semblent-ils logiques ?
(iv) Calculer le R2.
(v) Tester la significativit de la pente et la significativit densemble du modle.

Solution de lexercice 4

(i) Connaissant rXY, x et y, la pente est estime par la formule = rXY , ce qui donne, en
remplaant :

=0, 7200. On a ainsi :

= 0,030769 + 0, 7200 Xt

(ii) Le t calcul pour rXY= 0,951916 donne tcal = 10,3054 et le t0.025 ; 11 = 2,201. Puisque tcal > ttable, on
conclut que le rXY est statistiquement non nul.

(iii) Il y a lien fort et positif entre le salaire moyen horaire par jour et le nombre dannes dtudes. En
effet, ces rsultats semblent logiques car il est tout fait normal que ceux qui beaucoup tudi gagnent un peu
plus que ceux qui ont tudi un peu moins.

(iv) On sait que, pour un modle de rgression linaire simple avec terme constant, le R 2 nest rien
dautre que le carr du coefficient de corrlation de Bravais Pearson. Ainsi :

R2 = (0, 951916)2 = 0,9061

(v) Connaissant le R2, on a : F = 106, 2009 F [1 ; 11] = 4, 84. On sait de plus que dans un modle linaire
simple, le F nest rien dautre que le carr du t de Student associ la pente. Le t de Student de la pente est
donc obtenu en prenant la racine carr de F, soit :

10,3054 > t0.025 ; 11 = 2,201

En conclusion, la pente est statistiquement significative et le modle est valable dans lensemble.
Ass. Cdrick Tombola M. 47

Exercice 5
Le tableau suivant donne lge et la tension artrielle Y de 12 femmes :

Individu 1 2 3 4 5 6 7 8 9 10 11 12
Age (X) 56 42 72 36 63 47 55 49 38 42 68 60
Tension artrielle (Y) 136 132 136 130 138 132 136 130 142 134 136 140

Travail demand :

(i) Dterminer lquation de la droite de rgression de Y sur X.


(ii) Tester la significativit de la pente. Quelle conclusion peut-on tirer ?
(iii) Estimer la tension artrielle dune femme ge de 50 ans.

Solution de lexercice 5

Lquation de la droite de rgression de Y sur X est :

= 129,5193 + 0,1079Xt
(5,0449) (0,0942)
(.) : cart-type

La statistique t de Student de la pente est tcal = 0,1079/0,0942 = 1,1455. Le Student thorique, au seuil de 5% et
10 degrs de libert est ttable = 2,228. Do la pente est statistiquement nulle, ce qui signifie que lge nexplique
en rien la tension artrielle.

La tension artrielle dune femme ge de 50 ans est : = 129,5193 + 0,1079(50) =134,9149

Exercice 6
Les donnes statistiques ci-dessous portent sur les poids respectifs des pres et de leur fils an.

Pre 65 63 67 64 68 62 70 66 68 67 69 71
Fils 68 66 68 65 69 66 68 65 71 67 68 70

Travail demand :

(i) Calculer la droite des moindres carrs du poids des fils en fonction du poids des pres.
(ii) Calculer la droite des moindres carrs du poids des pres en fonction du poids des fils.
(iii) Que vaut le produit des pentes des deux rgressions ?
(iv) Juger de la qualit des ajustements faits en (i) et (ii).

Solution de lexercice 6

Soient Y=Fils et X=Pre.

La droite des moindres carrs du poids des fils en fonction en fonction des pres, aprs estimation est :

= 35,8248031 + 0,47637795Xt

Et la droite des moindres carrs du poids des pres en fonction en fonction des fils, aprs estimation est :

= -3,37687366 + 1,03640257Xt
Ass. Cdrick Tombola M. 48

Le produit de deux pentes donne le R2 qui, comme le coefficient de corrlation linaire, est un indicateur
symtrique. On a ainsi :

R2 =0,47637795 * 1,03640257 = 0,49371933

Au regard de la valeur du R2 faible, environ 49%, les ajustements effectus en (i) et (ii) ne sont de bonne qualit.

Exercice 7
Cocher la bonne la rponse.
1. La droite des MCO dune rgression linaire simple avec constante passe-t-elle par le point ( , ) ?
A. Toujours
B. Jamais
C. Parfois
2. Pour une rgression linaire simple, le R2 est symtrique :
A. Oui
B. Non
C. Parfois
3. Pour une rgression linaire simple, le R2 correspond au carr du F de Fisher :
A. Oui
B. Non

Solution de lexercice 7

1 A ; 2A ; 3B.

Exercice 8
Soient les donnes suivantes :

= 114 = 36 = 226 = 702

Estimer la relation Yt = 0 + 1Xt + ut

Indication : n = 6.

Exercice 9
Soit le modle suivant sans terme constant : Yt = Xt + ut.

Trouver lestimateur des MCO.

Solution de lexercice 9

En appliquant le critre des MCO, minimisation de la somme des erreurs quadratiques, cette relation, on
obtient :
Ass. Cdrick Tombola M. 49

Exercice 10
Soit les rsultats dune estimation conomtrique :

= - 32.95 + 1.251Xt
n = 20
R2 = 0.23
= 10.66

1) A partir des informations connues, on demande de retrouver les statistiques suivantes : la somme
des carrs des rsidus (SCR), la somme des carrs totaux (SCT), la somme des carrs expliqus
(SCE), la statistique F de Fisher et lcart-type de la pente.
2) La pente est-elle significativement suprieur 1 ?

Exercice 11
Montrer algbriquement que :
1. La somme des rsidus est toujours gale 0.
2. Tester lhypothse H0 : 1 = 0 [avec 1 la pente], revient { tester lhypothse rXY = 0.

Solution de lexercice 11 : voir texte.

Exercice 12
Le tableau ci-aprs renseigne sur la quantit offerte dun bien (Y) et son prix (X)

N 1 2 3 4 5 6 7 8 9 10
Y 23 25 30 28 33 36 31 35 37 42
X 5 7 9 6 8 10 9 7 8 11

Travail faire :

(i) Tracer le diagramme de dispersion et commenter.


(ii) Rgresser Y sur X.
(iii) Calculer les rsidus de cette rgression.
(iv) Juger de la qualit de cet ajustement.
(v) Tester la significativit individuelle et conjointe des paramtres.

Exercice 13
Le coefficient de corrlation linaire entre deux variables X et Y est r = 0.60. Si les carts-type de X et Y sont
respectivement 1.50 et 2 ; et leurs moyennes, respectivement, 10 et 20. Trouvez les quations de rgression
de Y en X et de X en Y.
Ass. Cdrick Tombola M. 50

.IV.
MODELE DE REGRESSION LINEAIRE MULTIPLE

IV.1. Formulation et hypothses de base

Le modle de rgression linaire multiple nest quune extension du modle de rgression linaire simple au
cas multivari dans lequel interviennent plusieurs variables exognes dans lexplication du phnomne
tudi. On parle aussi de modle de rgression linaire gnral ou standard pour souligner que ce modle
reste valable quel que soit le nombre dexognes qui sy figurent. Dans sa forme gnrale, il scrit de la
sorte :

o chaque est un coefficient marginal qui aprs estimation saisit, ceteris paribus, leffet dune
variation dun point de la variable exogne Xj sur la variable endogne ; t=1, , n correspond { la date des
observations.

Si lon considre plusieurs dates, la relation [4.1], sous forme matricielle, scrit :

o k est le nombre de variables explicatives, k+1 le nombre de paramtres que lon prendra lhabitude de
noter par K dans la suite de ce chapitre.

Sous forme compacte, on a :

[4.2] Y = X + U

En principe, le critre des moindres carrs ordinaires, comme pour le modle simple, ne soulve aucune
difficult, la diffrence que pour le modle multiple au lieu de calculer une droite, on calcule un plan ou un
hyperplan.

En algbre linaire, les hyperplans sont des sous-espaces vectoriels particuliers. Dans un espace 3 dimensions, la
notion dhyperplan est confondue avec celle de plan, mais cela nest plus vrai quand on dpasse 3 dimensions.
Ass. Cdrick Tombola M. 51

Hypothses de base

La mthode des moindres carrs ordinaires repose sur les hypothses suivantes :
Hypothses stochastiques Hypothses structurelles
H1. Les erreurs sont IID (0, ). Cette hypothse implique que H3. Le modle est linaire ou linarisable en X
les erreurs sont normalement distribues, non-autocorrles et [ou sur ses paramtres] tels que lexprime la
homoscdastiques. relation [4.2].

Formellement, on a : H4. Les exognes Xj et la variable endogne Y


sont observes sans erreur. Y est alatoire par
lintermdiaire de ut.

H5. Les exognes Xj et la variable endogne Y


sont gaussiennes et stationnaires en niveau.

H6. Le nombre dobservations n doit tre


suprieur au nombre des paramtres estimer.

H7. La matrice XX est non singulire de rang K,


cest--dire et existe. Cette
hypothse implique labsence de colinarit
entre les exognes, autrement dit les diffrents
vecteurs Xj sont linairement indpendants. En
cas de multicolinarit, la mthode des MCO
devient dfaillante.

H2. Il y a indpendance entre la partie systmatique et la partie


stochastique, soit E(XU) = 0.

IV.2. Estimateurs des MCO et proprits

Comme vu au chapitre prcdent, les diffrents sont obtenus en minimisant la somme quadratique des
rsidus. Mathmatiquement, le problme se prsente comme suit :

[4.3]

En notation matricielle, la relation [4.3] scrit :

[4.4]

Par consquent, on a :

[4.5]

Un bref rappel matriciel est propos en annexe 1 de ce chapitre.


Ass. Cdrick Tombola M. 52

En effectuant dans la parenthse, il vient :

[4.6]

Les termes et tant des scalaires provenant des variables identiques, ils sont gaux et on peut
donc les regrouper. Ce qui permet dcrire :

[4.7]

En appliquant les conditions du premier ordre, on obtient les quations normales telles que :

En considrant un modle simple, la relation [4.8] devient :

En effectuant dans chaque bloc, on obtient :

On retrouve ainsi les quations normales, vues au chapitre prcdent, pour un modle simple. Mais
pourquoi normales ? La rponse cette question est propose ci-aprs.

Dans le systme ci-haut, renvoyons tous les termes dans un membre, il vient :

Exprime sous forme vectorielle, la dernire quation scrit : Xe = 0. Un vecteur tel que e, orthogonal
tout vecteur de lhyperplan engendr par X, est dit normal { lhyperplan. Do le qualificatif "dquations
normales".

En pratique, lestimation ponctuelle par les MCO se fait en pr-multipliant chaque ct de la relation [4.8]
par , ce qui permet dcrire******** :

[4.9]

********
o est une matrice forcment symtrique, de mme que son inverse ( )1.
Ass. Cdrick Tombola M. 53

Proprits des estimateurs

Le thorme de Gauss Markov avance, au respect des hypothses de base susmentionnes, que dans la
famille des estimateurs linaires non biaiss, ceux des MCO sont les meilleurs car ayant la variance la plus
faible.

. Estimateurs linaires

Pour dmontrer cette proprit, il suffit, dans lquation [4.9], de poser = , il vient :

. Estimateurs sans biais

Rcrivons la relation [4.9] comme suit :

Ainsi,

[4.10]

En passant lesprance mathmatique de , il ressort clairement que est sans biais :

[4.11] E( =

. Estimateurs convergents

Les variances des estimateurs OLS sont calcules comme suit.

Var( ) = E

Connaissant les relations [4.10] et [4.11], il vient :

Aprs une petite manipulation simple, on obtient :

[4.12]

Ou encore :

Il faut noter en passant que la matrice est symtrique, elle est donc gale sa transpose.
Ass. Cdrick Tombola M. 54

Et lestimateur de la variance rsiduelle est donn par la formule suivante :

Ainsi obtient-on :

[4.13]

Lorsque le nombre dobservations tend vers linfini, lexpression [4.13] ci-dessus tend vers zro. Par
consquent, lestimateur est convergent. Toutefois, la condition suffisante serait que les variables
exognes ne tendent pas devenir colinaires lorsque n tend vers l'infini. De plus, selon le thorme de
Gauss-Markov, Var( ) Var( ) [avec un estimateur linaire et non biais obtenu par une autre mthode
que les MCO]

La relation [4.13] est la matrice COVA. Sur sa diagonale principale, on lit les variances estimes de [ ],
ncessaires pour mener les tests statistiques.

Consquence du thorme de Gauss-Markov

Soit le modle de rgression linaire multiple suivant :

o ut N(0, ). Lapplication de la mthode OLS { cette quation implique que .

1re consquence : Sous lhypothse de normalit des erreurs, non seulement que lestimateur des MCO est
BLUE par le thorme de Gauss-Markov, mais il devient le meilleur estimateur sans biais de . La variance
des estimateurs des MCO atteint la borne de lingalit de Cramer-Rao, borne infrieure pour tous les
estimateurs.

2re consquence : Sous lhypothse de normalit, on obtient des tests exacts. Sachant que
, cela revient dire que lon connat les distributions exactes des tests. On peut donc
construire les tests de Student et de Fisher dans les petits chantillons.
Ass. Cdrick Tombola M. 55

IV.3. R2 et R2 ajust

Connaissant lquation danalyse de la variance : SCT = SCE + SCR, le R2 correspond au rapport :

2
[4.14] R =

Lorsque la rgression est faite sur donnes centres, le coefficient de dtermination se calcule avec la
formule :

2
[4.15] R =

Il faut noter que, comme pour le modle simple, le coefficient de dtermination reste un indicateur du
caractre explicatif de lquation de rgression { bien modliser Y t. Il mesure ainsi la part de variance de la
variable endogne attribuable sa rgression sur les X. Ceci est confirm par le fait que le coefficient de
dtermination nest rien dautre que le carr du coefficient de corrlation de Bravais-Pearson entre les
valeurs observes et les valeurs prdites de Y.

[4.16] R2 = =

Note importante: Le coefficient de corrlation linaire entre et Y ( ) est appel coefficient de


corrlation multiple. Cela suggre d'ailleurs de construire le graphique nuage de points confrontant et Y
pour valuer la qualit de la rgression. Si le modle est parfait, les points seraient parfaitement aligns.

Bien videment [0 R2 1], plus R2 est proche de 1, plus le caractre explicatif du modle est important.

Le R2 est certes un indicateur de qualit, mais il prsente linconvnient dtre mcanique. Cest--dire que
sa valeur augmente avec laugmentation des variables explicatives, mmes non pertinentes { lexplication
du phnomne tudi.

A lextrme, si on augmente le nombre de variables explicatives, mmes impertinentes, tels que le nombre
de paramtres devienne gal au nombre dobservations, on aurait un R2=1. Ainsi, en tant que tel, le R2 nest
pas loutil appropri pour juger de lapport des variables supplmentaires lors de la comparaison de
plusieurs modles. Lorsquil augmente de manire mcanique, de lautre c t lon perd en degrs de
libert.

La mesure alternative, plus robuste { lajout des variables, qui corrige ce problme associ aux degrs de
libert est le R2 ajust de Henry Theil, appel aussi R2 corrig. Elle se dfinit comme suit :

[4.17]

Comme on le voit, il sagit l{ dun R2 corrig par les degrs de libert. Il peut dailleurs sexprimer en
fonction du R2 ; en manipulant la relation [4.17], on obtient :

[4.18]
Ass. Cdrick Tombola M. 56

Cependant, il faut faire attention de ne pas interprter le en termes de part de variance explique. Son
seul avantage est quil permet de comparer plusieurs modles. De plus, le peut prendre des valeurs
ngatives. Dans ce dernier cas, il faut lassimiler { zro.

Note importante :
Dans un modle linaire simple, R2
Dans un modle linaire multiple, < R2
Si n est grand, alors R2
Le R et le
2
nont de sens que dans un modle qui comporte un terme constant.

Coefficient de corrlation partielle

Dans le chapitre sur la corrlation, nous avions mis en vidence quil tait possible que la corrlation entre
deux variables Xi et Xj ne tienne qu{ un artefact statistique ou un facteur confondant une troisime
variable Xk laquelle Xi et Xj seraient lies en ralit , appel aussi phnomne-source. Lon peut se
souvenir de lexemple du journaliste qui a dcouvert quil existait une trs forte corrlation entre le fait
davoir un nid de cigognes sur sa demeure et le fait davoir des enfants { Washington, oubliant que cela ne
tenait quau rang social des familles tudis, car la prsence dun nid de cigognes sur le toit signifierait
plut t que la famille qui y habite est aise et donc dispose, financirement, { avoir plus denfants.

Ainsi, dans la slection des variables pertinentes { lexplication dun phnomne, pour viter une telle
ventualit o la corrlation entre la variable endogne et lexogne ne tiendrait qu{ un artefact, on a
recours au coefficient de corrlation partielle.

Le coefficient de corrlation partielle mesure la liaison entre deux variables lorsque linfluence dune
troisime variable [des autres variables prsentes dans le modle] est retire.

Coefficient de corrlation partielle du premier ordre Coefficient de corrlation partielle du deuxime ordre
Soit Y une variable endogne, et Xi, Xj et Xk des En considrant lexemple ci-contre, le coefficient de
exognes, le coefficient de corrlation partielle corrlation partielle du deuxime ordre sert quantifier
mesure le lien entre Y et chaque X, linfluence juste le lien entre Y et chaque X, linfluence de deux autres
tant exclue. Ainsi, partant du mme exemple, il est
dune troisime variable exogne tant exclue.
possible de calculer trois coefficients de corrlation
Partant de lexemple choisi, on peut calculer ainsi six partiels du deuxime ordre, soit :
coefficients de corrlation partielle du premier ordre : ; ;
; ; ; ; ; Etapes de calcul

Dans ce cas, le coefficient de corrlation partielle du Supposons que lon veule mesurer le lien entre Y et Xi,
premier ordre peut tre calcul partir des linfluence de Xj et de Xk tant neutralise, soit
coefficients de corrlation de Bravais-Pearson , on aura les tapes ci-aprs :
comme suit :
(i) Calcul des rsidus e1 issus de la rgression de
Y sur Xj et Xk ;
(ii) Calcul des rsidus e2 issus de la rgression de
Xi sur Xj et Xk ;
(iii) correspondra au carr du
En suivant les indices, ltudiant peut aisment coefficient de corrlation linaire calcul
gnraliser. entre e1 et e2 :

Pour la comparaison des modles, on utilise aussi les critres dinformation [Aikak (AIC) ; Schwarz (SC) ;
Hannan-Quinn (HQC), etc.]. A la diffrence que ces critres sont minimiser dans le choix du meilleur modle.

Appels dans ce cas coefficients dordre zro.


Ass. Cdrick Tombola M. 57

La notion de corrlation partielle est importante dans la mesure o elle permet de juger de la pertinence
dintroduire une variable exogne dans le modle. Plus lev sera le coefficient de corrlation partielle
dune variable, plus importante sera sa contribution { lexplication globale du modle.

IV.4. Test de significativit des paramtres

Test de significativit individuelle

Comme pour le cas simple, le test de significativit individuelle, qui porte sur chaque paramtre, est men
en calculant les ratios de Student. Pour un test bilatral, les hypothses du test sont :

Le ratio de Student est calcul comme suit :

[4.19] =

Sous H0, la formule [4.19] devient :

[4.20] =

On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication
contraire] et (n K) degrs de libert.

Critre de dcision : Si > t/2 ; (n K), alors RH0, le paramtre est statistiquement non nul, la variable lui
associe est par consquent non pertinente dans la prdiction de Y.

Comme cela a t vu au chapitre prcdent, lestimation par intervalle se fait en appliquant la formule ci-
aprs :

[4.21] I= t/2 ; (n 2)

Test de significativit conjointe ou globale

Le test de significativit globale sert tester la pertinence du modle. Il rpond la question de savoir si
lensemble des exognes apporte de linformation utile { la connaissance de la variable endogne. Ceci dit,
seuls les paramtres associs aux variables explicatives interviennent dans le test, la constante nest donc
prise en compte ici, car cest bien linfluence des exognes sur la variable explique que lon cherche {
tablir.

Dans la littrature anglophone, ce test est parfois considr comme un test de significativit du R 2, dans le
sens o il valuerait le pouvoir explicatif des exognes, pris dans leur globalit, sur lendogne.

Les hypothses du test sont :


Ass. Cdrick Tombola M. 58

Et la statistique calculer est :

[4.22] F=

Sous H0, on dmontre que la statistique F suit une distribution de Fisher respectivement (K 1) et (n K)
degrs de libert.

Critre de dcision : Si F > F [(K 1) ; (n K)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire],
on rejette H0, le modle est bon.

Application de tests de significativit : Test des rendements dchelle

Soit le modle suivant :

[4.23] Ln Qt = Ln A + 1Ln Lt + 2 Ln Kt + ut

o Qt est la production, Lt le travail, Kt le capital et 1 et 2 les lasticits de la production au travail et au


capital, respectivement.

La thorie macroconomique avance quil y a rendements { lchelle constants sil se vrifie que :

[4.24] 1 + 2 = 1.

Comment alors tester une telle hypothse ?

Pour tester cette restriction sur les paramtres, on suivra les tapes suivantes :

Estimer le modle [4.23] sans restriction sur les paramtres, dit modle non contraint ;
Calculer les variances de et , ainsi que leur covariance Cov( , )
Calculer ensuite le ratio de Student avec la formule :

[4.25] tcal =

Connaissant [4.24] et en sachant que Var = Var( ) + Var( ) + 2Cov( , ), la formule [4.25]
devient :

[4.26] tcal =

Tester enfin lhypothse des rendements dchelle constants contre celle des rendements
dchelle non constants, soit :

Critre de dcision : Si > t/2 ; (n K) RH0 selon laquelle il y a rendements { lchelle constants.
Ass. Cdrick Tombola M. 59

IV.5. Prvision dans le modle de rgression linaire multiple

Soit la rgression suivante de Yt sur le terme constant et sur les exognes Xj :

Si le vecteur des valeurs des exognes pour un horizon h est connu, soit R= ,
la prvision ponctuelle est faite en substituant R dans [4.27]. Ainsi obtient-on :

Ce qui, en criture matricielle, scrit :

Sous forme compacte, on a :

[4.29]

Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ci-aprs :

[4.30] Yn+h I= t/2 ; (n K)

o est lcart-type de lerreur de prvision *********. Il est donn par la formule :

[4.31] =

*********
Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.
Ass. Cdrick Tombola M. 60

Synthse des formules sur la rgression linaire multiple

Formules Indications

Modle danalyse :

donne une matrice K 1 des paramtres


Ponctuelle
estims du modle.
Estimation fixe un intervalle de confiance, avec un
Par intervalle Ii = t/2 ; (n 2) risque , dans lequel le i inconnu de la
population serait compris.
Modle estim :

sur sa diagonale principale, on lit les


Matrice COVA variances estimes de ( ), ncessaires
pour mener les tests statistiques.
2 le coefficient de dtermination reste un
Donnes brutes R = indicateur du caractre explicatif de
lquation de rgression { bien modliser
2 Yt.
R2 Donnes centres R =
, appel coefficient de corrlation
multiple, est le coefficient de corrlation
tant connu R2 = = de Bravais-Pearson entre les valeurs
observes et les valeurs prdites de Y.


2 il sagit l{ dun R2 corrig par les degrs de
R ajust de Theil
libert.

Test de
individuelle = t/2 ; (n K) [sous H0] Si > t/2 ; (n K) RH0
significativit

conjointe F= F [(K 1) ; (n K)] Si F > F [(K 1) ; (n K)] RH0

Ponctuelle
Permet de deviner la valeur de Y
Prvision Yn+h I= t/2 ; (n K) la priode h, les exognes de la
Par intervalle mme priode tant fixes.
o =
Ass. Cdrick Tombola M. 61

IV.6. Utilisation des variables indicatrices


Synonyme : variables qualitatives, binaires, dummy, muettes, dichotomiques, auxiliaires, artificielles.

Une variable indicatrice est une variable spciale qui ne prend que deux valeurs, savoir :

1 pour indiquer que le phnomne (ou lvnement) a lieu ;


0 pour indiquer que le phnomne (ou lvnement) na pas lieu.

Elle est utilise en conomtrie pour saisir les facteurs qualitatifs comme la race, le sexe, la religion ou
mme un vnement tel quune guerre, une grve, un tsunami, etc. que lon dsire intgrer dans les
modles. Comme variable explicative, on la note gnralement par la lettre D, pour dire dummy.

Il est galement important de noter que les variables binaires peuvent intervenir dans le modle de deux
manires, soit comme endogne [modle de probabilit linaire, modles Logit, Probit, Tobit, Gombit] soit
comme exogne [modles ANOVA et ANCOVA]. Dans ce recueil, nous ne nous intressons quau cas o la
variable muette entre comme explicative dans le modle.

Aussi, lutilisation de ces variables dpend fortement du problme pos. Comme exognes, les variables
dummy sont utilises pour rpondre un triple objectif :

Corriger les carts aberrants (ou dviants) ;


Capter la prsence de la discrimination ;
Capter les variations saisonnires.

. Corriger les valeurs singulires (ou anormales)

Lorsque la variable endogne comporte, certaines dates, des valeurs atypiques cest--dire des valeurs
anormalement leves ou anormalement basses associes en gnral la survenance de chocs ou
dvnement rares, il y a lieu dincorporer une dummy dans le modle afin den tenir compte. La dmarche
consisterait simplement dtecter les valeurs anormales et les corriger, en mettant 1 ces dates l et 0
ailleurs, afin que les dviants ne perturbent pas lestimation statistique des autres variables.

Considrons le jeu de donnes ci-aprs, o Yt est lendogne et Xt lexogne. On veut estimer le modle :
Yt = 0 + 1Xt + ut [A]

Date 11 fvrier 12 fvrier 13 fvrier 14 fvrier 15 fvrier


Yt 10 12 2 15 17
Xt 5 7 8 9 10

On observant lvolution de Yt, il y a un cart criant au 13 fvrier qui frappe notre attention. La consquence
directe serait que, sil faut rgresser Yt sur Xt, cette valeur aura tendance fausser la vraie relation existant
entre les deux variables en cause, en rabattant la droite des moindres carrs de faon avoir une moyenne.
On sen rend bien compte { travers le graphique nuage de points avec droite de rgression, y
correspondant, suivant.

Le terme anglo-saxon dummy est le plus utilis.


Ass. Cdrick Tombola M. 62

20

15

10

0
0 2 4 6 8 10 12

Et lestimation par OLS, donne la droite suivante :

= 1.6081 + 1.2297Xt
[0.1265] [0.7728]
R2 =0.1660

Avec [.] le ratio de Student. Comme on le voit, la valeur anormale a compltement perturb lestimation de
la relation, presque parfaite, entre Yt et Xt. On doit donc introduire une variable indicatrice Dt dans le
modle. On mettra 1 la date du 13 fvrier et 0 partout ailleurs. Le modle estimer devient :

Yt = 0 + 1Xt + 2Dt + ut [B]

Date 11 fvrier 12 fvrier 13 fvrier 14 fvrier 15 fvrier


Yt 10 12 2 15 17
Xt 5 7 8 9 10
Dt 0 0 1 0 0

Lestimation par OLS du modle [B] donne prsent :

= 2.7288 + 1.3898Xt 11.8475Dt


[2.6032] [10.5862] [20.9805]
R2 =0.9962

Lincorporation dans le modle dune dummy a donc permis de corriger la valeur atypique.

Note importante :
La correction effectue nest valable que si le coefficient associ la variable dummy est
statistiquement significatif.

Aprs estimation, le signe affect { la variable binaire est proportionnelle { lanomalie constate
dans les donnes. Sil sagit dune observation anormalement basse, comme cest le cas dans
lexemple ci-haut, le signe affect la dummy sera , ce qui indique que lcart criant avait
tendance ramener la droite de rgression vers le bas. En revanche, sil est plut t question dune
observation anormalement leve, le signe affect la dummy sera +, ce qui indique que le dviant
avait tendance tirer la droite de rgression vers le haut.

Attention ne pas saisir les carts anormalement levs et anormalement bas par une mme une
variable muette. Lorsque la srie prsente la fois les deux types dcarts, il convient de les capter
par deux variables auxiliaires diffrentes, lune pour les observations exceptionnellement leves
et lautre pour celles exceptionnellement basses.
Ass. Cdrick Tombola M. 63

. Capter la prsence de la discrimination

Lexplication dun phnomne peut parfois ncessiter la prsence des variables qualitatives. Supposons
que lon souhaite expliquer, pour dix tudiants de premire licence en Economie chantillonns, le
phnomne " cote obtenue en macroconomie CMi" ; tout naturellement les variables comme prsence au
cours PCi, nombre dheures dtude consacres la macroconomie HE isavrent pertinentes. Mais il est
tout fait aussi possible que des variables comme la religion de ltudiant REi, ou sa tribu TEi, soient
dterminantes dans lexplication du phnomne tudi. Dans ce cas, lutilisation dune variable binaire
permet de segmenter les individus en deux groupes et de dterminer si le critre de segmentation est
rellement discriminant.

Dans lexemple de tout { lheure sur la cote obtenue en macroconomie, si lon assume que lappartenance
ou non la religion catholique est dterminante dans la russite, ce qui revient dire que la religion est un
facteur de discrimination, le modle estimer sera :

CMi = 0 + 1 PCi + 2HEi + 3REi

o REi =

Puis estimer, comme vu prcdemment, en appliquant les MCO. Aprs estimation, si 3 est statistiquement
significatif, on en conclurait que la religion (catholique) a jou sur la cotation en macroconomie, elle est
donc bien un facteur discriminant de la note obtenue en macroconomie. A loppos, si 3 est
statistiquement non significatif, on en conclurait que la religion (catholique) na pas jou sur la russite en
macroconomie.

Note importante :
Dans le cas de variables dummy plusieurs modalits, par exemple ltat civil (clibataire, mari,
divorc, autres), il est convenable de coder alors autant de variables indicatrices quil y a de
modalits moins une. Ainsi, pour ltat civil, on dfinira trois variables binaires : clibataire (=1
si lindividu est clibataire, 0 sinon), mari (= 1 si lindividu est mari, 0 sinon), divorc (= 1 si
lindividu est divorc, 0 sinon), la modalit autres tant implicitement contenue dans le terme
constant [et ne serait donc spcifie part que dans un modle sans terme constant].

La codification dpend du modlisateur et doit tre prise en compte dans linterprtation des
rsultats. A titre exemplatif, si lon considre la variable qualitative sexe, le modlisateur est libre
de coder 1 = femme et 0 = homme et inversement. Il doit seulement en tenir compte lors de
linterprtation.

. Capter les variations saisonnires

Les variables indicatrices sont aussi utilises pour prendre en compte les mouvements saisonniers qui
caractrisent certaines variables comme les dpenses de publicit, qui sont gnralement plus importantes
en certaines priodes de lanne quen dautres.

Supposons que lon sintresse { la relation entre le chiffre daffaires (Ch t) et les dpenses de publicit
(Dpubt). On peut crire :

Lune delles tant implicitement contenue dans le terme constant.


Ass. Cdrick Tombola M. 64

Cht = 0 + 1Dpubt + ut [i]

En utilisant les donnes trimestrielles, il ne serait pas correct destimer directement le modle [i], parce
quon naurait pas tenu compte de leffet saisonnier, les dpenses de publicit ne sont pas les mmes tous
les trois mois [trimestre].

On peut capter leffet saisonnier en introduisant dans [i] une variable dummy. Pour notre cas, on aura
autant de variables dummy quil y a de trimestres, soit quatre dummy. Sachant quon compte quatre
trimestres par anne, lintroduction des variables dummy se fera comme suit :

Trimestre D1t D2t D3t D4t


2 1r trimestre 1 0 0 0 1
0 2me trimestre 0 1 0 0 1
0 3me trimestre 0 0 1 0 1
5 4me trimestre 0 0 0 1 1
2 1r trimestre 1 0 0 0 1
0 2me trimestre 0 1 0 0 1
0 3me trimestre 0 0 1 0 1
6 4me trimestre 0 0 0 1 1

Et le modle [i] devient :

Cht = 0 + 1Dpubt + 2D1t + 3D2t + 4D3t + ut [ii]

ou encore :

Cht = 1Dpubt + 2D1t + 3D2t + 4D3t + 5D4t + ut [iii]

Si le modle contient un terme constant, celui-ci joue doffice le r le de lune de quatre variables dummy.
Dans [ii] par exemple, 0 joue le rle de D4t [on a le choix pour la variable binaire carter]. En revanche, en
absence du terme constant, il convient de prendre en compte, comme dans la relation [iii], toutes les
variables dummy.

Une fois cette gymnastique termine, on peut alors, sans difficult normalement, appliquer les MCO soit
sur le modle [ii], soit sur le modle [iii].
Ass. Cdrick Tombola M. 65

ANNEXES DU CHAPITRE IV

ANNEXE 1 : Quelques rappels de calcul matriciel


Le calcul matriciel a t introduit en Economtrie par Alexander Craig Aitken.
1. Oprations matricielles

Addition et soustraction

Soient deux matrices carres A et B de format 2. La somme ou la soustraction de ces deux matrices
seffectue comme suit :

A B= =

L'addition et la soustraction des matrices ne sont donc dfinies que pour des matrices de mme format ou de
mme ordre.

Proprits importantes de laddition et la soustraction des matrices

(i) A B=B A
(ii) A (B C) = (A B) C

Multiplication par un scalaire

Soient un scalaire k (un nombre rel) et la matrice carre A ci-dessus. La multiplication de A par le scalaire k
seffectue de la sorte :

kA =k =

La multiplication par un scalaire est donc possible quel que soit lordre de la matrice A.

Proprits importantes de la multiplication par un scalaire

(i) kA = Ak
(ii) k(A B) = kA kB

Produit matriciel

Soient les deux matrices carres A et B ci-dessus. Ces deux matrices sont conformables pour le produit ou la
multiplication matricielle puisque le nombre de colonnes de la premire matrice est gal au nombre de lignes
de la deuxime matrice [principe du produit matriciel]. Le produit matriciel seffectue en faisant la somme
algbrique des produits des lments de chaque ligne de la premire matrice par les lments
correspondants de chaque colonne de la deuxime matrice.

Une matrice carre est une matrice dont le nombre de lignes est gal au nombre de colonnes. On dit matrice
carre de format n ou dordre n m.
Ass. Cdrick Tombola M. 66

Pour les matrices carres A et B ci-haut, on obtient :

AB =

2 2 2 2

Proprits importantes du produit matriciel

Soient trois matrices conformables A, B et C, on a les proprits essentielles suivantes :

(i) A(B + C) = AB + AC
(ii) A(BC) = (AB)C
(iii) AB BA en gnral

Transpose dune matrice

La transpose dune matrice A de format m n, note AT ou A, est une matrice de format n m obtenue
en permutant les lignes et les colonnes de A.

Soit A = AT =

Proprits importantes de la transposition des matrices

Soient trois matrices conformables A, B et C, on a :

(i) (A + B + C)T = AT + BT + CT
(ii) (ABC)T = CTBTAT
(iii) (AT)T = A
(iv) (kA)T = kAT

Rang dune matrice

Soit une matrice A dordre m n. Le rang de la matrice A, not r (A), est le nombre de ses vecteurs lignes [ou
ses vecteurs colonnes] linairement indpendants, dit autrement, cest le nombre de ses lignes (ou ses
colonnes) non entirement nulles, aprs chelonnement de la matrice.

Si le rang dune matrice A donne correspond au minimum entre le nombre de ses lignes et de ses
colonnes, on dira que A est de rang maximum.

Une matrice carre A dordre n est dite non singulire si son rang est maximum, soit [r (A) = n].
Ass. Cdrick Tombola M. 67

2. Matrices carres

Matrice diagonale Matrice scalaire Matrice unit ou identit

est une matrice carre dont un au est une matrice diagonale dont note I, est une matrice scalaire dont
moins des lments situs sur sa tous les lments, non nuls, sur sa les lments sur la diagonale
diagonale principale est non nul, tous diagonale principale sont gaux. principale sont gaux 1.
les autres lments tant nuls.
Exemple : Exemple :
Exemple :

B=
A= I=

Matrice symtrique Matrice idempotente Trace dune matrice carre


Soit une matrice carre A. On dit que A Soit une matrice carre A. on dit La trace dune matrice carre A,
est une matrice symtrique si AT = A. que A est une matrice idempotente note tr (A), se dfinit comme tant
si AA = A. la somme algbrique des lments
Exemples : de sa diagonale principale.
La matrice unit I est forcment Exemple :
symtrique. On vrifie donc que Soient deux matrices A et B, dont les
IT = I; M = [I X(X'X)1X'] dimensions respectives sont de
La matrice (X'X), dans (m n) et de (n m). Par consquent,
lestimation des , est AB et BA sont deux matrices carres
symtrique, soit (X'X)' =(XTX). et :
tr (AB) = tr (BA)

Pour trois matrices A, B et C, si le


produit donne des matrices carres,
on a :
tr (ABC) = tr (CAB) = tr (BCA)

Proprits importantes de la matrice unit

(i) II = I
(ii) InAn = An
(iii) tr (In) = n

Dterminant dune matrice carre

Dordre 2

Soit la matrice carre A, dordre 2, son dterminant not est calcul comme suit :
Ass. Cdrick Tombola M. 68

Dordre 3

Le dterminant dune matrice carre A dordre 3 est calcul en appliquant la rgle de Sarrus********** comme
suit :

Dordre n quelconque

Le dterminant dune matrice A dordre n est donn par la somme algbrique des produits obtenus en
multipliant les lments dune ligne (ou dune colonne) de la matrice A par leurs cofacteurs correspondants,
nots Cij.

La matrice des cofacteurs, quant elle, est trouve en pr multipliant la matrice des mineurs, note Mij,
par (1)i+j, soit :
Cij = (1)i+jMij

La mthode des cofacteurs, dite aussi mthode dexpansion de LAPLACE , permet de calculer un
dterminant dordre n { laide des mineurs [dterminants dordre (n 1)]. On a toujours intrt
dvelopper un dterminant des lignes ou des colonnes o apparaissent beaucoup de zros.

Note : Le mineur mij de la matrice A est le dterminant calcul en supprimant la ligne i et la colonne j de A.

Proprits importantes des dterminants

(i)
(ii)
(iii) Si une ou plusieurs lignes ou colonnes dune matrice sont linairement dpendantes, alors le
dterminant de cette matrice est nul. On dit quune telle matrice est singulire.
(iv) Si une matrice carre A est de rang maximum, alors son dterminant est diffrent de zro.

Inverse dune matrice carre

Soit A une matrice carre et B une autre matrice carre du mme ordre que A. On dit que B est l'inverse de A si
AB = BA = I.
1
L'inverse de A, not A , n'existe que si A est une matrice carre de rang maximum. Cet inverse est unique.

**********
Du nom du mathmaticien franais Pierre Frdric Sarrus (1798 1861).

Du nom du mathmaticien, astronome et physicien franais Pierre Simon de LAPLACE (1749 1827).
Ass. Cdrick Tombola M. 69

Il existe, dans la littrature, plusieurs mthodes de calcul de linverse dune matrice carre. Dans ce papier, nous
nen prsentons que deux.

Mthode classique (ou mthode de ladjointe) Mthode itrative (ou gaussienne)


Par la mthode de ladjointe, linverse de la matrice B, Soit la matrice A, dordre n, dont on veut trouver
note B1, se calcule de la sorte : linverse. La mthode itrative consiste { mettre c te
cte la matrice A et la matrice unit I de mme
1
B = ordre, puis { chelonner A jusqu{ la rendre unit. A1
sera ce que serait devenue la matrice unit { lissue de
o est la matrice adjointe, et nest rien dautre que la lchelonnement, soit :
transpose de la matrice des cofacteurs Cij, soit :

B1 =

Proprits importantes de linverse dune matrice carre

(i) B B1 = I
(ii) (B1)1 = B
(iii) (BT)1 = (B1)T (B1)TBT = I

ANNEXE 2 : La fonction DROITEREG dExcel

La fonction DROITEREG dExcel permet dobtenir presque tous les rsultats, en un clic, mis en vidence
dans ce chapitre, et au chapitre prcdent. Il suffit, pour ce faire, de slectionner une plage en
consquence ayant 5 lignes et dont le nombre de colonnes doit correspondre au nombre de paramtres
estimer dans le modle, puis de saisir la commande DROITEREG (plage contenant Y ; plage contenant les
exognes ; VRAI ; VRAI) suivi de CTRL + SHIFT + ENTER.

Soit le modle Yt = 0 + 1X1t + 2X2t + 3X3t + ut, la figure ci-dessous montre comment procder sur Excel.

En appuyant simultanment sur les touches CTRL + SHIFT + ENTER, on obtient :


Ass. Cdrick Tombola M. 70

ANNEXE 3 : La rgression linaire avec le logiciel Eviews

Sur le logiciel conomtrique Eviews, aprs cration de la feuille de travail et saisie des donnes, aller dans
Quick Estimate Equation, puis entrer les variables, spares par des espaces, dans lordre apparaissant
dans le modle estimer, en notant le terme constant par la lettre C, choisir ensuite la mthode
destimation pour notre cas LS ou Least squares et valider.

En considrant le modle de tout { lheure, on a les tapes suivantes :

En validant, on a les rsultats suivants :

Dependent Variable: Y
Method: Least Squares
Sample: 1 8
Included observations: 8

Variable Coefficient Std. Error t-Statistic Prob.

C -247.3274 122.8357 -2.013481 0.1143


X1 1.133525 0.520299 2.178604 0.0949
X2 2.944909 3.361460 0.876080 0.4304
X3 7.146491 2.286172 3.125963 0.0353

R-squared 0.974926 Mean dependent var 264.3750


Adjusted R-squared 0.956120 S.D. dependent var 41.95895
S.E. of regression 8.789365 Akaike info criterion 7.491815
Sum squared resid 309.0117 Schwarz criterion 7.531536
Log likelihood -25.96726 Hannan-Quinn criter. 7.223914
F-statistic 51.84210 Durbin-Watson stat 1.160052
Prob(F-statistic) 0.001169
Ass. Cdrick Tombola M. 71

Le mme rsultat peut tre obtenu en saisissant, sur la barre de commande Eviews, la commande LS suivi
de Y C X1 X2 X3.

Du tableau des rsultats ci-dessus, appels parfois output de lestimation, il ressort les informations
importantes suivantes :

Les colonnes coefficient, Std. Error, t-Statistic renseignent respectivement sur la valeur de chaque
paramtre estim, son cart type (Standard Error) et de son ratio de Student.
La colonne Prob. renvoie, pour chaque coefficient estim, la probabilit de commettre lerreur de
premire espce. Si cette probabilit est faible (< 0.05, de manire gnrale) RH0, le paramtre
concern est donc statistiquement significatif (non nul).

Les lignes R-squared, Adjusted R-squared, S.E. of regression, Sum squared resid, F-statistic et Prob(F-
statistic) correspondent respectivement au R2, au R2 ajust, au , la SCR, la statistique de
Fisher et la probabilit critique associe la statistique de Fisher.

Mean dependent var et S.D. dependent var reprsentent respectivement la moyenne et lcart
type de la variable dpendante.

Akaike info criterion, Schwarz criterion et Hannan-Quinn criter. sont des critres dinformation
intervenant dans le choix du modle optimal. Le meilleur modle tant celui qui minimise ces
critres.

A. Aprs estimation, la srie prdite est obtenue automatiquement en tapant, sur la barre de commande, la
commande FIT (nom de la srie) puis valider.

B. Aprs estimation, la srie des rsidus est gnre en saisissant la commande GENR (nom)=resid
Ass. Cdrick Tombola M. 72

Exercices sur le modle de rgression linaire multiple

Exercice 1
On examine lvolution dune variable Yt en fonction de deux exognes X1t et X2t. On dispose de n
observations de ces variables. On note X = o 1 est le vecteur constant et X1 et X2 sont les
vecteurs des variables explicatives.

1. On a obtenu les rsultats suivants :

(a) Donner les valeurs manquantes.


(b) Que vaut n ?

2. La rgression de Y sur la constante et les deux exognes donne :

Yt = - 1.61 + 0.61X1t + 0.46X2t ; SCR = 0.3 ; =73.48 et = 1.6

(a) Calculer la somme des carrs expliqus (SCE), la somme des carrs totale (SCT), le R2 et le R2 ajust
de Theil.
(b) Dduire la matrice COVA, et tester la significativit individuelle de chaque paramtre ainsi que leur
significativit conjointe.

Exercice 2
Afin de dterminer les facteurs explicatifs de la russite de la licence en sciences conomiques, on spcifie
le modle suivant :

NLi = 0 + 1NDi + 2DSi + ut

o :
NL = note moyenne obtenue en licence
ND = note moyenne obtenue en troisime graduat
DS = variable indicatrice de sexe (1 pour les hommes et 0 pour les femmes)

Lestimation { partir dun chantillon de 60 tudiants conduit aux rsultats suivants :


= 8.5 + 0.3NDi 1.2DSi
[4.5] [7.1] [2.3]
n=60
R2=0.72
[.] = t de Student

Travail demand : le sexe a-t-il une influence sur la note obtenue en licence de sciences conomiques ?

Solution de lexercice 2

La variable binaire DS a un ratio de Student de 2.3 >t (0,025 ; 57)=1.96, elle est donc statistiquement significative. Le
fait dtre homme ou femme est bel et bien un facteur discriminant de la russite de la licence en sciences
conomiques.
Ass. Cdrick Tombola M. 73

Il est noter que le signe ngatif affect DS indique quil est pnalisant dtre un homme (DS = 1) et quen
moyenne, sur lchantillon retenu, les femmes (0) ont une note de 8.5, tandis que les hommes ont une note
infrieure de 1.2 point celle des femmes, soit 7.3.

Exercice 3
Soit le modle :
Yi = 0 + 1Xi + 2Di1 + 2Di2 + ui
o Yi est le salaire peru par lindividu i ; Xi le nombre dannes dexprience ; Di1 et Di2 deux variables
dummy.

On dispose du tableau ci-dessous :

Ind. 1 2 3 4 5 6 7 8 9 10 11 12
Yi 350 150 305 290 310 270 340 400 430 410 400 290
Xi 2 1 2 2 2 2 5 3 5 4 3 2

Les individus 3, 5, 8, 10, 15, 12 sont des trangers (trangres) et les individus 3, 5, 7, 8 et 9 sont des ouvriers
(nationaux et trangers).

Di1 = et Di2 =

Construisez les chroniques Di1 et Di2.

Exercice 4
Soit le modle :
Yt = 0 + 1X1t + 2X2t + ut

On dispose des donnes du tableau ci-dessous :

Yt X1t X2t Travail faire :


10 4 7
12 6 4 (a) Trouver les valeurs du vecteur .
16 5 8 (b) Calculer le coefficient de dtermination R2.
18 8 6 (c) Mener les tests de significativit individuelle sur chaque
20 7 9 paramtre.

Exercice 5
Soit le tableau suivant :

Anne Yt X1t X2t X3t


1989 220 57 51 34
1990 215 43 53 36
1991 250 63 54 39
1992 245 65 52 38
1993 249 68 53 37
1994 301 69 56 42
Ass. Cdrick Tombola M. 74

TD :

- Si on considre le modle suivant : Yt = 0 + 1X1t + 2X2t + 3X3t + ut, estimer les paramtres 0, 1, 2,
3, et tester leur significativit individuelle et la significativit globale du modle.
- Calculer le R2. Quelle critique peut-on formuler lgard de cet indicateur ?
-
Calculer le 2
- Trouver lintervalle de prvision pour 1997 sachant que pour cette dernire anne X1t sera gal
78, X2t sera gal 54 et X3t atteindra 48.

Exercice 6
Soit le modle Yt = 0 + 1X1t + 2X2t + t

o Yt est la quantit offerte des pommes, X1t le prix des pommes, X2t une subvention forfaitaire accorde de
manire journalire et t le terme derreur.

Connaissant les donnes du tableau ci-dessous, il est demand :

- destimer les paramtres 0, 1 et 2.


- de calculer le R2 et le R2 ajust de Theil.
- de montrer que le R2 nest autre que le r de Bravais-Pearson entre Yt et .
- de vrifier lquation danalyse de la variance.
- de driver la matrice COVA.

Date Yt X1t X2t


2 janvier 2012 10 4 7
3 janvier 2012 12 6 4
4 janvier 2012 16 5 8
5 janvier 2012 18 8 6
6 janvier 2012 20 7 9
Ass. Cdrick Tombola M. 75

.V.
MODELES DE REGRESSION NON LINEAIRES

Comme vu jusquici, lapplication de la mthode des moindres carrs ordinaires exige que le modle soit
linaire ou linarisable en X. Cependant, il est frquent de rencontrer en conomie des modles non
linaires dans leur spcification, comme cest le cas des fonctions de production de type Cobb Douglas et
CES [Constant Elasticity of Substitution].

Les modles non linaires sont gnralement regroups en deux familles, savoir :

Modles non linaires mais linarisables ;


Modles non linaires et non linarisables.

Pour la premire famille de ces modles, le plus souvent, une transformation logarithmique suffit les
rendre linaires, ce qui, du reste, valide leur estimation par les MCO. Et cest prcisment sur ce type de
modles que porte ce chapitre. Quant { la deuxime famille de ces modles, il convient dappliquer les
mthodes destimation non linaire, que nous nabordons pas directement ici.

A titre davertissement, le prsent chapitre na pour objet la prsentation de nouvelles mthodes


destimation. Il prsente plut t les artifices de calcul entendus comme pralables ncessaires
lestimation, par les MCO, de la premire famille de modles non linaires.

V.1. Linarisation des modles non linaires

A. Le modle double log ou log log B. Le modle log lin (ou semi-log)

Forme : Yt =A [a] Forme : Yt = [m]

En appliquant la transformation logarithmique, il La transformation logarithmique de [m] donne :


vient :
LnYt = LnA + LnXt + ut [b] LnYt = 0 + 1Xt + ut [n]

Exemple :
o = = La formule de lintrt compos Yt = Y0(1 + r)t [o]
o Y0 est une constante, (1 + r) un paramtre et t le temps
A prsent, en posant : (la variable exogne).

= LnYt ; 0 = LnA; 1 = et =LnXt, La transformation logarithmique de [o] donne :

on retrouve ainsi le modle linaire bien connu, = + + ut [p]


quon peut crire de la sorte : o = LnYt, =LnY0, =Ln(1 + r), = t.

= 0 + 1 + ut [c] Avantage : Le modle [o] permet le calcul du taux de


croissance dune part, et de la tendance (croissante ou
Exemple : la forme Cobb Douglas Q =AKL. dcroissante) caractrisant lvolution de Yt selon le signe
de (positif ou ngatif) dautre part.
Avantage : une lecture directe des lasticits.

La fonction Cobb-Douglas, du nom de ses auteurs Charles William Cobb et Paul Douglas, a t propose en
1928 ; alors que la CES, appele aussi SMAC (des noms de Solow, Minhas, Arrow et Chenery), a t introduite en 1961.
Ass. Cdrick Tombola M. 76

C. Les modles du trend linaire D. Le modle lin log (ou semi-log)

Forme : = 0 + 1t+ ut Forme : [i]


o = LnYt et t =tendance ou trend
En appliquant la transformation logarithmique, il vient :
Avantage : Le modle de trend linaire, appel
galement modle de tendance, peut tre utilis en Yt = 0 + 1LnXt+ ut [ii]
lieu et place du modle log lin afin danalyser le o 1 est une semi-lasticit, soit :
comportement (croissant ou dcroissant) du trend
1 = = [iii]
linaire affectant Yt. En effet, la tendance sera
croissante si le coefficient associ la variable t est Llasticit peut tre retrouve, en divisant la relation [iii]
positif et dcroissante dans le cas contraire. par Yt. Et cela est beaucoup plus commode en prenant les
moyennes comme suit :
= [iv]

Si lon pose =LnXt, la relation [ii] est ramene la


formulation standard antrieure comme suit :

Yt = 0 + + ut [v]

Avantage :
Ce modle permet lestimation des modles
dEngle : La dpense totale consacre la
nourriture tend crotre selon une progression
arithmtique lorsque la dpense totale augmente
en progression gomtrique.
Cette forme peut servir galement au traitement
de lhtroscdasticit dont il sera question plus
loin.
E. Les modles rciproques F. Le modle log hyperbole (ou log inverse)

Forme 1 : Yt = 0 + 1 + ut [j] Forme : Yt =


La forme linaire standard est retrouve en posant
simplement = , ainsi obtient-on : En appliquant la transformation logarithmique sur cette
forme, on obtient :
Yt = 0 + 1 + ut [k]
LnYt = 0 + 1 + ut
Cette spcification est notamment utilise pour
estimer la courbe de Phillips, qui est la relation Cette forme sapparente beaucoup { la forme rciproque
entre linflation et le taux de chmage. sauf que la variable dpendante est exprime sous forme
logarithmique. Quand Xt augmente, LnYt diminue.
Forme 2 : = 0 + 1Xt + ut [l]
En posant = et =LnYt, on obtient :
En posant = , il vient :
= 0 + 1 + ut
= 0 + 1Xt+ ut [m] Le modle log-hyperbole est apte reprsenter une
fonction de production de court terme.

G. Le modle polynomial

Forme : Yt =

Une manipulation simple permet dcrire ce modle sous la forme :


Ass. Cdrick Tombola M. 77

Yt =
o =Xt ; = ;; =

Le modle polynomial trouve des applications dans les cas suivants :


Lestimation dune tendance pour une chronique accusant, par exemple, deux points de retournement :
Yt = 0 + 1t2 + 2t3 + ut o t reprsente le temps.

Lestimation dune fonction de cot total :


CTt = 0 + 1Qt + 2 + ut o CT est le cot total et Q la quantit produite.

V.2. Modles de cycle de vie du produit

Les modles de cycle de vie dun produit, appels parfois modles de diffusion, ont pour objet de
dterminer lvolution probable des ventes dun produit connaissant le seuil de saturation, puisquil est
vrifi que les ventes voluent en fonction du temps, { un rythme alternativement lent, puis rapide jusqu{
maturit (seuil de saturation) qui correspond { un point dinflexion { partir duquel le rythme de croissance
des ventes diminue.

A. Le modle logistique B. Le modle de Gompertz


Le modle logistique est aussi connu sous le nom de Le modle de Gompertz, du nom du mathmaticien
modle (ou courbe) de Verhulst, du nom de son anglais Benjamin Gompertz, a t introduit en 1825.
auteur Pierre-Franois Verhulst, qui le proposa en
1838. Forme : Yt = [x]

Forme : [e] o est le seuil de saturation et r la vitesse de


o Ymax reprsente le seuil de saturation et r la diffusion.
vitesse de diffusion.
Deux transformations logarithmiques sont
Une manipulation triviale permet dcrire : ncessaires pour linariser ce type de modles.

Dans un premier temps, la transformation


logarithmique du modle [x] donne :

Aprs application de la transformation LnYt = brt + a


logarithmique, il vient :
Aprs manipulation et en log-linarisant, il vient :
= 0 + 1t+ ut [f]
= 0 + 1t+ ut [y]
o ; 0 =Lnb et 1=Lnr
o ; 0 =Lnb et 1=Lnr
Note : Lestimation par OLS de ces deux modles nest possible que si lon ne connat, ou plut t que lon
postule la valeur du seuil de saturation.
Ass. Cdrick Tombola M. 78

ANNEXE DU CHAPITRE V

La commande NLS dEviews

En effet, plusieurs modles non linaires se prtent facilement, comme vu prcdemment, la linarisation,
ce qui rend beaucoup plus aise leur estimation par la mthode des MCO. Mais lorsque cette gymnastique
de linarisation devient redoutable, ce qui est le cas des fonctions de production du type CES, on peut,
grce { la commande NLS dEviews qui donne lestimation fournie par la mthode des moindres non
linaires , directement estimer de tels modles sans avoir besoin de les rendre linaires.

Exemple

En considrant les donnes du tableau ci-dessous qui renseigne sur les quantits produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande destimer le modle ci-aprs :

Q=

Jour 1 2 3 4 5 6 7 8 9 10
Q 25 28 32 35 39 37 44 40 38 45
K 12 13 10 15 22 17 21 23 25 20
L 3 5 9 8 12 13 10 11 14 19

Solution
La commande Eviews est NLS Q=c(1)*K^c(2)*L^c(3). On obtient les rsultats suivants :

Dependent Variable: Q
Method: Least Squares
Sample (adjusted): 1 10
Included observations: 10 after adjustments
Convergence achieved after 8 iterations
Q=C(1)*K^C(2)*L^C(3)

Coefficient Std. Error t-Statistic Prob.

C(1) 12.45037 3.586039 3.471900 0.0104


C(2) 0.190189 0.125849 1.511251 0.1745
C(3) 0.232165 0.078957 2.940398 0.0217

R-squared 0.823231 Mean dependent var 36.30000


Adjusted R-squared 0.772726 S.D. dependent var 6.464433
S.E. of regression 3.081806 Akaike info criterion 5.332234
Sum squared resid 66.48269 Schwarz criterion 5.423009
Log likelihood -23.66117 Durbin-Watson stat 2.381746

o les coefficient c(2) et c(3) donnent directement les lasticits du produit au capital et au travail,
respectivement.
Ass. Cdrick Tombola M. 79

Exercices sur les modles de rgression non linaires

Exercice 1
Soit le modle log-linaire suivant : Yt = Y0(1 + r)t. Connaissant les valeurs du tableau ci-aprs qui montre
lvolution des ventes dune entreprise au cours de 15 mois, on demande dajuster cette fonction et de
trouver Y0 et r.
N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Yt 10 15 20 18 20 22 24 21 27 26 33 29 34 38 37
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Interprter les rsultats.

Exercice 2
On dispose des informations suivantes sur les ventes des syllabus dconomtrie :

Anne 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Ventes 24 36 45 49 54 63 78 79 83 99

On Se propose dajuster, par OLS, sur ces donnes une fonction du type :
Yt =

a) Effectuer cet ajustement en supposant que la valeur du coefficient 0 = 3 ;


b) Donner la valeur de r ;
c) Calculer le coefficient de dtermination R2 ;

Exercice 3
Mmes donnes et mmes questions qu{ lexercice 2, en ajustant le modle suivant :

On prendra Ymax = 10.

Exercice 4
En considrant les donnes du tableau ci-dessous qui renseigne sur les quantits produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande destimer le modle ci-aprs :

Q=

Jour 1 2 3 4 5 6
Q 25 28 32 35 39 37
K 12 13 10 15 22 17
L 3 5 9 8 12 13

- Calculer le R2 et le 2.
-
Mener le test des rendements dchelle. Les rendements { lchelle sont-ils constants ?
Ass. Cdrick Tombola M. 80

.VI.
VIOLATION DES HYPOTHESES DE BASE
En prsentant la mthode des moindres carrs ordinaires, nous avions mis un faisceau dhypothses de
base, sous respect desquelles cette mthode fournissait les meilleurs estimateurs linaires,
convergents et sans biais, et que le thorme de Gauss-Markov tait vrifi. Cependant, dans la pratique, il
est possible que lune ou lautre de ces hypothses fondamentales soit relche.

Ce chapitre prsente donc la fois les tests de vrification et les stratgies adopter en cas de violation
ventuelle de lune ou lautre hypothse.

VI.1. Autocorrlation des erreurs

A. Problme

Il y a autocorrlation des erreurs lorsque lhypothse est viole. La consquence directe


est que les estimateurs des MCO, bien quils gardent encore leur caractre non biais, ne sont plus
efficients, puisque nayant plus une variance minimale. Formellement, on a :

En absence dautocorrlation En prsence dautocorrlation


Y = X + U Y = X + U
E(U) = 0 E(U) = 0
E(UU) = E(UU) =
Par consquent
les t de Student et F de Fisher ne sont plus
utilisables.

Il faut noter aussi que lautocorrlation des erreurs est un phnomne que lon ne retrouve quen travaillant
sur sries temporelles. En principe, le problme ne se pose pas sur cross sections, sauf le cas rare de
corrlation spatiale des rsidus, qui ne nous intresse pas directement ici.

B. Tests de dtection

On recourt gnralement { deux tests pour dtecter lventuelle autocorrlation des erreurs : le test de
Durbin et Watson et le LM Test de Breush Godfrey.

Le test de Durbin et Watson

Soit le modle linaire simple ci-aprs :

[6.1] Yt = 0 + 1Xt + ut

Le test trs populaire de Durbin et Watson (DW), du nom de ses auteurs James Durbin et Geoffrey Watson
qui lon propos en 1951, permet de dtecter une autocorrlation dordre 1, AR(1), selon la forme :

[6.2] ut = ut1 + vt
o vt est un bruit blanc*********** et (condition de convergence)

Erreurs homoscdastiques, non autocorrles et normalement distribues. De plus la matrice (XX) doit tre
non singulire, ce qui correspond { assumer labsence de multicolinarit.
***********
Voir annexe 3.
Ass. Cdrick Tombola M. 81

On fait donc lhypothse, pour des raisons de simplification, que lerreur nest lie qu{ son pass immdiat.
Et lestimateur de , bas sur les rsidus et issus de la relation [6.2], est donn par :

[6.3]

Or, si n +, = , ce qui permet dcrire la relation [6.3] de la sorte :

[6.4]

o est le coefficient de corrlation linaire de Bravais Pearson.

Par consquent, varie dans lintervalle [ 1, + 1].

Les hypothses pour mener le test DW sont :

La statistique associe ce test est :

[6.5] DW = d =

Pour comprendre pourquoi d est une statistique pertinente pour tester lautocorrlation, on rcrit d
comme suit :

d=

En clatant cette somme en ses composantes, on a :

[6.6] d=

Connaissant la relation [6.3], et en sachant que pour grands chantillons, = , [6.5] devient :

[6.7] DW=d )

Il ressort donc de [6.6] que DW varie de 0 4 :

Valeur de Valeur consquente de DW Implications


=1 DW =0 Autocorrlation positive
=0 DW=2 Absence dautocorrlation
= 1 DW = 4 Autocorrlation ngative

Connaissant la taille de lchantillon n, le nombre des variables explicatives k et le risque (5% sauf
indication contraire), la table de Durbin-Watson donne deux valeurs dLower et dUpper, qui permettent de
mener le test en situant la statistique calcule DW dans lune des zones du schma ci-aprs :
Ass. Cdrick Tombola M. 82

0 dL dU 2 4 dU 4 dL 4

Doute

Doute
Zone I Zone III
Zone II
Autocorrlation Autocorrlation
Absence dautocorrlation
positive positive

On dira donc quil y a autocorrlation des erreurs (ou prsomption dautocorrlation zone de doute ou
zone dindtermination) si la statistique DW calcule tombe soit dans la zone I, dans lune de deux zones de
doute ou dans la zone III. La zone II tant la seule zone o lon conclurait { lindpendance des erreurs.

Note importante :

La statistique DW ne sinterprte pas lorsque le modle est spcifi en coupe instantane ;


Pour mener le test DW, il est ncessaire que le modle comporte un terme constant. Pour les
modles sans terme constant, il existe des tables statistiques appropries ;
Dans le cas o la rgression comporte, parmi les variables explicatives, la variable dpendante
retarde Yt1 et que les rsidus sont autocorrls dordre 1, la statistique DW est alors biaise vers 2.
Elle ne peut donc tre utilise directement pour tester lautocorrlation. La statistique h
dveloppe par Durbin (1970) doit alors tre utilise.

Le LM Test de Breusch Godfrey [BG]

Comme cela vient dtre expliqu, le test DW ne permet de tester quune autocorrlation dordre 1, soit
AR(1). Or, il est tout fait possible que les erreurs nous poursuivent. Ainsi, les erreurs peuvent tre :

AR(2) : ut = 1ut1 + 2ut2 + vt

AR(3) : ut = 1ut1 + 2ut2 + 3ut3 + vt

AR(P) : ut = 1ut1 + 2ut2 + + putp + vt

A cet effet, Trevor Breusch et Leslie Godfrey ont, sparment, propos, respectivement en 1979 et 1978, un
test qui porte leurs noms, appel aussi test du multiplicateur de Lagrange LM beaucoup plus complet
que le test DW en ce quil permet de tester une autocorrlation des erreurs dordre suprieur { 1, et qui
reste valide en prsence de la variable dpendante dcale en tant que variable explicative.

Soit le modle linaire simple de lquation [6.1] :

Yt = 0 + 1Xt + ut
o ut est prsent AR(p), p tant dterminer.

Comme le test DW, le test BG teste lH0 dabsence dautocorrlation contre H1 de prsence
dautocorrlation, et se droule en trois tapes suivantes :

(1). Estimer par les MCO le modle [6.8] et tirer les rsidus e t de cette estimation ;

(2). Estimer par les MCO lquation intermdiaire suivante :

[6.8] et = 0 + 1Xt + 1et1 + 2et2 + + petp + ut Puis y tirer la valeur du R2.


Ass. Cdrick Tombola M. 83

(3). Calculer la statistique du test, sachant que ce test peut tre men deux niveaux :

Soit effectuer un test de Fisher classique de nullit des i, comme suit :

Et la statistique du test est dans ce cas :

o K est le nombre des paramtres du modle [6.8]

Critre de dcision : Si F > F [(K 1) ; (n K)] RH0, il y a autocorrlation.

Soit recourir la statistique LM qui suit une distribution du (p). P tant le nombre de retards
introduits dans le modle [6.8]. On a :

2
LM = n R

Critre de dcision : Si LM > (p) RH0, il y a autocorrlation.

C. Correction dune autocorrlation

Lorsque le test conclut { lvidence dune autocorrlation, la correction se fait en appliquant la mthode
des Moindres Carrs Gnraliss [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste
simplement { lapplication des MCO sur les donnes transformes.

Revenons au modle simple { une variable o le terme derreur suit un processus AR(1) :

[6.9] Yt = 0 + 1Xt + ut
o ut = ut 1 + vt

En substituant ut, par son expression, dans [6.9], on obtient :

[6.10] Yt = 0 + 1Xt + ut 1 + vt
o ut 1= Yt 1 0 1Xt 1

Et en tenant compte de ut 1, [6.10] devient :

[6.11] Yt = 0 + 1Xt + (Yt 1 0 1Xt 1) + vt

En effectuant dans la parenthse et aprs manipulation, il vient :

[6.12] = 0 + 1 + v t
o =Yt Yt 1 ; 0 = 0(1 ) ; 1 = 1 et = (Xt Xt 1)

Une telle transformation est appele : transformation en quasi-diffrences.


Ass. Cdrick Tombola M. 84

Lorsque connu, lapplication des MCO sur ce dernier modle donne un estimateur BLUE. Le seul
inconvnient de la transformation en quasi-diffrences qui persisterait serait une perte dinformation, en
loccurrence et . Afin de contourner cette difficult, Prais et Winsten (1954) ont propos de prendre
en compte la premire observation en utilisant la procdure suivante :

et =

Procdures destimation de

Il existe plusieurs mthodes pour estimer , dont les plus populaires sont :

La procdure destimation directe ;


La mthode base sur la statistique DW ;
La mthode itrative de Cochrane-Orcutt.

(a) Procdure (b) Mthode base sur (c) Mthode itrative de Cochrane-Orcutt
destimation directe la statitistique DW
Modle : Y = X + U [A]
On suppose que les erreurs suivent un processus AR(1) : ut = ut 1 + vt
A partir des rsidus et du A partir de la statistique DW Soit le modle linaire simple :
modle [A], estimer par la issue de lestimation du Yt = 0 + 1Xt + ut
formule : modle [A], et connaissant la o ut = ut 1 + vt
relation [6.7], estimer par
la formule : En quasi-diffrences, on a :

Yt Yt 1 = 0(1 ) + 1(Xt Xt 1) + vt
ou encore, pour grands
chantillons : En faisant fi de la premire observation que lon
perd, la procdure itrative de Cochrane-Orcutt
se prsente comme suit :

(i) Fixer une premire valeur de : on


o est le coefficient de
peut soit donner une valeur priori,
corrlation linaire.
soit =0, soit encore partir de la
valeur de telle que calcule en
(a) ;
(ii) Utiliser cette valeur de pour
estimer le modle en quasi-
diffrences ci-dessus ;
(iii) A partir des rsidus issus de
lestimation effectue en (ii),
restimer par la formule donne
en (a), ce qui permet dobtenir un
1 ;
(iv) Utiliser le nouveau calcul en (iii)
pour estimer nouveau le modle
en quasi-diffrences. Les rsidus
issus de cette rgression
permettent dobtenir un 2 :
(v) Et ainsi de suite.

Le processus itratif se termine quand on note


la convergence, cest--dire quand les
coefficients estims ne varient plus
sensiblement dune rgression { lautre
Ass. Cdrick Tombola M. 85

Note : Le logiciel Eviews permet automatiquement deffectuer la correction de lautocorrlation des erreurs
sans passer par tous ces calculs. Pour ce faire, il suffit tout simplement dinsrer, la commande
destimation, la variable AR(1) ou AR(2), ou encore MA(1) ou MA(2). Mais il faut noter galement que la
correction de lautocorrlation nest accepte que si le coefficient associ au processus introduit dans le
modle [AR(1), MA(1), etc.] est significatif.

VI.2. Htroscdasticit

A. Problme

Dun point de vue tymologique, le terme htroscdasticit comprend deux mots. Dabord htro qui
fait rfrence plusieurs , ensuite le terme scdasticit , associ la fonction scdastique , qui
signifie variance conditionnelle . Htroscdasticit signifie donc diffrentes variances. On dit quil y a
htroscdasticit lorsque lhypothse de la constance de lerreur , mise lors de la
prsentation de la mthode des moindres carrs ordinaires, est viole.

Comme pour lautocorrlation, la consquence directe de cette violation est que les estimateurs des MCO,
bien que encore non biaiss, ne sont plus efficients, puisque nayant plus une variance minimale. Et par
consquent les t de Student et F de Fisher ne sont plus utilisables { des fins dinfrence.

Il faut noter galement que lhtroscdasticit est un problme qui se pose plus dans les modles spcifis
en coupe transversale que ceux des chroniques.

B. Tests de dtection

Il existe toute une batterie de tests permettant de dtecter l htroscdasticit, dont notamment :

Le test de Park
Le test de Goldfeld Quandt
Le test de Glejser
Le test de Breusch Pagan Godfrey
Le test dgalit des variances
Le test de Koenker Basset
Le test de Harvey
Le test de rang de Spearman
Le test de White
Le test ARCH

Dans ce papier, nous ne revenons que sur les deux derniers tests, qui sont les plus utiliss dans la pratique.

Le test de White (1980)

Soit le modle linaire multiple suivant :

[6.13] Yt = 0 + 1X1t + 2X2t + 3X3t + ut

Le test de White, propos par Halbert White en 1980, teste les hypothses suivantes :

Jinvite le lecteur qui dsire prendre connaissance de tous ces tests consulter les manuels de Kintambo
(2004) et Bosonga (2010).
Ass. Cdrick Tombola M. 86

Le test de White prsente lavantage quil ne ncessite pas que lon spcifie les variables qui sont { la cause
de lhtroscdasticit.

Pour tester H0, ce test peut se faire de deux faons ci-aprs :

(i) Test de White avec termes croiss, qui est bas sur lestimation du modle :

[6.14]
o et sont les rsidus issus de lestimation par OLS du modle [6.13] et vt le terme derreur.

(ii) Test de White sans termes croiss, bas sur lestimation du modle suivant :

[6.14]
o et sont les rsidus issus de lestimation par OLS du modle [6.13] et vt le terme derreur.

Ce est bas sur la statistique LM, donne par :

LM = n R2 (m)
o m est le nombre de rgresseurs (exognes) dans lexpression estime.

Critre de dcision : Si LM > (m) RH0, il y a htroscdasticit.

Le test de AutoRegressive Conditionnal Heteroscedasticity (Test ARCH)

Les hypothses formuler pour ce test sont :

Partant des rsidus et issus de lestimation du modle [6.13], la dtection de lhtroscdasticit par le test
ARCH se fait en rgressant le carr des rsidus et sur leurs dcalages puissance deux, soit :

[6.15]

Le test est fond soit sur un test de Fisher classique, soit sur le test du multiplicateur de Lagrange (LM) :

LM = n R2 (m)
o m est le nombre de rgresseurs (exognes) prsents dans le modle [6.15].

Critre de dcision : Si LM > (m) RH0, il y a htroscdasticit.

Le nombre de retards tant dterminer.


Ass. Cdrick Tombola M. 87

C. Correction de lhtroscdasticit

Soit le modle :
Yi = 0 + 1Xi + ui

La correction de lhtroscdasticit se fait en appliquant les moindres carrs pondrs, cest--dire les
moindres carrs ordinaires sur lun des modles transforms ci-dessous :

(1) si E(

(2) si E(

(3) si E(

VI.3. Multicolinarit

A. Problme

Il y a multicolinarit lorsque lhypothse de lorthogonalit des exognes ou encore de leur indpendance


linaire est relche. Dans ce cas, la mthode des moindres carrs ordinaires est dfaillante et il
devient difficile disoler limpact individuel de chaque exogne sur lendogne.

On distingue gnralement deux types de multicolinarit : la multicolinarit parfaite ou exacte et la quasi


multicolinarit ou multicolinarit imparfaite.

En cas de multicolinarit parfaite, la matrice est singulire, et par consquent son inverse ( )1
nexiste pas, ce qui rend la mthode OLS compltement dfaillante ; il est nest donc pas possible devant
une telle situation destimer les paramtres du modle.

Dans la pratique, cest plut t le cas de quasi multicolinarit qui est frquent. En effet, la multicolinarit
imparfaite correspond au cas o la matrice est non singulire, mais son dterminant est proche de 0. La
consquence directe est quon aura des valeurs trs grandes dans la matrice inverse ( )1 qui, par la
mthode classique, est calcule comme suit :

[6.16] ( )1 =

Dans [6.16], si 0, la matrice ( )1 aura des valeurs de plus en plus grandes, la matrice COVA
( ) galement. La consquence, et donc le problme pos par la multicolinarit est que, du
fait de la valeur leve des variances des coefficients estims, les rsultats de lestimation perdent en prcision,
cest--dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F
sont levs.

Lautre problme pos par la multicolinarit est linstabilit de paramtre et leffet de masque qui rend difficile
la mise en vidence de la contribution individuelle de diffrentes variables explicatives sur lendogne.

Note : Si les problmes dautocorrlation des erreurs et dhtroscdasticit peuvent se poser quel que soit
le nombre dexognes intervenant dans le modle, le problme de multicolinarit, en revanche, na de
sens que dans un modle de rgression linaire multiple.

La notion de multicolinarit a t introduite, dans les annes 50, par Lawrence Klein.
Ass. Cdrick Tombola M. 88

B. Tests de dtection

Les tests de dtection de la multicolinarit les plus populaires sont le test de Klein et le test de Farrar et
Glauber.

Le test de Klein

Soit le modle :

Le test de Klein se fait en trois tapes que voici :

(a) Estimer le modle [6.17] et calculer le R2 ;


(b) Calculer la matrice des coefficients de corrlation linaire entre variables exognes, prises deux
deux, soit :

(c) Comparer, enfin, le R2 de la rgression aux diffrents coefficients de corrlation. Il y a prsomption


de multicolinarit si au moins un des lev au carr est suprieur au R2.

Note : Le test de Klein nest pas un test statistique au sens test dhypothses mais simplement un critre de
prsomption de multicolinarit. Cest pourquoi il doit tre complt par le test de Farrar et Glauber qui est
bien un test statistique.

Le test de Farrar et Glauber

Le test de Farrar et Glauber teste les hypothses suivantes :

Ce test est bas sur la statistique du , calcule { partir de lchantillon comme suit :

o n est la taille de lchantillon ; K le nombre de paramtres ; Ln le logarithme nprien et D le dterminant de


la matrice des coefficients de corrlation linaire entre exognes, soit :
Ass. Cdrick Tombola M. 89

D=

est le nombre de degrs de libert.

Critre de dcision : si > RH0.

C. Remdes la multicolinarit

Parmi les techniques permettant dliminer la multicolinarit, on peut citer :

Augmenter la taille de lchantillon


Appliquer la Ridge Regression qui est une rponse purement numrique, il sagit de transformer
la matrice en une matrice ( ) o k est une constante choisie arbitrairement qui et I la
matrice unit.

Face ces artifices de calcul, la seule parade vraiment efficace consiste, lors de la spcification du modle,
liminer les sries explicatives susceptibles de reprsenter les mmes phnomnes et donc dtre corrles
entre elles, ceci afin dviter leffet masque ************.

VI.4. Normalit des erreurs

A. Problme

Le problme dabsence de normalit se pose lorsque lhypothse ut (0, ) est viole. A titre de rappel,
lhypothse de normalit, mise lors de la prsentation de la mthode OLS, est la cl de linfrence
statistique. Elle est donc ncessaire pour mener les tests statistiques et construire les intervalles de
confiance. Sa violation ne touche pas le caractre non biais des paramtres mais rend linfrence, dans le
modle linaire, impossible car les distributions des estimateurs ne sont plus connues.

B. Tests de dtection

Les tests de normalit ont t rigoureusement prsents dans la partie introductive de ce recueil portant
sur les rappels statistiques, le lecteur est donc convi { sy rapporter.

C. Remdes la non-normalit des rsidus

Le meilleur remde la non-normalit des rsidus est dagrandir la taille de lchantillon. La transformation
de Box Cox, sur les variables non normales intervenant dans le modle, est souvent aussi indique.

************
Bourbonnais (2005).
Ass. Cdrick Tombola M. 90

Exercices sur le chapitre 6

Exercice 1
Soit le modle ci-aprs :

Yt = 0 + 1X1t + 2X2t + t
o (t= 1, , n) et n=30

En lestimant par OLS, on a obtenu =0,52 et =0,28. On aussi calcul la statistique de Durbin-Watson :
d=DW=0,78.

a) Effectuer, au seuil de 5%, le test dhypothse 2=0.


b) Que faut-il penser de lhypothse de non autocorrlation des rsidus ?

Exercice 2
En cherchant { expliquer le phnomne russite en conomtrie, en 2012, lassistant Dandy Matata a
spcifi le modle suivant :

Yi = 0 + 1X1i + 2X2i + i
o Yi est la cote obtenue en conomtrie par ltudiant i ; X1i est la prsence au cours dconomtrie et X2i le
nombre dheures dtudes consacres { ce cours.

15 tudiants ont t chantillonns. Lestimation a permis de calculer la statistique DW = 0.4.

Tester lautocorrlation du premier ordre dans le modle spcifi par lassistant Matata.

Exercice 3
Soit lchantillon de taille n=5 :

Yt X1t X2t
8 3 6
2 1 2
6 3 6
0 1 2
4 2 4
Yt=20 X1t=10 X2t=20

(a) Quel est le problme pos par lestimation du modle :

Yt = a + bX1t + dX2t + ut
(b) Comment peut-on le rsoudre ?

Exercice 4
Au regard des rsultats ci-aprs, sur lestimation de lhypothse de Kuznet en RDC pour la priode allant de
1975 2011, quel problme, selon vous, sest pos dans lestimation de cette relation ? Par quoi le voyez-
vous ?
Ass. Cdrick Tombola M. 91

Variable endogne : IGI


Mthode destimation : Moindres carrs ordinaires
Variables explicatives Coefficients t- statistic Probabilit critique
Constante 0.453311 0.784894 0.4417
PIBH 0.000813 0.268563 0.7910
2
PIBH - 0.00000426 - 0.772470 0.4489

R2 = 0.891141 R2 ajust = 0.873561 F stat. = 114.9272

o IGI est le coefficient dingalit de GINI et PIBH le PIB rel par habitant.

Exercice 5
Le tableau ci-dessous reporte les rsultats du test de White, aprs estimation de la relation entre coefficient
dingalit de GINI (IGI) et le PIB rel par habitant (PIBH) en RDC.

White Heteroskedasticity Test:

F-statistic 6.482164 Probability 0.004122


Obs*R-squared 10.21371 Probability 0.006055

Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 06/25/12 Time: 15:46
Sample: 1975 2011
Included observations: 37

Variable Coefficient Std. Error t-Statistic Prob.

C -18.82177 41.99457 -0.448195 0.6569


LPIB 1.623484 3.731230 0.435107 0.6662
LPIB^2 -0.034949 0.082874 -0.421711 0.6759

R-squared 0.276046 Mean dependent var 0.014520


Adjusted R-squared 0.233461 S.D. dependent var 0.019998
S.E. of regression 0.017509 Akaike info criterion -5.174612
Sum squared resid 0.010423 Schwarz criterion -5.043997
Log likelihood 98.73032 F-statistic 6.482164
Durbin-Watson stat 0.214247 Prob(F-statistic) 0.004122

Travail demand :

Aprs avoir rappel les principales caractristiques de ce test (hypothses nulle et alternative, principe
gnral du test, rgle de dcision), commenter les rsultats. Conclure quant la nature des rsidus.

Rappel : la valeur critique de la loi du Khi-deux 2 degrs de libert et au seuil de 5% est gale 5,991.
Ass. Cdrick Tombola M. 92

ANNEXES
ANNEXE 1 : TABLES STATISTIQUES

Test de Shapiro et Wilk [table des coefficients]

n
2 3 4 5 6 7 8 9 10
J
1 0.7071 0.7071 0.6872 0.6646 0.6431 0.6233 0.6052 0.5888 0.5739
2 0.0000 0.1677 0.2413 0.2806 0.3031 0.3164 0.3244 0.3291
3 0.0000 0.0875 0.1401 0.1743 0.1976 0.2141
4 0.0000 0.0561 0.0947 0.1224
5 0.0000 0.0399
n
11 12 13 14 15 16 17 18 19 20
J
1 0.5601 0.5475 0.5359 0.5251 0.5150 0.5056 0.4963 0.4886 0.4808 0.4734
2 0.3315 0.3325 0.3325 0.3318 0.3306 0.3290 0.3273 0.3253 0.3232 0.3211
3 0.2260 0.2347 0.2412 0.2460 0.2495 0.2521 0.2540 0.2553 0.2561 0.2565
4 0.1429 0.1586 0.1707 0.1802 0.1878 0.1939 0.1988 0.2027 0.2059 0.2085
5 0.0695 0.0922 0.1099 0.1240 0.1353 0.1447 0.1524 0.1587 0.1641 0.1686
6 0.0000 0.0303 0.0539 0.0727 0.0880 0.1005 0.1109 0.1197 0.1271 0.1334
7 0.0000 0.0240 0.0433 0.0593 0.0725 0.0837 0.0932 0.1013
8 0.0000 0.0196 0.0359 0.0496 0.0612 0.0711
9 0.0000 0.0163 0.0303 0.0422
10 0.0000 0.0140
n
21 22 23 24 25 26 27 28 29 30
J
1 0.4643 0.4590 0.4542 0.4493 0.4450 0.4407 0.4366 0.4328 0.4291 0.4254
2 0.3185 0.3156 0.3126 0.3098 0.3069 0.3043 0.3018 0.2992 0.2968 0.2944
3 0.2578 0.2571 0.2563 0.2554 0.2543 0.2533 0.2522 0.2510 0.2499 0.2487
4 0.2119 0.2131 0.2139 0.2145 0.2148 0.2151 0.2152 0.2151 0.2150 0.2148
5 0.1736 0.1764 0.1787 0.1807 0.1822 0.1836 0.1848 0.1857 0.1064 0.1870
6 0.1399 0.1443 0.1480 0.1512 0.1539 0.1563 0.1584 0.1601 0.1616 0.1630
7 0.1092 0.1150 0.1201 0.1245 0.1283 0.1316 0.1346 0.1372 0.1395 0.1415
8 0.0804 0.0878 0.0941 0.0997 0.1046 0.1089 0.1128 0.1162 0.1192 0.1219
9 0.0530 0.0618 0.0696 0.0764 0.0823 0.0876 0.0923 0.0965 0.1002 0.1036
10 0.0263 0.0368 0.0459 0.0539 0.0610 0.0672 0.0728 0.0778 0.0822 0.0862
11 0.0000 0.0122 0.0228 0.0321 0.0403 0.0476 0.0540 0.0598 0.0650 0.0697
12 0.0000 0.0107 0.0200 0.0284 0.0358 0.0424 0.0483 0.0537
13 0.0000 0.0094 0.0178 0.0253 0.0320 0.0381
14 0.0000 0.0084 0.0159 0.0227
15 0.0000 0.0076
Ass. Cdrick Tombola M. 93

Test de Shapiro et Wilk [Table des valeurs limites de W]

N W 95% W 99%
10 0.842 0.781
11 0.850 0.792
12 0.859 0.805
13 0.856 0.814
14 0.874 0.825
15 0.881 0.835
16 0.837 0.844
17 0.892 0.851
18 0.897 0.858
19 0.901 0.863
20 0.905 0.868
21 0.908 0.873
22 0.911 0.878
23 0.914 0.881
24 0.916 0.884
25 0.918 0.888
26 0.920 0.891
27 0.923 0.894
28 0.924 0.896
29 0.926 0.898
30 0.927 0.900
31 0.929 0.902
32 0.930 0.904
33 0.931 0.906
34 0.933 0.908
35 0.934 0.910
36 0.935 0.912
37 0.936 0.914
38 0.938 0.916
39 0.939 0.917
40 0.940 0.919
41 0.941 0.920
42 0.942 0.922
43 0.943 0.923
44 0.944 0.924
45 0.945 0.926
46 0.945 0.927
47 0.946 0.928
48 0.947 0.929
49 0.947 0.929
50 0.947 0.930
Ass. Cdrick Tombola M. 94

Table de distribution de la loi T de Student [Test bilatral]


(Valeurs de T ayant la probabilit P d'tre dpasse en valeur absolue)

Pr
0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.05 0.02 0.01 0.001
ddl
1 0.158 0.325 0.510 0.727 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657 636.619
2 0.142 0.289 0.445 0.617 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 31.598
3 0.137 0.277 0.424 0.584 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 12.929
4 0.134 0.271 0.414 0.569 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 8.610
5 0.132 0.267 0.408 0.559 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 6.869
6 0.131 0.265 0.404 0.553 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.959
7 0.130 0.263 0.402 0.549 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 5.408
8 0.130 0.262 0.399 0.546 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 5.041
9 0.129 0.261 0.398 0.543 0.703 0.883 1.100 1.383 1.833 2.263 2.821 3.250 4.781
10 0.129 0.260 0.397 0.542 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.587
11 0.129 0.260 0.396 0.540 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.437
12 0.128 0.259 0.395 0.539 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 4.318
13 0.128 0.259 0.394 0.538 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 4.221
14 0.128 0.258 0.393 0 537 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 4.140
15 0.128 0.258 0.393 0.536 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 4.073
16 0.128 0.258 0.392 0.535 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 4.015
17 0.128 0.257 0.392 0.534 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.965
18 0.127 0.257 0.392 0.534 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.922
19 0.127 0.257 0.391 0.533 0 688 0.961 1.066 1.328 1.729 2.093 2.539 2.861 3.883
20 0.127 0.257 0.391 0.533 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.850
21 0.127 0.257 0.391 0.532 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.819
22 0.127 0.256 0.390 0.532 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.792
23 0.127 0.256 0.390 0.532 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.767
24 0.127 0.256 0.390 0.531 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.745
25 0.127 0.256 0.390 0.531 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.725
26 0.127 0.256 0.390 0.531 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.707
27 0.137 0.256 0.389 0.531 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.690
28 0.127 0.256 0.389 0.530 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.674
29 0.127 0.256 0.389 0 530 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.649
30 0.127 0.256 0.389 0.530 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.656
40 0.126 0.255 0.388 0.529 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 3.551
80 0.126 0.254 0.387 0.527 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660 3.460
120 0.126 0.254 0.386 0.526 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617 3.373
0.126 0.253 0.385 0.524 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576 3.291
Ass. Cdrick Tombola M. 95

Table de distribution de la loi F de Fisher-Snedecor


(Valeurs de F ayant la probabilit d'tre dpasses : F = S12/S22)

Nu1 = 1 Nu1 = 2 Nu1 = 3 Nu1 = 4 Nu1 = 5


Nu2 = 0.05 = 0.01 = 0.05 = 0.01 = 0.05 = 0.01 = 0.05 = 0.01 = 0.05 = 0.01
1 161.4 4052.00 199.5 4999.00 213.7 3403.00 224.6 5625.00 230.2 5764.00
2 18.51 98.49 19.00 99.00 19.16 99.17 19.25 99.25 19.30 99.30
3 10.13 34.12 9.55 30.81 9.28 29.46 9.12 28.71 9.01 28.24
4 7.71 21.20 6.94 18.00 6.59 16.69 6.39 13.98 6.26 13.32
3 6.61 16.26 5.79 13.27 5.41 12.06 5.19 11.39 5.03 10.97
6 3.99 13.74 3.14 10.91 4.76 9.78 4.53 9.13 4.39 8.75
7 3.39 12.23 4.74 9.35 4.33 8.43 4.12 7.85 3.97 7.45
8 3.32 11.26 4.46 8.63 4.07 7.39 3.84 7.01 3.69 6.63
9 5.12 10.56 4.26 8.02 3.86 6.99 3.63 6.42 3.48 6.06
10 4.96 10.04 4.10 7.56 3.71 6.33 3.48 5.99 3.33 5.64
11 4.84 9.65 3.98 7.20 3.59 6.22 3.36 5.67 3.20 5.32
12 4.75 9.33 3.88 6.93 3.49 5.93 3.26 5.41 3.11 5.06
13 4.67 9.07 3.80 6.70 3.41 5.74 3.18 5.20 3.02 4.86
14 4.60 8.86 3.74 6.31 3.34 5.56 3.11 5.03 2.96 4.69
15 4.34 8.68 3.68 6.36 3.29 5.42 3.06 4.89 2.90 4.56
16 4.49 8.53 3.63 6.23 3.24 5.29 3.01 4.77 2.85 4.44
17 4.45 8.40 3.59 6.11 3.20 5.18 2.96 4.67 2.81 4.34
18 4.41 8.28 3.53 6.01 3.16 5.09 2.93 4.58 2.77 4.25
19 4.38 8.18 3.52 5.93 3.13 5.01 2.90 4.50 2.74 4.17
20 4.35 8.10 3.49 5.85 3.10 4.94 2.87 4.43 2.71 4.10
21 4.32 8.02 3.47 5.78 3.07 4.87 2.84 4.37 2.68 4.04
22 4.30 7.94 3.44 5.72 3.05 4.82 2.82 4.31 2.66 3.99
23 4.28 7.88 3.42 5.66 3.03 4.76 2.80 4.26 2.64 3.94
24 4.26 7.82 3.40 5.61 3.01 4.72 2.78 4.22 2.62 3.90
25 4.24 7.77 3.38 5.37 2.99 4.68 2.76 4.18 2.60 3.86
26 4.22 7.72 3.37 5.33 2.98 4.64 2.74 4.14 2.39 3.82
27 4.21 7.68 3.33 5.49 2.96 4.60 2.73 4.11 2.37 3.78
28 4.20 7.64 3.34 5.43 2.95 4.57 2.71 4.07 2.56 3.75
29 4.18 7.60 3.33 5.42 2.93 4.34 2.70 4.04 2.34 3.73
30 4.17 7.56 3.32 5.39 2.92 4.31 2.69 4.02 2.53 3.70
40 4.08 7.31 3.23 5.18 2.84 4.31 2.61 3.83 2.43 3.31
60 4.00 7.08 3.15 4.98 2.76 4.13 2.32 3.65 2.37 3.34
120 3.92 6.85 3.07 4.79 2.68 3.93 2.43 3.48 2.29 3.17
3.84 6.64 2.99 4.60 2.60 3.78 2.37 3.32 2.21 3.02

S12 est la plus grande des deux variances estimes. avec n degrs de libert au numrateur.
Ass. Cdrick Tombola M. 96

Table de Durbin-Watson
La table donne les limites infrieures et suprieures des seuils de signification du test de Durbin et Watson pour = 5 %.

0 2 4

Autocorrlation DOUTE Absence DOUTE Autocorrlation


positive dautocorrlation ngative
4-du 4-dL
dL du

k=1 k=2 k=3 k=4 k=5


n dL du dL du dL du dL du dL du
15 1.08 1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21
16 1.10 1.37 0.98 1.54 0.86 1.73 0.74 1.93 0.62 2.15
17 1.13 1.38 1.02 1.54 0.90 1.71 0.78 1.91 0.67 2.10
18 1.16 1.39 1.05 1.53 0.93 1.69 0.82 1.87 0.71 2.06
19 1.18 1.40 1.08 1.53 0.97 1.68 0.86 1.85 0.75 2.02
20 1.20 1.41 1.10 1.54 1.00 1.68 0.90 1.83 0.79 1.99
21 1.22 1.42 1.13 1.54 1.03 1.67 0.93 1.81 0.83 1.96
22 1.24 1.43 1.15 1.54 1.05 1.66 0.96 1.80 0.86 1.94
23 1.26 1.44 1.17 1.54 1.08 1.66 0.99 1.79 0.90 1.92
24 1.27 1.45 1.19 1.55 1.10 1.66 1.01 1.78 0.93 1.90
25 1.29 1.45 1.21 1.55 1.12 1.66 1.04 1.77 0.95 1.89
26 1.30 1.46 1.22 1.55 1.14 1.65 1.06 1.76 0.98 1.88
27 1.32 1.47 1.24 1.56 1.16 1.65 1.08 1.76 1.01 1.86
28 1.33 1.48 1.26 1.56 1.18 1.65 1.10 1.75 1.03 1.85
29 1.34 1.48 1.27 1.56 1.20 1.65 1.12 1.74 1.05 1.84
30 1.35 1.49 1.28 1.57 1.21 1.65 1.14 1.74 1.07 1.83
31 1.36 1.50 1.30 1.57 1.23 1.65 1.16 1.74 1.09 1.83
32 1.37 1.50 1.31 1.57 1.24 1.65 1.18 1.73 1.11 1.82
33 1.38 1.51 1.32 1.58 1.26 1.65 1.19 1.73 1.13 1.81
34 1.39 1.51 1.33 1.58 1.27 1.65 1.21 1.73 1.15 1.81
35 1.40 1.52 1.34 1.58 1.28 1.65 1.22 1.73 1.16 1.80
36 1.41 1.52 1.35 1.59 1.29 1.65 1.24 1.73 1.18 1.80
37 1.42 1.53 1.36 1.59 1.31 1.66 1.25 1.72 1.19 1.80
38 1.43 1.54 1.37 1.59 1.32 1.66 1.26 1.72 1.21 1.79
39 1.43 1.54 1.38 1.60 1.33 1.66 1.27 1.72 1.22 1.79
40 1.44 1.54 1.39 1.60 1.34 1.66 1.29 1.72 1.23 1.79
45 1.48 1.57 1.43 1.62 1.38 1.67 1.34 1.72 1.29 1.78
50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77
55 1.53 1.60 1.49 1.64 1.45 1.68 1.41 1.72 1.38 1.77
60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 1.41 1.77
65 1.57 1.63 1.54 1.66 1.50 1.70 1.47 1.73 1.44 1.77
70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 1.46 1.77
75 1.60 1.65 1.57 1.68 1.54 1.71 1.51 1.74 1.49 1.77
80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 1.51 1.77
85 1.62 1.67 1.60 1.70 1.57 1.72 1.55 1.75 1.52 1.77
90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78
95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 1.56 1.78
100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78
k : nombre de variables exognes; n : nombre dobservations et = 0.05.
Ass. Cdrick Tombola M. 97

Table de Durbin-Watson
La table donne les limites infrieures et suprieures des seuils de signification du test de Durbin et Watson pour = 1 %.

0 2 4

Autocorrlation DOUTE Absence DOUTE Autocorrlation


positive dautocorrlation ngative
4-du 4-dL
dL du

k=1 k=2 k=3 k=4 k=5


n dL du dL du dL du dL du dL du
15 0.81 1.07 0.70 1.25 0.59 1.46 0.49 1.70 0.39 1.96
16 0.84 1.09 0.74 1.25 0.63 1.44 0.53 1.66 0.44 1.90
17 0.87 1.10 0.77 1.25 0.67 1.43 0.57 1.63 0.48 1.85
18 0.90 1.12 0.80 1.26 0.71 1.42 0.61 1.60 0.52 1.80
19 0.93 1.13 0.83 1.26 0.74 1.41 0.65 1.58 0.56 1.77
20 0.95 1.15 0.86 1.27 0.77 1.41 0.68 1.57 0.60 1.74
21 0.97 1.16 0.89 1.27 0.80 1.41 0.72 1.55 0.63 1.71
22 1.00 1.17 0.91 1.28 0.83 1.40 0.75 1.54 0.66 1.69
23 1.02 1.19 0.94 1.29 0.86 1.40 0.77 1.53 0.70 1.67
24 1.04 1.20 0.96 1.30 0.88 1.41 0.80 1.53 0.72 1.66
25 1.05 1.21 0.98 1.30 0.90 1.41 0.83 1.52 0.75 1.65
26 1.07 1.22 1.00 1.31 0.93 1.41 0.85 1.52 0.78 1.64
27 1.09 1.23 1.02 1.32 0.95 1.41 0.88 1.51 0.81 1.63
28 1.10 1.24 1.04 1.32 0.97 1.41 0.90 1.51 0.83 1.62
29 1.12 1.25 1.05 1.33 0.99 1.42 0.92 1.51 0.85 1.61
30 1.13 1.26 1.07 1.34 1.01 1.42 0.94 1.51 0.88 1.61
31 1.15 1.27 1.08 1.34 1.02 1.42 0.96 1.51 0.90 1.60
32 1.16 1.28 1.10 1.35 1.04 1.43 0.98 1.51 0.92 1.60
33 1.17 1.29 1.11 1.36 1.05 1.43 1.00 1.51 0.94 1.59
34 1.18 1.30 1.13 1.36 1.07 1.43 1.01 1.51 0.95 1.59
35 1.19 1.31 1.14 1.37 1.08 1.44 1.03 1.51 0.97 1.59
36 1.21 1.32 1.15 1.38 1.10 1.44 1.04 1.51 0.99 1.59
37 1.22 1.32 1.16 1.38 1.11 1.45 1.06 1.51 1.00 1.59
38 1.23 1.33 1.18 1.39 1.12 1.45 1.07 1.52 1.02 1.58
39 1.24 1.34 1.19 1.39 1.14 1.45 1.09 1.52 1.03 1.58
40 1.25 1.34 1.20 1.40 1.15 1.46 1.10 1.52 1.05 1.58
45 1.29 1.38 1.24 1.42 1.20 1.48 1.16 1.53 1.11 1.58
50 1.32 1.40 1.28 1.45 1.24 1.49 1.20 1.54 1.16 1.59
55 1.36 1.43 1.32 1.47 1.28 1.51 1.25 1.55 1.21 1.59
60 1.38 1.45 1.35 1.48 1.32 1.52 1.28 1.56 1.25 1.60
65 1.41 1.47 1.38 1.50 1.35 1.53 1.31 1.57 1.28 1.61
70 1.43 1.49 1.40 1.52 1.37 1.55 1.34 1.58 1.31 1.61
75 1.45 1.50 1.42 1.53 1.39 1.56 1.37 1.59 1.34 1.62
80 1.47 1.52 1.44 1.54 1.42 1.57 1.39 1.60 1.36 1.62
85 1.48 1.53 1.46 1.55 1.43 1.58 1.41 1.60 1.39 1.63
90 1.50 1.54 1.47 1.56 1.45 1.59 1.43 1.61 1.41 1.64
95 1.51 1.55 1.49 1.57 1.47 1.60 1.45 1.62 1.42 1.64
100 1.52 1.56 1.50 1.58 1.48 1.60 1.46 1.63 1.44 1.65
k : nombre de variables exognes; n : nombre dobservations et = 0.01.
Ass. Cdrick Tombola M. 98

ANNEXE 2 : INITIATION AU LOGICIEL ECONOMETRIQUE EVIEWS

Les machines un jour pourront rsoudre tous les problmes, mais jamais aucune d'entre elles ne pourra en poser un !
Albert Einstein
Lancement de lcran daccueil Eviews

Une fois install, le logiciel Eviews est lanc comme tout autre en double-cliquant sur licne Eviews au
bureau.

Voici comment se prsente Eviews au lancement : Barre de menu

Barre de commande

Cration dune feuille de travail [workfile]

Le travail sur Eviews commence par la cration dune feuille de travail o lon spcifie essentiellement la
frquence des donnes [annuelles, trimestrielles, mensuelles, etc.], leur nature [rgulires, irrgulire,
panel] et la taille de lchantillon. Cette opration peut se faire de deux manires :

(a) Dans la barre de menu, aller dans File New Workfile


Une bote de dialogue souvre o il faut distinguer trois zones.

Ici, prciser la frquence des donnes et la


taille de lchantillon. Cette zone change selon
que les donnes sont rgulires [pour sries
temporelles], irrgulires [pour sries en
coupes transversales] ou en panel.

Dans cette zone, donner un nom la feuille


de travail cre. Comme sur Excel, Eviews
donne galement la possibilit de travailler
sur plusieurs pages. Dans page on peut les
particulariser en tapant un nom.

Ici, prciser si les donnes sont rgulires,


irrgulires ou en panel]
Ass. Cdrick Tombola M. 99

Supposons que lon ait une srie temporelle annuelle, qui va de 2000 2010. Il suffira de choisir :

- Dated regular frenquency dans longlet Workfile structure type


- Annual dans longle Frenquency
- Puis prciser la taille de lchantillon dans Start date et End date.

Enfin, on peut nommer cette workfile [ECOMATH par exemple], et cette premire page [EXERCICE par
exemple] :

En cliquant sur OK, la feuille de travail est cre.

(b) Dans la barre de commande, saisir la commande create a 2000 2010

Note : Eviews nest pas sensible la casse !

Cration des variables et saisie des donnes dans Eviews

Considrons, pour la priode 2000-2010, les statistiques sur le taux de croissance du PIB [note TCPIB]
et le taux de chmage [note CHOM], produites par la BCC.

Pour crer les deux sries, dans la barre de commande, on saisit la commande data TCPIB CHOM puis
Enter.
Une fois les deux sries cres, on peut soit :

- saisir les donnes comme on le ferait sur Excel


- si les donnes sont saisies sur Excel, les copier-coller, srie par srie [aprs avoir pris soin de
remplacer toutes les virgules ventuelles par des points]
- importer les donnes partir dExcel dans Eviews

A partir dExcel, importation des donnes dans Eviews

Suivre les tapes ci-aprs :

1. Enregistrer les donnes saisies sur Excel sous Excel 97-2003, en ayant en mmoire juste les noms
donns aux sries, puis fermer le fichier ;
2. Dans Eviews, crer une feuille de travail avec la mme taille dchantillon que les donnes
enregistres sur Excel. Puis crer les variables avec les mmes noms que sur Excel.
3. Dans la barre de Menu Eviews, aller dans File Import Read Text-Lotus-Excel Une bote
de dialogue apparat o il faut reprendre le nom du fichier Excel. Rechercher le fichier o il a t
enregistr, puis le slectionner. Dans Types de fichiers, choisir Excel (*.xls), puis valider.
4. Une nouvelle bote de dialogue apparat. L, dans Names of series or number if named in file, taper
les noms des sries dans le mme ordre que sur Excel, puis OK.
Ass. Cdrick Tombola M. 100

Illustration de ltape 3

Illustration de ltape 4

En validant, Eviews importe automatiquement toutes les donnes partir dExcel.

Statistique descriptive des donnes et graphiques

En un clic, Eviews peut galement fournir les paramtres essentiels de position, de dispersion et de
forme dune srie. Ce qui permet par exemple, pour grand chantillon, de trancher sur la conformit
dune distribution la loi normale partir de la statistique de Jarque Bera.

Pour avoir ces informations, aller dans la barre de commande Eviews et saisir la commande stats TCPIB
CHOM puis Enter [la commande est stats suivi du (des) nom(s) de(s) la variable(s)].

Pour les deux sries de notre exemple, on obtient :


Ass. Cdrick Tombola M. 101

On lit par exemple, pour chaque srie, sa Moyenne [Mean], sa Mdiane [Median], son Maximum, son
Minimum, son Ecart-Type [Std. Dev.], son coefficient dasymtrie [Skewness], son coefficient
daplatissement [Kurtosis], sa statistique Jarque Bera, etc

De mme, il y a lieu davoir les mmes rsultats, dans la barre de commande, saisir la commande show
TCPIB CHOM puis valider, dans la fentre qui souvre, aller dans View Descriptive Stats
Common Sample.

Graphiques
Dans la barre de commande, saisir les commandes :

scat TCPIB CHOM [pour un nuage des points]


line TCPIB CHOM [pour avoir des lignes]

Pour avoir dautres types de graphiques proposs par Eviews, dans la fentre des donnes, aller dans
View Graph. Puis valider le graphique de son choix.

Estimation du coefficient des coefficients de corrlation de Bravais Pearson et de Spearman

Aprs avoir affich les deux variables que lon veut mettre en cause, il suffit daller dans View
Covariance Analysis. En validant, Eviews renvoie une bote, o on a la possibilit de choisir soit un
coefficient paramtrique (Bravais-Pearson) ou non paramtrique (Spearman) :
Ass. Cdrick Tombola M. 102

Si on choisit par exemple ordinary [corrlation paramtrique, Bravais-Pearson], on obtient :

Covariance Analysis: Ordinary


Date: 06/21/12 Time: 04:18
Sample: 1 11
Included observations: 11

Correlation t-Statistic Probability Observ.

TCPIB TCPIB 1.000000 ----- ----- 11


CHOM TCPIB -0.677304 -2.761860 0.0220 11
CHOM CHOM 1.000000 ----- ----- 11

Eviews renvoie le coefficient, son Student et la probabilit critique, ce qui facilite beaucoup
linterprtation des rsultats, avec comme critre : rejeter H0 si probabilit critique < au seuil de
signification.

Dans cet exemple, on observe une relation inverse significative entre le taux de taux de chmage et la
croissance du PIB en RDC, pour la priode 2000-2010, la loi dOkun se vrifie-t-elle ?

Estimation par OLS du modle linaire et tests

Pour estimer par OLS, il suffit daller dans Quick Estimate Equation, puis entrer les variables, spares
par des espaces, dans lordre apparaissant dans le modle estimer, en notant le terme constant par la
lettre C, choisir ensuite la mthode destimation pour notre cas LS ou Least squares et valider.

Le mme rsultat peut tre aussi obtenu en saisissant, sur la barre de commande Eviews, la commande
LS suivi de nom de la variable endogne C noms des variables exognes spares deux deux par un
espace

Pour estimer un modle sans terme constant, il suffit de retirer C dans la commande passer.

Tests

Aprs avoir lanc la commande destimation par OLS, tous les tests portant sur les rsidus figurent dans
longlet Residuals Tests.
Ass. Cdrick Tombola M. 103

ANNEXE 3 : UN MOT SUR LES TESTS DE RACINE UNITAIRE ADF ET PHILLIPS-PERRON

Laboratoire dAnalyse Recherche en Economie Quantitative


One pager Avril 2012 Numro-010
Lien : http://www.lareq.com

Processus stochastique et absence de trend


Une interprtation prudente et plus attentive
Cdrick Tombola Muke
"Dieu ne joue pas aux ds"
Albert Einstein

Avertissement

Ce papier est crit dans lobjectif de mettre en garde contre le risque des conclusions errones lors des
tests Augmented Dickey Fuller (ADF) et Phillips-Perron (PP). Il est crit au moment o, parmi la plupart
de nos tudiants du niveau de la licence, la mauvaise procdure et la mauvaise interprtation de ces
tests ont gagn le terrain.

Lobjet de notre papier repose sur le fait que nombre dconomtres en herbe, en menant ces tests,
oublient que ceux-ci considrent que la composante dterministe suit une tendance linaire et quun
processus DS (stationnaire en dme diffrence) nexclut pas la possibilit dun trend dun autre type.

De plus, ironie du sort, on ne pense dtecter la nature du trend que si les tests concluent une non
stationnarit dterministe et quil convient dappliquer lcart la tendance. Ce qui, curieusement,
revient accepter la possibilit davoir un trend de type non linaire dont on ne sest pas donn la peine
de dtecter au dbut du test.

Que faire ? Ce papier se propose de rpondre, prudemment, cette question, dabord en privilgiant les
aspects thoriques, ensuite en considrant une tude des cas qui permet de mettre en exergue la
problmatique souleve ci-dessus.

I. Processus non stationnaire

A titre de rappel, un processus est stationnaire, au sens faible, si ses moments dordre 1 et dordre 2
sont indpendants du temps. Dans le cas contraire, il est dit non stationnaire. Pour ce dernier type de
chroniques, lune au moins de trois conditions ci-aprs est viole :

(i) E(Yt) =
(ii) E( )=
(iii) Cov (Yt, Yt+k) = k ou -k

Les travaux pionniers de Nelson et Plosser (1982), qui ont soulign la prsence dune racine unitaire dans
les principales sries macroconomiques, distinguent en effet deux types de processus dans la famille
des processus non stationnaires :
Ass. Cdrick Tombola M. 104

Les processus TS [Trend Stationary] qui sexpriment comme une fonction du temps et dun bruit
blanc :
Yt = f(t) + Zt o Zt est un bruit blanc [white noise]

Ce type de processus est rendu stationnaire en lui retirant sa tendance dterministe [Zt = Yt - f(t)].

Les processus DS [Differency Stationary] qui sont caractriss par la prsence dau moins une
racine unitaire. De tels processus sont rendus stationnaires aprs d diffrences, (1 B)dYt.

Dun point de vue conomique, un processus TS implique que les chocs alatoires frappant lconomie
nauront quun effet transitoire sur lvolution de la chronique qui aura tendance ensuite revenir sur son
trend de long terme stable. En revanche, les chocs frappant lconomie auront un effet persistant et
durable sur lvolution de la chronique si le processus est DS.

II. Tests de non stationnarit

Le but et lavantage des tests de non stationnarit consistent en la confirmation ou non de la non
stationnarit46, en la dtermination du type de processus et en la prcision de la bonne mthode de
stationnarisation.

On fait gnralement deux catgorisations de ces tests, synthtises dans le tableau ci-aprs.

Tableau 1. Catgorisation de tests de non stationnarit

Catgorisation quant aux hypothses testes

Tests dH0 de prsence de racine unitaire Tests dH0 dabsence de racine unitaire
- Test Dickey Fuller [DF] - Test de Kwiatkowski Phillips Schmidt Shin
- Test Augmented Dickey Fuller [ADF] [KPSS]
- Test de Phillips Perron [PP]
- Test de Ng Perron
- Etc.

Catgorisation portant sur le type de trend pris en compte

Tests bass sur une tendance linaire Tests bass sur une tendance non linaire
- Test DF - Tendance polynomiale : Test de Ouliaris, Park et
- Test ADF Phillips
- Test PP - Tendance linaire par morceaux et chocs : test
- Test de Ng Perron de Perron
- Test KPSS
- Etc.

La critique que nous formulons dans ce papier concerne essentiellement linterprtation des rsultats de
tests ADF et PP.

46
En effet, un examen graphique est parfois assez loquent pour se prononcer sur la non stationnarit dune
chronique.
Ass. Cdrick Tombola M. 105

Tests ADF et PP : la composante dterministe suit une tendance linaire

Dickey et Fuller (1976) sont les premiers avoir fourni un ensemble doutils statistiques formels pour
dtecter la non stationnarit dans un processus autorgressif du premier ordre. Dans leurs premiers
dveloppements, ils ont assum que le processus t tait un bruit blanc, or rien, priori, ne conduit la
satisfaction dune telle hypothse. La prise en compte de cette faiblesse a conduit les deux auteurs
proposer, en 1981, un test augment (ADF).

Le test de Phillips - Perron47, en revanche, propose une correction non paramtrique des tests de Dickey
Fuller afin de tenir compte des erreurs htroscdastiques.

La procdure des tests ADF et PP est base sur lestimation, par les MCO, de trois modles
autorgressifs, en intgrant tous les retards significatifs en diffrences premires, suivants :

[1] Yt = Yt-1 + + t
[2] Yt = c + Yt-1 + + t
[3] Yt = c + bt + Yt-1 + + t

Le modle [3] est le modle gnral o la composante dterministe suit un trend linaire (t). Rappelons
que les tests ADF et PP sont des tests dhypothse nulle de prsence de racine unitaire et portent sur le
paramtre :

H0 : = 0 [non stationnarit ou prsence de racine unitaire]

H1 : < 0 [stationnarit ou absence de racine unitaire]

La procdure du test est la suivante.

Tableau 2. Procdure du test de non stationnarit


Modle Mthode de
Conclusion du test Processus
estimer stationnarisation
1. Estimer le Il y a un trend linaire TS Ecart la tendance
modle [3] Il ny a pas un trend linaire
Tester b .
2. Estimer le Significatif Tester Non RH0 DS avec drive Filtre aux diffrences
modle [2] RH0 stationnaire
Tester c Non significatif
.
3. Estimer le modle [1] Non RH0 DS sans drive Filtre aux diffrences
Tester RH0 stationnaire

Comme il ressort du tableau, un processus TS signifie simplement labsence dune composante


dterministe suivant un trend linaire, un autre type de trend reste possible.

47
Propos par Phillips (1987), Phillips et Perron (1988).
Ass. Cdrick Tombola M. 106

Non stationnarit de nature mixte

Dans lestimation du modle [3], on dit quune chronique est caractrise par une non stationnarit de
nature mixte, si aprs tests de significativit des paramtres b et , on conclut quil y a existence, la
fois, dun trend linaire et dune racine unitaire.

Pour ce dernier cas, on peut aisment appliquer le filtre aux diffrences pour stationnariser la srie. En
effet, Dickey, Bell et Miller (1986) ont montr que si lobjectif poursuivi est la prvision, appliquer le filtre
aux diffrences en prsence dune non stationnarit de nature mixte, est plus rconfortant qualarmant,
car dans ce cas, estiment ces auteurs, la diffrenciation limine le trend linaire.

En conclusion, lorsquon mne les tests ADF et PP, conclure sur un processus DS implique simplement
quon a rcus la prsence dune tendance linaire dans la srie. Il serait donc erron de conclure,
brutalement, labsence dun trend, oubliant que les tests mens sont eux-mmes bass sur lhypothse
dune tendance linaire.

Figures 1. Quelques types de trend

Trend linaire (t) Trend quadratique (t2)


250 45000
40000
200 35000
30000
150
25000
20000
100
15000
50 10000
5000
0 0
1

37

121

37
49

73

97

181

49

73

121
97

181
61

109

133

169

193

61

109

133

169

193
25

85

25

85
145

145
157

157
13

13

Trend exponentiel (et) Trend logarithmique [Log(t)]


8E+86 6
7E+86
5
6E+86
4
5E+86
4E+86 3
3E+86
2
2E+86
1
1E+86
0 0
56

89
23

61

85
12

34

144

199
1

45

78

25
37
155
67

111

73

145
166
177

13

121
100

122
133

188

49

97

157

181
109

133

169

193
Ass. Cdrick Tombola M. 107

III. Etude des cas de lindice des prix [rubrique alimentation] en RDC48

La srie sera abrge IP dans la suite de ce papier.

Figure 2. Analyse du plot de la srie IP

900

800

700

600

500

400

300

200

100

0
00 01 02 03 04 05 06 07 08 09

IP

La srie IP prsente une tendance haussire. Elle semble non stationnaire affecte dune tendance. Mais
de quel type ? Visiblement, dun trend non linaire.

Figure 3. Analyse du corrlogramme de la srie IP

Ce corrlogramme fait tat dune dcroissance lente de toutes les autocorrlations de IP. On constate
aussi que la premire autocorrlation partielle est significativement diffrente de zro. Ceci est indicatif
dune srie non stationnaire.

48
Les donnes sont reprises en annexe 1 et proviennent de la section conomique de lAmbassade Amricaine. Elles
sont mensuelles et couvrent la priode allant de 2000 2009.
Ass. Cdrick Tombola M. 108

Tests ADF et PP de la srie IP en niveau

Les rsultats de ces tests sont repris intgralement en annexe 2 de ce papier. Le nombre de retard,
retenu pour les deux tests, a t trouv en appliquant la stratgie destimation squentielle fonde sur
la significativit des coefficients des retards en diffrences premires, propose par Perron (1993).

Alors que lanalyse du plot a indiqu que la srie comportait un trend, les tests ADF et PP, synthtiss ci-
aprs, disent quil y a absence de trend. Cest donc ici quil faut viter toute conclusion htive. Il ny a
pas absence dun trend dans la srie IP, il y a plutt absence dun trend linaire.

Tableau 3. Test ADF et PP de la srie IP niveau


En niveau
Trend
Retard Drive Statistique Statistique Valeur critique Conclusion
linaire
ADF PP [ 5%]
Non-stationnaire
IP 0 Non Non 6.706690 8.150683 -1.943540
Type stochastique
P-value 1.0000 1.0000

La srie tant caractrise par une non stationnarit de nature stochastique (DS), il convient
dappliquer le filtre aux diffrences pour la rendre stationnaire.

Tableau 4. Tests ADF et PP de la srie IP en diffrences premires

En diffrences premires
Conclusion
Statistique ADF Statistique PP Valeur critique [ 5%]
IP 7.150804 7.167671 -1.943563 stationnaire
P-value 0.0000 0.0000

Figure 4. Plot de la srie stationnaire, vraisemblablement en moyenne

80

60

40

20

-20

-40

-60
00 01 02 03 04 05 06 07 08 09

DIP

Das könnte Ihnen auch gefallen