Beruflich Dokumente
Kultur Dokumente
Economtrie
Linaire
applique
Avec exemples pratiques
Anne 2015-2016
Plan du cours :
1.
2.
3.
4.
5.
6.
Travaux dirigs
1. Gnralits : commentaires des relations conomiques et passage aux relations
conomtriques
2. Exercices : srie 4, srie 5
Bibliographie :
1.
2.
3.
4.
5.
Mathmaticien (Modlisation)
Propose une formulation algbrique de la
thorie
Ex. = +
Statisticien (Estimation)
Estime les paramtres du modle partir de
donnes : Validation statistique
Ex. = 0.5 ; = 10
=+
= +
Equations de comportement
Thorie conomique
Identit
Modlisation
(Introduction dhypothses
simplificatrices sur la forme de la relation)
Limites de cette relation : existence dautres variables exognes au modle tels que le revenu, le prix
du bien de substitution, etc.
Les formulations prcdentes supposent un ajustement instantan de loffre et la demande aux
variations du prix, puisque le temps nintervient pas explicitement. Dans certains cas, cette
simplification ne sera pas admissible. Ainsi loffre de nombreux denres agricoles dpend peu de prix
auxquels elles se vendront, et beaucoup plus des prix observs au cours de lanne antrieure.
= ( )
= (1 )
= +
= + +
= + +
Dmarche conomtrique
THEORIE
Connaissance des
donnes
Dtermination
des objectifs
Background
Objectifs
Critres
Collecte des
donnes
Donnes initial
Rapport
Evaluer la
situation
Risc
Donnes
descriptives
Descriptif des
donnes
Rapport
Dterminer les
objectifs de
lexploration des
donnes
Data mining goals
Exploration des
donnes
Rapport
Produire le plan
du projet
Plan
Techniques
utiliser
Vrification de
la qualit des
donnes
Rapport
Prparation des
donnes
Modlisation
Slectionner les
donnes
Inclusion/exclusion
Slection de la
technique de
modlisation
Donnes claires
Rapport
Construction des
donnes
Donnes intgre
Fusion
Construction du
modle
Paramtres
Modle
Description du
modle
Formes des
donnes
Description de
lensemble des
donnes
Evaluer le
modle
Evaluation du
modle
Rvision des
paramtres
Evaluation
Evaluer les
rsultats
Evaluation des
donnes
Dploiement
Plan du
dploiement
Production du
rapport final
Approuver le
modle
Examen du
Processus dexamen
projet
Exprience
Dtermination des documentation
tapes suivantes
Liste des actions
futures possibles
Variable Endogne
= +
(1.1)
Comme il est douteux que tous les points appartiennent la droite correspondante, la relation
linaire exacte (1.1) doit tre modifie afin dinclure le terme stochastique1 (une perturbation
alatoire non observable) que nous dsignons par .
Terme dErreur
= + +
(1.2)
Lajustement par la mthode des moindres carres ordinaires, va apparaitre comme le procds
convenant lestimation des paramtres du modle.
Transformation simple permettant dtendre lusage du lajustement linaire
Sil existait une relation certaine entre consommation et revenu des mnages , et que cette
relation tait prcisment la mme pour tout le monde, on aurait pour chaque individu :
= 0 +
Dans ce cas, toutes les observations appartiendraient la mme droite, Il suffirait alors de connaitre
les observations pour 2 mnages seulement pour trouver les valeurs des paramtres 0 et . Ce
cadre de gure ne se rencontre jamais car la ralit est plus complexe. En effet, aucun mnage ou
presque ne vrifie exactement la fonction de consommation keynsienne : Certains mnages sont
plus dpensiers, Dautres mnages sont trs exposs au risque de chmage par exemple ils
cherchent consommer moins pour conomiser pour se constituer une pargne de prcaution. Pour
grer cette incertitude, on utilise une approche probabiliste en introduisant une variable alatoire :
Le modle conomtrique que lon considrera est alors le suivant :
= 0 + +
Bien entendu, on peut sintresser dautres modles, par exemple, lestimation dune fonction de
production Cobb-Douglass, o la production (variable endogne) dpend des facteurs de
production, le capital et le travail , ainsi que le temps :
= 1
On remarque que ce modle nest pas linaire tel que, mais on peut le rendre linaire (dans les
variables) si on prend le logarithme de cette quation. En effet, on obtient :
= + + (1 ) +
O on note en minuscule le logarithme des variables ( = (), = (), et des paramtres ( =
(), = ()). Le modle conomtrique estimer est dit modle de rgression multiple, car il
comporte plusieurs variables explicatives (capital, emploi, temps) au phnomne tudi (production
de lentreprise). Si nous disposons dobservations dans le temps pour les variables, le modle est
donn par :
= ( + ) + + (1 ) +
1
est un terme alatoire non observable appel : terme derreur, terme alatoire ou perturbation alatoire
2001
40
2002
2003
2
3
44
46
10
12
2004
48
14
2005
52
16
2006
58
18
2007
60
22
2008
68
24
2009
74
26
2010
10
80
32
10
570
180
Annes
80
60
40
20
0
0
10
20
30
40
=
Lquation de rgression par la mthode des MCO est alors :
(1.4)
(1.5)
= +
( ) = ( ( )) = ( )2 =
,
La solution du systme est donne par les conditions du premier et de deuxime ordre :
= 2 ( ) = 0
= 2 ( ) = 0
Les quations
normales
( ) = 0
= +
Et partir de lquation 2, on a :
( ) = 0
= +
=
Do on peut crire
En remplaant la valeur de dans :
= +
= +
= + ( )
= ( )
On vrifie galement les conditions de deuxime ordre :
> 0 | | > 0
Strictement parler, dans les modle conomiques, les rsidus peuvent tre calculs ( est la diffrence entre
le terme calcul et le terme observ), tandis que les erreurs ( ) ne sont pas observables, donc inconnues
appeles simplement alas.
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
Sommes
Moyennes
1
2
3
4
5
6
7
8
9
10
10
40
44
46
48
52
58
60
68
74
80
570
57
6
10
12
14
16
18
22
24
26
32
180
18
240
440
552
672
832
1044
1320
1632
1924
2560
11216
36
100
144
196
256
324
484
576
676
1024
3816
Nous pouvons donc dduire les valeurs des paramtres du modle partir des relations (1.4) et (1.5).
=
1121610 1857
956
= 976
38161018
= = 57 1.65972 18 =
1,6597
Lordonne lorigine
27.125
= +
Il en rsulte :
= , + ,
Figure (1.2): Rendement du Fertlisant
Equation estime de la
droite de rgression
90
Mas (tonnes par hectare)
80
70
y = 1,6597x + 27,125
60
Par consquent si :
( , )
50
40
30
= 0, alors = 27.125 =
Et lorsque = 18 = , alors
= (1,6597 18) + 27,125 = 57 =
20
10
0
0
10
20
30
40
Avec
( ) ( )( )) (, )
=
=
=
( )
( )
()
(, ) =
( )( ))
et
() =
10
( )
2
lie la somme des carrs des rsidus, est une bonne estimation de l'cart-type: , de l'ala.
Elle est appele: cart-type rsiduel ;
2. Les estimateurs : et , sont les meilleurs possibles (en un sens mathmatique qu'on ne
prcisera pas davantage pour l'instant);
3. Les estimateurs : et , suivent des lois normales : ((), ) et ((), ), dont les
esprances de et , sont les quantits estimes ; ces estimateurs sont sans biais ;
4. Les carts-types : et , des estimateurs : et , peuvent galement tre estims.
Pour une prcision minimale des estimations, on demande gnralement que le nombre : ,
d'observations utilises approche au moins la quinzaine.
Thorme : Sous les hypothses prcdentes de H1 H5, les estimateurs et de la mthode des
MCO, sont linaires, sans biais, convergents et efficaces. (En anglais : BLUE: Best Linear Unbiased
Estimator.)
Encadr 2 : Les estimateurs et sont, sans biais (calcul algbrique )
a) Dmontrons que est sans biais (cest--dire () = )
=
Avec :
( )( ))
=
( )
= ( )
Donc :
= = ( + + ) = + +
11
= 0
Donc : () = + ( )
alors = +
et puisque ( ) = 0
donc () =
= + + = + +
Or :
= = + + = ( ) +
Donc :
() = ( ) + () =
donc () =
|coefficient estim|
carttype estim
< 1.96
|coefficient estim|
carttype estim
> 1.96
Ce test est gnralement appel test de Student, car, strictement, lorsque l'chantillon utilis est de
petite taille ( < 30), il conviendrait d'employer une loi de Student, voisine de la loi normale mais plus
disperse, pour tenir compte du fait que l'cart-type est lui-mme estim.
Lors d'une tude conomtrique, le test de Student sur chacun des coefficients est beaucoup plus
important que l'examen du coefficient de corrlation.
12
() =
() =
= ()
= ()
() = (
() =
=
=
()()
( )
Alors
= = =
Donc une estimation non biaise des variances de et est alors de la forme :
( )
(1.6)
( )
~
~
~
Exemple : Le tableau (1.3) qui est une extension du tableau (1.2) rassemble des calculs ncessaires
pour tester la signification statistique de et .
2001
2002
1
2
40
44
6
10
240
440
36
100
37,08
43,72
2,92
0,28
8,51
0,08
)
(
144
64
2003
2004
3
4
46
48
12
14
552
672
144
196
47,04
50,36
-1,04
-2,36
1,09
5,57
36
16
2005
2006
5
6
52
58
16
18
832
1044
256
324
53,68
57,00
-1,68
1,00
2,82
1,00
4
0
2007
2008
7
8
60
68
22
24
1320
1632
484
576
63,64
66,96
-3,64
1,04
13,24
1,09
16
36
2009
2010
9
10
74
80
26
32
1924
2560
676
1024
70,28
80,24
3,72
-0,24
13,85
0,06
64
196
Sommes
Moyennes
10
570
57
180
18
11216
3816
47,31
576
Annes
13
Il en rsulte que pour tester la signification des paramtres et partir de lquation estime :
= , + ,
Le calcul du test dhypothse suivant se
( ) ?
( ) ?
ralise en calculant
||
De dterminer (colonne 7), et par consquent le calcul des erreurs || (voir le cours du test
Seffectue = ( ) (colonne 8).
dhypothse)
Et partir des relations (1.6) :
1
47,31
1
=
= 0,01
( ) 10 2 567
= 0,01 0,1
Donc
De la mme manire,
47,31
3816
=
0,1
|| |27,125|
=
=
13,7
1,98
Comme et dpassent tous deux = 2,306 avec = 8 degrs de libert au seuil de
signification de 5% (daprs la table de Student), nous concluons que et ensemble sont
statistiquement signifiants au seuil de 0,05.
Test defficacit dajustement et coefficient de corrlation
Plus les points reprsentatifs des observations sont proches de la droite de rgression (c'est--dire
plus les rsidus sont faible), plus importante est la variabilit de explique par lquation de
rgression estime. La variabilit totale de est donc gale la somme de variabilit explique et la
variabilit rsiduelle.
( )2 =
Variabilit Totale de
(somme totale des carts la
moyenne)
( )
Variabilit explique de
(somme des carres de la
rgression)
( )
(1.7)
Variabilit rsiduelle de
(somme des carres des
erreurs)
14
=1
( )
=1
( )
( )
1
2
3
4
5
6
7
8
9
10
10
40
44
46
48
52
58
60
68
74
80
570
57
6
10
12
14
16
18
22
24
26
32
180
18
240
440
552
672
832
1044
1320
1632
1924
2560
11216
36
100
144
196
256
324
484
576
676
1024
3816
37,08
43,72
47,04
50,36
53,68
57,00
63,64
66,96
70,28
80,24
2,92
0,28
-1,04
-2,36
-1,68
1,00
-3,64
1,04
3,72
-0,24
0
)
(
8,51
144
0,08
64
1,09
36
5,57
16
2,82
4
1,00
0
13,24
16
1,09
36
13,85
64
0,06
196
47,31
576
47,31
)
(
289
169
121
81
25
1
9
121
289
529
1634
Nous avons :
t
R = 1 (y y
= 1 1634 = 1 0,029 0,971,
)
Et encore :
(y
y
)
1587
97,10%
)
(
397
176
99
44
11
0
44
99
176
540
1587
97,10%
3% reprsente la part
de la variabilit rsiduelle
Lquation de rgression explique donc environ 97% de la variabilit totale de la production du mas.
Les 3% restant peuvent tre attribus des facteurs inclus dans le terme derreur.
Ds lors :
16
Relation conomique
= +
Spcification conomtrique = + +
Hypothses
Ajustement linaire
= + +
= a +
Proprits
Questions importantes :
1) Est-ce que lajustement est
bon dans sa globalit ?
2) Est-ce que les paramtres
sont significatifs ?
inconnue
(car est inconnue)
= = =
17
Accepter si
leurs valeurs si
sont suprieurs
1.96.
Maintenant on
peut calculer :
et partir
des calculs de
= (
et =
( )
tandis que le paramtre mesure , c'est--dire, ici dans le contexte du problme, mesure
la propension marginale consommer (PMC). Pour obtenir la relation linaire
correspondante la relation linaire gnrale (1.1), il faut estimer les valeurs de et ; ces
valeurs estims scrivent et et se lisent chapeau, et chapeau.
b) On peut rendre alatoire la relation linaire exacte (1.1) en lui adjoignant un terme derreur
non observable :
= + +
c) Divers raison empchent la plupart des valeurs observes de dappartenir exactement
lensemble des ordonnes dune droite : (1) bien quon suppose que la consommation
18
19
Exercice :
(a) En quel sens la mthode dite des moindres carres ordinaire (MCO), permet-elle destimer la
meilleure droite dajustement par un chantillon dobservation ? (b) Pourquoi choisir les carts
verticaux ? (c) Pourquoi ne pas prendre simplement la somme des carres sans les porter au
carr ? (d) Pourquoi ne pas prendre la somme des valeurs absolues des carts ?
a) Une droite ajuste les donnes (les observations de lchantillon ) au sens des moindres
carres lorsque, sur un graphe de dispersion, la somme des distances verticales entre les
points observs et la droite est minimale.
b) On utilise les carts verticaux parce quon sefforce dexpliquer ou de prdire les
changements de , lequel est mesur sur laxe vertical.
c) Si lon somme simplement les carts, deux carts de mme valeur absolue mais de signes
opposs sliminent, de sorte que la somme totale est nulle (voir dans le tableau (1.3)) :
la mthode serait inapplicable.
d) On pourrait viter la difficult prcdente en prenant la somme des valeurs absolues des
carts. On prfre toutefois dutiliser la somme des carts quadratique de manire
dfavoriser relativement les grands carts par rapport au petits (voir le thorme dit de
Gauss-Markov).
Exercice
) ? (b) quelle est la
,
(a) Quelle est la diffrence entre les deux couples de termes (, ) et (
diffrence entre et ? (c) Ecrire les quations exprimant les deux relations, vraie et estime,
entre et ? (d) Ecrire les deux quations des droites correspondantes aux deux rgressions,
vraie et estime, de par rapport ?
a) (, ) sont les paramtres de la rgression linaire vraie mais inconnue de par rapport
; (, ) sont les paramtres de la rgression linaire estime.
b) est le terme derreur ou terme alatoire dans la relations vraie mais inconnue de par
rapport ; le terme est le rsidu calculable, dfini par la diffrence entre chaque valeur
observe et la valeur ajuste qui lui correspond dans la relation estime entre et .
c) Les deux relations, vraie et estime, entre et , ont respectivement pour quation :
= + +
= + +
d) Les deux rgressions, vraie et estime, de Y par rapport X ont, quant elles,
respectivement pour quation :
( ) = +
= +
Exercice
Le tableau suivant trace la relation entre la consommation globale et le revenu disponible dans un
? (b) tracer la droite de rgression?
et
pays pendant douze annes. (a) dterminer la valeur de
en utilisant les valeurs centre de et ( =
et
,
(c) calculer les valeurs des paramtres
) ?
et =
20
1
2
3
4
5
6
7
8
9
10
11
12
102
106
108
110
122
124
128
130
142
148
150
154
1524
127
114
118
126
130
136
140
148
156
160
164
170
178
1740
145
11628
12508
13608
14300
16592
17360
18944
20280
22720
24272
25500
27412
225124
12996
13924
15876
16900
18496
19600
21904
24336
25600
26896
28900
31684
257112
=
-25
-21
-19
-17
-5
-3
1
3
15
21
23
27
=
-31
-27
-19
-15
-9
-5
3
11
15
19
25
33
775
567
361
255
45
15
3
33
225
399
575
891
4144
961
729
361
225
81
25
9
121
225
361
625
1089
4812
Revenu disponible
50
100
150
200
Consommation globale
c) Calcul des valeurs des paramtres et partir des valeurs centre de et : les colonnes
6, 7, 8 et 9, fournissent les calculs ncessaires pour calculer les paramtres du modle.
4144
Une autre relation (1.8) de sur la base des
=
=
0,86
valeurs centre de et de (sera utilise
4812
dans la rgression multiple
= = 127 0.86 145 = 2,13
= + = 0,87 + 2,13 = 2,13 + 0,87
Exercice
?
On considre les rsultats le lexercice prcdent, (a) indiquer la signification de lestimateur
? (c) dterminer llasticit-revenu de la consommation ?
(b) celle de
21
145
Dans ce cas trait, et daprs les donnes du tableau prcdent : = = 0,86 127 = 0,98
On notera qu la diffrence de la pente, llasticit est mesure par un nombre pur,
indpendant des units utilises.
22
a) est la variance du terme derreur dans la relation vraie entre et . par contre =
=
est la variance rsiduelle et fournit une estimation sans biais de , lequel est
b) () = ( ) tandis que
() = ( ) . il est ncessaire de connaitre les
variances de et (ou leurs estimations) pour tester les hypothses sur ces deux
paramtres et pour construire les intervalles de confiances correspondants.
c) =
1
)
et =
1
2
3
4
5
6
7
8
9
10
11
12
102
106
108
110
122
124
128
130
142
148
150
154
1524
127
114
118
126
130
136
140
148
156
160
164
170
178
1740
145
11628
12508
13608
14300
16592
17360
18944
20280
22720
24272
25500
27412
225124
100,30
103,75
110,64
114,08
119,25
122,69
129,58
136,47
139,92
143,36
148,53
155,42
12996
13924
15876
16900
18496
19600
21904
24336
25600
26896
28900
31684
257112
a)
= = =
b)
= ( ) =
115,27
122
1,70
2,25
-2,64
-4,08
2,75
1,31
-1,58
-6,47
2,08
4,64
1,47
-1,42
0,00
2,88
5,07
6,96
16,67
7,57
1,71
2,51
41,90
4,34
21,51
2,16
2,01
115,27
)
(
961
729
361
225
81
25
9
121
225
361
625
1089
4812
= 11,52752 11,53
257112
23
Par la suite :
c)
)2
i x
sa2 = (x
11,53
4812
0,0024
= = 0,0024 0,05
Exercice
Dans le cas du problme prcdent, tester au seuil de signification de 5% pour (a) et (b) ?
a)
||
||
|2,13|
7,23
0,29
Cette valeur de est daprs la table de Student, infrieur la valeur tabule = 2,228 au
seuil de 5% (test bilatral) et pour = 10 : il faut conclure que nest pas statistiquement
signifiant au seuil de 5% ; autrement dit, on ne peut rejeter lhypothse 0 suivant laquelle
=0
b)
||
= =
||
|0,86|
0,05
17,2
Par consquent, a est statistiquement signifiant au seuil de 5% (et aussi au seuil de 1%) : on
ne peut rejeter lhypothse H1 , suivant laquelle a 0.
Exercice
Dans le cas du mme problme, tablir les intervalles de confiances 95% pour (a) et (b) ?
a) Lintervalle de confiance 95%, dans le cas de b est donn par :
= 2,228 = 2,13 (2,228 7,23) = 2,13 16,10
Par consquent est compris entre -13,97 et 18,23 au seuil de confiance de 95%. La largeur
de cette intervalle, qui lui te tout intrt, reflte que na pas de signification statistique.
b)
24
(y
y
)
= = (yty)
t
( )
1
2
3
4
5
6
7
8
9
10
11
12
102
106
108
110
122
124
128
130
142
148
150
154
1524
127
114
118
126
130
136
140
148
156
160
164
170
178
1740
145
11628
12508
13608
14300
16592
17360
18944
20280
22720
24272
25500
27412
225124
12996
13924
15876
16900
18496
19600
21904
24336
25600
26896
28900
31684
257112
100,30
103,75
110,64
114,08
119,25
122,69
129,58
136,47
139,92
143,36
148,53
155,42
1,70
2,25
-2,64
-4,08
2,75
1,31
-1,58
-6,47
2,08
4,64
1,47
-1,42
0,00
(
)
2,88
961
5,07
729
6,96
361
16,67
225
7,57
81
1,71
25
2,51
9
41,90
121
4,34
225
21,51
361
2,16
625
2,01
1089
115,27
4812
)(
)
) (
(
625
775
441
567
361
361
289
255
25
45
9
15
1
3
9
33
225
225
441
399
529
575
729
891
3684
4144
( ) 3569
=
0,9687 = 96,87%
( ) 3684
= 1 (
=1
)
b)
)
(
712,71
540,65
267,73
166,87
60,07
18,54
6,67
89,74
166,87
267,73
463,52
807,64
3569
115,27
3684
0,9687 = 96,87%
(b) =
(a) =
( )( )
(c) =
( )( )
( )( )
( )
( )( )
( ) ( )
4144
4812 3684
= 0,9842
c) Et
=
( )( )
0,86 4144
=
= 0,9836
( )
3684
26
27
1
6
9
2
8
10
3
8
8
4
7
7
5
7
10
6
12
4
7
9
5
8
8
5
9
9
6
10
10
8
11
10
7
12
11
4
13
9
9
14
10
5
15
11
8
Le tableau suivant prsente les rsultats des diffrents calculs ncessaires pour rpondre aux
questions poses :
Pays n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
6
8
8
7
7
12
9
8
9
10
10
11
9
10
11
135
9
9
10
8
7
10
4
5
5
6
8
7
4
9
5
8
105
7
(a) =
(b) =
54
80
64
49
70
48
45
40
54
80
70
44
81
50
88
917
81
100
64
49
100
16
25
25
36
64
49
16
81
25
64
795
Relations de base
et =
; sa2 = (x x)2 ; =
i
||
( ) ; =
; =
||
8,07
7,60
8,53
9,00
7,60
10,40
9,93
9,93
9,47
8,53
9,00
10,40
8,07
9,93
8,53
4,27
0,16
0,28
4,00
0,36
2,56
0,87
3,74
0,22
2,15
1,00
0,36
0,87
0,00
6,08
26,93
)
(
4
9
1
0
9
9
4
4
1
1
0
9
4
4
1
60
)
(
9
1
1
4
4
9
0
1
0
1
1
4
0
1
4
40
Rsultats
= 0,47 ; = 12,27
= 2,07 ; sa2 = 0,03 ; = 1,83 ; =
2,51 ; =
|12,27|
1,35
|0,47|
0,18
(c) = 1 (y y
; =
)
= 0,33 ; = 0,57
(d)
= +
=? =?
( ) ? ( ) ?
= +
(2,51 ) (9,07)
28
= 0,33
= 0,57
Dpenses publicitaires
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
Chiffre daffaires
5
3,4
3,6
5,6
4,4
4
3,8
4,4
6
6,1
560
500
510
584
530
520
524
560
570
592
Chiffre daffaires
600
580
560
540
520
500
480
4
6
Dpenses publicitaires
29
n
1
2
3
4
5
6
7
8
9
10
N = 10
560
500
510
584
530
520
524
560
570
592
5450
545
5
3,4
3,6
5,6
4,4
4
3,8
4,4
6
6,1
46,300
4,630
2800
1700
1836
3270
2332
2080
1991
2464
3420
3611
25505
25,00
11,56
12,96
31,36
19,36
16,00
14,44
19,36
36,00
37,21
223,25
556,30
507,43
513,54
574,63
537,97
525,75
519,64
537,97
586,85
589,91
13,67
55,14
12,50
87,76
63,58
33,11
18,97
485,15
283,96
4,38
1058,229
)
(
0,137
1,513
1,061
0,941
0,053
0,397
0,689
0,053
1,877
2,161
8,881
)
(
225
2025
1225
1521
225
625
441
225
625
2209
9346
La corrlation linaire exprime lintensit de la liaison entre deux variables : le chiffre daffaires en
fonction des dpenses publicitaires.
Le coefficient de corrlation () est un indicateur de cette relation. Il est dtermin de la faon
suivante :
( ) ( )
(, )
=
=
=
= 0,942
( ) ( )
Ce qui confirme une forte corrlation entre les dpenses publicitaires et le chiffre daffaires.
Lorsque la corrlation linaire est significative, on peut estimer notre relation conomtrique.
Daprs le tableau des calculs, on peut calculer a
et b , nous avons donc :
= 30,55 + 403,56
Et
(7,9)
(22,13) R = 0,8868
600
y = 30,548x + 403,56
R = 0,8868
Chiffre daffaires
580
560
540
520
500
480
0
Dpenses publicitaires
30
2000
12
48
192
24
768
96
96
384
1536
2
4
6
3
8
5
5
7
9
1500
1000
500
0
0
10
On vous demande danalyser dabord la courbe tire du croisement de variables partir du tableau,
et ensuite proposer une modlisation linaire et une estimation des ventes si le nombre des stations
gale 12.
La reprsentation graphique de lvolution des ventes nous renseigne que la relation entre les deux
variables peut avoir la forme dune courbe exponentielle, de la forme :
=
Dans ce cas on ramne la tendance exponentielle la forme linaire (logarithme nprien):
= () + ()
On procde un changement de variable de sorte que : = , = () et = () : on aura
la forme :
= +
Puis notre spcification conomtrique est sous la forme :
= + +
On calcul les paramtres et par la mthode des moindres carres ordinaires :
8,000
2,485
3,871
5,257
3,178
6,644
4,564
4,564
5,951
7,337
2
4
6
3
8
5
5
7
9
y = 0,6931x + 1,0986
R = 1
6,000
4,000
2,000
0,000
0
31
10
Coefficient
Std. Error
t-Statistic
Prob.
C
REVENU
-22.50933
82.93119
76.78067
20.05219
-0.293164
4.135768
0.7703
0.0001
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.196368
0.184888
287.1440
5771618.
-508.6683
17.10458
0.000097
262.5321
318.0468
14.18523
14.24847
14.21041
1.675659
82,93 0
= 4,13
20,05
On veut maintenant prvoir les dpenses sur carte de crdit associes un niveau de revenu de
40000 DH. Les dpenses prvues pour ce niveau de revenu seront de :
40000 = + 40000
40000
= 309,21 DH
10000
Au regard de cet exemple, il parait claire les limites du modle de rgression simple, il est
indispensable de rajouter dautres variables explicatives pour expliquer les dpenses moyennes sur
carte de crdit, ce titre nous parlons du modle de rgression multiple.
32
= 0 + 1 1 +
+ +
Paramtres
Terme dErreur
composante
alatoire
(2.1)
(2.2)
La multiplicit des variables exognes conduit ajouter une hypothse nouvelle celles qui
spcifient le modle de rgression simple : il nexiste pas de relation linaire exacte entre les ,
(absence de colinarit).
On peut estimer les paramtres de lquation (2.1) par les moindres carres ordinaires (MCO) en
recherchant le minimum de la somme des rsidus quadratiques :
min
0 ,1 ,..
(2.3)
= 1
( )
Exemple :
Le tableau (2.1) une extension du tableau (1.1) : il rapporte les effets dun insecticide ajouts ceux
du fertilisant sur la production du Mas. Les observations concernent galement les mmes annes.
Dans le cas de la rgression multiple il est difficile de mener les calculs avec plusieurs variables
explicatives. Lusage des logiciels spcialiss reste une solution trs pratique.
Nous utilisons :
1. Excel pour faire le calcul des paramtres
2. La calculette pour faire le calcul manuellement (pour le cas de deux variables exognes, les
calculs sont un peut abordable).
3. Le calcul matriciel
33
40
44
46
48
52
58
60
68
74
80
570
Annes
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
6
10
12
14
16
18
22
24
26
32
180
4
4
5
7
9
12
14
20
21
24
120
Procdure Excel:
1. Outils Utilitaire danalyse Rgression linaire
2. Indiquez les donnes pour la variable , et pour les
variable(s) . Cochez les cases : Intitul prsent, Rsidus,
Courbes des rsidus et Courbes de rgression et faites OK.
3. Les rsultats seront affichs sur une feuille spare.
NB : le cas ou Utilitaire danalyse ne figurent pas dans langlet
outil, allez au : option Excel Complment allez au grer
complment atteindre choisir utilitaire danalyse (analysis
toolPak) suivre les indications dinstallation.
19,5984528
2,59852729
4,1500679
2,2481E-07
0,0355012
0,00429473
1 =
2 =
1
2
3
4
5
6
7
8
9
10
10
40
44
46
48
52
58
60
68
74
80
570
57
6
10
12
14
16
18
22
24
26
32
180
18
4
4
5
7
9
12
14
20
21
24
120
12
-17
-13
-11
-9
-5
1
3
11
17
23
-12
-8
-6
-4
-2
0
4
6
8
14
( 1 )( 2 ) ( 2 )( 1 2 )
( 1 )( 2 )
( 1 2
( 2 )( 1 ) ( 1 )( 1 2 )
( 1 )( 2 ) ( 1 2 )
-8
-8
-7
-5
-3
0
2
8
9
12
204
104
66
36
10
0
12
66
136
322
956
136
104
77
45
15
0
6
88
153
276
900
96
64
42
20
6
0
8
48
72
168
524
144
64
36
16
4
0
16
36
64
196
576
64
64
49
25
9
0
4
64
81
144
504
De sorte que :
Notre modle
1
40
16 4
44
110 4
2
1
3
46
112 5
=
(2 ) +
9
3
74
12621
(80) (13224)
(10 )
Il sagit de calculer le vecteur des estimateurs dfini par lgalit suivante :
= ( )1
Important retenir
1 2
( 2
( )1 =?
Calculons dabord
1 2
2 )
10
180
120
= (180 3816 2684)
120 2684 1944
( ) :
( ) = (
2684
180
((3816
(
( )1 =
2684
180
) (
1944
120
120
10
) (
1944
120
120
10
) (
2684
180
2684
180
) (
1944
120
120
10
) (
1944
120
120
10
) (
2684
180
3816
)
2684
+
180
) (
2684
+
180
))
3816
+
+ )
+
(
0,177
0,032 0,033)
(
))
=
(
det( )
0,160 0,033 0,037
35
Important
retenir
1
( 2 )
570
= (11216)
7740
Donc :
1,363 0,177 0,160
31,98
570
= ( )1 = (0,177 0,032 0,033) (11216) = ( 0,65 )
0,16
0,033 0,037
1,11
7740
De sorte que :
Lestimation des paramtres plusieurs variables explicatives ncessite bien lassistance dun
ordinateur.
Tests de signification pour les paramtres estims (Test de Student)
Comme dans la rgression simple, il faut dterminer les variances des estimateurs si lon veut
valuer, dans une rgression multiple, la signification statistique des estimations de paramtres.
( ) = ( )1
Comme est inconnue, on utilise la variance rsiduelle, , titre destimation sans biais de cette
grandeur :
= = =
=
O reprsente le nombre de paramtres estims.
Lestimation de sans biais est alors donne par la formule :
= ( )1
De sorte que fournit les erreurs types de lestimation.
Exemple :
On teste la signification statistique des paramtres du modle de lexemple prcdent. Il en rsulte
des valeurs rassembles dans le tableau (2.1) que,
Nous pouvons galement calculer :
( )
13,67
= = =
=
=
=
= 1,95
10 3
Do :
1,363 0,177 0,160
2,663 0,346 0,313
= ( )1 = 1,95 (0,177 0,032 0,033) = (0,346 0,063 0,065)
0,16
0,033 0,037
0,313 0,065 0,072
Les carts types des estimateurs sont alors donns par les racines carres des lments
diagonaux de cette matrice. Nous avons ainsi :
36
0 = 0 =
|
|
, alors on dduit :
|0 | 31,98
|1 | 0,65
=
= 19,6 1 = 1 =
=
= 2,70
0
1,63
1
0,24
2 = 2 =
|2 | 1,11
=
= 4,15
2
0,27
=
=1
=1
Comme il est vraisemblable que linclusion de nouvelles variables explicatives accroisse la part
explique = , pour une mme variabilit totale, = , doit augmenter dans une
rgression multiple. Cette augmentation ne tenant quau nombre et non au pouvoir explicatif (
linfluence linaire) des variables additionnelles, on dfini un corrig, crit , qui tienne compte
de la diminution du nombre du degrs de libert conscutive lintroduction de nouvelles variables
indpendantes :
= 1 (1 2 )
=1
37
1
101
Par consquent : 2 = 1 (1 2 )
= 1 (1 0,992)
= 0,989 98,9%
103
et
= 1,95 donc :
2 = 1
2 =
13,67
=1
= 0,992
2
34124 10 (57)2
1
1 10 1
31
2
=
0,992
= 0,989 98,9%
10 3
10 3
1 =
3 1 = 413,17
1; = 2;7 =
1 0,992
1
10 3
Comme la valeur calcule de dpasse la valeur tabulaire = 4,74 pour le seuil de signification de
5% avec le couple de degrs de libert (2 ; 7), nous admettons lhypothse que ne sont pas tous nuls
et que est significativement diffrent de zro.
Coefficients de corrlation partielle
Considrons lune des variables indpendantes du modle. Le coefficient de corrlation partielle
mesure la corrlation nette entre la variable dpendante et cette variable indpendante aprs avoir
exclu leffet collectif des autres variables indpendantes dan le modle : autrement dit, ces dernires
demeurent alors constantes. Par exemple 1 ,2 est le coefficient de corrlation partielle entre et
1 , aprs avoir liminer leffet de 2 sur els deux variables et 1 .
1 ,2 =
1 2 1 2
1 1 2 1 1
38
39
Relation conomique
= 0 + 1 1 + +
Spcification conomtrique = 0 + 1 1 + + +
Hypothses du
Rgression Simple
+ absence de
colinarit (pas de
relations linaire
Ajustement linaire
min
entre les
Proprits
= +
0 ,1 ,..
Questions importantes :
1) Est-ce que lajustement est
bon dans sa globalit ?
2) Est-ce que les paramtres
sont significatifs ?
3) Tester labsence de
colinarit ?
Problme qui se pose :
inconnue
(car est inconnue)
= = =
=
=
=1
=1
Solution :
0 1
SCR
1 1
nk
=
=1
SCT
n1
est proche de 1 : lajustement est bon
Si
Rponse pour question 1 : test densemble sur la signification de la
rgression Test de Ficher-Snedecor
1
1; =
1
40
Accepter si
leurs valeurs si
sont suprieurs
1.96 pour n>30
Maintenant on
peut calculer :
et partir des
calculs de =
( )1
.
1
.
2
d) Comme 0 , 1 et 2 sont obtenus par la mthode MCO, ils sont aussi les meilleurs
estimateurs linaires sans biais (BLUE). Autrement dit : (0 ) = 0 , (1 ) = 1 et (2 ) =
2 , et 0 , 1 et 2 ont des valeurs minimales par rapport tout autre estimateur linaire
sans biais. Prouver ces proprits manque particulirement dlgance hors lemploi du
calcul matriciel.
Exercice :
Le tableau suivant (2.2) concerne 15 pays dvelopps et donne pour chacun le niveau de revenu
rel par tte en milliers de US$. Avec le pourcentage de de la force de travail employ dans
lagriculture et la dure moyenne de la scolarit (en annes) pour une population au-dessus de
25 ans (a) tablir lquation de rgression MCO de par rapport et ? (b) interprter les
rsultats ainsi obtenus ?
pays n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
6
8
8
7
7
12
9
8
9
10
10
11
9
10
11
135
9
1
9
10
8
7
10
4
5
5
6
8
7
4
9
5
8
105
7
2
8
13
11
10
12
16
10
10
12
14
12
16
14
10
12
180
12
36
64
64
49
49
144
81
64
81
100
100
121
81
100
121
1255
1
2
1 2
1
81
64
72
54
100
169
130
80
64
121
88
64
49
100
70
49
100
144
120
70
16
256
64
48
25
100
50
45
25
100
50
40
36
144
72
54
64
196
112
80
49
144
84
70
16
256
64
44
81
196
126
81
25
100
50
50
64
144
96
88
795
2234
1248
917
Quantits utilises pour calculer
41
2
48
104
88
70
84
192
90
80
108
140
120
176
126
100
132
1658
1 =
1 2
( 2
1 2
2 )
Et
1
( 2 )
135
= ( 917 )
1658
6,20
= ( )1 = (0,38)
0,45
Donc :
= 6,20 0,381 + 0,452
b) Cette dernire quation indique que le niveau du revenu rel par tte , est inversement li
au pourcentage 1 de la force de travail dans lagriculture, mais quil est en relation directe
avec la dure 2 de la scolarit de la population au dessus de 25 ans : ce qui dailleurs aurait
pu tre anticip. De faon prcise 1 fait apparaitre quune rduction de 1% de leffectif
employ e agriculture est associe une augmentation de revenu rel par tte gale 380
dollars. 2 restant constant. Lorsque 2 = 2 = 0 , = 0 = 6,20. Dans la mesure o il est
prouv que 2 est statistiquement signifiant et doit par consquent tre inclus dans
lquation de rgression, la valeur 1 = 0.47 dtermine dans lexercice du modle de
rgression simple nest pas une estimation satisfaisante de .
42
6,44
8,32
8,17
8,09
7,87
11,94
8,85
8,85
9,38
9,53
9,00
11,94
9,15
8,85
8,62
135
0,19
0,10
0,03
1,20
0,76
0,00
0,02
0,72
0,14
0,22
1,00
0,88
0,02
1,33
5,65
12,27
= = =
On dduit :
12,27
=
= 1,023
15 3
Donc :
3,468
1,86
= (0,017) = (0,13)
0,12
0,014
3,33
= (2,83)
3,78
Puisque les valeurs absolues de dpassent sa valeur tabulaire = 2,17 au seuil de 5% pour =
= 15 3 = 12, on conclura que sont tous signifiant au seuil de 5%.
Lintervalle de confiance pour 1 = 2, 83 est donn par :
1 = 1 1 = (0,38) 2,17 0,13 = 0,38 0,28
De sorte que 0,66 1 0,1 au seuil de signification de 95%.
Pour 2 = 0,45 ce mme intervalle est donn par :
2 = 2 2 = 0,45 2,17 0,12 = 0,38 0,28
De sorte que 0,19 1 0,71 au seuil de signification de 95%.
=
=
=1
=1
= 0,69
43
40
45
50
55
60
70
65
65
75
75
80
100
90
95
85
9
8
9
8
7
6
6
8
5
5
5
3
4
3
4
400
500
600
700
800
900
1000
1100
1200
1300
1400
1500
1600
1700
1800
44
45
Types de donnes
Il existe trois types de donnes et chaque type de donne peut fait appel des techniques
conomtriques particulires.
1. Les Donnes Cross-section , en coupes transversales
Il sagit dchantillon dindividus, de mnages, de firmes, ..., pris un point du temps donn.
Important: on peut souvent supposer que les observations sont reprsentes sous forme dun
chantillon alatoire, ce qui simplifie lanalyse.
Encore on peut prendre comme exemple : les donnes trs utilises en conomie et sciences sociales
et plus particulirement les donnes micro applique : march du travail, finances publiques,
organisation industrielle, conomie spatiale, dmographie, conomie de la sant, etc.
Exemple : rendement de parcelles de train en fonction des flux dengrais
46
47
48
Test de normalit :
Prsentation du problme :
Une grande partie de l'infrence statistique (ex. test de pertinence globale de la rgression,
prdiction par intervalle, etc.) repose sur l'hypothse de distribution normale (0, ) du terme
d'erreur de l'quation de rgression. Vrifier cette hypothse semble incontournable pour obtenir
des rsultats exacts, donc pour rsumer:
Lhypothse
)
~(,
est viole
Dtection
Haavelmo (1944) dans lobjectif de briser la rticence de ses contemporains vis--vis de lapplication
des mthodes statistiques aux donnes conomiques. Il a avanc deux thses. Dabord, il a dfendu
l'ide que l'emploi des mesures statistiques telles que les moyennes, les carts-type, les coefficients
de corrlation, des fins d'infrence n'a rellement de sens que dans un contexte probabiliste. De
plus, estimait-il, peu importe la vraie nature des faits conomiques, il suffisait, pour les analyser, de
faire comme si les donnes conomiques taient gnres par une loi de probabilit qu'il fallait
identifier de faon adquate
Avant donc toute tude srieuse, le travail de lconomtre est de tester ladquation ou la
conformit dune distribution observe avec une distribution thorique associe une loi de
probabilit. Parmi ces tests dadquation, la conformit la loi normale est le test le plus utilis, car
elle sous-tend la plupart de tests paramtriques utiliss en Economtrie. A titre de rappel, pour une
distribution gaussienne, 2 contiennent 95% des observations.
Il existe une batterie de tests de normalit, ici nous reprenons quelques uns regroups en deux
familles : tests formels et tests non formels.
Tests informels
Tests formels
1. Histogramme des frquences (ou
En termes defficacit
tuyau dorgue)
1. Test de Jarque Bera
Si > 88
2. Box plot (ou Bote--pattes)
2. Test de Shapiro Wilk
Si 50
3. Q-Q plot (ou droite de Henry)
Ci-aprs sont exposs uniquement les tests les plus frquemment utiliss et les plus oprationnels.
Graphique Q-Q plot
Il ne s'agit pas d'un test au sens statistique du terme. Le graphique Q-Q plot (quantile-quantile plot)
est un graphique "nuage de points" qui vise confronter les quantiles de la distribution empirique et
les quantiles d'une distribution thorique normale, de moyenne et d'cart type estims sur les
valeurs observes. Si la distribution est compatible avec la loi normale, les points forment une droite.
Dans la littrature francophone, ce dispositif est appel Droite de Henry.
49
( 3)
( 3)
+
] = [ +
]
6
24
2
4
Coefficient
Std. Error
t-Statistic
Prob.
C
X1
X2
6.202980
-0.376164
0.452514
1.862253
0.132724
0.119511
3.330900
-2.834186
3.786374
0.0060
0.0151
0.0026
0.693203
0.642070
1.011265
12.27188
-19.77853
13.55690
0.000834
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
50
9.000000
1.690309
3.037137
3.178747
3.035629
0.946397
Series: Residuals
Sample 1 15
Observations 15
0
-1.5
51
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
9.77e-16
-0.171322
2.376164
-1.094972
0.936249
1.123134
3.791781
Jarque-Bera
Probability
3.545399
0.169874