Mosef 2011 Archi 2

Introduction lEconomtrie
MOSEF
Partie 2
Le modle linaire simple

Qualit dajustement analyse de la variance et le coefficient de
dtermination (R2)
On peut considrer chaque observation comme constitue

de la partie explique et non explique
y i = y i + u i
y i = 0 + 1 x i

Analyse de la variance et coefficient de dtermination, qualit dajustement
Quelques dfinitions :
2
(
)
y
y
la somme des carrs totale (SCT)
i
2
(
)
y
y
la somme des carrs explique (SCE)
i
2
u
i
la somme des carrs rsiduelle (SCR)
SCT = SCE + SCR

Demonstration que SCT=SCE+SCR
SCT = ( yi y ) = [( yi y i ) + ( y i y )]
2
= [ui + ( y i y )]
= ui2 + 2 ui ( y i y ) + ( y i y )
= SCR + 2 ui ( y i y ) + SCE
sachant que ui ( y i y ) = 0
on obtient : SCT = SCR + SCE
.

Comment valuer ladquation entre la fonction de rgression

estime et les donnes dchantillon?
Coefficient de dtermination (R2) = la part de la somme des carrs
totale (SCT) explique par le modle.

R2 = SCE/SCT = 1 SCR/SCT
0 < R2 < 1 , Plus proche de 1 est R2 mieux cest

exemple destimation, coefficient de dtermination R2 (salaire, ducation)
Salaire= - 0.9 + 0.54 (education)

exemple destimation, coefficient de dtermination R2 (salaire, ducation)
Salaire= - 0.9 + 0.54 (education), R2=0.1632
. reg
wage
Source
educ
SS
df
MS
Model
Residual
1 17 9 .7 3 20 4
5 98 0 .6 8 22 5
1
52 4
1 17 9 .7 3 2 04
1 1. 4 13 5 1 58
Total
7 16 0 .4 1 42 9
52 5
1 3. 6 38 8 8 44
wage
Coef.
educ
_cons
.5 4 13 5 93
- .9 0 48 5 16
Std. Err.
.0 5 32 4 8
. 68 4 96 7 8
t
1 0 .1 7
- 1 .3 2
Number of obs
F( 1,
524)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0. 0 00
0. 1 87
=
=
=
=
=
=
5 26
1 03 . 36
0 .0 0 00
0 .1 6 48
0 .1 6 32
3 .3 7 84
[95% Conf. Interval]

. 4 36 7 53 4
-2 . 25 0 47 2
.6 4 59 6 51
.4 4 07 6 87

Exemple destimation, coefficient de dtermination R2
prix maison = f(nombre de chambres) , HPRICE2

prix maison = f(nombre de chambres), HPRICE2
Prix maison=-34796.2 +9119.5 (nombre de chambres) R2=0.48
Source
SS
df
MS
Model
Residual
2.0732e+10
2.2093e+10
1 2.0732e+10
504 43835857.8
Total
4.2826e+10
505
price
Coef.
rooms
_cons
9119.548
-34796.2
Number of obs
F( 1,
504)
Prob > F
R-squared
Adj R-squared
Root MSE
84803032
Std. Err.
419.3385
2651.532
t
21.75
-13.12
P>|t|
0.000
0.000
=
=
=
=
=
=
506
472.95
0.0000
0.4841
0.4831
6620.9

8295.681
-40005.62
9943.415
-29586.78

exemple destimation, coefficient de dtermination R2
salaire= f(nombre danne dernier employeur)
Salaire= 4.99+ 0.18 (tenure), R2= 0.1203

Exemple destimation, coefficient de dtermination R2 exemple
destimation, salaire= f(nombre danne dernier employeur)
Salaire= 4.99+ 0.18 (tenure), R2= 0.1203
. reg
wage
Source
tenure
SS
df
MS
Model
Residual
861.62965
6298.78464
1
524
861.62965
12.0205814
Total
7160.41429
525
13.6388844
wage
Coef.
tenure
_cons
.1773271
4.990925
Std. Err.
.0209449
.185158
t
8.47
26.95
Number of obs
F( 1,
524)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
526
71.68
0.0000
0.1203
0.1187
3.4671
P>|t|
0.000
0.000
.1361809
4.627182
.2184733
5.354669

nombre de naissances = f(nombre de couples de cigognes)

nombre de naissances = f(nombre de couples de cigognes)
Nombre de naissance= 38.37+ 1.170 (cigognes), R2= 0.91

Proprits des estimateurs.
Hypothses de Gauss-Markov pour le modle linaire simple.
1. Dans le modle thorique, la variable dpendante y est une fonction linaire

de x et de termes derreur u donne par
y = 0 + 1 x + u
2. On dispose dun chantillon alatoire {(xi, yi): i =1, , n}
de n observations de la population gnrale.
3. Les valeurs de x varient dans lchantillon (nont pas tous la mme valeur)
4. Le terme derreur a une esprance zro: E(u|x)=0 pour nimporte quelle valeur de la
variable indpendante x
5. Le terme derreur u a la mme variance pour nimporte quelle valeur de x
Var(u|x) = 2 (homoscdasticit)
Hypothse 5 importante pour le calcul des variances des estimateurs et permet lefficacit (variance
minimale de la regression). Ne joue aucun rle pour la question du caractre non biais des estimateurs.
Sous ces 5 hypothses estimateurs MCO est
BLUE (Best Linear Unbiased Estimator)

Proprits des estimateurs.
Dans ce cadre:
Nous allons dmontrer que les estimateurs des paramtres ne sont pas biaiss.
Calculer leur variances.
Calculer la variance de terme derreur (biaise et non biaise) ncessaire pour obtenir
les carts types (erreurs) des paramtres estims.
Nous allons aborder la question de homoscdasticit Var(u|x) = 2 (constante)
(et htroscdasticit), Var(u|x) 2 (variable)
:

Proprits des estimateurs. Hypothses de Gauss-Markov pour le modle
linaire simple. Htroscdasticit, exemple
Dans lquation de salaire

Salaire = a+b(ducation)+u

On a E(u|educ)=0

et Var(salaire|educ)=2 (homoscdasticit)
Mais en ralit la variance peut augmenter avec le niveau de salaire
(plus dopportunits avec laugmentation du niveau dducation donc
plus de variabilit de salaire)
Pareil pour la fonction de demande
Consommation=A+B(revenu) +u
(plus de variabilit avec le revenu croissant)

linaire simple : Exemple de Homoscdasticit.

linaire simple. Le cas Htroscdasticit.

Proprits des estimateurs. Estimateur est sans biais (1).
(xi x )( yi y )
( x x ) yi
= E i
E 1 = E
(x x )2
(x x )2
i
i
(xi x )E ( yi )
=
2
(xi x )
( )
(x x )( + x )
(x x )
( x x ) + (x x )x
=
(x x )
=
1 i
avec (xi x ) = 0
=
on obtient :
0 + 1 (xi x )xi
(x x )
et avec (x x ) = (x x )x
2
on obtient :
=
1 (xi x )xi
(x x )x
i
( )
ainsi
E 1 = 1
= 1

(xi x )( yi y ) (xi x ) yi ( yi y )xi
=
=
( x x )2
( x x )2 ( x x )2
i
i
i
(x x )( y
i
y ) = (xi yi x yi yxi + yx )
= yi ( xi x ) + y (xi x )
= yi ( xi x ) + ny (xi x )
= yi ( xi x )
parce que (x i x) = 0
et de la mme faon :
(x x )( y
i
= xi ( yi y ) + x ( yi y )
= xi ( yi y ) + nx ( yi y )
= xi ( yi y )
parce que (y i y ) = 0

Proprits des estimateurs. Esprance (estimateur est sans biais) (0).
0 = y 1 x
( ) (
E 0 = E y 1 x
= E ( y ) x E ( 1 )
= E (y ) x (1)
1
sachant que :
yi E ( yi )
=
E ( y ) = E
n
n
( 0 + 1 xi )
=
n
n 0 + 1 xi
=
n
= 0 + 1 xi
en remettant ceci dans (1) on obtient
E ( 0 ) = 0 + 1 xi x 1 = 0

Proprits des estimateurs. Estimateurs sans biais Rsum

Les estimateurs MCO de 1 et de 0 ne sont pas biaiss.

La dmonstration sappuie sur 4 hypothses (1)linarit du modle,
(2) caractre alatoire de lchantillon avec (3) les observations non
identiques de x, (4) les erreurs et les x sont indpendantes E(u|x)=0,
Si ces hypothse ne sont pas satisfaites les estimateurs MCO
peuvent tre biaiss
Les estimateurs sont toujours des approximations plus ou moins
loignes des vrais paramtres et peuvent changer dun chantillon
lautre.
Sans biais ne veut pas dire que lestimateur est prs ou loin du vrai
paramtre. Pour cela on a besoin des variances

Proprits des estimateurs. Variance de 1
(xi x )( yi y )
( x x ) yi
= var i
var 1 = var
( x x )2
(x x )2
i
i
( )
(x x ) var( y )
=
( (x x ) )
(x x )
=
( (x x ) )
2
2 2
2 2
(x x )

( )
var 0 = var( y 1 x )
( )
= var( y ) + x 2 var 1 2 x Cov ( y , 1 )

sachant que
Cov( y , 1 ) = 0 :
yi ( xi x ) y j
Cov( y , 1 ) = Cov i , j
2
n ( xi x )
(x j x )Cov( yi , y j )
=
2
n ( xi x )
=
=
( xi x ) var( yi ) + (x j x )Cov( yi , y j )
n ( xi x )
2 ( xi x ) + 0
=0
j i i
n ( xi x )

et sachant que
yi
i
var( yi ) n 2 2
var(y) = var
= 2 =
=
2
n
n
n
n
on obtient :
var( ) = var( y ) + x 2 var( )
0
=
=
x
2
(xi x )
2
2 ( (xi x )2 + nx 2
n ( xi x )
sachant que (prop alg) :
(x x ) = x
2
nx 2
on obtient :
2 xi
var( 0 ) =
2
n ( xi x )
2

Proprits des estimateurs. Estimateur de la variance des erreurs

Nous ne pouvons connatre la variance des erreurs 2, parce que

nous nobservons pas derreurs ui
Nous nobservons que les residus i
Ce sont les rsidus qui seront utiliss pour estimer la variance des
erreurs.

Proprits des estimateurs. Estimateur de la variance des erreurs (
u i = y i 0 1 x i
= ( 0 + 1 x i + u i ) 0 1 x i
= u x
) (
La moyenne des rsidus u i est gale 0 donc

0 = u - 0 0 ( 0 1 x )
en soustrayan t du prcdant nous obtenons

u i = ( u i - u ) - 1 1 ( x i x )
2
2
u i = ( u i - u ) 2 + 1 1 ( x i x ) 2 2 ( u i - u ) 1 1 ( x i x )
En additionan t par (i)

2
u i =
(u i - u ) 2 + 1 1
) (x
2
x ) 2 2 1 1
) u ( x
i
x)

Proprits des estimateurs. Estimateur de la variance des erreurs (
2
2
ui = (ui - u) 2 + 1 1 ( xi x ) 2 2(ui - u) 1 1 ( xi x )
En additionant par (i)
2
2
2
2
ui = (ui - u) + 1 1 ( xi x ) 2 1 1 ui ( xi x )
calcul de l' sprance..., aprs transformations ;
E ( ui ) = (n 1) 2 + 2 2
2
= (n 2) 2
estimateur non bias 2 dgrs de libert prs
ui = 0
xi ui = 0
2
ui
=
n2
= SCR /(n 2)
2

Proprits des estimateurs. Estimateur de la variance des erreurs 2
Rsum
l' estimateur non biais de 2 est

1
2 =
ui2 = SCR / (n 2 )
(n 2)
o SCR somme des carrs des rsidus
rappel :
le vrai (mais biais) estimateur de 2 est SCR / n
1
2 = ui2 = SCR / n
n
la diffrence c' est le nombre de dgrs de liberts n 2 pour le premier
et n pour le second . En connaissant n - 2 rsisus nous pouvons calculer les 2 restants
partir des contraintes :
= 0 et x i u i = 0
Ainsi on obtient l' estimateur non bias par l' ajustement des dgrs de liberts

Proprits des estimateurs. Variances et cart types des estimateurs
pour obtenir les variances et les carts types des estimateurs

il faut remplacer 2 par l' estimateur de 2
l' cart type de
1
( )
var 1 =
var(0 ) =
2
(
)
x
x
i
2 xi 2
n ( xi x )
l' cart type de 0
( )
var 0 =
xi
n ( xi x )

Proprits des estimateurs. Variances , proprits
( )
var 1 =
(x x )
x
var( ) =
n (x x )
2
La variance des estimateurs augmente avec la variance du

terme derreur
La variance des estimateurs diminue avec la variabilit des
variables indpendantes.
Aussi un chantillon plus grand diminue la variance des
estimateurs
Problme: la variance derreur nest pas connue, on utilise
lestimateur de la variance des rsidus

Distribution des estimateurs et premiers tests dhypothse
Jusqu prsent, nous tions dans le cadre de 5 hypothses GaussMarkov qui nous garantissaient que les estimateurs MCO taient BLUE
.
Pour les tests d hypothses classiques (significativit des paramtres

estims) nous avons besoin dune hypothse supplmentaire sur la
distribution des erreurs:
6. Le terme derreur u est indpendant de x et suit une distribution
normale avec la moyenne 0 et la variance 2: u ~ N(0, 2)
Avec cette hypothse les estimateurs deviennent non seulement non
biaiss mais aussi ont une variance minimale.

Avec cette hypothse les estimateurs deviennent non seulement non

biaiss (BLUE) mais aussi ont une variance minimale.
Dans ce cadre (BLUE +6me) on a pour la population gnrale:

y|x ~ N(0 + 1x, 2)
Cette normalit nest pas toujours garantie

Le problme nest pas trs grave en prsence des grands chantillons (
n lev).


( )]
1 ~ N 1 , Var 1
l' estimateur 1suit la loi normale avec esprance 1

et variance :
( )
Var 1 =
(x x )
avec cela on peut prouver que :

1 1
~ N(0,1) suit la loi normale standardise
sd
( )
sd ( ) = f ( )
1
pour le prouver on utilise le fait que

a une distributi on normale tant
1
une combinaison linaire des erreurs

on peut aussi montrer que la quantit :

( )
se
~ t n2
avec se cart type

suit la loi de Student (t) et non normale (N)
avec le nombre (n 2) dgrs de libert

(un seul paramtre)

On peut maintenant effectuer des tests dhypothse pour un

paramtre
Lhypothse tester sappelle Hypothse zro H0
Lhypothse la plus typique est H0: 1=0
On rejette lhypothse zro en faveur de lhypothse
alternative H1: 10 ,
On dira que 1 sont significativement diffrents du zro ou
statistiquement significatif, ou que x a un effet significatif sur y.
( )
sd 1

(xi x )( yi y ) (xi x ) yi ( yi y )xi
=
=
( x x )2
( x x )2 ( x x )2
i
i
i
(x x )( y
i
= yi ( xi x ) + y (xi x )
= yi ( xi x ) + ny (xi x )
= yi ( xi x )
parce que (x i x) = 0
et de la mme faon :
(x x )( y
i
= xi ( yi y ) + x ( yi y )
= xi ( yi y ) + nx ( yi y )
= xi ( yi y )
parce que (y i y ) = 0

(un seul paramtre)
Pour faire le test nous avons besoin

de construire la statistiqu e " t" pour 1 :
1
t
1
ET
( )
1
(ET = cart type )

Cette statistiqu e sera utilise pour rejeter ou non
l' hypothse zro H 0

(un seul paramtre)
Un test bilatral : on cherche une diffrence entre deux
estimations, ou entre une estimation et une valeur donne.
La zone de rejet de l'hypothse zro (H0) se fait de part et d'autre
de la distribution de probabilit.
Un test unilatral : on cherche de savoir si une estimation est
suprieure (ou infrieure) une autre ou une valeur donne.
La zone de rejet de l'hypothse zro (H0) est situe d'un seul ct
de la distribution de probabilit.

(un seul paramtre)

Nous avons encore besoin de dfinir lhypothse

alternative H1, et le seuil de signification
H1: bj > 0 et H1: bj < 0 sont des alternatives unilatrales
H1: bj 0 est une alternative bilatrale
La probabilit de 5% de rejeter H0 quand elle est vraie
signifie que le seuil de signification () est de 5%

Premiers tests dhypothse, un seul paramtre, procdure
dcide du seuil de significativit , ensuite on regarde
(dans la table) le (1 ) percentile de la distribution t avec
n k 1 degrs de libert .(n-2 dans notre cas parce que
k=1) et on relve la valeur critique (c).
On
Lhypothse zro H0 est rejete quand la statistique t

calcule par nous est plus grande que la valeur critique (c).
Lorsque la statistique t est plus petite que la valeur critique

nous ne pouvons pas rejeter lhypothse H0

Premiers tests dhypothse, un seul paramtre, illustration.
yi = 0 + 1xi1 + ui
H0: 1 = 0
H1: 1> 0

Premiers tests dhypothse, un seul paramtre,
Test bilatral et unilatral,
Test unilatral: comme la distribution t est symtrique , pour

lhypothse alternative H1: 1 < 0, la valeur critique c est la mme
que la prcdente avec un signe moins (-). Nous rejetons H1 quand la
statistique t < c,
Test bilatral, la valeur critique devient /2 et H1 : 1 0 est rejet
quand la valeur absolue de la statistique t est > c

Premiers tests dhypothse, un seul paramtre),
Test bilatral et unilatral,
yi = 0 + 1Xi1 + ui
H0: 1 = 0
H1 : 1 0

Premiers tests dhypothse
(un seul paramtre), rsum pour H0:
1 = 0
H0: 1 = 0
Par default lhypothse alternative est considere comme
bilatrale.
Quand on rejette H0 on dit que xj est statistiquement
significatif au seuil %. ( on choisit 95% le plus souvent)
Quand on ne peut rejetter H0 , on dit que xj nest pas
statistiquement significatif au seuil %.

(un seul paramtre), intervalle de confiance
Une autre faon de tester consiste construire des intervalles
de confiance avec les mmes valeurs critiques comme celles
utilises pour les tests bilatraux.
Pour lintervalle de confiance de (1 - ) % on aura:
( )
1 c 1 ,

avec c, 1 - %
2
de la distribution t n 2
(Il y a (1 - ) % de chance que se trouve lintrieur de lintervalle)

Une autre faon de tester consiste construire des intervalles
de confiance avec les mmes valeurs critiques comme celles
utilises pour les tests bilatraux.
Pour lintervalle de confiance de (1 - ) % on aura:
1 c (1 ),

avec c, 1 - %
2
de la distribution tn 2
(Il y a (1 - ) % de chance que se trouve lintrieur de linterval)

Pour =5%, nombre de dgrs de libert>30 on aura:

(1 ) *1.96<<1.96* (1 )
(Il y a 95% de chance que se trouve lintrieur de linterval)

(un seul paramtre), Les valeurs p pour les tests t
La question de significativit peut aussi tre pose en termes
suivants:
Quelle est le niveau le plus bas du seuil de
significativit auquel lhypothse zro H0 sera rejete?
On calcule la statistique t et on regarde auquel % de la
distribution t cela correspond: cest la valeur p
Autrement dit la valeur p est la probabilit que dans notre cas la
H0 soit vrai.

(un seul paramtre), exemple avec Stata

(un seul paramtre), exemple avec Stata , robust



(un seul paramtre), exemple avec Stata, table t-student

Introduction des nonlinearit dans le modle de
regression simple
rappel: modle linaire=
Linarit : Effet marginal constant
y = 1 x
si u=0

Le changement de y est le 1 multipli par le changement de x, les

termes alatoires dans u ne changent pas.
Un changement unitaire de x a toujours le mme effet sur y quel
que soit la valeur initiale de x.
Exemple classique:

Introduction des nonlinearit dans le modle de regression simple

Un remde possible pour permettre le rendement croissant:

Ln (salaire)=0+ 1* (education) + u
avec u=0 on obtient:
%salaire=(100* 1) (education); ou %salaire=% (education);
Le salaire augmente avec un pourcentage constant pour chaque anne
supplmentaire de lducation, mais les augmentations de salaire sont
croissantes.
Pourquoi: lquation de salaire peut tre crite sous forme exponentielle:
Salaire=exp(0+ 1* (education) ) qui la forme suivante:

Introduction des nonlinearits dans le modle de regression simple ( logniveau)
Salaire=exp(0+ 1* (education))

Ln (salaire)= 0.58 + 0.0827 (education)
chaque anne supplmentaire de lducation procure un gain de 8.27% de

salaire horaire. La constante =niveau de salaire quand ducation=0.
On a une prise en compte partielle de la non linarit de la relation (sal-educ).

Salaire= - 0.9 + 0.54 (education)
. reg
wage
Source
educ
SS
df
MS
Model
Residual
1 17 9 .7 3 20 4
5 98 0 .6 8 22 5
1
52 4
1 17 9 .7 3 2 04
1 1. 4 13 5 1 58
Total
7 16 0 .4 1 42 9
52 5
1 3. 6 38 8 8 44
wage
Coef.
educ
_cons
.5 4 13 5 93
- .9 0 48 5 16
Std. Err.
.0 5 32 4 8
. 68 4 96 7 8
t
1 0 .1 7
- 1 .3 2
Number of obs
F( 1,
524)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0. 0 00
0. 1 87
=
=
=
=
=
=
5 26
1 03 . 36
0 .0 0 00
0 .1 6 48
0 .1 6 32
3 .3 7 84

. 4 36 7 53 4
-2 . 25 0 47 2
.6 4 59 6 51
.4 4 07 6 87
chaque anne supplmentaire de lducation procure un gain de 0.54

pour le salaire horaire (anne de maternelle, de termiale, de licence)

Introduction des nonlinearit dans le modle de regression simple , log-log
(CES)
Log(salaire)=a+b *log(volume de ventes),

(CES), paramtre b=lasticit
Log(salaire)=a+b *log(volume des ventes),

Log(salaire)=4.96+0.22 *log(volume de ventes),
0.22 =lasticit de salaire/ventes

(CES), Augmentation de R2
salaire=a+b *(volume des ventes),

salaire=736.36+0.03 *(volume de ventes),

Introduction des nonlinearit dans le modle de regression simple ,
niveau-log (semi-log)
prix maison=a +b*ln(impt locaux)

Introduction des nonlinearit dans le modle de regression simple, niveaulog (semi log)
prix maison=a +b*ln(impt locaux)

prix maison=87716 - 10993.16*ln(impts locaux)
Laugmentation des impts locaux de 1% diminuerait le prix de la maison

.
denviron
110 $(-10993.16/100).

Introduction des nonlinearit dans le modle de regression simple, niveaulog (semi log)
prix (maison) = a +b*(impt locaux)

prix (maison) = 32930.37 - 255.22*(impts locaux)
Laugmentation des impts locaux dune unit (1$) diminuerait le prix de

la. maison denviron 255 $.

Introduction des nonlinearit dans le modle de rgression simple, rsum
Modle
Var.Dp.
(y)
Var.Indp
(x)
Intpretation de 1
Niveau-niveau
y= 1 x
Niveau-log
log(x)
y= (1 /100)%x
Log -niveau
log(y)
%y= (1001 )x
Log - log
log(y)
log(x)
%y= 1 %x
(lasticit)

changement dunit de mesure et les rsultats de la rgression
(salaire)= -0.91+ 0.54 (education)

Si on multipliait le salaire par 100 ? (les statistiques MCO restent les mmes)

changement dunit de mesure et les rsultats de la rgression
(salaire)= -0.91+ 0.54 (education)

Si on divisait lducation par 10 ? (les statistiques MCO restent les mmes)
Le modle linaire multiple

comparaison modle simple -multiple
y = 0 + 1x1 + 2x2 + . . . kxk + u
(modle multiple)
y = 0 + 1x1 + u
(modle simple)
Principal dfaut de lanalyse simple: garantir les conditions ceteris

paribus ou toute chose gales par ailleurs (E(u|x)=0) avec une seule
variable. Cest trs improbable.
Principal avantage de lanalyse multiple: avec plus de variables et plus de

formes fonctionnelles - plus de chances dapprocher la causalit
Comme pour lanalyse simple nous allons:
Dfinir le modle multiple
Estimer le modle multiple
Analyser ses proprits statistiques

comparaison modle simple multiple ceteris paribus , causalit
y = 0 + 1x1 + 2x2 + . . . kxk + u
(modle multiple)
y = 0 + 1x1 + u
(modle simple)
Exemple: modle deux variable explicatives:

Salaire = 0
+ 1(educ)+ 2(exper)+u
avec E(u|educ,exper)=0, au lieu de E(u|educ))=0
Ce qui nous intresse cest toujours la relation entre le salaire et lducation (ceteris paribus).
Nous suspectons que lexprience professionelle joue un rle important aussi. Ainsi nous
voudrions contrler son influence en la mettant explicitement dans lquation, sinon elle serait
reste intgre dans u parmi dautres inobservables avec hypothse (difficile dfendre) de
lindpendance de lexprience de lducation (E(u|educ)=0). Sil faut rejeter cette hypothse
les estimateurs OLS du modle simple seront biaiss.

comparaison modle simple multiple, la prise en compte contrle
de plusieurs facteurs

comparaison modle simple multiple -forme fonctionelle
Modle fonction quadratique:

salaire= 0 + 1(education) + 2(education)2 + u
salaire = 0 + 1(education) + u
(modle multiple)
(modle simple)
Dans le modle multiple leffet ceteris paribus du revenu sur la

consommation sera:
(salaire)
= 1 + 2 2 (education)
(education )
au lieu de
(salaire)
= 1
(education )
dans le modle simple

comparaison modle simple multiple -forme fonctionnelle, exemple
quadratique, (salaire=f(education, education2))


estimation interprtation
y = 0 + 1x1 + 2x2 + . . . kxk + u

o 0 constante,
1 + k paramtres associes avec x1 xk

y = 0 + 1 x1 + 2 x2 + ... + k xk
y = 1 x1 + 2 x2 + ... + k xk ,
Chaque a une intrprtation" ceteris paribus " toute choses gales par ailleurs
Effet marginal de x sur y :

y
k =
xk

comparaison modle simple multiple,intpretation
Ln(salaire)=b0 + b1education + b2exprience + b3anciennet
Quelle augmentation de salaire si: 1 an supplmentaire dexprience et 1 an
supplmentaire de lanciennet dans lentreprise, education ne change pas
salaire=0.0041exprience+ 0.022anciennet=0.0041+0.022=0.0261
de salaire de 0.0261 ou de 2.6%.

interprtation, un autre regard, corrlation entre x
2 variables explicatives
k = 2:
y = 0 + 1 x1 + 2 x2 , on peut dmontrer que :
(
ri1 yi )
1 =
2
r
i1
o ri1 sont des rsidus de la regression estime :
x1 = 0 + 2 x2
.



interprtation; corrlation entre x, 2 variables explicatives
Cette quation signifie qu en estimant y avec x1 et x2 donne les

mmes effets de x1 sur y que quand on estime y avec les rsidus de
la rgression de x1 avec x2 .
Cela veut dire que seulement la part de xi1 qui nest pas corrle avec
xi2 est lie yi .
On dit que nous estimons leffet de x1 sur y aprs avoir extrait

leffet de x2 .

comparaison modle simple multiple; problme de slection de
variables explicatives
x2
x1
y
y
Stratgie de slection des
variables x:
Moins corrls entre elles
quavec y
y
x1
.
x2
x2
x1

interprtation; comparaison entre la regression simple et multiple,
comparont deux regressions :

~ ~
~
simple : y = + x
0
1 1
et multiple y = 0 + 1 x1 + 2 x2
~
En gnral 1 1
Sauf si
1. 2 = 0 (il n' ya pas d' effet de x2 )
2. x1 et x2 ne sont pas corrls
.


Qualit dajustement (R2)
chaque observation est constitue de la part explique et inexplique.
yi = y i + ui
Nous dfinissons :
2
(
)
Somme des Carrs Totale (SCT)

y
y
i
2
(
)
Somme des Carrs Explique (SCE)

y
y
i
2
u
i
Somme des Carrs Rsiduelle (SCR)
Ainsi :
SCT = SCE + SCR
.

Qualit dajustement= la part de la variance

explique estime par rapport la variance totale
(R2 ) de la regression
R2 = SCE/SCT = 1 SCR/SCT

2
On peut aussi considrer R comme

le carr de coefficient de correlation entre
les yi observes et estimes ( y i )
(
( y y )(y y ))
=
( ( y y ) )( (y y ) )
2

R2 ne diminue jamais quand on ajoute une variable explicative

supplmentaire lquation de rgression.
Gnralement il augmente.
A cause de cela ce nest pas un trs bon indicateur pour comparer
les modles

Qualit dajustement, variables omises
Quest-ce qui se passe:

1. Si on inclue dans la rgression une variable qui nappartient pas au modle?
MCO est toujours non biaise et nos paramtres dintrts ne change pas
2. On nntgre pas de variable qui fait partie du modle.?
MCO sera sans doute biaise
Conclusion: prendre trop est moins risqu que ne pas prendre assez de variables.
.

supposons que le vrai modle aie la forme

suivante :
y = 0 + 1 x1 + 2 x2 + u,
mais nous estimons
~ ~
~
y = + x + u,
0
1 1
On a alors :
~
1
.
(x
=
(x
i1
x1 ) yi
i1 x1 )

pour le vrai modle

yi = 0 + 1 xi1 + 2 xi 2 + ui , the
on aura le numrateur
suivant :
(x x )(
(x x )
i1
0
2
i1
+ 1 xi1 + 2 xi 2 + ui ) =
+ 2 ( xi1 x1 )xi 2 + ( xi1 x1 )ui

= 1 + 2
(x x )x + (x
((x x ) ) ((x
i1
i1
i2
2
i1
i1
x1 )ui
x1 )
sachant que E(ui ) = 0, et en calculant l' esprance

on obtient :
( )
~
E 1 = 1 + 2
.
(x x )x
((x x ) )
i1
i1
i2
2

prenons une rgression de x2 sur x1

~ ~
~
x = + x
2
1 1
on obtient alors 1
(x x )x
=
((x x ) )
i1
i1
i2
2
compte tenu du rsultat prcedent :
( )
~
E 1 = 1 + 2
(x x )x
((x x ) )
i1
i1
on a :
~
~
E 1 = 1 + 21
( )
i2
2

Biais de lestimateur 1 quand x2 est omise
Corr(x1, x2) > 0 Corr(x1, x2) < 0

2 > 0
Biais positif
Biais Negatif
2 < 0
Biais Negatif
Biais positif

Qualit dajustement, variables omises, conclusion
Le biais = 0 dans 2 cas seulement:

2 = 0, ( x2 nappartient pas au modle
x1 et x2 ne sont pas corrls (dans lchantillon)
Si les corrlations entre (x2 , x1) et (x2 , y) ont le

mme signe le biais sera positif.
Si les corrlations entre (x2 , x1) et (x2 , y) ont des
signes diffrents le biais sera ngatif
.

comparaison modle simple multiple; problme de slection de
variables explicatives
x2
x1
y
Stratgie de slection des
variables x:
Moins corrls entre elles
quavec y
y
x1
x2
x2
x1

Hypothses de Gauss-Markov pour le modle multiple
H1. Dans le modle thorique dans la population gnrale, la variable dpendante y
est une fonction linaire
de xj :j =1, , k et de termes erreur u
y = 0 + 1 x1 + 2 x2 + + k xk +u
o
0 + 1 + 2 + + k un vecteur des paramtres inconnus

u
est une erreur (perturbation) inobservable
H2. On dispose dun chantillon alatoire {(xi, yi): i =1, , n}

observations de la population gnrale.
Pour une observation particulire nous avons
yi = 0 + i1 xi1 + i2 xi2 + + kik xik +ui
de n

Hypothses de Gauss-Markov pour le modle multiple
H3.
Les valeurs de x varient dans lchantillon (et donc aussi dans la population
gnrale): aucune nest constante et il n ya pas de relation linaire exacte entre elles
(aucune nest une combinaison linaire de lautre)
H4. Le terme derreur a une esprance zro pour nimporte quelle valeur des variables
indpendantes x: E(u|x1 x2 xk)=0
H5. Le terme derreur u a la mme variance pour toutes les valeurs des x:
Var(u| x1 x2 xk) = 2 (homoscdasticit)
Lestimateur qui satisfait ces
5 hypothses est
BLUE (Best Linear Unbiased Estimator)

Mosef 2011 Archi 2

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Mosef 2011 Archi 2

Hochgeladen von

Copyright:

Verfügbare Formate

Introduction lEconomtrie

Le modle linaire simple

On peut considrer chaque observation comme constitue

Le modle linaire simple

la somme des carrs rsiduelle (SCR)

SCT = SCE + SCR

Le modle linaire simple

Demonstration que SCT=SCE+SCR

Le modle linaire simple

Comment valuer ladquation entre la fonction de rgression

Le modle linaire simple

Salaire= - 0.9 + 0.54 (education)

Le modle linaire simple

Salaire= - 0.9 + 0.54 (education), R2=0.1632

[95% Conf. Interval]

Le modle linaire simple

Le modle linaire simple

[95% Conf. Interval]

Le modle linaire simple

Salaire= 4.99+ 0.18 (tenure), R2= 0.1203

Le modle linaire simple

Salaire= 4.99+ 0.18 (tenure), R2= 0.1203

[95% Conf. Interval]

Le modle linaire simple

Le modle linaire simple

Nombre de naissance= 38.37+ 1.170 (cigognes), R2= 0.91

Le modle linaire simple

1. Dans le modle thorique, la variable dpendante y est une fonction linaire

BLUE (Best Linear Unbiased Estimator)

Le modle linaire simple

Le modle linaire simple

Dans lquation de salaire

Le modle linaire simple

Le modle linaire simple

Le modle linaire simple

Le modle linaire simple

Le modle linaire simple

Le modle linaire simple

Les estimateurs MCO de 1 et de 0 ne sont pas biaiss.

Le modle linaire simple

Le modle linaire simple

= var( y ) + x 2 var 1 2 x Cov ( y , 1 )

Le modle linaire simple

sachant que (prop alg) :

Le modle linaire simple

Nous ne pouvons connatre la variance des erreurs 2, parce que

Le modle linaire simple

La moyenne des rsidus u i est gale 0 donc

en soustrayan t du prcdant nous obtenons

En additionan t par (i)

Le modle linaire simple

En additionant par (i)

Le modle linaire simple

l' estimateur non biais de 2 est

Le modle linaire simple

pour obtenir les variances et les carts types des estimateurs

l' cart type de 0

Le modle linaire simple

La variance des estimateurs augmente avec la variance du

Le modle linaire simple

Pour les tests d hypothses classiques (significativit des paramtres

Le modle linaire simple

Avec cette hypothse les estimateurs deviennent non seulement non