Sie sind auf Seite 1von 99

Introduction lEconomtrie

MOSEF
Partie 2

Le modle linaire simple


Qualit dajustement analyse de la variance et le coefficient de
dtermination (R2)


On peut considrer chaque observation comme constitue


de la partie explique et non explique

y i = y i + u i
y i = 0 + 1 x i

Le modle linaire simple


Analyse de la variance et coefficient de dtermination, qualit dajustement

Quelques dfinitions :
2
(
)
y

y
la somme des carrs totale (SCT)
i
2

(
)
y

y
la somme des carrs explique (SCE)
i
2

u
i

la somme des carrs rsiduelle (SCR)

SCT = SCE + SCR

Le modle linaire simple


Analyse de la variance et coefficient de dtermination, qualit dajustement

Demonstration que SCT=SCE+SCR

SCT = ( yi y ) = [( yi y i ) + ( y i y )]
2

= [ui + ( y i y )]

= ui2 + 2 ui ( y i y ) + ( y i y )

= SCR + 2 ui ( y i y ) + SCE
sachant que ui ( y i y ) = 0
on obtient : SCT = SCR + SCE
.

Le modle linaire simple


Analyse de la variance et coefficient de dtermination, qualit dajustement

Comment valuer ladquation entre la fonction de rgression


estime et les donnes dchantillon?
Coefficient de dtermination (R2) = la part de la somme des carrs
totale (SCT) explique par le modle.



R2 = SCE/SCT = 1 SCR/SCT
0 < R2 < 1 , Plus proche de 1 est R2 mieux cest

Le modle linaire simple


exemple destimation, coefficient de dtermination R2 (salaire, ducation)

Salaire= - 0.9 + 0.54 (education)

Le modle linaire simple


exemple destimation, coefficient de dtermination R2 (salaire, ducation)

Salaire= - 0.9 + 0.54 (education), R2=0.1632

. reg

wage
Source

educ
SS

df

MS

Model
Residual

1 17 9 .7 3 20 4
5 98 0 .6 8 22 5

1
52 4

1 17 9 .7 3 2 04
1 1. 4 13 5 1 58

Total

7 16 0 .4 1 42 9

52 5

1 3. 6 38 8 8 44

wage

Coef.

educ
_cons

.5 4 13 5 93
- .9 0 48 5 16

Std. Err.
.0 5 32 4 8
. 68 4 96 7 8

t
1 0 .1 7
- 1 .3 2

Number of obs
F( 1,
524)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0. 0 00
0. 1 87

=
=
=
=
=
=

5 26
1 03 . 36
0 .0 0 00
0 .1 6 48
0 .1 6 32
3 .3 7 84

[95% Conf. Interval]


. 4 36 7 53 4
-2 . 25 0 47 2

.6 4 59 6 51
.4 4 07 6 87

Le modle linaire simple


Exemple destimation, coefficient de dtermination R2
prix maison = f(nombre de chambres) , HPRICE2

Le modle linaire simple


Exemple destimation, coefficient de dtermination R2
prix maison = f(nombre de chambres), HPRICE2
Prix maison=-34796.2 +9119.5 (nombre de chambres) R2=0.48

Source

SS

df

MS

Model
Residual

2.0732e+10
2.2093e+10

1 2.0732e+10
504 43835857.8

Total

4.2826e+10

505

price

Coef.

rooms
_cons

9119.548
-34796.2

Number of obs
F( 1,
504)
Prob > F
R-squared
Adj R-squared
Root MSE

84803032

Std. Err.
419.3385
2651.532

t
21.75
-13.12

P>|t|
0.000
0.000

=
=
=
=
=
=

506
472.95
0.0000
0.4841
0.4831
6620.9

[95% Conf. Interval]


8295.681
-40005.62

9943.415
-29586.78

Le modle linaire simple


exemple destimation, coefficient de dtermination R2
salaire= f(nombre danne dernier employeur)

Salaire= 4.99+ 0.18 (tenure), R2= 0.1203

Le modle linaire simple


Exemple destimation, coefficient de dtermination R2 exemple
destimation, salaire= f(nombre danne dernier employeur)

Salaire= 4.99+ 0.18 (tenure), R2= 0.1203

. reg

wage
Source

tenure
SS

df

MS

Model
Residual

861.62965
6298.78464

1
524

861.62965
12.0205814

Total

7160.41429

525

13.6388844

wage

Coef.

tenure
_cons

.1773271
4.990925

Std. Err.
.0209449
.185158

t
8.47
26.95

Number of obs
F( 1,
524)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

526
71.68
0.0000
0.1203
0.1187
3.4671

P>|t|

[95% Conf. Interval]

0.000
0.000

.1361809
4.627182

.2184733
5.354669

Le modle linaire simple


Exemple destimation, coefficient de dtermination R2
nombre de naissances = f(nombre de couples de cigognes)

Le modle linaire simple


Exemple destimation, coefficient de dtermination R2
nombre de naissances = f(nombre de couples de cigognes)


Nombre de naissance= 38.37+ 1.170 (cigognes), R2= 0.91

Le modle linaire simple


Proprits des estimateurs.
Hypothses de Gauss-Markov pour le modle linaire simple.

1. Dans le modle thorique, la variable dpendante y est une fonction linaire


de x et de termes derreur u donne par
y = 0 + 1 x + u
2. On dispose dun chantillon alatoire {(xi, yi): i =1, , n}
de n observations de la population gnrale.
3. Les valeurs de x varient dans lchantillon (nont pas tous la mme valeur)
4. Le terme derreur a une esprance zro: E(u|x)=0 pour nimporte quelle valeur de la
variable indpendante x
5. Le terme derreur u a la mme variance pour nimporte quelle valeur de x
Var(u|x) = 2 (homoscdasticit)
Hypothse 5 importante pour le calcul des variances des estimateurs et permet lefficacit (variance
minimale de la regression). Ne joue aucun rle pour la question du caractre non biais des estimateurs.
Sous ces 5 hypothses estimateurs MCO est

BLUE (Best Linear Unbiased Estimator)

Le modle linaire simple


Proprits des estimateurs.

Dans ce cadre:
Nous allons dmontrer que les estimateurs des paramtres ne sont pas biaiss.
Calculer leur variances.
Calculer la variance de terme derreur (biaise et non biaise) ncessaire pour obtenir
les carts types (erreurs) des paramtres estims.
Nous allons aborder la question de homoscdasticit Var(u|x) = 2 (constante)
(et htroscdasticit), Var(u|x) 2 (variable)
:

Le modle linaire simple


Proprits des estimateurs. Hypothses de Gauss-Markov pour le modle
linaire simple. Htroscdasticit, exemple

Dans lquation de salaire



Salaire = a+b(ducation)+u

On a E(u|educ)=0

et Var(salaire|educ)=2 (homoscdasticit)
Mais en ralit la variance peut augmenter avec le niveau de salaire
(plus dopportunits avec laugmentation du niveau dducation donc
plus de variabilit de salaire)
Pareil pour la fonction de demande
Consommation=A+B(revenu) +u
(plus de variabilit avec le revenu croissant)


Le modle linaire simple


Proprits des estimateurs. Hypothses de Gauss-Markov pour le modle
linaire simple : Exemple de Homoscdasticit.

Le modle linaire simple


Proprits des estimateurs. Hypothses de Gauss-Markov pour le modle
linaire simple. Le cas Htroscdasticit.

Le modle linaire simple


Proprits des estimateurs. Estimateur est sans biais (1).
(xi x )( yi y )
( x x ) yi
= E i

E 1 = E
(x x )2

(x x )2
i
i

(xi x )E ( yi )
=
2
(xi x )

( )

(x x )( + x )
(x x )
( x x ) + (x x )x
=
(x x )
=

1 i

avec (xi x ) = 0
=

on obtient :

0 + 1 (xi x )xi

(x x )
et avec (x x ) = (x x )x
2

on obtient :
=

1 (xi x )xi

(x x )x
i

( )

ainsi

E 1 = 1

= 1

Le modle linaire simple


Proprits des estimateurs. Estimateur est sans biais (1).
(xi x )( yi y ) (xi x ) yi ( yi y )xi

=
=

( x x )2
( x x )2 ( x x )2
i
i
i

(x x )( y
i

y ) = (xi yi x yi yxi + yx )
= yi ( xi x ) + y (xi x )
= yi ( xi x ) + ny (xi x )
= yi ( xi x )

parce que (x i x) = 0
et de la mme faon :

(x x )( y
i

y ) = (xi yi x yi yxi + yx )
= xi ( yi y ) + x ( yi y )
= xi ( yi y ) + nx ( yi y )
= xi ( yi y )

parce que (y i y ) = 0

Le modle linaire simple


Proprits des estimateurs. Esprance (estimateur est sans biais) (0).
0 = y 1 x

( ) (

E 0 = E y 1 x

= E ( y ) x E ( 1 )
= E (y ) x (1)
1

sachant que :
yi E ( yi )
=
E ( y ) = E

n
n
( 0 + 1 xi )
=
n
n 0 + 1 xi
=
n
= 0 + 1 xi
en remettant ceci dans (1) on obtient
E ( 0 ) = 0 + 1 xi x 1 = 0

Le modle linaire simple


Proprits des estimateurs. Estimateurs sans biais Rsum




Les estimateurs MCO de 1 et de 0 ne sont pas biaiss.


La dmonstration sappuie sur 4 hypothses (1)linarit du modle,
(2) caractre alatoire de lchantillon avec (3) les observations non
identiques de x, (4) les erreurs et les x sont indpendantes E(u|x)=0,
Si ces hypothse ne sont pas satisfaites les estimateurs MCO
peuvent tre biaiss
Les estimateurs sont toujours des approximations plus ou moins
loignes des vrais paramtres et peuvent changer dun chantillon
lautre.
Sans biais ne veut pas dire que lestimateur est prs ou loin du vrai
paramtre. Pour cela on a besoin des variances

Le modle linaire simple


Proprits des estimateurs. Variance de 1

(xi x )( yi y )
( x x ) yi
= var i

var 1 = var
( x x )2

(x x )2
i
i

( )

(x x ) var( y )
=
( (x x ) )
(x x )
=
( (x x ) )
2

2 2

2 2

(x x )

Le modle linaire simple


Proprits des estimateurs. Variance de 0

( )

var 0 = var( y 1 x )

( )

= var( y ) + x 2 var 1 2 x Cov ( y , 1 )


sachant que
Cov( y , 1 ) = 0 :

yi ( xi x ) y j

Cov( y , 1 ) = Cov i , j
2
n ( xi x )

(x j x )Cov( yi , y j )
=
2
n ( xi x )
=
=

( xi x ) var( yi ) + (x j x )Cov( yi , y j )
n ( xi x )

2 ( xi x ) + 0

=0

j i i

n ( xi x )

Le modle linaire simple


Proprits des estimateurs. Variance de 0

et sachant que
yi
i
var( yi ) n 2 2
var(y) = var
= 2 =
=
2
n
n
n
n

on obtient :
var( ) = var( y ) + x 2 var( )
0

=
=

x
2
(xi x )
2

2 ( (xi x )2 + nx 2
n ( xi x )

sachant que (prop alg) :

(x x ) = x
2

nx 2

on obtient :

2 xi

var( 0 ) =
2
n ( xi x )
2

Le modle linaire simple


Proprits des estimateurs. Estimateur de la variance des erreurs




Nous ne pouvons connatre la variance des erreurs 2, parce que


nous nobservons pas derreurs ui
Nous nobservons que les residus i
Ce sont les rsidus qui seront utiliss pour estimer la variance des
erreurs.

Le modle linaire simple


Proprits des estimateurs. Estimateur de la variance des erreurs (
u i = y i 0 1 x i
= ( 0 + 1 x i + u i ) 0 1 x i
= u x

) (

La moyenne des rsidus u i est gale 0 donc


0 = u - 0 0 ( 0 1 x )

en soustrayan t du prcdant nous obtenons


u i = ( u i - u ) - 1 1 ( x i x )

2
2
u i = ( u i - u ) 2 + 1 1 ( x i x ) 2 2 ( u i - u ) 1 1 ( x i x )

En additionan t par (i)


2
u i =

(u i - u ) 2 + 1 1

) (x
2

x ) 2 2 1 1

) u ( x
i

x)

Le modle linaire simple


Proprits des estimateurs. Estimateur de la variance des erreurs (

2
2
ui = (ui - u) 2 + 1 1 ( xi x ) 2 2(ui - u) 1 1 ( xi x )

En additionant par (i)

2
2
2
2
ui = (ui - u) + 1 1 ( xi x ) 2 1 1 ui ( xi x )
calcul de l' sprance..., aprs transformations ;

E ( ui ) = (n 1) 2 + 2 2
2

= (n 2) 2
estimateur non bias 2 dgrs de libert prs
ui = 0
xi ui = 0
2

ui
=
n2
= SCR /(n 2)
2

Le modle linaire simple


Proprits des estimateurs. Estimateur de la variance des erreurs 2
Rsum

l' estimateur non biais de 2 est


1
2 =
ui2 = SCR / (n 2 )

(n 2)
o SCR somme des carrs des rsidus
rappel :
le vrai (mais biais) estimateur de 2 est SCR / n
1
2 = ui2 = SCR / n
n
la diffrence c' est le nombre de dgrs de liberts n 2 pour le premier
et n pour le second . En connaissant n - 2 rsisus nous pouvons calculer les 2 restants
partir des contraintes :

= 0 et x i u i = 0

Ainsi on obtient l' estimateur non bias par l' ajustement des dgrs de liberts

Le modle linaire simple


Proprits des estimateurs. Variances et cart types des estimateurs

pour obtenir les variances et les carts types des estimateurs


il faut remplacer 2 par l' estimateur de 2
l' cart type de
1

( )

var 1 =

var(0 ) =

2
(
)
x

x
i

2 xi 2

n ( xi x )

l' cart type de 0

( )

var 0 =

xi

n ( xi x )

Le modle linaire simple


Proprits des estimateurs. Variances , proprits

( )

var 1 =

(x x )
x
var( ) =
n (x x )
2

La variance des estimateurs augmente avec la variance du


terme derreur
La variance des estimateurs diminue avec la variabilit des
variables indpendantes.
Aussi un chantillon plus grand diminue la variance des
estimateurs
Problme: la variance derreur nest pas connue, on utilise
lestimateur de la variance des rsidus

Le modle linaire simple


Distribution des estimateurs et premiers tests dhypothse

Jusqu prsent, nous tions dans le cadre de 5 hypothses GaussMarkov qui nous garantissaient que les estimateurs MCO taient BLUE

.


Pour les tests d hypothses classiques (significativit des paramtres


estims) nous avons besoin dune hypothse supplmentaire sur la
distribution des erreurs:
6. Le terme derreur u est indpendant de x et suit une distribution
normale avec la moyenne 0 et la variance 2: u ~ N(0, 2)
Avec cette hypothse les estimateurs deviennent non seulement non
biaiss mais aussi ont une variance minimale.

Le modle linaire simple


Distribution des estimateurs et premiers tests dhypothse

Avec cette hypothse les estimateurs deviennent non seulement non


biaiss (BLUE) mais aussi ont une variance minimale.

Dans ce cadre (BLUE +6me) on a pour la population gnrale:


y|x ~ N(0 + 1x, 2)

Cette normalit nest pas toujours garantie


Le problme nest pas trs grave en prsence des grands chantillons (
n lev).

Le modle linaire simple


Distribution des estimateurs et premiers tests dhypothse

Le modle linaire simple


Distribution des estimateurs et premiers tests dhypothse

( )]

1 ~ N 1 , Var 1

l' estimateur 1suit la loi normale avec esprance 1


et variance :

( )

Var 1 =

(x x )

avec cela on peut prouver que :


1 1
~ N(0,1) suit la loi normale standardise
sd

( )
sd ( ) = f ( )
1

pour le prouver on utilise le fait que


a une distributi on normale tant
1

une combinaison linaire des erreurs

Le modle linaire simple


Distribution des estimateurs et premiers tests dhypothse

on peut aussi montrer que la quantit :


( )

se

~ t n2

avec se cart type


suit la loi de Student (t) et non normale (N)
avec le nombre (n 2) dgrs de libert

Le modle linaire simple


Distribution des estimateurs et premiers tests dhypothse
(un seul paramtre)






On peut maintenant effectuer des tests dhypothse pour un


paramtre
Lhypothse tester sappelle Hypothse zro H0
Lhypothse la plus typique est H0: 1=0
On rejette lhypothse zro en faveur de lhypothse
alternative H1: 10 ,
On dira que 1 sont significativement diffrents du zro ou
statistiquement significatif, ou que x a un effet significatif sur y.

( )

sd 1

Le modle linaire simple


Proprits des estimateurs. Estimateur est sans biais (1).
(xi x )( yi y ) (xi x ) yi ( yi y )xi

=
=

( x x )2
( x x )2 ( x x )2
i
i
i

(x x )( y
i

y ) = (xi yi x yi yxi + yx )
= yi ( xi x ) + y (xi x )
= yi ( xi x ) + ny (xi x )
= yi ( xi x )

parce que (x i x) = 0
et de la mme faon :

(x x )( y
i

y ) = (xi yi x yi yxi + yx )
= xi ( yi y ) + x ( yi y )
= xi ( yi y ) + nx ( yi y )
= xi ( yi y )

parce que (y i y ) = 0

Le modle linaire simple


Distribution des estimateurs et premiers tests dhypothse
(un seul paramtre)

Pour faire le test nous avons besoin


de construire la statistiqu e " t" pour 1 :
1
t
1
ET

( )
1

(ET = cart type )


Cette statistiqu e sera utilise pour rejeter ou non
l' hypothse zro H 0

Le modle linaire simple


Distribution des estimateurs et premiers tests dhypothse
(un seul paramtre)
Un test bilatral : on cherche une diffrence entre deux
estimations, ou entre une estimation et une valeur donne.
La zone de rejet de l'hypothse zro (H0) se fait de part et d'autre
de la distribution de probabilit.
Un test unilatral : on cherche de savoir si une estimation est
suprieure (ou infrieure) une autre ou une valeur donne.
La zone de rejet de l'hypothse zro (H0) est situe d'un seul ct
de la distribution de probabilit.

Le modle linaire simple


Distribution des estimateurs et premiers tests dhypothse
(un seul paramtre)





Nous avons encore besoin de dfinir lhypothse


alternative H1, et le seuil de signification
H1: bj > 0 et H1: bj < 0 sont des alternatives unilatrales
H1: bj 0 est une alternative bilatrale
La probabilit de 5% de rejeter H0 quand elle est vraie
signifie que le seuil de signification () est de 5%

Le modle linaire simple


Premiers tests dhypothse, un seul paramtre, procdure
dcide du seuil de significativit , ensuite on regarde
(dans la table) le (1 ) percentile de la distribution t avec
n k 1 degrs de libert .(n-2 dans notre cas parce que
k=1) et on relve la valeur critique (c).
On

Lhypothse zro H0 est rejete quand la statistique t


calcule par nous est plus grande que la valeur critique (c).

Lorsque la statistique t est plus petite que la valeur critique


nous ne pouvons pas rejeter lhypothse H0

Le modle linaire simple


Premiers tests dhypothse, un seul paramtre, illustration.

yi = 0 + 1xi1 + ui


H0: 1 = 0

H1: 1> 0

Le modle linaire simple


Premiers tests dhypothse, un seul paramtre,
Test bilatral et unilatral,

Test unilatral: comme la distribution t est symtrique , pour


lhypothse alternative H1: 1 < 0, la valeur critique c est la mme
que la prcdente avec un signe moins (-). Nous rejetons H1 quand la
statistique t < c,
Test bilatral, la valeur critique devient /2 et H1 : 1 0 est rejet
quand la valeur absolue de la statistique t est > c

Le modle linaire simple


Premiers tests dhypothse, un seul paramtre),
Test bilatral et unilatral,

yi = 0 + 1Xi1 + ui
H0: 1 = 0

H1 : 1 0

Le modle linaire simple


Premiers tests dhypothse
(un seul paramtre), rsum pour H0:

1 = 0

H0: 1 = 0
Par default lhypothse alternative est considere comme
bilatrale.
Quand on rejette H0 on dit que xj est statistiquement
significatif au seuil %. ( on choisit 95% le plus souvent)
Quand on ne peut rejetter H0 , on dit que xj nest pas
statistiquement significatif au seuil %.

Le modle linaire simple


Premiers tests dhypothse
(un seul paramtre), intervalle de confiance
Une autre faon de tester consiste construire des intervalles
de confiance avec les mmes valeurs critiques comme celles
utilises pour les tests bilatraux.
Pour lintervalle de confiance de (1 - ) % on aura:

( )

1 c 1 ,

avec c, 1 - %
2
de la distribution t n 2
(Il y a (1 - ) % de chance que se trouve lintrieur de lintervalle)

Le modle linaire simple


Premiers tests dhypothse
(un seul paramtre), intervalle de confiance
Une autre faon de tester consiste construire des intervalles
de confiance avec les mmes valeurs critiques comme celles
utilises pour les tests bilatraux.
Pour lintervalle de confiance de (1 - ) % on aura:

1 c (1 ),

avec c, 1 - %
2
de la distribution tn 2

(Il y a (1 - ) % de chance que se trouve lintrieur de linterval)

Le modle linaire simple


Premiers tests dhypothse
(un seul paramtre), intervalle de confiance

Pour =5%, nombre de dgrs de libert>30 on aura:


(1 ) *1.96<<1.96* (1 )

(Il y a 95% de chance que se trouve lintrieur de linterval)

Le modle linaire simple


Premiers tests dhypothse
(un seul paramtre), Les valeurs p pour les tests t
La question de significativit peut aussi tre pose en termes
suivants:
Quelle est le niveau le plus bas du seuil de
significativit auquel lhypothse zro H0 sera rejete?
On calcule la statistique t et on regarde auquel % de la
distribution t cela correspond: cest la valeur p
Autrement dit la valeur p est la probabilit que dans notre cas la
H0 soit vrai.

Le modle linaire simple


Premiers tests dhypothse
(un seul paramtre), exemple avec Stata

Le modle linaire simple


Premiers tests dhypothse
(un seul paramtre), exemple avec Stata , robust

Le modle linaire simple


Premiers tests dhypothse
(un seul paramtre), exemple avec Stata

Le modle linaire simple


Premiers tests dhypothse
(un seul paramtre), exemple avec Stata

Le modle linaire simple


Premiers tests dhypothse
(un seul paramtre), exemple avec Stata, table t-student

Le modle linaire simple


Introduction des nonlinearit dans le modle de
regression simple
rappel: modle linaire=
Linarit : Effet marginal constant
y = 1 x
si u=0




Le changement de y est le 1 multipli par le changement de x, les


termes alatoires dans u ne changent pas.
Un changement unitaire de x a toujours le mme effet sur y quel
que soit la valeur initiale de x.
Exemple classique:

Le modle linaire simple


Introduction des nonlinearit dans le modle de regression simple







Un remde possible pour permettre le rendement croissant:


Ln (salaire)=0+ 1* (education) + u
avec u=0 on obtient:
%salaire=(100* 1) (education); ou %salaire=% (education);
Le salaire augmente avec un pourcentage constant pour chaque anne
supplmentaire de lducation, mais les augmentations de salaire sont
croissantes.
Pourquoi: lquation de salaire peut tre crite sous forme exponentielle:
Salaire=exp(0+ 1* (education) ) qui la forme suivante:

Le modle linaire simple


Introduction des nonlinearits dans le modle de regression simple ( logniveau)

Salaire=exp(0+ 1* (education))

Le modle linaire simple


Introduction des nonlinearit dans le modle de regression simple

Ln (salaire)= 0.58 + 0.0827 (education)

chaque anne supplmentaire de lducation procure un gain de 8.27% de


salaire horaire. La constante =niveau de salaire quand ducation=0.
On a une prise en compte partielle de la non linarit de la relation (sal-educ).

Le modle linaire simple


Introduction des nonlinearit dans le modle de regression simple

Salaire= - 0.9 + 0.54 (education)

. reg

wage
Source

educ
SS

df

MS

Model
Residual

1 17 9 .7 3 20 4
5 98 0 .6 8 22 5

1
52 4

1 17 9 .7 3 2 04
1 1. 4 13 5 1 58

Total

7 16 0 .4 1 42 9

52 5

1 3. 6 38 8 8 44

wage

Coef.

educ
_cons

.5 4 13 5 93
- .9 0 48 5 16

Std. Err.
.0 5 32 4 8
. 68 4 96 7 8

t
1 0 .1 7
- 1 .3 2

Number of obs
F( 1,
524)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0. 0 00
0. 1 87

=
=
=
=
=
=

5 26
1 03 . 36
0 .0 0 00
0 .1 6 48
0 .1 6 32
3 .3 7 84

[95% Conf. Interval]


. 4 36 7 53 4
-2 . 25 0 47 2

.6 4 59 6 51
.4 4 07 6 87

chaque anne supplmentaire de lducation procure un gain de 0.54


pour le salaire horaire (anne de maternelle, de termiale, de licence)

Le modle linaire simple


Introduction des nonlinearit dans le modle de regression simple , log-log
(CES)

Log(salaire)=a+b *log(volume de ventes),

Le modle linaire simple


Introduction des nonlinearit dans le modle de regression simple , log-log
(CES), paramtre b=lasticit

Log(salaire)=a+b *log(volume des ventes),


Log(salaire)=4.96+0.22 *log(volume de ventes),
0.22 =lasticit de salaire/ventes

Le modle linaire simple


Introduction des nonlinearit dans le modle de regression simple , log-log
(CES), Augmentation de R2

salaire=a+b *(volume des ventes),


salaire=736.36+0.03 *(volume de ventes),

Le modle linaire simple


Introduction des nonlinearit dans le modle de regression simple ,
niveau-log (semi-log)

prix maison=a +b*ln(impt locaux)

Le modle linaire simple


Introduction des nonlinearit dans le modle de regression simple, niveaulog (semi log)

prix maison=a +b*ln(impt locaux)


prix maison=87716 - 10993.16*ln(impts locaux)

Laugmentation des impts locaux de 1% diminuerait le prix de la maison


.
denviron
110 $(-10993.16/100).

Le modle linaire simple


Introduction des nonlinearit dans le modle de regression simple, niveaulog (semi log)

prix (maison) = a +b*(impt locaux)


prix (maison) = 32930.37 - 255.22*(impts locaux)

Laugmentation des impts locaux dune unit (1$) diminuerait le prix de


la. maison denviron 255 $.

Le modle linaire simple


Introduction des nonlinearit dans le modle de rgression simple, rsum

Modle

Var.Dp.
(y)

Var.Indp
(x)

Intpretation de 1

Niveau-niveau

y= 1 x

Niveau-log

log(x)

y= (1 /100)%x

Log -niveau

log(y)

%y= (1001 )x

Log - log

log(y)

log(x)

%y= 1 %x
(lasticit)

Le modle linaire simple


changement dunit de mesure et les rsultats de la rgression

(salaire)= -0.91+ 0.54 (education)


Si on multipliait le salaire par 100 ? (les statistiques MCO restent les mmes)


Le modle linaire simple


changement dunit de mesure et les rsultats de la rgression

(salaire)= -0.91+ 0.54 (education)


Si on divisait lducation par 10 ? (les statistiques MCO restent les mmes)


Le modle linaire multiple

Le modle linaire multiple


comparaison modle simple -multiple

y = 0 + 1x1 + 2x2 + . . . kxk + u

(modle multiple)

y = 0 + 1x1 + u

(modle simple)

Principal dfaut de lanalyse simple: garantir les conditions ceteris


paribus ou toute chose gales par ailleurs (E(u|x)=0) avec une seule
variable. Cest trs improbable.

Principal avantage de lanalyse multiple: avec plus de variables et plus de


formes fonctionnelles - plus de chances dapprocher la causalit
Comme pour lanalyse simple nous allons:
Dfinir le modle multiple
Estimer le modle multiple
Analyser ses proprits statistiques

Le modle linaire multiple


comparaison modle simple multiple ceteris paribus , causalit

y = 0 + 1x1 + 2x2 + . . . kxk + u

(modle multiple)

y = 0 + 1x1 + u

(modle simple)

Exemple: modle deux variable explicatives:


Salaire = 0

+ 1(educ)+ 2(exper)+u

avec E(u|educ,exper)=0, au lieu de E(u|educ))=0

Ce qui nous intresse cest toujours la relation entre le salaire et lducation (ceteris paribus).
Nous suspectons que lexprience professionelle joue un rle important aussi. Ainsi nous
voudrions contrler son influence en la mettant explicitement dans lquation, sinon elle serait
reste intgre dans u parmi dautres inobservables avec hypothse (difficile dfendre) de
lindpendance de lexprience de lducation (E(u|educ)=0). Sil faut rejeter cette hypothse
les estimateurs OLS du modle simple seront biaiss.

Le modle linaire multiple


comparaison modle simple multiple, la prise en compte contrle
de plusieurs facteurs

Le modle linaire multiple


comparaison modle simple multiple -forme fonctionelle

Modle fonction quadratique:


salaire= 0 + 1(education) + 2(education)2 + u
salaire = 0 + 1(education) + u

(modle multiple)

(modle simple)

Dans le modle multiple leffet ceteris paribus du revenu sur la


consommation sera:

(salaire)
= 1 + 2 2 (education)
(education )
au lieu de
(salaire)
= 1
(education )
dans le modle simple

Le modle linaire multiple


comparaison modle simple multiple -forme fonctionnelle, exemple
quadratique, (salaire=f(education, education2))

Le modle linaire multiple


comparaison modle simple multiple, la prise en compte contrle
de plusieurs facteurs

Le modle linaire multiple


estimation interprtation

y = 0 + 1x1 + 2x2 + . . . kxk + u


o 0 constante,

1 + k paramtres associes avec x1 xk


y = 0 + 1 x1 + 2 x2 + ... + k xk
y = 1 x1 + 2 x2 + ... + k xk ,
Chaque a une intrprtation" ceteris paribus " toute choses gales par ailleurs

Effet marginal de x sur y :


y
k =
xk

Le modle linaire multiple


comparaison modle simple multiple,intpretation
Ln(salaire)=b0 + b1education + b2exprience + b3anciennet
Quelle augmentation de salaire si: 1 an supplmentaire dexprience et 1 an
supplmentaire de lanciennet dans lentreprise, education ne change pas
salaire=0.0041exprience+ 0.022anciennet=0.0041+0.022=0.0261
de salaire de 0.0261 ou de 2.6%.

Le modle linaire multiple


interprtation, un autre regard, corrlation entre x
2 variables explicatives

k = 2:
y = 0 + 1 x1 + 2 x2 , on peut dmontrer que :

(
ri1 yi )

1 =
2

r
i1
o ri1 sont des rsidus de la regression estime :
x1 = 0 + 2 x2
.

Le modle linaire multiple


interprtation, un autre regard, corrlation entre x
2 variables explicatives

Le modle linaire multiple


interprtation, un autre regard, corrlation entre x
2 variables explicatives

Le modle linaire multiple


interprtation; corrlation entre x, 2 variables explicatives

Cette quation signifie qu en estimant y avec x1 et x2 donne les


mmes effets de x1 sur y que quand on estime y avec les rsidus de
la rgression de x1 avec x2 .
Cela veut dire que seulement la part de xi1 qui nest pas corrle avec
xi2 est lie yi .

On dit que nous estimons leffet de x1 sur y aprs avoir extrait


leffet de x2 .

Le modle linaire multiple


comparaison modle simple multiple; problme de slection de
variables explicatives

x2

x1
y

y
Stratgie de slection des
variables x:
Moins corrls entre elles
quavec y
y
x1

.
x2

x2

x1

Le modle linaire multiple


interprtation; comparaison entre la regression simple et multiple,
2 variables explicatives

comparont deux regressions :


~ ~
~
simple : y = + x
0

1 1

et multiple y = 0 + 1 x1 + 2 x2
~
En gnral 1 1
Sauf si
1. 2 = 0 (il n' ya pas d' effet de x2 )
2. x1 et x2 ne sont pas corrls
.

Le modle linaire multiple


comparaison modle simple multiple, la prise en compte contrle
de plusieurs facteurs

Le modle linaire multiple


Qualit dajustement (R2)
chaque observation est constitue de la part explique et inexplique.
yi = y i + ui
Nous dfinissons :
2
(
)

Somme des Carrs Totale (SCT)


y
y
i
2

(
)

Somme des Carrs Explique (SCE)


y
y
i
2

u
i

Somme des Carrs Rsiduelle (SCR)

Ainsi :
SCT = SCE + SCR
.

Le modle linaire multiple


Qualit dajustement (R2)

Qualit dajustement= la part de la variance


explique estime par rapport la variance totale
(R2 ) de la regression
R2 = SCE/SCT = 1 SCR/SCT

Le modle linaire multiple


Qualit dajustement (R2)
2

On peut aussi considrer R comme


le carr de coefficient de correlation entre
les yi observes et estimes ( y i )

(
( y y )(y y ))

=
( ( y y ) )( (y y ) )
2

Le modle linaire multiple


Qualit dajustement (R2)

R2 ne diminue jamais quand on ajoute une variable explicative


supplmentaire lquation de rgression.
Gnralement il augmente.
A cause de cela ce nest pas un trs bon indicateur pour comparer
les modles

Le modle linaire multiple


Qualit dajustement, variables omises

Quest-ce qui se passe:


1. Si on inclue dans la rgression une variable qui nappartient pas au modle?
MCO est toujours non biaise et nos paramtres dintrts ne change pas
2. On nntgre pas de variable qui fait partie du modle.?
MCO sera sans doute biaise
Conclusion: prendre trop est moins risqu que ne pas prendre assez de variables.
.

Le modle linaire multiple


Qualit dajustement, variables omises

supposons que le vrai modle aie la forme


suivante :
y = 0 + 1 x1 + 2 x2 + u,
mais nous estimons
~ ~
~
y = + x + u,
0

1 1

On a alors :
~

1
.

(x

=
(x

i1

x1 ) yi

i1 x1 )

Le modle linaire multiple


Qualit dajustement, variables omises

pour le vrai modle


yi = 0 + 1 xi1 + 2 xi 2 + ui , the
on aura le numrateur
suivant :

(x x )(
(x x )
i1

0
2

i1

+ 1 xi1 + 2 xi 2 + ui ) =
+ 2 ( xi1 x1 )xi 2 + ( xi1 x1 )ui

Le modle linaire multiple


Qualit dajustement, variables omises

= 1 + 2

(x x )x + (x
((x x ) ) ((x
i1

i1

i2
2

i1

i1

x1 )ui
x1 )

sachant que E(ui ) = 0, et en calculant l' esprance


on obtient :

( )
~

E 1 = 1 + 2
.

(x x )x
((x x ) )
i1

i1

i2
2

Le modle linaire multiple


Qualit dajustement, variables omises

prenons une rgression de x2 sur x1


~ ~
~
x = + x
2

1 1

on obtient alors 1

(x x )x

=
((x x ) )
i1

i1

i2
2

compte tenu du rsultat prcedent :

( )
~

E 1 = 1 + 2

(x x )x
((x x ) )
i1

i1

on a :
~
~
E 1 = 1 + 21

( )

i2
2

Le modle linaire multiple


Qualit dajustement, variables omises

Biais de lestimateur 1 quand x2 est omise

Corr(x1, x2) > 0 Corr(x1, x2) < 0


2 > 0

Biais positif

Biais Negatif

2 < 0

Biais Negatif

Biais positif

Le modle linaire multiple


Qualit dajustement, variables omises, conclusion

Le biais = 0 dans 2 cas seulement:




2 = 0, ( x2 nappartient pas au modle

x1 et x2 ne sont pas corrls (dans lchantillon)

Si les corrlations entre (x2 , x1) et (x2 , y) ont le


mme signe le biais sera positif.
Si les corrlations entre (x2 , x1) et (x2 , y) ont des
signes diffrents le biais sera ngatif
.

Le modle linaire multiple


comparaison modle simple multiple; problme de slection de
variables explicatives

x2

x1

y
Stratgie de slection des
variables x:
Moins corrls entre elles
quavec y
y
x1

x2

x2

x1

Le modle linaire multiple


Hypothses de Gauss-Markov pour le modle multiple
H1. Dans le modle thorique dans la population gnrale, la variable dpendante y
est une fonction linaire
de xj :j =1, , k et de termes erreur u
y = 0 + 1 x1 + 2 x2 + + k xk +u
o

0 + 1 + 2 + + k un vecteur des paramtres inconnus


u
est une erreur (perturbation) inobservable

H2. On dispose dun chantillon alatoire {(xi, yi): i =1, , n}


observations de la population gnrale.
Pour une observation particulire nous avons
yi = 0 + i1 xi1 + i2 xi2 + + kik xik +ui

de n

Le modle linaire multiple


Hypothses de Gauss-Markov pour le modle multiple

H3.
Les valeurs de x varient dans lchantillon (et donc aussi dans la population
gnrale): aucune nest constante et il n ya pas de relation linaire exacte entre elles
(aucune nest une combinaison linaire de lautre)
H4. Le terme derreur a une esprance zro pour nimporte quelle valeur des variables
indpendantes x: E(u|x1 x2 xk)=0
H5. Le terme derreur u a la mme variance pour toutes les valeurs des x:
Var(u| x1 x2 xk) = 2 (homoscdasticit)
Lestimateur qui satisfait ces

5 hypothses est

BLUE (Best Linear Unbiased Estimator)

Das könnte Ihnen auch gefallen