Sie sind auf Seite 1von 28

Statistiques avancées

Séances 7 et 8
La régression linéaire
simple et multiple

1
Objectifs

 Expliquer la variation d’une variable endogène


(dépendante ou à expliquée) par une ou plusieurs
variables exogènes (indépendantes ou explicatives)
 Expliquer la droite de régression (méthode de MCO)
 Estimer les paramètres de régression et leurs
caractéristiques
 Établir les prévisions

2
Plan de la séance

1- La régression linéaire simple


A. Formulation du modèle
B. Formulation des estimateurs
C. Spécification du modèle de régression : Test de Student
D. Validation du modèle de régression : Test de Fisher
E. Qualité du modèle de régression: Le coefficient de
détermination R²
F. Représentation graphique
2- La régression linéaire multiple
3- Travail à rendre N°3
Introduction générale

• L’analyse de la régression est une méthode statistique qui permet


d’étudier le type de relation pouvant exister entre une certaine
variable (dépendante) dont on veut expliquer les valeurs, et une ou
plusieurs autres variables qui servent à cette explication (variables
indépendantes)
– Régression linéaire simple: une variable indépendante
– Régression linéaire multiple: plusieurs variables indépendantes

• En d’autres termes, l’analyse de la régression permet d’étudier les


variations de la variable dépendante en fonction des variations
connues des variables indépendantes.

4
Introduction générale

• Formulation algébrique
La variable dite dépendante ou expliquée (Y)
La ou les variables dites indépendantes ou explicatives (X)
Alors;

Y  f (X )

5
Introduction générale

Hypothèses du modèle de régression linéaire:


H1: le modèle est linéaire en xt;
H2: les valeurs xt sont observées sans erreur;
H3: E(εt) = 0, modèle bien spécifié, donc erreur moyenne nulle;
H4: E(ε²t) = σ²ε , variance de l’erreur constante (homoscédasticité);
H5: E(εtεt’) = 0, si t ≠ t’, les erreurs sont non corrélées;

6
1- la régression linéaire simple

Le modèle linéaire à une seule variable explicative est de la


forme:

  yt  a0  a1 xt   t pour t = 1, …, n

avec:
yt : variable à expliquer au temps t;
xt : variable explicative au temps t;
a0 , a1 : paramètres du modèle;
εt : erreur de spécification (différence entre le
modèle vrai et le modèle spécifié), cette erreur est
inconnue et restera inconnue;
n : nombre d’observations. 7
1- la régression linéaire simple

A- Formulation du modèle estimé


Le modèle estimé à partir d’un échantillon d’observation est de
la forme:
  
yt  a 0  a1 xt  et  y t  et
Avec: et : résidu, estimation de l’erreur εt.
 
Le résidu observé et différence entre les valeurs observées de y
et les valeurs ajustées à l’aide des coefficients du modèle.

8
1- la régression linéaire simple

ˆ 0 et â1
B- Formulation des estimateurs a

x  y 
n

t  x t  y
ˆ1 
a t 1

x 
n
2
t  x
t 1

ˆ 0  y  â1 x
a

Les estimateurs sont dits BLUE (Best Linear Unbiased Estimator),


c’est-à-dire meilleurs estimateurs linéaires sans biais.

9
1- la régression linéaire simple
Exemple 1
Indice du Cours de
On a relevé pendant 13 mois
consécutifs, le cours de l’action marché X l'action Y Périodes
d’une société S et un indice 430 140 1
représentatif du cours moyen sur le 507 148 2
marché boursier des actions. Nous
voulons étudier les variations de la 512 154 3
variable dépendante (Y: cours de 589 164 4
l’action) en fonction de la variable 536 169 5
indépendante (X: cours de l’indice
boursier): 509 153 6
1. Formuler le modèle linéaire 499 140 7
2. Donner la formulation du modèle à 499 137 8
estimer 444 130 9
3. Calculer les estimateurs du modèle 391 120 10
4. Calculer les valeurs ajustées à l’aide 340 118 11
du modèle estimé
384 137 12
5. Calculer les résidus et
6. Vérifier l’hypothèse H3
481 154 13
10
1- la régression linéaire simple

aˆ 0  52,53
aˆ1  0,193
• Le modèle de régression linéaire entre l’indice
boursier est l’action S est alors de la forme

y  52,53  0,193 x
La droite de
régression qui
permet de
déterminer C’est l’augmentation du cours
le cours moyen de de l’action (Y) pour une
de l’action S augmentation
Ordonnée à l’origine
pour un cours unitaire de l’indice de marché
(cours moyen de l’actions si
de l’indice (X)
Le cours de l’indice vaut 0)
boursier x. 11
1- la régression linéaire simple
C- La spécification du modèle : test de Student
• Les estimateurs sont ils significatifs?
 Test de significativité de
â1
1- Hypothèses du test:
 H 0 : a1  0

 H1 : a1  0
2- Ensuite, on calcule un ratio appelé le t de Student empirique 
3- On compare le seuil de signification (p) lié à la statistique t avec le
seuil théorique de risque α (5%)
4- Conclusion:
• Si p < α on rejette H0, a1 significativement ≠ 0, X explique Y de
façon significative, donc la variable explicative est contributive à
l’explication de la variable Y ;
• Si p > α , on accepte H0, a1 égal 0, X n’explique pas Y de façon
12
contributive.
1- la régression linéaire simple

Exemple 2 :

En reprenant l’exemple de la société S, tester la


significativité du coefficient de régression a1 au seuil
de α=0,05

13
1- la régression linéaire simple

 Réponse
1- Hypothèses du test:
 H 0 : a1  0

 H1 : a1  0

2- tc= 5,64
3- p=0,00
4- p< α donc on rejette H0 et on accepte H1, a1
significativement ≠ de 0, X explique Y de façon
significative, donc la variable explicative est
contributive à l’explication de la variable Y ;

14
1- Analyse statistique

Signification par intervalle de confiance


1- Analyse statistique
D- Validation du modèle de régression : Test de Fisher

A- Décomposition de la variance
Il est d’usage de décomposer la variance totale en la variance
expliquée par la régression et la variance résiduelle.
La somme des carrés totale (SCT) se décompose en la somme
des carrés expliqués par la régression (SCE) et la somme des carrés
résiduelles (SCR): SCT = SCE + SCR

B- ANOVA

Carrés moyens Degrés de liberté Somme des carrés Source de variance

SCE / 1 1 SCE Régression X

SCR / (n-2) n-2 SCR Résidu ε

n-1 SCT Total


1- Analyse de deux variables qualitatives
D- Validation du modèle de régression : Test de Fisher

C- Test de Fischer
1- Hypothèses du test:
H0 la variable X n’explique pas Y
H1 la variable X explique significativement Y

2- Ensuite, on calcule un ratio appelé le F de Fischer empirique 


3- On compare le seuil de signification (p) lié à la statistique F avec
le seuil théorique de risque α (5%)
4- Conclusion:
Si p < α on rejette H0 et on accepte H1 ; le modèle de régression est
validé;
Sinon on accepte H0, le modèle n’est pas validé.
1- la régression linéaire simple

Exemple 3 :

En reprenant l’exemple de la société S, établir le test de


Fischer au seuil de 5%

18
1- la régression linéaire simple

P< α alors le modèle de régression est validé

19
E- La qualité du modèle de régression: Le coefficient de
détermination R²

R² fournit une indication de la force de la liaison possible pouvant


exister entre Y et X au niveau de la population. De plus, c’est un
indice de la qualité de l’ajustement de la droite aux points
expérimentaux.
SCE  SCR 
R 
2
 1  
SCT  SCT 
Dans le cas d’une régression simple, le coefficient de
détermination est égal au carré du coefficient de corrélation

R 
2 2
XY
1- la régression linéaire simple

Exemple 3 :

En reprenant l’exemple de la société S, apprécier la


qualité du modèle de régression.

21
1- la régression linéaire simple

Réponse

R²=74,3% c’est-à-dire que la variation de l’indice du


marché explique 74,3% du comportement de
l’action S.

22
1- la régression linéaire simple

F- Représentation graphique

 Nuages de points
 Droite de régression

23
2- la régression linéaire multiple

A- Le modèle linéaire à plusieurs variables explicatives est


de la forme:

y  t  a0  a1x 1t  a2 x 2t    ak x kt  t
pour t = 1, …, n

24
2- la régression linéaire multiple
Application :
X2 X1 Y
On suppose une série d’observations rassemblées
400 9 40
dans le tableau suivant et portant sur la quantité
500 8 45
demandée Y d’une marchandise, sur son prix X1 et
600 9 50
sur le revenu global des consommateurs X2 de 1991 à
700 8 55
2005
800 7 60
Travail à faire :
900 6 70
1. Décrire l’équation du modèle à estimer; 1000 6 65
2. Estimer les paramètres du modèle; 1100 8 65
3. Déterminer le coefficient de détermination multiple, 1200 5 75
le coefficient de corrélation multiple et le coefficient 1300 5 75
de détermination ajusté; 1400 5 80
4. Tester au seuil de 5% la signification statistique des 1500 3 100
paramètres (test de Student); 1600 4 90
5. Tester la signification d’ensemble de la régression 1700 3 95
(test de Fisher) 1800 4 85
25
3- Travail à rendre N°3 (fichier TAF.SAV)
• Vous êtes un logisticien dans une entreprise de distribution de
boissons gazeuse et vous disposez de n = 25 observations du temps
en minutes (variable Y ) pour approvisionner un réseau de
distributions de boissons selon le nombre de caisses de bouteilles
placées (variable X1) et la distance parcourue en mètres (variable
X2).
TAF:
1. Décrire l’équation du modèle à estimer;
2. Estimer les paramètres du modèle et interpréter les résultats;
3. Déterminer le coefficient de détermination multiple, le coefficient
de corrélation multiple et le coefficient de détermination ajusté
interpréter les résultats;
4. Tester au seuil de 5% la signification statistique des paramètres
(test de Student);
5. Tester la signification d’ensemble de la régression (test de Fisher)
6. Quelles sont les actions à mettre en œuvre pour réduire le temps
d’approvisionnement d’un réseau de distribution? 26
Dispositions de la séance prochaine :

• Contrôle du travail à rendre N°3


Merci de votre attention

28

Das könnte Ihnen auch gefallen