Sie sind auf Seite 1von 23

Universit Lyon 2

Laboratoire ERIC
1
Ricco RAKOTOMALALA
Rgression Linaire Multiple
Universit Lyon 2
Laboratoire ERIC
2
PLAN
1. Diagnostic graphique
2. Caractre alatoire des erreurs (donnes ordonnes)
3. Test de normalit
Universit Lyon 2
Laboratoire ERIC
3
Pourquoi tudier les rsidus ?
Importance des rsidus pour linfrence statistique
Problme : Les proprits (biais, convergence) et linfrence statistique (test de
significativit, intervalle de confiance) reposent en grande partie sur des hypothses
sur les erreurs. Il faut sassurer de la conformit aux hypothses.
Quelles hypothses ?
E() = 0, en moyenne le modle est bien spcifi
E(
2
)=
2

la variance de l erreur est constante (homoscdasticit)


E(
i
,
j
)=0, les erreurs sont non-corrls
Cov(,x)=0, l erreur est indpendante de la variable explicative
Normale(0,
2

)
Quelques principes
On ne dispose pas des erreurs mais des rsidus (erreurs observes) dj une infrence ici
Rsidus ports en ordonne, les graphiques diffrent de ce quon met en abscisse
Traquer toute forme de rgularit dans les rsidus et/ou de dpendance entre les rsidus et les variables
Les rsidus doivent donc tre dissmins au hasard dans un certain intervalle
Un point scartant ostensiblement est la marque dune observation atypique et/ou mal modlise
Universit Lyon 2
Laboratoire ERIC
4
Un petit graphique vaut mieux (souvent) que de longs calculs
Universit Lyon 2
Laboratoire ERIC
5
Graphiques de base
Rsidus vs. Endogne, vs. Exognes, vs. Temps
Rsidus vs. Endogne
Vrifier les points atypiques et/ou mal modliss
Vrifier si certaines plages de valeurs sont sous ou
sur-estimes
Vrifier la dispersion selon les valeurs de Y
Rsidus vs. Exognes
Vrifier les points atypiques
Vrifier les dpendances
Vrifier la dispersion selon les plages de valeurs de X
Rsidus vs. Temps
Donnes temporelles
Tableau ordonn selon le temps
Vrifier lexistence de rgularits
Universit Lyon 2
Laboratoire ERIC
6
Cas pathologiques
Points atypiques et points influents
Points atypiques : Points qui scartent dlibrment des autres
Points influents : Points qui psent (exagrment) sur les estimations : si on les enlevait,
on obtiendrait des rsultats (significativement) diffrents
Point atypique
Une valeur trs diffrente sur lendogne et/ou
sur une ou combinaison dexognes. Elle nest
pas forcment mal modlise (rsidu lev).
Cf. Endogne atypique O/N x Mal/Bien modlis
Atypique exogne + Mal modlis
Point influent
Trs difficile dtecter visuellement
Peut tre atypique ou non
Peut tre bien modlis ou non
Cf. Atypique non influent, Non atypique mais
influent
Rgression simple : Point manifestement influent
Serait-ce aussi vident dans un graphique des rsidus ?
Universit Lyon 2
Laboratoire ERIC
7
Cas pathologiques
Asymtrie, non linarit et rupture de structure
Asymtrie
Des plages de donnes de lendogne mal reconstitus
Donnes atypiques
Mlanges de populations diffrentes
Problmes de spcifications (absence dexognes importantes)
Non linarit
Modle linaire inadapt, utiliser un modle non linaire
Passer par des transformations de variables (log., carr,
racine carre, produit entre variables : interactions, etc.)
Rupture de structure
Rsidus en blocs
Mlange de populations
Mutations ou crises dans les sries temporelles
Universit Lyon 2
Laboratoire ERIC
8
Cas pathologiques
Htroscdasticit et autocorrlation des rsidus
Htroscdasticit
Variance des rsidus non constante
Exogne en abscisse pour dtecter (traiter) dpendance
Autocorrlation
Associe aux donnes longitudinales
Processus particulier (rgularit) au cours du temps ?
Positive (blocs +/-) ou ngative (alternance +/-)
Universit Lyon 2
Laboratoire ERIC
9
Un exemple
Prdiction de la consommation de vhicules
x1 x2 x3 x4 y
(Frs) (cm3) (kW) (kg) (l/100km)
Prix Cylindre Puissance Poids Consommation
1 Daihatsu Cuore 11600 846 32 650 5.7
2 Suzuki Swift 1.0 GLS 12490 993 39 790 5.8
3 Fiat Panda Mambo L 10450 899 29 730 6.1
4 VW Polo 1.4 60 17140 1390 44 955 6.5
5 Opel Corsa 1.2i Eco 14825 1195 33 895 6.8
6 Subaru Vivio 4WD 13730 658 32 740 6.8
7 Toyota Corolla 19490 1331 55 1010 7.1
8 Ferrari 456 GT 285000 5474 325 1690 21.3
9 Mercedes S 600 183900 5987 300 2250 18.7
10 Maserati Ghibli GT 92500 2789 209 1485 14.5
11 Opel Astra 1.6i 16V 25000 1597 74 1080 7.4
12 Peugeot 306 XS 108 22350 1761 74 1100 9.0
13 Renault Safrane 2.2. V 36600 2165 101 1500 11.7
14 Seat Ibiza 2.0 GTI 22500 1983 85 1075 9.5
15 VW Golt 2.0 GTI 31580 1984 85 1155 9.5
16 Citroen ZX Volcane 28750 1998 89 1140 8.8
17 Fiat Tempra 1.6 Liberty 22600 1580 65 1080 9.3
18 Fort Escort 1.4i PT 20300 1390 54 1110 8.6
19 Honda Civic Joker 1.4 19900 1396 66 1140 7.7
20 Volvo 850 2.5 39800 2435 106 1370 10.8
21 Ford Fiesta 1.2 Zetec 19740 1242 55 940 6.6
22 Hyundai Sonata 3000 38990 2972 107 1400 11.7
23 Lancia K 3.0 LS 50800 2958 150 1550 11.9
24 Mazda Hachtback V 36200 2497 122 1330 10.8
25 Mitsubishi Galant 31990 1998 66 1300 7.6
26 Opel Omega 2.5i V6 47700 2496 125 1670 11.3
27 Peugeot 806 2.0 36950 1998 89 1560 10.8
28 Nissan Primera 2.0 26950 1997 92 1240 9.2
29 Seat Alhambra 2.0 36400 1984 85 1635 11.6
30 Toyota Previa salon 50900 2438 97 1800 12.8
31 Volvo 960 Kombi aut 49300 2473 125 1570 12.7
Modle Vhicule i
Universit Lyon 2
Laboratoire ERIC
10
Un exemple
Graphiques des rsidus
Commentaires
Globalement, pas de formes particulires se
dessinent
Des points manifestement atypiques
Quelques points trs mal modliss (il faut avoir
une ide de lcart type pour vraiment statuer
dessus)
Des points atypiques bien modliss et des points
atypiques mal modliss
Trier, filtrer et croiser les donnes de
diffrentes manires permet didentifier
les points susceptibles de poser problme.
Reste alors dterminer ce quil faut en faire.
Universit Lyon 2
Laboratoire ERIC
11
Pour les donnes longitudinales (sries chronologiques)
mais pas seulement.
Universit Lyon 2
Laboratoire ERIC
12
Autocorrlation des rsidus
Pourquoi cest important
Causes
Problmes de spcification
Variables importantes manquent
Donnes dj manipules (lisses, moyenne mobile, rtropoles, interpoles,
etc. ex. donnes fournies par les observatoires statistiques)
Consquences
MCO quand mme non biais
Mais MCO nest plus variance minimale
Mauvaise estimation de la matrice des VCV
ET (par consquent) Infrence statistique inoprante
Dtection visuelle avec le
graphique des rsidus
Test de Durbin-Watson
Dcrire lerreur sous la forme
) ; 0 ( avec .
1
N
i i i i
+ =

Tester H0 : =0 vs. H1 : 0
Test spcifique une forme de lerreur
Puissant pour cette forme
Mais non oprante pour les autres formes
A voir en M1 (avec les MCG)
Test des squences
(Wald-Wolfowitz)
Plus gnrique
Cherche les rgularits sous
forme de squences
Test gnrique, sapplique toute forme
Moins puissant pour des formes spcifiques
Gnralisable pour donnes transversales (attention,
sous certaines conditions uniquement)
Mthodes numriques
Universit Lyon 2
Laboratoire ERIC
13
Test des squences
Principe
Les donnes sont ordonnes (selon le temps)
Compter le nombre de fois o les rsidus sont conscutivement au-
dessus ou en-dessous de la valeur 0 : on parle de squences
(1)
(2)
(3) (4)
r = 4 squences
Test dhypothses
H0 : Les donnes voluent de manire alatoire
Rgion critique : Un nombre de squence trop lev (alternance +/-)
est tout aussi suspect qu un nombre de squences trop faible (gros
blocs de +/-)
r = 15 squences
(Remarque : quelles sont les valeurs min et max de r ?)
Statistique du test et loi asymptotique
Soit n+ (resp. n-), nombre de points positifs (ngatifs)
1
) 2 )( 1 (
1
2


=
+ =
+
n
n
n n

r suit une loi normale


de paramtres


=
r
z
Statistique
centre rduite
Rgion critique
(rejet de H0) : 2 1
> u z
Universit Lyon 2
Laboratoire ERIC
14
Test des squences
Un exemple : Expliquer la consommation en fonction du prix et des revenus
Les observations sont compatibles avec H0 : processus alatoire
Universit Lyon 2
Laboratoire ERIC
15
Test des squences
Applicables sur les donnes transversales ?
Principe
Tester lAutocorrlation des rsidus na aucun sens sur les donnes transversales
Parce quon peut toujours trier (mlanger) les donnes de manire ce que les tests concluent H0
Mais on peut exploiter le test des squences pour dtecter les problmes
En triant les donnes selon lendogne
Vrifier sil existe des zones o les valeurs de lendogne sont sur (sous) estimes durablement par le modle
La nature du test est modifi
Un nombre lev de squences nest plus un problme dans ce contexte
Il y a pathologie lorsque le nombre de squences est anormalement faible
On passe sur un test unilatral
Tout va bien Non-linarit : problme Rupture de structure : problme
Universit Lyon 2
Laboratoire ERIC
16
Hypothse ncessaire pour la partie infrentielle
(Tests dhypothses sur les coefficients, intervalles de confiance)
Universit Lyon 2
Laboratoire ERIC
17
Graphique quantile-quantile
Q-Q plot ou Droite de Henry
Principe Q-Q plot
Confronter les quantiles de 2 distributions (pas ncessairement de mme effectif) dans un graphique X-Y
Si les points forment une droite : les distributions sont identiques (compatibles)
Q-Q plot pour vrifier la compatibilit avec la loi normale
En abscisse, les quantiles de la distribution observe
En ordonne, les quantiles de la distribution normale (thorique) correspondante (moyenne, cart type estims)
Si les points forment une droite, la distribution est compatible avec la loi normale
Frquence V1 (tri) V2 (tri)
0.1 -1.764 -1.938
0.2 -0.792 -1.339
0.3 -0.483 -0.694
0.4 -0.171 -0.329
0.5 0.118 -0.221
0.6 0.298 -0.002
0.7 0.317 0.026
0.8 1.962 0.104
0.9 2.079 0.138
1 2.130 0.165
Quantile-quantile plot
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5
V1
V
2
Universit Lyon 2
Laboratoire ERIC
18
QQ-plot, un exemple
Moyenne et cart-type estims
Rsidus tris
(Quantiles observs)
Frquence (frquence
espre en accord
avec la loi normale)
25 . 0
375 . 0
+

=
n
i
F
i
Quantile de la loi
normale (0 ; 1)
Quantile de la loi normale (moyenne ;
cart type estims sur lchantillon) :
quantiles thoriques
Universit Lyon 2
Laboratoire ERIC
19
Test de normalit des rsidus
Test bas sur lasymtrie de la distribution
Principe
Si les rsidus suivent une loi normale (H0), lasymtrie = 0
(A contrario) Si asymtrie 0, alors les rsidus ne sont pas
compatibles avec la loi normale
Dfinition du coefficient dasymtrie
3
3
1

=
Coefficient
dasymtrie estim
2
3
2
3
1

1
(

i
i
i
i
n
n
g

Sous H0, g1 suit


asymptotiquement une loi
normale de paramtres
n
s
m
6
0
1
1

Test, on forme :
1
1 1
1
s
m g
c

=
Rgion critique :
(Rejet de H0)
2
1
1

> u c
Application sur les donnes consommation
Universit Lyon 2
Laboratoire ERIC
20
Test de normalit des rsidus
Bas sur aplatissement de la distribution
Principe
Si les rsidus suivent une loi normale (H0), laplatissement = 0
(A contrario) Si aplatissement 0, alors les rsidus ne sont pas
compatibles avec la loi normale
Dfinition du coefficient dasymtrie
3
4
4
2
=

Coefficient daplatissement
estim
3

1
2
4
2
4
2

(

i
i
i
i
n
n
g

Sous H0, g2 suit


asymptotiquement une loi
normale de paramtres
n
s
m
24
0
2
2

Test, on forme :
2
2 2
2
s
m g
c

=
Rgion critique :
(Rejet de H0)
2
1
2

> u c
Universit Lyon 2
Laboratoire ERIC
21
Test de normalit de Jarque-Bera
Combiner les tests bass sur lasymtrie et aplatissement
Principe
Si les rsidus suivent une loi normale (H0), lasymtrie ET laplatissement sont simultanment = 0
Statistique de Jarque-Bera
Sous H0, g1 et g2 sont asymptotiquement
indpendants. On propose la statistique T qui
suit une loi du KHI-2 2 degrs de libert
(logique : somme de 2 lois normales au carr indp.)
) 2 (
4 6
1
2
2
2
2
1

|
|

\
|
+

=
g
g
p n
T
(n p 1) reprsente les degrs de libert de
la rgression c.--d. nombre dobservations
moins nombre de paramtres estims.
Rgion critique :
) 2 (
2
1


> T
Le test de Jarque Bera est plus puissant
(dtecte mieux lcart la loi normale si
elle existe) privilgier / aux 2 tests
prcdents pris individuellement
Application sur les donnes consommation
Universit Lyon 2
Laboratoire ERIC
22
Conclusion
Combiner les techniques numriques et graphiques permettent
dtudier simplement/rapidement les rsidus.
Analyser les rsidus permet de valider ou invalider une
rgression.
En cas dinvalidation, lanalyse graphique des rsidus donne une
ide des pistes explorer pour remdier aux problmes (non-
linarit, rupture de structure, etc.)
Universit Lyon 2
Laboratoire ERIC
23
Bibliographie
Ouvrages
M. Tenenhaus, Statistique Mthodes pour dcrire, expliquer et prvoir , Dunod, 2006.
R. Bourbonnais, Economtrie Manuel et exercices corrigs , Dunod, 1998.
Y. Dodge, V. Rousson, Analyse de rgression applique , Dunod, 2004.
En ligne
R. Rakotomalala, Pratique de la Rgression Linaire Multiple Diagnostic et
slection de variables . Support de cours.
http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf
R. Rakotomalala. Portail.
http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html
Wikipdia.
http://fr.wikipedia.org/wiki/Rgression_linaire_multiple

Das könnte Ihnen auch gefallen