Régression Linéaire

Universit de Rennes 2 Master de Statistique Anne 2009/2010 Premier Semestre
Rgression linaire
Arnaud Guyader
Ce cours est tir des quatres premiers chapitres du livre de Pierre-Andr Cornillon et Eric MatznerLber, Rgression (Thorie et applications), paru chez Springer en 2007.
Table des matires

1 La rgression linaire simple 1.1 Modlisation . . . . . . . . . . . . . . . . . . . . . . 1.2 Moindres Carrs Ordinaires . . . . . . . . . . . . . . 1.2.1 Calcul des estimateurs de 1 et 2 . . . . . . 1.2.2 Quelques proprits des estimateurs 1 et 2 1.2.3 Calcul des rsidus et de la variance rsiduelle 1.2.4 Prvision . . . . . . . . . . . . . . . . . . . . 1.3 Interprtations gomtriques . . . . . . . . . . . . . . 1.3.1 Reprsentation des variables . . . . . . . . . . 1.3.2 Le coecient de dtermination R2 . . . . . . 1.4 Cas derreurs gaussiennes . . . . . . . . . . . . . . . 1.4.1 Estimateurs du maximum de vraisemblance . 1.4.2 Rappels sur les lois usuelles . . . . . . . . . . 1.4.3 Lois des estimateurs et rgions de conance . 1.4.4 Prvision . . . . . . . . . . . . . . . . . . . . 1.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . 2 La rgression linaire multiple 2.1 Modlisation . . . . . . . . . . . . . . . . . 2.2 Estimateurs des Moindres Carrs Ordinaires 2.2.1 Calcul de . . . . . . . . . . . . . . 2.2.2 Quelques proprits . . . . . . . . . 2.2.3 Rsidus et variance rsiduelle . . . . 2.2.4 Prvision . . . . . . . . . . . . . . . 2.3 Interprtation gomtrique . . . . . . . . . . 2.4 Exemple . . . . . . . . . . . . . . . . . . . . 2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 2 3 4 6 7 8 8 8 9 10 10 11 12 13 13 17 18 19 19 21 22 24 24 25 26 29 29 30 32 34 35 35 35 39 40 40
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Le modle gaussien 3.1 Estimateurs du Maximum de Vraisemblance . . . . . . . . . . . . 3.2 Nouvelles proprits . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Intervalles et rgions de conance . . . . . . . . . . . . . . . . . . 3.4 Prvision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Tests dhypothses . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.2 Tests entre modles embots . . . . . . . . . . . . . . . . 3.5.3 Test de lhypothse linaire R = 0 . . . . . . . . . . . . . 3.5.4 Gnralisation : test de Fisher pour une hypothse linaire 3.6 Estimation sous contraintes . . . . . . . . . . . . . . . . . . . . . i
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . quelconque . . . . . . .
ii 3.7 3.8
Table des matires Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 42 47 47 47 48 48 53 55 59 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 71 71 71 71 72 72 72 73 73 73 73 74 75 75 75 77 77 78 79 80 81
4 Validation du modle 4.1 Analyse des rsidus . . . . . . . . . . . . . . . . . . 4.1.1 Ajustement global et ajustement individuel 4.1.2 Vrication des hypothses . . . . . . . . . 4.1.3 Les dirents types de rsidus . . . . . . . . 4.2 Analyse de la matrice de projection . . . . . . . . . 4.3 Autres mesures diagnostiques . . . . . . . . . . . . A Annales B Rappels dalgbre B.1 Quelques dnitions . . . . . . . . . . . . B.2 Quelques proprits . . . . . . . . . . . . . B.2.1 Les matrices n p . . . . . . . . . B.2.2 Les matrices carres n n . . . . . B.2.3 Les matrices symtriques . . . . . B.2.4 Les matrices semi-dnies positives B.3 Proprits des inverses . . . . . . . . . . . B.4 Proprits des projections . . . . . . . . . B.4.1 Gnralits . . . . . . . . . . . . . B.4.2 Exemple de projection orthogonale B.4.3 Trace et lments courants . . . . . B.5 Drivation matricielle . . . . . . . . . . . .
C Rappels de probabilit C.1 Gnralits . . . . . . . . . . . . . . . . . . . C.2 Vecteurs alatoires gaussiens . . . . . . . . . . C.3 Tables des lois usuelles . . . . . . . . . . . . . C.3.1 Loi Normale X N (0, 1) . . . . . . . C.3.2 Loi de Student X T . . . . . . . . . C.3.3 Loi du Khi-deux ddl X 2 . . . C.3.4 Loi de Fisher 1 , 2 ddl X F(1 ,2 ) D Quelques donnes
Arnaud Guyader - Rennes 2
Rgression
Chapitre 1
La rgression linaire simple

Introduction
Commenons par un exemple : pour des raisons de sant publique, on sintresse la concentration dozone O3 dans lair. On cherche en particulier savoir si on peut expliquer le taux maximal dozone de la journe par la temprature T12 12h. Les donnes sont : Temprature 12h O3 max 23.8 115.4 16.3 76.8 27.2 113.8 7.1 81.6 25.1 115.4 27.5 125 19.4 83.6 19.8 75.2 32.2 136.8 20.7 102.8
Tab. 1.1 10 donnes journalires de Temprature et dozone. Dun point de vue pratique, le but de cette rgression est double : Ajuster un modle pour expliquer O3 en fonction de T12 ; Prdire les valeurs dO3 pour de nouvelles valeurs de T12 . Avant toute analyse, il est intressant de reprsenter les donnes, comme sur la gure 1.1.
100 110 120 130 80 90
O3
10
15
T12
20
25
30
Fig. 1.1 10 donnes journalires de Temprature et dozone.
Pour analyser la relation entre les xi (temprature) et les yi (ozone), nous allons chercher une fonction f telle que : yi f (xi ). Pour prciser le sens de , il va falloir se donner un critre quantiant la qualit de lajustement de la fonction f aux donnes. Il faudra aussi se donner une classe de fonctions F dans laquelle nous supposerons que se trouve la vraie fonction inconnue. 1
Chapitre 1. La rgression linaire simple Le problme mathmatique peut scrire de la faon suivante :
n
arg min
f F i=1
l(yi f (xi )),
o n reprsente le nombre de donnes analyser et l(.) est appele fonction de cot ou fonction de perte.
1.1
Modlisation
Dans de nombreuses situations, une ide naturelle est de supposer que la variable expliquer y est une fonction ane de la variable explicative x, cest--dire de chercher f dans lensemble F des fonctions anes de dans . Cest le principe de la rgression linaire simple. On suppose dans la suite disposer de n points (xi , yi ) dans le plan. Dnition 1.1 (Modle de rgression linaire simple) Un modle de rgression linaire simple est dni par une quation de la forme : i {1, . . . , n} yi = 1 + 2 xi + i
Les quantits i viennent du fait que les points ne sont jamais parfaitement aligns sur une droite. On les appelle les erreurs (ou bruits) et elles sont supposes alatoires. Pour pouvoir dire des choses pertinentes sur ce modle, il faut nanmoins imposer deux hypothses les concernant : (H) (H1 ) : [i ] = 0 pour tout indice i (H2 ) : Cov(i , j ) = ij 2 pour tout couple (i, j)
Les erreurs sont donc supposes centres, de mme variance (homoscdasticit) et non corrles entre elles. Notons que le modle de rgression linaire simple de la dnition 1.1 peut encore scrire de faon vectorielle : Y = 1 + 2 X + , o : le vecteur Y est alatoire de dimension n, le vecteur est le vecteur de n dont les composantes valent 1, le vecteur X est un vecteur de dimension n donn (non alatoire), les coecients 1 et 2 sont les paramtres inconnus du modle, le vecteur est alatoire de dimension n. Cette notation vectorielle sera commode notamment pour la reprsentation et linterprtation gomtrique du problme en rgression linaire multiple, cest pourquoi il convient dores et dj de sy habituer.
1.2
Moindres Carrs Ordinaires
Les points (xi , yi ) tant donns, le but est maintenant de trouver une fonction ane f telle que la quantit n l(yi f (xi )) soit minimale. Pour pouvoir dterminer f , encore faut-il prciser la i=1 fonction de cot l. Deux fonctions sont classiquement utilises : le cot absolu f (u) = |u| ; le cot quadratique f (u) = u2 . Arnaud Guyader - Rennes 2 Rgression
1.2. Moindres Carrs Ordinaires Les deux ont leurs vertus, mais on privilgiera dans la suite la fonction de cot quadratique. On parle alors de mthode destimation par moindres carrs (terminologie due Legendre dans un article de 1805 sur la dtermination des orbites des comtes). Dnition 1.2 (Estimateurs des Moindres Carrs Ordinaires) On appelle estimateurs des Moindres Carrs Ordinaires (en abrg MCO) 1 et 2 les valeurs minimisant la quantit :
n
S(1 , 2 ) =
i=1
(yi 1 2 xi )2 .
La fonction de deux variables S est une fonction quadratique et sa minimisation ne pose aucun problme, comme nous allons le voir maintenant.
1.2.1
Calcul des estimateurs de 1 et 2
Proposition 1.1 (Estimateurs 1 et 2 ) Les estimateurs des MCO ont pour expressions : 1 = y 2 x, avec 2 =
n i=1 (xi x)(yi n 2 i=1 (xi x)
y)
n i=1 (xi x)yi . n 2 i=1 (xi x)
Preuve. La fonction S(1 , 2 ) est strictement convexe, elle admet donc un minimum unique au point (1 , 2 ), lequel est dtermin en annulant les drives partielles de S. On obtient les quations normales : S 1 S 2
n
= 2 = 2
i=1 n i=1
(yi 1 2 xi ) = 0 xi (yi 1 2 xi ) = 0
La premire quation donne :
1 n + 2
i=1
xi =
i=1
yi
do lon dduit immdiatement : 1 = y 2 x, (1.1)
o x et y sont comme dhabitude les moyennes empiriques des xi et des yi . La seconde quation donne :
n n n
1
i=1
xi + 2
i=1
x2 = i
i=1
xi yi
et en remplaant 1 par son expression (1.1), nous avons : 2 = xi yi x2 i xi y = xi x xi (yi y ) = xi (xi x) (xi x)(yi y ) . (xi x)(xi x) (1.2)
Rgression
Chapitre 1. La rgression linaire simple
Cette dernire quation suppose que le dnominateur n (xi x)2 est non nul. Or ceci ne peut i=1 arriver que si tous les xi sont gaux, situation sans intrt pour notre problme et que nous excluons donc a priori pour toute la suite. Remarque. La relation 1 = y 2 x montre que la droite des MCO passe par le centre de gravit du nuage (, y ). x
1.2.2
Quelques proprits des estimateurs 1 et 2
Sous les seules hypothses (H1 ) et (H2 ) de centrages, dcorrlations et homoscdasticits des er reurs i du modle, on peut dj donner certaines proprits statistiques des estimateurs 1 et 2 des moindres carrs. Thorme 1.1 (Estimateurs sans biais) 1 et 2 sont des estimateurs sans biais de 1 et 2 . Preuve. Une autre faon dcrire 2 est : 2 = 2 + (xi x)i . (xi x)2
Dans cette expression, seuls les bruits i sont alatoires, et puisquils sont centrs, on en dduit bien que [2 ] = 2 . Pour 1 , on part de lexpression : 1 = y 2 x, do lon tire : [1 ] = [] x [2 ] = 1 + x2 x2 = 1 . y
On peut galement exprimer variances et covariance de nos estimateurs. Thorme 1.2 (Variances et covariance) Les variances des estimateurs sont : Var(1 ) = 2 x2 i n (xi x)2 & Var(2 ) = 2 , (xi x)2
tandis que leur covariance vaut : Cov(1 , 2 ) = 2x . (xi x)2
Preuve. On part nouveau de lexpression de 2 utilise dans la preuve du non-biais : 2 = 2 + (xi x)i , (xi x)2
or les erreurs i sont dcorrles et de mme variance 2 donc la variance de la somme est la somme des variances : 2 (xi x)2 2 . = Var(2 ) = (xi x)2 ( (xi x)2 )2 Arnaud Guyader - Rennes 2 Rgression
1.2. Moindres Carrs Ordinaires Par ailleurs, la covariance entre y et 2 scrit : Cov(, 2 ) = Cov y do il vient pour la variance de 1 : Var(1 ) = Var cest--dire : yi 2 x n = 2 + n x2 2 2Cov(, 2 ), x y (xi x)2 yi , n (xi x)i (xi x)2 = 2 (xi x) = 0, n (xi x)2
2 x2 2 x2 2 i = + . (xi x)2 n n (xi x)2 Enn, pour la covariance des deux estimateurs : Var(1 ) = Cov(1 , 2 ) = Cov( 2 x, 2 ) = Cov(, 2 ) xVar(2 ) = y y 2x . (xi x)2
Remarque. On a vu que la droite des MCO passe par le centre de gravit du nuage (, y ). x Supposons celui-ci x et x positif, alors il est clair que si on augmente la pente, lordonne lori gine va baisser et vice versa, on retrouve donc bien le signe ngatif pour la covariance entre 1 et 2 . Les estimateurs des moindres carrs sont en fait optimaux en un certain sens, cest ce que prcise le rsultat suivant. Thorme 1.3 (Gauss-Markov) Parmi les estimateurs sans biais linaires en y, les estimateurs j sont de variance minimale. Preuve. Lestimateur des MC scrit 2 = n pi yi , avec pi = (xi x)/ i=1 2 linaire en yi et sans biais, cest--dire : un autre estimateur
n
(xi x)2 . Considrons
2 =
i=1
i y i .
Montrons que
i = 0 et
i xi = 1. Lgalit (2 ) = 1 i + 2 i x i + i (i )
est vraie pour tout 2 . Lestimateur 2 est sans biais donc (2 ) = 2 pour tout 2 , cest--dire 2 ) Var(2 ). que i = 0 et i xi = 1. Montrons que Var( Var(2 ) = Var(2 2 + 2 ) = Var(2 2 ) + Var(2 ) + 2Cov(2 2 , 2 ).
2
Cov(2 2 , 2 ) = Cov(2 , 2 ) Var(2 ) = do :
i (xi x) (xi x)2
2 = 0, (xi x)2
Var(2 ) = Var(2 2 ) + Var(2 ). Une variance est toujours positive, donc : Var(2 ) Var(2 ).
Le rsultat est dmontr. On obtiendrait la mme chose pour 1 . Rgression Arnaud Guyader - Rennes 2
1.2.3
Calcul des rsidus et de la variance rsiduelle

150
1 + 2 x(9)
(9)
O3
0 0 50
100
10
15
T12
20
25
x(9)
30
35
Fig. 1.2 Reprsentation des individus. Dans 2 (espace des variables xi et yi ), 1 est lordonne lorigine et 2 la pente de la droite ajuste. Cette droite minimise la somme des carrs des distances verticales des points du nuage la droite ajuste. Les rsidus (cf. gure 1.2) sont dnis par : i = yi yi = yi 1 2 xi = yi y 2 (xi x). Par construction la somme des rsidus est nulle : i =
i i
(1.3)
(yi y + 2 x 2 xi ) =
(yi y ) 2
(xi x) = 0.
Les variances et covariance des estimateurs 1 et 2 tablies en section prcdente ne sont pas pratiques car elles font intervenir la variance 2 des erreurs, laquelle est en gnral inconnue. On peut en exprimer un estimateur sans biais grce aux rsidus. Thorme 1.4 (Estimateur non biais de 2 ) La statistique 2 = n 2 /(n 2) est un estimateur sans biais de 2 . i=1 i Preuve. Rcrivons les rsidus en constatant que 1 = y 2 x et 1 = y 2 x , ce qui donne : i = 1 + 2 xi + i 1 2 xi = y 2 x + 2 xi + i y + 2 x 2 xi = (2 2 )(xi x) + (i ). 2 = 2 + nous avons : 2 = (2 2 )2 i = (2 2 )2 i 2 = Prenons-en lesprance : (i )2 (xi x)2 Var(2 ) = (n 2) 2 . (xi x)2 + (xi x)2 + (xi x)i , (xi x)2 (i )2 + 2(2 2 ) (xi x)(i ) (xi x)2 .
En dveloppant et en nous servant de lcriture vue plus haut :
(i )2 2(2 2 )2
Bien sr, lorsque n est grand, cet estimateur dire trs peu de lestimateur empirique de la variance des rsidus. Arnaud Guyader - Rennes 2 Rgression
1.2. Moindres Carrs Ordinaires
1.2.4
Prvision
Un des buts de la rgression est de faire de la prvision, cest--dire de prvoir la variable expliquer y en prsence dune nouvelle valeur de la variable explicative x. Soit donc xn+1 une nouvelle valeur de la variable x, nous voulons prdire yn+1 . Le modle est toujours le mme : yn+1 = 1 + 2 xn+1 + n+1 avec [n+1 ] = 0, Var(n+1 ) = 2 et Cov(n+1 , i ) = 0 pour i = 1, , n. Nous pouvons prdire la valeur correspondante grce au modle ajust : yn+1 = 1 + 2 xn+1 . Deux types derreurs vont entcher notre prvision : la premire est due la non connaissance de n+1 , la seconde est due lincertitude sur les estimateurs. Proposition 1.2 (Erreur de prvision) Lerreur de prvision n+1 = (yn+1 yn+1 ) satisfait les proprits suivantes : [n+1 ] = 0 Var(n+1 ) = 2 1 +
1 n
(xn+1 )2 x P (xi )2 x
Preuve. Pour lesprance, il sut dutiliser le fait que n+1 est centre et que les estimateurs 1 2 sont sans biais : et [n+1 ] = [1 1 ] + [2 2 ]xn+1 + [n+1 ] = 0.
Nous obtenons la variance de lerreur de prvision en nous servant du fait que yn+1 est fonction de n+1 seulement tandis que yn+1 est fonction des autres erreurs (i )1in : Var(n+1 ) = Var (yn+1 yn+1 ) = Var(yn+1 ) + Var(n+1 ) = 2 + Var(n+1 ). y y Calculons le second terme : Var (n+1 ) = Var 1 + 2 xn+1 = Var(1 ) + x2 Var(2 ) + 2xn+1 Cov 1 , 2 y n+1 2 x2 i + x2 2xn+1 x n+1 n (xi x)2 (xi x)2 2 = + x2 + x2 2xn+1 x n+1 2 (xi x) n 1 (xn+1 x)2 + . = 2 n (xi x)2 = Au total, on obtient bien : Var(n+1 ) = 2 1 + 1 (xn+1 x)2 + (xi x)2 n .
Ainsi la variance augmente lorsque xn+1 sloigne du centre de gravit du nuage. Autrement dit, faire de la prvision lorsque xn+1 est loin de x est prilleux, puisque la variance de lerreur de prvision peut tre trs grande ! Ceci sexplique intuitivement par le fait que plus une observation xn+1 est loigne de la moyenne x et moins on a dinformation sur elle. Rgression Arnaud Guyader - Rennes 2
1.3
1.3.1
Interprtations gomtriques
Reprsentation des variables
Si nous abordons le problme dun point de vue vectoriel, nous avons deux vecteurs notre disposition : le vecteur X = [x1 , . . . , xn ] des n observations pour la variable explicative et le vecteur Y = [y1 , . . . , yn ] des n observations pour la variable expliquer. Ces deux vecteurs appartiennent au mme espace n : lespace des variables. Si on ajoute cela le vecteur = [1, . . . , 1] , on voit tout dabord que par lhypothse selon laquelle tous les xi ne sont pas gaux, les vecteurs et X ne sont pas colinaires : ils engendrent donc un sous-espace de n de dimension 2, not M(X). On peut projeter orthogonalement le vecteur Y sur le sous-espace M(X), notons provisoirement Y ce projet : puisque (, X) forme une base de M(X), il existe une unique dcomposition de la forme Y = 1 + 2 X. Par dnition du projet est dni comme lunique vecteur de M(X) minimisant la distance euclidienne orthogonal, Y Y Y , ce qui revient au mme que de minimiser son carr. Or on a :
n
Y Y
=
i=1
(yi (1 + 2 xi ))2 ,
ce qui nous ramne la mthode des moindres carrs ordinaires. On en dduit que Y = Y , 1 = 1 et 2 = 2 , avec les expressions de Y , 1 et 2 vues prcdemment.
Y 2 X y
1 M(X)
Fig. 1.3 Reprsentation de la projection dans lespace des variables.
Autrement dit, dans n , 1 et 2 sinterprtent comme les coordonnes de la projection orthogonale y de y sur le sous-espace de n engendr par et x (voir gure 1.3). Remarque. Nous avons suppos que et x ne sont pas colinaires. En gnral, ces vecteurs ne sont pas orthogonaux (sauf si x = 0), ce qui implique que 1 nest pas la projection de y sur et que 2 x nest pas la projection de y sur x.
1.3.2
Le coecient de dtermination R2
Nous conservons les notations du paragraphe prcdent, en notant Y = [1 , . . . , yn ] la projection y orthogonale du vecteur Y sur M(X) et = Y Y = [1 , . . . , n ] Arnaud Guyader - Rennes 2 Rgression
1.4. Cas derreurs gaussiennes le vecteur des rsidus dj rencontrs en section 1.2.3. Le thorme de Pythagore donne alors directement :
n
Y y
2 2
= =
Y y
+
2
2 n
i=1
(yi y )
i=1
(i y ) + y
2 i
i=1
SCT = SCE + SCR, o SCT (respectivement SCE et SCR) reprsente la somme des carrs totale (respectivement explique par le modle et rsiduelle). Dnition 1.3 Le coecient de dtermination R2 est dni par : R2 = Y y SCE = SCT Y y
2 2
On voit sur la gure 1.3 que R2 correspond au cosinus carr de langle . De faon schmatique, on peut direncier les cas suivants : Si R2 = 1, le modle explique tout, langle vaut zro et Y est dans M(X), cest--dire que yi = 1 + 2 xi pour tout i ; Si R2 = 0, cela veut dire que (i y )2 = 0, donc yi = y pour tout i. Le modle de rgression y linaire est inadapt puisquon ne modlise rien de mieux que la moyenne ; Si R2 est proche de zro, cela veut dire que y est quasiment dans lorthogonal de M(X), le modle de rgression linaire est inadapt, la variable utilise nexplique pas bien la variable y. Remarques : 1. On peut aussi voir R2 comme le carr du coecient de corrlation empirique entre les xi et les yi : R =
2 n i=1 (xi n i=1 (xi
2. Sur la gure 1.3 est not un angle droit entre les vecteurs et y y . On vrie en eet facilement que ces deux vecteurs sont orthogonaux (exercice).
x)2
x)(yi y )
n i=1 (yi
y )2
= 2 . X,Y
1.4
Cas derreurs gaussiennes
Mieux que les expressions des estimateurs et celles de leurs variances, on aimerait connatre leurs lois : ceci permettrait par exemple dobtenir des rgions de conance et deectuer des tests dhypothses. Dans cette optique, il faut bien entendu faire une hypothse plus forte sur notre modle, savoir prciser la loi des erreurs. Nous supposerons ici que les erreurs sont gaussiennes. Les hypothses (H1 ) et (H2 ) deviennent (H) (H1 ) : i N (0, 2 ) (H2 ) : i sont indpendants
Le modle de rgression simple devient un modle paramtrique, o les paramtres 1 , 2 , 2 sont valeurs dans , et respectivement. La loi des i tant connue, les lois des yi sen dduisent. + Nous pouvons donc calculer la vraisemblance de lchantillon et les estimateurs qui maximisent cette vraisemblance. Cest lobjet de la section suivante. Rgression Arnaud Guyader - Rennes 2
10
1.4.1
Estimateurs du maximum de vraisemblance
La vraisemblance vaut L(1 , 2 , 2 ) = = 1 2 2 2 2 1

n
exp
n
1 2 2
n i=1
(yi 1 2 xi )2
1 exp 2 S(1 , 2 ) 2
Ce qui donne pour la log-vraisemblance : n 1 log L(1 , 2 , 2 ) = log 2 2 2 S(1 , 2 ). 2 2 Nous voulons maximiser cette quantit par rapport aux trois variables (1 , 2 , 2 ). Les deux premires variables napparaissent que dans le terme en S(1 , 2 ), quil faut donc minimiser. Or on a dj vu que cette quantit est minimale lorsquon considre les estimateurs des moindres carrs, cest--dire pour 1 = 1 et 2 = 2 . Bilan : les estimateurs du maximum de vraisemblance de 1 et 2 sont gaux aux estimateurs des moindres carrs. Ceci tant vu, il reste simplement maximiser log L(1 , 2 , 2 ) par rapport 2 . Calculons donc 2 : la drive par rapport n 1 n 1 log L(1 , 2 , 2 ) = 2 + 4 S(1 , 2 ) = 2 + 4 2 2 2 2 2
n i=1
(yi 1 2 xi )2
Do lon dduit que lestimateur du maximum de vraisemblance de 2 est dirent de lestimateur 2 vu prcdemment et vaut : mv 2 1 = n
n
2 . i
i=1
Lestimateur du maximum de vraisemblance de 2 est donc biais. On a en eet donc un biais dautant plus ngligeable que le nombre dobservations est grand.
[mv ] = 2
n2 2 n ,
Avant de passer aux lois des estimateurs et aux intervalles de conance qui sen dduisent, faisons quelques rappels sur les lois usuelles dans ce contexte.
1.4.2
Rappels sur les lois usuelles
Outre la loi normale, trois lois seront dusage constant dans la suite : la loi du 2 , la loi de Student et la loi de Fisher. Dnition 1.4 (Loi du 2 ) Soit X1 , . . . , Xn des variables alatoires i.i.d. suivant une loi normale centre rduite. La loi de la variable X = n Xi2 est appele loi du 2 n degrs de libert (ddl). Sa densit est : i=1 f (x) = o comme dhabitude (t) = Arnaud Guyader - Rennes 2 1 2
n 2
n 2
x 2 1 e 2 [0,+[ (x),
n x
+ t1 u u e dt. 0
Rgression
1.4. Cas derreurs gaussiennes On a [X] = n et Var(X) = 2n. Lorsque n est grand, on sait par le Thorme Central Limite que X suit approximativement une loi normale de moyenne n et de variance 2n : N (n, 2n). X Ainsi, pour n grand, environ 95% des valeurs de X se situent dans lintervalle [n2 2n, n+2 2n]. Dnition 1.5 (Loi de Student) Soit Z une variable alatoire suivant une loi normale centre rduite et X une variable suivant une loi du 2 n degrs de libert, avec Z et X indpendantes. La loi de la variable T = Z est
X/n
11
appele loi de Student n degrs de libert et on note T Tn . Sa densit est : 1 n+1 2 f (t) = n n 2 1 1+
t2 n
n+1 2
Lorsque n = 1, T suit une loi de Cauchy et na donc pas desprance (ni a fortiori de variance). n Pour n = 2, T est centre mais de variance innie. Pour n 3, T est centre et de variance n2 . Dautre part, lorsque n devient grand, on sait par la loi des grands nombres que le dnominateur tend presque srement vers 1. De fait on peut montrer que pour n grand, T tend en loi vers une gaussienne centre rduite : T N (0, 1). Dnition 1.6 (Loi de Fisher) Soit U1 une variable alatoire suivant une loi du 2 n1 degrs de libert et U2 une variable alatoire suivant une loi du 2 n2 degrs de libert, avec U1 et U2 indpendantes. La loi de la n1 variable F = U1 /n1 est appele loi de Fisher (n1 , n2 ) degrs de libert et on note F Fn2 . U2 /n2
n1 Pour n2 > 2, la variance dune loi de Fisher Fn2 est n2 /(n2 2). Nous allons maintenant voir comment ces lois interviennent dans nos estimateurs.
1.4.3
Lois des estimateurs et rgions de conance
An de faciliter la lecture de cette partie, considrons les notations suivantes : c =

2 1 = 2 2 2 =
2 x (xi x)2 n 2 (xi x)2
2 =
x2 i (xi x)2
1 n2
2 i x2 i (xi x)2
1 = 2 2 2 = 2
n 2 . (xi x)2
2 2 Les variances 1 et 2 interviennent dans la vraie loi des estimateurs des moindres carrs ordinaires, comme le prcise le rsultat suivant.
Proprits 1.1 (Lois des estimateurs avec variance connue) Les lois des estimateurs des MCO avec variance 2 connue sont : 2 (i) 1 N 1 , 1 . 2 (ii) 2 N 2 , 2 . 1 1 (iii) = 1 N , 2 V o = et V = 2 (xi x)2 2 (n 2) 2 (iv) 2 , loi du 2 (n 2) degrs de libert. n2 2 2 sont indpendants. (v) (1 , 2 ) et Rgression
x2 /n x i . x 1
12
Chapitre 1. La rgression linaire simple Remarque. Ces proprits, comme celles venir, ne sont pas plus faciles montrer dans le cadre de la rgression linaire simple que dans celui de la rgression linaire multiple. Cest pourquoi nous reportons les preuves au chapitre 3. Le problme des proprits ci-dessus vient de ce quelles font intervenir la variance thorique 2 , laquelle est gnralement inconnue. La faon naturelle de procder est de la remplacer par son estimateur 2 . Les lois intervenant dans les estimateurs sen trouvent de fait lgrement modies. Proprits 1.2 (Lois des estimateurs avec variance estime) Les lois des estimateurs des MCO avec variance 2 estime sont : 1 1 Tn2 , o Tn2 est une loi de Student (n 2) degrs de libert. (i) 1 2 2 (ii) Tn2 . 2 1 2 ( ) V 1 ( ) Fn2 ,loi de Fisher de paramtres (2, n 2). (iii) 2 2 Ces dernires proprits nous permettent de donner des intervalles de conance (IC) ou des rgions de conance (RC) des estimateurs. En eet, la valeur ponctuelle dun estimateur est de peu dintrt en gnral et il est intressant de lui associer un intervalle de conance. Les rsultats sont donns pour un gnral, en pratique on prend typiquement = 0, 05. Proprits 1.3 (Intervalles et rgions de conance) (i) IC(1 ) : 1 tn2 (1 /2)1 , o tn2 (1 /2) est le quantile de niveau (1 /2) dune loi Tn2 . (ii) IC(2 ) : 2 tn2 (1 /2)2 . (iii) RC() : Une rgion de conance simultane pour 1 et 2 au niveau (1 ) est 1 n(1 1 )2 + 2n(1 1 )(2 2 ) + x 2 2
2 x2 (2 2 )2 fn2 (1 ), i
2 2 o fn2 (1 ) est le quantile de niveau (1 ) dune loi Fn2 . (iv) Un intervalle de conance de 2 est donn par :
(n 2) 2 (n 2) 2 , , cn2 (1 /2) cn2 (/2) o cn2 (1 /2) est le quantile de niveau (1 /2) dune loi 2 . n2 Remarque : (iii) donne la rgion de conance simultane des paramtres de la rgression (1 , 2 ), appele ellipse de conance, tandis que (i) ou (ii) donne lintervalle de conance dun paramtre sans tenir compte de la corrlation entre 1 et 2 .
1.4.4
Prvision
Pour lesprance et la variance, nous avons videmment les mmes rsultats que ceux obtenus en section (1.2.4). De plus, puisque yn+1 est linaire en 1 , 2 et n+1 , on peut prciser sa loi : yn+1 yn+1 N 0, 2 1 + 1 (xn+1 x)2 + (xi x)2 n .
A nouveau on ne connat pas 2 et on lestime donc par 2 . Comme (yn+1 yn+1 ) et 2 (n 2)/ 2 sont indpendants, on peut noncer un rsultat donnant des intervalles de conance pour yn+1 . Arnaud Guyader - Rennes 2 Rgression
1.5. Exemple Proposition 1.3 (Loi et intervalle de conance pour la prdiction) Avec les notations et hypothses prcdentes, on a : yn+1 yn+1 1+
1 n
13
(xn+1 )2 x P (xi )2 x
1/2
Tn2 ,
do lon dduit lintervalle de conance pour yn+1 : yn+1 tn2 (1 /2) 1 + 1 (xn+1 x)2 + n (xi x)2
1/2
De ce rsultat, il dcoule que lintervalle de conance pour la valeur prdite est une hyperbole. Nous retrouvons aussi la remarque dj faite : plus le point prvoir admet pour abscisse xn+1 une valeur loigne de x, plus lintervalle de conance sera grand.
1.5
Exemple
Nous allons traiter 50 donnes journalires prsentes en annexe. La variable expliquer est la concentration en ozone, note O3 , et la variable explicative est la temprature midi, note T12 . Les donnes sont traites avec le logiciel R. > a _ lm(O3 T12) > summary(a) Call : lm(formula = O3 T12) Residuals : Min -45.256 Coefficients : (Intercept) T12 Estimate 31.4150 2.7010 Std. Error 13.0584 0.6266 t value 2.406 4.311 Pr(>|t|) 0.0200 8.04e-05 * *** 1Q -15.326 Median -3.461 3Q 17.634 Max 40.072
Signif. codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error : 20.5 on 48 degrees of freedom Multiple R-Squared : 0.2791, Adjusted R-squared : 0.2641 F-statistic : 18.58 on 1 and 48 DF, p-value : 8.041e-05 Les sorties du logiciels donnent les valeurs estimes des paramtres, leur cart-type, la statistique de test sous lhypothse H0 : i = 0. Nous rejetons H0 pour les deux paramtres estims.
1.6
Exercices
Exercice 1.1 (QCM) 1. Lors dune rgression simple, si le R2 vaut 1, les points sont-ils aligns ? A. Non ; Rgression Arnaud Guyader - Rennes 2
14 B. Oui ; C. Pas obligatoirement. 2. La A. B. C.
droite des MC dune rgression simple passe-t-elle par le point (, y ) ? x Toujours ; Jamais ; Parfois.
3. Nous avons eectu une rgression simple, nous recevons une nouvelle observation xN et nous calculons la prvision correspondante yN . La variance de la valeur prvue est minimale lorsque A. xN = 0 ; B. xN = x ; C. aucun rapport. 4. Le vecteur Y est-il orthogonal au vecteur des rsidus estims ? A. Toujours ; B. Jamais ; C. Parfois. Exercice 1.2 (Droite de rgression) Nous avons mesur 8 couples de variables (xi , yi )1i8 . Voici les rsultats numriques que nous avons obtenus :
8 8 8 8 8
xi = 56
i=1 i=1
x2 = 524 i
i=1
xi yi = 364
i=1
yi = 40
i=1
2 yi = 256.
Dterminez la droite des moindres carrs. Exercice 1.3 (Poids des pres et des ls) Ltude statistique ci-dessous porte sur les poids respectifs des pres et de leurs ls ans. Pre 65 63 67 64 68 62 70 66 68 67 69 71 Fils 68 66 68 65 69 66 68 65 71 67 68 70 Voici les rsultats numriques que nous avons obtenus :
12 12 12 12 12
pi = 800
i=1 i=1
p2 i
= 53418
i=1
pi fi = 54107
i=1
fi = 811
i=1
fi2 = 54849.
1. Calculez la droite des moindres carrs du poids des ls en fonction du poids des pres. 2. Calculez la droite des moindres carrs du poids des pres en fonction du poids des ls. 3. En quel point se coupent ces 2 droites ? Que vaut le produit des pentes des deux droites ? Exercice 1.4 (R2 et corrlation empirique) Montrer que le coecient de dtermination R2 est gal au carr du coecient de corrlation empirique entre x et y, not r(x, y), cest--dire quon a : R =
2 n i=1 (xi n i=1 (xi
x)2
x)(yi y)
n i=1 (yi
y)2
Rgression
1.6. Exercices Exercice 1.5 (Hauteur dun arbre) Nous souhaitons exprimer la hauteur y (en pieds) dun arbre dune essence donne en fonction de son diamtre x (en pouces) 1m30 du sol. Pour ce faire, nous avons mesur 20 couples (diamtre,hauteur). Nous avons eectu les calculs suivants : x = 4.53, y = 8.65 et 1 20
20 i=1
15
(xi x) = 10.97
1 20
20 i=1
(yi y ) = 2.24
1 20
20 i=1
(xi x)(yi y ) = 3.77
1. Donnez le modle et les hypothses usuelles de la rgression linaire simple en expliquant lutilit de chaque hypothse. 2. On note y = 0 + 1 x la droite de rgression. Donnez lexpression de 1 en fonction des 0 et 1 . statistiques lmentaires ci-dessus. Calculez 3. Donnez et commentez une mesure de la qualit de lajustement des donnes au modle. Exprimez cette mesure en fonction des statistiques lmentaires. Commentez le rsultat. 4. On donne les estimations de lcart-type de 0 , 0 = 1.62 et de 1 , 1 = 0.05. On suppose les perturbations i gaussiennes. Testez H0 : j = 0 contre H1 : j = 0 pour j = 0, 1. Pourquoi ce test est-il intressant dans notre contexte ? Que pensez-vous du rsultat ? Exercice 1.6 (Droite de rgression et points aberrants) Douze personnes sont inscrites une formation. Au dbut de la formation, ces stagiaires subissent une preuve A note sur 20. A la n de la formation, elles subissent une preuve B de niveau identique. Les rsultats sont donns dans le tableau suivant : Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4 Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19 1. Reprsenter le nuage de points. Dterminer la droite de rgression. Calculer le coecient de dtermination. Commenter. 2. Deux stagiaires semblent se distinguer des autres. Les supprimer et dterminer la droite de rgression sur les dix points restants. Calculer le coecient de dtermination. Commenter. Exercice 1.7 (Comparaison destimateurs) Nous considrons le modle statistique simple suivant : yi = xi + i , i = 1, , n, [i ] = 0 et Cov(i , i ) = 2 i,j . Nous
n i=1 yi . n i=1 xi
o nous supposons que les perturbations i sont telles que dnissons 2 estimateurs de =
n i=1 xi yi n 2 i=1 xi
&
1. Quelle est la logique de construction de ces 2 estimateurs ? 2. Montrer quils sont sans biais. 3. Montrer que V ( ) > V () sauf dans le cas o tous les xi sont gaux. Ce rsultat tait-il prvisible ?
Rgression
16
Chapitre 1. La rgression linaire simple Exercice 1.8 (Total Least Squares (TLS)) Nous avons un nuage de points observs (xi , yi ) pour i = 1, , n, et nous cherchons un couple (, y ) vriant la relation linaire suivante x y = , x tel que la norme matricielle [x, y] [, y ] x
F
soit minimale (rappel : A

F
Tr(AA )).
1. Que reprsente la norme matricielle [x, y] [, y ] x
dun point de vue gomtrique ?
2. Supposons pour simplier que x = y = 0, cest--dire que le centre de gravit du nuage de points est en lorigine du repre. Quel rapport voyez-vous entre TLS et ACP ?
Exercice 1.9 (La hauteur des eucalyptus) On souhaite expliquer la hauteur y (en mtres) dun arbre en fonction de sa circonfrence x (en centimtres) 1m30 du sol. On a relev n = 1429 couples (xi , yi ), le nuage de points tant reprsent gure 1.4. On a obtenu (, y ) = (47, 3; 21, 2) et : x
n i=1 n n
(xi x) = 102924
28
i=1
(yi y ) = 8857
i=1
(xi x)(yi y ) = 26466
26
24
22
20
18
16
14
12
hauteur
Circonfrence
10 20 30 40 50 60 70 80
Fig. 1.4 Nuage de points pour les eucalyptus.
1. Calculer la droite des moindres carrs pour le modle y = 1 + 2 x + et la reprsenter sur la gure A.1. 2. Calculer le coecient de dtermination R2 . Commenter la qualit de lajustement des donnes au modle. 3. Avec ces estimateurs, la somme des carrs des rsidus vaut alors n (yi yi )2 = 2052. Si on i=1 suppose les perturbations i gaussiennes, indpendantes et de mme variance 2 , en dduire un estimateur non biais 2 de 2 . 2 de la variance de . 1 4. Donner un estimateur
1
5. Tester lhypothse H0 : 1 = 0 contre H1 : 1 = 0.
Rgression
Chapitre 2
La rgression linaire multiple

Introduction
La modlisation de la concentration dozone dans latmosphre voque au chapitre 1 est relativement simpliste. En eet dautres variables peuvent expliquer cette concentration, par exemple le vent qui pousse les masses dair. Ce phnomne physique est connu sous le nom dadvectance (apport dozone) ou de dilution. Dautres variables tels le rayonnement, la prcipitation, etc. ont une inuence certaine sur la concentration dozone. Lassociation Air Breizh mesure ainsi en mme temps que la concentration dozone dautres variables susceptibles davoir une inuence sur celle-ci. Voici quelques-unes de ces donnes : T12 V N12 O3 23.8 9.25 5 115.4 16.3 -6.15 7 76.8 27.2 -4.92 6 113.8 7.1 11.57 5 81.6 25.1 -6.23 2 115.4 27.5 2.76 7 125 19.4 10.15 4 83.6 19.8 13.5 6 75.2 32.2 21.27 1 136.8 20.7 13.79 4 102.8
Tab. 2.1 10 donnes journalires de temprature, vent, nbulosit et ozone.
La variable V est une variable synthtique. En eet, le vent est normalement mesur en degrs (direction) et mtres par seconde (vitesse). La variable V que nous avons cre est la projection du vent sur laxe Est-Ouest, elle tient donc compte la fois de la direction et de la vitesse. Pour analyser la relation entre la temprature T , le vent V , la nbulosit midi N et lozone O3 , nous allons chercher une fonction f telle que : O3i f (Ti , Vi , Ni ). An de prciser , il va falloir dnir comme au chapitre 1 un critre positif quantiant la qualit de lajustement de la fonction f aux donnes, ou dans un sens contraire le cot de non ajustement. Cette notion de cot permet dapprhender de manire aise les problmes dajustement conomique dans certains modles, do son nom. Minimiser un cot ncessite aussi la connaissance de lespace sur lequel on minimise, cest--dire la classe de fonctions F dans laquelle nous supposerons que se trouve la vraie fonction inconnue. Le problme mathmatique peut scrire de la faon suivante :
n
min
f F i=1
l(yi f (xi )), 17
(2.1)
18
Chapitre 2. La rgression linaire multiple o n reprsente le nombre de donnes analyser, l(.) est appele fonction de cot et xi est une variable vectorielle pour tout i. La fonction de cot sera la mme que celle utilise prcdemment, cest--dire le cot quadratique. En ce qui concerne le choix de la classe F, nous utiliserons la classe suivante : p j xj . F = f : P , f (x1 , , xp ) =
j=1
Ce chapitre est donc la gnralisation naturelle du prcdent, mais nous allons cette fois manipuler sytmatiquement des vecteurs et des matrices la place des scalaires.
2.1
Modlisation
Le modle de rgression linaire multiple est une gnralisation du modle de rgression simple lorsque les variables explicatives sont en nombre quelconque. Nous supposons donc que les donnes collectes suivent le modle suivant : yi = 1 xi1 + 2 xi2 + + p xip + i , i = 1, , n (2.2)
o : les xij sont des nombres connus, non alatoires, la variable xi1 valant souvent 1 pour tout i ; les paramtres j du modle sont inconnus ; les i sont des variables alatoires inconnues. En utilisant lcriture matricielle de (2.2) nous obtenons la dnition suivante : Dnition 2.1 (Modle de rgression linaire multiple) Un modle de rgression linaire est dni par une quation de la forme : Y = X + o : Y est un vecteur alatoire de dimension n, X est une matrice de taille n p connue, appele matrice du plan dexprience, est le vecteur de dimension p des paramtres inconnus du modle, est le vecteur de dimension n des erreurs. Les hypothses concernant le modle sont (H) (H1 ) : rg(X) = p (H2 ) : [] = 0, Var() = 2 In
Lhypothse (H2 ) signie que les erreurs sont centres, de mme variance (homoscdasticit) et non corrles entre elles. Notation. On notera X = [X1 | . . . |Xp ], o Xj est le vecteur de taille n correspondant la j-me variable. La i-me ligne de la matrice X sera elle note x = [xi1 , . . . , xip ]. Ainsi lquation (2.2) i scrit aussi : i {1, . . . , n} Arnaud Guyader - Rennes 2 yi = x + i i Rgression
2.2. Estimateurs des Moindres Carrs Ordinaires
19
2.2
Estimateurs des Moindres Carrs Ordinaires
Comme pour la rgression linaire simple, on va prendre ici une fonction de cot quadratique. On parle encore de Moindres Carrs Ordinaires (MCO). Dnition 2.2 (Estimateur des MCO) Lestimateur des moindres carrs est dni comme suit :
n
= arg min p
i=1
p j=1
Dans la suite de cette section, nous allons donner lexpression de lestimateur ainsi que certaines de ses proprits.
yi
j xij = arg min Y X 2 . p
(2.3)
2.2.1
Calcul de
Pour dterminer , une mthode consiste se placer dans lespace des variables, comme on la fait au chapitre 1. Rappelons brivement le principe : Y = [y1 , . . . , yn ] est le vecteur des variables expliquer. La matrice du plan dexprience X = [X1 | . . . |Xp ] est forme de p vecteurs colonnes (la premire colonne tant gnralement constitue de 1). Le sous-espace de n engendr par les p vecteurs colonnes de X est appel espace image, ou espace des solutions, et not M(X). Il est de dimension p par lhypothse (H1 ) et tout vecteur de cet espace est de la forme X, o est un vecteur de p : X = 1 X1 + + p Xp . M (X) Y
M(X)
X X X
Fig. 2.1 Reprsentation de X dans lespace des variables.
Selon le modle (2.3), le vecteur Y est la somme dun lment de M(X) et dun bruit lment de n , lequel na aucune raison dappartenir M(X). Minimiser Y X 2 revient chercher un lment de M(X) qui soit le plus proche de Y au sens de la norme euclidienne classique. Cet unique lment est, par dnition, le projet orthogonal de Y sur M(X). Il sera not Y = PX Y , o PX est la matrice de projection orthogonale sur M(X). Cet lment de M(X) est aussi not Y = X , o est lestimateur des MCO de . Lespace orthogonal M(X), not M (X), est souvent appel espace des rsidus. Proposition 2.1 (Expression de ) des Moindres Carrs Ordinaires a pour expression : Lestimateur = (X X)1 X Y, Rgression Arnaud Guyader - Rennes 2
20 et la matrice de projection PX sur M(X) scrit :
Chapitre 2. La rgression linaire multiple
PX = X(X X)1 X . Remarque. Lhypothse (H1 ) assure que la matrice X X est bien inversible. Supposons en eet quil existe un vecteur de p tel que (X X) = 0. Ceci impliquerait que X 2 = (X X) = 0, donc X = 0, do = 0 puisque rg(X) = p. Autrement dit la matrice symtrique X X est dnie positive. Preuve. On peut prouver ce rsultat de plusieurs faons. 1. Par direntiation : on cherche p qui minimise la fonction S() = Y X
2
= (X X) (Y X + X Y ) + Y
Or S est une forme quadratique en , avec X X qui est symtrique dnie positive, donc le problme admet une unique solution : cest le point o la drive de S par rapport est nulle. Ceci scrit : S () = 2X X 2X Y = 0. Puisque la matrice X X est inversible par (H1 ), ceci donne = (X X)1 X Y et puisque = PX Y = X = X(X X)1 X Y et que cette relation est valable pour tout par dnition Y Y n , on en dduit que PX = X(X X)1 X . 2. Par projection : une autre faon de procder consiste dire que le projet orthogonal Y = Y est dni comme lunique vecteur tel que (Y Y ) soit orthogonal M(X). Puisque M(X) est engendr par les vecteurs X1 , . . . , Xp , cest quivalent dire que (Y Y ) est orthogonal chacun des Xi : X1 , Y X = 0 . . . Xp , Y X = 0 Ces p quations se regroupent en une seule : X (Y X ) = 0, do lon dduit bien lexpres puis celle de PX . sion de ,
Dornavant nous noterons PX = X(X X)1 X la matrice de projection orthogonale sur M(X) et PX = (I PX ) la matrice de projection orthogonale sur M (X). La dcomposition Y = Y + (Y Y ) = PX Y + (I PX )Y = PX Y + PX Y nest donc rien de plus quune dcomposition orthogonale de Y sur M(X) et M (X). Achtung ! La dcomposition Y = 1 X1 + + p Xp
signie que les i sont les coordonnes de Y dans la base (X1 , . . . , Xp ) de M(X). Il ne faudrait pas croire pour autant que les i sont les coordonnes des projections de Y sur les Xi : ceci nest vrai que si la base (X1 , . . . , Xp ) est orthogonale. Rappels sur les projecteurs. Soit P une matrice carre de taille n. On dit que P est une matrice de projection si P 2 = P . Ce nom est d au fait que pour tout vecteur x de n , P x est la projection de x sur Im(P ) paralllement Ker(P ). Si en plus de vrier P 2 = P , la matrice P est symtrique, Arnaud Guyader - Rennes 2 Rgression
2.2. Estimateurs des Moindres Carrs Ordinaires alors P est la projection orthogonale de x sur Im(P ) paralllement Ker(P ), cest--dire que dans la dcomposition x = P x + (x P x), les vecteurs P x et (x P x) sont orthogonaux. Cest ce cas de gure qui nous concernera dans ce cours. Toute matrice symtrique relle tant diagonalisable en base orthonorme, il existe une matrice orthogonale U (i.e. U U = In , ce qui signie que les colonnes de U forment une base orthonorme de n ) et une matrice diagonale telles que P = U U . On voit alors facilement que la diagonale de est compose de p 1 et de (n p) 0, o p est la dimension de Im(P ), espace sur lequel on projette.
2 Revenons nos moutons : on a vu que PX = X(X X)1 X . On vrie bien que PX = PX et que PX est symtrique. Ce qui prcde assure galement que Tr(PX ) = p et Tr(PX ) = n p. Cette dernire remarque nous sera utile pour construire un estimateur sans biais de 2 . Dautre part, la matrice PX est souvent note H (comme Hat) dans la littrature anglo-saxonne, car elle met des chapeaux sur les vecteurs : PX Y = Y . De fait, les lements de PX sont nots (hij )1i,jn .
21
2.2.2
Quelques proprits
Comme en rgression simple, lestimateur obtenu est sans biais. On obtient de plus une expression trs simple pour sa matrice de covariance Var(). On rappelle que la matrice de covariance, ou matrice de variance-covariance, ou matrice de dispersion, du vecteur alatoire est par dnition : Var() = [( [])( []) ] = [ ] [] [] .
On a alors pour toute matrice A et tout vecteur B dterministes : Var(A + B) = AVar()A . Proposition 2.2 (Biais et matrice de covariance) Lestimateur des moindres carrs est sans biais, i.e. [] = , et sa matrice de covariance est : V () = 2 (X X)1 . Preuve. Pour le biais il sut dcrire : [] = et puisque [(X X)1 X Y ] = (X X)1 X [Y ] = (X X)1 X [X + ], [] = (X X)1 X X = . Pour la variance, on procde de mme : Var() = Var((X X)1 X Y ) = (X X)1 X Var(Y )X(X X)1 , or Var(Y ) = Var(X + ) = Var() = 2 In , donc : Var() = 2 (X X)1 X X(X X)1 = 2 (X X)1 .
[] = 0, il vient :
Lestimateur des MCO est optimal en un certain sens. Cest ce que prcise le rsultat suivant, gnralisation de celui vu en rgression linaire simple. Thorme 2.1 (Gauss-Markov) Lestimateur des MCO est de variance minimale parmi les estimateurs linaires sans biais de . Remarques : Rgression Arnaud Guyader - Rennes 2
22
Chapitre 2. La rgression linaire multiple 1. Linaire signie linaire par rapport Y , cest--dire de la forme AY o A est une matrice (p, n) : en ce sens, lestimateur des MCO est bien linaire puisque = (X X)1 X Y . 2. On rappelle quil existe une relation dordre partielle entre matrices symtriques relles : dire que S1 S2 signie que S = (S2 S1 ) est une matrice symtrique relle positive, cest--dire que pour tout vecteur x, on a x S1 x x S2 x. Preuve. Nous allons montrer que, pour tout autre estimateur de linaire et sans biais, Var() Var(), o lingalit entre matrices de variance-covariance est comprendre au sens prcis cidessus. Rappelons la formule gnrale pour la matrice de covariance de la somme deux vecteurs alatoires U et V : Var(U + V ) = Var(U ) + Var(V ) Cov(U, V ) Cov(V, U ), o Cov(U, V ) = [U V ] [U ] [V ] = Cov(V, U ) . Dcomposons ainsi la variance de :
Var() = Var( + ) = Var( ) + Var() Cov( , ) Cov(, ). Les variances tant dnies positives, si nous montrons que Cov( , ) = 0, nous aurons ni la dmonstration. Puisque est linaire, = AY . De plus, nous savons quil est sans biais, cest--dire = pour tout , donc AX = I. La covariance devient : [] Cov( , ) = Cov(AY, (X X)1 X Y ) Var()
= 2 AX(X X)1 2 (X X)1 = 0.
2.2.3
Rsidus et variance rsiduelle
Les rsidus sont dnis par = Y Y = (I PX )Y = PX Y = PX , car Y = X + et X M(X). On peut alors noncer les rsultats suivants. Proprits 2.1 (Biais et Variance de et Y ) Sous le jeu dhypothses (H), on a : 1. [] = 0. 2. Var() = 2 PX . 3. [Y ] = X. 4. Var(Y ) = 2 PX . 5. Cov(, Y ) = 0. Preuve. 1. 3. [] = [PX ] = PX [] = 0.
2. Var() = PX Var()PX = PX Var()PX = 2 PX .
[Y ] = [PX Y ] = PX [Y ] = PX (X) = X, car X M(X). 4. Var(Y ) = PX Var(Y )PX = PX Var(Y )PX = 2 PX . 5. Rappelons que la covariance entre deux vecteurs alatoires U et V est par dnition Cov(U, V ) = Arnaud Guyader - Rennes 2 [(U [U ])(V [V ]) ] = [U V ] [U ] [V ]. Rgression
2.2. Estimateurs des Moindres Carrs Ordinaires Ici ceci donne :
23
[Y ] [] [Y ] = On utilise maintenant les expressions de et Y : Cov(, Y ) = Cov(, Y ) =
[Y ].
[PX (PX (X + )) ],
et le premier terme tant nul, il reste : Cov(, Y ) = [PX PX ] = 2 PX PX = 0, tant il est clair que PX PX = 0. Contrairement celles de , les composantes de sont gnralement corrles entre elles. Pour que soit un estimateur raisonnable de , il faudrait au moins que les lments diagonaux hii de PX soient approximativement gaux. An dliminer la non-homognit des variances des rsidus estims, nous prfrerions donc utiliser les rsidus normaliss dnis par : i ri = . 1 hii Comme est inconnu, il est dusage de le remplacer par son estimateur. Les rsidus dnis par : i , ti = 1 hii sont appels rsidus studentiss, mme sils ne suivent pas une loi de Student ! Nous tudierons les rsidus plus en dtails au chapitre 4. En attendant, un estimateur naturel de la variance rsiduelle est donn par : 1 n
n
i =
i=1
1 2. n
Malheureusement on va voir que cet estimateur est biais. Ce biais est nanmoins facile corriger, comme le montre le rsultat suivant. Proposition 2.3 La statistique 2 =
2 np SCR np
est un estimateur sans biais de 2 .
Preuve. Nous calculons ce qui donne :
[ 2 ]. Ruse de sioux : puisque cest un scalaire, il est gal sa trace, [ 2] = [Tr( 2 )] = [Tr( )],
i,j
et puisque pour toute matrice A, on a Tr(AA ) = Tr(A A) = [ 2] =
a2 , il vient : ij
[Tr( )] = Tr( [ ]) = Tr(Var()) = Tr( 2 PX ).
Et comme PX est la matrice de la projection orthogonale sur un espace de dimension (n p), on a bien : [ 2 ] = (n p) 2 . On dduit de cet estimateur de 2 de la variance rsiduelle 2 un estimateur de la variance 2 SCR 1 2 (X X)1 = (X X) , np np et en particulier un estimateur de lcart-type de lestimateur j du j-me coecient de la rgression : j = [(X X)1 ]jj . = 2 (X X)1 = 2 Rgression Arnaud Guyader - Rennes 2 (X X)1 :
24
2.2.4
Prvision
Un des buts de la rgression est de proposer des prdictions pour la variable expliquer y lorsque nous avons de nouvelles valeurs de x. Soit donc x n+1 = [xn+1,1 , , xn+1,p ] une nouvelle valeur pour laquelle nous voudrions prdire yn+1 , dni par : yn+1 = x + n+1 , n+1 avec [n+1 ] = 0, Var(n+1 ) = 2 et Cov(n+1 , i ) = 0 pour i = 1, , n. La mthode naturelle est de prdire la valeur correspondante grce au modle ajust : yn+1 = x . n+1 Deux types derreurs vont alors entacher notre prvision : la premire due lincertitude sur n+1 et lautre lincertitude inhrente lestimateur . On vrie aisment que yn+1 est un estimateur sans biais de yn+1 . Calculons la variance de lerreur de prvision Var (yn+1 yn+1 ) = Var(x + n+1 x ) = 2 + x Var()xn+1 n+1 n+1 n+1 = 2 (1 + x (X X)1 xn+1 ). n+1 Nous retrouvons bien lincertitude dobservation 2 laquelle vient sajouter lincertitude destimation.
2.3
Interprtation gomtrique
M (X) Y
0 Y = X M(X) y
Fig. 2.2 Reprsentation des variables.
Le thorme de Pythagore nous donne directement : Y

2
= =
+
2
+ Y X 2. Rgression
2.4. Exemple Si la constante fait partie du modle alors nous avons, toujours par Pythagore : Y y
2
25
Variation totale = V. explique par le modle + V. rsiduelle. Dnition 2.3 Le coecient de dtermination R2 est dni par : R2 = Y Y
2 2
Y y
=1
2 2
(2.4)
et si la constante fait partie de M(X) par : R2 =
Y y V. explique par le modle = Variation totale Y y
2 2
=1
2 Y Y
Ce coecient mesure le cosinus carr de langle entre les vecteurs Y et Y pris lorigine ou pris en 2 calcul lorsque la constante fait partie y . Ce dernier est toujours plus grand que le premier, le R de M(X) est donc plus petit que le R2 calcul directement (exercice). Nanmoins, ce coecient ne tient pas compte de la dimension de lespace de projection M(X), un R2 ajust est donc dni. Dnition 2.4 2 Le coecient de dtermination ajust Ra est dni par :
2 Ra = 1
n np Y
2 2
(2.5)
et si la constante fait partie de M(X) par :

2 Ra = 1
2 n1 np Y Y
2.4
Exemple
Nous allons traiter 50 donnes journalires prsentes en annexe. La variable expliquer est la concentration en ozone note O3 et les variables explicatives sont la temprature note T12, le vent not Vx et la nbulosit note Ne12. Les donnes sont traites avec le logiciel R. > a _ lm(O3 T12 +Vx+Ne12,data=DONNEE) > summary(a) Call : lm(formula = O3 T12 + Vx + Ne12, data = DONNEE)) Residuals : Min -29.0441 Coefficients : (Intercept) T12 Vx Ne12 Rgression Estimate 84.5483 1.3150 0.4864 -4.8935 Std. Error 13.6065 0.4974 0.1675 1.0270 t value 6.214 2.644 2.903 -4.765 Pr(>|t|) 1.38e-07 0.01118 0.00565 1.93e-05 *** * ** *** Arnaud Guyader - Rennes 2 1Q -8.4833 Median 0.7857 3Q 7.7011 Max 28.2919
26
Chapitre 2. La rgression linaire multiple Signif. codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error : 13.91 on 46 degrees of freedom Multiple R-Squared : 0.6819, Adjusted R-squared : 0.6611 F-statistic : 32.87 on 3 and 46 DF, p-value : 1.663e-11 Les interprtations des sorties sont similaires celles obtenues pour la rgression simple.
2.5
Exercices
Exercice 2.1 (QCM) 1. Nous avons eectu une rgression multiple, une des variables explicatives est la constante, la somme des rsidus calculs vaut : A. 0 ; B. approximativement 0 ; C. parfois 0. 2. Le vecteur Y est-il orthogonal au vecteur des rsidus estims ? A. Oui ; B. Non ; C. Seulement si
fait partie des variables explicatives.
3. Un estimateur de la variance de , estimateur des MC de , vaut : 2 (X X)1 ; A. B. 2 (X X)1 ; C. 2 (XX )1 . 4. Un autre estimateur que celui des moindres carrs (moindres valeurs absolues ou autre) a t calcul. La SCR obtenue avec cet estimateur est : A. plus petite que la SCR obtenue avec lestimateur des MC classique ; B. plus grande que la SCR obtenue avec lestimateur des MC classique ; C. aucun rapport. 5. Une rgression a t eectue et le calcul de la SCR a donn la valeur note SCR1. Une variable est rajoute, le calcul de la SCR a donn une nouvelle valeur note SCR2. Nous savons que : A. SCR1 SCR2 ; B. SCR1 SCR2 ; C. cela dpend de la variable rajoute. 6. Une rgression a t eectue et un estimateur de la variance rsiduelle a donn la valeur note 1 . Une variable est rajoute et un estimateur de la variance rsiduelle vaut maintenant 2 2 . Nous savons que : 2 A. 1 2 ; 2 2 B. 1 2 ; 2 2 C. on ne peut rien dire. Exercice 2.2 (Rgression simple et Rgression multiple) Retrouvez partir du calcul matriciel vu en rgression multiple les estimateurs des Moindres Carrs Ordinaires obtenus lorsque le modle est celui vu pour la rgression simple : y = 1 + 2 x + . Arnaud Guyader - Rennes 2 Rgression
2.5. Exercices Exercice 2.3 (Rle de la constante) Soit X(n,p) une matrice de rang p. Soit Y la projection dun vecteur Y de n sur lespace engendr par les colonnes de X. Montrer que si un des vecteurs colonnes de X est constant, alors i yi = i yi . Exercice 2.4 (Le R2 et les modles embots) Soit Z(n,q) une matrice (n, q) de rang q et soit X(n,p) une matrice (n, p) de rang p compose des q vecteurs colonnes de Z et de p q autres vecteurs linairement indpendants. Nous avons les deux modles suivants : Y Y = Z + = X + .
27
On considre pour simplier que la constante est prsente dans les deux modles. Comparer les R2 dans ces deux modles. Discuter de lutilisation du R2 pour le choix de variables. Exercice 2.5 (Deux variables explicatives) On examine lvolution dune variable Y en fonction de deux variables exognes x et z. On dispose de n observations de ces variables. On note X = ( x z) o est le vecteur constant et x, z sont les vecteurs des variables explicatives. 1. Nous avons obtenu les rsultats suivants : 25 0 0 0.04 0 0 X X = ? 9.3 5.4 (X X)1 = 0 0.1428 0.0607 . ? ? 12.7 0 0.0607 0.1046 (a) Donner les valeurs manquantes. (b) Que vaut n ? (c) Calculer le coecient de corrlation linaire empirique entre x et z. 2. La rgression linaire de Y sur (, x, z) donne Y = 1.6 + 0.61x + 0.46z + , (a) Dterminez la moyenne empirique Y . (b) Calculer la somme des carrs explique (SCE), la somme des carrs totale (SCT) et le coecient de dtermination. Exercice 2.6 (Rgression sur variables orthogonales) Nous considrons le modle de rgression linaire Y = X + , o Y n , X est une matrice de taille n p compose de p vecteurs orthogonaux, p et n . Considrons Z la matrice des q premires colonnes de X et U la matrice des (p q) dernires colonnes de X. Nous avons obtenu par les MCO les estimations suivantes : YX YZ YU X X = 1 x1 + + p xp = Z x1 + + Z xq =
1 U q+1 xq+1 q
SCR =
= 0.3.
U + + p xp .
Notons galement SCE(A) la norme au carr de PA Y . Rgression Arnaud Guyader - Rennes 2
28 1. Montrer que SCE(X)=SCE(Z)+SCE(U ).
2. Choisissez arbitrairement une variable xi et montrez que lestimation de i est identique quel que soit le modle utilis. Exercice 2.7 (Rgression sur variables centres) Nous considrons le modle de rgression linaire Y = X + , (2.6)
o Y n , X est une matrice de taille n p de rang p, p et n . La premire colonne de X est le vecteur constant . X peut donc scrire X = [, Z] o Z = [X2 , . . . , Xp ] est la matrice n (p 1) des (p 1) derniers vecteurs colonnes de X. Le modle peut donc scrire sous la forme : Y = 1 + Z(1) + , o 1 est la premire coordonne du vecteur et (1) reprsente le vecteur priv de sa premire coordonne. 1. Donner la matrice P de la projection orthogonale sur le sous-espace engendr par le vecteur . 2. En dduire la matrice de projection orthogonale P sur le sous-espace vecteur .
orthogonal au
3. Calculer P Z. 4. En dduire que lestimateur de des Moindres Carrs Ordinaires du modle (2.6) peut tre obtenu en minimisant par les MCO le modle suivant : Y = Z(1) + , (2.7)
o Y = P Y et Z = P Z. 5. Ecrire la SCR estime dans le modle (2.7) en fonction des variables du modle (2.7). Vrier que la SCR du modle (2.7) est identique celle qui serait obtenue par lestimation du modle (2.6).
Rgression
Chapitre 3
Le modle gaussien
Introduction
Rappelons le contexte du chapitre prcdent. Nous avons suppos un modle de la forme : yi = x + i = 1 xi1 + 2 xi2 + + p xip + i , i que nous avons rcrit sous la forme matricielle : Yn1 = Xnp p1 + n1 o les dimensions sont indiques en indices. Les hypothses concernant le modle taient : (H) (H1 ) : rg(X) = p (H2 ) : [] = 0, Var() = 2 In i = 1, , n
Dans tout ce chapitre et comme en n de Chapitre 1, nous allons faire une hypothse plus forte, savoir celle de gaussianit des rsidus. Nous supposerons donc dsormais : (H) (H1 ) : rg(X) = p (H2 ) : N (0, 2 In )
Ceci signie que le rsidus sont indpendants et identiquement distribus. Lintrt de supposer laspect normal des rsidus est de pouvoir en dduire les lois de nos estimateurs, donc de construire des rgions de conance et des tests dhypothse.
3.1
Estimateurs du Maximum de Vraisemblance
Nous allons commencer par faire le lien entre lestimateur du maximum de vraisemblance et lestimateur des moindres carrs vu au chapitre prcdent. Calculons donc la vraisemblance : 2 p n n n 1 1 yi exp 2 j xij fY (yi ) = L(Y, , 2 ) = 2 2 2
i=1 i=1 j=1
2 2
exp
1 Y X 2 2
Do lon dduit la log-vraisemblance : n n 1 log L(Y, , 2 ) = log 2 log 2 2 Y X 2 . 2 2 2 29
30
Chapitre 3. Le modle gaussien On cherche les estimateurs mv et mv qui maximisent cette log-vraisemblance. Il est clair quil faut 2 minimiser la quantit Y X 2 , ce qui est justement le principe des moindres carrs ordinaires, donc : mv = = (X X)1 X Y. Une fois ceci fait, on veut maximiser sur une fonction de la forme (x) = a log x + + qui ne pose aucun souci en passant par la drive : L(Y, , 2 ) 2 do il vient : mv = 2 Y X mv n
2 b x
+ c, ce
n 1 + 4 Y X 2 , 2 2 2
.
Y X np
2
Si lon compare ce quon a obtenu au chapitre prcdent, o nous avons not 2 = 2 des rsidus, nous avons donc : lestimateur de la variance mv = 2 np 2 . n
On voit donc que lestimateur mv du maximum de vraisemblance est biais, dautant moins que 2 le nombre p de variables explicatives est petit devant le nombre n dobservations. Dans la suite, nous continuerons considrer lestimateur 2 des moindres carrs vu au chapitre prcdent et nous conserverons aussi la notation adopte pour les rsidus i , de sorte que : =
2 n 2 i=1 i
np
2 Y X = np np
3.2
Nouvelles proprits
Nous commenons cette section par un rappel sur les vecteurs gaussiens. Un vecteur alatoire Y de n est dit gaussien si toute combinaison linaire de ses composantes est une variable alatoire gaussienne. Ce vecteur admet alors une esprance = [Y ] et une matrice de variance-covariance Y = [(Y )(Y ) ] qui caractrisent compltement sa loi. On note dans ce cas Y N (, Y ). On montre alors que les composantes dun vecteur gaussien Y = [Y1 , , Yn ] sont indpendantes si et seulement si Y est diagonale. Soit Y N (, Y ) un vecteur gaussien. Il admet une densit f sur n si et seulement si sa matrice de dispersion Y est inversible, auquel cas : f (y) = 1 (2)n/2 det(Y ) e 2 (y) Y
1 1
(y)
Dans ce cas, on montre aussi que : (Y ) 1 (Y ) 2 n Y Le thorme de Cochran, trs utile dans la suite, montre que la dcomposition dun vecteur gaussien sur des sous-espaces orthogonaux donne des variables indpendantes dont on peut expliciter les lois. Thorme 3.1 (Cochran) Soit Y N (, 2 In ), M un sous-espace de n de dimension p et P la matrice de projection orthogonale sur M. Nous avons les proprits suivantes : Arnaud Guyader - Rennes 2 Rgression
3.2. Nouvelles proprits (i) P Y N (P , 2 P ) ; (ii) les vecteurs P Y et (Y P Y ) sont indpendants ; 2 (iii) P (Y) 2 , loi du chi-deux p degrs de libert. 2 p Nous pouvons appliquer ce rsultat dans notre cadre. Notons au pralable que, pour ce qui nous concerne, la gaussianit des rsidus implique celle du vecteur Y : Y N (X, 2 In ). Proprits 3.1 (Lois des estimateurs avec variance connue) Sous les hypothses (H), nous avons : (i) est un vecteur gaussien de moyenne et de variance 2 (X X)1 : N (, 2 (X X)1 ) ; et 2 sont indpendants ; (ii) 2 (iii) (n p) 2 2 . np Preuve. (i) Nous avons vu que = (X X)1 X Y = (X X)1 X (X + ), or par hypothse N (0, 2 In ) est un vecteur gaussien. On en dduit que est lui aussi un vecteur gaussien, sa loi est donc entirement caractrise par la donne de sa moyenne et de sa matrice de dispersion, lesquelles ont t calcules dans le chapitre prcdent. (ii) Comme dans le chapitre prcdent, notons M(X) le sous-espace de n engendr par les colonnes de X et PX = X(X X)1 X la projection orthogonale sur ce sous-espace. On peut noter que : = (X X)1 X Y = (X X)1 X (X(X X)1 X )Y = (X X)1 X PX Y, donc est un vecteur alatoire fonction de PX Y , tandis que : 2 = 2 Y PX Y = np np
2
31
est une variable alatoire fonction de (Y PX Y ). Par le thorme de Cochran, nous savons que les vecteurs PX Y et (Y PX Y ) sont indpendants, il en va donc de mme pour toutes fonctions de lun et de lautre. (iii) En notant PX la projection orthogonale sur M (X), sous-espace de dimension (n p) de n , on a : = (Y PX Y ) = PX Y = PX (X + ) = PX , o N (0, 2 In ). Il sensuit par le thorme de Cochran que : (n p) PX 2 = 2 2
2
PX ( 2
[])
= 2 . np
Bien entendu le premier point du rsultat prcdent nest pas satisfaisant pour obtenir des rgions de conance sur car il suppose la variance 2 connue, ce qui nest pas le cas en gnral. La proposition suivante pallie cette insusance. Proprits 3.2 (Lois des estimateurs avec variance inconnue) Sous les hypothses H, nous avons j j j j = Tnp . (i) pour j = 1, . . . , p, nous avons Tj = j (X X)1
jj
Rgression
32 (ii) Soit R une matrice de taille q p de rang q (q p) alors : 1 (R( )) R(X X)1 R q 2
1
Chapitre 3. Le modle gaussien
q R( ) Fnp .
Preuve. (i) Daprs la proposition prcdente, on sait dune part que j N (j , 2 (X X)1 ), dautre jj 2 part que (n p) 2 2 et enn que j et 2 sont indpendants. Il reste alors crire Tj sous np la forme : Tj =
j q j (X X)1 jj
pour reconnatre une loi de Student Tnp . (ii) Commenons par remarquer que la matrice carre R(X X)1 R de taille q est inversible puisque (X X)1 est de rang plein dans p , avec p q. En tant que transforme linaire dun vecteur gaussien, R est un vecteur gaussien de moyenne R et de matrice de covariance 2 R(X X)1 R . On en dduit que : 1 (R( )) R(X X)1 R 2
1
R( ) 2 . np
2 2 Il reste remplacer 2 par 2 en se souvenant que (n p) 2 2 np et que et sont indpendants. On obtient bien alors la loi de Fisher annonce.
De ces rsultats vont dcouler les rgions de conance de la section suivante. Auparavant, donnons un exemple illustrant le second point du rsultat que lon vient dtablir. Exemple. Considrons p 2 et la matrice R dnie comme suit : R= de sorte que R( ) = 1 1 2 2 . 1 0 0 0 0 1 0 0 0 0 ,
Si on note cij le terme gnral de (X X)1 , on obtient donc : c22 (1 1 )2 2c12 (1 1 )(2 2 ) + c11 (2 2 )2 2 Fnp . 2 2 (c11 c22 c2 ) 12
3.3
Intervalles et rgions de conance
Les logiciels et certains ouvrages donnent des intervalles de conance (IC) pour les paramtres pris sparment. Cependant ces intervalles de conance ne tiennent pas compte de la dpendance des paramtres, ce qui conduirait construire plutt des rgions de conance (RC). Nous allons donc traiter les deux cas, en considrant que 2 est inconnu.
Rgression
3.3. Intervalles et rgions de conance Thorme 3.2 (Intervalles et Rgions de Conance) (i) Un intervalle de conance de niveau (1 ) de j pour j = 1, , p est : j tnp (1 /2) (X X)1 , j + tnp (1 /2) jj (X X)1 , jj
33
o tnp (1 /2) est le quantile de niveau (1 /2) dune loi de Student Tnp . (ii) Un intervalle de conance de niveau (1 ) pour 2 est : (n p) 2 (n p) 2 , c2 c1 o
(c1 2 c2 ) = 1 . np
(iii) Une rgion de conance de niveau (1 ) pour q (q p) paramtres j nots (j1 , , jq ) est R q : 1 q (R( )) (R(X X)1 R )1 (R( )) fnp (1 ) , q 2 (3.1)
o R est la matrice de taille q p dont tous les lments sont nuls sauf les Ri,ji , qui valent 1, q q et fnp (1 ) est le quantile de niveau (1 ) dune loi de Fisher Fnp . Preuve. Il sut dappliquer les rsultats de la Proposition 3.2. Exemple. Si on reprend lexemple de la section prcdente pour le choix de la matrice R, le rsultat que lon vient de montrer permet dobtenir une rgion de conance simultane pour (1 , 2 ) : RC(1 , 2 ) = (1 , 2 ) 2 : c22 (1 1 )2 2c12 (1 1 )(2 2 ) + c11 (2 2 )2 2 fnp (1 ) . 2 (c c c2 ) 2 11 22 12
Cette rgion de conance est une ellipse qui tient compte de la corrlation entre 1 et 2 . La gure 3.1 permet de faire le distinguo entre intervalles de conance considrs sparment pour 1 et 2 et rgion de conance simultane pour (1 , 2 ). Bien entendu, de faon gnrale, si les j ne sont pas fortement corrls, alors les rgions paralllpipdiques dnies par les IC sont une bonne approximation de lellipsode.
0
1
Fig. 3.1 Comparaison entre ellipse et rectangle de conance.
Rgression
34
3.4
Prvision
Soit x n+1 = [xn+1,1 , , xn+1,p ] une nouvelle valeur pour laquelle nous voulons prdire la variable expliquer yn+1 dnie par : yn+1 = x + n+1 , n+1 avec n+1 N (0, 2 ) indpendant des (i )1in . A partir des n observations prcdentes, nous avons pu calculer un estimateur de . Nous nous servons de cet estimateur pour prvoir yn+1 par : yn+1 = x . n+1 Pour quantier lerreur de prvision (yn+1 yn+1 ), on utilise la dcomposition : yn+1 yn+1 = x ( ) + n+1 , n+1 qui est la somme de deux variables gaussiennes indpendantes puisque est construit partir des (i )1in . On en dduit que (yn+1 yn+1 ) est une variable gaussienne, dont moyenne et variance ont t calcules au chapitre prcdent. On en conclut que : yn+1 yn+1 N (0, 2 (1 + x (X X)1 xn+1 )) n+1 Mieux, nous pouvons donner un intervalle de conance pour yn+1 . Proposition 3.1 (Intervalle de Conance pour la prvision) Un intervalle de conance de niveau (1 ) pour yn+1 est donn par : x tnp (1 /2) n+1 1 + x (X X)1 xn+1 , x + tnp (1 /2) n+1 n+1 yn+1 yn+1 1 + x (X X)1 xn+1 . n+1
Preuve. Daprs ce qui a t dit auparavant, on a : 1 + x (X X)1 xn+1 n+1 N (0, 1).
On procde donc comme dhabitude en faisant intervenir : yn+1 yn+1 =
yn+1 n+1 y 1+x (X X)1 xn+1 n+1
1 + x (X X)1 xn+1 n+1
On remarque que le numrateur suit une loi normale centre rduite, le dnominateur est la racine dun chi-deux (n p) ddl divis par (n p). Il reste voir que numrateur et dnominateur sont indpendants, or yn+1 yn+1 = xn+1 ( ) + n+1 et est indpendant la fois de (cf. Proprits 3.1) et de n+1 (puisque ne dpend que des (i )1in ). On en conclut que : 1 + x (X X)1 xn+1 n+1 yn+1 yn+1 Tnp ,
do se dduit lintervalle de conance de lnonc. Aprs avoir explicit les lois de nos estimateurs et les intervalles ou rgions de conance associs, la suite naturelle est de construire des tests dhypothses. Cest ce que nous allons faire dans la section suivante. Arnaud Guyader - Rennes 2 Rgression
3.5. Tests dhypothses
35
3.5
3.5.1
Tests dhypothses
Introduction
Reprenons lexemple de la prvision des pics dozone vu en dbut de Chapitre 2. Nous avons dcid de modliser les pics dozone O3 par la temprature midi T , le vent V (ou plus prcisment sa projection sur laxe Est-Ouest) et la nbulosit midi N . Il parat alors raisonnable de se poser par exemple les questions suivantes : 1. Est-ce que la valeur de O3 est inuence par la variable vent V ? 2. Y a-t-il un eet nbulosit ? 3. Est-ce que la valeur de O3 est inuence par le vent V ou la temprature T ? Rappelons que le modle utilis est le suivant : O3i = 1 + 2 Ti + 3 Vi + 4 Ni + i . En termes de tests dhypothses, les questions ci-dessus se traduisent comme suit : 1. correspond H0 : 3 = 0, contre H1 : 3 = 0. 2. correspond H0 : 4 = 0, contre H1 : 4 = 0. 3. correspond H0 : 2 = 3 = 0, contre H1 : 2 = 0 ou 3 = 0. Ces tests dhypothses reviennent tester la nullit dun ou plusieurs paramtres en mme temps. Si lon teste plusieurs paramtres la fois, on parle de nullit simultane des coecients. Ceci signie que, sous lhypthse H0 , certains coecients sont nuls, donc les variables correspondant ceux-ci ne sont pas utiles pour la modlisation du phnomne. Ce cas de gure revient comparer deux modles embots, lun tant un cas particulier de lautre. Le plan dexprience priv de ces variables sera not X0 et les colonnes de X0 engendreront un sous-espace not M0 = M(X0 ). De mme, pour allger les notations, nous noterons M = M(X) lespace engendr par les colonnes de X. Le niveau des tests sera x de faon classique .
3.5.2
Tests entre modles embots
Rappelons tout dabord le modle : Y = X + sous les hypothses (H) (H1 ) : rg(X) = p (H2 ) : N (0, 2 In )
En particulier, cela veut dire que [Y ] = X M, sous-espace de dimension p de n engendr par les colonnes de X. Pour faciliter les notations, on suppose vouloir tester la nullit simultane des q = (p p0 ) derniers coecients du modle (avec q p of course !). Le problme scrit alors de la faon suivante : H0 : p0 +1 = = p = 0 contre H1 : j {p0 + 1, , p} : j = 0.
Que signie H0 : p0 +1 = = p = 0 en termes de modle ? Si les q derniers coecients sont nuls, le modle devient Y = X0 0 + 0 Rgression sous les hypothses (H) (H1 ) : rg(X0 ) = p0 (H2 ) : 0 N (0, 2 In ) Arnaud Guyader - Rennes 2
36
Chapitre 3. Le modle gaussien La matrice X0 , de taille n p0 , est compose des p0 premires colonnes de X et 0 est un vecteur colonne de taille p0 . Puisque X est suppose de rang p, il est clair que X0 est de rang p0 , donc les colonnes de X0 engendrent un sous-espace M0 de n de dimension p0 . Ce sous-espace M0 est bien videmment aussi un sous-espace de M. Sous lhypothse nulle H0 , lesprance de Y , savoir [Y ] = X0 0 , appartiendra ce sous-espace. Maintenant que les hypothses du test sont xes, il faut proposer une statistique de test. Nous allons voir une approche gomtrique et intuitive de laaire. Approche gomtrique Considrons le sous-espace M0 . Nous avons crit que sous H0 : [Y ] = X0 0 M0 . Dans ce cas, la mthode des moindres carrs consiste projeter Y non plus sur M et obtenir Y , mais sur M0 et obtenir Y0 . Visualisons ces direntes projections sur la gure 3.2.
Y Y0 M Fig. 3.2 Reprsentation des projections. M0
Lide intuitive du test, et donc du choix de conserver ou non H0 , est la suivante : si la projection Y0 de Y dans M0 est proche de la projection Y de Y dans M, alors il semble intuitif de conserver lhypothse nulle. En eet, si linformation apporte par les deux modles est la mme, il vaut mieux conserver le modle le plus petit : cest le principe de parcimonie. Il faut videmment quantier le terme proche. De faon naturelle, nous pouvons utiliser la distance euclidienne entre Y0 et Y , ou son carr Y Y0 2 . Cependant cette distance sera variable selon les donnes et selon les units de mesures utilises. Pour nous aranchir de ce problme dchelle, nous allons standardiser cette distance en la divisant par la norme au carr de lerreur estime 2 = Y Y 2 = (n p) 2 . Les vecteurs alatoires (Y Y0 ) et nappartenant pas des sous-espaces de mme dimension, il faut diviser chaque terme par son degr de libert respectif. Nous arrivons donc la statistique de test suivante : F Arnaud Guyader - Rennes 2 = Y Y0 2 /q Y Y0 2 /(p p0 ) = . Y Y 2 /(n p) Y Y 2 /(n p) Rgression
3.5. Tests dhypothses Pour utiliser cette statistique de test, il faut connatre au moins sa loi sous H0 . Remarquons que cette statistique est le rapport de deux normes au carr. Nous allons donc dterminer la loi du numrateur, du dnominateur et constater leur indpendance. En notant P (resp. P0 ) la matrice de projection orthogonale sur M (resp. M0 ), nous savons que : Y Y0 = P Y P0 Y, or M0 M donc :
Y Y0 = P Y P0 P Y = (In P0 )P Y = P0 P Y.
37
Nous en dduisons que (Y Y0 ) M M, donc que (Y Y0 ) (Y Y ) puisque (Y Y ) M . 0 La gure 3.2 permet de visualier ces notions dorthogonalit de faon gomtrique. Les vecteurs alatoires (Y Y0 ) et (Y Y ) sont lments despaces orthogonaux, cest--dire quils ont une covariance nulle. Puisque tout est gaussien, ils sont donc indpendants et les normes du numrateur et du dnominateur sont indpendantes galement. Le thorme de Cochran gomtrique nous renseigne par ailleurs sur les lois des numrateur et dnominateur. Pour le dnominateur : 1 Y Y 2 et pour le numrateur :
2
1 P Y 2
1 P (X + ) 2
1 P 2
2 , np
1 P P (Y X) 2 2 . q 2 0 Sous H0 , le paramtre de dcentrage P0 P X 2 est nul puisque dans ce cas X M0 . Nous avons alors la loi de F sous H0 :
q F Fnp .
Notons une criture quivalente souvent utilise et donc importante : F = n p SCR0 SCR q Fnp . q SCR
La relation Y Y0 2 = (SCR0 SCR) peut se voir facilement cette quation en utilisant la gure 3.2 et en appliquant Pythagore, ou encore de faon analytique : Y Y0
2
= = =
+ P0 P Y 2 Y Y 2 + Y Y0 2 .
Y P Y + P Y P0 Y P Y
2
= P Y + (In P0 )P Y
= P Y + P0 P Y
Test de Student de signication dun coecient Nous voulons tester H0 : j = 0 contre H1 : j = 0, appel test bilatral de signication de j . Selon ce quon vient de voir, la statistique de test est : F = Y Y0 2
2
Nous rejetons H0 si lobservation de la statistique de test, note F (w), est telle que :
1 F (w) > fnp (1 ),
Rgression
38

1 o fnp(1 ) est le quantile dordre (1 ) dune loi de Fisher 1 et (n p) degrs de libert.
Ce test est en fait quivalent au test de Student (n p) degrs de libert qui permet de tester H0 : j = 0 contre H1 : j = 0, avec cette fois la statistique de test : T = j , j
o j = j = (X X)1 est lcart-type estim de j . On peut en fait montrer que F = T 2 . jj Nous rejetons H0 si lobservation de la statistique de test, note T (w), est telle que : |T (w)| > tnp (1 /2), o tnp (1 /2) est le quantile dordre (1 /2) dune loi de Student (n p) degrs de libert. Cest sous cette forme que le test de signication dun coecient apparat dans tous les logiciels de statistique. Il est donc compltement quivalent au test gnral que nous avons propos, lorsquon spcialise celui-ci la nullit dun seul coecient. Test de Fisher global Si des connaissances a priori du phnomne assurent lexistence dun terme constant dans la rgression, alors pour tester linuence des autres rgresseurs (non constants) sur la rponse Y , on teste si [Y ] = 1 . En dautres termes, on teste si tous les coecients sont nuls, except la constante. Ce test est appel test de Fisher global. Dans ce cas Y0 = y et nous avons la statistique de test suivante : Y y 2 /(p 1) p1 F = Fnp . Y Y 2 /(n p) R2 np . p 1 1 R2
On peut aussi lexprimer partir du coecient de dtermination R2 vu au chapitre 2 : F =
Ce test est appel le test du R2 par certains logiciels statistiques. Lien avec le Rapport de Vraisemblance Maximale Nous allons maintenant faire le lien entre le test gnral que nous avons propos et le test du rapport de vraisemblance maximale. Nous avons vu en dbut du chapitre que la vraisemblance scrit de la faon suivante : L(Y, , 2 ) = 1 2 2
n/2
exp
1 Y X 2 2
Cette vraisemblance est maximale lorsque = est lestimateur des MCO et que 2 = mv = 2 ||Y X ||2 /n. Nous avons alors : sup L(Y, , ) = = Arnaud Guyader - Rennes 2
2
,2
e 2 2||Y X ||2 n/2 n n 2 e 2 = L(y, , mv ), 2SCR Rgression
n/2
n
3.5. Tests dhypothses o SCR correspond la somme des carrs rsiduels, cest--dire SCR = ||Y X ||2 . Sous lhypothse H0 , nous obtenons de faon vidente le rsultat suivant : sup L0 (Y, 0 , 2 ) = n 2SCR0
n/2
n 2 e 2 = L0 (Y, 0 , 0 ),
39
,2
o SCR0 correspond la somme des carrs rsiduels sous H0 , cest--dire SCR0 = ||y X0 0 ||2 , et 0 = SCR0 /n. On dnit alors le test du Rapport de Vraisemblance Maximale par la rgion 2 critique : D = Y n : = 2 L0 (Y, 0 , 0 ) < 0 L(Y, , 2 )
mv n/2
La statistique du Rapport de Vraisemblance Maximale vaut donc ici : = SCR0 SCR .
Le test du rapport de VM rejette H0 lorsque la statistique est infrieure une valeur 0 dnie de faon avoir le niveau du test gal . Il reste connatre la distribution (au moins sous H0 ) de . Dnissons, pour positif, la fonction g suivante : g() = 2/n 1. La fonction g est dcroissante donc < 0 si et seulement si g() > g(0 ). Cette fonction g va nous permettre de nous ramener des statistiques dont la loi est connue. Nous avons en eet : g() > g(0 ) o f0 est dtermin par : SCR0 SCR np SCR0 SCR > g(0 ) > f0 , SCR p p0 SCR SCR0 SCR np > f0 p p0 SCR
H0
= ,
q q cest--dire f0 = fnp (1 ), quantile de la loi de Fisher Fnp (cf. section prcdente). Le test du rapport de VM est donc quivalent au test qui rejette H0 lorsque la statistique :
F =
np SCR0 SCR p p0 SCR
est suprieure f0 , o f0 la valeur du quantile dordre (1 ) de la loi de Fisher (p p0 , n p) degrs de libert. Ainsi le test gomtrique que nous avons propos est quivalent au test du Rapport de Vraisemblance Maximale.
3.5.3
Test de lhypothse linaire R = 0
Dans la partie prcdente, nous avons test la nullit simultane dun certain nombre de coecients. Cela nous a permis de transcrire facilement lhypothse H0 en terme de sous-espaces. Nous allons aborder maintenant le cas o lhypothse tester est de la forme R = 0. R est une matrice q p de rang q connu. Nous imposons donc q contraintes linaires 2 2 indpendantes sur les coecients j . Nous retrouvons bien videment les tests prcdents en posant : j = 0 les q derniers j sont nuls test de Fisher global Rgression R = Rqp = Rqp = 0 0 Iq 0 Ip1 Arnaud Guyader - Rennes 2 1j 0
40
Chapitre 3. Le modle gaussien Nous pouvons toujours considrer traduire lhypothse H0 (R = 0) en termes de sous-espaces. Cependant nous ne pourrons plus le visualiser facilement, comme nous lavons fait prcdemment avec MX0 o nous avions simplement enlev des colonnes la matrice X. Lide est de dcomposer lespace M en deux sous-espaces orthogonaux, lun not Mc correspondant aux valeurs possibles de la contrainte R = 0 et son orthogonal M . La dimension de Mc c vaut (p q) et celle de M vaut q. Sous H0 , lesprance de Y appartient Mc et nous pouvons c retrouver tous les rsultats prcdents. Nous avons donc : F = = Y Y0 2 Y Y 2 np q Y Y 2 n p SCR0 SCR Fq,np . q SCR
3.5.4
Gnralisation : test de Fisher pour une hypothse linaire quelconque
Dnition 3.1 Une hypothse linaire H0 est de la forme R r = 0, o R est une matrice de taille q p de rang q et r un vecteur de taille q. Nous voulons tester H0 : R = r contre H1 : R = r. Nous pouvons, ici aussi, exprimer lhypothse H0 en terme de modle et de projection. Sous H0 , y = M0 et cet espace vectoriel est inclus dans M. Thorme 3.3 Sous H0 , nous avons : 1. Q = 2. Q et 3. F =
1 (R r) [R(X X)1 R ]1 (R r) 2 n 2 i=1 i sont indpendants ; b b q (Rr) [R(X X)1 R ]1 (Rr)/q Pn Fnp . 2 i=1 i /(np)
2 ; q
3.6
Estimation sous contraintes
Lespace des solutions est M. Tous les vecteurs de M peuvent scrire comme combinaisons linaires des vecteurs colonnes de X. Il arrive parfois que nous souhaitions imposer des contraintes linaires , par exemple que la premire coordonne de soit gale 1. Nous supposerons en gnral que nous imposons q contraintes linairement indpendantes , ce qui scrit sous la forme : R = r, o Rqp est une matrice de rang q < p et r un vecteur de taille q. Proprits 3.3 Lestimateur des Moindres Carrs Ordinaires sous contrainte, not c , vaut : c = + (X X)1 R [R(X X)1 R ]1 (r R). Preuve. Nous voulons minimiser S() sous la contrainte R = r. Ecrivons le lagrangien : L = S() (R r). Les conditions de Lagrange permettent dobtenir un minimum : L = 2X Y + 2X X R = 0, c L = Rc r = 0,
Rgression
3.7. Exemple Multiplions gauche la premire galit par R(X X)1 , nous obtenons 2R(X X)1 X Y + 2R(X X)1 X X c R(X X)1 R = 0 1 1 2R(X X) X Y + 2Rc R(X X) R = 0 2R(X X)1 X Y + 2r R(X X)1 R = 0. = 2 R(X X)1 R
1
41
Nous obtenons alors pour :
r R(X X)1 X Y .
1
Remplaons ensuite par cette expression dans la premire quation : 2X Y + 2X X c 2R R(X X)1 R do nous dduisons c : c = (X X)1 X Y + (X X)1 R R(X X)1 R = + (X X)1 R R(X X)1 R
1 1
r R(X X)1 X Y = 0, (r R)
(r R).
3.7
Exemple
Nous allons traiter 50 donnes journalires prsentes en annexe. La variable expliquer est la concentration en ozone note O3 et les variables explicatives sont la temprature note T, le vent not Vx et la nbulosit note Ne12. > a _ lm(O3 T12 +Vx+Ne12,data=DONNEE) > summary(a) Call : lm(formula = O3 T12 + Vx + Ne12, data = DONNEE)) Residuals : Min -29.0441 Coefficients : (Intercept) T12 Vx Ne12 Estimate 84.5483 1.3150 0.4864 -4.8935 Std. Error 13.6065 0.4974 0.1675 1.0270 t value 6.214 2.644 2.903 -4.765 Pr(>|t|) 1.38e-07 0.01118 0.00565 1.93e-05 *** * ** *** 1Q -8.4833 Median 0.7857 3Q 7.7011 Max 28.2919
Signif. codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error : 13.91 on 46 degrees of freedom Multiple R-Squared : 0.6819, Adjusted R-squared : 0.6611 F-statistic : 32.87 on 3 and 46 DF, p-value : 1.663e-11 Pour tous les coecients pris sparment, nous refusons au seuil de = 5% lhypothse H0 : j = 0. La dernire ligne de la sortie du logiciel donne la statistique du test de Fisher global : Tous les coecients sont nuls sauf la constante. Nous avions 50 observations n = 50, nous avons estim 4 paramtres et donc le ddl du Fisher est bien (3,46). Nous refusons nouveau H0 . Rgression Arnaud Guyader - Rennes 2
42
3.8
Exercices
Exercice 3.1 (QCM) 1. Nous pouvons justier les MC quand N (0, 2 I) via lapplication du maximum de vraisemblance : A. oui ; B. non ; C. aucun rapport entre les deux mthodes. 2. Y a-t-il une dirence entre les estimateurs des MC et du maximum de vraisemblance ? A. Oui ; B. Non ; C. Pas toujours, cela dpend de la loi des erreurs. 3. Y a-t-il une dirence entre les estimateurs 2 des MC et 2 du maximum de vraisemblance ? A. Oui ; B. Non ; C. Pas toujours, cela dpend de la loi des erreurs. 4. Le rectangle form par les intervalles de conance de niveau individuels de 1 et 2 correspond la rgion de conance simultane de niveau de la paire (1 , 2 ). A. Oui ; B. Non ; C. Cela dpend des donnes. 5. Nous avons n observations et p variables explicatives, nous supposons que suit une loi normale, nous voulons tester H0 : 2 = 3 = 4 = 0. Quelle va tre la loi de la statistique de test ? A. Fp3,np ; B. F3,np ; C. Une autre loi. Exercice 3.2 (Analyse de sorties logiciel) Nous voulons expliquer la concentration de lozone sur Rennes en fonction des variables T9, T12, Ne9, Ne12 et Vx. Les sorties donnes par le logiciel R sont : Coefficients : (Intercept) *** T9 *** T12 *** Ne9 ?f ? Ne12 ?i ? Vx *** Signif. codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error : 16.46 on 124 degrees of freedom Multiple R-Squared : 0.6233, Adjusted R-squared : ?j ? F-statistic : ?k ? on ?l ? and ?m ? DF, p-value : 0 1. Combien avons-nous dobservations ? 2. Pouvez-vous complter la sortie ci-dessus (i.e. remplacer les points dinterrogation) ? 3. Tester la nullit des paramtres sparment au seuil de 5%. 4. Tester la nullit simultane des paramtres autres que la constante au seuil de 5%. Estimate 62.7065 -4.1174 5.4497 -1.6636 -0.5474 0.8314 Std. Error 11.2510 ?(b) ? 0.7775 0.9464 0.8782 0.1509 t value ?(a) ? -4.881 ?c ? ?d ? ?g ? 5.508 Pr(>|t|) 1.48e-07 3.17e-06 1.36e-10 ?e ? ?h ? 2.00e-07
Rgression
3.8. Exercices Exercice 3.3 (Un modle 3 variables explicatives) On considre un modle de rgression de la forme : yi = 1 + 2 xi,2 + 3 xi,3 + 4 xi,4 + i , 1 i n.
43
On admettra que
Un calcul prliminaire a donn 50 0 0 0 0 20 15 4 X X = 0 15 30 10 0 4 10 40
Les xi,j sont supposes non alatoires. Les erreurs i du modle sont supposes alatoires indpendantes gaussiennes centres de mme variance 2 . On pose comme dhabitude : 1 y1 1 x1,2 x1,3 x1,4 2 . . . . . . X= . , Y = . , = . . . . 3 . yn 1 xn,2 xn,3 xn,4
4
100 50 X Y = 40 , 80
Y Y = 640.
1 20 15 4 1100 560 30 15 30 10 = 1 560 784 140 . 13720 4 10 40 30 140 375 1. Calculer , estimateur des moindres carrs de , la somme des carrs des rsidus et donner lestimateur de 2 . 2. Donner un intervalle de conance pour 2 , au niveau 95%. Faire de mme pour 2 . 3. Tester la validit globale du modle (2 = 3 = 4 = 0) au niveau 5%.
50 2 i=1 i ,
4. On suppose x51,2 = 1, x51,3 = 1 et x51,4 = 0, 5. Donner un intervalle de prvision 95% pour y51 . Exercice 3.4 (Modle de Cobb-Douglas) Nous disposons pour n entreprises de la valeur du capital Ki , de lemploi Li et de la valeur ajoute Vi . Nous supposons que la fonction de production de ces entreprises est du type Cobb-Douglas : Vi = L Ki , i soit en passant en logarithmes : log Vi = + log Li + log Ki . Le modle linaire associ est : log Vi = + log Li + log Ki + i , o les i sont supposes i.i.d. de loi N (0, 2 ). 1. Ecrivez le modle sous la forme matricielle Y = Xb + en prcisant Y , X et b. Rappelez lexpression de lestimateur des MCO Donnez sa matrice de variance-covariance. Donnez b. un estimateur sans biais de 2 et un estimateur sans biais de Var( b). Rgression Arnaud Guyader - Rennes 2 (3.2)
44
Chapitre 3. Le modle gaussien 2. Pour 1658 entreprises, nous avons obtenu par les MCO les rsultats suivants : log Vi = 3.136 + 0.738 log Li + 0.282 log Ki R2 = 0.945 SCR = 148.27. Nous donnons aussi : (X X)1 0.0288 0.0012 0.0034 0.0016 0.0010 = 0.0012 0.0034 0.0010 0.0009
Calculez 2 et une estimation de Var( b). 3. Donnez un intervalle de conance au niveau 95% pour . Mme question pour . 4. Testez au niveau 5% H0 : = 0, contre H1 : > 0. 5. Nous voulons tester lhypothse selon laquelle les rendements dchelle sont constants (une fonction de production F est rendement dchelle constant si + , F (L, K) = F (L, K)). Quelles sont les contraintes vries par le modle lorsque les rendements dchelle sont constants ? Tester au niveau 5% H0 : les rendements sont constants, contre H1 : les rendements sont croissants. Exercice 3.5 (Modle deux variables explicatives) On considre le modle de rgression suivant : yi = 1 + 2 xi,2 + 3 xi,3 + i , 1 i n.
on a observ :
Les xi,j , sont des variables exognes du modle, les i sont des variables alatoires indpendantes, de loi normale centre admettant la mme variance 2 . En posant : y1 1 x1,2 x1,3 . . et Y = . , . . . X= . . . . . . yn 1 xn,2 xn,3 30 20 0 X X = 20 20 0 , 0 0 10 15 X Y = 20 , 10
Y Y = 59.5.
1. Dterminer la valeur de n, la moyenne des xi,3 , le coecient de corrlation des xi,2 et des xi,3 . 2. Estimer 1 , 2 , 3 , 2 par la mthode des moindres carrs ordinaires. 3. Calculer pour 2 un intervalle de conance 95% et tester lhypothse 3 = 0.8 au niveau 10%. 4. Tester 2 + 3 = 3 contre 2 + 3 = 3, au niveau 5%. 5. Que vaut y , moyenne empirique des yi ? En dduire le coecient de dtermination ajust 2 Ra . 6. Construire un intervalle de prvision 95% de yn+1 connaissant : xn+1,2 = 3 et xn+1,3 = 0, 5. Arnaud Guyader - Rennes 2 Rgression
3.8. Exercices Exercice 3.6 (Modle htroscdastique) On considre n observations y1 , . . . , yn dune variable dnie sur une certaine population, et n kuplets xi (x = [xi1 , . . . , xik ]) correspondant aux valeurs prises par k autres variables sur les i mmes lments de cette population. On suppose que pour tout i, yi est la valeur prise par une variable alatoire Yi , et quil existe k pour lequel :
2 Yi N x , i i
45
1 i n,
o : reprsente un vecteur de I k : = [1 , . . . , k ] , R Les Yi sont supposes indpendantes entre elles. 2 Enn, les valeurs i des variances dpendent de lappartenance p sous-populations des lments sur lesquels les variables sont observes. En regroupant les indices des Yi selon ces sous-populations, on posera : I1 = {1, . . . , n1 }, indices des n1 lments de la premire sous-population ; I2 = {n1 + 1, . . . , n1 + n2 }, indices des n2 lments de la deuxime sous-population ; ... ; I = {n1 + . . . + n1 + 1, . . . , n1 + . . . + n1 + n }, indices des n lments de la -me souspopulation ; ... ; Ip = {n1 + . . . + np1 + 1, . . . , n}, indices des np lments de la dernire sous-population.
2 On admettra lhypothse suivante : si i I , i = 2 . Autrement dit, pour les n1 variables correspondant aux lments de la premire sous-population la valeur est 2 , pour les n2 variables correspondant aux lments de la deuxime sous-population la valeur est 2 2 , etc. , jusqu p 2 pour la variance des variables correspondant aux lments de la dernire sous-population. On veut estimer et 2 par la mthode du maximum de vraisemblance. On notera , 2 ces estimateurs. 2 1. Que vaut fYi (yi ), fYi reprsentant la densit de la loi normale N x , i ? i
2. Montrer que et 2 sont solutions du systme dquations : j = 1, . . . , k

p 1 =1 iI (yi p 1 =1
x )2 = n 2 i iI (yi xi ) xij = 0.
(3.3)
3. Montrer que le systme (A.3) quivaut : A (Y X) 2 = n 2 X A2 (Y X) = 0. (3.4)
4. En supposant que X A2 X est inversible, exprimer et 2 . 5. Montrer que n 2 = V 6. En dduire que E V

2 2
o . 2 reprsente la norme euclidienne usuelle dans I n , X la matrice (n k) du plan R dexprience, Y le vecteur (n 1) des observations yi , A la matrice (n n) diagonale dont 1 llment (i, i) vaut l si i Il . , o V suit une loi gaussienne centre. est la trace de la matrice de variances-covariances de V .
9. (Bonus) Que peut-on dire de la dirence des matrices de variances-covariances de et de ? Rgression
7. Montrer que n 2 /(n k) est un estimateur sans biais de 2 . 8. On note X la matrice (n k) forme par les lignes dindices I de X, suppose de rang plein, Y le vecteur colonne (n 1) des composantes dindices I de Y . En posant = (X X )1 X Y , montrer que est un estimateur sans biais de .
46
Rgression
Chapitre 4
Validation du modle
Introduction
En prsence dun chantillon de n observations (xi , yi )1in valeurs dans tapes de la rgression linaire sont les suivantes : 1. Modlisation. Nous considrons un modle de la forme : i {1, , n} yi = 1 xi1 + 2 xi2 + + p xip + i = x + i , i
p , les grandes
qui se rcrit sous forme matricielle : Yn1 = Xnp p1 + n1 , sous les hypothses : (H) (H1 ) : rg(X) = p (H2 ) : N (0, 2 In )
2. Estimation. Nous estimons alors les paramtres et 2 par la mthode des moindres carrs, laquelle est grosso modo quivalent la mthode du maximum de vraisemblance, ce qui donne les estimateurs et 2 . Des lois de et 2 , nous avons dduit des intervalles et/ou rgions 2 , et avons pu construire des tests dhypothses. de conance pour et 3. Validation. Les deux premiers points tant acquis, il sagit dans ce chapitre de valider nos hypothses. Autant la vrication de (H1 ) ne pose pas problme, autant celle de (H2 ) savre dlicate. Nous nous contenterons donc de donner quelques pistes.
4.1
4.1.1
Analyse des rsidus

Ajustement global et ajustement individuel
Pour rpondre la question de lajustement global (modle satisfaisant ou ncessit de nouvelles variables ?) il sut de partir dun constat simple : si lon oublie quelque chose dans le modle, alors ce quelque chose sera forcment dans les rsidus, lesquels sont par dnition les observations moins les prdictions par le modle. Donc lhypothse dabsence de structuration (Cov(i , j ) = 0 i = j) risque de ne pas tre vrie. En eet, la composante oublie dans le modle va sadditionner au vrai bruit et devrait alors apparatre dans le dessin des rsidus. Ainsi, une quelconque forme de structuration dans les graphiques sera annonciatrice dun mauvais ajustement du modle. Une fois dtecte une structuration, il sut, si lon peut dire, dajouter au modle une variable explicative possdant la mme structuration.
47
48
Chapitre 4. Validation du modle Pour regarder la qualit dajustement observation par observation, il sut de regarder si les rsidus estims sont anormalement levs ou non. Si tel est le cas, lindividu i est appel point aberrant. Il convient alors dessayer de comprendre pourquoi il est aberrant (erreur de mesure, individu provenant dun sous-population, etc.) et le cas chant de lliminer.
4.1.2
Vrication des hypothses
Dans un second temps, les rsidus permettent de vrier les hypothses du modle sur la partie alatoire : indpendance, homoscdasticit (mme variance) et normalit. Indpendance. Lindpendance est trs dicile tester de manire formelle. Le test de DurbinWatson, le plus souvent utilis, consiste tester H0 : lindpendance, contre H1 : les rsidus sont non-indpendants et suivent un processus autorgressif dordre 1. Cependant il existe de nombreux autres modles de non-indpendance qui ne seront pas forcment dtects par ce test. De plus, dans le cas o les donnes sont peu nombreuses, la puissance des tests risque dtre faible. Dun point de vue graphique, une reprsentation judicieuse des rsidus permettra de reprer quelques cas de non-indpendance et compltera ainsi lanalyse obtenue par des tests. Dans le cas o lon souponne les rsidus dtre autocorrls dans le temps, un graphique (temps en abscisse, rsidus en ordonne) sera tout indiqu. Si lon souponne une structuration spatiale, un graphique possible consiste en une carte sur laquelle en chacun des points i de mesure on reprsente un cercle ou un carr, selon le signe du rsidu estim, de taille variable, selon la valeur absolue du rsidu estim. Ce type de graphique permettra ventuellement de dtecter une structuration spatiale (agrgats de ronds ou de carrs, ou au contraire alternance des ronds et des carrs). Si une structuration est observe, un travail sur les rsidus et en particulier sur leur covariance est alors ncessaire. Homoscdasticit. Concernant lhypothse dhomoscdasticit, il faut tout simplement que 95% des rsidus soient dans une bande de largeur constante, qui sera dnie plus loin laide des quantiles dune loi de Student. Si par contre on observe un cne ou des vagues, un travail sur les rsidus et en particulier sur leur variance est ncessaire. Normalit. Enn lhypothse de normalit sera examine laide de graphiques comparant les quantiles des rsidus estims lesprance des mmes quantiles sous hypothse de normalit. En dnitive, il sera donc impratif de tracer un graphique avec en ordonne les rsidus et en abscisse soit Y , soit le numro de lobservation, soit le temps ou tout autre facteur potentiel de non-indpendance. Ce type de graphique permettra : de vrier lajustement global, de reprer les points aberrants, ainsi que de vrier les hypothses concernant la structure de variance du vecteur . Ensuite un dessin des quantiles permettra de vrier si lhypothse de normalit est vrie ainsi que de retrouver les points aberrants. Dautres graphiques, tels ceux prsentant la valeur absolue des rsidus en ordonne, permettront de regarder la structuration de la variance.
4.1.3
Les dirents types de rsidus
Les rsidus thoriques i sont estims par i = yi yi . Nous avons : Arnaud Guyader - Rennes 2 Rgression
4.1. Analyse des rsidus Hypothses [i ] = 0 Var() = 2 I Ralit [i ] = 0 Var() = 2 (I H)
49
Il sensuit que la variance de i est Var(i ) = 2 (1hii ), qui dpend donc de i. An dliminer cette non-homognit des variances des rsidus estims, nous prfrerions utiliser les rsidus normaliss, dnis par : i ri = . 1 hii Mais est inconnu, il convient donc de le remplacer par , ce qui donne des rsidus dits studen tiss (ou rsidus studentiss internes) : i . ti = 1 hii Malgr leur nom, ces rsidus ne suivent pas une loi de Student ! Cest pourquoi nous utiliserons plutt les rsidus studentiss par validation croise (ou rsidus studentiss externes, souvent appels studentized residuals dans les logiciels ) dnis par : t = i i , (i) 1 hii
o (i) est lestimateur de dans le modle linaire priv de lobservation i. Ces rsidus t suivent bien une loi de Student (cf. thorme 4.1 ci-aprs). Ils sont construits selon i la logique de validation croise (en abrg VC), cest--dire comme suit : 1. Dans un premier temps, nous estimons les paramtres et 2 laide de tous les individus sauf le ime , nous obtenons ainsi les estimateurs (i) et (i) ; 2 2. Dans un second temps, nous considrons que la ime observation x = [xi1 , . . . , xip ] est une i nouvelle observation et nous prvoyons yi par yi de faon classique : yi = x (i) . p p i Le chapitre prcdent permet alors de prciser la loi suivante : yi yi p Tnp1 ,
(i)
1 + x (X(i) X(i) )1 xi i
2 loi de Student (n p 1) ddl puisque les estimateurs (i) et (i) sont construits partir de (n 1) observations. Nous allons maintenant montrer que les rsidus studentiss par validation croise t i correspondent exactement ces erreurs de prvisions normalises. Thorme 4.1 Si la matrice X est de plein rang et si la suppression de la ligne i ne modie pas le rang de la matrice, alors les rsidus studentiss par validation croise vrient : t = i yi yi i = = (i) 1 hii (i) 1 hii (i) yi yi p Tnp1 .
1 + x (X(i) X(i) )1 xi i
Rgression
50
Chapitre 4. Validation du modle Preuve. Nous considrons la matrice X du plan dexprience, de taille n p, X(i) la matrice X prive de la ime ligne x , donc de taille (n 1) p, et Y(i) le vecteur Y priv de sa ime coordonne, i donc de taille (n 1) 1. Nous aurons alors besoin des ingrdients matriciels suivants, dont la vrication est laisse au lecteur : 1. Lemme dinversion matricielle : Soit M une matrice symtrique inversible de taille p p et u et v deux vecteurs de taille p, alors : M + uv
2. X X = X(i) X(i) + xi x . i 3. X Y = X(i) Y(i) + xi yi . 1
= M 1
M 1 uv M 1 . 1 + u M 1 v
4. hii = x (X X)1 xi . i Dans notre situation, le lemme dinversion matricielle scrit :

(X(i) X(i) )1 = (X X xi x )1 = (X X)1 + i
(X X)1 xi x (X X)1 i , 1 x (X X)1 xi i
et la relation sur hii ci-dessus donne :

(X(i) X(i) )1 = (X X)1 +
Calculons alors la prvision yi , o (i) est lestimateur de obtenu sans la ime observation : p
yi = x (i) = x (X(i) X(i) )1 X(i) Y(i) p i i
1 (X X)1 xi x (X X)1 . i 1 hii
On dduit de cette dernire relation :
(X X)1 xi x (X X)1 i 1 hii h2 hii ii x hii yi yi = x + i 1 hii i 1 hii 1 hii = yi yi . 1 hii 1 hii = x (X X)1 + i i = yi yi = (1 hii )(yi yi ), p
X Y xi yi
do il vient : t = i i = (i) 1 hii
(1 hii )(yi yi ) p . (i)
Pour terminer, remarquons quen multipliant la relation obtenue ci-dessus pour (X(i) X(i) )1 gauche par x et droite par xi , on obtient : i x (X(i) X(i) )1 xi = hii + i 1 + x (X(i) X(i) )1 xi i
ce qui permet dtablir lgalit : t = i
h2 ii . 1 hii 1 hii = , = 1+ 1 hii 1 hii yi yi p .
yi yi i = = (i) 1 hii (i) 1 hii (i)
1 + x (X(i) X(i) )1 xi i
Le rsultat sur la loi de lerreur de prvision vu au chapitre prcdent sapplique alors directement et ceci achve la preuve. Arnaud Guyader - Rennes 2 Rgression
4.1. Analyse des rsidus
51
En conclusion, bien que de manire classique les rsidus utiliss soient i , ceux-ci nont pas la mme variance selon lobservation i et sont donc dconseiller. An de remdier cette htroscdasticit, nous prfrerons utiliser les rsidus studentiss par validation croise t pour dtecter des valeurs i aberrantes. Remarque. Dun point de vue algorithmique, et contrairement aux ti , les t semblent coteux i puisque chacun ncessite le calcul de (i) ou, ce qui revient au mme, de yi . On peut en fait montrer p la relation : t = ti i np1 , n p t2 i
qui assure quon ne paie rien de plus en temps de calcul remplacer les ti par les t . i Une valeur aberrante est une observation qui est mal explique par le modle et qui conduit un rsidu lev en ce point. Nous pouvons donc la dnir grce aux rsidus studentiss par validation croise t . i Dnition 4.1 Une donne aberrante est un point (xi , yi ) pour lequel le rsidu studentis par validation croise t i est lev compar au seuil donn par la loi de Student : |t | > tnp1 (1 /2). i Remarque. En pratique, si = 5% et (n p 1) 30, alors tnp1 (1 /2) 30. Gnralement, les donnes aberrantes sont dtectes en traant les t squentiellement ou en fonci tion dautres variables (yi , xi , yi , etc.). La dtection des donnes aberrantes ne dpend que de la valeur des rsidus. Ces reprsentations graphiques permettent de sassurer aussi de la validit du modle.
2 3 3 2 1 0 1 2 1 0 2 1
10
15
20
10
(a)
(b)
Fig. 4.1 rsidus studentiss par VC corrects (gure a) et rsidus studentiss par VC avec un individu aberrant vrier, signal par une che, et un second moins important (gure b).
La gure 4.1 (a) montre un ajustement satisfaisant o aucune structure ne se dgage des rsidus et o aucun rsidu nest plus grand que la valeur test 2. Remarquons quen thorie % des individus possdent des valeurs aberrantes. Nous cherchons donc plutt les rsidus dont les valeurs absolues sont nettement au-dessus de tnp1 (1 /2). Ainsi, dans la gure 4.1 (b), nous nous intresserons seulement lindividu dsign par une che.
Rgression
52
3 3
Chapitre 4. Validation du modle

3 0.0 0.5 1.0 1.5 2.0 2 2 1 0 1 2
10
20
Index
30
40
50
X2
Fig. 4.2 Rsidus studentiss (par VC) avec une tendance dcroissante due loubli dune variable X2 dans le modle. Les rsidus sont reprsents comme fonction du numro de lobservation (index), de lestimation du modle y, et comme fonction de X2 .
La gure 4.2 montre les graphiques dun modle linaire y = + 1 X1 + alors que le vrai modle est un modle deux variables y = + 1 X1 + 2 X2 + . Lajustement parat non satisfaisant puisquune structure linaire dcroissante se dgage des rsidus de la troisime reprsentation. Notons limportance du choix de laxe des abscisses : les deux premiers graphiques, reprsentant les mmes rsidus, ne laissent pas souponner cette tendance dcroissante. Le modle linaire propos nest donc pas judicieux, il serait bon dajouter la variable oublie X2 .
0.0
0.5
1.0
|t |
1.5
2.0
2.5
3.0
Fig. 4.3 Htroscdasticit des rsidus.
Dans la gure 4.3, lajustement nest pas satisfaisant, la variance des rsidus est non constante : le premier graphique montre un cne de variance croissante avec la valeur de y sur laxe des abs cisses. Le second graphique trace la valeur absolue du rsidu via une courbe rsumant la tendance ventuelle des rsidus. Cette courbe est obtenue par un lisseur, ici lowess. Ce lisseur, aussi nomm loess, consiste en une rgression par polynmes locaux itre. Nous voyons que la tendance est croissante, donc que la variance des rsidus augmente le long de laxe des abscisses. Ce deuxime graphique permet de reprer plus facilement que le premier les changements de variance ventuels dans les rsidus. L encore le choix de laxe des abscisses est trs important et permet (ou non) de dtecter une htroscdasticit. Lutilisation dun lisseur permet ventuellement de dgager une structuration dans les rsidus (voir gure 4.4) et ce de manire aise et rapide, ce qui est primordial. Il est cependant dicile, voire impossible, de discerner entre une structuration due un oubli dans la modlisation de la moyenne et une structuration due une mauvaise modlisation de la variance (voir gure 4.4). Arnaud Guyader - Rennes 2 Rgression
4.2. Analyse de la matrice de projection

2
53
0.0
0.5
1.0
1.5
2.0
2.5
1 0.0
0.5
1.0
1.5
2.0
2.5
(a)
(b)
Fig. 4.4 Tendance sinusodale due : (a) des bruits autorgressifs dordre 1 : i = i1 + i (variance mal modlise) ; (b) une variable explicative non prise en compte : X2 = 0.2 sin(3x) (moyenne mal modlise).
4.2
Analyse de la matrice de projection
Nous souhaiterions maintenant avoir une mesure synthtique du poids dune observation sur sa propre prvision par le modle. Cette prvision utilise la matrice de projection orthogonale sur lespace engendr par les colonnes de X : PX = H = X(X X)1 X . En eet, si nous crivons la prvision par le modle, nous avons vu que : Y = PX Y = HY. Commenons par donner quelques proprits trs gnrales sur les matrices de projection orthogonales. Proprits 4.1 (Proprits dune matrice de projection orthogonale) Soit H = PX la matrice n n de projection orthogonale sur le sous-espace M de dimension p engendr par les colonnes de X. Alors : 1. Tr(H) = 2.
i j n i=1 hii
= p.
h2 = p. ij
3. Pour tout i {1, . . . , n}, 0 hii 1. 4. Si hii = 0 ou 1, alors hij = 0 pour tout j dirent de i. 5. pour tout j dirent de i, 0.5 hij 0.5. Preuve. 1. La trace dun projecteur vaut la dimension de lespace sur lequel seectue la projection, donc Tr(H) = p. 2. Ce second point dcoule de la proprit H 2 = H, do Tr(H 2 ) = p, de la symtrie de H et du fait que pour toute matrice A, Tr(AA ) = Tr(A A) = i j a2 . ij Rgression Arnaud Guyader - Rennes 2
54
Chapitre 4. Validation du modle 3. Puisque les matrices H et H 2 sont gales, nous avons en particulier hii = (H 2 )ii . Cela scrit, en utilisant la symtrie de H :
n
hii =
j=1
hij hji h2 ij
j=i
= h2 + ii hii (1 hii ) = h2 . ij
j=i
La quantit de droite de la dernire galit est positive, donc le troisime point est dmontr. 4. Cette proprit se dduit directement de lquation prcdente. 5. Nous pouvons crire : hii (1 hii ) = h2 + ij h2 . ik
k=i,j
La quantit de gauche est maximum lorsque hii = 0.5 et vaut alors 0.25. Le dernier point est ainsi dmontr.
Il sut maintenant de remarquer que :

n
yi =
j=1
hij yj hij yj ,
j=i
= hii yi +
pour sapercevoir que hii reprsente en quelque sorte le poids de lobservation yi sur sa propre prdiction yi . Ainsi : si hii = 1, hij = 0 pour tout j = i et yi est entirement dtermin par yi ; si hii = 0, yi na pas dinuence sur yi (qui vaut alors zro) ; plus gnralement, si hii est grand, yi inue fortement sur yi , comme en tmoigne la formule prcdemment tablie : yi yi = (1 hii )(yi yi ), p qui montre la variation dans la prdiction de yi selon que lon prend en compte ou non la ime observation. Puisque Tr(PX ) = hii = p, la moyenne des hii vaut p/n. Ceci permet de quantier quelque peu la notion de grand. Dnition 4.2 (Point levier) Un point (xi , yi ) est appel point levier si : hii > 2p/n selon Hoaglin & Welsch (1978) ; hii > 3p/n pour p > 6 et n p > 12 selon Velleman & Welsch (1981) ; hii > 0.5 selon Huber (1981). Remarque. Pour plus de dtails sur ce point, on pourra consulter le livre de Antoniadis, Berruyer et Carmona, Rgression non linaire et applications, Economica (1992), pages 36-40.
Rgression
4.3. Autres mesures diagnostiques

0.05 0.10 0.15 0.20 0.25 0.30 0.35
55
hii
10
20
Index
30
40
50
Fig. 4.5 Exemple dun point levier, gur par la che, pour un modle de rgression simple. Quantication par hii de la notion de levier. La ligne en pointill lche reprsente le seuil de 2p/n et celle en pointill serr le seuil de 3p/n.
Pour un modle de rgression simple dont le nuage de points est reprsent sur la gure 4.5, le point dsign par une che est un point levier. Sa localisation sur laxe x dire des autres points et son poids hii est prpondrant et suprieur aux valeurs seuils de 2p/n et 3p/n. Grosso modo, cette notion de levier hii correspond lloignement de xi par rapport au centre de gravit x des (xj )1jn . Remarque. Le point de la gure 4.5 est levier mais pas aberrant puisquil se situe dans le prolongement de la droite de rgression et sera donc proche de sa prvision par le modle (rsidu faible). En conclusion, lanalyse des rsidus permet de trouver des valeurs atypiques en fonction de la valeur de la variable expliquer, tandis que lanalyse de la matrice de projection permet de trouver des individus atypiques en fonction des valeurs des variables explicatives (observations loignes de x). Dautres critres vont combiner ces deux analyses, cest ce que nous allons voir maintenant.
4.3
Autres mesures diagnostiques
La distance de Cook mesure linuence de lobservation i sur lestimation du paramtre . Pour btir une telle mesure, il sut de considrer la distance entre le coecient estim et le coecient (i) que lon estime en enlevant lobservation i (cf. section prcdente). Si la distance est grande, alors lobservation i inuence beaucoup lestimation de , puisque la laisser ou lenlever conduit des estimations trs direntes lune de lautre. De manire gnrale, et (i) tant dans p , une distance btie sur un produit scalaire scrit : d((i) , ) = ((i) ) Q((i) ),
o Q est une matrice symtrique dnie positive. De nombreux choix sont possibles selon la matrice Q. Si nous revenons la rgion de conance simultane de donne au chapitre prcdent, nous obtenons en prenant R = Ip : RC () = p : 1 p ( ) (X X)( ) fnp (1 ) . p 2
Cette quation donne une rgion de conance pour autour de et permet de dire que en moyenne dans 95% des cas, la distance entre et (selon la matrice Q = (X X)/p 2 ) est inf p rieure fnp (1 ). Par analogie, nous pouvons utiliser cette distance, appele distance de Cook, pour mesurer linuence de lobservation i sur le modle.
Rgression
56 Dnition 4.3 (Distance de Cook) La distance de Cook pour la ime observation est dnie par : Ci =
Chapitre 4. Validation du modle
1 ( ) (X X)((i) ). p 2 (i)
Il est possible de la rexprimer de manire plus concise comme suit : hii (yi yi )2 p hii 1 hii 2 2 i Ci = = = t . p 2 p(1 hii )2 2 p 1 hii i Remarque. Il y a dans cette terminologie un lger abus de langage, puisque la distance de Cook est en fait le carr dune distance. Preuve. Nous allons utiliser les rsultats tablis dans la preuve du thorme 4.1. Par dnition, nous avons : (i) = (X(i) X(i) )1 X(i) Y(i) ,
or en utilisant le lemme dinversion matricielle pour (X(i) X(i) )1 et le fait que X(i) Y(i) = X Y xi yi , on obtient : (X X)1 xi x (X X)1 i X Y xi yi , (i) = (X X)1 + 1 hii
ce qui donne en dveloppant :
(i) = (X X)1 xi yi + cest--dire tout simplement :
1 hii (X X)1 xi x (X X)1 xi yi , i 1 hii 1 hii i (X X)1 xi , 1 hii
(i) =
et puisquon a vu dans la preuve du thorme 4.1 que i = (1 hii )(yi yi ), on en dduit que : p (i) = (yi yi )(X X)1 xi . p Il sut dappliquer cette expression et le fait que hii = x (X X)1 xi pour obtenir la deuxime i expression de la distance de Cook : hii (yi yi )2 p . Ci = p 2 La troisime expression de la distance de Cook dcoule alors de la relation dj mentionne i = (1 hii )(yi yi ). Pour la dernire expression, il sut dappliquer la dnition de ti . p Une observation inuente est donc une observation qui, enleve, conduit une grande variation dans lestimation des coecients, cest--dire une distance de Cook leve. Pour juger si la disp p tance Ci est leve, Cook (1977) propose le seuil fnp (0.1) comme souhaitable et le seuil fnp (0.5) comme proccupant. Certains auteurs citent comme seuil la valeur 1, qui est une approximation p raisonnable de fnp (0.5). Remarquons sur la dernire relation que la distance de Cook peut tre vue comme la contribution de deux termes. Le premier, t2 , est dautant plus grand que le point est aberrant, tandis que le i Arnaud Guyader - Rennes 2 Rgression
4.3. Autres mesures diagnostiques second, hii /(1 hii ), est dautant plus grand que le point est levier. Exemple. Pour le modle de rgression simple de la gure 4.5, nous avons trac sur la gure 4.6 : la droite des moindres carrs, les rsidus studentiss par validation croise, les distances de Cook. Nous voyons que des points ayant de forts rsidus (loigns de la droite) possdent des distances de Cook leves (cas des points 4, 6, 12, 29, 44 et 45). Le point 51, bien quayant un rsidu faible puisquil se situe dans le prolongement de laxe du nuage, apparat comme ayant une distance de Cook relativement forte (la 8me plus grande). Ceci illustre bien que la distance de Cook opre un compromis entre points aberrants et points leviers. Notons enn que, dans notre cas prcis, les 2 2 seuils de la distance de Cook sont f49 (0.5) 0.7 et le second f49 (0.1) 0.11, ce dernier gurant en pointill sur la gure 4.6. Sur ce graphique, les distances de Cook semblent assez bien rparties au niveau hauteur et aucun point ne se dtache nettement.
57
51 + 5 2
6 4 49 44
0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14
6 45 49 4 12 29 44 51
49 + 44 + + ++ + ++++ + +++ +++ + + 45 6 + + + ++ +++ + + 4 ++ + + ++ + + +++ 29 + + ++ ++ + + 12 + + 0 1 2
51
12 2 29 0 1 2 45
distance de Cook
t
1
10
20
Index
30
40
50
Fig. 4.6 Exemple du point levier (numro 51). Les points associs aux 8 plus grandes valeurs de la distance de Cook sont numrots ainsi que leurs distances de Cook et leurs rsidus studentiss (par VC). La droite en trait plein est la droite ajuste par MCO.
Exemple (suite). En utilisant les mmes 50 points et en remplaant simplement le point levier 51 par un point franchement aberrant, mais non levier, nous voyons que ce nouveau point 51 est bien aberrant (gure 4.7), son rsidu t tant trs lev. La distance de Cook, malgr la position de ce 51 point 51 lintrieur du nuage des x, est leve et ceci uniquement cause de son caractre aberrant. Bien entendu un point peut tre la fois levier et aberrant. Le seuil de fp,np(0.5) semble assez conservateur : en pratique, on pourrait en eet se poser la question de la suppression de ce point 51.
49 + 3 44 + + +++ + + + + + ++ + + + + + 45 + ++++ + + 6 + + + + + + + 4 + + + + ++ 29 + + + ++ ++ 5 +1 12 ++ + + + 0.0 0.5 1.0 1.5 2.0 2.5
6 4
44
49
0.00 0.05 0.10 0.15 0.20 0.25 0.30
51
12 29
distance de Cook
45
49 6 4 45 44 12 29
51 0.0 0.5 1.0 1.5 2.0 2.5
10
20
30
40
50
Index
Fig. 4.7 Exemple du point fortement aberrant (numro 51). Les points associs aux 8 plus grandes valeurs de la distance de Cook sont numrots ainsi que leurs distances de Cook et leurs rsidus studentiss (par VC). La droite en trait plein est la droite ajuste par MCO.
Rgression
58
Chapitre 4. Validation du modle Une autre mesure dinuence est donne par la distance de Welsh-Kuh. La dnition de la distance de Cook pour lobservation i fait intervenir la variance estime de lerreur 2 . Il faut donc utiliser 2 . Si lon utilise lestimateur classique 2 , alors une observation inuente risque un estimateur de de perturber lestimation 2 . Il est donc prfrable dutiliser (i) , obtenu pas validation croise. 2 Lcart de Welsh-Kuh, souvent appel DFFITS par les logiciels, est donc dni par : W ki = |t | i hii , 1 hii
et permet dvaluer lcart standardis entre lestimation btie sur toute les observations et lestimation btie sur toutes les observations sauf la ime . Cet cart de Welsh-Kuh mesure ainsi linuence simultane dune observation sur lestimation des paramtres et 2 . Si lcart de Welsh-Kuh est suprieure 2 p + 1/ n en valeur absolue, alors il est conseill danalyser les observations correspondantes.
Rgression
Annexe A
Annales
Universit de Rennes 2 Master de Statistiques Dure : 2 heures Vendredi 18 Dcembre 2009 Calculatrice autorise Aucun document
Contrle de Rgression Linaire
I. La hauteur des eucalyptus

28
26
24
22
20
18
16
14
12
hauteur
Circonfrence
10 20 30 40 50 60 70 80
Fig. A.1 Nuage de points pour les eucalyptus.
59
60
Chapitre A. Annales On souhaite expliquer la hauteur y (en mtres) dun arbre en fonction de sa circonfrence x (en centimtres) 1m30 du sol. On a relev n = 1429 couples (xi , yi ), le nuage de points tant reprsent gure A.1. On a obtenu (, y ) = (47, 3; 21, 2) et : x
n i=1 n n
(xi x)2 = 102924
i=1
(yi y )2 = 8857
i=1
(xi x)(yi y ) = 26466
1. Calculer la droite des moindres carrs pour le modle y = 1 + 2 x + et la reprsenter sur la gure A.1. 2. Calculer le coecient de dtermination R2 . Commenter la qualit de lajustement des donnes au modle. 3. Avec ces estimateurs, la somme des carrs des rsidus vaut alors n (yi yi )2 = 2052. Si on i=1 suppose les perturbations i gaussiennes, indpendantes et de mme variance 2 , en dduire un estimateur non biais 2 de 2 . 2 de la variance de . 1 4. Donner un estimateur
1
5. Tester lhypothse H0 : 1 = 0 contre H1 : 1 = 0. 6. Etant donn la forme du nuage de points, on veut expliquer la hauteur non seulement par la circonfrence, mais aussi par la racine carre de celle-ci : yi = 1 + 2 xi + 3 xi + i . Pour 3 , on a obtenu 3 = 10 et 3 = 0, 78. Tester lhypothse H0 : 3 = 0 contre H1 : 3 = 0. II. Modle deux variables explicatives On considre le modle de rgression suivant : yi = 1 + 2 xi,2 + 3 xi,3 + i , 1 i n.
on a observ :
Les xi,j , sont des variables exognes du modle, les i sont des variables alatoires indpendantes, de loi normale centre admettant la mme variance 2 . En posant : 1 x1,2 x1,3 y1 . . . et Y = . , . . X= . . . . . . 1 xn,2 xn,3 yn 30 20 0 X X = 20 20 0 , 0 0 10 15 X Y = 20 , 10
Y Y = 59.5.
1. Dterminer la valeur de n, la moyenne des xi,3 , le coecient de corrlation des xi,2 et des xi,3 . 2. Estimer 1 , 2 , 3 , 2 par la mthode des moindres carrs ordinaires. 3. Calculer pour 2 un intervalle de conance 95% et tester lhypothse 3 = 0.8 au niveau 10%. 4. Tester 2 + 3 = 3 contre 2 + 3 = 3, au niveau 5%. 5. Que vaut y , moyenne empirique des yi ? En dduire le coecient de dtermination ajust 2 Ra . Arnaud Guyader - Rennes 2 Rgression
61 6. Construire un intervalle de prvision 95% de yn+1 connaissant : xn+1,2 = 3 et xn+1,3 = 0, 5. III. Modle htroscdastique On considre n observations y1 , . . . , yn dune variable dnie sur une certaine population, et n kuplets xi (x = [xi1 , . . . , xik ]) correspondant aux valeurs prises par k autres variables sur les i mmes lments de cette population. On suppose que pour tout i, yi est la valeur prise par une variable alatoire Yi , et quil existe k pour lequel :
2 Yi N x , i i
1 i n,
o : reprsente un vecteur de I k : = [1 , . . . , k ] , R Les Yi sont supposes indpendantes entre elles. 2 Enn, les valeurs i des variances dpendent de lappartenance p sous-populations des lments sur lesquels les variables sont observes. En regroupant les indices des Yi selon ces sous-populations, on posera : I1 = {1, . . . , n1 }, indices des n1 lments de la premire sous-population ; I2 = {n1 + 1, . . . , n1 + n2 }, indices des n2 lments de la deuxime sous-population ; ... ; I = {n1 + . . . + n1 + 1, . . . , n1 + . . . + n1 + n }, indices des n lments de la -me souspopulation ; ... ; Ip = {n1 + . . . + np1 + 1, . . . , n}, indices des np lments de la dernire sous-population.
2 On admettra lhypothse suivante : si i I , i = 2 . Autrement dit, pour les n1 variables correspondant aux lments de la premire sous-population la valeur est 2 , pour les n2 variables correspondant aux lments de la deuxime sous-population la valeur est 2 2 , etc. , jusqu p 2 pour la variance des variables correspondant aux lments de la dernire sous-population. On veut estimer et 2 par la mthode du maximum de vraisemblance. On notera , 2 ces estimateurs. 2 1. Que vaut fYi (yi ), fYi reprsentant la densit de la loi normale N x , i i
2. Montrer que et 2 sont solutions du systme dquations :

p 1 =1 iI (yi p 1 =1
j = 1, . . . , k
x )2 = n 2 i iI (yi xi ) xij = 0.
(A.1)
3. Montrer que le systme (A.3) quivaut : A (Y X) 2 = n 2 X A2 (Y X) = 0. (A.2)
o . 2 reprsente la norme euclidienne usuelle dans I n , X la matrice (n k) du plan R dexprience, Y le vecteur (n 1) des observations yi , A la matrice (n n) diagonale dont 1 llment (i, i) vaut l si i Il . 4. En supposant que X A2 X est inversible, exprimer et 2 . 5. Montrer que n 2 = V 6. En dduire que E V
2 2
, o V suit une loi gaussienne centre. est la trace de la matrice de variances-covariances de V .
7. Montrer que n 2 /(n k) est un estimateur sans biais de 2 . Rgression Arnaud Guyader - Rennes 2
62
Chapitre A. Annales 8. On note X la matrice (n k) forme par les lignes dindices I de X, suppose de rang plein, Y le vecteur colonne (n 1) des composantes dindices I de Y . En posant = (X X )1 X Y , montrer que est un estimateur sans biais de . 9. (Bonus) Que peut-on dire de la dirence des matrices de variances-covariances de et de ?
Rgression
63 Universit de Rennes 2 Master de Statistiques Dure : 2 heures
Vendredi 18 Dcembre 2009 Calculatrice autorise Aucun document
Contrle de Rgression Linaire
I. La hauteur des eucalyptus

Hauteur
+ + + + 25 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + 15 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + +
20
Circonfrence
30 40 50 60 70
Fig. A.2 Nuage de points, droite de rgression et courbe de rgression.
1. La mthode des moindres carrs ordinaires donne pour estimateur de 2 : 2 = Et pour estimateur de 1 :
n i=1 (xi x)(yi n (xi x)2 i=1
y)
0, 257.
1 = y 2 x 9, 04.
La droite des moindres carrs est reprsente gure A.2. 2. Le coecient de dtermination R2 est gal au carr du coecient de corrlation entre les variables x et y, ce qui donne : R2 = ( ( n (xi x)(yi y ))2 i=1 n 2 ) ( n (y y )2 ) i=1 (xi x) i=1 i 0, 768.
On en conclut que 77% de la variance des hauteurs yi des eucalyptus est explique par la circonfrence 1m30 du sol. Ce modle de rgression linaire simple semble donc ecace. Rgression Arnaud Guyader - Rennes 2
64 3. Un estimateur non biais 2 de 2 est tout simplement : 2 =

n i=1 (yi
Chapitre A. Annales
yi )2 = n2
n i=1 (yi
yi )2 1, 438. 1427
4. Un estimateur 1 de la variance de 1 est alors donn par : 2 1 = 2 2 n

n 2 i=1 xi n 2 i=1 (xi x)
= 2
n2 + n (xi x)2 x i=1 0, 032. n 2 n i=1 (xi x)
5. On sait que lestimateur centr et normalis de 1 suit une loi de Student (n 2) = 1427 degrs de libert : 1 1 T1427 , 1
1 donc sous lhypothse H0 : 1 = 0, ceci se simplie en 1 T1427 , et cette statistique de test donne ici : 9, 04 50, 5 2. t = T () 0, 032
Une loi de Student 1427 degrs de liberts se comportant comme une loi normale centre rduite, il est clair que la probabilit critique associe au quantile 50, 5 est innitsimale, donc on rejette lhypothse H0 selon laquelle lordonne lorigine serait nulle. 6. De mme, on sait que sous H0 : 3 Tn3 = T1426 , 3 ce qui donne ici : t = T () = 10 12, 8. 0, 78
Ici encore, on rejette H0 sans hsiter. A titre indicatif, la courbe des moindres carrs est reprsente gure A.2. II. Modle deux variables explicatives On considre le modle de rgression suivant : yi = 1 + 2 xi,2 + 3 xi,3 + i , 1 i n.
on a observ :
Les xi,j , sont des variables exognes du modle, les i sont des variables alatoires indpendantes, de loi normale centre admettant la mme variance 2 . En posant : y1 1 x1,2 x1,3 . . et Y = . , . . . X= . . . . . . yn 1 xn,2 xn,3 30 20 0 X X = 20 20 0 , 0 0 10 15 X Y = 20 , 10
Y Y = 59.5.
Rgression
65 1. La valeur de n se lit en haut gauche de la matrice X X, cest--dire n = (X X)1,1 = 30. De mme, la moyenne des xi,3 correspond : 1 30
30
xi,3 =
i=1
(X X)1,3 = 0. 30
Puisque les xi,3 sont centrs, le coecient de corrlation entre les deux variables x2 et x3 est alors : r2,3 =
30 i=1 xi,2 xi,3 30 i=1 (xi,2
xi,2 )2
30 2 i=1 xi,3
(X X)2,3
30 i=1 (xi,2
xi,2 )2
30 2 i=1 xi,3
= 0.
2. La mthode des moindres carrs ordinaires donne pour = [1 , 2 , 3 ] lestimateur suivant : 0.5 0.1 0.1 0 15 = (X X)1 X Y = 0.1 0.15 0 20 = 1.5 . 10 1 0 0 0.1 Y X n3
2
Un estimateur non biais 2 de 2 scrit : 2 = ce qui scrit encore : 2 = 3. Puisquon sait que :
X 27
Y Y Y X(X X)1 X Y = 1. 27
2 2 2 2 Tn3 = T27 , = 2 (X X)1 2,2 on en dduit quun intervalle de conance 95% pour 2 est : I(2 ) = 2 t27 (0.975) cest--dire : (X X)1 ; 2 + t27 (0.975) 2,2 (X X)1 , 2,2
I(2 ) 1.5 2.05 0.15; 1.5 + 2.05 0.15 [0.71; 2.29].
Pour tester lhypothse H0 : 3 = 0.8 contre H1 : 3 = 0.8 au niveau 10%, on calcule de mme un intervalle de conance 90% de 3 : I(3 ) = 3 t27 (0.95) ce qui donne : (X X)1 ; 3 + t27 (0.95) 3,3 (X X)1 , 3,3
I(3 ) 1 1.70 0.1; 1 + 1.70 0.1 [0.46; 1.54],
donc on accepte au niveau 10% lhypothse selon laquelle 3 = 0.8. 4. On sait que (2 + 3 ) (2 + 3 ) T27 , 2 + 3 Rgression Arnaud Guyader - Rennes 2
66 avec : 2 + 3 = 2 + 2Cov(2 , 3 ) + 3 = 2 2
Chapitre A. Annales
(X X)1 + 2(X X)1 + (X X)1 , 2,2 2,3 3,3
cest--dire 2 +3 = 0.5. Donc un intervalle de conance 95% pour 2 + 3 est : I(2 + 3 ) = [2.5 0.5t27 (0.975); 2.5 + 0.5t27 (0.975)] [1.47; 3.53]. Par consquent, au niveau 5%, on accepte H0 : 2 + 3 = 3 contre H1 : 2 + 3 = 3. 5. La moyenne empirique des yi se dduit de la premire composante du vecteur X Y , donc 2 y = 15/30 = 0.5. Par dnition, le coecient de dtermination ajust Ra vaut :
2 Ra = 1
n1 Y Y n p Y y
2 Ra = 1
2 2
= 1 (n 1)
2 Y y
donc :
6. En notant x n+1 = [1, 3, 0.5], la valeur prdite pour yn+1 est : 9 yn+1 = x = , n+1 2 et un intervalle de prvision 95% pour yn+1 est : IC(yn+1 ) = yn+1 t27 (0.975) 1 + x (X X)1 xn+1 , n+1
29 0.44. Y Y 302 y
ce qui donne numriquement IC(yn+1 ) [1.69; 7.31]. III. Modle htroscdastique

2 1. Par dnition de la loi normale N x , i , on a tout simplement : i
fYi (yi ) =
1
2 2i
exp
(yi x )2 i 2 2i
2. Les variables Yi tant indpendantes, la densit jointe fY (y) du n-uplet Y = (Y1 , . . . , Yn ) est le produit des densits fYi (yi ), ce qui donne pour la vraisemblance : p )2 (yi xi 1 , L(y, , 2 ) = fY (y) = exp 2 n/2 n1 . . . np 2 (2) p 1
=1 iI
qui scrit encore :
L(y, , 2 ) =
1 (2 2 )n/2 1n1 . . . p np
do pour la log-vraisemblance :
2
exp
1 2 2
p =1
iI
(yi x )2 , i
n 1 log L(y, , ) = c log 2 2 2 2 Arnaud Guyader - Rennes 2
p =1
iI
(yi x )2 , i Rgression
67 o c est une constante. Les estimateurs du maximum de vraisemblance sont obtenus en annulant les drives partielles de cette log-vraisemblance par rapport 1 , . . . , k et 2 . Pour tout j {1, . . . , k}, le calcul donne : 1 log L (y, , 2 ) = 2 j
p =1
iI
(yi x )xij . i
La drive partielle par rapport 2 scrit elle : log L n 1 (y, , 2 ) = 2 + 4 2 2 2

p =1
iI
(yi x )2 . i
On en dduit bien que et 2 sont les solutions du systme dquations : j = 1, . . . , k

p 1 =1 iI (yi p 1 =1
x )2 = n 2 i iI (yi xi ) xij = 0.
1 l
(A.3) si i Il , et en
3. En notant A la matrice (n n) diagonale dont llment (i, i) vaut remarquant que A est symtrique, il vient : A (Y X) cest--dire :
2
= (Y X) A A(Y X) = (Y X) A2 (Y X),
p
A (Y X)
[y1 x , . . . , yn x ]A2 [y1 x , . . . , yn x ] 1 n 1 n
=
=1
iI
y i x i
On en dduit :
p =1
iI
yi x i
= n 2
A (Y X)
= n 2 .
De la mme faon, on peut remarquer que : p 1 yi x xi1 , . . . , X A2 (Y X) = i

=1 iI
p =1
iI
Au nal, le systme (A.3) quivaut bien :
yi x xik . i (A.4)
A (Y X) 2 = n 2 X A2 (Y X) = 0. 4. La seconde quation du systme (A.4) scrit encore : X A2 X = X A2 Y. Puisque X A2 X est suppose inversible, lestimateur vaut : = X A2 X
1
X A2 Y.
Lestimateur 2 sen dduit immdiatement via la premire quation du systme (A.4) : 2 = Rgression 1 A Y X n
2
. Arnaud Guyader - Rennes 2
68 5. Daprs la question prcdente, on a : n 2 = A Y X

2
Chapitre A. Annales
= V
en notant V = A Y X = AY AX . Il sut alors dcrire : (AX) = AX X A2 X

1
X A2 Y = (AX)((AX) (AX))1 (AX) (AY ),
pour comprendre que le vecteur (AX) nest rien dautre que la projection orthogonale du vecteur AY sur le sous-espace M de n engendr par les colonnes de la matrice AX. Notons au passage que ce sous-espace est de dimension k puisque, par hypothse, la matrice X A2 X est inversible. Le vecteur AY tant de loi N (AX, 2 In ), nous sommes exactement dans le cadre dapplication du thorme de Cochran. En notant respectivement P et P les matrices de projection sur M et M , celui-ci assure que : V = P AX N (P AX, 2 P ) = N (0, 2 P ). Ainsi V suit bien une loi gaussienne centre. 6. Puisque V
2
est un scalaire, il est gal sa trace, ce qui donne : V

2
Tr
Tr V V
et puisque pour toute matrice A, Tr(A A) = Tr(AA ), il en dcoule : V

2
Tr V V
Il reste noter dune part que les oprateurs de trace et desprance commutent, et dautre part que V est centr pour obtenir : V
2
= Tr
VV
= Tr (Var(V )) .
7. On dduit des deux questions prcdentes que : 2 = 1 n V

2
1 Tr (Var(V )) , n
or V N (0, 2 P ), o P est la matrice de projection orthogonale sur un sous-espace de dimension (n k), donc Tr(P ) = n k, et : 2 = nk 2 , n
8. Avec les notations du texte, on a Y = X + , o N (0, 2 I ). Il vient donc :

= X X 1 X [Y ] = X X 1 X X = .
ce qui revient dire que n 2 /(n k) est un estimateur sans biais de 2 .
Ainsi, pour tout {1, . . . , p}, est un estimateur sans biais de . Arnaud Guyader - Rennes 2 Rgression
69 9. Puisque AX est la projection orthogonale du vecteur AY N (AX, 2 In ) sur le sousespace M, nous savons que : Var() = 2 ((AX) (AX))1 = 2 X A2 X
1
De la mme faon, puisque X est la projection orthogonale du vecteur Y N (X , 2 In ) sur le sous-espace M engendr par les colonnes de X , la matrice de covariance de lestimateur vaut : 1 X 1 2 X 2 . = Var( ) = X X La matrice X / correspondant aux n lignes dindices I de la matrice AX, notons Z la matrice (n n ) k des autres lignes de AX. On a donc : X X (AX) (AX) = + Z Z . En particulier, pour tout vecteur u de
k , on a :
2
u Z Z u = Z u
0,
donc :
X X u u u (AX) (AX)u, ce qui scrit en terme de relation dordre pour les matrices symtriques : X X (AX) (AX),
les matrices des deux membres tant toutes deux symtriques dnies positives. Il reste maintenant remarquer que, de faon gnrale, si B et C sont deux matrices symtriques dnies positives, avec B C, alors C 1 B 1 . En eet, dire que B C revient dire que les valeurs propres de (C B) sont toutes suprieures ou gales 0, donc il en va de mme pour la matrice B 1/2 (C B)B 1/2 = B 1/2 CB 1/2 I. Ceci signie que les valeurs propres de la matrice B 1/2 CB 1/2 sont toutes suprieures ou gales 1, ce qui implique que celles de sa matrice inverse sont toutes infrieures ou gales 1, ce qui scrit encore B 1/2 C 1 B 1/2 I. Or cette dernire relation a pour consquence C 1 B 1 . Appliqu dans notre contexte, ce rsultat donne : ((AX) (AX))1 X X
1
do lon dduit lingalit entre matrices de covariance : Var() Var( ). En dautres termes, est un estimateur plus prcis que , ce qui na rien dtonnant vu que sa construction utilise (n n ) observations de plus que celle de .
Rgression
Annexe B
Rappels dalgbre
Nous ne considrons ici que des matrices relles. Nous notons A une matrice et A sa transpose.
B.1
Quelques dnitions
Une matrice A est inversible sil existe une matrice B telle que AB = BA = I. On note B = A1 . La matrice carre A est dite : symtrique si A = A, singulire si det(A) = 0, inversible si det(A) = 0, idempotente si AA = A, orthogonale si A A = AA = I. dnie positive si x Ax > 0 pour tout x = 0. semi dnie positive si x Ax 0 pour tout x = 0. Le polynme caractristique est det(I A). Les valeurs propres sont les solutions de det(I A) = 0. Un vecteur propre associ la valeur propre est une solution non nulle de Ax = x.
B.2
B.2.1
Quelques proprits
Les matrices n p
(A + B) = A + B et (AB) = B A . Le rang dune matrice Anp est la plus petite des dimensions des 2 sous-espaces engendrs par les lignes et par les colonnes de A. 0 rang(A) min(n, p). rang(A) = rang(A ). rang(AB) min(rang(A), rang(B)). rang(BAC) = rang(A) si B et C sont inversibles. rang(AA ) = rang(A A) = rang(A). Pour p n, si A est de rang p, alors A A est inversible.
B.2.2
Les matrices carres n n
Soit A et B des matrices carres de taille n n de terme courant aij pour i et j variant de 1 n. tr(A) = n aii . i=1 tr(A + B) = tr(A) + tr(B), tr(AB) = tr(BA) et tr(A) = tr(A). 71
72
Chapitre B. Rappels dalgbre

n 2 tr(AA ) = tr(A A) = n i=1 j=1 aij . det(AB) = det(A) det(B). Si det(A) = 0, la matrice est inversible, dinverse note A1 , avec AA1 = A1 A = I, (A1 ) = (A )1 , (AB)1 = B 1 A1 et det(A1 ) = 1/ det(A). La trace et le dterminant ne dpendent pas des bases choisies.
B.2.3
Les matrices symtriques
Soit A une matrice carre symtrique de taille n n : les valeurs propres de A sont relles. les vecteurs propres de A associs des valeurs propres direntes sont orthogonaux. si une valeur propre est de multiplicit k, il existe k vecteurs propres orthogonaux qui lui sont associs. la concatnation de lensemble des vecteurs propres orthonorms forme une matrice orthogonale P . Comme P = P 1 , la diagonalistation de A scrit simplement P AP = diag(1 , , n ). tr(A) = n i et det(A) = n i . i=1 i=1 rang(A) = nombre de valeurs propres non nulles. les valeurs propres de A2 sont les carrs des valeurs propres de A et ces 2 matrices ont les mmes vecteurs propres. les valeurs propres de A1 (si cette matrice existe) sont les inverses des valeurs propres de A et ces 2 matrices ont les mmes vecteurs propres.
B.2.4
Les matrices semi-dnies positives
Soit A une matrice carre symtrique de taille n n : La matrice A est semi-dnie positive (SDP) si x n , x Ax 0. La matrice A est dnie positive (DP) si x n {0}, x Ax > 0. Les valeurs propres dune matrice SDP sont toutes positives ou nulles (et rciproquement). Si A est SDP et inversible, A est forcment dnie positive. Toute matrice A de la forme A = B B est SDP. En eet x n , x Ax = x B Bx = (Bx) Bx = Bx 2 0. Toute matrice de projecteur orthogonal est SDP. En eet, les valeurs propres dun projecteur valent 0 ou 1. Si B est SDP, alors A BA est SDP. Si A est DP, B SDP alors A1 (A + B)1 est SDP.
B.3
Proprits des inverses
Soit M une matrice symtrique inversible de taille p p et u et v deux vecteurs de taille p. Nous supposerons que u M 1 v = 1, alors nous avons linverse suivante : M + uv
1
= M 1
M 1 uv M 1 . 1 + u M 1 v
(B.1)
Soit M une matrice inversible telle que : M Arnaud Guyader - Rennes 2 = T V U W Rgression
B.4. Proprits des projections avec T inversible, alors Q = W V T 1 U est inversible et linverse de M est : M 1 = T 1 + T 1 U Q1 V T 1 T 1 U Q1 Q1 V T 1 Q1 .
73
B.4
B.4.1
Proprits des projections

Gnralits
Une matrice carre idempotente et symtrique P est une matrice de projection orthogonale sur un sous-espace de n , not M : P est un projecteur orthogonal si le produit scalaire P y, y P y = 0 pour tout y de n . les valeurs propres dune matrice idempotente ne peuvent tre gales qu 0 ou 1. le rang dune matrice idempotente est gal sa trace. tr(P ) est gal la dimension de M. la matrice (I P ) est la matrice de projection orthogonale sur M .
y Py Py
B.4.2
Exemple de projection orthogonale
Soit X = [X1 , , Xp ] la matrice (n, p), de rang p, des p variables explicatives du modle linaire. Soit (X) le sous-espace engendr par ces p vecteurs linairement indpendants et PX la matrice de projection orthogonale sur (X). Le vecteur (y PX y) doit tre orthogonal tout vecteur de (X), or tous les vecteurs de (X) sont de la forme Xu. En particulier il existe un vecteur b tel que PX y = Xb. Il faut donc que Xu, y PX y = 0 pour tout vecteur u. En dveloppant, nous obtenons X y = X PX y = X Xb. X X est inversible donc b = (X X)1 X y. Ainsi PX = X(X X)1 X est la matrice de projection orthogonale sur (X).
B.4.3
Trace et lments courants
Soit PX de terme courant hij la matrice de la projection orthogonale sur lespace engendr par les colonnes de X, nous avons alors : 1. tr(PX ) = hii = p,
i j
2. tr(PX ) = tr(PX PX ), cest--dire 3. 0 hii 1 pour tout i,
h2 = p, ij
5. si hii = 1 alors hij = 0 pour tout j dirent de i. 6. si hii = 0, alors hij = 0 pour tout j dirent de i. Rgression Arnaud Guyader - Rennes 2
4. 0.5 hij 0.5 pour tout j dirent de i,
74
Chapitre B. Rappels dalgbre La trace dun projecteur vaut la dimension de lespace sur lequel seectue la projection, donc tr(PX ) = p. Le second point dcoule de la proprit P 2 = P . Les matrices PX et PX PX tant gales, nous avons (PX )ii gal (PX PX )ii . Cela scrit :
n
hii =
k=1
hik hki
n
= h2 + ii
k=1,k=i n
h2 ik h2 . ik
hii (1 hii ) =
k=1,k=i
La dernire quantit de droite de lgalit est positive, donc le troisime point est dmontr. En nous servant de cette criture les deux derniers points sont aussi dmontrs. Nous pouvons crire :
n
hii (1 hii ) = h2 + ij
h2 . ik
k=1,k=i,j
La quantit de gauche est maximale lorsque hii = 0.5 et vaut alors 0.25. Le quatrime point est dmontr.
B.5
Drivation matricielle
Soit f une fonction relle direntiable de p dans . Le gradient de f au point x est par dnition : (f ) = grad(f ) = f f (x), , x1 xp (x) .
Le hessien de f est la matrice carre de dimension p p, souvent note 2 f ou H(f ), de terme 2f gnral H(f )ij (x) = xi xj (x). Si f (u) = a u o a est un vecteur de taille p, alors (f ) = a et H(f ) = 0. Si f (u) = u Au, alors (f ) = (A + A )u et H(f ) = A + A .
Rgression
Annexe C
Rappels de probabilit
C.1 Gnralits
Y vecteur alatoire de n est par dnition un vecteur de n dont les composantes Y1 , , Yn sont des variables alatoires relles. Lesprance du vecteur alatoire Y est [Y ] = [ [y1 ], , [yn ]] est un vecteur de Rn . La matrice de variance-covariance de Y a pour terme gnral Cov(Yi , Yj ). Cest une matrice de taille n n, qui scrit encore : Var(Y ) = Y = = (Y [Y ]) (Y [Y ])
(Y Y )
[Y ]( [Y ]) ,
Considrons une matrice xe (dterministe) A de taille n n et b un vecteur x de un vecteur alatoire de n , nous avons les galits suivantes [AY + b] = A [Y ] + b Var(AY + b) = Var(AY ) = AVar(Y )A . Si Y est un vecteur alatoire de euclidienne
n . Soit Y
n de matrice de variance-covariance Y , alors pour la norme
[ Y Nous avons les galits utiles suivantes tr( [Y Y ]) = [tr(Y Y )] =
(Y ) 2 ] = tr(Y ).
[tr(Y Y )] = tr(Y ) +
[Y ] [Y ].
C.2
Vecteurs alatoires gaussiens
Un vecteur alatoire Y est dit gaussien si toute combinaison linaire de ses composantes est une variable alatoire gaussienne. Ce vecteur admet alors une esprance et une matrice de variancecovariance Y . On dit que Y N (, Y ). Un vecteur gaussien Y de n desprance et de une matrice de variance-covariance Y inversible admet pour densit la fonction f (y) = 1 (2)n/2 1 exp (y ) 1 (y ) , Y 2 |det(Y )| 75 1 o y = [y1 , . . . , yn ] .
76
Chapitre C. Rappels de probabilit Les composantes dun vecteur gaussien Y = [y1 , , yn ] sont indpendantes si et seulement si Y est diagonale. Soit Y N (, Y ), alors (Y ) 1 (Y ) 2 . n Y Thorme C.1 (Cochran) Soit Y N (, 2 I), M un sous-espace de n de dimension p et P la matrice de projection orthogonale de n sur M. Nous avons les proprits suivantes : (i) PM Y N (P , 2 P ) ; (ii) les vecteurs P y et y P y sont indpendants ; (iii) P (Y ) 2 / 2 2 . p
Rgression
C.3. Tables des lois usuelles
77
C.3
Tables des lois usuelles
C.3.1
Loi Normale X N (0, 1)
Valeurs de Pr(X u) en fonction de u.

u 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 0 .5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 .9987 .9990 .9993 0.01 .5040 .5438 .5832 .6217 .6591 .6950 .7291 .7611 .7910 .8186 .8438 .8665 .8869 .9049 .9207 .9345 .9463 .9564 .9649 .9719 .9778 .9826 .9864 .9896 .9920 .9940 .9955 .9966 .9975 .9982 .9987 .9991 .9993 0.02 .5080 .5478 .5871 .6255 .6628 .6985 .7324 .7642 .7939 .8212 .8461 .8686 .8888 .9066 .9222 .9357 .9474 .9573 .9656 .9726 .9783 .9830 .9868 .9898 .9922 .9941 .9956 .9967 .9976 .9982 .9987 .9991 .9994 0.03 .5120 .5517 .5910 .6293 .6664 .7019 .7357 .7673 .7967 .8238 .8485 .8708 .8907 .9082 .9236 .9370 .9484 .9582 .9664 .9732 .9788 .9834 .9871 .9901 .9925 .9943 .9957 .9968 .9977 .9983 .9988 .9991 .9994 0.04 .5160 .5557 .5948 .6331 .6700 .7054 .7389 .7704 .7995 .8264 .8508 .8729 .8925 .9099 .9251 .9382 .9495 .9591 .9671 .9738 .9793 .9838 .9875 .9904 .9927 .9945 .9959 .9969 .9977 .9984 .9988 .9992 .9994 0.05 .5199 .5596 .5987 .6368 .6736 .7088 .7422 .7734 .8023 .8289 .8531 .8749 .8944 .9115 .9265 .9394 .9505 .9599 .9678 .9744 .9798 .9842 .9878 .9906 .9929 .9946 .9960 .9970 .9978 .9984 .9989 .9992 .9994 0.06 .5239 .5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .8554 .8770 .8962 .9131 .9279 .9406 .9515 .9608 .9686 .9750 .9803 .9846 .9881 .9909 .9931 .9948 .9961 .9971 .9979 .9985 .9989 .9992 .9994 0.07 .5279 .5675 .6064 .6443 .6808 .7157 .7486 .7794 .8078 .8340 .8577 .8790 .8980 .9147 .9292 .9418 .9525 .9616 .9693 .9756 .9808 .9850 .9884 .9911 .9932 .9949 .9962 .9972 .9979 .9985 .9989 .9992 .9995 0.08 .5319 .5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .8599 .8810 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .9980 .9986 .9990 .9993 .9995 0.09 .5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .8830 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 .9817 .9857 .9890 .9916 .9936 .9952 .9964 .9974 .9981 .9986 .9990 .9993 .9995
Rgression
78
Chapitre C. Rappels de probabilit
C.3.2
Loi de Student X T
@ p 0.5 @ @
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 80 100 200
Table des fractiles t (p) pour une loi de T : p = Pr {X t (p)}

0.6 0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.255 0.254 0.254 0.254 0.254 0.253 0.7 0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 0.540 0.539 0.538 0.537 0.536 0.535 0.534 0.534 0.533 0.533 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530 0.529 0.527 0.526 0.526 0.525 0.524 0.8 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.851 0.848 0.846 0.845 0.843 0.842 0.9 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.292 1.290 1.286 1.282 0.95 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.664 1.660 1.653 1.645 0.975 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.990 1.984 1.972 1.960 0.99 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.374 2.364 2.345 2.326 0.995 0.999 0.9995 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 63.656 318.289 636.578 9.925 22.328 31.600 5.841 10.214 12.924 4.604 7.173 8.610 4.032 5.894 6.869 3.707 5.208 5.959 3.499 4.785 5.408 3.355 4.501 5.041 3.250 4.297 4.781 3.169 4.144 4.587 3.106 4.025 4.437 3.055 3.930 4.318 3.012 3.852 4.221 2.977 3.787 4.140 2.947 3.733 4.073 2.921 3.686 4.015 2.898 3.646 3.965 2.878 3.610 3.922 2.861 3.579 3.883 2.845 3.552 3.850 2.831 3.527 3.819 2.819 3.505 3.792 2.807 3.485 3.768 2.797 3.467 3.745 2.787 3.450 3.725 2.779 3.435 3.707 2.771 3.421 3.689 2.763 3.408 3.674 2.756 3.396 3.660 2.750 3.385 3.646 2.704 3.307 3.551 2.660 3.232 3.460 2.639 3.195 3.416 2.626 3.174 3.390 2.601 3.131 3.340 2.576 3.090 3.290
Rgression
C.3. Tables des lois usuelles
79
C.3.3
Loi du Khi-deux ddl X 2
@ p 0.001 0.005 @ @
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 0.000 0.002 0.024 0.091 0.210 0.381 0.599 0.857 1.152 1.479 1.834 2.214 2.617 3.041 3.483 3.942 4.416 4.905 5.407 5.921 6.447 6.983 7.529 8.085 8.649 9.222 9.803 10.391 10.986 11.588 17.917 24.674 31.738 39.036 46.520 54.156 61.918
Table des fractiles c (p) pour une loi du 2 : p = Pr {X c (p)}

0.01 0.000 0.020 0.115 0.297 0.554 0.872 1.239 1.647 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.196 10.856 11.524 12.198 12.878 13.565 14.256 14.953 22.164 29.707 37.485 45.442 53.540 61.754 70.065 0.025 0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791 24.433 32.357 40.482 48.758 57.153 65.647 74.222 0.05 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 26.509 34.764 43.188 51.739 60.391 69.126 77.929 0.1 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.041 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 29.051 37.689 46.459 55.329 64.278 73.291 82.358 0.9 2.706 4.605 6.251 7.779 9.236 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256 51.805 63.167 74.397 85.527 96.578 107.56 118.498 0.95 3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 55.758 67.505 79.082 90.531 101.88 113.14 124.342 0.975 5.024 7.378 9.348 11.143 12.832 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979 59.342 71.420 83.298 95.023 106.63 118.14 129.561 0.99 6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892 63.691 76.154 88.379 100.42 112.33 124.12 135.807 0.995 7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 41.401 42.796 44.181 45.558 46.928 48.290 49.645 50.994 52.335 53.672 66.766 79.490 91.952 104.21 116.32 128.30 140.169 0.999 10.827 13.815 16.266 18.466 20.515 22.457 24.321 26.124 27.877 29.588 31.264 32.909 34.527 36.124 37.698 39.252 40.791 42.312 43.819 45.314 46.796 48.268 49.728 51.179 52.619 54.051 55.475 56.892 58.301 59.702 73.403 86.660 99.608 112.32 124.84 137.21 149.449 0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787 20.707 27.991 35.534 43.275 51.172 59.196 67.328
Rgression
80
Chapitre C. Rappels de probabilit
C.3.4
Loi de Fisher 1 , 2 ddl X F(1 ,2 )
HH
2
Table des fractiles f(1 ,2 ) ) pour une loi F(1 ,2 ) : 0.95 = Pr X f(1 ,2) (p)
H H
1 1 161 18.5 10.1 7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.6 4.54 4.49 4.45 4.41 4.38 4.35 4.32 4.3 4.28 4.26 4.24 4.23 4.21 4.2 4.18 4.17 4.15 4.13 4.11 4.1 4.08 4.07 4.06 4.05 4.04 4.03 4 3.98 3.96 3.95 3.94 3.86 3.84 2 199 19 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.1 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.47 3.44 3.42 3.4 3.39 3.37 3.35 3.34 3.33 3.32 3.29 3.28 3.26 3.24 3.23 3.22 3.21 3.2 3.19 3.18 3.15 3.13 3.11 3.1 3.09 3.01 3 3 216 19.2 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.24 3.2 3.16 3.13 3.1 3.07 3.05 3.03 3.01 2.99 2.98 2.96 2.95 2.93 2.92 2.9 2.88 2.87 2.85 2.84 2.83 2.82 2.81 2.8 2.79 2.76 2.74 2.72 2.71 2.7 2.62 2.6 4 225 19.2 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.9 2.87 2.84 2.82 2.8 2.78 2.76 2.74 2.73 2.71 2.7 2.69 2.67 2.65 2.63 2.62 2.61 2.59 2.58 2.57 2.57 2.56 2.53 2.5 2.49 2.47 2.46 2.39 2.37 5 230 19.3 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.2 3.11 3.03 2.96 2.9 2.85 2.81 2.77 2.74 2.71 2.68 2.66 2.64 2.62 2.6 2.59 2.57 2.56 2.55 2.53 2.51 2.49 2.48 2.46 2.45 2.44 2.43 2.42 2.41 2.4 2.37 2.35 2.33 2.32 2.31 2.23 2.21 6 234 19.3 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3 2.92 2.85 2.79 2.74 2.7 2.66 2.63 2.6 2.57 2.55 2.53 2.51 2.49 2.47 2.46 2.45 2.43 2.42 2.4 2.38 2.36 2.35 2.34 2.32 2.31 2.3 2.29 2.29 2.25 2.23 2.21 2.2 2.19 2.12 2.1 7 237 19.4 8.89 6.09 4.88 4.21 3.79 3.5 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.66 2.61 2.58 2.54 2.51 2.49 2.46 2.44 2.42 2.4 2.39 2.37 2.36 2.35 2.33 2.31 2.29 2.28 2.26 2.25 2.24 2.23 2.22 2.21 2.2 2.17 2.14 2.13 2.11 2.1 2.03 2.01 8 239 19.4 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.7 2.64 2.59 2.55 2.51 2.48 2.45 2.42 2.4 2.37 2.36 2.34 2.32 2.31 2.29 2.28 2.27 2.24 2.23 2.21 2.19 2.18 2.17 2.16 2.15 2.14 2.13 2.1 2.07 2.06 2.04 2.03 1.96 1.94 9 241 19.4 8.81 6 4.77 4.1 3.68 3.39 3.18 3.02 2.9 2.8 2.71 2.65 2.59 2.54 2.49 2.46 2.42 2.39 2.37 2.34 2.32 2.3 2.28 2.27 2.25 2.24 2.22 2.21 2.19 2.17 2.15 2.14 2.12 2.11 2.1 2.09 2.08 2.07 2.04 2.02 2 1.99 1.97 1.9 1.88 10 242 19.4 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.6 2.54 2.49 2.45 2.41 2.38 2.35 2.32 2.3 2.27 2.25 2.24 2.22 2.2 2.19 2.18 2.16 2.14 2.12 2.11 2.09 2.08 2.06 2.05 2.04 2.03 2.03 1.99 1.97 1.95 1.94 1.93 1.85 1.83 15 246 19.4 8.7 5.86 4.62 3.94 3.51 3.22 3.01 2.85 2.72 2.62 2.53 2.46 2.4 2.35 2.31 2.27 2.23 2.2 2.18 2.15 2.13 2.11 2.09 2.07 2.06 2.04 2.03 2.01 1.99 1.97 1.95 1.94 1.92 1.91 1.9 1.89 1.88 1.87 1.84 1.81 1.79 1.78 1.77 1.69 1.67 20 248 19.4 8.66 5.8 4.56 3.87 3.44 3.15 2.94 2.77 2.65 2.54 2.46 2.39 2.33 2.28 2.23 2.19 2.16 2.12 2.1 2.07 2.05 2.03 2.01 1.99 1.97 1.96 1.94 1.93 1.91 1.89 1.87 1.85 1.84 1.83 1.81 1.8 1.79 1.78 1.75 1.72 1.7 1.69 1.68 1.59 1.57 30 250 19.5 8.62 5.75 4.5 3.81 3.38 3.08 2.86 2.7 2.57 2.47 2.38 2.31 2.25 2.19 2.15 2.11 2.07 2.04 2.01 1.98 1.96 1.94 1.92 1.9 1.88 1.87 1.85 1.84 1.82 1.8 1.78 1.76 1.74 1.73 1.72 1.71 1.7 1.69 1.65 1.62 1.6 1.59 1.57 1.48 1.46 40 251 19.5 8.59 5.72 4.46 3.77 3.34 3.04 2.83 2.66 2.53 2.43 2.34 2.27 2.2 2.15 2.1 2.06 2.03 1.99 1.96 1.94 1.91 1.89 1.87 1.85 1.84 1.82 1.81 1.79 1.77 1.75 1.73 1.71 1.69 1.68 1.67 1.65 1.64 1.63 1.59 1.57 1.54 1.53 1.52 1.42 1.39 50 252 19.5 8.58 5.7 4.44 3.75 3.32 3.02 2.8 2.64 2.51 2.4 2.31 2.24 2.18 2.12 2.08 2.04 2 1.97 1.94 1.91 1.88 1.86 1.84 1.82 1.81 1.79 1.77 1.76 1.74 1.71 1.69 1.68 1.66 1.65 1.63 1.62 1.61 1.6 1.56 1.53 1.51 1.49 1.48 1.38 1.35 60 252 19.5 8.57 5.69 4.43 3.74 3.3 3.01 2.79 2.62 2.49 2.38 2.3 2.22 2.16 2.11 2.06 2.02 1.98 1.95 1.92 1.89 1.86 1.84 1.82 1.8 1.79 1.77 1.75 1.74 1.71 1.69 1.67 1.65 1.64 1.62 1.61 1.6 1.59 1.58 1.53 1.5 1.48 1.46 1.45 1.35 1.32 80 253 19.5 8.56 5.67 4.41 3.72 3.29 2.99 2.77 2.6 2.47 2.36 2.27 2.2 2.14 2.08 2.03 1.99 1.96 1.92 1.89 1.86 1.84 1.82 1.8 1.78 1.76 1.74 1.73 1.71 1.69 1.66 1.64 1.62 1.61 1.59 1.58 1.57 1.56 1.54 1.5 1.47 1.45 1.43 1.41 1.3 1.27 100 253 19.5 8.55 5.66 4.41 3.71 3.27 2.97 2.76 2.59 2.46 2.35 2.26 2.19 2.12 2.07 2.02 1.98 1.94 1.91 1.88 1.85 1.82 1.8 1.78 1.76 1.74 1.73 1.71 1.7 1.67 1.65 1.62 1.61 1.59 1.57 1.56 1.55 1.54 1.52 1.48 1.45 1.43 1.41 1.39 1.28 1.24 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 32 34 36 38 40 42 44 46 48 50 60 70 80 90 100 500
Rgression
Annexe D
Quelques donnes
Date "19960422" "19960429" "19960506" "19960514" "19960521" "19960528" "19960605" "19960612" "19960619" "19960627" "19960704" "19960711" "19960719" "19960726" "19960802" "19960810" "19960817" "19960824" "19960901" "19960908" "19960915" "19960923" "19960930" "19970414" "19970422" "19970429" "maxO3" "T12" "T15" "Ne12" "N12" "S12" "E12" "W12" 63.6 13.4 15 7 0 0 3 0 89.6 15 15.7 4 3 0 0 0 79 7.9 10.1 8 0 0 7 0 81.2 13.1 11.7 7 7 0 0 0 88 14.1 16 6 0 0 0 6 68.4 16.7 18.1 7 0 3 0 0 139 26.8 28.2 1 0 0 3 0 78.2 18.4 20.7 7 4 0 0 0 113.8 27.2 27.7 6 0 4 0 0 41.8 20.6 19.7 8 0 0 0 1 65 21 21.1 6 0 0 0 7 73 17.4 22.8 8 0 0 0 2 126.2 26.9 29.5 2 0 0 4 0 127.8 25.5 27.8 3 0 0 5 0 61.6 19.4 21.5 7 6 0 0 0 63.6 20.8 21.4 7 0 0 0 5 134.2 29.5 30.6 2 0 3 0 0 67.2 21.7 20.3 7 0 0 0 7 87.8 19.7 21.7 5 0 0 3 0 96.8 19 21 6 0 0 8 0 89.6 20.7 22.9 1 0 0 4 0 66.4 18 18.5 7 0 0 0 2 60 17.4 16.4 8 0 6 0 0 90.8 16.3 18.1 0 0 0 5 0 104.2 13.6 14.4 1 0 0 1 0 70 15.8 16.7 7 7 0 0 0 Tab. D.1 Quelques donnes journalires sur Rennes. "Vx" "maxO3v" 9.35 95.6 5.4 100.2 19.3 105.6 12.6 95.2 -20.3 82.8 -3.69 71.4 8.27 90 4.93 60 -4.93 125.8 -3.38 62.6 -23.68 38 -6.24 70.8 14.18 119.8 13.79 103.6 -7.39 69.2 -13.79 48 1.88 118.6 -24.82 60 9.35 74.4 28.36 103.8 12.47 78.8 -5.52 72.2 -10.8 53.4 18 89 3.55 97.8 -12.6 61.4
81
82 Date "19970708" "19970715" "19970722" "19970730" "19970806" "19970813" "19970821" "19970828" "19970904" "19970912" "19970919" "19970926" "19980504" "19980511" "19980518" "19980526" "19980602" "19980609" "19980617" "19980624" "19980701" "19980709" "19980716" "19980724"
Chapitre D. Quelques donnes "maxO3" "T12" "T15" "Ne12" "N12" "S12" "E12" "W12" 96.2 26 27.3 2 0 0 5 0 65.6 23.5 23.7 7 0 0 0 3 109.2 26.3 27.3 4 0 0 5 0 86.2 21.8 23.6 6 4 0 0 0 87.4 24.8 26.6 3 0 0 0 2 84 25.2 27.5 3 0 0 0 3 83 24.6 27.9 3 0 0 0 2 59.6 16.8 19 7 0 0 0 8 52 17.1 18.3 8 5 0 0 0 73.8 18 18.3 7 0 5 0 0 129 28.9 30 1 0 0 3 0 122.4 23.4 25.4 0 0 0 2 0 106.6 13 14.3 3 7 0 0 0 121.8 26 28 2 0 4 0 0 116.2 24.9 25.8 2 0 0 5 0 81.4 18.4 16.8 7 0 0 0 4 88.6 18.7 19.6 5 0 0 0 5 63 20.4 16.6 7 0 0 0 8 104 19.6 21.2 6 0 0 0 3 88.4 23.2 23.9 4 0 4 0 0 83.8 19.8 20.3 8 0 0 5 0 56.4 18.9 19.3 8 0 0 0 4 50.4 19.7 19.3 7 0 0 0 5 79.2 21.1 21.9 3 4 0 0 0 Tab. D.2 Quelques donnes journalires sur Rennes. "Vx" "maxO3v" 16.91 87.4 -9.35 67.8 16.91 98.6 2.5 112 -7.09 49.8 -10.15 131.8 -5.52 113.8 -27.06 55.8 -3.13 65.8 -11.57 90.4 8.27 111.4 5.52 118.6 12.6 84 2.5 109.8 18 142.8 -14.4 80.8 -15.59 60.4 -22.06 79.8 -10.8 84.6 -7.2 92.6 17.73 40.2 -14.4 73.6 -17.73 59 9.26 55.2
Rgression

Régression Linéaire

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Régression Linéaire

Hochgeladen von

Copyright:

Verfügbare Formate

Universit de Rennes 2 Master de Statistique Anne 2009/2010 Premier Semestre

Table des matires

Arnaud Guyader - Rennes 2

La rgression linaire simple

Fig. 1.1 10 donnes journalires de Temprature et dozone.

l(yi f (xi )),

Moindres Carrs Ordinaires

Calcul des estimateurs de 1 et 2

n i=1 (xi x)yi . n 2 i=1 (xi x)

La premire quation donne :

do lon dduit immdiatement : 1 = y 2 x, (1.1)

Arnaud Guyader - Rennes 2

Chapitre 1. La rgression linaire simple

Quelques proprits des estimateurs 1 et 2

tandis que leur covariance vaut : Cov(1 , 2 ) = 2x . (xi x)2

(xi x)2 . Considrons

Cov(2 2 , 2 ) = Cov(2 , 2 ) Var(2 ) = do :

i (xi x) (xi x)2

Chapitre 1. La rgression linaire simple

Calcul des rsidus et de la variance rsiduelle

En dveloppant et en nous servant de lcriture vue plus haut :

1.2. Moindres Carrs Ordinaires

Chapitre 1. La rgression linaire simple

Fig. 1.3 Reprsentation de la projection dans lespace des variables.

Cas derreurs gaussiennes

Chapitre 1. La rgression linaire simple

Estimateurs du maximum de vraisemblance

La vraisemblance vaut L(1 , 2 , 2 ) = = 1 2 2 2 2 1

Rappels sur les lois usuelles

Lois des estimateurs et rgions de conance

An de faciliter la lecture de cette partie, considrons les notations suivantes : c =

2 x (xi x)2 n 2 (xi x)2

Arnaud Guyader - Rennes 2

14 B. Oui ; C. Pas obligatoirement. 2. La A. B. C.

Chapitre 1. La rgression linaire simple

Arnaud Guyader - Rennes 2

(xi x)(yi y ) = 3.77

Arnaud Guyader - Rennes 2

soit minimale (rappel : A

1. Que reprsente la norme matricielle [x, y] [, y ] x

dun point de vue gomtrique ?

(xi x)(yi y ) = 26466

Fig. 1.4 Nuage de points pour les eucalyptus.

5. Tester lhypothse H0 : 1 = 0 contre H1 : 1 = 0.

Arnaud Guyader - Rennes 2

La rgression linaire multiple

Tab. 2.1 10 donnes journalires de temprature, vent, nbulosit et ozone.

l(yi f (xi )), 17

2.2. Estimateurs des Moindres Carrs Ordinaires

Estimateurs des Moindres Carrs Ordinaires

j xij = arg min Y X 2 . p

Fig. 2.1 Reprsentation de X dans lespace des variables.

20 et la matrice de projection PX sur M(X) scrit :

Chapitre 2. La rgression linaire multiple

= 2 AX(X X)1 2 (X X)1 = 0.

Rsidus et variance rsiduelle

2.2. Estimateurs des Moindres Carrs Ordinaires Ici ceci donne :

[Y ] [] [Y ] = On utilise maintenant les expressions de et Y : Cov(, Y ) = Cov(, Y ) =

est un estimateur sans biais de 2 .

Preuve. Nous calculons ce qui donne :

et puisque pour toute matrice A, on a Tr(AA ) = Tr(A A) = [ 2] =

[Tr( )] = Tr( [ ]) = Tr(Var()) = Tr( 2 PX ).

Chapitre 2. La rgression linaire multiple