Beruflich Dokumente
Kultur Dokumente
Rgression Linaire
Olivier Martin
INRA Avignon, BioSP
1 / 48
Plan du cours
1
2 / 48
Cadre et objectifs
On dispose de 2 caractres X et Y . On distingue deux objectifs :
1
3 / 48
Cadre et objectifs
Dfinition : Pour deux variables X et Y , le coeff. de corrlation linaire
r = (X , Y ) vaut :
r = (X , Y ) =
cov (X , Y )
[1; 1]
X Y
4 / 48
Cadre et objectifs
100
cor (x , y ) = 0.8
20
cor (x , y ) = 0.87
80
15
60
y
10
40
20
10
10
cor (x , y ) = 0.7
cor (x , y ) = 0.8
30
25
20
15
10
5 / 48
Cadre et objectifs
1
n
Pn
1
n
Pn
i=1 (xi
i=1 (xi
x )(yi y )
x )2
r = (X , Y ) =
cov (X , Y )
[1; 1]
SX SY
6 / 48
Cadre et objectifs
Test sur le coef. de corrlation :
Dans le cas o X et Y sont supposs gaussiens, on peut raliser un test sur
le coeff de corrlation H0 : r = 0 contre H1 : r 6= 0. On utlise la statistique
R
n 2 Tn2
H0
1 R2
7 / 48
La rgression simple
Objectif : On souhaite expliquer les variations de la variable Y partir des
valeurs observes pour la variable x.
Le problme nest pas symtrique : les 2 variables nont pas le mme statut
Dfinition :
Y = variable expliquer ou rponse, suppose altaoire
x = variable explicative ou covariable ou rgresseur, suppose fixe
Modle :
Y = f (x ) + E
o E est un terme rsiduel altoire ou erreur.
(La rgression linaire)
8 / 48
La rgression simple
Donnes : On observe n individus (i = 1, ..., n).
Rgression linaire : On suppose que pour tout i :
Yi = a + bxi + Ei avec {Ei } i.i.d et N (0, 2 ).
Formulation quivalente : Les variables rponses {Yi } sont indpendantes
de lois respectives
Yi N (a + bxi , 2 )
Hypothses du modle statistique :
Lesprance de Yi dpend linairement de xi : E(Yi ) = a + bxi .
La variance des Yi est cste : V(Yi ) = V(Ei ) = 2 .
Les rponses et termes rsiduels sont gaussiens et indpendants
(La rgression linaire)
9 / 48
La rgression simple
Paramtres estimer : a, b, 2
Deux approches : maximum de vraisemblance ou moindres carrs
Lestimation par max. de vraisemblance ou moindres carrs sont deux
mthodes classiques pour lestimation. Ici, les estimations sont (quasi)
identiques.
Dans les 2 cas, on dfinit un critre qui mesure ladquation entre les
paramtres du modle et les donnes observes. On cherche alors les
paramtres qui maximisent ou minimisent ce critre.
10 / 48
La rgression simple
Le critre du maximum de vraisemblance
La densit pour la rponse Yi est :
"
1
(yi a bxi )2
f (yi ; a, b, ) = exp
2 2
2
11 / 48
La rgression simple
Le critre du maximum des moindres carrs (SCR)
On cherche les valeurs de a et b qui minimisent la somme des carrs des
rsidus, i.e. les carts entre les observations (Yi ) et les prdictions
(a + bxi ) du modle.
SCR(a, b) =
12 / 48
La rgression simple
Les estimateurs A et B de a et b P
)(xi
(Yi Y
x)
A = Y B
x et B = i P (x x )2
i
Les estimations a et b de a et b P
(y
y )(xi
x)
i i
x et b = P
a = y b
=
(x
x )2
i
cov (x ,y )
x2
1 X
(Yi A Bxi )2
n2 i
Lestimation
2 de la variance 2 est :
2 =
X
1 X
i ))2 = 1
(yi (
a + bx
2
n2 i
n2 i i
13 / 48
La rgression simple
Temp.
O3
23.8
115.4
16.3
76.8
27.2
113.8
7.1
81.6
25.1
115.4
27.5
125.0
19.4
83.6
19.8
75.2
32.2
136.8
20.7
102.8
130
cor(x,y)=0.839
120
110
100
i
Prdiction : a + bx
Droite de rgression : a + bx
i
Erreurs : ei = yi a bx
90
80
y=O3
10
15
20
25
30
x=Temp
14 / 48
La rgression simple
2
Les estimateurs A, B et Sn2
sont des variables alatoires.
15 / 48
La rgression simple
2n2
16 / 48
La rgression simple
Temp.
O3
23.8
115.4
16.3
76.8
27.2
113.8
7.1
81.6
25.1
115.4
27.5
125.0
19.4
83.6
19.8
75.2
32.2
136.8
20.7
102.8
130
120
a = 45 et
110
V(A)
= 13.805
b = 2.63 et V(B)
= 0.602
2
= 160.64 et
= 12.67
100
90
80
y=O3
10
15
20
25
30
x=Temp
17 / 48
La rgression simple
Rsultat de la rgression avec lm() sous R
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp
2.6306 0.6029 4.363 0.0024 **
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041,
Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
18 / 48
La rgression simple
Tests sur les paramtres
On veut tester H0 : b = 0 contre H1 : b 6= 0
Loi de B
B N (b, V(B)) Bb N (0, 1) Bb
Tn2
V(B)
V(B)
V(B)
Calcul de la p-valeur
V(B)
|) = 2 P(Tn2 < | b
|)
V(B)
19 / 48
La rgression simple
b = 2.63, V(B)
= 0.603 donc t =
2.63
0.603
= 4.36
a = 45.00, V(A)
= 13.805 donc t =
45
13.805
= 3.260
20 / 48
La rgression simple
Rsultat de la rgression avec lm() sous R
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp
2.6306 0.6029 4.363 0.0024 **
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041,
Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
21 / 48
La rgression simple
1
x )2
i
Prdiction
On peut prdire la rponse Y0 pour une valeur x0 de la covariable :
Y0 = A + Bx0 + E0
Y0 est une variable gaussienne telle que :
E(Y0 ) = a + bx0 et
x )2
0
+ 1]
V(Y0 ) = V(T0 ) + 2 = 2 [ n1 + P(x(x
x )2
i
22 / 48
La rgression simple
130
0
Prdiction : t0 = a + bx
120
110
Intervalle de confiance
:
p
[t0 tn2,1/2 V(T0 )]
100
90
Intervalle de prdiction
:
q
[t0 tn2,1/2 V(Y0 )]
80
y=O3
10
15
20
25
30
35
x=Temp
23 / 48
La rgression simple
Le coefficient dajustement ou
R2
P de dtermination
2
Somme des carrs totale
SCT =
SCM =
SCR =
Pi (Yi Y) 2
P i (Ti Y )2
i
(Yi Ti )
SCT SCR
SCR
SCM
=
=1
SCT
SCT
SCT
Remarque
Un bon ajustement linaire implique un R 2 proche de 1 (attention, la
rciproque est fausse). On montre la relation R 2 = 2 .
(La rgression linaire)
24 / 48
La rgression simple
P
SCT = i (Yi Y )2 = 4342.944
P
SCM = i (Ti Y )2 = 3057.806
P
SCR = i (Yi Ti )2 = 1285.138
R 2 = 3057.806/4342.944 0.704
R
En fait, SCM
SCR = 1R 2 . On retrouve donc le test sur le coeff. de corrlation
dfinie au dbut et le fait que (Tn2 )2 = F(1, n 2). Tester = 0 ou
b = 0 est en effet quivalent : pas de lien de linarit.
25 / 48
La rgression simple
2) =
0.704
10.704 (10
8) = 19.027
et
P(F(1, 8) > 19.027) = 0.0024
On a galement 2 = 0.8392 = 0.704 = R 2 .
26 / 48
La rgression simple
Rsultat de la rgression avec lm() sous R
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp
2.6306 0.6029 4.363 0.0024 **
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041,
Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
27 / 48
La rgression multiple
130
120
110
90
100
y=O3
80
10
15
20
25
30
35
x=Temp
28 / 48
La rgression multiple
Rgression quadratique
Le lien entre Y et la covariable est peut-tre une fonction plus complexe.
Exemples :
M1 : Yi = a + bxi + cxi2 + Ei avec {Ei } i.i.d. N (0, 2 )
M2 : Yi = a + bxi2 + Ei avec {Ei } i.i.d. N (0, 2 )
M3 : Yi = a + bxi + Ei avec {Ei } i.i.d. N (0, 2 )
Remarque :
Ces modles sont tous des modles linaires. Le modle M1 est un modle
de rgression multiple (plus de une covariable dans le modle).
Les modles M2 et M3 sont deux modles emboits (cas particuliers) de
M1 .
(La rgression linaire)
29 / 48
La rgression multiple
130
120
M1 : Yi = a + bxi + cxi2 + Ei
110
M2 : Yi = a + bxi2 + Ei
100
90
M3 : Yi = a + bxi + Ei
80
y=O3
10
15
20
25
30
35
x=Temp
30 / 48
La rgression multiple
Cas de plusieurs covariables x1 , ..., xp avec p < n
Dans le cas de plusieurs variables, la premire analyse consiste faire des
analyses descriptives des covariables. On peut utiliser par exemple les
commandes pairs() et boxplot() sous R.
Modle de rgression x1 , ..., xp
On pose le modle : Yi = a0 + a1 x1,i + ... + ap xp,i + Ei avec Ei N (0, 2 )
De mme que dans le cas du modle linaire simple :
On peut estimer les paramtres a0 , ..., ap et 2
Faire des tests sur les paramtres
Calculer le R 2
Faire un test sur le coef. de corrlation
...
(La rgression linaire)
31 / 48
La rgression multiple
32 / 48
La rgression multiple
Comparaison de modles de rgression
Attention, plus le nombre de variables sera grand et plus le R 2 sera grand.
On dfinit le R 2 ajust qui prend en compte le nombre de covariables.
Il existe galement des critres numriques tel que AIC (An information
criteria ou critre de Akaike) pour slectionner des modles. Ce critre est
adapt pour un nombre pas trop important de covariables (< 20)
Le R 2 et le R 2 ajust ne sont surtout pas les seuls critres regarder
pour comparer des modles. Lanalyse des rsidus, des points extrmes ou
aberrants est tout aussi importante.
33 / 48
La rgression multiple
Test pour la comparaison de modles de rgression
On souhaite comparer 2 modles emboits : Mq avec q covariables et
Mp avec p covariables (et la cste fait partie des 2 modles).
Pour effectuer cette comparaion, on pose le test :
H0 : le bon modle est Mq
H1 : le bon modle est Mp
avec la condition : q < p
34 / 48
La rgression multiple
> anova(lm(O3~Tp),lm(O3~Tp+I(Tp^2)))
Analysis of Variance Table
Model 1: O3 ~ Tp
Model 2: O3 ~ Tp + I(Tp^2)
Res.Df
RSS Df Sum of Sq
F Pr(>F)
1
8 1285.14
2
7 711.18 1
573.96 5.6494 0.04911 *
> anova(lm(O3[-4]~Tp[-4]),lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Analysis of Variance Table
Model 1:
Model 2:
Res.Df
1
7
2
6
O3[-4] ~ Tp[-4]
O3[-4] ~ Tp[-4] + I(Tp[-4]^2)
RSS Df Sum of Sq
F Pr(>F)
489.68
455.19 1
34.491 0.4546 0.5253
35 / 48
Validation du modle
Lanalyse des rsidus
On estime lerreur de lajustement par le rsidu Yi Ti . On reprsente en
abscisse xi et en ordonne Ei = Yi Ti . On peut galement placer yi en
abscisse et Ei = Yi Ti en ordonne. Le graphique ne doit montrer
aucune structure particulire.
10
10
Residus
10
10
15
20
Residus
10
15
20
Temp.
25
30
10
15
20
25
30
Temp
36 / 48
Validation du modle
Hypothses vrifies
60
80
40
20
Residus
Residus
20
40
Index
60
80
Index
Linarit fausse
Variance non-homogne
Residus
Residus
20
40
Index
60
80
20
40
Index
60
80
37 / 48
Validation du modle
Hypothse de variance homogne des rsidus
Lorsque une analyse des rsidus permet didentifier une variance
non-homogne, on peut raliser une transformation des variables Y ou xi .
Les transformations classiques sont la transformation
transformation log(.).
. ou la
38 / 48
Validation du modle
Normalit des rsidus
res=lm(03~Tp) ; qqnorm(res$residuals) ; qqline(res$residuals)
res2=lm(03~Tp^2) ; qqnorm(res2$residuals) ; qqline(res2$residuals)
Normal QQ Plot
Normal QQ Plot
10
10
Sample Quantiles
10
10
15
20
Sample Quantiles
1.5
1.0
0.5
0.0
0.5
Theoretical Quantiles
1.0
1.5
1.5
1.0
0.5
0.0
0.5
1.0
1.5
Theoretical Quantiles
39 / 48
Validation du modle
Influence de certains points
130
10
120
110
10
100
Residus
90
20
80
y=O3
10
15
20
x=Temp
25
30
10
15
20
25
30
Temp
40 / 48
Validation du modle
10
130
120
Residus
110
100
10
90
80
10
15
20
x=Temp
15
y=O3
25
30
35
20
25
30
Tp
41 / 48
Validation du modle
Influence de certains points
> summary(lm(O3~Tp))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 45.0044
13.8050
3.260
0.0115 *
Tp
2.6306
0.6029
4.363
0.0024 **
--Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
> summary(lm(O3[-4]~Tp[-4]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
7.9669
14.2699
0.558 0.594039
Tp[-4]
4.1184
0.5941
6.932 0.000225 ***
--Residual standard error: 8.364 on 7 degrees of freedom
Multiple R-squared: 0.8728, Adjusted R-squared: 0.8547
F-statistic: 48.05 on 1 and 7 DF, p-value: 0.0002248
42 / 48
43 / 48
> summary(lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -39.94750
72.59881 -0.550
0.602
Tp[-4]
8.24747
6.15501
1.340
0.229
I(Tp[-4]^2) -0.08554
0.12687 -0.674
0.525
--Residual standard error: 8.71 on 6 degrees of freedom
Multiple R-squared: 0.8818, Adjusted R-squared: 0.8424
F-statistic: 22.38 on 2 and 6 DF, p-value: 0.001651
>cor(Tp,Tp^2)
[1] 0.9762049
>cor(Tp[-4],Tp[-4]^2)
[1] 0.9949348
(La rgression linaire)
44 / 48
1 2y ,x2
2
Rp+1
Rp2
1 Rp2
45 / 48
46 / 48
La rgression multiple
Les tests sur les paramtres dans le cadre de la rgression multiple doivent
tre utiliss avec prcaution en raison des possibles coorlations entre les
variables.
On pourrait liminer des variables du modle sur la base de ces tests (les
variables aux coefficients significativement nuls). Mais cette procdure est
incorrecte. Il ne faut pas oublier que le test dun coefficient est effectu
alors que les autres variables sont fixes. Donc si deux variables sont trs
corrles, le test dun des deux coefficients peut tre non significatif
puisque linformation apporte par la variable teste existe dans lautre. On
ne peut donc rien conclure sur lestimation de ces coefficients et de leurs
significativit.
La question de la slction des variables doit faire lobjet dune analyse
approfondie base par exemple sur lanalyse des coeff. de corrlation
partielle.
(La rgression linaire)
47 / 48
48 / 48