Sie sind auf Seite 1von 48

Introduction la

Rgression Linaire
Olivier Martin
INRA Avignon, BioSP
(La rgression linaire) 1 / 48
Plan du cours
1
Cadre, rappels et objectifs
2
La rgression linaire simple
3
La rgression linaire multipe
4
Validation du modle, analyse des rsidus
5
Dicults en rgression multiple
(La rgression linaire) 2 / 48
Cadre et objectifs
On dispose de 2 caractres X et Y. On distingue deux objectifs :
1
On cherche savoir sil existe un lien entre X et Y
2
On cherche savoir si X a une inuence sur Y et ventuellement
prdire Y partir de X.
1
Liaison entre X et Y. On dnit un indice de liaison : coe. de
corrlation, statistique du Khi-2,...
Estimation : mesure de lintensit de la liaison
Test : Existence du lien
2
Infulence de x sur Y. On modlise linuence de x sur Y : rgression
logistique, analyse de la variance, rgression linaire,...
Estimation : description de linuence et prdiction
Test : validation dhypothse particulire : absence dinuence,
inlfuence linaire, quadratique,...
(La rgression linaire) 3 / 48
Cadre et objectifs
Dnition : Pour deux variables X et Y, le coe. de corrlation linaire
(X, Y) vaut :
(X, Y) =
cov(X, Y)

Y
[1; 1]
est une mesure symtrique qui mesure le lien linaire entre X et Y :
= 1 : X et Y sont proportionnels et varient en sens oppos
= 1 : X et Y sont proportionnels et varient dans le mme sens
= 0 : X et Y ne sont pas corrls
La corrlation nindique aucune causalit.
Proprits :
1
Si X et Y sont indpendants, alors (X, Y) = 0.
2
Si X et Y sont gaussiens, il y a quivalence entre indpendance et
corrlation nulle.
(La rgression linaire) 4 / 48
Cadre et objectifs
cor(x, y) = 0.87 cor(x, y) = 0.8
G
G
G
G
G
G
G
G
G
G
G
2 4 6 8 10
5
1
0
1
5
2
0
x
y
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
4 2 0 2 4 6 8 10
0
2
0
4
0
6
0
8
0
1
0
0
x
y
cor(x, y) = 0.7 cor(x, y) = 0.8
G
G
G
G
G
G
G
G
G
G
G
G
G
2 3 4 5 6 7 8
5
1
0
1
5
2
0
2
5
3
0
x
y
G
G
G
G
G G
G
G
G
G
G
G
G
G
G
G
2 3 4 5 6 7 8
2
3
4
5
6
7
8
x
y
(La rgression linaire) 5 / 48
Cadre et objectifs
Rappels variance et covariance empirique :
cov(X, Y) =
1
n

n
i =1
(x
i
x)(y
i
y)
S
2
X
=
1
n

n
i =1
(x
i
x)
2
(X, Y) =
cov(X, Y)
S
X
S
Y
[1; 1]
(La rgression linaire) 6 / 48
Cadre et objectifs
Test sur le coef. de corrlation :
Dans le cas o X et Y sont supposs gaussiens, on peut raliser un test
sur le coe de corrlation H
0
: = 0 contre H
1
: = 0. On utlise la
statistique
R

1 R
2

n 2
H
0
T
n2
o R
2
est le coe. de dtermination. (cf. plus loin dans le cours)
Corrlation partielle et multiple :
On dnit aussi la corrlation multiple entre une variables Y et p
variables X
1
, ..., X
p
.
Dans le cas de plusieurs variables, on dnit galement le coe. de
corrlation partiel pour sassurer que la corrlation entre 2 variables
nest pas due en ralit aux variations dune troisime variable.
(La rgression linaire) 7 / 48
La rgression simple
Objectif : On souhaite expliquer les variations de la variable Y partir des
valeurs observes pour la variable x.
Le problme nest pas symtrique : les 2 variables nont pas le mme statut
Dnition :
Y = variable expliquer ou rponse, suppose altaoire
x = variable explicative ou covariable ou rgresseur, suppose xe
Modle :
Y = f (x) + E
o E est un terme rsiduel altoire ou erreur.
(La rgression linaire) 8 / 48
La rgression simple
Donnes : On observe n individus (i = 1, ..., n).
Rgression linaire : On suppose que pour tout i :
Y
i
= a + bx
i
+ E
i
avec {E
i
} i.i.d et N(0,
2
).
Formulation quivalente : Les variables rponses {Y
i
} sont indpendantes
de lois respectives
Y
i
N(a + bx
i
,
2
)
Hypothses du modle statistique :
Lesprance de Y
i
dpend linairement de x
i
: E(Y
i
) = a + bx
i
.
La variance des Y
i
est cste : V(Y
i
) = V(E
i
) =
2
.
Les rponses et termes rsiduels sont gaussiens et indpendants
(La rgression linaire) 9 / 48
La rgression simple
Paramtres estimer : a, b,
2
Deux approches : maximum de vraisemblance ou moindres carrs
Lestimation par max. de vraisemblance ou moindres carrs sont deux
mthodes classiques pour lestimation. Ici, les estimations sont (quasi)
identiques.
Dans les 2 cas, on dnit un critre qui mesure ladquation entre les
paramtres du modle et les donnes observes. On cherche alors les
paramtres qui maximisent ou minimisent ce critre.
(La rgression linaire) 10 / 48
La rgression simple
Le critre du maximum de vraisemblance
La densit pour la rponse Y
i
est :
f (y
i
; a, b,
2
) =
1

2
exp

(y
i
a bx
i
)
2
2
2

Les donnes tant supposes indpendantes, la log-vraisemblance vaut :


L(a, b,
2
) =
n
2
log(2)
n
2
log(
2
)
1
2
2

i
(Y
i
a bx
i
)
2
Les estimateurs du max. de vraisemblance de a, b,
2
sont les valeurs qui
maximisent L(a, b,
2
). Les estimateurs sont obtenus partir des
ralisations y
i
: ce sont des variables altoires qui possdent une loi.
(La rgression linaire) 11 / 48
La rgression simple
Le critre du maximum des moindres carrs (SCR)
On cherche les valeurs de a et b qui minimisent la somme des carrs des
rsidus, i.e. les carts entre les observations (Y
i
) et les prdictions
(a + bx
i
) du modle.
SCR(a, b) =

i
(Y
i
a bx
i
)
2
On remarque que ce critre apparat dans la log-vraisemblance...
Proprit :
Les critres du max. de vraisemblance et des moindres carrs donnent les
mme estimateurs pour a et b. Le critre des moindres carrs nutilise pas
lhypothse de distribution gaussienne des erreurs.
(La rgression linaire) 12 / 48
La rgression simple
Les estimateurs A et B de a et b
A =

Y B x et B =

i
(Y
i

Y)(x
i
x)

i
(x
i
x)
2
Les estimations a et

b de a et b
a = y

b x et

b =

i
(y
i
y)(x
i
x)

i
(x
i
x)
2
=
cov(x,y)

2
x
Lestimateur de la variance
2
est donn par :
S
2
n2
=
1
n 2

i
(Y
i
A Bx
i
)
2
Lestimation
2
de la variance
2
est :

2
=
1
n 2

i
(y
i
a

bx
i
)
2
(La rgression linaire) 13 / 48
La rgression simple
Temp. 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.7
O3 115.4 76.8 113.8 81.6 115.4 125.0 83.6 75.2 136.8 102.8
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
G
G
G
G
G
G
G
G
G
G
cor(x,y)=0.839
les donnes (x
i
, y
i
)
a et

b les estimations
Prdiction : a +

bx
i
Droite de rgression : a +

bx
Erreurs : e
i
= y
i
a

bx
i
(La rgression linaire) 14 / 48
La rgression simple
Les estimateurs A, B et S
2
n2
sont des variables alatoires.
En utlisant lhypothse de loi gaussienne sur les erreurs E
i
, on obtient les
lois de ces estimateurs.
On peut alors raliser des tests sur les paramtres, dnir des intervalles de
conance, des intervalles de prdiction, comparer des modles de
rgression,...
(La rgression linaire) 15 / 48
La rgression simple
Moments des estimateurs :
A, B et S
2
n2
sont des estimateurs sans biais : E(A) = a, E(B) = b et de
variance :
V(A) =
2
[
1
n
+
x
2

i
(x
i
x)
2
] et V(B) =

2

i
(x
i
x)
2
.
Comme
2
est inconnu, on obtient des estimations de ces variances en
remplaant
2
par
2
.
Loi des estimateurs :
A N(a, V(A))
B N(b, V(B))
(n2)S
2
n2

2

2
n2
(La rgression linaire) 16 / 48
La rgression simple
Temp. 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.7
O3 115.4 76.8 113.8 81.6 115.4 125.0 83.6 75.2 136.8 102.8
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
G
G
G
G
G
G
G
G
G
G
a = 45 et

V(A) = 13.805

b = 2.63 et

V(B) = 0.602

2
= 160.64 et = 12.67
(La rgression linaire) 17 / 48
La rgression simple
Rsultat de la rgression avec lm() sous R
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
(La rgression linaire) 18 / 48
La rgression simple
Tests sur les paramtres
On veut tester H
0
: b = 0 contre H
1
: b = 0
Loi de B
B N(b, V(B))
Bb

V(B)
N(0, 1)
Bb

V(B)
T
n2
Statistique de test sous H
0
T =
B

V(B)

H
0
T
n2
Calcul de la p-valeur
p value = 2 P(T
n2
> |

b

V(B)
|)
(La rgression linaire) 19 / 48
La rgression simple
Test H
0
: b = 0 contre H
1
: b = 0

b = 2.63,

V(B) = 0.603 donc t =


2.63
0.603
= 4.36
p value = 2 P(T
n2
> |4.36|) = 0.0024
Test H
0
: a = 0 contre H
1
: a = 0
a = 45.00,

V(A) = 13.805 donc t =


45
13.805
= 3.260
p value = 2 P(T
n2
> |0.011|) = 0.0011
(La rgression linaire) 20 / 48
La rgression simple
Rsultat de la rgression avec lm() sous R
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
(La rgression linaire) 21 / 48
La rgression simple
1
Lajustement du modle calcul pour une covariable x
0
est
T
0
= A + Bx
0
.
T
0
est une variable gaussienne telle que :
E(T
0
) = a + bx
0
et V(T
0
) =
2
[
1
n
+
(x
0
x)
2

i
(x
i
x)
2
]
2
Prdiction
On peut prdire la rponse Y
0
pour une valeur x
0
de la covariable :

Y
0
= A + Bx
0
+ E
0

Y
0
est une variable gaussienne telle que :
E(

Y
0
) = a + bx
0
et
V(

Y
0
) = V(T
0
) +
2
=
2
[
1
n
+
(x
0
x)
2

i
(x
i
x)
2
+ 1]
(La rgression linaire) 22 / 48
La rgression simple
G
G
G
G
G
G
G
G
G
G
5 10 15 20 25 30 35
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
Prdiction : t
0
= a +

bx
0
Intervalle de conance :
[t
0
t
n2,1/2

V(T
0
)]
Intervalle de prdiction :
[t
0
t
n2,1/2

V(

Y
0
)]
(La rgression linaire) 23 / 48
La rgression simple
Le coecient dajustement ou de dtermination R
2
Somme des carrs totale SCT =

i
(Y
i


Y)
2
variabilit totale expliquer
Somme des carrs due au modle SCM =

i
(T
i


Y)
2
variabilit explique par le modle
Somme des carrs rsiduelle SCR =

i
(Y
i
T
i
)
2
variabilit non explique par le modle
Formule danalyse de variance : SCT = SCM + SCR
Coecient dajustement R
2
Le R
2
mesure la part de variabilit explique par le modle :
R
2
=
SCM
SCT
=
SCT SCR
SCT
= 1
SCR
SCT
Remarque
Un bon ajustement linaire implique un R
2
proche de 1 (attention, la
rciproque est fausse). On montre la relation R
2
=
2
.
(La rgression linaire) 24 / 48
La rgression simple
SCT =

i
(Y
i


Y)
2
= 4342.944
SCM =

i
(T
i


Y)
2
= 3057.806 R
2
= 3057.806/4342.944 0.704
SCR =

i
(Y
i
T
i
)
2
= 1285.138
On peut raliser un test H
0
: b = 0 contre H
0
: b = 0 en utilisant la
statistique
SCM
SCR
(n 2)
H
0
F(1, n 2)
En fait,
SCM
SCR
=
R
2
1R
2
. On retrouve donc le test sur le coe. de corrlation
dnie au dbut et le fait que (T
n2
)
2
= F(1, n 2). Tester = 0 ou
b = 0 est en eet quivalent : pas de lien de linarit.
(La rgression linaire) 25 / 48
La rgression simple
Pour les donnes :
R
2
1R
2
(n 2) =
0.704
10.704
(10 8) = 19.027
et
P(F(1, 8) > 19.027) = 0.0024
On a galement
2
= 0.839
2
= 0.704 = R
2
.
(La rgression linaire) 26 / 48
La rgression simple
Rsultat de la rgression avec lm() sous R
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
(La rgression linaire) 27 / 48
La rgression multiple
G
G
G
G
G
G
G
G
G
G
5 10 15 20 25 30 35
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
(La rgression linaire) 28 / 48
La rgression multiple
Rgression quadratique
Le lien entre Y et la covariable est peut-tre une fonction plus complexe.
Exemples :
M
1
: Y
i
= a + bx
i
+ cx
2
i
+ E
i
avec {E
i
} i.i.d. N(0,
2
)
M
2
: Y
i
= a + bx
2
i
+ E
i
avec {E
i
} i.i.d. N(0,
2
)
M
3
: Y
i
= a + bx
i
+ E
i
avec {E
i
} i.i.d. N(0,
2
)
Remarque :
Ces modles sont tous des modles linaires. Le modle M
1
est un modle
de rgression multiple (plus de une covariable dans le modle).
Les modles M
2
et M
3
sont deux modles emboits (cas particuliers) de
M
1
.
(La rgression linaire) 29 / 48
La rgression multiple
G
G
G
G
G
G
G
G
G
G
5 10 15 20 25 30 35
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
M
1
: Y
i
= a + bx
i
+ cx
2
i
+ E
i
M
2
: Y
i
= a + bx
2
i
+ E
i
M
3
: Y
i
= a + bx
i
+ E
i
(La rgression linaire) 30 / 48
La rgression multiple
Cas de plusieurs covariables x
1
, ..., x
p
avec p < n
Dans le cas de plusieurs variables, la premire analyse consiste faire des
analyses descriptives des covariables. On peut utiliser par exemple les
commandes pairs() et boxplot() sous R.
Modle de rgression x
1
, ..., x
p
On pose le modle : Y
i
= a
0
+a
1
x
1,i
+... +a
p
x
p,i
+E
i
avec E
i
N(0,
2
)
De mme que dans le cas du modle linaire simple :
On peut estimer les paramtres a
0
, ..., a
p
et
2
Faire des tests sur les paramtres
Calculer le R
2
Faire un test sur le coef. de corrlation
...
(La rgression linaire) 31 / 48
La rgression multiple
Analyse de variance de la rgression multiple
On souhaite tester lhypothse de non-rgression, i.e.
H
0
: a
1
= ... = a
p
= 0 contre H
1
: au moins un a
i
= 0
On a alors la proprit suivante :
R
2
1 R
2
n p 1
p

H
0
F(p, n p 1)
Pour le cas p = 1, on retrouve bien le cas de la rgression simple.
(La rgression linaire) 32 / 48
La rgression multiple
Comparaison de modles de rgression
Attention, plus le nombre de variables sera grand et plus le R
2
sera grand.
On dnit le R
2
ajust qui prend en compte le nombre de covariables.
Il existe galement des critres numriques tel que AIC (An information
criteria ou critre de Akaike) pour slectionner des modles. Ce critre est
adapt pour un nombre pas trop important de covariables (< 20)
Le R
2
et le R
2
ajust ne sont surtout pas les seuls critres regarder
pour comparer des modles. Lanalyse des rsidus, des points extrmes ou
aberrants est tout aussi importante.
(La rgression linaire) 33 / 48
La rgression multiple
Test pour la comparaison de modles de rgression
On souhaite comparer 2 modles emboits : M
q
avec q covariables et
M
p
avec p covariables (et la cste fait partie des 2 modles).
Pour eectuer cette comparaion, on pose le test :
H
0
: M
q
contre H
1
: M
p
avec q < p
On montre que :
n p
q

R
2
p
R
2
q
1 R
2
p

H
0
F(q, n p)
(La rgression linaire) 34 / 48
La rgression multiple
> anova(lm(O3~Tp),lm(O3~Tp+I(Tp^2)))
Analysis of Variance Table
Model 1: O3 ~ Tp
Model 2: O3 ~ Tp + I(Tp^2)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 8 1285.14
2 7 711.18 1 573.96 5.6494 0.04911 *
> anova(lm(O3[-4]~Tp[-4]),lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Analysis of Variance Table
Model 1: O3[-4] ~ Tp[-4]
Model 2: O3[-4] ~ Tp[-4] + I(Tp[-4]^2)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 7 489.68
2 6 455.19 1 34.491 0.4546 0.5253
(La rgression linaire) 35 / 48
Validation du modle
Lanalyse des rsidus
On estime lerreur de lajustement par le rsidu Y
i
T
i
. On reprsente en
abscisse x
i
et en ordonne E
i
= Y
i
T
i
. On peut galement placer y
i
en
abscisse et E
i
= Y
i
T
i
en ordonne. Le graphique ne doit montrer
aucune structure particulire.
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30

2
0

1
0
0
1
0
Temp.
R
e
s
i
d
u
s
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30

1
5

1
0

5
0
5
1
0
Temp
R
e
s
i
d
u
s
(La rgression linaire) 36 / 48
Validation du modle
Hypothses vries Hyp. gaussienne fausse
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
0 20 40 60 80

1
0
1
2
Index
R
e
s
i
d
u
s
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
0 20 40 60 80

1
0
1
Index
R
e
s
i
d
u
s
Linarit fausse Variance non-homogne
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
GGG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
0 20 40 60 80

1
0
1
2
3
Index
R
e
s
i
d
u
s
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
G
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
0 20 40 60 80

2
0
2
4
6
Index
R
e
s
i
d
u
s
(La rgression linaire) 37 / 48
Validation du modle
Hypothse de variance homogne des rsidus
Lorsque une analyse des rsidus permet didentier une variance
non-homogne, on peut raliser une transformation des variables Y ou x
i
.
Les transformations classiques sont la transformation

. ou la
transformation log(.).
(La rgression linaire) 38 / 48
Validation du modle
Normalit des rsidus
res=lm(03~Tp) ; qqnorm(res$residuals) ; qqline(res$residuals)
res2=lm(03~Tp^2) ; qqnorm(res2$residuals) ; qqline(res2$residuals)
1.5 1.0 0.5 0.0 0.5 1.0 1.5

2
0

1
0
0
1
0
Normal QQ Plot
Theoretical Quantiles
S
a
m
p
l
e

Q
u
a
n
t
i
l
e
s
1.5 1.0 0.5 0.0 0.5 1.0 1.5

1
5

1
0

5
0
5
1
0
Normal QQ Plot
Theoretical Quantiles
S
a
m
p
l
e

Q
u
a
n
t
i
l
e
s
(La rgression linaire) 39 / 48
Validation du modle
Inuence de certains points
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
G
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30

2
0

1
0
0
1
0
Temp
R
e
s
i
d
u
s
G
(La rgression linaire) 40 / 48
Validation du modle
Inuence de certains points
G
G
G
G
G
G
G
G
G
5 10 15 20 25 30 35
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
G
G
G
G
G
G
G
G
G
20 25 30

1
5

1
0

5
0
5
1
0
Tp
R
e
s
i
d
u
s
(La rgression linaire) 41 / 48
Validation du modle
Inuence de certains points
> summary(lm(O3~Tp))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
> summary(lm(O3[-4]~Tp[-4]))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.9669 14.2699 0.558 0.594039
Tp[-4] 4.1184 0.5941 6.932 0.000225 ***
---
Residual standard error: 8.364 on 7 degrees of freedom
Multiple R-squared: 0.8728, Adjusted R-squared: 0.8547
F-statistic: 48.05 on 1 and 7 DF, p-value: 0.0002248
(La rgression linaire) 42 / 48
Dicult en rgression multiple
Deux points doivent tre abords avec attention :
1
Les chelles des covariales (vraie aussi en rgression simple)
Il est souvent judicieux de ramener toutes les variables une moyenne
nulle (centrage) et les variances empiriques de chacune des variables
1 (centrer et rduire) : utiliser la commande boxplot() pour analyser
ces dirences dchelle.
2
La corrlation entre les variables explicatives
Les corrlations entre variables peuvent induire de mauvaises
interprtations. Pour cela, on utilise parfois les axes dune analyse en
composantes principales (ACP) comme variables explicatives.
Linconvnient de cette approche est quil est alors ncessaire de
donner le lien entre les co-variables de dpart et les axes de lACP.
On peut aussi utiliser la commande pairs() pour une premire analyse
et calculer les corrlations entre les covariables.
(La rgression linaire) 43 / 48
Dicult en rgression multiple
> summary(lm(O3~Tp+I(Tp^2)))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 88.96445 21.50810 4.136 0.00437 **
Tp -2.50001 2.21118 -1.131 0.29546
I(Tp^2) 0.13057 0.05493 2.377 0.04911 *
---
Residual standard error: 10.08 on 7 degrees of freedom
Multiple R-squared: 0.8362, Adjusted R-squared: 0.7895
F-statistic: 17.87 on 2 and 7 DF, p-value: 0.001777
> summary(lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -39.94750 72.59881 -0.550 0.602
Tp[-4] 8.24747 6.15501 1.340 0.229
I(Tp[-4]^2) -0.08554 0.12687 -0.674 0.525
---
Residual standard error: 8.71 on 6 degrees of freedom
Multiple R-squared: 0.8818, Adjusted R-squared: 0.8424
F-statistic: 22.38 on 2 and 6 DF, p-value: 0.001651
>cor(Tp,Tp^2)
[1] 0.9762049
>cor(Tp[-4],Tp[-4]^2)
[1] 0.9949348
(La rgression linaire) 44 / 48
Dicult en rgression multiple
La corrlation partielle
Le coecient de corrlation partielle mesure la liaison entre 2 variables
lorsque linuence dune troisime (ou de plusieurs autres) est garde
constante sur les 2 variables compares. Il a le mme sens que le
coecient de corrlation classique.

y,x
1
|x
2
=

y,x
1

y,x
1

y,x
2

1
2
y,x
1

1
2
y,x
2
Lien entre corrlation partielle et corrlation multiple

y,x
p+1
|x
1
,...,x
p
=
R
2
p+1
R
2
p
1 R
2
p
Le carr de la corrlation partielle, donne donc laugmentation de R
2
relative la portion de la variation de y inexplique par les variables
x
1
, ..., x
p
dj dans lquation.
(La rgression linaire) 45 / 48
Dicult en rgression multiple
La corrlation partielle
Pour le jeu de donnes, on obtient :
cor (O3, Tp|Tp
2
) = 0.09 et cor (O3, Tp
2
|Tp) = 0.12
(La rgression linaire) 46 / 48
La rgression multiple
Les tests sur les paramtres dans le cadre de la rgression multiple doivent
tre utiliss avec prcaution en raison des possibles coorlations entre les
variables.
On pourrait liminer des variables du modle sur la base de ces tests (les
variables aux coecients signicativement nuls). Mais cette procdure est
incorrecte. Il ne faut pas oublier que le test dun coecient est eectu
alors que les autres variables sont xes. Donc si deux variables sont trs
corrles, le test dun des deux coecients peut tre non signicatif
puisque linformation apporte par la variable teste existe dans lautre. On
ne peut donc rien conclure sur lestimation de ces coecients et de leurs
signicativit.
La question de la slction des variables doit faire lobjet dune analyse
approfondie base par exemple sur lanalyse des coe. de corrlation
partielle.
(La rgression linaire) 47 / 48
Pour conclure ...
La rgression multiple soulve encore dautres questions, comme la
slection des variables, la rgression polynomiale, les transformations des
co-variables, ...
Pour plus dinformations :
Applied regression analysis, Drapper & Smith
Probabilits, analyses des donnes et statistiques, Saporta.
Beaucoup de docs sur le web...
(La rgression linaire) 48 / 48

Das könnte Ihnen auch gefallen