Cours Reg Lin

Introduction la
Rgression Linaire
Olivier Martin
INRA Avignon, BioSP
(La rgression linaire) 1 / 48
Plan du cours
1
Cadre, rappels et objectifs
2
La rgression linaire simple
3
La rgression linaire multipe
4
Validation du modle, analyse des rsidus
5
Dicults en rgression multiple
Cadre et objectifs
On dispose de 2 caractres X et Y. On distingue deux objectifs :
1
On cherche savoir sil existe un lien entre X et Y
2
On cherche savoir si X a une inuence sur Y et ventuellement
prdire Y partir de X.
1
Liaison entre X et Y. On dnit un indice de liaison : coe. de
corrlation, statistique du Khi-2,...
Estimation : mesure de lintensit de la liaison
Test : Existence du lien
2
Infulence de x sur Y. On modlise linuence de x sur Y : rgression
logistique, analyse de la variance, rgression linaire,...
Estimation : description de linuence et prdiction
Test : validation dhypothse particulire : absence dinuence,
inlfuence linaire, quadratique,...
Cadre et objectifs
Dnition : Pour deux variables X et Y, le coe. de corrlation linaire
(X, Y) vaut :
(X, Y) =
cov(X, Y)
Y
[1; 1]
est une mesure symtrique qui mesure le lien linaire entre X et Y :
= 1 : X et Y sont proportionnels et varient en sens oppos
= 1 : X et Y sont proportionnels et varient dans le mme sens
= 0 : X et Y ne sont pas corrls
La corrlation nindique aucune causalit.
Proprits :
1
Si X et Y sont indpendants, alors (X, Y) = 0.
2
Si X et Y sont gaussiens, il y a quivalence entre indpendance et
corrlation nulle.
Cadre et objectifs
cor(x, y) = 0.87 cor(x, y) = 0.8
G
G
G
G
G
G
G
G
G
G
G
2 4 6 8 10
5
1
0
1
5
2
0
x
y
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
4 2 0 2 4 6 8 10
0
2
0
4
0
6
0
8
0
1
0
0
x
y
cor(x, y) = 0.7 cor(x, y) = 0.8
G
G
G
G
G
G
G
G
G
G
G
G
G
2 3 4 5 6 7 8
5
1
0
1
5
2
0
2
5
3
0
x
y
G
G
G
G
G G
G
G
G
G
G
G
G
G
G
G
2 3 4 5 6 7 8
2
3
4
5
6
7
8
x
y
Cadre et objectifs
Rappels variance et covariance empirique :
cov(X, Y) =
1
n
n
i =1
(x
i
x)(y
i
y)
S
2
X
=
1
n
n
i =1
(x
i
x)
2
(X, Y) =
cov(X, Y)
S
X
S
Y
[1; 1]
Cadre et objectifs
Test sur le coef. de corrlation :
Dans le cas o X et Y sont supposs gaussiens, on peut raliser un test
sur le coe de corrlation H
0
: = 0 contre H
1
: = 0. On utlise la
statistique
R
1 R
2
n 2
H
0
T
n2
o R
2
est le coe. de dtermination. (cf. plus loin dans le cours)
Corrlation partielle et multiple :
On dnit aussi la corrlation multiple entre une variables Y et p
variables X
1
, ..., X
p
.
Dans le cas de plusieurs variables, on dnit galement le coe. de
corrlation partiel pour sassurer que la corrlation entre 2 variables
nest pas due en ralit aux variations dune troisime variable.
La rgression simple
Objectif : On souhaite expliquer les variations de la variable Y partir des
valeurs observes pour la variable x.
Le problme nest pas symtrique : les 2 variables nont pas le mme statut
Dnition :
Y = variable expliquer ou rponse, suppose altaoire
x = variable explicative ou covariable ou rgresseur, suppose xe
Modle :
Y = f (x) + E
o E est un terme rsiduel altoire ou erreur.
La rgression simple
Donnes : On observe n individus (i = 1, ..., n).
Rgression linaire : On suppose que pour tout i :
Y
i
= a + bx
i
+ E
i
avec {E
i
} i.i.d et N(0,
2
).
Formulation quivalente : Les variables rponses {Y
i
} sont indpendantes
de lois respectives
Y
i
N(a + bx
i
,
2
)
Hypothses du modle statistique :
Lesprance de Y
i
dpend linairement de x
i
: E(Y
i
) = a + bx
i
.
La variance des Y
i
est cste : V(Y
i
) = V(E
i
) =
2
.
Les rponses et termes rsiduels sont gaussiens et indpendants
La rgression simple
Paramtres estimer : a, b,
2
Deux approches : maximum de vraisemblance ou moindres carrs
Lestimation par max. de vraisemblance ou moindres carrs sont deux
mthodes classiques pour lestimation. Ici, les estimations sont (quasi)
identiques.
Dans les 2 cas, on dnit un critre qui mesure ladquation entre les
paramtres du modle et les donnes observes. On cherche alors les
paramtres qui maximisent ou minimisent ce critre.
La rgression simple
Le critre du maximum de vraisemblance
La densit pour la rponse Y
i
est :
f (y
i
; a, b,
2
) =
1
2
exp
(y
i
a bx
i
)
2
2
2
Les donnes tant supposes indpendantes, la log-vraisemblance vaut :

L(a, b,
2
) =
n
2
log(2)
n
2
log(
2
)
1
2
2
i
(Y
i
a bx
i
)
2
Les estimateurs du max. de vraisemblance de a, b,
2
sont les valeurs qui
maximisent L(a, b,
2
). Les estimateurs sont obtenus partir des
ralisations y
i
: ce sont des variables altoires qui possdent une loi.
La rgression simple
Le critre du maximum des moindres carrs (SCR)
On cherche les valeurs de a et b qui minimisent la somme des carrs des
rsidus, i.e. les carts entre les observations (Y
i
) et les prdictions
(a + bx
i
) du modle.
SCR(a, b) =
i
(Y
i
a bx
i
)
2
On remarque que ce critre apparat dans la log-vraisemblance...
Proprit :
Les critres du max. de vraisemblance et des moindres carrs donnent les
mme estimateurs pour a et b. Le critre des moindres carrs nutilise pas
lhypothse de distribution gaussienne des erreurs.
La rgression simple
Les estimateurs A et B de a et b
A =

Y B x et B =
i
(Y
i
Y)(x
i
x)
i
(x
i
x)
2
Les estimations a et

b de a et b
a = y
b x et

b =
i
(y
i
y)(x
i
x)
i
(x
i
x)
2
=
cov(x,y)
2
x
Lestimateur de la variance
2
est donn par :
S
2
n2
=
1
n 2
i
(Y
i
A Bx
i
)
2
Lestimation
2
de la variance
2
est :

2
=
1
n 2
i
(y
i
a
bx
i
)
2
La rgression simple
Temp. 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.7
O3 115.4 76.8 113.8 81.6 115.4 125.0 83.6 75.2 136.8 102.8
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
G
G
G
G
G
G
G
G
G
G
cor(x,y)=0.839
les donnes (x
i
, y
i
)
a et

b les estimations
Prdiction : a +

bx
i
Droite de rgression : a +

bx
Erreurs : e
i
= y
i
a
bx
i
La rgression simple
Les estimateurs A, B et S
2
n2
sont des variables alatoires.
En utlisant lhypothse de loi gaussienne sur les erreurs E
i
, on obtient les
lois de ces estimateurs.
On peut alors raliser des tests sur les paramtres, dnir des intervalles de
conance, des intervalles de prdiction, comparer des modles de
rgression,...
La rgression simple
Moments des estimateurs :
A, B et S
2
n2
sont des estimateurs sans biais : E(A) = a, E(B) = b et de
variance :
V(A) =
2
[
1
n
+
x
2
i
(x
i
x)
2
] et V(B) =

2
i
(x
i
x)
2
.
Comme
2
est inconnu, on obtient des estimations de ces variances en
remplaant
2
par
2
.
Loi des estimateurs :
A N(a, V(A))
B N(b, V(B))
(n2)S
2
n2
2

2
n2
La rgression simple
Temp. 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.7
O3 115.4 76.8 113.8 81.6 115.4 125.0 83.6 75.2 136.8 102.8
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
G
G
G
G
G
G
G
G
G
G
a = 45 et
V(A) = 13.805
b = 2.63 et
V(B) = 0.602
2
= 160.64 et = 12.67
La rgression simple
Rsultat de la rgression avec lm() sous R
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
La rgression simple
Tests sur les paramtres
On veut tester H
0
: b = 0 contre H
1
: b = 0
Loi de B
B N(b, V(B))
Bb
V(B)
N(0, 1)
Bb
V(B)
T
n2
Statistique de test sous H
0
T =
B
V(B)
H
0
T
n2
Calcul de la p-valeur
p value = 2 P(T
n2
> |

b
V(B)
|)
La rgression simple
Test H
0
: b = 0 contre H
1
: b = 0
b = 2.63,
V(B) = 0.603 donc t =

2.63
0.603
= 4.36
p value = 2 P(T
n2
> |4.36|) = 0.0024
Test H
0
: a = 0 contre H
1
: a = 0
a = 45.00,
V(A) = 13.805 donc t =

45
13.805
= 3.260
p value = 2 P(T
n2
> |0.011|) = 0.0011
La rgression simple
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
La rgression simple
1
Lajustement du modle calcul pour une covariable x
0
est
T
0
= A + Bx
0
.
T
0
est une variable gaussienne telle que :
E(T
0
) = a + bx
0
et V(T
0
) =
2
[
1
n
+
(x
0
x)
2
i
(x
i
x)
2
]
2
Prdiction
On peut prdire la rponse Y
0
pour une valeur x
0
de la covariable :
Y
0
= A + Bx
0
+ E
0
Y
0
est une variable gaussienne telle que :
E(

Y
0
) = a + bx
0
et
V(

Y
0
) = V(T
0
) +
2
=
2
[
1
n
+
(x
0
x)
2
i
(x
i
x)
2
+ 1]
La rgression simple
G
G
G
G
G
G
G
G
G
G
5 10 15 20 25 30 35
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
Prdiction : t
0
= a +

bx
0
Intervalle de conance :
[t
0
t
n2,1/2
V(T
0
)]
Intervalle de prdiction :
[t
0
t
n2,1/2
V(

Y
0
)]
La rgression simple
Le coecient dajustement ou de dtermination R
2
Somme des carrs totale SCT =
i
(Y
i

Y)
2
variabilit totale expliquer
Somme des carrs due au modle SCM =
i
(T
i

Y)
2
variabilit explique par le modle
Somme des carrs rsiduelle SCR =
i
(Y
i
T
i
)
2
variabilit non explique par le modle
Formule danalyse de variance : SCT = SCM + SCR
Coecient dajustement R
2
Le R
2
mesure la part de variabilit explique par le modle :
R
2
=
SCM
SCT
=
SCT SCR
SCT
= 1
SCR
SCT
Remarque
Un bon ajustement linaire implique un R
2
proche de 1 (attention, la
rciproque est fausse). On montre la relation R
2
=
2
.
La rgression simple
SCT =
i
(Y
i

Y)
2
= 4342.944
SCM =
i
(T
i

Y)
2
= 3057.806 R
2
= 3057.806/4342.944 0.704
SCR =
i
(Y
i
T
i
)
2
= 1285.138
On peut raliser un test H
0
: b = 0 contre H
0
: b = 0 en utilisant la
statistique
SCM
SCR
(n 2)
H
0
F(1, n 2)
En fait,
SCM
SCR
=
R
2
1R
2
. On retrouve donc le test sur le coe. de corrlation
dnie au dbut et le fait que (T
n2
)
2
= F(1, n 2). Tester = 0 ou
b = 0 est en eet quivalent : pas de lien de linarit.
La rgression simple
Pour les donnes :
R
2
1R
2
(n 2) =
0.704
10.704
(10 8) = 19.027
et
P(F(1, 8) > 19.027) = 0.0024
On a galement
2
= 0.839
2
= 0.704 = R
2
.
La rgression simple
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
La rgression multiple
G
G
G
G
G
G
G
G
G
G
5 10 15 20 25 30 35
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
Rgression quadratique
Le lien entre Y et la covariable est peut-tre une fonction plus complexe.
Exemples :
M
1
: Y
i
= a + bx
i
+ cx
2
i
+ E
i
avec {E
i
} i.i.d. N(0,
2
)
M
2
: Y
i
= a + bx
2
i
+ E
i
avec {E
i
} i.i.d. N(0,
2
)
M
3
: Y
i
= a + bx
i
+ E
i
avec {E
i
} i.i.d. N(0,
2
)
Remarque :
Ces modles sont tous des modles linaires. Le modle M
1
est un modle
de rgression multiple (plus de une covariable dans le modle).
Les modles M
2
et M
3
sont deux modles emboits (cas particuliers) de
M
1
.
G
G
G
G
G
G
G
G
G
G
5 10 15 20 25 30 35
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
M
1
: Y
i
= a + bx
i
+ cx
2
i
+ E
i
M
2
: Y
i
= a + bx
2
i
+ E
i
M
3
: Y
i
= a + bx
i
+ E
i
Cas de plusieurs covariables x
1
, ..., x
p
avec p < n
Dans le cas de plusieurs variables, la premire analyse consiste faire des
analyses descriptives des covariables. On peut utiliser par exemple les
commandes pairs() et boxplot() sous R.
Modle de rgression x
1
, ..., x
p
On pose le modle : Y
i
= a
0
+a
1
x
1,i
+... +a
p
x
p,i
+E
i
avec E
i
N(0,
2
)
De mme que dans le cas du modle linaire simple :
On peut estimer les paramtres a
0
, ..., a
p
et
2
Faire des tests sur les paramtres
Calculer le R
2
Faire un test sur le coef. de corrlation
...
Analyse de variance de la rgression multiple
On souhaite tester lhypothse de non-rgression, i.e.
H
0
: a
1
= ... = a
p
= 0 contre H
1
: au moins un a
i
= 0
On a alors la proprit suivante :
R
2
1 R
2
n p 1
p

H
0
F(p, n p 1)
Pour le cas p = 1, on retrouve bien le cas de la rgression simple.
Comparaison de modles de rgression
Attention, plus le nombre de variables sera grand et plus le R
2
sera grand.
On dnit le R
2
ajust qui prend en compte le nombre de covariables.
Il existe galement des critres numriques tel que AIC (An information
criteria ou critre de Akaike) pour slectionner des modles. Ce critre est
adapt pour un nombre pas trop important de covariables (< 20)
Le R
2
et le R
2
ajust ne sont surtout pas les seuls critres regarder
pour comparer des modles. Lanalyse des rsidus, des points extrmes ou
aberrants est tout aussi importante.
Test pour la comparaison de modles de rgression
On souhaite comparer 2 modles emboits : M
q
avec q covariables et
M
p
avec p covariables (et la cste fait partie des 2 modles).
Pour eectuer cette comparaion, on pose le test :
H
0
: M
q
contre H
1
: M
p
avec q < p
On montre que :
n p
q

R
2
p
R
2
q
1 R
2
p
H
0
F(q, n p)
> anova(lm(O3~Tp),lm(O3~Tp+I(Tp^2)))
Analysis of Variance Table
Model 1: O3 ~ Tp
Model 2: O3 ~ Tp + I(Tp^2)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 8 1285.14
2 7 711.18 1 573.96 5.6494 0.04911 *
> anova(lm(O3[-4]~Tp[-4]),lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Analysis of Variance Table
Model 1: O3[-4] ~ Tp[-4]
Model 2: O3[-4] ~ Tp[-4] + I(Tp[-4]^2)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 7 489.68
2 6 455.19 1 34.491 0.4546 0.5253
Validation du modle
Lanalyse des rsidus
On estime lerreur de lajustement par le rsidu Y
i
T
i
. On reprsente en
abscisse x
i
et en ordonne E
i
= Y
i
T
i
. On peut galement placer y
i
en
abscisse et E
i
= Y
i
T
i
en ordonne. Le graphique ne doit montrer
aucune structure particulire.
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30
2
0
1
0
0
1
0
Temp.
R
e
s
i
d
u
s
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30
1
5
1
0
5
0
5
1
0
Temp
R
e
s
i
d
u
s
Validation du modle
Hypothses vries Hyp. gaussienne fausse
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
0 20 40 60 80
1
0
1
2
Index
R
e
s
i
d
u
s
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
0 20 40 60 80
1
0
1
Index
R
e
s
i
d
u
s
Linarit fausse Variance non-homogne
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
GGG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
0 20 40 60 80
1
0
1
2
3
Index
R
e
s
i
d
u
s
G
G
G
G
G
G
G
G
G
G
G
G
G
G
GG
G
G
G
G
G
G
GG
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
0 20 40 60 80
2
0
2
4
6
Index
R
e
s
i
d
u
s
Validation du modle
Hypothse de variance homogne des rsidus
Lorsque une analyse des rsidus permet didentier une variance
non-homogne, on peut raliser une transformation des variables Y ou x
i
.
Les transformations classiques sont la transformation

. ou la
transformation log(.).
Validation du modle
Normalit des rsidus
res=lm(03~Tp) ; qqnorm(res$residuals) ; qqline(res$residuals)
res2=lm(03~Tp^2) ; qqnorm(res2$residuals) ; qqline(res2$residuals)
1.5 1.0 0.5 0.0 0.5 1.0 1.5
2
0
1
0
0
1
0
Normal QQ Plot
Theoretical Quantiles
S
a
m
p
l
e

Q
u
a
n
t
i
l
e
s
1.5 1.0 0.5 0.0 0.5 1.0 1.5
1
5
1
0
5
0
5
1
0
Normal QQ Plot
Theoretical Quantiles
S
a
m
p
l
e

Q
u
a
n
t
i
l
e
s
Validation du modle
Inuence de certains points
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
G
G
G
G
G
G
G
G
G
G
G
10 15 20 25 30
2
0
1
0
0
1
0
Temp
R
e
s
i
d
u
s
G
Validation du modle
G
G
G
G
G
G
G
G
G
5 10 15 20 25 30 35
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
x=Temp
y
=
O
3
G
G
G
G
G
G
G
G
G
20 25 30
1
5
1
0
5
0
5
1
0
Tp
R
e
s
i
d
u
s
Validation du modle
> summary(lm(O3~Tp))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp 2.6306 0.6029 4.363 0.0024 **
---
> summary(lm(O3[-4]~Tp[-4]))
Coefficients:
(Intercept) 7.9669 14.2699 0.558 0.594039
Tp[-4] 4.1184 0.5941 6.932 0.000225 ***
---
Dicult en rgression multiple
Deux points doivent tre abords avec attention :
1
Les chelles des covariales (vraie aussi en rgression simple)
Il est souvent judicieux de ramener toutes les variables une moyenne
nulle (centrage) et les variances empiriques de chacune des variables
1 (centrer et rduire) : utiliser la commande boxplot() pour analyser
ces dirences dchelle.
2
La corrlation entre les variables explicatives
Les corrlations entre variables peuvent induire de mauvaises
interprtations. Pour cela, on utilise parfois les axes dune analyse en
composantes principales (ACP) comme variables explicatives.
Linconvnient de cette approche est quil est alors ncessaire de
donner le lien entre les co-variables de dpart et les axes de lACP.
On peut aussi utiliser la commande pairs() pour une premire analyse
et calculer les corrlations entre les covariables.
> summary(lm(O3~Tp+I(Tp^2)))
Coefficients:
(Intercept) 88.96445 21.50810 4.136 0.00437 **
Tp -2.50001 2.21118 -1.131 0.29546
I(Tp^2) 0.13057 0.05493 2.377 0.04911 *
---
> summary(lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Coefficients:
(Intercept) -39.94750 72.59881 -0.550 0.602
Tp[-4] 8.24747 6.15501 1.340 0.229
I(Tp[-4]^2) -0.08554 0.12687 -0.674 0.525
---
>cor(Tp,Tp^2)
[1] 0.9762049
>cor(Tp[-4],Tp[-4]^2)
[1] 0.9949348
La corrlation partielle
Le coecient de corrlation partielle mesure la liaison entre 2 variables
lorsque linuence dune troisime (ou de plusieurs autres) est garde
constante sur les 2 variables compares. Il a le mme sens que le
coecient de corrlation classique.
y,x
1
|x
2
=

y,x
1

y,x
1
y,x
2
1
2
y,x
1
1
2
y,x
2
Lien entre corrlation partielle et corrlation multiple
y,x
p+1
|x
1
,...,x
p
=
R
2
p+1
R
2
p
1 R
2
p
Le carr de la corrlation partielle, donne donc laugmentation de R
2
relative la portion de la variation de y inexplique par les variables
x
1
, ..., x
p
dj dans lquation.
La corrlation partielle
Pour le jeu de donnes, on obtient :
cor (O3, Tp|Tp
2
) = 0.09 et cor (O3, Tp
2
|Tp) = 0.12
Les tests sur les paramtres dans le cadre de la rgression multiple doivent
tre utiliss avec prcaution en raison des possibles coorlations entre les
variables.
On pourrait liminer des variables du modle sur la base de ces tests (les
variables aux coecients signicativement nuls). Mais cette procdure est
incorrecte. Il ne faut pas oublier que le test dun coecient est eectu
alors que les autres variables sont xes. Donc si deux variables sont trs
corrles, le test dun des deux coecients peut tre non signicatif
puisque linformation apporte par la variable teste existe dans lautre. On
ne peut donc rien conclure sur lestimation de ces coecients et de leurs
signicativit.
La question de la slction des variables doit faire lobjet dune analyse
approfondie base par exemple sur lanalyse des coe. de corrlation
partielle.
Pour conclure ...
La rgression multiple soulve encore dautres questions, comme la
slection des variables, la rgression polynomiale, les transformations des
co-variables, ...
Pour plus dinformations :
Applied regression analysis, Drapper & Smith
Probabilits, analyses des donnes et statistiques, Saporta.
Beaucoup de docs sur le web...

Cours Reg Lin

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Cours Reg Lin

Hochgeladen von

Copyright:

Verfügbare Formate

Introduction la

Les donnes tant supposes indpendantes, la log-vraisemblance vaut :

V(B) = 0.603 donc t =

V(A) = 13.805 donc t =

Das könnte Ihnen auch gefallen