coursRegLin PDF

Introduction la
Rgression Linaire
Olivier Martin
INRA Avignon, BioSP
(La rgression linaire)
1 / 48
Plan du cours
1
Cadre, rappels et objectifs
La rgression linaire simple
La rgression linaire multipe
Validation du modle, analyse des rsidus
Difficults en rgression multiple
2 / 48
Cadre et objectifs
On dispose de 2 caractres X et Y . On distingue deux objectifs :
1
On cherche savoir sil existe un lien entre X et Y
On cherche savoir si X a une influence sur Y et ventuellement

prdire Y partir de X .
Liaison entre X et Y . On dfinit un indice de liaison : coeff. de

corrlation, statistique du Khi-2,...
Estimation : mesure de lintensit de la liaison
Test : Existence du lien
Infulence de x sur Y. On modlise linfluence de x sur Y : rgression

logistique, analyse de la variance, rgression linaire,...
Estimation : description de linfluence et prdiction
Test : validation dhypothse particulire : absence dinfluence,
inlfuence linaire, quadratique,...
3 / 48
Cadre et objectifs
Dfinition : Pour deux variables X et Y , le coeff. de corrlation linaire
r = (X , Y ) vaut :
r = (X , Y ) =
cov (X , Y )
[1; 1]
X Y
est une mesure symtrique qui mesure le lien linaire entre X et Y :

= 1 : X et Y sont proportionnels et varient en sens oppos
= 1 : X et Y sont proportionnels et varient dans le mme sens
= 0 : X et Y ne sont pas corrls
La corrlation nindique aucune causalit.
Proprits :
1
Si X et Y sont indpendants, alors (X , Y ) = 0.
Si X et Y sont gaussiens, il y a quivalence entre indpendance et

corrlation nulle.
4 / 48
Cadre et objectifs
100
cor (x , y ) = 0.8
20
cor (x , y ) = 0.87
80
15
60
y
10
40
20
10
10
cor (x , y ) = 0.7
cor (x , y ) = 0.8
30
25
20
15
10
5 / 48
Cadre et objectifs
Rappels variance et covariance empirique :

cov (X , Y ) =
SX2 =
1
n
Pn
1
n
Pn
i=1 (xi
i=1 (xi
x )(yi y )
x )2
r = (X , Y ) =
cov (X , Y )
[1; 1]
SX SY
6 / 48
Cadre et objectifs
Test sur le coef. de corrlation :
Dans le cas o X et Y sont supposs gaussiens, on peut raliser un test sur
le coeff de corrlation H0 : r = 0 contre H1 : r 6= 0. On utlise la statistique
R
n 2 Tn2
H0
1 R2
(R 2 est le coeff. de dtermination, cf. plus loin dans le cours)

Corrlation partielle et multiple :
On dfinit aussi la corrlation multiple entre une variables Y et p
variables X1 , ..., Xp .
Dans le cas de plusieurs variables, on dfinit galement le coeff. de
corrlation partiel pour sassurer que la corrlation entre 2 variables
nest pas due en ralit aux variations dune troisime variable.
7 / 48
La rgression simple
Objectif : On souhaite expliquer les variations de la variable Y partir des
valeurs observes pour la variable x.
Le problme nest pas symtrique : les 2 variables nont pas le mme statut
Dfinition :
Y = variable expliquer ou rponse, suppose altaoire
x = variable explicative ou covariable ou rgresseur, suppose fixe
Modle :
Y = f (x ) + E
o E est un terme rsiduel altoire ou erreur.
8 / 48
La rgression simple
Donnes : On observe n individus (i = 1, ..., n).
Rgression linaire : On suppose que pour tout i :
Yi = a + bxi + Ei avec {Ei } i.i.d et N (0, 2 ).
Formulation quivalente : Les variables rponses {Yi } sont indpendantes
de lois respectives
Yi N (a + bxi , 2 )
Hypothses du modle statistique :
Lesprance de Yi dpend linairement de xi : E(Yi ) = a + bxi .
La variance des Yi est cste : V(Yi ) = V(Ei ) = 2 .
Les rponses et termes rsiduels sont gaussiens et indpendants
9 / 48
La rgression simple
Paramtres estimer : a, b, 2
Deux approches : maximum de vraisemblance ou moindres carrs
Lestimation par max. de vraisemblance ou moindres carrs sont deux
mthodes classiques pour lestimation. Ici, les estimations sont (quasi)
identiques.
Dans les 2 cas, on dfinit un critre qui mesure ladquation entre les
paramtres du modle et les donnes observes. On cherche alors les
paramtres qui maximisent ou minimisent ce critre.
10 / 48
La rgression simple
Le critre du maximum de vraisemblance
La densit pour la rponse Yi est :
"
1
(yi a bxi )2
f (yi ; a, b, ) = exp
2 2
2
Les donnes tant supposes indpendantes, la log-vraisemblance vaut :

n
1 X
n
L(a, b, 2 ) = log(2) log( 2 ) 2
(Yi a bxi )2
2
2
2 i
Les estimateurs du max. de vraisemblance de a, b, 2 sont les valeurs qui
maximisent L(a, b, 2 ). Les estimateurs sont obtenus partir des
ralisations yi : ce sont des variables altoires qui possdent une loi.
11 / 48
La rgression simple
Le critre du maximum des moindres carrs (SCR)
On cherche les valeurs de a et b qui minimisent la somme des carrs des
rsidus, i.e. les carts entre les observations (Yi ) et les prdictions
(a + bxi ) du modle.
SCR(a, b) =
(Yi (a + bxi ))2
On remarque que ce critre apparat dans la log-vraisemblance...

Proprit :
Les critres du max. de vraisemblance et des moindres carrs donnent les
mme estimateurs pour a et b. Le critre des moindres carrs nutilise pas
lhypothse de distribution gaussienne des erreurs.
12 / 48
La rgression simple
Les estimateurs A et B de a et b P
)(xi
(Yi Y
x)
A = Y B
x et B = i P (x x )2
i
Les estimations a et b de a et b P
(y
y )(xi
x)
i i
x et b = P
a = y b
=
(x
x )2
i
cov (x ,y )
x2
Lestimateur de la variance 2 est donn par :

2
Sn2
=
1 X
(Yi A Bxi )2
n2 i
Lestimation
2 de la variance 2 est :
2 =
X
1 X
i ))2 = 1
(yi (
a + bx
2
n2 i
n2 i i
13 / 48
La rgression simple
Temp.
O3
23.8
115.4
16.3
76.8
27.2
113.8
7.1
81.6
25.1
115.4
27.5
125.0
19.4
83.6
19.8
75.2
32.2
136.8
20.7
102.8
130
cor(x,y)=0.839
120
les donnes (xi , yi )

a et b les estimations
110
100
i
Prdiction : a + bx
Droite de rgression : a + bx
i
Erreurs : ei = yi a bx
90
80
y=O3
10
15
20
25
30
x=Temp
14 / 48
La rgression simple
2
Les estimateurs A, B et Sn2
sont des variables alatoires.
En utlisant lhypothse de loi gaussienne sur les erreurs Ei , on obtient les

lois de ces estimateurs.
On peut alors raliser des tests sur les paramtres, dfinir des intervalles de
confiance, des intervalles de prdiction, comparer des modles de
rgression,...
15 / 48
La rgression simple
Moments des estimateurs :

2
A, B et Sn2
sont des estimateurs sans biais : E(A) = a, E(B) = b et de
variance :
2
2
V(A) = 2 [ n1 + P (xx x )2 ] et V(B) = P (x x )2 .
i
Comme 2 est inconnu, on obtient des estimations de ces variances en

remplaant 2 par
2.
Loi des estimateurs :
A N (a, V(A))
B N (b, V(B))
2
(n2)Sn2
2
2n2
16 / 48
La rgression simple
Temp.
O3
23.8
115.4
16.3
76.8
27.2
113.8
7.1
81.6
25.1
115.4
27.5
125.0
19.4
83.6
19.8
75.2
32.2
136.8
20.7
102.8
130
120
a = 45 et
110
V(A)
= 13.805
b = 2.63 et V(B)
= 0.602
2
= 160.64 et
= 12.67
100
90
80
y=O3
10
15
20
25
30
x=Temp
17 / 48
La rgression simple
Rsultat de la rgression avec lm() sous R
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
Min 1Q Median 3Q Max
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
Estimate Std.Error t-value Pr(>|t|)
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp
2.6306 0.6029 4.363 0.0024 **
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041,
Adjusted R-squared: 0.6671
F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403
18 / 48
La rgression simple
Tests sur les paramtres
On veut tester H0 : b = 0 contre H1 : b 6= 0
Loi de B
B N (b, V(B)) Bb N (0, 1) Bb
Tn2
V(B)
V(B)
Statistique de test sous H0

B
T =q
Tn2
H0
V(B)
Calcul de la p-valeur
p value = 2 P(Tn2 > | b
V(B)
|) = 2 P(Tn2 < | b
|)
V(B)
19 / 48
La rgression simple
Test H0 : bq= 0 contre H1 : b 6= 0
b = 2.63, V(B)
= 0.603 donc t =
2.63
0.603
= 4.36
p value = 2 P(Tn2 > |4.36|) = 0.0024

Test H0 : aq
= 0 contre H1 : a 6= 0
a = 45.00, V(A)
= 13.805 donc t =
45
13.805
= 3.260
p value = 2 P(Tn2 > |0.011|) = 0.0011
20 / 48
La rgression simple
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp
2.6306 0.6029 4.363 0.0024 **
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
21 / 48
La rgression simple
1
Lajustement du modle calcul pour une covariable x0 est

T0 = A + Bx0 .
T0 est une variable gaussienne telle que :
x )2
0
E(T0 ) = a + bx0 et V(T0 ) = 2 [ n1 + P(x(x
]
x )2
i
Prdiction
On peut prdire la rponse Y0 pour une valeur x0 de la covariable :
Y0 = A + Bx0 + E0
Y0 est une variable gaussienne telle que :
E(Y0 ) = a + bx0 et
x )2
0
+ 1]
V(Y0 ) = V(T0 ) + 2 = 2 [ n1 + P(x(x
x )2
i
22 / 48
La rgression simple
130
0
Prdiction : t0 = a + bx
120
110
Intervalle de confiance
:
p
[t0 tn2,1/2 V(T0 )]
100
90
Intervalle de prdiction
:
q
[t0 tn2,1/2 V(Y0 )]
80
y=O3
10
15
20
25
30
35
x=Temp
23 / 48
La rgression simple
Le coefficient dajustement ou
R2
P de dtermination
2
Somme des carrs totale
SCT =
Somme des carrs due au modle
SCM =
Somme des carrs rsiduelle
SCR =
Pi (Yi Y) 2
P i (Ti Y )2
i
(Yi Ti )
variabilit totale expliquer

variabilit explique par le modle
variabilit non explique par le modle
Formule danalyse de variance : SCT = SCM + SCR

Coefficient dajustement R 2
Le R 2 mesure la part de variabilit explique par le modle :
R2 =
SCT SCR
SCR
SCM
=
=1
SCT
SCT
SCT
Remarque
Un bon ajustement linaire implique un R 2 proche de 1 (attention, la
rciproque est fausse). On montre la relation R 2 = 2 .
24 / 48
La rgression simple
P
SCT = i (Yi Y )2 = 4342.944
P
SCM = i (Ti Y )2 = 3057.806
P
SCR = i (Yi Ti )2 = 1285.138
R 2 = 3057.806/4342.944 0.704
On peut raliser un test H0 : b = 0 contre H0 : b 6= 0 en utilisant la

statistique
SCM
(n 2) F(1, n 2)
H0
SCR
2
R
En fait, SCM
SCR = 1R 2 . On retrouve donc le test sur le coeff. de corrlation
dfinie au dbut et le fait que (Tn2 )2 = F(1, n 2). Tester = 0 ou
b = 0 est en effet quivalent : pas de lien de linarit.
25 / 48
La rgression simple
Pour les donnes :

R2
(n
1R 2
2) =
0.704
10.704 (10
8) = 19.027
et
P(F(1, 8) > 19.027) = 0.0024
On a galement 2 = 0.8392 = 0.704 = R 2 .
26 / 48
La rgression simple
>summary(lm(O3~Tp))
Call:
lm(formula=O3~Tp)
Residuals
-21.890 -9.001 3.856 7.514 17.919
Coefficients:
(Intercept) 45.0044 13.8050 3.260 0.0115 *
Tp
2.6306 0.6029 4.363 0.0024 **
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
27 / 48
La rgression multiple
130
120
110
90
100
y=O3
80
10
15
20
25
30
35
x=Temp
28 / 48
Rgression quadratique
Le lien entre Y et la covariable est peut-tre une fonction plus complexe.
Exemples :
M1 : Yi = a + bxi + cxi2 + Ei avec {Ei } i.i.d. N (0, 2 )
M2 : Yi = a + bxi2 + Ei avec {Ei } i.i.d. N (0, 2 )
M3 : Yi = a + bxi + Ei avec {Ei } i.i.d. N (0, 2 )
Remarque :
Ces modles sont tous des modles linaires. Le modle M1 est un modle
de rgression multiple (plus de une covariable dans le modle).
Les modles M2 et M3 sont deux modles emboits (cas particuliers) de
M1 .
29 / 48
130
120
M1 : Yi = a + bxi + cxi2 + Ei
110
M2 : Yi = a + bxi2 + Ei
100
90
M3 : Yi = a + bxi + Ei
80
y=O3
10
15
20
25
30
35
x=Temp
30 / 48
Cas de plusieurs covariables x1 , ..., xp avec p < n
Dans le cas de plusieurs variables, la premire analyse consiste faire des
analyses descriptives des covariables. On peut utiliser par exemple les
commandes pairs() et boxplot() sous R.
Modle de rgression x1 , ..., xp
On pose le modle : Yi = a0 + a1 x1,i + ... + ap xp,i + Ei avec Ei N (0, 2 )
De mme que dans le cas du modle linaire simple :
On peut estimer les paramtres a0 , ..., ap et 2
Faire des tests sur les paramtres
Calculer le R 2
Faire un test sur le coef. de corrlation
...
31 / 48
Analyse de variance de la rgression multiple

On souhaite tester lhypothse de non-rgression, i.e.
H0 : a1 = ... = ap = 0 contre H1 : au moins un ai 6= 0
On a alors la proprit suivante :
R2 n p 1
F(p, n p 1)
H0
1 R2
p
Pour le cas p = 1, on retrouve bien le cas de la rgression simple.
32 / 48
Comparaison de modles de rgression
Attention, plus le nombre de variables sera grand et plus le R 2 sera grand.
On dfinit le R 2 ajust qui prend en compte le nombre de covariables.
Il existe galement des critres numriques tel que AIC (An information
criteria ou critre de Akaike) pour slectionner des modles. Ce critre est
adapt pour un nombre pas trop important de covariables (< 20)
Le R 2 et le R 2 ajust ne sont surtout pas les seuls critres regarder
pour comparer des modles. Lanalyse des rsidus, des points extrmes ou
aberrants est tout aussi importante.
33 / 48
Test pour la comparaison de modles de rgression
On souhaite comparer 2 modles emboits : Mq avec q covariables et
Mp avec p covariables (et la cste fait partie des 2 modles).
Pour effectuer cette comparaion, on pose le test :
H0 : le bon modle est Mq
H1 : le bon modle est Mp
avec la condition : q < p
34 / 48
> anova(lm(O3~Tp),lm(O3~Tp+I(Tp^2)))
Analysis of Variance Table
Model 1: O3 ~ Tp
Model 2: O3 ~ Tp + I(Tp^2)
Res.Df
RSS Df Sum of Sq
F Pr(>F)
1
8 1285.14
2
7 711.18 1
573.96 5.6494 0.04911 *
> anova(lm(O3[-4]~Tp[-4]),lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Analysis of Variance Table
Model 1:
Model 2:
Res.Df
1
7
2
6
O3[-4] ~ Tp[-4]
O3[-4] ~ Tp[-4] + I(Tp[-4]^2)
RSS Df Sum of Sq
F Pr(>F)
489.68
455.19 1
34.491 0.4546 0.5253
35 / 48
Validation du modle
Lanalyse des rsidus
On estime lerreur de lajustement par le rsidu Yi Ti . On reprsente en
abscisse xi et en ordonne Ei = Yi Ti . On peut galement placer yi en
abscisse et Ei = Yi Ti en ordonne. Le graphique ne doit montrer
aucune structure particulire.
10
10
Residus
10
10
15
20
Residus
10
15
20
Temp.
25
30
10
15
20
25
30
Temp
36 / 48
Validation du modle
Hypothses vrifies
Hyp. gaussienne fausse
60
80
40
20
Residus
Residus
20
40
Index
60
80
Index
Linarit fausse
Variance non-homogne
Residus
Residus
20
40
Index
60
80
20
40
Index
60
80
37 / 48
Validation du modle
Hypothse de variance homogne des rsidus
Lorsque une analyse des rsidus permet didentifier une variance
non-homogne, on peut raliser une transformation des variables Y ou xi .
Les transformations classiques sont la transformation
transformation log(.).
. ou la
38 / 48
Validation du modle
Normalit des rsidus
res=lm(03~Tp) ; qqnorm(res$residuals) ; qqline(res$residuals)
res2=lm(03~Tp^2) ; qqnorm(res2$residuals) ; qqline(res2$residuals)
Normal QQ Plot
Normal QQ Plot
10
10
Sample Quantiles
10
10
15
20
Sample Quantiles
1.5
1.0
0.5
0.0
0.5
Theoretical Quantiles
1.0
1.5
1.5
1.0
0.5
0.0
0.5
1.0
1.5
Theoretical Quantiles
39 / 48
Validation du modle
Influence de certains points
130
10
120
110
10
100
Residus
90
20
80
y=O3
10
15
20
x=Temp
25
30
10
15
20
25
30
Temp
40 / 48
Validation du modle
10
130
120
Residus
110
100
10
90
80
10
15
20
x=Temp
15
y=O3
25
30
35
20
25
30
Tp
41 / 48
Validation du modle
> summary(lm(O3~Tp))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 45.0044
13.8050
3.260
0.0115 *
Tp
2.6306
0.6029
4.363
0.0024 **
--Residual standard error: 12.67 on 8 degrees of freedom
Multiple R-squared: 0.7041, Adjusted R-squared: 0.6671
> summary(lm(O3[-4]~Tp[-4]))
Coefficients:
(Intercept)
7.9669
14.2699
0.558 0.594039
Tp[-4]
4.1184
0.5941
6.932 0.000225 ***
42 / 48
Difficult en rgression multiple

Deux points doivent tre abords avec attention :
1
Les chelles des covariales (vraie aussi en rgression simple)

Il est souvent judicieux de ramener toutes les variables une moyenne
nulle (centrage) et les variances empiriques de chacune des variables
1 (centrer et rduire) : utiliser la commande boxplot() pour analyser
ces diffrences dchelle.
La corrlation entre les variables explicatives

Les corrlations entre variables peuvent induire de mauvaises
interprtations. Pour cela, on utilise parfois les axes dune analyse en
composantes principales (ACP) comme variables explicatives.
Linconvnient de cette approche est quil est alors ncessaire de
donner le lien entre les co-variables de dpart et les axes de lACP.
On peut aussi utiliser la commande pairs() pour une premire analyse
et calculer les corrlations entre les covariables.
43 / 48

> summary(lm(O3~Tp+I(Tp^2)))
Coefficients:
(Intercept) 88.96445
21.50810
4.136 0.00437 **
Tp
-2.50001
2.21118 -1.131 0.29546
I(Tp^2)
0.13057
0.05493
2.377 0.04911 *
> summary(lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))
Coefficients:
(Intercept) -39.94750
72.59881 -0.550
0.602
Tp[-4]
8.24747
6.15501
1.340
0.229
I(Tp[-4]^2) -0.08554
0.12687 -0.674
0.525
>cor(Tp,Tp^2)
[1] 0.9762049
>cor(Tp[-4],Tp[-4]^2)
[1] 0.9949348
44 / 48

La corrlation partielle
Le coefficient de corrlation partielle mesure la liaison entre 2 variables
lorsque linfluence dune troisime (ou de plusieurs autres) est garde
constante sur les 2 variables compares. Il a le mme sens que le
coefficient de corrlation classique.
y ,x1 |x2 = q
y ,x1 y ,x1 y ,x2

1 2y ,x1
1 2y ,x2
Lien entre corrlation partielle et corrlation multiple

y ,xp+1 |x1 ,...,xp =
2
Rp+1
Rp2
1 Rp2
Le carr de la corrlation partielle, donne donc laugmentation de R 2

relative la portion de la variation de y inexplique par les variables
x1 , ..., xp dj dans lquation.
45 / 48

La corrlation partielle
Pour le jeu de donnes, on obtient :
cor (O3, Tp|Tp 2 ) = 0.09 et cor (O3, Tp 2 |Tp) = 0.12
46 / 48
Les tests sur les paramtres dans le cadre de la rgression multiple doivent
tre utiliss avec prcaution en raison des possibles coorlations entre les
variables.
On pourrait liminer des variables du modle sur la base de ces tests (les
variables aux coefficients significativement nuls). Mais cette procdure est
incorrecte. Il ne faut pas oublier que le test dun coefficient est effectu
alors que les autres variables sont fixes. Donc si deux variables sont trs
corrles, le test dun des deux coefficients peut tre non significatif
puisque linformation apporte par la variable teste existe dans lautre. On
ne peut donc rien conclure sur lestimation de ces coefficients et de leurs
significativit.
La question de la slction des variables doit faire lobjet dune analyse
approfondie base par exemple sur lanalyse des coeff. de corrlation
partielle.
47 / 48
Pour conclure ...

La rgression multiple soulve encore dautres questions, comme la
slection des variables, la rgression polynomiale, les transformations des
co-variables, ...
Il existe dautres mthodes pour modliser des observations comme la
rgression sur variables dACP, la rgression PLS, la projetcion poursuite,...
Pour plus dinformations :
The R book, Michael J. Crawley
Applied regression analysis, Drapper & Smith
Probabilits, analyses des donnes et statistiques, Saporta.
Beaucoup de docs sur le web...
48 / 48

coursRegLin PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

coursRegLin PDF

Hochgeladen von

Copyright:

Verfügbare Formate

Introduction la

(La rgression linaire)

Cadre, rappels et objectifs

La rgression linaire simple

La rgression linaire multipe

Validation du modle, analyse des rsidus

Difficults en rgression multiple

(La rgression linaire)

On cherche savoir sil existe un lien entre X et Y

On cherche savoir si X a une influence sur Y et ventuellement

Liaison entre X et Y . On dfinit un indice de liaison : coeff. de

Infulence de x sur Y. On modlise linfluence de x sur Y : rgression

est une mesure symtrique qui mesure le lien linaire entre X et Y :

Si X et Y sont indpendants, alors (X , Y ) = 0.

Si X et Y sont gaussiens, il y a quivalence entre indpendance et

(La rgression linaire)

Rappels variance et covariance empirique :

(La rgression linaire)

(R 2 est le coeff. de dtermination, cf. plus loin dans le cours)

(La rgression linaire)

Les donnes tant supposes indpendantes, la log-vraisemblance vaut :

(Yi (a + bxi ))2

On remarque que ce critre apparat dans la log-vraisemblance...

Lestimateur de la variance 2 est donn par :

(La rgression linaire)

les donnes (xi , yi )

(La rgression linaire)

En utlisant lhypothse de loi gaussienne sur les erreurs Ei , on obtient les

(La rgression linaire)

Moments des estimateurs :

Comme 2 est inconnu, on obtient des estimations de ces variances en

(La rgression linaire)

(La rgression linaire)

(La rgression linaire)

Statistique de test sous H0

p value = 2 P(Tn2 > | b

(La rgression linaire)

Test H0 : bq= 0 contre H1 : b 6= 0

p value = 2 P(Tn2 > |4.36|) = 0.0024

p value = 2 P(Tn2 > |0.011|) = 0.0011

(La rgression linaire)

(La rgression linaire)

Lajustement du modle calcul pour une covariable x0 est

(La rgression linaire)

(La rgression linaire)

Somme des carrs due au modle

Somme des carrs rsiduelle

variabilit totale expliquer

Formule danalyse de variance : SCT = SCM + SCR

On peut raliser un test H0 : b = 0 contre H0 : b 6= 0 en utilisant la

(La rgression linaire)

Pour les donnes :

(La rgression linaire)

(La rgression linaire)

(La rgression linaire)

(La rgression linaire)

Analyse de variance de la rgression multiple

(La rgression linaire)

(La rgression linaire)

(La rgression linaire)

(La rgression linaire)

Hyp. gaussienne fausse

(La rgression linaire)