R-Cours 7

Cours 7 : Rappels de cours et exemples sous
R
I- Rgression linaire simple
II- Analyse de variance 1 facteur
III- Tests statistiques
I- Le modle de rgression linaire simple:

thorie
Rappels On cherche expliquer ou prvoir les variations dune variable Y
(variable dpendante) par celles dune fonction linaire de X (variable
explicative), i.e., valider le modle de RLS
Y = aX + b +
o est une variable alatoire gaussienne de moyenne nulle et de variance
Pour cela on observe un n-chantillon de ralisations de X et de Y, sur
lesquelles on va chercher voir si le lien est plausible,
i.e. si il existe a, b et
yi = axi + b + i , i = 1,..., n.
(validation)
Avec i i.i.d. Gaussiennes et pas trop grand,

et approcher les valeurs des paramtres a, b, et (estimation)

thorie
Estimation des paramtres :
Estimation de a et b : On commence par chercher le meilleur ajustement

linaire sur nos donnes, au sens des moindres carrs :
yi = axi + b =i valeur estime

ei = yi yi
= i rsidu
a et b sont tels que
b) est minimal. Ce sont les

e = ( y ax
i =1
2
i
i =1
coefficients de la rgression (ou estimateurs des moindres carrs).

thorie
n
On montre que :
a =
( x x )( y y )
i =1
( x x )
i =1
, b = y ax
+ b
y = ax
La droite dajustement
moindres carrs.
sappelle droite de rgression ou des
La valeur y estime la valeur moyenne de Y lorsque X=xi (E(Y/X=xi)) .

i
Cest aussi la prvision de Y pour une observation telle que X=xi.
Estimation de : La variance de lerreur sestime par

n
s =
e
i =1
2
i
n2
SSR
n2

thorie
Validation du modle sur les donnes : il faut que le modle soit de
bonne qualit (bon pouvoir explicatif et prdictif)
Analyse de la qualit du modle : Dcomposition de la variabilit
SST = ( yi y ) = nsY2
SSM = ( yi y ) =sY2
SSR = ei2 = (n 2) s 2
=somme des carrs des variations de y

=somme des carrs des variations expliques
par le modle
=somme des carrs des variations rsiduelles
On montre que : SST=SSR+SSM

Au plus SSM est grand (ou SSR faible), au meilleur est lajustement.

thorie
Les indicateurs de variabilit sont rsums dans le tableau danalyse de la
variance ci-dessous :
source
Degrs
de
libert
Somme
Somme des
des carrs carrs moyens
Stat de
Fisher
modle
SSM
SSM
F=SSM/s
erreur
n-2
SSR
s=SSR/(n-2)
total
n-1
SST
s(Y)=SST/(n-1)

thorie
Indicateur principal de qualit du modle: le coefficient de dtermination (%
de variation expliqu par le modle, carr du coefficient de corrlation
linaire):
R =
SSM 1 SSR
=
SST
SST
doit tre proche de 1.
Autres indicateurs :
SSM
F=
- Le F de Fisher
doit tre le plus grand possible
s
- Le s doit tre le plus faible possible pour garantir de bonnes prvisions.
- Les coefficients doivent tre stables pour garantir de bonnes prvisions, i.e.
leurs carts type
doivent tre faibles. On montre que
s(a ) et s(b)
avec
2
s
x
1
ci = xi x
s (a ) = n
; s (b) = s + n
n
ci
i=1
i=1 i

thorie
Vrification des hypothses sur les alas i: il faut que les alas
soient i.i.d. et gaussiens
Tests graphiques :
Le graphe des rsidus versus les valeurs prdites ne doit pas prsenter de
structure (indpendance, homoscedasticit, normalit).
Le corrlogramme (ACF) ne doit pas prsenter de structure (indpendance)
Le QQ-plot suit la premire bissectrice

thorie

thorie
Consquences
de la non-normalit :
Les estimateurs ne sont pas optimaux
Les tests et intervalles de confiances sont invalides. En ralit seulement les
distribution queue trs longue posent problme et une lgre non-normalit
peut tre ignore, dautant plus que lchantillon est grand.
dune variance non constante : Les estimations ne sont pas bonnes il faut utiliser les
moindres carrs pondrs.

thorie
Solutions
Essayer de transformer les donnes en se rappelant que

- quoiquon fasse, certaines donnes ne peuvent tre analyses par
rgression
- la bonne transformation est parfois difficile trouver.
Utiliser une rgression non-linaire.

thorie
Reprage des points aberrants:
Rsidu rduit ou studentis :
ei
rei =
s (ei )
1
ci
= s (1 hii )
s (ei ) = s 1 n
n
ci
i =1
Tests graphiques
Le graphe des rsidus rduits versus les valeurs prdites doit normalement
tre compris entre 2 et 2 pour au moins 95% des observations ds lors que
la normalit est vrifie.

thorie
Des observations dont le rsidu rduit est >2 en v.a. sont des points
contribuant fortement la valeur de s. Ils peuvent constituer des points
aberrants. Il faut les analyser plus avant.
Analyse du leverage de ces points (hii) : Le leverage mesure linfluence

potentielle dun point sur la valeur des coefficients de la rgression. Une
valeur hii>4/n traduit un point trop influent sur la dtermination des
coefficients.
Analyse de la distance de Cook : La distance de Cook mesure le leverage et

la contribution au s, cest--dire linfluence relle dun point . Une valeur
>1 traduit un point aberrant.

thorie
Solutions
Enlever les observations aberrantes et recalculer la rgression.
Comparer les rsultats. Y-a-t-il des diffrences significatives entre
les coefficients?

thorie
Validation du modle sur la population
Une fois la gaussianit vrifie, on peut effectuer des tests afin dasseoir la
pertinence du modle sur la population tudie. Ces tests testent
lhypothse :
H 0 : a = 0 contre H1 : a 0
(a=0 signifie absence de lien linaire entre X et Y)
Test de student . Bas sur la statistique
a
T=
Test de Fisher. Bas sur la statistique : F =
s ( a )
SSM
s
T T(n-2) sous H 0
F F(1,n-2) sous H 0

exemple
Exemple 1 : On cherche expliquer les variations de y par celles dune fonction linaire
de x partir de 30 observations de chacune des variables, i.e. ajuster le modle
yi = axi + b + i , i = 1,...,30.
o i est une suite de variables alatoires i.i.d.gaussiennes de moyenne nulle et de variance
>x=1:100; X=sample(x,30,replace=TRUE)
>Y=3+7*X+rnorm(30,0,100)
>regression=lm(Y~X); regression
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept)
X
-30.26
7.42
Le modle de rgression linaire simple:

exemple
Dessin du nuage de points :
> plot(X,Y)
>text(40,600, substitute(y==a*x+b, list(a=regression$coef[2],
b=regression$coef[1])))
> lines(X,regression$fitted.values) #ou abline(regression)
> M=locator(); v=locator()
> segments(0,M$y,M$x,M$y)
> arrows(M$x,M$y,M$x,v$y,angle=30, code=3)
> segments(M$x,v$y,0,v$y,lty=2)
> text(0,350, "yi",col="red")
> text(0,200, "^yi",col="red")
> text(25,250, "ei",col="red")
> title("nuage de points et droite de regression")

exemple

exemple
Explication des sorties R
> names(regression)
[1] "coefficients" "residuals"
"effects"
[5] "fitted.values" "assign"

"qr"
[9] "xlevels"
"call"
"terms"
"rank"
"df.residual"
"model
coefficients (ou coef) : estimations des paramtres a et b

fitted.values (ou fitted): valeurs estimes yi
Residuals (ou res) : rsidus ei = yi yi
df.residual : nombre de ddl des rsidus (n-2)

exemple
> anova(regression)
F=MSM/MSR
Analysis of Variance Table

SSM
Response: Y
SSR
Df Sum Sq Mean Sq F value
Pr(>F)
X
1 1485466 1485466 159.83 4.312e-13 ***
Residuals 28
260238
9294
MSM=SSM/dl=SSM
--n-2
MSR=SSR/dl=SSR/n-2
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

exemple
>summary(regression)
Call:
lm(formula = Y ~ X)
Residuals:
Min
1Q
-206.89 -76.47
Median
12.28
^b
3Q
61.42
Max
192.04
s(^b)
s()
Coefficients:
tb=^b/s(^b)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -30.2553
34.3536 -0.881
0.386
ta=/s()
X
7.4199
0.5869 12.642 4.31e-13 ***
--S=sqrt(MSR)
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 96.41 on 28 degrees of freedom
Multiple R-Squared: 0.8509,
Adjusted R-squared: 0.8456
F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13
R=SSM/(SSM
+SSR)

exemple
Pertinence du modle sur les donnes :
De petites valeurs sont un gage
de stabilit du modle donc du
Call:
lm(formula = Y ~ X)
Residuals:
Min
1Q
-206.89 -76.47
Median
12.28
pouvoir prdictif: valeur de b

pas trs stable ici
3Q
61.42
Max
192.04
% de variations expliques
par le modle R doit tre
proche de 1 pour bon
pouvoir explicatif: ok ici
Coefficients:
34.3536 -0.881
0.386
X
7.4199
0.5869 12.642 4.31e-13 ***
cart-type rsiduel
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1doit tre faible
pour bon pouvoir

prdictif

exemple
Conclusion 1 : le modle a un bon pouvoir explicatif sur les
donnes, mais le pouvoir prdictif risque dtre entach par
linstabilit du coefficient b et une variance rsiduelle importante.

exemple
Analyse des rsidus
Fonctions R utiles:
- influence(): tude des points contribuant linstabilit du modle
(prdiction).
- residuals()
- rstudent() : rsidus rduits
- acf() : graphe dautocorrelation des rsidus
- plot()
- qqnorm()

exemple
- Reprage des points aberrants et des points contribuant fortement
la dtermination du modle :
Est suspect un point tel que le rsidu rduit est suprieur 2
en valeur absolue : si sa distance de Cooks est >1, le point
suspect contribue trop fortement la dtermination du modle
- Vrifier les hypothse sur les alas : iid et normalit (pralable

linterprtation des tests)
Le graphe des rsidus (ou des rsidus rduits) ne doit pas
prsenter de structure (variance constante sur la verticale et
symetrie par rapport aux abscisses).
. Le graphe des rsidus rduits doit tre compris entre 2 et 2 et
ne doit pas prsenter de structure. Dautres graphiques tels
que le qqnorm() ou acf() peuvent aider.

exemple

exemple
> regression$res
1
-124.555774
7
62.303811
13
-32.171872
19
-25.642668
25
1.090471
2
3
192.039037 -206.889677
8
9
49.992064
58.754097
14
15
66.230754
14.259927
20
21
-90.246235
50.526061
26
27
94.392800
29.988159
4
5
66.405930 134.778691
10
11
-59.526887 -122.429844
16
17
-85.047904 -10.456005
22
23
40.156580 -54.350556
28
29
20.679500 -162.341983
6
84.971904
12
164.829565
18
-85.910834
24
10.292678
30
-82.121786

exemple
> rstudent(regression)
1
2
3
4
5
6
-1.33891051 2.18030419 -2.35658586 0.69563804 1.44970973 0.90378230
7
8
9
10
11
12
0.67206553 0.54684103 0.61362322 -0.63902844 -1.37190197 1.80811221
13
14
15
16
17
18
-0.33693306 0.72519680 0.14970613 -0.92811721 -0.11319206 -0.91236104
19
20
21
22
23
24
-0.27792699 -0.96174524 0.53172811 0.43253471 -0.58014349 0.10726922
25
26
27
28
29
30
0.01142126 1.03392757 0.31123595 0.21446494 -1.79851278 -0.86589500

exemple
>par(mfrow=c(2,2)); plot(regression)
Graphe1 : doit tre sans structure rparti de part et dautre de laxe des x
Graphe 2 : doit suivre la bissectrice
Graphe 3 : doit tre sans structure
Graphe 4 : distances de Cook ou courbe de niveaux de leverage de distances de Cooks
gales

exemple
>plot(regression$fitted,rstudent(regression),xlabel="fitted values",
ylabel="standardized residuals");
>abline(h=2,col="red");abline(h=-2,col="red")

exemple
> par(mfrow=c(1,2))
> plot(regression$residuals)
> acf(regression$res)

exemple
Conclusion 2 : Les rsidus semblent approximativement gaussiens
(qqnorm) et i.i.d. (pas de structure, de part et dautre de 0 sur les
plots et le corrlogramme).Deux points devraient tre
ventuellement enlevs du modle : les points 2 et 3.

exemple

exemple
Validit du modle sur la population
Call:
lm(formula = Y ~ X)
Residuals:
Min
1Q
-206.89 -76.47
Median
12.28
3Q
61.42
Max
192.04
La variable X a une influence

significative sur Y 5%: le
coefficient est significativement
diffrent de zero: le modle est
pertinent par student
Coefficients:
Le terme constant nest
pas significativement
34.3536 -0.881
0.386
different de zero: on peut
X
7.4199
0.5869 12.642 4.31e-13 ***
decider de refaire tourner
--le modle sans lui
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Le modle est
pertinent 5% par
Fisher

exemple
Conclusion 3: le modle linaire est pertinent pour expliquer
variations de Y sur la population.
Conclusion : Lajustement linaire est pertinent ici. Pour obtenir un
meilleur pouvoir prdictif, il faudrait ventuellement retirer les
points 2 et 3 de lanalyse et utiliser un modle sans terme constant.
II- Analyse de variance : thorie
Soit X une variable qualitative (facteur) p modalits (niveaux) et Y une variable

quantitative. On veut mettre en vidence une diffrence de valeur moyenne de la
variable Y selon le niveau du facteur. On suppose alors que X discrimine bien Y:
E(Y/X=x j ) = + j
ou de faon quivalente
avec j de moyenne nulle.

On veut pouvoir rejeter lhypothse :
Y j = + j + j , j = 1,...p.
H 0 : 1 =...= j =...= p
Pour cela, on observe ces deux variables sur un ensemble de n individus, on suppose
yij = + j + ij i = 1....n j , j = 1,...p.
n =n
j
avec
j =1
et on veut valider lhypothse prcdente. On fait gnralement lhypothse implicite que
les ij
sont iid gaussiens.

p
y=1 n y
n j=1 j j
E1 (X = x1 )
y11 ,... yn11
E j (X = x j )
y1 j ,... yn j j
n
y1
E p (X = x p )
y1 p ,... yn p p
i =1
y ij
yp

Un moyen simple pour se rendre compte :
Lorsque n1 = ... = n p
on dit quon a un plan quilibr.

Estimation des paramtres
Moyennes
On a p+1 inconnues du modle ( ,1,..., p ) et uniquement p groupes donc
on doit imposer une contrainte. On impose :
p
n j j = 0
j =1
(ce quun groupe perd lautre le gagne)
On cherche les valeurs des paramtres minimisant la fontion des moindres

carrs:
i ( yij j )2
j
On trouve :
= y
et
j = y j y
y j =
est la moyenne estime ou prdite dans le niveau j du facteur

j
eij = y y j est le i rsidu du niveau j du facteur
ij
Estimation de la variance des erreurs :
ij
s =
n p

Validation du modle : on doit dabord vrifier que le facteur X discrimine bien Y,
cest dire que la majeure partie de la variabilit est bien explique par le modle.
Dcomposition de la variabilit
D j = ( yij y j )2 = Somme des carrs des variations dans le

niveau j
i E j
SSint ra = D j = (n p ) s = Somme des carrs des variations intra-niveaux
j
SSint er = n j ( y j y )2 = Somme des carrs des variations inter-niveaux
j
SST = ( yij y )2 = somme des carrs des variations totales
j iEj
On a :
SST = SSint er + SSint ra
Le modle est dautant meilleur que SSinter est grand (que SSintra est faible)
Indice de qualit du modle : le rapport de corrlation (% de variations

explique par X)
2 =
SS INTER
SS
= 1 INTRA
SST
SST
Autre indice : le F de Fisher :

F=
VINTER =
SS INTER
p 1
VINTER
VINTRA
VINTER =
SS INTRA
n p

Les indicateurs de variabilit sont rsums dans le tableau danalyse de la
variance ci-dessous :
source
Degrs
de
libert
Somme
des
carrs
Somme des carrs

moyens
Stat de
Fisher
Intergroupes
p-1
SSinter
Vinter=SSinter/p-1
F=Vinter/
s
Intragroupes
n-p
SSintra
Vintra=s
=SSintra/(n-p)
total
n-1
SST
s(Y)=SST/(n-1)

Validation des hypothses sur les alas
Voir rgression

Test dgalit des moyennes
Ds lors quon a vrifi que les erreurs sont i.i.d. gaussiennes, on peut
tester
H 0 : 1 =...= j =...= p
En utilisant le test de Fisher. On utilise la statistique de test

F=
VINTER
VINTRA
sous H 0 , F F ( p 1, n p )
II- Analyse de variance :exemple

Six (k) insecticides (spray) ont t tests chacun sur 12 cultures. La
rponse observe (count) est le nombre d'insectes. Les donnes sont
contenues dans le data.frame InsectSprays . On veut savoir si il
existe un effet significatif du facteur insecticide, i.e. on veut valider
le modle danalyse de variance :
Countij = + j + ij , i = 1,...12; j = 1,...6.

o i est une suite de variables alatoires i.i.d. de moyenne nulle et de
variance
>anov=aov(sqrt(count) ~ spray, data = InsectSprays)
II- Analyse de variance

SSInter
> summary(anov)
P(F>Fvalue)
F suit F(k-1,n-k)
SSIntra
5 88.438 17.688 44.799
66 26.058
0.395
spray
Residuals
--Signif. codes:
Pr(>F)
< 2.2e-16 ***
V Inter
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
V intra
k-1
n-k
V inter/V intra

> names(anov)
[1] "coefficients" "residuals" "effects"
"rank"
[5] "fitted.values" "assign"
"qr"
"df.residual"
[9] "contrasts" "xlevels"
"call"
"terms"
[13] "model"
coefficients : moyennes dans les niveaux j
residuals : rsidus estimes du modle eij = yij yij
fitted.values : valeurs estimes yij = + j
>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray

Le Boxplot montre :
- les points aberrants
- lasymtrie de la distribution
- une ingalit dans les variances. Cependant, comme souvent il y
a peu de donnes dans chaque niveau du facteur on peu sattendre
une grande variabilit mme si les variances des souspopulations sont en ralit gales.

Analyse des rsidus (cf rgression)
>par(mfrow=c(2,2)); plot(anov)

>plot(rstudent(anov))

>par(mfrow=c(2,1))
> acf(anov$res)
>plot(anov$res)

La distribution des rsidus semble gaussienne
Les rsidus sont i.i.d.
Il existe des points aberrants 39, 27, 25 dont les distances de Cooks
montrent quils influencent trop les coefficients.

>summary(anov)

5 88.438 17.688 44.799
66 26.058
0.395
spray
Residuals
--Signif. codes:
Pr(>F)
< 2.2e-16 ***
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Le test de Fisher montre que lon rejette fortement lhypothse nulle

(avec un risque de se tromper presque nul): le modle est significatif
:il existe un fort effet du facteur spray sur le nombre dinsectes : les
moyennes sont differentes
>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray

>anov$coeff
(Intercept)
3.7606784
sprayB
0.1159530
sprayC
-2.5158217
sprayD
-1.5963245
sprayE
-1.9512174
sprayF
0.2579388
Le groupe A est le groupe de rfrence avec une moyenne de 3.76. Le groupe B

a une moyenne de 3.76+0.11,.
Les carts les plus significatifs sont entre les groupes A B et F et les groupes C
D et E, qui sont plus efficaces que les premiers.
III- Test de comparaison de moyenne

Soient (X1, . . . , Xn) un echantillon issu dune population iid N(1, 1) et (Y1, . . . ,
Ym) un chantillon issu dune population iid E(1). On veut tester:
H 0 : E ( X ) = E (Y ) contre H1 : E ( X ) E (Y )
Lorsque les variances thoriques des deux variables sont gales :

Test de student
X Y
(n1 1) s12 + (n2 1) s22

t T (n1 + n2 2) sous H 0
t=
; s =
n1 + n2 2
1 1
s
+
n1 n2
Lorsque les variances thoriques des deux variables sont ingales :
Correction de Welch

Test de student la main ( =5%) :
>x = rnorm(100,1,1); y = rexp(200,1)
>p=abs(mean(x)-mean(y))
> s=sqrt((99*var(x)+199*var(y))/298)
>t=p/(s*sqrt(1/100+1/200))
>t
[1] 0.7274531
On compare |t| le fractile dordre 1- /2 de la loi de student 298 ddl.
Si |t| suprieur, on rejette H0, sinon en accepte.

Avec la fonction t-test : Cas o on suppose les variances gales :
>x = rnorm(100,1,1); y = rexp(200,1)
>t.test(x,y, var.equal=T)
Two Sample t-test
P(|T|>t)
O T suit T(298)
Rejet de H0 si <5%
data: x and y
t = -0.7275, df = 298, p-value = 0.4675
Nombre
de ddl = 298
alternative hypothesis: true difference in means is not equal
to 0
95 percent confidence interval:
-0.3460831 0.1592772
Valeur de t
sample estimates:
mean of x mean of y
0.9584589 1.0518618

Avec la fonction t-test : Cas o on suppose les variances ingales
>x = rnorm(100,1,2); y = rexp(200,1)

>st=t.test(x,y)
Welch Two Sample t-test
Gnralisation du test de Student au cas de

variances ingales
data: x and y
t = 0.8249, df = 118.758, p-value = 0.4111
alternative hypothesis: true difference in means is not equal to 0
Rejet de H0 si <5%
95 percent confidence interval:
-0.2472865 0.6004484
sample estimates:
mean of x mean of y
1.182571 1.005990
Nombre de ddl
corrig=178,46
Valeur de la Statistique de
Welch

> names(st)
[1] "statistic" "parameter" "p.value" "conf.int" "estimate"
[6] "null.value" "alternative" "method" "data.name"
statistic : valeur de t
alternative : type dalternative two-sided, one-sided.
estimate : moyennes empiriques des echantillons
null.value : hypothese nulle
conf.int: intervalles de confiances
parameter :ddl
Conclusion : pour les deux exemples, on ne peut pas rejeter lhypothse nulle
au seuil 5% : les moyennes ne sont pas significativement diffrentes.
IV Test du chi2
On veut tester partir dun tableau de contingence de n individus sil y a une
relation entre deux caractres X et Y
H 0 : les deux critres sont indpendants
contre H1 = ! H 0
Statistique de test :
n1 ((l 1)(c 1)) sous H 0
O Oi sont les lments du tableau de contingence, Ei sont les lments du

tableau attendu sous lhypothse dindpendance (voir un cours et
lexemple ci-aprs)
IV Test du chi2
Test du chi2 la main
>O=matrix(c(442,514,38,6),nrow=2,byrow=TRUE)
>colnames(O)=c("homme","femme"); rownames(O)=c("voyant","aveugle")
#tableau thorique Ei
>O #tableau observ Oi
homme femme
homme femme
voyant 442 514
voyant 458.88 497.12
aveugle 38 6
aveugle 21.12 22.88
#Cration du tableau thorique :
>ni=apply(O,1,sum); nj= apply(O,2,sum)
voyant aveugle
homme femme
956 44
480 520
>E=matrix(c(ni[1]*nj[1]/1000,ni[2]*nj[1]/1000,ni[1]*nj[2]/1000,
ni[2]*nj[2]/1000),2,2)
>chi2=sum((O-E)^2/E)
[1] 27.13874
IV Test du chi2
> X2=chisq.test(O, correct=F)
Pearson's Chi-squared test
Valeur de la statistique de test du chi2
data: tab
X-squared = 27.1387, df = 1, p-value = 1.894e-07
P(X>X-squared )
X v.a. de loi X(1)
On rejette H0 si la p-value est <5%. Ici, cest le cas, les caractres sexe et
cecite ne sont pas indpendants.

R-Cours 7

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

R-Cours 7

Hochgeladen von

Copyright:

Verfügbare Formate

Cours 7 : Rappels de cours et exemples sous

I- Le modle de rgression linaire simple:

Avec i i.i.d. Gaussiennes et pas trop grand,

I- Le modle de rgression linaire simple:

Estimation de a et b : On commence par chercher le meilleur ajustement

yi = axi + b =i valeur estime

a et b sont tels que

b) est minimal. Ce sont les

coefficients de la rgression (ou estimateurs des moindres carrs).

I- Le modle de rgression linaire simple:

sappelle droite de rgression ou des

La valeur y estime la valeur moyenne de Y lorsque X=xi (E(Y/X=xi)) .

Estimation de : La variance de lerreur sestime par

I- Le modle de rgression linaire simple:

Analyse de la qualit du modle : Dcomposition de la variabilit

=somme des carrs des variations de y

On montre que : SST=SSR+SSM

I- Le modle de rgression linaire simple:

I- Le modle de rgression linaire simple:

doit tre proche de 1.

I- Le modle de rgression linaire simple:

Le corrlogramme (ACF) ne doit pas prsenter de structure (indpendance)

Le QQ-plot suit la premire bissectrice

I- Le modle de rgression linaire simple:

I- Le modle de rgression linaire simple:

I- Le modle de rgression linaire simple:

Essayer de transformer les donnes en se rappelant que

Utiliser une rgression non-linaire.

I- Le modle de rgression linaire simple:

Rsidu rduit ou studentis :

I- Le modle de rgression linaire simple:

Analyse du leverage de ces points (hii) : Le leverage mesure linfluence

Analyse de la distance de Cook : La distance de Cook mesure le leverage et

I- Le modle de rgression linaire simple:

I- Le modle de rgression linaire simple:

Test de Fisher. Bas sur la statistique : F =

I- Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

[5] "fitted.values" "assign"

coefficients (ou coef) : estimations des paramtres a et b

Le modle de rgression linaire simple:

Analysis of Variance Table

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

pouvoir prdictif: valeur de b

pour bon pouvoir

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

- Vrifier les hypothse sur les alas : iid et normalit (pralable

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

Le modle de rgression linaire simple:

La variable X a une influence

Le modle de rgression linaire simple: