Beruflich Dokumente
Kultur Dokumente
R
I- Rgression linaire simple
II- Analyse de variance 1 facteur
III- Tests statistiques
Y = aX + b +
o est une variable alatoire gaussienne de moyenne nulle et de variance
Pour cela on observe un n-chantillon de ralisations de X et de Y, sur
lesquelles on va chercher voir si le lien est plausible,
i.e. si il existe a, b et
yi = axi + b + i , i = 1,..., n.
(validation)
= i rsidu
2
i
i =1
On montre que :
a =
( x x )( y y )
i =1
( x x )
i =1
, b = y ax
+ b
y = ax
La droite dajustement
moindres carrs.
s =
e
i =1
2
i
n2
SSR
n2
SST = ( yi y ) = nsY2
SSM = ( yi y ) =sY2
SSR = ei2 = (n 2) s 2
source
Degrs
de
libert
Somme
Somme des
des carrs carrs moyens
Stat de
Fisher
modle
SSM
SSM
F=SSM/s
erreur
n-2
SSR
s=SSR/(n-2)
total
n-1
SST
s(Y)=SST/(n-1)
SSM 1 SSR
=
SST
SST
Autres indicateurs :
SSM
F=
- Le F de Fisher
doit tre le plus grand possible
s
- Le s doit tre le plus faible possible pour garantir de bonnes prvisions.
- Les coefficients doivent tre stables pour garantir de bonnes prvisions, i.e.
leurs carts type
doivent tre faibles. On montre que
s(a ) et s(b)
avec
2
s
x
1
ci = xi x
s (a ) = n
; s (b) = s + n
n
ci
i=1
i=1 i
Le graphe des rsidus versus les valeurs prdites ne doit pas prsenter de
structure (indpendance, homoscedasticit, normalit).
dune variance non constante : Les estimations ne sont pas bonnes il faut utiliser les
moindres carrs pondrs.
ei
rei =
s (ei )
1
ci
= s (1 hii )
s (ei ) = s 1 n
n
ci
i =1
Tests graphiques
Le graphe des rsidus rduits versus les valeurs prdites doit normalement
tre compris entre 2 et 2 pour au moins 95% des observations ds lors que
la normalit est vrifie.
Des observations dont le rsidu rduit est >2 en v.a. sont des points
contribuant fortement la valeur de s. Ils peuvent constituer des points
aberrants. Il faut les analyser plus avant.
H 0 : a = 0 contre H1 : a 0
(a=0 signifie absence de lien linaire entre X et Y)
Test de student . Bas sur la statistique
a
T=
s ( a )
SSM
s
T T(n-2) sous H 0
F F(1,n-2) sous H 0
yi = axi + b + i , i = 1,...,30.
o i est une suite de variables alatoires i.i.d.gaussiennes de moyenne nulle et de variance
>x=1:100; X=sample(x,30,replace=TRUE)
>Y=3+7*X+rnorm(30,0,100)
>regression=lm(Y~X); regression
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept)
X
-30.26
7.42
"effects"
"rank"
"df.residual"
"model
Response: Y
SSR
Df Sum Sq Mean Sq F value
Pr(>F)
X
1 1485466 1485466 159.83 4.312e-13 ***
Residuals 28
260238
9294
MSM=SSM/dl=SSM
--n-2
MSR=SSR/dl=SSR/n-2
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
>summary(regression)
Call:
lm(formula = Y ~ X)
Residuals:
Min
1Q
-206.89 -76.47
Median
12.28
^b
3Q
61.42
Max
192.04
s(^b)
s()
Coefficients:
tb=^b/s(^b)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -30.2553
34.3536 -0.881
0.386
ta=/s()
X
7.4199
0.5869 12.642 4.31e-13 ***
--S=sqrt(MSR)
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 96.41 on 28 degrees of freedom
Multiple R-Squared: 0.8509,
Adjusted R-squared: 0.8456
F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13
R=SSM/(SSM
+SSR)
Median
12.28
Max
192.04
% de variations expliques
par le modle R doit tre
proche de 1 pour bon
pouvoir explicatif: ok ici
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -30.2553
34.3536 -0.881
0.386
X
7.4199
0.5869 12.642 4.31e-13 ***
cart-type rsiduel
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1doit tre faible
Residual standard error: 96.41 on 28 degrees of freedom
Multiple R-Squared: 0.8509,
Adjusted R-squared: 0.8456
F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13
2
3
192.039037 -206.889677
8
9
49.992064
58.754097
14
15
66.230754
14.259927
20
21
-90.246235
50.526061
26
27
94.392800
29.988159
4
5
66.405930 134.778691
10
11
-59.526887 -122.429844
16
17
-85.047904 -10.456005
22
23
40.156580 -54.350556
28
29
20.679500 -162.341983
6
84.971904
12
164.829565
18
-85.910834
24
10.292678
30
-82.121786
Graphe1 : doit tre sans structure rparti de part et dautre de laxe des x
Graphe 2 : doit suivre la bissectrice
Graphe 3 : doit tre sans structure
Graphe 4 : distances de Cook ou courbe de niveaux de leverage de distances de Cooks
gales
Median
12.28
3Q
61.42
Max
192.04
Coefficients:
Le terme constant nest
Estimate Std. Error t value Pr(>|t|)
pas significativement
(Intercept) -30.2553
34.3536 -0.881
0.386
different de zero: on peut
X
7.4199
0.5869 12.642 4.31e-13 ***
decider de refaire tourner
--le modle sans lui
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 96.41 on 28 degrees of freedom
Multiple R-Squared: 0.8509,
Adjusted R-squared: 0.8456
F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13
Le modle est
pertinent 5% par
Fisher
E(Y/X=x j ) = + j
ou de faon quivalente
Y j = + j + j , j = 1,...p.
H 0 : 1 =...= j =...= p
Pour cela, on observe ces deux variables sur un ensemble de n individus, on suppose
n =n
j
avec
j =1
et on veut valider lhypothse prcdente. On fait gnralement lhypothse implicite que
les ij
sont iid gaussiens.
E1 (X = x1 )
E j (X = x j )
y1 j ,... yn j j
n
y1
E p (X = x p )
y1 p ,... yn p p
i =1
y ij
yp
Lorsque n1 = ... = n p
p
n j j = 0
j =1
On trouve :
= y
et
j = y j y
y j =
ij
s =
n p
Le modle est dautant meilleur que SSinter est grand (que SSintra est faible)
2 =
SS INTER
SS
= 1 INTRA
SST
SST
VINTER =
SS INTER
p 1
VINTER
VINTRA
VINTER =
SS INTRA
n p
source
Degrs
de
libert
Somme
des
carrs
Stat de
Fisher
Intergroupes
p-1
SSinter
Vinter=SSinter/p-1
F=Vinter/
s
Intragroupes
n-p
SSintra
Vintra=s
=SSintra/(n-p)
total
n-1
SST
s(Y)=SST/(n-1)
VINTER
VINTRA
sous H 0 , F F ( p 1, n p )
> summary(anov)
P(F>Fvalue)
F suit F(k-1,n-k)
SSIntra
Df Sum Sq Mean Sq F value
5 88.438 17.688 44.799
66 26.058
0.395
spray
Residuals
--Signif. codes:
Pr(>F)
< 2.2e-16 ***
V Inter
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
V intra
k-1
n-k
V inter/V intra
>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray
spray
Residuals
--Signif. codes:
Pr(>F)
< 2.2e-16 ***
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray
sprayB
0.1159530
sprayC
-2.5158217
sprayD
-1.5963245
sprayE
-1.9512174
sprayF
0.2579388
H 0 : E ( X ) = E (Y ) contre H1 : E ( X ) E (Y )
P(|T|>t)
O T suit T(298)
Rejet de H0 si <5%
data: x and y
t = -0.7275, df = 298, p-value = 0.4675
Nombre
de ddl = 298
alternative hypothesis: true difference in means is not equal
to 0
95 percent confidence interval:
-0.3460831 0.1592772
Valeur de t
sample estimates:
mean of x mean of y
0.9584589 1.0518618
data: x and y
t = 0.8249, df = 118.758, p-value = 0.4111
alternative hypothesis: true difference in means is not equal to 0
Rejet de H0 si <5%
95 percent confidence interval:
-0.2472865 0.6004484
sample estimates:
mean of x mean of y
1.182571 1.005990
Nombre de ddl
corrig=178,46
Valeur de la Statistique de
Welch
IV Test du chi2
On veut tester partir dun tableau de contingence de n individus sil y a une
relation entre deux caractres X et Y
contre H1 = ! H 0
Statistique de test :
IV Test du chi2
Test du chi2 la main
>O=matrix(c(442,514,38,6),nrow=2,byrow=TRUE)
>colnames(O)=c("homme","femme"); rownames(O)=c("voyant","aveugle")
#tableau thorique Ei
>O #tableau observ Oi
homme femme
homme femme
voyant 442 514
voyant 458.88 497.12
aveugle 38 6
aveugle 21.12 22.88
#Cration du tableau thorique :
>ni=apply(O,1,sum); nj= apply(O,2,sum)
voyant aveugle
homme femme
956 44
480 520
>E=matrix(c(ni[1]*nj[1]/1000,ni[2]*nj[1]/1000,ni[1]*nj[2]/1000,
ni[2]*nj[2]/1000),2,2)
>chi2=sum((O-E)^2/E)
[1] 27.13874
IV Test du chi2
> X2=chisq.test(O, correct=F)
Pearson's Chi-squared test
Valeur de la statistique de test du chi2
data: tab
X-squared = 27.1387, df = 1, p-value = 1.894e-07
P(X>X-squared )
X v.a. de loi X(1)
On rejette H0 si la p-value est <5%. Ici, cest le cas, les caractres sexe et
cecite ne sont pas indpendants.