Sie sind auf Seite 1von 66

Cours 7 : Rappels de cours et exemples sous

R
I- Rgression linaire simple
II- Analyse de variance 1 facteur
III- Tests statistiques

I- Le modle de rgression linaire simple:


thorie
 Rappels On cherche expliquer ou prvoir les variations dune variable Y
(variable dpendante) par celles dune fonction linaire de X (variable
explicative), i.e., valider le modle de RLS

Y = aX + b +
o est une variable alatoire gaussienne de moyenne nulle et de variance
Pour cela on observe un n-chantillon de ralisations de X et de Y, sur
lesquelles on va chercher voir si le lien est plausible,
i.e. si il existe a, b et

yi = axi + b + i , i = 1,..., n.

(validation)

Avec i i.i.d. Gaussiennes et pas trop grand,


et approcher les valeurs des paramtres a, b, et (estimation)

I- Le modle de rgression linaire simple:


thorie
 Estimation des paramtres :

Estimation de a et b : On commence par chercher le meilleur ajustement


linaire sur nos donnes, au sens des moindres carrs :

yi = axi + b =i valeur estime


ei = yi yi

= i rsidu

a et b sont tels que

b) est minimal. Ce sont les


e = ( y ax
i =1

2
i

i =1

coefficients de la rgression (ou estimateurs des moindres carrs).

I- Le modle de rgression linaire simple:


thorie
n

On montre que :

a =

( x x )( y y )
i =1

( x x )
i =1

, b = y ax

+ b
y = ax

La droite dajustement
moindres carrs.

sappelle droite de rgression ou des

La valeur y estime la valeur moyenne de Y lorsque X=xi (E(Y/X=xi)) .


i
Cest aussi la prvision de Y pour une observation telle que X=xi.

Estimation de : La variance de lerreur sestime par


n

s =

e
i =1

2
i

n2

SSR
n2

I- Le modle de rgression linaire simple:


thorie
 Validation du modle sur les donnes : il faut que le modle soit de
bonne qualit (bon pouvoir explicatif et prdictif)

Analyse de la qualit du modle : Dcomposition de la variabilit

SST = ( yi y ) = nsY2
SSM = ( yi y ) =sY2
SSR = ei2 = (n 2) s 2

=somme des carrs des variations de y


=somme des carrs des variations expliques
par le modle
=somme des carrs des variations rsiduelles

On montre que : SST=SSR+SSM


Au plus SSM est grand (ou SSR faible), au meilleur est lajustement.

I- Le modle de rgression linaire simple:


thorie
Les indicateurs de variabilit sont rsums dans le tableau danalyse de la
variance ci-dessous :

source

Degrs
de
libert

Somme
Somme des
des carrs carrs moyens

Stat de
Fisher

modle

SSM

SSM

F=SSM/s

erreur

n-2

SSR

s=SSR/(n-2)

total

n-1

SST

s(Y)=SST/(n-1)

I- Le modle de rgression linaire simple:


thorie
Indicateur principal de qualit du modle: le coefficient de dtermination (%
de variation expliqu par le modle, carr du coefficient de corrlation
linaire):
R =

SSM 1 SSR
=
SST
SST

doit tre proche de 1.

Autres indicateurs :

SSM

F=
- Le F de Fisher
doit tre le plus grand possible
s
- Le s doit tre le plus faible possible pour garantir de bonnes prvisions.
- Les coefficients doivent tre stables pour garantir de bonnes prvisions, i.e.
leurs carts type
doivent tre faibles. On montre que
s(a ) et s(b)

avec

2
s
x
1
ci = xi x
s (a ) = n
; s (b) = s + n
n

ci

i=1
i=1 i

I- Le modle de rgression linaire simple:


thorie
 Vrification des hypothses sur les alas i: il faut que les alas
soient i.i.d. et gaussiens
Tests graphiques :

Le graphe des rsidus versus les valeurs prdites ne doit pas prsenter de
structure (indpendance, homoscedasticit, normalit).

Le corrlogramme (ACF) ne doit pas prsenter de structure (indpendance)

Le QQ-plot suit la premire bissectrice

I- Le modle de rgression linaire simple:


thorie

I- Le modle de rgression linaire simple:


thorie
Consquences
de la non-normalit :
Les estimateurs ne sont pas optimaux
Les tests et intervalles de confiances sont invalides. En ralit seulement les
distribution queue trs longue posent problme et une lgre non-normalit
peut tre ignore, dautant plus que lchantillon est grand.

dune variance non constante : Les estimations ne sont pas bonnes il faut utiliser les
moindres carrs pondrs.

I- Le modle de rgression linaire simple:


thorie
Solutions

Essayer de transformer les donnes en se rappelant que


- quoiquon fasse, certaines donnes ne peuvent tre analyses par
rgression
- la bonne transformation est parfois difficile trouver.

Utiliser une rgression non-linaire.

I- Le modle de rgression linaire simple:


thorie
 Reprage des points aberrants:

Rsidu rduit ou studentis :

ei
rei =
s (ei )

1
ci
= s (1 hii )
s (ei ) = s 1 n
n
ci

i =1

Tests graphiques
Le graphe des rsidus rduits versus les valeurs prdites doit normalement
tre compris entre 2 et 2 pour au moins 95% des observations ds lors que
la normalit est vrifie.

I- Le modle de rgression linaire simple:


thorie

Des observations dont le rsidu rduit est >2 en v.a. sont des points
contribuant fortement la valeur de s. Ils peuvent constituer des points
aberrants. Il faut les analyser plus avant.

Analyse du leverage de ces points (hii) : Le leverage mesure linfluence


potentielle dun point sur la valeur des coefficients de la rgression. Une
valeur hii>4/n traduit un point trop influent sur la dtermination des
coefficients.

Analyse de la distance de Cook : La distance de Cook mesure le leverage et


la contribution au s, cest--dire linfluence relle dun point . Une valeur
>1 traduit un point aberrant.

I- Le modle de rgression linaire simple:


thorie
Solutions
Enlever les observations aberrantes et recalculer la rgression.
Comparer les rsultats. Y-a-t-il des diffrences significatives entre
les coefficients?

I- Le modle de rgression linaire simple:


thorie
 Validation du modle sur la population
Une fois la gaussianit vrifie, on peut effectuer des tests afin dasseoir la
pertinence du modle sur la population tudie. Ces tests testent
lhypothse :

H 0 : a = 0 contre H1 : a 0
(a=0 signifie absence de lien linaire entre X et Y)
Test de student . Bas sur la statistique
a

T=

Test de Fisher. Bas sur la statistique : F =

s ( a )
SSM
s

T T(n-2) sous H 0

F F(1,n-2) sous H 0

I- Le modle de rgression linaire simple:


exemple
Exemple 1 : On cherche expliquer les variations de y par celles dune fonction linaire
de x partir de 30 observations de chacune des variables, i.e. ajuster le modle

yi = axi + b + i , i = 1,...,30.
o i est une suite de variables alatoires i.i.d.gaussiennes de moyenne nulle et de variance

>x=1:100; X=sample(x,30,replace=TRUE)
>Y=3+7*X+rnorm(30,0,100)
>regression=lm(Y~X); regression
Call:
lm(formula = Y ~ X)
Coefficients:
(Intercept)
X
-30.26
7.42

Le modle de rgression linaire simple:


exemple
Dessin du nuage de points :
> plot(X,Y)
>text(40,600, substitute(y==a*x+b, list(a=regression$coef[2],
b=regression$coef[1])))
> lines(X,regression$fitted.values) #ou abline(regression)
> M=locator(); v=locator()
> segments(0,M$y,M$x,M$y)
> arrows(M$x,M$y,M$x,v$y,angle=30, code=3)
> segments(M$x,v$y,0,v$y,lty=2)
> text(0,350, "yi",col="red")
> text(0,200, "^yi",col="red")
> text(25,250, "ei",col="red")
> title("nuage de points et droite de regression")

Le modle de rgression linaire simple:


exemple

Le modle de rgression linaire simple:


exemple
Explication des sorties R
> names(regression)
[1] "coefficients" "residuals"

"effects"

[5] "fitted.values" "assign"


"qr"
[9] "xlevels"
"call"
"terms"

"rank"

"df.residual"
"model

coefficients (ou coef) : estimations des paramtres a et b


fitted.values (ou fitted): valeurs estimes yi
Residuals (ou res) : rsidus ei = yi yi
df.residual : nombre de ddl des rsidus (n-2)

Le modle de rgression linaire simple:


exemple
> anova(regression)
F=MSM/MSR

Analysis of Variance Table


SSM

Response: Y
SSR
Df Sum Sq Mean Sq F value
Pr(>F)
X
1 1485466 1485466 159.83 4.312e-13 ***
Residuals 28

260238

9294

MSM=SSM/dl=SSM

--n-2
MSR=SSR/dl=SSR/n-2
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Le modle de rgression linaire simple:


exemple

>summary(regression)
Call:
lm(formula = Y ~ X)
Residuals:
Min
1Q
-206.89 -76.47

Median
12.28

^b
3Q
61.42

Max
192.04

s(^b)
s()

Coefficients:
tb=^b/s(^b)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -30.2553
34.3536 -0.881
0.386
ta=/s()
X
7.4199
0.5869 12.642 4.31e-13 ***
--S=sqrt(MSR)
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 96.41 on 28 degrees of freedom
Multiple R-Squared: 0.8509,
Adjusted R-squared: 0.8456
F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13

R=SSM/(SSM
+SSR)

Le modle de rgression linaire simple:


exemple
 Pertinence du modle sur les donnes :
De petites valeurs sont un gage
>summary(regression)
de stabilit du modle donc du
Call:
lm(formula = Y ~ X)
Residuals:
Min
1Q
-206.89 -76.47

Median
12.28

pouvoir prdictif: valeur de b


pas trs stable ici
3Q
61.42

Max
192.04

% de variations expliques
par le modle R doit tre
proche de 1 pour bon
pouvoir explicatif: ok ici

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -30.2553
34.3536 -0.881
0.386
X
7.4199
0.5869 12.642 4.31e-13 ***
cart-type rsiduel
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1doit tre faible
Residual standard error: 96.41 on 28 degrees of freedom
Multiple R-Squared: 0.8509,
Adjusted R-squared: 0.8456
F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13

pour bon pouvoir


prdictif

Le modle de rgression linaire simple:


exemple
Conclusion 1 : le modle a un bon pouvoir explicatif sur les
donnes, mais le pouvoir prdictif risque dtre entach par
linstabilit du coefficient b et une variance rsiduelle importante.

Le modle de rgression linaire simple:


exemple
 Analyse des rsidus
Fonctions R utiles:
- influence(): tude des points contribuant linstabilit du modle
(prdiction).
- residuals()
- rstudent() : rsidus rduits
- acf() : graphe dautocorrelation des rsidus
- plot()
- qqnorm()

Le modle de rgression linaire simple:


exemple
- Reprage des points aberrants et des points contribuant fortement
la dtermination du modle :
Est suspect un point tel que le rsidu rduit est suprieur 2
en valeur absolue : si sa distance de Cooks est >1, le point
suspect contribue trop fortement la dtermination du modle

- Vrifier les hypothse sur les alas : iid et normalit (pralable


linterprtation des tests)
Le graphe des rsidus (ou des rsidus rduits) ne doit pas
prsenter de structure (variance constante sur la verticale et
symetrie par rapport aux abscisses).
. Le graphe des rsidus rduits doit tre compris entre 2 et 2 et
ne doit pas prsenter de structure. Dautres graphiques tels
que le qqnorm() ou acf() peuvent aider.

Le modle de rgression linaire simple:


exemple

Le modle de rgression linaire simple:


exemple
> regression$res
1
-124.555774
7
62.303811
13
-32.171872
19
-25.642668
25
1.090471

2
3
192.039037 -206.889677
8
9
49.992064
58.754097
14
15
66.230754
14.259927
20
21
-90.246235
50.526061
26
27
94.392800
29.988159

4
5
66.405930 134.778691
10
11
-59.526887 -122.429844
16
17
-85.047904 -10.456005
22
23
40.156580 -54.350556
28
29
20.679500 -162.341983

6
84.971904
12
164.829565
18
-85.910834
24
10.292678
30
-82.121786

Le modle de rgression linaire simple:


exemple
> rstudent(regression)
1
2
3
4
5
6
-1.33891051 2.18030419 -2.35658586 0.69563804 1.44970973 0.90378230
7
8
9
10
11
12
0.67206553 0.54684103 0.61362322 -0.63902844 -1.37190197 1.80811221
13
14
15
16
17
18
-0.33693306 0.72519680 0.14970613 -0.92811721 -0.11319206 -0.91236104
19
20
21
22
23
24
-0.27792699 -0.96174524 0.53172811 0.43253471 -0.58014349 0.10726922
25
26
27
28
29
30
0.01142126 1.03392757 0.31123595 0.21446494 -1.79851278 -0.86589500

Le modle de rgression linaire simple:


exemple
>par(mfrow=c(2,2)); plot(regression)

Graphe1 : doit tre sans structure rparti de part et dautre de laxe des x
Graphe 2 : doit suivre la bissectrice
Graphe 3 : doit tre sans structure
Graphe 4 : distances de Cook ou courbe de niveaux de leverage de distances de Cooks
gales

Le modle de rgression linaire simple:


exemple
>plot(regression$fitted,rstudent(regression),xlabel="fitted values",
ylabel="standardized residuals");
>abline(h=2,col="red");abline(h=-2,col="red")

Le modle de rgression linaire simple:


exemple
> par(mfrow=c(1,2))
> plot(regression$residuals)
> acf(regression$res)

Le modle de rgression linaire simple:


exemple
Conclusion 2 : Les rsidus semblent approximativement gaussiens
(qqnorm) et i.i.d. (pas de structure, de part et dautre de 0 sur les
plots et le corrlogramme).Deux points devraient tre
ventuellement enlevs du modle : les points 2 et 3.

Le modle de rgression linaire simple:


exemple

Le modle de rgression linaire simple:


exemple
 Validit du modle sur la population
>summary(regression)
Call:
lm(formula = Y ~ X)
Residuals:
Min
1Q
-206.89 -76.47

Median
12.28

3Q
61.42

Max
192.04

La variable X a une influence


significative sur Y 5%: le
coefficient est significativement
diffrent de zero: le modle est
pertinent par student

Coefficients:
Le terme constant nest
Estimate Std. Error t value Pr(>|t|)
pas significativement
(Intercept) -30.2553
34.3536 -0.881
0.386
different de zero: on peut
X
7.4199
0.5869 12.642 4.31e-13 ***
decider de refaire tourner
--le modle sans lui
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 96.41 on 28 degrees of freedom
Multiple R-Squared: 0.8509,
Adjusted R-squared: 0.8456
F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13

Le modle est
pertinent 5% par
Fisher

Le modle de rgression linaire simple:


exemple
Conclusion 3: le modle linaire est pertinent pour expliquer
variations de Y sur la population.
Conclusion : Lajustement linaire est pertinent ici. Pour obtenir un
meilleur pouvoir prdictif, il faudrait ventuellement retirer les
points 2 et 3 de lanalyse et utiliser un modle sans terme constant.

II- Analyse de variance : thorie

Soit X une variable qualitative (facteur) p modalits (niveaux) et Y une variable


quantitative. On veut mettre en vidence une diffrence de valeur moyenne de la
variable Y selon le niveau du facteur. On suppose alors que X discrimine bien Y:

E(Y/X=x j ) = + j

ou de faon quivalente

avec j de moyenne nulle.


On veut pouvoir rejeter lhypothse :

Y j = + j + j , j = 1,...p.

H 0 : 1 =...= j =...= p

Pour cela, on observe ces deux variables sur un ensemble de n individus, on suppose

yij = + j + ij i = 1....n j , j = 1,...p.

n =n

j
avec
j =1
et on veut valider lhypothse prcdente. On fait gnralement lhypothse implicite que
les ij
sont iid gaussiens.

II- Analyse de variance : thorie


p
y=1 n y
n j=1 j j

E1 (X = x1 )

y11 ,... yn11

E j (X = x j )

y1 j ,... yn j j
n

y1

E p (X = x p )

y1 p ,... yn p p

i =1

y ij

yp

II- Analyse de variance : thorie


Un moyen simple pour se rendre compte :

II- Analyse de variance : thorie

Lorsque n1 = ... = n p

on dit quon a un plan quilibr.

II- Analyse de variance : thorie


 Estimation des paramtres
Moyennes
On a p+1 inconnues du modle ( ,1,..., p ) et uniquement p groupes donc
on doit imposer une contrainte. On impose :

p
n j j = 0
j =1

(ce quun groupe perd lautre le gagne)

On cherche les valeurs des paramtres minimisant la fontion des moindres


carrs:
i ( yij j )2
j

II- Analyse de variance : thorie

On trouve :

= y

et

j = y j y

y j =

est la moyenne estime ou prdite dans le niveau j du facteur


j
eij = y y j est le i rsidu du niveau j du facteur
ij

Estimation de la variance des erreurs :

ij

s =

n p

II- Analyse de variance : thorie


 Validation du modle : on doit dabord vrifier que le facteur X discrimine bien Y,
cest dire que la majeure partie de la variabilit est bien explique par le modle.
Dcomposition de la variabilit

D j = ( yij y j )2 = Somme des carrs des variations dans le


niveau j
i E j
SSint ra = D j = (n p ) s = Somme des carrs des variations intra-niveaux
j
SSint er = n j ( y j y )2 = Somme des carrs des variations inter-niveaux
j
SST = ( yij y )2 = somme des carrs des variations totales
j iEj
On a :

SST = SSint er + SSint ra

Le modle est dautant meilleur que SSinter est grand (que SSintra est faible)

II- Analyse de variance : thorie

Indice de qualit du modle : le rapport de corrlation (% de variations


explique par X)

2 =

SS INTER
SS
= 1 INTRA
SST
SST

Autre indice : le F de Fisher :


F=

VINTER =

SS INTER
p 1

VINTER
VINTRA

VINTER =

SS INTRA
n p

II- Analyse de variance : thorie


Les indicateurs de variabilit sont rsums dans le tableau danalyse de la
variance ci-dessous :

source

Degrs
de
libert

Somme
des
carrs

Somme des carrs


moyens

Stat de
Fisher

Intergroupes

p-1

SSinter

Vinter=SSinter/p-1

F=Vinter/
s

Intragroupes

n-p

SSintra

Vintra=s
=SSintra/(n-p)

total

n-1

SST

s(Y)=SST/(n-1)

II- Analyse de variance : thorie


 Validation des hypothses sur les alas
Voir rgression

II- Analyse de variance : thorie


 Test dgalit des moyennes
Ds lors quon a vrifi que les erreurs sont i.i.d. gaussiennes, on peut
tester
H 0 : 1 =...= j =...= p

En utilisant le test de Fisher. On utilise la statistique de test


F=

VINTER
VINTRA

sous H 0 , F F ( p 1, n p )

II- Analyse de variance :exemple


Six (k) insecticides (spray) ont t tests chacun sur 12 cultures. La
rponse observe (count) est le nombre d'insectes. Les donnes sont
contenues dans le data.frame InsectSprays . On veut savoir si il
existe un effet significatif du facteur insecticide, i.e. on veut valider
le modle danalyse de variance :

Countij = + j + ij , i = 1,...12; j = 1,...6.


o i est une suite de variables alatoires i.i.d. de moyenne nulle et de
variance

>anov=aov(sqrt(count) ~ spray, data = InsectSprays)

II- Analyse de variance


SSInter

> summary(anov)

P(F>Fvalue)
F suit F(k-1,n-k)

SSIntra
Df Sum Sq Mean Sq F value
5 88.438 17.688 44.799
66 26.058
0.395

spray
Residuals
--Signif. codes:

Pr(>F)
< 2.2e-16 ***
V Inter

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
V intra

k-1
n-k
V inter/V intra

II- Analyse de variance


> names(anov)
[1] "coefficients" "residuals" "effects"
"rank"
[5] "fitted.values" "assign"
"qr"
"df.residual"
[9] "contrasts" "xlevels"
"call"
"terms"
[13] "model"
coefficients : moyennes dans les niveaux j
residuals : rsidus estimes du modle eij = yij yij
fitted.values : valeurs estimes yij = + j

>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray

II- Analyse de variance


Le Boxplot montre :
- les points aberrants
- lasymtrie de la distribution
- une ingalit dans les variances. Cependant, comme souvent il y
a peu de donnes dans chaque niveau du facteur on peu sattendre
une grande variabilit mme si les variances des souspopulations sont en ralit gales.

II- Analyse de variance


Analyse des rsidus (cf rgression)
>par(mfrow=c(2,2)); plot(anov)

II- Analyse de variance


>plot(rstudent(anov))

II- Analyse de variance


>par(mfrow=c(2,1))
> acf(anov$res)
>plot(anov$res)

II- Analyse de variance


La distribution des rsidus semble gaussienne
Les rsidus sont i.i.d.
Il existe des points aberrants 39, 27, 25 dont les distances de Cooks
montrent quils influencent trop les coefficients.

II- Analyse de variance


>summary(anov)

Df Sum Sq Mean Sq F value


5 88.438 17.688 44.799
66 26.058
0.395

spray
Residuals
--Signif. codes:

Pr(>F)
< 2.2e-16 ***

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Le test de Fisher montre que lon rejette fortement lhypothse nulle


(avec un risque de se tromper presque nul): le modle est significatif
:il existe un fort effet du facteur spray sur le nombre dinsectes : les
moyennes sont differentes

>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray

II- Analyse de variance


>anov$coeff
(Intercept)
3.7606784

sprayB
0.1159530

sprayC
-2.5158217

sprayD
-1.5963245

sprayE
-1.9512174

sprayF
0.2579388

Le groupe A est le groupe de rfrence avec une moyenne de 3.76. Le groupe B


a une moyenne de 3.76+0.11,.
Les carts les plus significatifs sont entre les groupes A B et F et les groupes C
D et E, qui sont plus efficaces que les premiers.

III- Test de comparaison de moyenne


Soient (X1, . . . , Xn) un echantillon issu dune population iid N(1, 1) et (Y1, . . . ,
Ym) un chantillon issu dune population iid E(1). On veut tester:

H 0 : E ( X ) = E (Y ) contre H1 : E ( X ) E (Y )

Lorsque les variances thoriques des deux variables sont gales :


Test de student
X Y

(n1 1) s12 + (n2 1) s22


t T (n1 + n2 2) sous H 0
t=
; s =
n1 + n2 2
1 1
s
+
n1 n2
Lorsque les variances thoriques des deux variables sont ingales :
Correction de Welch

III- Test de comparaison de moyenne


 Test de student la main ( =5%) :
>x = rnorm(100,1,1); y = rexp(200,1)
>p=abs(mean(x)-mean(y))
> s=sqrt((99*var(x)+199*var(y))/298)
>t=p/(s*sqrt(1/100+1/200))
>t
[1] 0.7274531
On compare |t| le fractile dordre 1- /2 de la loi de student 298 ddl.
Si |t| suprieur, on rejette H0, sinon en accepte.

III- Test de comparaison de moyenne


 Avec la fonction t-test : Cas o on suppose les variances gales :
>x = rnorm(100,1,1); y = rexp(200,1)
>t.test(x,y, var.equal=T)
Two Sample t-test

P(|T|>t)
O T suit T(298)
Rejet de H0 si <5%

data: x and y
t = -0.7275, df = 298, p-value = 0.4675
Nombre
de ddl = 298
alternative hypothesis: true difference in means is not equal
to 0
95 percent confidence interval:
-0.3460831 0.1592772
Valeur de t
sample estimates:
mean of x mean of y
0.9584589 1.0518618

III- Test de comparaison de moyenne


 Avec la fonction t-test : Cas o on suppose les variances ingales

>x = rnorm(100,1,2); y = rexp(200,1)


>st=t.test(x,y)
Welch Two Sample t-test

Gnralisation du test de Student au cas de


variances ingales

data: x and y
t = 0.8249, df = 118.758, p-value = 0.4111
alternative hypothesis: true difference in means is not equal to 0
Rejet de H0 si <5%
95 percent confidence interval:
-0.2472865 0.6004484
sample estimates:
mean of x mean of y
1.182571 1.005990

Nombre de ddl
corrig=178,46

Valeur de la Statistique de
Welch

III- Test de comparaison de moyenne


> names(st)
[1] "statistic" "parameter" "p.value" "conf.int" "estimate"
[6] "null.value" "alternative" "method" "data.name"
statistic : valeur de t
alternative : type dalternative two-sided, one-sided.
estimate : moyennes empiriques des echantillons
null.value : hypothese nulle
conf.int: intervalles de confiances
parameter :ddl
Conclusion : pour les deux exemples, on ne peut pas rejeter lhypothse nulle
au seuil 5% : les moyennes ne sont pas significativement diffrentes.

IV Test du chi2
On veut tester partir dun tableau de contingence de n individus sil y a une
relation entre deux caractres X et Y

H 0 : les deux critres sont indpendants

contre H1 = ! H 0

Statistique de test :

n1 ((l 1)(c 1)) sous H 0

O Oi sont les lments du tableau de contingence, Ei sont les lments du


tableau attendu sous lhypothse dindpendance (voir un cours et
lexemple ci-aprs)

IV Test du chi2
 Test du chi2 la main
>O=matrix(c(442,514,38,6),nrow=2,byrow=TRUE)
>colnames(O)=c("homme","femme"); rownames(O)=c("voyant","aveugle")
#tableau thorique Ei
>O #tableau observ Oi
homme femme
homme femme
voyant 442 514
voyant 458.88 497.12
aveugle 38 6
aveugle 21.12 22.88
#Cration du tableau thorique :
>ni=apply(O,1,sum); nj= apply(O,2,sum)
voyant aveugle
homme femme
956 44
480 520
>E=matrix(c(ni[1]*nj[1]/1000,ni[2]*nj[1]/1000,ni[1]*nj[2]/1000,
ni[2]*nj[2]/1000),2,2)
>chi2=sum((O-E)^2/E)
[1] 27.13874

IV Test du chi2
> X2=chisq.test(O, correct=F)
Pearson's Chi-squared test
Valeur de la statistique de test du chi2

data: tab
X-squared = 27.1387, df = 1, p-value = 1.894e-07
P(X>X-squared )
X v.a. de loi X(1)

On rejette H0 si la p-value est <5%. Ici, cest le cas, les caractres sexe et
cecite ne sont pas indpendants.

Das könnte Ihnen auch gefallen