Beruflich Dokumente
Kultur Dokumente
DE LA
VARIANCE
Pierre-Louis GONZALEZ
1
ANALYSE DE LA VARIANCE
Introduction
2
ÉLÉMENTS DE VOCABULAIRE
3
Modèle de type linéaire addififs
Principe d’interprétation
Comparer les moyennes des résultats relatifs aux niveaux (variantes) d’un
facteur à l’erreur expérimentale.
Test d’hypothèse
4
Interaction et linéarité
z = xy
y= 2 La relation entre z et x dépend des valeurs prises par y :
z y = 1
Il y a interaction entre x et y.
y=0
x
z == xy
y = 1 La relation entre z et x est linéaire. Il y a toujours
z
y = 0 ,5
interaction entre x et y.
y = 0
x
z = x2 + y2
( )
Les courbes z = f x sont seulement translatées
z y= 2 lorsque y varie :
y=1
Les influences de x et y sur z sont additives. Il n’y
y=0
x a pas d’interaction.
z = x+ y
y=2
y=1 Les influences de x et de y sur z sont additives.
z y=0
De plus, les relations sont linéaires.
x 5
ANALYSE DE LA VARIANCE
INTERACTION
Ai
------
xijl
⎫
------ ------
Bj xj
xijk ⎬ xij
⎭
xijn
------
------
xi ------ x
(x ijk [ ]
− x ) = ( x i − x ) + ( x j − x ) + ( x ij − x ) − ( x i − x ) − ( x j − x ) + ( x ijk − x ij )
S T2 = S A2 + S B2 + S AB
2
+ S r2
6
X X
B2 B2
B1
B1
A1 A2 A3 A1 A2 A3
Additivité Interaction
7
ANALYSE DE LA VARIANCE À UN FACTEUR
Objectif
⎧ H0 : μ 1 = μ 2 = … = μ k
Test : ⎨
⎩ H 1 : ∃i et j tq : μ i ≠ μ j
9
2 - Le modèle
(
v.a. Yij = «réponse» du jème «individu» du niveau i i = 1 à k ; j = 1 à n i )
ou
E ( Yij ) = μ i Yij = μ i + ε ij
Yij → Ν (μ i ; σ ) ε ij → Ν (0 ; σ )
10
Reparamétrisation
k
∑n μ i i k
μ i = μ + α i avec μ = i=1
k
⇒ ∑n α i i =0
∑n i
i=1
i=1
μ = moyenne globale
⎧ Yij = μ + α i + ε ij
⎨
⎩ H 0 ⇔ α 1 = α 2 = … = α k = 0 (μ = μ i ∀ i )
11
3 - Décomposition de la somme des carrés totale
Notations
k
N = ∑ ni
i=1
ni k
•
1
Yi = n
i
∑ Yij
j=1
Y =
••
1
N
∑ niY i.
i=1
12
3 - Décomposition de la somme des carrés totale
Y , Y1 , Y2 , … , Yk
•• • • • estimateurs sans biais de μ , μ i , μ 2 μk
Yi − Y
• ••
estimateur sans biais de α i
Yij − Yi • «résidu»
ni ni
∑ ∑ (Y ) ∑ (Y )
k k k
= ∑ n i ( Yi − Y ) +∑
2 2
ij −Y •• • •• ij − Yi •
13
4 - Test F pour H0
k
( (
On démontre E SCF ) = k − 1) σ +
2
∑ i i
n α 2
i=1
E (SCR ) = ( N − k ) σ 2
Sous l’hypothèse H0 :
⎧ E (SCF ) = ( k − 1) σ 2 et SCF
⎪ → χ k2 − 1
σ2
⎪⎪
⎨ E (SCR ) = ( N − k ) σ 2 SCR
→ χ N2 − k
⎪ σ2
⎪
⎪⎩ et SCF et SCR indépendantes.
14
Justification
Sous l’hypothèse H0, les Yij sont des variables de même loi.
ni
∑ ∑ (Y )
k 2
ij −Y ••
i = 1 j= 1
→ χ N2 − 1
σ2
ni
∑ (Y )
2
ij − Yi •
j= 1
→ χ n2 − 1
σ2 i
ni
∑ ∑ ( Yij − Yi )
k 2
•
i = 1 j= 1
→ χ N2 − k
σ2
15
Conclusion
SCF / k − 1
F=
SCR / N − k
→ Fisher (k − 1, N − k )
16
TABLEAU D’ANALYSE DE LA VARIANCE
Source Somme
Carrés
de de d.d.l. F
moyens
variation carrés
SCF
Facteur SCF k−1 CMF =
k−1
CMF
CMR
SCR
Résidus SCR N−k CMR =
N−k
18
II TEST D’HOMOSCÉDASTICITÉ (comparaison des variances)
1. Test de Bartlett
population i Yij → Ν ( μ i , σ i2 )
⎧ 0
H : σ 2
1 = σ 2
2 = … = σ 2
k
⎨
⎩ H1 : ∃ i et j tq : σ i2 ≠ σ 2j
ni
∑ (Y )
1 2
Soit S = − Yi
2
variance empirique de la population i
i
ni − 1 j= 1
ij •
k
et SCR = ∑ ( n i − 1) S i2
i=1
19
Le test de Bartlett est basé sur la statistique
⎛ SCR ⎞
( )
k
Q = ( N − k ) ln ⎜ ⎟ − ∑ ( n i − 1) ln S i
2
⎝ N-k ⎠ i = 1
Intuitivement : si S i proches Q ≅ 0
2
2
si S i éloignés Q grand
Q
Bartlett a montré que où :
h
1 ⎛ k 1 1 ⎞
3 ( k − 1) ⎝ ∑
h = 1+ ⎜ − ⎟
i=1
n i − 1 N − k ⎠
(
suit asymptotiquement une loi du khi-deux à k − 1 d.d.l.)
20
2. Test de Hartley
Lorsque les effectifs des échantillons sont égaux, le test de Hartley permet de
vérifier plus rapidement l’hypothèse d’égalité des variances :
H 0 : σ 12 = σ 22 = … = σ k2
Pour deux populations, le test de Hartley est équivalent au test F. Sauf dans ce
dernier cas, ce test est moins sensible que le test de Bartlett (car il ne fait
intervenir explicitement que les valeurs observées de deux échantillons).
Comme le test de Bartlett, il est très sensible à la non normalité. 21
III COMPARAISONS MULTIPLES DE MOYENNES
22
1. Méthode de Student (LSD)
1 1
Yi − Yj ≥ t N −αk σ
• •
+
1−
2
ni n j
23
Remarque
(
Si tous les effectifs des classes sont égaux n 1 = n 2 = … = n k = J )
l’expression précédente se simplifie :
2
Yi − Yj ≥ t N −αk σ
• •
1−
2
J
P.P.D.S.
24
2. Méthode de Bonferroni
La méthode de Bonferroni consiste à fixer le risque α utilisé dans un test
de Student usuel, en tenant compte du nombre de comparaisons effectuées.
N− k 1 1
Yi − Yj ≥ t
• • α σ +
1−
2
ni n j
k ( k − 1)
Du fait que l’on effectue tests par paires :
2
k ( k − 1)
α ≤ 1 − (1 − α )
∗ 2 (cas de tests indépendants)
∗
Si on exige α ≤ C il suffit que :
k ( k − 1)
1 − (1 − α ) 2 ≤ c
k ( k − 1)
1 − c ≤ (1 − α ) 2
26
(1 − α ) ≥ 1 − qα pour α ∈ [0,1] q ≥ 1
q
Comme
il suffit que :
k ( k − 1)
1− c ≤ 1− α
2
c
α ≤
k( k − 1) / 2
0,10
⇒ choisir α ≤ = 0,01
10
27
3. Méthode de Scheffé
∗
Au risque global α , on rejette l’hypothèse :
H0 : μ i = μ j
si :
1 1
Yi• − Yj• ≥ ( k −1) F1−α
( k−1,N−k)
∗ σˆ +
ni n j
SCR
où σ =
2
N−k
28
Pratique
K= ( k − 1) ( k −1,N − k )
F1−α ∗
et on vérifie ensuite si :
1 1
Yi − Yj > K σ
• •
+
ni n j
Si oui : μ i ≠ μ j
29
4. Méthode de Tukey
∗
Au risque α , on rejette l’hypothèse :
H0 : "μ i = μ j"
k ,N −k 1⎛ 1 1 ⎞
si : Yi • − Y j • ≥ q 1− α ∗
σˆ ⎜⎜ + ⎟⎟
2 ⎝ ni n j ⎠
−k
où q1k,N
−α ∗
est le fractile 1−α∗ de l’étendue studentisée (cf tables)
W
Q=
σ
ou W = Max Yi − Min Yi( ) ( )
quand on dispose de r observations
indépendantes Y1 ... Yr provenant d’une
distribution normale.
30
5. Comparaison des méthodes
31
6. Tests de contrastes
Définitions
1. Contraste (c1 , c 2 … c k )
k k
fonction linéaire ∑c μ i i tq ∑c i =0
i=1 i=1
i=1
32
Proposition
Alors SCF = SC L + SC L + … + SC L
1 2 k −1
et les SCL i
33
k
Test de
L
H :
0 ∑ ciμ i = 0
i=1
⎛ k k
c i2 ⎞
Ν ⎜⎝ ∑ c i μ i ; ∑
k
∑ → σ ⎟
2
Sous H 0 : c i Yi •
i=1 i=1
ni ⎠
i=1
2
⎛ k
⎞
⎜∑ i i ⎟
c Y
1 ⎝ i=1 ⎠
•
⇒ =
SCL
→ χ 2 à 1 d.d.l.
σ2 k
c 2i σ2
∑ ni
i=1
Statistique de test
SCL
→ F (1, N − k )
CMR
34
VI ANALYSE DE VARIANCE NON PARAMÉTRIQUE
Fonctions de répartition F ( x − μ 1 ), F( x − μ 2 ) … F( x − μ k )
On veut tester :
⎧ H0 : μ 1 = μ 2 = … = μ k
⎨
⎩ H 1 : les μ i pas tous égaux
35
Les Yij sont remplacés par leurs rangs Rij
k
N+1
⇒ SCF* = ∑ n i ( R i − R )
2
• ••
où R =
••
i=1
2
ni
N ( N + 1) ( N − 1)
SCT* = ∑ ∑ ( R ij − R )
k 2
••
=
i = 1 j= 1
12
non aléatoire
SCT *
Si H0 est vraie : E( CMF *) =
N−1
Statistique du test :
k
SCF * 12
KW = = ∑ i i − 3( N + 1)
2
n R
N( N + 1) / 12 N( N + 1) i = 1 •
36
Si pour tout i n i ≥ 5
→ χ ( )
2 k −1
KW sous l’hypothèse H0
approx.
Remarques
37
Exemple
Moyenne
A 105 3 90 217 22
Rang 11 2 10 14 4 8,2
B 56 43 1 37 14
Rang 8 7 1 5 3 4,8
C 183 144 219 86 39
Rang 13 12 15 9 6 11,0
KW =
12
15 × 16 { 2 2 2
}
5 × ( 8, 2) + 5( 4,8) + 5(11,0) − 3 × 16 = 4,8
38
Pour α = 10 %
χ 0 (, 90) = 4,61
2 2
Pour α=5%
χ 0 (, 95) = 5 ,99
2 2
39