Monnaie Et Finance

ANALYSE
DE LA
VARIANCE
Pierre-Louis GONZALEZ
1
ANALYSE DE LA VARIANCE
Introduction
Comparaison des moyennes de plusieurs populations
Interprétation statistique de résultats recueillis à l’aide

d’une stratégie d’expérimentation
(plans d’expérience)
2
ÉLÉMENTS DE VOCABULAIRE
Les facteurs contrôlés sont qualitatifs par nature : variété de blé

type de béton
méthode de mesure
ou bien sont considérés comme tels : plusieurs niveaux d’une variable

quantitative (pression, température).
Lorsqu’il y a plusieurs facteurs, une combinaison de niveaux est un traitement.
L’analyse de la variance présuppose un modèle probabiliste traduisant la

manière d’agir des facteurs, contrôlés ou aléatoires sur l’effet considéré
(variable quantitative).
3
Modèle de type linéaire addififs
Il retient l’additivité des effets moyens des facteurs contrôlés (et

éventuellement de leurs combinaisons ou interactions) et la normalité de
l’erreur expérimentale.
Principe d’interprétation
Comparer les moyennes des résultats relatifs aux niveaux (variantes) d’un
facteur à l’erreur expérimentale.
Test d’hypothèse
4
Interaction et linéarité
z = xy
y= 2 La relation entre z et x dépend des valeurs prises par y :
z y = 1
Il y a interaction entre x et y.
y=0
x
z == xy
y = 1 La relation entre z et x est linéaire. Il y a toujours
z
y = 0 ,5
interaction entre x et y.
y = 0
x
z = x2 + y2
( )
Les courbes z = f x sont seulement translatées
z y= 2 lorsque y varie :
y=1
Les influences de x et y sur z sont additives. Il n’y
y=0
x a pas d’interaction.
z = x+ y
y=2
y=1 Les influences de x et de y sur z sont additives.
z y=0
De plus, les relations sont linéaires.
x 5
ANALYSE DE LA VARIANCE
INTERACTION
Ai
------
xijl
⎫
------ ------
Bj xj
xijk ⎬ xij
⎭
xijn
------
------
xi ------ x
(x ijk [ ]
− x ) = ( x i − x ) + ( x j − x ) + ( x ij − x ) − ( x i − x ) − ( x j − x ) + ( x ijk − x ij )
S T2 = S A2 + S B2 + S AB
2
+ S r2
6
X X
B2 B2
B1
B1
A1 A2 A3 A1 A2 A3
Additivité Interaction
7
ANALYSE DE LA VARIANCE À UN FACTEUR
I LE MODELE A EFFETS FIXES
1 - Présentation Y : caractéristique quantitative à étudier dans k populations
Deux situations équivalentes :
1. Échantillons de tailles n1, n2 ... nk dans k populations.
2. Tirage de k échantillons indépendants de tailles n1, n2 ... nk dans une

population pour leur appliquer k traitements distincts (d’où k populations
virtuelles). On dit aussi qu’on étudie un facteur à k niveaux. 8
μ1, μ 2 … μk les moyennes pour Y à chacun des niveaux.
Objectif
⎧ H0 : μ 1 = μ 2 = … = μ k
Test : ⎨
⎩ H 1 : ∃i et j tq : μ i ≠ μ j
9
2 - Le modèle
(
v.a. Yij = «réponse» du jème «individu» du niveau i i = 1 à k ; j = 1 à n i )
ou
E ( Yij ) = μ i Yij = μ i + ε ij
Var ( Yij ) = σ 2 indépendant de i E (ε ) = 0

ij Var (ε ) = σ
ij
2
Yij → Ν (μ i ; σ ) ε ij → Ν (0 ; σ )
Les v.a. Yij sont toutes indépendantes.
10
Reparamétrisation
k
∑n μ i i k
μ i = μ + α i avec μ = i=1
k
⇒ ∑n α i i =0
∑n i
i=1
i=1
μ = moyenne globale
α i = effet du niveau i du facteur
⎧ Yij = μ + α i + ε ij
⎨
⎩ H 0 ⇔ α 1 = α 2 = … = α k = 0 (μ = μ i ∀ i )
Si H0 est rejetée, le problème se posera donc d’estimer les μ i (ou μ et les α i ).
11
3 - Décomposition de la somme des carrés totale
Notations
k
N = ∑ ni
i=1
ni k
•
1
Yi = n
i
∑ Yij
j=1
Y =
••
1
N
∑ niY i.
i=1
12
3 - Décomposition de la somme des carrés totale
Y , Y1 , Y2 , … , Yk
•• • • • estimateurs sans biais de μ , μ i , μ 2 μk
Yi − Y
• ••
estimateur sans biais de α i
Yij − Yi • «résidu»
Identité : Yij − Y = Yi − Y•• ( • •• ) + ( Yij − Yi ) •
En élevant au carré et en sommant sur i et j :
ni ni
∑ ∑ (Y ) ∑ (Y )
k k k
= ∑ n i ( Yi − Y ) +∑
2 2
ij −Y •• • •• ij − Yi •
i=1 j= 1 i=1 i=1 j= 1
somme des somme des carrés somme des carrés

carrés totale = due au facteur
+ résiduelle
SCT = SCF + SCR
13
4 - Test F pour H0
k
( (
On démontre E SCF ) = k − 1) σ +
2
∑ i i
n α 2
i=1
E (SCR ) = ( N − k ) σ 2
Sous l’hypothèse H0 :
⎧ E (SCF ) = ( k − 1) σ 2 et SCF
⎪ → χ k2 − 1
σ2
⎪⎪
⎨ E (SCR ) = ( N − k ) σ 2 SCR
→ χ N2 − k
⎪ σ2
⎪
⎪⎩ et SCF et SCR indépendantes.
14
Justification
Sous l’hypothèse H0, les Yij sont des variables de même loi.
ni
∑ ∑ (Y )
k 2
ij −Y ••
i = 1 j= 1
→ χ N2 − 1
σ2
ni
∑ (Y )
2
ij − Yi •
j= 1
→ χ n2 − 1
σ2 i
ni
∑ ∑ ( Yij − Yi )
k 2
•
i = 1 j= 1
→ χ N2 − k
σ2
15
Conclusion
SCF / k − 1
F=
SCR / N − k
→ Fisher (k − 1, N − k )
Le carré moyen résiduel est alors un estimateur sans biais de σ 2 .
16
TABLEAU D’ANALYSE DE LA VARIANCE
Source Somme
Carrés
de de d.d.l. F
moyens
variation carrés
SCF
Facteur SCF k−1 CMF =
k−1
CMF
CMR
SCR
Résidus SCR N−k CMR =
N−k
Intuitivement si on s’éloigne de H0, alors on s’attend à ce que CMF > CMR

( k − 1, N − k )
Rejet de H0 si F > F1− α
(risque α ) (quantile 1 − α de la loi de Fisher)
17
Remarques
Le test est assez robuste par rapport à l’hypothèse gaussienne.

En particulier, on peut l’utiliser pour des fonctions de densité
symétriques.
Le test n’est pas robuste par rapport à l’hypothèse
d’homoscédasticité ( σ indépendant de i).

2
18
II TEST D’HOMOSCÉDASTICITÉ (comparaison des variances)
1. Test de Bartlett
population i Yij → Ν ( μ i , σ i2 )
⎧ 0
H : σ 2
1 = σ 2
2 = … = σ 2
k
⎨
⎩ H1 : ∃ i et j tq : σ i2 ≠ σ 2j
ni
∑ (Y )
1 2
Soit S = − Yi
2
variance empirique de la population i
i
ni − 1 j= 1
ij •
k
et SCR = ∑ ( n i − 1) S i2
i=1
19
Le test de Bartlett est basé sur la statistique
⎛ SCR ⎞
( )
k
Q = ( N − k ) ln ⎜ ⎟ − ∑ ( n i − 1) ln S i
2
⎝ N-k ⎠ i = 1
Intuitivement : si S i proches Q ≅ 0
2
2
si S i éloignés Q grand
Q
Bartlett a montré que où :
h
1 ⎛ k 1 1 ⎞
3 ( k − 1) ⎝ ∑
h = 1+ ⎜ − ⎟
i=1
n i − 1 N − k ⎠
(
suit asymptotiquement une loi du khi-deux à k − 1 d.d.l.)
20
2. Test de Hartley
Lorsque les effectifs des échantillons sont égaux, le test de Hartley permet de
vérifier plus rapidement l’hypothèse d’égalité des variances :
H 0 : σ 12 = σ 22 = … = σ k2
Ce test nécessite seulement le calcul du quotient des valeurs extrêmes :

S i2 max
H obs = 2
S i min
H0 est rejetée si H obs ≥ H 1− α (valeurs dépendant du nombre d’échantillons k et

du nombre de degrés de liberté n − 1 ).
Pour deux populations, le test de Hartley est équivalent au test F. Sauf dans ce
dernier cas, ce test est moins sensible que le test de Bartlett (car il ne fait
intervenir explicitement que les valeurs observées de deux échantillons).
Comme le test de Bartlett, il est très sensible à la non normalité. 21
III COMPARAISONS MULTIPLES DE MOYENNES
Si l’hypothèse H0 d’égalité des moyennes est rejetée, on se pose la

question :
Quelles moyennes sont différentes ?
Comparaison 2 à 2 des moyennes.
22
1. Méthode de Student (LSD)
Test de Student usuel mais avec pour estimateur de σ 2 : CMR
Au risque α , on rejette l’hypothèse H 0 : "μ i = μ j " si :
1 1
Yi − Yj ≥ t N −αk σ
• •
+
1−
2
ni n j
Inconvénient: Cette méthode ne tient pas compte, au niveau du

risque α du nombre de comparaisons effectuées. La méthode de
Bonferroni remédie à ce problème.
23
Remarque
(
Si tous les effectifs des classes sont égaux n 1 = n 2 = … = n k = J )
l’expression précédente se simplifie :
2
Yi − Yj ≥ t N −αk σ
• •
1−
2
J
P.P.D.S.
P.P.D.S. = Plus petite différence significative

(en anglais L.S.D. : Least significant difference).
24
2. Méthode de Bonferroni
La méthode de Bonferroni consiste à fixer le risque α utilisé dans un test
de Student usuel, en tenant compte du nombre de comparaisons effectuées.
Test de Student usuel, mais avec pour estimateur de σ 2 : CMR
Au risque α , on rejette l’hypothèse H 0 : "μ i = μ j " si :
N− k 1 1
Yi − Yj ≥ t
• • α σ +
1−
2
ni n j
On détermine α , à utiliser lors d’un test de Student, de façon à contrôler le

risque d’erreur global:
α* = Proba (au moins une égalité est rejetée à tort)

25
Calcul du risque d’erreur α
α ∗ = Probalité (au moins une égalité est rejetée à tort)
= 1 − Prob (aucune égalité rejetée à tort)
k ( k − 1)
Du fait que l’on effectue tests par paires :
2
k ( k − 1)
α ≤ 1 − (1 − α )
∗ 2 (cas de tests indépendants)
∗
Si on exige α ≤ C il suffit que :
k ( k − 1)
1 − (1 − α ) 2 ≤ c
k ( k − 1)
1 − c ≤ (1 − α ) 2
26
(1 − α ) ≥ 1 − qα pour α ∈ [0,1] q ≥ 1
q
Comme
il suffit que :
k ( k − 1)
1− c ≤ 1− α
2
c
α ≤
k( k − 1) / 2
Exemple : k=5 α ∗ ≤ 0,10
0,10
⇒ choisir α ≤ = 0,01
10
27
3. Méthode de Scheffé
∗
Au risque global α , on rejette l’hypothèse :
H0 : μ i = μ j
si :
1 1
Yi• − Yj• ≥ ( k −1) F1−α
( k−1,N−k)
∗ σˆ +
ni n j
SCR
où σ =
2
N−k
28
Pratique
On peut tester simultanément tous les couples en calculant tout

d’abord :
K= ( k − 1) ( k −1,N − k )
F1−α ∗
et on vérifie ensuite si :
1 1
Yi − Yj > K σ
• •
+
ni n j
Si oui : μ i ≠ μ j
29
4. Méthode de Tukey
∗
Au risque α , on rejette l’hypothèse :
H0 : "μ i = μ j"
k ,N −k 1⎛ 1 1 ⎞
si : Yi • − Y j • ≥ q 1− α ∗
σˆ ⎜⎜ + ⎟⎟
2 ⎝ ni n j ⎠
−k
où q1k,N
−α ∗
est le fractile 1−α∗ de l’étendue studentisée (cf tables)
W
Q=
σ
ou W = Max Yi − Min Yi( ) ( )
quand on dispose de r observations
indépendantes Y1 ... Yr provenant d’une
distribution normale.
30
5. Comparaison des méthodes
La méthode de Tukey est plus sensible à la détection de petites

différences entre couples de moyennes que la méthode de
Scheffé.
La méthode de Tukey est préférable à celle de Bonferroni quand

on souhaite effectuer toutes les comparaisons.
Au contraire, si l’on n’effectue que certaines comparaisons,

préférer la méthode de Bonferroni.
31
6. Tests de contrastes
Définitions
1. Contraste (c1 , c 2 … c k )
k k
fonction linéaire ∑c μ i i tq ∑c i =0
i=1 i=1
2. Les contrastes (c1 , c 2 … c k ) et ( d 1 , d 2 … d k ) sont

dits orthogonaux si :
k
c i di
∑ ni
=0
i=1
3. Somme des carrés du contraste L = c 1 , c 2 , … c k ( )

2
⎛ k ⎞ k
c i2
SCL = ⎜ ∑ c i Yi ⎟ ∑ ni
⎝ i=1 ⎠
•
i=1
32
Proposition
Soient L 1 , L 2 , … , L k − 1 des contrastes orthogonaux deux à deux.
Alors SCF = SC L + SC L + … + SC L
1 2 k −1
et les SCL i
sont mutuellement indépendants (sous H0)
Intérêt : possibilité de partitionnement de la somme des carrés due aux

traitements en contrastes d’intérêt particulier et tests correspondants.
33
k
Test de
L
H :
0 ∑ ciμ i = 0
i=1
⎛ k k
c i2 ⎞
Ν ⎜⎝ ∑ c i μ i ; ∑
k
∑ → σ ⎟
2
Sous H 0 : c i Yi •
i=1 i=1
ni ⎠
i=1
2
⎛ k
⎞
⎜∑ i i ⎟
c Y
1 ⎝ i=1 ⎠
•
⇒ =
SCL
→ χ 2 à 1 d.d.l.
σ2 k
c 2i σ2
∑ ni
i=1
Statistique de test
SCL
→ F (1, N − k )
CMR
34
VI ANALYSE DE VARIANCE NON PARAMÉTRIQUE
1. Test sur les rangs (Kruskal-Wallis)
Seule hypothèse : pour les k populations, la variable observée est de

même loi à une translation près, loi continue.
Fonctions de répartition F ( x − μ 1 ), F( x − μ 2 ) … F( x − μ k )
On veut tester :
⎧ H0 : μ 1 = μ 2 = … = μ k
⎨
⎩ H 1 : les μ i pas tous égaux
35
Les Yij sont remplacés par leurs rangs Rij
k
N+1
⇒ SCF* = ∑ n i ( R i − R )
2
• ••
où R =
••
i=1
2
ni
N ( N + 1) ( N − 1)
SCT* = ∑ ∑ ( R ij − R )
k 2
••
=
i = 1 j= 1
12
non aléatoire
SCT *
Si H0 est vraie : E( CMF *) =
N−1
Statistique du test :
k
SCF * 12
KW = = ∑ i i − 3( N + 1)
2
n R
N( N + 1) / 12 N( N + 1) i = 1 •
36
Si pour tout i n i ≥ 5
→ χ ( )
2 k −1
KW sous l’hypothèse H0
approx.
⇒ H 0 si KW > χ 1−( α ) au niveau α

2 K −1
rejet de
Remarques
En cas d’ex-aequo pour les Yij : règle du rang moyen
S’il existe ni < 5 voir tables appropriées
KW peut s’employer pour tester :⎧ H0 : toutes les lois sont identiques

⎨
⎩ H1 : pas toutes identiques
KW à conseiller si l’on suspecte des valeurs aberrantes
37
Exemple
«Durée de fonctionnement entre deux pannes pour trois ordinateurs»
Moyenne
A 105 3 90 217 22
Rang 11 2 10 14 4 8,2
B 56 43 1 37 14
Rang 8 7 1 5 3 4,8
C 183 144 219 86 39
Rang 13 12 15 9 6 11,0
KW =
12
15 × 16 { 2 2 2
}
5 × ( 8, 2) + 5( 4,8) + 5(11,0) − 3 × 16 = 4,8
38
Pour α = 10 %
χ 0 (, 90) = 4,61
2 2
Conclusion : on rejette H0 ⇒ les temps moyens écoulés entre deux

pannes sont différents.
Pour α=5%
χ 0 (, 95) = 5 ,99
2 2
39

Monnaie Et Finance

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Monnaie Et Finance

Hochgeladen von

Copyright:

Verfügbare Formate

ANALYSE

Comparaison des moyennes de plusieurs populations

Interprétation statistique de résultats recueillis à l’aide

Les facteurs contrôlés sont qualitatifs par nature : variété de blé

ou bien sont considérés comme tels : plusieurs niveaux d’une variable

L’analyse de la variance présuppose un modèle probabiliste traduisant la

Il retient l’additivité des effets moyens des facteurs contrôlés (et

I LE MODELE A EFFETS FIXES

1 - Présentation Y : caractéristique quantitative à étudier dans k populations

Deux situations équivalentes :

1. Échantillons de tailles n1, n2 ... nk dans k populations.

2. Tirage de k échantillons indépendants de tailles n1, n2 ... nk dans une

Var ( Yij ) = σ 2 indépendant de i E (ε ) = 0

Les v.a. Yij sont toutes indépendantes.

α i = effet du niveau i du facteur

Si H0 est rejetée, le problème se posera donc d’estimer les μ i (ou μ et les α i ).

Identité : Yij − Y = Yi − Y•• ( • •• ) + ( Yij − Yi ) •

En élevant au carré et en sommant sur i et j :

i=1 j= 1 i=1 i=1 j= 1

somme des somme des carrés somme des carrés

Le carré moyen résiduel est alors un estimateur sans biais de σ 2 .

Intuitivement si on s’éloigne de H0, alors on s’attend à ce que CMF > CMR

Le test est assez robuste par rapport à l’hypothèse gaussienne.

Le test n’est pas robuste par rapport à l’hypothèse

d’homoscédasticité ( σ indépendant de i).

Ce test nécessite seulement le calcul du quotient des valeurs extrêmes :

H0 est rejetée si H obs ≥ H 1− α (valeurs dépendant du nombre d’échantillons k et

Si l’hypothèse H0 d’égalité des moyennes est rejetée, on se pose la

Quelles moyennes sont différentes ?

Comparaison 2 à 2 des moyennes.

Test de Student usuel mais avec pour estimateur de σ 2 : CMR

Au risque α , on rejette l’hypothèse H 0 : "μ i = μ j " si :

Inconvénient: Cette méthode ne tient pas compte, au niveau du

P.P.D.S. = Plus petite différence significative

Test de Student usuel, mais avec pour estimateur de σ 2 : CMR

Au risque α , on rejette l’hypothèse H 0 : "μ i = μ j " si :

On détermine α , à utiliser lors d’un test de Student, de façon à contrôler le

α* = Proba (au moins une égalité est rejetée à tort)

α ∗ = Probalité (au moins une égalité est rejetée à tort)

= 1 − Prob (aucune égalité rejetée à tort)

Exemple : k=5 α ∗ ≤ 0,10

On peut tester simultanément tous les couples en calculant tout

La méthode de Tukey est plus sensible à la détection de petites

La méthode de Tukey est préférable à celle de Bonferroni quand

Au contraire, si l’on n’effectue que certaines comparaisons,

2. Les contrastes (c1 , c 2 … c k ) et ( d 1 , d 2 … d k ) sont

3. Somme des carrés du contraste L = c 1 , c 2 , … c k ( )

Soient L 1 , L 2 , … , L k − 1 des contrastes orthogonaux deux à deux.

sont mutuellement indépendants (sous H0)

Intérêt : possibilité de partitionnement de la somme des carrés due aux

1. Test sur les rangs (Kruskal-Wallis)

Seule hypothèse : pour les k populations, la variable observée est de

⇒ H 0 si KW > χ 1−( α ) au niveau α

En cas d’ex-aequo pour les Yij : règle du rang moyen

S’il existe ni < 5 voir tables appropriées

KW peut s’employer pour tester :⎧ H0 : toutes les lois sont identiques

KW à conseiller si l’on suspecte des valeurs aberrantes

«Durée de fonctionnement entre deux pannes pour trois ordinateurs»

Conclusion : on rejette H0 ⇒ les temps moyens écoulés entre deux

Das könnte Ihnen auch gefallen