Beruflich Dokumente
Kultur Dokumente
Considérations pratiques
On a vu dans les chapitres précédents que les hypothèses de l’ANOVA doivent être vérifiées
pour que les résultats de l’analyse soient valides. Or, en pratique, il arrive assez souvent que
les procédures de validation de ces hypothèses donnent des résultats négatifs. C’est à dire,
ces hypothèses ne sont vérifiées. Plusieurs raisons peuvent être à l’origine de ce problème,
notamment:
Des études poussées ont permis de mesurer l’influence de ces écarts sur le comportement du
test F . Cette influence se résume comme suit:
• Le seuil du test F est peu influencé par la non normalité si l’homogénéité des variances
est vérifée. La non normalité des données affecte plutôt la puissance du test.
1
• Le seuil du test F est peu influencé par l’hétérogènéité des variances si les tailles des
échantillons sont égales. Si les tailles des échantillons et les variances sont inégales, il
peut y a voir un problème; le vrai seuil du test basé sur la statistique F est plus grand
que le seuil nominal α.
• l’influence de la présence de valeurs extrêmes est nettement plus importante que celle
de la non normalité.
Que peut-on faire lorsque cela se produit ? Lorsque la cause est l’une des trois premières
citées ci haut, on revient au contexte de l’expérience et du protocol de récolte de données
pour trouver une solution. Lorsque la cause est l’une des deux dernières, il est possible (mais
pas sûr) de trouver une solution. Dans les deux paragraphes qui suivent, on expose deux
alternatives possibles en présence d’hétérogénéité des variances ou/et de non normalité de
données.
2
On en déduit:
E[X ′ ] = E[g(X)]
≃ E[g(µX ) + g ′ (µX )(X − µX )]
= g(µX ) + g ′ (µX )E[X − µX ]
= g(µX )
D’autre part, on a:
V ar[X ′ ] = V ar[g(X)]
= V ar[g(µX ) + g ′ (µX )(X − µX )]
= g ′ (µX )2 V ar[X − µX ] = g ′ (µX )2 σX
2
2
L’hétérogénéité des variances est souvent exprimée sous forme d’une relation entre σX et
µX . La relation la plus fréquente en pratique est
σX = AµpX (6.1)
où A et p sont des constantes vérifiant A > 0. L’identification d’une telle situation est basée
sur le nuage de points {(log(Y¯i. ), log(Si )), i = 1, · · · , I}. En effet, la relation 6.1 peut s’écrire
log(σX ) = log(A)+p log(µX ). En ajustant un modèle de régression linéaire, la pente présente
une bonne estimation du paramètre p.
2
Une fois que la relation entre µX et σX est identifiée, quelle est la transformation à
appliquer?
On cherche la transformation qui stabilise les variances, c’est à dire celle qui donne
l’homogénéité des variances pour les données transformées.
On cherche alors la transformation qui nous donne g ′ (µX )2 σX
2
= C. En combinant cette
′ −p
√
dernière équation avec (6.1), on obtient g (µX ) = B × µX où B = C/A. Il suffit donc de
prendre la transformation:
log(t) si p = −1
g(t) =
t1−p si p ̸= −1
Cette technique de transformation de données est aussi utilisée dans la pratique en cas
de non normalité des données. Comme on n’a pas d’idée sur le paramètre p dans ce cas, on
3
essaie succèssivement plusieurs transformations du type g(y) = y p ou g(y) = log(y) jusqu’à
obtenir des données transformées normalement distribuées.
Le résultat qui approxime la variance de g(X) par g ′ {E(X)}2 Var(X) est fondamental en
statistique. Cette approximation utilise la linéarisation, c’est-à-dire un développement en
série de Taylor limité. Elle fonctionne aussi pour des statistiques multivariées où X est un
vecteur. On utilise, par exemple, cette approche en échantillonnage pour approximer par
linéarisation le rappport de deux moyennes afin d’en estimer la variance.
• pour i = 1, · · · , I, l’échantillon Yi1 , Yi2 , · · · , Yini est issu d’une loi Fi (·).
Cette dernière hypothèse suppose que implicitement l’homogénéité des variances. Sans
perte de généralité, on suppose que la médiane de F0 (·) est nulle. Ceci implique que la
médiane de Fi est mi .
Le test d’ANOVA effectué sécrit alors:
H0 : m 1 = m 2 = · · · = m I
H1 : il existe i ̸= j tels que mi ̸= mj
Ce test est effectué par Krustal Wallis. Soit Rij le rang de l’observation Yij dans
l’ensemble des N observations réunies ensemble et ordonnées dans l’ordre croissant. Définissons
4
les statistiques suivantes:
∑
ni
Ri. = Rij
j=1
1 ∑ ni
R¯i. = Rij
ni j=1
Sous H0 , Rij est distribuée selon la loi uniforme discrète sur {1, 2, · · · , N } et donc E[Rij ] =
(N + 1)/2 et E[R¯i. ] = (N + 1)/2 pour tout i = 1, · · · , I.
Donc si H0 est vraie, les R¯i. ne devraient pas être loin de (N + 1)/2. La procédure de
Krustal et Wallis propose de rejetter H0 si les écarts des R¯i. par rapport à (N + 1)/2 sont
grands, c’est à dire si
∑
I
N +1 2
ni (R¯i. − ) est grand.
i=1 2
Définissons la statistique de Kristal et Wallis par
12 ∑I
N +1 2
KW = ni (R¯i. − ).
N (N + 1) i=1 2
Il existe des tables pour calculer les quantiles de cette statistique pour un ensemble {n1 , n2 , · · · , nI }
donné. Cependant, en pratique, on utilise l’approximation suivante:
5
6.3 Puissance d’une ANOVA
Dans la pratique, les chercheurs veulent s’assurer d’une certaine puissance du test qu’ils
effectuent. La puissance d’un test d’hypothèse est donnée par
Dans le cas d’une test F d’anova standard, de seuil α, cette puissance s’écrit comme suit:
M SB M SB
P (∆) = P ( > FI−1,N −I,α | ∼ F∆,I−1,N −I )
M SW M SW
∑I
où ∆ = i=1 ni (µi − µ)2 /σ 2 .
Considérons le cas d’un plan équilibré, n1 = n2 = · · · = nI = n, on a alors ∆ = nδ où
∑I
i=1 (µi −µ) /σ . Voici le programme en R pour calculer cette puissance pour {δ, I, n, α}
2 2
δ=
données:
puissance.anova<-function(delta,I,n,alpha)
{
N<-n*I
ff<-qf(p=alpha,df1=I-1,df2=N-I,ncp=0,lower.tail=F)
result<-pf(q=ff,df1=I-1,df2=N-I,ncp=delta*n,lower.tail=F)
return(result)
}
6
Puissance d’un test d’anova avec I=5 et n=10
1.0
0.8
0.6
Puissance
0.4
0.2
0 1 2 3 4
delta
0.6
0.4
0.2
10 20 30 40
taille d’echantillon