Sie sind auf Seite 1von 25

Mathmatiques : Outils pour la Biologie Deug SV UCBL D.

Mouchiroud (18/02/2003)
.

Chapitre 7

Tests dhypothse

Sommaire

1. Introduction..3

2. Principe des tests......3


2.1. Choix de lhypothse tester.4

2.1.1. Hypothse nulle et hypothse alternative ....4


2.1.2. Test unilatral et bilatral ..4
2.2. Choix dun test statistique.5

2.3. Choix de la rgion critique et rgle de dcision.6

2.4. Risques derreur, puissance et robustesse dun test......7

2.4.1. Risque derreur de premire espce ou risque ...7


2.4.2. Risque derreur de deuxime espce ou risque ..8
2.4.3. La puissance (1 - ) et robustesse dun test....8

3. Tests de conformit.....10
3.1. Comparaison dune moyenne observe et une moyenne thorique..10

3.1.1. Principe du test.. ...10


3.1.2. Variance de la population connue... 10
3.1.3. Variance de la population inconnue... 11
3.2. Comparaison dune frquence observe et une frquence thorique.13

3.2.1. Principe du test... .13


3.2.2. Statistique du test.. 14
3.2.3. Application et dcision. .14

-1-
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

4. Tests dhomognit......14
4.1. Comparaison de deux variances......15

4.1.1. Principe du test.... 15


4.1.2. Statistique du test....15
4.1.3. Application et dcision...16
4.2. Comparaison de deux moyennes..16

4.2.1. Principe du test.....16


4.2.2. Les variances des populations sont connues17
4.2.3. Les variances des populations sont inconnues et gales.19
4.2.4. Les variances des populations sont inconnues et ingales.20
4.3. Comparaison de deux frquences..22

4.3.1. Principe du test.... 22


4.3.2. Statistique du test ......22
4.3.3. Application et dcision..23

-2-
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

1 Introduction

Un test dhypothse est un procd dinfrence permettant de contrler (accepter ou rejeter)


partir de l'tude d'un ou plusieurs chantillons alatoires, la validit dhypothses relatives
une ou plusieurs populations.
Les mthodes de linfrence statistique nous permettent de dterminer, avec une probabilit
donne, si les diffrences constates au niveau des chantillons peuvent tre imputables au
hasard ou si elles sont suffisamment importantes pour signifier que les chantillons
proviennent de populations vraisemblablement diffrentes.
Les tests dhypothses font appel un certain nombre dhypothses concernant la nature de la
population dont provient lchantillon tudi (normalit de la variable, galit des variances,
etc).

En fonction de lhypothse teste, plusieurs types de tests peuvent tre raliss :

Les tests destins vrifier si un chantillon peut tre considr comme extrait dune
population donne, vis--vis d'un paramtre comme la moyenne ou la frquence observe
(tests de conformit) ou par rapport sa distribution observe (tests dajustement). Dans ce
cas la loi thorique du paramtre est connue au niveau de la population.
Est-ce que le taux de glucose moyen mesur dans un chantillon dindividus traits est
conforme au taux de glucose moyen connu dans la population ? (test de conformit) Est-
ce que la distribution des frquences gnotypiques observes pour un locus donn est
conforme celle attendue sous l'hypothse du modle de Hardy-Weinberg ? (test
dajustement).

Les tests destins comparer plusieurs populations laide dun nombre quivalent
dchantillons (tests dgalit ou dhomognit) sont les plus couramment utiliss. Dans ce
cas la loi thorique du paramtre est inconnue au niveau des populations.
On peut ajouter cette catgorie le test dindpendance qui cherche tester lindpendance
entre deux caractres, gnralement qualitatifs.
Y a-t-il une diffrence entre le taux de glucose moyen mesur pour deux chantillons
dindividus ayant reu des traitements diffrents ? (tests dgalit ou dhomognit).
Est-ce que la distribution des frquences gnotypiques observes pour un locus donn est
indpendante du sexe des individus ? (test dindpendance).

2 Principe des tests


Le principe des tests dhypothse est de poser une hypothse de travail et de prdire les
consquences de cette hypothse pour la population ou lchantillon. On compare ces
prdictions avec les observations et lon conclut en acceptant ou en rejetant lhypothse de
travail partir de rgles de dcisions objectives.
Dfinir les hypothses de travail, constitue un lment essentiel des tests d'hypothses de
mme que vrifier les conditions d'application de ces dernires (normalit de la variable,
galit des variances ou homoscdasticit, etc).

-3-
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

Diffrentes tapes doivent tre suivies pour tester une hypothse :


(1) dfinir lhypothse nulle (note H0) contrler,
(2) choisir un test statistique ou une statistique pour contrler H0,
(3) dfinir la distribution de la statistique sous lhypothse H0 est ralise ,
(4) dfinir le niveau de signification du test ou rgion critique note ,
(5) calculer, partir des donnes fournies par lchantillon, la valeur de la statistique
(6) prendre une dcision concernant lhypothse pose et faire une interprtation
biologique

2.1 Choix de lhypothse tester

2.1.1 Hypothse nulle et hypothse alternative

Lhypothse nulle note H0 est lhypothse que lon dsire contrler : elle consiste dire
quil nexiste pas de diffrence entre les paramtres compars ou que la diffrence observe
nest pas significative et est due aux fluctuations dchantillonnage.
Cette hypothse est formule dans le but dtre rejete.

Lhypothse alternative note H1 est la ngation de H0, elle est quivalente dire H0 est
fausse . La dcision de rejeter H0 signifie que H1 est ralise ou H1 est vraie.

Remarque : Il existe une dissymtrie importante dans les conclusions des tests. En effet, la
dcision daccepter H0 nest pas quivalente H0 est vraie et H1 est fausse . Cela traduit
seulement lopinion selon laquelle, il ny a pas dvidence nette pour que H0 soit fausse.
Un test conduit rejeter ou ne pas rejeter une hypothse nulle jamais laccepter
demble.

2.1.2 Test unilatral ou bilatral

La nature de H0 dtermine la faon de formuler H1 et par consquence la nature unilatrale


ou bilatrale du test.

Test bilatral
Si H0 consiste dire que la population estudiantine avec une frquence de fumeurs
p est reprsentative de la population avec une frquence de fumeurs p0 , on
pose alors :
H0 : p = p0 et H1 : p p0

-4-
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

H0 : p = p0 et H1 : p p0

Le test sera bilatral car on considre que la


frquence p peut tre suprieure ou infrieure
la frquence p0 .
La rgion critique en vert correspond une

probabilit de part et dautre de la courbe.
2

Test unilatral
Si lon fait lhypothse que la frquence de fumeurs dans la population estudiantine p est
suprieure la frquence de fumeurs dans la population p0, on pose alors
H0 : p = p0 et H1 : p > p0
:

H0 : p = p0 et H1 : p > p0
Le test sera unilatral car on considre que
la frquence p ne peut tre que suprieure
la frquence p0 .
La rgion critique en vert correspond
une probabilit .

Le raisonnement inverse peut tre formul avec lhypothse suivante :


H0 : p = p0 et H1 : p < p0

Remarque : Seuls les tests bilatraux seront dvelopps dans le cours. Les tests unilatraux
seront traits au niveau des exemples.

2.2 Choix dun test statistique

Ce choix dpend de la nature des donnes, du type dhypothse que lon dsire contrler, des
affirmations que lon peut admettre concernant la nature des populations tudies (normalit,
galit des variances) et dautres critres que nous prciserons.

-5-
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

Un test statistique ou une statistique est une fonction des variables alatoires reprsentant
lchantillon dont la valeur numrique obtenue pour lchantillon considr permet de
distinguer entre H0 vraie et H0 fausse.

Dans la mesure o la loi de probabilit suivie par le paramtre p0 au niveau de la population


en gnral est connue, on peut ainsi tablir la loi de probabilit de la statistique S telle que :

S = p p0 (voir intervalle de confiance dune frquence)

2.3 Choix de la rgion critique et rgle de dcision

Connaissant la loi de probabilit suivie par la statistique S sous lhypothse H0 , il est possible
dtablir une valeur seuil, Sseuil de la statistique pour une probabilit donne appele le
niveau de signification du test : .

La rgion critique correspond lensemble des valeurs telles que


S > Sseuil
et le niveau de signification est telle que :
P(S > Sseuil) = avec P(S Sseuil) = 1 -

Selon la nature unilatrale ou bilatrale du test, la dfinition de la rgion critique varie.

Test unilatral Test bilatral


H0 : p = p0 H0 : p = p0

Hypothse H1 : p > p0 H1 : p < p0 H1 : p p0


alternative
Valeur de S sous H1 S>0 S<0 S 0
S = p p0
Niveau de signification P(S > Sseuil) = P(S < Sseuil) = P(S> Sseuil) =

Il existe deux stratgies pour prendre une dcision en ce qui concerne un test dhypothse :
la premire stratgie fixe a priori la valeur du seuil de signification et la seconde tablit la
valeur de la probabilit critique obs a posteriori.

-6-
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

Rgles de dcision 1 :
Sous lhypothse H0 est vraie et pour un seuil de signification fix
si la valeur de la statistique S calcule (Sobs.) est suprieure la valeur seuil Sseuil
Sobs > Sseuil alors lhypothse H0 est rejete au risque derreur
et lhypothse H1 est accepte.
si la valeur de la statistique S calcule (Sobs.) est infrieure la valeur seuil Sseuil
Sobs Sseuil alors lhypothse H0 ne peut tre rejete.

Remarque : Le choix du risque est li aux consquences pratiques de la dcision : si les


consquences sont graves, on choisira = 1% ou 1, mais si le dbat est plutt acadmique,
le traditionnel = 5 % fera le plus souvent laffaire.

Rgles de dcision 2 :
La probabilit critique telle que P(S Sobs.) = obs est value
si obs 0,05 lhypothse H0 est accepte car le risque derreur de rejeter H0 alors
quelle est vrai est trop important.
si obs < 0,05 lhypothse H0 est rejete car le risque derreur de rejeter H0 alors quelle
est vrai est trs faible.

2.4 Risques derreur, puissance et robustesse dun test

2.4.1 Risque derreur de premire espce

Le risque derreur est la probabilit que la valeur exprimentale ou calcule de la


statistique S appartienne la rgion critique si H0 est vrai. Dans ce cas H0 est rejete et H1
est considre comme vraie.

Le risque de premire espce est celui de rejeter H0 alors qu'elle est vraie
= P( rejeter H0 / H0 vraie)
ou accepter H1 alors quelle est fausse
= P( accepter H1 / H1 fausse)

La valeur du risque doit tre fixe a priori par lexprimentateur et jamais en fonction des
donnes. Cest un compromis entre le risque de conclure tort et la facult de conclure.

Remarque : Toutes choses tant gales par ailleurs, la rgion critique diminue lorsque
dcrot (voir intervalle de confiance) et donc on rejette moins frquemment H0. A vouloir
commettre moins derreurs, on conclut plus rarement.

Exemple :

-7-
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

Si lon cherche tester lhypothse quune pice de monnaie nest pas truque , nous
allons adopter la rgle de dcision suivante : (mettre image dune pice)
H0 : la pice nest pas truque est
accepte si X [40,60]
rejete si X [40,60] donc soit X < 40 ou X > 60
avec X nombre de faces obtenus en lanant 100 fois la pice.
Quel est le risque derreur de premire espce dans ce cas ? Rponse.

2.4.2 Risque derreur de deuxime espce

Le risque derreur est la probabilit que la valeur exprimentale ou calcule de la


statistique nappartienne pas la rgion critique si H1 est vrai. Dans ce cas H0 est accepte
et H1 est considre comme fausse.

Le risque de deuxime espce est celui daccepter H0 alors qu'elle est fausse
= P( accepter H0 / H0 fausse) ou P( accepter H0 / H1 vraie)
ou rejeter H1 alors quelle est vraie
= P( rejeter H1 / H1 vraie)

Remarque : Pour quantifier le risque , il faut connatre la loi de probabilit de la statistique


S sous lhypothse H1.

Exemple :
Si lon reprend lexemple prcdent de la pice de monnaie, la probabilit p dobtenir face
est de 0,6 pour une pice truque. Si lon adopte toujours la mme rgle de dcision :
H0 : la pice nest pas truque est
accepte si X [40,60]
rejete si X [40,60] donc soit X < 40 ou X > 60
avec X nombre de faces obtenues en lanant 100 fois la pice.
Quel est le risque derreur de second espce dans ce cas ? Rponse.

2.4.3 La puissance et la robustesse dun test (1 - )

Les tests ne sont pas faits pour dmontrer H0 mais pour rejeter H0 . Laptitude dun
test rejeter H0 alors quelle est fausse constitue la puissance du test.

La puissance dun test est : 1 - = P( rejeter H0 / H0 fausse) = P(accepter H1/H1 vraie)

La relation entre les deux risques derreur figure sur le graphe ci-dessous.

-8-
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

1- 1-

4 2 0 2 4 6 8 10 s

La puissance dun test est fonction de la nature de H1, un test unilatral est plus puissant
qu'un test bilatral.
La puissance dun test augmente avec taille de l'chantillon N tudi valeur de constant.
La puissance dun test diminue lorsque diminue.

Exemple :
Si lon reprend lexemple prcdent de la pice de monnaie, calculez la puissance du test
lorsque la probabilit dobtenir face est respectivement 0,3 - 0,4 - 0,6 - 0,7 -0,8 pour une pice
truque. Que constatez-vous ? Rponse.

Les diffrentes situations que lon peut rencontrer dans le cadre des tests dhypothse sont
rsumes dans le tableau suivant :

Ralit
H0 vraie H0 fausse
Dcision
Non-rejet de H0 correct Manque de puissance

risque de second espce


Rejet de H0 Rejet tort Puissance du test

risque de premire espce 1-

La robustesse dune technique statistique reprsente sa sensibilit des carts aux


hypothses faites.

Exemple : Toute chose tant gale par ailleurs, que se passe-t-il si lhypothse de normalit
nest pas satistfaite ?

-9-
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

3 Tests de conformit
Les tests de conformit sont destins vrifier si un chantillon peut tre considr comme
extrait dune population donne ou reprsentatif de cette population, vis--vis d'un
paramtre comme la moyenne, la variance ou la frquence observe. Ceci implique que la loi
thorique du paramtre est connue au niveau de la population.

3.1 Comparaison dune moyenne observe et dune moyenne thorique

3.1.1 Principe du test

Soit X, une variable alatoire observe sur une population, suivant une loi normale et un
chantillon extrait de cette population.

Population inconnue Population connue


X N(,) X N(0, 0)
Echantillonnage alatoire simple

Echantillon
w
n, x , s 2

Hypothses
H0 : = 0 H1: 0

Le but est de savoir si un chantillon de moyenne x , estimateur de , appartient une


population de rfrence connue desprance 0 (H0 vraie) et ne diffre de 0 que par des
fluctuations dchantillonnage ou bien appartient une autre population inconnue
desprance (H1 vraie).

Pour tester cette hypothse, il existe deux statistiques : la variance 02 de la population de


rfrence est connue (test ) ou cette variance est inconnue et il faut lestimer (test T).

3.1.2 Variance de la population connue

3.1.2.1 Statistique du test

w
Soit X la distribution dchantillonnage de la moyenne dans la population inconnue suit
w 2
une loi normale telle que : X N (, ).
n
La statistique tudie est lcart : S = X - 0 dont la distribution de probabilit est la suivante

- 10 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

2 2
S N (0, ) avec sous H0, E(S) = 0 et V(S) = (voir dmonstration)
n n
Nous pouvons tablir grce au thorme central limite la variable Z centre rduite telle que
S E ( S ) X 0
Z= =
V (S ) 2
n

Sous H0 : = 0 avec 2 connue


X 0
Z= suit une loi normale centre rduite N(0,1)
2
n

.
3.1.2.2 Application et Dcision

Lhypothse teste est la suivante :


H0 : = 0 contre H1 : 0
Une valeur z de la variable alatoire Z est calcule :
w
x 0
z= note aussi obs
2
n
calcule (obs) est compare avec la valeur seuil lue sur la table
de la loi normale centre rduite pour un risque derreur fix (Rgle de dcision 1).

si obs > seuil lhypothse H0 est rejete au risque derreur : lchantillon


appartient une population desprance et nest pas reprsentatif de la population de
rfrance desprance 0 .
si obs seuil lhypothse H0 est accepte: lchantillon est reprsentatif de la
population de rfrence desprance 0.

Exemple :

La glycmie dune population suit une loi normale


desprance 0 = 1g/l et dcart-type 0 = 0,1 g/l.
On relve les glycmies chez 9 patients. On trouve
x = 1,12g/l.
Cet chantillon est-il reprsentatif de la
population ? Rponse.

- 11 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

3.1.3 Variance de la population inconnue

3.1.3.1 Statistique du test

La dmarche est la mme que pour le test mais la variance de la population ntant pas
connue, elle est estime par :
n 2
2 = s (voir estimation ponctuelle)
n 1
La statistique tudie est lcart : S = X - 0 dont la distribution de probabilit est la suivante
2 2
S N (0, ) avec E(S) = 0 et V(S) = (voir dmonstration)
n n
Nous pouvons tablir grce au thorme central limite la variable T centre rduite telle que
S E ( S ) X 0
T = =
V (S ) 2
n

Sous H0 : = 0 avec 2 inconnue


X 0
T= suit une une loi de Student n-1 degrs de libert. .
2
n

3.1.3.2 Application et Dcision

Lhypothse teste est la suivante :


H0 : = 0 contre H1 : 0
Une valeur t de la variable alatoire T est calcule :
x 0 x 0
t = =
2 s2
n n 1
t calcule (tobs) est compare avec la valeur tseuil lue dans la table de Student
pour un risque derreur fix et (n - 1) degrs de libert.

si tobs > tseuil lhypothse H0 est rejete au risque derreur : lchantillon


appartient une population desprance et nest pas reprsentatif de la population de
rfrence desprance 0 .
si tobs tseuil lhypothse H0 est accepte: lchantillon est reprsentatif de la
population de rfrence desprance 0.

- 12 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

Remarque : Si n < 30, la variable alatoire X tudie doit imprativement suivre une loi
normale N(,). Pour n 30, la variable de student t converge vers une loi normale
centre rduite .
Exemple :
Pour tudier un lot de fabrication de comprims, on prlve au hasard 10 comprims parmis
les 30 000 produits et on les pse. On observe les valeurs de poids en grammes :

0,81 0,84 0,83 0,80 0,85 0,86 0,85 0,83 0,84 0,80

Le poids moyen observ est-il compatible avec la valeur 0,83g, moyenne de la production au
seuil 98% ? Rponse.

3.2 Comparaison dune frquence observe et dune frquence thorique

3.2.1 Principe du test

Soit X une variable qualitative prenant deux modalits (succs X=1, chec X=0) observe
sur une population et un chantillon extrait de cette population.

Population inconnue Population connue


X B(n,p) X B(n,p0)

Echantillonnage alatoire simple

Echantillon
k
n, k , f =
n

Hypothses
H0 : p = p0 H1 : p p0

K
Le but est de savoir si un chantillon de frquence observe
, estimateur de p, appartient
n
une population de rfrence connue de frquence p0 (H0 vraie) ou une autre population
inconnue de frquence p (H1 vraie).

- 13 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

3.2.2 Statistique du test

La distribution dchantillonnage de la frquence de succs dans la population inconnue,


K K p0 q0
suit une loi normale telle que : suit N (p, ), les variances tant supposes
n n n
gales dans la population de rfrence et la population do est extrait lchantillon.
K
La statistique tudie est lcart : S = p0 dont la distribution de probabilit est la
n
p0 q0 p0 q0
suivante S N (0, ) avec sous H0 E(S) = 0 et V(S) = (voir
n n
dmonstration)

Nous pouvons tablir grce au thorme central limite la variable Z centre rduite telle que
K
p0
S E (S )
Z= = n mais seulement si np0 et nq0 10
V (S ) p0 q0
n

Sous H0 : p = p0
K
p0
Z= n suit une loi normale centre rduite N(0,1)
p0 q0
n
.

3.2.3 Application et dcision

Lhypothse teste est la suivante :


H0 : p = p0 contre H1 : p p0
Une valeur z de la variable alatoire Z est calcule :
k
p0
n
z= note aussi obs
p0 q0
n
calcule (obs) est compare avec la valeur seuil lue sur la table
de la loi normale centre rduite pour un risque derreur fix (Rgles de dcision 1).

si obs > seuil lhypothse H0 est rejete au risque derreur : lchantillon


appartient une population de frquence p et nest pas reprsentatif de la population de
rfrence de frquence p0 .
si obs seuil lhypothse H0 est accepte: lchantillon est reprsentatif de la
population de rfrence de frquence p0.

- 14 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

Exemple :
Une anomalie gntique touche en France
1/1000 des individus. On a constat dans
une rgion donne : 57 personnes atteintes
sur 50 000 naissances.
Cette rgion est-elle reprsentative de la
France entire ? Rponse.

4 Tests dhomognit
Les tests dhomognit destins comparer deux populations laide dun nombre
quivalent dchantillons (tests dgalit ou dhomognit) sont les plus couramment
utiliss. Dans ce cas la loi thorique du paramtre tudi (par exemple p, , 2 ) est
inconnue au niveau des populations tudies.

4.1 Comparaison de deux variances

4.1.1 Principe du test

Soit X, une variable alatoire observe sur 2 populations suivant une loi normale et deux
chantillons indpendants extraits de ces deux populations.

Population 1 Population 2
X1 N(1,1) X2 N(2, 2)

Echantillonnage alatoire simple

Echantillon 1 Echantillon 2
w w
n1 , x1 , s12 n2 , x2 , s22

Hypothses
H0 : 12 = 22 H1 : 12 22

On fait lhypothse que les deux chantillons proviennent de 2 populations dont les variances
sont gales.
Le test de comparaison de variance est ncessaire lors de la comparaison de deux moyennes
lorsque les variances des populations 12 et 22 ne sont pas connues. Cest galement la
statistique associe lanalyse de variance.

- 15 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

4.1.2 Statistique du test

La statistique associe au test de comparaison de deux variances correspond au rapport des


deux variances estimes.

Sous H0 : 12 = 22
n1 2
s1
12
n1 1
Fobs. = 2 = suit une loi de Fisher-Snedecor (n1-1, n2 -1) degrs de libert
2 n2 2
s2
n2 1
avec 12 > 22 car le rapport des variances doit tre suprieur 1.

Remarque : Il existe dautres statistiques que celle de Fisher Sndecor pour comparer deux
variances, notamment le test de Hartley qui impose lgalit de la taille des chantillons
compars n1= n2 mais que nous ne dvelopperons pas dans ce cours.

4.1.3 Application et dcision

La valeur de la statistique F calcule (Fobs) est compare avec la valeur Fseuil lue dans la table
de la loi de Fisher-Snedecor pour un risque derreur fix et (n1-1, n2 -1) degrs de libert.

si Fobs Fseuil lhypothse H0 est rejete au risque derreur : les deux chantillons
sont extraits de deux populations ayant des variances statistiquement diffrentes 12 et 22 .
si Fobs Fseuil lhypothse H0 est accepte: les deux chantillons sont extraits de
deux populations ayant mme variance 2 .

Remarque : Pour lapplication de ce test, il est impratif que X N(,) et que les deux
chantillons soient indpendants.

Exemple :
Un biologiste effectue des dosages par une mthode de
mesure de radioactivit et ne dispose donc que dun
nombre trs limit de valeurs.
Les concentrations C1 et C2 mesures sur deux
prlvements ont donn les valeurs suivantes :
C1 : 3,9 3,8 4,1 3,6 C2 : 3,9 2,8 3,1 3,7 4,1
La variabilit des valeurs obtenues pour les deux
prlvements est-elle similaire ? Rponse.

- 16 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

4.2 Comparaison de deux moyennes

4.2.1 Principe du test

Soit X un caractre quantitatif continu observ sur 2 populations suivant une loi normale et
deux chantillons indpendants extraits de ces deux populations.

Population 1 Population 2
X1 N(1,1) X2 N(2, 2)

Echantillonnage alatoire simple

Echantillon 1 Echantillon 2
w w
n1 , x1 , s12 n2 , x2 , s22

Hypothses
H0 : 1 = 2 H1 : 1 2

On fait lhypothse que les deux chantillons proviennent de 2 populations dont les
esprances sont gales.

Il existe plusieurs statistiques associes la comparaison de deux moyennes en fonction de la


nature des donnes.

Les variances des populations 12 et 22 sont

Connues Inconnues

- 17 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

Egales Diffrentes
n1 et n2 30 n1 et n2 < 30

Test Test T Test Test non paramtrique

4.2.2 Les variances des populations sont connues

4.2.2.1 Statistique du test

w
Soit X 1 la distribution dchantillonnage de la moyenne dans la population 1 suit une
w 2 w 2
loi normale telle que : X 1 N (1, 1 ) et de mme pour X 2 N (2, 2 )
n1 n2
w w
X 1 et X 2 tant deux variables alatoires indpendantes, nous pouvons tablir la loi de
w w
probabilit de la variable alatoire tudier X 1 X 2
w w w w
E( X 1 X 2 ) = E( X 1 ) - E( X 2 ) = 1 - 2 (Proprit de l esprance)
w w w w 2 2
V( X 1 X 2 ) = V( X 1 ) - V( X 2 ) = 1 + 2 (Proprit de la variance)
n1 n2
w w 12 22
Sachant que X 1 X 2 suit une loi normale N(1 - 2 , ) , nous pouvons tablir
+
n1 n2
grce au thorme central limite la variable Z centre rduite telle que
w w w w w w
( X 1 X 2 ) ( E ( X 1 X 2 ) ( X 1 X 2 ) ( 1 2 )
Z= w w =
V ( X1 X 2 ) 12 22
+
n1 n2

Sous H0 : 1 = 2 avec 12 et 22 connues


w w
( X1 X 2 )
Z= suit une loi normale centre rduite N(0,1)
12 22
+
n1 n2
.

4.2.2.2 Application et dcision

Lhypothse teste est la suivante :

- 18 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

H0 : 1 = 2 contre H1 : 1 2
Une valeur z de la variable alatoire Z est calcule :
w w
x1 x2
z= note aussi obs
12 22
+
n1 n2
calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre
rduite pour un risque derreur fix.

si obs seuil lhypothse H0 est rejete au risque derreur : les deux chantillons
sont extraits de deux populations ayant des esprances respectivement 1 et 2.
si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de
deux populations ayant mme esprance .

Remarque : Pour lapplication de ce test, il est impratif que X N(,) pour les
chantillons de taille < 30 et que les deux chantillons soient indpendants.

Exemple :
On a effectu une tude, en milieu urbain et en milieu rural, sur le rythme cardiaque humain :
Milieu urbain Milieu rural
Effectif de lchantillon 300 240
Moyenne de lchantillon 80 77
Variance de la population 150 120

Peut-on affirmer quil existe une diffrence significative entre les rythmes cardiaques moyens
des deux populations ? Rponse.

4.2.3 Les variances des populations sont inconnues et gales

4.2.3.1 Statistique du test

Les variances des populations ntant pas connues, on fait lhypothse que les deux
populations prsentent la mme variance.
H0 : 12 = 22 = 2 (voir test de comparaison des variances)
Lgalit des variancesw desw deux populations ou homoscdasticit permet alors dtablir la
loi de probabilit de X 1 X 2 avec
w 2 w 2
X 1 N (1, ) et X 2 N (1, )
n1 n2

- 19 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

w w 1 1
Sachant que X 1 X 2 suit une loi normale N(1 - 2 , 2 + , nous pouvons tablir
n1 n2
grce au thorme central limite la variable T telle que
w w w w w w
( X1 X 2 ) (E ( X1 X 2 ) ( X 1 X 2 ) ( 1 2 )
T= w w =
V ( X1 X 2 ) 1 1
2 +
n1 n2

Sous H0 : 1 = 2 avec 12 = 22 = 2
w w
( X1 X 2 )
T= suit une loi de Student (n1 + n2 -2) degrs de libert
1 1
2 +
n1 n2

4.2.3.2 Application et dcision

Lhypothse teste est la suivante :


H0 : 1 = 2 contre H1 : 1 2
Les variances des populations ntant pas connues, lgalit des variances doit tre vrifie
H0 : 12 = 22 = 2 contre H1 : 12 22 test de Fisher-Snedecor.
Une valeur t de la variable alatoire T est calcule :
w w
x1 x2 n s 2 + n2 s22
t= avec 2 = 1 1 estimation de la variance 2 commune
1 1 n1 + n2 2
2 +
n1 n2
t calcule (tobs) est compare avec la valeur tseuil lue dans la table de Student
pour un risque derreur fix et (n1 + n2 2) degrs de libert.

si tobs > tseuil lhypothse H0 est rejete au risque derreur : les deux chantillons
sont extraits de deux populations ayant des esprances respectivement 1 et 2.
si tobs tseuil lhypothse H0 est accepte: les deux chantillons sont extraits de
deux populations ayant mme esprance .

Remarque : Pour lapplication de ce test, il est impratif que X N(,) pour les
chantillons de taille < 30, que les deux chantillons soient indpendants et que les deux
variances estimes soient gales.

Exemple :

- 20 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

Dans le but dtudier linfluence du type datmosphre dlevage sur la dure de


dveloppement des drosophiles femelles, ces dernires ont t leves 14C sous
atmosphre normale (N) ou enrichie en C02 (C02). Les rsultats suivants ont t obtenus :

N 864, 768, 912, 804, 924, 984, 888, 816, 840, 936, 792, 876
C02 840, 948, 936, 1032, 912, 948, 1020, 936, 1056, 876, 1032, 918

Que peut-on conclure ? Rponse.

4.2.4 Les variances des populations sont inconnues et ingales

Si les variances des populations ne sont pas connues et si leurs estimations partir des
chantillons sont significativement diffrentes ( test de comparaison des variances), il faut
considrer deux cas de figure selon la taille des chantillons compars :

les grands chantillons avec n1 et n2 suprieurs 30.


les petits chantillons avec n1 et/ou n2 infrieurs 30.

Cas o n1 et n2 > 30

La statistique utilise est la mme que pour le cas o les variances sont connues.

Sous H0 : 1 = 2
w w
( X1 X 2 )
Z= suit une loi normale centre rduite N(0,1)
12 22
+
n1 n2
.

Comme les variances sont inconnues et significativement diffrentes 12 22 , on


remplace les variances des populations par leurs estimations ponctuelles calcules partir des
n n
chantillons, 12 = 1 s12 et 22 = 2 s22
n1 1 n2 1

Lhypothse teste est la suivante :


H0 : 1 = 2 contre H1 : 1 2
Une valeur z de la variable alatoire Z est calcule :
w w w w
x1 x2 x1 x2
z= = = obs.
12 22 s12 s22
+ +
n1 n2 n1 1 n2 1

calcule (obs) est compare avec la valeur seuil lue sur la table
de la loi normale centre rduite pour un risque derreur fix.

- 21 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

si obs > seuil lhypothse H0 est rejete au risque derreur : les deux chantillons
sont extraits de deux populations ayant des esprances respectivement 1 et 2.
si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de
deux populations ayant mme esprance .

Remarque : Pour lapplication de ce test, il est impratif que X N(,) et que les deux
chantillons soient indpendants.

Exemple :
Dans le but dtudier linfluence ventuelle de la lumire sur la croissance du poisson Lebistes
Reticulus, on a lev deux lots de ce poisson dans des conditions dclairage diffrentes. Au
95me jour, on a mesur en mm les longueurs xi des poissons. On a obtenu les rsultats
suivants :
Lot 1 (180 individus) : clairage 400 lux xi1 = 3 780 xi21 = 84 884
Lot 2 (90 individus) : clairage 3 000 lux. x
i2 = 2 043 x 2
i2 = 46 586
Que peut-on conclure ? Rponse.

Cas o n1 et/ou n2 < 30

Lorsque leswvariances
w sont ingales et les chantillons de petites tailles, la loi de probabilit
suivie par X 1 X 2 nest pas connue. On a recours alors au statistique non paramtrique.

4.3 Comparaison de deux frquences

4.3.1 Principe du test

Soit X une variable qualitative prenant deux modalits (succs X=1, chec X=0) observe
sur 2 populations et deux chantillons indpendants extraits de ces deux populations. On
fait lhypothse que les deux chantillons proviennent de 2 populations dont les probabilits
de succs sont identiques.

Population 1 Population 2
X1 B(n1,p1) X2 B(n2,p2)

Echantillonnage alatoire simple

Echantillon 1 Echantillon 2
k1 k2
n1 , k1 , f1 = n2 , k2 , f 2 =
n1 n2

- 22 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

Hypothses
H0 : p1 = p2 H1 : p1 p2

Le problme est de savoir si la diffrence entre les deux frquences observes est relle ou
explicable par les fluctuations dchantillonnage. Pour rsoudre ce problme, deux tests de
comparaison de frquences sont possibles :
Test ou test de la variable centre rduite et test du Khi-deux 2

4.3.2 Statistique du test

K1
La distribution dchantillonnage de la frquence de succs dans la population 1, suit
n1
une loi normale telle que :
K1 p1q1 K p2 q2
suit N (p1, ) et de mme pour 2 suit N (p2, )
n1 n1 n2 n2
si et seulement si n1p1, n1q1, n2p2, n2q2 10
K1 K2
et tant deux variables alatoires indpendantes, nous pouvons tablir la loi de
n1 n2
K K
probabilit de la variable alatoire tudier 1 2
n1 n2
K K K K
E( 1 2 ) = E( 1 ) - E( 2 ) = p1 - p2 (Proprit de l esprance)
n1 n2 n1 n2
K K K K pq pq
V( 1 2 ) = V( 1 ) + V( 2 ) = 1 1 + 2 2 (Proprit de la variance)
n1 n2 n1 n2 n1 n2
K1 K 2 p1q1 p2 q2
Sachant que suit une loi normale N(p1 - p2 , + ) , nous pouvons tablir
n1 n2 n1 n2
grce au thorme central limite la variable Z centre rduite telle que
K1 K 2
( p1 p2 )
n n
Z= 1 2

p1q1 p2 q2
+
n1 n2

n1 p1 + n2 p2
Sous H0 : p1 = p2 avec p=
n1 + n2
K1 K 2

Z= n1 n2 suit une loi normale centre rduite N(0,1)
1 1
pq( + )
n1 n2

- 23 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

4.3.3 Application et dcision

La valeur p, probabilit du succs commune aux deux populations nest en ralit pas connue.
On lestime partir des rsultats observs sur les deux chantillons :
k +k
p = 1 2 o k1 et k2 reprsentent le nombre de succs observs
n1 + n2
respectivement pour lchantillon 1 et pour lchantillon 2.

Lhypothse teste est la suivante :


H0 : p1 = p2 contre H1 : p1 p2
Une valeur z de la variable alatoire Z est calcule :
k1 k2

n1 n2 k +k
z= avec p = 1 2
1 1 n1 + n2
+
pq
n1 n2
z ou calcule (obs) est compare avec la valeur seuil lue sur la table
de la loi normale centre rduite pour un risque derreur fix.
si obs > seuil lhypothse H0 est rejete au risque derreur : les deux chantillons
sont extraits de deux populations ayant des probabilits de succs respectivement p1 et p2.
si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de
deux populations ayant mme probabilit de succs p.

Exemple :
On veut tester limpact des travaux dirigs dans la russite lexamen de statistique.

Groupe 1 Groupe 2

Nbre dheures de TD 20 h 30 h

Nbre dtudiants 180 150

Nbre dtudiants ayant russi lexamen 126 129

Quen concluez-vous ? Rponse.

- 24 -
Mathmatiques : Outils pour la Biologie Deug SV UCBL D. Mouchiroud (18/02/2003)
.

- 25 -

Das könnte Ihnen auch gefallen