Beruflich Dokumente
Kultur Dokumente
I - Fluctuation dechantillons
Lechantillonnage est letude des liens existants entre les parametres, moyenne ou frequence, des
echantillons preleves dans une population et ceux de la population elle-meme.
1) Position du probleme
Population
Dans une population donnee, on connat la frequence frequence f
f dun caractere. Echantillonnage
(deduction)
On repete n fois, de facon independante, le choix dun
individu dans cette population de facon a constituer Echantillon
un echantillon de taille n. frequence f
taille n
On aimerait alors connatre, ou du moins estimer, sur
cet echantillon, la frequence f du caractere.
Si Xn est la variable aleatoire egale au nombre de personnes possedant le caractere etudie dans notre
echantillon, Xn suit alors une loi binomiale B(n; f ).
Xn
On cherche donc a estimer la frequence f = .
n
2) Intervalle de fluctuation
Definition Lorsquon repete n fois la meme experience aleatoire, on obtient une serie de n succes ou
echecs que lon appelle echantillon de taille n.
Si on realise plusieurs echantillons de meme taille, les frequences de succes ou dechecs
calculees pour chaque echantillon varient dun echantillon a lautre.
Ce phenomene sappelle la fluctuation dechantillonnage.
Exemple : On lance une piece bien equilibree (donc, la probabilite dobtention des evenements Pile et
Face sont egales a p = 0, 5) 100 fois successivement :
54
pour une 1ere serie de 100 lancers, on obtient 54 fois Pile, soit une frequence f = = 0, 54 ;
100
41
pour une 2eme serie de 100 lancers, on obtient 41 fois Pile, soit une frequence f = = 0, 41 ;
100
pour une 3eeme serie . . .
Bien que ce phenomene soit aleatoire, on sait que, dapres la loi des grands nombres, plus la taille
des echantillons augmente, plus les frequences observees se rapprochent, ou se stabilisent autour, dune
valeur limite f = p = 0, 5.
Dans lexemple precedent, on sait que meme si le nombre de succes varie dune experience a lautre,
il sera rare (cest-a-dire la probabilite sera faible) davoir une frequence de Pile tres faible ou tres
grande (disons, par exemple, inferieure a 0,1 ou superieure a 0,9).
La notion dintervalle de fluctuation permet de quantifier ce phenomene : la frequence de succes
calculee sur un echantillon de taille n donne est comprise, avec une certaine probabilite, dans un intervalle
de valeurs, ou intervalle de fluctuation.
P (a 6 X 6 b) = 1
Propriete Soit Xn une variable aleatoire suivant la loi binomiale B(n; p), alors pour tout ]0; 1[, on a
Xn
lim P In = 1
n+ n
" p p #
p(1 p) p(1 p)
ou In designe lintervalle p u ; p + u
n n
avec u le nombre tel que, si X suit la loi normale N (0; 1),
P (u 6 X 6 u ) = 1
Demonstration: Si Xn suit la loi binomiale B(n; p), alors dapres le theoreme de Moivre-Laplace, pour
p Xn
n assez grand, Xn suit approximativement la loi normale N (np; np(1 p)), et donc, suit approxi-
p ! nr
np np(1 p) p(1 p)
mativement la loi normale N ; , soit la loi normale N (p; ), avec = .
n n n
Xn
On cherche alors tel que P p 6 6 p + = 1 .
n
Xn
Xn p
En ramenant a une variable suivant la loi normale reduite N (0; 1) : P 6 n 6 = 1
n
Xn
p
La variable aleatoire X = n suit une loi normale centree reduite N (0; 1), et on sait donc quil
existe un unique nombre u tel que P (u 6 X 6 u ) = 1 .
r
p(1 p)
Le theoreme est donc verifie pour = u = u = u et on a donc, pour n assez grand,
n
Xn
P In = 1
n
En pratique, la variable aleatoire Xn designe le nombre succes, cest-a-dire le nombre dindividus
Xn
possedant le caractere etudie, dans lechantillon de taille n forme, et alors f = est la frequence de
n
ce caractere dans lechantillon.
Cette propriete fournit donc un intervalle In de fluctuation au seuil .
Avec les valeurs approchees, u0,05 1, 96 et u0,01 2, 58, on peut preciser les intervalles de fluctuation
les plus utilises, au seuil de 95 % et au seuil de 99 % :
Dans 95% des cas, la frequence f de Pile obtenue sera dans lintervalle [0, 402 ; 0, 598].
De la meme facon, lintervalle de fluctuation au seuil de 99% est :
" p p #
p(1 p) p(1 p)
p 2, 58 ; p + 2, 58 [0, 5 0, 129 ; 0, 5 + 0, 129]
n n
= [0, 371 ; 0, 629]
Dans 99% des cas, la frequence f de Pile obtenue sur ces 100 lances sera comprise entre 0,371 et 0,629.
Corollaire Si n > 30, np > 5 et n(1 p) > 5, lintervalle de fluctuation au seuil de 95% peut-etre
approxime par lintervalle
1 1
p ; p+
n n
Demonstration: Lintervalle de fluctuation au seuil de 95%, dapres le theoreme precedent est, avec
= 5% = 0, 05, " p p #
p(1 p) p(1 p)
p u0,05 ; p + u0,05
n n
On sait que u0,05 1, 96, et donc que lintervalle de fluctuation au seuil de 95% est :
" p p #
p(1 p) p(1 p)
p 1, 96 ; p + 1, 96 .
n n
De plus, soit f : p 7 p(1 p), pour p [0; 1], alors f est une fonction trinome du second degre dont
le sens de variation est :
1
p 0 2
1
1
4
f (p)
0 0
1
p 0 2
1
1
dou, la fonction racine carree etant croissante : p 2
p(1 p)
0 0
et donc, pour tout p [0; 1],
p 1
1, 96 p(1 p) 6 1, 96 < 1
2
On a donc, pour tout p [0; 1],
" p p #
p(1 p) p(1 p)
1 1
p 1, 96 ; p + 1, 96 p ; p+
n n n n
1
Lintervalle p est plus large, donc un peu moins precis.
n
Exemple : Avec les donnees de lexemple precedent, lintervalle de fluctuation approche au seuil de 95%
est alors :
1 1 1 1
p ; p+ = 0, 5 ; 0, 5 + [0, 4 ; 0, 6]
n n 100 100
En comparant avec les resultats obtenus precedemment pour lintervalle de fluctuation au seuil de 95%,
on commet une erreur relative de seulement 0,2%=0,002 en utilisant cette formule approchee.
4) Exemple
Selon lInstitut national des etudes demographiques (INED), il nat normalement 105 garcons pour
105
100 filles, soit une proportion de garcons p = 0, 51.
205
Aux abords dune ville est venue simplanter, il y a cinq ans, une usine chimique. La toxicite des
substances manipulees et produites par cette usine est depuis grandement source de polemique.
Dans la maternite de cette ville, sont nes depuis ces cinq dernieres annees 693 enfants, dont seule-
ment 332 garcons. Les opposants a cette usine citent cette faible quantite de naissances de garcons
comme une consequence nefaste de lexploitation de cette usine.
Ont-ils raison ?
I=
Ici, la proportion denfants de garcons nes depuis les cinq dernieres annees est : f = . . .
Comme f I, ce faible nombre de naissance de garcons sexplique, au seuil de 95%, par les
fluctuations aleatoires des naissances de garcons/filles.
Lusine ne peut etre incriminee dans ces observations.
Remarque : Dans le cas ou on aurait eu f / I, il faut toutefois rester prudent : au seuil de confiance
de 95%, les fluctuations aleatoires des naissances ne permettraient pas dexpliquer ce faible nombre de
naissances de garcons ; neanmoins, cela ne signifierait pas directement que lusine est en cause, pas plus
que probablement un certain nombre dautres parametres.
Une etude statistique (ici epidemiologique) plus poussee serait necessaire pour aboutir a une telle
conclusion.
Exercice 1 Dapres les lois genetiques de Mendel, certains croisement de differentes varietes de pois
devraient donner des pois jaunes et verts dans une proportion egale a 3 pour 1.
Lors dune experience, on a obtenu un echantillon, que lon peut considerer comme aleatoire, presentant
176 pois jaunes et 48 pois verts.
Ces resultats sont-ils coherents avec la theorie de Mendel ?
Exercice 2
Deux entreprises A et B recrutent leur personnel dans un bassin demploi ou il y a autant dhommes
que de femmes.
Lentreprise A emploie 60 personnes dont 26 femmes, tandis que lentreprise B emploie 1050 personnes
dont 480 femmes.
1. Calculer les proportions de femmes employees dans chaque entreprise.
Laquelle de ces deux entreprises semble au mieux respecter la parite homme-femme ?
2. Determiner pour chaque entreprise lintervalle de fluctuation au seuil de 95 % de la proportion de
femmes employees.
Les deux entreprises respectent-elles la parite au seuil derreur de 5 % ?
II - Estimation
Lestimation, ou inference, statistique consiste a essayer de determiner les caracteristiques dune
population en ne connaissant des informations que sur un echantillon la composant.
Un des exemples les plus mediatises de nos jours est celui de sondage : en interrogeant un faible
nombre de personnes sur leur intention de vote, on souhaite obtenir une information sur les intentions
de vote de la population constituee par tous les electeurs.
Le journaliste et statisticien americain Georges Gallup a reussi a predire en 1936 lelection de Franklin
Roosevelt contre Alfred Landon : les instituts de sondage etaient nes.
2) Intervalle de confiance
Propriete On considere la variable aleatoire X qui a tout echantillon de taille n associe le nombre
dindividus possedant le caractere etudie. On suppose que X suit une loi binomiale B(n, f ),
X
et on note f = la frequence du caractere dans lechantillon.
n
Alors, pour n assez grand, lintervalle
1 1
In = f ; f +
.
n n
Exercice 3 Avant le premier tour de lelection presidentielle de 2002 un sondage IPSOS, realise
aupres de 989 personnes constituant un echantillon national representatif de la population francaise
inscrite sur les listes electorales, annoncait les intentions de vote suivantes :
20 % pour J. Chirac, 18 % pour L. Jospin et 14 % pour J.M. Le Pen.
Les medias se preparaient donc pour un second tour entre J. Chirac et L. Jospin.
Le resultat reel des votes a ce premier tour a alors surpris bien des personnes . . .
1. Determiner, pour chaque candidat, lintervalle de confiance au niveau de confiance de 0,95 de la
proportion delecteurs ayant eu lintention de voter pour lui.
2. Les resultats a lissue du premier tour ont ete les suivants :
19,88 % pour J. Chirac, 16,18 % pour L. Jospin et 16,86 % pour J.M. Le Pen.
Ces pourcentages sont-ils en accord avec les calculs precedents ?
3. Pouvait-on au vu de ce sondage ecarter avec un niveau de confiance de 0,95 lun de ces trois candidats ?
Exercice 4 Un laboratoire pharmaceutique met en place un test pour estimer lefficacite dun nou-
veau medicament contre les migraines.
Deux groupes de 125 patients souffrant de migraines, consideres comme des echantillons aleatoires,
participent a ce test.
On administre aux patients du groupe A le nouveau medicament, tandis que les patients du groupe
B recoivent un placebo.
Au bout de 4 jours de traitement, 73 patients du groupe A et 64 patients du groupe B declarent
ressentir une diminution de lintensite de leurs migraines.
a) Determiner les intervalles de confiance au niveau de confiance de 0,95 des proportions de patients
declarant ressentir une diminution de lintensite de leurs migraines, dans chaque echantillon.
b) Les intervalles de confiance permettent-ils, au niveau de confiance 0,95, de considerer que le medicament
est plus efficace que le placebo ?
c) Quelle devrait-etre la taille minimale de chaque echantillon pour que, avec des proportions indentiques
a celles observees precedemment, les resultats confirment lefficacite du medicament, au niveau de
confiance 0,95.
Exercice 5 Un magasin sapprete a commercialiser deux modeles dun meme produit : le modele A
et le modele B.
Une enquete prealable a la commande des produits par le magasin a montre que dans une ville
63 % des 400 personnes interrogees preferent le modele A, et que dans une seconde ville, 69 % des 500
personnes interrogees preferent le modele A.
Peut-on considerer, au niveau de confiance de 95 % quil y a une difference de preference entre les
personnes des deux villes ?
Quelle proportion de modele A commanderiez-vous ?