Abd-Basid ADAN

DEVOIR DE Statistique Inferentielle
1 :Page
Tables des Matières
Liste des tableaux………………………………………………………..…………………………………………………………………………………….…………………..2

Liste des graphiques………………………………………………………..……………………………………………………….............................................................2
Liste des sigles et abréviations ………………………………………………………………..…………………………………..…………………………………...2
Introduction………………………………………………………..…………………………………..……………………………………………………………………………......3
Exercice 1……………………………………………………………..…………………………………..……………………………………………………………………………...4
Exercice 2………………………………………………………..…………………………………..……………………………………………………………………………..…... 7
Exercice 3……………..…………………………..…………………………………..……………………………………………………………………………..……………… 11
Exercice 4…………………………………………..…………………………………..……………………………………………………………………………..……………… 16
Exercice 5………………………………………..…………………………………..……………………………………………..………………………………..……………… 18
Exercice 6………………………………………………………..…………………………………..……………………………………………………………………………..… 22
Exercice 7……………………………………………………………………………..……………………………………………………………………………..……………… 28
Exercice 8………………………………………………………..……………………..……………………………………………………………………………..……………… 33
Exercice 9………………………………………………………..…………………..………..……………………………………………………………………..……………… 36
Exercice 10………………………………………………………..…………………..……………………………………………………………………………..……………… 39
Annexe………………………………………………………..…………………..……………………………………………………………………………..……………………… 72
Réalisé par Abdi-Basid ADAN
Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
2 :Page
⟹ Liste des tableaux
Tableau 1 : Eléments de statistique descriptive de la variable achat
Tableau 2 : Éléments de statistique descriptive de la variable salaire
Tableau 3: Tableau de contingence entre salaire et sexe
Tableau 4: Tableau de contingence entre salaire et niveau
Tableau 5: Calcul des indicateurs de salaire selon le sexe
Tableau 6: Calcul des indicateurs de salaire selon le Niveau
⟹ Liste des figures

Figure1 : Simulation d’un échantillon de taille 36000 des lancements d’un dé
Figure2 : Appréciation de normalité du salaire
Figure 3. Distribution des salaires pour appréciation de la normalité
Figure 4 : Graphique d’intensité de liaison entre sexe et salaire
Figure 5 : Densités de salaire selon le sexe
Figure 6 : Histogramme salaire
Figure 7 : Boite à moustache du salaire selon le sexe
Figure 8 : Salaire moyen selon le sexe
Figure 9 : Densité de la variable niveau
⟹ Liste des sigles et abréviations

x-square : Khi Deux calculé
df : degree of fredom (degré de liberté)
P-value : probabilité critique ou seuil nominale
One sample test: test hypothèse simple
Rank : Rang des valeurs ou position
Inf : infinie
confidence interval : Intervalle de confiance
Interpolated CI : Intervalle de confiance cas bilatéral
sample estimates: Valeur estimée dans l’échantillon
alternative hypothesis : Hypothèse Alternative
3 :Page
INTRODUCTION
L'inférence est un ensemble des méthodes statistiques, qui s’appuie à priori

sur l’échantillonnage. Elle permet d’induire les paramètres inconnus d'une population
en extrapolant celles observés à partir d’un échantillon (un sous-ensemble).
Ces derniers reflètent avec une certaine marge d'erreur possible les caractéristiques
(proportion, moyenne, variance,…etc.) qu’on aurait considéré dans la population.
En effet, les méthodes d'inférences statistiques ont connu deux grandes

phases de développement, d’une part à la fin du XIXe siècle, avec les travaux de R.
Fisher, K. Pearson, Jerzy Neyman, Egon Pearson et Abraham Wald qui dégagent les
notions fondamentales de vraisemblance, de puissance des tests d'hypothèse et
d’intervalle de confiance et d’autre part, à la seconde période, qui perdure
jusqu’aujourd'hui, grâce à la puissance de calcul des ordinateurs.
Dans le cadre de notre projet d’inférence statistique, nous allons mener

l’ensemble des travaux demandés avec le logiciel statistique R (crée par Ross Ihaka
et Robert Gentleman), qui est un outil de programmation très puissant et complet dans
le domaine de la statistique.
4 :Page
EXERCICE 1 :
Eléments de Réponses
1) Ici, il s’agit d’estimer par intervalle de confiance, la part de sous alimentés dans un
pays donné à partir d’un échantillon des 2000 prochaines naissances.
Fort de la connaissance des informations ci-après, nous pouvons déterminer les

limites de la zone d’acceptabilité :
𝑓𝑜 = 0,27; 𝑛 = 2000; 1 − 𝛼 = 95 ⟺ 𝛼 = 0,05
En effet, la probabilité 𝛼 = 0,05, s’obtient par addition des nombres inscrits en marge
sur la table de la loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0
+ 0,05.
Cette probabilité correspond bien à la valeur 𝑡𝛼 = 1,96 , avec 𝑃𝑈 (−1,96 < 𝑈 < 1,96) =
0,95, U étant la valeur de l’écart réduite.
Ainsi, les Bornes de l’intervalle de confiance 𝑃1 𝑒𝑡 𝑃2 sont déduites à partir de la

probabilité ci-après:
𝑓0 × (1 − 𝑓0 ) 𝑓0 × (1 − 𝑓0 )
𝑃𝑝 (𝑓0 − 𝑡𝛼 × √ < 𝑝 < 𝑓0 + 𝑡𝛼 × √ ) = 0,95
𝑛 𝑛
avec
𝑓0 ×(1−𝑓0 ) 𝑓0 ×(1−𝑓0 )
𝑃1 = 𝑓0 − 𝑡𝛼 × √ 𝑒𝑡 𝑃2 = 𝑓0 + 𝑡𝛼 × √
𝑛 𝑛
5 :Page
En exécutant les programmes suivants sous le logiciel R.2.15.3:
Programmes de R
> n=2000;po=0.27 ;t=1.96

> lower=po - t*sqrt(po*(1-po)/n)
> upper=po + t*sqrt(po*(1-po)/n)
> conf.interval <-data.frame(lower,upper)
> r=round(conf.interval ,3); nb<- n*r
> print(nb)
On obtient :
𝑓0 ×(1−𝑓0 )
𝑃1 = 𝑓0 − 𝑡𝛼 × √ = 0.2505426 ≈ 0.251 ⟹ 𝒏𝟏 = 𝑃1 × 2000 = 502
𝑛
𝑓0 ×(1−𝑓0 )
𝑃2 = 𝑓0 + 𝑡𝛼 × √ = 0.2894574 ≈ 0.289 ⟹ 𝒏𝟐 = 𝑃2 × 2000 = 578
𝑛
On déduit à partir de l’estimation par l’intervalle de confiance à 95% ; l’effectif de population

sous alimentés dans le pays considéré compris entre:
𝐼𝐶(0,95)𝑛 = [ 502 ; 578] 𝑝𝑒𝑟𝑠𝑜𝑛𝑛𝑒𝑠.
⟶ Commentaire
On estime à 95 chances sur 100, le nombre de sous alimentés du pays considéré, entre 502
et 578 personnes sur les 2000 individus sondés.
2) La statistique de la marge d’erreur (noté me) dans l’estimation du nombre de sous alimentés
est calculée comme suit :
𝑓0 × (1 − 𝑓0 )
𝑚𝑒 = 𝑡𝛼 × 𝜎𝑓 = 𝑡𝛼 × √
𝑛
6 :Page
Programmes de R
> n=2000;po=0.27 ;t=1.96

> marg.error<-t*sqrt(po*(1-po)/n)
> print(round(marg.error,3))
> print(round(marg.error,3)*n)
On obtient :
𝑚𝑒 =0.01945738 ≈ 0.019 (margin of error en Anglais)

𝑚𝑒 ≈ 0.019 × 2000 = 38
⟶ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:
Au seuil de risque de 5%, on commet une erreur sur 38 personnes, en estimant le

nombre de sous alimentés du pays considéré sur les 2000 prochaines naissances
sondés.
7 :Page
EXERCICE 2 :
1) On désire estimer par intervalle de confiance, la proportion de votant de la région de

Dakar favorable au candidat considéré à partir d’un échantillon de taille 1500 individus.
Connaissant les informations ci-dessous, nous pouvons déterminer les bornes de

l’intervalle de confiance :
𝑛
𝑛 = 1500; 𝑛1 = 810; 𝑓𝑜 = = 0,54; 1 − 𝛼 = 0,99 ⟺ 𝛼 = 0,01
𝑛1
En effet, la probabilité 𝛼 = 0,01, s’obtient par addition des nombres inscrits en marge
sur la table de la loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0
+ 0,01.
Cette probabilité correspond bien à la valeur 𝑡𝛼 = 2,576 , avec

𝑃𝑈 (−2,576 < 𝑈 < 2,576) = 0,99, U étant la valeur de l’écart réduite.
Ainsi, les limites 𝑃1 𝑒𝑡 𝑃2 de l’intervalle de confiance de la proportion à 99% sont

calculées comme suit:
𝑓 × (1 − 𝑓𝑜 ) 𝑓 × (1 − 𝑓𝑜 )
𝑃𝑝 ( 𝑓𝑜 − 𝑡𝛼 × √ 𝑜 < 𝑃 < 𝑓𝑜 + 𝑡𝛼 × √ 𝑜 ) = 0,99
𝑛 𝑛
avec
𝑓𝑜 ×(1− 𝑓𝑜 ) 𝑓𝑜 ×(1− 𝑓𝑜 )
𝑃1 = 𝑓𝑜 − 𝑡𝛼 × √ 𝑒𝑡 𝑃2 = 𝑓𝑜 + 𝑡𝛼 × √
𝑛 𝑛
8 :Page
Programmes R
> n=1500; n1=810; f=n1/n;t=2.576

> lower= f-t*sqrt(f*(1-f)/n)
> upper=f+t*sqrt(f*(1-f)/n)
> conf.interval <-data.frame(lower,upper)
> r=round(conf.interval ,3);
> print(r)
On obtient :
𝑓0 ×(1− 𝑓𝑜 )
𝑃1 = 𝑓0 − 𝑡𝛼 × √ = 0.5068506 ≈ 0.507
𝑛
𝑓0 ×(1−𝑓0 )
𝑃2 = 𝑓0 + 𝑡𝛼 × √ = 0.2894574 ≈ 0.573
𝑛
On déduit à partir de l’estimation par l’intervalle de confiance à 99% ; la part des

partisans du candidat considéré dans la région compris entre:
𝐼𝐶(0,99)𝑝 = [ 0.507 ; 0.573]

⟶ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒 :
On estime à 99 chances sur 100, la proportion de votant de la région de Dakar
favorable à ce candidat, qui est comprise entre 50,7% et 57,3% sur les 1500 individus
sondés.
2) La statistique de la marge d’erreur (noté me) de l’estimation de la proportion des

votants pour le candidat considéré de la région de Dakar est calculée comme suit :
𝑓0 × (1 − 𝑓0 )
𝑚𝑒 = 𝑡𝛼 × 𝜎𝑓 = 𝑡𝛼 × √
𝑛
9 :Page
Langage S du R-Project
> n=1500; n1=810; f=n1/n;t=2.576

> marg.error<-t*sqrt(f*(1-f)/n)
On obtient :
Au seuil de risque de 1%, on commet une erreur en valeur absolue de 3.3%, en
estimant la part des partisans pour le candidat considéré dans la région de Dakar sur
les 1500 votants sondés.
3) La taille optimale pour tenir compte à 99 chances sur 100, l’élection du candidat, il
suffirait que la borne inferieur de l’intervalle de confiance soit supérieur ou égale à
50%, mathématiquement, elle s’écrit comme suit:
𝑓0 × (1 − 𝑓0 ) 𝑓0 × (1 − 𝑓0 )
𝑓 − 𝑡𝛼 × √ ≥ 0,50 ⟺ 𝑡𝛼 × √ ≤ 𝑓 − 0,5
𝑛 𝑛
𝑓0 × (1 − 𝑓0 ) 1 (𝑓0 − 0,50)2
𝑡𝛼2 × ≤ (𝑓0 − 0,50)2 ⟺ ≤ 2
𝑛 𝑛 𝑡𝛼 × 𝑓0 × (1 − 𝑓0 )
𝑡𝛼2 × 𝑓0 × (1 − 𝑓0 )
⟺ 𝑛≥
(𝑓 − 0,50)²
Pour considérer l’élection du candidat à 99 chances sur 100, il faudrait sonder un

échantillon de taille supérieur ou égale à n.
10 :Page
Programmes R
> opt.size.ref<- t^2*f*(1-f)/(f- 0.50)^2

> round(opt.size.ref,0)
On obtient :
𝑛 ≥ 1030,2014 ≈ 1030
Il faudrait sonder aléatoirement (avec remise ou sans remise) un échantillon de taille
supérieur ou égale à 1030 individus dans la région Dakaroise, afin d’être sûre (à 99%)
que le candidat soit désigné dans l’élection.
11 :Page
EXERCICE 3 :
1) Soit X, la variable modélisant la vente moyenne de 18 entreprises de la Région de

Dakar. On suppose que X suit la loi normale 𝑁(𝑚, 𝜎).
La ventes moyenne (𝑋̅), la variance (𝑠²(𝑥) ) et l’écart type (𝑠(𝑥) ) sont données par :
1 1
𝑋̅ = ∑18
𝑖=1 𝑋𝑖 ; 𝑠²(𝑥) = ∑18 ̅
𝑖=1 𝑋𝑖 ² − 𝑋 ² et 𝑠(𝑥) = √𝑠²(𝑥)
18 18
Sous le logiciel R.2.15.3, en exécutant les programmes suivants:
Programmes R
> x<-c(13,40,65,49,120,47,50,48,96,42,52,40,54,65,100,22,12,9)
> moy=round(mean(x),3);vari=round(var(x),3);ecart=round(sd(x),3)
> data.frame(moy,vari,ecart)
On obtient :
Tableau1 : Eléments de statistique descriptive de la variable achat
mean var sd valid.n sum min max

51.33 912.4 30.21 18 924 9 120
La vente moyenne de trois semestres de 18 entreprises de Dakar est 51.333 (en

millions CFA), en considérant 9 millions FCFA comme la vente la plus faible (min) et
120 millions FCFA comme la vente la plus élevée (max).
12 :Page
La variance de vente vaut 912.353 (en millions CFA), avec une dispersion autour de
la vente moyenne de 30.21 (en millions CFA).
2) Ici, il s’agit d’estimer par intervalle de confiance la vente moyenne de toutes les
entreprises de la région de Dakar.
Ayant les informations ci-dessous, nous pouvons déterminer les limites de l’intervalle
de confiance de la moyenne:
𝑛 = 18; 𝑋̅ = 51.333 ; 𝑠²(𝑥) = 912.353 − 𝑋̅ ² et 𝑠(𝑥) = 30.205 𝑒𝑡 1 − 𝛼 = 0, 95
√𝑛−1 × (𝑥̅ −𝑚)

L’écart type 𝜎(𝑥) de la population n’est pas connu : → 𝑇(𝑛−1)(suit une loi
𝑠
de Student)
En effet, la probabilité 𝛼 = 0,05, s’obtient par valeur conjointe au seuil 0.05 et à 17 (n-
1), de degré de liberté sur la table de la loi de Student 𝑇17 : à l’intersection de la ligne
et colonne ⟹ 0,05 et 17.
Ρ(−2,110 < 𝑇𝑛 < 2,110 ) = 0,95.
Ainsi, les Bornes 𝒎𝟏 𝒆𝒕 𝒎𝟐 de l’intervalle de confiance s’obtiennent à l’aide de la

probabilité suivante :
𝑠 𝑠
𝑃𝑚 (𝑋̅ − 𝑡𝛼 < 𝑚 < 𝑋̅ + 𝑡𝛼 ) = 0,99
√𝑛 − 1 √𝑛 − 1
avec
𝑠 𝑠
𝑚1 = 𝑋̅ − 𝑡𝛼 et 𝑚2 = 𝑋̅ + 𝑡𝛼
√𝑛−1 √𝑛−1

Programmes R
> t=2.110;n=18
> m1<-mean(x) - t*sd(x)/ sqrt(n-1)
> m2<-mean(x) + t*sd(x)/ sqrt(n-1)
> round(cbind(m1,m2),3)
13 :Page
On obtient :
 𝑚1 = 35.87583 ≈ 35.876
 𝑚2 = 66.79084 ≈ 66.791
On déduit à partir de l’estimation par l’intervalle de confiance à 95% la vente

moyenne compris entre:
𝐼𝐶(0,95)𝑚 = [ 35.876 ; 66.791]
⟶ Commentaire :
On estime à 95 chances sur 100, la vente moyenne des entreprises de la région de

Dakar comprise entre 35.876 et 66.791 , sur le 18 entreprises sondés.
3) La statistique de la marge d’erreur (noté me) dans l’estimation de la vente moyenne

est calculée comme suit:
𝑠
𝑚𝑒 = 𝑡𝛼
√𝑛 − 1
Programmes R
> marg.error<-t*sd(x)/ sqrt(n-1)

On obtient :
Avec une probabilité de 95%, on commet une erreur, en valeur absolue de 15.458, on
estimant la vente moyenne des entreprises de la région de Dakar sur les 18 entreprises
sondés.
14 :Page
4) On veut estimer la variance des ventes par intervalle de confiance à 95%.
Ainsi, la variance de la population n’est pas connue, on estime alors par son estimateur
̅ = 1 ∑𝑛 (𝑥 − 𝑥̅ )² sans biais de 𝜎² : avec 𝑛 × 𝑠²
𝑠² ̅ = (n − 1) × s²
𝑛−1 𝑖=1 𝑖
(𝑛−1)𝑠²
En effet, la statistique de suit une loi de Khi-Deux à (n-1) degrés de liberté.
𝜎²
(𝑛 − 1)𝑠²
𝑃 (𝐴 ≤ ≤ 𝐵) = 1 − 𝛼 = 0.95
𝜎²
Les valeurs de A et B suivant la loi de Khi-deux sont calculées avec les probabilités ci-
dessous :
𝛼
 𝑃 (𝜒 2 (𝑛−1) > 𝐴) = 1 − = 0,975
2
𝛼
 𝑃 (𝜒 2 (𝑛−1) > 𝐵) = = 0.025
2
Aussi, la probabilité 𝛼 = 0,975, s’obtient par valeur conjointe de 0.975 et 17 (à n-1), de

degrés de liberté sur la table de la loi de Khi-Deux 𝜒(𝑛−1) : à l’intersection de la ligne et
colonne ⟹ 0,975 et 17 (on lit pour la valeur A).
D’autre part, l’intersection des valeurs 0,025 et 17 (on lit pour la valeur B).
Cette probabilité correspond bien à la valeur 𝐴 = 7,564, avec :
Ρ (𝜒 2 (17) ≥ 7,564) = 0,975.
Cette probabilité correspond bien à la valeur 𝐵 = 30,191, avec :
Ρ (𝜒 2 (17) ≥ 30,191) = 0,025.
Les Bornes de l’intervalle de confiance de la variance s’obtiennent comme suit:

(𝑛 − 1) × 𝑠² 𝐴 1 𝐵
𝑃 (𝐴 < 2
< 𝐵) = 0.05 ⟺ 𝑃 ( 2
< 2< ) = 0.05
𝜎 (𝑛 − 1)𝑠 𝜎 (𝑛 − 1) 𝑠 2
(𝑛 − 1)𝑠 2 (𝑛 − 1)𝑠 2
⟺ 𝑃( ≤ 𝜎2 ≤ );
𝐵 𝐴
15 :Page
𝑎𝑣𝑒𝑐
(𝑛−1)×𝑠² (𝑛−1)×𝑠²
𝜎²1 = 𝑒𝑡 𝜎²2 =
𝐵 𝐴
Programmes R
> A=7.564;B=30.191
> sigma2.1<-((n-1)*var(x))/B
> sigma2.2<-((n-1)*var(x))/A
> round(cbind(sigma2.1,sigma2.2), 3)
On obtient :
 𝝈²𝟏 = 513.7293 ≈ 513.729

 𝝈²𝟐 = 2050.502 ≈ 2050.502
On déduit à partir de l’estimation par l’intervalle de confiance à 95% ; la variance des
ventes compris entre:
𝑰𝑪(𝟎, 𝟗𝟓)𝝈² = [ 543.949 ; 2171.12 ]
⟶ Commentaire :
On estime à 95 chances sur 100 la variance de vente de toutes les entreprises de la

région de Dakar entre 513.729 et 2050.502 sur les 18 entreprises sondés.
16 :Page
EXERCICE 4 :
1) Soit Ω, l’univers contenant l’ensemble des cas possibles de l’expérience aléatoire X

modélisant les lancements d’un dé (6 faces possibles à chaque lancement), avec
cardinal : card(Ω) = 36000.
Sélon le théorème Centrale Limite (ou de la limite centrale), tout évènement ou variable
indépendamment et identiquement distribuée ; répété un plus grand nombre de fois
suit asymptotiquement une loi de Laplace-Gauss.
En effet, avec le lancement de 36000 fois (n > 30), il n’y a aucune raison d’obtenir
une face plutôt qu’une autre avec le dé à six faces.
Programmes R
> faces<-1:6; n<-36000 ; t=1.96

> samp<-sample(faces,n,replace=TRUE)
> tab.eff<-table(samp)
> barplot(tab.eff)
> sigmaf=sqrt((f*(1-f))/n)
> lb=f-t*sigmaf
> ub=f+t*sigmaf
> round(cbind(lb*n,ub*n),3)
17 :Page
On obtient :
Figure1 : simulation d’un échantillon de taille 36000 des lancements d’un dé :
→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒 :
En simulant un échantillon de taille 36000 des lancements aléatoires d’un dé à 6 faces,
on y trouve approximativement 6000 fois pour toutes les faces, à la 36ieme lancés. En
d’autres termes, chaque numéro i avec {i=1,…6} a autant de chance d’apparaitre à la
fin de l’expérience, par définition c’est « la notion d’équiprobabilité ».
En conclusion, nous ne pouvons pas considérer que le dé est pipé (ou truqué) avec la
face 1 obtenue 6327 fois (ou avec une proportion de 17.575%).
18 :Page
Méthode 2 : Test rélatif à une proportion
On veut procéder un test simple rélatif à une proportion (test bilatéral).
Formellement, il s’agit de vérifier l’hypothèse suivante :
L’hypothèse nulle 𝐻0 : « le dé est pipé (ou truqué) ».

Contre
L’hypothèse alternative 𝐻1 : « le dé n’est pas pipé (ou non truqué) ».
Ayant connaissant les informations ci-dessous, nous pouvons déterminer les limites
de la zone d’acceptation de l’hypothèse H0:
1
𝑓1 = ; 𝛼 = 5%; 𝑛 = 36000
6
La probabilité 𝛼 = 0,05, s’obtient par addition des nombres inscrits en marge sur la
table de la loi normale centrée et réduite (écart réduite) : Ligne + colonne ⟹ 0,0 +
0,05. Cette probabilité correspond bien à la valeur 𝑡𝛼 = 1,96.
Les bornes 𝑃1 et 𝑃2 de l’intervalle de confiance sont données par la probabilité ci-
contre :
𝑃 = {𝑓0 − 𝑡𝛼× 𝜎𝑓0 ≤ 𝑝 ≤ 𝑓0 + 𝑡𝛼× 𝜎𝑓0 } = 0,95
𝑓0 ×(1−𝑓0 )
Avec 𝑃1 = 𝑓0 − 𝑡𝛼× 𝜎𝑓0 ; 𝑃2 = 𝑓0 + 𝑡𝛼× 𝜎𝑓0 et 𝜎𝑓0 = √
𝑛
 𝑃1 = 0.16281686 ≈ 0.163 → 𝑛1 = 𝑃1 × 36000 = 5861

 P2 = 0.1705165 ≈ 0.171 → n1 = P2 × 36000 = 6138
On constate que 6327 n’appartient pas à l’intervalle de confiance alors, on rejette

l’hypothèse nulle H0 en faveur de l’hypothèse alternative.
Nous pouvons affirmer au seuil de risque de 5%, que le dé n’est pas pipé (non triché
ou non truqué).
19 :Page
EXERCICE 5 :
1) Ici, il s’agit de procéder un test non paramétrique rélatif à une médiane (cas bilatéral),
en vérifiant l’hypothèse suivante:
𝐻0 : 𝑀𝑒 = 8000
{ 𝐶𝑜𝑛𝑡𝑟𝑒
𝐻1 : 𝑀𝑒 ≠ 8000
En termes plus simple, on suppose :
L’hypothèse nulle 𝐻0 : « les observations sont compatible avec un panier médian

de 8000 ».
Contre
L’hypothèse alternative 𝐻1 : « les observations sont incompatibles avec un panier

médian de 8000 ».
La règle de décisions repose sur la comparaison du seuil de significativité

conventionnel 𝛼 de (1%, 5% et 10%), avec le seuil nominal ou la « p-valeur du test :
• si 𝑝 − 𝑣𝑎𝑙𝑒𝑢𝑟 ≥ 𝛼, on ne rejette pas l’hypothèse 𝐻0

• si 𝑝 − 𝑣𝑎𝑙𝑒𝑢𝑟 < 𝛼, on rejette 𝐻0 (en faveur de 𝐻1 ).
20 :Page
Programmes R
> data<-
c(6000,7200,10000,20000,27200,8800,6800,5600,18000,34000,9600,720
0)
> simple.median.test(achat, median=8000)
> round(simple.median.test(achat, median=8000),3)
On obtient :
One-sample Sign-Test
data: achat
s = 7, p-value = 0.7744
alternative hypothesis: true median is not equal to 8000
95 percent confidence interval:
6842.545 19787.273
sample estimates:
median of x 9200
Conf.Level L.E.pt U.E.pt
Lower Achieved CI 0.8540 7200.000 18000.00
Interpolated CI 0.9500 6842.546 19787.27
Upper Achieved CI 0.9614 6800.000 20000.00
La probabilité associée au test de signe de la médiane (bilatéral) est de 0.7744,
supérieur à tous les seuils conventionnels (1%,5% et 10%).
Dans ce cas, on ne rejette pas alors à tous les seuils de significativités l’hypothèse
nulle 𝐻0 .
Nous pouvons affirmer que les montants des achats sur les 12 observations sont
significativement compatibles avec un panier médian de 8000.
La région de la zone d’acceptation de l’hypothèse 𝐻0 avec une probabilité à 95% est
dans la bande comprise entre : [6842.545 ; 19787.273], (en Anglais : Interpolated CI).
On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à droite :
𝐻0: 𝑀𝑒 ≤ 8000
{ 𝑐𝑜𝑛𝑡𝑟𝑒
𝐻1: 𝑀𝑒 > 8000
21 :Page
𝐻0 : « Les observations sont compatibles avec un panier médian de 8000 ».
Contre
𝐻1 : « Les observations sont compatibles au moins avec un panier médian de

8000 ».
data: achat
s = 7, p-value = 0.3872
alternative hypothesis: true median is greater than 8000
7028.727 Inf
sample estimates:
median of x 9200
Lower Achieved CI 0.9270 7200.000 Inf
Interpolated CI 0.9500 7028.727 Inf
Upper Achieved CI 0.9807 6800.000 Inf
La probabilité associée au test de signe de la médiane (unilatéralement à droite) est

de 0.3872, supérieur à tous les seuils conventionnels (1%,5% et 10%).
nulle 𝐻0 .
La région de la zone d’acceptation de l’hypothèse 𝐻0 se situe à une seule région :

[6842.545 ; +∞[ avec une probabilité à 95%.
On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à

gauche :
𝐻0: 𝑀𝑒 ≥ 8000
𝐻1: 𝑀𝑒 < 8000
22 :Page
𝐻0 : « Les observations sont compatibles avec un panier médian de 8000 ».
Contre
𝐻1 : « Les observations sont compatibles au plus avec un panier médian de 8000 ».
data: achat
s = 7, p-value = 0.8062
alternative hypothesis: true median is less than 8000
-Inf 18856.36
sample estimates:
median of x 9200
Lower Achieved CI 0.9270 -Inf 18000.00
Interpolated CI 0.9500 -Inf 18856.36
Upper Achieved CI 0.9807 -Inf 20000.00
La probabilité associée au test de signe de la médiane (unilatéralement à gauche) est

nulle 𝐻0 .
La région de la zone d’acceptation de l’hypothèse 𝐻0 se situe à une seule région :

] −∞ ; 18856.36] avec une probabilité à 95%.
Conclusion :
Avec le test bilatéral, unilatéral à gauche et à droite et aux seuils conventionnels

(1%,5% et 10%), on peut affirmer que les 12 observations sont compatibles
significativement avec un panier médian de 8000.
23 :Page
EXERCICE 6 :
1) Ici, il s’agit bien de procéder un test rélatif à deux proportions (test bilatéral), en
vérifiant l’hypothèse suivante:
𝐻0 : 𝑝1 = 𝑝2
{
𝐻1 : 𝑝1 ≠ 𝑝2
En termes plus simples, on suppose :
L’hypothèse nulle 𝐻0 : «Aucune différence significative concernant l’importance

d’épargner entre les francophones et les non- francophones».
Contre
L’hypothèse alternative 𝐻1 : il existe une différence significative concernant

l’importance d’épargne entre les francophones et les non- francophones».
Connaissant les informations ci-dessous, nous pouvons déterminer l’estimateur de 𝑃̂

de p, afin d’en déduire la statistique calculée, 𝑡𝑐𝑎𝑙 .
𝑓1 = 0,21; 𝑓2 = 0,44; 𝛼 = 5%, 𝑛1 = 344; 𝑛2 = 90
Ainsi, l’estimateur de 𝑃̂ est calculée comme suit :
𝑛1 × 𝑓1 + 𝑛2 × 𝑓2 𝑘1 + 𝑘2
𝑃̂ = =
𝑛1 + 𝑛2 𝑛1 + 𝑛2
24 :Page
La statistique de 𝑡𝑐𝑎𝑙 calculé est donnée par la formule ci-dessous :
𝑓1 − 𝑓2
|𝑡𝑐𝑎𝑙 | = || ||
1 1
√𝑃̂ × (1 − 𝑃̂) × ( + )
𝑛1 𝑛2
Programmes R
> f1=0.21;f2=0.44;n1=344;n2=90
> p.chap<-(f1*n1+f2*n2)/(n1+n2)
> q.chap<-1-p.chap
> print(p.chap)
> p.chapo<-round(p.chap,3)
> t.cal<-(f1-f2)/sqrt(p.chap*q.chap*((1/n1)+(1/n2)))
> print (abs(t.cal))
> t.cal<-round(abs(t.cal),3)
> data.frame(p.chapo,t.cal)
> # Méthode avec p-value
> prop.test(c((n1*f1),(n2*f2)),c(n1,n2))
On obtient :
 𝑃̂ = 0.2576959 ≈ 0.258
 |𝑡𝑐𝑎𝑙 | = |−4.441593| ≈ 4.442
table de la loi normale centrée et réduite (écart réduite) :
Ligne + colonne ⟹ 0,0 + 0,05.

On constate bien que la valeur de tabulée 𝑡𝛼 (lue sur la table de la loi normale centrée
et réduite) est inférieur à la valeur calculée |𝑡𝑐𝑎𝑙 | : 1.96 < 4.442.
25 :Page
Ceci nous ramène à rejeter l’hypothèse nulle au seuil de risque de 5%, autrement dit,
la différence concernant l’importance d’épargne entre les francophones et les non-
francophones de la population Québécoise est significative avec une probabilité à
95%.
Méthode 2 : Avec le seuil nominal (p-valeur).
2-sample test for equality of proportions with continuity correction
data: c(0.21 * 344, 0.44 * 90) out of c(344, 90)

X-squared = 18.5437, df = 1, p-value = 1.661e-05
alternative hypothesis: two.sided
-0.3482281 -0.1117719
sample estimates:
prop 1 prop 2
0.21 0.44
→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:
La probabilité associée au test de comparaison de proportion est de 1.661 e-05

inférieurs à tous les seuils conventionnels (1%,5% et 10%).
Dans ce cas, on rejette alors à tous les seuils de significativités l’hypothèse nulle 𝐻0
Nous pouvons affirmer qu’il existe une différence significative concernant l’importance
d’épargne entre les francophones et les non- francophones e la population
québécoise.
Ainsi, la région de la zone d’acceptation de l’hypothèse 𝐻0 est compris entre :

[-0.3482281 ; -0.1117719] avec une probabilité à 95%.
2) On veut mener un test de rélatif à deux proportions (bilatéral), en vérifiant l’hypothèse

suivante :
𝐻0: 𝑝1 = 𝑝2
{
𝐻1: 𝑝1 ≠ 𝑝2
26 :Page
En termes plus limpides, on suppose :
L’hypothèse nulle 𝐻0 : «Aucune différence significative concernant l’importance de

profiter de la vie entre les francophones et les non- francophones».
Contre
L’hypothèse alternative 𝐻1 : il existe une différence significative concernant

l’importance de profiter de la vie entre les francophones et les non- francophones».
Ayant les informations ci-dessous, on peut déterminer l’estimateur de 𝑃̂, afin d’en
déduire la statistique calculée de tcal.
𝑓1 = 0,45; 𝑓2 = 0,28; 𝛼 = 5%, 𝑁1 = 344; 𝑁2 = 90
En effet, l’estimateur de 𝑃̂ est calculée par :
𝑁1 × 𝑓1 + 𝑁2 × 𝑓2
𝑃̂ =
𝑁1 + 𝑁2
La statistique calculé de |𝑡𝑐𝑎𝑙 | est donnée ci-après :
𝑓1 − 𝑓2
|𝑡𝑐𝑎𝑙 | = || ||
1 1
√𝑃̂ × (1 − 𝑃̂) × ( + )
𝑛1 𝑛2
27 :Page
Programmes R
> f1=0.45;f2=0.28;n1=344;n2=90
> p.chap<-(f1*n1+f2*n2)/(n1+n2)
> q.chap<-1-p.chap
> print(p.chap)
> t.cal<-(f1-f2)/sqrt(p.chap*q.chap*((1/n1)+(1/n2)))
> t.cal<-round(abs(t.st),3)
> # Méthode avec p-value
> prop.test(c((n1*f1),(n2*f2)),c(n1,n2))
On obtient :
 𝑃̂ = 0.4147465 ≈ 0.414
 |𝑡𝑐𝑎𝑙 | = |2.914346| ≈ 2.914
table de loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0 + 0,05.

On constate bien que la valeur de tabulée 𝑡𝛼 (lue sur la table de la loi de Gauss) est
inférieur à la valeur calculée |𝑡𝑐𝑎𝑙 | : 1.96 < 2.914.
Ceci nous ramène à rejeter l’hypothèse nulle (en faveur à l’hypothèse alternative) au
seuil de risque de 5%, autrement dit, la différence concernant l’importance de profiter
de la vie entre les francophones et les non- francophones de la population Québécoise
est significative avec une probabilité à 95%.
28 :Page
Méthode 2 : Avec le seuil nominal ou p-valeur
Cas bilatéral

data: c(0.45 * 344, 0.28 * 90) out of c(344, 90)
X-squared = 7.8075, df = 1, p-value = 0.005203
95 percent confidence interval: 0.05636681 0.28363319
sample estimates: prop 1 prop 2
0.45 0.28
La probabilité associée au test de comparaison de proportion est de 0.005203,

inférieur à tous les seuils conventionnels (1%,5% et 10%).
Dans ce cas, on rejette alors à tous les seuils de significativités l’hypothèse nulle 𝐻0 .
Nous pouvons affirmer que la différence concernant l’importance de profiter de la vie

entre les francophones et les non- francophones est significative avec une probabilité
à 95%.
La région de la zone d’acceptation de l’hypothèse nulle est compris entre :

[0.05636681 ; 0.28363319] avec une probabilité à 95%.
29 :Page
EXERCICE 7 :
1) Ici, il s’agit de procéder un test de rélatif à deux moyennes, (test bilatéral) en

vérifiant l’hypothèse suivante :
𝐻0 : 𝑚1 = 𝑚2
{
𝐻1 : 𝑚1 ≠ 𝑚2
L’hypothèse nulle 𝐻0 : « La différence des moyennes n’est pas significative entre les
dépenses deux régions».
Contre
L’hypothèse alternative 𝐻1 : La différence des moyennes est significative entre les

dépenses de deux régions».
En effet, l’écart type de la population 𝜎 est inconnu, on va l’estimer par son

estimateur ̂
𝑆.
Ayant les informations ci-dessous, on peut alors déterminer l’estimateur de 𝑆̂ et
déduire la statistique |𝒕𝒄𝒂𝒍 | :
̅̅̅1 = 67000; 𝑋
𝑋 ̅̅̅2 = 49000; 𝛼 = 5%, 𝑛1 = 75; 𝑛2 = 35
30 :Page
L’estimateur de 𝑆̂ est donnée par la formule ci-après :
𝑛1 × 𝑆²1 + 𝑛2 × 𝑆²2
𝑆̂ = √
𝑛1 + 𝑛2 − 2
On déduit, la statistique de t-calculé comme suit:
̅̅̅1 − 𝑋
𝑋 ̅̅̅2 𝑛1 × 𝑛2
|𝑡𝑐𝑎𝑙 | = | ×√ |
𝑆̂ 𝑛1 + 𝑛2
Programmes R
> x1=67000;x2=49000;n1=75;n2=35
> s1=12500; s2=8300
> s2.chap<-(s1^2*n1+s2^2*n2)/(n1+n2-2)
> print(s2.chap)
> s.chapo<-round(sqrt(s2.chap),3)
> t.st<-(x1-x2)*sqrt(n1*n2)/(n1+n2))/sqrt(s2.chap)
> print (abs(t.st))
> t.cal<-round(abs(t.st),3)
> data.frame(s.chapo,t.cal)
On obtient :
 𝑠̂ = 11438.199 ≈ 11438.2
 |𝑡𝑐𝑎𝑙 | = |7.687465| ≈ 7.687
La lecture de la valeur tabulé se fait sur la table de la loi de Student à 𝑛1 + 𝑛2 − 2 >

30, degré de liberté. Néanmoins, cette valeur est supérieure à 30, on peut alors
√(𝑛−1)×(𝑥̅ −𝑚)
réaliser l’approximation de la variable de Student à la loi normale centré
𝑠
et réduite N (0,1), (théorème centrale limite).
Ainsi, la probabilité 𝛼 = 0,05, s’obtient par intersection des nombres inscrits en marge
sur la table de loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0 +
0,05.
31 :Page
On constate bien que la valeur de tabulée tα (lue sur la table de loi de Gauss) est
inférieur à la valeur calculée |tcal | : 1.96 < 7.687.
la différence des moyennes des dépenses hebdomadaires auprès des familles
ivoiriennes de deux régions est significative avec une probabilité à 95%.
2) On veut procéder un test rélatif sur deux variances (test bilatéral), en vérifiant
l’hypothèse suivante:
𝐻0 : 𝜎²1 = 𝜎²2
{
𝐻1 : 𝜎²1 ≠ 𝜎²2
L’hypothèse nulle 𝐻0 : « La différence des variances n’est pas significative entre les
dépenses de deux régions».
Contre
L’hypothèse alternative 𝐻1 : La différence des variances est significative entre les

dépenses de deux régions ».
Les variances de deux régions 𝜎²1 et 𝜎²1 sont inconnues on va les estimés par
̂ et
leurs estimateurs 𝑠² ̂
𝑠² respectives.
1 2
Connaissant les informations ci-dessous, on peut déterminer les statistiques de
̂ ̂
̂ 𝑒𝑡 𝑠²
𝑠² ̂ et en déduire le Fisher calculé 𝐹 ∗ = 𝑠² 1
𝑜𝑢 𝐹∗∗ =
𝑠² 2
1 2 ̂
𝑠² ̂ :
𝑠²
2 1
̅̅̅1 = 67000; 𝑋
𝑋 ̅̅̅2 = 49000; 𝛼 = 5%, 𝑛1 = 75; 𝑛2 = 35
32 :Page
̂ 𝑒𝑡 𝑠²
Les estimateurs de 𝑠² ̂ sont calculés ci-après :
1 2
̂ = 𝑛1×𝑠²1 𝑒𝑡 𝑠²
𝑠² ̂ = 𝑛2×𝑠²2
1 2
𝑛1 − 1 𝑛2 − 1
Programmes R
> x1=67000;x2=49000;n1=75;n2=35
> s1=12500; s2=8300
> s².chap1<-(n1*s1^2)/(n1-1)
> s².chap2<-(n2*s2^2)/(n2-1)
> x=cbind(s².chap1,s².chap2)
> rownames(x)="estimators:"
> print(x)
On obtient :
̂ = 158361486
 𝑠²1
̂ = 70916176
 𝑠² 2
̂
Effectivement 𝑠² ̂ , on déduit, dans ce cas, le calcul de la statistique
> 𝑠² F* (qui suit
1 2
sous H0 la loi de Fisher)
Programmes R
> isTRUE(s².chap1 > s².chap2)

> F1=s².chap1/s².chap2
> round(F1,3)
On obtient :
 𝐹 ∗ = 2.23308 ≈ 2.233
La probabilité de 𝛼 (5%) se lit sur la table de Fisher-Snedecor : 𝑃(𝐹(𝑛1 − 1, 𝑛2 − 1) >

𝐹𝛼 ) = 0,05. Elle s’obtient à l’intersection de la colonne 𝑛1 − 1 = 74 et de la ligne 𝑛2 − 1
= 34 avec 𝛼 = 0,05.
33 :Page
On lit comme valeur théorique 𝐹0.05 (74; 34)=1,512.
On constate bien que le Fisher calculé est supérieur à valeur lue sur la table de la loi
de Fisher-Snedecor au seuil de 5%: 𝐹 ∗ > 𝐹𝛼 => 2.233 > 1.512.
Ceci nous ramène à rejeter l’hypothèse nulle (en faveur à l’hypothèse alternative) au
seuil de risque de 5%, autrement dit, la différence des variances entre les deux
dépenses hebdomadaires pour la consommation alimentaire des familles de deux
régions (Abidjan et Yamoussoukro) est significative avec une probabilité à 95%.
En conclusion, on peut affirmer qu’il y’a plus de dispersions des dépenses

hebdomadaires pour la consommation alimentaires dans la famille d’Abidjan que celle
d’Yamoussoukro.
34 :Page
EXERCICE 8 :
1) Ici, il s’agit de procéder un test rélatif à deux proportions (test bilatéral), en vérifiant
𝐻0: 𝑝1 = 𝑝2
{
𝐻1: 𝑝1 ≠ 𝑝2
L’hypothèse nulle 𝐻0 : «Aucune différence significative concernant la pauvreté des

chefs de ménages entre le milieu urbain et le milieu rural».
Contre
L’hypothèse alternative 𝐻1 : il existe une différence significative de pauvreté des

chefs de ménages entre le milieu urbain et le milieu rural».
Connaissant les informations ci-dessous, on peut déterminer l’estimateur de 𝑃̂, afin

d’en déduire la statistique | 𝑡𝑐𝑎𝑙 |.
𝑁1 = 24; 𝑁2 = 16; 𝑛1 = 11; 𝑛2 = 10; ; 𝛼 = 5%
L’estimateur de 𝑃̂ est calculé comme suit :
𝑛1 + 𝑛2 𝑁1 × 𝑓1 + 𝑁2 × 𝑓2
𝑃̂ = =
𝑁1 + 𝑁2 𝑁1 + 𝑁2
35 :Page
La statistique de |𝑡𝑐𝑎𝑙 | est donnée par :
𝑓1 − 𝑓2
|𝑡𝑐𝑎𝑙 | = || ||
1 1
√𝑃̂ × (1 − 𝑃̂ ) × ( + )
𝑁1 𝑁2
Programmes R
> N1=24;N2=16;n1=11;n2=10
> f1=n1/N1; f2=n2/N2
> prop.test(c(n1,n2),c(N1,N2),alternative =
"two.sided",conf.level=0.95)
> prop.test(c(n1,n2),c(N1,N2),alternative =
"greater",conf.level=0.95)
> prop.test(c(n1,n2),c(N1,N2),alternative = "less",conf.level=0.95)
On obtient :
data: c(n1, n2) out of c(N1, N2)

-0.5286027 0.1952693
sample estimates:
prop 1 prop 2
0.4583333 0.6250000
La probabilité associée au test de de comparaison des proportions (test bilatéral) est

nulle H0. Nous pouvons affirmer qu’il n’existe aucune une différence significative de
pauvreté des chefs de ménages entre le milieu urbain et rural. La région de la zone
d’acceptation de l’hypothèse nulle est compris entre: [-0.5286027 0.1952693] avec
une probabilité de 95%.
36 :Page
Méthode 2 : Avec la loi normale :
Programmes R
> # Méthode de lecture sur la table
> p.chap<-(n1+n2)/(N1+N2)
> q.chap<-1-p.chap
> print(p.chap)
> t.cal<-(f1-f2)/ sqrt(p.chap*q.chap*((1/N1)+(1/N2)))
> t.cal<-round(abs(t.cal),3)
On obtient :
 𝑃̂ = 0.525
 |𝑡𝑐𝑎𝑙 | = |1.034089| ≈ 1.034
La probabilité 𝛼 = 0,05, s’obtient à l’intersection des nombres inscrits en marge sur la

table de loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0 + 0,05.

On constate bien que la valeur de tabulée tα (lue sur la table) est supérieur à la valeur
calculée |tcal | : 1.96 > 1.034
Ceci nous ramène à conserver l’hypothèse nulle au seuil de risque de 5%, autrement
dit, la différence de pauvreté des chefs de ménages entre le milieu urbain et rural
n’est pas significative avec une probabilité à 95%.
37 :Page
Méthode 3 : Avec la loi de Khi-Deux:
Le khi-Deux calculé sous le logiciel R vaut 0.5054 est inférieur à la valeur tabulé 3.841
obtenue à l’intersection du seuil de 5% sur la table de la loi de Khi Deux avec 1 degré
de liberté : (2-1)× (2-1) =1.
Dans ce cas précis, on ne rejette pas l’hypothèse nulle au seuil de risque de 5%, le
deux groupes ont la même distribution.
En conclusion, nous pouvons affirmer qu’il n’existe aucune différence significative de

pauvreté des chefs de ménages entre le milieu urbain et rural au seuil de risque de
5%.
EXERCICE 9 :
1) Ici, il s’agit de procéder un test d’indépendance de khi-deux (test bilatéral) en

vérifiant l’hypothèse suivante :
𝐻0 : 𝑙𝑒𝑠 𝑐𝑎𝑟𝑎𝑐𝑡é𝑟𝑒𝑠 𝑋 𝑒𝑡 𝑌 𝑠𝑜𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠

𝐻1 : 𝑙𝑒𝑠 𝑐𝑎𝑟𝑎𝑐𝑡é𝑟𝑒𝑠 𝑋 𝑒𝑡 𝑌 𝑠𝑜𝑛 𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠
 Soit 𝑋𝑝 : la variable Types fournisseurs, avec trois modalités, p= {1,2 et 3}

 Soit 𝑌𝑞 : la variable Qualité des pièces, avec trois modalités, q = {1,2 et 3}
38 :Page
L’hypothèse nulle 𝐻0 : «la qualité des pièces est indépendant du fournisseur».
Contre
L’hypothèse alternative 𝐻1 : la qualité des pièces dépend du fournisseur».
Connaissant les effectifs conjointes (𝑛𝑖𝑗 ) des modalités de deux variables, nous
pouvons déterminer leurs valeurs marginales lignes et colonnes (𝑛𝑖. et 𝑛.𝑗 ) afin de
calculer la statistique de Khi-deux observé (𝜒²𝑜𝑏𝑠𝑒𝑟𝑣é ), donnée par la formule ci-
dessous:
3 3 3 3
𝑛²𝑖𝑗 (𝑛𝑜𝑏𝑠 − 𝑛𝑡ℎé𝑜 )²
𝜒²𝑜𝑏𝑠𝑒𝑟𝑣é = 𝑛 (∑ ∑ − 1) = ∑ ∑
𝑛𝑖. × 𝑛.𝑗 𝑛𝑡ℎé𝑜
𝑖=1 𝑗=1 𝑖=1 𝑗=1
Programmes R
> data<-matrix(c(90,170,135,3,18,6,7,7,9), ncol=3,nrow=3,byrow=F,
dimnames = list(c("A", "B","C"),
c("Bon état", "Défaut mineur", "Défaut majeur")))
> print(data)
> library(MASS)
> chisq.test(data)
> print(sum(data))
On obtient :
 𝜒²𝑜𝑏𝑠𝑒𝑟𝑣é = 7,712
La lecture de la valeur tabulée de Khi-deux se lit par valeur conjointe du degré de

liberté {(p-1)(q-1) = (3-1) (3-1) = 4} et du seuil de 5%. On lit 𝑃(𝜒 2 4 > 9,488) = 0,05
On constate bien que la valeur de tabulée 𝜒 2 𝑡𝑎𝑏𝑢𝑙é (lue sur la table) est supérieur à la
valeur calculée 𝜒²𝑜𝑏𝑠𝑒𝑟𝑣é : 7,712 < 9,488.
39 :Page
dit, la qualité des pièces est indépendante des types de fournisseurs (A, B et C).
Méthode 2 : Avec le seuil nominal ou p-valeur
Pearson's Chi-squared test
data: data
La probabilité associé au test d’indépendance du chi2 (p-value) est 0.1027 supérieur

à tous les seuils conventionnels (1%,5% et 10%).
nulle d’indépendance entre les deux caractères.
Nous pouvons affirmer que la qualité des pièces est indépendante des types de
fournisseurs (A, B et C).
40 :Page
EXERCICE 10 :
1) a) Ici, il s’agit de procéder un test de normalité de Jarque-Bera sur la variable

« salaire ».

𝐻0 : La distribution du salaire suit une loi normale, N (m,𝜎)
Contre
𝐻1 : La distribution du salaire ne suit pas une loi normale, N (m,𝜎)
Effectivement, une loi normale a un coefficient d'asymétrie s presque nulle et une

kurtosis k proche de 3. Le test de Jarque-Bera vérifie indirectement la normalité des
variables en passant par ces deux coefficients.
Ainsi, on peut reformuler les hypothèses comme suit :
𝐻0 : 𝑆 = 0 𝐸𝑇 𝐾 = 3
𝐻1 : 𝑆 ≠ 0 𝐸𝑇 𝐾 ≠ 3
D’autant plus que la variable de Jarque-Bera suit asymptotiquement la loi de

khi², 𝜒²(2) , elle est définie par :
 n = Nombre d'observations
 k = Nombre de variables explicatives si les données proviennent des résidus
d'une régression linéaire. Sinon, k=0.
 S = Coefficient d'asymétrie de l'échantillon testé (avec moment d’ordre 3: 𝜇̂ 3 )
 K = Kurtosis de l'échantillon testé (avec moment d’ordre 4: 𝜇̂ 4 )
41 :Page
Avec :
et
Programmes R
> names(data)
> library(tseries)
> jarque.bera.test(Salaire)
On obtient :
Jarque Bera Test
data: Salaire
→ Commentaire:
Méthode 1 : Avec le p-valeur (seuil nominal)
La probabilité associée au test de normalité de Jarque-Bera est de 0.645, supérieur à

tous les seuils conventionnels (1%,5% et 10%).
Dans ce cas, on ne rejette pas à tous les seuils de significativités l’hypothèse nulle de
normalité de la variable salaire.
Nous pouvons affirmer que la distribution de la variable salaire est bien fidèle à celle
d’une loi normale.
Ses coefficients d’aplatissement et d’asymétrique vérifient bien l’hypothèse de la

normalité avec S=0.307 et K=2.613.
42 :Page
Méthode 2 : Avec le test d’adéquation du Chi2 (cas loi normale)
Comme la variable de Jarque-Bera (JB) suit asymptotiquement une loi de Chi2 ( 𝜒²(2) ),
de degré de liberté 2 (dégrée of fredom df).
On constate bien que la valeur tabulée de Khi² (𝑃( 𝜒²(2) > 7,378 ) =0,05) est inférieur
à la valeur calculée 0.8771 < 7,378.
dit, la distribution de la variable salaire est bien fidèle à celle d’une loi normale avec
une probabilité à 95%.
Méthode 3 : Par graphique
Figure 2 : Appréciation de normalité du salaire
→ Commentaire:
La répartition de la variable Salaire représentée sous forme d’un histogramme et d’une

boite de moustache illustre quasi semblablement à celle d’une loi normale centrée et
réduite. Ces illustrations affirment la normalité de la distribution du salaire.
43 :Page
1) b) Cette fois-ci, on veut tester la log-normalité de la variable salaire.
En réalité, on dit qu’une variable suit une loi de log-normale si son logarithme suit
la loi normale, autrement – dit, il s’agit de tester la normalité du logarithme (salaire)
𝐻0 : la distribution du log(𝑠𝑎𝑙𝑎𝑖𝑟𝑒) 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑛𝑜𝑟𝑚𝑎𝑙𝑒

𝐻1 : la distribution du log(𝑠𝑎𝑙𝑎𝑖𝑟𝑒) 𝑛𝑒 𝑠𝑢𝑖𝑡 𝑝𝑎𝑠 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑛𝑜𝑟𝑚𝑎𝑙𝑒
Ou encore, on pourrait vouloir tester aussi l’hypothèse ci-dessous :

𝐻0 : La distribution du salaire ne suit pas une loi log-normale, log (N (m,𝜎))
Contre
𝐻1 : La distribution du salaire ne suit pas une loi log-normale, log (N (m,𝜎))
Programmes R
> library(tseries)
> jarque.bera.test(log(Salaire)))
On obtient :
Jarque Bera Test
data: log(Salaire)
→ Commentaire:
La probabilité associée au test de normalité de Jarque-Bera est de 0.7777, supérieur

à tous les seuils conventionnels (1%,5% et 10%).
Dans ce cas, on ne rejette pas à tous les seuils de significativités l’hypothèse nulle de
normalité de la variable de logarithme du salaire.
Nous pouvons affirmer que la distribution de la variable logarithme du salaire est bien
fidèle à celle d’une loi normale.
44 :Page
Ses coefficients d’aplatissement et d’asymétrique vérifient bien l’hypothèse de la
normalité avec S=0.107 et K=2.495.
2) a) Ici, il s’agit d’estimer par intervalle de confiance le salaire moyen au sein d’une
entreprise Dakaroise.
𝑥̅ −𝑚
Vu que l’écart type 𝜎(𝑥) de la population n’est pas connu, la quantité √𝑛 − 1
𝑠
suit une loi de Student à (n-1) degrés de liberté : T(n-1)
Néanmoins, la taille de l’échantillon n est supérieure à 30, le théorème central limité

nous permet d’approximer la variable de Student à celle de la loi normale centrée et
réduite.
Ainsi, la probabilité 𝛼 = 0,05, s’obtient par addition des nombres inscrits en marge sur
la table de loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0 +
0,01.
Les limites de l’intervalle de confiance à 95% de la moyenne sont données par la

probabilité :
𝑠 𝑠
𝑃𝑚 (𝑋̅ − 𝑡𝛼 < 𝑚 < 𝑋̅ + 𝑡𝛼 ) = 0,99
√𝑛 − 1 √𝑛 − 1
avec
𝑠 𝑠
𝑚1 = 𝑋̅ − 𝑡𝛼 et 𝑚2 = 𝑋̅ + 𝑡𝛼
√𝑛−1 √𝑛−1
Connaissant les informations contenues dans le tableau de statistique élémentaire, on

peut déterminer l’estimation du salaire moyen par intervalle de confiance.
Tableau 2 : Statistique descriptives de la variable salaire :
mean var sd sum valid.n min max media

256.2 538.4 23.2 1.025e+04 40 214 312 256
45 :Page
En exécutant les programmes suivants sous le logiciel R.2.15.3
Programmes R
> n=40 ;t=1.96

> lower=mean(Salaire)-((t*sd(Salaire))/ (sqrt(n-1)))
> upper=mean(Salaire)+((t*sd(Salaire))/ (sqrt(n-1)))
> CI<-cbind(lower,upper)
> rownames(CI)="Confint.interval"
> print(CI)
> t.test(Salaire, conf.level = 0.95)
On obtient :
Méthode 1 : Avec la formule théorique

𝑠
𝑚1 = 𝑋̅ − 𝑡𝛼 = 249.4955 ≈ 249.50
√𝑛−1
𝑠
𝑚2 = 𝑋̅ + 𝑡𝛼 = 263.9045 ≈ 263.905
√𝑛−1
Le salaire moyen est compris avec une probabilité à 95% entre :
249.50 ≤ m ≤ 263.905
Méthode 2 : Avec la zone d’acceptation de test simple sur la moyenne
One Sample t-test
data: Salaire
t = 69.8428, df = 39, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
248.8288 263.6712
sample estimates:
mean of x
256.25
⟶ Commentaire :
Cette commande sous R-Statistic traite à la fois, l’estimation par intervalle de confiance
et le test rélatif à une moyenne (bilatéral).
Sur les 40 salariés sondés au sein d’une entreprise Dakaroise, le salaire moyen est
compris entre 248.829 et 263.671, avec une probabilité à 95%.
46 :Page
2) b) La statistique da marge d’erreur (noté me) dans l’estimation du salaire moyen
est déterminée par :
𝑠
𝑚𝑒 = 𝑡𝛼
√𝑛 − 1
Programmes R
> marg.error<-t*sd(Salaire)/ sqrt(n-1)
On obtient :
Avec un niveau de confiance à 95%, on commet une erreur, en valeur absolue de 7.23,
on estimant le salaire moyen des 40 employés au sein de l’entreprise Dakaroise.
3) Ici, il s’agit bien de procéder un test rélatif à une moyenne (test bilatéral), en
𝐻0 : 𝑚 = 220
𝐻1: 𝑚 ≠ 220
L’hypothèse nulle 𝐻0 : « Le salaire moyen est égale 220».
Contre
L’hypothèse alternative 𝐻1 : Le salaire moyen est diffèrent de 220».
Vu que l’écart type de la population 𝜎 soit inconnu, on va l’estimer par son

estimateur ̂
𝑆.
47 :Page
Programmes R
> t.test (Salaire,alternative=c(« two.sided», « less»,

« greater»)))
On obtient :
One Sample t-test
data: Salaire
t = 9.8802, df = 39, p-value = 3.596e-12
alternative hypothesis: true mean is not equal to 220
248.8288 263.6712
sample estimates:
mean of x
256.25
→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:
La probabilité associée au test de la moyenne (bilatéral) est de 3.596e-12, inférieur à

Dans ce cas, on rejette à tous les seuils de significativités l’hypothèse nulle H0 en

faveur de l’hypothèse alternative.
Nous pouvons affirmer que le salaire moyen est significativement diffèrent de 220.
La région de la zone d’acceptation de l’hypothèse nulle H0 est compris entre :

[248.8288 ; 263.6712] avec une probabilité à 95%.
Méthode 2 :
𝑥̅ −𝑚
La statistique de Student 𝑠
√𝑛 − 1 suit approximativement (converge) une loi
normale centré et réduite (car n>30).
La valeur lue sur la table vaut au seuil de 5% vaut 1.96, on comparant à la statistique
calculée |tcal| 9.8802, elle est inférieure à la valeur observée: 1.96 < 9.8802
48 :Page
nous pouvons affirmer que le salaire moyen est significativement diffèrent de 220 avec
une probabilité à 95%.
𝐻0: 𝑚 ≤ 220
{
𝐻1: 𝑚 > 220
One Sample t-test
data: Salaire
t = 9.8802, df = 39, p-value = 1.798e-12
alternative hypothesis: true mean is greater than 220
250.0683 Inf
sample estimates:
mean of x
256.25
La probabilité associée au test de la moyenne (unilatéralement à droite) est de 1.798e-

12, inférieur à tous les seuils conventionnels (1%,5% et 10%).
Dans ce cas, on rejette alors à tous les seuils de significativités l’hypothèse nulle en
faveur de l’hypothèse alternative.
Nous pouvons affirmer que le salaire moyen est significativement supérieur à 220.
La région de la zone d’acceptation de l’hypothèse nulle se situe à une seule région :

[250.0683 ; +∞ [ avec une probabilité à 95%.
49 :Page
On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à gauche:
𝐻0 : 𝑚 ≥ 220
{
𝐻1 : 𝑚 < 220
One Sample t-test
data: Salaire
t = 9.8802, df = 39, p-value = 1
alternative hypothesis: true mean is less than 220
-Inf 262.4317
sample estimates:
mean of x
256.25
La probabilité associée au test de la moyenne (unilatéralement à gauche) est de 1,

nulle.
Nous pouvons affirmer que le salaire moyen est significativement égal au moins à
220.

]- ∞ ; 262.4317].
Conclusion :
Avec le test bilatéral et les tests unilatéraux (à gauche et à droite), on parvient à

conclure que le salaire moyen est significativement différent de 220 avec un niveau de
confiance à 95%.
50 :Page
4) Cette fois-ci, on veut procéder à un test rélatif à une variance (bilatéral), en
𝐻0: σ² = 530
{
𝐻1: 𝜎² ≠ 530
L’hypothèse nulle 𝐻0 : « La variance du salaire est égale 530».
Contre
L’hypothèse alternative 𝐻1 : La variance du salaire est diffèrent de 530».
La variance de la population 𝜎² est inconnue, on va estimer par son

estimateur ̅ = 1 ∑40 𝑥 ² − 𝑥²
𝑆² ̅.
39 𝑖=1 𝑖
Programmes de R
> sigma<-530
> sigma.test(Salaire,sigmasq=sigma,alternative=
c(«two.sided », « less », « greater »)
On obtient :
One sample Chi-squared test for variance
data: Salaire
alternative hypothesis: true variance is not equal to 530
361.3124 887.7658
sample estimates:
var of Salaire
538.4487
51 :Page
La probabilité associée au test de la variance (bilatéral) est de 0.8843, supérieur à

Dans ce cas, on ne rejette pas à tous les seuils de significativités l’hypothèse nulle H0.
Nous pouvons affirmer que la variance du salaire est significativement égale à 530.
La région de la zone d’acceptation de l’hypothèse nulle H0 est compris entre :

[361.3124 ; 887.7658].
Méthode 2 : Avec la table de Khi-deux
La statistique de Chi2 calculé (X-squared) est = 39.6217, avec (n-1) = 39 degrés de
liberté. Par conséquent, la statistique de Chi2 √2 × 𝜒²(40) − √2 × 𝑛 − 1 suit
approximativement une loi normale centré et réduite (selon le théorème centrale

limite).
La valeur lue sur la table au seuil de 5% vaut 1.96, on constate qu’elle est inférieur à
la statistique calculée : 1.96 < 39.6217
nous pouvons affirmer que la variance du salaire est égale à 530.avec une probabilité
à 95%.
52 :Page
𝐻0 : 𝜎² ≤ 530
{
𝐻1 : 𝜎2 > 530
data: Salaire
alternative hypothesis: true variance is greater than 530
384.802 Inf
sample estimates:
var of Salaire
538.4487
La probabilité associée au test de la variance (unilatéralement à droite) est de 0.4422,

Dans ce cas, on ne rejette pas à tous les seuils de significativités l’hypothèse nulle.
Nous pouvons affirmer que la variance du salaire est significativement égale au plus
à 530.

[384.802; +∞ [ avec une probabilité à 95%.
On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à gauche
𝐻0 : 𝜎² ≥ 530
{
𝐻1 : 𝜎2 < 530
53 :Page
data: Salaire
alternative hypothesis: true variance is less than 530
0.0000 817.2478
sample estimates:
var of Salaire
538.4487
La probabilité associée au test de la variance (unilatéralement à gauche) est de

0.5578, supérieur à tous les seuils conventionnels (1%,5% et 10%).
nulle.
Nous pouvons affirmer que la variance du salaire est significativement égale au moins
à 530.
La région de la zone d’acceptation de l’hypothèse nulle est compris entre : [0.0000 ;

817.2478] avec une probabilité à 95%.
Conclusion :
Avec le test bilatéral et les tests unilatéraux, on parvient à conclure que la variance
du salaire est significativement égale à 530 avec un niveau de confiance à 95%.
54 :Page
5) Ici, il s’agit de mener un test non paramétrique rélatif à une médiane (test bilatéral)
en vérifiant l’hypothèse suivante :
𝐻0 : Me = 240
𝐻1: 𝑀𝑒 ≠ 240
L’hypothèse nulle 𝐻0 : « Le salaire médian est égale 240».
Contre
L’hypothèse alternative 𝐻1 Le salaire médian est diffèrent de 240».
Programmes R
> SIGN.test(Salaire, md = 240)
> wilcox.test(Salaire, md=240)
On obtient :
data: Salaire
s = 28, p-value = 0.002563
alternative hypothesis: true median is not equal to 240
246.0919 262.6352
sample estimates:
median of x
256
Lower Achieved CI 0.9193 249.0000 259.0000
Interpolated CI 0.9500 246.0919 262.6352
Upper Achieved CI 0.9615 245.0000 264.0000
55 :Page
Méthode 1 : test de signe (rank)
La probabilité critique 0.002563 est inférieur à α = 0,05. Il n'est pas probable que nous
observions si peu de signes positifs (cas ou l'hypothèse nulle n’est pas rejetée). Par
conséquent, nous rejetons l'hypothèse nulle en faveur de l'hypothèse alternative. Il
existe des preuves suffisantes, au seuil de 5%, pour conclure que le salaire médian
est significativement diffèrent de 240.
Par ailleurs, les nombres obtenues des signes positifs (noté N+ ou s) est plus petite
par rapport au nombre de signe positifs observés (n+), ci qui donne une probabilité
critique: 𝑃(𝑁+≤ 𝑛 +)=0.002563, où (N+) suit une loi binomiale 𝐵(𝑛,𝑝) .
L’estimateur de la médiane vaut 256 avec une probabilité à 95%, le salaire médian est
compris entre [246.092 ; 262.635].
Méthode 2 : test de wilcoxon (rank)
Wilcoxon signed rank test with continuity correction
data: Salaire
V = 599, p-value = 0.000193
alternative hypothesis: true location is not equal to 240
La probabilité associée au test de Wilcoxon 0.000193 est inférieur au seuil de

conventionnels (1%,5% et 10%).
Dans ce cas, nous rejetons l’hypothèse nulle 𝐻0 en faveur de l’hypothèse
alternative. Nous pouvons affirmer que le salaire médian est significativement diffèrent
de 240.
Ainsi, la valeur V = 599 correspond à la somme des rangs attribués aux différences
avec un signe positif.
On peut calculer manuellement la somme des rangs attribués aux différences avec le
signe positif et la somme des rangs attribués aux différences avec le signe négatif,
56 :Page
pour comparer cet intervalle avec l'intervalle tabulé sur les tableaux de Wilcoxon 1 pour
les échantillons appariés et confirmer notre règle de décision :
L'intervalle calculé (104, 599) est comparé à l’intervalle tabulé sur les tables de
Wilcoxon (si l’intervalle calculé n’est pas contenu dans le tableau, on rejette
l'hypothèse nulle H0. Dans notre cas, on rejette l’hypothèse nulle H0 au seuil de 5%.
On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à droite
𝐻0: 𝑀𝑒 ≤ 240
{
𝐻1: 𝑀𝑒 > 240
data: Salaire
V = 599, p-value = 9.652e-05
alternative hypothesis: true location is greater than 240 than 240
La probabilité associée au test de la Wilcoxon (unilatéralement à droite) est de 9.652e-

05, inférieur à tous les seuils conventionnels (1%,5% et 10%).
Dans ce cas, on rejette alors à tous les seuils de significativités l’hypothèse nulle.
Nous pouvons affirmer que le médian du salaire n’est pas significativement égal à
240.
On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à gauche
𝐻0 : 𝑀𝑒 ≥ 240
{
𝐻1 : 𝑀𝑒 < 240
data: Salaire
V = 599, p-value = 0.9999
alternative hypothesis: true location is less than 240 than 240
57 :Page
La probabilité associée au test de Wilcoxon (unilatéralement à gauche) est de 0.9999,

nulle.
Nous pouvons affirmer que le médian du salaire est au moins significativement égal
au plus à 240.
Conclusion :
Avec le test bilatéral et les tests unilatéraux de Wilcoxon et le test de signe, on parvient
à conclure que le salaire médian est significativement différent de 240 avec un niveau
de confiance à 95%.
1 : Un autre test concurrence celui de Wilcoxon et c’est celui des signes. L’avantage de celui de Wilcoxon est de
prendre en considération les différences d'écarts entre observations
58 :Page
6) Ici, il s’agit de rémodéliser le tableau en genre avant de procéder un test rélatif à
deux moyennes, en vérifiant l’hypothèse suivante:
𝐻0 : 𝑚 1 = 𝑚 2
𝐻1 : 𝑚 1 > 𝑚 2
L’hypothèse nulle 𝐻0 : « il n’existe aucune différence significative de salaire moyen

entre les hommes et les femmes».
Contre
L’hypothèse alternative 𝐻1 : Le salaire moyen pour les hommes est supérieur à ceux
des femmes».
Programmes R
> t.test(Salaire~Sexe,alternative="greater",pair=F)
On obtient :
Welch Two Sample t-test
data: Salaire by Sexe

t = -3.2836, df = 36.327, p-value = 0.9989
alternative hypothesis: true difference in means is greater than 0
-32.8042 Inf
sample estimates:
mean in group 0 mean in group 1
244.3333 266.0000
59 :Page
La probabilité critique associée à la statistique de Student 0.9989 est supérieur aux

seuils conventionnels (1%,5% et 10%). Dans ce cas, Nous ne rejetons pas l'hypothèse
nulle 𝐻0 .
Ainsi, nous pouvons affirmer qu’il ’n’existe pas une différence significative des salaires
moyens entre les hommes et les femmes.
La région de la zone d’acceptation de l’hypothèse nulle H0 se situe à une seule

région : [-32.8042 ; + +∞ [.
Méthode 2 :
D’autre part ailleurs, La statistique de Student lue sur la table au seuil de 5% avec un
degré de liberté (36 > 30), est approchée à une loi normale centré et réduite. Au seuil
de 5%, on lit une valeur tabulé de 1,96 (sur la table de loi de Gauss).
On comparant la statistique calculée de Student est -3.2836 à 1.96, on constate que

la valeur lue est supérieur à la valeur calculé, on retient, avec cette méthode aussi
l’hypothèse H0. L’écart de salaire moyen pour les femmes et les hommes n’est pas
significative (semble négligeable) au seuil de 5%. On peut facultativement vérifier avec
le test d’égalité des variances (Voir Réponse 7).
Figure 3. Distribution des salaires pour appréciation de la normalité
60 :Page
Graphiquement, la distribution de salaire pour les femmes est fidèle à une distribution
normale, tandis que pour les hommes, la distribution n’est pas sûre de suivre la loi
normale, vérifions, avec un test de normalité la distribution de salaire pour les
hommes.
Test de Shapiro -Wilk
Très populaire, le test de Shapiro-Wilk est basé sur la statistique W. En comparaison

avec autres tests, il est particulièrement puissant pour les petits effectifs (n ≤ 50) et .
La statistique du test s'écrit :
Shapiro-Wilk normality test
data: data$Salaire[data$Sexe == "M"]

W = 0.9488, p-value = 0.2983
Le seuil nominal du test de Shapiro-Wilk 0.2983 est supérieur aux seuls

conventionnels (1%,5%, et 10%), le test affirme que la distribution de salaire pour les
hommes est suffisamment proche de la normalité. La statistique W vaut 0.9488 (il est
interprété comme le carré du coefficient de corrélation entre la série des quantiles
générés à partir de la loi normale et les quantiles empiriques obtenus à partir de la
donnée), comme w est plus grand que celui lue sur la Table des valeurs limites de Wilk
0.940. En conséquence, l'hypothèse de normalité est compatible avec la distribution
du salaire des hommes.
On a constaté qu’il n’y avait pas de différence significative entre les salaires moyens
entres les femmes et les hommes, examinons cette fois-ci, avec un test plus robuste.
61 :Page
Test de Wilcoxon
Vue que nos variables sont distribuées normalement, utilisons alors, un test robuste,
celui Wilcoxon/Mann-Whitney pour EXAMINER la différence de salaire entre les
Hommes et les Femmes.
Wilcoxon rank sum test with continuity correction
data: data$Salaire by data$Sexe

W = 86.5, p-value = 0.002521
alternative hypothesis: true location shift is not equal to 0
Ce test a l’avantage d’être non-paramétrique, c’est à dire de ne faire aucune hypothèse

sur la distribution des échantillons comparés. Par contre il ne compare pas des
différences de moyennes mais des différences de médianes en terme de rang.
Avec une probabilité critique de 0.002521 inférieur à tous les seuils conventionnels de
(1%,5% et 10%), il y’a, une différence significative du salaire médian entre les femmes
et les hommes.
7) Ici, on veut procéder un test rélatif à deux variances entre (bilatéral), en vérifiant
𝐻0: 𝜎²1 = 𝜎²2

{
𝐻1: 𝜎²1 ≠ 𝜎²2
L’hypothèse nulle 𝐻0 : « Aucune différence significative des variances des salaires

entre les hommes et les femmes».
Contre
L’hypothèse alternative 𝐻1 : « il existe une différence significative des variances des

salaire entre les hommes et les femmes».
62 :Page
Or les variances de deux groupes ne sont pas connues, on va les estimés par leurs
estimateurs respectifs.

Programme
SR
> var.test (Salaire ~Sexe,alternative= «two.sided »)
On obtient :
F test to compare two variances

F = 1.0166, num df = 17, denom df = 21, p-value = 0.9589
alternative hypothesis: true ratio of variances is not equal to 1
0.4093791 2.6431504
sample estimates:
ratio of variances
1.016604
La probabilité critique associée à la statistique de Fisher 0.9589 est supérieur aux

seuils conventionnels (1%,5% et 10%). Dans ce cas, Nous ne rejetons pas l’hypothèse
nulle H0.
Nous pouvons affirmer qu’il n’existe pas une différence significative des variances des
salaires entre les hommes et les femmes.
La région de la zone d’acceptation de l’hypothèse nulle est compris entre :

[0.4093791; 2.6431504] avec une probabilité à 95%.
D’autant plus que la statistique de Fisher lue sur la table au seuil de 5% avec un degré
de liberté 𝐹𝑛,𝑚 (17 et 21) est 2,190 avec P (𝐹17,21 > 2,190 )=0,05
Ainsi, on comparant avec la statistique calculée de Fisher 1.0166, il est bien inférieur
à la valeur théorique (ou tabulé), avec cette méthode aussi l’hypothèse H0 n’est pas
rejetée.
63 :Page
𝐻0: 𝜎²1 = 𝜎²2

{
𝐻1: 𝜎²1 > 𝜎²2
On obtient :

alternative hypothesis: true ratio of variances is greater than 1
0.4752992 Inf
sample estimates:
ratio of variances
1.016604
La probabilité critique associée à la statistique de Fisher 0.479 est supérieur aux

seuils conventionnels. Dans ce cas, Nous ne rejetons pas l'hypothèse nulle 𝐻0 .
Par ailleurs, nous pouvons affirmer qu’il n’existe pas une différence significative des
variances des salaires entre les hommes et les femmes.
La région de la zone d’acceptation de l’hypothèse nulle H0 se situe

entre: [0.4752992 ; +∞ [ avec une probabilité à 95%.
𝐻0: 𝜎²1 = 𝜎²2

{
𝐻1: 𝜎²1 < 𝜎²2
64 :Page
On obtient :

alternative hypothesis: true ratio of variances is less than 1
0.000000 2.255742
sample estimates:
ratio of variances
1.016604
La probabilité critique p-value associée à la statistique de Fisher 0.5206 est supérieur

aux seuils conventionnels. Dans ce cas, Nous ne rejetons pas l'hypothèse nulle 𝐻0 .
Par ailleurs, nous pouvons affirmer aux niveaux conventionnels, qu’il n’existe pas une
différence significative des variances des salaires entre les hommes et les femmes.
La région de la zone d’acceptation de l’hypothèse nulle H0 se situe

entre:[0.000000 2.255742 ] avec une probabilité à 95%.
8) a) Ici, il s’agit de procéder un test d’indépendance de khi-deux entre deux

caractères, en vérifiant l’hypothèse suivante :
𝐻0: 𝐿𝑒𝑠 𝑐𝑎𝑟𝑎𝑐𝑡é𝑟𝑒𝑠 𝑥 𝑒𝑡 𝑦 𝑠𝑜𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠

𝐻1: 𝐿𝑒𝑠 𝑐𝑎𝑟𝑎𝑐𝑡é𝑟𝑒𝑠 𝑥 𝑒𝑡 𝑦 𝑠𝑜𝑛𝑡 𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠
En termes limpides, on suppose :
L’hypothèse nulle 𝐻0 : «le salaire ne dépend pas du genre de l’individu».
Contre
L’hypothèse alternative 𝐻1 : « le salaire dépend du genre de l’individu».
65 :Page
Vu que le salaire est bien une variable quantitative, pour étudier le degré de liaison
d’indépendance, il faudrait regrouper cette variable en différentes classes de salaires.
En effet, il existe plusieurs algorithmes de calcul du nombre de classes notamment la

plus célèbre, celle de formule de Sturges ; formule de Scott et la formule de Freedman-
Diaconis…etc.
En revanche, la répartition des valeurs en classe à l’intérieur des classes génère une
perte d’information sur les données initiales.
Théoriquement, on détermine l’amplitude de chaque future classe (ai):

𝐸
𝑎𝑖 = 𝑆 , avec E comme étendue et S, Sturges
i- L’étendue (E) de la distribution du salaire est donnée :
La différence, en valeur absolus entre la plus grande valeur (Max) et la plus petite
valeur (Min) :
E= | min (salaire)-Max (salaire) | = 98
ii- La formule de Sturges est donnée par :
Herbert Sturges (1926) qui, pour n points de données répartis avec une distribution
approximativement normale, suggère un nombre de classes K obtenu avec la formule
suivante :
10
𝑠 = 1 + 𝑙𝑜𝑔2 (𝑛) ≈ 1 + × 𝑙𝑜𝑔10 (𝑛)
3
L'alternative à la règle précédente est la règle dite de Rule :

3
𝑅 = 2 × √𝑛
Ou encore celui de Yule :
4
𝑌 = 2.5 × √𝑛
66 :Page
La taille de classe est basé sur l’effectif de l’échantillon (n : nombre d’observations)
ln(40)
𝑆 = 1 + 3,322 × log10 (40), 𝑎𝑣𝑒𝑐 log10 (40) =
ln(10)
𝑆 = 6.924103283 ≈ 7 classes
98
On déduit l’amplitude de chaque classe 𝑎𝑖 = = 14
7
On trie la variable Salaire par ordre croissant et regroupe par 7 classes (ou 7
modalités) chacune d’amplitude 14.
Programmes R
> E=max(Salaire)-min(Salaire)
> x<-data$Salaire
> nclass.Sturges(x)
> salair.class[which(salair.class<=228)] <-"[214;228["
> salair.class[which(salair.class>= 229 & salair.class<=242)] <-
"[228;242["
"[242;256["
"[256;270["
"[270;284["
> salair.class[which(salair.class>= 285 & salair.class<=312)]<-
"[284;312["
> DatA<-cbind(data,salair.class)
> table(salair.class); sum(table(salair.class))
On obtient une variable catégorielle salaire regroupé en 7 classes (ou modalités) selon
la formule de Sturges.
Généralement, il n’est pas souhaitable de construire des classes à effectif nul ou trop
faible. Dans la construction des classes premières de 7 classes, elle peut être modifiée
en 6 classes.
Dans ce cas, on peut mésurer la dépendance ou l’indépendance entre la variable sexe

et salaire. (Pour le Tableau de contingence Voir Annexe)
67 :Page
S’agissant d’un test d’indépendance du χ² (Khi2) entre les variables catégorielles :
 Soit 𝑋𝑝 : les salaires, avec sept modalités, p= {1,2..,6}

 Soit 𝑌𝑞 : le sexe, avec deux modalités, q = {1 et 2}
Dans l’analyse qualitative-qualitative, il existe une variété des indicateurs des mesures
d’associations notamment, le Chi2 ; le V de cramer ; Le coefficient de contingence
(CC) ; le coefficient phi (de Pearson) et le pourcentage de l’écart Maximum (PEM) :
𝑛𝑖𝑗² 1 (𝑛𝑜𝑏𝑠 −𝑛𝑡ℎé𝑜𝑞)²

 Coefficient de Chi2 : 𝝌𝟐 = 𝑛(∑ ∑ − 1) = ∑ ∑
𝑛𝑖. ×𝑛.𝑗 𝑛 𝑛𝑡ℎé𝑜𝑞
𝝌² 𝝌²
 V de Cramer : 𝑽 = √𝝌² = √𝒏×[𝒎𝒊𝒏(𝒑,𝒒)−𝟏]
𝒎𝒂𝒙
𝝌²
 Coefficient de contingence (CC) : 𝑪𝑪 = √𝝌𝟐 +𝒏
𝝌²
 Phi de Pearson : 𝝋² = √ 𝒏
Nous allons mésurer la liaison entre salaire et sexe en visitant ces différents
coefficients de contingence ou d’associations :
Programmes R
> chisq.test( cros.tab2)

> V <- cramer.v(cros.tab2)
> X² = 11.4125;n=40
> cc<-sqrt((X²)/( X²+n))
> phi<-sqrt(X²/n)
> cbind(X²,V,cc,phi)
On obtient :
data: cros.tab2 X-squared = 11.4125, df = 5, p-value = 0.04379

X² V cc phi
11.4125 0.5341474 0.4711466 0.5341465
68 :Page
La probabilité critique associée au test de chi2 de Pearson est 0.04379 inférieure au

seuil de risque 0.05, nous rejetons l'hypothèse nulle d’indépendance entre les
variables en faveur à l’hypothèse de dépendance entre les caractères.
Nous pouvons affirmer aux seuils de 1% que le salaire dépend du genre.
En ce sens, on dit alors que la distribution de probabilité de la variable salaire est

sous influence du genre.
Méthode 2 :
Ainsi, le Chi2 calculé est 11.4125, avec un degré de liberté 5, on comparant à la valeur
tabulé sur la table de la loi de Chi2 (P(𝜒²(6) > 𝑈) = 0,05) avec 𝑈 = 11.070.
Le Chi2 calculé est supérieur à Chi2 lue (théorique), au seuil de risque de 5%, on
rejette l’hypothèse nulle H0 d’indépendance en faveur de l’hypothèse alternative.
En effet, le coefficient de cramer V (0.5) ni proche 0 et ni proche de 1. le phi de Pearson

(0.5341465) est aussi égal à V de cramer (car le sexe à deux modalités).
De même, le coefficient de contingence (0.4764884) est aussi inférieur à 1.
Conclusion :
Avec le test d’indépendance du khi-deux, au seuil de 1% ; le coefficient de cramer ; le

phi de Pearson et le coefficient de contingence, on peut affirmer générale, le salaire et
le genre sont dépendant du genre.
En revanche, avec le test de Khi-deux au seuil de 5%, cette dépendance est rejeté
avec un seuil nominal très serré 0.0437 contre 0.05.
69 :Page
b) Cette fois-ci, il s’agit de tester l’hypothèse d’indépendance entre le niveau de
responsabilité et le salaire :
𝐻0: 𝐼𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑎𝑛𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑋 𝑒𝑡 𝑌

𝐻1: 𝐷𝑒𝑝𝑒𝑛𝑑𝑎𝑛𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑋 𝑒𝑡 𝑌
L’hypothèse nulle 𝐻0 : «le salaire ne dépend pas du niveau de responsabilité».
Contre
L’hypothèse alternative 𝐻1 : « le salaire dépend du niveau de responsabilité».
S’agissant d’un test d’indépendances du χ² (bilatéral) entre deux variables

catégorielles :
 Soit 𝑋𝑝 : les salaires, avec sept modalités, p= {1,2..,6}

 Soit 𝑌𝑞 : le sexe, avec deux modalités, q = {1,2,…,5}
(Voir le tableau de contingence en Annexe)
Programmes R
> chisq.test( cros.tab3)
> cramer.v(cros.tab3)
> V <- cramer.v(cros.tab2)
> X² = 35.967;n=40
> cc<-sqrt((X²)/( X²+n))
> phi<-sqrt(X²/n)
> cbind(X²,V,cc,phi)
On obtient :
data: cros.tab3
X² V cc phi
35.967 0.4741245 0.6880811 0.9482484
70 :Page
La probabilité associée au test de chi2 de Pearson (0.01552) est inferieur

significativement au seuil de risque de 5%. Dans ce cas, nous rejetons l'hypothèse
nulle d’indépendance entre les variables en faveur de l’hypothèse alternative.
Nous pouvons affirmer aux seuils 1% que le salaire dépend du niveau de

responsabilité.
On dit alors que la distribution de probabilité de la variable salaire est influencée

significativement par le niveau de responsabilité au sein de l’entreprise.
Méthode 2 :
En effet, le Chi2 calculé est 35.967, avec 20 degré de libertés, il est comparé à la
valeur tabulé 31.410 sur la table de loi de Chi2 (P(𝜒²(24) > 𝑈) = 0,05) est 𝑈 = 31.410.
Le Chi2 calculé est supérieur à Chi2 théorique, au seuil de risque de 5%, on rejette
l’hypothèse nulle H0 d’indépendance entre salaire et niveau de responsabilité.
En effet, le coefficient de cramer V (0.474), le phi de Pearson (0.948248) est proche

de 1 (liaison significative). De même, le coefficient de contingence (0.69) proche de 1.
Conclusion :
Avec le test d’indépendance du khi-deux, au seuil de 1% ; le coefficient de cramer ; le

phi de Pearson et le coefficient de contingence, on peut affirmer générale, le salaire
dépend de la responsabilité au sein de l’entreprise.
En revanche, avec le test de Khi-deux au seuil de 5%, cette dépendance est rejetée.
71 :Page
Mesures d’intensités de liaisons par graphique :

Figure 4 : graphique d’intensité de liaison entre sexe et salaire
La rémunération compris entre [214-228[ (faible) sont accordés essentiellement aux

femmes.
D’autre part, la rémunération entre [256-270[ (assez élevée) sont principalement

octroyés aux hommes. Enfin, la rémunération la plus élevée [284,312[ montre une
prédominance pour les hommes au détriment des femmes salariés de l’entreprise.
On conclusion, cette analyse par graphique prouve également, l’influence du sexe

des employés sur le salaire .
72 :Page
Figure 5 : graphique d’intensité de liaison entre Niveau et salaire
La rémunération compris entre [214-228[ ; [248,242[ ; [242,256[ sont alloués

principalement aux niveaux de responsabilité 1 et 2 au sein de l’entreprise.
D’autre part, la rémunération entre [270-284 [ ; sont principalement attribués aux

niveaux de responsabilités 3 et 4. Enfin, la rémunération la plus élevée [298,312[ est
accordée au niveau 5 de responsabilité au sein de l’entreprise.
On conclusion, cette analyse par graphique prouve aussi, l’influence de niveaux de

responsabilités au sein de l’entreprise sur le salaire.
73 :Page
Analyse Approfondie (facultative)

Etudes de liens bivariées : Quantitative et Qualitative : (mixtes)
En effet, on peut mener parallèlement une étude entre une variable quantitative et une
variable qualitative (dites variables mixtes) : ici entre salaire (quantitative) avec sexe,
puis avec niveau: il s’agit le test d’ANOVA et le Rapport de corrélation.
1. Test d’ANOVA
L'analyse de la variance (ANOVA) permet d'étudier le comportement d'une variable
quantitative à expliquer en fonction d'une ou de plusieurs variables nominales
catégorielles.
On utilisera une analyse de la variance multiple (MANOVA), lorsque l'on souhaite
étudier le comportement de plusieurs variables à expliquer en même temps.
On utilisera alors une analyse de la covariance (ANCOVA), si un modèle contient des
variables explicatives catégorielles et continues et que l'on souhaite étudier les lois
liant les variables explicatives continues avec la variable à expliquer en fonction de
chaque modalité des variables catégorielles.
Test d’ANOVA Entre salaire et sexe :
Df Sum Sq Mean Sq F value Pr(>F)

Sexe 1 4647 4647 10.8 0.00219 **
Residuals 38 16352 430
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
La valeur Fisher est 10.8 avec une probabilité critique 0.00219, au seuil de 1%, on
rejette l’hypothèse nulle, alors il existe au moins une distribution dont la moyenne
s'écarte des autres moyennes. La variation du salaire de cette entreprise fluctue
relativement avec le sexe.
74 :Page
Test d’ANOVA Entre salaire et Niveau :
Df Sum Sq Mean Sq F value Pr(>F)

Niveau 1 8389 8389 25.28 1.22e-05 ***
Residuals 38 12610 332
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
La valeur Fisher est 25.28 avec une probabilité critique 1.22e-05, au seuil de 1%, on
rejette l’hypothèse nulle, alors il existe au moins une distribution dont la moyenne
s'écarte des autres moyennes. La variation du salaire de cette entreprise fluctue
relativement avec le niveau.
2. Rapport de corrélation
Le rapport de corrélation est un indicateur statistique qui mesure l’intensité de la liaison

entre une variable quantitative et une variable qualitative (salaire, sexe et salaire,
Niveau) : Variabilité totale = variabilité inter-classe + variabilité intra-classe
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡é 𝑖𝑛𝑡𝑒𝑟
𝜂2 (𝑆𝑎𝑙𝑎𝑖𝑟𝑒 ,𝑠𝑒𝑥𝑒) = = 0.2213148
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡é 𝑡𝑜𝑡𝑎𝑙
La différence entre le genre (féminin et masculin) rend compte de 22,13% de la

variabilité totale du salaire. En effet, les salaires des hommes est légèrement supérieur
à ceux des femmes, (car la différence est plus ou moins petite).
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡é 𝑖𝑛𝑡𝑒𝑟
𝜂2 (𝑆𝑎𝑙𝑎𝑖𝑟𝑒 ,𝑛𝑖𝑣𝑒𝑎𝑢) = = 0.5077448
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡é 𝑡𝑜𝑡𝑎𝑙
La différence entre les niveaux de responsabilités rend compte de 50,77% de la

variabilité totale du salaire. En ce sens, les salaires augmentent en fonction du niveau
de responsabilité au sein de l’entreprise.
75 :Page
76 :Page
Tableau 3: Tableau de contingence entre salaire et sexe (avec effectifs et fréquences
conjointes/marginaux)
Total Observations in Table: 40
| Sexe
salair.class | F | M | Row Total |
------------------|-----------|-----------|-----------|
[214;228[ | 5 | 0 | 5 |
| 1.000 | 0.000 | 0.125 |
| 0.278 | 0.000 | |
------------------|-----------|-----------|-----------|
[228;242[ | 4 | 2 | 6 |
| 0.667 | 0.333 | 0.150 |
| 0.222 | 0.091 | |
------------------|-----------|-----------|-----------|
[242;256[ | 5 | 5 | 10 |
| 0.500 | 0.500 | 0.250 |
| 0.278 | 0.227 | |
------------------|-----------|-----------|-----------|
[256;270[ | 2 | 7 | 9 |
| 0.222 | 0.778 | 0.225 |
| 0.111 | 0.318 | |
------------------|-----------|-----------|-----------|
[270;284[ | 1 | 3 | 4 |
| 0.250 | 0.750 | 0.100 |
| 0.056 | 0.136 | |
------------------|-----------|-----------|-----------|
[284;312[ | 1 | 5 | 6 |
| 0.167 | 0.833 | 0.150 |
| 0.056 | 0.227 | |
------------------|-----------|-----------|-----------|
Column Total | 18 | 22 | 40 |
| 0.450 | 0.550 | 1 |
------------------|-----------|-----------|-----------|
Deuxième modèle d’un tableau de contingence sous R (avec effectifs conjointes et

marginaux)
Salaire/Sexe Femmes hommes Total

[214;228[ 5 0 5
[228;242[ 4 2 6
[242;256[ 5 5 10
[256;270[ 2 7 9
[270;284[ 1 3 4
[284;312[ 1 5 6
Total 18 22 40
I
77 :Page
Tableau 4: Tableau de contingence entre salaire et niveau (avec effectifs conjointes/marginaux et fréquences conjointes/marginaux)
Total Observations in Table: 40
| Niveau
salair.class | 1 | 2 | 3 | 4 | 5 | Row Total |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[214;228[ | 3 | 2 | 0 | 0 | 0 | 5 |
| 0.600 | 0.400 | 0.000 | 0.000 | 0.000 | 0.125 |
| 0.600 | 0.182 | 0.000 | 0.000 | 0.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[228;242[ | 0 | 2 | 3 | 1 | 0 | 6 |
| 0.000 | 0.333 | 0.500 | 0.167 | 0.000 | 0.150 |
| 0.000 | 0.182 | 0.214 | 0.125 | 0.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[242;256[ | 2 | 4 | 1 | 3 | 0 | 10 |
| 0.200 | 0.400 | 0.100 | 0.300 | 0.000 | 0.250 |
| 0.400 | 0.364 | 0.071 | 0.375 | 0.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[256;270[ | 0 | 3 | 5 | 1 | 0 | 9 |
| 0.000 | 0.333 | 0.556 | 0.111 | 0.000 | 0.225 |
| 0.000 | 0.273 | 0.357 | 0.125 | 0.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[270;284[ | 0 | 0 | 3 | 1 | 0 | 4 |
| 0.000 | 0.000 | 0.750 | 0.250 | 0.000 | 0.100 |
| 0.000 | 0.000 | 0.214 | 0.125 | 0.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[284;312[ | 0 | 0 | 2 | 2 | 2 | 6 |
| 0.000 | 0.000 | 0.333 | 0.333 | 0.333 | 0.150 |
| 0.000 | 0.000 | 0.143 | 0.250 | 1.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
Column Total | 5 | 11 | 14 | 8 | 2 | 40 |
| 0.125 | 0.275 | 0.350 | 0.200 | 0.050 | 1 |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
II
78 :Page
Deuxième modèle d’un tableau de contingence sous R (avec effectifs conjointes et
marginaux)
Salaire/Niveau 1 2 3 4 5 Total
[214;228[ 3 2 0 0 0 5
[228;242[ 0 2 3 1 0 6
[242;256[ 2 4 1 3 0 10
[256;270[ 0 3 5 1 0 9
[270;284[ 0 0 3 1 0 4
[284;312[ 0 0 2 2 2 6
Total 5 11 14 8 2 40
Figure 5 : Densités de salaire selon le sexe
Tableau 5: Calculs des indicateurs de salaire suivant les modalités du sexe
Sexe Salaire.Min. Salaire.1st Qu. Salaire.Median Salaire.Mean Salaire.3rd Qu. Salaire.Max.

F 214.0 227.8 241.5 244.3 255.0 285.0
M 235.0 254.5 259.0 266.0 279.8 312.0
Tableau 6: Calculs des indicateurs de salaire suivant les Niveaux de Responsabilités
Niveau des
Responsabilités Min. Salaire. 1st Qu. Salaire.Median Salaire.Mean Salaire.3rd Qu. Salaire.Max.
1 214.0 224.0 226.0 229.6 235.0 249.0

2 217.0 234.0 252.0 246.3 257.5 270.0
3 240.0 256.2 261.5 263.8 272.5 291.0
4 233.0 248.0 255.5 260.9 279.0 287.0
5 301.0 303.8 306.5 306.5 309.2 312.0
III
79 :Page
Figure 6 : Histogramme salaire
Figure 7 : Boite à moustache du salaire selon le sexe
IV
80 :Page
Figure 8 : salaire moyen selon le sexe
Figure 9 : Densité de la variable niveau.
Réalisé par Abdi-Basid ADAN
V

Abd-Basid ADAN

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Abd-Basid ADAN

Hochgeladen von

Copyright:

Verfügbare Formate

DEVOIR DE Statistique Inferentielle

Liste des tableaux………………………………………………………..…………………………………………………………………………………….…………………..2

Réalisé par Abdi-Basid ADAN

⟹ Liste des figures

⟹ Liste des sigles et abréviations

L'inférence est un ensemble des méthodes statistiques, qui s’appuie à priori

En effet, les méthodes d'inférences statistiques ont connu deux grandes

Dans le cadre de notre projet d’inférence statistique, nous allons mener

Fort de la connaissance des informations ci-après, nous pouvons déterminer les

Ainsi, les Bornes de l’intervalle de confiance 𝑃1 𝑒𝑡 𝑃2 sont déduites à partir de la

> n=2000;po=0.27 ;t=1.96

On déduit à partir de l’estimation par l’intervalle de confiance à 95% ; l’effectif de population

𝐼𝐶(0,95)𝑛 = [ 502 ; 578] 𝑝𝑒𝑟𝑠𝑜𝑛𝑛𝑒𝑠.

> n=2000;po=0.27 ;t=1.96

𝑚𝑒 =0.01945738 ≈ 0.019 (margin of error en Anglais)

Au seuil de risque de 5%, on commet une erreur sur 38 personnes, en estimant le

1) On désire estimer par intervalle de confiance, la proportion de votant de la région de

Connaissant les informations ci-dessous, nous pouvons déterminer les bornes de

Cette probabilité correspond bien à la valeur 𝑡𝛼 = 2,576 , avec

Ainsi, les limites 𝑃1 𝑒𝑡 𝑃2 de l’intervalle de confiance de la proportion à 99% sont

> n=1500; n1=810; f=n1/n;t=2.576

On déduit à partir de l’estimation par l’intervalle de confiance à 99% ; la part des

𝐼𝐶(0,99)𝑝 = [ 0.507 ; 0.573]

2) La statistique de la marge d’erreur (noté me) de l’estimation de la proportion des

> n=1500; n1=810; f=n1/n;t=2.576

𝑚𝑒 =0.03314943 ≈ 0.033 (margin of error en Anglais)

Pour considérer l’élection du candidat à 99 chances sur 100, il faudrait sonder un

> opt.size.ref<- t^2*f*(1-f)/(f- 0.50)^2

1) Soit X, la variable modélisant la vente moyenne de 18 entreprises de la Région de

Sous le logiciel R.2.15.3, en exécutant les programmes suivants:

Tableau1 : Eléments de statistique descriptive de la variable achat

mean var sd valid.n sum min max

La vente moyenne de trois semestres de 18 entreprises de Dakar est 51.333 (en

𝑛 = 18; 𝑋̅ = 51.333 ; 𝑠²(𝑥) = 912.353 − 𝑋̅ ² et 𝑠(𝑥) = 30.205 𝑒𝑡 1 − 𝛼 = 0, 95

√𝑛−1 × (𝑥̅ −𝑚)

Ainsi, les Bornes 𝒎𝟏 𝒆𝒕 𝒎𝟐 de l’intervalle de confiance s’obtiennent à l’aide de la

En exécutant les programmes suivants sous le logiciel R.2.15.3:

On déduit à partir de l’estimation par l’intervalle de confiance à 95% la vente

𝐼𝐶(0,95)𝑚 = [ 35.876 ; 66.791]

On estime à 95 chances sur 100, la vente moyenne des entreprises de la région de

3) La statistique de la marge d’erreur (noté me) dans l’estimation de la vente moyenne

> marg.error<-t*sd(x)/ sqrt(n-1)

𝑚𝑒 =15.45751 ≈ 15.458 (margin of error en Anglais)

Aussi, la probabilité 𝛼 = 0,975, s’obtient par valeur conjointe de 0.975 et 17 (à n-1), de

Cette probabilité correspond bien à la valeur 𝐴 = 7,564, avec :

Ρ (𝜒 2 (17) ≥ 7,564) = 0,975.

Cette probabilité correspond bien à la valeur 𝐵 = 30,191, avec :

Ρ (𝜒 2 (17) ≥ 30,191) = 0,025.

Les Bornes de l’intervalle de confiance de la variance s’obtiennent comme suit:

En exécutant les programmes suivants sous le logiciel R.2.15.3:

 𝝈²𝟏 = 513.7293 ≈ 513.729

On estime à 95 chances sur 100 la variance de vente de toutes les entreprises de la

1) Soit Ω, l’univers contenant l’ensemble des cas possibles de l’expérience aléatoire X

En exécutant les programmes suivants sous le logiciel R.2.15.3:

> faces<-1:6; n<-36000 ; t=1.96

Figure1 : simulation d’un échantillon de taille 36000 des lancements d’un dé :

On veut procéder un test simple rélatif à une proportion (test bilatéral).

Formellement, il s’agit de vérifier l’hypothèse suivante :

L’hypothèse nulle 𝐻0 : « le dé est pipé (ou truqué) ».

Les bornes 𝑃1 et 𝑃2 de l’intervalle de confiance sont données par la probabilité ci-

𝑃 = {𝑓0 − 𝑡𝛼× 𝜎𝑓0 ≤ 𝑝 ≤ 𝑓0 + 𝑡𝛼× 𝜎𝑓0 } = 0,95

 𝑃1 = 0.16281686 ≈ 0.163 → 𝑛1 = 𝑃1 × 36000 = 5861

On constate que 6327 n’appartient pas à l’intervalle de confiance alors, on rejette

En termes plus simple, on suppose :

> opt.size.ref<- t^2f(1-f)/(f- 0.50)^2