Sie sind auf Seite 1von 80

DEVOIR DE Statistique Inferentielle

1 :Page
Tables des Matières

Liste des tableaux………………………………………………………..…………………………………………………………………………………….…………………..2


Liste des graphiques………………………………………………………..……………………………………………………….............................................................2
Liste des sigles et abréviations ………………………………………………………………..…………………………………..…………………………………...2
Introduction………………………………………………………..…………………………………..……………………………………………………………………………......3

Exercice 1……………………………………………………………..…………………………………..……………………………………………………………………………...4
Exercice 2………………………………………………………..…………………………………..……………………………………………………………………………..…... 7
Exercice 3……………..…………………………..…………………………………..……………………………………………………………………………..……………… 11
Exercice 4…………………………………………..…………………………………..……………………………………………………………………………..……………… 16
Exercice 5………………………………………..…………………………………..……………………………………………..………………………………..……………… 18
Exercice 6………………………………………………………..…………………………………..……………………………………………………………………………..… 22
Exercice 7……………………………………………………………………………..……………………………………………………………………………..……………… 28
Exercice 8………………………………………………………..……………………..……………………………………………………………………………..……………… 33
Exercice 9………………………………………………………..…………………..………..……………………………………………………………………..……………… 36
Exercice 10………………………………………………………..…………………..……………………………………………………………………………..……………… 39

Annexe………………………………………………………..…………………..……………………………………………………………………………..……………………… 72

Réalisé par Abdi-Basid ADAN

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

2 :Page
⟹ Liste des tableaux
Tableau 1 : Eléments de statistique descriptive de la variable achat
Tableau 2 : Éléments de statistique descriptive de la variable salaire
Tableau 3: Tableau de contingence entre salaire et sexe
Tableau 4: Tableau de contingence entre salaire et niveau
Tableau 5: Calcul des indicateurs de salaire selon le sexe
Tableau 6: Calcul des indicateurs de salaire selon le Niveau

⟹ Liste des figures


Figure1 : Simulation d’un échantillon de taille 36000 des lancements d’un dé
Figure2 : Appréciation de normalité du salaire
Figure 3. Distribution des salaires pour appréciation de la normalité
Figure 4 : Graphique d’intensité de liaison entre sexe et salaire
Figure 5 : Densités de salaire selon le sexe
Figure 6 : Histogramme salaire
Figure 7 : Boite à moustache du salaire selon le sexe
Figure 8 : Salaire moyen selon le sexe
Figure 9 : Densité de la variable niveau

⟹ Liste des sigles et abréviations


x-square : Khi Deux calculé
df : degree of fredom (degré de liberté)
P-value : probabilité critique ou seuil nominale
One sample test: test hypothèse simple
Rank : Rang des valeurs ou position
Inf : infinie
confidence interval : Intervalle de confiance
Interpolated CI : Intervalle de confiance cas bilatéral
sample estimates: Valeur estimée dans l’échantillon
alternative hypothesis : Hypothèse Alternative
Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

3 :Page
INTRODUCTION

L'inférence est un ensemble des méthodes statistiques, qui s’appuie à priori


sur l’échantillonnage. Elle permet d’induire les paramètres inconnus d'une population
en extrapolant celles observés à partir d’un échantillon (un sous-ensemble).
Ces derniers reflètent avec une certaine marge d'erreur possible les caractéristiques
(proportion, moyenne, variance,…etc.) qu’on aurait considéré dans la population.

En effet, les méthodes d'inférences statistiques ont connu deux grandes


phases de développement, d’une part à la fin du XIXe siècle, avec les travaux de R.
Fisher, K. Pearson, Jerzy Neyman, Egon Pearson et Abraham Wald qui dégagent les
notions fondamentales de vraisemblance, de puissance des tests d'hypothèse et
d’intervalle de confiance et d’autre part, à la seconde période, qui perdure
jusqu’aujourd'hui, grâce à la puissance de calcul des ordinateurs.

Dans le cadre de notre projet d’inférence statistique, nous allons mener


l’ensemble des travaux demandés avec le logiciel statistique R (crée par Ross Ihaka
et Robert Gentleman), qui est un outil de programmation très puissant et complet dans
le domaine de la statistique.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

4 :Page
EXERCICE 1 :

Eléments de Réponses

1) Ici, il s’agit d’estimer par intervalle de confiance, la part de sous alimentés dans un
pays donné à partir d’un échantillon des 2000 prochaines naissances.

Fort de la connaissance des informations ci-après, nous pouvons déterminer les


limites de la zone d’acceptabilité :
𝑓𝑜 = 0,27; 𝑛 = 2000; 1 − 𝛼 = 95 ⟺ 𝛼 = 0,05

En effet, la probabilité 𝛼 = 0,05, s’obtient par addition des nombres inscrits en marge
sur la table de la loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0
+ 0,05.
Cette probabilité correspond bien à la valeur 𝑡𝛼 = 1,96 , avec 𝑃𝑈 (−1,96 < 𝑈 < 1,96) =
0,95, U étant la valeur de l’écart réduite.

Ainsi, les Bornes de l’intervalle de confiance 𝑃1 𝑒𝑡 𝑃2 sont déduites à partir de la


probabilité ci-après:

𝑓0 × (1 − 𝑓0 ) 𝑓0 × (1 − 𝑓0 )
𝑃𝑝 (𝑓0 − 𝑡𝛼 × √ < 𝑝 < 𝑓0 + 𝑡𝛼 × √ ) = 0,95
𝑛 𝑛

avec
𝑓0 ×(1−𝑓0 ) 𝑓0 ×(1−𝑓0 )
𝑃1 = 𝑓0 − 𝑡𝛼 × √ 𝑒𝑡 𝑃2 = 𝑓0 + 𝑡𝛼 × √
𝑛 𝑛

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

5 :Page
En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes de R

> n=2000;po=0.27 ;t=1.96


> lower=po - t*sqrt(po*(1-po)/n)
> upper=po + t*sqrt(po*(1-po)/n)
> conf.interval <-data.frame(lower,upper)
> r=round(conf.interval ,3); nb<- n*r
> print(nb)

On obtient :

𝑓0 ×(1−𝑓0 )
𝑃1 = 𝑓0 − 𝑡𝛼 × √ = 0.2505426 ≈ 0.251 ⟹ 𝒏𝟏 = 𝑃1 × 2000 = 502
𝑛

𝑓0 ×(1−𝑓0 )
𝑃2 = 𝑓0 + 𝑡𝛼 × √ = 0.2894574 ≈ 0.289 ⟹ 𝒏𝟐 = 𝑃2 × 2000 = 578
𝑛

On déduit à partir de l’estimation par l’intervalle de confiance à 95% ; l’effectif de population


sous alimentés dans le pays considéré compris entre:

𝐼𝐶(0,95)𝑛 = [ 502 ; 578] 𝑝𝑒𝑟𝑠𝑜𝑛𝑛𝑒𝑠.

⟶ Commentaire
On estime à 95 chances sur 100, le nombre de sous alimentés du pays considéré, entre 502
et 578 personnes sur les 2000 individus sondés.

2) La statistique de la marge d’erreur (noté me) dans l’estimation du nombre de sous alimentés
est calculée comme suit :

𝑓0 × (1 − 𝑓0 )
𝑚𝑒 = 𝑡𝛼 × 𝜎𝑓 = 𝑡𝛼 × √
𝑛

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

6 :Page
En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes de R

> n=2000;po=0.27 ;t=1.96


> marg.error<-t*sqrt(po*(1-po)/n)
> print(round(marg.error,3))
> print(round(marg.error,3)*n)

On obtient :

𝑚𝑒 =0.01945738 ≈ 0.019 (margin of error en Anglais)


𝑚𝑒 ≈ 0.019 × 2000 = 38

⟶ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

Au seuil de risque de 5%, on commet une erreur sur 38 personnes, en estimant le


nombre de sous alimentés du pays considéré sur les 2000 prochaines naissances
sondés.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

7 :Page
EXERCICE 2 :

Eléments de Réponses

1) On désire estimer par intervalle de confiance, la proportion de votant de la région de


Dakar favorable au candidat considéré à partir d’un échantillon de taille 1500 individus.

Connaissant les informations ci-dessous, nous pouvons déterminer les bornes de


l’intervalle de confiance :

𝑛
𝑛 = 1500; 𝑛1 = 810; 𝑓𝑜 = = 0,54; 1 − 𝛼 = 0,99 ⟺ 𝛼 = 0,01
𝑛1

En effet, la probabilité 𝛼 = 0,01, s’obtient par addition des nombres inscrits en marge
sur la table de la loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0
+ 0,01.

Cette probabilité correspond bien à la valeur 𝑡𝛼 = 2,576 , avec


𝑃𝑈 (−2,576 < 𝑈 < 2,576) = 0,99, U étant la valeur de l’écart réduite.

Ainsi, les limites 𝑃1 𝑒𝑡 𝑃2 de l’intervalle de confiance de la proportion à 99% sont


calculées comme suit:

𝑓 × (1 − 𝑓𝑜 ) 𝑓 × (1 − 𝑓𝑜 )
𝑃𝑝 ( 𝑓𝑜 − 𝑡𝛼 × √ 𝑜 < 𝑃 < 𝑓𝑜 + 𝑡𝛼 × √ 𝑜 ) = 0,99
𝑛 𝑛

avec
𝑓𝑜 ×(1− 𝑓𝑜 ) 𝑓𝑜 ×(1− 𝑓𝑜 )
𝑃1 = 𝑓𝑜 − 𝑡𝛼 × √ 𝑒𝑡 𝑃2 = 𝑓𝑜 + 𝑡𝛼 × √
𝑛 𝑛

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

8 :Page
En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> n=1500; n1=810; f=n1/n;t=2.576


> lower= f-t*sqrt(f*(1-f)/n)
> upper=f+t*sqrt(f*(1-f)/n)
> conf.interval <-data.frame(lower,upper)
> r=round(conf.interval ,3);
> print(r)

On obtient :

𝑓0 ×(1− 𝑓𝑜 )
𝑃1 = 𝑓0 − 𝑡𝛼 × √ = 0.5068506 ≈ 0.507
𝑛

𝑓0 ×(1−𝑓0 )
𝑃2 = 𝑓0 + 𝑡𝛼 × √ = 0.2894574 ≈ 0.573
𝑛

On déduit à partir de l’estimation par l’intervalle de confiance à 99% ; la part des


partisans du candidat considéré dans la région compris entre:

𝐼𝐶(0,99)𝑝 = [ 0.507 ; 0.573]


⟶ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒 :
On estime à 99 chances sur 100, la proportion de votant de la région de Dakar
favorable à ce candidat, qui est comprise entre 50,7% et 57,3% sur les 1500 individus
sondés.

2) La statistique de la marge d’erreur (noté me) de l’estimation de la proportion des


votants pour le candidat considéré de la région de Dakar est calculée comme suit :

𝑓0 × (1 − 𝑓0 )
𝑚𝑒 = 𝑡𝛼 × 𝜎𝑓 = 𝑡𝛼 × √
𝑛

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

9 :Page
En exécutant les programmes suivants sous le logiciel R.2.15.3:

Langage S du R-Project

> n=1500; n1=810; f=n1/n;t=2.576


> marg.error<-t*sqrt(f*(1-f)/n)
> print(round(marg.error,3))

On obtient :

𝑚𝑒 =0.03314943 ≈ 0.033 (margin of error en Anglais)

⟶ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:
Au seuil de risque de 1%, on commet une erreur en valeur absolue de 3.3%, en
estimant la part des partisans pour le candidat considéré dans la région de Dakar sur
les 1500 votants sondés.

3) La taille optimale pour tenir compte à 99 chances sur 100, l’élection du candidat, il
suffirait que la borne inferieur de l’intervalle de confiance soit supérieur ou égale à
50%, mathématiquement, elle s’écrit comme suit:

𝑓0 × (1 − 𝑓0 ) 𝑓0 × (1 − 𝑓0 )
𝑓 − 𝑡𝛼 × √ ≥ 0,50 ⟺ 𝑡𝛼 × √ ≤ 𝑓 − 0,5
𝑛 𝑛

𝑓0 × (1 − 𝑓0 ) 1 (𝑓0 − 0,50)2
𝑡𝛼2 × ≤ (𝑓0 − 0,50)2 ⟺ ≤ 2
𝑛 𝑛 𝑡𝛼 × 𝑓0 × (1 − 𝑓0 )

𝑡𝛼2 × 𝑓0 × (1 − 𝑓0 )
⟺ 𝑛≥
(𝑓 − 0,50)²

Pour considérer l’élection du candidat à 99 chances sur 100, il faudrait sonder un


échantillon de taille supérieur ou égale à n.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

10 :Page
En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> opt.size.ref<- t^2*f*(1-f)/(f- 0.50)^2


> round(opt.size.ref,0)

On obtient :

𝑛 ≥ 1030,2014 ≈ 1030

⟶ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:
Il faudrait sonder aléatoirement (avec remise ou sans remise) un échantillon de taille
supérieur ou égale à 1030 individus dans la région Dakaroise, afin d’être sûre (à 99%)
que le candidat soit désigné dans l’élection.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

11 :Page
EXERCICE 3 :

Eléments de Réponses

1) Soit X, la variable modélisant la vente moyenne de 18 entreprises de la Région de


Dakar. On suppose que X suit la loi normale 𝑁(𝑚, 𝜎).

La ventes moyenne (𝑋̅), la variance (𝑠²(𝑥) ) et l’écart type (𝑠(𝑥) ) sont données par :

1 1
𝑋̅ = ∑18
𝑖=1 𝑋𝑖 ; 𝑠²(𝑥) = ∑18 ̅
𝑖=1 𝑋𝑖 ² − 𝑋 ² et 𝑠(𝑥) = √𝑠²(𝑥)
18 18

Sous le logiciel R.2.15.3, en exécutant les programmes suivants:

Programmes R

> x<-c(13,40,65,49,120,47,50,48,96,42,52,40,54,65,100,22,12,9)
> moy=round(mean(x),3);vari=round(var(x),3);ecart=round(sd(x),3)
> data.frame(moy,vari,ecart)

On obtient :

Tableau1 : Eléments de statistique descriptive de la variable achat

mean var sd valid.n sum min max


51.33 912.4 30.21 18 924 9 120

La vente moyenne de trois semestres de 18 entreprises de Dakar est 51.333 (en


millions CFA), en considérant 9 millions FCFA comme la vente la plus faible (min) et
120 millions FCFA comme la vente la plus élevée (max).

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

12 :Page
La variance de vente vaut 912.353 (en millions CFA), avec une dispersion autour de
la vente moyenne de 30.21 (en millions CFA).

2) Ici, il s’agit d’estimer par intervalle de confiance la vente moyenne de toutes les
entreprises de la région de Dakar.

Ayant les informations ci-dessous, nous pouvons déterminer les limites de l’intervalle
de confiance de la moyenne:

𝑛 = 18; 𝑋̅ = 51.333 ; 𝑠²(𝑥) = 912.353 − 𝑋̅ ² et 𝑠(𝑥) = 30.205 𝑒𝑡 1 − 𝛼 = 0, 95

√𝑛−1 × (𝑥̅ −𝑚)


L’écart type 𝜎(𝑥) de la population n’est pas connu : → 𝑇(𝑛−1)(suit une loi
𝑠

de Student)

En effet, la probabilité 𝛼 = 0,05, s’obtient par valeur conjointe au seuil 0.05 et à 17 (n-
1), de degré de liberté sur la table de la loi de Student 𝑇17 : à l’intersection de la ligne
et colonne ⟹ 0,05 et 17.
Cette probabilité correspond bien à la valeur 𝑡𝛼 = 2,110 , avec
Ρ(−2,110 < 𝑇𝑛 < 2,110 ) = 0,95.

Ainsi, les Bornes 𝒎𝟏 𝒆𝒕 𝒎𝟐 de l’intervalle de confiance s’obtiennent à l’aide de la


probabilité suivante :
𝑠 𝑠
𝑃𝑚 (𝑋̅ − 𝑡𝛼 < 𝑚 < 𝑋̅ + 𝑡𝛼 ) = 0,99
√𝑛 − 1 √𝑛 − 1

avec
𝑠 𝑠
𝑚1 = 𝑋̅ − 𝑡𝛼 et 𝑚2 = 𝑋̅ + 𝑡𝛼
√𝑛−1 √𝑛−1

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R
> t=2.110;n=18
> m1<-mean(x) - t*sd(x)/ sqrt(n-1)
> m2<-mean(x) + t*sd(x)/ sqrt(n-1)
> round(cbind(m1,m2),3)

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

13 :Page
On obtient :

 𝑚1 = 35.87583 ≈ 35.876
 𝑚2 = 66.79084 ≈ 66.791

On déduit à partir de l’estimation par l’intervalle de confiance à 95% la vente


moyenne compris entre:

𝐼𝐶(0,95)𝑚 = [ 35.876 ; 66.791]

⟶ Commentaire :

On estime à 95 chances sur 100, la vente moyenne des entreprises de la région de


Dakar comprise entre 35.876 et 66.791 , sur le 18 entreprises sondés.

3) La statistique de la marge d’erreur (noté me) dans l’estimation de la vente moyenne


est calculée comme suit:
𝑠
𝑚𝑒 = 𝑡𝛼
√𝑛 − 1
En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> marg.error<-t*sd(x)/ sqrt(n-1)


> print(round(marg.error,3))

On obtient :

𝑚𝑒 =15.45751 ≈ 15.458 (margin of error en Anglais)

⟶ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

Avec une probabilité de 95%, on commet une erreur, en valeur absolue de 15.458, on
estimant la vente moyenne des entreprises de la région de Dakar sur les 18 entreprises
sondés.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

14 :Page
4) On veut estimer la variance des ventes par intervalle de confiance à 95%.
Ainsi, la variance de la population n’est pas connue, on estime alors par son estimateur
̅ = 1 ∑𝑛 (𝑥 − 𝑥̅ )² sans biais de 𝜎² : avec 𝑛 × 𝑠²
𝑠² ̅ = (n − 1) × s²
𝑛−1 𝑖=1 𝑖

(𝑛−1)𝑠²
En effet, la statistique de suit une loi de Khi-Deux à (n-1) degrés de liberté.
𝜎²

(𝑛 − 1)𝑠²
𝑃 (𝐴 ≤ ≤ 𝐵) = 1 − 𝛼 = 0.95
𝜎²

Les valeurs de A et B suivant la loi de Khi-deux sont calculées avec les probabilités ci-
dessous :
𝛼
 𝑃 (𝜒 2 (𝑛−1) > 𝐴) = 1 − = 0,975
2
𝛼
 𝑃 (𝜒 2 (𝑛−1) > 𝐵) = = 0.025
2

Aussi, la probabilité 𝛼 = 0,975, s’obtient par valeur conjointe de 0.975 et 17 (à n-1), de


degrés de liberté sur la table de la loi de Khi-Deux 𝜒(𝑛−1) : à l’intersection de la ligne et
colonne ⟹ 0,975 et 17 (on lit pour la valeur A).

D’autre part, l’intersection des valeurs 0,025 et 17 (on lit pour la valeur B).

Cette probabilité correspond bien à la valeur 𝐴 = 7,564, avec :

Ρ (𝜒 2 (17) ≥ 7,564) = 0,975.

Cette probabilité correspond bien à la valeur 𝐵 = 30,191, avec :

Ρ (𝜒 2 (17) ≥ 30,191) = 0,025.

Les Bornes de l’intervalle de confiance de la variance s’obtiennent comme suit:


(𝑛 − 1) × 𝑠² 𝐴 1 𝐵
𝑃 (𝐴 < 2
< 𝐵) = 0.05 ⟺ 𝑃 ( 2
< 2< ) = 0.05
𝜎 (𝑛 − 1)𝑠 𝜎 (𝑛 − 1) 𝑠 2

(𝑛 − 1)𝑠 2 (𝑛 − 1)𝑠 2
⟺ 𝑃( ≤ 𝜎2 ≤ );
𝐵 𝐴

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

15 :Page
𝑎𝑣𝑒𝑐

(𝑛−1)×𝑠² (𝑛−1)×𝑠²
𝜎²1 = 𝑒𝑡 𝜎²2 =
𝐵 𝐴

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> A=7.564;B=30.191
> sigma2.1<-((n-1)*var(x))/B
> sigma2.2<-((n-1)*var(x))/A
> round(cbind(sigma2.1,sigma2.2), 3)

On obtient :

 𝝈²𝟏 = 513.7293 ≈ 513.729


 𝝈²𝟐 = 2050.502 ≈ 2050.502
On déduit à partir de l’estimation par l’intervalle de confiance à 95% ; la variance des
ventes compris entre:
𝑰𝑪(𝟎, 𝟗𝟓)𝝈² = [ 543.949 ; 2171.12 ]
⟶ Commentaire :

On estime à 95 chances sur 100 la variance de vente de toutes les entreprises de la


région de Dakar entre 513.729 et 2050.502 sur les 18 entreprises sondés.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

16 :Page
EXERCICE 4 :

Eléments de Réponses

1) Soit Ω, l’univers contenant l’ensemble des cas possibles de l’expérience aléatoire X


modélisant les lancements d’un dé (6 faces possibles à chaque lancement), avec
cardinal : card(Ω) = 36000.

Sélon le théorème Centrale Limite (ou de la limite centrale), tout évènement ou variable
indépendamment et identiquement distribuée ; répété un plus grand nombre de fois
suit asymptotiquement une loi de Laplace-Gauss.

En effet, avec le lancement de 36000 fois (n > 30), il n’y a aucune raison d’obtenir
une face plutôt qu’une autre avec le dé à six faces.

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> faces<-1:6; n<-36000 ; t=1.96


> samp<-sample(faces,n,replace=TRUE)
> tab.eff<-table(samp)
> barplot(tab.eff)
> sigmaf=sqrt((f*(1-f))/n)
> lb=f-t*sigmaf
> ub=f+t*sigmaf
> round(cbind(lb*n,ub*n),3)

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

17 :Page
On obtient :

Figure1 : simulation d’un échantillon de taille 36000 des lancements d’un dé :

→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒 :
En simulant un échantillon de taille 36000 des lancements aléatoires d’un dé à 6 faces,
on y trouve approximativement 6000 fois pour toutes les faces, à la 36ieme lancés. En
d’autres termes, chaque numéro i avec {i=1,…6} a autant de chance d’apparaitre à la
fin de l’expérience, par définition c’est « la notion d’équiprobabilité ».

En conclusion, nous ne pouvons pas considérer que le dé est pipé (ou truqué) avec la
face 1 obtenue 6327 fois (ou avec une proportion de 17.575%).

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

18 :Page
Méthode 2 : Test rélatif à une proportion

On veut procéder un test simple rélatif à une proportion (test bilatéral).

Formellement, il s’agit de vérifier l’hypothèse suivante :

L’hypothèse nulle 𝐻0 : « le dé est pipé (ou truqué) ».


Contre
L’hypothèse alternative 𝐻1 : « le dé n’est pas pipé (ou non truqué) ».

Ayant connaissant les informations ci-dessous, nous pouvons déterminer les limites
de la zone d’acceptation de l’hypothèse H0:

1
𝑓1 = ; 𝛼 = 5%; 𝑛 = 36000
6

La probabilité 𝛼 = 0,05, s’obtient par addition des nombres inscrits en marge sur la
table de la loi normale centrée et réduite (écart réduite) : Ligne + colonne ⟹ 0,0 +
0,05. Cette probabilité correspond bien à la valeur 𝑡𝛼 = 1,96.

Les bornes 𝑃1 et 𝑃2 de l’intervalle de confiance sont données par la probabilité ci-

contre :

𝑃 = {𝑓0 − 𝑡𝛼× 𝜎𝑓0 ≤ 𝑝 ≤ 𝑓0 + 𝑡𝛼× 𝜎𝑓0 } = 0,95

𝑓0 ×(1−𝑓0 )
Avec 𝑃1 = 𝑓0 − 𝑡𝛼× 𝜎𝑓0 ; 𝑃2 = 𝑓0 + 𝑡𝛼× 𝜎𝑓0 et 𝜎𝑓0 = √
𝑛

 𝑃1 = 0.16281686 ≈ 0.163 → 𝑛1 = 𝑃1 × 36000 = 5861


 P2 = 0.1705165 ≈ 0.171 → n1 = P2 × 36000 = 6138

On constate que 6327 n’appartient pas à l’intervalle de confiance alors, on rejette


l’hypothèse nulle H0 en faveur de l’hypothèse alternative.

Nous pouvons affirmer au seuil de risque de 5%, que le dé n’est pas pipé (non triché
ou non truqué).

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

19 :Page
EXERCICE 5 :

Eléments de Réponses

1) Ici, il s’agit de procéder un test non paramétrique rélatif à une médiane (cas bilatéral),
en vérifiant l’hypothèse suivante:

𝐻0 : 𝑀𝑒 = 8000
{ 𝐶𝑜𝑛𝑡𝑟𝑒
𝐻1 : 𝑀𝑒 ≠ 8000

En termes plus simple, on suppose :

L’hypothèse nulle 𝐻0 : « les observations sont compatible avec un panier médian


de 8000 ».

Contre

L’hypothèse alternative 𝐻1 : « les observations sont incompatibles avec un panier


médian de 8000 ».

La règle de décisions repose sur la comparaison du seuil de significativité


conventionnel 𝛼 de (1%, 5% et 10%), avec le seuil nominal ou la « p-valeur du test :

• si 𝑝 − 𝑣𝑎𝑙𝑒𝑢𝑟 ≥ 𝛼, on ne rejette pas l’hypothèse 𝐻0


• si 𝑝 − 𝑣𝑎𝑙𝑒𝑢𝑟 < 𝛼, on rejette 𝐻0 (en faveur de 𝐻1 ).

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

20 :Page
En exécutant les programmes suivants sous le logiciel R.2.15.3:
Programmes R
> data<-
c(6000,7200,10000,20000,27200,8800,6800,5600,18000,34000,9600,720
0)
> simple.median.test(achat, median=8000)
> round(simple.median.test(achat, median=8000),3)

On obtient :

One-sample Sign-Test
data: achat
s = 7, p-value = 0.7744
alternative hypothesis: true median is not equal to 8000
95 percent confidence interval:
6842.545 19787.273
sample estimates:
median of x 9200
Conf.Level L.E.pt U.E.pt
Lower Achieved CI 0.8540 7200.000 18000.00
Interpolated CI 0.9500 6842.546 19787.27
Upper Achieved CI 0.9614 6800.000 20000.00

→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒 :
La probabilité associée au test de signe de la médiane (bilatéral) est de 0.7744,
supérieur à tous les seuils conventionnels (1%,5% et 10%).
Dans ce cas, on ne rejette pas alors à tous les seuils de significativités l’hypothèse
nulle 𝐻0 .
Nous pouvons affirmer que les montants des achats sur les 12 observations sont
significativement compatibles avec un panier médian de 8000.
La région de la zone d’acceptation de l’hypothèse 𝐻0 avec une probabilité à 95% est
dans la bande comprise entre : [6842.545 ; 19787.273], (en Anglais : Interpolated CI).

On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à droite :

𝐻0: 𝑀𝑒 ≤ 8000
{ 𝑐𝑜𝑛𝑡𝑟𝑒
𝐻1: 𝑀𝑒 > 8000

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

21 :Page
𝐻0 : « Les observations sont compatibles avec un panier médian de 8000 ».

Contre

𝐻1 : « Les observations sont compatibles au moins avec un panier médian de


8000 ».

One-sample Sign-Test
data: achat
s = 7, p-value = 0.3872
alternative hypothesis: true median is greater than 8000
95 percent confidence interval:
7028.727 Inf
sample estimates:
median of x 9200
Conf.Level L.E.pt U.E.pt
Lower Achieved CI 0.9270 7200.000 Inf
Interpolated CI 0.9500 7028.727 Inf
Upper Achieved CI 0.9807 6800.000 Inf

→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒 :

La probabilité associée au test de signe de la médiane (unilatéralement à droite) est


de 0.3872, supérieur à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on ne rejette pas alors à tous les seuils de significativités l’hypothèse
nulle 𝐻0 .

Nous pouvons affirmer que les montants des achats sur les 12 observations sont
significativement compatibles avec un panier médian de 8000.

La région de la zone d’acceptation de l’hypothèse 𝐻0 se situe à une seule région :


[6842.545 ; +∞[ avec une probabilité à 95%.

On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à


gauche :

𝐻0: 𝑀𝑒 ≥ 8000
{ 𝐶𝑜𝑛𝑡𝑟𝑒
𝐻1: 𝑀𝑒 < 8000

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

22 :Page
𝐻0 : « Les observations sont compatibles avec un panier médian de 8000 ».

Contre

𝐻1 : « Les observations sont compatibles au plus avec un panier médian de 8000 ».

One-sample Sign-Test
data: achat
s = 7, p-value = 0.8062
alternative hypothesis: true median is less than 8000
95 percent confidence interval:
-Inf 18856.36
sample estimates:
median of x 9200
Conf.Level L.E.pt U.E.pt
Lower Achieved CI 0.9270 -Inf 18000.00
Interpolated CI 0.9500 -Inf 18856.36
Upper Achieved CI 0.9807 -Inf 20000.00

→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒 :

La probabilité associée au test de signe de la médiane (unilatéralement à gauche) est


de 0.8062, supérieur à tous les seuils conventionnels (1%,5% et 10%).
Dans ce cas, on ne rejette pas alors à tous les seuils de significativités l’hypothèse
nulle 𝐻0 .
Nous pouvons affirmer que les montants des achats sur les 12 observations sont
significativement compatibles avec un panier médian de 8000.

La région de la zone d’acceptation de l’hypothèse 𝐻0 se situe à une seule région :


] −∞ ; 18856.36] avec une probabilité à 95%.

Conclusion :

Avec le test bilatéral, unilatéral à gauche et à droite et aux seuils conventionnels


(1%,5% et 10%), on peut affirmer que les 12 observations sont compatibles
significativement avec un panier médian de 8000.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

23 :Page
EXERCICE 6 :

Eléments de Réponses

1) Ici, il s’agit bien de procéder un test rélatif à deux proportions (test bilatéral), en
vérifiant l’hypothèse suivante:

𝐻0 : 𝑝1 = 𝑝2
{
𝐻1 : 𝑝1 ≠ 𝑝2

En termes plus simples, on suppose :

L’hypothèse nulle 𝐻0 : «Aucune différence significative concernant l’importance


d’épargner entre les francophones et les non- francophones».

Contre

L’hypothèse alternative 𝐻1 : il existe une différence significative concernant


l’importance d’épargne entre les francophones et les non- francophones».

Connaissant les informations ci-dessous, nous pouvons déterminer l’estimateur de 𝑃̂


de p, afin d’en déduire la statistique calculée, 𝑡𝑐𝑎𝑙 .

𝑓1 = 0,21; 𝑓2 = 0,44; 𝛼 = 5%, 𝑛1 = 344; 𝑛2 = 90

Ainsi, l’estimateur de 𝑃̂ est calculée comme suit :

𝑛1 × 𝑓1 + 𝑛2 × 𝑓2 𝑘1 + 𝑘2
𝑃̂ = =
𝑛1 + 𝑛2 𝑛1 + 𝑛2

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

24 :Page
La statistique de 𝑡𝑐𝑎𝑙 calculé est donnée par la formule ci-dessous :

𝑓1 − 𝑓2
|𝑡𝑐𝑎𝑙 | = || ||
1 1
√𝑃̂ × (1 − 𝑃̂) × ( + )
𝑛1 𝑛2

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> f1=0.21;f2=0.44;n1=344;n2=90
> p.chap<-(f1*n1+f2*n2)/(n1+n2)
> q.chap<-1-p.chap
> print(p.chap)
> p.chapo<-round(p.chap,3)
> t.cal<-(f1-f2)/sqrt(p.chap*q.chap*((1/n1)+(1/n2)))
> print (abs(t.cal))
> t.cal<-round(abs(t.cal),3)
> data.frame(p.chapo,t.cal)
> # Méthode avec p-value
> prop.test(c((n1*f1),(n2*f2)),c(n1,n2))

On obtient :

 𝑃̂ = 0.2576959 ≈ 0.258
 |𝑡𝑐𝑎𝑙 | = |−4.441593| ≈ 4.442

La probabilité 𝛼 = 0,05, s’obtient par addition des nombres inscrits en marge sur la
table de la loi normale centrée et réduite (écart réduite) :

Ligne + colonne ⟹ 0,0 + 0,05.

Cette probabilité correspond bien à la valeur 𝑡𝛼 = 1,96 , avec


𝑃𝑈 (−1,96 < 𝑈 < 1,96) = 0,95, U étant la valeur de l’écart réduite.

On constate bien que la valeur de tabulée 𝑡𝛼 (lue sur la table de la loi normale centrée
et réduite) est inférieur à la valeur calculée |𝑡𝑐𝑎𝑙 | : 1.96 < 4.442.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

25 :Page
Ceci nous ramène à rejeter l’hypothèse nulle au seuil de risque de 5%, autrement dit,
la différence concernant l’importance d’épargne entre les francophones et les non-
francophones de la population Québécoise est significative avec une probabilité à
95%.

Méthode 2 : Avec le seuil nominal (p-valeur).

2-sample test for equality of proportions with continuity correction

data: c(0.21 * 344, 0.44 * 90) out of c(344, 90)


X-squared = 18.5437, df = 1, p-value = 1.661e-05
alternative hypothesis: two.sided
95 percent confidence interval:
-0.3482281 -0.1117719
sample estimates:
prop 1 prop 2
0.21 0.44

→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

La probabilité associée au test de comparaison de proportion est de 1.661 e-05


inférieurs à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on rejette alors à tous les seuils de significativités l’hypothèse nulle 𝐻0

Nous pouvons affirmer qu’il existe une différence significative concernant l’importance
d’épargne entre les francophones et les non- francophones e la population
québécoise.

Ainsi, la région de la zone d’acceptation de l’hypothèse 𝐻0 est compris entre :


[-0.3482281 ; -0.1117719] avec une probabilité à 95%.

2) On veut mener un test de rélatif à deux proportions (bilatéral), en vérifiant l’hypothèse


suivante :

𝐻0: 𝑝1 = 𝑝2
{
𝐻1: 𝑝1 ≠ 𝑝2

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

26 :Page
En termes plus limpides, on suppose :

L’hypothèse nulle 𝐻0 : «Aucune différence significative concernant l’importance de


profiter de la vie entre les francophones et les non- francophones».

Contre

L’hypothèse alternative 𝐻1 : il existe une différence significative concernant


l’importance de profiter de la vie entre les francophones et les non- francophones».

Ayant les informations ci-dessous, on peut déterminer l’estimateur de 𝑃̂, afin d’en
déduire la statistique calculée de tcal.

𝑓1 = 0,45; 𝑓2 = 0,28; 𝛼 = 5%, 𝑁1 = 344; 𝑁2 = 90

En effet, l’estimateur de 𝑃̂ est calculée par :

𝑁1 × 𝑓1 + 𝑁2 × 𝑓2
𝑃̂ =
𝑁1 + 𝑁2

La statistique calculé de |𝑡𝑐𝑎𝑙 | est donnée ci-après :

𝑓1 − 𝑓2
|𝑡𝑐𝑎𝑙 | = || ||
1 1
√𝑃̂ × (1 − 𝑃̂) × ( + )
𝑛1 𝑛2

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

27 :Page
En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> f1=0.45;f2=0.28;n1=344;n2=90
> p.chap<-(f1*n1+f2*n2)/(n1+n2)
> q.chap<-1-p.chap
> print(p.chap)
> p.chapo<-round(p.chap,3)
> t.cal<-(f1-f2)/sqrt(p.chap*q.chap*((1/n1)+(1/n2)))
> print (abs(t.cal))
> t.cal<-round(abs(t.st),3)
> data.frame(p.chapo,t.cal)
> # Méthode avec p-value
> prop.test(c((n1*f1),(n2*f2)),c(n1,n2))

On obtient :

 𝑃̂ = 0.4147465 ≈ 0.414
 |𝑡𝑐𝑎𝑙 | = |2.914346| ≈ 2.914

La probabilité 𝛼 = 0,05, s’obtient par addition des nombres inscrits en marge sur la
table de loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0 + 0,05.

Cette probabilité correspond bien à la valeur 𝑡𝛼 = 1,96 , avec


𝑃𝑈 (−1,96 < 𝑈 < 1,96) = 0,95, U étant la valeur de l’écart réduite.

On constate bien que la valeur de tabulée 𝑡𝛼 (lue sur la table de la loi de Gauss) est
inférieur à la valeur calculée |𝑡𝑐𝑎𝑙 | : 1.96 < 2.914.

Ceci nous ramène à rejeter l’hypothèse nulle (en faveur à l’hypothèse alternative) au
seuil de risque de 5%, autrement dit, la différence concernant l’importance de profiter
de la vie entre les francophones et les non- francophones de la population Québécoise
est significative avec une probabilité à 95%.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

28 :Page
Méthode 2 : Avec le seuil nominal ou p-valeur

Cas bilatéral

2-sample test for equality of proportions with continuity correction


data: c(0.45 * 344, 0.28 * 90) out of c(344, 90)
X-squared = 7.8075, df = 1, p-value = 0.005203
alternative hypothesis: two.sided
95 percent confidence interval: 0.05636681 0.28363319
sample estimates: prop 1 prop 2
0.45 0.28

→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

La probabilité associée au test de comparaison de proportion est de 0.005203,


inférieur à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on rejette alors à tous les seuils de significativités l’hypothèse nulle 𝐻0 .

Nous pouvons affirmer que la différence concernant l’importance de profiter de la vie


entre les francophones et les non- francophones est significative avec une probabilité
à 95%.

La région de la zone d’acceptation de l’hypothèse nulle est compris entre :


[0.05636681 ; 0.28363319] avec une probabilité à 95%.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

29 :Page
EXERCICE 7 :

Eléments de Réponses

1) Ici, il s’agit de procéder un test de rélatif à deux moyennes, (test bilatéral) en


vérifiant l’hypothèse suivante :

𝐻0 : 𝑚1 = 𝑚2
{
𝐻1 : 𝑚1 ≠ 𝑚2

En termes plus simple, on suppose :

L’hypothèse nulle 𝐻0 : « La différence des moyennes n’est pas significative entre les
dépenses deux régions».

Contre

L’hypothèse alternative 𝐻1 : La différence des moyennes est significative entre les


dépenses de deux régions».

En effet, l’écart type de la population 𝜎 est inconnu, on va l’estimer par son


estimateur ̂
𝑆.
Ayant les informations ci-dessous, on peut alors déterminer l’estimateur de 𝑆̂ et

déduire la statistique |𝒕𝒄𝒂𝒍 | :

̅̅̅1 = 67000; 𝑋
𝑋 ̅̅̅2 = 49000; 𝛼 = 5%, 𝑛1 = 75; 𝑛2 = 35

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

30 :Page
L’estimateur de 𝑆̂ est donnée par la formule ci-après :

𝑛1 × 𝑆²1 + 𝑛2 × 𝑆²2
𝑆̂ = √
𝑛1 + 𝑛2 − 2

On déduit, la statistique de t-calculé comme suit:

̅̅̅1 − 𝑋
𝑋 ̅̅̅2 𝑛1 × 𝑛2
|𝑡𝑐𝑎𝑙 | = | ×√ |
𝑆̂ 𝑛1 + 𝑛2

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> x1=67000;x2=49000;n1=75;n2=35
> s1=12500; s2=8300
> s2.chap<-(s1^2*n1+s2^2*n2)/(n1+n2-2)
> print(s2.chap)
> s.chapo<-round(sqrt(s2.chap),3)
> t.st<-(x1-x2)*sqrt(n1*n2)/(n1+n2))/sqrt(s2.chap)
> print (abs(t.st))
> t.cal<-round(abs(t.st),3)
> data.frame(s.chapo,t.cal)

On obtient :

 𝑠̂ = 11438.199 ≈ 11438.2
 |𝑡𝑐𝑎𝑙 | = |7.687465| ≈ 7.687

La lecture de la valeur tabulé se fait sur la table de la loi de Student à 𝑛1 + 𝑛2 − 2 >


30, degré de liberté. Néanmoins, cette valeur est supérieure à 30, on peut alors
√(𝑛−1)×(𝑥̅ −𝑚)
réaliser l’approximation de la variable de Student à la loi normale centré
𝑠

et réduite N (0,1), (théorème centrale limite).

Ainsi, la probabilité 𝛼 = 0,05, s’obtient par intersection des nombres inscrits en marge
sur la table de loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0 +
0,05.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

31 :Page
Cette probabilité correspond bien à la valeur 𝑡𝛼 = 1,96 , avec
𝑃𝑈 (−1,96 < 𝑈 < 1,96) = 0,95, U étant la valeur de l’écart réduite.

On constate bien que la valeur de tabulée tα (lue sur la table de loi de Gauss) est
inférieur à la valeur calculée |tcal | : 1.96 < 7.687.

Ceci nous ramène à rejeter l’hypothèse nulle au seuil de risque de 5%, autrement dit,
la différence des moyennes des dépenses hebdomadaires auprès des familles
ivoiriennes de deux régions est significative avec une probabilité à 95%.

2) On veut procéder un test rélatif sur deux variances (test bilatéral), en vérifiant
l’hypothèse suivante:

𝐻0 : 𝜎²1 = 𝜎²2
{
𝐻1 : 𝜎²1 ≠ 𝜎²2

En termes plus simple, on suppose :

L’hypothèse nulle 𝐻0 : « La différence des variances n’est pas significative entre les
dépenses de deux régions».

Contre

L’hypothèse alternative 𝐻1 : La différence des variances est significative entre les


dépenses de deux régions ».

Les variances de deux régions 𝜎²1 et 𝜎²1 sont inconnues on va les estimés par
̂ et
leurs estimateurs 𝑠² ̂
𝑠² respectives.
1 2
Connaissant les informations ci-dessous, on peut déterminer les statistiques de
̂ ̂
̂ 𝑒𝑡 𝑠²
𝑠² ̂ et en déduire le Fisher calculé 𝐹 ∗ = 𝑠² 1
𝑜𝑢 𝐹∗∗ =
𝑠² 2
1 2 ̂
𝑠² ̂ :
𝑠²
2 1

̅̅̅1 = 67000; 𝑋
𝑋 ̅̅̅2 = 49000; 𝛼 = 5%, 𝑛1 = 75; 𝑛2 = 35

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

32 :Page
̂ 𝑒𝑡 𝑠²
Les estimateurs de 𝑠² ̂ sont calculés ci-après :
1 2

̂ = 𝑛1×𝑠²1 𝑒𝑡 𝑠²
𝑠² ̂ = 𝑛2×𝑠²2
1 2
𝑛1 − 1 𝑛2 − 1

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> x1=67000;x2=49000;n1=75;n2=35
> s1=12500; s2=8300
> s².chap1<-(n1*s1^2)/(n1-1)
> s².chap2<-(n2*s2^2)/(n2-1)
> x=cbind(s².chap1,s².chap2)
> rownames(x)="estimators:"
> print(x)

On obtient :

̂ = 158361486
 𝑠²1
̂ = 70916176
 𝑠² 2

̂
Effectivement 𝑠² ̂ , on déduit, dans ce cas, le calcul de la statistique
> 𝑠² F* (qui suit
1 2

sous H0 la loi de Fisher)

Programmes R

> isTRUE(s².chap1 > s².chap2)


> F1=s².chap1/s².chap2
> round(F1,3)

On obtient :

 𝐹 ∗ = 2.23308 ≈ 2.233

La probabilité de 𝛼 (5%) se lit sur la table de Fisher-Snedecor : 𝑃(𝐹(𝑛1 − 1, 𝑛2 − 1) >


𝐹𝛼 ) = 0,05. Elle s’obtient à l’intersection de la colonne 𝑛1 − 1 = 74 et de la ligne 𝑛2 − 1
= 34 avec 𝛼 = 0,05.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

33 :Page
On lit comme valeur théorique 𝐹0.05 (74; 34)=1,512.

On constate bien que le Fisher calculé est supérieur à valeur lue sur la table de la loi
de Fisher-Snedecor au seuil de 5%: 𝐹 ∗ > 𝐹𝛼 => 2.233 > 1.512.

Ceci nous ramène à rejeter l’hypothèse nulle (en faveur à l’hypothèse alternative) au
seuil de risque de 5%, autrement dit, la différence des variances entre les deux
dépenses hebdomadaires pour la consommation alimentaire des familles de deux
régions (Abidjan et Yamoussoukro) est significative avec une probabilité à 95%.

En conclusion, on peut affirmer qu’il y’a plus de dispersions des dépenses


hebdomadaires pour la consommation alimentaires dans la famille d’Abidjan que celle
d’Yamoussoukro.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

34 :Page
EXERCICE 8 :

Eléments de Réponses

1) Ici, il s’agit de procéder un test rélatif à deux proportions (test bilatéral), en vérifiant
l’hypothèse suivante:

𝐻0: 𝑝1 = 𝑝2
{
𝐻1: 𝑝1 ≠ 𝑝2

En termes plus limpides, on suppose :

L’hypothèse nulle 𝐻0 : «Aucune différence significative concernant la pauvreté des


chefs de ménages entre le milieu urbain et le milieu rural».

Contre

L’hypothèse alternative 𝐻1 : il existe une différence significative de pauvreté des


chefs de ménages entre le milieu urbain et le milieu rural».

Connaissant les informations ci-dessous, on peut déterminer l’estimateur de 𝑃̂, afin


d’en déduire la statistique | 𝑡𝑐𝑎𝑙 |.

𝑁1 = 24; 𝑁2 = 16; 𝑛1 = 11; 𝑛2 = 10; ; 𝛼 = 5%

L’estimateur de 𝑃̂ est calculé comme suit :

𝑛1 + 𝑛2 𝑁1 × 𝑓1 + 𝑁2 × 𝑓2
𝑃̂ = =
𝑁1 + 𝑁2 𝑁1 + 𝑁2

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

35 :Page
La statistique de |𝑡𝑐𝑎𝑙 | est donnée par :

𝑓1 − 𝑓2
|𝑡𝑐𝑎𝑙 | = || ||
1 1
√𝑃̂ × (1 − 𝑃̂ ) × ( + )
𝑁1 𝑁2

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> N1=24;N2=16;n1=11;n2=10
> f1=n1/N1; f2=n2/N2
> prop.test(c(n1,n2),c(N1,N2),alternative =
"two.sided",conf.level=0.95)
> prop.test(c(n1,n2),c(N1,N2),alternative =
"greater",conf.level=0.95)
> prop.test(c(n1,n2),c(N1,N2),alternative = "less",conf.level=0.95)

On obtient :

2-sample test for equality of proportions with continuity correction

data: c(n1, n2) out of c(N1, N2)


X-squared = 0.5054, df = 1, p-value = 0.4771
alternative hypothesis: two.sided
95 percent confidence interval:
-0.5286027 0.1952693
sample estimates:
prop 1 prop 2
0.4583333 0.6250000

→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

La probabilité associée au test de de comparaison des proportions (test bilatéral) est


de 0.4771, supérieur à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on ne rejette pas alors à tous les seuils de significativités l’hypothèse
nulle H0. Nous pouvons affirmer qu’il n’existe aucune une différence significative de
pauvreté des chefs de ménages entre le milieu urbain et rural. La région de la zone
d’acceptation de l’hypothèse nulle est compris entre: [-0.5286027 0.1952693] avec
une probabilité de 95%.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

36 :Page
Méthode 2 : Avec la loi normale :

Programmes R
> # Méthode de lecture sur la table
> p.chap<-(n1+n2)/(N1+N2)
> q.chap<-1-p.chap
> print(p.chap)
> p.chapo<-round(p.chap,3)
> t.cal<-(f1-f2)/ sqrt(p.chap*q.chap*((1/N1)+(1/N2)))
> print (abs(t.cal))
> t.cal<-round(abs(t.cal),3)
> data.frame(p.chapo,t.cal)

On obtient :

 𝑃̂ = 0.525
 |𝑡𝑐𝑎𝑙 | = |1.034089| ≈ 1.034

La probabilité 𝛼 = 0,05, s’obtient à l’intersection des nombres inscrits en marge sur la


table de loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0 + 0,05.

Cette probabilité correspond bien à la valeur 𝑡𝛼 = 1,96 , avec


𝑃𝑈 (−1,96 < 𝑈 < 1,96) = 0,95, U étant la valeur de l’écart réduite.

On constate bien que la valeur de tabulée tα (lue sur la table) est supérieur à la valeur
calculée |tcal | : 1.96 > 1.034

Ceci nous ramène à conserver l’hypothèse nulle au seuil de risque de 5%, autrement
dit, la différence de pauvreté des chefs de ménages entre le milieu urbain et rural
n’est pas significative avec une probabilité à 95%.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

37 :Page
Méthode 3 : Avec la loi de Khi-Deux:

Le khi-Deux calculé sous le logiciel R vaut 0.5054 est inférieur à la valeur tabulé 3.841
obtenue à l’intersection du seuil de 5% sur la table de la loi de Khi Deux avec 1 degré
de liberté : (2-1)× (2-1) =1.

Dans ce cas précis, on ne rejette pas l’hypothèse nulle au seuil de risque de 5%, le
deux groupes ont la même distribution.

En conclusion, nous pouvons affirmer qu’il n’existe aucune différence significative de


pauvreté des chefs de ménages entre le milieu urbain et rural au seuil de risque de
5%.

EXERCICE 9 :

Eléments de Réponses

1) Ici, il s’agit de procéder un test d’indépendance de khi-deux (test bilatéral) en


vérifiant l’hypothèse suivante :

𝐻0 : 𝑙𝑒𝑠 𝑐𝑎𝑟𝑎𝑐𝑡é𝑟𝑒𝑠 𝑋 𝑒𝑡 𝑌 𝑠𝑜𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠


{ 𝐶𝑜𝑛𝑡𝑟𝑒
𝐻1 : 𝑙𝑒𝑠 𝑐𝑎𝑟𝑎𝑐𝑡é𝑟𝑒𝑠 𝑋 𝑒𝑡 𝑌 𝑠𝑜𝑛 𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠

 Soit 𝑋𝑝 : la variable Types fournisseurs, avec trois modalités, p= {1,2 et 3}


 Soit 𝑌𝑞 : la variable Qualité des pièces, avec trois modalités, q = {1,2 et 3}

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

38 :Page
En termes plus simple, on suppose :

L’hypothèse nulle 𝐻0 : «la qualité des pièces est indépendant du fournisseur».

Contre

L’hypothèse alternative 𝐻1 : la qualité des pièces dépend du fournisseur».

Connaissant les effectifs conjointes (𝑛𝑖𝑗 ) des modalités de deux variables, nous
pouvons déterminer leurs valeurs marginales lignes et colonnes (𝑛𝑖. et 𝑛.𝑗 ) afin de
calculer la statistique de Khi-deux observé (𝜒²𝑜𝑏𝑠𝑒𝑟𝑣é ), donnée par la formule ci-
dessous:

3 3 3 3
𝑛²𝑖𝑗 (𝑛𝑜𝑏𝑠 − 𝑛𝑡ℎé𝑜 )²
𝜒²𝑜𝑏𝑠𝑒𝑟𝑣é = 𝑛 (∑ ∑ − 1) = ∑ ∑
𝑛𝑖. × 𝑛.𝑗 𝑛𝑡ℎé𝑜
𝑖=1 𝑗=1 𝑖=1 𝑗=1

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R
> data<-matrix(c(90,170,135,3,18,6,7,7,9), ncol=3,nrow=3,byrow=F,
dimnames = list(c("A", "B","C"),
c("Bon état", "Défaut mineur", "Défaut majeur")))
> print(data)
> library(MASS)
> chisq.test(data)
> print(sum(data))

On obtient :

 𝜒²𝑜𝑏𝑠𝑒𝑟𝑣é = 7,712

La lecture de la valeur tabulée de Khi-deux se lit par valeur conjointe du degré de


liberté {(p-1)(q-1) = (3-1) (3-1) = 4} et du seuil de 5%. On lit 𝑃(𝜒 2 4 > 9,488) = 0,05

On constate bien que la valeur de tabulée 𝜒 2 𝑡𝑎𝑏𝑢𝑙é (lue sur la table) est supérieur à la
valeur calculée 𝜒²𝑜𝑏𝑠𝑒𝑟𝑣é : 7,712 < 9,488.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

39 :Page
Ceci nous ramène à conserver l’hypothèse nulle au seuil de risque de 5%, autrement
dit, la qualité des pièces est indépendante des types de fournisseurs (A, B et C).

Méthode 2 : Avec le seuil nominal ou p-valeur

Pearson's Chi-squared test

data: data
X-squared = 7.7117, df = 4, p-value = 0.1027

La probabilité associé au test d’indépendance du chi2 (p-value) est 0.1027 supérieur


à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on ne rejette pas alors à tous les seuils de significativités l’hypothèse
nulle d’indépendance entre les deux caractères.

Nous pouvons affirmer que la qualité des pièces est indépendante des types de
fournisseurs (A, B et C).

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

40 :Page
EXERCICE 10 :

Eléments de Réponses

1) a) Ici, il s’agit de procéder un test de normalité de Jarque-Bera sur la variable


« salaire ».

En termes plus simple, on suppose :


𝐻0 : La distribution du salaire suit une loi normale, N (m,𝜎)

Contre

𝐻1 : La distribution du salaire ne suit pas une loi normale, N (m,𝜎)

Effectivement, une loi normale a un coefficient d'asymétrie s presque nulle et une


kurtosis k proche de 3. Le test de Jarque-Bera vérifie indirectement la normalité des
variables en passant par ces deux coefficients.

Ainsi, on peut reformuler les hypothèses comme suit :

𝐻0 : 𝑆 = 0 𝐸𝑇 𝐾 = 3
{ 𝑐𝑜𝑛𝑡𝑟𝑒
𝐻1 : 𝑆 ≠ 0 𝐸𝑇 𝐾 ≠ 3

D’autant plus que la variable de Jarque-Bera suit asymptotiquement la loi de


khi², 𝜒²(2) , elle est définie par :

 n = Nombre d'observations
 k = Nombre de variables explicatives si les données proviennent des résidus
d'une régression linéaire. Sinon, k=0.
 S = Coefficient d'asymétrie de l'échantillon testé (avec moment d’ordre 3: 𝜇̂ 3 )
 K = Kurtosis de l'échantillon testé (avec moment d’ordre 4: 𝜇̂ 4 )

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

41 :Page
Avec :
et

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R
> names(data)
> library(tseries)
> jarque.bera.test(Salaire)

On obtient :

Jarque Bera Test

data: Salaire
X-squared = 0.8771, df = 2, p-value = 0.645

→ Commentaire:

Méthode 1 : Avec le p-valeur (seuil nominal)

La probabilité associée au test de normalité de Jarque-Bera est de 0.645, supérieur à


tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on ne rejette pas à tous les seuils de significativités l’hypothèse nulle de
normalité de la variable salaire.

Nous pouvons affirmer que la distribution de la variable salaire est bien fidèle à celle
d’une loi normale.

Ses coefficients d’aplatissement et d’asymétrique vérifient bien l’hypothèse de la


normalité avec S=0.307 et K=2.613.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

42 :Page
Méthode 2 : Avec le test d’adéquation du Chi2 (cas loi normale)

Comme la variable de Jarque-Bera (JB) suit asymptotiquement une loi de Chi2 ( 𝜒²(2) ),
de degré de liberté 2 (dégrée of fredom df).

On constate bien que la valeur tabulée de Khi² (𝑃( 𝜒²(2) > 7,378 ) =0,05) est inférieur
à la valeur calculée 0.8771 < 7,378.

Ceci nous ramène à conserver l’hypothèse nulle au seuil de risque de 5%, autrement
dit, la distribution de la variable salaire est bien fidèle à celle d’une loi normale avec
une probabilité à 95%.

Méthode 3 : Par graphique

Figure 2 : Appréciation de normalité du salaire

→ Commentaire:

La répartition de la variable Salaire représentée sous forme d’un histogramme et d’une


boite de moustache illustre quasi semblablement à celle d’une loi normale centrée et
réduite. Ces illustrations affirment la normalité de la distribution du salaire.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

43 :Page
1) b) Cette fois-ci, on veut tester la log-normalité de la variable salaire.
En réalité, on dit qu’une variable suit une loi de log-normale si son logarithme suit
la loi normale, autrement – dit, il s’agit de tester la normalité du logarithme (salaire)

𝐻0 : la distribution du log(𝑠𝑎𝑙𝑎𝑖𝑟𝑒) 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑛𝑜𝑟𝑚𝑎𝑙𝑒


{ 𝑐𝑜𝑛𝑡𝑟𝑒
𝐻1 : la distribution du log(𝑠𝑎𝑙𝑎𝑖𝑟𝑒) 𝑛𝑒 𝑠𝑢𝑖𝑡 𝑝𝑎𝑠 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑛𝑜𝑟𝑚𝑎𝑙𝑒

Ou encore, on pourrait vouloir tester aussi l’hypothèse ci-dessous :


𝐻0 : La distribution du salaire ne suit pas une loi log-normale, log (N (m,𝜎))
Contre
𝐻1 : La distribution du salaire ne suit pas une loi log-normale, log (N (m,𝜎))

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R
> library(tseries)
> jarque.bera.test(log(Salaire)))

On obtient :

Jarque Bera Test

data: log(Salaire)
X-squared = 0.503, df = 2, p-value = 0.7777

→ Commentaire:

La probabilité associée au test de normalité de Jarque-Bera est de 0.7777, supérieur


à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on ne rejette pas à tous les seuils de significativités l’hypothèse nulle de
normalité de la variable de logarithme du salaire.

Nous pouvons affirmer que la distribution de la variable logarithme du salaire est bien
fidèle à celle d’une loi normale.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

44 :Page
Ses coefficients d’aplatissement et d’asymétrique vérifient bien l’hypothèse de la
normalité avec S=0.107 et K=2.495.

2) a) Ici, il s’agit d’estimer par intervalle de confiance le salaire moyen au sein d’une
entreprise Dakaroise.

𝑥̅ −𝑚
Vu que l’écart type 𝜎(𝑥) de la population n’est pas connu, la quantité √𝑛 − 1
𝑠

suit une loi de Student à (n-1) degrés de liberté : T(n-1)

Néanmoins, la taille de l’échantillon n est supérieure à 30, le théorème central limité


nous permet d’approximer la variable de Student à celle de la loi normale centrée et
réduite.

Ainsi, la probabilité 𝛼 = 0,05, s’obtient par addition des nombres inscrits en marge sur
la table de loi normale centrée et réduite (écart réduite) : ligne + colonne ⟹ 0,0 +
0,01.
Cette probabilité correspond bien à la valeur 𝑡𝛼 = 2,576 , avec
𝑃𝑈 (−2,576 < 𝑈 < 2,576) = 0,99, U étant la valeur de l’écart réduite.

Les limites de l’intervalle de confiance à 95% de la moyenne sont données par la


probabilité :
𝑠 𝑠
𝑃𝑚 (𝑋̅ − 𝑡𝛼 < 𝑚 < 𝑋̅ + 𝑡𝛼 ) = 0,99
√𝑛 − 1 √𝑛 − 1
avec
𝑠 𝑠
𝑚1 = 𝑋̅ − 𝑡𝛼 et 𝑚2 = 𝑋̅ + 𝑡𝛼
√𝑛−1 √𝑛−1

Connaissant les informations contenues dans le tableau de statistique élémentaire, on


peut déterminer l’estimation du salaire moyen par intervalle de confiance.

Tableau 2 : Statistique descriptives de la variable salaire :

mean var sd sum valid.n min max media


256.2 538.4 23.2 1.025e+04 40 214 312 256

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

45 :Page
En exécutant les programmes suivants sous le logiciel R.2.15.3

Programmes R

> n=40 ;t=1.96


> lower=mean(Salaire)-((t*sd(Salaire))/ (sqrt(n-1)))
> upper=mean(Salaire)+((t*sd(Salaire))/ (sqrt(n-1)))
> CI<-cbind(lower,upper)
> rownames(CI)="Confint.interval"
> print(CI)
> t.test(Salaire, conf.level = 0.95)

On obtient :

Méthode 1 : Avec la formule théorique


𝑠
𝑚1 = 𝑋̅ − 𝑡𝛼 = 249.4955 ≈ 249.50
√𝑛−1
𝑠
𝑚2 = 𝑋̅ + 𝑡𝛼 = 263.9045 ≈ 263.905
√𝑛−1

Le salaire moyen est compris avec une probabilité à 95% entre :

249.50 ≤ m ≤ 263.905

Méthode 2 : Avec la zone d’acceptation de test simple sur la moyenne

One Sample t-test

data: Salaire
t = 69.8428, df = 39, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
248.8288 263.6712
sample estimates:
mean of x
256.25

⟶ Commentaire :

Cette commande sous R-Statistic traite à la fois, l’estimation par intervalle de confiance
et le test rélatif à une moyenne (bilatéral).

Sur les 40 salariés sondés au sein d’une entreprise Dakaroise, le salaire moyen est
compris entre 248.829 et 263.671, avec une probabilité à 95%.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

46 :Page
2) b) La statistique da marge d’erreur (noté me) dans l’estimation du salaire moyen
est déterminée par :
𝑠
𝑚𝑒 = 𝑡𝛼
√𝑛 − 1

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R
> marg.error<-t*sd(Salaire)/ sqrt(n-1)
> print(round(marg.error,3))

On obtient :

𝑚𝑒 =7.282759 ≈ 7.283 (margin of error en Anglais)

⟶ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

Avec un niveau de confiance à 95%, on commet une erreur, en valeur absolue de 7.23,
on estimant le salaire moyen des 40 employés au sein de l’entreprise Dakaroise.

3) Ici, il s’agit bien de procéder un test rélatif à une moyenne (test bilatéral), en
vérifiant l’hypothèse suivante:

𝐻0 : 𝑚 = 220
{ 𝐶𝑜𝑛𝑡𝑟𝑒
𝐻1: 𝑚 ≠ 220

En termes plus limpides, on suppose :

L’hypothèse nulle 𝐻0 : « Le salaire moyen est égale 220».

Contre

L’hypothèse alternative 𝐻1 : Le salaire moyen est diffèrent de 220».

Vu que l’écart type de la population 𝜎 soit inconnu, on va l’estimer par son


estimateur ̂
𝑆.
Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

47 :Page
En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> t.test (Salaire,alternative=c(« two.sided», « less»,


« greater»)))

On obtient :

One Sample t-test

data: Salaire
t = 9.8802, df = 39, p-value = 3.596e-12
alternative hypothesis: true mean is not equal to 220
95 percent confidence interval:
248.8288 263.6712
sample estimates:
mean of x
256.25

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité associée au test de la moyenne (bilatéral) est de 3.596e-12, inférieur à


tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on rejette à tous les seuils de significativités l’hypothèse nulle H0 en


faveur de l’hypothèse alternative.

Nous pouvons affirmer que le salaire moyen est significativement diffèrent de 220.

La région de la zone d’acceptation de l’hypothèse nulle H0 est compris entre :


[248.8288 ; 263.6712] avec une probabilité à 95%.

Méthode 2 :
𝑥̅ −𝑚
La statistique de Student 𝑠
√𝑛 − 1 suit approximativement (converge) une loi
normale centré et réduite (car n>30).

La valeur lue sur la table vaut au seuil de 5% vaut 1.96, on comparant à la statistique
calculée |tcal| 9.8802, elle est inférieure à la valeur observée: 1.96 < 9.8802

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

48 :Page
Ceci nous ramène à rejeter l’hypothèse nulle au seuil de risque de 5%, autrement dit,
nous pouvons affirmer que le salaire moyen est significativement diffèrent de 220 avec
une probabilité à 95%.

On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à droite :

𝐻0: 𝑚 ≤ 220
{
𝐻1: 𝑚 > 220
One Sample t-test

data: Salaire
t = 9.8802, df = 39, p-value = 1.798e-12
alternative hypothesis: true mean is greater than 220
95 percent confidence interval:
250.0683 Inf
sample estimates:
mean of x
256.25

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité associée au test de la moyenne (unilatéralement à droite) est de 1.798e-


12, inférieur à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on rejette alors à tous les seuils de significativités l’hypothèse nulle en
faveur de l’hypothèse alternative.

Nous pouvons affirmer que le salaire moyen est significativement supérieur à 220.

La région de la zone d’acceptation de l’hypothèse nulle se situe à une seule région :


[250.0683 ; +∞ [ avec une probabilité à 95%.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

49 :Page
On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à gauche:

𝐻0 : 𝑚 ≥ 220
{
𝐻1 : 𝑚 < 220
One Sample t-test
data: Salaire
t = 9.8802, df = 39, p-value = 1
alternative hypothesis: true mean is less than 220
95 percent confidence interval:
-Inf 262.4317
sample estimates:
mean of x
256.25

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité associée au test de la moyenne (unilatéralement à gauche) est de 1,


supérieur à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on ne rejette pas alors à tous les seuils de significativités l’hypothèse
nulle.

Nous pouvons affirmer que le salaire moyen est significativement égal au moins à
220.

La région de la zone d’acceptation de l’hypothèse nulle se situe à une seule région :


]- ∞ ; 262.4317].

Conclusion :

Avec le test bilatéral et les tests unilatéraux (à gauche et à droite), on parvient à


conclure que le salaire moyen est significativement différent de 220 avec un niveau de
confiance à 95%.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

50 :Page
4) Cette fois-ci, on veut procéder à un test rélatif à une variance (bilatéral), en
vérifiant l’hypothèse suivante:

𝐻0: σ² = 530
{
𝐻1: 𝜎² ≠ 530

En termes plus simples, on suppose :

L’hypothèse nulle 𝐻0 : « La variance du salaire est égale 530».

Contre

L’hypothèse alternative 𝐻1 : La variance du salaire est diffèrent de 530».

La variance de la population 𝜎² est inconnue, on va estimer par son


estimateur ̅ = 1 ∑40 𝑥 ² − 𝑥²
𝑆² ̅.
39 𝑖=1 𝑖

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes de R
> sigma<-530
> sigma.test(Salaire,sigmasq=sigma,alternative=
c(«two.sided », « less », « greater »)

On obtient :

One sample Chi-squared test for variance

data: Salaire
X-squared = 39.6217, df = 39, p-value = 0.8843
alternative hypothesis: true variance is not equal to 530
95 percent confidence interval:
361.3124 887.7658
sample estimates:
var of Salaire
538.4487

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

51 :Page
→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité associée au test de la variance (bilatéral) est de 0.8843, supérieur à


tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on ne rejette pas à tous les seuils de significativités l’hypothèse nulle H0.

Nous pouvons affirmer que la variance du salaire est significativement égale à 530.

La région de la zone d’acceptation de l’hypothèse nulle H0 est compris entre :


[361.3124 ; 887.7658].

Méthode 2 : Avec la table de Khi-deux

La statistique de Chi2 calculé (X-squared) est = 39.6217, avec (n-1) = 39 degrés de

liberté. Par conséquent, la statistique de Chi2 √2 × 𝜒²(40) − √2 × 𝑛 − 1 suit

approximativement une loi normale centré et réduite (selon le théorème centrale


limite).

La valeur lue sur la table au seuil de 5% vaut 1.96, on constate qu’elle est inférieur à
la statistique calculée : 1.96 < 39.6217

Ceci nous ramène à rejeter l’hypothèse nulle au seuil de risque de 5%, autrement dit,
nous pouvons affirmer que la variance du salaire est égale à 530.avec une probabilité
à 95%.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

52 :Page
On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à droite :

𝐻0 : 𝜎² ≤ 530
{
𝐻1 : 𝜎2 > 530
One sample Chi-squared test for variance

data: Salaire
X-squared = 39.6217, df = 39, p-value = 0.4422
alternative hypothesis: true variance is greater than 530
95 percent confidence interval:
384.802 Inf
sample estimates:
var of Salaire
538.4487

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité associée au test de la variance (unilatéralement à droite) est de 0.4422,


supérieur à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on ne rejette pas à tous les seuils de significativités l’hypothèse nulle.

Nous pouvons affirmer que la variance du salaire est significativement égale au plus
à 530.

La région de la zone d’acceptation de l’hypothèse nulle se situe à une seule région :


[384.802; +∞ [ avec une probabilité à 95%.

On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à gauche

𝐻0 : 𝜎² ≥ 530
{
𝐻1 : 𝜎2 < 530

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

53 :Page
One sample Chi-squared test for variance

data: Salaire
X-squared = 39.6217, df = 39, p-value = 0.5578
alternative hypothesis: true variance is less than 530
95 percent confidence interval:
0.0000 817.2478
sample estimates:
var of Salaire
538.4487

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité associée au test de la variance (unilatéralement à gauche) est de


0.5578, supérieur à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on ne rejette pas alors à tous les seuils de significativités l’hypothèse
nulle.

Nous pouvons affirmer que la variance du salaire est significativement égale au moins
à 530.

La région de la zone d’acceptation de l’hypothèse nulle est compris entre : [0.0000 ;


817.2478] avec une probabilité à 95%.

Conclusion :

Avec le test bilatéral et les tests unilatéraux, on parvient à conclure que la variance
du salaire est significativement égale à 530 avec un niveau de confiance à 95%.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

54 :Page
5) Ici, il s’agit de mener un test non paramétrique rélatif à une médiane (test bilatéral)
en vérifiant l’hypothèse suivante :

𝐻0 : Me = 240
{ 𝑐𝑜𝑛𝑡𝑟𝑒
𝐻1: 𝑀𝑒 ≠ 240

En termes plus simples, on suppose :

L’hypothèse nulle 𝐻0 : « Le salaire médian est égale 240».

Contre

L’hypothèse alternative 𝐻1 Le salaire médian est diffèrent de 240».

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R
> SIGN.test(Salaire, md = 240)
> wilcox.test(Salaire, md=240)

On obtient :

One-sample Sign-Test

data: Salaire
s = 28, p-value = 0.002563
alternative hypothesis: true median is not equal to 240
95 percent confidence interval:
246.0919 262.6352
sample estimates:
median of x
256
Conf.Level L.E.pt U.E.pt
Lower Achieved CI 0.9193 249.0000 259.0000
Interpolated CI 0.9500 246.0919 262.6352
Upper Achieved CI 0.9615 245.0000 264.0000

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

55 :Page
Méthode 1 : test de signe (rank)

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité critique 0.002563 est inférieur à α = 0,05. Il n'est pas probable que nous
observions si peu de signes positifs (cas ou l'hypothèse nulle n’est pas rejetée). Par
conséquent, nous rejetons l'hypothèse nulle en faveur de l'hypothèse alternative. Il
existe des preuves suffisantes, au seuil de 5%, pour conclure que le salaire médian
est significativement diffèrent de 240.

Par ailleurs, les nombres obtenues des signes positifs (noté N+ ou s) est plus petite
par rapport au nombre de signe positifs observés (n+), ci qui donne une probabilité
critique: 𝑃(𝑁+≤ 𝑛 +)=0.002563, où (N+) suit une loi binomiale 𝐵(𝑛,𝑝) .

L’estimateur de la médiane vaut 256 avec une probabilité à 95%, le salaire médian est
compris entre [246.092 ; 262.635].

Méthode 2 : test de wilcoxon (rank)

Wilcoxon signed rank test with continuity correction

data: Salaire
V = 599, p-value = 0.000193
alternative hypothesis: true location is not equal to 240

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité associée au test de Wilcoxon 0.000193 est inférieur au seuil de


conventionnels (1%,5% et 10%).

Dans ce cas, nous rejetons l’hypothèse nulle 𝐻0 en faveur de l’hypothèse

alternative. Nous pouvons affirmer que le salaire médian est significativement diffèrent
de 240.

Ainsi, la valeur V = 599 correspond à la somme des rangs attribués aux différences
avec un signe positif.

On peut calculer manuellement la somme des rangs attribués aux différences avec le
signe positif et la somme des rangs attribués aux différences avec le signe négatif,
Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

56 :Page
pour comparer cet intervalle avec l'intervalle tabulé sur les tableaux de Wilcoxon 1 pour
les échantillons appariés et confirmer notre règle de décision :

L'intervalle calculé (104, 599) est comparé à l’intervalle tabulé sur les tables de
Wilcoxon (si l’intervalle calculé n’est pas contenu dans le tableau, on rejette
l'hypothèse nulle H0. Dans notre cas, on rejette l’hypothèse nulle H0 au seuil de 5%.

On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à droite

𝐻0: 𝑀𝑒 ≤ 240
{
𝐻1: 𝑀𝑒 > 240

Wilcoxon signed rank test with continuity correction

data: Salaire
V = 599, p-value = 9.652e-05
alternative hypothesis: true location is greater than 240 than 240

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité associée au test de la Wilcoxon (unilatéralement à droite) est de 9.652e-


05, inférieur à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on rejette alors à tous les seuils de significativités l’hypothèse nulle.

Nous pouvons affirmer que le médian du salaire n’est pas significativement égal à
240.

On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à gauche

𝐻0 : 𝑀𝑒 ≥ 240
{
𝐻1 : 𝑀𝑒 < 240
Wilcoxon signed rank test with continuity correction

data: Salaire
V = 599, p-value = 0.9999
alternative hypothesis: true location is less than 240 than 240

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

57 :Page
→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité associée au test de Wilcoxon (unilatéralement à gauche) est de 0.9999,


supérieur à tous les seuils conventionnels (1%,5% et 10%).

Dans ce cas, on ne rejette pas alors à tous les seuils de significativités l’hypothèse
nulle.

Nous pouvons affirmer que le médian du salaire est au moins significativement égal
au plus à 240.

Conclusion :

Avec le test bilatéral et les tests unilatéraux de Wilcoxon et le test de signe, on parvient
à conclure que le salaire médian est significativement différent de 240 avec un niveau
de confiance à 95%.

1 : Un autre test concurrence celui de Wilcoxon et c’est celui des signes. L’avantage de celui de Wilcoxon est de
prendre en considération les différences d'écarts entre observations

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

58 :Page
6) Ici, il s’agit de rémodéliser le tableau en genre avant de procéder un test rélatif à
deux moyennes, en vérifiant l’hypothèse suivante:

𝐻0 : 𝑚 1 = 𝑚 2
{ 𝐶𝑜𝑛𝑡𝑟𝑒
𝐻1 : 𝑚 1 > 𝑚 2

En termes plus simple, on suppose :

L’hypothèse nulle 𝐻0 : « il n’existe aucune différence significative de salaire moyen


entre les hommes et les femmes».

Contre

L’hypothèse alternative 𝐻1 : Le salaire moyen pour les hommes est supérieur à ceux
des femmes».

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> t.test(Salaire~Sexe,alternative="greater",pair=F)

On obtient :

Welch Two Sample t-test

data: Salaire by Sexe


t = -3.2836, df = 36.327, p-value = 0.9989
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
-32.8042 Inf
sample estimates:
mean in group 0 mean in group 1
244.3333 266.0000

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

59 :Page
→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité critique associée à la statistique de Student 0.9989 est supérieur aux


seuils conventionnels (1%,5% et 10%). Dans ce cas, Nous ne rejetons pas l'hypothèse
nulle 𝐻0 .

Ainsi, nous pouvons affirmer qu’il ’n’existe pas une différence significative des salaires
moyens entre les hommes et les femmes.

La région de la zone d’acceptation de l’hypothèse nulle H0 se situe à une seule


région : [-32.8042 ; + +∞ [.

Méthode 2 :

D’autre part ailleurs, La statistique de Student lue sur la table au seuil de 5% avec un
degré de liberté (36 > 30), est approchée à une loi normale centré et réduite. Au seuil
de 5%, on lit une valeur tabulé de 1,96 (sur la table de loi de Gauss).

On comparant la statistique calculée de Student est -3.2836 à 1.96, on constate que


la valeur lue est supérieur à la valeur calculé, on retient, avec cette méthode aussi
l’hypothèse H0. L’écart de salaire moyen pour les femmes et les hommes n’est pas
significative (semble négligeable) au seuil de 5%. On peut facultativement vérifier avec
le test d’égalité des variances (Voir Réponse 7).

Figure 3. Distribution des salaires pour appréciation de la normalité

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

60 :Page
Graphiquement, la distribution de salaire pour les femmes est fidèle à une distribution
normale, tandis que pour les hommes, la distribution n’est pas sûre de suivre la loi
normale, vérifions, avec un test de normalité la distribution de salaire pour les
hommes.

Test de Shapiro -Wilk

Très populaire, le test de Shapiro-Wilk est basé sur la statistique W. En comparaison


avec autres tests, il est particulièrement puissant pour les petits effectifs (n ≤ 50) et .
La statistique du test s'écrit :

Shapiro-Wilk normality test

data: data$Salaire[data$Sexe == "M"]


W = 0.9488, p-value = 0.2983

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

Le seuil nominal du test de Shapiro-Wilk 0.2983 est supérieur aux seuls


conventionnels (1%,5%, et 10%), le test affirme que la distribution de salaire pour les
hommes est suffisamment proche de la normalité. La statistique W vaut 0.9488 (il est
interprété comme le carré du coefficient de corrélation entre la série des quantiles
générés à partir de la loi normale et les quantiles empiriques obtenus à partir de la
donnée), comme w est plus grand que celui lue sur la Table des valeurs limites de Wilk
0.940. En conséquence, l'hypothèse de normalité est compatible avec la distribution
du salaire des hommes.

On a constaté qu’il n’y avait pas de différence significative entre les salaires moyens
entres les femmes et les hommes, examinons cette fois-ci, avec un test plus robuste.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

61 :Page
Test de Wilcoxon

Vue que nos variables sont distribuées normalement, utilisons alors, un test robuste,
celui Wilcoxon/Mann-Whitney pour EXAMINER la différence de salaire entre les
Hommes et les Femmes.

Wilcoxon rank sum test with continuity correction

data: data$Salaire by data$Sexe


W = 86.5, p-value = 0.002521
alternative hypothesis: true location shift is not equal to 0

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

Ce test a l’avantage d’être non-paramétrique, c’est à dire de ne faire aucune hypothèse


sur la distribution des échantillons comparés. Par contre il ne compare pas des
différences de moyennes mais des différences de médianes en terme de rang.

Avec une probabilité critique de 0.002521 inférieur à tous les seuils conventionnels de
(1%,5% et 10%), il y’a, une différence significative du salaire médian entre les femmes
et les hommes.

7) Ici, on veut procéder un test rélatif à deux variances entre (bilatéral), en vérifiant
l’hypothèse suivante:

𝐻0: 𝜎²1 = 𝜎²2


{
𝐻1: 𝜎²1 ≠ 𝜎²2

En termes plus simples, on suppose :

L’hypothèse nulle 𝐻0 : « Aucune différence significative des variances des salaires


entre les hommes et les femmes».

Contre

L’hypothèse alternative 𝐻1 : « il existe une différence significative des variances des


salaire entre les hommes et les femmes».

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

62 :Page
Or les variances de deux groupes ne sont pas connues, on va les estimés par leurs
estimateurs respectifs.

En exécutant les programmes suivants sous le logiciel R.2.15.3:


Programme
SR
> var.test (Salaire ~Sexe,alternative= «two.sided »)

On obtient :

F test to compare two variances

data: Salaire by Sexe


F = 1.0166, num df = 17, denom df = 21, p-value = 0.9589
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.4093791 2.6431504
sample estimates:
ratio of variances
1.016604

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité critique associée à la statistique de Fisher 0.9589 est supérieur aux


seuils conventionnels (1%,5% et 10%). Dans ce cas, Nous ne rejetons pas l’hypothèse
nulle H0.

Nous pouvons affirmer qu’il n’existe pas une différence significative des variances des
salaires entre les hommes et les femmes.

La région de la zone d’acceptation de l’hypothèse nulle est compris entre :


[0.4093791; 2.6431504] avec une probabilité à 95%.

D’autant plus que la statistique de Fisher lue sur la table au seuil de 5% avec un degré
de liberté 𝐹𝑛,𝑚 (17 et 21) est 2,190 avec P (𝐹17,21 > 2,190 )=0,05

Ainsi, on comparant avec la statistique calculée de Fisher 1.0166, il est bien inférieur
à la valeur théorique (ou tabulé), avec cette méthode aussi l’hypothèse H0 n’est pas
rejetée.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

63 :Page
On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à droite :

𝐻0: 𝜎²1 = 𝜎²2


{
𝐻1: 𝜎²1 > 𝜎²2
On obtient :

F test to compare two variances

data: Salaire by Sexe


F = 1.0166, num df = 17, denom df = 21, p-value = 0.4794
alternative hypothesis: true ratio of variances is greater than 1
95 percent confidence interval:
0.4752992 Inf
sample estimates:
ratio of variances
1.016604

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité critique associée à la statistique de Fisher 0.479 est supérieur aux


seuils conventionnels. Dans ce cas, Nous ne rejetons pas l'hypothèse nulle 𝐻0 .

Par ailleurs, nous pouvons affirmer qu’il n’existe pas une différence significative des
variances des salaires entre les hommes et les femmes.

La région de la zone d’acceptation de l’hypothèse nulle H0 se situe


entre: [0.4752992 ; +∞ [ avec une probabilité à 95%.

On désire vérifier le bien-fondé de l’affirmation avec un test unilatéral à droite :

𝐻0: 𝜎²1 = 𝜎²2


{
𝐻1: 𝜎²1 < 𝜎²2

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

64 :Page
On obtient :

F test to compare two variances

data: Salaire by Sexe


F = 1.0166, num df = 17, denom df = 21, p-value = 0.5206
alternative hypothesis: true ratio of variances is less than 1
95 percent confidence interval:
0.000000 2.255742
sample estimates:
ratio of variances
1.016604

→ 𝑪𝒐𝒎𝒎𝒆𝒏𝒕𝒂𝒊𝒓𝒆:

La probabilité critique p-value associée à la statistique de Fisher 0.5206 est supérieur


aux seuils conventionnels. Dans ce cas, Nous ne rejetons pas l'hypothèse nulle 𝐻0 .

Par ailleurs, nous pouvons affirmer aux niveaux conventionnels, qu’il n’existe pas une
différence significative des variances des salaires entre les hommes et les femmes.

La région de la zone d’acceptation de l’hypothèse nulle H0 se situe


entre:[0.000000 2.255742 ] avec une probabilité à 95%.

8) a) Ici, il s’agit de procéder un test d’indépendance de khi-deux entre deux


caractères, en vérifiant l’hypothèse suivante :

𝐻0: 𝐿𝑒𝑠 𝑐𝑎𝑟𝑎𝑐𝑡é𝑟𝑒𝑠 𝑥 𝑒𝑡 𝑦 𝑠𝑜𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠


{ 𝐶𝑜𝑛𝑡𝑟𝑒
𝐻1: 𝐿𝑒𝑠 𝑐𝑎𝑟𝑎𝑐𝑡é𝑟𝑒𝑠 𝑥 𝑒𝑡 𝑦 𝑠𝑜𝑛𝑡 𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑠

En termes limpides, on suppose :

L’hypothèse nulle 𝐻0 : «le salaire ne dépend pas du genre de l’individu».

Contre

L’hypothèse alternative 𝐻1 : « le salaire dépend du genre de l’individu».

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

65 :Page
Vu que le salaire est bien une variable quantitative, pour étudier le degré de liaison
d’indépendance, il faudrait regrouper cette variable en différentes classes de salaires.

En effet, il existe plusieurs algorithmes de calcul du nombre de classes notamment la


plus célèbre, celle de formule de Sturges ; formule de Scott et la formule de Freedman-
Diaconis…etc.

En revanche, la répartition des valeurs en classe à l’intérieur des classes génère une
perte d’information sur les données initiales.

Théoriquement, on détermine l’amplitude de chaque future classe (ai):


𝐸
𝑎𝑖 = 𝑆 , avec E comme étendue et S, Sturges

i- L’étendue (E) de la distribution du salaire est donnée :

La différence, en valeur absolus entre la plus grande valeur (Max) et la plus petite
valeur (Min) :
E= | min (salaire)-Max (salaire) | = 98

ii- La formule de Sturges est donnée par :

Herbert Sturges (1926) qui, pour n points de données répartis avec une distribution
approximativement normale, suggère un nombre de classes K obtenu avec la formule
suivante :
10
𝑠 = 1 + 𝑙𝑜𝑔2 (𝑛) ≈ 1 + × 𝑙𝑜𝑔10 (𝑛)
3

L'alternative à la règle précédente est la règle dite de Rule :


3
𝑅 = 2 × √𝑛

Ou encore celui de Yule :

4
𝑌 = 2.5 × √𝑛

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

66 :Page
La taille de classe est basé sur l’effectif de l’échantillon (n : nombre d’observations)

ln(40)
𝑆 = 1 + 3,322 × log10 (40), 𝑎𝑣𝑒𝑐 log10 (40) =
ln(10)
𝑆 = 6.924103283 ≈ 7 classes

98
On déduit l’amplitude de chaque classe 𝑎𝑖 = = 14
7

On trie la variable Salaire par ordre croissant et regroupe par 7 classes (ou 7
modalités) chacune d’amplitude 14.

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> E=max(Salaire)-min(Salaire)
> x<-data$Salaire
> nclass.Sturges(x)
> salair.class[which(salair.class<=228)] <-"[214;228["
> salair.class[which(salair.class>= 229 & salair.class<=242)] <-
"[228;242["
> salair.class[which(salair.class>= 243 & salair.class<=256)] <-
"[242;256["
> salair.class[which(salair.class>= 257 & salair.class<=270)] <-
"[256;270["
> salair.class[which(salair.class>= 271 & salair.class<=284)] <-
"[270;284["
> salair.class[which(salair.class>= 285 & salair.class<=312)]<-
"[284;312["
> DatA<-cbind(data,salair.class)
> table(salair.class); sum(table(salair.class))

On obtient une variable catégorielle salaire regroupé en 7 classes (ou modalités) selon
la formule de Sturges.

Généralement, il n’est pas souhaitable de construire des classes à effectif nul ou trop
faible. Dans la construction des classes premières de 7 classes, elle peut être modifiée
en 6 classes.

Dans ce cas, on peut mésurer la dépendance ou l’indépendance entre la variable sexe


et salaire. (Pour le Tableau de contingence Voir Annexe)

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

67 :Page
S’agissant d’un test d’indépendance du χ² (Khi2) entre les variables catégorielles :

 Soit 𝑋𝑝 : les salaires, avec sept modalités, p= {1,2..,6}


 Soit 𝑌𝑞 : le sexe, avec deux modalités, q = {1 et 2}

Dans l’analyse qualitative-qualitative, il existe une variété des indicateurs des mesures
d’associations notamment, le Chi2 ; le V de cramer ; Le coefficient de contingence
(CC) ; le coefficient phi (de Pearson) et le pourcentage de l’écart Maximum (PEM) :

𝑛𝑖𝑗² 1 (𝑛𝑜𝑏𝑠 −𝑛𝑡ℎé𝑜𝑞)²


 Coefficient de Chi2 : 𝝌𝟐 = 𝑛(∑ ∑ − 1) = ∑ ∑
𝑛𝑖. ×𝑛.𝑗 𝑛 𝑛𝑡ℎé𝑜𝑞

𝝌² 𝝌²
 V de Cramer : 𝑽 = √𝝌² = √𝒏×[𝒎𝒊𝒏(𝒑,𝒒)−𝟏]
𝒎𝒂𝒙

𝝌²
 Coefficient de contingence (CC) : 𝑪𝑪 = √𝝌𝟐 +𝒏

𝝌²
 Phi de Pearson : 𝝋² = √ 𝒏

Nous allons mésurer la liaison entre salaire et sexe en visitant ces différents
coefficients de contingence ou d’associations :

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R

> chisq.test( cros.tab2)


> V <- cramer.v(cros.tab2)
> X² = 11.4125;n=40
> cc<-sqrt((X²)/( X²+n))
> phi<-sqrt(X²/n)
> cbind(X²,V,cc,phi)

On obtient :

Pearson's Chi-squared test

data: cros.tab2 X-squared = 11.4125, df = 5, p-value = 0.04379


X² V cc phi
11.4125 0.5341474 0.4711466 0.5341465

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

68 :Page
→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

La probabilité critique associée au test de chi2 de Pearson est 0.04379 inférieure au


seuil de risque 0.05, nous rejetons l'hypothèse nulle d’indépendance entre les
variables en faveur à l’hypothèse de dépendance entre les caractères.

Nous pouvons affirmer aux seuils de 1% que le salaire dépend du genre.

En ce sens, on dit alors que la distribution de probabilité de la variable salaire est


sous influence du genre.

Méthode 2 :

Ainsi, le Chi2 calculé est 11.4125, avec un degré de liberté 5, on comparant à la valeur
tabulé sur la table de la loi de Chi2 (P(𝜒²(6) > 𝑈) = 0,05) avec 𝑈 = 11.070.

Le Chi2 calculé est supérieur à Chi2 lue (théorique), au seuil de risque de 5%, on
rejette l’hypothèse nulle H0 d’indépendance en faveur de l’hypothèse alternative.

En effet, le coefficient de cramer V (0.5) ni proche 0 et ni proche de 1. le phi de Pearson


(0.5341465) est aussi égal à V de cramer (car le sexe à deux modalités).

De même, le coefficient de contingence (0.4764884) est aussi inférieur à 1.

Conclusion :

Avec le test d’indépendance du khi-deux, au seuil de 1% ; le coefficient de cramer ; le


phi de Pearson et le coefficient de contingence, on peut affirmer générale, le salaire et
le genre sont dépendant du genre.

En revanche, avec le test de Khi-deux au seuil de 5%, cette dépendance est rejeté
avec un seuil nominal très serré 0.0437 contre 0.05.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

69 :Page
b) Cette fois-ci, il s’agit de tester l’hypothèse d’indépendance entre le niveau de
responsabilité et le salaire :

𝐻0: 𝐼𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑎𝑛𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑋 𝑒𝑡 𝑌


{ 𝑐𝑜𝑛𝑡𝑟𝑒
𝐻1: 𝐷𝑒𝑝𝑒𝑛𝑑𝑎𝑛𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑋 𝑒𝑡 𝑌

L’hypothèse nulle 𝐻0 : «le salaire ne dépend pas du niveau de responsabilité».

Contre

L’hypothèse alternative 𝐻1 : « le salaire dépend du niveau de responsabilité».

S’agissant d’un test d’indépendances du χ² (bilatéral) entre deux variables


catégorielles :

 Soit 𝑋𝑝 : les salaires, avec sept modalités, p= {1,2..,6}


 Soit 𝑌𝑞 : le sexe, avec deux modalités, q = {1,2,…,5}

(Voir le tableau de contingence en Annexe)

En exécutant les programmes suivants sous le logiciel R.2.15.3:

Programmes R
> chisq.test( cros.tab3)
> cramer.v(cros.tab3)
> V <- cramer.v(cros.tab2)
> X² = 35.967;n=40
> cc<-sqrt((X²)/( X²+n))
> phi<-sqrt(X²/n)
> cbind(X²,V,cc,phi)

On obtient :

Pearson's Chi-squared test

data: cros.tab3
X-squared = 35.967, df = 20, p-value = 0.01552
X² V cc phi
35.967 0.4741245 0.6880811 0.9482484

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

70 :Page
→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

La probabilité associée au test de chi2 de Pearson (0.01552) est inferieur


significativement au seuil de risque de 5%. Dans ce cas, nous rejetons l'hypothèse
nulle d’indépendance entre les variables en faveur de l’hypothèse alternative.

Nous pouvons affirmer aux seuils 1% que le salaire dépend du niveau de


responsabilité.

On dit alors que la distribution de probabilité de la variable salaire est influencée


significativement par le niveau de responsabilité au sein de l’entreprise.

Méthode 2 :

En effet, le Chi2 calculé est 35.967, avec 20 degré de libertés, il est comparé à la
valeur tabulé 31.410 sur la table de loi de Chi2 (P(𝜒²(24) > 𝑈) = 0,05) est 𝑈 = 31.410.

Le Chi2 calculé est supérieur à Chi2 théorique, au seuil de risque de 5%, on rejette
l’hypothèse nulle H0 d’indépendance entre salaire et niveau de responsabilité.

En effet, le coefficient de cramer V (0.474), le phi de Pearson (0.948248) est proche


de 1 (liaison significative). De même, le coefficient de contingence (0.69) proche de 1.

Conclusion :

Avec le test d’indépendance du khi-deux, au seuil de 1% ; le coefficient de cramer ; le


phi de Pearson et le coefficient de contingence, on peut affirmer générale, le salaire
dépend de la responsabilité au sein de l’entreprise.

En revanche, avec le test de Khi-deux au seuil de 5%, cette dépendance est rejetée.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

71 :Page
Mesures d’intensités de liaisons par graphique :



Figure 4 : graphique d’intensité de liaison entre sexe et salaire

→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

La rémunération compris entre [214-228[ (faible) sont accordés essentiellement aux


femmes.

D’autre part, la rémunération entre [256-270[ (assez élevée) sont principalement


octroyés aux hommes. Enfin, la rémunération la plus élevée [284,312[ montre une
prédominance pour les hommes au détriment des femmes salariés de l’entreprise.

On conclusion, cette analyse par graphique prouve également, l’influence du sexe


des employés sur le salaire .

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

72 :Page
Figure 5 : graphique d’intensité de liaison entre Niveau et salaire

→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

La rémunération compris entre [214-228[ ; [248,242[ ; [242,256[ sont alloués


principalement aux niveaux de responsabilité 1 et 2 au sein de l’entreprise.

D’autre part, la rémunération entre [270-284 [ ; sont principalement attribués aux


niveaux de responsabilités 3 et 4. Enfin, la rémunération la plus élevée [298,312[ est
accordée au niveau 5 de responsabilité au sein de l’entreprise.

On conclusion, cette analyse par graphique prouve aussi, l’influence de niveaux de


responsabilités au sein de l’entreprise sur le salaire.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

73 :Page
Analyse Approfondie (facultative)


Etudes de liens bivariées : Quantitative et Qualitative : (mixtes)

En effet, on peut mener parallèlement une étude entre une variable quantitative et une
variable qualitative (dites variables mixtes) : ici entre salaire (quantitative) avec sexe,
puis avec niveau: il s’agit le test d’ANOVA et le Rapport de corrélation.

1. Test d’ANOVA
L'analyse de la variance (ANOVA) permet d'étudier le comportement d'une variable
quantitative à expliquer en fonction d'une ou de plusieurs variables nominales
catégorielles.
On utilisera une analyse de la variance multiple (MANOVA), lorsque l'on souhaite
étudier le comportement de plusieurs variables à expliquer en même temps.
On utilisera alors une analyse de la covariance (ANCOVA), si un modèle contient des
variables explicatives catégorielles et continues et que l'on souhaite étudier les lois
liant les variables explicatives continues avec la variable à expliquer en fonction de
chaque modalité des variables catégorielles.

Test d’ANOVA Entre salaire et sexe :

Df Sum Sq Mean Sq F value Pr(>F)


Sexe 1 4647 4647 10.8 0.00219 **
Residuals 38 16352 430
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

La valeur Fisher est 10.8 avec une probabilité critique 0.00219, au seuil de 1%, on
rejette l’hypothèse nulle, alors il existe au moins une distribution dont la moyenne
s'écarte des autres moyennes. La variation du salaire de cette entreprise fluctue
relativement avec le sexe.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

74 :Page
Test d’ANOVA Entre salaire et Niveau :

Df Sum Sq Mean Sq F value Pr(>F)


Niveau 1 8389 8389 25.28 1.22e-05 ***
Residuals 38 12610 332
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

→ 𝐶𝑜𝑚𝑚𝑒𝑛𝑡𝑎𝑖𝑟𝑒:

La valeur Fisher est 25.28 avec une probabilité critique 1.22e-05, au seuil de 1%, on
rejette l’hypothèse nulle, alors il existe au moins une distribution dont la moyenne
s'écarte des autres moyennes. La variation du salaire de cette entreprise fluctue
relativement avec le niveau.

2. Rapport de corrélation

Le rapport de corrélation est un indicateur statistique qui mesure l’intensité de la liaison


entre une variable quantitative et une variable qualitative (salaire, sexe et salaire,
Niveau) : Variabilité totale = variabilité inter-classe + variabilité intra-classe

𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡é 𝑖𝑛𝑡𝑒𝑟
𝜂2 (𝑆𝑎𝑙𝑎𝑖𝑟𝑒 ,𝑠𝑒𝑥𝑒) = = 0.2213148
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡é 𝑡𝑜𝑡𝑎𝑙

La différence entre le genre (féminin et masculin) rend compte de 22,13% de la


variabilité totale du salaire. En effet, les salaires des hommes est légèrement supérieur
à ceux des femmes, (car la différence est plus ou moins petite).

𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡é 𝑖𝑛𝑡𝑒𝑟
𝜂2 (𝑆𝑎𝑙𝑎𝑖𝑟𝑒 ,𝑛𝑖𝑣𝑒𝑎𝑢) = = 0.5077448
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑡é 𝑡𝑜𝑡𝑎𝑙

La différence entre les niveaux de responsabilités rend compte de 50,77% de la


variabilité totale du salaire. En ce sens, les salaires augmentent en fonction du niveau
de responsabilité au sein de l’entreprise.

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

75 :Page

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
DEVOIR DE Statistique Inferentielle

76 :Page
Tableau 3: Tableau de contingence entre salaire et sexe (avec effectifs et fréquences
conjointes/marginaux)

Total Observations in Table: 40

| Sexe
salair.class | F | M | Row Total |
------------------|-----------|-----------|-----------|
[214;228[ | 5 | 0 | 5 |
| 1.000 | 0.000 | 0.125 |
| 0.278 | 0.000 | |
------------------|-----------|-----------|-----------|
[228;242[ | 4 | 2 | 6 |
| 0.667 | 0.333 | 0.150 |
| 0.222 | 0.091 | |
------------------|-----------|-----------|-----------|
[242;256[ | 5 | 5 | 10 |
| 0.500 | 0.500 | 0.250 |
| 0.278 | 0.227 | |
------------------|-----------|-----------|-----------|
[256;270[ | 2 | 7 | 9 |
| 0.222 | 0.778 | 0.225 |
| 0.111 | 0.318 | |
------------------|-----------|-----------|-----------|
[270;284[ | 1 | 3 | 4 |
| 0.250 | 0.750 | 0.100 |
| 0.056 | 0.136 | |
------------------|-----------|-----------|-----------|
[284;312[ | 1 | 5 | 6 |
| 0.167 | 0.833 | 0.150 |
| 0.056 | 0.227 | |
------------------|-----------|-----------|-----------|
Column Total | 18 | 22 | 40 |
| 0.450 | 0.550 | 1 |
------------------|-----------|-----------|-----------|

Deuxième modèle d’un tableau de contingence sous R (avec effectifs conjointes et


marginaux)

Salaire/Sexe Femmes hommes Total


[214;228[ 5 0 5
[228;242[ 4 2 6
[242;256[ 5 5 10
[256;270[ 2 7 9
[270;284[ 1 3 4
[284;312[ 1 5 6
Total 18 22 40

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
I
DEVOIR DE Statistique Inferentielle

77 :Page
Tableau 4: Tableau de contingence entre salaire et niveau (avec effectifs conjointes/marginaux et fréquences conjointes/marginaux)

Total Observations in Table: 40

| Niveau
salair.class | 1 | 2 | 3 | 4 | 5 | Row Total |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[214;228[ | 3 | 2 | 0 | 0 | 0 | 5 |
| 0.600 | 0.400 | 0.000 | 0.000 | 0.000 | 0.125 |
| 0.600 | 0.182 | 0.000 | 0.000 | 0.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[228;242[ | 0 | 2 | 3 | 1 | 0 | 6 |
| 0.000 | 0.333 | 0.500 | 0.167 | 0.000 | 0.150 |
| 0.000 | 0.182 | 0.214 | 0.125 | 0.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[242;256[ | 2 | 4 | 1 | 3 | 0 | 10 |
| 0.200 | 0.400 | 0.100 | 0.300 | 0.000 | 0.250 |
| 0.400 | 0.364 | 0.071 | 0.375 | 0.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[256;270[ | 0 | 3 | 5 | 1 | 0 | 9 |
| 0.000 | 0.333 | 0.556 | 0.111 | 0.000 | 0.225 |
| 0.000 | 0.273 | 0.357 | 0.125 | 0.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[270;284[ | 0 | 0 | 3 | 1 | 0 | 4 |
| 0.000 | 0.000 | 0.750 | 0.250 | 0.000 | 0.100 |
| 0.000 | 0.000 | 0.214 | 0.125 | 0.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
[284;312[ | 0 | 0 | 2 | 2 | 2 | 6 |
| 0.000 | 0.000 | 0.333 | 0.333 | 0.333 | 0.150 |
| 0.000 | 0.000 | 0.143 | 0.250 | 1.000 | |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|
Column Total | 5 | 11 | 14 | 8 | 2 | 40 |
| 0.125 | 0.275 | 0.350 | 0.200 | 0.050 | 1 |
------------------|-----------|-----------|-----------|-----------|-----------|-----------|

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
II
DEVOIR DE Statistique Inferentielle

78 :Page
Deuxième modèle d’un tableau de contingence sous R (avec effectifs conjointes et
marginaux)

Salaire/Niveau 1 2 3 4 5 Total
[214;228[ 3 2 0 0 0 5
[228;242[ 0 2 3 1 0 6
[242;256[ 2 4 1 3 0 10
[256;270[ 0 3 5 1 0 9
[270;284[ 0 0 3 1 0 4
[284;312[ 0 0 2 2 2 6
Total 5 11 14 8 2 40

Figure 5 : Densités de salaire selon le sexe

Tableau 5: Calculs des indicateurs de salaire suivant les modalités du sexe

Sexe Salaire.Min. Salaire.1st Qu. Salaire.Median Salaire.Mean Salaire.3rd Qu. Salaire.Max.


F 214.0 227.8 241.5 244.3 255.0 285.0
M 235.0 254.5 259.0 266.0 279.8 312.0

Tableau 6: Calculs des indicateurs de salaire suivant les Niveaux de Responsabilités

Niveau des
Responsabilités Min. Salaire. 1st Qu. Salaire.Median Salaire.Mean Salaire.3rd Qu. Salaire.Max.

1 214.0 224.0 226.0 229.6 235.0 249.0


2 217.0 234.0 252.0 246.3 257.5 270.0
3 240.0 256.2 261.5 263.8 272.5 291.0
4 233.0 248.0 255.5 260.9 279.0 287.0
5 301.0 303.8 306.5 306.5 309.2 312.0

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
III
DEVOIR DE Statistique Inferentielle

79 :Page
Figure 6 : Histogramme salaire

Figure 7 : Boite à moustache du salaire selon le sexe

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
IV
DEVOIR DE Statistique Inferentielle

80 :Page
Figure 8 : salaire moyen selon le sexe

Figure 9 : Densité de la variable niveau.

Réalisé par Abdi-Basid ADAN

Master Professionnel en
Méthodes Statistiques et Econométriques (MSE)
V

Das könnte Ihnen auch gefallen