Beruflich Dokumente
Kultur Dokumente
Vous avez également à votre disposition le fichier excel avec tous les détails des calculs,
chaque feuille correspond à un exercice. Il y a des icones rouges sur les cellules cliquez dessus
pour lire les commentaires. Bon travail à tous
Exercice 1 :
Le service marketing de la société TEL a mené une étude sur l’âge (X) et le montant de la facture
téléphonique mensuelle des abonnés (Y). Les résultats se présentent comme suit :
• 250 individus ont un âge compris entre 18 et moins de22 ans ont une facture qui varie entre
40 à moins de 50 dinars
• 25 individus ont moins de 18 ans et ont une facture entre 10 et moins de 20 dinars.
• 100 individus âgés entre 22 et moins de 30 ans ont une facture de 20 et moins de 40 dinars
• 75 individus ont une facture de 50 à moins de 70 dinars et ont un âge compris entre 30 et
moins de 40 ans.
Correction Exercice 1 :
1. Identifier les variables étudiées et préciser leur nature.
X : âge : variable quantitative continue
Y : Montant de facture téléphonique : variable quantitative continue
2. Dresser les données dans un tableau à double entrée.
yj [10-20[ [20-40[ [40-50[ [50-70[ Total
Xi
[14-18[ 25 0 0 0 25
[30-40[ 0 0 0 75 75
Série 3
• Moyenne marginale de X m =23, 63 ans : En moyenne, les abonnés interrogés sont agés de
23,63 ans
• Variance marginale de X σ²m =592,33-(23,63)²= 33,95 forte dispersion entre les individus
en terme d’âge.
• L’écart type = =5,82 ans : forte dispersion entre les individus en
terme d’âge.
moyenne 42,3
variance 73,71
Exercice 2 :
Nous souhaitons étudier la distribution de la population active de la Manouba en 2017 selon l’âge
(Xi) et le Genre (Yj) ; N=646 893 individus
Distribution marginale de
X
Xi fi. Fi Ci fi.ci fi.ci²
15-20 0,099 0,099 17,5 1,7325 30,31875
20-25 0,115 0,214 22,5 2,5875 58,21875
25-35 0,258 0,472 30 7,74 232,2
35-45 0,208 0,68 40 8,32 332,8
45-55 0,184 0,864 50 9,2 460
55-65 0,136 1 60 8,16 489,6
total 1 37,74 1603,1375
a. L’âge médian
Me est tq F(Me)=0,5 Me [35 ; 45 [
35 F(35)=0,472
Me F(Me)= 0.5
45 F(45)= 0,68
Interpolation linéaire :
Me=36,346 ans
50% de la population active à la Manouba est âgée de 36,346 ans
k
L’âge moyen X f i xi =37,74 ans
i 1
En moyenne les individus sont âgés de 37,74 ans à la Manouba.
La classe modale : les amplitudes étant inégales il faut d’abord corriger les fréquences
comme vu dans les autres séries
La classe modale est [25-35[ car elle correspond à la fréquence corrigée la plus élevée
b. Pour qu’une distribution soit symétrique il faut que le mode soit égal à la médiane ainsi
que la moyenne ; or nous constatons que Me≠de la moyenne, la distribution est
dissymétrique.
d’âge ?
3X Me
Coef d’asymétrie de Pearson= 0,289 0 dissymétrie positive
1LG - Statistique Descriptive & calcul des Probabilités Série 3
EIQ=Q3-Q1
Nous avons Q1, nous devons calculer Q3
Q3 est tq F(Q3)=0,75 Q3 [45 ; 55 [
45 F(45)=0,68
Q3 F(Me)= 0.75
55 F(55)= 0,864
Interpolation linéaire :
Q3=48,804 ans
EIQ=Q3-Q1=48,804-26,395=22,4
Forte dispersion de la population active en terme d’age. La différence entre les 25% les
plus âgés et les 25% les plus jeunes est élevée (22 ans)
Exercice 3
On donne la répartition de 100 employés par ancienneté (X) (en nombre d’années) et par tranches
de revenu annuel en milliers de dinars (Y) :
X\Y [4-6[ [6-10[ [10-14[ [14-18[ 18 et plus
[1-3[ 10 4 5 1 0
[3-5[ 3 8 12 6 1
[5-10[ 2 5 16 5 1
10 et plus 0 3 7 8 3
Correction exercice 3
- Moyenne marginale de X :
Série 3
4.
Pour calculer
X\Y 5 8 12 16 20
2 100 64 120 32 0
4 60 256 576 384 80
7,5 75 300 1440 600 150
12,5 0 300 1050 1600 750
7937
6,73
La covariance étant positive, le revenu varie dans le même sens que l’ancienneté, autrement si le
nombre d’années passées dans l’entreprise augmente le revenu aurait tendance à augmenter aussi.
5. Le coefficient de corrélation de X et Y
k
y y2 f
j 1
j c 2j y ² 4,065
Exercice 4
Un sociologue s’intéresse aux conditions de vie des élèves et étudiants tunisiens et souhaite étudier
le temps en minutes (X) que mettent les individus pour rejoindre leurs établissements scolaires en
distinguant le milieu (Y) : communal (urbain) non communal (rural)
Il dispose des données de l’Institut National de la Statistique résumées dans le tableau 1
Le Milieu Y
Communal Non communal
Trajet en minutes X
[1-5[ 65,7 31,8
[5-15[ 813,8 173,8
[15-30[ 723,5 274,9
[30-60[ 298 231,6
plus que 60 95,3 69,2
Source : INS septembre 2017
Correction Exercice 4
1. Déterminer les variables étudiées et préciser leurs natures.
X : durée du trajet variable quantitative continue
Y : Le milieu Variable qualitative
Distribution marginale de X
fi fi
X ni fi arrondies Ai corrigées F ci fi*ci fi*ci²
[1-5[ 97,5 0,035102247 0,035 4 0,2625 0,035 3 0,105 0,315
[5-15[ 987,6 0,355558756 0,356 10 1,068 0,391 10 3,56 35,6
[15-30[ 998,4 0,359447005 0,359 15 0,718 0,75 22,5 8,0775 181,74375
[30-60[ 529,6 0,190668203 0,191 30 0,191 0,941 45 8,595 386,775
[60-90[ 164,5 0,05922379 0,059 30 0,059 1 75 4,425 331,875
total 2777,6 1 1 24,7625 936,30875
b. Pour déterminer la classe modale, il faut d’abord corriger les fréquences puisque l’amplitude n’est
pas la même.
L’amplitude retenue pour corriger est 30 car c’est la plus fréquente.
Classe modale [5-15[ car elle correspond à la fréquence corrigée la plus élevée
c. Est-il vrai que « 50% des élèves et étudiants en Tunisie mettent moins de 16 minutes pour se rendre
à leurs établissements scolaires » ? Justifier.
Cela revient à calculer la médiane
La médiane Me est tq F(Me)=0,5 Me [15 ; 30 [
15 ,F(5)=0,391
Me F(Me)= 0.5
30 F(10)= 0,75
Interpolation linéaire :
Me =19,554
Donc c’est faux « 50% des élèves et étudiants en Tunisie mettent moins de 19,554 minutes pour se
rendre à leurs établissements scolaires »
k
X x2 fc
i 1
2
i i x ² 17,975 forte dispersion
3. Le sociologue souhaite étudier une variable Z qui correspond à la durée du trajet en considérant
uniquement le milieu non communal.
a. Comment se nomme statistiquement la distribution de Z
Il s’agit de la distribution conditionnelle de X sachant que Y= le milieu non communal
b. Dresser la distribution de Z
Z ni fi
[1-5[ 31,8 0,041
[5-15[ 173,8 0,222
[15-30[ 274,9 0,352
[30-60[ 231,6 0,296
plus que 60 69,2 0,089
Total 781,3 1
4. Le sociologue a étudié séparément la durée du trajet des étudiants et élèves en milieu communal et celle
en milieu non communal. Le tableau 2 présente les statistiques descriptives obtenues. Commenter les
résultats fournis et comparer les avec ceux obtenus dans la question 2.
transports.
1LG - Statistique Descriptive & calcul des Probabilités Série 3
La distribution est fortement dispersée (variance très élevée) et ce quelque soit le milieu. La
dispersion est plus forte en milieu non communal.
Exercice 5
Dans un centre de planning familial, nous avons interrogé 100 femmes sur leur âge et le nombre
d’enfants qu’elles ont. Les tableaux 1 et 2 résument l’enquête menée.
Tableau 1 : Distribution de 100 femmes selon leur âge et le nombre d’enfants qu’elles ont (en effectifs)
y
X 1 2 3 4 Total
[20-25[ 10 5 2 1 18
[25-30[ 5 10 8 1 24
[30-35[ 4 12 9 2 27
[35-45[ 1 14 12 4 31
Total 20 41 31 8 100
Paramètres X Y
Moyenne marginale 28,725 2,27
Mode [30-35[ 2
Médiane 31,48148148 2
Variance marginale 11,68 0,7571
Correction Exercice 5
1. D’après une étude menée aupres de 100 femmes dans un centre de planning familial, nous
constatons qu’en moyenne les femmes de l’echantillon sont agées de 31,8 ans et ont en
moyenne deux enfants (2,28)
La pluaprt des femmes ont 30 ans et deux enfants.
50% des femmes étudiées ont moins de 31,48 et 2 enfants.
Nous constatons que les valeurs des paramètres de position (moyenne, mode et médiane)
sont proches mais ne sont pas égales, nous pouvons en déduire une légère dissymétrie de la
distribution aussi bien en termes d’âge que de nombre d’enfants.
S’agissant des paramètres de dispersion, nous pouvons dire que les femmes sont plus
dispersés en termes d’âge qu’en termes de nombre d’enfants (variance faible=0,7571)
Série 3
Nous utilisons le centre de classe pour la variable X car c’est une variable quantitative continue
1 2 3 4
22,5 10 5 2 1
27,5 5 10 8 1
32,5 4 12 9 2
30 1 14 12 4
Total 20 41 31 8
(1*22,5*4)=90
1 2 3 4
22,5 225 225 135 90
27,5 137,5 550 660 110
32,5 130 780 877,5 260
30 30 840 1080 480
Cela nous permet d’obtenir la
2*30*14=840
La covariance étant positive, les deux variables x (l’âge des mères) et y(le nombre d’enfants)
varient dans le même sens.
3. Nous savons que l’indépendance entre X et Y entraine l’égalité entre les lois
conditionnelles et marginales càd
f ij f i f j
f i f i j f i f j f j f ji
f ji f j
f i j f i
1 2 3 4 Total
[20-25[ 0,1 0,05 0,02 0,01 0,18
Série 3
4. Le coefficient de corrélation de X et Y
Corrélation positive faible entre l’âge des mères et le nombre d’enfants qu’elles ont puisque
le coef de perason est positif mais proche de zéro
Exercice 6
Un économiste a procédé à un ajustement linéaire de la consommation (C) sur le revenu (R) pour
cet échantillon en utilisant la méthode MCO et il a obtenu les résultats suivants
Correction Exercice 6
1. Donner les formules ayant permis de trouver les valeurs 0,9 et 290.
n n
yi xi nxy x x y
i i y
aˆ i 1
n
i 1
n
0,9
x
i 1
2
i nx 2
x x
i 1
i
2
bˆ y aˆx 290
2. Expliquer et commenter (statistiquement et économiquement) les différents éléments de la
Série 3
droite de régression.
Exercice 7
Nous disposons des données suivantes relatives aux notes obtenues par 87 étudiants de première
années de l’ESCT lors de la session principale en Statistique Descriptive et Probabilité (Y) et
Mathématiques (X), et nous souhaitons ajuster linéairement Y sur X.
Correction exercice 7
y
i 1
i xi nx y
2690,31 (87 * 3,54 * 6,11)
aˆ 1,19
n
1766,18 87 * (3,54)²
x
i 1
2
i nx 2
Nous constatons que la pente de la droite (â) est positive, une augmentation de la note de
math de 1 point entrainerait une augmentation 1,19 en note de stat.
Même si la note de math est nulle (X=0) la note de stat serait égale à 1,89.
x y
1 n 2 2
x2 xi x
n i 1 7,76
R 2 aˆ 2 1,19² n 1,4161 *
y2 1
2 21,08
y i2 y
n i 1
Coef de corrélation=0.719 proche de 1 une forte corrélation positive entre les notes de math
et celles de stat
Exercice 8
Le service marketing de l’entreprise Preum’s cherche à étudier la relation entre les dépenses de
publicités (X) et le chiffre d’affaire annuel (Y) sur 10 années en millions de dinars
Les données se présentent dans le tableau suivant :
Années Yt Xt
2010 38 2,4 1. Soit le modèle Yt=axt+b, estimez’
2011 42 3 l’équation par MCO et interprétez les
2012 42 3
Série 3
résultats
2013 39 2,5 2. Si l’entreprise décide de doubler ses
2014 40 3,2 dépenses de publicités de 2019, quel
serait le montant du chiffre d’affaire en
2020 ?
3. Calculer le coefficient de corrélation.
Interpréter.
1LG - Statistique Descriptive & calcul des Probabilités Série 3
2015 45 3,5
2016 35 2
2017 24 1,8
2018 38 3,2
2019 42 3,4
Total 385 28
Correction de l’exercice 8
y i xi nx y
avec aˆ i 1
n
et bˆ y aˆx
x
i 1
2
i nx 2
2010
38 2,4 91,2
5,76 x
x i
28
2,8 millions de dinars
2011 42 3 126 9 n 10
2012 42 3 126 9
y
y i
385
38,5 millions de dinars
2013 39 2,5 97,5 6,25 n 10
2014 40 3,2 128 10,24 n
2. Si l’entreprise décide de doubler ses dépenses de publicités de 2020, quel serait le montant
du chiffre d’affaire en 2015 ?
Si l’entreprise double ses dépenses de 2020, x =2*3,4=6,8, le CA de 2015 serait de 71,31
md
yˆ i 8,21xi 15,49 (8,21* 6,8) 15,49 71,31millions
cov x, y
1 1103,8
n
xi y i x y
10
(2,8 * 38,5) 2,58
1
x x2 avec x2 xi2 x 2 0,314
n
x 0,314 0,56
1
y y2 avec y2
n
y i2 y 2 30,45
y 30,45 5,51
cov x, y 2,58
x, y 0,83
x y 0,56 * 5,51
x , y 1 une forte relation positive entre le montant des dépenses publicitaires et le CA
Série 3