Sie sind auf Seite 1von 39

Cours de Statistique Descriptive

Antoine Ayache & Julien Hamonier

1 Un peu dhistoire
Lobjectif de la Statistique Descriptive est de dcrire de faon synthtique et parlante des
donnes observes pour mieux les analyser. Le terme statistique est issu du latin statisti-
cum , cest--dire qui a trait ltat. Ce terme a t utilis, semble-t-il pour la premire fois,
lpoque de Colbert, par Claude Bouchu, intendant de Bourgogne, dans une Dclaration des
biens, charges, dettes et statistiques des communauts de la gnralit de Bourgogne de 1666
1669 .
Par contre, lapparition du besoin statistique de possder des donnes chiffres et prcises,
prcde sa dnomination de plusieurs millnaires. son origine, il est le fait de chefs dtats
(ou de ce qui en tient lieu lpoque) dsireux de connatre des lments de leur puissance :
population, potentiel militaire, richesse, . . .

2 Analyse descriptive univarie


2.1 Vocabulaire
1. On appelle population un ensemble dlments homognes auxquels on sintresse. Par
exemple, les tudiants dune classe, les contribuables franais, les mnages lillois . . .
2. Les lments de la population sont appels les individus ou units statistiques.
3. Des observations concernant un thme particulier ont t effectues sur ces individus. La
srie de ces observations forme ce que lon appelle une variable statistique. Par exemple,
les Notes des Etudiants lExamen de Statistique, les Mentions quils ont obtenues leur
Bac, leur Sexe, les Couleurs de leurs Yeux, le Chiffre dAffaire par PME, le Nombre
dEnfants par Mnage, . . .
4. Une variable statistique est dite :
(i) quantitative : lorsquelle est mesure par un nombre (les Notes des Etudiants
lExamen de Statistique, le Chiffre dAffaire par PME, le Nombre dEnfants par M-
nage, . . . ). On distingue 2 types de variables quantitatives : les variables quantitatives
discrtes et les variables quantitatives continues. Les variables discrtes (ou dis-
continues) ne prennent que des valeurs isoles. Par exemple le nombre denfants par
mnage ne peut tre que 0, ou 1, ou 2, ou 3, . . . ; il ne peut jamais prendre une valeur
strictement comprise entre 0 et 1, ou 1 et 2, ou 2 et 3, . . . . Cest aussi le cas de la note
lexamen de statistique (on suppose que les notations sont entires sans possibili-
ts de valeurs dcimales intermdiaires). Les variables quantitatives continues peuvent
prendre toute valeur dans un intervalle. Par exemple, le chiffre daffaire par PME peut
tre 29000,1, 29000,12, . . . , mme si dans la pratique il faut larrondir.
(ii) qualitative : lorsque les modalits (ou les valeurs) quelle prend sont dsignes par
des noms. Par exemples, les modalits de la variable Sexe sont : Masculin et Fminin ;

1
les modalits de la variable Couleur des Yeux sont : Bleu, Marron, Noir et Vert ; les
modalits de la variable Mention au Bac sont : TB, B, AB et P. On distingue deux
types de variables qualitatives : les variables qualitatives ordinales et les variables
qualitatives nominales. Plus prcisment une variable qualitative est dite ordinale,
lorsque ses modalits peuvent tre classes dans un certain ordre naturel (cest par
exemple le cas de la variable Mention au Bac) ; une variable qualitative est dite no-
minale, lorsque ses modalits ne peuvent tre classes de faon naturelle (cest par
exemple le cas de la variable Couleur des Yeux ou encore de la variable Sexe).

2.2 Reprsentation graphique dune variable


Pour un groupe de 15 tudiants, on a observ les valeurs des variables : Couleur des Yeux,
Sexe, Mention au Bac et Note lExamen de Statistique ; ainsi le tableau de donnes suivant a
t obtenu. Ces donnes seront souvent utilises dans ce chapitre.
Tableau de Donnes
Individu Couleur des Yeux Sexe Mention au Bac Note lExamen de Statistique
Michel V H P 12
Jean B H AB 8
Stphane N H P 13
Charles M H P 11
Agns B F AB 10
Nadine V F P 9
tienne N H B 16
Gilles M H AB 14
Aurlie B F P 11
Stphanie V F B 15
Marie-Claude N F P 4
Anne B F TB 18
Christophe V H AB 12
Pierre N H P 6
Bernadette M F P 2

2.2.1 Variables qualitatives (ordinales et nominales)


On reprsente les variables Couleurs des Yeux, Sexe et Mention au Bac par des diagrammes
en btons. On notera que chacun des individus appartient une seule modalit de chacune de ces
3 variables. En effet, on ne peut avoir des individus dont les yeux possdent plusieurs couleurs
(on exclut les cas dhtrochromie). On ne peut pas avoir non plus un individu qui soit la
fois Homme et Femme (on exclut les cas dhermaphrodisme). Enfin, un mme individu ne peut
obtenir plusieurs mentions au Bac.
Remarque 2.1. De faon gnrale, un individu appartient une et une seule modalit dune
variable qualitative. Bien souvent, parmi les modalits dune variable qualitative figure une mo-
dalit Autres (non rpondants ou bien valeurs manquantes ou quelque chose dans ce genre-l)
dans laquelle on place les individus quon narrive pas caser dans une autre modalit de cette
variable.
tudions lexemple de la variable Couleurs des Yeux. On commence dabord par compter
le nombre dindividus appartenant chacune des modalits de cette variables : nB = 4 individus

2
ont les yeux bleus, nM = 3 ont les yeux marrons, nN = 4 ont les yeux noirs et nV = 4 ont les
yeux verts ; on peut rsumer tout cela dans le tableau rcapitulatif suivant :
Couleur Bleu Marron Noir Vert
Effectif 4 3 4 4
Faisons de mme avec la variable Mention au Bac ; on obtient le tableau rcapitulatif
suivant :
mention P AB B TB
effectif 8 4 2 1

On constate que les tudiants sont rpartis ingalement entre les diffrentes modalits de la
variable Mention au Bac. Une premire faon dapprcier la rpartition dune variable est de
construire un tableau de rpartition des effectifs et des frquences entre les diffrentes
valeurs possibles de la variable. De faon gnrale, la frquence dune modalit M dune
variable qualitative se calcule au moyen de la formule suivante :

(effectif correspondant M )
fM = ( frquence de la modalit M dune variable qualitative) = .
(effectif total)

On a de plus,

pM = (pourcentage des individus correspondant la modalit M ) = fM 100.

On a enfin

(somme des frquences de toutes les modalits dune variable qualitative) = 1

(somme de tous les pourcentages correspondant aux modalits dune variable qualitative) = 100.

Tableau de Rpartition de la variable


Mention au Bac
Mention au Bac Effectifs Frquences Pourcentages
P nP = 8 fP = 8/15 = 0.533 53.3%
AB nAB = 4 fAB = 4/15 = 0.267 26.7%
B nB = 2 fB = 2/15 = 0.133 13.3%
TB nT B = 1 fT B = 1/15 = 0.067 6.7%
effectif total N = 15 fP + fAB + fB + fT B = 1 Total = 100%

3
Notons que dans ce tableau les pourcentages sont donns au dixime prs, cest--dire avec un
chiffre aprs la virgule.

Avant de finir cette sous-section, signalons que la rpartition des frquences (ou pourcentages)
entre les diffrentes modalits dune variable qualitative, peut non seulement tre reprsente au
moyen dun diagramme en btons, mais aussi laide dun diagramme en secteurs. Dans le
cas de la variable Mention au Bac, on obtient :

2.2.2 Variable quantitative discrte


De faon gnrale chaque valeur k dune variable quantitative discrte correspond un effectif,
not par nk ; il sagit en fait du nombre des individus pour lesquels on a observ la valeur k. La
frquence fk de la valeur k, se calcule au moyen de la formule :
nk
fk = ,
N
o nk dsigne leffectif correspondant la valeur k et N leffectif total ; tout comme dans le
cas des variables qualitatives, en multipliant les frquences par 100, on obtient les pourcentages
correspondants.

4
Tableau de Rpartition de la variable
Note lExamen de Statistique
Note lExamen de Statistique Effectifs Frquences
k=0 0 0
k=1 0 0
k=2 1 1/15
k=3 0 0
k=4 1 1/15
k=5 0 0
k=6 1 1/15
k=7 0 0
k=8 1 1/15
k=9 1 1/15
k=10 1 1/15
k=11 2 2/15
k=12 2 2/15
k=13 1 1/15
k=14 1 1/15
k=15 1 1/15
k=16 1 1/15
k=17 0 0
k=18 1 1/15
k=19 0 0
k=20 0 0

De faon gnrale, Pour reprsenter le tableau ci-dessus, on pourrait utiliser un diagramme


en btons :

0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Nanmoins cette forme se prte difficilement linterprtation. Pour y remdier, il faut crer
des classes de notes (nombre dindividus ayant obtenu des notes comprises entre 0 et 4, entre
4 et 8, . . . ) ; cette approche nous permet dobtenir une variable dite classe. Il faut effectuer le
bornage des classes en excluant et incluant les valeurs en dbut et fin de classe.

5
Tableau de Rpartition de la variable classe
Note lExamen de Statistique
variable classe Effectifs Frquences
[0, 4] 2 2/15
]4, 8] 2 2/15
]8, 12] 6 6/15
]12, 16] 4 4/15
]16, 20] 1 1/15

Histogramme des Effectifsde la variable classe


Note lExamen de Statistique

6
A C

4
B

2
D

0
-4 0 4 8 12 16 20 24

La reprsentation graphique des effectifs de chaque classe sappelle lhistogramme des


effectifs ; on peut de la mme faon raliser lhistogramme des frquences.
En crant des classes, on agglomre des informations ; on perd de linformation mais en contre-
partie, on fait ressortir la structure de la distribution statistique. Pour une srie dobservations
relatives une variable quantitative X, discrte, discrte classe ou continue classe, la donne
des classes (ou encore des valeurs) et de leurs frquences (ou encore de leur effectif) est appele
distribution statistique de la variable X.
Dans le cas de la variable Note lExamen de Statistique, on voit que la majeure partie
de leffectif se situe autour de la moyenne ; une telle distribution est appele loi normale. On
retrouve souvent la loi normale en statistique ; sa forme caractristique est celle dune cloche .

2.2.3 Variable quantitative continue


Linfinit des valeurs observables dune variable quantitative continue ne rend pas possible la
gnralisation du diagramme en btons. Ltablissement dun tableau de rpartition exige que lon

6
dcoupe lintervalle de variation dune telle variable, en k sous-intervalles [x0 , x1 ], ]x1 , x2 ], . . . ,
]xk1 , xk ]. Chacun de ces intervalles est appel classe ; lide tant que chaque classe forme une
entit homogne qui se distingue des autres classes. Le nombre de classes k doit tre modr
(une dizaine au maximum). Lamplitude de la classe [x0 , x1 ], cest--dire sa largeur , est gale
a1 = x1 x0 , de mme pour tout i = 2, . . . , k lamplitude de la classe ]xi1 , xi ] est gale
ai = xi xi1 . Lorsque la dernire classe est dfinie par plus de . . . son amplitude est alors
indtermine.
Lhistogramme des frquences dune telle variable est constitu de la juxtaposition de rec-
tangles dont les bases reprsentent les diffrentes classes, et dont les surfaces sont propor-
tionnelles aux frquences des classes et par consquent leurs effectifs. Ainsi, la i-me classe
correspond un rectangle dont la base est lintervalle ]xi1 , xi ] (dans le cas particulier i = 1, la base
est lintervalle [x0 , x1 ]), et dont la surface est proportionnelle la frquence fi et leffectif ni .
Lorsque les classes ont toutes, la mme amplitude, les hauteurs des rectangles sont propor-
tionnelles leurs surfaces ; par consquent les hauteurs des rectangles sont proportionnelles aux
frquences et aux effectifs. Dans le cas o les classes sont damplitudes ingales, la hauteur du
rectangle correspondant la i-me classe sera hi = fi /ai (cest--dire la frquence par unit
damplitude) ou encore Hi = ni /ai (cest--dire leffectif par unit damplitude).
Etudions maintenant un exemple concret :
Tableau de Rpartition de la variable quantitative continue
Revenus des Contribuables soumis limpt sur le revenu en 1965 (source DGI)
Classe de revenus Effectif Amplitude Hauteur 50000
en en Frquence en
Frquence
Francs milliers dindividus Francs = 50000
Amplitude
[0, 5000] 549,3 6, 67.102 5000 0,67
]5000, 10000] 3087,4 37, 51.102 5000 3,75
]10000, 15000] 2229,0 27, 08.102 5000 2,71
]15000, 20000] 1056,7 12, 84.102 5000 1,28
]20000, 35000] 925,0 11, 24.102 15000 0,37
]35000, 50000] 211,0 2, 56.102 15000 0,09
]50000, 70000] 90,8 1, 1.102 20000 0,03
]70000, 100000] 81,6 0, 99.102 30000 0,02
Effectif total = 8230, 8

7
Histogramme des Frquences de la variable
Revenus des Contribuables
(Lchelle sur laxe des abscisses est 1 millier de Francs
et lchelle sur laxe des ordonnes est 1/50000)

4.0

3.5

3.0

2.5

2.0

1.5

1.0

0.5

0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

2.3 Valeurs centrales


2.3.1 Le mode
a) Variable quantitative discrte (non classe)
Le mode correspond la valeur de la variable pour laquelle leffectif (ou la frquence) est le
plus grand.
Exemple 2.1. Recensement des familles dans une population rgionale dont le nombre denfants
de moins de 14 ans est le suivant :
Nombre denfants Nombre de familles
0 2601
1 6290
2 2521
3 849
4 137
Total = 12398
Ici le mode correspond la valeur de 1 enfant.
Remarque 2.2. Certaines variables peuvent prsenter plusieurs modes. Par exemple, dans le
cas de la variable note lexamen leffectif maximum correspond aux valeurs 11 et 12 de la
variable ; tant donn que ces deux valeurs se suivent, on dit quil y a un intervalle modal.

8
b) Variable quantitative continue ou discrte classe
La classe modale est la classe dont la frquence par unit damplitude est la plus leve ;
cette classe correspond donc au rectangle le plus haut de lhistogramme des frquences. Par
exemple, dans le cas de la variable Revenu des Contribuables ]5000, 10000] est la classe modale.
Signalons au passage que certaines variables peuvent avoir plusieurs classes modales.
Lorsquon souhaite tre plus prcis, on peut dterminer lintrieur de la classe modale la
valeur exacte du mode ; lexemple suivant permet de comprendre la dmarche suivre.
Exemple 2.2. On dsire lancer un nouveau produit sur le march ; on recherche le prix psycho-
logique nous permettant dattirer le plus de consommateurs possible. La dtermination du mode
peut, entre autre mthode, nous permettre dapprocher au mieux le prix psychologique de lance-
ment du produit. Prsentant le produit un chantillon reprsentatif de la population tudie,
nous observons pour chaque classe de prix, les effectifs prts faire lacquisition du produit. Nous
obtenons les rsultats suivants :
Prix (en Euros) Effectifs
[210, 230] 30
]230, 250] 60
]250, 270] 100
]270, 290] 20
Total = 210
Les classes de prix tant toutes de mme amplitude (gale 20), les hauteurs des rectangles de
lhistogramme des effectifs seront donc gales aux effectifs.
Histogramme des effectifs

110

100
A C

90

80
G
N70G
60
D

50

40

30

20
B

10

0
200 210 220 230 240 250 MG 260 270 280 290 300

La classe modale est ]250, 270]. La projection du point dintersection G des segments [AB] et [CD]
sur laxe Prix correspond la valeur exacte du mode, MG ' 257 Euros. Si on souhaite davantage
de prcisons, on peut calculer (MG , NG ) les coordonnes de G. Pour ce faire il faut dabord trouver
les quations des droites (AB) et (CD). Rappelons que de faon gnrale, lquation dune droite
qui nest pas verticale, scrit de la forme y = ax + b. Pour dterminer les valeurs des paramtres
a et b dans le cas de la droite (AB), il faut rsoudre le systme dquations

250a + b = 100
270a + b = 20

9
qui traduit le fait que cette droite passe par le point A de coordonnes (250, 100) et le point B de
coordonnes (270, 20). On a
  
250a + b = 100 250a + b = 100 b = 100 250 (4) = 1100

270a + b = 20 20a = 80 a = 4

ainsi la droite (AB) admet pour quation y = 4x + 1100. Pour dterminer les valeurs des
paramtres a et b dans le cas de la droite (CD), il faut rsoudre le systme dquations

250a + b = 60
270a + b = 100

qui traduit le fait que cette droite passe par le point D de coordonnes (250, 60) et le point C de
coordonnes (270, 100). On a
  
250a + b = 60 250a + b = 60 b = 60 250 2 = 440

270a + b = 100 20a = 40 a=2

ainsi la droite (CD) admet pour quation y = 2x 440. Finalement les coordonnes (MG , NG )
du point G sont obtenues en rsolvant le systme dquations

NG = 4MG + 1100
NG = 2MG 440

qui traduit le fait que ces coordonnes vrifient la fois lquation de la droite (AB) et celle de
la droite (CD). On a

  MG = 7703 ' 256.66
NG = 4MG + 1100 6MG + 1540 = 0

NG = 2MG 440 NG = 2MG 440
NG = 2 7703 440 ' 73.33

2.3.2 Mdiane et Quantile


La mdiane (note Me ) dune variable quantitative est la valeur de cette variable qui permet
de scinder la population tudie en deux sous-populations de mme effectif. Plus prcisment,
il y a autant dindividus pour lesquels on a observ une valeur suprieure Me que dindividus
pour lesquels on a observ une valeur infrieure Me .

a) Variable quantitative discrte (non classe)


On attribue dabord chacun des individus un rang, en partant de lindividu (ou des indi-
vidus) pour lequel (lesquels) on a observ la valeur la plus forte. On attribue ensuite chacun
des individus un autre rang, en partant, cette fois, de lindividu (ou des individus) pour lequel
(lesquels) on a observ la valeur la plus faible. On attribue enfin chacun des individus une
quantit appele profondeur qui est le minimum de ses deux rangs.

Dans le cas o la population est forme par un nombre impair des individus, la
mdiane de la variable statistique est alors sa valeur qui corresponds aux profondeurs maximales.
Etudions un exemple concret :

10
Exemple 2.3.
Individu Note lExamen de Statistique Rang (haut) Rang (bas) Profondeur
Michel 12 6 9 6
Jean 8 12 4 4
Stphane 13 5 11 5
Charles 11 8 7 7
Agns 10 10 6 6
Nadine 9 11 5 5
tienne 16 2 14 2
Gilles 14 4 12 4
Aurlie 11 8 7 7
Stphanie 15 3 13 3
Marie-Claude 4 14 2 2
Anne 18 1 15 1
Christophe 12 6 9 6
Pierre 6 13 3 3
Bernadette 2 15 1 1
La mdiane vaut Me = 11.
Dans le cas o la population est forme par un nombre pair dindividus, la
mdiane de la variable statistique est alors la moyenne de ses valeurs qui correspondent aux
profondeurs maximales.
Etudions un exemple concret :
Exemple 2.4. Il sagit du mme exemple que celui quon vient de voir, sauf que lon suppose
ici que Bernadette na pas particip lexamen
Individu Note lExamen de Statistique Rang (haut) Rang (bas) Profondeur
Michel 12 6 8 6
Jean 8 12 3 3
Stphane 13 5 10 5
Charles 11 8 6 6
Agns 10 10 5 5
Nadine 9 11 4 4
tienne 16 2 13 2
Gilles 14 4 11 4
Aurlie 11 8 6 6
Stphanie 15 3 12 3
Marie-Claude 4 14 1 1
Anne 18 1 14 1
Christophe 12 6 8 6
Pierre 6 13 2 2
La mdiane Me vaut
11 + 11 + 12 + 12
Me = = 11, 5
4
Exercice 2.1. (a) Supposons que Agns et Stphanie nont pas pass lexamen. Dterminer la
mdiane. (b) Supposons que Jean et Agns nont pas pass lexamen. Dterminer la mdiane.

11
b) Variable quantitative continue et variable discrte classe
Commenons dabord par introduire les notions deffectif cumul, de frquence cumu-
le, et de fonction cumulative. X dsigne une variable quantitative continue, ou encore une
variable discrte classe, dont lintervalle de variation a t divis en k classes disjointes
[x0 , x1 ], . . . , ]xk1 , xk ]. Les effectifs correspondant ces classes sont nots n1 , n2 , . . . ,
nk . Leffectif cumul de la 1-re classe (cest--dire de la classe [x0 , x1 ]) est le nombre
N1 dindividus pour lesquels la variable X prend une valeur au plus gale x1 ; on a donc

N1 = n1 .

Leffectif cumul de la 2-me classe (cest dire de la classe ]x1 , x2 ]) est le nombre N2 dindividus
pour lesquels la variable X prend une valeur au plus gale x2 ; on a donc

N2 = n 1 + n 2 .

Leffectif cumul de la 3-me classe (cest dire de la classe ]x2 , x3 ]) est le nombre N3 dindividus
pour lesquels la variable X prend une valeur au plus gale x3 ; on a donc

N3 = n 1 + n 2 + n 3 .

Plus gnralement, leffectif cumul de la i-me classe (cest--dire de la classe ]xi1 , xi ]) o


i = 1, 2, . . . , k est le nombre Ni dindividus pour lesquels la variable X prend une valeur au
plus gale xi ; on a donc
i
X
Ni = n1 + n2 + . . . + ni = nl .
l=1

La frquence cumule de la i-me classe est dsigne par Fi et elle est dfinie par
i
Ni X
Fi = = fl ,
N
l=1

o fl est la frquence de la l-me classe et N est leffectif total. Ainsi, on a F1 = f1 et Fi = Fi1 +fi
pour tout i = 2, . . . , k.
Exemple 2.5. Construisons le tableau des effectifs cumuls et des frquences cumuls de la
variable Revenu des Contribuables
Classes des revenus Effectifs Effectifs Cumuls Frquences Frquences Cumules
[0, 5000] 549,3 549,3 0,0667 0,0667
]5000, 10000] 3087,4 3636,7 0,3751 0,4418
]10000, 15000] 2229,0 5865,7 0,2708 0,7126
]15000, 20000] 1056,7 6922,4 0,1284 0,841
]20000, 35000] 925,0 7847,4 0,1124 0,9534
]35000, 50000] 211,0 8058,4 0,0256 0,979
]50000, 70000] 90,8 8149,2 0,011 0,99
]70000, 100000] 81,6 8230,8 0,0099 0, 9999 ' 1

Exercice 2.2. Construisez le tableau des effectifs cumuls et des frquences cumules de la va-
riable discrte classe Note lExamen de Statistique dont il est question dans lExemple 2.3.

12
Correction de lExercice 2.2
Note lExamen de Statistique Effectifs Effectifs Cumuls Frquences Frquences Cumules
[0, 4] 2 2 0.133 0.133
]4, 8] 2 4 0.133 0.266
]8, 12] 6 10 0.4 0.666
]12, 16] 4 14 0.267 0.933
]16, 20] 1 15 0.067 1

La fonction cumulative (quon appelle aussi fonction de rpartition) est souvent note par F ;
cette fonction donne, pour tout nombre rel t, le pourcentage, not par F (t), des individus de la
population pour lesquels on a observ une valeur de la variable X plus petite ou gale t.
Remarque 2.3. (Proprits importantes de la fonction cumulative F )
1. Elle est croissante, cest--dire que pour tous nombres rels t1 et t2 , vrifiant t1 t2 , on
a F (t1 ) F (t2 ).
2. Elle est nulle pour tout nombre rel t infrieur x0 , o x0 dsigne la borne de gauche de
la premire classe cest--dire [x0 , x1 ].
3. Elle est gale 1 pour tout nombre rel t suprieur xk , o xk dsigne la borne de droite
de la dernire classe cest--dire ]xk1 , xk ].
Remarque 2.4. Lorsque X est une variable continue, sa fonction cumulative F nest connue que
pour les valeurs de X gales aux extrmits des classes cest--dire pour t = x0 , t = x1 , . . . , t = xk .
On peut considrer que F est linaire (fonction affine) entre ces valeurs, parce quon suppose que
les classes forment des entits homognes.
Remarque 2.5. De faon gnrale, la mdiane note par Me dune variable statistique continue
X de fonction cumulative F est telle que

F (Me ) = 50% ;

on peut dterminer Me au moyen de la reprsentation graphique de F .


Exemple 2.6. Traons le graphe de la fonction cumulative de la variable continue Revenu des
Contribuables , puis dterminons la mdiane de cette variable.

13
Graphe de la fonction cumulative F de la variable continue Revenu des
Contribuables
100

90

80

70

60

50
M
40

30

20

10

0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110

lunit sur laxe des abscisses est 1 millier de Francs, laxe des ordonnes reprsente les
pourcentages cumuls

Graphiquement on trouve que la mdiane Me de cette variable vaut Me ' 11.1 milliers de Francs.
Si on souhaite obtenir Me avec davantage de prcision on peut procder de la faon suivante.
On commence dabord par dterminer lquation de la droite sur laquelle se trouve le point M ; il
sagit en fait de la droite passant par le point de coordonnes (10, 44.18) et le point de coordonnes
(15, 71.26) ; ainsi il faut rsoudre le systme dquation

10a + b = 44.18
15a + b = 71.26

On a

  b = 44.18 10 5.416 = 9.98
10a + b = 44.18 10a + b = 44.18

15a + b = 71.26 5a = 71.26 44.18 = 27.08 27.08
a= = 5.416

5

Lquation quon cherche dterminer est donc y = 5.416x 9.98. Finalement, en traduisant le
fait que cette vrifie par (Me , 50) les coordonnes du point M , on obtient 50 = 5.416Me 9.98,
do
50 + 9.98
Me = ' 11.075 milliers de Francs.
5.416
Une autre mthode de calcul de Me , consiste utiliser le Thorme de Thals :
50 44.18 Me 10  50 44.18 
= Me = (1510) +10 ' 11.075 milliers de Francs.
71.26 44.18 15 10 71.26 44.18

Remarque 2.6. Lorsque X est une variable discrte classe (par exemple la variable Note
lExamen dans lExercice 2.2), le graphe de sa fonction cumulative prsente des sauts et a
lallure de marches descalier ; ainsi, en gnral, il nexiste pas une valeur mdiane Me
pour laquelle la fonction cumulative vaut 50% exactement. Il faut donc dans ce cas
utiliser dautres valeurs typiques pour caractriser la tendance centrale de cette variable.

14
Graphe de la fonction cumulative de la variable discrte classe Note lExamen

100
90
80
70
60
50
40
30
20
10
0
0 4 8 12 16 20 24

La notion de quantile dordre (0 1), encore appele fractile dordre , gnralise


la notion de mdiane. Le quantile dordre dune variable quantitative X, est la valeur x de
cette variable qui permet de scinder la population tudie en deux sous-populations dont les
effectifs respectifs sont gaux et 1 de leffectif de la population initiale. Lorsque X est
continue, on peut dterminer x au moyen de lgalit

F (x ) = .

Les quartiles de X sont ses trois quantiles x0,25 , x0,5 et x0,75 . Q1 = x0,25 , sappelle le premier
quartile ; un quart des valeurs prises par X sont infrieures ou gales Q1 . Q2 = x0,5 = Me est
la mdiane. Q3 = x0,75 sappelle le troisime quartile ; un quart des valeurs prises par X sont
suprieures ou gales Q3 .
Lintervalle interquartile (IIQ) est la diffrence entre le troisime quartile et le premier
quartile ; il scrit :
IIQ = Q3 Q1 .
Lintervalle interquartile sert apprcier la dispersion de X, de faon absolue, ou bien par
comparaison avec une autre variable quantitative, condition que cette dernire soit exprime
dans la mme unit que X. En effet, les valeurs Q1 et Q3 dlimitent une plage au sein de laquelle
50% des valeurs de X sont concentres. Plus IIQ est grand, plus X est disperse.

2.3.3 Moyennes
On dispose dune population de N individus et on observe x1 , x2 , . . . , xN les valeurs dune
variable quantitative discrte X pour ces individus.
a) Moyenne arithmtique
Elle est note par x et elle est dfinie de la manire suivante :
N
x1 + x2 + . . . + xN 1 X
x= = xi .
N N i=1

Exemple 2.7. La moyenne arithmtique de la variable Note lExamen de Statistique , dont


il est question dans lExemple 2.3), vaut 161
15 ' 10, 73 ; dans le cas de lExemple 2.4, la moyenne

15
arithmtique devient 15914 ' 11, 36. Notons que le fait que Bernadette ne participe pas lexamen
(cest la seule diffrence entre lExemple 2.3 et lExemple 2.4), a un impact plus significatif sur
moyenne arithmtique que sur la mdiane ; rappelons que cette dernire augmente de 11 11, 5.
De faon gnrale, la moyenne arithmtique est davantage sensible aux valeurs extrmes que la
mdiane.
Dsignons par ni le nombre de fois o la valeur xi de la variable X est observe (par exemple
dans le cas de la variable Note lExamen de Statistique , la valeur 18 est observe 1 fois,
tandis que la aleur 11 est observe 2 fois) ; ainsi, tant donn que xi + xi + . . . + xi = ni xi , la
| {z }
ni fois
formulation prcdente de x, peut aussi scrire
K K
1 X X
x= ni xi = fi xi ,
N i=1 i=1

o K dsigne le nombre de valeurs distinctes de X et fi = ni /N est la frquence de la valeur xi .


PK
La formulation i=1 fi xi est appele moyenne arithmtique pondre de X, car lon
pondre chacune des valeurs distinctes de X par la frquence correspondante.
Exemple 2.8. Une tude statistique mene sur une population de mnages a montr que 30%
de ces mnages ont 1 enfants, 40% 2 enfants, 15% 3 enfants, 10% 4 enfants, et 5% 5 enfants.
Le nombre moyen denfants par mnage vaut :
x = 0, 3 1 + 0, 4 2 + 0, 15 3 + 0, 1 4 + 0, 05 5 ' 2, 2 enfants.
Remarque 2.7. Plaons nous dans lun ou lautre des deux cas suivants :
Y est une variable quantitative continue, dont lintervalle de variation a t divis en k
classes jointives [y0 , y1 ] , ]y1 , y2 ] , . . . , ]yk1 , yk ] ;
Y est une variable discrte classe dont les classes sont [y0 , y1 ] , ]y1 , y2 ] , . . . , ]yk1 , yk ].
Alors, y la moyenne arithmtique de Y , est dfinie comme la moyenne arithmtique des centres
des classes de Y pondres par les frquences correspondantes ; plus prcisment :
k y k
i1 + yi 1 X  yi1 + yi 
X 
y= fi = ni ,
i=1
2 N i=1 2

Pk tout i, fi et ni dsignent respectivement la frquence et leffectif de la i-me classe,


o, pour
N = i=1 ni tant leffectif total.
Exercice 2.3. (a) Calculer la moyenne arithmtique de la variable continue Revenu des Contri-
buables . (b) Calculer la moyenne arithmtique de la variable classe Note lExamen de
Statistique dont il est question dans lExercice 2.2.

b) Moyenne quadratique
Elle est note par m2 et elle est dfinie de la manire suivante :
v v
u
u1 X N uK
uX
m2 = t x2i = t fi x2i .
N i=1 i=1

Ainsi, la moyenne quadratique de la variable Nombre dEnfants par Mnage , dont il est
question dans lExemple 2.8, vaut :
1/2
m2 = 0, 3 12 + 0, 4 22 + 0, 15 32 + 0, 1 42 + 0, 05 52 ' 2, 47.

16
c) Moyenne harmonique
Elle est note par m1 et elle est dfinie de la manire suivante :

N 1
m1 = PN 1
= PK fi
.
i=1 xi i=1 xi

La moyenne harmonique peut tre utilise chaque fois quil est possible dattribuer un sens rel
aux inverses des donnes (taux dquipement, pouvoir dachat, calcul dindice, . . . ).
Exemple 2.9. On achte des Dollars une premire fois pour 100 Euros au cours de 0, 87 Euro
le Dollar, puis on en achte une seconde fois pour 100 Euros galement mais au cours de 0, 71
Euro le Dollars ; ainsi le montant total des Dollars achets lors de ces deux oprations est :
100 100
+ ' 255, 79 Dollars.
0, 87 0, 71
Le cours moyen du Dollar pour lensemble de ces oprations est, par dfinition, le cours de cm
Euro le Dollar, qui aurait permis lachat, en une seule fois, de 255, 79 Dollars pour 200 Euros ;
ainsi
200 100 100
= + ' 255, 79
cm 0, 87 0, 71
do
200 2
cm = 100 100 = 1 1 ' 0, 78
0,87+ 0,71 0,87 + 0,71

Il apparait donc que cm est la moyenne harmonique des deux cours correspondant aux deux
oprations ; aussi, il est important de noter que cm est diffrent (strictement plus petit) de la
moyenne arithmtique de ces deux cours, en effet cette dernire moyenne vaut (0, 87 + 0, 71)/2 =
0, 79.

Exercice 2.4. Un automobiliste parcourt 40 kilomtres 60 km/h puis 40 autres kilomtres


120km/h ; on note par vm sa vitesse moyenne en km/h sur lensemble de ce trajet de 80
kilomtres. Calculer vm .

d) Moyenne gomtrique
Attention : on ne peut dfinir cette moyenne que lorsque les observations x1 , . . . , xN sont
tous des nombres rels positifs. Si tel est le cas, la moyenne gomtrique de ces observations est
note par Mg , et elle est dfinie par :
q
Mg = N x1 x2 . . . xN = N xn1 1 . . . xnKK = xf11 . . . xfKK .

Exemple 2.10. Supposons que pendant une dcennie, les salaires aient t multiplis par 2 et que
pendant la dcennie suivante ils aient t multiplis par 4 ; alors pour la priode de lensemble
de ces deux dcennies le coefficient multiplicateur est 2 4 = 8. Le coefficient multiplicateur
moyen par dcennie pour cette priode de vingt ans est, par dfinition, le coefficient qui ne
change pas dune dcennie lautre, et qui permet une multiplication par 8 des salaires entre
le dbut et la fin de la priode. 0n a donc 2 = 8 = 2 4, do = 2 4 ' 2, 83. Ainsi, il
apparait que est la moyenne gomtrique des deux coefficients multiplicateurs correspondant aux
deux dcennies ; aussi, il est important de noter que est diffrent (strictement plus petit) de la
moyenne arithmtique de ces deux coefficients, en effet cette dernire moyenne vaut (2+4)/2 = 3.

17
Remarque 2.8. Lorsque les observations x1 , . . . , xN sont tous des nombres rels positifs, alors

min xi m1 Mg x max xi
1iN 1iN

autrement dit
(Le minimum des observations)
(La moyenne harmonique des observations)
(La moyenne gomtrique des observations)
(La moyenne arithmtique des observations)
(Le maximum des observations)

Grce ces ingalits, on peut se rendre compte de certaines erreurs qui seraient commises lors
du calcul de ces moyennes.

2.3.4 Indicateurs de dispersion


On dispose dune population de N individus, et on observe x1 , . . . , xN les valeurs dune
variable quantitative discrte X pour ces individus.
a) Ltendue
Ltendue eX de la variable quantitative discrte X est la diffrence entre la plus grande et
la plus petite des valeurs observes :

eX = max xi min xi .
1iN 1iN

Dans le cas de la variable Note lExamen de Statistique , ltendue vaut 18 2 = 16.

b) Variance et cart-type
La variance de la variable quantitative X, note par Var(X), est, par dfinition, la moyenne
arithmtique des carrs des carts la moyenne arithmtique :
N
1 X
Var(X) = (xi x)2 ; (2.1)
N i=1

cette formule peut galement se recrire sous la forme :


K
X
Var(X) = fi (xi x)2 ,
i=1

o K dsigne le nombre de valeurs distinctes de X et fi = ni /N est la frquence de la valeur xi .


Une autre formule importante (parfois dsigne par formule de Huygens) permettant le calcul de
la variance, est :
 N  K
X 
1 X 2 2
Var(X) = xi (x) = fi x2i (x)2
N
i=1 i=1
2 2
= Moyenne quadratique de X Moyenne arithmtique de X (2.2)

18
Lcart-type de la variable X, not par X , est, par dfinition, la racine carre de la variance
de cette variable : p
X = Var(X).
Signalons au passage que lcart-type est la mesure de la dispersion la plus couramment utilise.

Exemple 2.11. Dterminons la variance et lcart-type de la variable Note lExamen de


Statistique dsigne par X ; rappelons que x, la moyenne arithmtique de cette variable, vaut
= 10, 73
Individu Note lExamen (xi x) (xi x)2 x2i
de Statistique
Michel 12 1,27 1,61 144
Jean 8 -2,73 7,45 64
Stphane 13 2,27 5,15 169
Charles 11 0,27 0,07 121
Agns 10 -0,73 0,53 100
Nadine 9 -1,73 2,99 81
tienne 16 5,27 27,77 256
Gilles 14 3,27 10,69 196
Aurlie 11 0,27 0,07 121
Stphanie 15 4,27 18,23 225
Marie-Claude 4 -6,73 45,29 16
Anne 18 7,27 52,86 324
Christophe 12 1,27 1,61 144
Pierre 6 -4,73 22,37 36
Bernadette 2 -8,73 76,21 4
Total=272,9 Total=2001

Nous allons calculer Var(X) au moyen de deux mthodes, la premire dentre elles consiste
utiliser la formule (2.1) et la seconde la formule (2.2).
Prsentons dabord la premire mthode. La somme des carrs des carts la moyenne
arithmtique vaut 272, 9 (voir lavant dernire colonne du tableau) ; ainsi en utilisant la formule
(2.1), on obtient :
272, 9
Var(X) = ' 18, 19 (2.3)
15
Prsentons maintenant la seconde mthode. La somme des carrs des observations vaut 2001
(voir la dernire colonne du tableau) ; ainsi
2 2001
Moyenne quadratique de X = = 133, 4
15
et daprs la formule (2.2),

Var(X) = 133, 4 (10, 73)2 ' 18, 27 (2.4)

Signalons que la lgre diffrence entre le rsultat (2.3) et le rsultat (2.4), sexplique par les
erreurs darrondi. Dailleurs cette petite diffrence devient presque inexistante,
lorsquon cal-
cule
lcart-type correspondant chacun de ces deux rsultats ; en effet on a 18, 19 ' 4, 26 et
18, 27 ' 4, 27.

19
Exemple 2.12 (Illustration de lutilit de lcart-type). Les 25 tudiants dun Master sont
rpartis en deux groupes, 13 tudiants sont dans le groupe 1 et les 12 restant dans le groupe 2.
Ces 25 tudiants ont pass un examen ; le tableau suivant donne un descriptif de la rpartition
des notes obtenues dans chacun de ces deux groupes :
Tableau de rpartition des notes dans chacun des deux groupes
Centres des Classes Classes de Note Effectifs du groupe 1 Effectifs du groupe 2
2 [0,4] 0 2
6 ]4,8] 1 2
10 ]8,12] 10 3
14 ]12,16] 2 3
18 ]16,20] 0 2
T otal = N1 =13 T otal = N2 =12
Nous souhaitons comparer les rpartitions des notes, dans chacun de ces deux groupes.

Histogramme des effectifs du groupe 1

12

10

0
0 4 8 12 16 20

Histogramme des effectifs du groupe 2

0
0 4 8 12 16 20 24

20
Nous constatons graphiquement que les notes des tudiants du groupe 1 sont trs resserres,
alors que celles des tudiants du groupe 2 sont disperses. Le calcul, pour chacun des deux groupes,
de la moyenne arithmtique des notes ainsi que leur cart-type, va nous permettre de prciser
cette constatation graphique. Commenons dabord par x1 et x2 les moyennes respectives des deux
groupes ; la variable Note (dsigne par X1 pour le groupe 1, et par X2 pour le groupe 2)
tant classe, sa moyenne, dans chacun des deux groupes, est gale la moyenne des centres des
classes pondrs par les frquences correspondantes. On a donc pour le groupe 1,
1 6 + 10 10 + 2 14 134
x1 = = ' 10, 31
13 13
et pour le groupe 2
2 2 + 2 6 + 3 10 + 3 14 + 2 18 124
x2 = = ' 10, 33
12 12
Calculons maintenant V1 et V2 les variances respectives de la variable Note dans chacun des
deux groupes. En utilisant la formule (2.2), on obtient :
1 62 + 10 102 + 2 142  134 2
V1 = ' 3, 76
13 13
et
2 22 + 2 62 + 3 102 + 3 142 + 2 182  124 2
V2 = ' 27, 96 ;
12 12
notons que les carrs des moyennes quadratiques (utilis dans les calculs de V1 et V2 ), sont les
moyennes arithmtiques des carrs des centres des classes pondrs par les frquences correspon-
dantes. Enfin, 1 et 2 , les carts-type respectifs de la variable Note dans chacun des deux
groupes, valent : p
1 = 3, 76 ' 1, 94.
et p
2 = 27, 96 ' 5, 29.
Conclusion : Lcart-type des notes du groupe 1 est modr, cela signifie que les notes
dans ce groupe sont homognes et concentres autour de la moyenne. En revanche, avec une
moyenne pratiquement identique, les notes dans le groupe 2 prsentent un cart-type nettement
plus important, ce qui rflte leur htrognit.

c) Variance Totale, Variance Intra-groupe, Variance Inter-groupe


LExemple 2.12, quon vient dtudier, permet dintroduire brivement les notions de Variance
Totale, Variance Intra-groupe, Variance Inter-groupe. Intressons-nous prsent la rpartition
des notes des 25 tudiants du Master, dans leur ensemble ; le tableau suivant donne un descriptif
de celle-ci :
Tableau de rpartition des notes de lensemble des tudiants du
Master
Centres des Classes Classes de Note Effectifs
2 [0,4] 2
6 ]4,8] 3
10 ]8,12] 13
14 ]12,16] 5
18 ]16,20] 2
T otal = N =25

21
Dans ce cadre la variable classe Note est dsigne par X. La moyenne arithmtique de X
est appele la moyenne arithmtique totale (puisquil sagit de la moyenne pour les deux groupes
la fois), et elle est note par xT . Cette moyenne totale est intimement lie x1 et x2 , les moyennes
respectives dans chacun des deux groupes ; plus prcisment xT est la moyenne arithmtique de
x1 et x2 , pondre par les "poids" des deux groupes :
 N1   N
2

xT = x1 + x2
N1 + N2 N1 + N2
Ainsi,
13 12
xT ' 10, 31 + 10, 33 ' 10, 32
25 25
La variance de X est appele la variance totale et elle est note par VT . Rappelons que V1 et V2
dsignent les variances au sein de chaque groupe ; on peut montrer que

moyenne des variances des deux groupes variance des moyennes des deux groupes
z }| { z }| {
 N1  N2   N1   2  N2  2
VT = V1 + V2 + x1 x + x2 x
N1 + N2 N1 + N2 N1 + N2 N1 + N2
| {z } | {z }
Variance Intra-groupe Variance Inter-groupe

Ainsi,
! !
13 12 13 2 12 2
VT ' 3, 76 + 27, 96 + 10, 31 10, 32 + 10, 33 10, 32 ' 15, 38
25 25 25 25

et donc lcart-type de X vaut 15, 38 ' 3, 92.
d) Lcart absolu moyen
Lcart absolu moyen la moyenne de la variable quantitative discrte X est la moyenne
arithmtique des valeurs absolues des carts la moyenne arithmtique :
N K
1 X X
ex = |xi x| = fi |xi x|,
N i=1 i=1

o K dsigne le nombre de valeurs distinctes de X et fi la frquence de xi


Exemple 2.13. Calculons ex , lcart absolu moyen la moyenne, de la variable quantitative
Note lExamen de Statistique , dont il est question dans lExemple 2.3 ; rappelons que x, la
moyenne arithmtique de cette variable, vaut peu prs 10, 73. On a

22
Individu Note lExamen (xi x) |xi x|
de Statistique
Michel 12 1,27 1,27
Jean 8 -2,73 2,73
Stphane 13 2,27 2,27
Charles 11 0,27 0,27
Agns 10 -0,73 0,73
Nadine 9 -1,73 1,73
tienne 16 5,27 5,27
Gilles 14 3,27 3,27
Aurlie 11 0,27 0,27
Stphanie 15 4,27 4,27
Marie-Claude 4 -6,73 6,73
Anne 18 7,27 7,27
Christophe 12 1,27 1,27
Pierre 6 -4,73 4,73
Bernadette 2 -8,73 8,73
Total=50,81
Ainsi, on trouve que
50, 81
ex ' ' 3, 39
15
Lcart absolu moyen la mdiane de la variable quantitative discrte X est la moyenne
arithmtique des valeurs absolues des carts la mdiane Me .
N K
1 X X
eMe = |xi Me | = fi |xi Me |.
N i=1 i=1

Exercice 2.5. Calculer eMe lcart absolu moyen la mdiane de la variable Note lExamen
de Statistique , dont il est question dans lExemple 2.3 ; rappelons que Me , la mdiane de cette
variable, vaut 11.

3 Analyse bivarie
Lobjectif de lanalyse bivarie est dtudier les ventuelles relations entre deux variables
statistiques.

3.1 Liaison entre deux variables quantitatives


3.1.1 La rgression linaire simple
Exemple 3.1. On souhaite tudier la relation superficie-prix de 5 appartements Paris ; la
variable quantitative X dsigne la surface en m2 , et la variable quantitative Y le prix de vente
en milliers dEuros. Le tableau suivant donne les valeurs de ces deux variables, pour les 5 appar-
tements :

Tableau de Donnes
2
X (en m ) x1 = 20 x2 = 60 x3 = 90 x4 = 140 x5 = 160
Y (en milliers dEuros) y1 = 250 y2 = 400 y3 = 600 y4 = 1000 y5 = 1300

23
On commence par visualiser les variables X et Y en les reprsentant sous la forme dun nuage
de point : dans un repre cartsien, chaque observation (xi , yi ) est figure par le point Mi de
coordonnes (xi , yi ). On cherche une approximation de ce nuage dans un but de simplification ;
sa forme donne une information sur le type dune ventuelle liaison entre les variables X et Y .

1600
b

1200 M5
b

800 M4
M3 b

M2
b
G
400 M1b
b

0
0 20 40 60 80 100 120 140 160 180

Dans lexemple tudi, on observe un nuage oblong (allong), nous permettant denvisager
une liaison linaire entre la surface dun appartement et son prix. Plus prcisment, il semble
raisonnable de considrer que la relation entre la surface xi dun appartement et son prix yi , est
peu prs de la forme yi = axi + b. Les coefficients (ou paramtres) a et b seront choisis de la
sorte que la droite dquation y = ax + b passe le plus prs possible de lensemble des
points du nuage ; nous allons maintenant formaliser cette ide.
Considrons une droite D dquation y = ax + b et soit la droite parallle laxe des
0
ordonnes et passant par le point Mi . Les droites et D se coupent en un point Mi ; la distance
0
de Mi Mi vaut |yi axi b|. Les coefficients a et b seront choisis de sorte que la quantit :

(y1 ax1 b)2 + (y2 ax2 b)2 + (y3 ax3 b)2 + (y4 ax4 b)2 + (y5 ax5 b)2 ,

soit minimale.
Plus gnralement, soient x1 , x2 , . . . , xN et y1 , y2 , . . . , yN , les valeurs observes de deux va-
riables quantitatives X et Y , pour un chantillon de N individus. Les coefficients de la droite
des moindres carrs, cest--dire de la droite qui permet dajuster au mieux, au sens du critre
des moindres carrs, le nuage de points M1 = (x1 , y1 ) ; M2 = (x2 , y2 ) ; . . . ; MN = (xN , yN ) sont
les nombres a et b qui rendent minimale la quantit

(y1 ax1 b)2 + (y2 ax2 b)2 + . . . + (yN axN b)2 .

Ils sont donns par les deux formules :


(x1 x)(y1 y) + (x2 x)(y2 y) + . . . + (xN x)(yN y)
a= (3.1)
(x1 x)2 + (x2 x)2 + . . . + (xN x)2
et
b = y ax . (3.2)
La formule (3.2) signifie que la droite des moindres carrs passe par le centre de gravit du
nuage de points M1 = (x1 , y1 ) ; M2 = (x2 , y2 ) ; . . . ; MN = (xN , yN ), cest--dire par le point G
de coordonnes (x, y) o, x et y sont les moyennes arithmtiques des variables X et Y .

24
Une fois quon a dtermin a et b, pour tout i = 1, 2, . . . , N , on pose :

ybi = axi + b ; (3.3)

cette quantit ybi est appele la valeur estime de Y , par la droite des moindres carrs,
lorsque X vaut xi . Quand lajustement est de bonne qualit, cette valeur estime ybi est assez
proche de yi la valeur relle de Y lorsque X vaut xi .
Appliquons maintenant, lexemple qui nous intresse, les formules quon vient de donner
dans un cadre gnral.
La moyenne arithmtique x des surfaces des 5 appartements vaut x = 470 5 = 94 m2 , la
3550
moyenne arithmtique y de leurs prix vaut y = 5 = 710 milliers dEuros ; ainsi, G le centre
gravit du nuage des 5 points associ aux variables X et Y , admet pour coordonnes (94, 710).
Le tableau suivant va nous permettre de calculer les valeurs de a et b :

xi x yi y (xi x)(yi y) (xi x)2 (yi y)2


-74 -460 34040 5476 211600
-34 -310 10540 1156 96100
-4 -110 440 16 12100 (3.4)
46 290 13340 2116 84100
66 590 38940 4356 348100
Total = 97300 Total = 13120 Total = 752000

ainsi, grce aux formules (3.1) et (3.2), on trouve que :


97300
a= ' 7, 416 et b = 710 7, 416 94 ' 12, 896 , (3.5)
13120
donc la droite des moindres carrs admet pour quation :

y = 7, 416 x + 12, 896 .

Calculons enfin, yb1 , yb2 , . . . , yb5 , les prix estims en milliers dEuros des 5 appartements. Grce
(3.3) et (3.5), on trouve que : yb1 = 7, 41620+12, 896 ' 161 ; yb2 = 7, 41660+12, 896 ' 458 ;
yb3 = 7, 416 90 + 12, 896 ' 680 ; yb4 = 7, 416 140 + 12, 896 ' 1051
et yb5 = 7, 416 160 + 12, 896 ' 1199 .
Le tableau suivant permet de comparer les prix rels des appartements leurs prix estims
au moyen de droite des moindres carrs :
X x1 = 20 x2 = 60 x3 = 90 x4 = 140 x5 = 160
(en m2 )
Valeur relle de Y
(en milliers dEuros) y1 = 250 y2 = 400 y3 = 600 y4 = 1000 y5 = 1300
Valeur estime de Y
(en milliers dEuros) yb1 = 161 yb2 = 458 yb3 = 680 yb4 = 1051 yb5 = 1199

3.1.2 Covariance et coefficient de corrlation


Il est toujours possible de tracer la droite des moindres carrs quelle que soit la forme du nuage
de points M1 = (x1 , y1 ) ; M2 = (x2 , y2 ) ; . . . ; MN = (xN , yN ). Lapproximation de ce nuage par
cette droite est-elle pour autant lgitime ?
Un premier lment de rponse cette question est donn par lexamen de R(X, Y ) le coeffi-
cient de corrlation linaire des variables X et Y (parfois on dit le coefficient de corrlation

25
linaire entre les variables X et Y ). Pour pouvoir dfinir ce coefficient, il faut dabord dfinir la
covariance de X et Y (parfois on dit la covariance entre X et Y ).
x1 , x2 , . . . , xN et y1 , y2 , . . . , yN dsignent les valeurs prises par X et Y pour une population
de N individus. La covariance de X et Y , note par cov(X, Y), est dfinie par :
(x1 x)(y1 y) + (x2 x)(y2 y) + . . . + (xN x)(yN y)
cov(X, Y) = , (3.6)
N
o x et y dsignent les moyennes arithmtiques de X et Y ; notons que

cov(X, X) = Var(X) .

La covariance de X et Y peut aussi tre calcule au moyen de la formule (parfois dsigne par
formule de Huygens) :
 
x1 y1 + x2 y2 + . . . + xN yN
cov(X, Y) = xy; (3.7)
N
en fait la formule (2.2) nest rien dautre que la formule (3.7), dans le cas o X = Y .
Exemple 3.2. Soient X et Y les variables Superficie et Prix , dont il est question dans
lExemple 3.1 (lexemple des appartements). Nous allons calculer cov(X, Y) au moyen de deux
mthodes : la premire dentre elles consiste utiliser la formule (3.6), et la seconde consiste
utiliser la formule (3.7).
Prsentons dabord la premire mthode. On a dj vu que (voir le tableau (3.4)) :

(x1 x)(y1 y) + (x2 x)(y2 y) + (x3 x)(y3 y) + (x4 x)(y4 y) + (x5 x)(y5 y) = 97300 ;

ainsi, il rsulte de la formule (3.6) que :


97300
cov(X, Y) = = 19460 .
5
Prsentons maintenant la seconde mthode. Pour calculer x1 y1 + x2 y2 + x3 y3 + x4 y4 + x5 y5 ,
nous utilisons le tableau suivant :
xi yi xi yi
20 250 5000
60 400 24000
90 600 54000
140 1000 140000
160 1300 208000
total = 431000
qui nous permet de trouver que : x1 y1 + x2 y2 + x3 y3 + x4 y4 + x5 y5 = 431000 ; ainsi, on obtient
que :
x1 y1 + x2 y2 + x3 y3 + x4 y4 + x5 y5 431000
= = 86200 . (3.8)
5 5
Dautre part, dans la Sous-section 3.1.1, on a vu que x = 94 et y = 710 ; on a par consquent :

x y = 94 710 = 66740 . (3.9)

Finalement, en utilisant la formule (3.7), ainsi que (3.8) et (3.9), on obtient :

cov(X, Y) = 86200 66740 = 19460 .

26
Remarque 3.1. (Ingalit de Cauchy-Schwarz) La valeur absolue de la covariance de deux
variables quantitatives X et Y , est toujours infrieure ou gale au produit de leurs carts-types :

|cov(X, Y)| X Y ;

cette ingalit peut aussi scrire sous la forme

X Y cov(X, Y) X Y .

Ecrivons lingalit de Cauchy-Schwarz dans le cas de lExemple 3.1 (lexemple des apparte-
ments). Pour cet exemple, on a dj montr que cov(X, Y) = 19460 ; il nous reste calculer les
carts-types X et Y . On a dj vu que (voir le tableau (3.4)) :

(x1 x)2 + (x2 x)2 + (x3 x)2 + (x4 x)2 + (x5 x)2 = 13120

et
(y1 y)2 + (y2 y)2 + (y3 y)2 + (y4 y)2 + (y5 y)2 = 752000 ;
on obtient donc, au moyen de la formule (2.1), que Var(X) = 13120 = 2624 et Var(Y) =
752000
5
5 = 150400, do X = 2624 ' 51, 22 et Y = 150400 ' 387, 81. Ainsi, dans le cas
de lExemple 3.1, lingalit de Cauchy-Schwarz scrit :

19460 = |cov(X, Y)| X Y ' 51, 22 387, 81 ' 19863, 63 .

Le coefficient de corrlation linaire des deux variables X et Y , not R(X, Y ), est


dfini par
cov(X, Y)
R(X, Y ) = . (3.10)
X Y
Ainsi, dans le cas de lExemple 3.1, on a
19460
R(X, Y ) ' ' 0, 979.
51, 22 387, 81
Remarque 3.2. (Proprits importantes du coefficient de corrlation linaire)
(i) Il rsulte de lingalit de Cauchy-Schwarz que R(X, Y ) est toujours compris entre 1
et +1.
(ii) Le coefficient directeur a (la pente) de la droite des moindres carrs vrifie :

cov(X, Y) Y
a= = R(X, Y ) ;
Var(X) X

par consquent a et R(X, Y ) sont toujours de mme signe.


Remarque 3.3. (Interprtation du coefficient de corrlation linaire)
(i) Lorsque R(X, Y ) est voisin de 0, il y a absence de corrlation entre les variables
X et Y ; lapproximation du nuage de points par la droite des moindres carrs est alors
illgitime et il faut rejeter lajustement linaire.
(ii) Lorsque R(X, Y ) est voisin de +1, il y a une corrlation directe entre les variable X
et Y ; cela signifie grosso modo que Y augmente lorsque X augmente, et que X augmente
lorsque Y augmente.
(iii) Lorsque R(X, Y ) est voisin de 1, il y a une corrlation inverse entre les variables
X et Y ; cela signifie grosso modo que Y augmente lorsque X diminue, et X diminue
lorsque Y augmente.

27
Avant de conclure cette section, il convient de souligner que : pour que lajustement dun
nuage de points par la droite des moindres carres soit de bonne qualit, il est indispensable que
le coefficient de corrlation linaire soit voisin de +1, ou encore de 1 ; cependant cela, lui tout
seul, ne suffit pas pour garantir la bonne qualit de cet ajustement, une tude complmentaire,
qui dpasse le cadre de ce cours, simpose.

28
3.2 Liaison entre deux variables qualitatives
3.2.1 Tableau de contingence

29
Exemple : On dispose dune enqute de lINSEE sur les tablissements industriels et com-
merciaux en 1986 et on cherche sil existe un lien entre la taille dun tablissement (cest--dire
leffectif, le nombre de salaris dun tablissement ) et sa localisation gographique. On consi-
dre que la variable Classe dEffectif des Etablissements est qualitative ordinale, et que ses
modalits sont les classes : 10-49, 50-199, 200-499, 500-1999 et plus de 2000 salaris. La variable
Rgions est clairement qualitative nominale.
Les 218645 tablissements industriels et commerciaux de plus de 10 salaris recenss par
lINSEE se rpartissent en fonction de leur localisation et de leur classe deffectif comme lindique
le Tableau 1. Un tel tableau sappelle tableau de contingence ou encore tableau crois. Le
nombre 2362 se trouve sur la ligne Nord-Pas de Calais et sur la colonne 50-199 ; cela signifie que
sur les 218645 tablissements recenss 2362 se trouvent dans la rgion NPdC et possdent chacun
un effectif compris entre 50 et 199 salaris.
Le nombre 13318 qui se trouve sur la colonne Total et sur la ligne NPdC signifie que sur les
218645 tablissements recenss 13318 se trouvent dans la rgion NPdC ; ce nombre est donc gal
la somme de tous les autres nombres qui se trouvent sur la ligne NPdC.
Le nombre 34025 qui se trouve sur la ligne Total et sur la colonne 50-199 signifie que sur
les 218645 tablissements recenss 34025 possdent un effectif compris entre 50 et 199 salaris ;
ce nombre est donc gal la somme de tous les autres nombres qui se trouvent sur la colonne
50-199.
Le nombre qui se trouvent sur la ligne Total et sur la colonne Total correspond au total
des tablissements recenss cest--dire 218645 ; ce nombre est donc gal la somme de tous les
autres nombres qui se trouvent sur la ligne Total, il est aussi gal la somme de tous les autres
nombres qui se trouvent sur la colonne Total.
De faon gnrale, soient Z et T deux variables qualitatives dont les modalits sont respec-
tivement z1 , . . . , zi , . . . , zk et t1 , . . . , tj , . . . , tl . Les valeurs de ces variables ont t observes sur
une population de n individus.
La rpartition des effectifs suivant les modalits de Z et de T , se prsente sous forme dun
tableau double entre, appel tableau de contingence ou encore tableau crois :
Z \T t1 tj tl Total
z1 n11 n1j n1l n1
.. .. .. .. ..
. . . . .
zi ni1 nij nil ni
.. .. .. .. ..
. . . . .
zk nk1 nkj nkl nk
Total n1 nj nl n
Leffectif nij qui se trouve sur la i-me ligne et la j-me colonne du tableau de contingence,
est le nombre dindividus qui possdent la fois la modalit zi de la variable Z et la modalit tj
de la variable T . Les effectifs nij , i = 1, . . . , k et j = 1, . . . , l sont appels les effectifs croiss
observs.
Leffectif ni qui se trouve sur la i-me ligne et la colonne Total est le nombre dindividus
qui possdent la modalit zi de la variable Z ; on a donc
ni = ni1 + ni2 + . . . + nil .
Leffectif nj qui se trouve sur la j-me colonne et la ligne Total est le nombre dindividus
qui possdent la modalit tj de la variable T ; on a donc
nj = n1j + n2j + . . . + nkj .

30
Leffectif n qui se trouve sur la ligne Total et la colonne Total est le nombre dindividus de
la population tudie ; on a donc

n = n1 + n2 + . . . + nk

et
n = n1 + n2 + . . . + nl .
La frquence de la modalit zi de la variable Z est donne par :
ni
fi = .
n
55349
Ainsi sur les 218645 tablissements recenss f1 = 218645 ' 0, 253 (soit 25, 3%) cest--dire
plus dun tablissement sur 4 se trouve dans la rgion parisienne. Trois autres rgions concentrent
22280
les tablissements, Rhnes-Alpes (f2 = 218645 ' 0, 102 soit 10, 2%), Provence Cte dAzur
14512 13318
(f3 = 218645 ' 0, 066 soit 6, 6%) et Nord-Pas de Calais (f4 = 218645 ' 0, 061 sot 6, 1%).
La frquence de la modalit tj de la variable T est donne par
nj
fj = .
n
Dans notre exemple, il ressort de ltude des frquences fj , une rpartition asymtrique des
176004
entreprises en fonction de leurs effectifs (f1 = 218645 ' 0, 805 soit 80, 5%) ont moins de 50
233
salaris et seuls (f5 = 218645 ' 0, 001 soit 0, 1%) en ont plus de 2000.
La donne des modalits zi de la variable Z et des frquences correspondantes fi (ou encore
des effectifs correspondant ni ) est appele distribution marginale de la variable Z.
La donne des modalits tj de la variable T et des frquences correspondantes fj (ou encore
des effectifs correspondant nj ) est appele distribution marginale de la variable T .
La frquence conditionnelle de zi sachant que T = tj est donne par
nij
fi|j = ,
nj
n
fi|j se lit f indice i si j . On a donc f1|j + f2|j + . . . + fk|j = nj
j
= 1.
Le tableau suivant est appel tableau des profils colonnes

Z \T t1 tj tl Distribution marginale de Z
z1 f1|1 f1|j f1|l f1
.. .. .. .. ..
. . . . .
zi fi|1 fi|j fi|l fi
.. .. .. .. ..
. . . . .
zk fk|1 fk|j fk|l fk
Total 1 1 1 1

fi|j se trouve sur la i-me ligne et la j-me colonne du tableau. De faon gnral, ce tableau permet
de comparer les profils colonnes (les colonnes) au profil marginal colonne (dernire colonne) et
de les comparer entre eux. Dans le cas de notre exemple, au moyen du Tableau 3 (voir un peu
plus loin), on peut capter pour chaque classe deffectif la rpartition gographique des entreprises
correspondantes. On se rend compte notamment que la concentration dans la rgion le de France
des grandes entreprises est nettement plus forte que celle des petites.

31
La frquence conditionnelle de tj sachant que Z = zi est donne par
nij
fj|i =
ni
On a donc
f1|i + f2|i + . . . + fl|i = 1.
fj|i se lit f indice j si i .
Le tableau suivant est appel tableau des profils lignes
Z \T t1 tj tl Total
z1 f1|1 fj|1 fl|1 1
.. .. .. .. ..
. . . . .
zi f1|i fj|i fl|i 1
.. .. .. .. ..
. . . . .
zk f1|k fj|k fk|l 1
Distribution marginale de T f1 fj fl 1
fj|i se trouve sur la i-me ligne et la j-me colonne du tableau. De faon gnrale, ce tableau
permet de comparer les profils lignes (les lignes) au profil marginal ligne (dernire ligne) et de
les comparer entre eux. Dans le cas de notre exemple, le Tableau 2 (voir un peu plus loin) donne
pour chaque rgion la rpartition des entreprises par classe deffectif. On se rend compte quil ny
a gure de diffrence entre les rgions. Dans chaque rgion, les petites entreprises sont largement
majoritaires alors que les grandes sont largement minoritaires.

32
33
3.2.2 Test dune ventuelle liaison (test du 2 chi 2 )
Il ny a pas de liaison entre les variables Z et T , lorsque tous les profils colonnes sont
identiques au profil marginal colonne. Autrement dit, pour tout i = 1, . . . , k et tout j = 1, . . . , l
fi|j la frquence conditionnelle de zi sachant T = tj est gale fi, , la frquence de zi . Cette
galit est quivalente lgalit
nij ni
=
nj n
ou encore lgalit
ni nj
nij = .
n
Il ny a galement pas de liaisons entre les variables Z et T , lorsque tous les profils lignes
sont identiques au profil marginal ligne. Autrement dit, pour tout i = 1, . . . , k et tout j = 1, . . . , l
fj|i la frquence conditionnelle de tj sachant Z = zi est gale fj , la frquence de tj . Cette
galit est quivalente lgalit
nij nj
=
ni n
ou encore lgalit
ni nj
nij = ,
n
quon a dj vue plus haut.
Dans le cas de notre exemple, les profils colonnes ne sont pas identiques au profil marginal
colonne. Cela signifie quil existe une liaison entre la variable Rgions et la variable Classe
dEffectif des Etablissements . Pour tout i = 1, . . . , k et tout j = 1, . . . , l on pose
ni nj
nij = .
n
Les quantits nij sont appeles les effectifs (croiss) thoriques ; il sagit en fait des effectifs
quon aurait obtenus sil ny avait pas eu de liaison entre les variables Z et T . Par exemple,
leffectif thorique crois Ile de France, Classe deffectif 10-49 vaut n11 = 55349176004
218645 ' 44555 et
leffectif thorique crois Nord-Pas de Calais, Classe deffectif 200-499 vaut n43 = 133186274
218645 '
382.
Le tableau suivant est appel tableau des effectifs thoriques

Z \T t1 tj tl Total
z1 n11 n1j n1l n1
.. .. .. .. ..
. . . . .
zi ni1 nij nil ni
.. .. .. .. ..
. . . . .
zk nk1 nkj nkl nk
Total n1 nj nl n

nij se trouve sur la i-me ligne et la j-me colonne du tableau. Plus la diffrence entre
le tableau de contingence (le tableau des effectifs croiss observs) et le tableau des effectifs
thoriques est grande, plus grande est la probabilit dexistence dune liaison significative entre
les variables Z et T . Pour formaliser cette ide, il convient dintroduire la quantit suivante
appele distance du 2 ( chi 2 ).

34
(n11 n11 )2 (n12 n12 )2 (n1l n1l )2
2 = + + . . . +
n11 n12 n11
2 2
(n21 n21 ) (n22 n22 ) (n2l n2l )2
+ + + . . . +
n21 n22 n21
..
.
(nk1 nk1 )2 (nk2 nk2 )2 (nkl nkl )2
+ + + ... +
nk1 nk2 nkl

La distance du 2 mesure lcart entre le tableau de contingence et la tableau des effectifs


thoriques. Plus elle est grande, plus cet cart est important. Lorsquil ny a pas de liaisons en
tre Z et T , comme on la vu prcdemment, les effectifs croiss observs sont gaux aux effectifs
thoriques (pour tout i = 1, . . . , k et pour tout j = 1 . . . l nij = nij ) et cela est quivalent
2 = 0.
Les 2 partiels sont les quantits 2ij dfinies pour tout i = 1, . . . , k et tout l = 1, . . . , l par

(nij nij )2
2ij = .
nij

2ij mesure le carr de lcart entre leffectif observ nij et leffectif thorique nij relativement
leffectif thorique nij . Par exemple, le 2 partiel le de France, Classe deffectif 10-49 vaut
(4394344555)2
211 = 44555 ' 8, 4 et le 2 partiel Nord-Pas de Calais, Classe deffectif 200-499 vaut
(487382)2
243 = 382 ' 28, 86.
Lorsque pour un certain i0 et un certain j0 leffectif observ ni0 j0 est plus grand que leffectif
thorique ni0 j0 (ni0 j0 > ni0 j0 ) on dit quil y a attraction entre la modalit zi0 de la variable Z
et la modalit tj0 de la variable T. Lorsque pour un certain i1 , et un certain j1 , leffectif observ
ni1 j1 est plus petit que leffectif thorique ni1 j1 (ni1 j1 < ni1 j1 ) on dit quil y a rpulsion entre la
modalit zi1 de la variable Z et la modalit tj1 de la variable T.
Dans le cas de notre exemple, il y a rpulsion entre la modalit le de France de la variable
Rgion et la modalit 10-49 de la variable classe deffectif (car n11 = 43943 < 44555 = n11 ). En
revanche, il y a attraction entre la modalit Nord-Pas de Calais de la classe Rgion et la modalit
200-499 de la variable classe deffectif (car n43 = 487 > 382 = n43 ).
Il rsulte de ce qui prcde que la distance du 2 est gale la somme de tous les 2 partiels

2 = 211 + 212 + . . . + 21l


+ 221 + 222 + . . . + 22l
..
.
+ 2k1 + 2k2 + . . . + 2kl

35
Le tableau des 2 partiels est le tableau suivant :

36
Z \T t1 tj tl Total
z1 211 21j 21l 21
.. .. .. .. ..
. . . . .
zi 2i1 2ij 2il 2i
.. .. .. .. ..
. . . . .
zk 2k1 2kj 2kl 2k
Total 21 2j 2l 2

2ij se trouve sur la i-me ligne et la j-me colonne. Pour tout i = 1, . . . , k, 2 i dsigne la
somme des 2 partiels se trouvant sur la i-me ligne du tableau :

2i = 2i1 + 2i2 + . . . + 2il .

Pour tout j = 1, . . . , l, 2j dsigne la somme des 2 partiels se trouvant sur la j-me ligne du
tableau :
2j = 21j + 22j + . . . + 2kj .
Daprs ce qui prcde, on a

2 = 21 + . . . + 2k = 21 + . . . + 2l .

Pour calculer 2 , on commence, par calculer, pour chaque ligne du tableau, la somme des
nombres sy trouvant et on reporte les rsultats dans la colonne Total. Ensuite, on calcule la
somme de nombres se trouvant dans la colonne Total.
On peut galement, pour calculer 2 , commencer par calculer pour chaque colonne du tableau,
la somme des nombres sy trouvant, reporter le rsultat dans la ligne Total puis faire la somme
des nombres sy trouvant dans la ligne Total.
De faon gnrale, lorsque la valeur de la distance du 2 est plus grande quun certain seuil (la
mthode permettant de d{eterminer ce seuil dpasse le cadre de ce cours), on accepte lhypothse
dexistence dune liaison entre le variables Z et T. Dans le cas de notre exemple, on trouve que
2 = 842 et cela nous amne accepter lhypothse de lexistence dun lien entre la taille
(leffectif) dun tablissement industriel ou commercial et sa localisation gographique.
En examinant plus attentivement le tableau des 2 partiels, on saperoit que dans certaines
cases les valeurs sont sensiblement plus leves quailleurs. On est tent de considrer que ce sont
les cases les plus importantes, que ce sont ces situations quil faut interprter. Cest notamment
le cas des cases (Midi-Pyrnes, 50-199) ; (PACA ; 50-199) ; (PACA, 200-499) ; (NPdC, 50-199) ;
(IdF, 500-1999) ; (IdF, 200-499) . . .
Pour pouvoir identifier de faon prcise les cases (, ) les plus importantes du tableau des 2
partiels, on est amen considrer, pour tout i = 1, . . . , k et tout j = 1, . . . , l la quantit

2ij
CTRij = 100
2

Cette quantit est appele contribution relative de la case (i, j) la valeur de 2 . Dans
le cas de la case (Midi-Pyrnes, 50-199), on trouve que CTR92 = 54,47
842 100 = 6, 47%
Le tableau des contributions est le tableau suivant :

37
Z \T t1 tj tl Total
z1 CTR11 CTR1j CTR1l CTR1
.. .. .. .. ..
. . . . .
zi CTRi1 CTRij CTRil CTRi
.. .. .. .. ..
. . . . .
zk CTRk1 CTRkj CTRkl CTRk
Total CTR1 CTRj CTRl 100%

38
39

Das könnte Ihnen auch gefallen