Beruflich Dokumente
Kultur Dokumente
=
Le coefficient d'asymtrie de Yule :
) ( 2
2
1 3
3 1
Q Q
M Q Q
Y
e
+
=
Lorsque le coefficient d'asymtrie est positif, la distribution est plus tale droite, lorsque le coefficient
d'asymtrie est ngatif, la distribution est plus tale gauche.
- Coefficient d'aplatissement.
Le coefficient le plus utilis est celui de Fisher : 3
) (
4
4
2
=
X
X
, avec ) (
4
X : le moment dordre 4 de
X,
=
=
n
i
i
m x
n
X
1
4
4
) (
1
) (
Il est dautant plus grand que les valeurs de la srie statistique sont plus regroupes autour de la moyenne.
Si 0
2
= , la distribution a le mme aspect quune loi normale de mme moyenne et de mme
cart-type
Si 0
2
> , la distribution est moins aplatie que la loi normale
Si 0
2
< , la distribution est plus aplatie que la loi normale
II. UTILISATION DE TESTS STATISTIQUES
Nous conduisons une recherche de faon dterminer l'acceptabilit d'hypothses dcoulant de nos
connaissances (thories). Aprs avoir slectionn une hypothse, qui nous parat importante, nous
rcoltons des donnes empiriques qui devraient nous apporter des informations directes sur
l'acceptabilit de cette hypothse. Notre dcision concernant la signification des donnes nous conduit
soit retenir, soit rviser ou soit rejeter l'hypothse et la thorie qui en est la source.
Pour atteindre une dcision objective concernant une hypothse particulire, nous devons suivre une
procdure objective (mthodes publiques et rptables par d'autres chercheurs) permettant soit
8
d'accepter soit de rejeter cette hypothse. Cela consiste formuler, en termes probabilistes, un jugement
sur une hypothse relative une population, partir des rsultats observs sur un chantillon extrait au
hasard de cette population.
Cette procdure suit les tapes suivantes :
1- tablir l'hypothse nulle (H
0
) [considrer l'hypothse alternative H
1
].
2- choisir le test statistique appropri pour tester H
0
,
3- spcifier un niveau de signification ( ) et la taille de l'chantillon (n),
4- trouver la distribution d'chantillonnage du test statistique sous H
0
,
5- sur la base de 2, 3, 4, dfinir la rgion de rejet, (Valeur critique)
6- calculer la valeur de la statistique du test l'aide des donnes de l'chantillon.
1. L'hypothse nulle
C'est la premire tape de la procdure. L'hypothse nulle H
0
est gnralement une hypothse de non
diffrence il n'y a pas de diffrence significative entre les chantillons A et B . Elle est formule de
faon tre rejete. Dans le cas de son rejet, l'hypothse alternative (H
1
) il y a une diffrence
significative entre les chantillons A et B doit tre accepte. Cette dernire est la prdiction drive de
la thorie tester. Un test d'hypothse constitue donc une sorte de dmonstration par l'absurde en
probabilit.
Supposons qu'une thorie scientifique nous conduise prdire que deux groupes spcifiques dindividus
diffrent par le temps qu'ils passent dans une activit donne. Cette prdiction sera notre hypothse de
recherche. Pour tester cette hypothse de recherche, nous la formulons en hypothse alternative H
1
.
Cette dernire pose que la moyenne de temps passe dans cette activit par les membres des deux
populations est diffrente (
2 1
), alors que pour H
0
la moyenne de temps passe dans cette activit
par les deux populations est la mme (
2 1
= ). Si les donnes nous permettent de rejeter H
0
, alors H
1
peut tre accepte, et cela supportera l'ide de la validit de l'hypothse de recherche et de sa thorie
sous-jacente.
La nature de l'hypothse de recherche dtermine comment H
1
doit tre formule :
Si elle pose que deux groupes diffreront simplement par leur moyenne, alors H
1
est telle que
2 1
. Les tests statistiques seront bilatraux.
Au contraire, si la thorie prdit la direction de la diffrence, c'est--dire qu'un des groupes
spcifis aura une moyenne suprieure celle de l'autre groupe, alors H
1
est telle que soit
2 1
> soit
2 1
< . Les tests applicables seront alors unilatraux.
Les tables statistiques (et maintenant les logiciels statistiques) fournissent les valeurs statistiques
critiques dans les deux cas. Pour tous les tests, on dfinit donc une hypothse nulle. Le calcul de
probabilit p correspond la probabilit que l'hypothse nulle soit vraie (ou la probabilit de se
tromper en rejetant l'hypothse nulle). Si p>0,05 (5%) ou p>0,01 (1%), on ne peut pas rejeter
l'hypothse nulle. On dit qu'on a une diffrence non significative entre les deux chantillons.
2. Choix du test statistique
On dispose actuellement de nombreux tests statistiques diffrents qui peuvent tre utiliss pour arriver
une dcision concernant une hypothse. Le choix doit se faire sur des bases rationnelles.
3. Niveau de signification et la taille de l'chantillon
9
L'ensemble des valeurs observes pour lesquelles l'hypothse nulle est admissible forme la rgion
d'acceptation ou de non-rejet et les autres valeurs constituent la rgion de rejet ou domaine de rejet ou
rgion critique. Mais le hasard de l'chantillonnage peut fausser les conclusions. Quatre situations
doivent tre envisages :
- l'acceptation de l'hypothse nulle alors qu'elle est vraie,
- le rejet de l'hypothse nulle alors qu'elle est vraie,
- l'acceptation de l'hypothse nulle alors qu'elle est fausse,
- le rejet de l'hypothse nulle alors qu'elle est fausse.
Dans le premier et le dernier cas, la conclusion obtenue est correcte, mais pas dans les deux cas
intermdiaires. L'erreur qui consiste rejeter une hypothse vraie est appele erreur de premire
espce ( ) et celle commise en acceptant une hypothse fausse est l'erreur de seconde espce ( ).
Idalement, et devraient tre dtermins par l'exprimentateur pralablement la recherche, ce qui
dtermine la taille de l'chantillon (N). Une diminution du risque alpha, augmente le risque bta pour
tout chantillon donn. La probabilit de commettre l'erreur de seconde espce dcrot lorsque la taille
de l'chantillon augmente.
Pratiquement, on se donne une limite suprieure du risque de premire espce, le plus souvent 5%
(significatif), 1% (trs significatif) ou l/oo (hautement significatif). Cette limite constitue aussi le
niveau de signification du test et permet de dfinir la condition de rejet de l'hypothse nulle. Le plus
souvent, les logiciels de statistique donnent le niveau de signification rel. On rejette alors l'hypothse
nulle au niveau de signification nominal choisi (par exemple 0,05) si (et seulement si) le niveau de
signification rel est infrieur ou gal au niveau de signification nominal (p = 0,003 < 0,05, rejet de H
0
).
Cette attitude est dite conservatrice.
Le risque de premire espce tant donn, on peut s'efforcer de calculer le risque de deuxime espce,
grce la notion de puissance de test (P = 1- ). Mais ce problme possde rarement une solution
simple et l'on perd souvent de vue l'existence mme de ce risque. Cependant, la puissance d'un test
dpend de la nature du test choisi, du niveau de signification du test, de la taille de l'chantillon, de la
vraie valeur du paramtre ou mesure teste. En particulier, elle est lie la nature de l'hypothse
alternative H
1
. Un test unilatral est plus puissant qu'un test bilatral. Aussi, souvent on se contente de
prciser l'importance du risque de premire espce, sans se soucier de l'existence d'une seconde
possibilit d'erreur.
4. Distribution d'chantillonnage
C'est une distribution thorique. Par exemple, celle que l'on obtiendrait si nous prenions tous les
chantillons possibles de mme taille tirs chacun au hasard de la mme population. Autrement dit, c'est
la distribution sous H
0
, de toutes les valeurs possibles qu'une statistique (ou variable statistique, la
moyenne par exemple) peut avoir lorsque cette statistique est calcule partir d'chantillons de mme
taille tirs au hasard.
5. Rgion de rejet
Cette rgion est constitue par le sous-ensemble des valeurs de la distribution d'chantillonnage qui sont
si extrmes que lorsque H
0
est vrai, la probabilit que l'chantillon observ ait une valeur parmi celles-ci
est trs faible (la probabilit est ).
La position de cette rgion de rejet est affecte par la nature de H
1
: Dans un test unilatral, la rgion de
rejet est entirement situe une des extrmits de la distribution d'chantillonnage, alors que dans un
test bilatral, cette rgion est situe aux deux extrmits de la distribution.
10
La taille de cette rgion de rejet est dfinie par . Si = 5%, la taille de la rgion de rejet correspond
5% de l'espace inclus dans la courbe de la distribution d'chantillonnage. Cela signifie que dans une
distribution suivant une loi normale, il n'y a que 5 chances sur 100 pour que l'cart entre la variable et
sa valeur moyenne dpasse 2 fois l'cart-type.
6. La dcision
Si le test statistique donne une valeur comprise dans la rgion de rejet, nous rejetons H
0
[on adopte alors
H
1
]. Quand la probabilit associe une valeur du test statistique est infrieure ou gale la valeur
alpha pralablement dtermine, nous concluons que H
0
est faux. En effet, en rejetant l'hypothse nulle
au niveau 5%, par exemple, nous avons 5 chances sur 100 seulement d'aboutir une telle conclusion par
le simple fait du hasard. Cette valeur est dite significative.
III. CHOISIR LE TEST STATISTIQUE APPROPRIE
Le plus souvent nous disposons de diffrents tests pour une recherche (validation d'hypothse) donne,
il est alors ncessaire d'employer une mthode rationnelle pour choisir le test le plus appropri.
Nous avons vu que l'un des critres de choix est la puissance du test utilis. Mais d'autres critres sont
importants pour dterminer l'adquation d'un test lors de l'analyse de donnes particulires. Ces critres
concernent :
la faon dont l'chantillon a t ralis ;
la nature de la population de laquelle a t tir l'chantillon ;
la nature des mesures ralises.
1. Le modle statistique
Lorsque nous dfinissons la nature de la population et le mode d'chantillonnage, nous tablissons un
modle statistique (c'est dire une formulation mathmatique des hypothses faites sur les observations).
A chaque test statistique est associ un modle et des contraintes de mesure. Ce test n'est alors valide que
si les conditions imposes par le modle et les contraintes de mesure sont respectes. Il est difficile de
dire si les conditions d'un modle sont remplies, et le plus souvent nous nous contentons d'admettre
qu'elles le sont. Aussi devrions nous prciser, chaque fois : "Si le modle utilis et le mode de mesure
sont corrects, alors....).
Il est clair que moins les exigences imposes par le modle sont nombreuses et restrictives, plus les
conclusions que l'on tire sont gnrales. De ce fait, les tests les plus puissants sont ceux qui ont les
hypothses les plus strictes. Si ces hypothses sont valides, ces tests sont alors les mieux mme de
rejeter H
0
quand elle est fausse et de ne pas rejeter H
0
quand elle est vraie.
2. Nature des observations et chelle de mesure
Il est trs important de considrer la nature des donnes (observations) que l'on va tester. D'elle dpend la
nature des oprations possibles et donc des statistiques utilisables dans chaque situation. Les observations
peuvent tre soit quantitatives soit qualitatives.
Les donnes quantitatives comprennent les dnombrements (ou comptages) et les mesures (ou
mensurations).
Dans le cas des dnombrements, la caractristique tudie est une variable discrte ou discontinue, ne
pouvant prendre que des valeurs entires non ngatives (nombre demploys par entreprise, nombre de
clients par catgorie, nombre darticles vendus par magasins..). Il suffit de compter le nombre d'individus
affects par chacune des valeurs (frquences) de la variable.
11
Dans le cas des mesures, la variable est de nature continue (hauteur, poids, surface, prix, temprature..).
Les valeurs possibles sont illimites mais du fait des mthodes de mesures et du degr de prcision de
l'appareil de mesure, les donnes varient toujours de faon discontinue.
Les mensurations peuvent tre ralises dans deux chelles de mesure : l'chelle de rapport et l'chelle
d'intervalle. Elles sont manipulables suivant les oprations de l'arithmtique.
Les donnes qualitatives peuvent tre ralises dans deux chelles de mesure : chelle de rangement et
l'chelle nominale. Ces donnes ne sont pas manipulables par l'arithmtique.
Dans l'chelle ordinale (de rangement), il existe une certaine relation entre les objets du type plus grand
que, suprieur , plus difficile que, prfre ....
Exemple : Les nombres de candidats un examen obtenant les degrs A, B, C. Le degr A est meilleur
que le degr B, lui-mme meilleur que le degr C. Une transformation ne changeant pas l'ordre des objets
est admissible. La statistique la plus approprie pour dcrire la tendance centrale des donnes est la
mdiane.
Dans l'chelle nominale, les nombres ou symboles identifient les groupes auxquels divers objets
appartiennent. C'est le cas des numros d'immatriculation des voitures ou de matricule dtudiants
(chanes de caractres). Le mme nombre peut tre donn aux diffrentes personnes habitant le mme
dpartement ou de mme sexe constituant des sous-classes. Les symboles dsignant les diffrentes sous-
classes dans l'chelle nominale peuvent tre modifis sans altrer l'information essentielle de l'chelle.
Les seules statistiques descriptives utilisables dans ce cas sont le mode, la frquence... et les tests
applicables seront centrs sur les frquences des diverses catgories.
3. Tests paramtriques et non paramtriques : avantages et inconvnients
Un test paramtrique requiert un modle fortes contraintes (normalit des distributions, galit des
variances) pour lequel les mesures doivent avoir t ralises dans une chelle au moins d'intervalle. Ces
hypothses sont d'autant plus difficiles vrifier que les effectifs tudis sont plus rduits.
Un test non paramtrique est un test dont le modle ne prcise pas les conditions que doivent remplir les
paramtres de la population dont a t extrait l'chantillon. Cependant certaines conditions d'application
doivent tre vrifies. Les chantillons considres doivent tre alatoires et simples [tous les individus
qui doivent former l'chantillon sont prlevs indpendamment les uns des autres]. Les variables
alatoires prises en considration sont gnralement supposes continues.
3.1. Avantages des tests non paramtriques
1. Leur emploi se justifie lorsque les conditions d'applications des autres mthodes ne sont pas
satisfaites, mme aprs d'ventuelles transformations de variables.
2. Les probabilits des rsultats de la plupart des tests non paramtriques sont des probabilits
exactes quelle que soit la forme de la distribution de la population dont est tir l'chantillon.
3. Pour des chantillons de taille trs faible jusqu' N = 6, la seule possibilit est l'utilisation d'un test
non paramtrique, sauf si la nature exacte de la distribution de la population est prcisment
connue. Ceci permet une diminution du cot ou du temps ncessaire la collecte des
informations.
4. Il existe des tests non paramtriques permettant de traiter des chantillons composs partir
d'observations provenant de populations diffrentes. De telles donnes ne peuvent tre traites par
les tests paramtriques sans faire des hypothses irralistes.
5. Seuls des tests non paramtriques existent qui permettent le traitement de donnes qualitatives :
soit exprimes en rangs ou en plus ou moins (chelle ordinale), soit nominales.
6. Les tests non paramtriques sont plus faciles apprendre et appliquer que les tests
paramtriques. Leur relative simplicit rsulte souvent du remplacement des valeurs observes
12
soit par des variables alternatives, indiquant l'appartenance l'une ou l'autre classe
d'observation, soit par les rangs, c'est--dire les numros d'ordre des valeurs observes ranges par
ordre croissant. C'est ainsi que la mdiane est gnralement prfre la moyenne, comme
paramtre de position.
3.2. Dsavantages des tests non paramtriques
1. Les tests paramtriques, quand leurs conditions sont remplies, sont les plus puissants que les tests
non paramtriques.
2. Un second inconvnient rside dans la difficult trouver la description des tests et de leurs tables
de valeurs significatives, surtout en langue franaise. Heureusement, les niveaux de significativit
sont donns directement par les logiciels statistiques courants.
On choisira les tests appropris en fonction du type de mesure, de la forme de la distribution de
frquences et du nombre d'chantillons dont on dispose.
IV. Quelques applications pratiques des mthodes de statistique non paramtrique
1. Cas d'un chantillon isol
Des tests permettent de vrifier si un chantillon observ peut tre considr comme extrait d'une
population donne (Test d'ajustement). Ces tests peuvent permettre de rpondre aux questions suivantes:
- Y a t-il une diffrence significative de localisation (tendance centrale) entre l'chantillon et la
population ?
- Y a t-il une diffrence significative entre les frquences observes et les frquences attendues sur
la base d'un principe ?
- Y a t-il une diffrence significative entre des proportions observes et des proportions espres?
- Est-il raisonnable de penser que cet chantillon a t tir d'une population d'une forme
particulire?
- Est-il raisonnable de penser que cet chantillon est un chantillon d'une certaine population
connue?
2. Cas de deux chantillons
Ce type de test est utile lorsque l'on veut tablir si deux traitements sont diffrents ou si un traitement est
"meilleur" qu'un autre. Dans tous les cas, le groupe qui a subi le traitement est compar celui qui n'en a
pas subi, ou qui a subi un traitement diffrent. Ce cas se prsente, par exemple, quand on compare deux
mthodes de mesure en soumettant ces deux mthodes les mmes individus, choisis dans une
population donne : chacune des mthodes correspond alors une population de mesures, mais ces
populations et les chantillons que l'on peut en extraire, ne sont pas indpendants.
Il est aussi possible de soumettre les mmes sujets deux traitements diffrents. Chaque sujet est alors
utilis comme son propre contrle et il suffit alors de contrebalancer l'effet d'ordre des traitements. Une
dernire faon de faire consiste apparier des sujets et d'assigner alatoirement les membres de chaque
paire aux deux conditions. Cet appariement est toujours dlicat. Il faut slectionner pour chaque paire
les sujets les plus semblables possibles par rapport aux variables trangres qui pourraient affecter le
rsultat de la recherche entreprise. En effet, dans de telles comparaisons de deux groupes apparis, des
diffrences significatives peuvent tre observes qui ne sont pas le rsultat du traitement.
Bien que l'utilisation de deux chantillons non indpendants soit prfrable, cette mthode est
frquemment impraticable. En effet, la nature de la variable tudie exclue l'utilisation des sujets comme
leur propre contrle.
13
V. TEST DINFERENCE POUR UNE VARIABLE
1. Test dAjustement du Khi-2
Ce test est applicable aux variables qualitatives nominales, il consiste analyser un chantillon
dobservation dune variable a fin de tester lajustement la distribution dune population standard.
On peut chercher par exemple tester si la frquence ou la proportion observe dans les classes dge
des personnes interroges lors dune enqute sont significativement diffrents de celles observes
pour les mmes classes dges dans la population de rfrence.
a) Hypothses tester
On teste lhypothse
Ho : il ny a pas de diffrence significative entre les frquences (ou proportions) observes et les
frquences (ou proportion) thoriques.
Contre lhypothse
H1 : il ya des diffrences significatives entre les frquences observes et les frquences thoriques
b) Statistique du test
La statistique du test mesure les carts entre la distribution observe et la distribution thorique.
Elle est donne par :
( )
=
k
i i
i i
T
T O
1
2
2
O T
i
est la frquence thorique de la catgorie i,
O
i
, la frquence observe de la catgorie i
et k, le nombre total de catgories
c) Valeur critique
Sous lhypothse Ho, la statistique
2
suit une loi de Khi-2 (k-1) degrs de libert. Ainsi, Pour
un coefficient de risque fix, la valeur critique : 1) - k (
2
> , on rejette Ho
Si non on accepte Ho
e) Exemple :
On voudrait savoir si les clients de ce magasin apprcient plus les produits Alimentaires ou non.
Or les clients de ce magasin peuvent acheter, soit uniquement les produits Alimentaires, soit les
produits non alimentaires ou alors les deux. On veut tester si la frquence dachat est rpartie de
faon gale dans ces trois niveaux de frquence. Une enqute faite sur un chantillon de 60 clients de
ce magasin permis davoir les rsultats suivants :
14
Produits achets Frquences observes
Alimentaire 26
Non Alimentaire 18
Les deux 16
Rsolution :
Ici, k = 3, n = 60
8 , 2
20
) 20 16 (
20
) 20 18 (
20
) 20 26 (
2 2 2
2
=
=
5,9 2) ( 1) - k ( 5%, Pour
2 2
= = =
9,21 2) ( 1) - k ( 1%, Pour
2 2
= = =
On a 1) - k (
2 2
< donc on accepte Ho. En dautres termes, les clients de ce supermarch achtent
gale frquence les produits alimentaires, les produits non alimentaires ou alors les deux. On ne peut
donc conclure quils apprcient plus les produits Alimentaires.
2. Test de Kolmogorov-Smirnov
Cest un test dajustement tout comme le test du Khi-2, qui sapplique aux variables qualitatives
ordinales.
a) Hypothses tester
Les hypothses tester sont les suivantes :
Ho : les valeurs observes dans lchantillon ne sont pas significativement diffrentes des valeurs
thoriques.
H1 : ces valeurs sont significativement diffrentes.
b) Statistique du test
Le principe du test consiste calculer la distribution cumule des proportions thoriques et la
comparer avec celles observes de lchantillon. On considre comme statistique du test : D, lcart
maximum en valeur absolue entre les proportions cumules observes et les proportions cumules
thoriques
[ ] PcT PcO D = max .
c) Valeur critique
La valeur critique :
D
> D , donc on rejette Ho, en dautre termes la rpartition des achats est significativement plus
importante chez les personnes dont les frquences dachats sont faibles.
3. Tests utilisant la loi normale ou de Student
Les tests de loi normale (Z) ou de Student permettent dvaluer si la tendance centrale des donnes
dun chantillon de taille n est significativement diffrente dune norme standard. Ces tests
sappliquent pour les variables quantitatives.
Le test de loi normale est appropri dans le cas o n>30 dans le cas contraire, on utilise le test de
Student.
a) Cas de la moyenne
Soit tester lhypothse Ho : m X = contre H1 : m X
On prend comme statistique du test :
n S
m X
Z
= pour n>30 ou
1
=
n S
m X
T pour n<30
O S est lcart type observ partir de lchantillon. (
=
=
n
i
i
X x
n
S
1
2 2
) (
1
)
La rgle de dcision est la suivante :
Pour n>30, Si
2 /
Z Z > on rejette Ho, si non, on accepte Ho
Pour n<30, si ) 1 (
2 /
> n t T
on rejette Ho, si non, on accepte Ho
D
16
O
2 /
Z et ) 1 (
2 /
n t
Z
2.576 1.960 1.645
b) Exemple
Sur un chantillon de 90 emballages, tir de la production dune entreprise, on a observ que le
poids moyen est de 22,84 kg, avec un cart type de 3,22 kg on voudrait savoir si la production de cette
entreprise est conforme la norme qui fixe le poids de lemballage en question 22 kg.
Rsolution
Ici, n = 90 > 30,
47 . 2
90 22 . 3
22 84 . 22
=
= Z
Au seuil % 5 = , 96 , 1
2
=
Z
On a
2
Z Z > , on rejette Ho
Donc le poids moyen des emballages fabriqus par cette entreprise est significativement diffrent de
la norme.
4. Analyse de variance un facteur pour chantillons indpendants.
Hypothses tester :
L'hypothse nulle () est l'galit des moyennes des populations dont sont extraits les chantillons :
H
0
: m
1
= m
2
= m
3
=... = m
k
Lhypothse alternative (H
1
) est lingalit dau moins deux de ces moyennes
H
1
: il ) ( , j i j i tel que
j i
m m
Statistique du test :
Considrons que le nombre d'chantillons est not k, le nombre de mesures par chantillon est dsign par
n et le nombre total de mesures, kn. Le tableau des donnes tant le suivant :
chantillon 1 chantillon j chantillon k
11
x
j
x
1
k
x
1
21
x
j
x
2
k
x
2
... ... ...
La dtermination de la statistique du test passe par la construction du tableau danalyse de la variance qui
se prsente ainsi quil suit :
Source de variation ddl SCE CM (Variance) F
Effet facteur k-1
F
S
1
=
k
S
V
F
F
R
F
V
V
F =
Effet Rsiduel kn-k
R
S
k kn
S
V
R
R
=
Total kn-1
T
S
17
Avec :
( )
=
=
k
j
j j F
x x n S
1
2
( )
= =
=
n
i
k
j
j ij R
x x S
1 1
2
( )
= =
=
n
i
k
j
ij T
x x S
1 1
2
= =
=
n
i
k
j
ij
x
kn
x
1 1
1
=
=
n
i
ij j
x
n
x
1
1
NB : S
T
= S
F
+ S
R
V
F
, est la variance inter-groupe et V
R,
la variance intra-groupe
Manuellement, les calculs intermdiaires raliser pour construire le tableau de lanalyse de la variance
sont les suivants :
chantillon 1 chantillon j chantillon k
11
x
j
x
1
k
x
1
21
x
j
x
2
k
x
2
... ... ...
1 i
x
ij
x
ik
x
... ... ...
1 n
x
nj
x
nk
x Total
=
n
i
ij
x
1
T
1
T
j
T
k
=
=
n
i
ij
x G
1
n
T
2
n
T
2
1
n
T
j
2
n
T
k
2
n
T
=
n
i
ij
x
1
2
=
n
i
i
x
1
2
1
=
n
i
ij
x
1
2
=
n
i
ik
x
1
2
|
\
|
=
n
i
j
x
1
2
1
kn
G
n
T
S
F
2
2
=
kn
G
x S
ij T
2
2
|
|
\
|
=
Seuil critique :
Pour un seuil fix, la valeur critique est donne par la table de Fisher Snedecor [(k-1), (kn-k)] ddl.
F
lu
= k)] - (kn 1), - [(k
F
Rgle de dcision :
Si F > F
lu
, on rejette H
0 .
Si non on laccepte
Exemple :
On veut savoir si les intrts boursiers varient d'une place boursire l'autre. Pour cela, on prlve les
intrts mensuels moyens enregistrs lors des 10 premiers mois de lanne (n = 10) dans 3 places
boursires diffrentes (k = 3). Les donnes se prsentent comme suit :
n
T
x S
ij R
|
|
\
|
=
2
2
18
1
re
place B 2
e
place B 3
e
place B
Janvier 50 162 120
Fvrier 52 350 120
Mars 123 125 122
Avril 100 320 221
Mai 200 112 253
Juin 250 200 141
Juillet 220 40 182
Aot 220 162 175
Septembre 300 160 160
Octobre 220 250 214
Rsolution :
1
re
place B 2
e
place B 3
e
place B
50 162 120
52 350 120
123 125 122
100 320 221
200 112 253
250 200 141
220 40 182
220 162 175
300 160 160
220 250 214 Total
T =
=
n
i
ij
x
1
1735 1881 1708 5324
n
T
2
301022,5 353816,1 291726,4 946565
=
n
i
ij
x
1
2
368033 435257 311560 1114850
47 , 1732 =
F
S 168285 =
R
S 47 , 170017 =
T
S
Tableau danalyse de la variance :
Source de variation ddl SCE CM F
Effet place boursire 2 1732,47 866,24 0,14
Effet Rsiduel 27 168285 6232,78
Total 29 170017,47
Pour % 5 = , F
lu
= 3,35 27] [2, =
F
F < F
lu
on accepte H
0
, donc il ny a pas de diffrence significative entre les intrts des trois places
boursires
19
CHAPITRE III :
ANALYSE BIVARIEE
Lorsque quune tude statistique porte sur deux variables, on parle danalyse bivarie. Il est gnralement
question ici de dcrire lvolution commune des deux variables, de rechercher dventuels liens entres
elles ou alors dexpliquer une variable par lautre. Selon lobjectif de ltude et de la nature des variables,
les techniques utilises dans ce cas sont les suivantes :
Variable Expliquer (Y)
Qualitative Quantitative
V
a
r
i
a
b
l
e
e
x
p
l
i
c
a
t
i
v
e
(
X
)
Qualitative
Correspondance
Tableaux deffectifs (tableau crois)
Test dassociation (Chi-2)
Description modlisation - prvision
Comparaison
Tableau des moyennes
Analyse de la variance
Test de Fisher
Modlisation - Prvision
Quantitative
Comparaison
Tableau de moyennes
Analyse de la variance (ANOVA)
Test de Fisher
Modlisation - Prvision
Corrlation
Nuage de points
Test de corrlation
Modlisation - Prvision
I. THEORIE DE LA CORRELATION
Lorsque deux phnomnes ont une volution commune, nous disons quils sont corrls. La
corrlation simple mesure le degr de liaison existant entre ces deux phnomnes. Cette corrlation peut
tre linaire ou non, ngative ou positive.
1. Coefficient de corrlation linaire simple
Soient X et Y deux variables alatoires quantitatives, le coefficient de corrlation linaire entre X et Y
est donn par la relation :
On dmontre que ce coefficient est compris entre -l et +1.
Sil est proche de +1, les variables X et Y sont corrls positivement
Sil est proche de -1 les variables X et Y sont corrls ngativement
Sil est proche de 0, les variables X et Y ne sont pas corrls
Dans la pratique, ce coefficient est rarement proche de ces trois valeurs, on est alors amen procder
un test pour vrifier la corrlation entre deux variables.
( )( )
( ) ( )
2
1 1
2
2
1 1
2
1 1 1
1 1
2 2
1
) , cov(
|
\
|
|
\
|
=
= =
= = = =
= = =
= =
=
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
n
i
n
i
i i
n
i
i i
Y X
XY
Y Y n X X n
Y X Y X n
Y Y X X
Y Y X X
Y X
r
20
) 2 (
2
0
= n t t
2. Test de corrlation
Les hypothses tester sont les suivantes
Ho : 0 =
XY
r
H1 : 0
XY
r
La statistique du test est donne par :
On dmontre que, sous lhypothse Ho, t suit une loi de Student, n-2 degrs de libert. Pour un
seuil fix, la valeur critique du test est donne par :
Si
0
t t > , on rejette Ho. Si non on laccepte
II. MODELE DE REGRESSION SIMPLE
Ayant dtect une corrlation entre deux variables quantitatives X et Y, on peut matrialiser le lien sous
forme dune quation mathmatique : cest la modlisation. Un des modles qui sadaptent sur la plupart
des donnes conomiques est le modle de rgression simple.
Il est question ici de rechercher un lien entre X et Y sous la forme : Y = aX + b + (1)
o a et b sont les coefficients inconnus du modle, et , une perturbation alatoire, appele ala ou rsidu.
On peut considrer que le terme alatoire: ~, rassemble toutes les influences autres que celle de la variable
explicative : X dincidence secondaire sur la variable expliquer: Y, et non explicitement prises en compte
dans le modle.
1. Estimation des coefficients du modle
Ayant suppos X et Y lis par le modle prcdent, cest dire chaque couple dobservations dans
une relation : y
i
= = a.x
i
+ b +
i
o les valeurs de a, b et
i
sont dterminer.
partir des n couples de donnes observes: (x
1
,y), il faut estimer ces diffrentes quantits, et
juger de la pertinence du modle.
On montre, par la mthode des moindres cans ordinaires, que les coefficients a et b peuvent tre
estims respectivement par :
=
=
= =
n
i
i
n
i
i i
x n x
y x n y x
x
y x
a
1
2 2
1
) var(
) , cov(
x a y b .
=
On suppose que les alas:
i
, suivent la mme loi normale: ( )
2
, 0 N et sont indpendants.
Remarque: Lestimateur des MCO est unique, sans biais et de moindre variance parmi les estimateurs
linaires.
Aprs avoir estim les coefficients a et b, il reste vrifier sils peuvent tre considrs comme
nuls ou pas. Pour cela on possde au test de Student.
2
1
2
=
n
r
r
t
XY
XY
21
2. Test de Student pour la significativit des coefficients a et b
a) hypothses
Ayant obtenu le modle (1) de la rgression linaire prcdente, on dsire tester les hypothses
H
O
: a = 0 (resp. b = 0) contre
H
1
: a 0 (resp. b 0)
b) Statistique du test
Soient:
=
n
i
i
n
1
2 2
2
1
, une estimation de la variance du rsidu ( )
( )
=
n
i
i
a
x x
1
2
2
2
, lestimateur empirique de la variance du coefficient a
( )
|
|
|
|
\
|
+ =
=
n
i
i
b
x x
x
n
1
2
2
2 2
1
, lestimateur empirique de la variance du coefficient b
La statistique du test est :
|
|
\
|
= =
b
b
a
a
b
t resp
a
t
* *
c) Valeur critique
On dmontre que, sous H
0
,
b a
b b
et
a a
suivent une loi de Student n- 2 degrs de libert
La valeur critique du test est donne par : ( ) 2
2
0
= n t t
d) Rgle de dcision
Pour un seuil fix,
- Si | a t
*
| > ( ) 2
2
n t
, on rejette lhypothse H
o
, et donc a est significativement diffrent de zro.
- Si ( ) ( ) 2 2
2
*
2
n t t n t a
, on accepte H
o
Il en est de mme pour b
Lintervalle de confiance de a, au seuil , est donn par ( ) 2 .
2
= n t a a
a
e) Exemple
Revenu (X) 8 9 9.5 9.5 9.8 11 12 13 15 16
Consommation (Y) 7.5 8.2 8.0 8.6 8.8 10.5 10.6 11.5 12 14.8
Test de corrlation
8 . 112 =
X 54 . 1336
2
=
X 5 . 100 =
Y 79 . 1056
2
=
Y 74 . 1186 =
XY
r
xy
= 0.969
t = 11.17
22
( ) 2
2
n t
= 2.3 ( = 5% et n = 10)
t > ( ) 2
2
n t
=
n
i
i
1
2
=
2,82
2
=
0,35196501
a
2
=
0,00548608
b
2
=
0,43221304
( ) a t
*
=
11,1744494
( ) b t
*
=
1,085886884
t*(a) > ( ) 2
2
n t
\
|
=
m
i
k
j ij
ij ij
T
T O
1 1
2
2
O,
n
t n
T
j i
ij
= , est leffectif thorique de la catgorie ( )
i j
Y X ,
On dmontre que, sous lhypothse Ho, la statistique du test suit une loi de Khi-2 v degrs de libert.
(Avec v = (k-1)(m-1)).
Pour un coefficient de risque fix, la valeur critique du test est donne par :
( ) ( )
2 2
0
= , valeur lue dans la table du Khi2 v degrs de libert
Si
2
0
2
, on rejette Ho , Si non on laccepte.
c) Exemple
Une enqute a t ralise auprs de 332 touristes auxquels on a demand leurs modes dhbergement
durant le sjours dans un pays. Les donnes obtenues pour chaque catgorie socio professionnelle (CSP)
des personnes interroges se prsentent ainsi quil suit :
CSP
Hbergement
Agriculteur Cadre Ouvrier Profession librale Autre
Camping 2 17 20 6 22
Famille / amis 6 32 9 24 34
Htel 1 12 7 23 31
Location / gte 2 25 8 26 25
Peut-on rejeter l'hypothse d'indpendance entre le mode dhbergement et la CSP ?
24
Rsolution
Calcul des effectifs thoriques :
Agriculteur Cadre Ouvrier P. librale Autre
Camping
2
2,22
17
17,36
20
8,88
6
15,94
22
22,60
Famille / amis
6
3,48
32
27,20
9
13,92
24
24,98
34
35,42
Htel
1
2,45
12
19,17
7
9,81
23
17,61
31
24,96
Location / gte
2
2,85
25
22,28
8
11,40
26
20,46
25
29,01
Statistique du test :
0,022 0,007 13,927 6,201 0,016
1,827 0,848 1,736 0,039 0,057
0,860 2,681 0,804 1,651 1,460
0,253 0,333 1,013 1,498 0,555
76 , 35
2
= X
Valeur critique du test : k = 5 et m = 4 (k-1)(m-1) = 12
21 ) 12 (
2
% 5
=
Dcision : ) 12 (
2
% 5
2
> X , on rejette Ho, en dautres termes on rejette l'hypothse d'indpendance entre le
mode dhbergement et la CSP.
2. Test de Kruskal-Wallis
Ce test est applicable, soit aux variables qualitatives ordinales, soit aux variables quantitatives, pour
dterminer si k groupes sont significativement diffrents aux fluctuations dchantillonnage prs. Cest un
test non paramtrique, comparable au test danalyse de la variance un facteur.
Les hypothses tester sont les suivantes :
Ho : les k chantillons indpendants proviennent de la population dont les mesures de tendance
centrale sont identiques
H
1
: les k chantillons indpendants proviennent de la population dont les mesures de tendance
centrale ne sont pas identiques
Le processus dexcution dudit test consiste tout dabord ordonner de 1 n toutes les observations
combines des k chantillons (en affectant un rang moyen en cas dgalit), en suite on calcule la somme
des rangs R
j
(j = 1,,k) de chaque chantillons.
La statistique du test, donne par :
( )
( ) 1 3
1
12
1
2
+
+
=
=
n
n
R
n n
H
k
j j
j
O n
j
est la taille de lchantillon j (j = 1,,k) et
=
=
k
j
j
n n
1
On dmontre que, sous Ho, H suit une loi de khi-2 (k-1) degrs de libert lorsque n
j
> 5 k j ,..., 1 = .
Pour un seuil fix, si ( ) 1 > k H
alors on rejette Ho. Sinon on laccepte.
25
Exemple:
Pour valuer lefficacit relative des diffrentes mthodes de promotion dun produit de nettoyage
(Echantillons gratuit, Rabais de 30%, Annonce la radio et Emission la radio) applique 4 groupes de
potentiels consommateurs, ces derniers devraient indiquer, dans chacune des situations de promotion, par
une note allant de 1 7 jusqu quel point ils croyaient lefficacit de ce produit. Les rsultats se
prsentent ainsi quil suit :
Echantillon gratuit Rabais de 30% Annonce la radio Emission la radio
1 1 5 5
3 2 6 7
4 2 4 6
2 3 3 5
5 1 5 7
1 2 7 6
1 1 6 7
Rsolution:
Nous avons 4 chantillons et 28 observations au total. Aprs avoir combin et ordonn les
observations on obtient :
( )
( ) ( ) ( ) ( )
( ) [ ] 67 . 18 87 36 . 7150
812
12
1 28 3
7
5 . 160
7
134
7
48
7
5 . 63
1 28 28
12
2 2 2 2
= = +
(
+ + +
+
= H
Or ( ) ( ) ( ) 34 . 11 3 1 4 1
% 1 % 1 % 1
= = = k
( ) 3
% 1
> H do rejet de Ho, en dautres termes, les observations des 4 chantillons sont
significativement diffrentes et donc le degr de croyance dans lefficacit de ce produit de nettoyage
nest pas le mme pour les quatre mthodes de promotion.
3. Test de Wilcoxon pour sries apparies
Ce test est utilis lorsquon veut comparer deux sries dune variable ordinale ou quantitatives,
chaque observation dun chantillon tant lie une observation homologue de lautre chantillon. Cet
un test non paramtrique.
Les hypothses tester sont les suivantes :
Ho : la diffrence entre les deux sries nest pas significative
H
1
: la diffrence entre les deux sries est significative
Echantillon gratuit Rabais de 30% Annonce la radio Emission la radio
3.5 3.5 18 18
12 8.5 22.5 26.5
14.5 8.5 14.5 22.5
8.5 12 12 18
18 3.5 18 26.5
3.5 8.5 26.5 22.5
3.5 3.5 22.5 26.5
R
1
=63.5 R
2
=48 R
3
=134 R
4
=160.5
26
Pour dterminer la statistique du test, on calcule tout dabord la diffrence d
i
entre les scores de deux
observations jumeles (si la diffrence est nulle, on limine lobservation correspondante), ensuite on
indique le rang de toutes les diffrences d
i
en valeur absolue, de la plus petite la plus grande et on
affecte chaque rang le signe de la diffrence dont il provient (en cas dgalit des |di|, les rangs sont
attribus de la mme faon quau test prcdent).
La statistique du test : T est la plus petite des deux sommes de rangs positifs ou de rangs ngatifs.
Sous lhypothse Ho, lorsque n 8, on dmontre que T suit une loi normale ) , (
2
N
Avec,
( ) ( )( )
24
1 2 1
4
1 + +
=
+
=
n n n
et
n n
Do
=
T
Z suit une loi normale ) 1 , 0 ( N
Pour un seuil fix, si |Z| >
2
Z , on rejette Ho, si non on laccepte.
Le test de Wilcoxon est particulirement utilis pour valuer si on observe un changement
statistiquement significatif dans un plan dexprience avant-aprs sur les mmes sujets, lorsque lune
des deux variables est ordinale ou quantitative. Cest le cas par exemple lorsquon veut valuer leffet
dune promotion sur les prfrences des consommateurs lgard de certains produits.
Lhypothse nulle dans ce cas est :
Ho : lintention des individus ne change pas aprs lexprience
Exemple:
Lors de larrive des clients dans un magasin de commercialisation des produits alimentaires, il
leur est demand de donner un score dintention dachat dune marque de produit alimentaire, par une
note allant de 1 (trs incertain) 10 (presque certain). Aprs avoir fait goter le produit en question lors
dune dmonstration, on demande nouveau aux mmes consommateurs leur score dintention dachat.
Les donnes obtenues auprs de 10 consommateurs se prsentent comme suit :
Intention priori 3 9 5 5 4 8 8 6 3 4
Intention posteriori 10 8 9 7 5 8 9 4 6 9
Pouvons-nous conclure au seuil de confiance de 5% que cette promotion a chang lintention des
consommateurs ?
Rsolution :
Intention priori 3 9 5 5 4 8 8 6 3 4
Intention posteriori 10 8 9 7 5 8 9 4 6 9
diffrence ( di) -7 1 -4 -2 -1 0 -1 2 -3 -5
|di| 7 1 4 2 1 0 1 2 3 5
rang de |di| 9 2 7 4,5 2 - 2 4,5 6 8 somme
Rang ngatif -9 -7 -4,5 -2 - -2 -6 -8 38,5
rang positif 2 - 4,5 6,5
T = 6.5
27
( )
( )( )
( )
( )( )
90 . 1
44 . 8
16
24
19 10 9
4
10 9
5 . 6
24
1 2 1
4
1
=
=
+ +
+
=
n n n
n n
T
Z
Au seuil de 5%, Z < 1.96, donc, on accepte lhypothse Ho. En dautres termes, on ne peut pas
conclure que le fait de goter le produit alimentaire en question ait chang de faon statistiquement
significative les intentions dachat des consommateurs.
IV. ANALYSE DE LA VARIANCE A DEUX FACTEURS
Prenons lexemple suivant pour illustrer cette partie du cours : Une entreprise a dispos ses
produits dans des magasins situs dans cinq quartiers de la ville de Douala, dans chaque magasin, les
produits sont disposs sur des talages trois niveaux de hauteur (Bas, moyen, haut). A lissue dune
semaine dobservation, les ventes dans ces quartiers se rpartissent ainsi quil suit :
Hauteur talage
Quartier
Bas moyen Haut Total
Akwa 18 22 29 69
Bonandjo 17 20 26 63
Deido 16 17 24 57
New-Bell 15 16 21 52
Cit SIC 12 14 14 40
Total 78 89 114 281
Dans cet exemple, les ventes peuvent tre influences par le niveau dapprciation du produit en
question dans le quartier ou par la hauteur de ltalage.
Lanalyse de la variance consiste vrifier si ces effets sont significatifs ou pas.
La vente pour le Quartier i, hauteur de ltalage j, peut tre modlise par la variable
ij j i ij
Y + + + =
O
est la moyenne gnrale des ventes
i
, leffet Quartier (i =1, , n)
j
, leffet de la hauteur de ltalage (j =1, , p)
ij
, lerreur ou rsidu ( ~ ) , 0 (
2
N )
1. Hypothses du test
Le test statistique des diffrences dans les ventes causes par la hauteur de ltalage va consister
tester les hypothses suivantes :
Ho : 0 =
j
pour tout j =1, , p
H
1
. : il existe au moins un 0
j
De mme, le test des diffrences dans les ventes causes par le quartier consistera tester
Ho : 0 =
j
pour tout i =1, , n
28
H
1
. : il existe au moins un 0
i
2. Statistique du test
La dtermination des statistiques des deux tests en question ici passe par la construction du Tableau
danalyse de la variance suivant :
Source de
variation (SV)
Degr de
libert (DDL)
Somme des
Carrs (SCE)
Carr moyen
(CM)
Fisher (F)
Effet talage p-1 S
e
1
=
p
S
V
e
e
r
e
e
V
V
F =
Effet quartier n-1 S
q
1
=
n
S
V
q
q
r
q
q
V
V
F =
Rsidu (p-1)(n-1) S
r
Total np-1 S
T
Avec :
( )
=
=
p
j
j e
Y Y n S
1
2
.
( )
=
=
n
i
i q
Y Y p S
1
2
.
( )
= =
=
n
i
p
j
ij T
Y Y S
1 1
2
q e T r
S S S S =
= = = =
= = = =
p
j
ij i
n
i
ij j
n
i
p
j
ij
Y
p
Y Y
n
Y Y
np
Y Y
1
.
1
.
1 1
..
1
;
1
;
1
La statistique du test des diffrences dans les ventes causes par la hauteur de ltalage est donne par
e
F .
De mme, la statistique du test des diffrences dans les ventes causes par le quartier est donne par
q
F
3. Seuil critique
Pour un seuil fix, la valeur critique du test des diffrences dans les ventes causes par la hauteur de
ltalage est donne par ) , (
2 1
F , Avec 1
1
= p et ) 1 )( 1 (
2
= p n
La valeur critique du test des diffrences dans les ventes causes par le quartier est donne par ) , (
2 3
F ,
Avec 1
3
= n et ) 1 )( 1 (
2
= p n
( )( ) 1 1
=
n p
S
V
r
e
29
4. Rgle de dcision
Si
e
F > ) , (
2 1
F , On rejette Ho, et donc le produit est plus vendu dans certains quartiers que dans
dautres.
Dans le cas contraire, ces on accepte Ho et donc ces effets sont non significatifs.
5. Application lexemple prcdent
j
i
1 2 3 . Yi
( )
2
. Y Yi
1 18 22 29 23 18.2
2 17 20 26 21 5.14
3 16 17 24 19 0.07
4 15 16 21 17.33 1.96
5 12 14 14 13.33 29.16
15.6 17.8 22.8
73 . 18 = Y
( )
= 53 , 54 .
2
Y Yi
( )
2
. Y j Y
9.82 0.87 16.54
( )
= 23 , 27 .
2
Y j Y
Tableau danalyse de la variance
SV ddl SCE CM F
Effet talage 2 136.13 68.07 18.65
Effet quartier 4 163.6 40.9 11.21
Rsidu 8 29.2 3.65
Total 14 328.93
Pour % 5 = et ( ) 84 . 3 8 , 4
% 5
= F
( ) 8 , 2
% 5
F F
e
> , donc la hauteur de ltalage influence significativement les ventes.
( ) 8 , 4
% 5
F F
q
> , donc le quartier influence significativement les ventes
Pour % 1 = ( ) 65 . 8 8 , 2
% 1
= F et ( ) 01 . 7 8 , 4
% 1
= F
( ) 8 , 2
% 5
F F
e
> et ( ) 8 , 4
% 1
F F
q
> , mme conclusion que prcdemment
j Y.
( ) 46 . 4 8 , 2
% 5
= F
30
CHAPITRE IV :
LES PRINCIPALES METHODES DANALYSE MULTIVARIEE
INTRODUCTION
Lanalyse des donnes multidimensionnelles recouvre un ensemble de mthodes destines synthtiser
linformation issue de plusieurs variables, pour mieux lexpliquer. Ces mthodes peuvent tre regroupes
en deux grandes catgories : les mthodes descriptives et les mthodes explicatives.
Les mthodes descriptives visent structurer et simplifier les donnes issues de plusieurs variables, sans
privilgier lune dentre elles. Les techniques les plus utilises ici sont : lanalyse en composantes
principales (ACP), lanalyse factorielle des correspondances (AFC), lanalyse des correspondances
multiples (ACM), la typologie et la classification.
Les mthodes explicatives visent expliquer une variable (variable expliquer) par plusieurs variables
explicatives. Les principales mthodes utilises sont : la rgression multiple, lanalyse discriminante et la
segmentation.
Ces mthodes danalyse multivarie permettent de rsoudre des problmes divers et varis. Le choix
dune mthode dpend de lobjectif de ltude, des types de variables manipules et de la forme des
rsultats obtenus (qui peuvent tre plus ou moins faciles interprter).Le tableau suivant prsente les
techniques utilises en analyse multivarie en fonction de lobjectif vis.
Objectif Types de variables Mthode
Rsumer linformation en
minimisant la dperdition
Variable quantitatives ou qualitative
ordinale
ACP
Deux variables qualitatives AFC
Plus de deux variables qualitatives ACM
Constituer des groupes
dindividus similaires
Tout type de variable
(Nombre de groupes fix au pralable)
Analyse Typologique
Tout type de variable
(Nombre de groupes non fix)
Classification
Expliquer une variable
par plusieurs autres
variables
Variable expliquer numrique Rgression multiple
Variable expliquer qualitative et
variables explicatives quantitatives
Analyse Discriminante
Variable expliquer qualitative et
variables explicatives qualitatives
Segmentation
I. LES METHODES DESCRIPTIVES
1. LACP
Le tableau de dpart de lACP comporte les individus en ligne et les variables en colonne, avec dans
chaque cellule, la valeur observe de lindividu sur la variable correspondante. Les variables ordinales
sont recodifies.
lACP permet de positionner les individus sur un ou plusieurs plans, en fonction de la proximit de leurs
valeurs observes sur les variables slectionnes. Elle permet galement de reprsenter les variables sur
un ou plusieurs plans, de manire indpendante des individus. Ce qui permet de mettre en vidence le
regroupement des individus ainsi que des variables.
31
Les axes du graphique correspondent gnralement un regroupement optimal de plusieurs variables. Par
exemple, le revenu et le niveau dtude peuvent participer ensemble la formation dun axe si elles sont
fortement corrles.
LACP est trs pratique lorsque lon travaille sur un ensemble limit et identifi dindividus. Par exemple,
si lon dsire analyser des points de ventes en fonction de plusieurs critres tels que la surface, le CA, les
quantits de vente, le personnel, lACP permet dobtenir une cartographie qui regroupe les points de
ventes selon tous les critres retenus, ce qui peut permettre didentifier les cas hors norme comme une
surface et un personnel important, mais un CA faible.
Lalgorithme de lACP effectue sur la matrice Individus/variables les oprations telles que le centrage et
la rduction des donnes, la diagonalisation de la matrice, lextraction des valeurs propres et vecteurs
propres, en vue de passer du nombre de variable initial un petit nombre de variables obtenues par
combinaison des premires. Ces nouvelles composantes forment les axes du graphique. La premire
composante est celle qui rsume le mieux les informations contenues dans le tableau, la deuxime apporte
un pourcentage dinformation infrieur, mais complmentaire et ainsi de suite.
Le graphique de lACP reprsente dabord la premire composante (axe horizontal) et la seconde (axe
vertical). La somme des pourcentages dexplication des deux composantes renseigne sur le taux de
dperdition dinformation partir des donnes initiales. Ainsi, si la premire composante rsume 60% du
tableau et la seconde 20%, linformation reprsente sur le graphique est de 80%. Linformation
perdue est donc de 20%.
Les points individus sont reprsents sont reprsents sur le graphique en fonction de leur coordonnes
sur les facteurs. Les points proches correspondent des individus ayant des profils proches, priori, quant
aux valeurs observes sur les variables prises en compte dans lanalyse.
Les points variables sont galement reprsents sur le graphique, mais de faon indpendante des
individus. Leur reprsentation indique leur corrlation avec les facteurs, lintrieur dun cercle de rayon
unit, avec une chelle arbitraire. Ces points variables renseignent su le sens donner aux axes : un point
proche du cercle de corrlation et proche dun axe participe beaucoup la formation de cet axe. Les
angles inter-variables (en partant de lorigine) renseignent sur les corrlations entre elles. Ainsi, deux
variables formant un petit angle sont fortement corrls alors quun angle droit signifierait quelles sont
indpendantes.
2. LAFC
Le tableau de dpart de lAFC simple est un tableau crois (tableau de contingence). LAFC sapplique
deux variables qualitatives nominales. Elle permet de positionner les modalits des deux variables sur un
graphique. Le graphique de lAFC affiche les points modalits. On peut par exemple positionner une srie
de marque dautomobile sur le mme plan avec la caractristique des clients (ges, CSP, Sexe,), ce qui
permet de reprer les affinits entre chaque marque et les diffrentes cibles.
En pratique, on utilise lAFC pour reprsenter graphiquement et expliquer le croisement de deux
variables. Si le test du khi-2 indique une dpendance entre ces deux variables, linterprtation du
graphique sera plus aise.
3. LACM
LACM est une gnralisation de lAFC un nombre quelconque de variables. Elle permet de reprsenter
sur le mme graphique, les modalits de plus de deux variables qualitatives. LACM part dun tableau
disjonctif complet (tableau de Burt) qui prsente en ligne les individus et en colonne toutes les modalits
des variables retenues pour lanalyse. Les cases dintersection (cellules) comportent la valeur 1 si
lindividu rpond au critre en colonne et 0 dans le cas contraire.
32
Comme lACP, les deux premiers axes du graphique de lACM fournissent une partie gnralement
importante de linformation contenue dans les donnes. La proximit des points renseigne sur leurs
associations. La disposition des modalits de chaque variable les unes par rapport aux autres aide
donner un sens chaque axe.
4. LA TYPOLOGIE
Lanalyse typologique sapplique tous types de variables. Elle permet de rpartir la population en un
nombre dfini de sous groupes aussi diffrents que possible les uns des autres et dans lesquels les
individus sont aussi semblables que possible entre eux.
Les diffrentes mthodes danalyse typologique partent des individus eux-mmes et essaient de les classer
progressivement selon la ressemblance de leurs observations sur les variables retenues.
Il existe plusieurs mthodes danalyse typologique, qui aboutissent toutes au classement des individus
dans le nombre de groupes dfini initialement. Leffectif de ces groupes peut tre trs diffrent. La
visualisation graphique du rsultat de lanalyse typologique est un graphique qui met en vidence les
diffrents groupes.
Certains logiciels danalyse de donnes permettent de crer partir des rsultats de la typologie, une
nouvelle variable indiquant, pour chaque individu, son numro de groupe dappartenance.
5. LA CLASSIFICATION
Tout comme la typologie, la classification est une mthode qui permet de regrouper les individus selon
leurs ressemblances. La diffrence ici est que le nombre de groupe nest fix davance et que le rsultat
est reprsent sous forme dun arbre de classification.
Llaboration de cet arbre peut tre ascendante par regroupement successif des individus (mthode
frquemment utilis) ou descendante par divisions successives.
Larbre de classification relie un individu un autre ou un sous-groupe dindividus issus eux-mmes de
regroupements. Lorsque lon coupe larbre un niveau, on obtient les groupes dindividus. Par exemple,
en coupant larbre ai niveau du dernier regroupement, on obtient deux groupes, au niveau de lavant-
dernier regroupement, on obtient trois groupes, ainsi de suite.
Il est galement possible dappliquer une classification pour regrouper des variables. On obtient ainsi des
groupes de variables dont les profils des valeurs/modalits observes se ressemblent.
II. LES METHODES EXPLICATIVES
1. LA REGRESSION MULTIPLE
Elle permet dexpliquer une variable quantitative (Y) par plusieurs autres variables quantitatives
indpendantes (X
1
, X
2
, , X
p
). Elle modlise la relation sous la forme :
p p 2 2 1 1
X b X b X b a Y + + + + =
, o a, b
1
, b
2
, , b
p
sont les coefficients du modle.
Si le modle de rgression est satisfaisant, On peut ainsi prdire les valeurs de la variable Y en fonction
des valeurs des variables explicatives.
Lapprciation de la qualit de la rgression se fait grce plusieurs indicateurs tels que :
33
Le coefficient de dtermination multiple (R) qui calcule le % de la variation de la variable Y d
aux variables explicatives. (la rgression est dautant satisfaisante que R est proche de 1).
Le coefficient de corrlation multiple (R) qui mesure le degr de la liaison entre la variable
expliquer et les diffrentes variables explicatives.
Le test de Fisher qui permet destimer la qualit de lajustement dans la population.
Certains logiciels calculent directement la probabilit que aucune des variables explicatives naient
deffet sur la variable expliquer. Cette probabilit doit tre trs faible pour conclure que lajustement est
valable.
2. LANALYSE DISCRIMINANTE (AD)
Cest une mthode factorielle qui cherche expliquer une variable qualitative par plusieurs variables
quantitatives. Comme la rgression, elle permet de mettre en quation une variable expliquer et des
variables explicatives. Cest donc une mthode prdictive dans la mesure o elle permet de dterminer
quelle modalit prendra un individu pour la variable qualitative expliquer, si on connat ses valeurs
observes sur les variables quantitatives.
Par exemple, lanalyse discriminante peut tre applique pour attribuer un score un client dune banque
ou dune compagnie dassurance, en dterminant automatiquement un niveau de risque en fonction de
diffrents paramtres connus tels que lge, le revenu, lendettement,
Les rsultats de lAD peuvent tre visualiss sur un graphique similaire celui de lACP o les points
individus sont runis en fonction de leur appartenance aux groupes.
3. LA SEGMENTATION
Elle partage les mmes objectifs que lAD mais sapplique lorsque les variables explicatives sont
qualitatives. Elle consiste dcouper une population en sous groupes homognes, mais uniquement par
rapport la variable expliquer.
Le processus de la segmentation est itratif : chaque tape, lalgorithme choisit la variable explicative la
plus corrle la variable expliquer pour raliser une partition partir des modalits de la premire.
Le rsultat de la segmentation est une sorte darbre de dcision, avec un dcoupage de chaque groupe en
deux sous-groupes. La premire partition permet dobtenir les deux premiers groupes. Chacun de ces
deux groupes est ensuite divise en deux laide de la variable permettant la meilleure partition et qui
nest gnralement pas la mme pour les deux groupes. Le processus se poursuit ainsi avec des
interruptions lorsque la taille du groupe tombe en dessous dun seuil ou quand le dcoupage optimal
expliquerait un faible % de variance.
III. FORMALISATION ET CAS PRATIQUES
1. Formalisation de lACP
On note X la matrice n.p des donnes (ie portant les observations en ligne, lments de R
p
, et les
variables, quantitatives, en colonnes, lments de R
n
), on suppose les colonnes de X pralablement
centres et rduites si ncessaire.
Soit u un vecteur (en colonne) unitaire de R
p
, le vecteur X.u de R
n
a pour composantes les produits
scalaires des observations avec u, cest dire encore, les distances lorigine des projections des
observations selon la direction de u, tandis que linertie totale du nuage dans cette direction est donne
par le produit matriciel : u.X.X.u .
34
La matrice symtrique X.X est la matrice dinertie du nuage, tandis que le produit u.X.X.u , qui donne
linertie dans cette direction, est lapplication de la forme bilinaire symtrique de matrice X'.X au vecteur
unitaire u. On remarque que X.X est simplement, au facteur 1/n prs, la matrice des corrlations entre les
variables-colonnes initiales.
La recherche des directions principales, cest dire des directions successives dinertie maximale du
nuage, se traduit donc par le problme de maximisation sous contrainte :
max
. . .
= 1
Les vecteurs u
k
successifs devant en outre tre orthogonaux.
Lalgbre linaire enseigne que les vecteurs propres norms : u
k
, associs la suite dcroissante des
valeurs propres (positives) de X'.X :
k
, apportent la solution du problme, la valeur propre
k
mesurant
linertie dans la k-ime direction principale u
k
:
u
k
.X.X.u
k
=
k
.u
k
.u
k
=
k
Les vecteurs c
k
= X.u
k
de R
n
sont les composantes principales successives du nuage, centres, de
variances respectives
k
/n et non corrles (de covariances : u
k
'.u
h
/n, nulles), ce sont les nouvelles
variables , dont les composantes donnent les coordonnes des points du nuage sur les axes factoriels.
Les diverses contributions, corrlations et autres aides linterprtation, enfin, sont aises crire, en
fonction des
k
, u
i
et c
j
. Ainsi, par exemple, la contribution de lobservation i laxe k est : c
k
(i)/
k
, o
c
k
(i) dsigne la i-me composante de c
k
Exemple : On tudie les donnes sur 50 clients dun hypermarch constitues de lge, du revenu, du
montant des achats, du nombre denfants.
La taille de ce tableau est insuffisante pour que les interprtations soient intressantes. Mais elle
permet de donner la totalit des rsultats concernant les variables et deffectuer des calculs sur
quelques units statistiques laide dune simple calculatrice.
Nous donnons ci-dessous la reprsentation graphique des 50 clients sur le plan principal 1x2. Au
groupe (25, 31, 43) dtect par la reprsentation graphique des couples (ge, revenu) sajoute le
client de rang 28. On peut dfinir un groupe oppos au prcdent : (9, 11, 37, 7, 6, 45). Le client de rang
10 est assez particulier.
35
Exemple : cercle de corrlation C1xC2 des donnes de lhypermarch.
Ce cercle de corrlation montre que la seconde composante principale est fortement corrle au revenu et
surtout lge : un client de lhypermarch dont la coordonne est leve sur laxe 2 aura trs
vraisemblablement un ge suprieur la moyenne et inversement. Cest le cas des n1 et 10. On retrouve
les clients n 25, 31 et 43 dont la coordonne leve sur laxe 1 montre que le nombre denfants et le
montant des achats sont faibles. Rciproquement, les clients 9 et 37 dont les coordonnes sur laxe 2 sont
fortement ngatives sont jeunes et ont un revenu faible. Rappelons que ces proprits peuvent tre
inexactes sur des cas particuliers, et que lorientation des axes peut tre inverse si lon utilise un autre
logiciel.
Formalisation de lAFC
LAFC, comme il a t dit, est une forme particulire de lACP applique aux tableaux de contingence :
non centre-rduite, avec pondrations, et utilisant la mtrique dite du chi-deux (ie des inverses des
frquences marginales) au lieu de la mtrique euclidienne usuelle.
On note K le tableau de contingence, ou tableau crois, initial, de dimension n.p, F
J/I
le tableau des profils
en ligne (frquences conditionnelles, conditionnes par les items en ligne) et F
I/J
celui des profils en
colonne. D
I
dsigne la matrice diagonale portant sur sa diagonale les totaux en ligne (ou totaux
marginaux) et D
J
celle des totaux en colonne.
Les diffrentes matrices prcdentes sont naturellement lies:
F
J/I
= D
I
-1
.K et F
I/J
= K.D
J
-1
36
Le produit scalaire de deux vecteurs u et v dans R
p
pour la mtrique du chi-deux est donn par le produit
matriciel: u.D
J
-1
.v , un facteur multiplicatif prs, par suite linertie dans la direction du vecteur D
J
-1
-
unitaire u du nuage des profils en ligne, pour la mtrique prcdente avec pour pondrations les totaux en
ligne, est donne, au mme facteur prs, par le produit matriciel:
u.D
J
-1
.F
J/I
.D
I
.F
J/I
.D
J
-1
.u = u.D
J
-1
.K.D
I
-1
.K.D
J
-1
.u
Les directions principales dinertie sont obtenues en maximisant la quantit prcdente sous la contrainte:
u.D
J
-1
.u = 1 , dans des directions D
J
-1
-orthogonales successives. La thorie indique que la solution est la
suite des vecteurs propres D
J
-1
-norms u
k
associe la suite dcroissante des valeurs propres
k
de la
matrice (non symtrique):
F
J/I
.D
I
.F
J/I
.D
J
-1
= K.D
I
-1
.K.D
J
-1
Les composantes principales :
c
k
= F
J/I
.D
J
-1
.u
k
= D
I
-1
.K.D
J
-1
.u
k
donnent nouveau les coordonnes des profils en ligne sur les axes factoriels, tandis que les diffrentes
aides l'interprtations s'obtiennent aisment en tenant compte de la mtrique D
J
-1
et des pondrations
donnes par D
I
.
Lanalyse des profils en colonne est troitement lie la prcdente, du fait des relations entre F
I/J
et F
J/I
.
Les directions principales de cette analyse sont donnes par les vecteurs propres D
I
-1
-norms et
orthogonaux:
v
k
=
k
-1/2
.K.D
J
-1
.u
k
de la matrice:
F
I/J
.D
J
.F
I/J
'.D
I
-1
= K.D
J
-1
.K'.D
I
-1
et les composantes principales par:
d
k
= F
I/J
'.D
I
-1
.v
k
=
k
-1/2
.F
I/J
'.c
k
La j-ime composante: d
k
(j), de d
k
est donc:
d
k
(j) =
k
-1/2
. (n
ij
/n
.j
).c
k
(i)
i
relation barycentrique, au facteur
k
-1/2
prs, qui relie les deux analyses et justifie la reprsentation
simultane.