Sie sind auf Seite 1von 54

M MORIAL DES SCIENCES MATHMATIQUES

G. DARMOIS
Les mathmatiques de la psychologie
Mmorial des sciences mathmatiques, fascicule 98 (1940), p. 1-51.
<http://www.numdam.org/item?id=MSM_1940__98__1_0>

Gauthier-Villars, 1940, tous droits rservs.


Laccs aux archives de la collection Mmorial des sciences math-
matiques implique laccord avec les conditions gnrales dutilisation
(http://www.numdam.org/legal.php). Toute utilisation commerciale ou im-
pression systmatique est constitutive dune infraction pnale. Toute copie
ou impression de ce fichier doit contenir la prsente mention de copyright.

Article numris dans le cadre du programme


Numrisation de documents anciens mathmatiques
http://www.numdam.org/
MMORIAL
DES

SCIENCES MATHMATIQUES
PUBLI SOUS LE PATRONAGE DE

L'ACADMIE DES SCIENCES DE PARIS,


DES ACADMIES DE BELGRADE, BRUXELLES, BUCAREST, COMBRE, CRACOVIE, KIEW,
MADRID, PRA(JUE, ROME, STOCKHOLM (FONDATION MITTAG-LEFFLER),
DE LA SOCIT MATHMATIQUE DE FRANCK, AVEC LA COLLABORATION DE NOMBREUX SAVANTS.

DIRECTEUR :

Henri VILLAT
Membre de l'Institut,
P r o f e s s e u r la S o r b o n n e ,
Directeur du Journal de Mathmatiques p u r e s et a p p l i q u e s .

FASCICULE XCVIII

Les Mathmatiques de la Psychologie


Par M. G. DARMOIS

PARIS
GAUTHIER-VILLARS, IMPRIMEUR-DITEUR
LIBRAIRE DU BUREAU DES LONGITUDES, DE L'COLE POLYTECHNIQUE

Quai des Grands-Augustins, 55

1940
Tous droits de traduction, de reproduction et d'adaptation
rservs pour tous pays.
LES

MATHMATIQUES DE LA PSYCHOLOGIE

Par M. G. DARMOIS.

CHAPITRE I.
LES CORRLATIONS.

Le mouvement qui introduit de plus en plus les estimations num-


riques dans les tudes de psychologie s'est dvelopp par utilisation
de la statistique mathmatique. Nous voudrions rassembler ici l'es-
sentiel des mthodes statistiques utiles et montrer les services qu'elles
ont pu rendre, dans le classement, la description et l'interprtation
des faits observs.
Nous nous occuperons surtout de ce qui a trait aux diffrentes
aptitudes et aux liaisons qu'elles peuvent prsenter entre elles.

Le problme. Considrons d'abord le cas, tout fait schmatis,


o les aptitudes tudies seraient, pour un individu donn, des gran-
deurs bien dtermines, de vritables marques attaches chacun,
mais variables avec l'individu mesur. 11 faut alors rechercher com-
ment ces caractres sont rpartis dans la population. Supposons pour
fixer les ides, qu'il y ait seulement deux caractres mesurables x
et y. Nous considrons que la population soumise nos mesures est
une preuve faite sur une population plus tendue, o pourraient se
prsenter toutes les nuances des caractres, toules les valeurs de x
ely. Cette population hypothtique aura sa structure i\xe par une
fonction de deux variables F ( X , Y). Nous pourrons prendre pour
2 G. DARMOIS.

F ( X , Y) la proportion, dans la population totale, de la sous-popula-


tion o l'on a les deux ingalits

y<\.

En gnral, nous aurons plutt chercher une densit f(x, y) telle


q u e / ( X , Y)dX.dY so'a la proportion des individus pour lesquels
X < x < X -+- dX,
Y<JK<Y-T-^Y.

Nous aurons donc prciser la forme de cette fonction de deux


variables l'aide des renseignements fournis par la population relle
que nous tudions. La connaissance de cette fonction suffit videm-
ment tout. En effet, si par exemple nous avons F ( X , Y), la variables
aura sa rpartition connue par F ( X , -i-oo), proportion o se trouve
vrifie la premire ingalit, la variable y par F ( - h oo, Y). Mais il
est remarquer que l'intrt du problme est dans d'autres caract-
ristiques, que contient F(X, Y), mais qu'il est utile de faire ressortir.
Si, par exemple, nous tudions l'aptitude aux mathmatiques et
la musique (en admettant que ces deux termes aient un sens prcis),
notre but est surtout de voir si ces aptitudes sont lies entre elles.
D'une faon prcise, nous voudrions savoir si la connaissance de
l'une de ces aptitudes est un apport de valeur positive, ou de nulle
valeur, dans la connaissance de l'autre.
Pour en juger, nous considrons la sous-population o le carac-
tre x a une valeur donne, x0 et nous tudions la rpartition du
caractre y dans cette sous-population; cette rpartition sera dite
rpartition lie ( x{) donn) de y. Deux cas peuvent se prsenter :

i La rpartition lie est toujours la mme, quel que soit xu.


On dit que r , considre comme variable alatoire, est indpendante
de la variable alatoire x. On dmontre immdiatement que la rpar-
tition lie de r est dans ce cas identique la rpartition d e y , dite
quelquefois rpartition a priori ou rpartition marginale, qui ne
suppose rien sur la valeur de x.
D'autre part, il est facile de voir, par emploi du thorme des
probabilits composes, que si l'on fixe la valeur de y, la rpartition
lie de x est dans ce cas indpendante de y0. La proprit d'ind-
LES MATHMATIQUES DE LA PSYCHOLOGIE. 3

pendance est donc rciproque. Les deux variables alatoires x et y


sont dites indpendantes.
Quand x et y sont indpendantes, la connaissance de la valeur de
l'une d'elles n?a aucune influence sur la loi de rpartition de l'autre;

2 La rpartition lie change avec x^. La variable alatoire,


y lie [qu'on peut dsigner par y ( ' J ' o) ]. a une loi de probabilit qui
est fonction de x0- La connaissance de x{) a donc une influence sur
ce que nous devons penser de y.
Il convient de mettre sous forme concrte cette ide gnrale. En
effet, la connaissance de la loi de rpartition de y se traduit par la
valeur de ses caractristiques les plus importantes, en particulier par
celles qui correspondent au groupement et la dispersion de y.
Celles qui sont le plus frquemment employes sont la valeur
moyenne, ou esprance mathmatique, et l'cart type, ou cart
moyen quadratique autour de la valeur moyenne. Nous les dsigne-
rons par les notations classiques
(i) EM(y) =m,
(a) EM(y-m)*=**.

Il pourrait d'ailleurs tre utile d'introduire des caractristiques


d'ordre suprieur. Ceci pos, quand la variable lie y dpend vrai-
ment de a?0, les deux caractristiques m et <jy sont deux fonctions
de #o, dont la connaissance est sans doute insuffisante pour prciser
la loi de probabilit dey, mais qui sont dj de grande valeur.
En particulier, si la fonction de dispersion cry reste trs petite dans
tout le champ de variation de x0, on voit qu'on pourra assigner, avec
une probabilit voisine de l'unit, un champ trs petit autour de sa
moyenne la variable y lie.
Comme cas limite, si la fonction oy tait identiquement nulle, la
variable y lie n'est plus une variable alatoire. La connaissance
de x() fixe la valeur de r .
Rappelons ici quelques expressions courantes; le point dont les
coordonnes sont x{) et m(x0) dcrit une courbe, qu'on appelle
courbe de rgression de y en x; il peut tre commode d'introduire,
de part et d'autre de la courbe de rgression, les courbes obtenues
en portant, partir de la moyenne, une grandeur proportionnelle
l'cart type. Pour des raisons tires des proprits de la loi de Gauss ;
4 G. DARMOIS.

on portera gnralement de part et d'autre deux carts types. On


obtient ainsi une bande, qu'on appellera bande de dispersion, qui
rsume sous forme concrte ce que les deux fonctions m et cr nous
apprennent sur la liaison dey x. Cette bande a une largeur, paral-
llement l'axe des r , de 4<7V, largeur gnralement variable. Si elle
est constante, on dit parfois avec Karl Pearson, que la liaison est
homoscdastique. Les grandeurs m(xit) et ery(xlt) seront appeles
respectivement moyenne lie et cart type li.

Proprits de l'cart type li. Nous prendrons comme origine


les moyennes gnrales de x et de r . Il est clair qu'on aura
V^[y-m{x)Y=^{y^)~m^(x),
et en prenant les moyennes M dans la loi de probabilit de x\
(3) M [**.(* )] = *)!-M [/#!*(*)],

tr2 dsigne l'cart type de la variable r .


On voit bien que s'il peut arriver que l'cart type li surpasse
l'cart type gnral, cela ne peut se produire pour toute valeur de x;
l'cart type li est en moyenne plus petit, d'aprs l'galit (3).
Il faut signaler que si m(x) est identiquement nulle, c'est--dire si
la ligne de rgression est une droite parallle l'axe des x, la valeur
moyenne de <J-y ne diffre pas de (j\. Il peut donc arriver que l'cart
type li soit partout gal l'cart type gnral. La liaison des deux
variables ne se traduit alors ni dans la moyenne, ni dans l'cart type,
qui sont des constantes, et les mmes que si les variables taient
indpendantes. De telles liaisons ont une importance pratique assez
grande. Karl Pearson dit de deux variables pour lesquelles m(x) est
identiquement nulle ou constante, qu'elles sont sans corrlation.
Lorsque la liaison est homoscdastique, elles ont alors ncessairement
la deuxime proprit. On pourrait presque dire qu'elles sont ind-
pendantes au second ordre, mais une telle locution, prise la lettre,
aurait l'inconvnient de laisser supposer que x li par y a des pro-
prits analogues. Or, il n'en est rien, on s'en rend compte aisment,
si l'on n'impose a priori aucune restriction la loi de probabilit de
x lie. Nous verrons tout l'heure que la rciprocit, dans cette
iudpendance au second ordre de y x, peut tre assure par cer-
taines hypothses.
LES MATHMATIQUES DE LA PSYCHOLOGIE. 5

tude d'une loi de probabilit par ses moments. Une loi de pro-
babilit une variable a comme caractristiques importantes sa
moyenne et son cart type (bien entendu quand ces grandeurs
existent, ce qui aura toujours lieu pour les lois que nous tudierons).
Ce sont les deux grandeurs :
E(.r) et i avec <J- = E[x E()]'1.

Bien entendu, ces caractristiques sont trs insuffisantes, il existe


une infinit de lois de probabilit ayant leurs deux premiers moments
identiques. On peut ajouter la connaissance d'une loi de probabilit
en donnant en outre les valeurs des moments d'ordre suprieur.
On peut se rendre compte aisment, en supposant que la loi de
probabilit soit suffisamment approche par une loi discontinue, de
l'effet de la connaissance des moments successifs ( ' ).
En effet, si .r.,, a?2, . . ., x^ sont les valeurs de la variable alatoire,
et p 1? p2, . . ., pk leurs probabilits respectives, le problme est de
trouver ces inconnues pu p>>, . . . . pky par un systme d'quations
qui expriment que les moments sont connus. S'il y a suffisamment
d'quations, la distribution se trouve entirement dtermine. S'il
n'en est pas ainsi, le point de coordonnes positives pt, p.2y . . .. p* se
trouve dans une rgion finie de l'espace, que chaque condition sup-
plmentaire vient en gnral restreindre.
Pour prciser sur un exemple numrique simple, considrons les
quatre points d'abscisses dh - , zb - ; il faut y placer quatre masses
positives, de somme gale l'unit et donnant une moyenne nulle et
un cart type unit. On aura les quations :
/>,-f- pt + / ^ + / ? 4 = i,
9(/i-+-/?0 -^/>.-iH-/? 4 = 4,
3(/>i 7 > S ) H - / > 3 / > * = o .

Reprsentons y?, et/> 2 . /?3 et p{ comme les coordonnes de deux


points du plan. On vrifie aisment qu'on peut crire
5
/.= 76 + ., *=6-.
( 1 , = 31,).
= - Pi= H
^ 76 " T6^

( l ) Voir l'intressant article de R. de MISES, The li/nits of a distribution fune-


tion (Ann. Math. Statist., Vol. X, n 2, juin iy39, p. 99).
G. DARM0IS.

Le p r e m i e r point P dcrit une droite parallle la deuxime bissec-


trice des axes, et qui coupe ces axes en A et B, le deuxime point Q
dcrit u n e droite analogue, dans la portion C D comprise entre les
axes. O n voit i m m d i a t e m e n t q u e Q peut aller de C en D , mais q u e
le point P est rduit une portion A ' B ' de A B , trois fois plus petite
que C D .
Ainsi, les points les plus loigns ( -A ont des masses qui ne
16
peuvent se p e r m e t t r e que des fluctuations assez petites. Un schma

extrme serait le suivant, o p>, a la masse la plus g r a n d e .

P, Pa P* P2
JL
H JSL
1 . 01 44.
h
4a 16 48
Fig. 1
Le lecteur se rendra compte aisment, p a r l'tude de masses places
en 6 points d t e r m i n s , par exemple T , dr 2, dz 3, de l'indtermina-
tion qui subsiste dans une telle loi de probabilit q u a n d on fixe un
n o m b r e de moments gal 2. 3 , | . 11 y a d t e r m i n a t i o n complte
pour 5 m o m e n t s .

Cas d'une loi continue. Il peut tre suffisant, dans certaines


recherches p r a t i q u e s , de substituer la loi continue u n e loi discon-
tinue assez a p p r o c h e . Les considrations prcdentes m o n t r e n t
alors l'influence de la connaissance des m o m e n t s successifs.
Pour u n e loi continue, envisage en toute r i g u e u r , il faut con-
natre, p o u r la d t e r m i n e r compltement, des moments en n o m b r e
infini, ou mieux connatre la fonction caractristique (ou gnratrice
des m o m e n t s ) dont il sera question u n peu plus loin.

Ketour l'tude d'une loi par ses moments. Ce que nous venons
de dire p e u t tre tendu aux lois de probabilit deux ou plusieurs
variables. La connaissance des moments jusqu' u n certain o r d r e
limite les lois de probabilit un certain c h a m p qui se rtrcit
q u a n d le n o m b r e des m o m e n t s a u g m e n t e .
P o u r une loi deux variables, les moments les plus employs sont
ceux du p r e m i e r et du second o r d r e . Avec les notations habituelles,
nous poserons
E ( J ? ) = #O, E(JK)=/O,
E ( # XQ)'2=tf, E
( / ?)*=*$, E(a? a 0 ) ( ^ ^ 0 ) = fxu.
LES MATHMATIQUES DE LA PSYCHOLOGIE. 7

On voit qu'il s'introduit, ct des quatre premires caractris-


tiques qui appartiennent aux lois marginales de x et y , un moment
mixte du deuxime ordre.
Le moment le plus gnral a la forme.
E{x -x0)f(y-y0)z= v.ts.

On voit que ces moments sont des constantes, trs diffrentes des
fonctions d'une variable que sont les moments des lois lies.

Relation entre les deux points de vue. Elle est. dans le cas
gnral, assez complexe. Montrons-le sur un exemple simple.
Soit la loi de probabilit lmentaire
O < X < -h , 00 < > < -+- 00,

e~c dx e - dj ,

on reconnat dans le deuxime facteur, qui donne la loi lie de y, une


loi de Gauss, courbe de rgression arbitraire

et dont l'cart type est l'unit.


On aura
E(*) =1,
E(y) =E[/(*)],
E(x*) = i,
E(y*) = i + E [ M
E(xy) = E[x/(x)l
Il est bien clair que le moment li du premier ordre f{oc) ne sau-
rait en gnral rsulter de la connaissance des moments ordinaires
du premier ordre [il faudrait que f(x) ft une constante], ou des
moments du deuxime ordre [il faudrait que f(x) ft un polynme
du premier degr]. En gnral, il sera ncessaire de connatre une
infinit de moments ordinaires, et en tout cas, il faudra des moments
ordinaires d'ordre suprieur, pour obtenir une dtermination des
moments lis.
En rsum, l'tude la plus importante, qui est celle de la variable
lie, ne peut en gnral tre rsume par la connaissance d'un nombre
8 G. DARMOIS.

fini de ces moments constants. Il tait d'ailleurs bien vident que la


dtermination des diverses fonctions de la variable x qui sont les pre-
miers rsultats de cette tude ne pomait tre remplace par la dter-
mination de quelques caractristiques numriques. Toutefois, il nous
semble essentiel que ce point soit saisi avec une entire clart.

Hypothses simplificatrices. 11 est alors 1res intressant de voir


que des simplifications importantes sont introduites par les hypo-
thses suivantes :
i La ligne de rgression d e y en x est une droite;
2 L'cart type li est une constante.

Dans ces conditions, les deux fonctions inconnues m(x) et <Tj{&)


ne dpendent que de trois constantes; les momeuls du premier et du
second ordre suffisent alors leur dtermination.
Si l'on pose
m(x) = y -h $x,

on voit immdiatement que la droite de rgression doit passer par le


point de coordonnes E(x ), E( i ). Quant au coefficient angulaire (3,
il est donn par l'quation
o _ Pli
1 '

(3 est appel coefficient de rgression de y en x.

Le coefficient dit de corrlation. On posera d'une faon gnrale

Les constantes j-j (de dimensions nulles) sont appeles les coeffi-
cients de corrlation. Celui d'entre eux qui correspond JJLM est
gnralement appel le coefficient de corrlation tout court et dsign
par /\ On obtient alors la formule

(4) P-'S-

Valeur de l'cart type li. On dduit immdiatement de la for-


mule (3) la valeur
(5) ';(*) = ' i t i - ' - 2 ] ,
LES MATHMATIQUES DE LA PSYCHOLOGIE. 9

la valeur constante de l'cart type li est donc infrieure l'cart


type gnral si /* ^ o.
La formule (5) montre qu'on a ncessairement | r j < i , ce qu'on
peut tablir directement.
Remarque. Si la liaison de x a j vrifie aussi les deux condi-
tions prcdentes, on a

E*0') = + *r> *= r-<7>

on voit que, si toutes ces hypothses sont vrifies, la seule condi-


tion r = o exprime l'indpendance jusqu'au second ordre, qui est
cette fois une proprit symtrique par rapport x et > .
(Pour toutes ces questions, on trouvera des dtails dans [2], [4], [o].)

La fonction caractristique ou gnratrice des moments. Nous


allons rappeler ici la dfinition d'une fonction qui rend les plus
grands services, tant thoriques que pratiques. C'est l'esprance
mathmatique de l'exponentielle eltx, x est la variable alatoire, t est
une variable relle (i est le symbole classique de l'imaginaire, qu'on
introduit pour obtenir plus de gnralit). Nous poserons
9(0 = E(e" t ).

Nous donnerons les deux proprits principales de <p().


i Si l'on ajoute deux ou plusieurs variables alatoires indpen-
dantes, la variable alatoire ainsi obtenue a pour fonction caract-
ristique le produit des fonctions caractristiques des variables qui
composent la somme;
2 La connaissance de la fonction caractristique dtermine enti-
rement la loi de probabilit.

Cette fonction est appele gnratrice des moments parce que son
dveloppement suivant les puissances de t a pour coefficients les
moments de la variable alatoire. Le moment E(ut y ) est le coeffi-
cient de ~rr%

La deuxime fonction caractristique. ? ( 0 tant la fonction


caractristique dfinie prcdemment, le logarithme de <p() est
IO G. DARMOIS.

appel deuxime fonction caractristique, la proprit 2 reste vi-


demment la mme; pour la proprit i elle est remplace par la
suivante :
L'addition de variables alatoires indpendantes se ramen l'ad-
dition des deuximes fonctions caractristiques.

Les semi-invariants d'une loi de probabilit. Si l'on considre


le dveloppement suppos possible de cette deuxime fonction carac-
tristique ty(t) suivant les puissances entires de t
(rt)m
l(t) = Ao-+- Ai ; / - h - . . .-f- A, ^ ^ H-...,

le coefficient km est appel, suivant Thiele, le semi-invariant


d'ordre m de la distribution.
Et la proposition i prend alors la forme trs simple :
Dans l'addition des variables alatoires indpendantes, les semi-
invariants s'ajoutent.
Pour cette raison, on les appelle souvent des cumulants.

Extension une loi de probabilit plusieurs variables. On


appelle fonction caractristique d'une loi deux variables x et y la
fonction y(uv) de deux variables
z(ut>) = E<?(.c+o).

La proprit 2 garde la mme forme. La proprit i peut tre


mise sous la forme suivante :
Nous appellerons point alatoire le point M de coordonnes x
et y, vecteur alatoire le vecteur OM. On peut dire que la loi de
probabilit considre est celle du point M, ou du vecteur ala-
toire OM.
Deux vecteurs alatoires sont dits indpendants (en probabilit)
si la loi de probabilit lie du deuxime vecteur est la mme que la
loi non lie. Dans ces conditions :
L'addition (gomtrique) de deux ou de plusieurs vecteurs ind-
pendants revient la multiplication de leurs fonctions cp, l'addition
de leurs fonctions ^.

Rappel de proprits de la loi de Gauss. On sait que la loi de


LES MATHMATIQUES DE LA PSYCHOLOGIE. Il

Gauss deux variables, pratiquement applique avec succs un


grand nombre d'observations biomtriques, fournit une illustration
trs simple des diffrentes proprits prcdentes. La densit de pro-
babilit prend la forme

i - , HU> I
[n(xy) = !2 { x*- >, ry+y* }] .
ix \ i

L'origine est prise aux valeurs probables de x et y, les carts


types (7,0-2 sont les units de mesure de x,y\ la constante r, telle
que | r | < i, est le coefficient de corrlation dfini plus haut.
Les deux lignes de rgression sont des droites; bien entendu
(3 = o = r. Les carts types lis sont constants et leur valeur com-
mune est par consquent \l \ r1.
La fonction caractristique a pour valeur
- ' Kiwi)

e - [K(MP) = W,2+2/I/^+P2].

(Se reporter pour ces diffrents rsultats classiques a l'ouvrage [8].)

Lois de probabilit n variables. Bien que les proprits qui


les concernent soient des gnralisations toutes naturelles, il est bon
d'j avoir rflchi. Considrons donc une loi de probabilit
n variables. L'tude de cette loi peut prendre des formes assez diff-
rentes, suivant le but qu'on se propose.

a. Supposons que nous voulions tudier la liaison de xn aux n i


premires variables. L'lment essentiel sera la loi de probabilit
lie de xn, qui dpendra comme paramtres des valeurs fixes pour
les autres variables. Nous aurons donc une moyenne lie
m\x\Xi.. .Xrt^i],
et un cart type li
Q-Cn[xYX1...Xn-x].

Ce seront les deux caractristiques les plus importantes.


C'est la gnralisation la plus simple; si pour fixer les ides nous
supposons trois variables x, y, z, nous aurions introduire une
surface de rgression, reprsentation de la fonction m(xy), et une
bande de dispersion comprise entre deux surfaces.
12 G. DARMOIS.

6. Mais on peut avoir en vue d'autres liaisons, par exemple l'autre


face de la liaison de xn X\X> #_|. On peut alors fixer la valeur
de xn et considrer la loi de probabilit n variables, o xIL figure
comme paramtre. Dans le cas de trois variables, on aurait une
loi de probabilit deux \ariables x, r , mais dpendant fonclion-
nellemenl de z.
On voit que la \arit des problmes qui peuvent se poser est trs
grande, puisqu'on peut fixer un groupe de variables et tudier la loi
de probabilit lie du groupe complmentaire.

tude, par les moments, d'une loi n variables. 11 est clair


qu'ici la gnralisation est toute naturelle. On considrera les
moments successifs
E(xl) = tl, EU.-g,)^*?,
E[xl^l][ri ?*] = 7,<SA r1*.

On a donc, n moments du premier ordre, moments du


deuxime ordre, etc. (ces moments tant d'ailleurs fournis par les*
polynmes du premier degr, du second degr, du dveloppement
de la fonction caractristique).
Les difficults dj signales pour deux variables se prsenteront
nouveau si l'on veut dduire des ces moments les caractristiques
d'une loi de probabilit lie.

Hypothses simplificatrices. On obtient des rsultats simples en


faisant les mmes hypothses :
i La fonction m(vix2. . .^-i) est linaire enxKx>2. . *xn-\.
2 L'cart type li est une constante.

Dans ces conditions, on peut, l'aide des seuls moments du


premier et deuxime ordre, dterminer m et crln. Les rsultats sont
tout fait analogues ceux relatifs deux variables, mais un peu
plus compliqus.

Quelques formules importantes. Nous allons faire l'hypothse,


toujours permise, que les esprances mathmatiques de toutes les
variables sont nulles, et que leurs carts sont tous gaux a l'unit,
LES MATHMATIQUES DE LA PSYCHOLOGIE. l3

Si l'on pose alors


/71 = pi X\ -+- p2 #2 -+"... "t" P/i1 #1,

on aura en multipliant cette galit par X\X2. . .xn-\ et prenant les


esprances mathmatiques
rin = Pi -+ PsTisH--..-- P#i-i ^ , , - 1 ,
r*/, = Pi r u -h p2 H - . . . -h p_i /-S,II-I,
(I)

'"/11,1 = Pi /"n1,1-+-- +- Pli1.

Pour la valeur de <j%n (carr de l'cart type li) on a toujours


l
ffn= ni-^x^XL . .xn).

Si l'on prend de nouveau la valeur moyenne M (dans la loi de pro-


babilit gnrale, ou, ce qui revient au mme, dans la loi de probabi-
lit de X\X2. . .xn) on aura,
(II) M(<J2J=IR2 [Ri=fA[m*(xlXi...xn)]].

On a tout de suite la valeur de R 2


R * = P + P 3 + .-.-*-pi- l H-aPip s r 1 i-+-... >

qu'on peut mettre sous la forme


R 2 = pi n i, H- Pi ntn P'i I / " B - I , B

La quantit R 2 qui est videmment infrieure l'unit (gnralisa-


tion de la proprit du coefficient de corrlation) peut tre calcule
directement l'aide des quations (I) par limination de (3, (3 2 .. .(3 n _ 4 .
On obtient alors sous forme de dterminants

R - - ,

i ru I'\n
'"12 '"ira
''21 I /"in
Ao =
'"niti
/i rn

Bien entendu le premier membre de (II) donne la valeur de l'cart


type li quand celui-ci est constant (voir aussi [2] au chapitre
multiple corrlation ).
MLMORFAL DES SC. MATH. N 9 8 .
14 G. DARMOIS.

Remarque gnrale. Il est un peu inquitant de n'obtenir de


conclusions simples qu' l'aide de ces hypothses assez restrictives.
D'autre part, l'emploi des moments d'ordre suprieur, s'il devient
ncessaire, est terriblement lourd. Les calculs prcdents, excuts
dans le cas gnral, ne conduisent plus w e u , mais on peut
cependant en tirer quelque chose. Plaons-nous seulement dans le
cas de trois dimensions. Les rsultats obtenus seront gnraux.
Considrons le plan
z = ax -+- by

et cherchons le dterminer parla mthode des moindres carrs, en


comptant les distances paralllement koz, et affectant chaque lment
de l'espace de la probabilit qui lui correspond. Nous sommes
conduit former
E(z ax by)9-.

Les deux conditions de minimum sont justement les conditions ( l ) .


Quant la valeur du minimum, elle est prcisment i R 2 ,
comme le montre un calcul trs facile.
Ainsi le plan dtermin par les quations ne sera plus, dans le cas
gnral, un plan de rgression, il ne contiendra pas les points repr-
sentatifs des moyennes lies, mais il leur sera associ par une condi-
tion de moindres carrs, et le carr moyen de la distance de la distri-
bution de probabilit ce plan sera prcismet 1 R 2 .
Cette dernire quantit nous indiquera donc, assez grossirement il
est vrai, et en moyenne, si un point de la distribution peut se trouver
loign du plan des moindres carrs.
Il est remarquer que la quantit i R 2 n'esl plus M(<r 2 J. Soit
en effet G le point z(xy) qui reprsente la moyenne lie, et P le point
contenu dans le plan, c'est--dire le point d'ordonne ax -h by
z ax by = z ZG+- ZQ ax by.

On en dduit
(III) E ( ^ - a ^ - 6 / ) 2 = M [ ( j ? ] + M(PG)2.

Donc la valeur de i R2 est toujours plus grande que le carr


moyen de o*, sauf si PG est identiquement nulle, c'est--dire si le
plan est vraiment de rgression.
LES MATHMATIQUES DE LA PSYCHOLOGIE. l5

Relation avec le problme gnral de la psychologie. II faut


tudier comment sont lies un certain nombre d'aptitudes, c'est-
-dire tudier une loi de rpartition n variables. Suivant que
certaines aptitudes sont plus faciles atteindre que d'autres, il y aura
lieu de les prendre comme variables de base, et d'tudier la loi de
probabilit lie des autres variables.

CHAPITRE IL

Nous voici donc en prsence d'une population observable, consi-


dre par nous comme une preuve, comme un extrait de cette popu-
lation trs tendue o pourraient se prsenter, nuancs jusqu' tre
continus, les caractres dont nous voulons faire l'tude.
Le problme est d'estimer, l'aide de la population partielle, les
caractristiques de la rpartition de la population gnrale. Nous
supposerons d'abord, dans ce chapitre, que les caractres mesurs
sont obtenus sans erreur apprciable.

Un cas simple. Estimation de la moyenne. Considrons le


caractre x et proposons-nous d'estimer la valeur moyenne gnrale,
ou l'esprance mathmatique de x dans la loi de probabilit cherche.
Nous disposons de n mesures, sur des individus pris au hasard,
mesure que nous considrons comme des grandeurs alatoires suivant
la mme loi de probabilit : ces grandeurs seront regardes comme
indpendantes au sens des probabilits. Toute fonction donne de
ces grandeurs alatoires est elle-mme une grandeur alatoire, par
consquent l'information que nous pouvons dduire des mesures
conserve ncessairement ce caractre alatoire. Le service rendu
dans cette matire par la statistique mathmatique est d'valuer avec
prcision le risque couru, et de choisir dans certains cas la solution
prsentant le moindre risque d'erreur.
Nous cherchons ici une caractristique de la distribution, dfinie
par la proprit d'tre la moyenne gnrale des x. Il nous faut cons-
tituer une variable alatoire, fonction des observations, qui soit une
variable assez concentre, et si possible concentre exactement autour
de la valeur cherche.
Nous formons pour cela la moyenne arithmtique des mesures,
l6 G. DARMOIS.

soit
,. = X\ -+- X* -+-. . . -h Xn
-

Bien que nous sachions peu de chose sur la distribution des x,


puisque nous l'tudions, nous savons beaucoup sur cette variable ,
condition que n soit assez grand. En effet, d'aprs un thorme
classique, \ a une distribution voisine de celle de Gauss, avec une
valeur moyenne qui est justement l'inconnue cherche, et un cart
type qui est -4=J o\, tant l'cart type de x. Cette variable est donc,
si n est grand, concentre autour de la valeur dsire, et nous savons
valuer avec prcision la probabilit pour qu'elle s'carte de cette
valeur ( condition de connatre a\j).
Remarque. Si nous connaissions a priori quelques proprits
de la distribution de x, il se pourrait que la mthode prcdente ne
ft pas la seule naturelle, et une autre mthode pourrait tre plus
avantageuse.
Un cas classique est celui o la distribution de x serait de Gauss;
la moyenne de x est alors en mme temps valeur mdiane, et au
lieu de prendre \ comme estimation, on peut prendre la valeur
mdiane des mesures. On dmontre que cette valeur mdiane suit
aussi, quand n est grand, une loi voisine de la loi de Gauss, avec
l'cart type i / - - ~ Elle est donc plus disperse que la variable ,
et celle-ci demeure la plus avantageuse, mais pour d'autres lois de
probabilit, les circonstances peuvent tre autres, et la moyenne
des x, n'est pas ncessairement une estimation privilgie ( 1 ).

Estimation de l'cart type de x. Pour cela, on forme comme il


est classique, la quantit
,'*= ( * i - s r - + . . . + ( ^ - 0 2
n i

2
Sa valeur moyenne est <r , et sa distribution quand n est grand est
voisine d'une loi de Gauss, mais la dispersion fait intervenir le
moment du quatrime ordre de la variable x, de sorte qu'une ide
un peu prcise des risques d'erreur exige une apprciation de ce

( l ) Voir pour ces questions [3], [ Il 1, [14], [27].


LES MATHMATIQUES DE LA PSYCHOLOGIE. 17

moment. On se contente souvent d'une valeur de l'cart type de la


grandeur s', de la forme4= ; cette expression, valable quand x suit
une loi de Gauss, et dans d'autres hypothses plus gnrales, rsulte
tout simplement de la valeur

-y HHJtt
n

En rsum, il faut utiliser une hypothse qui permette le calcul


de JAJ.
Tous ces rsultats sont simples et clairs dans leurs principes.

Le moment mixte du second ordre et le coefficient de corrlation.


Nous avons vu que le premier lment qui ait intervenir dans la
liaison de deux variables alatoires est le moment /JLU OU, ce qui
revient au mme, le coefficient de corrlation /\ Quand les deux
hypothses simplificatrices que nous avons faites sont vrifies, ce
coefficient de corrlation donne lui tout seul des renseignements
substantiels. Son estimation est donc un problme important, qu'on
a trait suivant les mmes ides gnrales. En posant
y. _ ^1+^. + . . . + ^ ^ _ J1+JK2 + . . . + 7/1
n n
_ s(s-s)t _ sir.-*)*
n 1

H-H =
M*i-\)(yi-rQ

Le rapport r ' = -^4- est une variable alatoire, qui lorsque n est
trs grand, a bien les proprits requises.
Cette variable est concentre autour de la valeur inconnue r, elle
suit une loi voisine de la loi de Gauss, et son cart type est voisin de
1 r*
\/n
Mais une loi de repartition peut tendre plus ou moins vite vers la loi
de Gauss, et notre variable r', qui suit cette loi la limite, a en vrit
une rpartition qui dpend trs notablement de la valeur r et du
nombre n. Ce fait est trs gnant parce qu'on ne sait plus bien dans
un tel cas ce que signifie l'cart type. Alors qu'avec la loi de Gauss,
cet cart type associ la table classique permet de porter
l8 G. DARM01S.

prcision des jugements sur les risques qu'on court, il est tout fait
insuffisant pour une loi trs dissymtrique. Ces inconvnients, nette-
ment mis en vidence par R. A. Fisher [12], peuvent tre corrigs
par les mthodes qu'il a donnes. Nous indiquons ici le rsultat; si
l'on substitue la variable rr une \ariable z donne par
1 r I + '*' / , *i \
z = - Log -, (r = thz)
i i /
(th tant le signe de la tangente hyperbolique), la nouvelle variable z,
qui va de oo -+- oo, a une loi de rpartition qui tend beaucoup plus
rapidement vers sa limite, et dont l'cart type a le trs grand avan-
tage de ne pas dpendre (en pratique) de r, sa valeur approche tant

\Jn 3

Quelques indications numriques sur les avantages de la mthode


de R. A. Fisher. Il est bien clair qu'il est prfrable d'employer
une mthode exacte, mais il est bon de voir quel point la mthode
classique devient inexacte pour de faibles valeurs de n.
Supposons que la thorie assigne une loi de Gauss, avec un coeffi-
cient de corrlation
r = o.8oo5.

On a fait neuf observations, et obtenu la valeur empirique


r ' = o,4o53.

La mthode classique formera


i /*2
= - = 0 , 1 2 .
y/ n
or, l'cart observ est
/ r = 0,3952.

Il est suprieur trois carts types, et conduirait rejeter la thorie


propose.
En ralit, avec la variable z, on aura :
3 = 1,1, 3'=o,43, 3 ^=0,67,

, , = -L=o)4l.
LES MATHMATIQUES DE LA PSYCHOLOGIE. 19

Cette fois l'cart est infrieur deux carts types, il n'y a pas de
raison de suspecter la thorie.

La valeur et la signification des rsultats. Nous avons vu que


nos estimations conservent toujours le caractre alatoire de l'preuve
qui les a fournis. Dans le cas qui nous intresse, le coefficient de
corrlation estim est affect d'une erreur, qui peut modifier profon-
dment la conclusion tirer. Si les hypothses de rgression linaire
et de dispersion constante sont vrifies, une valeur nulle de r
entrane ce que nous avons appel l'indpendance au second ordre
pour la liaison de y kx. Une valeur non nulle de r entrane la dpen-
dance. Pour une valeur donne de l'estimation r', la valeur relle
de r est-elle nulle ou diffrente de zro ? Aucune conclusion ferme ne
peut naturellement tre donne. On peut seulement dire ceci :
Plaons autour de la valeur exprimentale r' un intervalle qui ait
une probabilit donne (disons 96/100) de contenir la valeur vraie.
Adoptons comme rgle que si la valeur zro est en dehors de cet
intervalle, la valeur de rr sera dite significative d'une dpendance; si
la valeur zro est l'intrieur, la valeur r' sera dite non significative.
Avec ces conventions les valeurs significatives ne peuvent se produire
qu'avec la probabilit o,o5 quand la valeur relle de r est nulle.
Bien entendu, la dlimitation prcise de cet intervalle autour de r'
ne peut se faire que si l'on a la loi de probabilit de r'. Elle est parti-
culirement facile excuter si l'on a affaire une loi de Gauss, d'cart
type donn. C'est ce qui constitue l'avantage de la variable z de
R. A. Fisher. 11 suffit, autour de la valeur zr, de porter deux carts
types droite et gauche pour obtenir ( peu de chose prs) l'inter-
valle 95/100.
(Pour une tude trs gnrale de ces questions, voir [29].)

CHAPITRE III.
LE PROBLME REEL. RLE DES ERREURS.

Nous avons jusqu'ici suppos que les caractres mesurs taient


obtenus sans erreur. 11 n'en est rien, et c'est ce qui complique trs
srieusement la question. Les aptitudes dont nous parlons, ce sont les
russites dans certaines tches. Un caractre tel que la largeur des
20 G. DARMOIS.

paules, les dimensions du crne, mesur par comparaison avec une


unit dtermine, fournira pour un individu donn, des valeurs trs
stables. Au contraire, dans une certaine preuve logique, mme
maintenue semblable elle-mme, la russite n'est pas toujours la
mme. Si on la cote de manire dtermine, les nombres obtenus
sont fluctuants. L'preuve, considre comme une mthode de mesure,
comporte une erreur. Nous admettrons qu'il existe une certaine
cote vraie, valable pour la population des preuves d'une certaine
nature, mais que pour une des preuves de cette population, on
obtient la cote vraie x, augmente d'une erreur e, soit
X = X + .

Nous cherchons la loi de rpartition des caractres analogues x, et


nos mesures ne nous fournissent que . On voit que le problme,
sous cette forme, est trs gnral, et se pose dans d'autres champs
que celui de la psychologie.

La loi d'erreur. Supposons, pour fixer les ides, qu'il s'agit de


deux caractres x et y. On aura :
X = x-\- e,
Y = j + 7i.

La loi cherche est une rpartition des points xy. Disons que la
distribution gnrale se traduirait par une certaine densit de ces
points. Si nous disposions des mesures directes de xely excutes
sur n individus, nous aurions estimer cette densit l'aide du nuage
discontinu des n points xiyx. En ralit, nous n'avons que les n
points XjY-.
Imaginons que l'on puisse, sur*le mme individu, excuter un
grand nombre d'preuves du mme type. Nous dirons que l'on vise le
mme point xy. On obtiendra autant de points XY, rpartis autour
du point xy] nous considrons ce nuage discontinu comme une
preuve faite sur la loi d'erreur affecte au point xy.
En vrit, cette loi d'erreur, loi de probabilit aux deux variables erj,
est la loi de probabilit lie de ces deux variables, pour x et
y donns.

Hypothse fondamentale. Pour obtenir des rsultats simples,


nous ferons l'hypothse, qui ne parat pas draisonnable, que cette
LES MATHMATIQUES DE LA PSYCHOLOGIE. 21

loi d'erreur lie est indpendante du point xy, c'est--dire que le


couple alatoire fro et le couple alatoire xy sont indpendants.
Dans ces conditions, la loi de probabilit du point observ XY est
trs simple, ou plutt se dduit trs simplement des deux lois (xy)
et (-fl). Il suffit, nous le savons, de multiplier les fonctions caract-
ristiques cp, ou d'ajouter les fonctions caractristiques ^.
Nous supposerons que l'on a :
E(*) = o, E(y) = o.
et
E() = o, E(ti) = o.
Dans ces conditions la fonction caractristique ^XY a ta forme
, , . <72Z/2+ 2Tiff>rWP + <7?>P2
Vxy(u>v) = = h

, , , 5 ? U--+- ISi Si QUV + s?,t>*


<M0= ^ '
On aura donc avec des notations videntes :
l S? = <7? + * 2 ,
(6) ) S i . R = 0^,/--w L s*p ou E(X\) = E(xy)-+-E(^t\)y
( Y\ = <r2 + s 2 .

Les autres formules, qu'on obtiendrait en considrant les termes


de degrs suprieurs, expriment que les semi-invariants de la loi
observe sont la somme des semi-invariants de la loi cherche et de
la loi d'erreur. On voit que la mthode naturelle est d'isoler, si l'on
peut, la loi d'erreur, de la dterminer d'abord, et d'en dduire la loi
du point xy.

Estimation des caractristiques de la loi d'erreur. S'il s'agissait


en gnral d'isoler une loi d'erreur, il suffirait de recommencer la
mesure, de manire obtenir au moins deux couples XY pour
chaque couple xy. Dans ces conditions, le vecteur
X2 Xi = ^- p ,
Y2 Y1 = T J 2 r /

ne dpend plus que del loi d'erreur. Nous admettrons que les deux
erreurs 'Y1, 2VJ2 sont indpendantes. Nous avons alors rsoudre
un problme assez simple :
22 G. DARMOIS.

Estimer les caractristiques d'une loi de probabilit deux variables


connaissant un certain nombre d'observations faites sur une loi qui
lui est lie trs troitement. En effet, les deux variables
a=S2-i,
p = VV
ont comme fonction caractristique de leur loi de probabilit
Ee'(a+"p) = o{uv) o(u P ) .

Donc les semi-invariants sont lis par les relations suivantes :


Les semi-invariants d'ordre pair sont doubles des semi-invariants
cherchs, les semi-invariants d'ordre impair sont nuls.
Ainsi, nous obtiendrons immdiatement tous les semi-invariants
d'ordre pair. Ce 'sont sans doute les plus utiles, et en fait on se
contente peu prs toujours des moments du deuxime ordre. Pour-
tant, on peut indiquer une mthode qui permet d'obtenir les autres
moments. Il suffit de faire au moins trois mesures, soit alors
Xi = * + i, Yi = j + V,
X * = a ? + * ,

X = a ? + (,

Les combinaisons
aXi+pX2+TX3, aYi+pY
2
-hTY3

font disparatre x et y si a -f- (3 + y = o. On obtient alors pour la


deuxime fonction caractristique
(*+P*+Y)^2(Mp)-4-(a3-hP-4-)4/1(Mp)H-....

Il suffit donc d'employer les diviseurs a * + (3A-h y* pour obtenir tous


les groupes homognes.
Ainsi, le problme ne prsente aucune difficult thorique, ds
que chaque mesure est rpte au moins trois fois.

Forme pratique de recherche de la loi d'erreur. En fait, les


preuves employes pour coter une aptitude sont composes d'une
srie de questions rsoudre, et la cote est la somme des points
obtenus pour toutes ces questions. Chaque question fournit une
mesure ah et l'on utilise les deux sommes 2 a, 26, pour les deux
aptitudes tudies.
LES MATHMATIQUES DE LA PSYCHOLOGIE. 23

En vrit, et pour tre plus net, nous considrerons les moyennes


2, e t + e , + . . . + <?*
X = +
= * JE '
v s bt A+ A+ ...+A
Y = _ = J + - ,
k tant le nombre des preuves. Une srie de k preuves est compose
de deux sries de - = h preuves.
Ainsi, nous obtenons deux couples de cotes partielles
v e\ + . . . + e'n
X = X H
h; )

Y' = v +
h '
X"= x + e'\ + . . . + eh

h
On calcule aisment les moments du second ordre en fonction des
carts types a et b de e e t /
E(X'2) =E(X'>) = **+->
E(Y'2) = E(Y"2) =ci 2 -+-^,
E(VY') = E(X"Y") = E(xy) H- J E(e/),
E(XX')= d2 = E ( Y ' Y " ) = <72i.

On en dduit immdiatement
E(X'-X")2=^,

En ralit, la grandeur intressante est -r

-jE(X'-X').,

(7) < 7-*<*'-*'>.


et, de mme,
5i5^] = 1 E ( X ' - X " ) ( Y ' Y " ) .

Ces formules sont fondamentales.


24 G. DARMOIS.

Les formules pour l'allongement d'un test. On peut caract-


riser la prcision d'un lest par la quantit - p mais on le fait gnra-
lement par le coefficient de corrlation de deux cotes partielles, telles
que X' et X"
'"X'X" =
a- c- ( ' - $ )

h h
On a donc

rh tant le coefficient de corrlation de deux cotes obtenues par des


tests de longueur h.
Si maintenant le mme test devient p fois plus long

(8) '>/,=
c* (p i)r*-+-i
i -i- j-
ph

Cette formule (8) est dite gnralement formule de Spearman-


Brown (voir [7] et [1]). On voit qu'elle n'est que la traduction, un
peu complique par l'criture, du fait fondamental que la prcision
crot comme la racine carre du nombre des preuves.
S'il n'est pas draisonnable de supposer p trs grand, on \oit
que rpn serait trs voisin de l'unit, ce qui veut dire qu'on liminerait
peu prs l'erreur de mesure.

La formule habituelle. En gnral, on coupe seulement un test


en deux, par exemple en prenant la srie des questions impaires et
des questions paires. On obtient alors la formule trs employe :
2'7i
(*-!)

Formule de Spearman pour l'attnuation. Les formules (6)


donnes plus haut mettent en vidence un largissement du nuage de
points (xy) par l'effet des erreurs ( ^ ) . C'est cet largissement du
nuage thorique que nous avons cherch dterminer.
Spearman, qui ces thories doivent des rsultats essentiels,
s'tait propos d'obtenir, par une formule simple, le coefficient de
corrlation entre les cotes thoriques xy. Il introduisit une hypothse
LES MATHMATIQUES DE LA PSYCHOLOGIE. 20

simplificatrice
E ( / ) = o,

qui fournit en effet un rsultat trs lgant.


On a videmment, dans cette hypothse,
E(xy) <Ti<T2
'*xv = (7iC72 ^1^2

Le deuxime facteur, cause de l'largissement du nuage, est


toujours infrieur l'unit. On a donc
'\Y< rV}.

C'est ce que Spearman appela l'effet d'attnuation


Il est bien clair alors qu'en posant
Y E(X*X2) v E(Y*Y2)
7,A = s Z*1 = i

on a finalement la formule clbre


(9) rx\ = rvy\r*(r)2.

Les coefficients r* 2 , /*y2, indices de prcision des mesures X et Y,


sont gnralement appels reliability coefficients ( 1 ).

Traitement plus gnral. Mais nous croyons prfrable de ne


pas faire l'hypothse de Spearman et nous ne supposerons rien sur
la liaison qui peut exister entre e et / . Nous allons examiner ce
qu'on pourrait obtenir avec trois observations.
On suppose donc un test de longueur 3A, comportant trois sries
de longueur h. On aura, bien entendu, les formules prcdentes
pourX'X"X'", Y'Y" Y'".
Nous formerons alors, en supposant
a + P + y = o,
E(aX'+PX"+ T X'") 2 = ( 2 + P 2 + 2 ) ~ >

E ( a r + p Y / , + T Y"') 2 =(a 2 +p 2 +Y2)^,

E(aX'+ pX"+ TX'") (aY'+ pY"+ TY'") = ( a 2 + p 2 + T 2


)^^'

(1) Coefficients de fidlit (terminologie fixe la Confrence Psychotechnique


de Moscou en IO3I).
>6 G. DARM01S.

On aurait donc, pour le test de longueur 3 A,


fil T
2
3A 3(a2-+- p 2 + Y 2 )E(aX' + . . . ) ,
E(e/) _ !
E(aX' + . . . ) ( a Y ' + . . . ) ,
3/i j(a 2 -+- P 2 +Y 2 )

Les moments d'ordre suprieur s'obtiennent par des formules


analogues qu'il est inutile d'crire.

Quelques formules classiques. L'introduction du coefficient de


corrlation 77. qui est quivalent la dispersion de l'erreur e donne
quelques formules simples, que nous signalons
2ivW=<ri, * i = Siv/i a .

Considrons d'autre part la cote observe X, il est naturel de la


prendre comme estimation de x, et le risque d'erreur est caractris
par j | . Cependant, X tant connu, quelle est la valeur moyenne
de x. On l'obtient immdiatement dans Vhypothse d'une rgres-
sion linaire de x en X. En effet, la relation
X = X +

tablit la rgression linaire de X en #, donc le coefficient de


corrlation est p = ^ et l'quation de rgression de x en X est

M(x) I X
*i Si 2
M(*)=x(gy=x#-A
Ainsi, la valeur moyenne de x est r*X, et non pas X.
L'cart type li, d'aprs la formule gnrale (si la liaison est
dispersion constante) a pour valeur

ci! v / i p 2 = 2 t vVyt(ir*)

(uoV pour ces questions [ 1 ] , [2] et [4]).

Estimations de ces diffrentes grandeurs. En vrit, la situation


fournie par les observations est la suivante : on dispose des mesures
faites sur n individus, dans une preuve de longueur k.
LES MATHMATIQUES DE LA PSYCHOLOGIE. 27
k
Cette preuve est fractionne en deux parties de longueur h =
On peut ainsi construire une estimation r'h de la grandeur r^ et
nous savons comment apprcier l'erreur de celte estimation.
La valeur de l'estimation r\ de i\ est donne par la formule
ri- ^ -
+ *7*
Des risques d'erreur sur r'h, nous pouvons dduire le risque sur 7*^.
Il serait, notre avis, beaucoup plus simple et plus net de
considrer, comme nous l'avons fait, les valeurs de X' X" et
d'utiliser les formules classiques qui donnent la prcision de l'cart
type ainsi obtenu.
Bien entendu il faudrait estimer, comme il a t indiqu, la
valeur JL(ef) et par les mmes mthodes, indiquer la prcision avec
laquelle cette grandeur est connue.

CHAPITRE IV.
RDUCTION AU NOMBRE MINIMUM D'APTITUDES DTERMINANTES.

Lois rductibles. Considrons n aptitudes dont nous tudions


la loi de rpartition. Imaginons encore que la mesure puisse tre
faite exactement et fournisse pour chaque individu un groupe de
n valeurs, x\, x~n . . ., x". Nous associons cet individu un point de
l'espace n dimensions. A la population gnrale correspond un
nuage continu dont nous tudions la structure. Nous pouvons a priori
obtenir diffrents types. Si tous les individus taient identiques, nous
aurions un seul point (nuage zro dimension). Les points peuvent
tre rpartis suivant une courbe, ou suivant une multiplicit 2,
3, . . . dimensions, jusqu' n.
Si le nuage est moins de n dimensions, nous dirons que la loi est
rductible.
Il est clair, par exemple, que si l'on considre une population
d'tres semblables entre eux, une dimension linaire, la surface et le
volume d'un individu constituent trois variables alatoires telles que
le nuage soit rduit une courbe. Si l'on suppose que ces tres n'ont
28 G. DARMOIS.

pas une densit constante, et que la troisime variable soit la masse


au lieu du volume, on aura un nuage aplati sur une surface, la
rpartition sur cette surface achevant de dterminer la loi tudie.
Pour une multiplicit np dimensions, il doit exister ^relations
entre les variables xx, x2, . . ., xn. Nous nous proposons de rechercher
ces relations, en les supposant du premier degr.

Cas d'une seule relation. Supposons, pour rendre les choses


plus intuitives, que nous tudions seulement trois caractres. Nous
nous trouvons dans l'espace trois dimensions. S'il existe une seule
relation, les points x]y x*, x^ doivent se trouver dans un plan. Si nos
trois caractres taient mesurables avec beaucoup de prcision, si par
exemple il s'agissait des trois angles d'un triangle, nous aurions une
excellente dtermination de ce plan par une mthode peu prs
quelconque, et les considrations mathmatiques ne seraient gure
que raffinements sans grande utilit.
Mais nous nous trouvons dans un cas tout diffrent, o les erreurs
sont assez importantes, et le choix de la mthode peut avoir une trs
grande influence sur la prcision des rsultats. Nous avons faire
passer au mieux, un plan au travers d'un nuage de points. Pour cela
il est essentiel de connatre quelque chose sur la loi d'erreur.

Forme adopte pour la loi d'erreur. Soit M; un point aux trois


coordonnes X\, # 2 , x%, soit P 4 le point obtenu par les mesures, ses
coordonnes sont X<, X 2 , X 3 . Nous admettrons que le vecteur
alatoire M;P; suit une loi de Gauss de centre M/. Cette hypothse
est peut-tre un peu force, mais elle n'est pas draisonnable. Elle
permet d'introduire dans la loi d'erreur tous les moments du second
ordre, et ces moments sont ceux auxquels on se borne gnralement.
Ainsi, posant
X t = xi-+- sj,
X j = # 2 + Z>,
X ; { = # 3 + e3,

le vecteur ^ 3 a pour loi de probabilit lmentaire


-1-1116,8,6,)
Ae ~ as t as 3,

H(e123) tant une forme quadratique homogne qui gale une


LES MATHMATIQUES DE LA PSYCHOLOGIE. 29

constante positive, reprsente un ellipsode. Ces ellipsodes de la loi


d'erreur peuvent avoir une forme quelconque, nous ne faisons sur
eux aucune hypothse restrictive. Rappelons que la fonction caract-
ristique de cette loi de Gauss est exprime par
1
2- Klntntut\
J7 [ e l ( H i i + " 2 S 2 + 3 8 )] = e ?

R tant une forme quadratique qui est la rciproque de H, c'est-


-dire que l'ellipsode
Hfeiea) = 1
est tangent au plan
Mii + M 2 2 + 2*363= I

quand on a la condition
K(uiayU-i) = 1.

On peut mettre cette condition sous une forme un peu diffrente.


L'ellipsode
H(6i64e3) = A*
est tangent au plan
i / l i -4- UtE.>-h # 3 6 3 = Ui.

quand on a la condition
K(uiutua) = ^i.

La forme quadratique ti(uiu2u^) est, nous le savons, lie directe-


ment aux moments du second ordre de la loi d'erreur. On a
videmment
E [ i 5 l + Mi 2 -f- M, 3]* = K(UiU*Uz).

Mthode de recherche du plan. Supposons maintenant qu'on


dispose de n points P/. Il s'agit de rechercher le plan passant par les
points M, correspondants. Or, si les points M4 sont considrs
comme fixes et donns, la probabilit d'obtenir l'ensemble observ
des points P; a la valeur
- S l " l + H,-K .-f-Il)
2
ll = A"e dPldP...dPn.

Les inconnues sont les 3 n coordonnes des points M t , qui sont lies
par n relations, mais o figurent trois nouvelles inconnues. Nous
prendrons le plan sous la forme
a\Xi-h a*x*-h #3.2:3= # 4 .
MMORIAL DES SC. MATH. N 98. 3
3o G. DARMOlS.

Nous allons chercher dterminer les in + 3 inconnues de


manire rendre minimum la somme H| -+- H 2 + . . . + H, ce qui
rendra maximum la grandeur considre plus haut. Cette mthode
suppose que la loi d'erreur est connue. On voit qu'elle n'est autre
que la mthode gnrale de R. A. Fisher, dont les avantages de
prcision sont bien connus.

La solution du problme. Fixons le plan et dterminons d'abord


les points Mt pour qu'il y ait minimum. Il faut videmment que Ht-
soit minimum. Or. la signification gomtrique de cette condition
est trs claire. Considrons l'ellipsode de probabilit ayant son
centre en P/, son quation est de la forme
H[^i-X1,ri-Y1,.Si-Zl]=X2.

Il faut que cet ellipsode soit tangent au plan considr. Son


quation peut s'crire
a\{x\ Xi) + a2(xi Xi) + 3(^3 X3) + 4 Xi + #;Xi + 3X3 a 4 = 0.

On a donc la condition
( 1 X 1 + 2 X 2 + 3X3 #4)2
* =
&(a\a*a$)

Le point M; est videmment le point de contact, sa position ne


nous intresse pas, mais seulement la valeur de A2. Finalement, en
ajoutant les valeurs obtenues, on a
E(aiX + a s X 2 + a^XlA a 4 ) 2
2 t i l =
K(<2!23)

La position du plan s'obtiendra en cherchant les valeurs d e a , , a 2 ,


3, a 4 qui rendent minimum cette somme.
La valeur de a^ s'obtient immdiatement. On a

na^.= ai SX, + rt3EXj + 32X3.

Par consquent, le plan passe par le centre de gravit des points P*.
Aprs transport de l'origine en ce point, on est ramen rsoudre
le mme problme, ak tant nul. On a donc chercher le minimum
du rapport de deux formes quadratiques en a]a2a^. Ce problme est
classique : on sait qu'il est quivalent la recherche des directions
LES MATHMATIQUES DE LA PSYCHOLOGIE. 3l

conjugues communes aux deux formes quadratiques. Si l'on pose


_ L (a\aia ,) _ m1)ataj
~~ K ( f l i a 2 3 ) nlJataj

le minimum est donn par la plus petite racine de l'quation


| mlJ QnlJ | = o,

en reprsentant par cette notation abrge le dterminant qui est le


discriminant de la forme quadratique L 0K. La direction qui
correspond cette racine donne les coefficients aKa2a^ du plan
cherch.
Pour voir bien clairement les choses, on peut supposer faite la
rduction aux mmes carrs, le rapport prend la forme
L _ m^A2+/n22Aj+m38A2 / #n" ^ m 2 2 > m\

Les trois rapports sont justement les trois racines de l'quation en 0.


On voit bien que
L m* ("-^g)Af-H(m-,g)Ai. N
K n** ~~ K ='

Le minimum est Il est atteint pour A i = o, A 2 = o. Ces deux


quations dterminent la direction a, a2a^.
Le problme est donc entirement rsolu. Nous verrons comment
on peut juger s'il l'est de manire acceptable,

Cas o les points sont situs sur une droite. Il est clair que,
pos gomtriquement, le problme est le mme. Il faut d'abord se
donner une droite, dterminer sur cette droite les points Mi, en
cherchant les ellipsodes tangents, puis chercher le minimum de
l'expression ainsi obtenue. On peut rsoudre le problme sans calcul,
en supposant que par une transformation linaire de variables, les
ellipsodes soient devenus des sphres. Il est vident alors que les
points Mt sont les projections, orthogonales au sens habituel, des
points P t sur la droite. D'autre part, la grandeur dsigne par Hi
devient le carr de la distance du point Pj cette droite ( un facteur
prs). On est donc ramen trouver une droite telle que la somme
des carrs des distances de n points P t soit un minimum. Pour une
32 G. DARM01S.

diretion donne de cette droite, le minimum est obtenu quand la


droite passe au centre de gravit des points P t . On peut donc l'y
faire passer et si l'on considre le plan perpendiculaire la droite
men par G, il est clair que la somme des carrs des dislances des
points P ce plan doit tre un maximum.
Or, ce problme est celui que nous venons de traiter, mais
condition de prendre la plus grande racine de l'quation en 6.

Flg. 2.

On peut encore dire, puisque les deux autres plans principaux


contiennent cette droite, qu'il suffit de considrer les deux plus
petites racines de l'quation en S. L'intersection des plans qui leur
correspondent est la droite cherche, et la valeur du minimum est la
somme des deux plus petites racines. Sous cette forme, le rsultat
obtenu peut se transporter au cas tout fait gnral de l'espace
n dimensions. (Nous donnons ici les rsultats sans dmonstrations.)

Rsultat gnral. Les racines de l'quation en Q seront supposes


ranges par ordre de grandeur croissante,
2 2 1.2
K K h
\i 2i - rt-

Dans ces conditions, si l'on prend un plan quelconque passant au


centre de gravit, et qu'on cherche dans ce plan les N points qui
fournissent le minimum de la somme 114 + 110 + . . . - 1 - . la plus
petite valeur de ce minimum est A:2, et les coefficient de l'quation
du plan sont les solutions d'un systme de n quations homognes du
premier degr, compatibles en vertu de l'quation en 0.
Si l'on cherche une multiplicit n i dimensions, le minimums
LES MATHMATIQUES DE LA PSYCHOLOGIE. 33
2
est alors /t + k\, et la multiplicit est l'intersection des deux plans
dtermins par la mthode prcdente et correspondant aux deux
racines k\ et k\. On peut continuer ainsi; en particulier pour la
multiplicit une dimension, il faut prendre /r2 + /r2 + . . . + *_,,
et la droite commune aux n i plans correspondant k\ . . . k\_K.
Enfin, si l'on cherchait un point, ce ne pourrait tre que le centre
de gravit et le minimum correspondant serait k\ + k\-\- . . . + A"2.
On voit que si la plus petite racine est trs petite, la loi sera
rductible. Mais on peut essayer de prciser les ordres de grandeur
admissibles (voir pour ces questions [17], [19], [23]).

Comment juger si l'on a une solution qu'on puisse admettre.


En somme, nous avons suppos connue la loi d'erreur, et nous nous
demandons si l'paississement du nuage thorique, paississement
constat par l'observation, est en accord raisonnable avec les erreurs
que nous pouvons prvoir. C'est le problme qui se pose aprs chaque
ajustement ou estimation.
Si l'on considre les mesures comme visant un groupe dtermin,
mais inconnu, de points M<. M 2 , . . ., MN, le groupe des points P ^
P._>, . . ., PN est un groupe alatoire, dans la loi de probabilit duquel
figurent comme paramtres les coordonnes des points viss, lies
par des relations linaires contenant les coordonnes de la multiplicit.
Dans le cas de l'espace 3 dimensions, il reste, tout compte fait,
2N + 3 paramtres.
D'aprs les rsultats gnraux, utilisables quand n est trs grand,
la valeur probable du minimum, c'est--dire de la valeur R 2 , est gale
3 N _ ( , N + 3) = N 3.

L'cart type du minimum (alatoire) a d'autre part la valeur

v/2(N-3).

S'il s'agissait de n caractres au lieu de 3, il faudrait prendre

N n et \Ji(N-n).
C'est ainsi qu'on jugera si la valeur du minimum n'est pas trop
grande. Par exemple, supposons qu'on ait
N = 8o, w = 8, N AI = 72, \/2(N n) = i*.
34 G. DARMOIS.

Si la valeur trouve pour le minimum est 80, elle ne diffre que de


moins d'un cart type, elle est par consquent fort acceptable. Des
rgles analogues sont valables pour une multiplicit d'ordre infrieur
n 1. Supposons qu'au lieu d'une relation linaire, il en existe un
nombre A", on aura toujours un groupe alatoire /iN coordonnes,
mais le nombre total des paramtres est ici de
N ( n k)-hk(n * + i).

D'o la valeur probable


h = k(N n-hk 1).

L'cart type serait y/2 h.


Si le nombre des observations n'tait pas trs grand, il y aurait
avantage utiliser les tables classiques de Karl Pearson ou de
R. A. Fisher pour la valeur de y2 (test of goodness of fit). Le
minimum que nous avons rencontr dans les mthodes prcdentes
suit en effet cette loi avec un nombre de degrs de libert ( terminologie
de R. A. Fisher) gal au nombre h (voir pour ces questions [ 6 ] , [13]).

La mthode gnrale de l'ellipsode. On remarquera que la


quantit L ( a 4 , a 2 , aA) (qui figure au numrateur du rapport tudi
prcdemment) a pour coefficients les quantits

Les coordonnes x\ sont celles du centre de gravit des points P,.


Si l'on considre ces points P, comme affects de la mme masse
unit, on obtient les moments et produits d'inertie du nuage expri-
mental. C'est ce nuage qui, par l'effet des erreurs, est un vritable
nuage alors que les points M, sont dans un plan, ou sur une droite.
Ce problme a t rencontr en conomtrie, et longuement tudi
par Ragnar Frisch, qui a donn cet effet d'paississement le nom
de Cushion effect (effet coussin). Le problme est de dgonfler
convenablement ce coussin exprimental.
Une ide toute naturelle est de chercher les axes de l'ellipsode
LES MATHMATIQUES DE LA PSYCHOLOGIE. 35

d'inertie, mais il manque quelque chose pour que cette ide ait un
appui solide, car on n'aperoit aucune raison pour appeler rectangu-
laires le systme de coordonnes xx, x*, . . ., #*, Comme l'a fort bien
remarqu H. Holelling, il n'y a pas a priori de mtrique dans une
telle question, on peut, dit-il, en introduire une en admettant que les
erreurs commises sur les diffrentes mesures sont indpendantes et
d'gale importance. On voit immdiatement que cette hypothse
revient introduire (si la loi d'erreur est gaussienne)
K(aiaa-i) = < r 2 ( # 2 + ?>+ a2,),

c'est--dire prendre comme ellipsodes des sphres.


Il semble que malheureusement cette hjpothse ne soit pas tou-
jours justifie. Si on l'adopte, on est conduit chercher les axes de
l'ellipsode d'inertie.
Nous pensons qu'il est prfrable d'introduire franchement les
ellipsodes d'erreur et de prendre les axes conjugus communs cet
ellipsode et l'ellipsode d'inertie. La mthode, sous cette forme,
n'est qu'une gnralisation de la mthode des moindres carrs.
Si cette mthode est recommandable, c'est qu'en psychologie,
malgr toutes les difficults de cette tache, on peut vraiment esprer
isoler la loi d'erreur par mesures rptes.
Au contraire, en conomie politique, si l'on veut rsoudre des
questions analogues, la mthode de l'ellipsode est assez arbitraire.
Elle russit d'ailleurs plutt mal, comme l'a montr R. Frisch, qui a
mis au point pour l'tude de ces questions une autre mthode
d'analyse [18].

Grandeurs dterminantes. Nous voyons d'aprs ce qui prcde,


qu'on peut arriver estimer la position du nuage vrai, en cherchant
combien de relations (linaires) existent entre les diffrentes gran-
deurs tudies. Supposons cette rduction faite, on n'a plus en ralit
que n k caractres tudier. Les autres en sont des fonctions
linaires. Nous dirons qu'il existe n k grandeurs dterminantes.
On est ramen l'lude d'une loi de rpartition dans un espace
n k dimensions, aucune rduction ultrieure n'tant plus pos-
sible. Il subsiste un certain arbitraire dans le choix de ces grandeurs
dterminantes, qui pourraient a priori tre des combinaisons linaires
assez gnrales de AI k des variables primitives.
36 G. DARMOIS.

Bien entendu, de telles combinaisons linaires, qui peuvent con-


venir une expression mathmatique, n'auraient souvent aucune
signification directe. De sorte que les grandeurs qui doivent tre
retenues doivent l'tre par une collaboration du psychologue et du
mathmaticien (voir [23]).

La liaison entre grandeurs dterminantes. Les grandeurs qui


restent sont rduites au nombre minimum, mais elles ne sont pas
indpendantes. Est-il possible d'aller plus loin et de leur substituer
des grandeurs indpendantes au sens des probabilits? En gnral,
c'est impossible.
Une loi de probabilit doit avoir une structure spciale pour
qu'une telle transformation puisse tre faite. Pourtant, l'approxi-
mation gnralement adopte, qui ne dpasse pas les moments du
deuxime ordre, on peut, et d'une infinit de manires, choisir des
combinaisons linaires des anciennes variables pour lesquelles les
moments mixtes soient nuls.
Gomtriquement, cela revient choisir comme nouveaux plans
de coordonnes des plans conjugus par rapport l'ellipsode
d'inertie, ce qui est possible d'une infinit de manires, dont aucune
n'est privilgie.
Mais il faut insister sur le fait que des combinaisons linaires de
grandeurs concrtes ne sont pas ncessairement des grandeurs con-
crtes, de sorte que cette transformation n'a pas beaucoup d'intrt.
En somme, on en restera la considration de grandeurs dtermi-
nantes, choisies pour leur importance, et il reste tudier, par les
mthodes prcdentes, leur loi de rpartition.

CHAPITRE V.
1
L INTERPRTATION DES CORRLATIONS. LA THORIE DE SPEARMAN.

Nous abordons maintenant le dernier problme, celui d'une expli-


cation possible pour les lois de rpartition obtenues par l'exprience.
Dans le cas de la psychologie, le fait le plus important est le suivant :
Les aptitudes tudies sont toutes en corrlation, avec des coeffi-
LES MATHMATIQUES DE LA PSYCHOLOGIE. 37

cients de corrlation positifs, dont la valeur peut tre assez leve.


Ce rsultat domine toute la question. C'est lui qu'il s'agit d'inter-
prter, d'expliquer dans une certaine mesure.

Les liaisons par variables communes. Considrons pour plus de


nettet deux variables seulement, x et y et supposons que a, b tant
deux variables alatoires indpendantes, on ait les relations
x = a avec E ( ) = E ( ) = o,
y = a+ b avec E (x) = E(y) = o.

Les variables x ety ne sont pas indpendantes, puisque (xy) = E(a 2 )


n'est pas nul. On voit bien sur cet exemple que si l'on fixe la valeur
de x, y n'est plus alatoire que par la variable 6, la valeur moyenne
de y lie est donc gale x, et la dispersion est constante. La rgres-
sion de y en x est linaire, l'cart type li est constant, gal 07,.
On peut obtenir des types plus gnraux sous la forme
x = a' a + b,
y = CL" a + c,

a', a" sont des constantes, a, 6, c trois \ariables indpendantes. Les


variables x ety sont lies.
Bien entendu, de telles lois de probabilit sont assez particulires.
On voit tout de suite qu'en appelant cp,, cp2, 3 les fonctions caract-
ristiques de a, , c, la fonction caractristique de la loi (xy) est
E { ei{uv+i>j) 1 = zx(au + a"p) 9 i ( P w ) O 3 ( Y ^ ) .

A cette condition, la loi xy sera analysable par trois variables


indpendantes, dont une est commune, et les lois de probabilit des
variables composantes sont entirement donnes par les fonctions
caractristiques.

Application. La loi de Gauss. Soit une loi de Gauss deux


variables dont la fonction caractristique peut tre crite

ty(uv) = 7 [u--+- iruv + P 2 ].

On a immdiatement
38 G. DARMOIS.

cp< est donc un polynme du deuxime degr et par consquent, la


variable a ,doit suivre une loi de Gauss. Puisque x et y suivent des
lois de Gauss, les fonctions caractristiques de b et c Jsont celles de
lois de Gauss. On a donc tout simplement rsoudre une quation
U+. v*--+-iruv = A ( a u + a"(<)^-f- Bw 2 + C P 2 .
Il existe une infinit de solutions, qu'on peut crire
v/Aa'=cos?, ^/Aa"=cosf,
^/B = sm , \fC = sin '^,
COSy COS'J = r.

Ainsi, la loi de Gauss ou loi de corrlation normale deux


variables est reprsentable d'une infinit de manires, par des com-
binaisons linaires de variables de Gauss. indpendantes.
Au contraire, dans le cas gnral deux variables, le problme est
impossible.

Loi trois variables. On peut gnraliser de bien des manires


les considrations prcdentes. Contentons-nous de considrer le cas
x = a' a + b,
y = a" a + c,
z = et!" a + d,

a, 6, c, d tant quatre variables indpendantes. Le problme est


encore impossible dans le cas gnral. Que devient-il pour une loi
de Gauss. On doit avoir
^ ( uvw) = '^i (a' u + p" t + a'" v ) + ^ ( u ) + ^ ( v ) + ^ 4 ( w ).

On voit encore aisment que les variables composantes doivent


suivre des lois de Gauss, et l'on est ramen une quation
u--\- P 2 + t v 2 + ?r\iuv + IJ nvw + ?rn wu
= A ( a ' + o'v + a'"p)2 + B M 2 + O 2
+ DW2.

On a aisment la reprsentation
v/a'=cos, v A aW== c05'-!' v/Aa'"=cos}0
\/B = sino, \/C = sin , ^ = sin^,
cos cos^ = n 2 ,
COS^ COS^ = 7'ji,

C O S / COS? = /'si.
LES MATHMATIQUES DE LA PSYCHOLOGIE. 3

Mais cette fois, le problme est dtermin


cos2o /'23= ' ' i ^ n -

Il existe une solution unique, condition qu'elle soit relle.

/rxtr-M
cos o = s I /
V '*2 3

cos^ = 4 r^m
ni
/roAr>s
C0S
X.

Les deux signes ne donnent qu'une solution.

Notion gnrale du facteur commun. On dira que n variables


alatoires sont rcprsentables avec un facteur commun, ou facteur
gnral, si l'on a
xt = mtg + St,

les /2 + 1 variables alatoires g, y1? s2, . . . . s tant indpendantes,


les ml tant des constantes. 11 est clair que n variables xt ainsi
dtermines sont en liaison, mais cette liaison est 1res particulire.
Pour qu'une loi de probabilit soit reprsentable de cette manire, il
faut et il suffit que l'on ait l'identit, pour la fonction caractristique
^ ( l t t S . . . M n ) = ^(/7111*! + . . . + mnUn) + <KOl) + . . + ^(n).

La variable g est dite facteur gnral, les variables st sont dites


les facteurs spcifiques, relatifs aux aptitudes mesures par les xt.

Dtermination des facteurs. Une question se pose. Quand


l'identit prcdente est vrifie, les lois de probabilits des diffrents
facteurs sont dtermines par le second membre. Nous dirons que
ces variables alatoires sont connues. Cela veut dire uniquement que
leur loi de probabilit est entirement dtermine. Celte dtermi-
nation est-elle unique? Nous allons voir qu'en gnral, il n'y a qu'une
solution. En effet, supposons que les variables g et st sont rapportes
leur valeur probable. On aura, en prenant les termes du second
degr de l'identit
(mi wi + . . . + mnun)--+- Xfwf + . . . + A2 M2 = forme connue.
40 G. DARMOIS.

11 rsulte des calculs prcdents, faits pour les formes de Gauss,


qu' partir de n = 3, ces quations ont au plus une solution : m, . . . mn
sont donc connus. On connat alors la drive seconde de Wg et par
consquent tyff puisque les termes du premier ordre sont nuls. Il en
rsulte qu'on connat aussi les drives secondes des Wsn donc toutes
les fonctions caractristiques. Ainsi :
Quand une loi de probabilit n variables [ / * > 3 ] admet un
facteur commun et n facteurs spcifiques, les n + i facteurs suivant
des lois de probabilit bien dtermines.
Il n'existe donc qu'une manire (s'il en existe une) de reconstruire
par le schma prcdent la loi de probabilit.

Autre sens de la dtermination des facteurs. Une lgre con-


fusion, trs naturelle, pourrait s'introduire ici. Si la reprsentation
d'un groupe d'aptitudes par facteur commun est possible, le psycho-
logue qui tudie un individu voudrait connatre quels sont, pour cet
individu, les valeurs de g, S\, s2, . . ., sn qui lui sont particulires.
Or, ce problme est tout diffrent du premier. En effet, il s'agit,
ayant ainsi mesur sur cet individu les caractres # , , x>2, . . . . xn,
d'en conclure quelque chose sur g, s{. s>> sn. Il est vident que
toute conclusion rigide est impossible, puisque les individus o l'on
a fix # i , Xoi . . . , xn ne constituent qu'une sous-population o
peuvent varier g, s,, ,?._>, . . ., sn suivant une certaine loi de proba-
bilit lie.
L'ensemble des 2/i + i variables alatoires, xu . . . , #, g, s^
.9_>, . . ., sn possde une certaine loi de rpartition, loi rductible au
sens du chapitre prcdent, mais alors que la fixation des n + i gran-
deurs g et st fixe les n autres, la fixation des n premires laisse
subsister une loi de rpartition lie.
En particulier, il existe, dans cette loi lie, une esprance math-
matique lie, un cart type li pour chacune des n + i grandeurs.
Plus particulirement, la grandeur g spcialement intressante,
possde des moments lis dont les deux premiers sont les plus
importants.

La thorie de Spearman. La thorie propose par Spearman est


prcisment celle du facteur commun. On l'appelle aussi quelquefois
la thorie des deux facteurs, parce qu'elle propose de dcomposer
LES MATHMATIQUES DE LA PSYCHOLOGIE. 4i

chaque aptitude en deux facteurs, l'un gnral et l'autre spcifique.


La premire question pose par cette thorie est celle-ci : Comment
la vrifier ?
Nous avons vu que la connaissance de la fonction caractristique
le permettrait. Mais on ne connat pas cette fonction, on ne connat
que les premiers moments. L'attention s'est donc porte spcialement
sur l'identit, restreinte aux moments du deuxime ordre
E [ IH XX + . . . -h un Xn ]* = ( mx UX + . . . + lil n II , )* -+- X 2 u\ + . . . + A 2 M 2 .

Il est peine besoin de dire que cette identit est beaucoup moins
troite que la premire.
Elle suppose seulement les conditions
E ( # 2 ) = i, E ( s 2 ) = A?, E ( ^ ) = o, E(Sisk) = o\

c'est--dire des conditions imposes aux moments du deuxime ordre


des n + i facteurs. Ainsi, les n -4- i variables g, st peuvent avoir une
loi de probabilit quelconque, mais moments nuls pour le premier
ordre, coefficients de corrlation nuls pour le second. Si alors
l'identit restreinte est vrifie, les variables
mtg --sl

ont les mmes moments du premier et du second ordre que les


variables ^ , , ^ , . . . , # .
On voit qu'au sens indiqu prcdemment, les facteurs sont tout
d'abord largement indtermins, et qu'ensuite ils ne reproduisent
qu'au second ordre la loi xK. x-2, . . ., xn.
En particulier, la loi de probabilit (g, X\, x-2, . . . , a ? n ) ne
reproduit qu'au second ordre la loi (x{, x-2, ...,xn). Peut-elle
la reproduire compltement? Certainement oui, et d'une infinit de
manires. En particulier, choisissons une loi lie de g, qui soit de
Gauss. du type
1
2(7
[*-*]</
\JlTZ (

h peut tre pris gal la combinaison linaire qui fournit le plan de


rgression, cr tant l'cart type li donn par la formule classique. La
loi de xK, x2l . . , ocn est alors prise identique la loi vritable. On
peut videmment choisir une loi de rgression diffrente, et un cart
42 G. DARMOIS.

type qui dpende de X\. x>2, . . . , xn. Les conditions imposes la


loi gx*, . . . , xn se traduiraient par le fait que l'hyperplan des
moindres carrs est fix et que la valeur moyenne du carr de la
distance des points de la distribution cet hyperplan a une valeur
donne.
En somme, si incomplte que puisse paratre une solution base
sur les moments du deuxime ordre, et bien qu'elle laisse subsister
une large incertitude sur la loi mme de probabilit du facteur g,
elle est pourtant trs intressante parce qu'elle ne permet pas la
moyenne lie de s'carter beaucoup d'un certain plan, et que la
variable alatoire g, pour X\, x-2 xn donns ne peut fluctuer
qu'entre des limites fixes.
Des considrations analogues sont valables pour le groupe des
variables lies g, sA, s2, . . ., sn. Elles comportent quelques longueurs,
mais aucune difficult.

Les conditions d'application. Bornons-nous donc la vrifica-


tion de l'identit au sens restreint
(10) E(uiXx-h...+ unx,l)-= ( m t M [ + . . . + mun)--- X 2 M 2 + . . . + X2 M 2 .

Nous supposons que les variables X\, x2, . . ., xn sont ramenes


avoir l'cart type unit. On aura donc
i = m 2 + A2, /,/,= m^ii.

On voit qu' partir de n = 4? et en outre des conditions de ralit


des ml et AZ, nous aurons des conditions de compatibilit; on peut les
crire
rik>'hi= rlhrki= mlmkmnmi.

Les diffrences qui doivent tre nulles


>\krhlrlhrki

s'appellent des ttrades. Si elles sont toutes nulles, on aura

= = = ( rapport qui ne dpend que de h et k)


rth //*/ ?h
(nk= p*Xi)
avec
Xl = />po ra = p?i?k,

ce qui donne, en modifiant les p, ptpk ou pfp*, suivant le signe de p.


LES MATHMATIQUES DE LA PSYCHOLOGIE. 43

Si c'est la premire forme, on n'a plus que la condition de ralit, qui


est que tous les pz soient infrieurs ou gaux l'unit.
On aura videmment
E(Xtg) = mL.

Si c'est la deuxime forme p,p*, la rduction au type prcdent


est impossible.

Sur l'estimation du facteur gnral. Si l'on a mesur sur un


individu les quantits xn x2, . . ., xn, la valeur de g est, comme
nous l'avons dit, une variable alatoire, g lie. Elle a mme une loi
de probabilit insuffisamment connue si l'on se borne utiliser les
moments du deuxime ordre. Mais, mme en admettant qu'on la
connaisse entirement, g ne serait pas en liaison fonctionnelle
avec Xi, x2, . . . , xn, mais seulement en liaison de probabilit.
Autrement dit, il n'y a aucune raison pour que l'cart type li de g
soit nul. Mais si la thorie reste valable pour un grand nombre d'apti-
tudes, on peut esprer voir l'estimation de g devenir meilleure quand n
grandit. Pour voir ceci bien nettement, excutons les calculs qui
donnent l'quation de rgression et la quantit R 2 . On a, a p p e l a n t ^ ,
(32, . . ., p n les coefficients de rgression
M, = p , + pi//itm2 + . . + Pim x rn/n
5

R2 = p l W .i + + $nmn.

La quantit R 2 inconnue auxiliaire, introduite dans les quations,


donne
- ^ - f t - ; - = = * *

D'o sa valeur
R =

en posant

-1T m?

Par consquent, la quantit i R2 qui nous intresse a pour


valeur
,_R*= '
i +-
44 G. DARMOIS.

On voit bien qu'elle diminue chaque adjonction d'un nouveau


terme la somme S.
Si l'on pouvait penser que n devienne trs grand, et que la somme
S devienne en mme temps trs grande (ce qui n'est pas une cons-
quence), la quantit i R2 tendrait vers zro, et l'on aurait une
estimation qui convergerait en probabilit vers la vraie valeur,
c'est--dire qui aurait une probabilit aussi grande qu'on veut de
l'approcher autant qu'on veut.
Mais il nous semble que la thorie de Spearman ne saurait, en
admettant son exactitude, tre force jusque-l. Elle peut bien
dcomposer le mcanisme mental en n + i grandeurs indpendantes
capables de reconstituer l'essentiel des diffrentes aptitudes, mais
supposer que n est trs grand revient donner ce mcanisme
mental une complication infinie (voir [20, 2 1 , 22, 24, 2o]).

Effet des substitutions linaires. E. B. Wilson, dans de remar-


quables contributions apportes la thorie de Spearman, a signal
un point curieux. Si l'on suppose le mcanisme du facteur gnral
applicable n aptitudes, il ne le sera gnralement pas a des combi-
naisons linaires des nombres X\, x2, . . ., xn. Il y a lieu de distinguer
ici ce qu'on entend par la conservation du facteur commun dans une
substitution linaire. Il peut arriver :
i qu'aprs la transformation les nouvelles variables rsultent de
Ti + i facteurs indpendants, dont l'un, commun, est le mme que
pour les variables primitives. C'est \idemment le sens que le
psychologue serait port donner, car un individu donn, dans la
thorie propose, a une valeur donne de g, et c'est elle qui devrait
intervenir dans les autres aptitudes;
2 la proprit de facteur commun subsiste, mais il s'agit d'un
autre facteur. Ce point de vue serait plutt de mathmaticien.

Il est clair qu'au sens i il n'y a pas conservation en gnral, car il


faudrait que dans les nou\ elles variables
yk= alkxl^aamlg->c- aas^

les nouveaux facteurs spcifiques qui sont alksl. soient indpendants.


Or, il est bien clair qu'il n'en est rien en gnral. Ces nouveaux
facteurs spcifiques ne sont mme pas en non-corrlation, il faudrait
LES MATHMATIQUES DE LA PSYCHOLOGIE. 4r>

pour cela des conditions

E{alksl)(ajhsh) = o,
c'est--dire
an ajV X2 + . . . + aina/n\n = o.

Ce sont des conditions analogues des conditions d'orthogonalit.


Ainsi : mme au sens restreint des conditions du deuxime ordre,
une transformation linaire quelconque ne conserve pas le facteur
commun.
Y aurait-il l une difficult grave pour la ihorie de Spearman? 11
nous semble que non. S'il y a un mcanisme des aptitudes, il n'a
aucune raison de s'appliquer des combinaisons linaires qui n'ont
pas de sens concret.
La thorie de Spearman peut parfaitement tre acceptable pour
une dizaine, une vingtaine d'aptitudes, connues ou dcouvrir.
Pourquoi le serait-elle une somme de deux aptitudes, pourquoi le
serait-elle 100 aptitudes? (voir [10. 16, 24, 28]).

Les thories plusieurs facteurs communs. U est clair qu'on


peut gnraliser ces thories, et introduire un nombre quelconque
de facteurs communs. Par exemple
*i = mlgi+-plg'2+ sh

g1, g"1 tant deux facteurs gnraux. La base de la thorie sera encore
une identit entre fonctions caractristiques, et au sens restreint
E ( M I # , + . . . + unxn)'2= (wiMi + . . . + mnuny
+ (/?!&! + . ..-+- Pn W) 2 + X2 U- + . . . + A2 Uj,.

Les conditions, un peu plus compliques, sont analogues. Il suffit


de former les drives partielles du premier membre
^1 + ^-)^2 + . . . + W7"i=AWi[An,Mt + . . . + //? W 7 ]+/>, (jOii + .. + /JM r t )+ Xi Ulf
Uiru-hu- = m*[ ]+ + X2M2>

Il est clair que si l'on prend les termes en uh, zz5, . . . . un, ils sont
des combinaisons linaires des deux expressions

m B M / i + . -+ rnnu,i, pnu-h... + pnun.


MMORIAL DES SC. MATH. N 9 8 r ^
46 G. DARMOIS,

Par consquent, les dterminants du troisime ordre

'*U ''lo ''16

'24 t'm r1Q


r\\ ''"5 ^IC

sont nuls. Ce sont eux qui remplacent les ttrades.


On voit que les calculs excuter dans ces hypothses se compli-
quent assez fortement (voir [ 4 ] , Crossroads in the mind of man).

Les fluctuations alatoires. Pour juger si la thorie de Spearman


permet de rendre compte des observations, il faut estimer l'ensemble
des paramtres m,, m2. . . ., m/M et voir si la loi de probabilit ainsi
obtenue est en accord suffisant avec les mesures. En ralit, comme
nous l'avons vu, la donne de mxm^ . . . mn. et la connaissance, qui
en rsulte, de ,_, . . . A, ne suffisent pas a faire connatre cette loi.
On se borne alors examiner si les observations permettent
l'estimation du groupe des mL. La condition thorique est que toutes
les ttrades soient nulles, il ne reste ensuite qu'une condition de
realit.
Or, le*> ttrades qui rsultent de l'exprience sontaflecles d'erreurs
alatoire*. On se contentera donc de voir si les ttrades exprimen-
tales peuvent raisonnablement tre considres comme a^ant une
valeur thorique nulle. Cet examen pose un problme assez lourd,
du point de vue des calculs. Il faut en effet connatre la loi de proba-
bilit d'une ttrade autour de la valeur zro. Si l'on pouvait admettre
que la ttrade exprimentale suit une loi de Gauss, il suffirait de
connatre l'cart type, et c'est en effet quoi l'on se borne en pratique.
11 faut bien remarquer cependant que le coefficient de corrlation
suit une loi assez diffrente de celle de Gauss, quand les observations
ne sont pas trs nombreuses. La ttrade des quatre coefficients suivra
bien, la limite, une loi de Gauss, mais pour elle aussi, il est un peu
risqu de lui appliquer la loi de Gauss avec un nombre d'observa-
tions qui ne soit pas trs grand.
Spearman et Holzinger ont donn la partie principale de l'cart
type d'une ttrade sous la forme
A
2
LES MATHMATIQUES DE LA PSYCHOLOGIE. 47

N est le nombre des observations, A est une fonction des coefficients


de corrlation vrais.
On pourrait oprer autrement. En effet, nous avons vu que
E(xiXk) = fntmk.

Ces quantits, qu'on appelle les covariances C,x, permettent donc


de former des ttrades nulles, mais qui, cette fois, sont des fonctions
entires des observations. La loi de probabilit de ces fonctions
entires est beaucoup plus facile a obtenir rigoureusement, et a t
tudie par Wishart; il est d'ailleurs raisonnable de penser que ces
grandeurs suivent une loi qui se rapproche plus rapidement de la loi
de Gauss que les ttrades des coefficients de corrlation. Il semble
donc qu'il y avait quelque avantage utiliser plutt les ttrades C.
Des difficults, tenant la longueur des calculs numriques, se
prsentent d'ailleurs ds que le nombre des tests est un peu lev.
Dans les expriences de Brown et Slephenson portant sur 20 tests,
il s'introduit i4535 ttrades (3 x CJ 0 ).
En rsum, et bien que la mthode actuelle soit pratiquement
suffisante pour porter un jugement sur la thorie, on peut dsirer des
perfectionnements d'ordre mathmatique et technique, qui permet-
traient d'enle\er quelque lourdeur aux calculs numriques qui sont
actuellement ncessaires ( ' ).

( l ) b'interes>sdntes echerches sont faites en ce moment au Laboratoire de ta


S.N.C.F., Viroflay, par M. Pierre Delaporte. Files permetlent de traiter beau-
coup plus aisment ces problmes.
G. DARMOIS.

INDEX BIBLIOGRAPHIQUE.

OUVRAGES GNRAUX.

1. SPEARMAN (C). The abilities of man (Londres, 2 e dit., 1932. Traduction


franaise de F. Brachet aux ditions du Travail humain, Paris).
2. G. U D N Y Y U L E . An introduction to the theory of statistics (Londres,
nombreuses ditions).
3. R. A. FISHER. Statistical Methods for Research Workers (Londres et
Edinburgh, nombreuses ditions).
4. TRUMAN L. KELLEY. Statistical Method (New-York).
TRUMAN L. KELLEY. Crossroads in the mind of man ^Stanford University
Press, 1928).
5. G. DARMOIS. Statistique mathmatique (Paris, 1928).

MMOIRES ET COMMUNICATIONS.

6. K. PEARSON. On the criterion that & given System (Phil. Mag.,


srie V, 1900, p. 157-175).
7. SPEARMAN (C). Am. Journ. Psych., vol. XV, 1904, p. 202.
8. GARNETT (J. C. M.). Proc. Roy. Soc, A, 1919, p. 96.
9. GARNETT (J. C. M.). Brit. Journ. Psych., vol. X , 1920, p. 2^2-58.
10. GARNETT (J. C. M.). - Nature, t. 132, n* 33?0, octobre 1933, p. 676.
11. FISHER (R.A.). On the mathematical foundations of theoretical Statistics
(Ph. Tram., A, t. 212, 1921, p. 309-368).
12. FISHER (R. A.). On the probable error of a coefficient of coi relation
deduced from a small sample (Metron, t. 1, Part. IV, 1921, p. 1-32).
13. FISHER (R. A.). The conditions under which /J measures the discrepancy
between observation and hypothesis (Journ. Roy. Stat. Soc, t. 87, 1924
p. 442-449)-
14. FISHER (R. A.). Theory of statistical estimation (Pioc of the Cambridge
Phil. Soc, t. 22, 1925, p. 700-725).
15. PEARSON (K.) et Marg. MOUL. Biometrika, vol. X I X , 1927, p. 246-291.
16. WILSON (E. B.). Proc Nat. Ac Sci., vol. XIV, 1928, p. 283-296.
17. FRISCH (Ragnar). Corrlation and scatter in statistical variables (Nordik
Statistical Journal, t. 1, 1928, p. 36).
18. FRISCH (Ragnar). Statistical Confluence analysis (Oslo, 1934).
19. S* GEORGESCO (Nicolas). Le problme de la recherche des composantes
cycliques d'un phnomne (Journ, Soc Stat. Paris, octobre 1930).
LES MATHMATIQUES DE LA PSYCHOLOGIE. 4g

20. HEYWOOD (H. B.). On finite squences of real numbers (Proc Roy. Soc,
A, vol. 134, 1931, p . 486-5oi).
21. PIAGGIO (H. T, H . ) . Mathematical Gazette, vol. X V I I , n 222, 1933,
p . 4o-42.
22. PIAGGIO (H. T. H.). Brit. Journ. of Psych., vol. X X I V , 1933, p . 88-io5.
23. HOTELLING (H.). Analysis of a complex of statistical Varites into principal
components (Columbia University, Baltimore, 1933).
24. IRWIN (J. O.). Statistical Methods in Psychology. The prsent position
of the theory of two factors ( X X I I e Session de l ' I n s t i t u t International de
Statistique, L a Haye, 1934).
25. IRWIN (J. O.). On the indeterminacy in the estimate of g (Brit. Journ. of
Psych., vol. X X V , P a r t . I I I , janvier 1935).
26. DARMOIS (G.). Sur la thorie des deux facteurs de Spearman (C. R. Acad.
Se Paris, t . 199, 1934, p . 1176 et i358).
27. DARMOIS (G.). L'emploi des observations statistiques. Mthodes d'estimation
(Actualits scientifiques et industrielles, Paris, 1936).
28. DARMOIS (G.). Sur l'indtermination de g dans la thorie de Spearman
(Mathematica, 1936.
29. N E Y M A N (J.) et E. S. P E A R S O N . Statistical Research Memoirs, vol. I
(Londres, juin 1936).
30. HOLZINGER ( K a r l J . ) . P r e l i m i n a r y Reports on Spearman. Holzinger unilary
trait Study, n 5, Introduction to bifactor theory (The University of Chicago
Press, 1935). Student Manual of factor analysis ( The Univerty of Chicago
Press, 1937).
31. THURSTONE (L. L.) The Victors of mind. University of Chicago Press,
1936. Primary mental abilities. University of Chicago Press, 1938.
32. THOMSON (Godfrey H . T.). The Factorial analysis of human ability.
University of London Press, 1939.
TABLE DES MATIRES.

Pages.

CHAPITRE I. Les corrlations i

CHAPITRE I I * ................ % .. i5

CHAPITRE I I I . Le problme rel. Rle des erreurs 19

CHAPITRE IV. Rduction au nombre minimum d'aptitudes dterminantes. 27

CHAPITRE V. L'interprtation des corrlations. La thorie de Spearman. 36

I N D E X BIBLIOGRAPHIQUE 48

Das könnte Ihnen auch gefallen