You are on page 1of 28

Flicit des Ntumires

Mthodes de rgression et analyse factorielle


In: Histoire & Mesure, 1997 volume 12 - n3-4. pp. 271-297.

Abstract Methods in Multiple Regression and Factorial Analysis. One of the fields in sociological study considers the ways methodologies are used by researchers in the social sciences. This article is situated within that orientation and explores two techniques, factoriel analysis and multiple regression, employed in the qualitative approach to sociology. Noting that the two techniques are rarely if ever used together, the present study seeks to resolve the argument that pits the proponents of the one against those of the other. Having summarized the theoretical underpinnings of the two techniques, the study then emphasizes the differences in order to demonstrate that they are meant to solve different problems. The argument is then illustrated by the use of the same data treated first by one then by the other of the two techniques. Rsum Dans le concert des travaux mens en sociologie, il en est un certain nombre qui sinterrogent sur les mthodologies employes par les chercheurs en sciences sociales. Le prsent article a prcisment pour dessein danalyser deux techniques utilises dans les approches quantitatives en sociologie, savoir lanalyse factorielle et la rgression multiple. Partant du constat quil est bien rare que ces deux mthodes soient utilises conjointement, il cherche rompre avec le dbat qui oppose les tenants de lune et de lautre. Aprs un expos des principes gnraux qui sous-tendent les deux outils, il tente den souligner les diffrences en montrant quils ont pour vocation de rpondre des questions diffrentes, elles aussi. Lensemble de largumentation est enfin illustr par un exemple, o les mmes donnes sont traites successivement laide de lune puis de lautre de ces techniques.

Citer ce document / Cite this document : des Ntumires Flicit. Mthodes de rgression et analyse factorielle. In: Histoire & Mesure, 1997 volume 12 - n3-4. pp. 271297. doi : 10.3406/hism.1997.1547 http://www.persee.fr/web/revues/home/prescript/article/hism_0982-1783_1997_num_12_3_1547

Histoire & Mesure, 1997, XII-3/4, 271-298

Flicit des Ntumires*

Mthodes de rgression et analyse factorielle

Rsum : Dans le concert des travaux mens en sociologie, il en est un certain nombre qui s'interrogent sur les mthodologies employes par les chercheurs en sciences sociales. Le prsent article a prcisment pour dessein d'analyser deux techniques utilises dans les approches quantitatives en sociologie, savoir l'analyse factorielle et la rgression multiple. Partant du constat qu'il est bien rare que ces deux mthodes soient utilises conjointement, il cherche rompre avec le dbat qui oppose les tenants de l'une et de l'autre. Aprs un expos des principes gnraux qui sous-tendent les deux outils, il tente d'en souligner les diffrences en montrant qu'ils ont pour vocation de rpondre des questions diffrentes, elles aussi. L'ensemble de l'argumentation est enfin illustr par un exemple, o les mmes donnes sont traites successivement l'aide de l'une puis de l'autre de ces techniques. Abstract. : Methods in Multiple Regression and Factorial Analysis. One of the fields in sociological study considers the ways methodologies are used by researchers in the social sciences. This article is situated within that orientation and explores two techniques, factorial analysis and multiple regression, employed in the qualitative approach to sociology. Noting that the two techniques are rarely if ever used together, the present study seeks to resolve the argument that pits the proponents of the one against those of the other. Having summarized the theoretical underpinnings of the two techniques, the study then emphasizes the differences in order to demonstrate that they are meant to solve different problems. The argument is then illustrated by the use of the same data treated first by one then by the other of the two techniques.

* CREST-INSEE, Laboratoire de Sociologie Quantitative, 3 avenue Pierre Larousse, Timbre J350, 92245 - Malakoff cedex. 271

Histoire & Mesure, 1997, XII-3/4 L'analyse factorielle des correspondances a pendant longtemps t l'outil le plus couramment utilis par les sociologues franais pour traiter les enqutes de grande taille. Depuis quelques annes en France, se dveloppe l'usage de mthodes fondes sur la rgression linaire, trs employes par les conomistes, les dmographes, ainsi que par les sociologues anglo-saxons. L'introduction de cette tech nique dans le champ de la sociologie ractive, en partie, le dbat dj ancien qui avait oppos chez les conomistes, les tenants de l'une et de l'autre de ces deux familles de mthodes statistiques, dans les annes soixante-dix. L'objet de cet article est de transposer les termes dans le champ sociologique, en cherchant montrer partir de quelques applicat ions, que comme toute technique, ces mthodes s'inscrivent dans des constructions argumentatives, scientifiques ou politiques 1 qui sont diffrentes, et qu'elles permettent de rpondre des questions diffrentes, elles aussi. Il s'agit ainsi de se placer volontairement du ct des usages qui en sont faits, de chercher montrer que loin d'tre concurrentes, elles prsentent des caractres de complmentarit et qu'elles ont ainsi vocation tre utilises en parallle. Pour ce faire, il est apparu important, dans un premier temps, de rappeler les principes gnraux de la rgression multiple et de l'analyse de correspondances multiples. Nous avons ensuite cherch montrer la proximit de ces principes avec les critres usuellement employs en statistique et/ou en sociologie, pour la formulation d'noncs de type descriptif et explicatif. Enfin, la dernire partie tente d'illustrer ce propos en prsentant un exemple, dans lequel, partir des mmes donnes, les deux techniques sont utilises tour tour. Ici, il s'agit d'envisager la question de la prcarit sociale, sous l'angle d'un cumul de handicaps, d'une part, et de l'enchanement dynamique de difficults, d'autre part.

1. La rgression multiple : principes de base Le raisonnement exprimental On ne peut comprendre le sens et l'intrt des techniques de rgression sans effectuer un dtour par le raisonnement exprimental,

1. Desrosires, A., 1995. 272

Flicit des Ntumires tel qu'il est pratiqu dans les sciences de la nature, en mdecine et dans certaines sciences humaines comme la psychologie. Le raisonnement est le suivant. Lorsqu'un mdecin veut tester l'effet d'un mdicament sur l'volution d'une maladie, il ralise une exprimentation. Pour cela, il constitue deux groupes de patients atteints de la maladie en question, puis il prescrit le mdicament aux membres d'un des groupes, et un placebo ceux de l'autre groupe. C'est en comparant, au bout d'un certain dlai, le pourcentage de gurison dans chacun des groupes qu'il conclura l'efficacit (ou l'absence d'efficacit) du traitement. Pour que cette mthode soit valide, il doit prendre un certain nombre de prcautions. En effet, une multitude d'autres facteurs peuvent intervenir dans le processus de gurison et fausser les rsultats de l'exprience. Afin d'en annihiler les effets, le mdecin doit s'assurer que ces facteurs sont distribus de la mme faon parmi les individus des deux groupes, de manire ce que le seul lment qui les diffrencie soit la prise ou non du mdicament. Ainsi, le mdecin sera certain de bien mesurer effet propre de son traitement. Pour s'assurer que les deux groupes sont bien quivalents, il suffit - condition qu'ils soient de taille suffisante - : d'affecter au hasard les individus entre les deux groupes, qu'ils ne sachent pas dans quels groupes ils se trouvent, que le mdecin lui-mme, au moment de l'valuation, ne puisse pas diffrencier les patients traits de ceux qui ne l'ont pas t. Toutes choses gales par ailleurs En sociologie, il est bien vident qu'il est, la plupart du temps, impossible de procder de la sorte. Si l'on cherche dterminer l'effet propre du sexe sur la dtermination des salaires (si on se pose la question de savoir s'il y a ou non discrimination salariale selon le sexe), il faudrait affecter un sexe au hasard aux individus, ce qui n'a videmment pas de sens. Il faut donc trouver un moyen de s'assurer que les groupes dont on va comparer la moyenne des salaires sont bien quivalents du point de vue de toutes les autres variables qui peuvent avoir un effet sur le salaire (diplme, anciennet, catgorie socio-professionelle, type d'entreprise, etc.). En d'autres termes, il faut chercher liminer tout effet de structure qui viendrait fausser les rsultats de l'tude. 273

Histoire & Mesure, 1997, XII-3/4 Une premire mthode consiste composer autant de groupes qu'il y a de croisements possibles entre les diverses modalits des variables dont on cherche annihiler l'effet (tris croiss de profon deur gale au nombre de variables). On voit immdiatement la limite que rencontre cette tentative : le nombre de groupes constituer crot exponentiellement et, aussi grand que soit l'chantillon dont on dispose au dpart, on risque de se trouver en face d'effectifs minuscules, voire nuls, l'intrieur de chaque sous-population ; et, bien entendu, il n'est pas possible de prendre en compte l'effet de variables quantitatives continues ( moins d'effectuer des regroupe ments classes ce qui entrane une perte d'information). en Les techniques de rgression multiple permettent de s'affranchir de ces difficults. On n'en dtaillera pas ici les fondements, qui ncessitent des connaissances statistiques pousses. Il suffit de savoir que l'ide gnrale consiste rechercher l'effet propre d'une variable sur une autre, comme dans le raisonnement exprimental, et que cela est possible grce des hypothses probabilistes. Effectuer une rgression multiple consiste construire un mod le, en faisant un certain nombre d'hypothses, parmi lesquelles certaines seront assumes, et d'autres testes. Reprenons l'exemple de la discrimination salariale. On se pose la question de savoir si le sexe, en tant que tel, a un effet propre sur le salaire, c'est--dire une fois que tous les autres effets sont contrls. emploi gal, y a-t-il salaire gal entre les hommes et les femmes ? On imagine que parmi les dterminants du salaire, interviennent des lments tels que le niveau de diplme, la catgorie socio-professionelle, l'anciennet, la fonction, le secteur (public ou priv) de l'entreprise, la taille de l'entreprise et bien d'autres choses encore, que l'on peut ou non identifier et mesurer. On crit donc le modle suivant, qui indique que le salaire est fix en fonction de ces caractristiques, et du sexe : Y = at Xj + ^ X2 + -- + an Xn + aS + u avec : Y : le salaire Xp ..., Xn : les variables explicatives du salaire S : le sexe u : un rsidu, qui capture toute l'htrognit qu'on n'a pas pu prendre en compte avec les variables explicatives du modle. 274

Flicit des Ntumires Le logiciel de rgression est alors capable de calculer la valeur des coefficients (a, ap ..., an). Un coefficient nul signifiera que la variable auquel il est associ n'a pas d'effet propre. S'il est diffrent de 0 au contraire, cela voudra dire que toutes choses gales par ailleurs , c'est--dire une fois contrl l'effet de toutes les autres variables explicatives, la variable a un effet propre sur le salaire dont on cherche comprendre les dterminants 2. On voit bien que le but vis, ici, est de se rapprocher le plus possible des conditions exprimentales, sachant bien qu'on ne pourra jamais les atteindre. Il est, en effet, impossible de prendre en compte toutes les variables qui ont un effet, soit qu'elles ne soient pas mesurables, soit qu'on n'en imagine pas l'existence. L'erreur rsi duelle u est l pour le rappeler. Bien videmment, si elle est trop importante, les rsultats seront ininterprtables et on dira que le modle est mal spcifi. Il existe des moyens de tester la spcification du modle, mais quels que soient le verdict du test, on ne pourra jamais tre totalement sr de la vracit de ce que l'on affirme. Ceci est un problme dont il faut tre conscient, mais qui n'invalide pas pour autant la dmarche dans son ensemble. Il faut, en effet, garder l'esprit qu'aucune science n'est jamais mme de garantir la vrit de ces propositions. Rappelons-nous la position de Karl Popper : La meilleure stratgie pour un scientifique est de formuler chaque proposition de telle sorte qu'elle survive aux tests les plus svres qu'il pourra inventer et si son hypothse se rvle fausse, il doit en noncer une nouvelle qui survive tous les tests prcdents, recommenant ainsi le cycle hypothse et rfutation 3. Ainsi, le sociologue introduit dans son modle toutes les variables envisageab les sont disponibles dans son enqute, tout en sachant qu'il y et qui aura sans doute un jour une nouvelle enqute, avec d'autres variables, et que ses rsultats ne sont pas l'abri d'une rfutation.

2. Selon que l'on a affaire des variables qualitatives ou quantitatives, les mises en uvre et les interprtations sont diffrentes, mais l'ide gnrale de base est celle que nous venons d'exposer. Il ne parat pas indispensable ici de rentrer davantage dans le dtail. 3. Popper, ., 1959. 275

Histoire & Mesure, 1997, XII-3/4 2. Application de l'analyse factorielle au dpouillement d'enqute : l'analyse de correspondances multiples (ACM) L'analyse factorielle n'a pas du tout les mmes vises. Son objectif premier est de permettre au chercheur d'apprhender le plus simplement possible la masse de donnes dont il dispose dans son enqute et d'en extraire les informations pertinentes. Pour reprendre une expression consacre, l'analyse factorielle est un aveu d'igno rance, un radar tourn vers le brouillard 4 qui sert avant tout dpeindre grands traits les dimensions les plus importantes d'une variation dans un nouveau champ de recherche 5. C'est donc, en premier lieu, lors de la phase exploratoire des donnes, que l'analyse factorielle se prsente comme un outil particulirement utile. Au commencement de toute tude, le cher cheur consacre toujours un temps qui peut se rvler trs long sentir les donnes , c'est--dire tout d'abord dcouvrir la population de son fichier, la dcrire l'aide de ses principales caractristiques, puis slectionner les variables dont il peut supposer qu'elles auront quelque chose voir avec le sujet de son tude. Classiquement, cette tape s'effectue en construisant des tableaux statistiques (tris plat et tris croiss), permettant de mettre en vidence la variabilit de l'chantillon, ainsi que les premiers liens entre les variables de l'enqute. Bien videmment, plus il y a de variables, plus ce travail peut s'avrer pnible. En l'absence d'autres outils, le chercheur se borne alors n'effectuer que quelques croisements, ceux qui lui semblent les plus pertinents, en fonction de suppositions qu'il aura pu formuler par ailleurs. L'ACM, en revan che, permet en quelque sorte d'automatiser cette tape, sans qu'il soit ncessaire d'mettre la moindre hypothse pralable concernant les associations ventuelles entre les diffrentes variables. D'un point de vue technique, les donnes brutes apparaissent sous la forme d'un nuage de points dans un espace qui a autant de dimensions qu'il y a de variables introduites dans l'analyse. L'ACM cherche alors construire un nouvel espace sur lequel sont projets les points du nuage initial. Ce nouvel espace est conu de manire concentrer le maximum de l'information contenue dans les donnes initiales, partir d'un minimum de dimensions.

4. Cattell, R.-B., 1952. 5. Hirschi, T. & Selvin, H.-C, 1975. 276

Flicit des Ntumires Prenons comme exemple une cuisinire ayant sa disposition toutes sortes d'ingrdients qu'elle ne connat pas et partir desquels elle cherche confectionner un bon repas. Le chercheur est comme cette cuisinire, incapable de savoir quels sont les aliments qui vont s'accorder entre eux, ni d'imaginer la saveur finale du plat qu'elle proposera ses convives. Bien entendu, elle a la possibilit de chercher connatre le got des aliments en les testant un par un, puis deux deux, et si elle est un tant soit peu mthodique, on peut imaginer qu'elle finira par bien les connatre tous. Mais cette qute risque de lui prendre du temps (et de lui donner une bonne indigestion). Il va de soi qu'elle prfrerait pouvoir disposer de critres de classement, mme grossiers, qui lui permettraient de se faire une ide des grandes catgories d'aliments. L'analyse factorielle, ralise sur les caractristiques des denres, peut l'y aider : on imagine que celle-ci lui fournirait un espace de saveurs pour les deux premiers axes, opposant le sucr au sal, d'une part, et l'acide l'amer, d'autre part. Un autre axe opposerait le liquide au solide, un autre encore le gras au maigre et pourquoi pas, le cher au bon march, etc. En projetant ensuite le nom de chacun des ingrdients en variables supplmentaires sur l'espace cr, elle verrait apparatre des familles d'aliments, qu'elle aurait tout loisir ensuite de combiner et de cuire sa guise. Elle saurait, par exemple, qu'une pomme est plutt sucre, acide, solide, dpourvue de matires grasses, etc. Sur l'axe des prix, elle verrait sans doute s'opposer le caviar et la soupe en sachet... Les difficults que rencontre le sociologue sont comparables celles de notre cuisinire. Grce , il sera en mesure de visualiser la diversit de son chantillon, partir de classements automatiques, qui vont lui permettre de faire merger une structure cohrente. En projetant orthogonalement le nuage de points initial sur un espace deux dimensions (celles de sa feuille de papier), il obtiendra la meilleure approximation possible de ses donnes. Ce pendant, il est bien vident qu'il va perdre une partie de l'information initiale en projetant un espace multidimensionnel sur une simple surface, mme si cette surface a t construite pour en conserver le maximum. Et, sans doute, aura-t-il besoin d'examiner galement un ou deux axes supplmentaires, qui apparatront sur un second graphique, pour amliorer sa connaissance des donnes. Avant de s'intresser la lecture des graphiques, quelques remarques s'imposent. Tout d'abord, il faut toujours tre conscient que ACM est une technique fonde sur le tri plat et le tri crois 277

Histoire & Mesure, 1997, XII-3/4 simple (c'est--dire de profondeur 2). L'ACM repre les axes principaux partir de l'examen des carts l'indpendance dans le grand tableau rassemblant tous les tris croiss entre toutes les variables de l'analyse (tableau de Burt). D'une certaine manire, ACM nous renseigne automatiquement sur les croisements de variables qui sont les plus loigns de la situation d'indpendance, c'est--dire sur les liaisons statistiques les plus fortes qui existent dans le fichier de dpart. Nous ne sommes pas ici dans le domaine de l'analyse multi varie, mme si l'on manipule un grand nombre de variables. Seconde remarque, les variables dites actives , introduites dans l'analyse, qui vont servir la construction des axes, sont toutes traites par ACM sur le mme plan. On cherche, en effet, au cours de cette opration, reprer des associations mais pas de liaison d'ordre causal, ce qui implique qu'il n'y a pas de variable dpendante ou indpendante. Pour cette raison, il ne faut introduire que des variables situes sur un mme plan conceptuel (variables d'tat ou pratiques, mais pas les deux en mme temps). Dans le premier cas, on construit un espace de caractristiques et dans le second, un espace de pratiques, mais la construction d'un espace mixte poserait de srieux problmes d'interprtation. Ce n'est qu'une fois l'espace construit qu'il est possible d'ajouter des variables situes un autre niveau, par le biais de la projection des variables dites supplmentaires . Ces variables supplmentair es conforter l'interprtation des axes, vrifier qu'ils ont servent bien un sens. On dit souvent qu'il faut raliser l'analyse en prenant les pratiques comme variables actives et les caractristiques comme variables supplmentaires (avec comme sous-entendu que ces der nires vont expliquer les premires). Ceci n'est pas forcment indispensable, dans la mesure o la notion de causalit, encore une fois, est trangre l'esprit mme de . Que nous apprend la lecture des graphiques ? En premier lieu, on voit se dessiner un espace social structur par les variables qui ont le plus contribu sa construction. Par exemple, le premier axe opposera les jeunes aux moins jeunes et le second axe, les diplms aux sans diplme . Ou alors, si on a choisi de reprsenter un espace de pratiques, le premier axe opposera des pratiques ducatives visant dvelopper l'autonomie de l'enfant des pratiques plus traditionnelles davantage axes sur la surveillance et le contrle, etc. En second lieu, on verra apparatre des proximits entre certains des individus et certaines de leurs pratiques, (...), selon une logique 278

Flicit des Ntumires statistique et probabiliste, et non pas dterministe 6. En d'autres termes, il sera possible d'affirmer, au vu de la faible distance angulaire qui spare les points sur le graphique, que les mres, cherchant exercer une surveillance forte sur leurs enfants, ont plutt telle ou telle caractristique. Ou encore, que ce sont les jeunes sans diplme qui ont le plus tendance regarder Robocop 2 , quand ce film passe la tlvision. Mais rien ne permet de dire que c'est l'ge ou le niveau de diplme qui dtermine le choix des programmes tlviss, dans la mesure o on a seulement mis en vidence des cooccurrences et rien de plus.

3. Dcrire ou expliquer La rgression multiple apparat comme le moyen privilgi pour mettre en vidence des liaisons dterminantes entre variables. On dit d'ailleurs couramment partir des rsultats d'un modle que telle variable explique telle autre et on parle de variables explicati ves de variables expliques . En effet, la dmarche mise en et uvre est la seule qui satisfasse aux critres habituellement avancs en statistique de l'existence d'une relation causale, savoir que : 1) il existe une liaison statistique entre la variable A et la variable B, 2) A prcde dans l'ordre temporel, 3) la corrlation entre A et subsiste lorsque l'on contrle l'effet d'autres variables qui peuvent avoir un lien avec A ou B. Ceci est, en fait, trs proche de ce que Durkheim cherchait conceptualiser dans Les Rgles de la Mthode Sociologique. Aprs avoir affirm au chapitre V que la cause dterminante d'un fait social doit tre cherche parmi les faits sociaux antcdents (critre 2), il annonce au dbut du chapitre VI : Nous n'avons qu'un moyen de dmontrer qu'un phnomne est cause d'un autre, c'est de comparer les cas o ils sont simultanment prsents ou absents et de chercher si les variations qu'ils prsentent dans ces diffrentes combinaisons de circonstances tmoignent que l'un dpend de l'autre. (critres 3 et 1) 7.

6. Desrosires, A., 1995. 7. Durkheim, E., 1895, p. 124. 279

Histoire & Mesure, 1997, XII-3/4 Citons galement Lazarsfeld qui, avec F Analyse multivarie 8, pose les bases du raisonnement que permet de gnraliser la rgression multiple. Aprs avoir constat que les jeunes auditeurs s'intressaient moins aux programmes religieux la radio que les plus gs, il se demande si on peut y voir le signe d'un moindre attachement des jeunes aux valeurs religieuses . Mais, avant de conclure un effet de l'ge, il introduit, comme variable supplment airel'analyse, le niveau d'instruction. Celui-ci est fortement li dans l'intrt pour les programmes religieux et, en effectuant un contrle avec cette nouvelle variable, la relation prcdente disparat. C'est donc parce que les jeunes ont un niveau d'ducation plus lev que leurs ans, qu'ils coutent moins d'missions caractre religieux et non pas parce qu'ils sont jeunes. La tentative d'homogniser les groupes que l'on compare, par la prise en compte d'une variable-test, est tout fait dans l'esprit de la dmarche toutes choses gales par ailleurs . Il faut cependant nuancer un peu le propos et comprendre de quel type de cause il est ici question. Dire que le sexe explique le salaire, parce qu'on a russi mettre en vidence l'existence d'un effet propre du sexe sur le niveau de salaire, toutes choses gales par ailleurs , ne signifie pas qu'il existe une dtermination d'ordre fonctionnel entre le sexe et le salaire (au sens o sont lis la vitesse, la distance parcourue et le temps qu'il faut pour la parcourir). Nous sommes ici dans un schma probabiliste. Cela veut dire que le modle ne permettra jamais de connatre, prcisment et de manire absolue, la modalit prise par la variable dpendante pour un individu, mme si on connat toutes ses caractristiques. En revanche, il sera mme de nous donner la loi de probabilit qui rgira, pour cet individu, la variable que l'on a explique. Plus simplement, on ne pourra pas dire que tel individu qui a tel sexe, tel ge, tel niveau de diplme, telle origine sociale, telle profession, etc., va passer tant d'heures par semaine devant la tlvision. En effet, le modle nous rvlera que cet individu a telle probabilit de ne jamais la regarder, telle probabilit d'y consacrer une heure, deux heures, et ainsi de suite. La rgression a donc pour but d'expliquer la ralit. l'inverse, l'analyse factorielle, parce qu'elle ne traite que de liaisons entre variables prises 2 2, ne peut avoir d'ambition explicative. Elle est particulirement utile lors de la phase exploratoire et constitue l'outil privilgi de la description. Ce terme n'est en rien pjoratif, bien au

8. Lazarsfeld, P., 1966. 280

Flicit des Ntumires contraire, et il ne saurait tre question ici d'tablir une quelconque hirarchie entre les deux familles statistiques. En effet, lorsqu'avec l'aide d'une rgression on cherche annihiler l'effet de variables pour mettre en vidence un effet pur, on cre un univers factice, tout fait loign des configurations relles du monde social. Or, ce parasitage 9 est aussi un autre nom de la configuration historique, qui constitue (...) la seule ralit empirique, nous rappelle J.C. Passeron. En cherchant raisonner toutes choses gales par ailleurs , on dconstruit la ralit, et ce faisant, on s'interdit toute considration sur la composition des groupes sociaux. Plus encore, ce type de raisonnement peut conduire, si l'on n'y prend pas garde, des non-sens historiques , des interrogations absurdes, analogues celle du paradoxe de Simiand, c'est--dire cherchant comment vivrait un chameau, si restant chameau il tait transport dans les rgions polaires, et comment vivrait un renne, si restant renne, il tait transport dans le Sahara. Bref, on risque sans cesse d'oublier que les cooccurrences ne sont donnes dans la ralit qu'ainsi et pas autrement 10. Le travail du sociologue consiste justement les reprer et l'analyse factorielle est l pour l'y aider. Pour illustrer tout ceci, nous allons reprendre comme premier exemple la question des salaires fminins. Une ACM nous rvlera que les femmes occupent des emplois moins qualifis que les hommes, qu'elles sont plus souvent employes et moins souvent cadres, ..., et qu'elles ont en moyenne des salaires infrieurs ceux des hommes. Une rgression multiple tentera de savoir si, toutes choses gales par ailleurs , elles ont des rmunrations infrieures. On voit bien que l'on rpond ici deux questions diffrentes qui, notre sens, mritent toutes deux d'tre poses. Mais cet avis ne fait pas l'unanimit et le dbat reste ouvert. Pour certains, il convient de remarquer que les femmes n'occupent pas les mmes postes que les hommes, qu'elles n'obtiennent pas les mmes avancements, et donc qu'elles ne sont pas en mesure d'tre compares, toutes choses gales par ailleurs , aux hommes, employant mme l'expression, toutes choses ingales par ailleurs , pour bien montrer leurs doutes quant au reprage d'effet pur n.

9. L'effet des autres variables. 10. Passeron, J.-C, 1991. 11. Cahiers du MAGE, 1995. 281

Histoire & Mesure, 1997, XII-3/4 Second exemple tir d'une tude rcente sur la russite scolaire des enfants trangers en France 12. L encore, une analyse factorielle va mettre en vidence que les enfants trangers ou issus de l'immigration, appartiennent plutt des milieux sociaux dfavoriss et qu'ils ont de moins bons rsultats que leurs congnres franais. Mais, ds que l'on cherche contrler les autres caractristiques pouvant avoir de l'influence sur la russite scolaire (catgorie socio-professionnelle du pre, taille de la fratrie, statut de la mre vis--vis de l'activit professionnelle, ...), les rsultats s'inversent, et force est alors de constater que les enfants trangers connaissent une meilleure carrire au collge que leurs condisciples, toutes choses gales par ailleurs . Que conclure de tout ceci ? J.-C. Passeron nous dit qu' est sociologique tout raisonnement qui se tient sous la contrainte d'noncer ses gnralits en prenant appui sur des constats de base qui ne sont jamais comparables sous tous les rapports . Mais il ajoute galement que l'exigence qui engendre (le raisonnement toutes choses gales par ailleurs) constitue un des deux ples d'exigences entre lesquels se meut le raisonnement sociologique l'autre tant le ple historique . Il nous semble, en effet, que les questions auxquelles les deux mthodes permettent de rpondre sont plus complmentaires qu'antagonistes et que, une chose est de constater que les femmes occupent moins souvent que les hommes des postes levs hirarchiquement, qu'elles occupent moins souvent des postes de cadres etc., et une autre de se demander si, position gale, leurs salaires sont moins levs que ceux des hommes. Alain Desrosires 13 apporte un clairage tout fait original et intressant sur le sens donner ce dbat. Il remarque que dans les commentaires noncs autour des rsultats issus de la mise en uvre de l'une et l'autre mthodes, les sujets des verbes diffrent. Autour d'une ACM, les sujets des verbes sont des groupes sociaux, des classes d'individus, lis entre eux par une communaut probable de comportements, dans une perspective holiste de reconstitution de la globalit d'une personne, d'un groupe, ou d'une localit (Les lves trangers ont de moins bons rsultats...). En revanche, les mthodes fondes sur la rgression multiple appellent une interprtation partir de formes grammaticales centres sur le langage des variables (Le fait d'tre tranger conduit de meilleurs rsultats...). Ceci s'expli que, selon lui, si l'on considre le but ultime des tudes que l'on peut

12. Vallet, L.-A. & Caille, J.-P, 1995. 13. Desrosires, A., 1995. 282

Flicit des Ntumires raliser, avec l'aide de l'une et l'autre techniques. Les analyses fondes sur la modlisation, en reprant l'effet d'une variable sur une autre, donnent les moyens aux politiques d'agir sur tel ou tel phnomne par le biais de mesures spcifiques. Ainsi, si l'on constate qu'il y a discrimination salariale, l'tat peut promulguer une loi visant l'interdire {Cf. la loi de 1983 travail gal, salaire gal ) et veiller son application. l'inverse, une analyse ralise partir d'analyses factorielles, en dcrivant la ralit sociale, pourra dnonc er ingalits, mais sans tre mme de proposer des solutions les visant les rduire.

4. Un exemple : la prcarit professionnelle et le risque d'exclusion Afin de rendre plus claires et plus tangibles les diffrences entre les deux mthodes prsentes, nous allons examiner les rsultats que l'on obtient lorsque l'on applique l'une et l'autre aux mmes donnes. L'exemple que nous avons retenu ici est extrait d'un texte de Serge Paugam 14 dans lequel l'auteur cherche comprendre le processus qui mne l'exclusion. Dans cet article, la pauvret est considre comme un phnomne multidimensionnel. Au critre conomique bien videm ment pris en compte, s'ajoutent des facteurs de prcarit sociale , comme l'instabilit conjugale, la sociabilit rduite, l'absence de rseau d'aide prive, etc. Il s'agit, en effet, de tester l'hypothse couramment avance, du cumul des handicaps entranant les indivi dus vers la disqualification sociale. Mais il s'agit aussi d'analyser les liens entre ces diffrentes dimensions de la pauvret, de manire savoir si les difficults sur le march de l'emploi entretiennent un rapport de causalit avec des difficults dans les autres domaines de la vie sociale. Nous nous trouvons donc, ici, face deux questions fondamentalement diffrentes et dont le traitement ncessite de faire appel l'analyse factorielle, pour la premire, et aux mthodes de rgression, pour la seconde. Dfinition des variables et construction des indicateurs Les donnes utilises proviennent de l'enqute Situations dfavorises ralise en 1986-1987 par l'INSEE. Elle rassemble

14. Paugam, S., Zoyem, J.-P. & Charbonnel, J.-M., 1993. 283

Histoire & Mesure, 1997, XII-3/4 18 700 individus (parmi lesquels 7 000 environ ont t utiliss ici) et surreprsente les individus vivant dans des logements sans confort. Nous ne fournirons donc pas les tris plat qui n'ont que peu d'intrt, puisqu'ils refltent les choix d'chantillonnage et non la rpartition des individus en fonction de leurs caractristiques diverses. D'autre part, il convient de noter que les individus pris en compte ont tous un logement, ce qui limine du champ de l'enqute les plus pauvres des plus pauvres, savoir les sans domicile fixe . Avant de commencer le compte rendu de l'analyse proprement dite, nous prsentons rapidement les principales variables de l'en qute, ainsi que les indicateurs construits pour l'tude.

Tableau 1. Variables de l'enqute Variables Situation sur le march de l'emploi Modalits Emploi stable non menac Emploi stable menac Dfinitions Individus qui ont un emploi et qui considrent qu'ils ne risquent pas de le perdre au cours des deux annes venir Individus qui occupent le mme emploi depuis au moins un an, mais qui considrent qu'ils risquent de le perdre au cours des deux annes venir Individus qui occupent un emploi depuis moins d'un an et qui considrent qu'ils risquent de le perdre au cours des deux annes venir

Emploi instable

Chmage de moins de deux ans Chmage depuis deux ans ou plus Pauvret conomique Trs pauvre Pauvre Non pauvre Trajectoire conjugale Couple sans rupture Couple recompos Seul aprs rupture Ayant toujours vcu seul 284 Individus vivant dans un mnage dont le revenu par unit de consommation est infrieur 1 800 F. par mois Individus vivant dans un mnage dont le revenu par unit de consommation est compris entre 1 800 et 2 700 F. par mois

Flicit des Ntumires Indicateur de sociabilit Forte familiale (hors membres du mnage) Moyenne Faible Indicateur de rseau d'aide prive potentielle* Indicateur de la participation la vie associative Indicateur de pauvret relationnelle Support potentiel fort Moyen Faible Adhrent au moins une association Non adhrent Trs pauvre Pauvre Sociabilit familiale, supports relationnels faibles et absence de participation une association Sociabilit familiale, supports relationnels moyens, quelle que soit la participation la vie associative ou sociabilit familiale et supports relationnels faibles mais adhsion une association Sociabilit familiale et supports relationnels forts, quelle que soit la participation la vie associative Individus ayant rencontr plusieurs personnes de leur famille au cours des trois derniers mois Individus n'ayant rencontr qu'une ou deux personnes de leur famille au cours des trois derniers mois Individus n'ayant rencontr aucun membre de leur famille au cours des trois derniers moise

Non pauvre Problmes de jeunesse Pas de problme Problme familial Problme d'argent Problme familial et d'argent Trs bonne Mdiocre Mauvaise Homme Femme 18 24 25 29 30 34 35 49 50 64 ans ans ans ans ans

Sant

Sexe ge

285

Histoire & Mesure, 1997, XII-3/4 Nationalit du pre Franais Autre pays de la CEE Hors CEE Inconnue Aucun Un Deux Trois ou plus Commune rurale Moins de 100 000 habitants Plus de 100 000 habitants Banlieue parisienne Paris Log gratuitement Locataire HLM Locataire priv Propritaire Agriculteurs Art., com., chefs d'entreprise Cadres suprieurs Prof, intermdiaires Employs Ouvriers qualifis Ouvriers non qualifis Non dclar Aucun diplme CEP BEPC CAP-BEP BAC Etudes suprieures (hors banlieue parisienne) (hors banlieue parisienne)

Nombre d'enfants

Commune de rsidence

Statut d'occupation du logement Catgorie socio-professionelle

(ou accdant la proprit)

Diplme

* Nous ne dtaillons pas la construction de cet indicateur labor partir de questions portant sur l'existence de possibilits d'hbergement, d'aide financire, de services divers et de soutien moral. Les ingalits face au risque d'exclusion /5 La premire proccupation de l'auteur dans cet article est d'tablir quel point la prcarit professionnelle s'accompagne de tout un ensemble de difficults d'ordre conomique, familial ou relationnel, pouvant conduire les individus qui en sont victimes, dans une spirale de disqualification sociale. Les premiers rsultats tablis l'aide de simples tris croiss sont d'ores et dj trs parlants. En premier lieu, l'auteur tudie le lien

15. Nous reprenons ici un des titres de paragraphe de Serge Paugam. 286

Flicit des Ntumires entre la situation sur le march de l'emploi et la pauvret conomiq ue. Comme on le voit dans le tableau ci-dessous, ces deux variables sont fortement lies, mais elles ne sont pas compltement corrles : le chmage de longue dure n'est pas forcment synonyme de misre (tout dpend des revenus des autres membres du mnage) et la pauvret conomique accompagne aussi les situations d'emploi stable menac ou encore davantage d'emploi instable .

Tableau 2. Situation sur le march de l'emploi et pauvret conomique Pauvret conomique Emploi stable non menace Emploi stable menac Emploi instable Chmage < 2 ans Chmage > 2 ans Ensemble Pauvre Pauvre 5,6 12,4 19,4 26,6 40,2 11,8

73,4 94,4 59,8 80,6 87,6 88,2

En second lieu, il apparat nettement que plus les individus se trouvent dans une situation professionnelle difficile, plus leur sociab ilit familiale est faible. Tableau 3. Situation sur le march de l'emploi et sociabilit familiale Sociabilit familiale l;'^ / / Emploi stable non menac Emploi stable menac Emploi instable Chmage < 2 ans Chmage > 2 ans Ensemble Faible a 7,0 8,6 12,5 11,6 17,7 8,8 Moyenne a 48,7 53,7 52,8 58,6 55,7 51,5 Forte a 44,3 37,7 34,7 29,8 26,6 39,7

De mme, les possibilits d'avoir recours l'entourage (aide financire, de logement ou support affectif) s'amenuisent avec la dgradation de la situation professionnelle. 287

Histoire & Mesure, 1997, XII-3/4 Tableau 4. Situation sur le march de l'emploi et supports relationnels Supports relationnels Emploi stable non menac Emploi stable menac Emploi instable Chmage < 2 ans Chmage > 2 ans Ensemble Faibles 4,9 8,2 10,0 10,1 16,2 7,2 Moyens 27,7 36,5 34,3 32,8 37,2 31,6 Forts 67,4 55,3 55,7 57,1 46,6 61,2

Enfin, et nous nous arrterons l pour les tris croiss, tout en sachant bien qu'il serait possible d'en examiner d'autres, le tableau suivant confirme les liens entre prcarit professionnelle et retrait de la vie associative : Tableau 5. Situation sur le march de l'emploi et vie associative Participation la vie associative Emploi stable non menac Emploi stable menac Emploi instable Chmage < 2 ans Chmage > 2 ans Ensemble Absence de participation % 53,9 63,5 69,7 78,8 76,4 60,7 Participation % 46,1 36,5 30,3 21,2 23,6 39,3

Ces quelques rapides constats invitent considrer tous ces aspects en mme temps, de manire reprer diffrents types de population selon l'intensit du cumul de leurs handicaps , et chercher les caractriser l'aide de variables sociodmographiques. Pour cela, l'outil privilgi est bien videmment l'Analyse de Correspondances Multiples. Les variables actives utilises pour l'analyse sont toutes lies la pauvret (ou l'aisance ) au sens large, c'est--dire prenant en compte les dimensions professionnelle (situation sur le march de l'emploi), conomique (pauvret en termes de revenu, statut d'occu pation du logement), familiale (trajectoire conjugale, sociabilit 288

Flicit des Ntumires familiale) et relationnelle (rseau d'aide prive et participation la vie associative). D'autre part, ont t ajouts l'tat de sant et un indicateur de problmes de jeunesse. C'est donc l'espace de la prcarit qui se construit ici grce ACM et qui est structur par l'ensemble de ces variables. Pour mieux comprendre quelles sont les populations qui sont reprsentes ici et pour conforter la cohrence des axes, l'auteur a projet sur cet espace un certain nombre de variables supplmentaires (ou illustratives), savoir, le niveau d'tudes, la catgorie socio professionnelle, l'ge, et le nombre d'enfants. Examinons les rsultats de cette ACM partir du graphique reprsentant les deux premiers axes factoriels : L'axe 1 oppose les individus riches , aux individus se trouvant dans une situation de prcarit. En effet, la droite du graphique se trouvent surreprsentes : des personnes occupant des emplois de cadres suprieurs ou exerant des professions intermdiaires, des personnes ayant au moins le BAC, des personnes occupant un emploi stable non menac, des personnes vivant en couple sans avoir connu de rupture, des personnes ayant une sociabilit familiale forte, des personnes vivant dans une certaine aisance conomique, des personnes propritaires de leur logement, des personnes participant la vie associative, etc. A gauche, en revanche, sont rassembls les individus qui ont des difficults. Cet axe peut tre dfini comme l'axe de la participation la vie conomique et sociale . L'axe 2 se dfinit par une segmentation lie l'ge avec en bas du graphique : des jeunes, des individus en bonne sant, des individus en emploi instable, des individus qui n'ont pas connu de vie de couple, et dans la partie haute : des personnes plus ges, des chmeurs de longue dure, des personnes connaissant des problmes de sant, des individus vivant seuls aprs une rupture, etc. 289

Histoire & Mesure, 1997, XII-3/4

00 s

290

Flicit des Ntumires Attention, rappelons qu'avec ACM, nous sommes dans un contexte de tris croiss simples. Il serait donc abusif de parler pour le cadran sud-ouest du graphique de jeunes en phase d'insertion, vivant sans doute chez leurs parents, en attendant de stabiliser leur situation professionnelle et d'envisager une vie de couple actuellement imposs ible. C'est peut-tre vrai. Mais ne nous dit pas que les individus de cette zone prsentent la fois toutes ces caractristiques ; elle montre que les dtenteurs de chacune de ces modalits se trouvent probablement autour du point qui la reprsente. De la mme faon, il serait tentant d'affirmer que la droite du graphique regroupe les catgories les plus favorises ainsi que les classes moyennes, poss dant tout la fois des capitaux conomique, culturel et social importants ; et de terminer le commentaire en assurant que ce sont les membres du cadran nord-ouest qui sont les plus susceptibles de basculer du ct de l'exclusion la plus radicale, puisqu'ils connaissent une situation de pauvret extrme, la fois conomique et relation nelle, sans soutien familial, et puisque leur absence de diplme et leur ge relativement avanc, leur laissent peu d'espoir de retrouver un jour un emploi. Mais seule une procdure de classification automatique peut permettre d'avancer des conclusions de ce genre (ou un recours aux tris de profondeur 5 ou 6). Encore une fois, il est trs possible qu'elles soient vraies, mais il faut le vrifier. Notons cet effet que bien des logiciels permettent de projeter les individus sur le plan factoriel, ce qui permet de voir quel point ceux-ci forment ou non un groupe homogne autour des caractristiques que l'on envisage. La situation professionnelle face au risque d'exclusion L'ACM a permis d'identifier des faisceaux de corrlations dont l'existence pourrait laisser entendre que les difficults sur le march de l'emploi provoquent la mise en route d'un processus de disqualifica tion Toutefois, les tris croiss effectus en dbut d'analyse sociale. nous ont mis en garde contre des conclusions de cette sorte, un peu htives. Le type particulier de rgression multiple que constitue le modle LOGIT va nous aider sparer ce qui relve vritablement des difficults professionnelles de ce qui provient d'autres caractristiques. Il faut noter que l'analyse que l'on met ici en uvre est statique. En effet, les donnes utilises apportent des informations essentie llement la situation des individus au moment de l'enqute. On sait sur qu'aujourd'hui, tel individu chmeur a des liens distendus avec sa famille, mais on ne sait pas depuis quand ces liens sont distendus. En particulier, mme si des indications sont donnes quant l'anciennet de sa situation de chmeur, il n'y a aucun moyen de savoir si son 291

Histoire & Mesure, 1997, XII-3/4 loignement familial est intervenu avant ou aprs la perte de son emploi. De mme, on peut savoir qu'il a, dans le pass, connu une rupture conjugale, mais on ne sait pas si celle-ci a eu lieu avant ou aprs qu'il devienne chmeur. En consquence, il est impossible ici, en l'absence de vraies donnes longitudinales, permettant de saisir l'ordre temporel entre les vnements, de mettre en vidence des liens de causalit entre la situation professionnelle et l'absence ou l'intensit de tel ou tel lien social. En revanche, il est connu, d'aprs les rsultats de nombreuses tudes antrieures, que la sociabilit au sens large est diffrente, aussi bien en intensit que par les formes privilgies qu'elle emprunte (sociabilit familiale, amicale ou par le biais d'adhsion des associations), selon les classes sociales, les lieux de rsidence, l'ge, la taille de la famille, etc. Dans la mesure o la situation profession nellegalement lie ces mmes variables, il est tout fait est possible que les corrlations mises en vidence dans les tris croiss et ACM ne soient que le reflet d'un effet de structure. C'est ce que les modlisations effectues vont chercher tablir. Nous limiterons ici notre prsentation de l'tude de Serge Paugam, l'analyse de la sociabilit familiale. La question laquelle il est possible de rpondre est la suivante : une fois que l'on a pris en compte l'effet du sexe, de l'ge, de la nationalit du pre, de la commune d'habitation, de la catgorie socio-professionnelle, du diplme, du revenu, du nombre d'enfants, de la trajectoire conjugale, et de l'existence de problmes de jeunesse, subsiste-t-il des carts dans l'intensit de la sociabilit familiale, selon la situation professionnelle ? Si la rponse cette question s'avre ngative, alors cela signifiera que les carts observs en croisant la situation profession nelle la sociabilit familiale sont entirement imputables au fait avec que ces deux variables sont toutes deux dtermines par les mmes autres variables. En d'autres termes et, en citant Durkheim, on aura la preuve que la concomitance (observe) est due non ce qu'un des phnomnes est la cause de l'autre, mais ce qu'ils sont tous deux effets d'une mme cause 16 Si des carts subsistent, en revanche, on comprendra que les carts bruts (observs) ne sont pas imputables aux seules variables de contexte, mais que quelque chose en plus , qui a un rapport avec la situation professionnelle, entretient des liens avec la sociabilit

16. Durkheim, ., 1895. 292

Flicit des Ntumires familiale. Il peut s'agir d'une variable non prise en compte (car non mesurable, ou laquelle on n'a pas pens) qui : soit, dtermine la fois la situation professionnelle et la sociabilit, soit, est dtermine par la situation professionnelle et dter mine la sociabilit, soit, est dtermine par la sociabilit familiale et dtermine la situation professionnelle. Avant d'examiner les rsultats obtenus, prcisons rapidement les particularits de la rgression logistique (ou modle LOGIT) par rapport au schma gnral de la rgression que nous avons voqu dans la premire partie. Dans une modlisation logistique, la variable dpendante est une variable qualitative, qui comporte dans les cas les plus simples deux modalits, voire trois comme dans l'exemple tudi ici. Les variables explicatives sont le plus souvent galement qualitatives. Mettre en vidence l'effet d'une variable indpendante Xj sur la variable dpendante Y, revient alors regarder si la probabilit de prendre telle modalit de Y plutt que telle autre pour un individu, varie selon que cet individu a telle ou telle caractristi que variable Xj. On raisonne ainsi par rapport une situation pour la de rfrence, sorte d'individu-type dont les caractristiques sont repres en italique dans le tableau, et on regarde les variations de probabilit lorsque l'on s'carte de cette situation donne.

Tableau 6. Effet, toutes choses gales par ailleurs, des caractristiques sociodmo graphique s sur la sociabilit familiale*

Modalit de rfrence Sexe Homme ge 35 49 ans Nationalit du pre Franaise

Modalit active Femme 18 24 ans 25 29 ans 30 34 ans 50 64 ans CEE Hors CEE Inconnue

Coefficients 0,15 0,65 0,87 0,46 0,68 -0,49 -1,45 -1,22

Test statistique p < 0,003 p < 0,001 p < 0,001 p < 0,001 p < 0,001 p < 0,001 p < 0,001 p < 0,001 293

Histoire & Mesure, 1997, XII-3/4 Commune Paris Catgorie socio-professionelle Employs Commune rurale Commune < 100 000 Commune > 100 000 Agglom. parisienne Agriculteurs Artisans, Commerants, Chefs d'entreprise Cadres suprieurs Prof, intermdiaires Ouvriers qualifis Ouvriers non qualifis Non dclar Aucun diplme CEP BEPC AP/BEP tudes suprieures Emploi stable menac Emploi instable Chmage < 2 ans Chmage > 2 ans < 1800 F 1 800 F < 2 700 F 2 700 F < 5 100 F Sans enfant 1 enfant 3 enfants et plus Couple recompos Seul aprs rupture Toujours vcu seul Problme familial Problme d'argent Prob. fam. et d'argent 0,40 0,44 0,31 0,03 0,00 0.27 0,27 0,20 0,09 -0,24 -0,08 -0,24 -0,25 -0,01 -0,05 0,02 -0,06 -0,31 -0,36 -0,35 -0,02 0,04 0,03 0,62 0,08 -0,30 0,10 -0,27 -1,38 -0,55 -0,15 -0,55 p < 0,001 p < 0,001 p < 0,003 n.s. n.s. p < 0,01 p < 0,01 p<0,01 n.s. p < 0,005 n.s. p < 0,01 p < 0,01 n.s. n.s. n.s. n.s. p< 0,001 p < 0,001 p < 0,002 n.s. n.s. n.s. p< 0,001 n.s. p< 0,001 n.s. p < 0,001 p< 0,001 p< 0,001 p < 0,006 p< 0,001

Diplme Baccalaurat

Situation par rapport l'emploi Emploi stable Revenu par u.c. < 5 100 F Taille du mnage 2 enfants Trajectoire conjugale Couple sans rupture Problmes de jeunesse Pas de problme

* Variable hirarchise comportant trois modalits (sociabilit forte ; sociabilit moyenne ; socia bilit faible). Le coefficient estim pour les individus dfinis par la modalit active indique l'intensit de leur sociabilit familiale par rapport aux individus dfinis par la modalit de rfrence. N = 7517. Source : Enqute INSEE Situations dfavorises 1986-1987. Champ : Ensemble des actifs de 18 64 ans (Paugam, S., 1994 ; Paugam, S. & alii, 1993). De cette manire, on constate, en premier lieu, que la sociabilit familiale est lie au sexe : les femmes rencontrent plus de membres de leur famille, toutes choses gales par ailleurs , que les hommes. En effet, le coefficient associ la modalit femme est positif (il vaut 0,15) et il est significativement diffrent de 0 (la probabilit que sa non nullit soit due au hasard de l'chantillonnage est infrieure 0,003, ce qui est trs peu). 294

Flicit des Ntumires On voit ensuite que le fait d'appartenir la classe d'ge 18-24 ans, augmente la probabilit d'avoir une sociabilit familiale import ante, par rapport aux individus de la modalit de rfrence, c'est-dire ceux qui ont entre 35 et 49 ans (coefficient gal 0,65, donc positif et significativement diffrent de 0 car la probabilit qu'il soit nul est infrieure 0,001). Et cela est vrai pour toutes les autres classes d'ge considres, ce qui signifie que la tranche d'ge 35-49 ans est celle pendant laquelle on est le moins susceptible d'avoir des contacts familiaux (en-dehors du mnage). Le lieu de rsidence joue galement un rle. Les individus vivant en province ont une sociabilit plus forte que les Parisiens, autres caractristiques contrles. En revanche, le coefficient associ la modalit Agglomration parisienne (en fait la banlieue pari sienne) est certes positif, mais non significativement diffrent de 0. Ainsi, le fait de rsider en banlieue parisienne n'induit pas de comportement diffrent de celui des Parisiens. Sans passer en revue toutes les variables, notons que le revenu en soi n'a pas d'influence sur la sociabilit familiale, qu'en revanche celle-ci est plus forte pour un individu vivant en couple (recompos ou non) que pour un individu seul, alors qu'elle diminue en intensit avec le nombre d'enfants. Enfin, le fait d'avoir eu des problmes dans sa jeunesse conduit une attitude d'loignement vis--vis de la famille. Notons que cette dernire variable est une des rares (avec les variables d'tat) pour laquelle il est possible de tenir un discours en termes de causalit, puisque les problmes ventuels ont eu lieu dans la jeunesse, donc avant que ne se pose pour l'individu la question de la sociabilit familiale. Enfin, on remarque que certains des coefficients associs la variable Situation par rapport l'emploi sont significativement diffrents de 0. Ainsi donc, nous avons l, la rponse notre question, : il y a effectivement un lien entre situation professionnelle et sociabilit familiale, qu'on ne peut imputer exclusivement l'effet de structure. Pour connatre la nature exacte de ce lien, il faudrait disposer de donnes supplmentaires. L'hypothse que l'on peut formuler est bien videmment que le fait de perdre un emploi, et plus encore de ne pas parvenir en retrouver, provoque un repli des individus sur eux-mmes, ce qui leur fait abandonner toute vellit de contact, mme avec leur propre famille. Pour valider cette hypothse, il faudrait pouvoir prouver qu'avant de perdre leur emploi, les individus avaient une sociabilit familiale importante et que, depuis qu'ils sont au chmage, les contacts familiaux se sont rarfis, voire 295

Histoire & Mesure, 1997, XII-3/4 ont disparu. Certes, on sait que les individus qui ont un emploi ont une sociabilit forte en moyenne, mais cela ne prouve rien, dans la mesure o il ne s'agit pas des mmes individus. En poussant le raisonnement jusqu'au bout de sa logique, on pourrait imaginer un scnario inverse, o des individus acaritres seraient compltement spars de leur famille qui ne supporterait plus leur mauvaise humeur permanente et, dans le mme temps, inemployables car incapables de s'entendre avec leurs collgues. Bien sr, cette hypothse est absurde et selon toute vraisemblance la premire thse est la bonne, comme d'autres travaux qualitatifs l'ont suggr. Mais, du point de vue logique, elle ne peut tre limine. S. Paugam a, dans la mme tude, envisag les liens de la situation par rapport l'emploi avec la rupture conjugale. Comme on ne sait pas qui, de la rupture ou de la perte d'emploi, est intervenue en premier, on ne peut pas interprter la liaison en terme de causalit. Il est tout aussi plausible d'imaginer qu'un individu fragilis par son divorce ne soit plus aussi efficace professionnellement que par le pass, et donc se retrouve dans la vague de licenciement de son entreprise, que l'inverse, savoir que la situation de chmage de l'individu finisse par provoquer une msentente conjugale qui se solde par une sparation. Non seulement les deux hypothses sont plausibles, mais selon toute vraisemblance, elles sont toutes les deux vraies. On est alors en face de processus interdpendants, l'un ayant une influence sur l'autre et inversement. Rechercher le sens de la causalit perd alors toute signification. L'utilisation des mthodes de rgression en sciences sociales ractive, nous esprons l'avoir montr, la rflexion sur les liens entre les phnomnes, les relations de dpendance entre variables et plus gnralement la causalit. Il est trs difficile d'chapper au vocabul aire causal ds lors que l'on cherche mettre en uvre ce type de techniques, vraisemblablement parce que les sujets des verbes sont des variables et non des groupes sociaux. Mais l'utilisation peu scrupuleuse de l'analyse factorielle peut conduire au mme type de drive si l'on n'y prend pas garde. Si l'une et l'autre de ces techniques sont des outils d'une grande puissance pour l'analyse des faits sociaux, elles peuvent galement se rvler extrmement dan gereuses, lorsqu'elles sont utilises sans prcaution. C'est pourquoi, nous avons voulu avant tout insister sur ce qu'on ne peut pas dire, sur les tentations d'interprtations abusives et appeler les futurs utilisa teurs beaucoup d'humilit dans leurs dmonstrations, tout en leur souhaitant de ne pas se laisser envoter par la magie des logiciels. 296

Flicit des Ntumires Tableau rcapitulatif Analyse factorielle But recherch Description Apprhender l'information pertinente contenue dans les donnes de dpart, par le classement automatique Statut des variables lments servant de base l'interprtation des rsultats Sujets des verbes dans l'interprtation Toutes les variables sont sur le mme plan conceptuel Juxtaposition ou proximit entre les caractristiques de groupes sociaux et leurs pratiques Groupes sociaux Rgression multiple Explication (au sens statistique) des fins d'action Construction de modles explicatifs Distinction entre les variables explicatives (exognes) et les variables expliquer (endognes) Liaison causale entre facteurs et effets Variables

BIBLIOGRAPHIE Cahiers du MAGE, Salaires : Toutes choses ingales par ailleurs ? , Temps partiels, Salaires ingaux,, n 2, 1995, pp. 3-37. Cattell, Raymond ., Factor Analysis, New York, Harper, 1952, 21 p. Cibois, Phillippe, L'analyse des donnes en sociologie, PUF, Le Sociologue, Paris 1984, 220 p. (pour une description complte de la mthode factorielle et de sa mise en uvre). Desrosires, Alain, Classer et mesurer : les deux faces de l'argument statistique , Rseaux, n 71, mai-juin 1995, pp. 11-29. Durkheim, Emile, Les rgles de la mthode sociologique, 1895, (rd. Paris, PUF, 1937), 149 p. HlRSCHI, Travis, SELVIN, Hanan C, Recherches en dlinquances. Principes de l'analyse quantitative, Paris, (dition franaise) Mouton, 1975, 294 p. Lazarsfeld, Paul, L'interprtation des relations statistiques comme procdure de recherches , in R. Boudon & P. Lazarsfeld (ds.) L'analyse empirique de la causalit, Paris, Mouton, 1966, pp. 19-27. PASSERON Jean-Claude, Ce que dit un tableau et ce qu'on en dit , Le raisonnement sociologique, Nathan, 1991, pp. 111-133. Paugam, Serge, L'espace de la prcarit. lments pour une analyse des ingalits face au risque d'exclusion , Prsentation au Sminaire de Stratification Sociale, CRESTINSEE, 19 dcembre 1994, 33 p. Paugam, Serge, Zoyem, Jean-Paul & Charbonnel, Jean-Michel, Prcarit et risque n 109, Paris, France, Document du Centre d'tude des d'exclusion enLa Documentation Franaise, 1993, 169 p. Revenus et des Cots, Popper Karl, The logic of scientific discovery, New York, Basic Books, 1959, 480 p. Vallet, Louis-Andr & Caille, Jean-Paul, Les carrires scolaires au collge des lves trangers ou issus de l'immigration , ducation et Formations, n 40, 1995, pp. 5-14. 297