Cours (1e Partie)

Statistiques - Cours
Page 1
LICENCE Scientifique
Cours Henri IMMEDIATO
Statistiques
1. Gnralits. 2. Statistique descriptive univarie.
2.1. Reprsentation graphique. 2.2. Paramtres caractristiques. 2.2.1 Paramtres de position 2.2.2 Paramtres de dispersion 2.2.3 Paramtres de forme
3. Statistique descriptive bivarie.

3.1. Dfinitions. 3.2. Reprsentation graphique. 3.3. Caractristiques marginales et conditionnelles. 3.4. Rgression et corrlation. 3.4.1 Rgression et corrlation. 3.4.2 Mthode des moindres carrs.
4. Rgression orthogonale dans R.

4.1. Notion d'espace vectoriel euclidien. 4.1.1. Espace vectoriel R n. 4.1.2. Produit scalaire dans R n. 4.2. Approche euclidienne de la rgression. 4.3. Rgression orthogonale. Axe principal. 4.3.1. Introduction. 4.3.2. Dfinitions. 4.3.3. Diagonalisation de la matrice des variances-covariances. 4.3.4. Recherche des axes principaux. 4.3.5. Coordonnes factorielles et composantes principales. 4.3.6. Proprits des composantes principales.
5. Rgression multiple.
5.1. Position et rsolution du problme. 5.2. Coefficient de corrlation multiple. 5.2.1 Dfinition. 5.2.2 Proprits. 5.2.3 Application : technique de la rgression pas pas.
6. Initiation la thorie des sondages.

6.1. Gnralits. 6.2. Divers types de sondages. 6.3. Estimation des paramtres. 6.4. Etude du sondage lmentaire.
Cours de Statistique - Chapitre 1
Page 1
LICENCE Scientifique
Cours Henri IMMEDIATO
STATISTIQUE Chapitre I - GENERALITES.

I. 1. OBJET DE LA STATISTIQUE
Le but de la statistique est de dgager les significations de donnes, numriques ou non, obtenues au cours de l'tude d'un phnomne. Il faut distinguer les donnes statistiques qui sont les rsultats d'observations recueillies lors de l'tude d'un phnomne, et la mthode statistique qui a pour objet l'tude rationnelle des donnes. La mthode statistique comporte plusieurs tapes.
I. 1. 1. La statistique descriptive ou dductive.

C'est l'ensemble des mthodes partir desquelles on recueille, ordonne, rduit, et condense les donnes. A cette fin, la statistique descriptive utilise des paramtres, ou synthtiseurs, des graphiques et des mthodes dites d'analyse des donnes (l'ordinateur a facilit le dveloppement de ces mthodes).
I. 1. 2. La statistique mathmatique ou inductive

C'est l'ensemble des mthodes qui permettent de faire des prvisions, des interpolations sur une population partir des rsultats recueillis sur un chantillon. Nous utilisons des raisonnements inductifs c'est--dire des raisonnements de passage du particulier au gnral. Cette statistique utilise des repres de rfrence qui sont les modles thoriques (lois de probabilits). Cette statistique ncessite la recherche d'chantillons qui reprsentent le mieux possible la diversit de la population entire ; il est ncessaire qu'ils soient constitus au hasard ; on dit qu'ils rsultent d'un tirage non exhaustif. L'tude sur chantillon se justifie pour rduire le cot lev et limiter la destruction d'individus pour obtenir la rponse statistique.
I. 2. VOCABULAIRE STATISTIQUE
I. 2. 1. Population
C'est l'ensemble des units ou individus sur lequel on effectue une analyse statistique. ? = {? 1, ... , ? N} avec card(? ) = N fini Ce vocabulaire est hrit du 1er champ d'application de la statistique : la dmographie (Vauban (1633-1707) effectua des recensements pour des tudes conomiques et militaires).
Cours de Statistique - Chapitre 1 Exemples de populations. Les vhicules automobiles immatriculs en France La population des P.M.E. d'un pays Les salaris d'une entreprise Les habitants d'un quartier
Page 2
I. 2. 2. Echantillon
C'est un ensemble d'individus prlevs dans une population dtermine Exemple d'chantillon. L'chantillon des vhicules automobiles immatriculs dans un dpartement.
I. 2. 3. Caractre
C'est un trait dtermin C prsent chez tous les individus d'une population sur laquelle on effectue une tude statistique. - Un caractre est dit quantitatif s'il est mesurable. Exemples de caractres quantitatifs. La puissance fiscale d'un vhicule automobile. Le chiffre d'affaire d'une P.M.E. L'ge, le salaire des salaris d'une entreprise. - Un caractre est dit qualitatif s'il est reprable sans tre mesurable. Exemples de caractres qualitatifs. La couleur de la carrosserie d'un vhicule automobile Le lieu de travail des habitants d'un quartier Le sexe et la situation matrimoniale des salaris d'une entreprise
I. 2. 4. Modalits
Ce sont les diffrentes situations Mi possibles du caractre. Les modalits d'un caractre doivent tre incompatibles et exhaustives ; tout individu doit prsenter une et une seule modalit. Les modalits d'un caractre qualitatif sont les diffrentes rubriques d'une nomenclature ; celles d'un caractre quantitatif sont les mesures de ce caractre. L'ensemble des modalits est not E. Pour un caractre quantitatif, la mesure du caractre peut tre un nombre entier pris parmi un ensemble limit ; nous dirons qu'il est discret. Exemple de caractre quantitatif discret. Le nombre d'enfants d'une famille (fratrie)
Cours de Statistique - Chapitre 1
Page 3
Dans certains cas la mesure du caractre peut tre un nombre dcimal pris parmi un ensemble de valeurs possibles trs important (plusieurs dizaines ou plusieurs centaines). Pour permettre une tude et notamment une reprsentation graphique plus simple, nous sommes conduits effectuer un regroupement en classes (5 20 classes) ; nous dirons alors que le caractre est continu. Dans ces deux situations, nous dirons que le caractre quantitatif est dfini par ses modalits (valeurs discrtes ou classes). Les modalits d'un caractre quantitatif peuvent tre prises dans Exemples d'ensembles de modalits. Nombre d'enfants dans une fratrie : {Mi} = {xi}={0, 1, 2, 3, ...}, Mi ? . L'ge, la taille et le poids d'un groupe d'individus reprsentent globalement une modalit dfinie dans 3 ( condition que chacune de ces variables soit discrte) L'ensemble des modalits d'un caractre peut tre tabli priori avant l'enqute (une liste, une nomenclature, un code) ou aprs enqute. On constitue l'ensemble des valeurs prises par le caractre. Les caractres tudis sur une population peuvent tre mixtes : Exemple de caractre mixte. L'ensemble des salaris d'une entreprise peut tre reprsent par un caractre mixte que nous pourrons exploiter globalement ou plus efficacement en extrayant une partie des donnes. Le sexe, de modalits : H ou F (cod par 1 ou 2) L'ge, de modalits : 18, 19, 20, ... ou [16, 20], [21, 25], ... Le salaire mensuel, de modalits : 6000, 6500, 7000, ... ou [6000, 6500[, [6500, 7500[, ... La situation matrimoniale, de modalits : mari, clibataire, veuf, divorc, vivant maritalement. ou
n
I. 3. NOTION DE DISTRIBUTION STATISTIQUE

Considrons une population ? = {? 1, ... , ? N}. Dans cette population, considrons un caractre C et soit E l'ensemble des modalits du caractre C, card (E) = p. On note Ai l'ensemble des individus de ? prsentant la modalit Mi du caractre C, i = 1, ... , p. Les Ai forment une partition de ? : Ai ? Aj = pour i ? j, et Nous dfinissons ni = card (Ai). ni est l'effectif de la modalit Mi. On appelle variable statistique toute application X de ? dans E qui, chaque individu ? de la population, associe une modalit Mi du caractre C. L'effectif ni d'une modalit Mi est le cardinal de l'image rciproque Ai de Mi par X : Ai = ? .
Cours de Statistique - Chapitre 1 ni = card (Ai) = Card (X 1 (Mi)) Une variable statistique s'identifie l'ensemble des triplets {(Mi, Ai, ni)}, i ? [ 1, p ].
Page 4
En pratique, le statisticien se contente souvent de l'ensemble des doublets {(Mi, ni)}, i ? [ 1, p ], sans se proccuper de savoir qui sont les ni individus de la population prsentant la modalit Mi du caractre C et constituant l'ensemble Ai. On appelle aussi distribution statistique l'ensemble des doublets {(Mi, ni)}, i ? [ 1, p ]. Exemples de variables statistiques. Le nombre d'enfants d'une fratrie : x1 = 0, n1 = 50 ; x2 = 1, n2 = 70 ; x3 = 2, n3 = 20. La taille d'une population : M1 = [ 150, 160 [, n1 = 50 ; M2 = [ 160, 175 [, n2 = 100. Les marques de vhicules automobiles : M1 = "Renault", n1 = 15 000 ; M2 = "Citron", n2 = 10 000 La frquence de la modalit Mi est, par dfinition : f (Ai) = = fi, N = ni.
La notion d'effectif d'une modalit est une notion absolue, elle ne permet pas directement les comparaisons. La notion de frquence est une notion relative, elle permet directement les comparaisons. Remarque. Si le caractre C ne prsente qu'une modalit a dans la population, on parle de variable, ou de distribution, statistique constante {(a, ? , N)}.
Cours de Statistique - Chapitre 2 - Reprsentation graphique
Page 5
Chapitre II - ANALYSE UNIVARIEE.

(Statistique descriptive un caractre)
II. 1. REPRESENTATION GRAPHIQUE

La reprsentation graphique des donnes relatives un caractre unique repose sur la proportionnalit des longueurs, ou des aires, des graphiques, aux effectifs, ou aux frquences, des diffrentes modalits du caractre.
II. 1. 1. Caractre qualitatif.

Pour un caractre qualitatif, on utilise principalement trois types de reprsentation graphique : le diagramme en btons, la reprsentation par tuyaux d'orgue et la reprsentation par secteurs. Lorsque le caractre tudi est la rpartition gographique d'une population, la reprsentation graphique est un cartogramme.
a) Diagramme en btons.
Nous portons en abscisse les modalits, de faon arbitraire. Nous portons en ordonne des segments dont la longueur est proportionnelle aux effectifs (ou aux frquences) de chaque modalit. Nous appelons polygone statistique, ou diagramme polygonal, la ligne obtenue en joignant les sommets des btons.
b) Tuyaux d'orgue.
Nous portons en abscisses les modalits, de faon arbitraire. Nous portons en ordonnes des rectangles dont la longueur est proportionnelle aux effectifs, ou aux frquences, de chaque modalit.
c) Secteurs.
Les diagrammes circulaires, ou semi-circulaires, consistent partager un disque ou un demi-disque, en tranches, ou secteurs, correspondant aux modalits observes et dont la surface est proportionnelle l'effectif, ou la frquence, de la modalit. Ces diagrammes conviennent trs bien pour des donnes politiques ou socio-conomiques.
d) Exemple.
En 1982, les recettes du budget de l'Etat se prsentaient de la faon suivante (en milliards de francs) :
Le caractre tudi, la nature des recettes du budget de l'Etat, est un caractre qualitatif.
Page 6
Dans la reprsentation en tuyaux d'orgue, les diffrentes modalits du caractre (les diverses sources de recettes du budget de l'Etat) sont reprsentes par des segments sur l'axe des ordonnes. Pour chaque abscisse on porte un rectangle dont la longueur est proportionnelle au montant correspondant de la recette (effectif).
Dans la reprsentation par diagramme en btons, les diffrentes modalits du caractre (les diverses sources de recettes du budget de l'Etat) sont reprsentes par des points sur l'axe des ordonnes. Pour chaque abscisse, on porte un segment vertical dont la longueur est proportionnelle au montant correspondant de la recette (rectangle de largeur nulle). Dans le diagramme circulaire, chaque secteur a une surface proportionnelle l'importance de la recette dans le budget. L'angle au centre reprsentant une modalit est donc proportionnelle l'importance de la recette dans le budget.
Page 7
e) Cartogrammes.
Un cartogramme est une carte gographique dont les secteurs gographiques sont coloris avec une couleur diffrente suivant l'effectif ou suivant la frquence du caractre tudi.
II. 1. 2. Caractre quantitatif.

La variable statistique est la mesure du caractre. Celle-ci peut tre discrte ou continue. Il existe deux types de reprsentation graphique d'une distribution statistique caractre quantitatif : Le diagramme diffrentiel correspond une reprsentation des effectifs ou des frquences. Le diagramme intgral correspond une reprsentation des effectifs cumuls, ou des frquences cumules.
a) Variable statistique discrte.

Diagramme diffrentiel : diagramme en btons, des effectifs ou des frquences. La diffrence avec le cas qualitatif consiste en ce que les abscisses ici sont les valeurs de la variable statistique. Diagramme intgral : courbe en escaliers des effectifs cumuls ou des frquences cumules.
Page 8
Exemple.
En vue d'tablir rationnellement le nombre de postes de travail ncessaires pour assurer sa clientle un service satisfaisant, une agence de voyage a fait relever, minute par minute, le nombre d'appels tlphoniques reus au cours d'une priode de 30 jours. Cette opration a fourni, pour la tranche horaire de pointe qui se situe entre onze heures et midi, les rsultats suivants :
La population tudie est celle des 1 800 minutes composant la dure totale des appels dans la tranche horaire de onze heures midi pendant 30 jours. Le caractre observ est le nombre d'appels tlphoniques : c'est un caractre quantitatif et la variable statistique correspondante, qui ne peut prendre que des valeurs entires, est discrte. La reprsentation des effectifs est identique celle des frquences : seule change l'chelle verticale. La reprsentation graphique diffrentielle correcte est le diagramme en btons. A chaque valeur xi de la variable, porte en abscisse, on fait correspondre un segment vertical de longueur proportionnelle la frquence fi de cette valeur. Le regroupement des valeurs extrmes de la variable en une seule classe (nombre d'appels suprieur ou gal 8) interdit normalement la reprsentation graphique de ce dernier segment. Mais, tant donne la frquence quasi ngligeable de cette classe, l'inconvnient n'est pas bien grand et l'on pourra reprsenter par un segment l'abscisse 8, la frquence des appels de dure 8 ou plus.
Page 9
La reprsentation graphique intgrale correcte est la courbe en escalier : les frquences des diverses valeurs de la variable statistique correspondent aux hauteurs des marches de la courbe en escalier.
b) Variable statistique continue.

Les observations sont regroupes en classes. Chaque classe possde une certaine amplitude, qui est la longueur de l'intervalle dfinissant la classe. Le rapport entre l'effectif d'une classe et son amplitude s'appelle la densit d'effectif. Le rapport entre la frquence d'une classe et son amplitude s'appelle la densit de frquence. Diagramme diffrentiel : histogramme des densits. Nous portons en abscisse les classes reprsentant les modalits et en ordonnes des rectangles dont la longueur est proportionnelle la densit d'effectif ou la densit de frquence. L'aire d'un rectangle de cet histogramme est alors proportionnelle l'effectif ou la frquence de la classe.
Cours de Statistique - Chapitre 2 - Reprsentation graphique Diagramme intgral : courbe cumulative des effectifs ou des frquences. La courbe cumulative des frquences doit reprsenter la fonction de rpartition de la variable statistique.
Page 10
Exemple.
La Fdration nationale de la rparation et du commerce de l'automobile a effectu une enqute auprs de ses adhrents visant mieux connatre la structure de ce secteur. Cette opration a fourni la rpartition suivante des entreprises de la rparation de du commerce de l'automobile selon leur chiffre d'affaires annuel. La masse de chiffres d'affaires correspondant aux entreprises de la premire et de la dernire classes s'lve respectivement 1 714 et 110 145 millions de francs.
La population tudie est celle des entreprises de la rparation et du commerce de l'automobile. Le caractre observ est le chiffre d'affaires. C'est un caractre quantitatif et la variable statistique correspondante est continue. La reprsentation graphique diffrentielle correcte est l'histogramme des densits de frquences. Pour la premire et la dernire classes, l'amplitude de la classe n'est pas connue. On dtermine alors la moyenne de la classe, qu'on considre comme la valeur centrale de la classe (quand on construit un histogramme, on fait l'hypothse implicite que les effectifs sont rpartis uniformment l'intrieur de la classe, la moyenne de la classe est alors le centre de la classe). Pour la premire classe, la moyenne du chiffre d'affaires est = 0,125, de sorte que la premire classe est la classe [ 0,00 , 0,25 [. Pour la dernire classe, la moyenne du chiffre d'affaires est classe est la classe [ 10,00 , 60,00 [. = 35, de sorte que la dernire
La reprsentation graphique intgrale correcte est la courbe cumulative des frquences. Pour que chaque point exprimental reprsente la fonction de rpartition, il faut prendre pour abscisses les limites suprieures des classes et, pour ordonnes, les frquences cumules correspondantes.
Page 11
Comme la variable statistique est continue, on tracera une courbe cumulative continue, et non une courbe en escalier, de faon qu' une valeur de frquence cumule corresponde une et une seule valeur de variable. Entre deux points exprimentaux, on trace un segment de droite reprsentant l'interpolation linaire, ou bien une courbe lisse, asymptotiquement tangente l'horizontale d'ordonne 100.
Cours de Statistique - Chapitre 2 - Paramtres caractristiques
Page 12
II. 2. PARAMETRES CARACTERISTIQUES

Le but de l'tude statistique est aussi de rsumer des donnes par des paramtres ou synthtiseurs. Il existe 3 types de paramtres : paramtres de position (ou de tendance centrale) paramtres de dispersion paramtres de forme (asymtrie, aplatissement, concentration)
II. 2. 1. Paramtres de position

Les paramtres de position (mode, mdiane, moyenne) permettent de savoir autour de quelles valeurs se situent les valeurs d'une variable statistique.
II. 2. 1. 1. Le mode
Le mode, not Mo, est la modalit qui admet la plus grande frquence : f (Mo) = Max (fi) ; i [ 1, p ] Il est parfaitement dfini pour une variable qualitative ou une variable quantitative discrte. Pour une variable quantitative continue nous parlons de classe modale : c'est la classe dont la densit de frquence est maximum. Si les classes ont mme amplitude la densit est remplace par l'effectif ou la frquence et nous retrouvons la dfinition prcdente. Nous dfinissons le mode, pour une variable quantitative continue, en tenant compte des densits de frquence des 2 classes adjacentes par la mthode suivante.
La classe modale [ xi, xi + 1 [ tant dtermine, le mode Mo vrifie : = Dans une proportion, on ne change pas la valeur du rapport en additionnant les numrateurs et en additionnant les dnominateurs : = =
Mo = xi +
(xi + 1 xi).
Page 13
Remarques.
Lorsque les classes adjacentes la classe modale ont des densits de frquences gales, le mode concide avec le centre de la classe modale. Le mode dpend beaucoup de la rpartition en classes. Une variable statistique peut prsenter plusieurs modes locaux : on dit alors qu'elle est plurimodale. Cette situation est intressante : elle met en vidence l'existence de plusieurs sous-populations, donc l'htrognit de la population tudie.
II. 2. 1. 2. La mdiane
La mdiane Me est telle que l'effectif des observations dont les modalits sont infrieures Me est gal l'effectif des observations dont les modalits sont suprieures Me. Cette dfinition n'a de sens que si les modalits sont toutes ordonnes. Dans le cas d'une variable qualitative il est parfois possible de choisir un ordre. Exemple : niveau d'tudes scolaires : cole primaire < 1er cycle < CAP < BEP < Bac < BTS < DEUG < .... Une variable quantitative X doit tre dfinie dans .
Dtermination pratique de la mdiane.

Cas d'une variable discrte. Reprenons l'exemple de II.1.2.a de variable discrte (appels tlphoniques). La frquence cumule est 42,8 % pour x = 2, et 64,6 % pour x = 3. L'intervalle [ 2, 3 [ est appel intervalle mdian. Dans l'intervalle mdian, la mdiane est calcule par interpolation linaire.
Cas d'une variable continue : Reprenons l'exemple de II.1.2.b de variable continue (entreprises automobiles). La frquence cumule est 36,1 % pour x = 0,50, et 52,7 % pour x = 1,00. L'intervalle [0,50, 1,00 [ est l'intervalle mdian. Dans l'intervalle mdian, la mdiane est calcule par interpolation linaire.
Page 14
Remarques
La mdiane ne dpend que de l'ordre des modalits , elle n'est donc pas influence par les observations aberrantes. La mdiane partage l'histogramme des frquences en 2 parties d'aires gales.
II. 2. 1. 3. La moyenne
La moyenne ne se dfinit que pour une variable statistique quantitative. , la moyenne est la moyenne
Pour une variable statistique discrte {(xi, ni)}1 i p valeurs dans arithmtique des modalits pondres par les effectifs : = ni xi = X (), avec N =
ni.
q
Pour une variable statistique discrte {((xij)1 j q, ni)}1 i p valeurs dans encore la moyenne arithmtique des modalits dans
q
, la moyenne
est
, pondres par les effectifs :
ni
est le "point moyen" qui rsume le nuage de points de q. Il caractrise un individu moyen reprsentatif du nuage de donnes.
Exemple.
L'tude de 21 familles a conduit la distribution suivante suivante le nombre d'enfants dans la famille : Nombre d'enfants xi Nombre de familles ni Le nombre moyen d'enfants par famille est = 0 5 1 3 2 6 3 1 4 3 5 3
ni x i =
(0 5 + 1 3 + 2 6 + 3 1 + 4
Page 15
3 + 5 3) =
Naturellement, cette moyenne ne reprsente pas une "famille moyenne" mais donne une estimation du nombre d'enfants dans une famille dont est extrait l'chantillon : nous pourrons dire que, dans cette population, il faudra, en moyenne, 7 familles pour avoir 15 enfants, ou que 100 familles auront, en moyenne, 214 enfants.
a) Proprits de la moyenne.
Somme. La somme X + Y de deux variables statistiques X et Y est dfinie par : (X + Y) () = X () + Y (), pour tout . Nous avons alors crire : = (X + Y) () = (X () + Y ()) = X () + Y () = +
= Produit par un scalaire
Le produit X d'une variable statistique X par un nombre rel est dfini par : ( X) () = X (), pour tout . Nous pouvons alors crire : = ( X) () = X () = .
= Ecart moyen la moyenne. = (X ) () =
(X ()
)=
X ()
=0
=0
b) Moyenne conditionne.
Soit * une sous-population de (exemple : nombre d'enfants d'une fratrie d'origine trangre dans une population donne). Soit X* la restriction *.d'une variable statistique X = {(xi, Ai, ni)}, i [ 1, p ], sur . On pose : Ai* = Ai f *, ni* = Card (Ai*) = Card (Ai f *), n* = Card (*). X* = {(xi, Ai*, ni*)}, i [ 1, p ].
Page 16
X* est une variable statistique sur *. Sa moyenne est = ni* xi = X* () = X ().
Considrons maintenant une partition de en s sous-populations 1, ... , s. Soit X = {(xi, Ai, ni)}, i [ 1, p ], une variable statistique sur . Chaque sous-population j, j [ 1, s ], dfinit une variable statistique Xj sur j, qui est la restriction de X j. On pose ni j = Card (Ai f j), n. j = Card (j) = On a ni = Card (Ai) = La moyenne de Xj est ni j, i [ 1, p ]. = ni j xi. ni j, j [ 1, s ].
On peut alors dfinir une nouvelle variable statistique sur , qu'on appelle la moyenne conditionne de X pour la partition {1, ... , s} : MC (X) = {( , j, n. j)}, j [ 1, s ]. La moyenne de cette variable statistique est : = n. j = ni j x i = = . ni j x i = ni xi = .
Cette relation constitue le thorme de la moyenne conditionne. Exemple. Soit une population de commerants, partitionne en trois catgories disjointes : A : les supermarchs, B : les moyennes surfaces, C : les petits dtaillants. Soit X le prix du litre d'huile. Soit le prix moyen du litre d'huile dans les supermarchs : c'est le quotient entre le prix de vente total de l'huile dans les supermarchs, et le nombre total de litres vendus dans les supermarchs. De mme, soit , le prix moyen du litre d'huile dans les moyennes surfaces. De mme, soit , le prix moyen du litre d'huile chez les petits dtaillants. La relation prcdente (thorme de la moyenne conditionne) permet de calculer le prix moyen du litre d'huile en prenant le barycentre des prix moyens , , , affects des nombres de litres d'huile vendus par chaque catgorie de commerants (moyenne pondre par les frquences).
c) Moyenne d'une variable continue.

La variable est connue par ses classes et la frquence associe chaque classe.
Page 17
[ ei, ei + 1 [, fi =
Supposons que nous connaissions le point moyen de chaque classe [ ei, ei + 1 [. Alors, d'aprs le thorme de la moyenne conditionne, la moyenne de X est donne par : = ni = fi .
Nous allons faire le calcul dans deux hypothses. Premire hypothse. Dans chaque classe, toutes les observations sont concentres au centre de la classe : xi = ). 1 = = Deuxime hypothse. Dans chaque classe, la rpartition des observations est uniforme. Alors, par raison de symtrie, la moyenne d'une classe est la valeur centrale xi = classe. On a encore : = fi = fi x i fi ni xi = xi = fi x i (ei + ei +
(ei + ei + 1) de la
Conclusion : dans le cas d'une variable statistique continue, pour effectuer le calcul du point moyen, l'hypothse de rpartition uniforme dans chaque classe est quivalente l'hypothse d'une concentration de toutes les modalits d'une classe au centre de la classe.
d) Gnralisation de la notion de moyenne.

Soit X = {(xi, ni)}, i [ 1, p ], une variable statistique quantitative discrte valeurs dans R+*, N = ni. Soit : R+* R une application monotone (injection croissante ou dcroissante) continue. Alors (X) = {( (xi), ni)}, i [ 1, p ], est une variable statistique quantitative discrte valeurs dans R. On peut calculer sa moyenne = ni (xi).
est un nombre rel, compris entre la valeur minimum et la valeur maximum de (xi), i [ 1, p ]. Comme est une injection continue, il existe un unique R+* tel que ( )=
Page 18
est appel la -moyenne de X.
Exemples de -moyennes.
1. Si est l'application identique dfinie par (x) = x, la -moyenne de X est la moyenne arithmtique de X, c'est la moyenne au sens ordinaire. 2. Si est dfinie par (x) = x 2, nous obtenons la moyenne quadratique q de X, dfinie par ni xi 2. 3. Si est dfinie par (x) = ni .
g
2 q
, nous obtenons la moyenne harmonique
de X, dfinie par
4. Si est dfinie par (x) = ln (x), nous obtenons la moyenne gomtrique ln (

g
de X, dfinie par
)=
ni ln (xi), soit
xi
Proprits des -moyennes.

Pour une variable statistique X, les diffrentes moyennes, harmonique, gomtrique, arithmtique, quadratique, sont lies par la relation :
h
Il y a galit si, et seulement si, toutes les valeurs de X sont gales. La moyenne gomtrique est bien adapte l'tude des phnomnes de croissance. La moyenne harmonique est utilise pour les calculs d'indices conomiques.
Page 19
II. 2. 2. Paramtres de dispersion

Les paramtres de dispersion (tendue, intervalle interquartile,) sont calculs pour les variables statistiques quantitatives. Ils ne donnent pas une information complte sur une variable statistique X : en effet, deux variables qui ont la mme moyenne peuvent se prsenter avec des dispersions trs diffrentes. L'histogramme, ou le diagramme, des frquences donnent dj une ide qualitative de la dispersion.
II. 2. 2. 1. Etendue
Soit X une variable statistique relle discrte. L'tendue de X est la diffrence entre la plus grande valeur de X et la plus petite valeur de X. = xmax xmin Ce paramtre est souvent utilis dans les contrles de fabrication, pour lesquels on donne, a priori, des marges de construction. Son intrt est limit par le fait qu'il dpend uniquement des valeurs extrmes, qui peuvent tre des valeurs aberrantes.
II.2.2.2. Quartiles et dciles.

a) Variable statistique continue. Pour une variable statistique quantitative relle continue X, on appelle quartiles les nombres rels Q1, Q2, Q3, pour lesquels les frquences cumules de X sont respectivement 0,25, 0,50, 0,75. Ce sont les valeurs pour lesquelles l'ordonne de la courbe cumulative des frquences est respectivement gale 0,25, 0,50, 0,75. Les quartiles partagent l'tendue en quatre intervalles qui ont le mme effectif. Le deuxime quartile, Q2, est gal la mdiane. L'intervalle interquartile est la diffrence entre les valeurs du troisime et du premier quartiles : Q3 Q1. L'intervalle [Q1, Q3] contient 50 % des valeurs de X. b) Variable statistique discrte. Pour une variable statistique relle discrte X, la courbe des frquences cumules est une courbe en escalier. S'il existe une valeur de x pour laquelle la frquence cumule est 0,25 (resp. 0,50, 0,75), le quartile correspondant est cette valeur de X. Sinon, les quartiles seront dtermins par interpolation linaire entre deux valeurs.
Page 20
c) Dciles et percentiles. Les 9 dciles sont les nombres rels qui partagent l'tendue en dix intervalles de mme effectif. Utilisation : en matire de salaires, le rapport est un paramtre de dispersion frquemment utilis. Les 99 percentiles sont les nombres rels qui partagent l'tendue en cent intervalles de mme effectif.
II.2.2.3. Ecart absolu moyen.

a) Dfinition. Soit X = {(xi, ni)}1 i p une variable statistique relle. On appelle cart absolu moyen de X la moyenne arithmtique des valeurs absolues des carts de X sa moyenne : e= ni | xi |
On pourrait aussi dfinir l'cart absolu moyen de X par rapport sa mdiane, ou par rapport un nombre rel a quelconque. e= ni | xi a |
On peut dmontrer que l'cart absolu moyen par rapport un nombre rel a est minimum lorsque a est gal la moyenne de X. b) Calcul pratique. Lorsque les observations sont groupes par classe, on adopte gnralement pour valeur de variable statistique le centre de chaque classe. L'cart absolu moyen prsente un inconvnient majeur : il ne se prte pas facilement aux calculs algbriques, cause de la valeur absolue.
II.2.2.4. Variance et cart-type.

a) Dfinition. Soit X = {(xi, ni)}1 i p une variable statistique relle. On appelle variance de X, la moyenne arithmtique des carrs des carts de X sa moyenne : s 2 (X) = (X () )2 = ni ( xi )2
On appelle cart-type de X la racine carre s (X) de la variance de X. S = N s 2 (X) est la somme des carrs des carts : S = b) Formule de la variance. ni ( xi )2
Page 21
En dveloppant le carr ( xi
) 2, la formule de dfinition de la variance peut tre crite : s 2 (X) = ni xi 2 s 2 (X) =

2 2
=
2
Cette formule (la variance est gale la moyenne du carr moins le carr de la moyenne) est appele formule de la variance, ou formule de Knig. Elle peut s'crire sous la forme : s 2 (X) = c) Gnralisation R q. Dans R, la distance euclidienne d (X (), que la variance peut tre crite : s 2 (X) = ) entre X () et , est l'cart absolu | X () |, de sorte ni x i 2 ni xi
(d (X (),
)) 2.
Dans R q, on peut dfinir la distance euclidienne d (X (), la formule (d (X (), )) 2 = ( Xj () )2 =
) entre X () =
et
, par
(d (Xj (),
)) 2
La variance d'une variable statistique valeurs dans R q, est alors dfinie par : s 2 (X) = = = = = ( (d (X (), ( Xj () (d (Xj (), s 2 (Xj) ( ) 2) )) 2 )2 )) 2
Si X prsente p modalits xi = Card () = ni :
, i [ 1, p ], il vient, en notant ni l'effectif de la modalit xi N =
Page 22
s 2 (X) = = =
ni
( xi j ni ( xi j ni ( xi j )2 )2
)2
s 2 (X) = d) Proprits de la variance.
s 2 (Xj) =
ni ( xi j
)2
1. La variance est toujours un nombre rel positif. En effet, c'est une somme de carrs. 2. La variance est nulle si, et seulement si, X possde une seule valeur. En effet, une somme de carrs s 2 (X) = carr est nul. 3. s 2 (a + b X) = b 2 s 2 (X), quels que soient les nombres rels a et b. En effet, si X est valeurs relles, on a : = ( s (a + b X) =
2
(d (X (),
)) 2 est nulle si, et seulement si, chaque
= a2 + b2 +2ab =a+b )2 = a2 + b2 ( )2 + 2 a b ( ) 2 = b 2 ( ( ) 2) = b 2 s 2 (X). s 2 (a + b X) = b 2 s 2 (X).
Puis, si X est valeurs dans R q, on a : s 2 (a + b X) = s 2 (a + b Xj) = b 2 s 2 (Xj) = b 2 s 2 (Xj) = b 2 s 2 (X).
e) Inertie par rapport un point a. On appelle inertie d'une variable statistique X par rapport un point a, la moyenne du carr de la distance de X au point a : Ia (X) = L'inertie de X par rapport au point moyen Proprit. L'inertie Ia (X) est minimale lorsque a est gal . (d (X (), a)) 2 est la variance de X.
Page 23
La valeur minimum de l'inertie est donc la variance de X. En effet, soit d = a . = .
Dans R q, cette relation s'crit :
X () est une modalit xi = Ia (X) =
de X, d'effectif ni, i [ 1, p ]. ni ( xi j aj ) 2
(d (X (), a)) 2 =
Ecrivons xi j aj sous la forme : x i j aj = x i j Il vient alors : ( xi j aj ) 2 = (xi j Ia (X) = = s 2 (X) + ( )2 + ( ni (xi j aj) 2 + 2 (xi j )2 + ( ni aj) )( ( aj) aj) 2 + 2 ni (xi j ) ni (xi j )( aj) + aj
aj) 2 + 2
Par dfinition de Posons :
, on a
ni (xi j
) = 0.
d2 = Il reste :
aj) 2
Ia (X) = s 2 (X) + d 2. s 2 (X) est un nombre rel positif qui ne dpend pas de a. d 2 est un nombre rel positif, sa valeur minimum est 0. Ia (X) est minimum lorsque d 2 est nul, c'est--dire lorsque aj = f) Variance conditionne. Considrons maintenant une partition de en s sous-populations 1, ... , s. Soit X = {(xi, Ai, ni)}, i [ 1, p ], une variable statistique quantitative discrte sur , valeurs dans R. Chaque sous-population j, j [ 1, s ], dfinit une variable statistique Xj sur j, qui est la restriction de X j.
pour tout j [ 1, q ], soit a =
Page 24
On pose ni j = Card (Ai f j), n. j = Card (j) = On a ni = Card (Ai) = La moyenne de Xj est ni j, pour tout i [ 1, p ]. = ni j xi. ni j xi 2
ni j, j [ 1, s ].
La variance de Xj est s 2 (Xj) =
ni j xi
La moyenne conditionne de X pour la partition {1, ... , s} a t dfinie par la variable statistique : MC (X) = {( , j, n. j)}, j [ 1, s ], avec N = La moyenne de cette variable statistique est : Sa variance est : s 2 (MC (X)) = = = n. j
2
n. j
n. j ni j xi ni x i
ni j xi ni j xi
On peut dfinir une nouvelle variable statistique sur , qu'on appelle la variance conditionne de X pour la partition {1, ... , s} : sC 2 (X) = {(s 2 (Xj), j, n. j)}, j [ 1, s ], avec N = n. j s 2 (Xj). n. j s 2 (Xj) n. j
La moyenne de cette variable statistique est : Sa variance est s 2 (sC 2 (X)) = On a alors : N = = = = n. j s 2 (Xj) = n i j xi 2 ni xi 2 ni xi 2 ni j xi ni j xi ni j xi 2 ni j xi n. j (s 2 (Xj)) 2
ni j xi
Page 25
+ s 2 (MC (X)) = La relation :
ni xi 2
ni xi
= s 2 (X)
s 2 (X) =
+ s 2 (MC (X))
constitue le thorme de la variance conditionne : la variance de X est la somme de la moyenne de la variance conditionne de X et de la variance de la moyenne conditionne de X. Le terme s'appelle la variance intraclasse. Il traduit la variation de X autour de sa moyenne, dans la partition {1, ... , s}. Le terme s 2 (MC (X)) s'appelle la variance interclasse. Il traduit la variation de la moyenne de X dans la partition {1, ... , s}. Note : Ce rsultat peut tre tendu une variable statistique discrte valeurs dans R q. g) Variance d'une variable statistique relle continue. Les classes [ ei, ei + 1 [, de frquences fi = , i [ 1, p ], forment une partition de X ().
La variance de X s'obtient : en calculant la variance si 2 (X) de X dans chaque classe, en faisant la moyenne de ces variances (moyenne de la variance conditionne) : fi si 2 (X)
en calculant la variance de la moyenne de X dans chaque classe (variance de la moyenne conditionne) : fi ( )2
en faisant la somme de la moyenne de la variance conditionne et de la variance de la moyenne conditionne : s 2 (X) = fi si 2 (X) + fi ( )2
1/ Dans l'hypothse o toutes les observations sont concentres au milieu de la classe xi = la variance si 2 (X) de X dans chaque classe, est nulle, s 2 (X) = du cas discret. s 2 (X) = s 2 (U) o xi = p}. fi (xi
) 2. On retrouve la formule
est le centre de la classe d'indice i et U est la variable statistique {(xi, ni)}, i {1, ... ,
2/ Dans l'hypothse o la rpartition des valeurs de X dans chaque classe est uniforme, au terme
Page 26
fi (
)2 =
fi (xi
) 2, s'ajoute un terme correctif
fi si 2 (X) qui tient compte de la variation
de X dans chaque classe. Pour calculer ce terme complmentaire, il faut calculer la variance d'une variable rpartie uniformment sur un intervalle. Lemme. La variance d'une variable statistique rpartie uniformment sur un intervalle de longeur a est Dmonstration du lemme. On peut utiliser la formule de la variance : la variance est gale la moyenne du carr moins le carr de la moyenne. La moyenne du carr est = =
2
x 2 dx =
[ (ei + a) 3 ei 3 ] =
(3 ei 2 a + 3 ei a 2 + a 3)
+ ei 2 + ei a = [ei + (ei + a)] = ei + = + ei 2 + ei a.
Le carr de la moyenne est La variance de X dans l'intervalle [ei, ei + a] est donc : si 2 (X) = Le terme correctif + ei 2 + ei a + ei 2 + ei a = =
fi si 2 (X) est donc donn par : fi si 2 (X) = fi (ei + 1 ei) 2.
Dans le cas o toutes les classes ont la mme amplitude ei + 1 ei = a, le terme correctif est : fi si 2 (X) = et la variance de X est donne par : s 2 (X) = fi (xi )2 + = s 2 (U) + fi =
s 2 (X) = s 2 (U) + o xi = p}. est le centre de la classe d'indice i et U est la variable statistique {(xi, ni)}, i {1, ... ,
Page 27
II.2.2.5. Coefficient de variation.

Pour une variable statistique relle X, on appelle coefficient de variation le rapport c= Pour une variable statistique X valeurs dans R q, le coefficient de variation est dfini par : c= .
Le coefficient de variation est un nombre sans dimension qui permet de comparer deux variables statistiques de natures diffrentes. On remarquera que, au signe prs, c'est l'cart-type de la variable statistique ou .
II.2.2.6. Moments.
Soit X une variable statistique quantitative relle. On appelle moment d'ordre r de X, la quantit : mr = [X ()] r = ni xi r
Pour r = 0 : m0 = 1. Pour r = 1 : m1 = . Le moment d'ordre 1 est la moyenne. Pour r = 2 : m2 = . On appelle moment centr d'ordre r de X, la quantit : r = Pour r = 0 : 0 = 1. Pour r = 1 : 1 = 0. Pour r = 2 : 2 = s 2 (X) = m2 m1 2. Le moment centr d'ordre 2 est la variance. [X () ]r = ni (xi )r
II.2.2.7. Conclusion.
Centrer et rduire une variable statistique quantitative X consiste la remplacer par X pour la centrer (moyenne 0) diviser par s (X) pour la rduire (cart-type 1). La variable X ' = a pour moyenne 0 (elle est centre) et pour cart-type 1 (elle est rduite). :
Par exemple, si nous considrons la variable statistique continue
Page 28
thorique dont la densit de frquence est h (x) = e (loi de Gauss),
sa moyenne est 0 et son cart-type est 1 : c'est une variable centre rduite et la courbe de densit de frquence associe est appele la courbe en cloche, ou courbe de Gauss. Un problme intressant sera de comparer la courbe de densit de frquence d'une variable statistique quantitative cette courbe en cloche.
Page 29
II. 2. 3. Paramtres de forme

Nous dfinissons les paramtres de forme pour une variable statistique quantitative, discrte ou continue, valeurs relles.
II. 2. 3. 1. Coefficient d'asymtrie.

a) Dfinition. Il existe plusieurs coefficients d'asymtrie. Les principaux sont les suivants. Le coefficient d'asymtrie de Pearson fait intervenir le mode M o : quand il existe, il est dfinie par P= .
Le coefficient d'asymtrie de Yule fait intervenir la mdiane et les quartiles, il est dfini par Y= .
Le coefficient d'asymtrie de Fisher fait intervenir les moments centrs, il est dfini par F= = .
Lorsque le coefficient d'asymtrie est positif, la distribution est plus tale droite : on dit qu'il y a oblicit gauche. Lorsque le coefficient d'asymtrie est ngatif, la distribution est plus tale gauche : on dit qu'il y a oblicit droite. Oblicit gauche :
Oblicit droite :
On utilise souvent un coefficient d'asymtrie de Pearson bas sur les moments centrs : 1 =
Page 30
Ce coefficient d'asymtrie est toujours positif. Il est nul pour une distribution densit de frquence symtrique, telle la loi de Gauss. b) Exemples. 1/ Considrons la variable statistique X de distribution : xi ni Mo = 1 ; 3 = 1 4 4 1 (4 ( 1) + 1 4 ) = 4.
(4 ( 1) + 1 4 ) = 12 ; 2 = P= F= = =
> 0 : oblicit gauche. > 0 : oblicit gauche. = .
1 =
2/ Considrons la variable statistique X de distribution : xi ni Mo = 1 ; 3 = 4 1 1 4 (1 ( 4) + 4 1 ) = 4.
(1 ( 4) + 4 1 ) = 12 ; 2 = P= F=
= < 0 : oblicit droite. = < 0 : oblicit droite. 1 = = .
II. 2. 3. 2. Coefficient d'aplatissement.

L encore plusieurs dfinitions sont possibles. Le coefficient d'aplatissement de Pearson est 2 = Le coefficient d'aplatissement de Yule est F 2 = . 3.
On peut se demander pourquoi 3 ? C'est parce que, en Probabilits, on peut dmontrer que le coefficient d'aplatissement de Pearson pour une variable alatoire relle qui suit une loi de Gauss, est gal 3.
Page 31
Il est alors naturel, pour comparer l'applatissement d'une distribution statistique l'aplatissement d'une variable de Gauss, d'introduire le coefficient F 2 = 2 3. Si F 2 est gal 0, le polygone statistique de la variable rduite a le mme aplatissement qu'une courbe en cloche, on dit que la variable est msokurtique. Si F 2 est > 0, le polygone statistique de la variable rduite est moins aplati qu'une courbe en cloche, on dit que la variable est leptokurtique. Si F 2 est < 0, le polygone statistique de la variable rduite est plus aplati qu'une courbe en cloche, on dit que la variable est platykurtique.
II. 2. 3. 3. Indice de concentration de Gini.

a) Courbe de Lorenz. La notion de concentration ne s'applique qu' des variables statistiques quantitatives valeurs strictement positives. Elle se comprendra facilement sur un exemple. Considrons la distribution des salaires dans la populations des salaris d'une entreprise. Les salaires sont diviss en n classes : la i e classe, [ e i, e i + 1 [ a, pour centre, x i et, pour effectif, n i. On note p i la frquence cumule de e i + 1 : c'est la proportion de salaris dont le salaire est strictement plus petit que e i + 1. On note q i la proportion de masse salariale reprsente par les salaris dont le salaire est strictement
Page 32
plus petit que e i + 1.
qi =
fk xk =
fk
On appelle courbe de concentration, ou courbe de Lorenz, la ligne polygonale joignant les points de corrdonnes (p i, q i). En ralit, pour une variable statistique continue, on ne connat la courbe de Lorenz que pour les extrmits des classes : l'interpolation linaire suppose que la rpartition des valeurs de la variable l'intrieur de chaque classe est uniforme. Dans le cas d'une variable discrte, on adopte aussi la reprsentation par une ligne polygonale. La courbe de Lorenz est toujours inscrite dans le carr [0, 1] [0, 1]. Cette courbe se caractrise par les traits suivants. 1/ Les points extrmes sont les points (0, 0) et (1, 1) puisque 0 % de la population reoit 0 % de de la masse salariale et 100 % de la population reoit 100 % de la masse salariale. 2/ La courbe est ncessairement convexe vers le bas. Cela rsulte du fait que la pente du segment qui correspond, par exemple, aux points d'abscisses 0, 50 et 0,60, ne peut tre infrieure celle du segment correspondant aux abscisses 0,40 et 0,50 puisque, par dfinition, on considre des classes successives disposant chacune d'une part croissante de la masse salariale totale. 3/ Enfin, et surtout, la courbure de la courbe de Lorenz peut tre interprte comme un indice d'ingalit. En effet, dans une situation hypothtique d'galit absolue, la courbe prendrait la forme d'un segment de droite (diagonale du carr) tendue entre les points (0, 0) et (1, 1). De mme, dans une situation d'ingalit extrme o la quasi-totalit de la masse salariale serait dtenue par une infime minorit de la population, la courbe de Lorenz tendrait longer l'axe des p, avant de remonter brutalement vers le point (1, 1). b) Indice de Gini. L'indice de Gini (du nom du statisticien italien Corrado Gini qui a propos en 1912 cet indice pour les distributions de salaires et de revenus), quant lui, est obtenu en dterminant la surface S comprise entre la courbe de Lorenz et la diagonale et en rapportant cette surface la surface du demi-carr dans lequel s'inscrit cette courbe. Comme la surface du carr est 1, l'indice de Gini est le double de l'aire S comprise entre la courbe de Lorenz et la diagonale du carr. Trs souvent, la surface S peut tre dtermine avec suffisamment de prcisions de manire graphique. Numriquement, on peut calculer l'indice de Gini par la formule : g=2S=1 (p i + 1 p i) (q i + 1 + q i) = 1 f i + 1 (q i + 1 + q i)
Page 33
Dire que g = 0, c'est dire que la courbe de Lorenz concide avec la diagonale du carr (galit absolue). Dire que g = 1, c'est dire que la courbe de Lorenz longe d'abord l'axe des p, puis la droite p = 1 (ingalit maximale). De faon gnrale, l'indice de Gini peut tre interprt comme ayant une valeur d'autant plus grande que l'ingalit est grande : il constitue donc une bonne mesure de l'ingalit. Applications. L'indice de Gini permet de mesurer les ingalits scolaires, les ingalits de statut, les ingalits de salaires, etc. c) Mdiale. La mdiale d'une variable statistique X est la valeur de X qui partage la masse globale en deux parties gales. Sur la courbe de Lorenz, la moiti de la masse globale correspond l'ordonne . Le point d'ordonne a une abscisse x qui correspond une frquence cumule x.
La valeur correspondante de X s'obtient en prenant l'abscisse du point d'ordonne x sur le diagramme cumulatif des frquences.
Si la variable statistique X est dfinie par {(xi, ni)}, i [1, p], soit Pour une variable continue, xi reprsente le centre de la i e classe. On pose ri = . On a : ri = 1.
ni xi, avec N =
ni.
Dans notre exemple, ri reprsente la fraction de la masse salariale globale gagne par les personnes dont le salaire est xi. La mdiale de X est la mdiane de la variable statistique {(xi, ri)}, i [1, p]. La mdiale n'est pas le salaire gagn par l'employ qui est "au milieu de la file", mais le salaire gagn par le salari qui permet d'atteindre la moiti de la masse salariale totale. La comparaison des valeurs de la mdiale et de la mdiane constitue une mesure de la concentration. Lorsque l'cart entre la mdiale et la mdiane est important par rapport l'tendue de la distribution de la variable, la concentration est forte. Si la distribution est galitaire, la concentration est faible et l'cart entre la mdiale et la mdiane est faible.
Page 34
La mdiale est toujours suprieure la mdiane, puisque 50 % des effectifs cumuls croissants ne permettent jamais d'atteindre 50 % de la masse totale.
Cours de Statistique - Chapitre 3 - Dfinitions
Page 35
Chapitre III - ANALYSE BIVARIEE.

(Variables statistiques deux dimensions)
III.1. DEFINITIONS.
III.1.1. Variable statistique deux dimensions.
Considrons une population finie (Card () = N) sur laquelle nous tudions deux caractres (qualitatifs ou quantitatifs rels) A et B. Dsignons par A i, i [1, p], les modalits observes du caractre A, par B j, j [1, q], les modalits observes du caractre B. Appelons C ij l'ensemble des prsentant, la fois, la modalit A i du caractre A et la modalit B j du caractre B. Appelons n ij le cardinal de C ij. N= n ij.
On appelle variable statistique deux dimensions l'ensemble Z des triplets ((A i, B j), C ij, n ij), pour i [1, p] et j [1, q], pour lesquels n ij n'est pas nul. Les C ij forment une partition de . Le nombre n i. = n ij des individus prsentant la modalit A i du caractre A, permet de n ij des individus prsentant la modalit B j du caractre B, permet de
dfinir une variable statistique X une dimension. Le nombre n .j =
dfinir une variable statistique Y une dimension. Le couple (X, Y) est une variable conjointe : c'est une variable statistique deux dimensions si l'on en limine les modalits conjointes (A i, B j) dont l'effectif est nul. En pratique, on admettra que, pour une variable statistique Z deux dimensions : des modalits conjointes (A i, B j) peuvent avoir un effectif n ij nul, pour tout j [1, q], il existe au moins un i [1, p] tel que n ij ne soit pas nul, pour tout i [1, p], il existe au moins un j [1, q] tel que n ij ne soit pas nul. Dans ce cas, une variable statistique deux dimensions est une variable conjointe, couple de deux variables statistiques une dimension. Une telle variable statistique deux dimensions peut se reprsenter par un tableau double entre appel tableau de contingence.
Page 36
La frquence de la modalit conjointe (A i, B j) est f ij = La frquence de la modalit A i est f i. = La frquence de la modalit B j est f .j = = = f ij. f ij.
Ces frquences sont parfois appeles des "pondrations". Elles vrifient les galits : f ij = f i. = f .j = 1.
III.1.2. Variables marginales. Variables conditionnelles.

III.1.2.1. Variables marginales.
Soit Z = {((A i , B j), C ij , n ij )}, i [1, p], j [1, q], une variable statistique deux dimensions.
Considrons les variables statistiques X = {(A i , C i. , n i. )}, i [1, p], dfinie par C i. = C ij et n i. = n ij, et
Y = {(B j , C .j , n .j )}, j [1, q], dfinie par C .j = C ij et n .j = n ij.
Les variables statistiques X et Y ainsi dfinies sont appeles les variables marginales de Z. Leur distribution est reprsente par les marges du tableau de contingence.
III.1.2.2. Variables conditionnelles.

Considrons la je colonne du tableau de contingence :
Page 37
Ce tableau reprsente une variable statistique dont les modalits sont les A i , i [1, p] pour lesquels les n ij ne sont pas nuls. A ces modalits, est associe une partition de C .j = vides, pour j fix, avec, pour effectifs, les n ij non nuls. Cette variable statistique {(A i , C ij , n ij)}, i [1, p], dfinie par une colonne du tableau de contingence, est appele la variable X conditionne par B j , ou variable X conditionnelle pour B fix. Pour cette variable conditionnelle, nous pouvons dfinir la frquence conditionnelle de la modalit A i par f i | j = . C ij par les C ij non
On peut dfinir ainsi q variables conditionnelles, correspondant aux q colonnes du tableau de contingence (autant qu'il existe de modalits du caractre B). De la mme faon, nous pouvons dfinir pour chaque ligne du tableau de contingence une variable Y conditionne par A i, avec une frquence conditionnelle de la modalit B j donne par f j | i = .
Remarque. Si les deux variables X et Y sont quantitatives et jouent des rles symtriques, il est intressant d'tudier les variables conditionnelles des deux types. Exemple : taille et poids d'tudiants. Si l'une des variables est qualitative et l'autre quantitative, alors seul le conditionnement par la variable qualitative prsente un intrt.
Page 38
III.2. REPRESENTATION GRAPHIQUE.

III.2.1. Variable qualitative.
Pour une variable qualitative Z deux dimensions, les donnes du tableau de contingence seront reprsentes par un diagramme en tuyaux d'orgue.
Exemple.
III.2.2. Variable quantitative.

III.2.2.1. Nuage de points.
Pour une variable quantitative, discrte ou continue, on peut utiliser une reprsentation par un nuage de points dans un plan. On peut remplacer chaque point par un cercle dlimitant une aire proportionnelle l'effectif ou la frquence.
III.2.2.2. Strogramme.
Dans certains cas, on peut faire une reprsentation dans R : - strogramme en btons pour une variable discrte. - strogramme en histogramme pour une variable continue. Exemple : Mariages clbrs en 1962, suivant l'ge des poux (1e colonne : ge de l'poux, 1e ligne : ge de l'pouse).
Page 39
III.2.3. Variable mixte.

Dans le cas d'une variable mixte, ayant une composante qualitative et une composante quantitative, on utilise une reprsentation dans R ou dans R en plaant de facon arbitraire les modalits de la variable qualitative sur l'un des axes.
III.2.4. Autres reprsentations.

III.2.4.1. Reprsentation en toile.
La reprsentation en toile permet de reprsenter un phnomne priodique. Par exemple, l'volution d'un indice de prix peut se reprsenter par douze rayons quidistants reprsentant les mois avec, sur chaque rayon, les indices de prix pour le mois correspondant, d'anne en anne (spirale des prix).
III.2.4.2. Reprsentation triangulaire.

La reprsentation graphique triangulaire est utilise pour reprsenter une quantit constante, fractionne en trois parties variables (de somme constante). Le principe de cette reprsentation repose sur le fait qu'tant donn un point l'intrieur d'un triangle quilatral, si l'on trace partir de ce point des parallles aux trois cts, la somme des longueurs des segments dtermins par ces parallles du point choisi aux cts du triangle, est constante et gale la longueur du ct du triangle quilatral. En particulier, on utilisera cette reprsentation triangulaire si la grandeur reprsenter est somme de trois grandeurs reprsentes par des pourcentages.
Page 40
Dans cette reprsentation, les cts du triangle correspondent la valeur 0 de l'une des trois composantes. Les sommets du triangle correspondent la valeur 0 de deux des trois composantes. Les milieux des cts correspondent la valeur 0 de l'une des trois composantes et la valeur 50 % des deux deux autres composantes. Le centre du triangle correspond l'galit des trois grandeurs reprsentes. Les hauteurs du triangle correspondent l'galit de deux des trois facteurs, ce qui permet de diviser l'aire du triangle en zones caractrises par un critre prcis.
Exemple. A une date donne, on rpartit les diffrents secteurs d'activit selon le pourcentage d'entreprises escomptant une augmentation, une diminution, ou une stabilit, de leur activit pour la priode venir. La reprsentation du point dans un diagramme triangulaire, permet de suivre travers le temps l'volution des pronostics pour une mme branche d'activit (analyse des rponses des chefs d'entreprise l'enqute trimestrielle sur la conjoncture conomique).
Cours de Statistique - Chapitre 3 - Caractristiques marginales et conditionnelles
Page 41
III.3. CARACTERISTIQUES MARGINALES ET CONDITIONNELLES.

III.3.1. Caractristiques marginales.
Soit Z = {(xi , yj ), Cij , nij )}, i [1, p], j [1, q], une variable statistique quantitative deux dimensions, de variables marginales X = {(xi , Ci. , ni. )}, i [1, p], et Y = {(yj , C.j , n.j )}, j [1, q]. nij = N X et Y sont des variables statistiques quantitatives, discrtes ou continues. Pour une variable continue, les valeurs sont celles des moyennes des classes (centre de classes sous l'hypothse de rpartition uniforme des valeurs l'intrieur d'une classe).
III.3.1.1. Moyennes marginales.

Les moyennes marginales de Z sont les moyennes des variables marginales X et Y : = ni. xi ; = n.j yj .
III.3.1.2. Variances marginales.

Les variances marginales de Z sont les variances des variables marginales X et Y : s 2 (X) = s 2 (Y) = ni. (xi )2 = ni. xi 2 n.j yj 2 ni. xi n.j yj
n.j (yj ) 2 =
III.3.2. Caractristiques conditionnelles.

Soit Z = {(xi , yj ), Cij , nij )}, i [1, p], j [1, q], une variable statistique quantitative deux dimensions, de variables conditionnelles Z avec nij = N = {(xi , Cij , nij )}, i [1, p], et Z = {(yj , Cij , nij )}, j [1, q].
III.3.2.1. Moyennes conditionnelles.

Les moyennes conditionnelles de Z sont les moyennes de ses variables conditionnelles :
Page 42
nij xi , note aussi, de faon simplifie,
Cette notation simplifie sera utilise systmatiquement : dans le cas d'une moyenne, l'indice reprsente toujours le conditionnement. = nij yj =
III.3.2.2. Variances conditionnelles.

Les variances conditionnelles de Z sont les variances de ses variables conditionnelles. s 2 (Z s 2 (Z )= )= nij (xi nij (yj )2 = )2 = nij xi 2 nij yj 2 nij xi nij yj = sj 2 (X) = si 2 (Y)
L encore, la notation simplifie sera utilise systmatiquement : un indice pour la variance reprsente le conditionnement.
III.3.3. Covariance.
Pour une variable statistique quantitative Z deux dimensions, de variables marginales X et Y, on dfinit la covariance de X et Y par l'expression : Cov (X, Y) = nij (xi )(yj )
Nous remarquons que la variance a la mme dimension qu'une variance. D'ailleurs, nous avons Cov (X, X) = s 2 (X) et Cov (Y, Y) = s 2 (Y). De plus, si l'on remarque que l'on a : nij = N nij xi = nij yj = ni. xi = N n.j yj = N
la formule de dfinition de la covariance peut s'crire : Cov (X, Y) = La formule Cov (X, Y) = nij xi yj nij xi nij yj =
est appele formule de la covariance.
Proprits de la covariance.
Cov (a X + b, c Y + d) = a c Cov (X, Y), pour a, b, c, d dans .
Page 43
En effet : = a + b, = c + d, =ac Cov (a X + b, c Y + d) = =ac +ad +bc =ac +ad +bc =ac( ) = a c Cov (X, Y)
+ad
+bc
+ b d.
+ b d (a + b)(c + d) +bdac bc ad
bd
III.3.4. Relations entre caractristiques marginales et caractristiques conditionnelles.

III.3.4.1. Moyenne.
La moyenne marginale est la moyenne pondre des moyennes conditionnelles. = De mme : = ni. ni. xi = nij xi = nij xi = n.j
Nous retrouvons l un rsultat dj tabli (Thorme de la moyenne conditionne, II.2.1.3.b).
III.3.4.2. Variance.
La variance marginale est la somme de la moyenne pondre des variances conditionnelles et de la variance pondre des moyennes conditionnelles. s 2 (X) = = et l'on a : nij (xi nij = n.j nij ( )2 = n.j ( )2 = N ) 2 = n.j sj 2 (X) nij (xi nij (xi )2 = nij (xi nij ( + )2 nij (xi )( )
)2 +
)2 +
Page 44
nij (xi = = ( (
)( )
)= nij xi n.j
nij
nij (xi
)(n.j
) = 0.
Il reste donc seulement : s 2 (X) = nij (xi n.j sj 2 (X) + )2 + nij ( )2 )2
s 2 (X) =
n.j (
ce qui traduit le rsultat annonc, qui peut s'crire aussi (Thorme de la variance conditionne, II.2.2.4.f) : s 2 (X) = + s2 ( )
De mme, la variance marginale de Y est donne par la formule : s 2 (Y) = ni. si 2 (Y) + s 2 (Y) = Remarque. La variance traduit la dispersion de la distribution. La dispersion de la distribution marginale de X rsulte de deux facteurs : La dispersion des distributions conditionnes autour de leurs moyennes : c'est le premier terme, ni. si 2 (Y) , qu'on appelle la variance intra-population, et qu'on note sw 2 (Y) (w pour within). La dispersion des moyennes conditionnelles autour de la moyenne : c'est le deuxime terme, ni. ( ) 2, qu'on appelle la variance inter-population, et qu'on note sb 2 (Y) (b pour between). s 2 (Y) = sw 2 (Y) + sb 2 (Y) ni. ( )2
+ s2 ( )
Cours de Statistique - Chapitre 3 - Rgression et corrlation
Page 45
III. 4. REGRESSION ET CORRELATION.

En prsence d'une distribution statistique de deux variables (X, Y), il est possible d'tudier les distributions marginales, les distributions conditionnelles, mais cette tude ne fournit pas d'interprtation des rsultats. Dans certains cas, nous pouvons nous poser la question suivante. La connaissance d'une modalit de la variable X apporte-t-elle une information supplmentaire sur les modalits de la variable Y ? La rponse cette question est du domaine de la rgression : dans un tel cas, on dit que X est la variable explicative et Y la variable explique. Dans d'autres cas, aucune des deux variables ne peut tre privilgie : la liaison stochastique entre X et Y s'apprcie alors de faon symtrique par la mesure de la corrlation. Exemple : X est la temprature moyenne mensuelle, Y est le volume des missions de gaz destin au chauffage. Dans cet exemple, X est la variable explicative et Y la variable explique. Il est noter qu'une variable explicative X peut tre une variable qualitative.
III.4.1. Rgression et corrlation.

Soient X et Y des variables relles quantitatives et Z = (X, Y). Considrons la variable statistique (X, ) valeurs dans R 2 dfinie par : {((xi , ), fi. )}, i [1, p] o fi. = . Nous appellerons cette variable la variable statistique de rgression de Y en X.
III.4.1.1. Courbe de rgression.

On appelle courbe de rgression de Y en X, le graphe, ou courbe reprsentative, de l'application f : x u . Si X est une variable discrte, la courbe de rgression est une succession de points (xi , ). Si X est une variable continue, la courbe de rgression sera forme de segments de droite joignant les points (xi , ), o les xi reprsentent les centres des classes. On peut dire que la courbe de rgression est la reprsentation graphique de la variable statistique dfinie prcdemment.
III.4.1.2. Proprits.
a) Le point moyen de la variable de rgression de Y en X est le point moyen de Z. En effet : fi. xi = et fi. b) Cov (X, En effet : fi. (xi , ) = ( fi. xi , fi.
)=( , )=
) = Cov (X, Y).
Page 46
Cov (X,
) = fi. (xi fi. xi
)(
) + fi.
= fi. xi = fi. xi = Cov (X, =
fi. +
) = fi. xi fi. xi
yj
= = Cov (X, Y) c) s 2 ( ) = sb 2 (Y). = , il rsulte de la dfinition : s2 ( ) = fi. ( ) 2 = sb 2 (Y)
En effet, comme on a
Notons que sb 2 (Y), variance inter-population, n'est pas la variance marginale s 2 (Y) de Y.
III.4.1.3. Rapport de corrlation.

La variance marginale de Y est donne par la formule : s 2 (Y) = sw 2 (Y) + sb 2 (Y) o la variance intra-population sw 2 (Y) est donne par la formule sw 2 (Y) = fi. si 2 (Y) (moyenne des variances conditionnelles) et la variance inter-population sb 2 (Y) par la formule sb 2 (Y) = fi. ( ) 2 (variance de la moyenne conditionnelle). Imaginons une variable Z = (X, Y) pour laquelle = soit trs proche de , pour tout i [1, p].
Alors la variance inter-population sb 2 (Y) sera faible et la courbe de rgression de Y en X variera peu autour de . Inversement, si les sont trs disperss autour de , la variance inter-population sb 2 (Y) sera grande, ce qui veut dire que la courbe de rgression de Y en X variera en grandes dents de scie autour de . Autrement dit, la valeur de la variance inter-population sb 2 (Y) influence directement la courbe de rgression. Nous dirons que sb 2 (Y) est la part de la variance marginale s 2 (Y) qui est explique par la rgression de Y en X. Nous parlerons simplement de variance explique.
Page 47
Le terme sw 2 (Y), quant lui, est d'autant plus faible que les si 2 (Y) sont faibles, donc que les valeurs de Y varient peu, pour chaque xi, autour de . Ce terme n'a pas d'influence sur la courbe de rgression de Y en X (qui fait intervenir seulement les xi et les ) : nous l'appelons la variance rsiduelle. a) Dfinition. Le rapport entre la variance explique sb 2 (Y) et la variance marginale totale s 2 (Y) est appel rapport de corrlation. On le note 2Y | X : 2Y | X = Il peut aussi tre calcul par la formule : 2Y | X = 1 b) Proprits.
1. 0 2Y | X 1.
Cette proprit rsulte directement de la formule de dfinition 2Y | X = = sw 2 (Y) + sb 2 (Y), dans laquelle tous les termes sont positifs.
2. 2Y | X = 0 sb 2 (Y) = 0 = , i [1, p].
et de la formule s 2 (Y)
Dans un tel cas, la courbe de rgression est parallle l'axe des x. Nous dirons que Y est non corrle avec X : en clair, cela veut dire que la connaissance de X ne donne aucune information sur Y. Naturellement et de faon symtrique, si l'on a 2X | Y = 0, X est non corrle avec Y et la courbe de rgression de X en Y est parallle l'axe des y. Si l'on a, la fois, 2Y | X = 0 et 2X | Y = 0, on dit qu'il y a absence rciproque de corrlation.
3. 2Y | X = 1 sw 2 (Y) = 0 yj = , i [1, p], j [1, q].
Dans un tel cas, chaque valeur xi de X correspond une valeur et une seule de Y : il y a une liaison fonctionnelle Y = f (X) entre X et Y. Si, de plus, on a aussi 2X | Y = 1, la liaison fonctionnelle entre X et Y est biunivoque.
4. En pratique, nous aurons toujours 0 < 2Y | X < 1.
Dans ce cas, plus 2Y | X est voisin de 1, plus la dpendance de Y par rapport X est forte et,
Page 48
inversement, plus 2Y | X est voisin de 0, moins la dpendance de Y par rapport X est forte. Le rapport de corrlation 2Y | X ne caractrise que l'intensit de la corrlation de Y par rapport X et non le sens de la liaison entre les deux. Il reste invariant si l'on effectue sur Y un changement d'origine ou d'chelle. En effet : sb 2 (a Y + b) = a 2 sb 2 (Y) et s 2 (a Y + b) = a 2 s 2 (Y), de sorte que le rapport ne
change pas. Comme ce rapport ne tient pas compte de la nature de la courbe de rgression, son emploi reste valable quelle que soit la nature de cette courbe de rgression.
III.4.1.4. Indpendance et corrlation.

Etant donne une variable statistique quantitative relle deux dimensions Z = (X, Y), nous dirons que la variable statistique X est indpendante de Y si les variables statistiques Y et Z ont la mme distribution pour tout i [1, p], c'est--dire si, et seulement si, l'on a : = ... = = ... = , i [1, p]
Dans ce cas, la valeur commune de ces rapports est : = ... = = ... = = =
et les lignes du tableau de contingence sont proportionnelles. De faon symtrique, Y est indpendante de X si, et seulement si, l'on a : = ... = = ... = = , j [1, q]
et, dans ce cas, les colonnes du tableau de contingence sont proportionnelles. Remarque : X est indpendante de Y Y est indpendante de X. En effet : X est indpendante de Y , i [1, p], j [1, q]
, i [1, p], j [1, q]
Y est indpendante de X. Au lieu de dire "X est indpendante de Y", on peut donc dire "X et Y sont indpendantes", la relation est symtrique. Proprits.
a) Courbes de rgression de variables indpendantes.
Si X et Y sont indpendantes, les variables statistiques Y et Z i [1, p], elles ont donc la mme moyenne, Il en rsulte : =
ont la mme distribution pour tout
pour tout i [1, p].
Page 49
sb 2 (Y) = fi. ( 2Y | X =
)2 = 0 =0
De faon symtrique, si X et Y sont indpendantes, Y et X sont indpendantes, les variables statistiques X et Z ont la mme distribution pour tout j [1, q], de sorte que l'on a aussi : sb 2 (X) = f.j ( 2X | Y = )2 = 0 =0
Ainsi, dans le cas o X et Y sont indpendantes, la courbe de rgression de Y en X est une parallle l'axe des x et la courbe de rgression de X en Y est une parallle l'axe des y. On notera que si l'indpendance a pour consquence le paralllisme des courbes de rgression aux axes de coordonnes, en revanche, les courbes de rgression peuvent tre parallles aux axes de coordonnes sans que, pour autant, les variables soient indpendantes. Il ne suffit pas que les moyennes conditionnelles soient identiques pour assurer l'indpendance, il faut encore que les distributions conditionnelles soient identiques. Or plusieurs distributions peuvent avoir la mme moyenne sans ncessairement tre identiques. L'absence rciproque de corrlation n'entrane pas l'indpendance. Les proprits du rapport de corrlation peuvent tre rsumes dans le tableau suivant, qui est un tableau d'quivalence (il se lit dans les deux sens).
b) Critres d'indpendance. 1- Pour que X et Y soient indpendantes, il faut et il suffit que l'on ait : nij = , pour tout (i, j) [1, p] [1, q].
En effet, la relation prcdente peut s'crire :
Page 50
, i [1, p], j [1, q],
ce qui signifie que X est indpendante de Y. 2- Pour que X et Y soient indpendantes, il faut et il suffit que l'on ait : fij = fi. f.j, pour tout (i, j) [1, p] [1, q]. C'est simplement une autre faon d'crire le critre prcdent, avec fij = , fi. = , f.j = .
c) Si X et Y sont indpendantes, leur covariance est nulle. En effet, la covariance de X et Y est donne par la formule de la covariance : Cov (X, Y) = Lorsque X et Y sont indpendantes, nous avons : = fij xi yj = fi. f.j xi yj = fi. xi f.j yj =
de sorte que la covariance est nulle. La rciproque est fausse : la covariance peut tre nulle sans que les variables soient indpendantes.
Cours de Statistique - Chapitre 3 - Mthode des moindres carrs
Page 51
III. 4. 2. Mthode des moindres carrs.

III.4.2.1. Proprit de la courbe de rgression.
Soit Z = {(xi , yj ), Cij , nij )}, i [1, p], j [1, q], une variable statistique quantitative deux dimensions, de variables marginales X = {(xi , Ci. , ni. )}, i [1, p], et Y = {(yj , C.j , n.j )}, j [1, q]. nij = N. Pour chaque valeur xi de X, on sait calculer la moyenne conditionnelle de Y pour X fix : = nij yj, avec ni. = nij, pour tout i [1, p]. ), i [1, p].
La courbe de rgression de Y en X joint les points Ri de coordonnes (xi , Pour tout i [1, p], considrons un point Ai = (xi, y'i ). On appelle somme des carrs des carts, en abrg SCE, l'expression : S= nij (y'i yj) 2 nij (y'i yj) 2 = fij (y'i yj) 2
et carr moyen, en abrg CM, l'expression : CM = =
La somme des carrs des carts s'crit : S= = nij (y'i nij (y'i nij (y'i nij ( )( + )2 + yj) = yj) 2 nij ( (y'i yj) 2 + 2 ) nij ( nij (y'i yj) = )( yj) ) (ni. ni. )=0
(y'i
yj) 2 = )2 = )2 +
ni. si 2 (Y) ni. (y'i ni. si 2 (Y) )2
nij (y'i S= ni. (y'i
Le terme
ni. si 2 (Y) ne dpend pas du choix des y'i. ni. (y'i ) 2 est nul, c'est--dire lorsque y'i =
S prendra donc une valeur minimum, lorsque pour tout i [1, p]. Autrement dit :
La courbe de rgression est la ligne qui rend minimum la somme des carrs des carts.
Page 52
C'est donc celle qui ajuste au mieux une courbe au nuage de points (xi, yj). Pour cette courbe, le carr moyen (CM, en abrg), prend aussi sa valeur minimum, qui est donne par : CM = ni. si 2 (Y) = sw 2 (Y)
Le carr moyen correspondant la ligne de rgression est la variance rsiduelle.
III.4.2.2. Ajustement linaire.

Si la ligne de rgression de Y en X trace sur le nuage de points (xi, yj) se rapproche globalement d'une droite, nous pouvons chercher directement, par la mthode des moindres carrs ordinaires, en abrg MCO, la droite qui s'ajuste le mieux au nuage de points. Soit y = a + b x l'quation d'une droite. Pour tout i [1, p], considrons le point Ai = (xi, y'i = a + b xi) de la droite. On peut associer la droite la somme des carrs des carts : S= nij (y'i yj) 2 = nij (a + b xi yj) 2
Le carr moyen associ est : CM = = fij (a + b xi yj) 2
C'est la moyenne du carr de (a + b X Y). Or la variance de (a + b X Y) est gale la moyenne du carr, moins le carr de la moyenne, 2 s 2 (a + b X Y) = CM On obtient donc : 2 + s 2 (a + b X Y) = (a + b ) 2 + s 2 (a + b X Y) CM = On sait, par ailleurs, que la variance de a + b X Y est donne par : s 2 (a + b X Y) = s 2 (b X Y) = b 2 s 2 (X) 2 b Cov (X, Y) + s 2 (Y) On peut crire aussi : b 2 s 2 (X) 2 b Cov (X, Y) + s 2 (Y) = s 2 (X) b 2 2 b = s 2 (X) b = s 2 (X) b + s 2 (Y) + s 2 (Y) 1 + s 2 (Y)
Or, la variance b 2 s 2 (X) 2 b Cov (X, Y) + s 2 (Y) de b X Y est positive pour tout b , puisque toute variance est positive. Donc le discriminant rduit de ce polynme de degr 2 en b est ngatif : Cov 2 (X, Y) s 2 (X) s 2 (Y), et, dans l'expression s 2 (X) b le terme s 2 (Y) 1 + s 2 (Y) 1 , qui ne dpend pas du choix de a et b, est toujours positif.
La conclusion est que le carr moyen s'crit finalement comme somme de trois termes positifs dont le troisime ne dpend ni de a ni de b : CM = (a + b ) 2 + s 2 (X) b + s 2 (Y) 1
Cette somme prend sa valeur minimum lorsque les deux premiers termes sont nuls : a+b =0
Page 53
b= L'quation de la droite ajuste par la mthode des moindres carrs est donc : (y ) = (x )
La valeur de b obtenue est aussi celle qui rend minimum la variance s 2 (a + b X Y) = s 2 (X) b + s 2 (Y) 1 .
Nous noterons (X, Y | X) la variable statistique {((xi, a + b xi), fi.)}, i [1, p]. Cette variable statistique est appele la variable statistique de rgression linaire de Y en X. La reprsentation graphique de cette variable est donne par la droite ajuste par la mthode des moindres carrs ordinaires. Cette droite est parfois appele la droite de rgression de Y en X. Le coefficient b est alors appel le coefficient de rgression de Y en X. Il vaut mieux rserver ces dnominations la droite de rgression du modle thorique probabiliste associ la population et parler, ici, seulement de droite ajuste par la mthode des moindres carrs ordinaires.
Proprits de la variable statistique (X, Y | X).

1. Le point moyen est celui de Z. En effet, on a : fi. xi = et fi. (a + b xi) = a + b = . La relation a + b = montre que la droite ajuste par la mthode des moindres carrs ordinaires passe par ce point moyen ( , ). 2. Cov (X, Y | X) = Cov (X, Y). En effet : Cov (X, Y | X) = =b fi. (xi )2 fi. (xi )(a + b xi (a + b ))
= b s 2 (X) = Cov (X, Y) puisque b = .
3. s 2 ( Y | X) = b 2 s 2 (X) s 2 (Y). En effet, par dfinition : s 2 ( Y | X) = s 2 (a + b X) et comme on a toujours s 2 (a + b X) = b 2 s 2 (X), il vient s 2 ( Y | X) = b 2 s 2 (X) =
Page 54
En gnral, b 2 s 2 (X) est diffrent de s 2 (Y), sinon on aurait s 2 (Y) = b 2 s 2 (X) = Cov (X, Y) = s (X) s (Y) ou Cov (X, Y) = s (X) s (Y) Dans le premier cas, la variance de a + b X Y est nulle : s 2 (a + b X Y) = s 2 (Y) 1 et Y = a + b X, avec b = = > 0. =0
, donc :
Dans le deuxime cas, la variance de a + b X Y est nulle aussi et Y = a + b X, avec b = < 0.
Variable statistique (Y, X | Y).

C'est la variable statistique associe la rgression de X en Y. L'quation de la droite ajuste par la mthode des moindres carrs ordinaires aux couples (yj, xi) a pour quation : (x ) = (y )
Nous avons les proprits suivantes, analogues aux prcdentes : Cov (Y, X | Y) = Cov (Y, X) = Cov (X, Y) s 2 ( X | Y) = s 2 (X)
III.4.2.3. Coefficient de corrlation linaire.

Les variables (X, Y | X) et (Y, X | Y) reprsentent un rsum de la variable Z = (X, Y). Il est ncessaire de dfinir un nouveau paramtre pour mesurer la validit de ce rsum. On appelle coefficient de corrlation linaire le rapport : r=
Proprits du coefficient de corrlation linaire.

1. Coefficient de corrlation linaire et rapport de corrlation. Le carr du coefficient de corrlation linaire, qu'on appelle aussi le coefficient de dtermination, est donn par la formule : r2 = = =
Il dtermine la part de variance de Y qui est explique par la rgression linaire de Y en X (ou, respectivement, la part de variance de X explique par la rgression linaire de X en Y). Le coefficient de dtermination joue donc, pour la rgression linaire de Y en X, le mme rle que le
Page 55
rapport de corrlation pour la rgression de Y en X. En particulier, pour la ligne de rgression de Y en X, nous avions trouv, pour carr moyen minimum, la variance rsiduelle sw 2 (Y) = (1 2Y | X) s 2 (Y). Pour la rgression linaire de Y en X, la valeur minimum du carr moyen est (1 r 2) s 2 (Y). Cette valeur minimum est ncessairement plus grande que la variance rsiduelle, qui est un minimum absolu : 0 0 0 (1 2Y | X) s 2 (Y) (1 2Y | X) r2 2Y | X 1 (1 r 2) s 2 (Y) 1 s 2 (Y)
(1 r 2)
En particulier, le coefficient de corrlation linaire r est compris entre 1 et 1 : 1 r 1.
L'galit de r 2 et de 2Y | X traduit la proprit que la ligne de rgression de Y en X est une droite ; on dit alors que Y prsente une corrlation linaire avec X. 2. Cas o r = 0. S'il n'y a pas de corrlation entre Y et X, 2Y | X est nul donc aussi r = 0. Dans ce cas, les droites de rgression sont parallles aux axes. Nous ne pouvons pas en conclure l'indpendance de X et de Y. 3. Cas o r 2 = 1. Si r 2 = 1, alors 2Y | X = 1, il y a une relation fonctionnelle liant X et Y. Et cette relation fonctionnelle est linaire. En effet, dire que r 2 = 1, c'est dire que Cov 2 (X, Y) = s 2 (X) s 2 (Y). Dans ce cas : s 2 (a + b X Y) = s 2 (X) b se rduit, avec b = + s 2 (Y) 1 .
, s 2 (a + b X Y) = 0, ce qui veut dire que tous les points sont sur la
droite ajuste par la mthode des moindres carrs : il existe une relation fonctionnelle linaire entre X et Y, Y = a + b X, avec b > 0 si r = 1, et b < 0 si r = 1. Plus r est proche de 1 ou de 1, plus la corrlation linaire est forte.
III.4.2.4. Prdicteur et estimation.

En l'absence d'information, l'estimation la meilleure que nous puissions donner d'une valeur inconnue prise par Y est sa moyenne . Si Y est en corrlation avec X, la connaissance de la valeur xi de X, permet d'amliorer l'estimation de Y. Nous dirons que et Y | X sont des prdicteurs de Y.
Page 56
Nous avons : m( ) = et m ( Y | X) = s2 ( ) = sb 2 (Y) = 2Y | X s 2 (Y) et s 2 ( Y | X) = r 2 s 2 (Y)
La mesure de la validit d'un prdicteur de Y se mesure par le rapport de sa variance la variance de Y: = r 2 et = 2Y | X
Plus le rapport est proche de 1, plus la variance du prdicteur est proche de la variance de Y, donc plus la variance rsiduelle est faible et moins le nuage de points est dispers autour du prdicteur, donc meilleur est le prdicteur. 2Y | X ou r 2 mesure donc la prcision du prdicteur et nous pouvons dire que est un prdicteur meilleur que Y | X, puisque 2Y | X est plus grand que r 2.
III.4.2.5. Gnralisation du modle.

L'ajustement linaire peut, par des changements de variables, permettre l'ajustement d'autres modles non linaires. 1. Modle exponentiel. Si l'tude de la corrlation entre Y et X met en vidence que le taux de variation instantan de Y par rapport X est constant (X pouvant tre la variable "temps", dans le cas d'une chronique, ou srie chronologique), alors nous avons, thoriquement : = k dx, soit y = y0 c x. En posant z = ln y, a = ln y0, b = ln c, il vient z = a + b x. On est ramen un modle linaire. Dans la pratique, on vrifie si le taux de variation exprimental est sensiblement constant en calculant, pour chaque intervalle x le rapport . La mise en vidence de ce modle est obtenue en utilisant un papier semi-logarithmique, avec une chelle logarithmique en ordonne et une chelle arithmtique en abscisse. Un tel modle est trs utilis en matire conomique : tude des fonctions de production, de consommation, tude du chiffre d'affaire, etc. 2. Modle lasticit constante. Si l'tude de la corrlation entre Y et X met en vidence que l'lasticit est constante, nous avons thoriquement (l'lasticit est le rapport entre la variation relative de y et la variation relative de x) : =k , soit y = y0 x b.
Si nous posons z = ln y, t = ln x, a = ln y0, nous avons z = a + b t. On est ramen un modle linaire. Dans la pratique, on vrifie que l'lasticit est constante en calculant, pour chaque intervalle x, le rapport .
Page 57
La mise en vidence de ce modle est obtenue en utilisant un papier log-log, avec une chelle logarithmique en abscisses et une chelle logarithmique en ordonnes. Un tel modle est, lui aussi, trs utilis en matire conomique : tude des dpenses pour un poste particulier relativement aux dpenses totales du mnage.
Cours de Statistique - Chapitre 4 - Rgression orthogonale
Page 58
Chapitre 4 - REGRESSION ORTHOGONALE DANS R.

4. 1. NOTION D'ESPACE VECTORIEL EUCLIDIEN.
4.1.1. Espace vectoriel R n.
Soit n un entier strictement positif et R le corps des nombres rels. L'ensemble R n des n-uples (x1, ... , xn) de nombres rels est muni de sa structure usuelle d'espace vectoriel rel, dfinie par les oprations : (x1, ... , xn) + (x'1, ... , x'n) = (x1 + x'1, ... , xn + x'n) (x1, ... , xn) = ( x1, ... , xn), R. Notations.
On identifiera un lment X = (x1, ... , xn) de R n avec la matrice X =
n lignes et 1 colonne.
La transpose de cette matrice est la matrice tX =
x1 ... xn
1 ligne et n colonnes.
Les oprations dans R n sont alors dfinies par des oprations sur les matrices : Addition :
x1 ... xn Multiplication par un scalaire :
x'1 ... x'n
x1 + x'1 ... xn + x'n
x1 ... xn
= x1 ... xn
Dans R n, les n lments ei, i {1, ... , n}, dont toutes les coordonnes sont nulles, sauf la ie qui vaut
Page 59
1, forment une base, appele la base canonique de R n. Tout lment X = (x1, ... , xn) de R n s'crit de manire unique sous la forme X= xi ei
4.1.2. Produit scalaire dans R n.

Soit une application de R n R n dans R. On notera aussi < X | | Y > ou < X | Y >, le nombre rel (X, Y).
4.1.2.1. Dfinition.
On appelle produit scalaire dans R n toute application de R n R n dans R qui possde les proprits suivantes : a) Bilinarit. Linarit par rapport la premire variable : (X + X', Y) = (X, Y) + (X', Y) et ( X, Y) = (X, Y), quels que soient dans R, X, X' et Y dans R n ; cette proprit s'crit aussi < X + X' | | Y > = < X | | Y > + < X' | | Y > Linarit par rapport la deuxime variable : (X, Y + Y') = (X, Y) + (X, Y') et (X, Y) = (X, Y), quels que soient dans R, X, Y et Y' dans R n ; cette proprit s'crit aussi < X | | Y + Y' > = < X | | Y > + < X | | Y' > b) Symtrie. (X, Y) = (Y, X), quels que soient X et Y dans R n : <X||Y>=<Y||X> c) Positivit. (X, X) est un nombre rel suprieur ou gal 0, quel que soit X dans R n : <X||X>0 d) Non dgnrescence. (X, X) = 0 entrane X = 0 :
Page 60
< X | | X > = 0 X = 0. Autrement dit, le vecteur 0 = (0, ... , 0, ... , 0) de R n est l'unique solution de l'quation (X, X) = 0. On dit aussi qu'un produit scalaire sur R n est une forme bilinaire symtrique positive non dgnre. Le mot "forme" fait simplement rfrence au fait que les valeurs sont des scalaires. Lorsqu'il est muni d'un produit scalaire, R n est appel un espace vectoriel euclidien.
4.1.2.2. Exemples.
a) Produit scalaire canonique. L'application de R n R n dans R dfinie par :
((x1, ... , xn), (y1, ... , yn))
< X | Y > = tX Y =
x1 ... xj ... xn
xi yi
est un produit scalaire sur R n qu'on appelle le produit scalaire canonique de R n. En effet, les proprits de bilinarit, de symtrie, de positivit et de non dgnrescence sont pratiquement videntes vrifier. b) Produit scalaire dfini par une matrice diagonale lments positifs. Considrons une matrice relle M n lignes et n colonnes dont tous les lments en dehors de la diagonale principale sont nuls (mij = 0, quels que soient les entiers i et j dans {1, ... , n} avec i j) (on dit alors que M est une matrice diagonale) et dont les lments de la diagonale principale sont des nombres rels strictement positifs (mii > 0 quel que soit l'entier i dans {1, ... , n}). Alors l'application :
(X, Y)
< X | M | Y > = tX M Y =
x1 ... xj ... xn
= ij mij xj yi = i mii xi yi
est un produit scalaire sur R n. La matrice M est appele la matrice des poids (les "poids" sont les lments de la diagonale). En effet, les proprits de bilinarit, de symtrie, de positivit et de non dgnrescence sont pratiquement videntes vrifier. Le produit scalaire canonique correspond au cas o la matrice M est la matrice unit In (tous les lments de la diagonale sont gaux 1 et les lments en dehors de la diagonale sont 0) : tous les poids sont gaux 1. Autre exemple : M = D = In. Tous les poids sont gaux et la somme des poids vaut 1.
Page 61
4.1.2.3. Proprits.
a) Matrice d'un produit scalaire. Pour tout produit scalaire sur R n, on peut crire :
(X, Y) = (i xi ei, j yj ej) = ij (ei, ej) xi yj = x1 ... xi ... xn M
Cette matrice est une matrice symtrique : (ei, ej) = (ej, ei).
La matrice M = [ (ei, ej)] s'appelle la matrice du produit scalaire dans la base canonique. Les lments de sa diagonale sont des nombres rels strictement positifs : (ei, ei) > 0. Remarquons ces proprits ne sont pas suffisantes : une matrice symtrique dont les lments de la diagonale sont des nombres rels strictement positifs ne dfinit pas forcment un produit scalaire. Par exemple, la matrice a un dterminant qui vaut 3 < 0, donc elle possde deux valeurs (x1, x2)
propres relles de signe oppos (3 et 1) et la forme bilinaire ((x1, x2),(y1, y2))
qu'elle dfinit n'est pas un produit scalaire car le "produit scalaire" du vecteur propre (1, 1) pour la valeur propre ngative, par lui-mme, est un nombre rel strictement ngatif ((1 1) = 2). La matrice n'est donc pas la matrice d'un produit scalaire sur R , bien qu'elle soit symtrique et
que les lments de sa diagonale soient strictement positifs. En ralit, pour qu'une matrice carre symtrique relle soit la matrice d'un produit scalaire, il faut et il suffit que toutes ses valeurs propres, qui sont toujours des nombres rels, soient strictement positives. Ce rsultat sera dmontr, dans sa gnralit, en analyse. b) Norme d'un vecteur. Si est un produit scalaire sur R n, le nombre rel positif || X || = s'appelle la -norme de
X, ou -longueur de X. Quand il n'y a pas de confusion craindre, on parlera simplement de norme ou de longueur, qu'on notera || X || au lieu de || X ||. On dit qu'un vecteur est norm pour si sa -longueur est 1. Par exemple, dans R muni du produit scalaire canonique, la longueur de X = (x1, x2) est || X || = et le vecteur (1, 0) est norm. c) Angle de deux vecteurs. Etant donns deux vecteurs X et Y de R n et un produit scalaire sur R n, pour tout nombre rel , on a:
Page 62
(Y, Y) + ( (Y, X) + (X, Y)) + (X, X) 0 (Y, Y) + 2 (X, Y) + (X, X) 0 || Y || + 2 < X | Y > + || X || 0 Comme cette relation est vraie pour tout nombre rel , c'est que le discriminant de ce trinme du deuxime degr est ngatif : (< X | Y >) || X || || Y || 0 | < X | Y > | || X || || Y ||
(X + Y, X + Y) = || X + Y || 0
Cette ingalit, valable pour tous vecteurs X et Y de R n constitue l'ingalit de Schwarz. Si les deux vecteurs X et Y sont diffrents de 0, leur longueur n'est pas nulle, le produit de leurs longueurs n'est pas nul, le rapport est compris entre 1 et 1, et il existe donc un angle compris entre 0 et radians dont le cosinus est gal au rapport Par dfinition, cet angle unique compris entre 0 et , vrifiant : cos = = .
est appel l'angle des deux vecteurs non nuls X et Y. d) Orthogonalit. Etant donns deux vecteurs X et Y de R n et un produit scalaire sur R n, on dit que X et Y sont orthogonaux (ou simplement "orthogonaux" s'il n'y a pas de confusion craindre) si, et seulement si, leur produit scalaire est nul : (X, Y) = < X | Y > = 0 Exemples : 0 est -orthogonal tout vecteur de R n. L'angle de deux vecteurs non nuls -orthogonaux est
La base canonique de R n muni du produit scalaire canonique est forme de vecteurs norms orthogonaux deux deux : on parle alors de base orthonorme. e) Projet orthogonal. Soient X et Y deux vecteurs non nuls de R n et un produit scalaire sur R n. Il existe un unique vecteur Z de R n, proportionnel Y et tel que X Z soit orthogonal Y. Dmonstration. Pour tout vecteur Z on peut crire :
Page 63
< X Z | Y > = < X | Y > < Z | Y > Si l'on prend un Z proportionnel Y, on a Z = a Y, donc : < X Z | Y > = < X | Y > a < Y | Y > = < X | Y > a || Y ||. Pour que X Z soit orthogonal Y., soit < X Z | Y > = 0, il faut et il suffit que l'on prenne a = L'unique vecteur Z = . Y, proportionnel Y et tel que X Z soit orthogonal Y, s'appelle le
projet orthogonal de X sur Y. Proprit du projet orthogonal. Le projet orthogonal Z0 de X sur Y est le vecteur Z de R n proportionnel Y, qui minimise || X Z ||. Dmonstration. Soit Z un vecteur proportionnel Y. Soit Z0 = Y le projet orthogonal de X sur Y. || X Z || = || X Z0 + Z0 Z || . Comme Z est proportionnel Y et que Z0 est proportionnel Y, la diffrence Z0 Z est proportionnelle Y. Or X Z0 est orthogonal Y, donc X Z0 est orthogonal Z0 Z qui est proportionnel Y. Il est rsulte que l'on a : || X Z || = || X Z0 + Z0 Z || = || X Z0 || + || Z0 Z || || X Z0 ||. Et cette ingalit montre que || X Z || atteint son minimum lorsque Z = Z0.
4.2. APPROCHE EUCLIDIENNE DE LA REGRESSION.

Considrons une variable statistique quantitative bidimensionnelle (X, Y) valeurs dans R , dfinie dans une population de taille n. Elle est dfinie par l'ensemble des couples { (X (), Y ()) } .
R est l'espace des individus. La variable statistique est reprsente par un nuage de points dans R et chaque point du nuage statistique reprsente un individu de la population .
4.2.1. Espace des variables.

Les n valeurs X () de X pour les n individus de la population peuvent tre considres comme les
Page 64
coordonnes d'un vecteur de R n. Ce vecteur est not encore X = .
Les n valeurs Y () de Y pour les n individus de la population peuvent tre considres comme les coordonnes d'un vecteur de R n. Ce vecteur est not encore Y = .
L'espace E = R n apparat alors comme l'espace des variables. Chaque lment de E peut tre considr comme les valeurs d'une variable statistique quantitative relle dfinie sur .
4.2.2. Produit scalaire.

Dans cet espace des variables, la matrice D = colonnes, dfinit un produit scalaire : <X|Y> In, o In est la matrice unit n lignes et n
= < X | D | Y > = i
xi y i =
i xi y i =
<X|Y>
en notant < X | Y > le produit scalaire canonique de R n.
On note 1 n =
le vecteur dont toutes les coordonnes sont gales 1.
On l'appelle le vecteur unit de R n. On remarquera que ce vecteur unit est norm, sa longueur est || 1 n || = i 1 1 = n = 1.
4.2.3. Moyenne d'une variable statistique.

La moyenne de la variable statistique X est donne par : = X () = i x i = i xi 1 = < X | D | 1 n >. = < X | 1 n >
La moyenne de X est le produit scalaire de X par le vecteur unit 1 n. Notons X0 la variable centre correspondant X : pour chaque individu de la population, sa valeur est X () :
Page 65
X0 =
=X
1 n.
X = X0 +
1 n = X0 + < X | 1 n >
1n
4.2.4. Variance d'une variable statistique.

s (X) = = i (xi ) = < X0 | D | X0 > = || X0 ||
s (X) = || X0 || La variance de X est le carr de la norme de la variable centre.
4.2.5. Covariance.
La covariance de deux variables quantitatives relles X et Y dfinies sur est la moyenne du produit des variables centres : Cov (X, Y) = i (xi )(yi ) = < X0 | D | Y0 > = < X0 | Y0 >
Cov (X, Y) = < X0 | D | Y0 > = < X0 | Y0 > La covariance est le produit scalaire des variables centres.
4.2.6. Coefficient de corrlation linaire.
rXY =
= cos (X0, Y0)
rXY = cos (X0, Y0) Le coefficient de corrlation linaire est le cosinus de l'angle des variables centres.
4.2.7. Prdicteur linaire.

Soient Y la variable expliquer, X la variable explicative, X0 et Y0 les variables centres. Le prdicteur linaire Y | X est y * = a + b x ou y* = b (x ), soit y0* = b x0. Il est reprsent par la droite de rgression de Y en X dans l'espace des individus.
Page 66
Le coefficient b s'obtient par b =
D'aprs ce qui prcde (4.1.2.3.e), b X0 =
X0 est le projet orthogonal de Y0 sur X0, Y0 b
X0 est orthogonal X0 et b est la valeur qui minimise l'expression S= i (Y0i b X0i) = || Y0 b X0 || = s (Y b X) = s (Y a b X) = s (Y Y*) = s (Y0 Y0*) Le prdicteur linaire de la variable centre Y0 est le projet orthogonal de Y0 sur X0 dans R n. C'est la variable Y0* qui minimise la variance de Y0 Y0*. Nous avons alors : s (Y) = || Y0 || = || Y0 b X0 + b X0 || = S min + = || Y0 b X0 || + || b X0 || s (Y)
s (Y) = S min + b || X0 ||
s (X) = S min +
s (Y) = S min + rXY s (Y). Nous retrouvons la variance rsiduelle S min et la variance explique par la rgression rXY s (Y). De faon symtrique, si X est la variable explicative et Y la variable explicative, nous aurons une expression : s (X) = S' min + rXY s (X). avec la variance rsiduelle S' min et la variance explique par la rgression rXY s (X).
Page 67
4. 3. REGRESSION ORTHOGONALE. AXE PRINCIPAL.

Soit R l'espace des individus, muni du produit scalaire canonique et de la base canonique {e1, e2} qui, on l'a vu, est orthonorme pour ce produit scalaire. Si aucune des variables statistiques, X ou Y ne peut s'interprter par rapport l'autre, il n'y a pas de raison de privilgier la rgression linaire de Y par rapport X ou la rgression linaire de X par rapport Y. Nous sommes alors conduits un autre point de vue, celui de la rduction des donnes.
4.3.1. Introduction.
Nous cherchons alors dans R une droite (D) qui minimise la somme S des carrs des distances des points du nuage de points la droite. La solution est donne par la droite de rgression orthogonale. a) Calcul du terme constant a. L'quation de la droite de rgression orthogonale est de la forme y = a + b x. b est la tangente de l'angle de la droite avec l'axe des abscisses : b = tan . || Mi mi || = cos (yi a b xi) = (yi a b xi) En introduisant le point moyen ( , ), on peut crire : || Mi mi || = )) = +2 (yi b (xi ) )) + ( ab ) ) (yi b (xi )+( ab
( ab
(yi b (xi
Les relations Il reste :
yi et
xi entranent que le dernier terme de la somme est nul.
|| Mi mi || =
(yi b (xi
)) +
( ab
Quel que soit la valeur de b, cette somme sera la plus petite possible lorsque le deuxime terme est nul : = a + b . Ce rsultat signifie que le point moyen est sur la droite de rgression orthogonale et que, lorsque b est connu, le terme constant a est donn par : a= b
Puisque le point moyen G = ( , ) est sur la droite de rgression orthogonale, nous le prendrons comme origine dans R . La droite de rgression orthogonale a une quation de la forme
Page 68
y0 = b x0, avec y0 = y et x0 = x .
b) Analyse en composantes principales (ACP). En fait, la forme de la relation prcdente fait disparatre la symtrie initiale entre les rles de X et Y : ce n'est pas sous cette forme que nous exprimerons l'quation de la droite (D) de rgression orthogonale. Etant donne une droite (D) passant par l'origine G, on considre plutt le vecteur unitaire de orthogonal la droite (D) : u1 = , avec + = 1. . > = 0, soit x0 + y0 = 0.
2
Le vecteur unitaire u port par la droite (D) est u =
La droite (D) est l'ensemble des points M = (x, y) vrifiant < u1 |
Etant donn un point Mi du nuage de points et sa projection orthogonale mi sur la droite D, le vecteur est le projet orthogonal de sur le vecteur u : =< | u > u = ( xi0 yi0) = = ( xi0 + yi0)
= ||
( xi0 yi0)
|| = ( xi0 + yi0) ( )
= ( xi0 + yi0) ( + ) = ( xi0 + yi0)
|| Mi mi || =
( xi0 + yi0) = < X0 + Y0 | D | X0 + Y0 > = || X0 + Y0 || .
La recherche de la droite de rgression orthogonale se ramne donc une question que l'on peut envisager d'un double point de vue : soit rechercher, dans l'espace des individus minimise la somme S = || Mi mi || = ( xi0 + yi0) ,
2
, un vecteur unitaire u1 =
, avec + = 1, qui
soit rechercher, dans l'espace des variables R n, un vecteur X0 + Y0, combinaison linaire fictive des deux variables centres X0 et Y0, avec + = 1, qui minimise || X0 + Y0 || , c'est-dire un vecteur de l'hyperplan dfini par X0 et Y0, de norme minimum pour le produit scalaire dfini par la matrice diagonale D , sous la contrainte + = 1. Sous la deuxime forme, la rsolution du problme est appele l'analyse en composantes principales.
Page 69
4.3.2. Dfinitions.
Appellons Z la matrice des variables centres,
a) Inertie totale. On appelle inertie totale du nuage de points de R par rapport l'origine G des axes, la quantit : IT = b) Inertie statistique. On appelle inertie statistique du nuage de points de R par rapport une direction de R dfinie par un vecteur unitaire u, la quantit : IS (u) = o est le projet orthogonal de sur u. || || || || = (xi0 + yi0 ) = s (X) + s (Y).
Le rapport
est le taux d'inertie totale explique par la direction u.
Par exemple, l'inertie statistique du nuage de points par rapport l'axe des x est la variance de X et l'inertie statistique du nuage de points par rapport l'axe des y est la variance de Y. c) Inertie mcanique. On appelle inertie mcanique du nuage de points de R par rapport une direction dfinie par un vecteur unitaire u, la quantit : IM (u) = o est le projet orthogonal de sur u. || ||
Par exemple, l'inertie mcanique du nuage de points par rapport l'axe des x est la variance de Y et l'inertie mcanique du nuage de points par rapport l'axe des y est la variance de X. Le thorme de Pythagore || || = || || + || || entrane :
IM (u) = IT IS (u). d) Axes principaux, ou factoriels. On appelle premier axe factoriel du nuage de points de R , l'axe dont la direction dfinie par un vecteur unitaire u maximise l'inertie statistique IS (u).
Page 70
La direction dfinie par le vecteur u est appele la direction principale, ou direction factorielle. On remarquera que, comme le premier axe factoriel maximise IS (u), il minimise IM (u) : il donne donc la solution de notre problme, c'est--dire la droite de rgression orthogonale. e) Matrice des variances-covariances. Pour u = , l'inertie statistique IS (u) = || || s'crit, avec =< | u > u = ( xi0 yi0)
, sous la forme :
IS (u) =
( xi0 yi0) =
xi0 +
yi0 2
xi0 yi0
Et comme on sait que : xi0 = s (X), l'inertie statistique devient : IS (u) = s (X) + s (Y) 2 Cov (X, Y) = ( ) La matrice A= = = tu A u yi0 = s (Y), xi0 yi0 = Cov (X, Y),
s'appelle la matrice des variances-covariances. En introduisant la matrice Z = s'crit sous les formes : des variables centres, la matrice des variances-covariances
A=
Z Z = tZ D Z
et l'inertie totale est la trace de cette matrice, somme des lments diagonaux s (X) et s (Y) : IT = Tr (A) 1 e remarque : valeurs propres. La matrice des variances-covariances A est, comme on le voit, symtrique relle. Une valeur propre de A est un nombre rel tel qu'il existe un vecteur v non nul vrifiant A v = v. Les valeurs propres de A sont donc les nombres rels tels que le noyau de l'endomorphisme
Page 71
(application linaire de R dans R ) dfini par la matrice A I2 ne soit pas rduit 0. Dire que le noyau n'est pas rduit 0, c'est dire que l'application linaire n'est pas injective, donc qu'elle n'est pas bijective (puisque, dans R , injective = bijective) : pour cela, il faut et il suffit que son dterminant soit nul. Les valeurs propres sont donc les solutions de l'quation : Dt (A I2) = 0 (s (X) + s (Y)) + s (X) s (Y) (Cov (X, Y)) = 0 Le discriminant de cette quation du deuxime degr est : (s (X) + s (Y)) 4 (s (X) s (Y) (Cov (X, Y)) ) = (s (X) s (Y)) + 4 (Cov (X, Y)) 0 La matrice A possde donc, ainsi qu'on l'avait dj dit pour toute matrice symtrique relle, deux valeurs propres relles 1 et 2 : la somme de ces valeurs propres est la trace de la matrice, somme des lments de la premire diagonale : 1 + 2 = s (X) + s (Y) 0. le produit de ces valeurs propres est le dterminant de la matrice : 1 2 = s (X) s (Y) (Cov (X, Y)) 0 (d'aprs l'ingalit de Schwarz). Les deux valeurs propres de la matrice des variances-covariances sont donc des nombres rels positifs : il est trs improbable que l'une soit nulle (il faudrait, pour cela, que le coefficient de corrlation linaire soit rigoureusement gal 1, en valeur absolue, ce qui ne saurait se produire que si X et Y sont dduits l'un de l'autre par une relation linaire, ou si X et Y sont constantes. Il est trs improbable aussi que les deux valeurs propres soient gales : il faudrait pour cela que la covariance de X et Y soit strictement gale 0 et que les variances de X et Y soient strictement gales, ce qui ne se produit jamais en pratique. Dans le cas gnral, on peut donc appeler 1 et 2 les valeurs propres de la matrice des variancescovariances, ranges par ordre dcroissant : 1 > 2 > 0. 1 = 2 = s (X) + s (Y) + s (X) + s (Y)
2 e remarque : vecteurs propres. On dmontre aussi, en algbre, que R possde une base propre orthonorme, c'est--dire une base { u1, u2 }, orthonorme pour le produit scalaire canonique, forme de vecteurs propres de la matrice A: A u1 = 1 u1 et A u2 = 2 u2, avec
Page 72
|| u1 || = 1, || u2 || = 1, < u1 | u2 > = 0. Ces vecteurs propres peuvent se calculer. Soit une valeur propre. On a : = = = =0
donc le vecteur
est un vecteur propre pour la valeur propre .
Le carr de la norme de ce vecteur pour le produit scalaire canonique est donn par : (s (Y) Cov (X, Y)) = (s (Y) ) + (Cov (X, Y))
On peut donc prendre pour vecteur norm relatif la valeur propre , le vecteur u= Le produit scalaire des deux vecteurs propres ainsi obtenu est nul, parce que la relation 1 + 2 = s (X) + s (Y) entrane : (s (Y) 1 Cov (X, Y)) = (2 s (X) 0 Les deux vecteurs coordonnes n'est pas nul : Cov (X, Y) (s (Y) 1) + Cov (X, Y) (s (Y) 2) = Cov (X, Y) (1 2) 0 de sorte que les deux vecteurs ne sont pas proportionnels. Les deux vecteurs : et forment une base de R parce que le dterminant de leurs Cov (X, Y)) = Dt (A 2 I2) =
u1 = u2 = forment donc une base propre orthonorme de R . Remarquons que, au lieu de prendre pour vecteur propre pour la valeur propre , le vecteur , on aurait pu prendre aussi le vecteur qui lui est proportionnel (le dterminant de la matrice de ces vecteurs est le dterminant de la matrice A I2).
Page 73
4.3.3. Diagonalisation de la matrice des variances-covariances.
Soit V =
la matrice des coordonnes des
vecteurs propres u1 et u2. V e1 = u1, V e2 = u2. V donne, par produits, pour image d'une base orthonorme, une base orthonorme : c'est ce qu'on appelle une matrice "orthogonale", ce qui veut dire que son inverse est gale sa transpose : V 1 = tV Pour le vrifier, remarquons que, puisque les bases { e1, e2 } et { u1, u2 } sont orthonormes, les coordonnes des vecteurs s'obtiennent par produits scalaires : u1 = < u1 | e1 > e1 + < u1 | e2 > e2 u2 = < u2 | e1 > e1 + < u2 | e2 > e2 de sorte que la matrice V, qui a, pour colonnes, les vecteurs u1 et u2 dans la base { e1, e2 }, est : V= et les relations inverses : e1 = < e1 | u1 > u1 + < e1 | u2 > u2 e2 = < e2 | u1 > u1 + < e2 | u2 > u2 montrent que la matrice inverse de V est la matrice : V 1 = qui, compte tenu de la symtrie du produit scalaire, est la transpose de V. V 1 = = tV
Il rsulte alors des relations V e1 = u1 et V e2 = u2, que l'on a :

t
V u1 = V 1 u1 = e1 ; t V u2 = V 1 u2 = e2 , matrice diagonale des valeurs propres de A.
Considrons maintenant la matrice =
Page 74
A est la matrice, dans la base canonique { e1, e2 }, d'un endomorphisme f. Cet endomorphisme f se rduit deux homothties, de rapport 1 selon le vecteur u1, et de rapport 2 selon le vecteur u2. est donc la matrice, dans la base propre { u1, u2 }, de l'endomorphisme f. La matrice de l'application identique de R muni de la base { u1, u2 } dans R muni de la base { e1, e2 } donne, par produits, pour image du vecteur u1 = le vecteur u1 = le vecteur u2 =
et, pour image du vecteur u2 =
. C'est donc la matrice V des vecteurs propres.
V = [ Id , { u1, u2 }, { e1, e2 }]. Rciproquement, la matrice de l'application identique de R muni de la base { e1, e2 } dans R muni de la base { u1, u2 } donne, par produits, pour image du vecteur e1 = le vecteur e1 =
et, pour image du vecteur e2 =
le vecteur e2 =
. C'est donc la matrice tV transpose et inverse de la matrice V des
vecteurs propres.
t
V = [ Id , { e1, e2 }, { u1, u2 }].
Le diagramme commutatif suivant : R , { e1, e2 } R , { e1, e2 }
R , { u1, u2 }
R , { u1, u2 }
met en vidence la relation f = Id o f o Id. En termes de produit de matrices, cette relation s'crit : = V A tV, d'o l'on dduit aussitt
Page 75
A = tV V. On dit qu'on a diagonalis la matrice A.
4.3.4. Recherche des axes principaux.

Pour un vecteur norm u, posons v = V u. On a tv = tu tV. || v || = tv v = tu tV V u = tu u = || u || = 1. Le vecteur v est norm lui aussi. L'inertie statistique par rapport u s'crit : IS (u) = tu A u = tu tV V u = tv v. Dans R rapport la base { u1, u2 }, notons v = IS (u) = tv v = (v1 v2) . = 1 v1 + 2 v2,
avec v1 + v2 = 1 Le problme de la recherche de la droite de rgression orthogonale se ramne maintenant la rsolution du problme suivant : Maximiser 1 v1 + 2 v2, sous la contrainte v1 + v2 = 1, avec 1 > 2 > 0. C'est maintenant un problme facile rsoudre : IS (u) = 1 v1 + 2 v2 = 1 (1 v2) + 2 v2 = 1 (1 2) v2 La quantit 1 (1 2) v2 avec 1 > 2 atteint sa valeur maximum 1 lorsqu'on prend v2 = 0, donc | v1 | = 1. La direction du premier axe factoriel est donc dfinie par le vecteur v de coordonnes { u1, u2 } : v = u1. IS (u1) = 1 D'o le rsultat, qu'on peut noncer sous forme de thorme : La direction du premier axe factoriel est dfinie par le vecteur propre associ la plus grande valeur propre de la matrice des variances-covariances. Le premier axe factoriel est la droite de rgression orthogonale. Comme corollaire, la direction perpendiculaire au premier axe factoriel dfinit le deuxime axe dans la base
Page 76
factoriel : elle est dfinie par le vecteur propre associ la plus petite valeur propre de la matrice des variances-covariances. Le deuxime axe factoriel minimise l'inertie statistique IS (u) : IS (u) = 2 lorsque | v2 | = 1, donc v1 = 0 et v = mme). IS (u2) = 2 Le taux d'inertie totale explique par le premier axe factoriel est le rapport . Le taux d'inertie totale explique par le deuxime axe factoriel est le rapport . La relation 1 + 2 = s (X) + s (Y) (la somme des valeurs propres est la trace de la matrice des variances-covariances) s'crit : IS (u1) + IS (u2) = IT. La somme des inerties statistiques par rapport aux deux axes factoriels est l'inertie totale du nuage de points. Chaque valeur propre de la matrice des variances-covariances correspond l'inertie explique par l'axe factoriel correspondant. = = = = = u2 par exemple (on pourrait prendre aussi, bien sr, v = u2, la direction dfinie serait la
4.3.5. Coordonnes factorielles et composantes principales.

Dans R rapport la base propre orthonorme { u1, u2 }, les coordonnes des vecteurs s'appellent les coordonnes factorielles. Comme la base { u1, u2 } est orthonorme, les coordonnes factorielles s'obtiennent par produit scalaire : =< | u1 > u1 + < | u2 > u2
Or la base canonique { e1, e2 } est, elle-mme, orthonorme et l'on a, par consquent : =< d'o : < < | u1 > = xi0 < e1 | u1 > + yi0 < e2 | u1 > | u2 > = xi0 < e1 | u2 > + yi0 < e2 | u2 > | e1 > e1 + < | e2 > e2 = xi0 e1 + yi0 e2
Les coordonnes factorielles s'obtiennent donc par la formule matricielle :
Page 77
= tV
= tV
= tV
La matrice tV est ce qu'on appelle la matrice du changement de base. Elle donne les nouvelles coordonnes (sur la base { u1, u2 }) en fonction des anciennes (sur la base { e1, e2 }). Nous avons vu plus haut que cette matrice est la matrice de l'application identique, de base { u1, u2 } dans 2 muni de la base { e1, e2 }. Les relations :
2
muni de la
(<
| u1 > <
| u2 >) =
= (xi0 yi0) V, pour i { 1, ... , n },
peuvent se condenser en une seule formule matricielle : L=ZV formule dans laquelle :
L=
est la matrice, n lignes et 2 colonnes, dont les lignes sont les coordonnes factorielles du nuage de points dans R muni de la base { u1, u2 }, Z=
est la matrice, n lignes et 2 colonnes, dont les colonnes sont les variables centres X
et Y ,
V=
est la matrice des coordonnes des vecteurs propres orthonorms { u1, u2 } de la matrice des
Page 78
variances-covariances, dans la base canonique { e1, e2 }. Les deux colonnes de la matrice L sont des lments de l'espace des variables R n : on les appelle les composantes principales de la variable statistique (X, Y). La premire colonne de la matrice V est le vecteur propre u1. La premire colonne de la matrice L = Z V est donc le vecteur L1 = Z u1. De mme, la deuxime colonne de la matrice L est le vecteur L2 = Z u2. Les deux composantes principales L1 et L2 de la variable statistique (X, Y) s'obtiennent ainsi par les formules :
L1 = L2 =
u1 = u2 =
avec les valeurs propres 1 et 2 de la matrice

t
A= des variances-covariances : 1 = 2 =
Z Z = tZ D Z =
s (X) + s (Y) + s (X) + s (Y)
4.3.6. Proprits des composantes principales.

a) Les composantes principales sont centres. = < L1 | D | 1 n > =
t
< Z u1 | 1 n > = =
(Z u1) 1 n = =
u1 tZ 1 n
Z 1n =
puisque les variable X0 et Y0 sont centres. Il reste donc : = De mme :

t
u1
=0
Page 79
= < L2 | D | 1 n > =
< Z u2 | 1 n > =
(Z u2) 1 n =
u2 tZ 1 n =
u2
= 0.
b) La variance d'une composante principale est la valeur propre correspondante. Comme les composantes principales sont centres, leur variance est le carr de leur norme pour le produit scalaire dfini par D :
t t
s (L1) = || L1 ||
t
= < L1 | D | L1 > =
L1 L1 =
u1 tZ Z u1
ZZ=A
s (L1) = tu1 A u1 = tu1 1 u1 = 1 || u1 || = 1 De mme : s (L2) = < L2 | D | L2 > =

t
L2 L2 =
u2 tZ Z u2
= tu2 A u2 = tu2 2 u2 = 2 || u2 || = 2 c) Les composantes principales sont non corrles. Cov (L1, L2) = < L1 | D | L2 > = =
t t
L1 L2 =
u1 tZ Z u2
u1 A u2 =
< u1 | u2 > = 0
puisque les vecteurs u1 et u2 sont orthogonaux pour le produit scalaire canonique. d) Reconstruction des donnes. Les points du nuage centr sont dfinis par les vecteurs = xi0 e1 + yi0 e2 = < | u1 > u1 + < | u2 > u2.
Les projets orthogonaux de ces vecteurs sur l'axe principal dfini par u1 sont les vecteurs : =< Les vecteurs = + | u1 > u1 = < | u1 > (< u1 | e1 > e1 + < u1 | e2 > e2)
forment ce qu'on appelle l'approximation de rang 1 du nuage de
points dans R . Les points mi sont les projections orthogonales des points Mi sur la droite de rgression orthogonale. L'quation de la droite de rgression orthogonale, sur laquelle se situe l'approximation de rang 1 du nuage de points, peut prendre l'une des formes quivalentes : < (x (x | u2 > = 0
) (s (Y) 2) = (y ) Cov (X, Y) ) (1 s (X)) = (y ) Cov (X, Y)
Page 80
(x (x
) Cov (X, Y) = (y ) (s (Y) 1) ) Cov (X, Y) = (y ) (2 s (X))
Cours de Statistique - Chapitre 5 - Rgression multiple
Page 81
Chapitre 5 - REGRESSION MULTIPLE.

5. 1. POSITION ET RESOLUTION DU PROBLEME.
5.1.1. Position du problme.
[1, n]. Nous considrons Z0 comme la variable expliquer et X0 et Y0 comme les variables explicatives. Considrons trois variables statistiques relles centres X0, Y0, Z0, dfinies par n triplets (x0i, y0i, z0i), i
Nous supposons que les observations laissent penser que le nuage de points dans R pourrait tre modlis par un plan. Le problme de la rgression linaire multiple de Z0 en X0 et Y0 consiste trouver un prdicteur
0
= a X0 + b Y0
de Z0, tel que le nuage de points (x0i, y0i,
nuage de points (x0i, y0i, z0i), i [1, n], au sens des moindres carrs.
0i
= a x0i + b y0i), i [1, n], soit aussi proche possible du
L'approche euclidienne de ce problme dans R n consiste trouver un = || Z0

0
= a X0 + b Y0
tel que S
||
soit minimum. du plan (= sous-espace vectoriel de

0
Le problme est donc de trouver, dans R n, un vecteur
dimension 2) dfini par X0 et Y0, tel que le vecteur Z0 produit scalaire dfini par la matrice des poids D ). La solution sera fournie par le projet orthogonal
ait une longueur minimum (au sens du
de Z0 sur .
5.1.2. Projet orthogonal sur un plan.

a) Dfinition. Si nous connaissons une base orthonorme { u1, u2 } d'un sous-espace vectoriel de dimension 2, dfini dans R n par les deux vecteurs X0 et Y0, nous savons calculer le projet orthogonal de Z0 sur u1, c'est le vecteur u2 > u2 de Z0 sur u2.
0
u1 = < Z 0 | u 1 >
u1 et nous savons calculer aussi le projet orthogonal < Z0 |
On appelle projet orthogonal de Z0 sur . l'unique vecteur . Un tel vecteur existe et est unique.
de tel que Z0
soit orthogonal
Page 82
Dmonstration. Notons
0
le vecteur < Z0 | u1 >
u1 + < Z0 | u2 >
u2, somme des projets orthogonaux de Z0 sur les
vecteurs u1 et u2. < Z0

0
| u1 >
= < Z0 | u1 > < < Z0 | u1 >
<
| u1 > u2 | u1 >
= < Z0 | u1 >
u1 + < Z0 | u2 >
= < Z0 | u1 > < u2 | u1 > = < Z0 | u1 > =0 < Z0

0
< Z0 | u1 >
< u1 | u1 > + < Z0 | u2 >
< Z0 | u1 >
| u2 >
= < Z0 | u2 > < < Z0 | u1 > < Z0 | u1 > < Z0 | u2 >
<
| u2 > u2 | u2 > < u2 | u2 >
= < Z0 | u2 > = < Z0 | u2 > = < Z0 | u2 > =0 Ainsi, Z0

0
u1 + < Z0 | u2 >
< u1 | u2 > + < Z0 | u2 >
est orthogonal u1 et u2, il est donc orthogonal toute combinaison linaire de u1 et
u2, c'est--dire tout lment de : on dit qu'il est orthogonal . Le projet orthogonal de
0
sur u1 est < | u1 > u1 = < Z 0 | u1 > u1.
Le projet orthogonal de
sur u2 est <

0
| u2 >
u2 = < Z 0 | u2 >
u2.
Nous pouvons donc crire :

0
= < Z0 | u1 >
u1 + < Z 0 | u 2 >
u2 = <
| u1 >
u1 + <
| u2 >
u2.
Rciproquement, si Z est un vecteur de tel que Z0 Z soit orthogonal , nous avons : Z = < Z | u1 > Le vecteur : u1 + < Z | u2 > u2 = < Z0 | u1 > u1 + < Z0 | u2 > u2 = 0.
Page 83
= < Z0 | u1 >
0
u1 + < Z0 | u2 >
u2
est donc l'unique vecteur de tel que Z0 orthogonal de Z0 sur . La relation :

0
soit orthogonal : c'est, par dfinition, le projet
=<
| u1 >
u1 + <
| u2 >
u2
signifie que le projet orthogonal de b) Proprit du projet orthogonal.
sur le plan est
Le projet orthogonal de Z0 sur est le vecteur Z de , qui minimise la quantit || Z0 Z || . Dmonstration. Soit Z un vecteur appartenant au sous-espace . Soit
0
= < Z0 | u1 >
u1 + < Z0 | u2 >
u2 le projet orthogonal de Z0 sur . = || Z0 + Z || est orthogonal
|| Z0 Z ||
Or Z0 0 est orthogonal , donc orthogonal tout lment de , donc Z0 et Z, donc aussi 0 Z. Le thorme de Pythagore s'applique : || Z0 + Z || = || Z0
0
||
+ ||
0
Z ||
|| Z0 Z ||
= || Z0
||
+ ||
Z ||
Cette relation montre que || Z0 Z ||
atteint sa valeur minimum || Z0
||
lorsque Z =
Notre problme initial se trouve rsolu : Le prdicteur = a X0 + b Y0 de Z0 qui rend minimum la quantit S = || Z0 orthogonal de Z0 dans le plan dfini par X0 et Y0. La seule chose qu'il nous reste faire dans la suite, est d'expliciter ce projet orthogonal en fonction des donnes (x0i, y0i, z0i), i [1, n]. || est le projet
Page 84
5.1.3. Choix d'une base orthonorme { u1, u2 }.

Dans le plan dfini par X0 et Y0, nous pouvons dfinir un premier vecteur norm u1 par :
u1 =
On a, en effet : s (X) = || X0 ||
Le projet orthogonal de Y0 sur X0 est Le carr de sa norme est donn par :
X0 et Y0
X0 est orthogonal X0.
Y0
X0
= || Y0 ||
|| X0 || = s (Y) (1 rXY) =
.2
< Y0 | X0 >
= s (Y) s (Y)
On peut donc prendre dans le plan , pour vecteur norm u2 orthogonal u1, le vecteur : u2 = Y0 Les vecteurs : u1 = u2 = Y0 X0 X0 = Y0 X0
forment une base orthonorme du plan dfini par X0 et Y0.
5.1.4. Calcul du projet orthogonal de Z0.

Soit
0
= < Z0 | u1 >
u1 + < Z0 | u2 >
u2
le projet orthogonal de Z0 sur . La premire composante est le projet orthogonal de Z0 sur u1 : < Z0 | u1 > u1 = < Z0 | > = X0
Page 85
C'est aussi le projet orthogonal de Z0 sur X0. La deuxime composante est le projet orthogonal de Z0 sur u2 : < Z0 | u2 > Y0 = = Au total, nous obtenons : = = X0 + Cov (X, Z) Y0 = X0 + Y0 Y0 X0 Cov (X, Y) X0 + u2 = < Z0 | X0 < Z0 | Y0 > Y0 < Z0 | X0 > X0 Y0 X0 Y0 X0 >
X0 +
Y0
z0i), i [1, n]. On commence par calculer la matrice des variances-covariances : A= =
Cette expression est symtrique en X et Y. On sait calculer les quantits qui interviennent dans cette expression en fonction des donnes (x0i, y0i,
Formellement, la relation
X0 +
Y0
peut se mmoriser comme un "dterminant" :
=0
Page 86
On a remplac la dernire colonne de la matrice des variances-covariances par
5.2. COEFFICIENT DE CORRELATION MULTIPLE.

5.2.1. Dfinition.
Nous connaissons dj les formules donnant les coefficients de corrlation linaire entre deux variables : rXY = = ; rXZ = deviennent : = = et, en changeant X et Y : = En reportant, dans l'expression de = = , les expressions obtenues pour les coefficients, on obtient : X0 + + Y0 ; rYZ = .
Les coefficients de X0 et Y0 dans l'expression de =
Les vecteurs (Y). = =
et
sont norms pour le produit scalaire de
: || X0 ||
= s (X) et || Y0 ||
=s
+2
rXZ + rXY rYZ 2 rXY rXZ rYZ + rYZ + rXY rXZ 2 rXY rXZ rYZ + 2 rXY (rXZ rYZ rXY rXZ
rXY rYZ + rXY rXZ rYZ) = rXZ + rXY rYZ 2 rXY rXZ rYZ + rYZ + rXY rXZ 2 rXY rXZ rYZ + 2 rXY rXZ rYZ 2 rXY rXZ
2 rXY rYZ + 2 rXY rXZ rYZ)
Page 87
rXZ + rXY rXZ 2 rXY rXZ + rYZ + rXY rYZ 2 rXY rYZ 2 rXY rXZ rYZ 2 rXY rXZ rYZ +
2 rXY rXZ rYZ + 2 rXY rXZ rYZ) = = = rXZ rXY rXZ + rYZ rXY rYZ 2 rXY rXZ rYZ + 2 rXY rXZ rYZ) rXZ (1 rXY) + rYZ (1 rXY) 2 rXY rXZ rYZ (1 rXY) rXZ + rYZ 2 rXY rXZ rYZ
Le coefficient : R Z | XY = s'appelle le coefficient de corrlation linaire multiple de Z en X, Y. La variance du prdicteur de Z est donne par : s ( ) = || || = R Z | XY s (Z)
5.2.2. Proprits.
a) Validit du prdicteur de Z. La variance de Z s'crit : s (Z) = s (Z0) = || Z0 || = || Z0 + || = || Z0 || + || ||
Or || Z0
||
est la valeur minimum de la quantit S = || Z0 ||
pour les : || Z0
||
S min, c'est la variance "rsiduelle", donc s (Z) = S min + R Z | XY s (Z) On retrouve la mme formule de dcomposition de la variance que pour la rgression linaire : la variance de Z est la somme de la variance explique R Z | XY s (Z) par la rgression linaire multiple, et de la variance rsiduelle S min = (1 R Z | XY ) s (Z). Plus le coefficient R Z | XY est proche de 1, plus la part de variance de Z explique par la rgression linaire multiple en X et Y est grande, donc meilleur est le prdicteur linaire 0. La validit du prdicteur 0 est mesure par le coefficient R Z | XY . b) Calcul pratique du coefficient de corrlation linaire multiple. En pratique, le calcul du coefficient de corrlation linaire multiple R Z | XY s'effectue de la faon
Page 88
suivante :
On calcule la matrice des corrlations de X et Y partir de la matrice VXY = donnes (X, Y) rduites :
des
C XY =
= tVXY D VXY.
On calcule l'inverse de cette matrice des corrlations : C =
La matrice des coefficients de corrlation linaire de X et Y avec Z, peut se calculer partir de la matrice VXY et de la variable centre rduite VZ = par la formule :
= tVXY D VZ.
Le coefficient de corrlation linaire multiple R Z | XY est donn par la formule : R Z | XY = rXZ + rYZ 2 rXY rXZ rYZ = (rXZ rYZ) C
formule que l'on peut crire directement en fonction des donnes centres rduites : R Z | XY =
t
VXY D VZ
VXY D VXY
VXY D VZ .
Remarquons, l'usage des dbutants, qu'il ne faudrait pas crire :

t
VXY D VXY
= VXY 1 D
1 t
VXY 1
puisque la matrice VXY, n lignes et 2 colonnes, n'est pas inversible, alors que la matrice produit C =
t
VXY D VXY, 2 lignes et 2 colonnes, est inversible.
5.2.3. Application : technique de la rgression pas pas.

Pour connatre le rle de chacune des variables explicatives, on calcule les coefficients de
Page 89
dtermination rXZ et rYZ et le coefficient R Z | XY . Chacun de ces coefficients reprsente le pourcentage de variance de Z restitu par le prdicteur correspondant. On conservera, pour prdicteur de Z le modle qui restituera significativement le meilleur rsultat : = c X0 = d Y0 0 = a X0 + b Y0. 0
0
La thorie de la rgression multiple que nous venons d'exposer dans le cas de deux variables explicatives peut se gnraliser au cas de p variables explicatives, avec p > 2.
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages
Page 90
Chapitre 6 - INITIATION A LA THEORIE DES SONDAGES.

6. 1. GENERALITES. 6.1.1. Introduction.
L'tude exhaustive d'un caractre donn dans une population est un recensement. Elle se heurte souvent une impossibilit matrielle : cot trop lev, ou destruction des individus tudis. Les mthodes d'analise quantitative ont alors recours la thorie des sondages, qui consiste tudier un sous-ensemble de la population qu'on appelle un chantillon. La thorie des sondages pose deux types de problmes : L'chantillon doit tre reprsentatif de la population : c'est la thorie de l'chantillonnage. Les techniques numriques utilises sur les observations exprimentales doivent conduire des rsultats fiables, c'est--dire donnant une bonne reprsentation des paramtres inconnus de la population : c'est la thorie de l'estimation et des tests. Les deux problmes sont lis : la mthode d'chantillonnage utilise a une influence sur les estimations obtenues. En rsum, nous pouvons dire que la thorie des sondages est un outil mathmatique permettant, partir d'observations exprimentales partielles, de tenter d'atteindre une ralit inaccessible.
6.1.2. Avantages de la mthode d'enqutes par sondages.

La mthode d'enqutes par sondages prsente sur le recensement (lorsqu'il est possible) les avantages suivants : 1. 2. 3. 4. 5. Cot plus rduit. Plus grande vitesse d'excution (notamment pour les sondages d'opinions). Plus grande fiabilit des rsultats : le personnel tant plus rduit, il peut tre plus qualifi. Moins de risque d'erreur : le volume des donnes traiter est plus faible. Plus grand champ d'application, notamment dans le cas de destruction des units testes.
6.1.3. Etapes d'une enqute par sondage.

Pour effectuer une enqute par sondage, il est indispensable de respecter les instructions suivantes. Dresser une liste claire des objectifs de l'enqute. Etablir avec prcision la population chantillonner. Etablir une liste prcise et courte des donnes collecter. Dfinir le choix des mthodes de mesure : tlphone, convocations, visites domicile, ... Etablir, lorsque c'est possible, le degr de prcision dsir afin d'analyser le rapport des cots et des avantages. Dterminer l'unit de l'chantillonnage : personne physique, collectivit, ... Etablir le plan de l'chantillonnage ou la mthode de slection.
Page 91
Faire parfois une pr-enqute courte. Organiser le travail sur le terrain. Rcolter les donnes, les prsenter, les synthtiser par traitement statistique. Conserver les donnes pour pouvoir les rutiliser.
6.2. DIVERS TYPES DE SONDAGES.

Pour effectuer un sondage dans une population, c'est--dire pour en extraire un chantillon, deux types de mthodes sont employes : mthodes empiriques et mthodes alatoires. Seules les mthodes alatoires permettent d'utiliser la thorie de l'estimation.
6.2.1. Mthodes empiriques : sondages raisonns.

Ce sont les plus connues du grand public et les plus utilises par les instituts de sondage d'opinion. La prcision de ces mthodes ne peut tre calcule et leur russite n'est que le rsultat d'une longue pratique et de l'habilet professionnelle. Les lments sonds sont choisis dans la population suivant des critres fixs a pirori.
6.2.1.1. Mthode des units types.

Elle repose sur l'ide suivante : les diffrentes variables attaches un individu de la population n'tant pas indpendantes, un individu qui se trouve dans la moyenne de la population pour un certain nombre de caractres impportants, sera galement peu diffrent de la moyenne pour les autres caractres. La mthode consiste donc diviser la population en un certain nombre de sous-ensembles relativement homognes et reprsenter chacun d'eux par une unit-type. On choisit donc des units d'individus que l'on considre comme fortement reprsentatives de certaines catgories de population : cantons-types, bureau de vote pilotes, dont les rsultats observs sur de longues priodes figurent les rsultats dfinitifs d'une rgion ou d'une ville, etc. Exemple. L'INSEE dcomposa en 1942 la France en 600 rgions agricoles et, dans chaque rgion, dsigna un canton-ype. Comme il y a en France environ 3000 cantons, la dsignation de 600 cantons-types permettait de rduire d'un facteur 5 l'ampleur d'une tude des cantons.
6.2.1.2. Mthode des quotas.

L'enquteur prlve librement son chantillon, condition de respecter une composition donne l'avance (pourcentage fix d'agriculteurs, d'ouvriers, de cadres, etc., par exemple). Cette mthode est facile, mais aucun intervalle de confiance ne peut tre donn. Elle suppose implicitement que les catgories retenues pour la dtermination des quotas sont pertinentes quant l'objet de l'tude, ce qui est bien difficile tablir. Pour diminuer l'arbitraire du choix, on impose l'enquteur des normes de dplacement gographique : c'est la mthode de Politz. On utilise souvent des "panels", qui sont des chantillons permanents dont on tudie l'volution. Exemples. Panel d'audience la tlvision (mdiamtrie, centres d'tudes d'opinion, ...).
Page 92
Panel de consommateurs (SECODIF : 4 500 mnages). Panel de dtaillants (SOFRES). Ces panels sont utiliss en marketing (lancement d'un produit, transfert de marques, etc.).
6.2.2. Mthodes alatoires.

Les lments sonds sont extraits au hasard d'une liste connue a priori de la population, appele base de sondage.
Exemples.
1. Liste d'immatriculation des vhicules automobiles en France. C'est une trs bonne base car elle est mise jour rgulirement (cartes grises neuves, cartes grises dtruire). 2. Rpertoire des entreprises (SIREN). Chaque entreprise possde un numro d'immatriculation neuf chiffres, un nom ou raison sociale, une adresse exacte. 3. L'annuaire tlphonique est une mauvaise base de sondage car d'une part, tout individu ne possde pas obligatoirement un tlphone et, d'autre part, un individu peut possder un tlphone et ne pas figurer sur l'annuaire (la liste rouge reprsente environ 8 % des abonns et l'annuaire ne recense pas les tlphones portables, soit environ 40 % des tlphones). Les bases de sondages sont en gnral tablies partir des rsultats d'un recensement et elles sont corriges priodiquement entre deux recensements. Le tirage de l'chantillon est effectu dans la base de sondage selon des critres spcifiques chaque mthode (plan de sondage). Cette mthode de travail ne laisse aucune initiative aux enquteurs : il est trs simple de contrler leur travail.
6.2.2.1. Sondage lmentaire : chantillon alatoire simple.

Dans un chantillon alatoire simple, les lments constituant l'chantillon sont extraits au hasard ( l'aide d'une table de nombres au hasard, par exemple) d'une liste de la population. On extrait ainsi n individus d'une population de taille N. Le tirage peut s'effectuer avec ou sans remise, renvoyant ainsi gnralement un modle de loi binomiale (avec remise), ou hypergomtrique (sans remise). Si le tirage s'effectue avec remise, l'chantillon alatoire simple est dit indpendant (EASI = Echantillon Alatoire Simple et Indpendant). La mthode permet de calculer des intervalles de confiance, comme nous le verrons plus loin. Le rapport f = s'appelle le taux de sondage. Par exemple, l'INSEE utilise des taux de sondage de l'ordre de conditions de vie des mnages.
Exemple.
pour les enqutes sur les
Nous voulons extraire un chantillon de 8 individus dans une population forme de 437 individus. Nous numrotons les individus de la population de 1 437. Nous considrons trois colonnes conscutives d'une page de nombres au hasard : ils forment des nombres au hasard trois chiffres.
Page 93
Nous lisons ces nombres de trois chiffres en ne retenant que ceux qui sont compris entre 001 et 437. Lorsque nous avons retenus 8 nombres, notre chantillon est constitu des 8 individus dsigns dans la population par ces huit nombres. Selon que nous effectuons un tirage avec ou sans remise, nous garderons ou carterons un individu dj tir. L'inconvnient majeur de la mthode lmentaire est son cot : les individus tirs peuvent tre trs loigns gographiquement.
6.2.2.2. Sondage stratifi.

La population tudie est partitionne en q sous-populations 1, 2, ... , q, appeles "strates". L'chantillon est constitu de la runion de q chantillons choisis au hasard, un par strate : nous effectuons dans chaque strate un chantillonnage simple.
Exemple.
= {1, 2, 3, 4, 5}, 1 = {1, 2}, 2 = {3, 4, 5}. Nous slectionnons trois individus, dont un dans 1 et deux dans 2. Nous obtenons l'un des six chantillons possibles. Cette mthode se justifie par deux raisons essentielles : 1. L'existence d'une stratification de fait, soit pour des raisons gographiques, soit pour des raisons administratives. Exemple 1 : enqute sur les conditions de vie pnitentiaire en France. La population est celle des dtenus en France Les strates sont les populations de dtenus dans les divers tablissements pnitentiaires. Exemple 2 : enqute sur la consommation par un organisme disposant de bureaux dpartementaux. La population est celle des consommateurs franais. Les strates sont les consommateurs de chaque dpartement. 2. Un caractre tudi dans la population peut varier sous l'influence d'un certain nombre de facteurs. Pour liminer au mieux les risques de biais, nous crons des strates homognes et, dans chacune d'elles, nous extrayons un chantillon alatoire simple. Exemple. Pour tudier la consommation de tabac, si nous estimons que l'ge et le sexe sont des facteurs trs influents, nous partageons la population en strates du type : Hommes de moins de 20 ans, Hommes de 20 30 ans,
Page 94
etc. Femmes de moins de 20 ans, Femmes de 20 30 ans, etc. De chaque strate, nous extrayons un chantillon alatoire simple.
6.2.2.3. Echantillonnage systmatique.

Les individus de la population sont numrots de 1 N. Pour slectionner n individus, nous partageons la population en k = groupes : {1, ... , k }, { 1 + k,
... , 2 k }, ... , { 1 + (n 1) k, ... , N }. Nous choisissons au hasard l'individu i par les individus numrots de 1 k. Nous constituons notre chantillon des individus { i, i + k, i + 2 k, ... , i + (n 1) k }. Le choix de l'individu i dtermine entirement la constitution de l'chantillon.
Exemple.
= {1, ... , 20}, k = 4. Les chantillons possibles sont : {1, 5, 9, 13, 17}, {2, 6, 10, 14, 18}, {3, 7, 11, 15, 19}, {4, 8, 12, 16, 20}. Cette mthode est bien adapte la slection de cartes dans un fichier, ou au prlvement de pices dans une fabrication pour un contrle de qualit. Elle prsente une certaine analogie avec la mthode prcdente d'chantillonnage stratifi.
6.2.2.4. Echantillonnage plusieurs degrs.

La population est divise en sous-populations appeles units primaires. Chaque unit primaire est divise en units secondaires, etc. Nous effectuons des tirages au hasard en cascade : nous tirons des units primaires ; dans chaque unit primaire, nous tirons une unit secondaire, etc.
Exemple.
L'INSEE effectue des chantillonnages quatre niveaux : dpartements, cantons, communes, mnages. Cette mthode permet une excution rapide. Elle est conomique, car elle focalise les tirages. La mthode de tirage au hasard chaque niveau peut varier suivant le cas, par exemple tirage proportionnel aux units qu'il contient, ou tirage quiprobable. Nous disons alors que nous pouvons avoir des tirages avec probabilits ingales.
Cas particulier : tirage par grappes.
Nous choisissons des grappes pour lesquelles nous gardons tous les "grains", ou individus. Une "grappe" est un groupe d'individus de mme nature. Exemple : mnages d'un mme immeuble.
6.2.2.5. Conclusion.
Page 95
En pratique, les diverses mthodes alatoires peuvent tre mles pour amliorer le rendement. Pour chacune d'elle, nous pourrons varier les critres de tirage au hasard de chaque individu : avec remise, sans remise, avec des probabilits gales ou ingales.
6.3. ESTIMATION DES PARAMETRES. 6.3.1. Notion de paramtre.

Nous considrons une population de taille finie N. Dans cette population, nous tudions un caractre quantitatif rel prenant les valeurs relles xi, i {1, ... N}. La fonction de rpartition empirique FN (x) est une fonction en escalier. La variable statistique reprsentant le caractre tudi peut tre une variable quantitative discrte ou continue. Le problme est de modliser la fonction de rpartition empirique FN (x), par la fonction de rpartition F (x) d'une variable alatoire X, discrte ou continue suivant le cas, vrifiant F(xi) = FN (xi), i {1, ... N}. Nous dirons que F (x) dfinit la loi de rfrence associe une population hypothtique infinie, dite population de rfrence. La population est appele la population-mre. La connaissance de la loi de rfrence du caractre tudi est d'un grand intrt pour la dduction statistique. Elle constitue un modle mathmatique du phnomne tudi. Cette distribution thorique peut dpendre d'un certain nombre de paramtres inconnus. Les sondages permettent d'estimer deux types de paramtres : Les paramtres propres la population-mre : moyenne, variance, etc. Les paramtres propres la loi de rfrence : paramtre d'une loi de Poisson, paramtres d'une loi normale, etc.
6.3.2. Notion d'estimateur d'un paramtre de .

6.3.2.1. Estimateur et estimation ponctuelle.
Soit X un caractre quantitatif de la population . Ce caractre prend les valeurs inconnues xi, i {1, ... N}. Un rsum de l'ensemble des valeurs {x1, ... , xN} peut tre dfini par un ou plusieurs paramtres de (moyenne, variance, proportion, etc.). Soit y un tel paramtre de la population . Lorsque nous extrayons de la population un chantillon alatoire simple E de taille n, nous pouvons calculer, avec les valeurs {x1, ... , xn} prises par X dans l'chantillon, une estimation ponctuelle de y,
Page 96
qui sera note y*. Exemple. Si y est la moyenne = de X, nous obtiendrons une estimation ponctuelle * de la moyenne en prenant la moyenne arithmtique de l'chantillon : * = xi.
La valeur observe y* n'est que l'une des valeurs possibles que l'on peut obtenir avec les divers chantillons possibles de taille n. En ralit, avec une population de N individus, il y a un certain nombre, mettons k, d'chantillons possibles Ej de taille n, j {1, ..., k} (k dpend de la mthode d'chantillonnage). Chaque chantillon possible Ej de taille n possde une certaine probabilit pj d'tre tir. A chaque chantillon possible Ej de taille n est associe une estimation ponctuelle yj* de y. A chaque estimation ponctuelle yj* de y est donc associe la probabilit pj d'tre observe. Nous pouvons alors dfinir une variable alatoire prenant, pour chaque chantillon possible Ej de taille n, la valeur yj* avec la probabilit pj. Cette variable alatoire est appele un estimateur du paramtre y. Les valeurs de sont les estimations ponctuelles de y. La loi de probabilit de s'appelle la distribution d'chantillonnage de . On appelle fluctuation d'chantillonnage, la variation des estimations ponctuelles de y et alas d'chantillonnage les causes de ces variations.
6.3.2.2. Caractristiques d'un estimateur.

Il est logique de souhaiter que l'estimateur prenne des valeurs aussi voisines que possible de la valeur inconnue y que nous voulons estimer. Nous sommes conduits dfinir un certain nombre de qualits que doit prsenter un "bon" estimateur. a) Estimateur sans biais. Nous dirons que est un estimateur sans biais du paramtre y, si, et seulement si, son esprance mathmatique est y. sans biais E ( ) = y Cette proprit traduit le fait qu'en moyenne, sur tous les chantillons possibles, nous retrouvons la valeur du paramtre que nous voulons estimer. b) Estimateur robuste.
Page 97
L'estimateur d'un paramtre y possde une variance qui traduit la dispersion des valeurs de autour de son esprance mathmatique. Cette variance dpend de la taille n de l'chantillon. Nous dirons que est un estimateur robuste, ou convergent, de y si la limite, lorsque n tend vers N de est nulle. robuste =0
Cette proprit traduit le fait suivant : si nous connaissons la valeur prise par le caractre pour tous les individus de la population, la valeur de est la valeur exacte y du paramtre. Un estimateur correct est un estimateur sans biais et robuste. c) Estimateur asymptotiquement gaussien. Nous dirons qu'un estimateur d'un paramtre y est asymptotiquement gaussien si, et seulement si, il vrifie la proprit suivante : Lorsque n augmente indfiniment, la fonction de rpartition de fonction de rpartition d'une variable normale centre rduite. En pratique, ds que n est suprieur ou gal 30, nous admettrons que la fonction de rpartition de peut tre remplace par la fonction de rpartition de la variable normale centre rduite. tend uniformment vers la
Lorsque n est suffisamment grand (en pratique n 30), pour tout [0, 1], le nombre rel positif u donn par : (u) = 1 vrifie : , o est la fonction de rpartition de la variable normale centre rduite,
u = 1 .
En effet, comme la fonction de rpartition de
peut tre remplace par la fonction
de rpartition de la variable normale centre rduite, ds que n est suprieur ou gal 30, la symtrie de la loi normale donne :
Page 98
u = (u) ( u) = (u) (1 (u)) = 2 (u) 1 = 1 .
Les valeurs de la fonction de rpartition sont donnes par des tables. Un estimateur CAG est un estimateur correct et asymptotiquement gaussien. d) Amlioration d'un estimateur. Etant donns deux estimateurs que l'estimateur
2 1
et
2 1
du mme paramtre y, on dit que l'estimateur
est meilleur
si l'esprance de (
y) est plus petite que l'esprance de ( 2 y) .
Ceci signifie simplement que l'on considre comme meilleur un estimateur dont les valeurs sont moins disperses autour de la valeur de y. Dans l'absolu, le meilleur estimateur d'un paramtre est celui dont pour lequel l'esprance de ( y) est la plus petite possible. Un estimateur sans biais dont la variance est minimale s'appelle un estimateur prcis. Pour un estimateur prcis, l'esprance E ( ) est gale y et la variance est minimale.
6.3.3. Notion d'intervalle de confiance.

6.3.3.1. Introduction.
Considrons un chantillon alatoire simple E, de taille n, extrait de la population (tirages au sort quiprobables, sans remise). Dans cet chantillon, le caractre tudi prend les valeurs {x1, ... , xn}. Nous pouvons considrer la valeur prise par le caractre tudi pour l'individu i de l'chantillon comme la valeur prise par une variable alatoire X. L'ensemble des valeurs {x1, ... , xn} apparat alors comme le rsultat de n preuves indpendantes sur la mme variable alatoire. L'estimateur d'un paramtre y apparat alors comme une fonction de n variables alatoires indpendantes Xi, i {1, ... , n}, de mme loi de probabilit, qui est la loi de probabilit de X. X s'appelle la variable parente. La connaissance de la loi de probabilit de X permet de calculer la loi de probabilit de . La variable alatoire centre rduite nulle et une variance gale 1. Exemple 1. Nous tudions la taille des individus d'une population d'effectif N. Pour cela nous extrayons un chantillon alatoire simple et indpendant d'effectif n. Soit la moyenne de la taille des individus de la population. Soit X la variable alatoire "taille d'un individu" : chaque individu de l'chantillon est associ une correspondant , possde une esprance mathmatique
Page 99
variable alatoire indpendante "taille" Xi qui a la mme loi de probabilit que la variable parente X. L'estimateur = = Xi
de la taille moyenne dans la population, a, pour valeur dans l'chantillon, la moyenne arithmtique des tailles des individus de l'chantillon. Cet estimateur possde une loi de probabilit qui peut tre calcule en fonction de la loi de probabilit de X. Exemple 2. Soit la variance de la taille des individus de la population. Soit X la variable alatoire "taille d'un individu" : chaque individu de l'chantillon est associ une variable alatoire indpendante "taille" Xi qui a la mme loi de probabilit que la variable parente X. L'estimateur = Xi Xi S (X) o S
de la variance de la taille dans la population, a, pour valeur dans l'chantillon,
(X) est la variance des tailles des individus de l'chantillon (variance d'chantillonnage). Cet estimateur possde une loi de probabilit qui peut tre calcule en fonction de la loi de probabilit de X.
6.3.3.2. Intervalle de confiance pour les grands chantillons.

Si est un estimateur correct et asymptotiquement gaussien (estimateur CAG) d'un paramtre y, avec E ( ) = y, la relation
u = 1
s'crit : P ( u L'vnement u + u ) = 1 .
hasard un chantillon de taille n 30. Autrement dit, dans la population, la proportion des chantillons de taille n 30 pour lesquels l'vnement u + u est ralis est 1 .
+ u a donc une probabilit 1 de se raliser lorsqu'on choisit au
Autrement dit encore, tant donn un chantillon de taille n 30, choisi au hasard, la probabilit de ralisation de l'vnement u + u est 1 .
Page 100
Or, pour un chantillon de taille n choisi au hasard, prend la valeur y* et une valeur s , de sorte que u prend une valeur y1 = y* u s et + u prend la valeur y2 = y* + u s L'intervalle [y1 ; y2] = [ y* u s ; y* + u s ] dans lequel la taille n de l'chantillon est suprieure ou gale 30 et (u) = 1 ,
s'appelle l'intervalle de confiance de y au risque , ou intervalle de confiance de y au niveau de confiance 1 . C'est un intervalle dans lequel la probabilit de trouver la vraie valeur de y est 1 . Plus est grand, plus l'amplitude de l'intervalle de confiance est petite, puisque est une fonction croissante. Dans la pratique, en l'absence de prcision contraire, nous conviendrons de prendre = 5 %. Plus n est grand, plus la valeur de a des chances d'tre proche de 0, donc plus la valeur de a des chances d'tre proche de y. Nous pourrons ainsi calculer la valeur de n qui permet d'avoir un intervalle de confiance d'amplitude donne. Les valeurs retenir de la fonction de rpartition de la variable alatoire normale centre rduite sont, pour (u) = 1 : (1,645) = 0,950, soit u0,10 = 1,645. (1,960) = 0,975, soit u0,05 = 1,960. (2,575) = 0,995, soit u0,01 = 2,575. Ces valeurs donnent les intervalles de confiance aux niveaux de confiance 90 %, 95 %, 99 %. La valeur utilise par dfaut est u0,05 = 1,960.
Page 101
6. 4. ETUDE DU SONDAGE ELEMENTAIRE.

Soit une population d'effectif N dont on tudie un caractre X. Si X est un caractre quantitatif, les paramtres qui caractrisent ce caractre sont : la moyenne == xi xi xi .
la variance =
Si X est un caractre qualitatif deux modalits A et B, le paramtre qui caractrise X est la proportion p d'individus prsentant la modalit A. Les paramtres sont inconnus. La thorie de l'chantillonnage a pour but de les estimer au mieux.
6.4.1. Echantillon non exhaustif, tirage probabilits gales.

Un tirage au hasard avec remise induit que chaque individu a une probabilit d'tre tir.
6.4.1.1. Caractre quantitatif.

a) Loi de probabilit induite par le tirage de l'chantillon. Le tirage avec remise, d'un individu de W, peut tre reprsent par une variable alatoire parente, note encore X, dont la loi de probabilit est dfinie par : P (X = xi) = L'esprance mathmatique de X est E (X) = La variance de X est Var (X) = E ((X ) ) = . , i [1, N]. xi = xi = .
b) Estimateur de la moyenne de la population.

Constituer un chantillon de taille n par des tirages non exhaustifs quiprobables dans , revient dfinir n variables alatoires indpendantes X1, ... , Xn, qui suivent toutes la mme loi que X. Soit {x1, ... , xn} la ralisation de l'chantillon E. La moyenne arithmtique = xi est la ralisation par chantillonnage de la variable alatoire
Xi.
L'esprance mathmatique de l'estimateur est E ( ) = La variance de l'estimateur est = Var ( ) =
E (Xi) = Var (Xi) =
n E (X) = . n Var (X) = .
Page 102
Par consquent, est un estimateur sans biais de (E ( ) = ) mais il n'est pas robuste ( 0). c) Estimateur de la variance de la population. La variance exprimentale de l'chantillon est s = (xi ) .
C'est la ralisation par chantillonnage de la variable alaoire "variance d'chantillonnage" : S= L'esprance mathmatique de S est E (S ) = E E (S ) = E (S ) = Mais on a : E (Xi ) = E ( ) = E Xi E (Xi) E ( E( )) = n Var (X) = . . E ( ) (n n ) = (Xi ) = E (Xi ) Xi Xi = (Xi )
E (Xi + ) E (Xi ) + E ( ) + E (Xi ) ( )
= Var ( ) =
E (Xi ) ( ) =
E ( ) .
(Xi ) =
2 E (( ) ) = 2 Var ( ) = 2 Au total :
E (S ) =
La variance d'chantillonnage n'est pas un estimateur sans biais de la variance de la population : c'est un estimateur biais. La linarit de l'esprance mathmatique montre que : E de sorte que l'estimateur : S = E (S ) = ,
Page 103
Xi
Xi
est un estimateur sans biais de la variance de la population : E ( ) = .
6.4.1.2. Caractre qualitatif.

Le paramtre tudi inconnu est la proportion p d'individus de la population prsentant la modalit A du caractre qualitatif. Pour chaque individu de la population, nous pouvons dfinir une variable alatoire de Bernoulli, prenant la valeur 1, avec la probabilit p, si l'individu est porteur de la modalit A, 0 sinon, avec la probabilit q = 1 p. Choisir un chantillon de taille n, c'est choisir un n-uple de variables alatoires (X1, ... , Xn) de Bernoulli, indpendantes, de mme paramtre p. Soit (x1, ... , xn) une ralisation de l'chantillon E. La moyenne exprimentale p* = = xi est la ralisation par chantillonnage de la variable alatoire
Xi, qui reprsente la frquence de la modalit A dans l'chantillon.
Son esprance mathmatique est E ( ) =
E (Xi) =
n p = p.
Xi
est un estimateur sans biais de la proportion p des individus de la population prsentant la modalit A du caractre tudi. Sa variance est Var ( ) = Var (Xi) = n p (1 p) = . : l'estimateur de p n'est
Lorsque n tend vers N, cette variance ne tend pas vers 0, mais vers pas un estimateur robuste.
Pour les chantillons de grande taille (n 30), on peut dfinir l'intervalle de confiance de p correspondant au risque , par : [p1, p2] = p* u avec (u) = 1 . ; p* + u
6.4.2. Echantillon exhaustif, tirage probabilits gales.
Page 104
Un tirage au hasard sans remise induit que chaque chantillon de taille n a une probabilit d'tre tir.
6.4.2.1. Caractre quantitatif.

a) Estimation de la moyenne. Soit xij la ralisation du caractre X pour le je individu de l'chantillon Ei = (Xi1, ... , Xin). La ralisation du ie chantillon est un n-uple (xi1, ... , xin). La moyenne d'chantillonnage allons dfinir. Nous pouvons dfinir probabilit pi = = chantillons diffrents Ei, i 1 ; d'tre tir au hasard. , de taille n, chacun ayant une
i
xij est la ralisation d'une variable alatoire
que nous
Considrons la variable alatoire
dont la loi de probabilit, uniforme, est dfinie par : P( = ) = pi, i 1 ; .
Son esprance mathmatique est :
E( )=
pi
xik
xik .
La somme
est une somme tendue tous les chantillons de taille n.
Pour un k pris entre 1 et n, notons que xik est la valeur xj du caractre X pour le ke individu de l'chantillon, qui est le je individu de la population. Cette valeur apparat une fois dans tous les chantillons de taille n contenant cet individu de la population, mais pas forcment la mme place, c'est--dire pas forcment avec le mme indice k. Or il y a chantillons de taille n contenant cet individu, de sorte que la valeur xj de X pour le je fois dans la somme xik .
individu de la population, apparat
Ce raisonnement est valable, bien sr, pour tous les indices j de 1 N. Lorsque nous faisons la somme pour tous les chantillons de taille n, nous obtenons :
Page 105
xik
xj =
(x1 + ... + xN)
E( )=
(x1 + ... + xN) =
N=
Moralit : la moyenne d'chantillonnage du caractre X.
Xij est un estimateur sans biais de la moyenne
b) Variance de la moyenne d'chantillonnage. La variance de est donne par Var ( ) = E ( ) (E ( )) = E ( ) .
Calculons le terme :
E ( ) =
pi
E ( ) =
(xik)
(xik)
xi1 + ... + xin
xij xik
Pour tout individu de numro j de , il y a
chantillons de taille n contenant cet individu, de
sorte que xj apparat
fois dans la somme
xi1 + ... + xin .
Et ceci est vrai pour les N individus de la population. De sorte que l'on obtient :
xi1 + ... + xin
x1 + ... + xN
( + )
Reste calculer la somme Dans chacun des
xij xik produits de la forme xij xik, avec j k. produits de deux valeurs de X
chantillons de taille n, on forme
Dans l'ensemble des chantillons de taille n, on forme donc
Page 106
diffrentes. Comme il existe
produits de deux valeurs de X diffrentes, chacun intervient
fois
dans la somme tendue l'ensemble des chantillons de taille n. On obtient donc :
xij xik
xj xk
Or on peut crire aussi :
xj xk = = On obtient alors : xj
xj
xk xj
xj
xk
xj
xj = (N ) N ( + ) = N ((N 1) )
xij xik
N ((N 1) ) = ((N 1) )
((N 1) ) = N
E ( ) =
( + ) + N
((N 1) )
E ( ) =
+ (N 1)
= + (N 1) =
= (N 1) (n 1) =
= + (N 1) (1 + (n 1)) = 1
E ( ) =
Var ( ) = E ( ) =
Page 107
Var ( ) = Moralit : lorsque n tend vers N, la variance de
tend vers 0, l'estimateur de est robuste.
La moyenne d'chantillonnage .
Xij est un estimateur sans biais et robuste, donc correct, de
On remarquera aussi que la prsence du rapport d'exhaustivit variance de valeurs de
, infrieur 1, fait que la
est plus faible lorsque l'chantillon est exhaustif que lorsqu'il est non exhaustif : les sont moins disperses autour de la moyenne lorsque l'chantillon est exhaustif.
c) Estimation de la variance. La variance exprimentale de l'chantillon s = alatoire : S= (Xij ) = Xij Xij (xij ) est une ralisation de la variable
L'esprance mathmatique de cette variable alatoire est ; E (S ) = = Mais : E ((Xij ) ) = E ((Xij E (Xij) ) = Var (Xij) = . E ((Xij ) ) = E (( ) ) = n = . E ((Xij ) ) = E ((Xij + ) ) E ((Xij ) ( ))
E ((Xij ) ) +
E (( ) )
Var ( ) =
n Var ( ) = Var ( ) =
E ((Xij ) ( )) = E Var ( ) Il reste alors : E (S ) = +
( )
(Xij ) = E ( ) n ( ) = n E
( )
=n
n Var ( ) =
Page 108
On voit donc que S est un estimateur biais de , mais que, par linarit de l'esprance mathmatique :
S=
Xij
Xij
est un estimateur sans biais de la variance .
6.4.2.2. Caractre qualitatif.

La frquence d'chantillonnage p* = xi de la modalit A du caractre qualitatif tudi est la
valeur prise aprs chantillonnage par la variable alatoire = Xi.
Mais nous avons vu, prcdemment, que l'esprance mathmatique et la variance de Xi, taient donnes par : E (Xi) = p Var (Xi) = p (1 p). L'tude prcdente montre que nous pouvons crire : E( )=p Var ( ) = Ainsi, Var Xi = Var n = Var ( ) = p (1 p).
est un estimateur sans biais et robuste de p. xi dans un chantillon est une estimation ponctuelle sans biais de p.
Sa ralisation p* =
Pour les grands chantillons, au niveau de confiance 1 , la ralisation de l'intervalle de confiance de p sera donn par [ p1 ; p2 ], avec p1 = p* u p2 = p* + u o u est dfini par la relation (u) = 1 normale centre rduite. , tant la fonction de rpartition de la variable
6.4.3. Echantillon non exhaustif, tirage probabilits ingales.
Page 109
Soit = {1, 2, ... , N} la population. Nous tudions dans cette population un caractre quantitatif X de valeur xj pour l'individu j. Notons pj la probabilit de tirage de l'individu j lors de la constitution de l'chantillon . Tout tirage avec remise peut tre schmatis par une variable alatoire dfinie par : P ( = xj) = pj, j [1 ; N]. Notons : = = xj, la moyenne du caractre X dans la population. xj xj , la variance de X dans la population. dont la loi de probabilit est pj = 1
Ces paramtres sont inconnus, nous cherchons les estimer. Nous supposons connues la taille N de la population et les probabilits pj associes aux valeurs xj. Notons, pour simplifier, (x1, ... , xn) la ralisation d'un chantillon.
6.4.3.1. Estimation de la moyenne.

Considrons la variable alatoire ' dfinie par la loi de probabilit : = pj, j [1 ; N].
P et soit :
'=
'=
'
la variable alatoire de ralisation m'* = Nous avons : E ( ') = E ( i') = pj
dans l'chantillon.
N=
n=
La relation E ( ') = montre que la variable alatoire ' est un estimateur sans biais de . Sa ralisation m'* = dans l'chantillon est une estimation ponctuelle sans biais de .
Page 110
6.4.3.2. Variance de l'estimateur de la moyenne.

Nous avons : E ( ') = pj =N
E ( ' ) = Var ( ') =
pj
= N
Comme le tirage de l'chantillon est fait avec remise, les variables consquent : Var ( ') = = Var ( ') = Var ' =
' sont indpendantes, et, par
Var ( i') N
Var ( ') =
Var ( ') =
Cette variance s'exprime l'aide de l'ensemble des valeurs xj, inconnues, prises par le caractre X dans la population . Il serait intressant d'en avoir une estimation partir de la ralisation {x1, ... , xn} d'un chantillon.
6.4.3.3. Estimation de la variance de l'estimateur de la moyenne.

Soit ' la variable alatoire dfinie, comme dans IV.4.2.1. par la loi de probabilit : = pj, j [1 ; N].
'=
Nous avons vu que l'esprance mathmatique de cette variable alatoire tait gale N , qu'on peut estimer par N '. Considrons la variance d'chantillonnage de la variable alatoire ', c'est la variable alatoire :
( i' N ')
L'esprance mathmatique de E( ) = E
est :
( i' N ')
Page 111
= = =
E ( i' N ') E ( i' N + N N ') E ( i' N ) + E (N N ') + E ( i' N )
(N N ') = = Var ( i') + n Var ( ') + Var (N ') + n N Var ( ') + E (N N ') E ( i' N )
(N N ') (N n ' N n )
= Var ( ') + N Var ( ') = Var ( ') N Var ( ')
n N Var ( ')
= n N Var ( ') N Var ( ') = (n 1) N Var ( ') La relation E (

1
) = (n 1) N Var ( '), qui s'crit aussi : E = Var ( ')
montre que La variable alatoire est un estimateur sans biais de la variance Var ( ')
et sa ralisation dans l'chantillon : N m'* =
compte tenu de la relation N m'* = m'* = variance de '. * =
, est une estimation ponctuelle sans biais de la
Cette estimation de la variance de ' permet de construire, pour les grands chantillons, un intervalle de confiance de la moyenne : m'* u *.
EXTRAITS D'UNE TABLE DE NOMBRES AU HASARD

(Kendall et Babington Smith, table tire de Christian Labrousse, Statistique, Tome2, Dunod, Paris, 1962) 02 22 85 19 48 74 55 24 89 69 15 53 00 20 88 48 95 08 85 76 34 51 40 44 62 93 65 99 72 64 09 34 01 13 09 74 00 88 96 79 38 24 77 00 70 91 47 43 43 82 71 67 49 90 64 29 81 85 50 47 36 50 91 19 09 15 98 75 60 58 33 15 94 03 80 04 21 49 54 91 77 85 00 45 68 23 12 94 23 44 42 28 52 73 06 41 37 47 47 31 52 99 89 82 22 81 86 55 09 27 52 72 49 11 30 93 33 29 54 17 54 48 47 42 04 79 54 68 64 07 85 32 05 96 54 79 57 43 96 97 30 72 12 19 25 04 92 29 71 11 64 10 42 23 23 67 01 19 20 58 35 93 28 58 32 91 95 28 42 36 98 59 66 32 15 51 46 63 57 10 64 35 04 62 24 87 44 85 45 68 41 66 19 17 13 09 63 37 61 05 55 88 25 01 15 77 12 90 69 34 36 93 52 39 36 23 98 93 18 93 86 98 99 04 75 28 30 05 12 09 57 35 90 15 61 89 35 47 16 32 20 16 78 52 82 37 26 33 67 42 11 93 94 40 82 18 06 61 54 67 03 66 76 82 90 31 71 90 39 27 54 38 58 65 27 70 93 57 59 00 63 56 18 79 85 52 21 03 63 70 89 23 76 46 97 70 00 62 15 35 97 42 47 54 60 60 61 58 65 62 81 29 69 71 95 53 53 69 20 95 66 60 50 70 51 68 98 15 05 64 43 32 74 07 44 63 52 38 67 59 56 69 59 25 41 48 64 79 62 26 87 86 94 30 43 54 26 98 61 38 85 00 02 24 67 85 88 10 34 01 54 53 23 77 33 11 19 68 01 46 87 56 19 19 19 43 70 25 24 29 48 22 44 81 35 40 42 41 25 10 87 27 77 28 05 90 73 03 95 46 88 82 25 02 03 57 14 03 17 80 47 85 94 49 89 55 10 37 19 50 20 37 18 95 93 40 45 43 04 56 17 03 34 54 83 91 69 02 90 72
Table de la fonction de rpartion de la variable normale centre rduite

u 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6143 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,7257 0,7290 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 0,9332 0,9345 0,9357 0,9270 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 0,9772 0,9779 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 Table pour les grandes valeurs de u.
u 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,8 4,0 4,5 (u) 0,998 65 0,999 04 0,999 31 0,999 52 0,999 66 0,999 76 0,999 841 0,999 928 0,999 968 0,999 997 La table donne les valeurs de (u) pour u positif. Lorsque u est ngatif, il faut prendre le complment 1 de la valeur lue dans la table : ( u) = 1 (u)

Cours (1e Partie)

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Cours (1e Partie)

Hochgeladen von

Copyright:

Verfügbare Formate

Statistiques - Cours

3. Statistique descriptive bivarie.

4. Rgression orthogonale dans R.

6. Initiation la thorie des sondages.

Cours de Statistique - Chapitre 1

STATISTIQUE Chapitre I - GENERALITES.

I. 1. 1. La statistique descriptive ou dductive.

I. 1. 2. La statistique mathmatique ou inductive

Cours de Statistique - Chapitre 1

I. 3. NOTION DE DISTRIBUTION STATISTIQUE

Cours de Statistique - Chapitre 2 - Reprsentation graphique

Chapitre II - ANALYSE UNIVARIEE.

II. 1. REPRESENTATION GRAPHIQUE

II. 1. 1. Caractre qualitatif.

Cours de Statistique - Chapitre 2 - Reprsentation graphique

Cours de Statistique - Chapitre 2 - Reprsentation graphique

II. 1. 2. Caractre quantitatif.

a) Variable statistique discrte.

Cours de Statistique - Chapitre 2 - Reprsentation graphique

Cours de Statistique - Chapitre 2 - Reprsentation graphique

b) Variable statistique continue.

Cours de Statistique - Chapitre 2 - Reprsentation graphique

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

II. 2. PARAMETRES CARACTERISTIQUES

II. 2. 1. Paramtres de position

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

Dtermination pratique de la mdiane.

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

, pondres par les effectifs :

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

= Produit par un scalaire

= Ecart moyen la moyenne. = (X ) () =

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

X* est une variable statistique sur *. Sa moyenne est = ni* xi = X* () = X ().

c) Moyenne d'une variable continue.

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

d) Gnralisation de la notion de moyenne.

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

est appel la -moyenne de X.

, nous obtenons la moyenne harmonique

4. Si est dfinie par (x) = ln (x), nous obtenons la moyenne gomtrique ln (

Proprits des -moyennes.

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

II. 2. 2. Paramtres de dispersion

II.2.2.2. Quartiles et dciles.

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

II.2.2.3. Ecart absolu moyen.

II.2.2.4. Variance et cart-type.

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

) 2, la formule de dfinition de la variance peut tre crite : s 2 (X) = ni xi 2 s 2 (X) =

Dans R q, on peut dfinir la distance euclidienne d (X (), la formule (d (X (), )) 2 = ( Xj () )2 =

Si X prsente p modalits xi = Card () = ni :

, i [ 1, p ], il vient, en notant ni l'effectif de la modalit xi N =

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

s 2 (X) = d) Proprits de la variance.

)) 2 est nulle si, et seulement si, chaque

= a2 + b2 +2ab =a+b )2 = a2 + b2 ( )2 + 2 a b ( ) 2 = b 2 ( ( ) 2) = b 2 s 2 (X). s 2 (a + b X) = b 2 s 2 (X).

Puis, si X est valeurs dans R q, on a : s 2 (a + b X) = s 2 (a + b Xj) = b 2 s 2 (Xj) = b 2 s 2 (Xj) = b 2 s 2 (X).

Cours de Statistique - Chapitre 2 - Paramtres caractristiques

La valeur minimum de l'inertie est donc la variance de X. En effet, soit d = a . = .

Dans R q, cette relation s'crit :

X () est une modalit xi = Ia (X) =

Par dfinition de Posons :

pour tout j [ 1, q ], soit a =

X* est une variable statistique sur . Sa moyenne est = ni xi = X* () = X ().