Beruflich Dokumente
Kultur Dokumente
Page 1
LICENCE Scientifique
Cours Henri IMMEDIATO
Statistiques
1. Gnralits. 2. Statistique descriptive univarie.
2.1. Reprsentation graphique. 2.2. Paramtres caractristiques. 2.2.1 Paramtres de position 2.2.2 Paramtres de dispersion 2.2.3 Paramtres de forme
5. Rgression multiple.
5.1. Position et rsolution du problme. 5.2. Coefficient de corrlation multiple. 5.2.1 Dfinition. 5.2.2 Proprits. 5.2.3 Application : technique de la rgression pas pas.
Page 1
LICENCE Scientifique
Cours Henri IMMEDIATO
I. 2. VOCABULAIRE STATISTIQUE
I. 2. 1. Population
C'est l'ensemble des units ou individus sur lequel on effectue une analyse statistique. ? = {? 1, ... , ? N} avec card(? ) = N fini Ce vocabulaire est hrit du 1er champ d'application de la statistique : la dmographie (Vauban (1633-1707) effectua des recensements pour des tudes conomiques et militaires).
Cours de Statistique - Chapitre 1 Exemples de populations. Les vhicules automobiles immatriculs en France La population des P.M.E. d'un pays Les salaris d'une entreprise Les habitants d'un quartier
Page 2
I. 2. 2. Echantillon
C'est un ensemble d'individus prlevs dans une population dtermine Exemple d'chantillon. L'chantillon des vhicules automobiles immatriculs dans un dpartement.
I. 2. 3. Caractre
C'est un trait dtermin C prsent chez tous les individus d'une population sur laquelle on effectue une tude statistique. - Un caractre est dit quantitatif s'il est mesurable. Exemples de caractres quantitatifs. La puissance fiscale d'un vhicule automobile. Le chiffre d'affaire d'une P.M.E. L'ge, le salaire des salaris d'une entreprise. - Un caractre est dit qualitatif s'il est reprable sans tre mesurable. Exemples de caractres qualitatifs. La couleur de la carrosserie d'un vhicule automobile Le lieu de travail des habitants d'un quartier Le sexe et la situation matrimoniale des salaris d'une entreprise
I. 2. 4. Modalits
Ce sont les diffrentes situations Mi possibles du caractre. Les modalits d'un caractre doivent tre incompatibles et exhaustives ; tout individu doit prsenter une et une seule modalit. Les modalits d'un caractre qualitatif sont les diffrentes rubriques d'une nomenclature ; celles d'un caractre quantitatif sont les mesures de ce caractre. L'ensemble des modalits est not E. Pour un caractre quantitatif, la mesure du caractre peut tre un nombre entier pris parmi un ensemble limit ; nous dirons qu'il est discret. Exemple de caractre quantitatif discret. Le nombre d'enfants d'une famille (fratrie)
Page 3
Dans certains cas la mesure du caractre peut tre un nombre dcimal pris parmi un ensemble de valeurs possibles trs important (plusieurs dizaines ou plusieurs centaines). Pour permettre une tude et notamment une reprsentation graphique plus simple, nous sommes conduits effectuer un regroupement en classes (5 20 classes) ; nous dirons alors que le caractre est continu. Dans ces deux situations, nous dirons que le caractre quantitatif est dfini par ses modalits (valeurs discrtes ou classes). Les modalits d'un caractre quantitatif peuvent tre prises dans Exemples d'ensembles de modalits. Nombre d'enfants dans une fratrie : {Mi} = {xi}={0, 1, 2, 3, ...}, Mi ? . L'ge, la taille et le poids d'un groupe d'individus reprsentent globalement une modalit dfinie dans 3 ( condition que chacune de ces variables soit discrte) L'ensemble des modalits d'un caractre peut tre tabli priori avant l'enqute (une liste, une nomenclature, un code) ou aprs enqute. On constitue l'ensemble des valeurs prises par le caractre. Les caractres tudis sur une population peuvent tre mixtes : Exemple de caractre mixte. L'ensemble des salaris d'une entreprise peut tre reprsent par un caractre mixte que nous pourrons exploiter globalement ou plus efficacement en extrayant une partie des donnes. Le sexe, de modalits : H ou F (cod par 1 ou 2) L'ge, de modalits : 18, 19, 20, ... ou [16, 20], [21, 25], ... Le salaire mensuel, de modalits : 6000, 6500, 7000, ... ou [6000, 6500[, [6500, 7500[, ... La situation matrimoniale, de modalits : mari, clibataire, veuf, divorc, vivant maritalement. ou
n
Cours de Statistique - Chapitre 1 ni = card (Ai) = Card (X 1 (Mi)) Une variable statistique s'identifie l'ensemble des triplets {(Mi, Ai, ni)}, i ? [ 1, p ].
Page 4
En pratique, le statisticien se contente souvent de l'ensemble des doublets {(Mi, ni)}, i ? [ 1, p ], sans se proccuper de savoir qui sont les ni individus de la population prsentant la modalit Mi du caractre C et constituant l'ensemble Ai. On appelle aussi distribution statistique l'ensemble des doublets {(Mi, ni)}, i ? [ 1, p ]. Exemples de variables statistiques. Le nombre d'enfants d'une fratrie : x1 = 0, n1 = 50 ; x2 = 1, n2 = 70 ; x3 = 2, n3 = 20. La taille d'une population : M1 = [ 150, 160 [, n1 = 50 ; M2 = [ 160, 175 [, n2 = 100. Les marques de vhicules automobiles : M1 = "Renault", n1 = 15 000 ; M2 = "Citron", n2 = 10 000 La frquence de la modalit Mi est, par dfinition : f (Ai) = = fi, N = ni.
La notion d'effectif d'une modalit est une notion absolue, elle ne permet pas directement les comparaisons. La notion de frquence est une notion relative, elle permet directement les comparaisons. Remarque. Si le caractre C ne prsente qu'une modalit a dans la population, on parle de variable, ou de distribution, statistique constante {(a, ? , N)}.
Page 5
a) Diagramme en btons.
Nous portons en abscisse les modalits, de faon arbitraire. Nous portons en ordonne des segments dont la longueur est proportionnelle aux effectifs (ou aux frquences) de chaque modalit. Nous appelons polygone statistique, ou diagramme polygonal, la ligne obtenue en joignant les sommets des btons.
b) Tuyaux d'orgue.
Nous portons en abscisses les modalits, de faon arbitraire. Nous portons en ordonnes des rectangles dont la longueur est proportionnelle aux effectifs, ou aux frquences, de chaque modalit.
c) Secteurs.
Les diagrammes circulaires, ou semi-circulaires, consistent partager un disque ou un demi-disque, en tranches, ou secteurs, correspondant aux modalits observes et dont la surface est proportionnelle l'effectif, ou la frquence, de la modalit. Ces diagrammes conviennent trs bien pour des donnes politiques ou socio-conomiques.
d) Exemple.
En 1982, les recettes du budget de l'Etat se prsentaient de la faon suivante (en milliards de francs) :
Le caractre tudi, la nature des recettes du budget de l'Etat, est un caractre qualitatif.
Page 6
Dans la reprsentation en tuyaux d'orgue, les diffrentes modalits du caractre (les diverses sources de recettes du budget de l'Etat) sont reprsentes par des segments sur l'axe des ordonnes. Pour chaque abscisse on porte un rectangle dont la longueur est proportionnelle au montant correspondant de la recette (effectif).
Dans la reprsentation par diagramme en btons, les diffrentes modalits du caractre (les diverses sources de recettes du budget de l'Etat) sont reprsentes par des points sur l'axe des ordonnes. Pour chaque abscisse, on porte un segment vertical dont la longueur est proportionnelle au montant correspondant de la recette (rectangle de largeur nulle). Dans le diagramme circulaire, chaque secteur a une surface proportionnelle l'importance de la recette dans le budget. L'angle au centre reprsentant une modalit est donc proportionnelle l'importance de la recette dans le budget.
Page 7
e) Cartogrammes.
Un cartogramme est une carte gographique dont les secteurs gographiques sont coloris avec une couleur diffrente suivant l'effectif ou suivant la frquence du caractre tudi.
Page 8
Exemple.
En vue d'tablir rationnellement le nombre de postes de travail ncessaires pour assurer sa clientle un service satisfaisant, une agence de voyage a fait relever, minute par minute, le nombre d'appels tlphoniques reus au cours d'une priode de 30 jours. Cette opration a fourni, pour la tranche horaire de pointe qui se situe entre onze heures et midi, les rsultats suivants :
La population tudie est celle des 1 800 minutes composant la dure totale des appels dans la tranche horaire de onze heures midi pendant 30 jours. Le caractre observ est le nombre d'appels tlphoniques : c'est un caractre quantitatif et la variable statistique correspondante, qui ne peut prendre que des valeurs entires, est discrte. La reprsentation des effectifs est identique celle des frquences : seule change l'chelle verticale. La reprsentation graphique diffrentielle correcte est le diagramme en btons. A chaque valeur xi de la variable, porte en abscisse, on fait correspondre un segment vertical de longueur proportionnelle la frquence fi de cette valeur. Le regroupement des valeurs extrmes de la variable en une seule classe (nombre d'appels suprieur ou gal 8) interdit normalement la reprsentation graphique de ce dernier segment. Mais, tant donne la frquence quasi ngligeable de cette classe, l'inconvnient n'est pas bien grand et l'on pourra reprsenter par un segment l'abscisse 8, la frquence des appels de dure 8 ou plus.
Page 9
La reprsentation graphique intgrale correcte est la courbe en escalier : les frquences des diverses valeurs de la variable statistique correspondent aux hauteurs des marches de la courbe en escalier.
Cours de Statistique - Chapitre 2 - Reprsentation graphique Diagramme intgral : courbe cumulative des effectifs ou des frquences. La courbe cumulative des frquences doit reprsenter la fonction de rpartition de la variable statistique.
Page 10
Exemple.
La Fdration nationale de la rparation et du commerce de l'automobile a effectu une enqute auprs de ses adhrents visant mieux connatre la structure de ce secteur. Cette opration a fourni la rpartition suivante des entreprises de la rparation de du commerce de l'automobile selon leur chiffre d'affaires annuel. La masse de chiffres d'affaires correspondant aux entreprises de la premire et de la dernire classes s'lve respectivement 1 714 et 110 145 millions de francs.
La population tudie est celle des entreprises de la rparation et du commerce de l'automobile. Le caractre observ est le chiffre d'affaires. C'est un caractre quantitatif et la variable statistique correspondante est continue. La reprsentation graphique diffrentielle correcte est l'histogramme des densits de frquences. Pour la premire et la dernire classes, l'amplitude de la classe n'est pas connue. On dtermine alors la moyenne de la classe, qu'on considre comme la valeur centrale de la classe (quand on construit un histogramme, on fait l'hypothse implicite que les effectifs sont rpartis uniformment l'intrieur de la classe, la moyenne de la classe est alors le centre de la classe). Pour la premire classe, la moyenne du chiffre d'affaires est = 0,125, de sorte que la premire classe est la classe [ 0,00 , 0,25 [. Pour la dernire classe, la moyenne du chiffre d'affaires est classe est la classe [ 10,00 , 60,00 [. = 35, de sorte que la dernire
La reprsentation graphique intgrale correcte est la courbe cumulative des frquences. Pour que chaque point exprimental reprsente la fonction de rpartition, il faut prendre pour abscisses les limites suprieures des classes et, pour ordonnes, les frquences cumules correspondantes.
Page 11
Comme la variable statistique est continue, on tracera une courbe cumulative continue, et non une courbe en escalier, de faon qu' une valeur de frquence cumule corresponde une et une seule valeur de variable. Entre deux points exprimentaux, on trace un segment de droite reprsentant l'interpolation linaire, ou bien une courbe lisse, asymptotiquement tangente l'horizontale d'ordonne 100.
Page 12
II. 2. 1. 1. Le mode
Le mode, not Mo, est la modalit qui admet la plus grande frquence : f (Mo) = Max (fi) ; i [ 1, p ] Il est parfaitement dfini pour une variable qualitative ou une variable quantitative discrte. Pour une variable quantitative continue nous parlons de classe modale : c'est la classe dont la densit de frquence est maximum. Si les classes ont mme amplitude la densit est remplace par l'effectif ou la frquence et nous retrouvons la dfinition prcdente. Nous dfinissons le mode, pour une variable quantitative continue, en tenant compte des densits de frquence des 2 classes adjacentes par la mthode suivante.
La classe modale [ xi, xi + 1 [ tant dtermine, le mode Mo vrifie : = Dans une proportion, on ne change pas la valeur du rapport en additionnant les numrateurs et en additionnant les dnominateurs : = =
Mo = xi +
(xi + 1 xi).
Page 13
Remarques.
Lorsque les classes adjacentes la classe modale ont des densits de frquences gales, le mode concide avec le centre de la classe modale. Le mode dpend beaucoup de la rpartition en classes. Une variable statistique peut prsenter plusieurs modes locaux : on dit alors qu'elle est plurimodale. Cette situation est intressante : elle met en vidence l'existence de plusieurs sous-populations, donc l'htrognit de la population tudie.
II. 2. 1. 2. La mdiane
La mdiane Me est telle que l'effectif des observations dont les modalits sont infrieures Me est gal l'effectif des observations dont les modalits sont suprieures Me. Cette dfinition n'a de sens que si les modalits sont toutes ordonnes. Dans le cas d'une variable qualitative il est parfois possible de choisir un ordre. Exemple : niveau d'tudes scolaires : cole primaire < 1er cycle < CAP < BEP < Bac < BTS < DEUG < .... Une variable quantitative X doit tre dfinie dans .
Cas d'une variable continue : Reprenons l'exemple de II.1.2.b de variable continue (entreprises automobiles). La frquence cumule est 36,1 % pour x = 0,50, et 52,7 % pour x = 1,00. L'intervalle [0,50, 1,00 [ est l'intervalle mdian. Dans l'intervalle mdian, la mdiane est calcule par interpolation linaire.
Page 14
Remarques
La mdiane ne dpend que de l'ordre des modalits , elle n'est donc pas influence par les observations aberrantes. La mdiane partage l'histogramme des frquences en 2 parties d'aires gales.
II. 2. 1. 3. La moyenne
La moyenne ne se dfinit que pour une variable statistique quantitative. , la moyenne est la moyenne
Pour une variable statistique discrte {(xi, ni)}1 i p valeurs dans arithmtique des modalits pondres par les effectifs : = ni xi = X (), avec N =
ni.
q
Pour une variable statistique discrte {((xij)1 j q, ni)}1 i p valeurs dans encore la moyenne arithmtique des modalits dans
q
, la moyenne
est
ni
est le "point moyen" qui rsume le nuage de points de q. Il caractrise un individu moyen reprsentatif du nuage de donnes.
Exemple.
L'tude de 21 familles a conduit la distribution suivante suivante le nombre d'enfants dans la famille : Nombre d'enfants xi Nombre de familles ni Le nombre moyen d'enfants par famille est = 0 5 1 3 2 6 3 1 4 3 5 3
ni x i =
(0 5 + 1 3 + 2 6 + 3 1 + 4
Page 15
3 + 5 3) =
Naturellement, cette moyenne ne reprsente pas une "famille moyenne" mais donne une estimation du nombre d'enfants dans une famille dont est extrait l'chantillon : nous pourrons dire que, dans cette population, il faudra, en moyenne, 7 familles pour avoir 15 enfants, ou que 100 familles auront, en moyenne, 214 enfants.
a) Proprits de la moyenne.
Somme. La somme X + Y de deux variables statistiques X et Y est dfinie par : (X + Y) () = X () + Y (), pour tout . Nous avons alors crire : = (X + Y) () = (X () + Y ()) = X () + Y () = +
Le produit X d'une variable statistique X par un nombre rel est dfini par : ( X) () = X (), pour tout . Nous pouvons alors crire : = ( X) () = X () = .
(X ()
)=
X ()
=0
=0
b) Moyenne conditionne.
Soit * une sous-population de (exemple : nombre d'enfants d'une fratrie d'origine trangre dans une population donne). Soit X* la restriction *.d'une variable statistique X = {(xi, Ai, ni)}, i [ 1, p ], sur . On pose : Ai* = Ai f *, ni* = Card (Ai*) = Card (Ai f *), n* = Card (*). X* = {(xi, Ai*, ni*)}, i [ 1, p ].
Page 16
Considrons maintenant une partition de en s sous-populations 1, ... , s. Soit X = {(xi, Ai, ni)}, i [ 1, p ], une variable statistique sur . Chaque sous-population j, j [ 1, s ], dfinit une variable statistique Xj sur j, qui est la restriction de X j. On pose ni j = Card (Ai f j), n. j = Card (j) = On a ni = Card (Ai) = La moyenne de Xj est ni j, i [ 1, p ]. = ni j xi. ni j, j [ 1, s ].
On peut alors dfinir une nouvelle variable statistique sur , qu'on appelle la moyenne conditionne de X pour la partition {1, ... , s} : MC (X) = {( , j, n. j)}, j [ 1, s ]. La moyenne de cette variable statistique est : = n. j = ni j x i = = . ni j x i = ni xi = .
Cette relation constitue le thorme de la moyenne conditionne. Exemple. Soit une population de commerants, partitionne en trois catgories disjointes : A : les supermarchs, B : les moyennes surfaces, C : les petits dtaillants. Soit X le prix du litre d'huile. Soit le prix moyen du litre d'huile dans les supermarchs : c'est le quotient entre le prix de vente total de l'huile dans les supermarchs, et le nombre total de litres vendus dans les supermarchs. De mme, soit , le prix moyen du litre d'huile dans les moyennes surfaces. De mme, soit , le prix moyen du litre d'huile chez les petits dtaillants. La relation prcdente (thorme de la moyenne conditionne) permet de calculer le prix moyen du litre d'huile en prenant le barycentre des prix moyens , , , affects des nombres de litres d'huile vendus par chaque catgorie de commerants (moyenne pondre par les frquences).
Page 17
[ ei, ei + 1 [, fi =
Supposons que nous connaissions le point moyen de chaque classe [ ei, ei + 1 [. Alors, d'aprs le thorme de la moyenne conditionne, la moyenne de X est donne par : = ni = fi .
Nous allons faire le calcul dans deux hypothses. Premire hypothse. Dans chaque classe, toutes les observations sont concentres au centre de la classe : xi = ). 1 = = Deuxime hypothse. Dans chaque classe, la rpartition des observations est uniforme. Alors, par raison de symtrie, la moyenne d'une classe est la valeur centrale xi = classe. On a encore : = fi = fi x i fi ni xi = xi = fi x i (ei + ei +
(ei + ei + 1) de la
Conclusion : dans le cas d'une variable statistique continue, pour effectuer le calcul du point moyen, l'hypothse de rpartition uniforme dans chaque classe est quivalente l'hypothse d'une concentration de toutes les modalits d'une classe au centre de la classe.
est un nombre rel, compris entre la valeur minimum et la valeur maximum de (xi), i [ 1, p ]. Comme est une injection continue, il existe un unique R+* tel que ( )=
Page 18
Exemples de -moyennes.
1. Si est l'application identique dfinie par (x) = x, la -moyenne de X est la moyenne arithmtique de X, c'est la moyenne au sens ordinaire. 2. Si est dfinie par (x) = x 2, nous obtenons la moyenne quadratique q de X, dfinie par ni xi 2. 3. Si est dfinie par (x) = ni .
g
2 q
de X, dfinie par
de X, dfinie par
)=
ni ln (xi), soit
xi
Il y a galit si, et seulement si, toutes les valeurs de X sont gales. La moyenne gomtrique est bien adapte l'tude des phnomnes de croissance. La moyenne harmonique est utilise pour les calculs d'indices conomiques.
Page 19
II. 2. 2. 1. Etendue
Soit X une variable statistique relle discrte. L'tendue de X est la diffrence entre la plus grande valeur de X et la plus petite valeur de X. = xmax xmin Ce paramtre est souvent utilis dans les contrles de fabrication, pour lesquels on donne, a priori, des marges de construction. Son intrt est limit par le fait qu'il dpend uniquement des valeurs extrmes, qui peuvent tre des valeurs aberrantes.
Page 20
c) Dciles et percentiles. Les 9 dciles sont les nombres rels qui partagent l'tendue en dix intervalles de mme effectif. Utilisation : en matire de salaires, le rapport est un paramtre de dispersion frquemment utilis. Les 99 percentiles sont les nombres rels qui partagent l'tendue en cent intervalles de mme effectif.
On pourrait aussi dfinir l'cart absolu moyen de X par rapport sa mdiane, ou par rapport un nombre rel a quelconque. e= ni | xi a |
On peut dmontrer que l'cart absolu moyen par rapport un nombre rel a est minimum lorsque a est gal la moyenne de X. b) Calcul pratique. Lorsque les observations sont groupes par classe, on adopte gnralement pour valeur de variable statistique le centre de chaque classe. L'cart absolu moyen prsente un inconvnient majeur : il ne se prte pas facilement aux calculs algbriques, cause de la valeur absolue.
On appelle cart-type de X la racine carre s (X) de la variance de X. S = N s 2 (X) est la somme des carrs des carts : S = b) Formule de la variance. ni ( xi )2
Page 21
En dveloppant le carr ( xi
=
2
Cette formule (la variance est gale la moyenne du carr moins le carr de la moyenne) est appele formule de la variance, ou formule de Knig. Elle peut s'crire sous la forme : s 2 (X) = c) Gnralisation R q. Dans R, la distance euclidienne d (X (), que la variance peut tre crite : s 2 (X) = ) entre X () et , est l'cart absolu | X () |, de sorte ni x i 2 ni xi
(d (X (),
)) 2.
) entre X () =
et
, par
(d (Xj (),
)) 2
La variance d'une variable statistique valeurs dans R q, est alors dfinie par : s 2 (X) = = = = = ( (d (X (), ( Xj () (d (Xj (), s 2 (Xj) ( ) 2) )) 2 )2 )) 2
Page 22
s 2 (X) = = =
ni
( xi j ni ( xi j ni ( xi j )2 )2
)2
s 2 (Xj) =
ni ( xi j
)2
1. La variance est toujours un nombre rel positif. En effet, c'est une somme de carrs. 2. La variance est nulle si, et seulement si, X possde une seule valeur. En effet, une somme de carrs s 2 (X) = carr est nul. 3. s 2 (a + b X) = b 2 s 2 (X), quels que soient les nombres rels a et b. En effet, si X est valeurs relles, on a : = ( s (a + b X) =
2
(d (X (),
e) Inertie par rapport un point a. On appelle inertie d'une variable statistique X par rapport un point a, la moyenne du carr de la distance de X au point a : Ia (X) = L'inertie de X par rapport au point moyen Proprit. L'inertie Ia (X) est minimale lorsque a est gal . (d (X (), a)) 2 est la variance de X.
Page 23
de X, d'effectif ni, i [ 1, p ]. ni ( xi j aj ) 2
(d (X (), a)) 2 =
Ecrivons xi j aj sous la forme : x i j aj = x i j Il vient alors : ( xi j aj ) 2 = (xi j Ia (X) = = s 2 (X) + ( )2 + ( ni (xi j aj) 2 + 2 (xi j )2 + ( ni aj) )( ( aj) aj) 2 + 2 ni (xi j ) ni (xi j )( aj) + aj
aj) 2 + 2
, on a
ni (xi j
) = 0.
d2 = Il reste :
aj) 2
Ia (X) = s 2 (X) + d 2. s 2 (X) est un nombre rel positif qui ne dpend pas de a. d 2 est un nombre rel positif, sa valeur minimum est 0. Ia (X) est minimum lorsque d 2 est nul, c'est--dire lorsque aj = f) Variance conditionne. Considrons maintenant une partition de en s sous-populations 1, ... , s. Soit X = {(xi, Ai, ni)}, i [ 1, p ], une variable statistique quantitative discrte sur , valeurs dans R. Chaque sous-population j, j [ 1, s ], dfinit une variable statistique Xj sur j, qui est la restriction de X j.
Page 24
On pose ni j = Card (Ai f j), n. j = Card (j) = On a ni = Card (Ai) = La moyenne de Xj est ni j, pour tout i [ 1, p ]. = ni j xi. ni j xi 2
ni j, j [ 1, s ].
ni j xi
La moyenne conditionne de X pour la partition {1, ... , s} a t dfinie par la variable statistique : MC (X) = {( , j, n. j)}, j [ 1, s ], avec N = La moyenne de cette variable statistique est : Sa variance est : s 2 (MC (X)) = = = n. j
2
n. j
n. j ni j xi ni x i
ni j xi ni j xi
On peut dfinir une nouvelle variable statistique sur , qu'on appelle la variance conditionne de X pour la partition {1, ... , s} : sC 2 (X) = {(s 2 (Xj), j, n. j)}, j [ 1, s ], avec N = n. j s 2 (Xj). n. j s 2 (Xj) n. j
La moyenne de cette variable statistique est : Sa variance est s 2 (sC 2 (X)) = On a alors : N = = = = n. j s 2 (Xj) = n i j xi 2 ni xi 2 ni xi 2 ni j xi ni j xi ni j xi 2 ni j xi n. j (s 2 (Xj)) 2
ni j xi
Page 25
ni xi 2
ni xi
= s 2 (X)
s 2 (X) =
+ s 2 (MC (X))
constitue le thorme de la variance conditionne : la variance de X est la somme de la moyenne de la variance conditionne de X et de la variance de la moyenne conditionne de X. Le terme s'appelle la variance intraclasse. Il traduit la variation de X autour de sa moyenne, dans la partition {1, ... , s}. Le terme s 2 (MC (X)) s'appelle la variance interclasse. Il traduit la variation de la moyenne de X dans la partition {1, ... , s}. Note : Ce rsultat peut tre tendu une variable statistique discrte valeurs dans R q. g) Variance d'une variable statistique relle continue. Les classes [ ei, ei + 1 [, de frquences fi = , i [ 1, p ], forment une partition de X ().
La variance de X s'obtient : en calculant la variance si 2 (X) de X dans chaque classe, en faisant la moyenne de ces variances (moyenne de la variance conditionne) : fi si 2 (X)
en faisant la somme de la moyenne de la variance conditionne et de la variance de la moyenne conditionne : s 2 (X) = fi si 2 (X) + fi ( )2
1/ Dans l'hypothse o toutes les observations sont concentres au milieu de la classe xi = la variance si 2 (X) de X dans chaque classe, est nulle, s 2 (X) = du cas discret. s 2 (X) = s 2 (U) o xi = p}. fi (xi
) 2. On retrouve la formule
est le centre de la classe d'indice i et U est la variable statistique {(xi, ni)}, i {1, ... ,
2/ Dans l'hypothse o la rpartition des valeurs de X dans chaque classe est uniforme, au terme
Page 26
fi (
)2 =
fi (xi
de X dans chaque classe. Pour calculer ce terme complmentaire, il faut calculer la variance d'une variable rpartie uniformment sur un intervalle. Lemme. La variance d'une variable statistique rpartie uniformment sur un intervalle de longeur a est Dmonstration du lemme. On peut utiliser la formule de la variance : la variance est gale la moyenne du carr moins le carr de la moyenne. La moyenne du carr est = =
2
x 2 dx =
[ (ei + a) 3 ei 3 ] =
(3 ei 2 a + 3 ei a 2 + a 3)
Le carr de la moyenne est La variance de X dans l'intervalle [ei, ei + a] est donc : si 2 (X) = Le terme correctif + ei 2 + ei a + ei 2 + ei a = =
Dans le cas o toutes les classes ont la mme amplitude ei + 1 ei = a, le terme correctif est : fi si 2 (X) = et la variance de X est donne par : s 2 (X) = fi (xi )2 + = s 2 (U) + fi =
s 2 (X) = s 2 (U) + o xi = p}. est le centre de la classe d'indice i et U est la variable statistique {(xi, ni)}, i {1, ... ,
Page 27
Le coefficient de variation est un nombre sans dimension qui permet de comparer deux variables statistiques de natures diffrentes. On remarquera que, au signe prs, c'est l'cart-type de la variable statistique ou .
II.2.2.6. Moments.
Soit X une variable statistique quantitative relle. On appelle moment d'ordre r de X, la quantit : mr = [X ()] r = ni xi r
Pour r = 0 : m0 = 1. Pour r = 1 : m1 = . Le moment d'ordre 1 est la moyenne. Pour r = 2 : m2 = . On appelle moment centr d'ordre r de X, la quantit : r = Pour r = 0 : 0 = 1. Pour r = 1 : 1 = 0. Pour r = 2 : 2 = s 2 (X) = m2 m1 2. Le moment centr d'ordre 2 est la variance. [X () ]r = ni (xi )r
II.2.2.7. Conclusion.
Centrer et rduire une variable statistique quantitative X consiste la remplacer par X pour la centrer (moyenne 0) diviser par s (X) pour la rduire (cart-type 1). La variable X ' = a pour moyenne 0 (elle est centre) et pour cart-type 1 (elle est rduite). :
Page 28
sa moyenne est 0 et son cart-type est 1 : c'est une variable centre rduite et la courbe de densit de frquence associe est appele la courbe en cloche, ou courbe de Gauss. Un problme intressant sera de comparer la courbe de densit de frquence d'une variable statistique quantitative cette courbe en cloche.
Page 29
Le coefficient d'asymtrie de Yule fait intervenir la mdiane et les quartiles, il est dfini par Y= .
Le coefficient d'asymtrie de Fisher fait intervenir les moments centrs, il est dfini par F= = .
Lorsque le coefficient d'asymtrie est positif, la distribution est plus tale droite : on dit qu'il y a oblicit gauche. Lorsque le coefficient d'asymtrie est ngatif, la distribution est plus tale gauche : on dit qu'il y a oblicit droite. Oblicit gauche :
Oblicit droite :
On utilise souvent un coefficient d'asymtrie de Pearson bas sur les moments centrs : 1 =
Page 30
Ce coefficient d'asymtrie est toujours positif. Il est nul pour une distribution densit de frquence symtrique, telle la loi de Gauss. b) Exemples. 1/ Considrons la variable statistique X de distribution : xi ni Mo = 1 ; 3 = 1 4 4 1 (4 ( 1) + 1 4 ) = 4.
(4 ( 1) + 1 4 ) = 12 ; 2 = P= F= = =
1 =
(1 ( 4) + 4 1 ) = 12 ; 2 = P= F=
On peut se demander pourquoi 3 ? C'est parce que, en Probabilits, on peut dmontrer que le coefficient d'aplatissement de Pearson pour une variable alatoire relle qui suit une loi de Gauss, est gal 3.
Page 31
Il est alors naturel, pour comparer l'applatissement d'une distribution statistique l'aplatissement d'une variable de Gauss, d'introduire le coefficient F 2 = 2 3. Si F 2 est gal 0, le polygone statistique de la variable rduite a le mme aplatissement qu'une courbe en cloche, on dit que la variable est msokurtique. Si F 2 est > 0, le polygone statistique de la variable rduite est moins aplati qu'une courbe en cloche, on dit que la variable est leptokurtique. Si F 2 est < 0, le polygone statistique de la variable rduite est plus aplati qu'une courbe en cloche, on dit que la variable est platykurtique.
Page 32
qi =
fk xk =
fk
On appelle courbe de concentration, ou courbe de Lorenz, la ligne polygonale joignant les points de corrdonnes (p i, q i). En ralit, pour une variable statistique continue, on ne connat la courbe de Lorenz que pour les extrmits des classes : l'interpolation linaire suppose que la rpartition des valeurs de la variable l'intrieur de chaque classe est uniforme. Dans le cas d'une variable discrte, on adopte aussi la reprsentation par une ligne polygonale. La courbe de Lorenz est toujours inscrite dans le carr [0, 1] [0, 1]. Cette courbe se caractrise par les traits suivants. 1/ Les points extrmes sont les points (0, 0) et (1, 1) puisque 0 % de la population reoit 0 % de de la masse salariale et 100 % de la population reoit 100 % de la masse salariale. 2/ La courbe est ncessairement convexe vers le bas. Cela rsulte du fait que la pente du segment qui correspond, par exemple, aux points d'abscisses 0, 50 et 0,60, ne peut tre infrieure celle du segment correspondant aux abscisses 0,40 et 0,50 puisque, par dfinition, on considre des classes successives disposant chacune d'une part croissante de la masse salariale totale. 3/ Enfin, et surtout, la courbure de la courbe de Lorenz peut tre interprte comme un indice d'ingalit. En effet, dans une situation hypothtique d'galit absolue, la courbe prendrait la forme d'un segment de droite (diagonale du carr) tendue entre les points (0, 0) et (1, 1). De mme, dans une situation d'ingalit extrme o la quasi-totalit de la masse salariale serait dtenue par une infime minorit de la population, la courbe de Lorenz tendrait longer l'axe des p, avant de remonter brutalement vers le point (1, 1). b) Indice de Gini. L'indice de Gini (du nom du statisticien italien Corrado Gini qui a propos en 1912 cet indice pour les distributions de salaires et de revenus), quant lui, est obtenu en dterminant la surface S comprise entre la courbe de Lorenz et la diagonale et en rapportant cette surface la surface du demi-carr dans lequel s'inscrit cette courbe. Comme la surface du carr est 1, l'indice de Gini est le double de l'aire S comprise entre la courbe de Lorenz et la diagonale du carr. Trs souvent, la surface S peut tre dtermine avec suffisamment de prcisions de manire graphique. Numriquement, on peut calculer l'indice de Gini par la formule : g=2S=1 (p i + 1 p i) (q i + 1 + q i) = 1 f i + 1 (q i + 1 + q i)
Page 33
Dire que g = 0, c'est dire que la courbe de Lorenz concide avec la diagonale du carr (galit absolue). Dire que g = 1, c'est dire que la courbe de Lorenz longe d'abord l'axe des p, puis la droite p = 1 (ingalit maximale). De faon gnrale, l'indice de Gini peut tre interprt comme ayant une valeur d'autant plus grande que l'ingalit est grande : il constitue donc une bonne mesure de l'ingalit. Applications. L'indice de Gini permet de mesurer les ingalits scolaires, les ingalits de statut, les ingalits de salaires, etc. c) Mdiale. La mdiale d'une variable statistique X est la valeur de X qui partage la masse globale en deux parties gales. Sur la courbe de Lorenz, la moiti de la masse globale correspond l'ordonne . Le point d'ordonne a une abscisse x qui correspond une frquence cumule x.
La valeur correspondante de X s'obtient en prenant l'abscisse du point d'ordonne x sur le diagramme cumulatif des frquences.
Si la variable statistique X est dfinie par {(xi, ni)}, i [1, p], soit Pour une variable continue, xi reprsente le centre de la i e classe. On pose ri = . On a : ri = 1.
ni xi, avec N =
ni.
Dans notre exemple, ri reprsente la fraction de la masse salariale globale gagne par les personnes dont le salaire est xi. La mdiale de X est la mdiane de la variable statistique {(xi, ri)}, i [1, p]. La mdiale n'est pas le salaire gagn par l'employ qui est "au milieu de la file", mais le salaire gagn par le salari qui permet d'atteindre la moiti de la masse salariale totale. La comparaison des valeurs de la mdiale et de la mdiane constitue une mesure de la concentration. Lorsque l'cart entre la mdiale et la mdiane est important par rapport l'tendue de la distribution de la variable, la concentration est forte. Si la distribution est galitaire, la concentration est faible et l'cart entre la mdiale et la mdiane est faible.
Page 34
La mdiale est toujours suprieure la mdiane, puisque 50 % des effectifs cumuls croissants ne permettent jamais d'atteindre 50 % de la masse totale.
Page 35
III.1. DEFINITIONS.
III.1.1. Variable statistique deux dimensions.
Considrons une population finie (Card () = N) sur laquelle nous tudions deux caractres (qualitatifs ou quantitatifs rels) A et B. Dsignons par A i, i [1, p], les modalits observes du caractre A, par B j, j [1, q], les modalits observes du caractre B. Appelons C ij l'ensemble des prsentant, la fois, la modalit A i du caractre A et la modalit B j du caractre B. Appelons n ij le cardinal de C ij. N= n ij.
On appelle variable statistique deux dimensions l'ensemble Z des triplets ((A i, B j), C ij, n ij), pour i [1, p] et j [1, q], pour lesquels n ij n'est pas nul. Les C ij forment une partition de . Le nombre n i. = n ij des individus prsentant la modalit A i du caractre A, permet de n ij des individus prsentant la modalit B j du caractre B, permet de
dfinir une variable statistique Y une dimension. Le couple (X, Y) est une variable conjointe : c'est une variable statistique deux dimensions si l'on en limine les modalits conjointes (A i, B j) dont l'effectif est nul. En pratique, on admettra que, pour une variable statistique Z deux dimensions : des modalits conjointes (A i, B j) peuvent avoir un effectif n ij nul, pour tout j [1, q], il existe au moins un i [1, p] tel que n ij ne soit pas nul, pour tout i [1, p], il existe au moins un j [1, q] tel que n ij ne soit pas nul. Dans ce cas, une variable statistique deux dimensions est une variable conjointe, couple de deux variables statistiques une dimension. Une telle variable statistique deux dimensions peut se reprsenter par un tableau double entre appel tableau de contingence.
Page 36
La frquence de la modalit conjointe (A i, B j) est f ij = La frquence de la modalit A i est f i. = La frquence de la modalit B j est f .j = = = f ij. f ij.
Ces frquences sont parfois appeles des "pondrations". Elles vrifient les galits : f ij = f i. = f .j = 1.
Considrons les variables statistiques X = {(A i , C i. , n i. )}, i [1, p], dfinie par C i. = C ij et n i. = n ij, et
Les variables statistiques X et Y ainsi dfinies sont appeles les variables marginales de Z. Leur distribution est reprsente par les marges du tableau de contingence.
Page 37
Ce tableau reprsente une variable statistique dont les modalits sont les A i , i [1, p] pour lesquels les n ij ne sont pas nuls. A ces modalits, est associe une partition de C .j = vides, pour j fix, avec, pour effectifs, les n ij non nuls. Cette variable statistique {(A i , C ij , n ij)}, i [1, p], dfinie par une colonne du tableau de contingence, est appele la variable X conditionne par B j , ou variable X conditionnelle pour B fix. Pour cette variable conditionnelle, nous pouvons dfinir la frquence conditionnelle de la modalit A i par f i | j = . C ij par les C ij non
On peut dfinir ainsi q variables conditionnelles, correspondant aux q colonnes du tableau de contingence (autant qu'il existe de modalits du caractre B). De la mme faon, nous pouvons dfinir pour chaque ligne du tableau de contingence une variable Y conditionne par A i, avec une frquence conditionnelle de la modalit B j donne par f j | i = .
Remarque. Si les deux variables X et Y sont quantitatives et jouent des rles symtriques, il est intressant d'tudier les variables conditionnelles des deux types. Exemple : taille et poids d'tudiants. Si l'une des variables est qualitative et l'autre quantitative, alors seul le conditionnement par la variable qualitative prsente un intrt.
Page 38
Exemple.
III.2.2.2. Strogramme.
Dans certains cas, on peut faire une reprsentation dans R : - strogramme en btons pour une variable discrte. - strogramme en histogramme pour une variable continue. Exemple : Mariages clbrs en 1962, suivant l'ge des poux (1e colonne : ge de l'poux, 1e ligne : ge de l'pouse).
Page 39
Page 40
Dans cette reprsentation, les cts du triangle correspondent la valeur 0 de l'une des trois composantes. Les sommets du triangle correspondent la valeur 0 de deux des trois composantes. Les milieux des cts correspondent la valeur 0 de l'une des trois composantes et la valeur 50 % des deux deux autres composantes. Le centre du triangle correspond l'galit des trois grandeurs reprsentes. Les hauteurs du triangle correspondent l'galit de deux des trois facteurs, ce qui permet de diviser l'aire du triangle en zones caractrises par un critre prcis.
Exemple. A une date donne, on rpartit les diffrents secteurs d'activit selon le pourcentage d'entreprises escomptant une augmentation, une diminution, ou une stabilit, de leur activit pour la priode venir. La reprsentation du point dans un diagramme triangulaire, permet de suivre travers le temps l'volution des pronostics pour une mme branche d'activit (analyse des rponses des chefs d'entreprise l'enqute trimestrielle sur la conjoncture conomique).
Page 41
n.j (yj ) 2 =
Page 42
Cette notation simplifie sera utilise systmatiquement : dans le cas d'une moyenne, l'indice reprsente toujours le conditionnement. = nij yj =
L encore, la notation simplifie sera utilise systmatiquement : un indice pour la variance reprsente le conditionnement.
III.3.3. Covariance.
Pour une variable statistique quantitative Z deux dimensions, de variables marginales X et Y, on dfinit la covariance de X et Y par l'expression : Cov (X, Y) = nij (xi )(yj )
Nous remarquons que la variance a la mme dimension qu'une variance. D'ailleurs, nous avons Cov (X, X) = s 2 (X) et Cov (Y, Y) = s 2 (Y). De plus, si l'on remarque que l'on a : nij = N nij xi = nij yj = ni. xi = N n.j yj = N
la formule de dfinition de la covariance peut s'crire : Cov (X, Y) = La formule Cov (X, Y) = nij xi yj nij xi nij yj =
Proprits de la covariance.
Cov (a X + b, c Y + d) = a c Cov (X, Y), pour a, b, c, d dans .
Page 43
En effet : = a + b, = c + d, =ac Cov (a X + b, c Y + d) = =ac +ad +bc =ac +ad +bc =ac( ) = a c Cov (X, Y)
+ad
+bc
+ b d.
+ b d (a + b)(c + d) +bdac bc ad
bd
III.3.4.2. Variance.
La variance marginale est la somme de la moyenne pondre des variances conditionnelles et de la variance pondre des moyennes conditionnelles. s 2 (X) = = et l'on a : nij (xi nij = n.j nij ( )2 = n.j ( )2 = N ) 2 = n.j sj 2 (X) nij (xi nij (xi )2 = nij (xi nij ( + )2 nij (xi )( )
)2 +
)2 +
Page 44
nij (xi = = ( (
)( )
)= nij xi n.j
nij
nij (xi
)(n.j
) = 0.
s 2 (X) =
n.j (
ce qui traduit le rsultat annonc, qui peut s'crire aussi (Thorme de la variance conditionne, II.2.2.4.f) : s 2 (X) = + s2 ( )
De mme, la variance marginale de Y est donne par la formule : s 2 (Y) = ni. si 2 (Y) + s 2 (Y) = Remarque. La variance traduit la dispersion de la distribution. La dispersion de la distribution marginale de X rsulte de deux facteurs : La dispersion des distributions conditionnes autour de leurs moyennes : c'est le premier terme, ni. si 2 (Y) , qu'on appelle la variance intra-population, et qu'on note sw 2 (Y) (w pour within). La dispersion des moyennes conditionnelles autour de la moyenne : c'est le deuxime terme, ni. ( ) 2, qu'on appelle la variance inter-population, et qu'on note sb 2 (Y) (b pour between). s 2 (Y) = sw 2 (Y) + sb 2 (Y) ni. ( )2
+ s2 ( )
Page 45
III.4.1.2. Proprits.
a) Le point moyen de la variable de rgression de Y en X est le point moyen de Z. En effet : fi. xi = et fi. b) Cov (X, En effet : fi. (xi , ) = ( fi. xi , fi.
)=( , )=
Page 46
Cov (X,
)(
) + fi.
fi. +
) = fi. xi fi. xi
yj
En effet, comme on a
Notons que sb 2 (Y), variance inter-population, n'est pas la variance marginale s 2 (Y) de Y.
Alors la variance inter-population sb 2 (Y) sera faible et la courbe de rgression de Y en X variera peu autour de . Inversement, si les sont trs disperss autour de , la variance inter-population sb 2 (Y) sera grande, ce qui veut dire que la courbe de rgression de Y en X variera en grandes dents de scie autour de . Autrement dit, la valeur de la variance inter-population sb 2 (Y) influence directement la courbe de rgression. Nous dirons que sb 2 (Y) est la part de la variance marginale s 2 (Y) qui est explique par la rgression de Y en X. Nous parlerons simplement de variance explique.
Page 47
Le terme sw 2 (Y), quant lui, est d'autant plus faible que les si 2 (Y) sont faibles, donc que les valeurs de Y varient peu, pour chaque xi, autour de . Ce terme n'a pas d'influence sur la courbe de rgression de Y en X (qui fait intervenir seulement les xi et les ) : nous l'appelons la variance rsiduelle. a) Dfinition. Le rapport entre la variance explique sb 2 (Y) et la variance marginale totale s 2 (Y) est appel rapport de corrlation. On le note 2Y | X : 2Y | X = Il peut aussi tre calcul par la formule : 2Y | X = 1 b) Proprits.
1. 0 2Y | X 1.
Cette proprit rsulte directement de la formule de dfinition 2Y | X = = sw 2 (Y) + sb 2 (Y), dans laquelle tous les termes sont positifs.
2. 2Y | X = 0 sb 2 (Y) = 0 = , i [1, p].
et de la formule s 2 (Y)
Dans un tel cas, la courbe de rgression est parallle l'axe des x. Nous dirons que Y est non corrle avec X : en clair, cela veut dire que la connaissance de X ne donne aucune information sur Y. Naturellement et de faon symtrique, si l'on a 2X | Y = 0, X est non corrle avec Y et la courbe de rgression de X en Y est parallle l'axe des y. Si l'on a, la fois, 2Y | X = 0 et 2X | Y = 0, on dit qu'il y a absence rciproque de corrlation.
3. 2Y | X = 1 sw 2 (Y) = 0 yj = , i [1, p], j [1, q].
Dans un tel cas, chaque valeur xi de X correspond une valeur et une seule de Y : il y a une liaison fonctionnelle Y = f (X) entre X et Y. Si, de plus, on a aussi 2X | Y = 1, la liaison fonctionnelle entre X et Y est biunivoque.
4. En pratique, nous aurons toujours 0 < 2Y | X < 1.
Dans ce cas, plus 2Y | X est voisin de 1, plus la dpendance de Y par rapport X est forte et,
Page 48
inversement, plus 2Y | X est voisin de 0, moins la dpendance de Y par rapport X est forte. Le rapport de corrlation 2Y | X ne caractrise que l'intensit de la corrlation de Y par rapport X et non le sens de la liaison entre les deux. Il reste invariant si l'on effectue sur Y un changement d'origine ou d'chelle. En effet : sb 2 (a Y + b) = a 2 sb 2 (Y) et s 2 (a Y + b) = a 2 s 2 (Y), de sorte que le rapport ne
change pas. Comme ce rapport ne tient pas compte de la nature de la courbe de rgression, son emploi reste valable quelle que soit la nature de cette courbe de rgression.
et les lignes du tableau de contingence sont proportionnelles. De faon symtrique, Y est indpendante de X si, et seulement si, l'on a : = ... = = ... = = , j [1, q]
et, dans ce cas, les colonnes du tableau de contingence sont proportionnelles. Remarque : X est indpendante de Y Y est indpendante de X. En effet : X est indpendante de Y , i [1, p], j [1, q]
Y est indpendante de X. Au lieu de dire "X est indpendante de Y", on peut donc dire "X et Y sont indpendantes", la relation est symtrique. Proprits.
a) Courbes de rgression de variables indpendantes.
Si X et Y sont indpendantes, les variables statistiques Y et Z i [1, p], elles ont donc la mme moyenne, Il en rsulte : =
Page 49
sb 2 (Y) = fi. ( 2Y | X =
)2 = 0 =0
De faon symtrique, si X et Y sont indpendantes, Y et X sont indpendantes, les variables statistiques X et Z ont la mme distribution pour tout j [1, q], de sorte que l'on a aussi : sb 2 (X) = f.j ( 2X | Y = )2 = 0 =0
Ainsi, dans le cas o X et Y sont indpendantes, la courbe de rgression de Y en X est une parallle l'axe des x et la courbe de rgression de X en Y est une parallle l'axe des y. On notera que si l'indpendance a pour consquence le paralllisme des courbes de rgression aux axes de coordonnes, en revanche, les courbes de rgression peuvent tre parallles aux axes de coordonnes sans que, pour autant, les variables soient indpendantes. Il ne suffit pas que les moyennes conditionnelles soient identiques pour assurer l'indpendance, il faut encore que les distributions conditionnelles soient identiques. Or plusieurs distributions peuvent avoir la mme moyenne sans ncessairement tre identiques. L'absence rciproque de corrlation n'entrane pas l'indpendance. Les proprits du rapport de corrlation peuvent tre rsumes dans le tableau suivant, qui est un tableau d'quivalence (il se lit dans les deux sens).
b) Critres d'indpendance. 1- Pour que X et Y soient indpendantes, il faut et il suffit que l'on ait : nij = , pour tout (i, j) [1, p] [1, q].
Page 50
ce qui signifie que X est indpendante de Y. 2- Pour que X et Y soient indpendantes, il faut et il suffit que l'on ait : fij = fi. f.j, pour tout (i, j) [1, p] [1, q]. C'est simplement une autre faon d'crire le critre prcdent, avec fij = , fi. = , f.j = .
c) Si X et Y sont indpendantes, leur covariance est nulle. En effet, la covariance de X et Y est donne par la formule de la covariance : Cov (X, Y) = Lorsque X et Y sont indpendantes, nous avons : = fij xi yj = fi. f.j xi yj = fi. xi f.j yj =
de sorte que la covariance est nulle. La rciproque est fausse : la covariance peut tre nulle sans que les variables soient indpendantes.
Page 51
La courbe de rgression de Y en X joint les points Ri de coordonnes (xi , Pour tout i [1, p], considrons un point Ai = (xi, y'i ). On appelle somme des carrs des carts, en abrg SCE, l'expression : S= nij (y'i yj) 2 nij (y'i yj) 2 = fij (y'i yj) 2
La somme des carrs des carts s'crit : S= = nij (y'i nij (y'i nij (y'i nij ( )( + )2 + yj) = yj) 2 nij ( (y'i yj) 2 + 2 ) nij ( nij (y'i yj) = )( yj) ) (ni. ni. )=0
(y'i
yj) 2 = )2 = )2 +
Le terme
ni. si 2 (Y) ne dpend pas du choix des y'i. ni. (y'i ) 2 est nul, c'est--dire lorsque y'i =
S prendra donc une valeur minimum, lorsque pour tout i [1, p]. Autrement dit :
La courbe de rgression est la ligne qui rend minimum la somme des carrs des carts.
Page 52
C'est donc celle qui ajuste au mieux une courbe au nuage de points (xi, yj). Pour cette courbe, le carr moyen (CM, en abrg), prend aussi sa valeur minimum, qui est donne par : CM = ni. si 2 (Y) = sw 2 (Y)
C'est la moyenne du carr de (a + b X Y). Or la variance de (a + b X Y) est gale la moyenne du carr, moins le carr de la moyenne, 2 s 2 (a + b X Y) = CM On obtient donc : 2 + s 2 (a + b X Y) = (a + b ) 2 + s 2 (a + b X Y) CM = On sait, par ailleurs, que la variance de a + b X Y est donne par : s 2 (a + b X Y) = s 2 (b X Y) = b 2 s 2 (X) 2 b Cov (X, Y) + s 2 (Y) On peut crire aussi : b 2 s 2 (X) 2 b Cov (X, Y) + s 2 (Y) = s 2 (X) b 2 2 b = s 2 (X) b = s 2 (X) b + s 2 (Y) + s 2 (Y) 1 + s 2 (Y)
Or, la variance b 2 s 2 (X) 2 b Cov (X, Y) + s 2 (Y) de b X Y est positive pour tout b , puisque toute variance est positive. Donc le discriminant rduit de ce polynme de degr 2 en b est ngatif : Cov 2 (X, Y) s 2 (X) s 2 (Y), et, dans l'expression s 2 (X) b le terme s 2 (Y) 1 + s 2 (Y) 1 , qui ne dpend pas du choix de a et b, est toujours positif.
La conclusion est que le carr moyen s'crit finalement comme somme de trois termes positifs dont le troisime ne dpend ni de a ni de b : CM = (a + b ) 2 + s 2 (X) b + s 2 (Y) 1
Cette somme prend sa valeur minimum lorsque les deux premiers termes sont nuls : a+b =0
Page 53
b= L'quation de la droite ajuste par la mthode des moindres carrs est donc : (y ) = (x )
La valeur de b obtenue est aussi celle qui rend minimum la variance s 2 (a + b X Y) = s 2 (X) b + s 2 (Y) 1 .
Nous noterons (X, Y | X) la variable statistique {((xi, a + b xi), fi.)}, i [1, p]. Cette variable statistique est appele la variable statistique de rgression linaire de Y en X. La reprsentation graphique de cette variable est donne par la droite ajuste par la mthode des moindres carrs ordinaires. Cette droite est parfois appele la droite de rgression de Y en X. Le coefficient b est alors appel le coefficient de rgression de Y en X. Il vaut mieux rserver ces dnominations la droite de rgression du modle thorique probabiliste associ la population et parler, ici, seulement de droite ajuste par la mthode des moindres carrs ordinaires.
3. s 2 ( Y | X) = b 2 s 2 (X) s 2 (Y). En effet, par dfinition : s 2 ( Y | X) = s 2 (a + b X) et comme on a toujours s 2 (a + b X) = b 2 s 2 (X), il vient s 2 ( Y | X) = b 2 s 2 (X) =
Page 54
En gnral, b 2 s 2 (X) est diffrent de s 2 (Y), sinon on aurait s 2 (Y) = b 2 s 2 (X) = Cov (X, Y) = s (X) s (Y) ou Cov (X, Y) = s (X) s (Y) Dans le premier cas, la variance de a + b X Y est nulle : s 2 (a + b X Y) = s 2 (Y) 1 et Y = a + b X, avec b = = > 0. =0
, donc :
Nous avons les proprits suivantes, analogues aux prcdentes : Cov (Y, X | Y) = Cov (Y, X) = Cov (X, Y) s 2 ( X | Y) = s 2 (X)
Il dtermine la part de variance de Y qui est explique par la rgression linaire de Y en X (ou, respectivement, la part de variance de X explique par la rgression linaire de X en Y). Le coefficient de dtermination joue donc, pour la rgression linaire de Y en X, le mme rle que le
Page 55
rapport de corrlation pour la rgression de Y en X. En particulier, pour la ligne de rgression de Y en X, nous avions trouv, pour carr moyen minimum, la variance rsiduelle sw 2 (Y) = (1 2Y | X) s 2 (Y). Pour la rgression linaire de Y en X, la valeur minimum du carr moyen est (1 r 2) s 2 (Y). Cette valeur minimum est ncessairement plus grande que la variance rsiduelle, qui est un minimum absolu : 0 0 0 (1 2Y | X) s 2 (Y) (1 2Y | X) r2 2Y | X 1 (1 r 2) s 2 (Y) 1 s 2 (Y)
(1 r 2)
L'galit de r 2 et de 2Y | X traduit la proprit que la ligne de rgression de Y en X est une droite ; on dit alors que Y prsente une corrlation linaire avec X. 2. Cas o r = 0. S'il n'y a pas de corrlation entre Y et X, 2Y | X est nul donc aussi r = 0. Dans ce cas, les droites de rgression sont parallles aux axes. Nous ne pouvons pas en conclure l'indpendance de X et de Y. 3. Cas o r 2 = 1. Si r 2 = 1, alors 2Y | X = 1, il y a une relation fonctionnelle liant X et Y. Et cette relation fonctionnelle est linaire. En effet, dire que r 2 = 1, c'est dire que Cov 2 (X, Y) = s 2 (X) s 2 (Y). Dans ce cas : s 2 (a + b X Y) = s 2 (X) b se rduit, avec b = + s 2 (Y) 1 .
droite ajuste par la mthode des moindres carrs : il existe une relation fonctionnelle linaire entre X et Y, Y = a + b X, avec b > 0 si r = 1, et b < 0 si r = 1. Plus r est proche de 1 ou de 1, plus la corrlation linaire est forte.
Page 56
Plus le rapport est proche de 1, plus la variance du prdicteur est proche de la variance de Y, donc plus la variance rsiduelle est faible et moins le nuage de points est dispers autour du prdicteur, donc meilleur est le prdicteur. 2Y | X ou r 2 mesure donc la prcision du prdicteur et nous pouvons dire que est un prdicteur meilleur que Y | X, puisque 2Y | X est plus grand que r 2.
Si nous posons z = ln y, t = ln x, a = ln y0, nous avons z = a + b t. On est ramen un modle linaire. Dans la pratique, on vrifie que l'lasticit est constante en calculant, pour chaque intervalle x, le rapport .
Page 57
La mise en vidence de ce modle est obtenue en utilisant un papier log-log, avec une chelle logarithmique en abscisses et une chelle logarithmique en ordonnes. Un tel modle est, lui aussi, trs utilis en matire conomique : tude des dpenses pour un poste particulier relativement aux dpenses totales du mnage.
Page 58
n lignes et 1 colonne.
x1 ... xn
1 ligne et n colonnes.
Les oprations dans R n sont alors dfinies par des oprations sur les matrices : Addition :
x1 ... xn
= x1 ... xn
Dans R n, les n lments ei, i {1, ... , n}, dont toutes les coordonnes sont nulles, sauf la ie qui vaut
Page 59
1, forment une base, appele la base canonique de R n. Tout lment X = (x1, ... , xn) de R n s'crit de manire unique sous la forme X= xi ei
4.1.2.1. Dfinition.
On appelle produit scalaire dans R n toute application de R n R n dans R qui possde les proprits suivantes : a) Bilinarit. Linarit par rapport la premire variable : (X + X', Y) = (X, Y) + (X', Y) et ( X, Y) = (X, Y), quels que soient dans R, X, X' et Y dans R n ; cette proprit s'crit aussi < X + X' | | Y > = < X | | Y > + < X' | | Y > Linarit par rapport la deuxime variable : (X, Y + Y') = (X, Y) + (X, Y') et (X, Y) = (X, Y), quels que soient dans R, X, Y et Y' dans R n ; cette proprit s'crit aussi < X | | Y + Y' > = < X | | Y > + < X | | Y' > b) Symtrie. (X, Y) = (Y, X), quels que soient X et Y dans R n : <X||Y>=<Y||X> c) Positivit. (X, X) est un nombre rel suprieur ou gal 0, quel que soit X dans R n : <X||X>0 d) Non dgnrescence. (X, X) = 0 entrane X = 0 :
Page 60
< X | | X > = 0 X = 0. Autrement dit, le vecteur 0 = (0, ... , 0, ... , 0) de R n est l'unique solution de l'quation (X, X) = 0. On dit aussi qu'un produit scalaire sur R n est une forme bilinaire symtrique positive non dgnre. Le mot "forme" fait simplement rfrence au fait que les valeurs sont des scalaires. Lorsqu'il est muni d'un produit scalaire, R n est appel un espace vectoriel euclidien.
4.1.2.2. Exemples.
a) Produit scalaire canonique. L'application de R n R n dans R dfinie par :
< X | Y > = tX Y =
x1 ... xj ... xn
xi yi
est un produit scalaire sur R n qu'on appelle le produit scalaire canonique de R n. En effet, les proprits de bilinarit, de symtrie, de positivit et de non dgnrescence sont pratiquement videntes vrifier. b) Produit scalaire dfini par une matrice diagonale lments positifs. Considrons une matrice relle M n lignes et n colonnes dont tous les lments en dehors de la diagonale principale sont nuls (mij = 0, quels que soient les entiers i et j dans {1, ... , n} avec i j) (on dit alors que M est une matrice diagonale) et dont les lments de la diagonale principale sont des nombres rels strictement positifs (mii > 0 quel que soit l'entier i dans {1, ... , n}). Alors l'application :
(X, Y)
< X | M | Y > = tX M Y =
x1 ... xj ... xn
= ij mij xj yi = i mii xi yi
est un produit scalaire sur R n. La matrice M est appele la matrice des poids (les "poids" sont les lments de la diagonale). En effet, les proprits de bilinarit, de symtrie, de positivit et de non dgnrescence sont pratiquement videntes vrifier. Le produit scalaire canonique correspond au cas o la matrice M est la matrice unit In (tous les lments de la diagonale sont gaux 1 et les lments en dehors de la diagonale sont 0) : tous les poids sont gaux 1. Autre exemple : M = D = In. Tous les poids sont gaux et la somme des poids vaut 1.
Page 61
4.1.2.3. Proprits.
a) Matrice d'un produit scalaire. Pour tout produit scalaire sur R n, on peut crire :
Cette matrice est une matrice symtrique : (ei, ej) = (ej, ei).
La matrice M = [ (ei, ej)] s'appelle la matrice du produit scalaire dans la base canonique. Les lments de sa diagonale sont des nombres rels strictement positifs : (ei, ei) > 0. Remarquons ces proprits ne sont pas suffisantes : une matrice symtrique dont les lments de la diagonale sont des nombres rels strictement positifs ne dfinit pas forcment un produit scalaire. Par exemple, la matrice a un dterminant qui vaut 3 < 0, donc elle possde deux valeurs (x1, x2)
qu'elle dfinit n'est pas un produit scalaire car le "produit scalaire" du vecteur propre (1, 1) pour la valeur propre ngative, par lui-mme, est un nombre rel strictement ngatif ((1 1) = 2). La matrice n'est donc pas la matrice d'un produit scalaire sur R , bien qu'elle soit symtrique et
que les lments de sa diagonale soient strictement positifs. En ralit, pour qu'une matrice carre symtrique relle soit la matrice d'un produit scalaire, il faut et il suffit que toutes ses valeurs propres, qui sont toujours des nombres rels, soient strictement positives. Ce rsultat sera dmontr, dans sa gnralit, en analyse. b) Norme d'un vecteur. Si est un produit scalaire sur R n, le nombre rel positif || X || = s'appelle la -norme de
X, ou -longueur de X. Quand il n'y a pas de confusion craindre, on parlera simplement de norme ou de longueur, qu'on notera || X || au lieu de || X ||. On dit qu'un vecteur est norm pour si sa -longueur est 1. Par exemple, dans R muni du produit scalaire canonique, la longueur de X = (x1, x2) est || X || = et le vecteur (1, 0) est norm. c) Angle de deux vecteurs. Etant donns deux vecteurs X et Y de R n et un produit scalaire sur R n, pour tout nombre rel , on a:
Page 62
(Y, Y) + ( (Y, X) + (X, Y)) + (X, X) 0 (Y, Y) + 2 (X, Y) + (X, X) 0 || Y || + 2 < X | Y > + || X || 0 Comme cette relation est vraie pour tout nombre rel , c'est que le discriminant de ce trinme du deuxime degr est ngatif : (< X | Y >) || X || || Y || 0 | < X | Y > | || X || || Y ||
(X + Y, X + Y) = || X + Y || 0
Cette ingalit, valable pour tous vecteurs X et Y de R n constitue l'ingalit de Schwarz. Si les deux vecteurs X et Y sont diffrents de 0, leur longueur n'est pas nulle, le produit de leurs longueurs n'est pas nul, le rapport est compris entre 1 et 1, et il existe donc un angle compris entre 0 et radians dont le cosinus est gal au rapport Par dfinition, cet angle unique compris entre 0 et , vrifiant : cos = = .
est appel l'angle des deux vecteurs non nuls X et Y. d) Orthogonalit. Etant donns deux vecteurs X et Y de R n et un produit scalaire sur R n, on dit que X et Y sont orthogonaux (ou simplement "orthogonaux" s'il n'y a pas de confusion craindre) si, et seulement si, leur produit scalaire est nul : (X, Y) = < X | Y > = 0 Exemples : 0 est -orthogonal tout vecteur de R n. L'angle de deux vecteurs non nuls -orthogonaux est
La base canonique de R n muni du produit scalaire canonique est forme de vecteurs norms orthogonaux deux deux : on parle alors de base orthonorme. e) Projet orthogonal. Soient X et Y deux vecteurs non nuls de R n et un produit scalaire sur R n. Il existe un unique vecteur Z de R n, proportionnel Y et tel que X Z soit orthogonal Y. Dmonstration. Pour tout vecteur Z on peut crire :
Page 63
< X Z | Y > = < X | Y > < Z | Y > Si l'on prend un Z proportionnel Y, on a Z = a Y, donc : < X Z | Y > = < X | Y > a < Y | Y > = < X | Y > a || Y ||. Pour que X Z soit orthogonal Y., soit < X Z | Y > = 0, il faut et il suffit que l'on prenne a = L'unique vecteur Z = . Y, proportionnel Y et tel que X Z soit orthogonal Y, s'appelle le
projet orthogonal de X sur Y. Proprit du projet orthogonal. Le projet orthogonal Z0 de X sur Y est le vecteur Z de R n proportionnel Y, qui minimise || X Z ||. Dmonstration. Soit Z un vecteur proportionnel Y. Soit Z0 = Y le projet orthogonal de X sur Y. || X Z || = || X Z0 + Z0 Z || . Comme Z est proportionnel Y et que Z0 est proportionnel Y, la diffrence Z0 Z est proportionnelle Y. Or X Z0 est orthogonal Y, donc X Z0 est orthogonal Z0 Z qui est proportionnel Y. Il est rsulte que l'on a : || X Z || = || X Z0 + Z0 Z || = || X Z0 || + || Z0 Z || || X Z0 ||. Et cette ingalit montre que || X Z || atteint son minimum lorsque Z = Z0.
R est l'espace des individus. La variable statistique est reprsente par un nuage de points dans R et chaque point du nuage statistique reprsente un individu de la population .
Page 64
Les n valeurs Y () de Y pour les n individus de la population peuvent tre considres comme les coordonnes d'un vecteur de R n. Ce vecteur est not encore Y = .
L'espace E = R n apparat alors comme l'espace des variables. Chaque lment de E peut tre considr comme les valeurs d'une variable statistique quantitative relle dfinie sur .
= < X | D | Y > = i
xi y i =
i xi y i =
<X|Y>
On note 1 n =
On l'appelle le vecteur unit de R n. On remarquera que ce vecteur unit est norm, sa longueur est || 1 n || = i 1 1 = n = 1.
La moyenne de X est le produit scalaire de X par le vecteur unit 1 n. Notons X0 la variable centre correspondant X : pour chaque individu de la population, sa valeur est X () :
Page 65
X0 =
=X
1 n.
X = X0 +
1 n = X0 + < X | 1 n >
1n
4.2.5. Covariance.
La covariance de deux variables quantitatives relles X et Y dfinies sur est la moyenne du produit des variables centres : Cov (X, Y) = i (xi )(yi ) = < X0 | D | Y0 > = < X0 | Y0 >
Cov (X, Y) = < X0 | D | Y0 > = < X0 | Y0 > La covariance est le produit scalaire des variables centres.
rXY =
rXY = cos (X0, Y0) Le coefficient de corrlation linaire est le cosinus de l'angle des variables centres.
Page 66
X0 est orthogonal X0 et b est la valeur qui minimise l'expression S= i (Y0i b X0i) = || Y0 b X0 || = s (Y b X) = s (Y a b X) = s (Y Y*) = s (Y0 Y0*) Le prdicteur linaire de la variable centre Y0 est le projet orthogonal de Y0 sur X0 dans R n. C'est la variable Y0* qui minimise la variance de Y0 Y0*. Nous avons alors : s (Y) = || Y0 || = || Y0 b X0 + b X0 || = S min + = || Y0 b X0 || + || b X0 || s (Y)
s (Y) = S min + b || X0 ||
s (X) = S min +
s (Y) = S min + rXY s (Y). Nous retrouvons la variance rsiduelle S min et la variance explique par la rgression rXY s (Y). De faon symtrique, si X est la variable explicative et Y la variable explicative, nous aurons une expression : s (X) = S' min + rXY s (X). avec la variance rsiduelle S' min et la variance explique par la rgression rXY s (X).
Page 67
4.3.1. Introduction.
Nous cherchons alors dans R une droite (D) qui minimise la somme S des carrs des distances des points du nuage de points la droite. La solution est donne par la droite de rgression orthogonale. a) Calcul du terme constant a. L'quation de la droite de rgression orthogonale est de la forme y = a + b x. b est la tangente de l'angle de la droite avec l'axe des abscisses : b = tan . || Mi mi || = cos (yi a b xi) = (yi a b xi) En introduisant le point moyen ( , ), on peut crire : || Mi mi || = )) = +2 (yi b (xi ) )) + ( ab ) ) (yi b (xi )+( ab
( ab
(yi b (xi
yi et
|| Mi mi || =
(yi b (xi
)) +
( ab
Quel que soit la valeur de b, cette somme sera la plus petite possible lorsque le deuxime terme est nul : = a + b . Ce rsultat signifie que le point moyen est sur la droite de rgression orthogonale et que, lorsque b est connu, le terme constant a est donn par : a= b
Puisque le point moyen G = ( , ) est sur la droite de rgression orthogonale, nous le prendrons comme origine dans R . La droite de rgression orthogonale a une quation de la forme
Page 68
y0 = b x0, avec y0 = y et x0 = x .
b) Analyse en composantes principales (ACP). En fait, la forme de la relation prcdente fait disparatre la symtrie initiale entre les rles de X et Y : ce n'est pas sous cette forme que nous exprimerons l'quation de la droite (D) de rgression orthogonale. Etant donne une droite (D) passant par l'origine G, on considre plutt le vecteur unitaire de orthogonal la droite (D) : u1 = , avec + = 1. . > = 0, soit x0 + y0 = 0.
2
Etant donn un point Mi du nuage de points et sa projection orthogonale mi sur la droite D, le vecteur est le projet orthogonal de sur le vecteur u : =< | u > u = ( xi0 yi0) = = ( xi0 + yi0)
= ||
( xi0 yi0)
|| = ( xi0 + yi0) ( )
|| Mi mi || =
La recherche de la droite de rgression orthogonale se ramne donc une question que l'on peut envisager d'un double point de vue : soit rechercher, dans l'espace des individus minimise la somme S = || Mi mi || = ( xi0 + yi0) ,
2
, un vecteur unitaire u1 =
, avec + = 1, qui
soit rechercher, dans l'espace des variables R n, un vecteur X0 + Y0, combinaison linaire fictive des deux variables centres X0 et Y0, avec + = 1, qui minimise || X0 + Y0 || , c'est-dire un vecteur de l'hyperplan dfini par X0 et Y0, de norme minimum pour le produit scalaire dfini par la matrice diagonale D , sous la contrainte + = 1. Sous la deuxime forme, la rsolution du problme est appele l'analyse en composantes principales.
Page 69
4.3.2. Dfinitions.
Appellons Z la matrice des variables centres,
a) Inertie totale. On appelle inertie totale du nuage de points de R par rapport l'origine G des axes, la quantit : IT = b) Inertie statistique. On appelle inertie statistique du nuage de points de R par rapport une direction de R dfinie par un vecteur unitaire u, la quantit : IS (u) = o est le projet orthogonal de sur u. || || || || = (xi0 + yi0 ) = s (X) + s (Y).
Le rapport
Par exemple, l'inertie statistique du nuage de points par rapport l'axe des x est la variance de X et l'inertie statistique du nuage de points par rapport l'axe des y est la variance de Y. c) Inertie mcanique. On appelle inertie mcanique du nuage de points de R par rapport une direction dfinie par un vecteur unitaire u, la quantit : IM (u) = o est le projet orthogonal de sur u. || ||
Par exemple, l'inertie mcanique du nuage de points par rapport l'axe des x est la variance de Y et l'inertie mcanique du nuage de points par rapport l'axe des y est la variance de X. Le thorme de Pythagore || || = || || + || || entrane :
IM (u) = IT IS (u). d) Axes principaux, ou factoriels. On appelle premier axe factoriel du nuage de points de R , l'axe dont la direction dfinie par un vecteur unitaire u maximise l'inertie statistique IS (u).
Page 70
La direction dfinie par le vecteur u est appele la direction principale, ou direction factorielle. On remarquera que, comme le premier axe factoriel maximise IS (u), il minimise IM (u) : il donne donc la solution de notre problme, c'est--dire la droite de rgression orthogonale. e) Matrice des variances-covariances. Pour u = , l'inertie statistique IS (u) = || || s'crit, avec =< | u > u = ( xi0 yi0)
, sous la forme :
IS (u) =
( xi0 yi0) =
xi0 +
yi0 2
xi0 yi0
Et comme on sait que : xi0 = s (X), l'inertie statistique devient : IS (u) = s (X) + s (Y) 2 Cov (X, Y) = ( ) La matrice A= = = tu A u yi0 = s (Y), xi0 yi0 = Cov (X, Y),
s'appelle la matrice des variances-covariances. En introduisant la matrice Z = s'crit sous les formes : des variables centres, la matrice des variances-covariances
A=
Z Z = tZ D Z
et l'inertie totale est la trace de cette matrice, somme des lments diagonaux s (X) et s (Y) : IT = Tr (A) 1 e remarque : valeurs propres. La matrice des variances-covariances A est, comme on le voit, symtrique relle. Une valeur propre de A est un nombre rel tel qu'il existe un vecteur v non nul vrifiant A v = v. Les valeurs propres de A sont donc les nombres rels tels que le noyau de l'endomorphisme
Page 71
(application linaire de R dans R ) dfini par la matrice A I2 ne soit pas rduit 0. Dire que le noyau n'est pas rduit 0, c'est dire que l'application linaire n'est pas injective, donc qu'elle n'est pas bijective (puisque, dans R , injective = bijective) : pour cela, il faut et il suffit que son dterminant soit nul. Les valeurs propres sont donc les solutions de l'quation : Dt (A I2) = 0 (s (X) + s (Y)) + s (X) s (Y) (Cov (X, Y)) = 0 Le discriminant de cette quation du deuxime degr est : (s (X) + s (Y)) 4 (s (X) s (Y) (Cov (X, Y)) ) = (s (X) s (Y)) + 4 (Cov (X, Y)) 0 La matrice A possde donc, ainsi qu'on l'avait dj dit pour toute matrice symtrique relle, deux valeurs propres relles 1 et 2 : la somme de ces valeurs propres est la trace de la matrice, somme des lments de la premire diagonale : 1 + 2 = s (X) + s (Y) 0. le produit de ces valeurs propres est le dterminant de la matrice : 1 2 = s (X) s (Y) (Cov (X, Y)) 0 (d'aprs l'ingalit de Schwarz). Les deux valeurs propres de la matrice des variances-covariances sont donc des nombres rels positifs : il est trs improbable que l'une soit nulle (il faudrait, pour cela, que le coefficient de corrlation linaire soit rigoureusement gal 1, en valeur absolue, ce qui ne saurait se produire que si X et Y sont dduits l'un de l'autre par une relation linaire, ou si X et Y sont constantes. Il est trs improbable aussi que les deux valeurs propres soient gales : il faudrait pour cela que la covariance de X et Y soit strictement gale 0 et que les variances de X et Y soient strictement gales, ce qui ne se produit jamais en pratique. Dans le cas gnral, on peut donc appeler 1 et 2 les valeurs propres de la matrice des variancescovariances, ranges par ordre dcroissant : 1 > 2 > 0. 1 = 2 = s (X) + s (Y) + s (X) + s (Y)
2 e remarque : vecteurs propres. On dmontre aussi, en algbre, que R possde une base propre orthonorme, c'est--dire une base { u1, u2 }, orthonorme pour le produit scalaire canonique, forme de vecteurs propres de la matrice A: A u1 = 1 u1 et A u2 = 2 u2, avec
Page 72
|| u1 || = 1, || u2 || = 1, < u1 | u2 > = 0. Ces vecteurs propres peuvent se calculer. Soit une valeur propre. On a : = = = =0
donc le vecteur
Le carr de la norme de ce vecteur pour le produit scalaire canonique est donn par : (s (Y) Cov (X, Y)) = (s (Y) ) + (Cov (X, Y))
On peut donc prendre pour vecteur norm relatif la valeur propre , le vecteur u= Le produit scalaire des deux vecteurs propres ainsi obtenu est nul, parce que la relation 1 + 2 = s (X) + s (Y) entrane : (s (Y) 1 Cov (X, Y)) = (2 s (X) 0 Les deux vecteurs coordonnes n'est pas nul : Cov (X, Y) (s (Y) 1) + Cov (X, Y) (s (Y) 2) = Cov (X, Y) (1 2) 0 de sorte que les deux vecteurs ne sont pas proportionnels. Les deux vecteurs : et forment une base de R parce que le dterminant de leurs Cov (X, Y)) = Dt (A 2 I2) =
u1 = u2 = forment donc une base propre orthonorme de R . Remarquons que, au lieu de prendre pour vecteur propre pour la valeur propre , le vecteur , on aurait pu prendre aussi le vecteur qui lui est proportionnel (le dterminant de la matrice de ces vecteurs est le dterminant de la matrice A I2).
Page 73
Soit V =
vecteurs propres u1 et u2. V e1 = u1, V e2 = u2. V donne, par produits, pour image d'une base orthonorme, une base orthonorme : c'est ce qu'on appelle une matrice "orthogonale", ce qui veut dire que son inverse est gale sa transpose : V 1 = tV Pour le vrifier, remarquons que, puisque les bases { e1, e2 } et { u1, u2 } sont orthonormes, les coordonnes des vecteurs s'obtiennent par produits scalaires : u1 = < u1 | e1 > e1 + < u1 | e2 > e2 u2 = < u2 | e1 > e1 + < u2 | e2 > e2 de sorte que la matrice V, qui a, pour colonnes, les vecteurs u1 et u2 dans la base { e1, e2 }, est : V= et les relations inverses : e1 = < e1 | u1 > u1 + < e1 | u2 > u2 e2 = < e2 | u1 > u1 + < e2 | u2 > u2 montrent que la matrice inverse de V est la matrice : V 1 = qui, compte tenu de la symtrie du produit scalaire, est la transpose de V. V 1 = = tV
Page 74
A est la matrice, dans la base canonique { e1, e2 }, d'un endomorphisme f. Cet endomorphisme f se rduit deux homothties, de rapport 1 selon le vecteur u1, et de rapport 2 selon le vecteur u2. est donc la matrice, dans la base propre { u1, u2 }, de l'endomorphisme f. La matrice de l'application identique de R muni de la base { u1, u2 } dans R muni de la base { e1, e2 } donne, par produits, pour image du vecteur u1 = le vecteur u1 = le vecteur u2 =
V = [ Id , { u1, u2 }, { e1, e2 }]. Rciproquement, la matrice de l'application identique de R muni de la base { e1, e2 } dans R muni de la base { u1, u2 } donne, par produits, pour image du vecteur e1 = le vecteur e1 =
le vecteur e2 =
vecteurs propres.
t
R , { u1, u2 }
R , { u1, u2 }
met en vidence la relation f = Id o f o Id. En termes de produit de matrices, cette relation s'crit : = V A tV, d'o l'on dduit aussitt
Page 75
avec v1 + v2 = 1 Le problme de la recherche de la droite de rgression orthogonale se ramne maintenant la rsolution du problme suivant : Maximiser 1 v1 + 2 v2, sous la contrainte v1 + v2 = 1, avec 1 > 2 > 0. C'est maintenant un problme facile rsoudre : IS (u) = 1 v1 + 2 v2 = 1 (1 v2) + 2 v2 = 1 (1 2) v2 La quantit 1 (1 2) v2 avec 1 > 2 atteint sa valeur maximum 1 lorsqu'on prend v2 = 0, donc | v1 | = 1. La direction du premier axe factoriel est donc dfinie par le vecteur v de coordonnes { u1, u2 } : v = u1. IS (u1) = 1 D'o le rsultat, qu'on peut noncer sous forme de thorme : La direction du premier axe factoriel est dfinie par le vecteur propre associ la plus grande valeur propre de la matrice des variances-covariances. Le premier axe factoriel est la droite de rgression orthogonale. Comme corollaire, la direction perpendiculaire au premier axe factoriel dfinit le deuxime axe dans la base
Page 76
factoriel : elle est dfinie par le vecteur propre associ la plus petite valeur propre de la matrice des variances-covariances. Le deuxime axe factoriel minimise l'inertie statistique IS (u) : IS (u) = 2 lorsque | v2 | = 1, donc v1 = 0 et v = mme). IS (u2) = 2 Le taux d'inertie totale explique par le premier axe factoriel est le rapport . Le taux d'inertie totale explique par le deuxime axe factoriel est le rapport . La relation 1 + 2 = s (X) + s (Y) (la somme des valeurs propres est la trace de la matrice des variances-covariances) s'crit : IS (u1) + IS (u2) = IT. La somme des inerties statistiques par rapport aux deux axes factoriels est l'inertie totale du nuage de points. Chaque valeur propre de la matrice des variances-covariances correspond l'inertie explique par l'axe factoriel correspondant. = = = = = u2 par exemple (on pourrait prendre aussi, bien sr, v = u2, la direction dfinie serait la
Or la base canonique { e1, e2 } est, elle-mme, orthonorme et l'on a, par consquent : =< d'o : < < | u1 > = xi0 < e1 | u1 > + yi0 < e2 | u1 > | u2 > = xi0 < e1 | u2 > + yi0 < e2 | u2 > | e1 > e1 + < | e2 > e2 = xi0 e1 + yi0 e2
Page 77
= tV
= tV
= tV
La matrice tV est ce qu'on appelle la matrice du changement de base. Elle donne les nouvelles coordonnes (sur la base { u1, u2 }) en fonction des anciennes (sur la base { e1, e2 }). Nous avons vu plus haut que cette matrice est la matrice de l'application identique, de base { u1, u2 } dans 2 muni de la base { e1, e2 }. Les relations :
2
muni de la
(<
| u1 > <
| u2 >) =
peuvent se condenser en une seule formule matricielle : L=ZV formule dans laquelle :
L=
est la matrice, n lignes et 2 colonnes, dont les lignes sont les coordonnes factorielles du nuage de points dans R muni de la base { u1, u2 }, Z=
est la matrice, n lignes et 2 colonnes, dont les colonnes sont les variables centres X
et Y ,
V=
est la matrice des coordonnes des vecteurs propres orthonorms { u1, u2 } de la matrice des
Page 78
variances-covariances, dans la base canonique { e1, e2 }. Les deux colonnes de la matrice L sont des lments de l'espace des variables R n : on les appelle les composantes principales de la variable statistique (X, Y). La premire colonne de la matrice V est le vecteur propre u1. La premire colonne de la matrice L = Z V est donc le vecteur L1 = Z u1. De mme, la deuxime colonne de la matrice L est le vecteur L2 = Z u2. Les deux composantes principales L1 et L2 de la variable statistique (X, Y) s'obtiennent ainsi par les formules :
L1 = L2 =
u1 = u2 =
A= des variances-covariances : 1 = 2 =
Z Z = tZ D Z =
< Z u1 | 1 n > = =
(Z u1) 1 n = =
u1 tZ 1 n
Z 1n =
u1
=0
Page 79
= < L2 | D | 1 n > =
< Z u2 | 1 n > =
(Z u2) 1 n =
u2 tZ 1 n =
u2
= 0.
b) La variance d'une composante principale est la valeur propre correspondante. Comme les composantes principales sont centres, leur variance est le carr de leur norme pour le produit scalaire dfini par D :
t t
s (L1) = || L1 ||
t
= < L1 | D | L1 > =
L1 L1 =
u1 tZ Z u1
ZZ=A
L2 L2 =
u2 tZ Z u2
= tu2 A u2 = tu2 2 u2 = 2 || u2 || = 2 c) Les composantes principales sont non corrles. Cov (L1, L2) = < L1 | D | L2 > = =
t t
L1 L2 =
u1 tZ Z u2
u1 A u2 =
< u1 | u2 > = 0
puisque les vecteurs u1 et u2 sont orthogonaux pour le produit scalaire canonique. d) Reconstruction des donnes. Les points du nuage centr sont dfinis par les vecteurs = xi0 e1 + yi0 e2 = < | u1 > u1 + < | u2 > u2.
Les projets orthogonaux de ces vecteurs sur l'axe principal dfini par u1 sont les vecteurs : =< Les vecteurs = + | u1 > u1 = < | u1 > (< u1 | e1 > e1 + < u1 | e2 > e2)
points dans R . Les points mi sont les projections orthogonales des points Mi sur la droite de rgression orthogonale. L'quation de la droite de rgression orthogonale, sur laquelle se situe l'approximation de rang 1 du nuage de points, peut prendre l'une des formes quivalentes : < (x (x | u2 > = 0
Page 80
(x (x
Page 81
Nous supposons que les observations laissent penser que le nuage de points dans R pourrait tre modlis par un plan. Le problme de la rgression linaire multiple de Z0 en X0 et Y0 consiste trouver un prdicteur
0
= a X0 + b Y0
nuage de points (x0i, y0i, z0i), i [1, n], au sens des moindres carrs.
0i
= a X0 + b Y0
tel que S
||
dimension 2) dfini par X0 et Y0, tel que le vecteur Z0 produit scalaire dfini par la matrice des poids D ). La solution sera fournie par le projet orthogonal
de Z0 sur .
u1 = < Z 0 | u 1 >
On appelle projet orthogonal de Z0 sur . l'unique vecteur . Un tel vecteur existe et est unique.
de tel que Z0
soit orthogonal
Page 82
Dmonstration. Notons
0
u1 + < Z0 | u2 >
| u1 >
<
| u1 > u2 | u1 >
= < Z0 | u1 >
u1 + < Z0 | u2 >
< Z0 | u1 >
< Z0 | u1 >
| u2 >
<
u1 + < Z0 | u2 >
u2, c'est--dire tout lment de : on dit qu'il est orthogonal . Le projet orthogonal de
0
Le projet orthogonal de
| u2 >
u2 = < Z 0 | u2 >
u2.
= < Z0 | u1 >
u1 + < Z 0 | u 2 >
u2 = <
| u1 >
u1 + <
| u2 >
u2.
Rciproquement, si Z est un vecteur de tel que Z0 Z soit orthogonal , nous avons : Z = < Z | u1 > Le vecteur : u1 + < Z | u2 > u2 = < Z0 | u1 > u1 + < Z0 | u2 > u2 = 0.
Page 83
= < Z0 | u1 >
0
u1 + < Z0 | u2 >
u2
=<
| u1 >
u1 + <
| u2 >
u2
Le projet orthogonal de Z0 sur est le vecteur Z de , qui minimise la quantit || Z0 Z || . Dmonstration. Soit Z un vecteur appartenant au sous-espace . Soit
0
= < Z0 | u1 >
u1 + < Z0 | u2 >
|| Z0 Z ||
Or Z0 0 est orthogonal , donc orthogonal tout lment de , donc Z0 et Z, donc aussi 0 Z. Le thorme de Pythagore s'applique : || Z0 + Z || = || Z0
0
||
+ ||
0
Z ||
|| Z0 Z ||
= || Z0
||
+ ||
Z ||
||
lorsque Z =
Notre problme initial se trouve rsolu : Le prdicteur = a X0 + b Y0 de Z0 qui rend minimum la quantit S = || Z0 orthogonal de Z0 dans le plan dfini par X0 et Y0. La seule chose qu'il nous reste faire dans la suite, est d'expliciter ce projet orthogonal en fonction des donnes (x0i, y0i, z0i), i [1, n]. || est le projet
Page 84
u1 =
On a, en effet : s (X) = || X0 ||
X0 et Y0
Y0
X0
= || Y0 ||
|| X0 || = s (Y) (1 rXY) =
.2
< Y0 | X0 >
= s (Y) s (Y)
On peut donc prendre dans le plan , pour vecteur norm u2 orthogonal u1, le vecteur : u2 = Y0 Les vecteurs : u1 = u2 = Y0 X0 X0 = Y0 X0
= < Z0 | u1 >
u1 + < Z0 | u2 >
u2
le projet orthogonal de Z0 sur . La premire composante est le projet orthogonal de Z0 sur u1 : < Z0 | u1 > u1 = < Z0 | > = X0
Page 85
C'est aussi le projet orthogonal de Z0 sur X0. La deuxime composante est le projet orthogonal de Z0 sur u2 : < Z0 | u2 > Y0 = = Au total, nous obtenons : = = X0 + Cov (X, Z) Y0 = X0 + Y0 Y0 X0 Cov (X, Y) X0 + u2 = < Z0 | X0 < Z0 | Y0 > Y0 < Z0 | X0 > X0 Y0 X0 Y0 X0 >
X0 +
Y0
Cette expression est symtrique en X et Y. On sait calculer les quantits qui interviennent dans cette expression en fonction des donnes (x0i, y0i,
Formellement, la relation
X0 +
Y0
=0
Page 86
et
: || X0 ||
= s (X) et || Y0 ||
=s
+2
rXZ + rXY rYZ 2 rXY rXZ rYZ + rYZ + rXY rXZ 2 rXY rXZ rYZ + 2 rXY (rXZ rYZ rXY rXZ
rXY rYZ + rXY rXZ rYZ) = rXZ + rXY rYZ 2 rXY rXZ rYZ + rYZ + rXY rXZ 2 rXY rXZ rYZ + 2 rXY rXZ rYZ 2 rXY rXZ
Page 87
rXZ + rXY rXZ 2 rXY rXZ + rYZ + rXY rYZ 2 rXY rYZ 2 rXY rXZ rYZ 2 rXY rXZ rYZ +
2 rXY rXZ rYZ + 2 rXY rXZ rYZ) = = = rXZ rXY rXZ + rYZ rXY rYZ 2 rXY rXZ rYZ + 2 rXY rXZ rYZ) rXZ (1 rXY) + rYZ (1 rXY) 2 rXY rXZ rYZ (1 rXY) rXZ + rYZ 2 rXY rXZ rYZ
Le coefficient : R Z | XY = s'appelle le coefficient de corrlation linaire multiple de Z en X, Y. La variance du prdicteur de Z est donne par : s ( ) = || || = R Z | XY s (Z)
5.2.2. Proprits.
a) Validit du prdicteur de Z. La variance de Z s'crit : s (Z) = s (Z0) = || Z0 || = || Z0 + || = || Z0 || + || ||
Or || Z0
||
pour les : || Z0
||
S min, c'est la variance "rsiduelle", donc s (Z) = S min + R Z | XY s (Z) On retrouve la mme formule de dcomposition de la variance que pour la rgression linaire : la variance de Z est la somme de la variance explique R Z | XY s (Z) par la rgression linaire multiple, et de la variance rsiduelle S min = (1 R Z | XY ) s (Z). Plus le coefficient R Z | XY est proche de 1, plus la part de variance de Z explique par la rgression linaire multiple en X et Y est grande, donc meilleur est le prdicteur linaire 0. La validit du prdicteur 0 est mesure par le coefficient R Z | XY . b) Calcul pratique du coefficient de corrlation linaire multiple. En pratique, le calcul du coefficient de corrlation linaire multiple R Z | XY s'effectue de la faon
Page 88
suivante :
On calcule la matrice des corrlations de X et Y partir de la matrice VXY = donnes (X, Y) rduites :
des
C XY =
= tVXY D VXY.
La matrice des coefficients de corrlation linaire de X et Y avec Z, peut se calculer partir de la matrice VXY et de la variable centre rduite VZ = par la formule :
= tVXY D VZ.
Le coefficient de corrlation linaire multiple R Z | XY est donn par la formule : R Z | XY = rXZ + rYZ 2 rXY rXZ rYZ = (rXZ rYZ) C
formule que l'on peut crire directement en fonction des donnes centres rduites : R Z | XY =
t
VXY D VZ
VXY D VXY
VXY D VZ .
VXY D VXY
= VXY 1 D
1 t
VXY 1
puisque la matrice VXY, n lignes et 2 colonnes, n'est pas inversible, alors que la matrice produit C =
t
Page 89
dtermination rXZ et rYZ et le coefficient R Z | XY . Chacun de ces coefficients reprsente le pourcentage de variance de Z restitu par le prdicteur correspondant. On conservera, pour prdicteur de Z le modle qui restituera significativement le meilleur rsultat : = c X0 = d Y0 0 = a X0 + b Y0. 0
0
La thorie de la rgression multiple que nous venons d'exposer dans le cas de deux variables explicatives peut se gnraliser au cas de p variables explicatives, avec p > 2.
Page 90
Page 91
Faire parfois une pr-enqute courte. Organiser le travail sur le terrain. Rcolter les donnes, les prsenter, les synthtiser par traitement statistique. Conserver les donnes pour pouvoir les rutiliser.
Page 92
Panel de consommateurs (SECODIF : 4 500 mnages). Panel de dtaillants (SOFRES). Ces panels sont utiliss en marketing (lancement d'un produit, transfert de marques, etc.).
1. Liste d'immatriculation des vhicules automobiles en France. C'est une trs bonne base car elle est mise jour rgulirement (cartes grises neuves, cartes grises dtruire). 2. Rpertoire des entreprises (SIREN). Chaque entreprise possde un numro d'immatriculation neuf chiffres, un nom ou raison sociale, une adresse exacte. 3. L'annuaire tlphonique est une mauvaise base de sondage car d'une part, tout individu ne possde pas obligatoirement un tlphone et, d'autre part, un individu peut possder un tlphone et ne pas figurer sur l'annuaire (la liste rouge reprsente environ 8 % des abonns et l'annuaire ne recense pas les tlphones portables, soit environ 40 % des tlphones). Les bases de sondages sont en gnral tablies partir des rsultats d'un recensement et elles sont corriges priodiquement entre deux recensements. Le tirage de l'chantillon est effectu dans la base de sondage selon des critres spcifiques chaque mthode (plan de sondage). Cette mthode de travail ne laisse aucune initiative aux enquteurs : il est trs simple de contrler leur travail.
Nous voulons extraire un chantillon de 8 individus dans une population forme de 437 individus. Nous numrotons les individus de la population de 1 437. Nous considrons trois colonnes conscutives d'une page de nombres au hasard : ils forment des nombres au hasard trois chiffres.
Page 93
Nous lisons ces nombres de trois chiffres en ne retenant que ceux qui sont compris entre 001 et 437. Lorsque nous avons retenus 8 nombres, notre chantillon est constitu des 8 individus dsigns dans la population par ces huit nombres. Selon que nous effectuons un tirage avec ou sans remise, nous garderons ou carterons un individu dj tir. L'inconvnient majeur de la mthode lmentaire est son cot : les individus tirs peuvent tre trs loigns gographiquement.
= {1, 2, 3, 4, 5}, 1 = {1, 2}, 2 = {3, 4, 5}. Nous slectionnons trois individus, dont un dans 1 et deux dans 2. Nous obtenons l'un des six chantillons possibles. Cette mthode se justifie par deux raisons essentielles : 1. L'existence d'une stratification de fait, soit pour des raisons gographiques, soit pour des raisons administratives. Exemple 1 : enqute sur les conditions de vie pnitentiaire en France. La population est celle des dtenus en France Les strates sont les populations de dtenus dans les divers tablissements pnitentiaires. Exemple 2 : enqute sur la consommation par un organisme disposant de bureaux dpartementaux. La population est celle des consommateurs franais. Les strates sont les consommateurs de chaque dpartement. 2. Un caractre tudi dans la population peut varier sous l'influence d'un certain nombre de facteurs. Pour liminer au mieux les risques de biais, nous crons des strates homognes et, dans chacune d'elles, nous extrayons un chantillon alatoire simple. Exemple. Pour tudier la consommation de tabac, si nous estimons que l'ge et le sexe sont des facteurs trs influents, nous partageons la population en strates du type : Hommes de moins de 20 ans, Hommes de 20 30 ans,
Page 94
etc. Femmes de moins de 20 ans, Femmes de 20 30 ans, etc. De chaque strate, nous extrayons un chantillon alatoire simple.
... , 2 k }, ... , { 1 + (n 1) k, ... , N }. Nous choisissons au hasard l'individu i par les individus numrots de 1 k. Nous constituons notre chantillon des individus { i, i + k, i + 2 k, ... , i + (n 1) k }. Le choix de l'individu i dtermine entirement la constitution de l'chantillon.
Exemple.
= {1, ... , 20}, k = 4. Les chantillons possibles sont : {1, 5, 9, 13, 17}, {2, 6, 10, 14, 18}, {3, 7, 11, 15, 19}, {4, 8, 12, 16, 20}. Cette mthode est bien adapte la slection de cartes dans un fichier, ou au prlvement de pices dans une fabrication pour un contrle de qualit. Elle prsente une certaine analogie avec la mthode prcdente d'chantillonnage stratifi.
L'INSEE effectue des chantillonnages quatre niveaux : dpartements, cantons, communes, mnages. Cette mthode permet une excution rapide. Elle est conomique, car elle focalise les tirages. La mthode de tirage au hasard chaque niveau peut varier suivant le cas, par exemple tirage proportionnel aux units qu'il contient, ou tirage quiprobable. Nous disons alors que nous pouvons avoir des tirages avec probabilits ingales.
Cas particulier : tirage par grappes.
Nous choisissons des grappes pour lesquelles nous gardons tous les "grains", ou individus. Une "grappe" est un groupe d'individus de mme nature. Exemple : mnages d'un mme immeuble.
6.2.2.5. Conclusion.
Page 95
En pratique, les diverses mthodes alatoires peuvent tre mles pour amliorer le rendement. Pour chacune d'elle, nous pourrons varier les critres de tirage au hasard de chaque individu : avec remise, sans remise, avec des probabilits gales ou ingales.
Page 96
qui sera note y*. Exemple. Si y est la moyenne = de X, nous obtiendrons une estimation ponctuelle * de la moyenne en prenant la moyenne arithmtique de l'chantillon : * = xi.
La valeur observe y* n'est que l'une des valeurs possibles que l'on peut obtenir avec les divers chantillons possibles de taille n. En ralit, avec une population de N individus, il y a un certain nombre, mettons k, d'chantillons possibles Ej de taille n, j {1, ..., k} (k dpend de la mthode d'chantillonnage). Chaque chantillon possible Ej de taille n possde une certaine probabilit pj d'tre tir. A chaque chantillon possible Ej de taille n est associe une estimation ponctuelle yj* de y. A chaque estimation ponctuelle yj* de y est donc associe la probabilit pj d'tre observe. Nous pouvons alors dfinir une variable alatoire prenant, pour chaque chantillon possible Ej de taille n, la valeur yj* avec la probabilit pj. Cette variable alatoire est appele un estimateur du paramtre y. Les valeurs de sont les estimations ponctuelles de y. La loi de probabilit de s'appelle la distribution d'chantillonnage de . On appelle fluctuation d'chantillonnage, la variation des estimations ponctuelles de y et alas d'chantillonnage les causes de ces variations.
Page 97
L'estimateur d'un paramtre y possde une variance qui traduit la dispersion des valeurs de autour de son esprance mathmatique. Cette variance dpend de la taille n de l'chantillon. Nous dirons que est un estimateur robuste, ou convergent, de y si la limite, lorsque n tend vers N de est nulle. robuste =0
Cette proprit traduit le fait suivant : si nous connaissons la valeur prise par le caractre pour tous les individus de la population, la valeur de est la valeur exacte y du paramtre. Un estimateur correct est un estimateur sans biais et robuste. c) Estimateur asymptotiquement gaussien. Nous dirons qu'un estimateur d'un paramtre y est asymptotiquement gaussien si, et seulement si, il vrifie la proprit suivante : Lorsque n augmente indfiniment, la fonction de rpartition de fonction de rpartition d'une variable normale centre rduite. En pratique, ds que n est suprieur ou gal 30, nous admettrons que la fonction de rpartition de peut tre remplace par la fonction de rpartition de la variable normale centre rduite. tend uniformment vers la
Lorsque n est suffisamment grand (en pratique n 30), pour tout [0, 1], le nombre rel positif u donn par : (u) = 1 vrifie : , o est la fonction de rpartition de la variable normale centre rduite,
u = 1 .
de rpartition de la variable normale centre rduite, ds que n est suprieur ou gal 30, la symtrie de la loi normale donne :
Page 98
Les valeurs de la fonction de rpartition sont donnes par des tables. Un estimateur CAG est un estimateur correct et asymptotiquement gaussien. d) Amlioration d'un estimateur. Etant donns deux estimateurs que l'estimateur
2 1
et
2 1
est meilleur
si l'esprance de (
Ceci signifie simplement que l'on considre comme meilleur un estimateur dont les valeurs sont moins disperses autour de la valeur de y. Dans l'absolu, le meilleur estimateur d'un paramtre est celui dont pour lequel l'esprance de ( y) est la plus petite possible. Un estimateur sans biais dont la variance est minimale s'appelle un estimateur prcis. Pour un estimateur prcis, l'esprance E ( ) est gale y et la variance est minimale.
Page 99
variable alatoire indpendante "taille" Xi qui a la mme loi de probabilit que la variable parente X. L'estimateur = = Xi
de la taille moyenne dans la population, a, pour valeur dans l'chantillon, la moyenne arithmtique des tailles des individus de l'chantillon. Cet estimateur possde une loi de probabilit qui peut tre calcule en fonction de la loi de probabilit de X. Exemple 2. Soit la variance de la taille des individus de la population. Soit X la variable alatoire "taille d'un individu" : chaque individu de l'chantillon est associ une variable alatoire indpendante "taille" Xi qui a la mme loi de probabilit que la variable parente X. L'estimateur = Xi Xi S (X) o S
(X) est la variance des tailles des individus de l'chantillon (variance d'chantillonnage). Cet estimateur possde une loi de probabilit qui peut tre calcule en fonction de la loi de probabilit de X.
u = 1
s'crit : P ( u L'vnement u + u ) = 1 .
hasard un chantillon de taille n 30. Autrement dit, dans la population, la proportion des chantillons de taille n 30 pour lesquels l'vnement u + u est ralis est 1 .
Autrement dit encore, tant donn un chantillon de taille n 30, choisi au hasard, la probabilit de ralisation de l'vnement u + u est 1 .
Page 100
Or, pour un chantillon de taille n choisi au hasard, prend la valeur y* et une valeur s , de sorte que u prend une valeur y1 = y* u s et + u prend la valeur y2 = y* + u s L'intervalle [y1 ; y2] = [ y* u s ; y* + u s ] dans lequel la taille n de l'chantillon est suprieure ou gale 30 et (u) = 1 ,
s'appelle l'intervalle de confiance de y au risque , ou intervalle de confiance de y au niveau de confiance 1 . C'est un intervalle dans lequel la probabilit de trouver la vraie valeur de y est 1 . Plus est grand, plus l'amplitude de l'intervalle de confiance est petite, puisque est une fonction croissante. Dans la pratique, en l'absence de prcision contraire, nous conviendrons de prendre = 5 %. Plus n est grand, plus la valeur de a des chances d'tre proche de 0, donc plus la valeur de a des chances d'tre proche de y. Nous pourrons ainsi calculer la valeur de n qui permet d'avoir un intervalle de confiance d'amplitude donne. Les valeurs retenir de la fonction de rpartition de la variable alatoire normale centre rduite sont, pour (u) = 1 : (1,645) = 0,950, soit u0,10 = 1,645. (1,960) = 0,975, soit u0,05 = 1,960. (2,575) = 0,995, soit u0,01 = 2,575. Ces valeurs donnent les intervalles de confiance aux niveaux de confiance 90 %, 95 %, 99 %. La valeur utilise par dfaut est u0,05 = 1,960.
Page 101
la variance =
Si X est un caractre qualitatif deux modalits A et B, le paramtre qui caractrise X est la proportion p d'individus prsentant la modalit A. Les paramtres sont inconnus. La thorie de l'chantillonnage a pour but de les estimer au mieux.
Xi.
Page 102
Par consquent, est un estimateur sans biais de (E ( ) = ) mais il n'est pas robuste ( 0). c) Estimateur de la variance de la population. La variance exprimentale de l'chantillon est s = (xi ) .
C'est la ralisation par chantillonnage de la variable alaoire "variance d'chantillonnage" : S= L'esprance mathmatique de S est E (S ) = E E (S ) = E (S ) = Mais on a : E (Xi ) = E ( ) = E Xi E (Xi) E ( E( )) = n Var (X) = . . E ( ) (n n ) = (Xi ) = E (Xi ) Xi Xi = (Xi )
= Var ( ) =
E (Xi ) ( ) =
E ( ) .
(Xi ) =
2 E (( ) ) = 2 Var ( ) = 2 Au total :
E (S ) =
La variance d'chantillonnage n'est pas un estimateur sans biais de la variance de la population : c'est un estimateur biais. La linarit de l'esprance mathmatique montre que : E de sorte que l'estimateur : S = E (S ) = ,
Page 103
Xi
Xi
E (Xi) =
n p = p.
Xi
est un estimateur sans biais de la proportion p des individus de la population prsentant la modalit A du caractre tudi. Sa variance est Var ( ) = Var (Xi) = n p (1 p) = . : l'estimateur de p n'est
Lorsque n tend vers N, cette variance ne tend pas vers 0, mais vers pas un estimateur robuste.
Pour les chantillons de grande taille (n 30), on peut dfinir l'intervalle de confiance de p correspondant au risque , par : [p1, p2] = p* u avec (u) = 1 . ; p* + u
Page 104
Un tirage au hasard sans remise induit que chaque chantillon de taille n a une probabilit d'tre tir.
que nous
E( )=
pi
xik
xik .
La somme
Pour un k pris entre 1 et n, notons que xik est la valeur xj du caractre X pour le ke individu de l'chantillon, qui est le je individu de la population. Cette valeur apparat une fois dans tous les chantillons de taille n contenant cet individu de la population, mais pas forcment la mme place, c'est--dire pas forcment avec le mme indice k. Or il y a chantillons de taille n contenant cet individu, de sorte que la valeur xj de X pour le je fois dans la somme xik .
Ce raisonnement est valable, bien sr, pour tous les indices j de 1 N. Lorsque nous faisons la somme pour tous les chantillons de taille n, nous obtenons :
Page 105
xik
xj =
E( )=
N=
Calculons le terme :
E ( ) =
pi
E ( ) =
(xik)
(xik)
xij xik
Et ceci est vrai pour les N individus de la population. De sorte que l'on obtient :
x1 + ... + xN
( + )
xij xik produits de la forme xij xik, avec j k. produits de deux valeurs de X
Page 106
fois
xij xik
xj xk
xj xk = = On obtient alors : xj
xj
xk xj
xj
xk
xj
xj = (N ) N ( + ) = N ((N 1) )
xij xik
N ((N 1) ) = ((N 1) )
((N 1) ) = N
E ( ) =
( + ) + N
((N 1) )
E ( ) =
+ (N 1)
= + (N 1) =
= (N 1) (n 1) =
= + (N 1) (1 + (n 1)) = 1
E ( ) =
Var ( ) = E ( ) =
Page 107
La moyenne d'chantillonnage .
est plus faible lorsque l'chantillon est exhaustif que lorsqu'il est non exhaustif : les sont moins disperses autour de la moyenne lorsque l'chantillon est exhaustif.
c) Estimation de la variance. La variance exprimentale de l'chantillon s = alatoire : S= (Xij ) = Xij Xij (xij ) est une ralisation de la variable
L'esprance mathmatique de cette variable alatoire est ; E (S ) = = Mais : E ((Xij ) ) = E ((Xij E (Xij) ) = Var (Xij) = . E ((Xij ) ) = E (( ) ) = n = . E ((Xij ) ) = E ((Xij + ) ) E ((Xij ) ( ))
E ((Xij ) ) +
E (( ) )
Var ( ) =
n Var ( ) = Var ( ) =
( )
(Xij ) = E ( ) n ( ) = n E
( )
=n
n Var ( ) =
Page 108
On voit donc que S est un estimateur biais de , mais que, par linarit de l'esprance mathmatique :
S=
Xij
Xij
Mais nous avons vu, prcdemment, que l'esprance mathmatique et la variance de Xi, taient donnes par : E (Xi) = p Var (Xi) = p (1 p). L'tude prcdente montre que nous pouvons crire : E( )=p Var ( ) = Ainsi, Var Xi = Var n = Var ( ) = p (1 p).
est un estimateur sans biais et robuste de p. xi dans un chantillon est une estimation ponctuelle sans biais de p.
Sa ralisation p* =
Pour les grands chantillons, au niveau de confiance 1 , la ralisation de l'intervalle de confiance de p sera donn par [ p1 ; p2 ], avec p1 = p* u p2 = p* + u o u est dfini par la relation (u) = 1 normale centre rduite. , tant la fonction de rpartition de la variable
Page 109
Soit = {1, 2, ... , N} la population. Nous tudions dans cette population un caractre quantitatif X de valeur xj pour l'individu j. Notons pj la probabilit de tirage de l'individu j lors de la constitution de l'chantillon . Tout tirage avec remise peut tre schmatis par une variable alatoire dfinie par : P ( = xj) = pj, j [1 ; N]. Notons : = = xj, la moyenne du caractre X dans la population. xj xj , la variance de X dans la population. dont la loi de probabilit est pj = 1
Ces paramtres sont inconnus, nous cherchons les estimer. Nous supposons connues la taille N de la population et les probabilits pj associes aux valeurs xj. Notons, pour simplifier, (x1, ... , xn) la ralisation d'un chantillon.
P et soit :
'=
'=
'
dans l'chantillon.
N=
n=
La relation E ( ') = montre que la variable alatoire ' est un estimateur sans biais de . Sa ralisation m'* = dans l'chantillon est une estimation ponctuelle sans biais de .
Page 110
pj
= N
Comme le tirage de l'chantillon est fait avec remise, les variables consquent : Var ( ') = = Var ( ') = Var ' =
Var ( i') N
Var ( ') =
Var ( ') =
Cette variance s'exprime l'aide de l'ensemble des valeurs xj, inconnues, prises par le caractre X dans la population . Il serait intressant d'en avoir une estimation partir de la ralisation {x1, ... , xn} d'un chantillon.
'=
Nous avons vu que l'esprance mathmatique de cette variable alatoire tait gale N , qu'on peut estimer par N '. Considrons la variance d'chantillonnage de la variable alatoire ', c'est la variable alatoire :
( i' N ')
L'esprance mathmatique de E( ) = E
est :
( i' N ')
Page 111
= = =
(N N ') = = Var ( i') + n Var ( ') + Var (N ') + n N Var ( ') + E (N N ') E ( i' N )
(N N ') (N n ' N n )
n N Var ( ')
montre que La variable alatoire est un estimateur sans biais de la variance Var ( ')
Cette estimation de la variance de ' permet de construire, pour les grands chantillons, un intervalle de confiance de la moyenne : m'* u *.