Beruflich Dokumente
Kultur Dokumente
A- Introduction
A- Introduction
9 Rappel : Srie statistique = ensemble de mesures dune ou plusieurs variables faites sur une population ou un chantillon dindividus.
A- Introduction
9 Objectifs de la statistique descriptive (ou exploratoire): rsumer, synthtiser linformation contenue dans la srie statistique, mettre en vidence ses proprits. suggrer des hypothses relatives la population dont est issu lchantillon. 9 Outils utiliss : Tableaux (table des frquences, de contingence, ) Graphiques (box-plots, histogrammes,..) indicateurs (moyenne, corrlation,..).
A- Introduction
9 Le type doutils utilis dpend De la nature de la srie (uni ou multi dimensionnelle) De la nature des variables (quantitatives discrtes, continues ou qualitatives).
A- Introduction
Exemple : observation de la squence dun brin dADN GGGAGTGTBTATTAABTBBGAA BTBBBAGBGBTAGBTBGBGBGG AGTGABBGAGBBTABATGAGGG TABTGTBAATAABGBATGTTABB AGAAGGA Srie unidimensionnelle de taille 100 de la variable qualitative base du brin dADN .
Table des frquences:
valeurs A C G T effectifs 26 27 27 20 frequences 0,26 0,27 0,27 0,2
Visualisation :
Diagramme en Barres en frquences
T G B A 0 0,05 0,1 0,15 0,2 0,25 0,3
Indicateur: Modes=C et G
A- Introduction
Exemple : Srie des ges de 50 salaris dans une entreprise
36.44460 30.63702 30.36399 56.13572 62.31707 48.87932 25.22967 45.07674 41.22021 18.45797 46.82866 57.83412 26.93824 51.17832 42.42865 25.00991 39.49332 61.49174 41.12957 48.73509 24.84856 62.86307 31.46099 18.30140 58.65384 22.66574 28.69191 43.23656 29.99305 37.23314 25.34647 56.18528 59.60421 56.78237 34.86674 55.49477 52.80441 58.90374 64.61624 57.62305 41.92750 39.26187 43.79833 33.12420 44.39254 58.30465 30.01482 56.69020 45.00456 39.18792
classes centres amplitudes effectifs frequences eff. Cum. (18.3,26] 22,15 7,7 7 0,14 (26,33.7] 29,85 7,7 8 0,16 (33.7,41.5] 37,6 7,7 8 0,16 (41.5,49.2] 45,35 7,7 10 0,2 (49.2,56.9] 53,05 7,7 7 0,14 (56.9,64.7] 60,8 7,7 10 0,2
H is to g r a m m e e n fr q u e n c e s d e la s r ie c la s s e
0.025
box-plot de la srie
0.020
0.015
Density
age
0.010
0.005
0.000
10
20
30
40
a
50
60
70
Min. 18.30
Q1 30.84
Median 42.83
Mean 42.95
20
30
40
50
60
Q3 56.17
Max. 64.62
A- Introduction
nuage de points des variables dist et speed
vitesse
5
0
10
15
20
25
20
40
60
80
100
120
distance de freinage
B-1 Gnralits
9On considre une variable statistique X, observe sur n individus. On dispose alors dune srie statistique unidimensionnelle x = ( x1 ,..., xn ) que lon peut mettre sous forme dun tableau de donnes :
B-1 Gnralits
9 effectif dune valeur de X : nb. dindividus ayant cette valeur.
ni
mnage
9 frquence dune valeur de X : prop. ni = f i dindividus ayant cette valeur : n 9 effectif cumul de la ivaleur de X : nb. dindividus ayant lune des i premires valeurs de X :
N i = n j = n1 + n2 + ... + n j + ...ni
j =1
1 2 3 4 5 6 7 8 9 10
Nb. denfants X 3 2 5 3 6 3 5 5 1 5
9 frquence cumule dune valeur de X : prop. des individus ayant lune des i premires valeurs de X :
Fi = f j = f1 + f 2 + ... + f j + ... fi
j =1 i
9 Construction de la table des frquences (par valeurs ou classes de valeurs). 9 Visualisation de la distribution des frquences (ou des effectifs) de la srie. 9 rsum des caractristiques de la srie par des indicateurs et des graphiques.
ak = d k +1 d k
centre de I k : ck = 1 2 ( d k + d k +1 ) 9 NB : classement dune srie perte dinformation; la constitution des classes est une tape dlicate.
menage 1 superficie 8
2 8,5
3 10
4 12,5
5 11
6 13
7 20
8 25
9 33
10 15
9 Nombre de classes par la rgle de Sturges : k~5, amplitude des classes gales E/k =33-8/5=5. 9 Classes : [8,13[,[13,18[, [18,23[, [23,28[,[28,33]. 9 Table des frquences :
classes [8,13[ [13,18[ [18,23[ [23,28[ [28,33] centres 10,5 15,5 20,5 15,5 30,5 eff. 5 2 1 1 1 eff.cum 5 7 8 9 10 freq. 0,5 0,2 0,1 0,1 0,1 freq.cum. 0,5 0,7 0,8 0,9 1
Info
Le nombre de classes ne devrait tre ni infrieur 5, ni suprieur 20 (il varie gnralement entre 6 et 12). Ce choix est fonction du nombre d'observations et de leur dispersion. En pratique, on peut utiliser la formule de Sturges : le nombre k indiqu de classes pour une srie de n observations est donn approximativement par :
k = 1 + 3,322log10 n
Cependant, le choix dfinitif du nombre de classes sera dict par un souci de clart. Il s'agit ensuite de choisir l'amplitude des classes. On les choisit gnralement gales, d'amplitude approximativement gale a=E/k o E = xmax xmin est ltendue de la srie.
Variable quantitative continue histogramme : rectangles juxtaposs de X en abscisse, bton de longueur de base gale ak et de hauteur
proportionnelle la frquence (ou effectif). Gnralement, on prend comme hauteur f k / ak ( laire de lhistogramme est gale 1).
Le polygone en frquences croissantes (resp. dcroissantes) est obtenu en traant les points de coordonnes (d k , pk ) (resp. (d k , qk)) et en interpolant linairement entre ces points.
9 3 types dindicateurs :
Indicateurs de tendance centrale Indicateurs de dispersion Indicateurs de forme
serie de moyenne 4
0.4
Indicateurs de tendance centrale : fournissent l'ordre de grandeur des valeurs de la srie et la position o se rassemblent ces valeurs. Indicateurs de dispersion : quantifient les fluctuations des valeurs autour de la valeur centrale. Permettent d'apprcier l'talement des valeurs de la srie (les unes par rapport aux autres ou la valeur centrale). Indicateurs de forme : donnent une ide de la symtrie et de l'aplatissement d'une distribution. Leur usage est moins frquent.
0.2
0.4
0.0
-4
-2
0.0
0
0.2
serie de variance 1
0.4
0.2
0.0
-4
-2
0.0
-4
0.4
-2
serie symtrique
serie asymtrique
0.20
0.2
0.4
-4
-2
0.00
0
0.0
0.10
10
15
20
x1 + x2 + ... + xi + ... + xn 1 n x = xi = n i =1 n 1 k x = ni vi n i =1
(perte dinformation)
(x x ) = 0
i =1 i
ax + b
Lorsque la distribution des frquences est symtrique par rapport la droite x=a, la moyenne vaut a.
9 Limites Indicateur trs affect par les valeurs extrmes (attention aux points aberrants).
Me = x( n+1) / 2
Me = x( n / 2) + x( n / 2) +1 2
NB : Si la variable est discrte et n pair, il se peut qu'il n'y ait pas de valeur mdiane car Me doit correspondre une valeur possible de la srie. Ex : dans la srie du nombre denfants : 1,2,3,3,3,5,5,5,5,6, Me=4. dans la srie de la superficie : 8,8.5,10,11,12.5,13,15,20,25,33, Me=12,75.
Remarque : La mdiane correspond la valeur telle que la frquence cumule est gale .
N j 1 nj
aj
NB : Dans le cas d'une variable continue en classes, ce critre est peu objectif. On parlera plutt de classe modale : classe ayant la frquence la plus leve. Le mode nest pas unique.
1 n ( xi x ) s = s ( x) = Variance dchantillonnage n 1 i =1
2 sx = sx
s* s*2 x = x
Info
La variance (ou cart-type) est toujours positive ou nulle La variance est une forme quadratique Thorme de Koenig
2 sx = 2 2 sax = a s +b x
s x 0 sx 0
sax +b = a sx
n 1 *2 sx = x x n
Une srie peu disperse (ayant des valeurs regroupes autour de la valeur moyenne) aura un cart-type plutt faible. Remarque : Pour une distribution symtrique, pratiquement toutes les observations sont situes entre x-3s et x+3s.
info
1 k s = ni (vi x ) n i =1
2 x
1 k s ni (ci x ) n i =1
2 x
CV =
sX .100 x
Le CV permet d'apprcier la reprsentativit de la moyenne par rapport l'ensemble des observations. Il donne une bonne ide du degr d'homognit d'une srie. Il faut qu'il soit le plus faible possible (<15% en pratique).
Construction : - Sur un axe horizontal, on place les valeurs extrmes et les quartiles. - on trace un rectangle de longueur l'interquartile et la largeur proportionnelle la racine carre de la taille de la srie. - on partage le rectangle par un segment vertical au niveau de la mdiane.
8,8.5,10,11,12.5,13,15,20,25,33
Min. Q1
Me
Mean
Q3
Max.
Info
Ltendue
E = xmax xmin
e=
1 xi x n
Me = x = Mode
x Me sx
q=
Q3 + Q1 2 Me Q3 Q1
On a
1 1
symtrie parfaite srie tale gauche Srie tale droite
=0 <0 >0
q =0 q<0 q >0
8,8.5,10,11,12.5,13,15,20,25,33
Min. Q1
Me
Mean
Q3
Max.
a=
m4 4 sx
1 n m4 = ( xi x ) 4 n i =1
a=3 pour une distribution qui suit une loi normale centre rduite. Si a>3, la concentration des valeurs de la srie autour de la moyenne est forte : la distribution nest pas aplatie Si a<3, la concentration des valeurs autour de la moyenne est faible : la distribution est aplatie
m1 ,..., mi ,...mk
valeurs A C G T
effectifs 26 27 27 20
T 20%
A 26%
G
G 27%
T
C 27%