Beruflich Dokumente
Kultur Dokumente
X1
2
Individus X
5.5
1 2,2 2,5
2 1,5 3,2
3 1,3 3,0
5
4.5
4 1,5 2,8
5 1,4 3,3
4 6 2,0 2,6
7 1,8 3,1
3.5 8 1,8 3,1
9 4,2 4,8
3
10 3,6 4,6
11 4,2 4,8
12 3,7 3,5
2.5
2
13 3,5 4,7
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 14 3,3 4,5
15 4,6 4,3
16 3,5 5,1
Dans la première partie, nous cherchons à construire les groupes 17 0,9 4,4
d’individus selon une approche de clustering. 18 1,8 3,9
19 0,8 3,8
20 0,9 3,4
1) Donner l’expression permettant de calculer l’inertie totale des 21 0,4 4,7
22 0,8 4,8
données. Il conviendra par la suite de conserver simplement 23 0,5 4,2
le calcul des sommes des distances au carré (SST – Sum of 24 1,0 3,6
Squares Total).
Supposons que la population est répartie entre K groupes. Chaque groupe est caractérisé par un
individu moyen µk . L’ensemble de la population est répartie dans ces K groupes selon une
partition dure. Un individu appartient de façon unique au groupe dont il est le plus proche du
centre (ou individu moyen).
2) Donner l’expression de la somme des distances au carré, permettant de caractériser
l’inertie entre les différents groupes K (SSB).
3) Donner l’expression de la somme des distances au carré, permettant de caractériser la
totalité de l’inertie présente à l’intérieur des différents groupes K (SSW).
4) Justifier d’une relation entre SST, SSB et SSW, puis préciser le principe qu’exploite
l’algorithme des centres mobiles pour construire les différents groupes
5) Rappeler en pseudo-code les principales étapes de cet algorithme en détaillant
précisément l’expression du critère d’arrêt de cet algorithme itératif.
6) Quelles sont, selon vous, les principales limitations d’un tel algorithme ?
Dans cette seconde partie, une information complémentaire importante vient d’être connue. Un
expert a défini la valeur d’un label pour chaque individu. Cela est symbolisé par des marques de
couleur dans l’espace des données.
1 2
6
Individus X X Label
1 2,2 2,5 1
5.5 2 1,5 3,2 1
3 1,3 3,0 1
4 1,5 2,8 1
5
4.5
5 1,4 3,3 1
6 2,0 2,6 1
4 7 1,8 3,1 1
8 1,8 3,1 1
9 4,2 4,8 2
3.5
3
10 3,6 4,6 2
11 4,2 4,8 2
2.5 12 3,7 3,5 2
13 3,5 4,7 2
14 3,3 4,5 2
2
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
15 4,6 4,3 2
16 3,5 5,1 2
7) Donner l’expression de la matrice de covariance (notée 17 0,9 4,4 2
ST) pour l’ensemble des données. 18 1,8 3,9 3
19 0,8 3,8 3
8) Quelle relation, pouvez-vous trouver entre ST et 20 0,9 3,4 3
l’expression du SST, calculée en 1 ? 21 0,4 4,7 3
22 0,8 4,8 3
9) Donner l’expression de la matrice de covariance pour 1 23 0,5 4,2 3
groupe en particulier, et en déduire l’expression de la 24 1,0 3,6 3
somme pour l’ensemble des groupes (SW).
10) Quelle relation, pouvez-vous trouver entre SW et l’expression du SSW calculée en 3.
11) Comment calculer la matrice de covariance inter-classe (SB), qui pourrait correspondre
sous une certaine forme au SSB calculé en 2 ?
Pour construire le modèle de classification pour les 3 groupes, la méthode en analyse factorielle
discriminante (AFD) est retenue.
12) Rappeler, en deux ou trois lignes, le principe utilisé pour définir les axes (ou facteurs) de
projection pour une analyse discriminante de vos données. On notera X ip = w.wT X i la
projection de l’individu X i suivant l’axe w
13) Donner l’expression des matrices de covariance STp et SBp pour les individus
projetés X ip , en fonction de w et X i . et justifier le critère utilisé pour la détermination
des vecteurs w optimaux.
14) Donner en pseudo-code les principales étapes de l’algorithme AFD, jusqu’aux règles de
décision.
15) Discuter à propos de l’intérêt des valeurs propres associées aux différents axes pour la
construction des règles de classification des données futures.
100
90
QP T P H O2 CO2 pH Q1 QZ
80 QP 1 0,39 0,36 0,38 0,15 -0,24 -0,18 0,21 -0,03
70 T 0,39 1 0,20 -0,25 0,22 -0,05 -0,13 0,09 0,03
60
P 0,36 0,20 1 0,13 -0,17 -0,08 0,00 0,42 -0,35
50
H 0,38 -0,25 0,13 1 0,06 0,00 0,15 0,28 -0,22
O2 0,15 0,22 -0,17 0,06 1 0,72 0,16 -0,25 0,07
CO2 -0,24 -0,05 -0,08 0,00 0,72 1 0,80 -0,11 -0,14
40
20
Q1 0,21 0,09 0,42 0,28 -0,25 -0,11 0,03 1 0,07
10 QZ -0,03 0,03 -0,35 -0,22 0,07 -0,14 -0,06 0,07 1
0
QP T P H O2 CO2 pH Q1 QZ
1) Proposer, d’une manière générique, les conditions de tri permettant d’éliminer les
échantillons dont les valeurs des variables se situent aux extrémités. L’hypothèse
simpliste que chaque variable suit une distribution normale peut être utilisée.
2) Dans l’objectif de construire un modèle de régression capable de prédire la valeur QP,
quelles informations intéressantes pouvez-vous extraire de la table des corrélations ?
3) Proposer une structure de modèle linéaire et donner la relation permettant d’estimer les
coefficients.
4) Justifier de l’importance d’analyser le résidu entre la valeur réelle de QP et la valeur
prédite par le modèle.
La première approche d’un modèle statique linéaire ayant échouée, une seconde approche
consiste à estimer un modèle non linéaire en se focalisant sur la dynamique d’évolution entre la
sortie QP et 3 variables choisies par notre expert : T, P et H.
5) Donner la structure du régresseur pour un système d’ordre 3.
6) Quel type de modèle de prédiction pourrait être utilisé ? Justifier votre choix.
7) Proposer une démarche permettant de valider la qualité du modèle estimé.
8) Si une seule modification sur le procédé devait être possible pour améliorer la qualité
produite (QP) par un meilleur contrôle de T, de P ou de H, quelle démarche allez-vous
suivre pour évaluer la meilleure modification à retenir.
P(.,x) suivant :
π 11 55; P11 (2, 0.2); π 21 20; P21 (2.4, 0.2);
0.25
= =
0.2
= π 13 15;
= P13 (3, 0.2); π 23 10; P23 (3.4, 0.2);
1 1.5 2 2.5 3 3.5 4 4.5 5