Sie sind auf Seite 1von 3

ADAPI FI2A – OAPI 2017/2018

Devoir Surveillé Analyse de Données pour


l’Amélioration des Processus Industriels
Durée = 2h00 heures. Tout document personnel autorisé.
Les exercices sont indépendants. Les calculatrices sont autorisées.

I. Exercice 1 – Clustering vs Classification


Dans ce premier exercice, nous disposons d’un ensemble de 24 individus, appartenant à
l’espace  2 . Chaque individu X i est caractérisé par deux attributs X i1 , X i2 . Les distances entre
les individus sont calculées selon la norme euclidienne. A titre d’information, les valeurs des
attributs sont données ci-après, mais elles sont inutiles pour la réponse aux questions.
6

X1
2
Individus X
5.5
1 2,2 2,5
2 1,5 3,2
3 1,3 3,0
5

4.5
4 1,5 2,8
5 1,4 3,3
4 6 2,0 2,6
7 1,8 3,1
3.5 8 1,8 3,1
9 4,2 4,8
3
10 3,6 4,6
11 4,2 4,8
12 3,7 3,5
2.5

2
13 3,5 4,7
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 14 3,3 4,5
15 4,6 4,3
16 3,5 5,1
Dans la première partie, nous cherchons à construire les groupes 17 0,9 4,4
d’individus selon une approche de clustering. 18 1,8 3,9
19 0,8 3,8
20 0,9 3,4
1) Donner l’expression permettant de calculer l’inertie totale des 21 0,4 4,7
22 0,8 4,8
données. Il conviendra par la suite de conserver simplement 23 0,5 4,2
le calcul des sommes des distances au carré (SST – Sum of 24 1,0 3,6
Squares Total).
Supposons que la population est répartie entre K groupes. Chaque groupe est caractérisé par un
individu moyen µk . L’ensemble de la population est répartie dans ces K groupes selon une
partition dure. Un individu appartient de façon unique au groupe dont il est le plus proche du
centre (ou individu moyen).
2) Donner l’expression de la somme des distances au carré, permettant de caractériser
l’inertie entre les différents groupes K (SSB).
3) Donner l’expression de la somme des distances au carré, permettant de caractériser la
totalité de l’inertie présente à l’intérieur des différents groupes K (SSW).
4) Justifier d’une relation entre SST, SSB et SSW, puis préciser le principe qu’exploite
l’algorithme des centres mobiles pour construire les différents groupes
5) Rappeler en pseudo-code les principales étapes de cet algorithme en détaillant
précisément l’expression du critère d’arrêt de cet algorithme itératif.
6) Quelles sont, selon vous, les principales limitations d’un tel algorithme ?

Dans cette seconde partie, une information complémentaire importante vient d’être connue. Un
expert a défini la valeur d’un label pour chaque individu. Cela est symbolisé par des marques de
couleur dans l’espace des données.

StL 1/3 19 Avril 2018


ADAPI FI2A – OAPI 2017/2018

1 2
6
Individus X X Label
1 2,2 2,5 1
5.5 2 1,5 3,2 1
3 1,3 3,0 1
4 1,5 2,8 1
5

4.5
5 1,4 3,3 1
6 2,0 2,6 1
4 7 1,8 3,1 1
8 1,8 3,1 1
9 4,2 4,8 2
3.5

3
10 3,6 4,6 2
11 4,2 4,8 2
2.5 12 3,7 3,5 2
13 3,5 4,7 2
14 3,3 4,5 2
2
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

15 4,6 4,3 2
16 3,5 5,1 2
7) Donner l’expression de la matrice de covariance (notée 17 0,9 4,4 2
ST) pour l’ensemble des données. 18 1,8 3,9 3
19 0,8 3,8 3
8) Quelle relation, pouvez-vous trouver entre ST et 20 0,9 3,4 3
l’expression du SST, calculée en 1 ? 21 0,4 4,7 3
22 0,8 4,8 3
9) Donner l’expression de la matrice de covariance pour 1 23 0,5 4,2 3
groupe en particulier, et en déduire l’expression de la 24 1,0 3,6 3
somme pour l’ensemble des groupes (SW).
10) Quelle relation, pouvez-vous trouver entre SW et l’expression du SSW calculée en 3.
11) Comment calculer la matrice de covariance inter-classe (SB), qui pourrait correspondre
sous une certaine forme au SSB calculé en 2 ?

Pour construire le modèle de classification pour les 3 groupes, la méthode en analyse factorielle
discriminante (AFD) est retenue.
12) Rappeler, en deux ou trois lignes, le principe utilisé pour définir les axes (ou facteurs) de
projection pour une analyse discriminante de vos données. On notera X ip = w.wT X i la
projection de l’individu X i suivant l’axe w
13) Donner l’expression des matrices de covariance STp et SBp pour les individus
projetés X ip , en fonction de w et X i . et justifier le critère utilisé pour la détermination
des vecteurs w optimaux.
14) Donner en pseudo-code les principales étapes de l’algorithme AFD, jusqu’aux règles de
décision.
15) Discuter à propos de l’intérêt des valeurs propres associées aux différents axes pour la
construction des règles de classification des données futures.

II. Exercice 2 - Régression linéaire et modélisation de procédé


En présence d’un procédé biotechnologique, nous cherchons construire un modèle de prédiction
de la qualité de la production (QP), à partir d’un ensemble de mesures disponibles, température
(T), pression (P), humidité (H), oxygène (O2), gaz carbonique (CO2), activité chimique (pH),
débit matière entrante (Q1), débit gaz (QZ) …

Nous disposons de 10000 échantillons de 9 mesures, correspondant chacun à une date


d’enregistrement à temps périodique.
La représentation boîte à moustache de chaque variable et la matrice de corrélation sont données
ci-après.

StL 2/3 19 Avril 2018


ADAPI FI2A – OAPI 2017/2018

100

90
QP T P H O2 CO2 pH Q1 QZ
80 QP 1 0,39 0,36 0,38 0,15 -0,24 -0,18 0,21 -0,03
70 T 0,39 1 0,20 -0,25 0,22 -0,05 -0,13 0,09 0,03
60
P 0,36 0,20 1 0,13 -0,17 -0,08 0,00 0,42 -0,35
50
H 0,38 -0,25 0,13 1 0,06 0,00 0,15 0,28 -0,22
O2 0,15 0,22 -0,17 0,06 1 0,72 0,16 -0,25 0,07
CO2 -0,24 -0,05 -0,08 0,00 0,72 1 0,80 -0,11 -0,14
40

pH -0,18 -0,13 0,00 0,15 0,16 0,80 1 0,03 -0,06


30

20
Q1 0,21 0,09 0,42 0,28 -0,25 -0,11 0,03 1 0,07
10 QZ -0,03 0,03 -0,35 -0,22 0,07 -0,14 -0,06 0,07 1
0

QP T P H O2 CO2 pH Q1 QZ

1) Proposer, d’une manière générique, les conditions de tri permettant d’éliminer les
échantillons dont les valeurs des variables se situent aux extrémités. L’hypothèse
simpliste que chaque variable suit une distribution normale peut être utilisée.
2) Dans l’objectif de construire un modèle de régression capable de prédire la valeur QP,
quelles informations intéressantes pouvez-vous extraire de la table des corrélations ?
3) Proposer une structure de modèle linéaire et donner la relation permettant d’estimer les
coefficients.
4) Justifier de l’importance d’analyser le résidu entre la valeur réelle de QP et la valeur
prédite par le modèle.
La première approche d’un modèle statique linéaire ayant échouée, une seconde approche
consiste à estimer un modèle non linéaire en se focalisant sur la dynamique d’évolution entre la
sortie QP et 3 variables choisies par notre expert : T, P et H.
5) Donner la structure du régresseur pour un système d’ordre 3.
6) Quel type de modèle de prédiction pourrait être utilisé ? Justifier votre choix.
7) Proposer une démarche permettant de valider la qualité du modèle estimé.
8) Si une seule modification sur le procédé devait être possible pour améliorer la qualité
produite (QP) par un meilleur contrôle de T, de P ou de H, quelle démarche allez-vous
suivre pour évaluer la meilleure modification à retenir.

III. Exercice 3 - Prédiction d’une classe


Trois modalités caractérisent la distribution de la variable aléatoire X, en noire sur la figure ci-
dessous, de la façon suivante (la proportion est donnée pour un total de 150 échantillons) :
0.4

M1 (mode bleu) composé de 2 lois normales de 0.35

proportion π , moyenne P(x,.) et écart type 0.3

P(.,x) suivant :
π 11 55; P11 (2, 0.2); π 21 20; P21 (2.4, 0.2);
0.25

= =
0.2

M2 (mode rouge) composé de 1 loi normale de


proportion, moyenne et écart type suivant : 0.15

π 12 = 50; P12 (2.8, 0.5); 0.1

M3 (mode vert) composé de 2 lois normales de 0.05

proportion, moyenne et écart type suivant : 0

= π 13 15;
= P13 (3, 0.2); π 23 10; P23 (3.4, 0.2);
1 1.5 2 2.5 3 3.5 4 4.5 5

1) Donner, en rappelant la règle utilisée, les différentes probabilités d’appartenance aux 3


modes pour les 3 valeurs suivantes de X : 1.8 ; 2.7 et 3.2. Détailler le calcul pour la
valeur à 3.2.

StL 3/3 19 Avril 2018

Das könnte Ihnen auch gefallen