Sie sind auf Seite 1von 6

Master Maths Finances  2010/2011

Data Mining
janvier 2011

RapidMiner
1 Introduction
1.1 Prsentation
RapidMiner est un logiciel open source et gratuit ddi au data mining. Il contient de nombreux
outils pour traiter des donnes : lecture de dirents formats d'entre, prparation et nettoyage
des donnes, statistiques, tous les algorithmes de data mining, valuation des performances et
visualisations diverses.
C'est un logiciel puissant, il n'est pas facile manipuler au premier abord, mais avec un peu de
pratique, il permet de mettre en place rapidement une chane complte de traitement de donnes,
de la saisie des donnes leur classication.

1.2 Ressources
RapidMiner est disponible sur le site http://rapid-i.com, o l'on trouve aussi des tutoriaux, un
blog et des forums.

2 Prise en main
A l'ouverture du programme, RapidMiner prsente l'cran de la gure 1, qui vous propose soit de
commencer un nouveau schma de traitement de donnes, soit d'en ouvrir un prcdemment crit,
soit de suivre le tutoriel en ligne (celui-ci suppose
une connaissance pralable des mthodes et du vocabulaire du data mining, et devient vite trs compliqu suivre). Choisissez 'new', ce qui vous amne
l'cran de la gure 2, o vous devez choisir l'endroit o se trouvera votre espace de travail.Choisissez
'NewLocalRepository' et entrez un nom. On arrive maintenant l'cran de travail proprement
dit, illustr sur la gure 3. Cet espace de travail
Figure 1  Le premier cran
se divise en cinq zones principales :
 La zone centrale servira dessiner le schma du ux de donnes : il partira d'une source, qui
passera successivement travers plusieurs outils (prparation des donnes, traitement, valuation
de performances . . .).

Master Maths Finances  2010/2011 : Data Mining

Figure 2  Choix du dpt


 Le catalogues des outils, gauche, o nous irons chercher les composants utiliser dans la zone
centrale. Ces composants peuvent tre des sources de donnes, des modicateurs de donnes, des
algorithmes de data mining, des valuateurs de performances. Nous les utiliserons chacun leur
tour, un peu la fois.
 Pour chaque outil utilis, la zone de droite listera ses paramtres.
 La zone des informations en bas droite renseigne sur le fonctionnement de l'outil courant.
 En bas, la fentre des messages d'erreurs.

Figure 3  Espace de travail

3 Premier schma
La premire approche de RapidMiner consistera ouvrir un chier de donnes, et l'inspecter, an
d'avoir une ide de sa conguration et des caractristiques des donnes qui le composent. L'exemple
que nous allons utiliser est un exemple clbre en statistiques, et souvent utilis pour illustrer les
algorithmes de data mining : les Iris de Fischer. Cet ensemble regroupe la descriptions de 150 iris,
de trois sortes direntes. Chaque individu est dcrit par 4 paramtres entiers : la longueur et la

RapidMiner

largeur des ptales et des spales, et la cinquime valeur est la sorte d'iris de l'exemple. Le but du
jeu est d'crire un algorithme qui, partir des quatre premiers paramtres, devine correctement la
sorte d'iris. En regardant les donnes, comme nous allons le faire par la suite on pourra se rendre
compte visuellement de la complexit (ou de la facilit) de cette tache.

3.1 Importation d'un chier


RapidMiner n'est pas le seul programme de traitement de donnes : il contient des outils qui
permettent d'importer des donnes au format d'un autre logiciel.

3.2 Importation d'un chier Excell


Sur le portail (www.fil.univ-lille1.fr, >Portail Pdagogique > Masters > Math-Fi M1 >FDD
>Documents), allez chercher le chier iris.xls, et recopiez-le dans votre espace de travail. Dans
la fentre des Outils de RapidMiner, allez chercher l'outil Import>Data>Read Excell (maintenez
cliqu, puis dposez dans l'espace de travail : gure 4). Sur cet outil, gure un point rouge, avec

Figure 4  L'outil de lecture d'un chier Excell


un panneau routier 'Attention' : il y a un problme avec cet outil, il est expliqu dans la fentre
message. Le problme ici est simple, cet outil n'est pas encore reli un chier. Utilisons le sorcier
pour associer un chier cet outil : slectionnez la bote Read Excell, puis cliquez sur le bouton
Import Configuration Wizard de la zone des paramtres (gure 5), puis suivez les tapes.

Figure 5  Les paramtres de l'outil de lecture


de chier Excell

Figure 6  Fixer les types et les rles

Master Maths Finances  2010/2011 : Data Mining

Step 1 : slectionnez le chier iris.xls que vous venez de charger.


Step 2 : Rien faire ici, puisque le chier ne contient qu'une feuille (sinon, slectionnez la feuille
qui vous interesse).
Step 3 : Possibilit de rajouter des annotations : on passe.
Step 4 : Fixer le rle et le type des paramtres. Le sorcier a dj fait une partie du travail, les seules
modications apporter ici concernent la dernire colonne : l'attribut Class est polynominal
(plus de deux valeurs textuelles) et il joue le rle d'un label (la classe deviner) : faites les
modications (gure 6) et cliquez sur Finish.
Si tout s'est pass dans les rgles, l'avertissement a disparu.
Connectez maintenant la cosse de sortie (out) de l'outil la cosse res sur le bord droit de la zone
des schmas. Vous remarquez qu'une nouvelle cosse non connecte est apparu : elle est prte servir
si nous voulons accder plus d'informations (gure 7). Les rsultats produits par RapidMiner sont
ceux pour lesquels un chemin conduit une de ces cosses res.
Le schma tant (enn) termin, on peut lancer le processus, qui consiste ici produire un certain
nombre de statistiques lmentaires sur les donnes en entre. Pour cela, cliquez sur le triangle bleu
dans la barre des icnes en haut de l'environnement. Rpondez, dans l'ordre No, Yes, Yes aux
trois questions qui vous sont poses :
No : on n'a pas besoin de sauvegarder ce schma.
Yes : on ferme les ventuels rsultats obtenus prcdemment (sinon, il y a des risques de confusion).
Yes : on bascule dans la perspective contenant les rsultats.

Figure 7  Un schma termin

3.3 Lecture des rsultats


Le premier process (lecture d'un chier Excell) a t excut, on a chang d'cran et on peut
maintenant consulter les rsultats. Aucune manipulation de donnes n'ayant eu lieu, ces rsultats
sont essentiellement des statistiques sur les donnes lues, ainsi que des visualisations. Il y a quatre
faons de consulter les informations sur les donnes, qui correspondent aux quatre boutons de la
gure 8.

Meta Data View Des informations sur les donnes :

 Rle de chaque champ (ou attribut) : standard(regular) ou caractristique (label : ce que


les algorithmes de classication devront deviner).
 Nom de l'attribut.
 Type : numrique, date, polynominal. . .
 Statistiques lmentaires.
 Intervalles de valeurs.
 Valeurs manquantes

Data View : la liste de tous les exemples avec leurs valeurs.

RapidMiner

Figure 8  Les direntes vues sur les donnes

Plot View ore la possibilit de visualiser les donnes sous de nombreux angles.
Annotations permet d'ajouter des commentaires ou des informations au chier de donnes.
3.4 Visualisation des donnes
Passez dans Plot View. Vous pouvez choisir le type de graphique (menu Plotter), l'attribut correspondant chaque axe de coordonnes, et la couleur des points. Explorez les direntes possibilits.
 En colorant les points relativement l'attriibut class, quels sont les deux attributs qui vous
semblent permettre de bien distinguer les exemples de classes direntes ?
 Existe-t-il une faon de visualiser les donnes qui permette de rpondre rapidement la question
prcdente ?
 Y a-t-il une combinaison de trois attributs qui semble bien direncier les exemples selon leur
classe ?
 Le problme de deviner la classe d'un exemple en fonction de ses autres attributs vous semble-telle dicile ? Pourquoi ?

4 Deuxime schma : un algorithme de classication


Les algorithmes de classication et de clustering seront vu plus tard dans le cours, mais on peut
dj les utiliser dans RapidMiner, et regarder les rsultats produits, mme si on ne sait rien de
l'algorithme utilis. Reprenez le schma prcdent (on revient dans la perspective de dnition
de schma en cliquant sur le bouton reprsentant un crayon et un bloc-note). Dans la fentre
des outils, choisissez Decision Tree (Modelling>Classification>Tree Induction >Decision
Tree), et intercalez-le droite de l'outil de lecture des donnes (gure 9).

Figure 9  Ajouter un classieur


Decision Tree reoit en entre un ensemble d'exemples dont un des attributs est un label et
construit un arbre de dcision qui essaie de deviner ce label en se servant des autres attributs. Il a
deux sorties :

Master Maths Finances  2010/2011 : Data Mining

mod le modle, i.e. l'arbre de dcision lui-mme : connectez-le la borne res.


exa : l'ensemble d'exemples prsent l'entre. Connectez-le aussi la borne res : on pourra ainsi
examiner l'arbre et les donnes originales.

Excutez le schma : vous avez maintenant deux onglets dans la perspective rsultat : un pour les
donnes (la mme que tout l'heure), l'autre pour l'arbre de dcision.
 Comment lire l'arbre ?
 Combien d'erreurs fait-il ?
 Comparez les attributs qu'il utilise pour prendre ses dcisions avec les observations que vous avez
pu faire sur les donnes initiales.

5 Troisime schma
Le classieur (dans notre cas, un arbre de dcision, mais il en existe plein d'autres) a utilis les attributs des exemples pour prendre sa dcision. Mais peut-tre que ce ne sont pas les dimensions des iris
qui sont importantes. C'est peut-tre la surface des ptales, ou le rapport entre la longueur des ptales et la longueur des spales ? Pour vrier ces hypothses, nous allons intercaler entre les donnes
initiales et l'arbre de dcision un outil de gnration d'attributs (Data Transformation>Attribute
Set Reduction and Transformation>Generation>Generate Attributes). Editez la liste des descriptions de fonctions (fentre paramtres de Genarate Attributes), et crez un nouvel attribut
SurfacePetale en multipliant la longueur et la largeur des ptales.

Figure 10  Ajouter un attribut


Petit problme maintenant : le nouvel attribut n'a pas de rle. Qu' cel ne tienne : intercalez un
outil Set Role (Data Transformation>Name and Role Modification>Set Role) et dnissez le
nouvel attribut comme regular. On obtient nalement le schma complet de la gure 10.
 Comparez l'arbre obtenu avec le prcdent. Introduire un nouvel attribut a-t-il t utile ?
 Testez d'autres crations d'attributs.

Das könnte Ihnen auch gefallen