Beruflich Dokumente
Kultur Dokumente
Data Mining
janvier 2011
RapidMiner
1 Introduction
1.1 Prsentation
RapidMiner est un logiciel open source et gratuit ddi au data mining. Il contient de nombreux
outils pour traiter des donnes : lecture de dirents formats d'entre, prparation et nettoyage
des donnes, statistiques, tous les algorithmes de data mining, valuation des performances et
visualisations diverses.
C'est un logiciel puissant, il n'est pas facile manipuler au premier abord, mais avec un peu de
pratique, il permet de mettre en place rapidement une chane complte de traitement de donnes,
de la saisie des donnes leur classication.
1.2 Ressources
RapidMiner est disponible sur le site http://rapid-i.com, o l'on trouve aussi des tutoriaux, un
blog et des forums.
2 Prise en main
A l'ouverture du programme, RapidMiner prsente l'cran de la gure 1, qui vous propose soit de
commencer un nouveau schma de traitement de donnes, soit d'en ouvrir un prcdemment crit,
soit de suivre le tutoriel en ligne (celui-ci suppose
une connaissance pralable des mthodes et du vocabulaire du data mining, et devient vite trs compliqu suivre). Choisissez 'new', ce qui vous amne
l'cran de la gure 2, o vous devez choisir l'endroit o se trouvera votre espace de travail.Choisissez
'NewLocalRepository' et entrez un nom. On arrive maintenant l'cran de travail proprement
dit, illustr sur la gure 3. Cet espace de travail
Figure 1 Le premier cran
se divise en cinq zones principales :
La zone centrale servira dessiner le schma du ux de donnes : il partira d'une source, qui
passera successivement travers plusieurs outils (prparation des donnes, traitement, valuation
de performances . . .).
3 Premier schma
La premire approche de RapidMiner consistera ouvrir un chier de donnes, et l'inspecter, an
d'avoir une ide de sa conguration et des caractristiques des donnes qui le composent. L'exemple
que nous allons utiliser est un exemple clbre en statistiques, et souvent utilis pour illustrer les
algorithmes de data mining : les Iris de Fischer. Cet ensemble regroupe la descriptions de 150 iris,
de trois sortes direntes. Chaque individu est dcrit par 4 paramtres entiers : la longueur et la
RapidMiner
largeur des ptales et des spales, et la cinquime valeur est la sorte d'iris de l'exemple. Le but du
jeu est d'crire un algorithme qui, partir des quatre premiers paramtres, devine correctement la
sorte d'iris. En regardant les donnes, comme nous allons le faire par la suite on pourra se rendre
compte visuellement de la complexit (ou de la facilit) de cette tache.
RapidMiner
Plot View ore la possibilit de visualiser les donnes sous de nombreux angles.
Annotations permet d'ajouter des commentaires ou des informations au chier de donnes.
3.4 Visualisation des donnes
Passez dans Plot View. Vous pouvez choisir le type de graphique (menu Plotter), l'attribut correspondant chaque axe de coordonnes, et la couleur des points. Explorez les direntes possibilits.
En colorant les points relativement l'attriibut class, quels sont les deux attributs qui vous
semblent permettre de bien distinguer les exemples de classes direntes ?
Existe-t-il une faon de visualiser les donnes qui permette de rpondre rapidement la question
prcdente ?
Y a-t-il une combinaison de trois attributs qui semble bien direncier les exemples selon leur
classe ?
Le problme de deviner la classe d'un exemple en fonction de ses autres attributs vous semble-telle dicile ? Pourquoi ?
Excutez le schma : vous avez maintenant deux onglets dans la perspective rsultat : un pour les
donnes (la mme que tout l'heure), l'autre pour l'arbre de dcision.
Comment lire l'arbre ?
Combien d'erreurs fait-il ?
Comparez les attributs qu'il utilise pour prendre ses dcisions avec les observations que vous avez
pu faire sur les donnes initiales.
5 Troisime schma
Le classieur (dans notre cas, un arbre de dcision, mais il en existe plein d'autres) a utilis les attributs des exemples pour prendre sa dcision. Mais peut-tre que ce ne sont pas les dimensions des iris
qui sont importantes. C'est peut-tre la surface des ptales, ou le rapport entre la longueur des ptales et la longueur des spales ? Pour vrier ces hypothses, nous allons intercaler entre les donnes
initiales et l'arbre de dcision un outil de gnration d'attributs (Data Transformation>Attribute
Set Reduction and Transformation>Generation>Generate Attributes). Editez la liste des descriptions de fonctions (fentre paramtres de Genarate Attributes), et crez un nouvel attribut
SurfacePetale en multipliant la longueur et la largeur des ptales.