Sie sind auf Seite 1von 8

Ricco RAKOTOMALALA

Ricco.Rakotomalala@univ-lyon2.fr

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Arbres de dcision Apprentissage par partitionnement


Objectif : on veut construire des sous-groupes les plus
homognes du point de vue de la variable prdire

La variable qualitative Y prend ses valeurs dans {+,-}

+ +
+ +
+
-+ -+ + + + +
+++
-+ +
- +

Le sous-groupe Gi est compltement pur


du point de vue de Y, il ne possde que des
individus portant la valeur + de Y

si ( G i ) alors ( Y = + )

Gi

Lide est de trouver le plus rapidement


Possible (avec le moins de variables)
des groupes o P(Y=+) # 1

La description des sous-groupes repose sur :


la fonction f et ses paramtres ventuels
les variables exognes Xi
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Arbres de dcision Un exemple


Numro
1
2
3
4
5
6
7
8
9
10

Infarctus
oui
oui
oui
oui
oui
non
non
non
non
non

Douleur
poitrine
ailleurs
poitrine
poitrine
ailleurs
poitrine
ailleurs
poitrine
ailleurs
ailleurs

Age
45
25
35
70
34
60
67
52
58
34

Inanim
oui
oui
non
oui
non
non
non
oui
non
non

Tableau des frquences


absolues, tous les
individus sont prsents

5
5

douleur

poitrine
Les individus qui ont
une douleur dans la
poitrine, numros
{1,3,4,6,8}

A rsoudre :

ailleurs

3
2
48.5

2
0

choix de la variable de segmentation


traitement des variables continues
rgle darrt dans la construction
dcision sur une feuille

Infarctus = OUI
Infarctus = NON

{1,3}

ge

2
{2,5,7,9,10}
3
inanim
> 48.5

1
2

{4,6,8}

oui

non

1
0

{2}

1
3

{5,7,9,10}

Premier sous-groupe,
compltement homogne du
point de vue de la variable
prdire : il est constitu
exclusivement d individus qui ont
un infarctus
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Arbres de dcision Choix de la variable de segmentation


On choisit la variable X* telle qu elle est la plus lie (corrle) avec Y
on utilise la quantit du calcule sur le tableau de contingence
(croisement de Y avec Xi) pour quantifier cette liaison

xi,1
Y1
M
YK

L
nk,l = card({ a / Y () = Yk et Xi () = Xi,l })

Amlioration : la mesure du augmente avec


n, l effectif sur le nud segmenter
le nombre de lignes
le nombre de colonnes
Les variables qui ont beaucoup de modalits
(et ainsi induisent beaucoup de colonnes
dans le tableau de contingence) sont
avantags

xi,Li

X * = arg max 2 Y , X i
i =1,K, p

Ces valeurs sont


constantes dans les
comparaisons deux
deux du

tY , X i =

Y ,Xi

n ( K 1)( Li 1)

(le t de Tschuprow varie entre 0 et 1)


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Arbres de dcision Traitement des variables continues


Comment est ralis le choix du point de coupure

(ex: d o vient la valeur 48.5 de dcoupage de l ge dans l arbre exemple)


Point de coupure : borne de discrtisation
il doit toujours tre situ entre deux points conscutifs
sur l axe de la variable quantitative
il permet de dfinir un tableau de contingence
Points de coupures candidats
40

48.5

35

45

52

60

70

ge

Dfinit le tableau
de contingence
age< 40 age 40
Inf . = oui
Inf . = non

2Infarctus, Age<40

1
0

2
2

age< 48.5 age 48.5


Inf . = oui
Inf . = non

2
0

1
2

...

2Infarctus, Age<48.5

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Arbres de dcision Rgle darrt

Quand dcider quun sommet devient une feuille ?


Homognit des groupes : critre de prcision (confiance)
Puret dun sommet
Seuil de spcialisation (ex. si une classe est reprsente 98% -> stop)

Effectif des groupes : critre de support


Taille minimale pour segmenter (ex. en dessous de 10 obs, on ne segmente plus)
Effectif dadmissibilit (ex. si un des sommets produit couvre moins de 2 obs. -> refus)

Test dindpendance du CHI-2 : dmarche statistique

H 0 : Y et X * indpendants

H1 :Y est li avec X *

Comment fixer le risque du test ?

Lide est surtout de contrler la profondeur de larbre !


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Arbres de dcision Avantages et inconvnients


Avantages :
connaissances intelligibles -- validation dexpert
traduction directe de larbre vers une base de rgles
slection automatique des variables pertinentes
non paramtrique
traitement indiffrenci selon le type des variables
robuste face aux donnes aberrantes
rapidit intressante sur des bases de taille moyenne
possibilit pour le praticien dintervenir dans la construction

Inconvnients :
problme de stabilit sur les petites bases de donnes
masque lintrt des variables non slectionnes
recherche pas--pas : difficult trouver les interactions

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Bibliographie : arbres de dcision

Arbres de Dcision , R. Rakotomalala, Revue MODULAD, 33:163-187, 2005


(http://www.modulad.fr/).
Le point sur les mthodes

Graphes dInduction , D. Zighed et R. Rakotomalala, Herms, 2000.


Encyclopdique, description approfondie des mthodes

Classification and Regression Tree , L. Breiman, J. Friedman, R. Olshen et C.


Stone, 1984.
La bible Trs peu accessible malheureusement mais dune trs grande richesse

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Das könnte Ihnen auch gefallen