Sie sind auf Seite 1von 14

Les algorithmes de Data Mining

1 L'arbre de décision :
C'est une méthode de classication supervisée qui aide à la décision il est composé d'un ensemble des n÷uds
(qui représente les attributs d'un tableau) connecter par des branches (contient une ou un ensemble des valeurs
des variables prédictives, explicative), les feuille de l'arbre (contient des variable à expliquer, cible) ça structures
représenté dans l'image suivante :

Figure 1  La structure de l'arbre de décision


Voici un exemple qui illustre la construction d'un arbre de décision à partir d'un tableau des données :

Fièvre Douleur Toux Maladie


oui Abdomen non Appendicite
non Abdomen oui Appendicite
oui gorge non rhume
oui gorge oui rhume
non gorge oui mal de gorge
oui aucune non rien
oui aucune oui rhume
non aucune oui refroidissement
non aucune non rien
Table 1  Un exemple de tableau des données

Figure 2  L'arbre de décision

1
Remarque
1. Le chemin de racine à la feuille construire une règle de classement.
2. Ensemble des règles construire un modèle.
3. L'élaboration de l'arbre est basé sur le calcule de gain.
Pk
G(S, Q) = E(S) − i=1 Pi E(S, Q)
E(S) : L'entropie de n÷ud père.
E(S, Qi ) : L'entropie des n÷uds ls.
E(S) = −P+ log2 (P+ ) − P− log2 (P− )
Pi : C'est le cardinal de la classe i.

Les avantages Les inconvénients


C'est modèle simple a implémenté. Simple à comprendre.
Cette structure prend beaucoup de temps
En peux construire une décessions à partir de ce modèle.
dans des problèmes de grande taille,
Facile à comprendre et facile a interprété C'est un algorithme
dans l'élaboration de modèle ainsi la décision.
robuste aux données mal classé.
Table 2  Les avantages et les inconvénients de l'arbre de décision

2 Réseau de neurone
C'est une méthode de classication supervisée ou modèle mathématique qui sert à reproduire l'intelligence humaine
par la reproduction des quel que capacités de calcul de cerveau humaines tel que l'acquisition des connaissances et
l'utilisation de ces connaissances.
Le principe de fonctionnement de RN
Le neurone revoie des signaux électrique par les dendrites des autres neurones, après c'est la somme des signaux
dépasse le seuil d'activation alors le neurone transmettre le signal aux le neurone voisin par l'axone.

Figure 3  représentation d'un perceptron (neurone avec une seule couche)

Tel que :
wi : c'est les poids et il est initialisé aléatoirement avec une valeur entre 0 et 1.
xi : c'est les entrées.
S : c'est le signal somme (l'ensemble des signaux entré).
Y : c'est la sortie.
F : c'est la fonction d'activation

F (S) = Y = F (W )+ P
0
n
i=1 Wi ∗ xi
La fonction d'activation le plus utilisé c'est la fonction sigmoïde :

2
1
F = 1+e−S
L'apprentissage par RN il s'agit de modier les poids initial jusqu'à que la fonction d'activation dépassé le seuil
(puisse eectuer la tache désirer tel que l'erreur entre la sortie désiré et la sortie soit plus petit).
Le changement de poids est eectué comme se suit :

Wij = Wij (r − 1) + 4Wij (r − 1)


4Wij (r − 1) : est une quantité stable de chaque neurone.

Les avantages Les inconvénients


Le nombre des connexions augmente dans le cas des problèmes
de grandes de taille
Capacité de résoudre les problèmes compliqués.
Problèmes d'initialisation de poids
Résistance au bruit.
Problème de xé la valeur de seuil
Le temps d'apprentissage est grand
Table 3  Les avantages et les inconvénients de RN

3 Les algorithmes génétiques


Sont des algorithmes d'optimisation stochastique fondés sur les mécanismes de la sélection naturelle il sert à chercher
un modèle présentatif à partir d'un sous ensemble de l'ensemble globale (cherché une solution optimal approché a
un problème de tel façon résoudre le problème posé). Leur principe de fonctionnement est similaire à l'évolution
des cellules biologiques et en peut le résumé comme se suit :
Soit un ensemble d'échantillon exemple une chaines de caractère (dans chaque caractère présente un chromosome)
en possède a une codication des ces caractère , puis en choisis aléatoirement une population contient N échantillons
, ensuite en va l'évaluer (chaque chromosome est décodé puis évalué) Aussi en eectuer une sélection (création d'une
nouvelle population à partir de l'évolution de l'échantillon précédent en utilisant des algorithmes de sélection) enn
l'étape de reproduction (possibilité de croisement (gure 4) et de la mutation (gure 5) au sein de la nouvelle
population ) en retour à l'étape de l'évaluation jusqu'à la convergence de l'algorithme.

Figure 4  Exemple d'un croisement

Figure 5  Exemple de mutation


Et on peut résumé les étapes de l'algorithme génétique dans le schéma suivant :

3
Figure 6  Les étapes de l'algorithme génétique
Remarque
La convergence est :
1. Un nombre maximum de croisements sans amélioration de la meilleure solution
2. Coût minimal atteint
3. Un nombre maximum de croisements

Les avantages Les inconvénients


Il est couteux en fonction de temps de calcule puisque il eectuer
plusieurs opération
Le choix d'un algorithme de sélection
Ils parviennent à trouver de bonnes solutions
L'ajustement d'un algorithme génétique est délicat.
sur des problèmes très complexes
Le choix d'une représentation  intelligente  pour permettre
un remplacement générationnel ecace est un autre aspect
de la question.
Table 4  Les avantages et les inconvénients de l'algorithme génétique

4 L'algorithme de KSOM
C'est un algorithme de famille de classication non supervisée , il compose d'une couche de compétition de deux
dimension des neurones (matrice initialisé avec des valeurs aléatoire) chacune de ces neurones est connecter avec
des entrées (gure 7) et chaque connexion ayant une poids Wij (une valeur aléatoire entre 0 et 1).
En dénit une activation pour chaque neurone cet activation représente la distance entre le neurone et le poids de
connexion avec l'entrée.

Figure 7  Le réseau de Kohonen

4
La fonction d'activation est le suivantes :
pP
a(j) = i=1 (e(i) − Wij )2
Pour une entré un neurone ayant une faible activation est dite neurone vainqueur et l'apprentissage ce fait par le
changement de poids de neurone vainqueur ainsi le poids de ces voisin le processus est répété pour tous les entré
et à la n en obtient une couche entrainé selon les entrées.
Pour une entré un neurone ayant une faible activation est dite neurone vainqueur et l'apprentissage ce fait par le
changement de poids de neurone vainqueur ainsi le poids de ces voisin le processus est répété pour tous les entré
et à la n en obtient une couche entrainé selon les entrées.
Le principe de l'algorithme est dans la gure le suivante :

Figure 8  L'algorithme de KSOM

Les avantages Les inconvénients


C'est un algorithme qui apprend lui-même de regrouper les modèles
qui est similaire. Si une donnée appartient à plusieurs clusters il
Il peut aussi découvrir l'existence de du cluster des données ne peut pas détecté.
non étiqueté.

Table 5  Les avantages et les inconvénients de l'algorithme KSOM(Kohonen)

5 L'algorithme SVM
C'est un algorithme de classication binaire (cas où il existe que deux classes) il appartient à la famille des
algorithmes de classication supervisée.
Leur principe consiste à travers d'un exemple qui contient deux catégorie de classes de trouvé l'hyperplan optimal
qui sépare le mieux les éléments de deux classe (cherché une classieur linéaire) de tel façon maximiser la distance
entre les deux classe et minimisé la distance entre l'élément de la classe et l'hyperplan optimal (voir gure 9).

5
Figure 9  L'hyperplan optimal (en rouge) avec la marge maximale. Les échantillons entourés sont des vecteurs
supports

Mais la majorité des problèmes ne sont pas linéaire dans ce cas le SVM change la dimension de problème elle utilise
une fonction noyau (polynomial , sigmoïde . . . ) pour augmenter l'espace an de visualisé les données et le séparé
(gure 10).

Figure 10  Séparation des données non linéaire avec SVM cas non linéaire

Les avantages Les inconvénients


Dicile a traité les grandes base avec des observations
très élevé.
Traitement des problèmes non linéaire avec le choix Pas de modèle explicité pour le choix de noyau.
de fonction noyau. Dicile d'interprété les résultats (exemple
Robuste para port aux points aberrants. pertinentes des variables)
Le traitement des problèmes multi classe reste une
question ouvert.
Table 6  Les avantages et les inconvénients de l'algorithme SVM

6 L'algorithme a priori
C'est un algorithme d'extraction des règles d'association le plus pertinente leur principe est le suivant :
 génération de l'ensemble des items.
 puis calculer les fréquences des ensembles des items.
 on garde l'ensemble des items avec un support minimum (l'ensemble des items fréquents).
Voici un exemple de leur fonctionnement :

6
Figure 11  Un exemple avec l'algorithme a priori

Les avantages Les inconvénients


C'est un algorithme facile a implémenté et facile
a comprendre.
Problème de choix de minsup
Permet de gardé les règle d'association les plus
Le choix de minsup inuence sur
pertinente.
le résultat retenue.
Un bonne algorithme pour la réduction des règle
sur tous pour les grandes base des données.
Table 7  Les avantages et les inconvénients de l'algorithme a priori

7 L'algorithme de KNN
C'est un algorithme de classication supervisée. La méthode des K plus proches voisins (KNN) a pour but de
classier des points cibles (classe méconnue) en fonction de leurs distances par rapport à des points constituant un
échantillon d'apprentissage (c'est-à-dire dont la classe est connue a priori), l'algorithme choisir a partir les k points
le plus proches, le point cible est aecté à la classe qui contient la majorité de ces éléments.

Figure 12  Exemple de fonctionnement de la méthode des k-plus proches voisins pour des valeurs du paramètre
k = 5. On considère trois classes, w1, w2,w3

7
Les avantages Les inconvénients
C'est un algorithme facile a implémenté et facile
Le choix de K inuence sur le résultat.
a comprendre.
Il n'existe pas une méthode exacte pour
Permet de déterminé bien l'appartenance a un classe pour
le choix de K
une nouvelle donnée.
Table 8  Les avantages et les inconvénients de KNN

8 L'algorithme de k-means
C'est un algorithme de classication non supervisée qui cherche a minimisé une fonction objective (la distance entre
une donnée i et la centre de gravité d'une classe j)

Pc Pn
J= j=1 i=1 kxi − vj k2
leur principe est le suivant :

1. On choisit Au hasard les K centres initiaux.


2. Puis aecter à chaque center k l'élément le plus proche en termes de la distance.
3. Recalculer les nouveaux center de chaque classe (calculé les nouveaux centre de gravité des classes k).
Répété les deux étapes deux et trois jusqu'à la stabulation c'est-à-dire les centres ne bouge plus ou la fonction
objective inférieur a un seuil ou bien le nombre des itérations est xé.

Les avantages Les inconvénients


Le nombre des classes doit être xé au départ.
La facilité. Il est sensible aux objets isolés.
Le résultat de la méthode ne dépend Prend beaucoup de temps dans les problèmes de grandes tailles.
pas de l'ordre d'entrée des objets. Le résultat dépend de la conguration initiale.
La méthode a une complexité linéaire. Inuence du choix des centres initiaux sur le résultat.
Le critère d'arrêt (on peut tomber dans une boucle innie).
Table 9  Les avantages et les inconvénients de k-means

9 L'algorithme de fuzzy k-means


C'est un algorithme de classication non supervisée il traites les données qui a une dégrée d'appartenance a plusieurs
classe il sert a minimisé une fonction objective :
Pn Pc m
J(U, V ) = i=1 j=1 (uij ) kxi − vj k2
U : Matrice d'appartenance oue
uij : Probabilité d'appartenance
vj : Vecteur moyenne
Leur principe de fonctionnement est similaires à ce de k-means tel que k-means traite les problèmes d'appartenance
totale et fuzzy k-means traite les problèmes d'appartenance oue pour les avantage et les inconvénients reste les
même.

10 L'algorithme de centre mobile


C'est un algorithme de classication non supervisée il demande de connaitre le nombre des classes K à l' avance le
principe de l'algorithme est comme se suit :
1. On choisit aléatoirement et à partir de l'ensemble des données entré un k centre initiaux.
2. Puis on aecte à chaque centre de classe l'élément le plus proche.
3. Recalculer les nouveau centre (déterminé le centre de gravité de k classe obtenu)
4. Répété les deux étapes deux et trois jusqu'à ce que le découpage en classes obtenu ne soit (presque) plus
modié par une itération supplémentaire.
Les avantages et les inconvénients reste la même de k-means.

8
11 La classication hiérarchique
Étant données un ensemble des données comment construire des groupes dissimilaire le plus possible (degré de
séparabilité) et leur données des similaires au sein de groupe (degré de compacité) la solution de ce problèmes
c'est la classication hiérarchique qui appartient à la famille de classieur non supervisée et possède deux méthode
(classication hiérarchique ascendante et classication hiérarchique descendent) basé sur la mesure de distance
(euclidienne , distance de ward ) qui représente un degré de dissimilarité entre les données.
Les degrés de dissimilarité :
 Le saut minimum retient le minimum des distances entre individus de C1 et C2 :

 Le saut maximum est la dissimilarité entre les individus de C1 et C2 les plus éloignés :

 Le lien moyen consiste à calculer la moyenne des distances entre les individus de C1 et C2 :

 La distance de Ward vise à maximiser l'inertie inter-classe :

Avec n1 et n2 les eectifs des deux classes, G1 et G2 leurs centres de gravité respectifs
On distinct aussi deux type de la classication hiarchique :

11.1 Classication hiarchique ascendante


 Commencer par n groupes (n est le nombre d'observations)
 Arrêter lorsqu'on obtient 1 seul groupe
 Calculer les `ressemblances' entre toutes les paires de groupes.
 Fusionner les deux groupes montrant la plus grande ressemblance (similarité) ou la plus faible dissem-
blance (dissimilarité).
Les méthodes hiérarchiques dièreront entre elles par le choix du critère de ressemblance et par la façon de
mesurer les ressemblances entre un nouveau groupe fusionné et les autres inchangés.

11.2 Classication hiérarchique descendante


L'algorithme de base est le suivant :
 Commencer par 1 groupe contient toutes les observations.
 Arrêter lorsqu'on obtient n groupe chacune contient une seul observation.
 Calculer les `ressemblances' entre toutes les paires de groupes.
 scindé les deux groupes montrant la plus grande dissemblance (dissimilarité) ou la plus faible semblance
(similarité).

Les avantages Les inconvénients


Il donnée que le degré de semblances est ne donne pas
Facile à implémenté. les groupes des données.
Facile à comprendre. Le choix du l'indice de similarité a une inuence sur
Il ne demande pas de xé le nombre des classe a priori. le résultat.
Dicile de traité des tableaux de grandes tailles.
Table 10  Les avantages et les inconvénients de la méthode hiérarchique

12 Classication naïve bayésienne


c'est un type de classication bayésienne probabiliste simple basé sur le théorème de bayes avec une forte indépen-
dance (dite naïve) entre les hypothèses. Elle met un ouvre un classieur bayésien naïf appartenant à la famille des
classieurs linéaire.
En termes simples, un classieur bayésien naïf suppose que l'existence d'une caractéristique pour une classe, est

9
indépendante de l'existence d'autres caractéristiques. Un fruit peut être considéré comme une pomme s'il est rouge,
arrondi, et fait une dizaine de centimètres. Même si ces caractéristiques sont liées dans la réalité, un classieur
bayésien naïf déterminera que le fruit est une pomme en considérant indépendamment ces caractéristiques de cou-
leur, de forme et de taille.
Selon la nature de chaque modèle probabiliste, les classieurs bayésiens naïfs peuvent être entraînés ecacement
dans un contexte d'apprentissage supervisé.
Et enn on peux conclure que le principe de classication bayésienne basé sur les probabilités conditionnel sachant
qu'il y a une indépendance entre les éléments et il prédire a partir des probabilités posteriori (les probabilités des
évènements passé) le future.
P (Xnew /Ck )P (Ck )
P (Ck /Xnew ) = P (Xnew )

N bdeslmentsdeCk
P (Ck ) = N btotaldesinstances
Qn
P (Xnew /Ck ) = i=1 P (xi /Ck )

Les avantages Les inconvénients


Facile à implémenté.
Ne traite pas les événements dépendantes
Facile à comprendre.
Table 11  Les avantages et les inconvénients de classication bayésienne

13 L'algorithme Adaboost
C'est un algorithme de classication supervisée permet d'améliorer la performance de n'importe quel algorithme
d'apprentissage.Le principe de l'algorithme boostring est le suivant :

1. On obtient d'abord une première hypothèse h1 sur un sous-échantillon s1 d'apprentissage de taille m1 < m
(m étant la taille de S l'échantillon d'apprentissage disponible).
2. On apprend alors une deuxième hypothèse h2 sur un échantillon S2 de taille m2 choisi dans S − S1 dont la
moitié des exemples sont mal classés par h1.
3. On apprend nalement une troisième hypothèse h3 sur m3 exemples tirés dans S − S1 − S2 pour lesquels
h1 et h2 sont en désaccord.
L'hypothèse nale est obtenue par un vote majoritaire des trois hypothèses apprises :

H = vote majoritaire (h1, h2, h3)


Adaboost est une adaptation de l'algorithme boosting l'idée principale est de dénir a chacune de ses étapes une
nouvelle distribution Dt de probabilités a priori sur les exemples d'apprentissages en fonction des résultats de
l'algorithme à l'étape précédente. Aussi l'algorithme ajouter la notion de pondération (poids) initialement tous les
exemples ayant le même poids puis à chaque étape les poids des exemples mal placé par l'apprenant sont augmenté,
forçant ainsi l'apprenant à se concentrer sur les exemples diciles de l'échantillon d'apprentissage.

10
Figure 13  Un exemple de l'application de Adaboost

Les avantages Les inconvénients


Améliorai la performance de n'importe quel
algorithme. Les exemple sont pondéré diérament
Applicable a des nombres domaines par Les classieur ne sont pas indépendant
un bon choix de classieur. Dicile dans les problèmes complexe
Peut être adapté au problème multi-classe
Table 12  Les avantages et les inconvénients de Adaboost

14 Analyse composante principale


C'est une méthode statistique qui sert a cherché à partir d'une dimension plus grande une espace plus petit qui
représente le mieux les données.
L'ACP regroupe un ensemble d'étapes pouvant être regroupées en trois grandes phases.

 La réduction de données : contient la centralisation des données et la réduction des données.


 Ajustement de nuage des point : matrice de corrélation et de covariance, calculé l'inertie trouvé le plan
factoriel.
 La représentation graphique

Les avantages Les inconvénients


Réduire la dimension de problème. Une méthode très longue sur tous dans le cas où
Donne une visualisation des données. les données en grande taille.
Table 13  Les avantages et les inconvénients de l'ACP

15 La foret d'arbre décessionnel (random forest)


Il appartient a la famille des algorithmes de classication supervisée leur principe est le suivant :

11
 Choisir un ensemble des données aléatoire S1
 Choisir un sous ensemble des attribut de cet sous ensemble
 construire un arbre de décision pour ce sous ensemble et prédire les solutions
 Retourne a l'étape 1 est répété le processus jusqu'à la convergence.
 Finalement voté la meilleur modèle.

Figure 14  Exemple de déroulement de l'algorithme rendom forest


L'avantage est que cet modèle réduire la complexité d'un problème.
L'inconvénient est que cet modèle dicile d'élaborer.

16 La régression linéaire simple


C'est une modèle statistique appartient a la famille de classication supervisée qui cherché a établir une relation
linéaire simple entre deux variable l'une dite variable explicative est l'autre variable a expliqué.
Il sert a cherché une fonction droite qui permet d'expliquer le comportement d'un variable Y comme étant une
fonction ane d'une autre variable static de tel façon on minimise l'erreur entre Y et f (x).

Y =b
aX + bb
avec :
C
a = σxy
b 2
x
bb = y − b
ax
La de régression linéaire sert a minimisé les distances verticale des points a la droite.

Figure 15  Modèle d'une régression linéaire simple

12
Les avantages Les inconvénients
Problème de dénir la meilleur fonction qui sépare
Simple et facile.
le mieux les deux classes (il y a plusieurs fonction ).
Une bonne méthode dans le cas des deux classes bien
Applicable que dans le cas où il y a deux classes.
séparables.
Sensible aux données bruit
Table 14  Les avantages et les inconvénients de la régression linéaire

17 Analyse Discriminante
Analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l'appartenance à des
groupes prédénis (classe) d'un ensemble d'observations (individus, exemples. . . ) à partir d'une série de variables
prédictives.
leur principe de fonctionnement est le suivant :
Étant donné n observation d'un couple (Y, X) pour le ie observation notée (Yi , Xi ), Yi est un label qui dénote
l'appartenance a un groupe j ∈ [1..g] et Xi ∈ RP est un ensemble de variable explicatives de l'appartenance a un
groupe (variable notée Y).
Si une nouvelle observation arrive, nous mesurons les variable explicatives, cette mesure notées x0 ∈ RP est nous
souhaitons connaitre son groupe y0 inconnue, comme nous savons pas avec certitude le groupe y0 , nous modélisons
cette incertitude par des probabilité d'appartenance a tel ou a tel groupe. Le modèle peut être représenté grâce a
la probabilité de théorème de bayes :

f (x0|y=j)P (Y =j)
P (Y = j|X = x0 = Pg f (x0 |y=j 0 )P (Y =j 0 )
∀j ∈ {1..., g} (1.1)
j 0 =1

La probabilité a priori des groupes j, noté P (Y = j) peut être calculé, il reste d'estimé la fonction de densité f.

17.1 Analyse Discriminante quadratique


La densité des variables explicatives dans chaque groupe j suit une lois multi normal :

P
f (x|y = j) ∼ N (uj , j)

si on ajoute une autre hypothèse on tombe sur la Discriminante linéaire.

17.2 Analyse Discriminante Linéaire


La
P densité des variables explicatives dans chaque groupe j suit une lois multi normal de la même matrice de variance
dans chacun des groupes.
P
f (x|y = j) ∼ N (uj , )
Donc il reste que l'estimation des paramètre de la lois normal la moyenne et la variance.
D'une point de vue géométrique l'interprétation de l'analyse discriminante permet de visualisé les donnée il sert a
visé le centre de gravité de chaque groupe puis il désigne un frontière entre les groupes deux a deux (le frontière
désigne a partir de la moyenne de centre de gravité).

Les avantages Les inconvénients


Simple et facile. Les résultats restent que des estimations.
Traite bien les problèmes de dans le cas de l'ignorance Dans les problèmes complexe est un peu dicile a traité.
totale. Nécessite beaucoup de calcule.
Table 15  Les avantages et les inconvénients de l'analyse discriminante

18 Analyse correspondance multiple (ACM)


ACM est la méthode factorielle adaptée aux tableaux dans lesquels un ensemble d'individus (en lignes) est décrit
par un ensemble de variables qualitatives (en colonnes). Leur principe et leur objectif est similaire a seul de l'ACP
(consiste à projeter des nuages sur une suite d'axes orthogonaux d'inertie maximum).
La construction du tableau disjonctif complet est l'une des étapes préalables au calcul de l'analyse des Correspon-
dances Multiples. Les p variables qualitatives sont éclatées en p tableaux disjonctifs Z1 , Z2 , .., Zp composés d'autant
de colonnes qu'il y a de modalités pour chacune des variables. A chaque fois qu'une modalité m de la jème variable

13
correspond à un individu i, on aecte 1 à Zj(i,m) . Les autres valeurs de Zj sont nulles. Les p tableaux disjonctifs
sont alors concaténés en un tableau disjonctif complet.
A partir du tableau disjonctif complet sont calculées les coordonnées des modalités des variables qualitatives, ainsi
que les coordonnées des observations dans un espace de représentation optimal pour le critère d'inertie. Dans le
cas de l'analyse des Correspondances Multiples on montre que l'inertie est égale au nombre moyen de modalités
moins un. Elle ne dépend donc pas uniquement de l'association entre les variables.

Les avantages Les inconvénients


Consomme beaucoup de temps
Donne une représentation pour les variable
pour le calcule et pour calculer les
qualitative.
correspandence.
Donne aussi une visualisation des variables qualitatives.
N'est pas ecace dans les problèmes
Permet aussi de extraire le correspandance entre des variable
complexe qui compose de plusieurs
qualitative.
variable avec plusieurs modalité
Table 16  Les avantages et les inconvénients de l'ACM

14

Das könnte Ihnen auch gefallen