Beruflich Dokumente
Kultur Dokumente
ISSN: 2278-0181
Vol. 1 Issue 6, August - 2012
Abstract
Data mining is a form of knowledge discovery
essential for solving problems in a specific domain.
Classification is a technique used for discovering
classes of unknown data. Various methods for
classification exists like bayesian, decision trees, rule
based, neural networks etc. Before applying any
mining technique, irrelevant attributes needs to be
filtered. Filtering is done using different feature
selection techniques like wrapper, filter, embedded
technique. This paper is an introductory paper on
different techniques used for classification and
feature selection.
2. Data Preprocessing
1. Introduction
As the world grows in complexity, overwhelming us
with the data it generates, data mining becomes the
only hope for elucidating the patterns that underlie it
[1]. The manual process of data analysis becomes
tedious as size of data grows and the number of
dimensions increases, so the process of data analysis
needs to be computerised.
The term Knowledge Discovery from data (KDD)
refers to the automated process of knowledge
discovery from databases. The process of KDD is
comprised of many steps namely data cleaning, data
integration, data selection, data transformation, data
mining, pattern evaluation
and knowledge
representation.
Data mining is a step in the whole process of
knowledge discovery which can be explained as a
process of extracting or mining knowledge from large
amounts of data [2]. Data mining is a form of
knowledge discovery essential for solving problems
in a specific domain. Data mining can also be
explained as the non trivial process that automatically
collects the useful hidden information from the data
and is taken on as forms of rule, concept, pattern and
so on [3]. The knowledge extracted from data mining,
allows the user to find interesting patterns and
regularities
www.ijert.org
3. Feature Selection
Many irrelevant attributes may be present in data to
be mined. So they need to be removed. Also many
mining algorithms dont perform well with large
amounts of features or attributes. Therefore feature
selection techniques needs to be applied before any
kind of mining algorithm is applied. The main
objectives of feature selection are to avoid overfitting
and improve model performance and to provide faster
and more cost-effective models.
The selection of optimal features adds an extra layer
of complexity in the modelling as instead of just
finding optimal parameters for full set of features,
first optimal feature subset is to be found and the
model parameters are to be optimised [10]. Attribute
selection methods can be broadly divided into filter
and wrapper approaches. In the filter approach the
attribute selection method is independent of the data
mining algorithm to be applied to the selected
attributes and assess the relevance of features by
looking only at the intrinsic properties of the data. In
most cases a feature relevance score is calculated, and
low- scoring features are removed. The subset of
features left after feature removal is presented as
input to the classification algorithm. Advantages of
filter techniques are that they easily scale to highdimensional datasets are computationally simple and
fast, and as the filter approach is independent of the
mining algorithm so feature selection needs to be
performed only once, and then different classifiers
can be evaluated. Disadvantages of filter methods are
that they ignore the interaction with the classifier
and that most proposed techniques are univariate
which means that each feature is considered
separately, thereby ignoring feature dependencies,
which may lead to worse classification performance
when compared to other types of feature selection
techniques. In order to overcome the problem of
ignoring feature dependencies, a number of
multivariate filter techniques were introduced,
aiming at the incorporation of feature dependencies to
some degree. Wrapper methods embed the model
hypothesis search within the feature subset search. In
the wrapper approach the attribute selection method
uses the result of the data mining algorithm to
determine how good a given attribute subset is. In
this setup, a search procedure in the space of possible
feature subsets is defined, and various subsets of
features are generated and evaluated. The major
characteristic of the wrapper approach is that the
quality of an attribute subset is directly
4. Classification
Data mining algorithms can follow three different
learning approaches: supervised, unsupervised, or
semi-supervised.
In supervised learning, the algorithm works with a set
of examples whose labels are known. The labels can
be nominal values in the case of the classification
task, or numerical values in the case of the regression
task.
In unsupervised learning, in contrast, the labels of the
examples in the dataset are unknown, and the
algorithm typically aims at grouping examples
according to the similarity of their attribute values,
characterizing a clustering task.
Finally, semi-supervised learning is usually used
when a small subset of labeled examples is available,
together with a large number of unlabeled examples.
The classification task can be seen as a supervised
technique where each instance belongs to a class,
which is indicated by the value of a special goal
attribute or simply the class attribute. The goal
attribute can take on categorical values,
www.ijert.org
5. Classification Techniques
5.1 Rule Based Classifiers
www.ijert.org
www.ijert.org
References:
[1] I.H. Witten, E. Frank and M.A. Hall, Data mining
practical machine learning tools and techniques,
Morgan Kaufmann publisher, Burlington 2011
[2] J. Han and M. Kamber, Data mining concepts and
techniques, Morgan Kaufmann, San Francisco 2006
[3] T.J. Shan, H. Wei and Q. Yan, Application of genetic
algorithm in data mining, 1st Int Work Educ Technol
Comput Sci, IEEE 2, 2009, pp. 353- 356
[4] Z.Z. Shi, Knowledge discovery, Tsinghua University
Press, Beijing, 2001
www.ijert.org
[20] C.W. Hsu, C.C. Chang and C.J. Lin, A practical guide to
support
vector
classification,
http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide
.pdf, 2003
[21] Z. Pawlak, Rough sets, International Journal of Computer
and Information Sciences, 1982, pp. 341- 356
[22] L. Tari, C. Baral and S. Kim, Fuzzy c-means clustering with
prior biological knowledge, Journal of Biomedical Informatics,
www.ijert.org
Abstrak
Data mining adalah bentuk penemuan pengetahuan
penting untuk memecahkan masalah dalam domain
tertentu. Klasifikasi adalah teknik yang digunakan
untuk menemukan kelas data yang tidak diketahui.
Berbagai metode untuk klasifikasi ada seperti
bayesian, pohon keputusan, rule based, jaringan
saraf dll. Sebelum menerapkan teknik mining
apapun, atribut yang tidak relevan perlu disaring.
Penyaringan dilakukan dengan menggunakan teknik
seleksi fitur yang berbeda seperti wrapper, filter,
embedded technique. Tulisan ini merupakan
makalah pengantar teknik yang berbeda digunakan
untuk klasifikasi dan seleksi fitur.
Kata
Neural
1. Pengantar
Sebagai kompleksitas yang tumbuh di dunia,
berlebihan kita dengan data yang dihasilkannya,
data mining menjadi satu-satunya harapan untuk
menjelaskan pola yang mendasari itu [1]. Proses
manual analisis data menjadi membosankan seperti
ukuran data tumbuh dan jumlah dimensi meningkat,
sehingga proses analisis data perlu terkomputerisasi.
Istilah Knowledge Discovery from Data (KDD)
mengacu pada proses otomatis penemuan
pengetahuan dari database. Proses KDD terdiri dari
banyak langkah yaitu data yang membersihkan,
integrasi data, seleksi data, transformasi data, data
mining, evaluasi pola dan representasi pengetahuan.
Data mining merupakan langkah dalam seluruh
proses penemuan pengetahuan yang dapat
dijelaskan sebagai proses penggalian atau
pengetahuan mining dari data dalam jumlah besar
[2]. Data mining adalah bentuk penemuan
pengetahuan penting untuk memecahkan masalah
dalam domain tertentu. Data mining juga dapat
dijelaskan sebagai proses non sepele yang secara
otomatis mengumpulkan informasi tersembunyi
yang berguna dari data dan diambil sebagai bentuk
pemerintahan, konsep, pola dan sebagainya [3].
Pengetahuan diekstraksi dari data mining,
memungkinkan pengguna untuk menemukan pola
yang menarik dan keteraturan
2. Data Preprocessing
Data tersedia untuk mining data mentah. Data
mungkin dalam format yang berbeda karena berasal
dari sumber yang berbeda, mungkin terdiri dari data
yang bising, atribut yang tidak relevan, data yang
hilang dll data perlu pra diproses sebelum
menerapkan jenis algoritma data mining yang
dilakukan dengan menggunakan langkah-langkah
berikut [5] :
Integrasi Data - Jika data yang akan ditambang
berasal dari beberapa sumber data yang berbeda
perlu diintegrasikan yang melibatkan menghapus
inkonsistensi dalam nama atribut atau nama nilai
atribut antara set data sumber yang berbeda.
Data Cleaning -Ini langkah mungkin melibatkan
mendeteksi dan mengoreksi kesalahan dalam data,
mengisi nilai-nilai yang hilang, dll Beberapa metode
pembersihan data yang dibahas dalam [6,7].
Discretization -Ketika algoritma data mining
tidak dapat mengatasi dengan atribut yang
berkelanjutan, diskritisasi perlu diterapkan. Langkah
ini terdiri dari mengubah atribut kontinyu menjadi
atribut kategorikal, mengambil hanya beberapa
nilai-nilai
diskrit.
Discretization
sering
meningkatkan comprehensibility pengetahuan
ditemukan [8, 9].
Atribut Seleksi - tidak semua atribut relevan
sehingga untuk memilih subset dari atribut yang
relevan untuk mining, di antara semua atribut asli,
pemilihan atribut diperlukan.
2
www.ijert.org
3. Seleksi Fitur
Banyak atribut yang tidak relevan dapat hadir
dalam data yang akan ditambang. Jadi mereka perlu
dihapus. Juga banyak algoritma mining tidak
melakukan dengan baik dengan jumlah besar fitur
atau atribut. Oleh karena itu memiliki teknik seleksi
perlu diterapkan sebelum setiap jenis algoritma
mining diterapkan. Tujuan utama dari seleksi fitur
yang menghindari overfitting dan meningkatkan
kinerja model dan untuk menyediakan lebih cepat
dan model yang lebih efektif biaya.
Pemilihan fitur optimal menambahkan lapisan
tambahan kompleksitas dalam pemodelan sebagai
bukan hanya menemukan parameter optimal untuk
set lengkap fitur, pertama fitur bagian yang optimal
dapat ditemukan dan parameter model yang akan
dioptimalkan [10]. Metode seleksi atribut dapat
dibagi menjadi filter dan wrapper pendekatan.
Dalam filter mendekati metode seleksi atribut
independen dari algoritma data mining yang akan
diterapkan pada atribut yang dipilih dan menilai
relevansi fitur dengan melihat hanya pada sifat
intrinsik dari data. Dalam kebanyakan kasus skor
relevansi fitur dihitung, dan fitur scoring rendah
dihapus. Subset fitur kiri setelah penghapusan fitur
disajikan sebagai masukan untuk algoritma
klasifikasi. Keuntungan dari teknik penyaring
adalah bahwa mereka mudah skala untuk tinggidataset dimensi yang komputasi sederhana dan
cepat, dan sebagai pendekatan filter independen dari
algoritma mining sehingga seleksi fitur perlu
dilakukan
hanya
sekali,
dan
kemudian
pengklasifikasi yang berbeda dapat dievaluasi.
Kekurangan metode filter adalah bahwa mereka
mengabaikan interaksi dengan classifier dan bahwa
teknik yang paling diusulkan adalah univariat yang
berarti bahwa setiap fitur dianggap secara terpisah,
sehingga mengabaikan dependensi fitur, yang dapat
menyebabkan kinerja klasifikasi buruk bila
dibandingkan dengan jenis lain dari teknik seleksi
fitur . Untuk mengatasi masalah mengabaikan fitur
dependensi, sejumlah teknik penyaring multivariat
diperkenalkan, bertujuan penggabungan fitur
dependensi untuk beberapa derajat. Metode wrapper
menanamkan pencarian Model hipotesis dalam
pencarian fitur bagian. Di bungkusnya pendekatan
metode pemilihan atribut menggunakan hasil dari
algoritma data mining untuk menentukan seberapa
baik atribut bagian yang diberikan. Dalam
konfigurasi ini, prosedur pencarian di ruang yang
mungkin subset fitur didefinisikan, dan berbagai
himpunan bagian dari fitur dihasilkan dan
dievaluasi. Karakteristik utama dari pendekatan
wrapper adalah bahwa kualitas subset atribut
langsung
4. Klasifikasi
Algoritma Data mining dapat mengikuti tiga
pendekatan belajar yang berbeda: supervised,
unsupervised, atau semi-supervised.
Dalam pembelajaran supervised, algoritma
bekerja dengan satu set contoh yang label dikenal.
Label dapat nilai nominal dalam kasus tugas
klasifikasi, atau nilai-nilai numerik dalam kasus
tugas regresi.
Dalam pembelajaran unsupervised, kontras, label
contoh dalam dataset tidak diketahui, dan algoritma
biasanya bertujuan mengelompokkan contoh sesuai
dengan kesamaan nilai atribut mereka, karakteristik
tugas clustering.
Akhirnya, belajar semi-supervised biasanya
digunakan ketika bagian kecil dari contoh berlabel
tersedia, bersama dengan sejumlah besar contoh
berlabel.
Tugas klasifikasi dapat dilihat sebagai teknik
yang supervised di mana setiap contoh milik kelas,
yang ditandai dengan nilai atribut tujuan khusus atau
hanya atribut kelas. Atribut tujuan dapat mengambil
nilai-nilai kategoris,
3
www.ijert.org
5. Teknik Klasifikasi
5.1 Berdasarkan Aturan Classifiers
Berdasarkan aturan pengklasifikasi penawaran
dengan penemuan tingkat tinggi, mudahmenginterpretasikan aturan klasifikasi bentuk jikamaka. Aturan terdiri dari dua bagian terutama
memerintah yg memerintah dan konsekuen. Aturan
yg, adalah jika bagian, menetapkan satu set kondisi
mengacu pada prediksi nilai atribut, dan konsekuen
aturan, maka bagian, menentukan kelas diprediksi
oleh aturan untuk setiap contoh yang memenuhi
kondisi di aturan yg. Aturan-aturan ini dapat
dihasilkan dengan menggunakan algoritma
klasifikasi yang berbeda, yang paling terkenal
sebagai algoritma induksi pohon keputusan dan
aturan meliputi algoritma induksi berurutan [13].
4
www.ijert.org
5
www.ijert.org
References:
[1] I.H. Witten, E. Frank and M.A. Hall, Data mining
practical machine learning tools and techniques,
Morgan Kaufmann publisher, Burlington 2011
[2] J. Han and M. Kamber, Data mining concepts and
techniques, Morgan Kaufmann, San Francisco 2006
[3] T.J. Shan, H. Wei and Q. Yan, Application of genetic
algorithm in data mining, 1st Int Work Educ Technol
Comput Sci, IEEE 2, 2009, pp. 353- 356
[4] Z.Z. Shi, Knowledge discovery, Tsinghua University
Press, Beijing, 2001
6
www.ijert.org
7
www.ijert.org