Data Mining and C4.5 Algorithm for Customer Screening

e-ISSN : 2443-2229 Jurnal Teknik Informatika dan Sistem Informasi
Volume 1 Nomor 3 Desember 2015
Pencarian Nasabah dengan Menggunakan Data

Mining dan Algoritma C 4.5 Koperasi Maduma
Subang
Timbo Faritcan Parlaungan Siallagan
STMIK Subang
timbo.siallagan@yahoo.co.id
Abstract - Credit is the provision of money or bills that can be c. Meminta bank to bank information (Sistem Informasi
equated with it, based on consent or agreement between the Debitur);
bank and the borrowing other party require that borrowers d. Mencari informasi kepada asosiasi-asosiasi usaha
pay off its debt after a certain period of time by the giving of dimana calon nasabah berada.
flowers. Although the Lender has approved a credit proposed e. Mencari informasi apakah calon nasabah suka berjudi;
by the debtor, but the credit analysis to be done of debtors who f. Mencari informasi apakah calon nasabah memiliki hobi
have been approved so that the cause of non-performing loans
berfoya-foya.
can be examined and get a good classification for the
determination of the appropriateness of granting credit. In
granting credit need to analyse the needs of creditors, then that Capital adalah jumlah dana/modal sendiri yang dimiliki
must be known in advance is the principles that need to be oleh calon nasabah. Semakin besar modal sendiri dalam
ditegakan in the framework of granting credit. Things that perusahaan, tentu semakin tinggi kesungguhan calon
need to be considered in granting credit to customers is the nasabah dalam menjalankan usahanya dan bank akan
principle 6 C's Analysis. With these problems, then there is merasa lebih yakin dalam memberikan kredit. Modal sendiri
need for troubleshooting existing solutions, by making a juga diperlukan bank sebagai alat kesungguhan dan tangung
decision support System. Thus this decision support System jawab nasabah dalam menjalankan usahanya karena ikut
will be able to meet the expectations to be achieved. The
menanngung resiko terhadap gagalnya usaha. Dalam
algorithm C 4.5 is algorithms used to create the decision tree.
Decision tree classification method and prediction is a very praktik, kemampuan capital ini dimanifestasikan dalam
powerful and famous. Getting rich in information or bentuk kewajiban untuk menyediakan self-financing, yang
knowledge that is conceived by training data, the accuracy of sebaiknya jumlahnya lebih besar daripada kredit yang
the decision tree will be increased. dimintakan kepada bank.
Capacity adalah kemampuan yang dimiliki calon nasabah
Keywords - credit Analysis, principles 6 C's Analysis, Data dalam menjalankan usahanya guna memperoleh laba yang
Mining and algorithms C4.5 diharapkan. Kegunaan dari penilaian ini adalah untuk
mengetahui sampai sejauh mana calon nasabah mampu
I. PENDAHULUAN untuk mengembalikan atau melunasi utang-utangnya secara
Dalam pemberian Kredit perlu menganalisa kebutuhan tepat waktu dari usaha yang diperolehnya.
kreditur, maka yang harus diketahui terlebih dahulu adalah Pengukuran capacity tersebut dapat dilakukan melalui
prinsip-prinsip yang perlu ditegakan dalam rangka berbagai pendekatan berikut ini:
pemberian Kredit. Hal-hal yang perlu diperhatikan dalam a. Pendekatan historis, yaitu menilai past performance,
pemberian kredit bagi nasabah adalah Prinsip 6 C’s apakah menunjukkan perkembangan dari waktu ke
Analysis yaitu sebagai berikut: waktu.
Character adalah keadaan watak dari nasabah, baik dalam b. Pendekatan finansial, yaitu menilai latar belakang
kehidupan pribadi maupun dalam lingkungan usaha. pendidikan para pengurus
Kegunaan dari penilaian terhadap karakter ini adalah untuk c. Pendekatan yuridis, yaitu secara yuridis apakah calon
mengetahui sampai sejauh mana kemauan nasabah untuk nasabah mempunyai kapasitas untuk mewakili badan
memenuhi kewajibannya (willingness to pay) sesuai dengan usaha yang diwakilinya untuk mengadakan perjanjian
perjanjian yang telah ditetapkan. Sebagai alat untuk kredit dengan bank.
memperoleh gambaran tentang karakter dari calon nasabah d. Pendekatan manajerial, yaitu menilai sejauh mana
tersebut, dapat ditempuh melalui upaya antara lain: kemampuan dan keterampilan nasabah melaksanakan
a. Meneliti riwayat hidup calon nasabah; fungsi-fungsi manajemen dalam memimpin perusahaan.
b. Meneliti reputasi calon nasabah tersebut di lingkungan e. Pendekatan teknis, yaitu untuk menilai sejauh mana
usahanya; kemampuan calon nasabah mengelola faktor-faktor
produksi seperti tenaga kerja, sumber bahan baku,
221
Jurnal Teknik Informatika dan Sistem Informasi e-ISSN : 2443-2229
peralatan-peralatan , administrasi dan keuangan,

industrial relation sampai pada kemampuan merebut Oleh karena itu Sistem Pendukung Keputusan salah satu
pasar. komponen yang cukup penting dalam sistem informasi.
Collateral adalah barang-barang yang diserahkan nasabah Dengan permasalahan tersebut, maka perlu adanya solusi
sebagai agunan terhadap kredit yang diterimanya. Collateral pemecahan masalah yang ada, dengan membuat suatu
tersebut harus dinilai oleh bank untuk mengetahui sejauh Sistem Pendukung Keputusan. Dengan demikian Sistem
mana resiko kewajiban finansial nasabah kepada bank. Pada Pendukung Keputusan ini nantinya dapat memenuhi
hakikatnya bentuk collateral tidak hanya berbentuk harapan yang ingin dicapai. Namun, perlu diperhatikan juga
kebendaan tetapi juga collateral yang tidak berwujud seperti bahwa nasabah yang telah disetujui juga tidak semuanya
jaminan pribadi (borgtocht), letter of guarantee, letter of pembayar kredit yang baik, artinya ada beberapa nasabah
comfort, rekomendasi dan avalis. yang telah disetujui tapi beberapa bulan kemudian
Condition of Economy, yaitu situasi dan kondisi politik , pembayarannya lebih dari batas jatuh tempo atau bahkan
sosial, ekonomi , budaya yeng mempengaruhi keadaan menunggak. Pembayaran yang tidak tepat waktu jika tidak
perekonomian pada suatu saat yang kemungkinannya diwaspadai sejak dini maka akan menjadi suatu faktor
memengaruhi kelancaran perusahaan calon debitur. Untuk kerugian bagi perusahaan tersebut. Oleh karena itu
mendapat gambaran mengenai hal tersebut, perlu diadakan diperlukan suatu penggalian data terhadap nasabah atau
penelitian mengenai hal-hal antara lain: Debitur. Ada beberapa atribut yang menyertai data debitur
a. Keadaan konjungtur yaitu Nama_Nasabah,
b. Peraturan-peraturan pemerintah Jenis_Kelamin,Umur,Jumlah_Pinjaman,
c. Situasi, politik dan perekonomian dunia Jangka_Waktu,Jumlah_Angsuran_Perbulan,Type_Pinjaman
d. Keadaan lain yang memengaruhi pemasaran ,Jenis_Pinjaman,Bi_Sektor_Ekonomi,Col,Bi_Golongan_De
bitur,Bi_Golongan_Penjamin,Saldo_Nominatif,
Constraint adalah batasan dan hambatan yang tidak Tunggakan_Pokok, Tunggakan_Bunga,
memungkinkan suatu bisnis untuk dilaksanakan pada Status_Kredit.Banyak penelitian membahas mengenai
tempat tertentu, misalnya pendirian suatu usaha pompa penentuan kelayakan pemberian kredit dengan berbagai
bensin yang disekitarnya banyak bengkel las atau algoritma data mining. Seperti penelitian yang dilakukan
pembakaran batu bata. Abbas Heiat (2011) menyatakan bahwa Risiko bagi
Dari keenam prinsip diatas, yang paling perlu mendapatkan lembaga keuangan untuk memberikan kredit yang diminta
perhatian account officer adalah character, dan apabila tergantung pada seberapa baik mereka membedakan
prinsip ini tidak terpenuhi, prinsip lainnya tidak berarti. pemohon kredit yang baik dari para pemohon kredit macet.
Dengan perkataan lain, permohonannya harus ditolak. Di bawah ini adalah beberapa penelitian yang berkaitan
Proses penilaian masing-masing kriteria pada kreditur di dengan masalah kredit yaitu:
salah satu BPR dalam hal ini masih kurang memadai dalam a. Jiang (2009) membuat model untuk memprediksi
membuat keputusan yang spesifik untuk memecahkan nasabah yang bermasalah dan tidak bermasalah dalam
permasalahan kredit macet pada bank tersebut. Dibawah ini pembayaran kredit dengan menggunakan model
adalah gambar grafik laporan status kredit macet yang algoritma C4.5. Data yang digunakan diambil dari
diambil dari laporan tahun 2012 untuk bulan oktober dan perusahaan German credit yang merupakan
bulan November, gambar diambil dari tempat penelitian perusahaan pembiayaan. Jiang mengambil beberapa
yaitu salah Koperasi Maduma Subang. atribut dan kemudian dimasukkan ke dalam model
untuk memprediksi persentase nasabah yang
TABEL I bermasalah. Pada penelitian ini, peneliti menyatakan
LAPORAN STATUS KREDIT MACET hasil penelitiannya yaitu Statistik menunjukkan
bahwa biaya misclassifying kredit lancar dan kredit
macet adalah 5 ~ 20 kali dari misclassifying kredit
lancar dan kredit macet.
b. S. Satchidananda and J. B. Simha (2006) Penelitian ini
membandingkan dua model algoritma untuk analisa
resiko kredit, yaitu Pohon Keputusan dan Regresi
Logistik. Data diambil dari dua bank yang berbeda,
kemudian untuk mengelompokkan kasus positif dan
negatif maka dilakukan klustering data dengan
menggunakan k-means. Hasil analisa dari masing-
masing model dikomparasi dan kemudian diukur,
kemudian didapatkan bahwa algoritma pohon
Sumber: Laporan Koperasi Maduma Subang Oktober dan keputusan mempunyai tingkat akurasi yang tinggi
Nopember Tahun 2012 dibandingkan algoritma regresi logistik. Penelitian ini
222
masih dalam proses untuk menyelidiki kinerja yang Pemberian Kredit Nasabah dengan Metode C4.5
diusulkan, Pendekatan dibandingkan dengan teknik berdasarkan prisip 6 C’s Analysis.
klasifikasi lainnya untuk credit scoring sehingga
tingkat akurasinya belum dapat diketahui. III. TINJAUAN PUSTAKA
c. C. Firmansyah (2011), juga melakukan penelitian Kredit
dengan judul “Penerapan Algoritma Klasifikasi C4.5 Kredit adalah penyediaan uang atau tagihan yang dapat
untuk Penentuan Kelayakan Pemberian Kredit dipersamakan dengan itu, berdasarkan persetujuan atau
Koperasi” Nilai accuracy, precision, dan recall nya kesepakatan pinjam meminjam antara bank dengan pihak
dari data training dapat dihitung dengan menggunakan lain yang mewajibkan pihak peminjam untuk melunasi
Rapid Miner. Setelah diuji coba dengan metode utangnya setelah jangka waktu tertentu dengan pemberian
crossvalidation, didapatkan hasil pengukuran terhadap bunga sedangkan nasabah adalah pihak yang menggunakan
data trainingnya yaitu hanya mencapai accuracy = jasa bank. Dalam penelitian ini kita akan membahas
79.50%, precision = 86.50% dan recall = 91.00% [5]. masalah kredit sehingga kita akan membahas pula masalah
Hasil pengujian tersebut berdasarkan 5 parameter, nasabah atau debitur, Nasabah debitur adalah Nasabah
merupakan masalah penelitian Teknik Informatika yang memperoleh fasilitas kredit atau pembiayaan
yang masih bisa di tingkatkan akurasinya. mengapa Dalam proses kredit ada beberapa atribut yang dijadikan
Hasil penelitian sebelumnya “Penerapan Algoritma bahan analisis pemberian kredit yaitu:
Klasifikasi C4.5 untuk Penentuan Kelayakan a. Nama nasabah
Pemberian Kredit Koperasi” Nilai accuracy nya hanya b. Jenis kelamin
79.50 % ? oleh karena itu penulis berkesempatan c. Umur
untuk meningkatkan hasil penelitian yang dilakukan d. Jumlah pinjaman
oleh Firmansyah dengan cara menambahkan 1 e. Jangka waktu
parameter sehingga jumlah parameter nya menjadi 6 f. Jumlah angsuran per bulan
parameter dalam mengklasifikasikan Nasabah atau g. Type pinjaman
Debitur” h. Jenis pinjaman
i. Bidang sektor ekonomi
II. RUMUSAN MASALAH j. Col
k. Bidang golongan debitur
Dari hasil identifikasi masalah yang terdapat di salah satu
l. Bidang golongan penjamin
Koperasi adalah meningkatnya jumlah kredit macet.
Berdasarkan laporan data kredit nasabah pada bulan m. Saldo nominatif
n. Tunggakan pokok
Oktober dan November tahun 2012 diketahui bahwa jumlah
kredit macet semakin meningkat, maka perlu didukung o. Tunggakan bunga
p. Status kredit
dengan system pendukung keputusan kelayakan pemberian
kredit bagi nasabah sehingga masalah tersebut dapat
terpecahkan. Data Mining
Tujuan Penelitian Definisi Data Mining
Berdasarkan latar belakang dan rumusan masalah diatas, a. Mengekstrak atau “mining” pengetahuan dari
kumpulan data yg sangat besar
maka penelitian ini bertujuan untuk mengantisipasi jumlah
nasabah yang melakukan pembayaran melewati jatuh tempo b. Ekstraksi informasi yg berguna dari data, dimana
sebelumnya tidak diharapkan, tidak dikenal &
yang sudah ditetapkan agar tidak terjadi kenaikan jumlah
kredit macet yang berpotensi terjadinya kerugian pada pihak implisit
Koperasi c. Eksplorasi & analisis, secara otomatis atau semi-
otomatis dari sekumpulan data yg sangat besar
untuk memperoleh pola2 data yg berarti
Manfaat Penelitian
d. Proses analisis database yg besar secara semi-
a. Manfaat bagi masyarakat
otomatis untk menemukan pola yang valid, baru,
Manfaat hasil penelitian ini adalah agar petugas
berguna dan dapat dipahami manusia
Analys Kredit dapat mengetahui dan memiliki
standar untuk menentukan pemberian kredit
Data mining merupakan bagian dari proses Knowledge
kepada calon Nasabah sehingga dapat
Discovery in Databases (KDD) – Proses transformasi data
meminimalisir terjadinya kredit macet yang
mentah menjadi informasi berguna. Dibawah ini adalah
berdampak terjadinya kerugian bagi Koperasi atau
gambar proses kerja data mining.
pihak nasabah.
Pada dasarnya data mining terdiri dari :
b. Manfaat bagi IPTEK
Hasil penelitian ini diharapkan dapat memberikan a. Predictive, metode yang menggunakan beberapa
sumbangan penerapan model SPK Kelayakan variabel yang ada untuk memprediksi nilai masa depan
223
(belum diketahui) dari variabel lain. Contoh : Dalam klasifikasi, terdapat target variabel kategori.
classification, regression, biases/anomalies detection. Sebagai contoh, penggolongan pendapatan dapat
dipisahkan dalam 3 kategori, yaitu pendapatan tinggi,
b. Descriptive, metode yang mengungkapkan pola dalam pendapatan sedang, pendapatan rendah.
data, agar mudah diinterpretasikan oleh pengguna. Contoh lain klasifikasi dalam bisnis dan penelitian
Contoh : clustering, association rules, sequential adalah:
patterns. a. Menentukan apakah suatu transaksi kartu kredit
merupakan transaksi yang curang atau bukan.
Pengelompokan Data Mining b. Memperkirakan apakah suatu pengakuan hipotek
Data mining dibagi menjadi beberapa kelompok oleh nasabah merupakan suatu kredit yang baik
berdasaarkan tugas yang dapat dilakukan, yaitu [12]: atau buruk.
c. Mendiagnosis seorang penyakit pasien untuk
Deskripsi mendapatkan termasuk kategori penyakit apa.
Terkadang peneliti dan analis secara sederhana ingin
mencoba mencari cara untuk menggambarkan pola dan Pengklusteran
kecenderungan yang terdapat dalam data. Sebagai contoh, Pengklusteran merupakan pengelompok record,
petugas pengumpul suara mungkin tidak dapat menemukan pengamatan, atau memperhatikan dan membentuk
keterangan atau fakta bahwa siapa yang tidak cukup kelas objek-objek yang memiliki kemiripan. Kluster
profesional akan sedikit di dukung dalam pemilihan adalah kumpulan record yang memiliki kemiripan satu
presiden. Deskripsi dari pola dan kecenderungan sering dengan yang lainnya dan memiliki ketidakmiripan
memberikan kemungkinan penjelasan untuk suatu pola atau dengan record-record dengan kluster lain.
kecenderungan. Pengklusteran berbeda dengan klasifikasi yaitu tidak
adanya variabel target dalam pengklusteran.
Estimasi Pengklusteran tidak mencoba untuk melakukan
Estimasi hampir sama dengan klasifikasi, kecuali variabel klasifikasi, mengestimasi, atau memprediksi nilai
target estimasi lebih ke arah numerik daripada ke arah dari variabel target. Akan tetapi, algoritma
kategori. Model dibangun menggunakan record lengkap pengklusteran mencoba untuk melakukan pembagian
yang menyediakan nilai dari variabel target sebagai nilai terhadap keseluruhan data menjadi kelompok-
prediksi. Selanjutnya, pada peninjauan berikutnya estimasi kelompok yang memiliki kemiripan (homogen), yang
nilai dari variabel target dibuat berdasarkan nilai variabel mana kemiripan record dalam satu kelompok akan
prediksi. Sebagai contoh, akan dilakukan estimasi tekanan bernilai maksimal, sedangkan kemiripan dengan
darah sistolik pada pasien rumah sakit berdasarkan umur record dalam kelompok lain akan bernilai minimal.
pasien, jenis kelamin, indeks berat badan, dan level Contoh pengklusteran dalam bisnis dan penelitian
sodium darah. Hubungan antara tekanan darah sistolik dan adalah:
nilai variabel prediksi dalam proses pembelajaran akan a. Mendapatkan kelompok-kelompok konsumen
menghasilkan model estimasi. Model estimasi yang untuk target pemasaran dari suatu produk bagi
dihasilkan dapat digunakan untuk kasus baru lainnya. perusahaan yang tidak memiliki dana pemasaran
Contoh lain yaitu estimasi nilai indeks prestasi kumulatif yang besar.
mahasiswa program pasca sarjana dengan melihat nilai b. Untuk tujuan audit akuntansi, yaitu malakukan
indeks prestasi mahasiswa tersebut pada saat mengikuti pemisahan terhadap perilaku finansial dalam baik
program sarjana. dan mencurigakan.
c. Melakukan pengklusteran terhadap ekspresi dari
Prediksi gen, untuk mendapatkan kemiripan perilaku dari
Prediksi hampir sama dengan klasifikasi dan estimasi, gen dalam jumlah besar.
kecuali bahwa dalam prediksi nilai dari hasil akan ada
dimasa mendatang. CRISP-DM (Cross Industry Standard Process For
Contoh prediksi dalam bisnis dan penelitian adalah: Data Mining) EEE 2006
a. Prediksi harga beras dalam tiga bulan yang akan CRISP-DM (Cross Industry Standard Process For Data
datang. Mining) yang dikembangkan tahun 1996 oleh analisis dari
b. Prediksi presentase kenaikan kecelakaan lalu lintas beberapa industri seperti DaimlerChrysler, SPSS, dan
tahun depan jika batas bawah kecepatan dinaikan . NCR. CRISP DM menyediakan standar proses data mining
Beberapa metode dan teknik yang digunakan dalam sebagai strategi pemecahan masalah secara umum dari
klasifikasi dan estimasi dapat pula digunakan (untuk bisnis atau unit penelitian. Dalam CRISP-DM, Sebuah
keadaan yang tepat) untuk prediksi. proyek data mining memiliki siklus hidup yang terbagi
dalam enam fase . Keseluruhan fase berurutan yang ada
Klasifikasi tersebut bersifat adaptif. Fase berikutnya dalam urutan
224
bergantung kepada keluaran dari fase sebelumnya. c. Lakukan perubahan pada beberapa variabel jika
Hubungan penting antar fase digambarkan dengan panah. dibutuhkan.
Sebagai contoh, jika proses berada pada fase modeling. d. Siapkan data awal sehingga siap untuk perangkat
Berdasar pada perilaku dan karakteristik model, proses pemodelan.
mungkin harus kembali pada fase data preparation untuk
perbaikan lebih lanjut terhadap data atau berpindah maju 4. Fase Pemodelan (Modeling Phase)
kepada fase evaluation. a. Pilih dan aplikasikan teknik pemodelan yang
sesuai.
b. Kalibrasi aturan model untuk mengoftimalkan
hasil.
c. Perlu diperhatikan bahwa beberapa teknik mungkin
untuk digunakan pada permasalahan data mining
yang sama.
Fase Fase d. Jika diperlukan, proses dapat kembali ke fase
Pemahaman Pemahaman
Bisnis Data
pengolahan data untuk menjadikan data kedalam
bentuk yang sesuai dengan spesifikasi kebutuhan
teknik data mining tertentu.
Fase Fase 5. Fase Evaluasi (Evaluation Phase)
Penyebaran Pengolahan
a. Mengevaluasi satu atau lebih model yang
digunakan dalam fase pemodelan untuk
Fase mendapatkan kualitas dan efektivitas sebelum
Pemodelan
Fase disebarkan untuk digunakan.
Evaluasi b. Menetapkan apakah terdapat model yang
memenuhi tujuan pada fase awal.
c. Menentukan apakah terdapat permasalahan penting
dari bisnis atau penelitian yang tidak tertangani
dengan baik.
d. Mengambil keputusan berkaitan dengan
penggunaan hasil dari data mining.
Gambar 1 Proses Data Mining Menurut CRISP-DM
Dibawah ini adalah enam fase CRISP-DM: 6. Fase Penyebaran (Deployment Phase)
1. Fase Pemahaman Bisnis (Business Understanding a. Menggunakan model yang dihasilkan.
Phase) Terbentuknya model tidak menandakan telah
a. Penentuan tujuan proyek dan kebutuhan secara terselesainya proyek.
detail dalam lingkup bisnis atau unit penelitian b. Contoh sederhana penyebaran: Pembuatan laporan.
secara keseluruhan. c. Contoh kompleks penyebaran: penerapan proses
b. Menerjemahkan tujuan dan batasan menjadi data mining secara paralel pada departemen lain.
formula dari permasalahan data mining . Algoritma C4.5
c. Menyiapkan strategi awal untuk mencapai tujuan Algoritma C4.5 merupakan algoritma yang digunakan untuk
2. Fase Pemahaman Data (Data Understanding Phase) membentuk pohon keputusan. Pohon keputusan
a. Mengumpulkan data. merupakan metode klasifikasi dan prediksi yang sangat kuat
b. Menggunakan analisis penyelidikan data untuk dan terkenal. Metode pohon keputusan mengubah fakta
mengenali lebih lanjut data dan pencarian yang sangat besar menjadi pohon keputusan yang
pengetahuan awal. merepresentasikan aturan. Aturan dapat dengan mudah
c. Mengevaluasi kualitas data. dipahami dengan bahasa alami. Dan mereka juga dapat
d. Jika diinginkan, pilih sebagian kecil grup data diekspresikan dalam bentuk bahasa basis data seperti
yang mungkin mengandung pola dari Structured Query Language untuk mencari record pada
permasalahan. kategori tertentu.
3. Fase Pengolahan Data (Data Preparation Phase) Berikut adalah algoritma C4.5, yaitu :
a. Siapkan dari data awal, kumpulan data yang akan Input: an attribute-valued dataset D
digunakan untuk keseluruhan fase berikutnya. Fase 1: Tree = {}
ini merupakan pekerjaan berat yang perlu 2: if D is “pure” OR other stopping criteria met then
dilaksanakan secara intensif. 3: terminate
b. Pilih kasus dan variabel yang ingin dianalisis dan 4: end if
yang sesuai analisis yang akan dilaksanakan. 5: for all attribute a ‫ א‬D do
225
6: Compute information-theoretic criteria if we split on a ditabulasikan dalam bentuk yang disebut confusion matrix.
7: end for Secara singkat, confusion matrix memberikan perincian
8: abest = Best attribute according to above computed mendetail mengenai misclassifications. Kelas yang
criteria diprediksi akan ditampilkan di bagian atas matriks, dan
9: Tree = Create a decision node that tests abest in the root kelas diamati di sisi kiri. Setiap sel berisi sejumlah
10: Dv = Induced sub-datasets from D based on abest menunjukkan berapa banyak kasus yang sebenarnya dari
11: for all Dv do kelas yang diamati diberikan ditugaskan oleh model ke
12: Treev = C4.5(Dv) kelas diprediksi diberikan. Untuk lebih jelasnya berikut ini
13: Attach Treev to the corresponding branch of Tree adalah gambar 5 contoh model confusion matrix.
14: end for TABEL II
15: return Tree CONTOH MODEL CONFUSION MATRIX
Ada beberapa tahap dalam membuat sebuah pohon

keputusan dengan algoritma C4.5, yaitu :
1. Menyiapkan data training. Data training biasanya
diambil dari data histori yang pernah terjadi sebelumnya
dan sudah dikelompokkan ke dalam kelas-kelas tertentu.
2. Menentukan akar dari pohon. Akar akan diambil dari
atribut yang terpilih,dengan cara menghitung nilai Gain
dari masing-masing atribut, nilai Gain yang paling
tinggi yang akan menjadi akar pertama. Sebelum Setelah data uji dimasukkan ke dalam confusion matrix,
menghitung nilai Gain dari atribut, hitung dahulu nilai hitung nilai-nilai yang telah dimasukkan tersebut untuk
entropy yaitu : dihitung jumlah precision, recall dan accuracy. Sensitivity
Entropy (S) = σ௡௜ୀଵ െ‫݃݋݈ כ ݅݌‬ଶ ‫( ݅݌‬1) digunakan untuk membandingkan jumlah true positives
Keterangan : terhadap jumlah tupel yang positives sedangkan specificity
S : himpunan kasus adalah perbandingan jumlah true negatives terhadap jumlah
n : jumlah partisi S tupel yang negatives. Untuk menghitung digunakan
pi : proporsi dari Si terhadap S persamaan di bawah ini :
Entropi menyatakan impurity suatu kumpulan objek dan ்௉ା்ே
Accuracy=
digunakan untuk memilih nilai optimal untuk ்௉ା்ேାி௉ାிே
memecahkan node berdasarkan maksimalisasi ்ே
informasi. Jika semua objek memiliki label kelas yang Specificity =
ே
sama maka entropinya adalah 0 dan akan meningkat
nilai entropi hingga maksimum ketika semua kelas Sekarang beberapa gagasan dasar tentang kurva ROC
sama-sama didistribusikan. (Receiver Operating Characteristic) digunakan secara luas
3. Kemudian hitung nilai Gain dengan metode information dalam menilai hasil prediksi. Kurva ROC juga biasanya
gain : digunakan dalam pembelajaran mesin dan penelitian data
ȁௌ೔ ȁ mining. Salah satu yang mengadopsi kurva ROC dalam
Gain(S,A) = Entropy(S) – σ௡௜ୀଵ ‫ݕ݌݋ݎݐ݊ܧ כ‬ሺܵ௜ ሻ
ȁௌȁ pembelajaran mesin adalah Spackman, yang
Keterangan : memperlihatkan diperlukannya ROC kurva dalam
S : himpunan kasus mengevaluasi dan membandingkan algoritma. Dalam
A : atribut masalah klasifikasi, kurva ROC adalah teknik untuk
n : jumlah partisi atribut A memvisualisasikan, mengatur dan memilih pengklasifikasi,
|Si| : jumlah kasus pada partisi ke-i berdasarkan kinerja mereka.
|S| : jumlah kasus dalam S Secara teknis, ROC kurva, juga dikenal sebagai grafik
4. Ulangi langkah ke-2 hingga semua tupel terpartisi. ROC, adalah dua-dimensi grafik di mana tingkat TP diplot
5. Proses partisi pohon keputusan akan berhenti saat : pada sumbu Y dan tingkat FP diplot pada sumbu-X. Dengan
a. Semua tupel dalam node N mendapat kelas yang cara ini, grafik ROC menggambarkan perbandingan antara
sama. keuntungan (“true positives”) dengan biaya (“false
b. Tidak ada atribut di dalam tupel yang dipartisi lagi. positives”).
c. Tidak ada tupel di dalam cabang yang kosong.
III. METODE PENELITIAN
Confusion Matrix dan Kurva ROC Penelitian yang dilaksanakan adalah jenis penelitian
Mengingat bahwa evaluasi kinerja model klasifikasi eksperimen, yaitu melakukan pengujian tingkat akurasi
didasarkan pada tuntutan (pengujian) yang memperkirakan algoritma C 4.5 dalam pengklasifikasian nasabah kredit
obyek tersebut benar dan salah. Hitungannya ini bisa
226
lancar dan kredit macet. Data eksperimen diambil dari IV. ALGORITMA C 4.5
tempat penelitian yaitu di salah satu koperasi.
Tahap ini juga dapat disebut tahap learning karena
Ada beberapa tahap yang dilakukan dalam melakukan
pada tahap ini data training diklasifikasikan oleh model
eksperimen ini, penulis menggunakan model Cross-
dan kemudian menghasilkan sejumlah aturan. Model
Standard Industry for Data Mining (CRISP-DM) yang yang digunakan dalam tahap ini menggunakan algoritma
terdiri dari 6 tahap, yaitu : C4.5. Seperti yang telah dijelaskan sebelumnya, ada
beberapa tahap yang harus dilalui dalam membentuk
a. Tahap business understanding pohon keputusan, tentunya algoritma C4.5 digunakan
Penelitian pendahuluan dilakukan dengan melakukan untuk membuat pohon keputusan.
observasi ke tempat penelitian untuk melihat dan
mengetahui secara langsung kondisi dan permasalahan TABEL III
yang terjadi. Terdapat peningkatan jumlah kredit HASIL PERHITUNGAN INFORMATION GAIN
macet pada laporan kredit tahun 2012, ini dikarenakan
masih sulitnya menentukan klasifikasi kredit lancar
dan kredit macet dengan akurasi yang baik sehingga
perlu dikembangkan model klasifikasi yang baru.
b. Tahap data understanding.

Data diperoleh dari koperasi pada tahun 2012. Data
tersebut sebanyak 700 record memiliki atribut
Nama_Nasabah, Jenis_Kelamin, Umur,
Jumlah_Pinjaman,Jangka_Waktu,Jumlah_Angsuran_P
erbulan,Type_Pinjaman, Jenis_Pinjaman,
Bi_Sektor_Ekonomi,Col,Bi_Golongan_Debitur,
Bi_Golongan_Penjamin,Saldo_Nominatif,Tunggakan_
Pokok,Tunggakan_Bunga,Status_Kredit. Nilai dari
semua atribut yang ada di tabel, merupakan nilai
kategorikal dan bukan nilai angka, misalnya seperti
atribut umur, yaitu debitur yang berusia 17 th sampai
40 tahun termasuk dalam kategori muda, sedangkan
debitur yang berusia 41 tahun sampai 55 tahun
termasuk kategori paruh baya, dan kategori ketiga
adalah debitur yang berusia diatas 55 tahun termasuk
kategori tua. Tabel 6 di bawah ini ditampilkan nama
atribut, kategori, dan nilai angka (rangenya)
c. Tahap data preparation
Tabel di bawah ini menunjukkan data transaksi kredit
baik yang bermasalah maupun yang tidak bermasalah.
digunakan dan record yang duplikasi. Untuk itu maka
diperlukan tehnik dalam preprocessing yaitu :
a. Data cleaning bekerja untuk membersihkan nilai yang
kosong ,tidak konsisten atau mungkin tupel yang
kosong (missing values dan noisy). Dari hasil perhitungan diatas, maka didapatkan
b. Data integration berfungsi menyatukan tempat model pohon keputusan seperti berikut:
penyimpanan (arsip) yang berbeda ke dalam satu data.
Dalam hal ini, ada dua arsip yang diambil sebagai data
warehouse yaitu data anggota dan data kredit.
c. Data reduction. Jumlah atribut dan tupel yang
digunakan untuk data training mungkin terlalu besar,
hanya beberapa atribut yang diperlukan sehingga
atribut yang tidak diperlukan akan dihapus. Tupel
dalam data set mungkin terjadi duplikasi atau terdapat
tupel yang sama, sehingga untuk memperkecil jumlah Gambar 3 Pohon Keputusan Menggunakan Algoritma
tupel, tupel yang sama akan dijadikan dalam satu tupel C4.5
untuk mewakili tupel tersebut akan terlihat pada tabel
8 di bawah :
227
Kurva ROC Dari gambar di atas diperoleh jumlah True

Negative (TN) sebanyak 46 sebagai false dan sesuai
Kurva ROC menunjukkan trade-off antara true positive
dengan klasifikasi, False Positive (FP) sebanyak 9
rate (proporsi tuple positif yang teridentifikasi
diprediksi false ternyata hasil prediksi True Positive
dengan benar) dan false positive rate (proporsi tuple
(TP) sebanyak 44 diklasifikasi sebagai True dan
negatif yang teridentifikasi salahsebagai positif) dalam
suatu model. Untuk mengukur ketelitian dari suatu sesuai dengan prediksi yang dilakukan
model, kita dapat mengukur area di bawah kurva ROC. menggunakan cross validation dan False Negative
(FN) sebanyak 4 dan klasifikasinya true ternyata
hasil klasifikasinya false. Tingkat akurasi yang
diperoleh.
V. KESIMPULAN
Dengan dihasilkannya klasifikasi kelayakan pemberian
kredit nasabah dengan jumlah atribut 8 menghasilkan
akurasi 87.36 % merupakan tingkat akurasi yang baik,
sehingga kelancaran proses penilaian kelayakan kredit dapat
tercipta dan pembayaran terlambat (menunggak) sudah
terprediksi dari awal untuk dapat diwaspadai agar dapat
meminimalisir meningkatnya kredit macet.
Tingkat akurasi algoritma C 4.5 eksperiment ini sudah
Gambar 4 Kurva Akurasi C4.5 mencapai tingkat baik, sehingga dapat meningkatkan
ketelitian dalam proses klasifikasi dan prediksi dengan cara
Gambar 22 menunjukkan grafik ROC dengan menambahkan beberapa atribut dari histori pembayaran
nilai AUC (Area Under Curve) dengan C 4.5sebesar kredit nasabah yang ada sehingga dihasilkan pola klasifikasi
0.691. Akurasi AUC dikatakan sempurna apabila yang lebih akurat.
nilai AUC mencapai 1.000 dan akurasinya buruk
jika nilai AUC dibawah 0.500. DAFTAR PUSTAKA
Dengan kurva ROC, kita dapat melihat trade off [1] Y. Jiang, “Credit Scoring Model Based on the Decision Tree and the
antara tingkat dimana suatu model dapat mengenali tuple Simulated Annealing Algorithm,” Learning, no. 2007, pp. 18–22,
positif secara akurat dan tingkat dimana model tersebut 2009.
[2] J. B. Simha, “Comparing decision trees with logistic regression for
salah mengenali tuple negatif sebagai tuple positif. credit risk analysis,” 2006.
Kurva ROC terdiri atas sumbu vertikal yang menyatakan [3] K. K. Lai, L. Yu, L. Zhou, and S. Wang, “Credit Risk Evaluation
true positive rate, dan sumbu horizontal yang with Least Square Support Vector Machine,” Evaluation, pp. 490–
menyatakan false positive rate. 495, 2006.
[4] J. Zurada, “Could Decision Trees Improve the Classification
Jika memiliki true positif (sebuah tupel positif Accuracy and Interpretability of Loan Granting Decisions ?,”
yang benar diklasifikasikan) maka pada kurva ROC Information Systems, pp. 1–9, 2010.
akan bergerak ke atas dan plot titik. Sebaliknya, jika [5] S. Sogala and P. D, “Comparing the Efficacy of the Decision Trees
tupel milik kelas “tidak” ketika memiliki false with Logistic Regression for Credit Risk Analysis.”
[6] F. C. Li, “The Hybrid Credit Scoring Model based on KNN
positif, maka kurva ROC bergerak ke kanan dan plot Classifier,” Sixth International Conference on Fuzzy Systems and
titik. Proses ini diulang untuk setiap tupel tes (setiap Knowledge Discovery. IEEE Computer Society, 2009.
kali bergerak ke atas kurva untuk true positif atau [7] (Central Connecticut State LAROSE, DANIEL T. University),
terhadap hak untuk false positif). DISCOVERING KNOWLADGE IN DATA. Canada: John Wiley &
Sons, Inc., Hoboken, New Jersey., 2005.
[8] Prof . F l or i n G or u n e s c u, Data Mining Concepts, Models and
Hasil pengujian Dataset Kredit menggunakan Tecniques. Berlin: Springer Verlag Berlin Heidelberg, 2011, p. 16.
Metode C.4.5 [9] X. Wu, V. Kumar, J. R. Quinlan, J. Ghosh, Q. Yang, H. Motoda, G.
J. Mclachlan, A. Ng, B. Liu, P. S. Yu, Z. Z. Michael, S. David, and
J. H. Dan, “Top 10 algorithms in data mining,” Knowledge and
Information Systems, pp. 1–37, 2008.
[10] J. A. Bastos and R. Archive, “Credit scoring with boosted decision
trees,” no. 8156, 2008.
[11] K. Xindong Wu, “The Top Ten Algorithms in Data Mining,” 2009.
Gambar 5 Nilai Akurasi [12] M. K. Jiawei, Data Mining Concepts and Techniques. 2006.
228

Data Mining and C4.5 Algorithm for Customer Screening

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Data Mining and C4.5 Algorithm for Customer Screening

Hochgeladen von

Copyright:

Verfügbare Formate

e-ISSN : 2443-2229 Jurnal Teknik Informatika dan Sistem Informasi

Volume 1 Nomor 3 Desember 2015

Pencarian Nasabah dengan Menggunakan Data

peralatan-peralatan , administrasi dan keuangan,

Ada beberapa tahap dalam membuat sebuah pohon

b. Tahap data understanding.

Kurva ROC Dari gambar di atas diperoleh jumlah True

Das könnte Ihnen auch gefallen