Sie sind auf Seite 1von 33

PASAL DALAM PERS G Model JJPC-2122; Jumlah Halaman 16

Journal of Process Control xxx (2017)xxx-xxx


daftar Isitersedia di ScienceDirect

Journal of Process Control


Silakan mengutip artikel ini dalam pers sebagai: MC Thomas, et al, Data mining dan clustering di database proses kimia untuk
pemantauan. dan penemuan pengetahuan, J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006

data mining dan clustering di database proses kimia untuk pemantauan dan penemuan
pengetahuan
Michael C. Thomas, Wenbo Zhu, Jose A. Romagnoli *
Kain Departemen Teknik Kimia, Louisiana State University, Baton Rouge, LA 70808, Amerika Serikat
articleinfo
Pasal sejarah: Diterima 26 April 2016 Diterima dalam bentuk direvisi 24 November 2016 Diterima 7 Februari 2017 Tersediaxxx
secaraonline:
Kata kunci data data yang pertambangan mengelompokkanDimensi pengurangan Pengetahuan penemuan
abstrak
pabrik kimia modernmemelihara database sejarah besar rekaman sensor terakhir pengukuran yang maju proses teknik monitoring
menganalisis untuk dia operator pabrik lp dan insinyur menafsirkan makna tren hidup di database. Namun, banyak metode
pemantauan proses terbaik memerlukan data diatur ke dalam kelompok sebelum pelatihan adalah mungkin. Dalam prakteknya,
organisasi tersebut jarang ada dan waktu yang dibutuhkan untuk membuat data pelatihan diklasifikasikan merupakan penghalang
bagi penggunaan gies proses maju monitoring strate-. Teknik data mining dan penemuan pengetahuan yang diambil dari literatur
ilmu komputer dapat membantu insinyur menemukan negara kesalahan dalam database sejarah dan kelompok mereka bersama-
sama dengan sedikit pengetahuan rinci tentang proses. Studi ini mengevaluasi bagaimana beberapa clustering data dan ekstraksi
fitur teknik bekerja sama untuk mengungkap tren yang berguna dalam data proses kimia industri. Dua studi pada menara
pemisahan skala industri dan simulasi proses Tennessee Eastman menunjukkan pengelompokan data dan ekstraksi fitur secara
efektif mengungkapkan tren proses yang signifikan dari dimensi, data yang multivariat tinggi. Pengetahuan cess pro dan metrik
pengelompokan diawasi membandingkan hasil klaster terhadap label yang benar dalam data untuk membandingkan kinerja
kombinasi yang berbeda dari pengurangan dimensi dan pendekatan clustering data.
© 2017 Elsevier Ltd All rights reserved.
1. Pendahuluan
Kemajuan dalam kekuasaan dan penyimpanan data komputasi di pabrik kimia modern yang telah menyebabkan build-up data
dalam jumlah besar di database bersejarah yang menyimpan pengukuran sensor dari perilaku proses masa lalu. Penelitian terbaru
telah menyebabkan proses strategi pemantauan yang menggunakan output besar data proses untuk meningkatkan keselamatan
proses dan kualitas peningkatan [1-3]. Proses pemantauan berdasarkan data membutuhkan proses pengetahuan minimal untuk
melakukan tugas ini, berbeda untuk model pendekatan berdasarkan yang membutuhkan model mekanistik rinci.
Sayangnya, banyak metode terbaik untuk deteksi kesalahan data-driven dan diagnosis yang “diawasi”, yang berarti melatih
algoritma ini memerlukan data disusun dalam kelompok-kelompok berlabel, seperti “rusak” atau “normal”. Dalam tanaman nyata
Data berlabel jarang tersedia dan menciptakan database diberi label dengan benar untuk proses pelatihan Senin-algoritma itoring
bisa menjadi tugas yang memakan waktu. Tugas ini membutuhkan seorang insinyur untuk menilai beberapa negara beroperasi,
sejumlah besar sensor, dan data dari bulan atau tahun beroperasi. Tugas ini juga membutuhkan keakraban dengan proses untuk
menilai mana pengukuran
*
penulis Sesuai. Alamat E-mail: jose@lsu.edu (JA Romagnoli).
abnormal di bawah berbeda rezim operasi. Mengurangi culty kesukaran dari langkah awal ini bisa menurunkan waktu dan uang
yang diperlukan untuk membuat sistem deteksi kesalahan dan diagnosis maju dan memperluas aplikasi mereka dalam pengaturan
industri.
“Unsupervised” strategi pembelajaran dapat membantu menemukan kelompok data otomatis yang mungkin akan dimakamkan
di volume tipis data. Pendekatan pembelajaran tanpa pengawasan meliputi dimensi pengurangan dan data clustering. Belajar pola
dan penggalian informasi tentang proses dari kelompok data atau data dimensi berkurang bisa disebut penemuan pengetahuan
atau data mining. Dalam rangka memperluas penerapan algoritma pemantauan proses diawasi, sebuah kerangka kerja perangkat
lunak harus con structed untuk: a) Data kesalahan yang terpisah dari data normal, b) melatih model yang didasarkan pada statistik
atau teknik pembelajaran diawasi untuk deteksi kesalahan dan c) membantu dengan identifikasi dan ment mengelola- kesalahan
baru. Masing-masing tugas harus dilakukan dengan cara yang sederhana untuk memahami untuk non-ahli dalam ilmu data dan
mudah untuk menyebarkan pada beberapa unit sekitar tanaman dengan overhead rendah. Pengetahuan normal rusak diekstrak
menggunakan pembelajaran tanpa pengawasan kemudian dapat dimanfaatkan untuk melatih pendekatan pembelajaran diawasi
untuk memantau proses.
Belajar tanpa pengawasan adalah topik dipelajari secara luas di komputer sci- ence [4,5] dan kemometrika [6], tetapi banyak
teknik pengelompokan luar K-berarti telah melihat aplikasi yang relatif terbatas dalam proses
http://dx.doi.org/10.1016/ j.jprocont.2017.02.006 0959-1524 / © 2017 Elsevier Ltd All rights reserved.
homepage jurnal: www.elsevier.com/locate/jprocont
PASAL G Model JJPC-2122; Jumlah Halaman 16 DI PRESS 2 MC Thomas et al. / Jurnal Pengendalian Proses xxx (2017)xxx-
xxx.
situasi pemantauan Proses clustering data telah terbukti sebelumnya efektif dalam manufaktur semikonduktor [7], kecepatan
penggilingan tinggi [8], dan aplikasi lainnya [9,10]. Penelitian di proses pemantauan ical chem- juga telah menggunakan konsep
clustering data. Wang dan McGreavy [11] melakukan studi awal Data proses kimia pengelompokan dari simulasi catalytic
cracker cairan dengan metode klasifikasi otomatis Bayesian. Bhushan dan Romag- noli [12] dimanfaatkan peta mengorganisir
diri untuk klasifikasi pola tanpa pengawasan dan dengan aplikasi pada model CSTR untuk masalah diagnosis kesalahan. Strategi
mengintegrasikan analisis principal komponen (PCA) dan data pengelompokan juga telah melihat sukses. Maestri et al. [13]
mengembangkan strategi deteksi kesalahan untuk beberapa negara ing operat- berdasarkan PCA didukung oleh data clustering.
Zhu et al. [14] menggunakan metode pemodelan k-ICA-PCA untuk menangkap pola proses yang relevan dengan aplikasi untuk
memantau proses Tennessee Eastman. Singhal dan Seborg [15] mengembangkan dimodifikasi metodologi K-means cluster data
time-series multivariat dari faktor larity Serupa berdasarkan PCA. Barragan et al. [16] digunakan strategi pengelompokan
berdasarkan wavelet transform dan novel kesamaan terpenuhi-ric untuk cluster data dari proses Tennessee Eastman, tetapi hanya
mempelajari satu kesalahan proses. Thornhill et al. [17] mempelajari pendekatan untuk memvisualisasikan dan clustering data
berdasarkan PCA dan hirarkis clustering.
Penelitian ini menggunakan teknik tradisional untuk dimensi pengurangan- tion (DR) dan clustering data dari literatur ilmu
komputer untuk mengambil data rusak dan pengetahuan tentang negara proses dari database proses kimia. Alih-alih berfokus
pada bagaimana untuk mendeteksi dan mendiagnosa kesalahan, penelitian ini berfokus pada cara membuat data set digunakan
untuk melatih algoritma pemantauan proses diawasi konvensional. Kami membandingkan seberapa efektif kombinasi dari DR
dan teknik clustering data menciptakan label kesalahan pada dua kasus stud- ies: proses Tennessee Eastman benchmark dan
sebuah menara pemisahan industri.
Sebuah keuntungan dari alur kerja kami mengusulkan adalah bahwa hal itu relatif mudah digunakan karena setiap DR dan
clustering kombinasi membutuhkan spesifikasi hanya satu atau dua parameter dan teknik. Selain itu, kami memperluas penelitian
sebelumnya dengan mempertimbangkan vatif inno- dan teknik pengelompokan terbukti seperti DBSCAN, BIRCH, berarti
pergeseran clustering yang telah banyak diterapkan dalam ilmu komputer tetapi belum diuji pada data penemuan kesalahan.
Kami juga mempelajari peran DR karena peran penting yang dimainkannya dalam tion visualiza- dan ekstraksi fitur. Sebagai
contoh, Ding [18] mengeksplorasi hubungan erat antara belajar tanpa pengawasan dan DR dan vides pro dasar teoritis untuk
penggunaan PCA untuk meningkatkan K-berarti clustering. Teknik-teknik DR dianggap tidak hanya mencakup beberapa teknik
yang sudah disesuaikan dengan deteksi kesalahan dan proses Senin-itoring (analisis komponen utama (PCA) [19], analisis
komponen independen [20], kernel PCA [21]), tetapi juga pria non-linear - ifold melestarikan teknik seperti Isomap dan
embedding spektral.
Makalah ini disusun sebagai berikut: Bagian 2 merangkum pendekatan kami secara keseluruhan untuk data mining; Bagian 3
dan 4 memperkenalkan pengurangan sionality dimen- dan clustering data masing-masing, memberikan pengenalan singkat teknik
yang digunakan dalam penelitian ini; Bagian 5 membahas bagaimana kita memutuskan parameter dari DR dan clustering teknik
yang digunakan; Bagian 6 menganggap studi kasus pada proses Tennessee Eastman mana pembelajaran tanpa pengawasan
leveraged untuk mendistribusikan kesalahan penutup dari set data; Bagian 7 studi pengelompokan peristiwa nyata pada sebuah
menara pemisahan skala industri; Bagian 8 con tains review singkat dari tantangan time series pengelompokan; dan Bagian 9
menyimpulkan dan merangkum penelitian ini.
Mining Pendekatan 2. Data
Gambar. 1 menguraikan pendekatan data mining yang digunakan. Pertama, teknik DR proyek data proses baku, menghapus
berlebihan,
Gambar. 1. Skema data pendekatan pertambangan.
berkorelasi pengukuran sensor dan menggabungkan mereka ke dalam skor dimensi yang lebih rendah. DR mungkin
memproyeksikan data ke dua atau tiga diskusi-dimen- untuk memungkinkan visualisasi, atau teknik mungkin hanya menghapus
informasi berlebihan dari data proses mentah. Dalam beberapa kasus DR mungkin tidak diperlukan jika data yang berkualitas
baik.
Setelah proyeksi dengan teknik DR, algoritma clustering data partisi data menggunakan sejumlah teknik clustering. Xu dan
Wunsch [8] menyajikan survei data teknik clustering, tetapi pengelompokan adalah proses subjektif dan tidak ada definisi
universal cluster kecuali bahwa mereka terdiri dari kelompok-kelompok dengan anggota lebih mirip satu sama lain daripada data
dari kelompok yang berbeda. Tergantung pada data dan parameter yang digunakan untuk menghitung clustering, cluster
ditemukan mungkin atau mungkin tidak sesuai dengan struktur yang signifikan, oleh karena itu, metrik evaluasi klaster penting
untuk membantu pengguna menilai kualitas cluster diekstrak sebelum analisis yang lebih rinci.
Akhirnya, pada langkah Cluster Penugasan, pengguna menganalisa data dalam cluster untuk menghubungkannya dengan
peristiwa proses bermakna seperti kesalahan atau prosedur operasi. Ketika diberi label sesuai dengan peristiwa proses, data dapat
digunakan oleh mesin belajar atau deteksi atau diagnosis algoritma kesalahan diawasi lainnya untuk pelatihan dan pas.
Penggalian informasi dengan cara ini dari database disebut penemuan pengetahuan. Algoritma data mining yang digunakan
dalam penelitian ini diambil dari Python Scikit-belajar modul [22], yang menyediakan lingkungan yang kaya algoritma
pembelajaran mesin diawasi dan tidak diawasi.
3. Pengurangan Dimensi
pengurangan Dimensi merupakan langkah data mining penting karena membahas “kutukan dimensi”. Ruang sional dimen-
tinggi menyebabkan masalah seperti fenomena ruang kosong (meningkatkan dimensi meningkatkan volume yang sehingga data
yang tersedia menjadi jarang), kekuatan diskriminasi lemah dari metrik seperti jarak Euclidean, dan korelasi antara variabel [25].
Metode pengurangan dimensi dipertimbangkan di sini adalah subisidi berdasarkan karakteristik mereka dan biaya komputasi.
PCA merupakan teknik pengurangan dimensi yang paling umum digunakan dan memiliki banyak aplikasi yang sukses dalam
proses statistik Senin-itoring [19,23]. ICA dan KPCA telah berhasil disesuaikan dengan
Silakan mengutip artikel ini dalam pers sebagai: MC Thomas, et al, Data mining dan clustering di database proses kimia untuk
pemantauan dan penemuan pengetahuan, J. Process Control (2017), http: //. Dx .doi.org / 10,1016 / j.jprocont.2017.02.006
PASAL DALAM PERS G Model JJPC-2122; Jumlah Halaman 16
MC Thomas et al. / Jurnal Pengendalian Proses xxx (2017) xxx-xxx 3
Gambar. 2. Ilustrasi dari berbagai metrik clustering.
Proses monitoring [20,21], sehingga wajar untuk mengevaluasi mereka untuk tugas-tugas data mining. Isomap dan embedding
spektral yang lebih baru-baru dikembangkan teknik DR belajar berjenis non-linear yang dapat lebih sensitif terhadap struktur
non-linear dalam data dari PCA, ICA, atau KPCA yang didasarkan pada dekomposisi matriks. Sebagai tanda bench-, kami juga
menghitung hasil pengelompokan diperoleh tanpa DR. Sebuah studi banding oleh van der Maaten et al. [24] mengungkapkan
bahwa sementara canggih pengurangan dimensi nonlinear mengungguli PCA dan lain-lain untuk mengurangi set data dengan
struktur buatan, di lain data “alami” set tidak artifisial yang dihasilkan oleh komputer teknik DR dianggap gagal memberikan
keuntungan sama sekali! Lingkungan ini beragam teknik panggilan untuk studi banding untuk memandu keputusan dalam
memilih yang paling sesuai untuk situasi aplikasi tertentu.
Sebuah diskusi singkat dari masing-masing teknik DR dipertimbangkan dalam pekerjaan ini berikut.
3.1. Kepala analisis komponen
Principal Component Analysis (PCA) adalah jarak linear teknik preser- vasi yang menentukan satu set vektor orthogonal
yang optimal menangkap variabilitas data. Vektor nal orthogo- ditentukan melalui dekomposisi eigenvalue dari matriks
kovariansi dan diatur dalam urutan dari varian dijelaskan dalam arah pembebanan vektor [19].
PCA mengurangi data sebagai berikut. Untuk satu set pelatihan yang diberikan dari n pengamatan dan pengukuran sensor m
disimpan dalam Xn × m, yang sam- ple kovarians matriks S dapat dihitung:
S=
n-1
1
X
T
X = PP
T
Dengan menemukan nilai eigen () dari matriks kovariansi S, jections pro dari pengamatan di X ke dalam ruang yang lebih
rendah-dimensi dihitung dalam matriks skor:
T = XP
dalam penelitian pengurangan dimensi kita menentukan ber NUM komponen pokok (PC) menggunakan uji persen varians.
Tes persen varians menghitung jumlah terkecil loading vektor yang diperlukan untuk menjelaskan persentase minimum dari total
variabel-
Silakan mengutip artikel ini dalam pers sebagai: MC Thomas, et al, Data mining dan clustering di database proses kimia untuk
pemantauan dan penemuan pengetahuan. , J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006
PASAL DALAM PERS G Model JJPC-2122; Jumlah Halaman 16
4 MC Thomas et al. / Jurnal Pengendalian Proses xxx (2017) xxx-xxx
Gambar. 3. Proses skema dengan skema kontrol.
Ance. Model kami meliputi cukup komponen utama yang diperlukan untuk model 95% dari varians dari data asli [19].
3.2. Analisis komponen independen (ICA)
analisis komponen independen (ICA) digunakan dalam pemisahan sinyal multivariat untuk mengekstraksi tersembunyi dan
statistik indepen- komponen penyok (IC) dari data yang diamati dan telah diadaptasi untuk tugas-tugas pemantauan proses yang
sama dengan PCA [20,26] . Pemisahan sumber nal Sig- pulih sinyal independen setelah linear pencampuran. Dengan kata lain,
untuk sinyal campuran diwakili oleh x, sumber sinyal secara bebas s linear dicampur dengan matriks A dengan:
x=
jumlah IC yang diperlukan. Memang, dalam tinjauan deteksi kesalahan yang dilakukan oleh Yin et al. [28], ICA dan PCA
menemukan nomor identik IC dan PC dari data TEP. Dalam studi ini, kami menggunakan jumlah yang sama IC seperti PC dalam
model PCA kami.
3.3.kernel analisis komponen utama (KPCA)
Analisiskernel komponen utama meluas analisis komponen ple tradisional princi- ke ruang data yang nonlinier. Alih-alih
langsung mengambil dekomposisi eigenvalue dari matriks kovarians seperti PCA, KPCA mengambil data yang ditetapkan
dengan fitur non-linear yang PCA gagal untuk pra melayani dan proyek mereka ke ruang dimensi yang lebih tinggi di mana
mereka

s
k
a
k
= Sebagai
bervariasi secara linear . KPCA pertama mengasumsikan bahwa data yang telah trans dibentuk non-linear menggunakan non-
linear fungsi pemetaan (x). Konvensional PCA selanjutnya dilakukan dalam ruang fitur untuk per- k = 1
bentuk transformasi untuk pengurangan dimensi [29]. The
Tujuan dari ICA adalah untuk menemukan sumber sinyal s menggunakanINFORMATION
matriks kernelK didefinisikan sebagai: tion disimpan
dalam x. Setelah matriks A diperkirakan, matriks inverse W (W = A-1) dapat digunakan untuk menghitung asli independen
sumber
K
ij sinyal oleh:
s = Wx
Matriks W dapat ditemukan dengan menggunakan algoritma FastICA dari Hyvarinen dan Oja [27 ]. Memisahkan sinyal, dua
asumsi-asumsi kunci yang ICA membuat adalah bahwa sinyal sumber yang independen satu sama lain dan nilai-nilai di setiap
sinyal sumber memiliki distribusi non-Gaussian. W dihitung melalui titik iterasi tetap untuk menemukan komponen dengan
maksimum non-gaussianity, diukur dengan menggunakan negentropi [27].
ICA mengharuskan kita untuk menentukan jumlah IC untuk digunakan dalam pengurangan sionality dimen-. Sebuah pilihan
sederhana yang diberikan oleh Lee [26] menunjukkan bahwa jumlah PC terikat oleh PCA dapat memberikan perkiraan yang baik
dari:=

((x
i)
·

(x

j)),
Kami kemudian fungsi kernel pengganti k (x, y) untuk semua kejadian ((x), (y)), yang memungkinkan kita untuk menghitung
dot produk menggunakan fungsi pemetaan non-linear tanpa mengetahui pekerjaan, kita menggunakan radial basis kernel k (x, y)=
exp
bentuknya.Dalam hal
ini).
Setelah substitusi ini, data dapat dikurangi non-linear
menggunakan dekomposisi eigenvalue dengan cara yang sama seperti PCA.
Seperti metode pengurangan dimensi non-linear lainnya (yaitu Isomap), kelemahan dari KPCA adalah biaya komputasi yang
tinggi cal- culating matriks kernel. Untuk menentukan jumlah PC, sesuai dengan Lee et al. [7], kami menerapkan metode cut-off
dengan menggunakan eigen rata-rata yang hanya mencakup PC dengan nilai eigen atas rata-rata.
(-
x-y2/c
Silakan mengutip artikel ini dalam pers sebagai: MC Thomas, et al, Data mining dan clustering di database proses kimia untuk
pemantauan dan penemuan pengetahuan, J. Process Control (2017), http: // dx. .doi.org / 10,1016 / j.jprocont.2017.02.006
PASAL DALAM PERS G Model Jumlah Halaman 16
JJPC-2122;.MC Thomas et al / Journal of Process Control xxx (2017) xxx-xxx 5
Gambar 4.. (a) data dari operasi normal TEP dan Patahan 1projected ke 3 komponen utama. (b) hasil pengelompokan DBSCAN
mengidentifikasi kelompok yang terpisah dibentuk oleh operasi steady state dan tag banyak transisi sebagai kebisingan. (c) dan
(d) menunjukkan bagaimana cluster dapat digunakan dengan plot time series dari pengukuran sensor untuk mengidentifikasi
perilaku dominan setiap cluster.
3.4. Isomap
Isomap melakukan pengurangan dimensi nonlinear oleh esti- kawin geometri intrinsik dari manifold data menggunakan jarak
grafik bukan jarak Euclidean. A “ragamnya ”, dalam hal ini, pada dasarnya adalah dukungan yang mendasari dari dis Data
tribution dikenal hanya melalui sampel yang terbatas [25]. Untuk data proyek Isomap menciptakan jaringan topologi
melestarikan dan menggunakannya untuk menemukan terpendek grafik jalur jarak antara dua titik pada jaringan. Jarak grafik
kemudian digunakan untuk membuat peta geometri melestarikan dari pengamatan di ruang dimensi yang lebih rendah [30].
Isometrik pemetaan mendatang kendala pada aspek menemukan peta yang melindungi global, geometri nonlinear dari data. Dua
jenis poin didefinisikan dalam Isomap: poin tetangga dan poin jauh. Untuk tetangga titik pasang, jalur antara mereka diperkirakan
oleh jarak Euclidean, sedangkan jarak antara pasangan titik yang jauh diperkirakan dengan menambahkan jarak antara hop
singkat antara titik tetangga.
Untuk satu set data yang diberikan, Isomap pertama membangun grafik lingkungan dengan secara acak memilih poin r
menjadi node dalam grafik dan menggunakan tetangga terdekat mereka untuk membentuk hubungan antara semua titik dalam
radius ε. Berikutnya, menghitung jarak grafik antara node dengan terlebih dahulu menetapkan bobot untuk koneksi menggunakan
dikan dis Euclidean dan menjumlahkan bobot link di sepanjang jalur terpendek antara node. Dalam langkah-langkah akhir,
Isomap menemukan dimensi yang lebih rendah embedding berdasarkan jarak grafik d
ij
skala dimensi (MDS). MDS menghitung vektor fitur dalam ruang dimensi yang lebih rendah yang meminimalkan fungsi stres:
S = min
d
√√√√√√

Σ)
i <j
(2
d
ij
Σ
i <j
Y ij
-)
d
ijG
2G
dimana d

(d
ij Y
ij
dan data ini yang
berpasangan d

Y
ij G
adalah jarak Euclidean antara vektor fitur i dan j adalah monoton utama kuadrat-regresi jarak Euclidean dan jarak grafik [31].
dalam karya ini, jumlah komponen yang ditemukan oleh PCA digunakan untuk memperkirakan jumlah komponen
3.5. spektral embedding (SE)
spektral embedding, juga dikenal sebagai Laplacian Eigenmaps, adalah teknik pengurangan dimensi non-linear menggunakan
Laplacian dari grafik berdasarkan topologi set data proyek non-linear dengan cara yang optimal melindungi informasi lingkungan
lokal dan menekankan struktur pengelompokan dalam data [32] data. grafik adjacency digunakan oleh SE dibuat menggunakan
tances dis berpasangan antara titik-titik data pada ak tetangga -nearest grafik. Setelah
menggunakan ordinal m ulti-
grafik didefinisikan, kita menghitung embedding non-linear data dengan dekomposisi eigenvalue:
Lf = Df
Silakan mengutip artikel ini dalam pers sebagai: MC Thomas, et al, Data mining dan clustering di database proses kimia untuk
pemantauan dan. penemuan pengetahuan, J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006
PASAL DALAM PERS G Model JJPC-2122; Jumlah Halaman 16
6 MC Thomas et al. / Jurnal Pengendalian Proses xxx (2017) xxx-xxx
Gambar. 5. seri plot Waktu untuk kapal anggota cluster yang dipilih DR dan clustering hasil. Dalam (a), cluster ditemukan oleh
DBSCAN sebagian besar sesuai dengan set asli dari simulasi TEP kecuali dengan beberapa data diberhentikan sebagai “suara”;
(b) menunjukkan DBSCAN data dikurangi dengan PCA, yang kehilangan informasi memisahkan Patahan 4 dan 14 dari normal
dalam proyeksi; (c) menunjukkan k-means tentang No DR, kelompok besar data yang tidak benar terkait dengan normal; Dalam
(d), hasil DBSCAN dan embedding spektral, sebuah ARI tinggi dihitung, tetapi beberapa kelompok Patahan dibagi menjadi
beberapa kelompok.
Dimana L adalah Laplacian grafik dan D adalah cal- gelar matriks culated dengan menjumlahkan baris dari matriks afinitas
tertimbang [33]. Embedding titik i data dalam m berdimensi ruang Euclides berasal dari vektor eigen m:
x
i
tehnik k-means, DBSCAN, berarti pergeseran, dan BIRCH dipilih untuk skalabilitas dan kemampuan untuk menemukan cluster
yang sesuai dengan daerah kepadatan tinggi di data mereka . Yang terakhir tiga teknik mencari cluster berdasarkan kepadatan,
dan karena itu memiliki kemampuan untuk menemukan cluster dari setiap bentuk sewenang-wenang. Perlu dicatat bahwa semua
teknik yang diterapkan → (f
1
(i),..., F
m
(i))
di sini mempertimbangkan setiap data pengukuran untuk mandiri waktu,
The eigendecomposition grafik Laplacian telah pra
asumsi dengan kerugian dibahas dalam Bagian 8.
viously digunakan untuk clustering dalam algoritma pengelompokan spektral. Pengelompokan metode yang dikembangkan oleh
Shi dan Malik [34] dan Ng et al.
4.1. K-means [35] antara lain mulai dengan melakukan
posisi decom- eigen pada Laplacian grafik untuk menanamkan data, diikuti oleh
K-cara menciptakan K centroid awal yang dipilih,
sesuai dengan K-means untuk menghasilkan cluster. Dalam ruang bagian yang clus-
jumlah cluster yang diinginkan. Setiap titik dalam
dataset ditugaskan kerangka tering belajar di sini, embedding spektral digunakan untuk
ke centroid terdekat, dan pusat massa setiap cluster
diperbarui pengurangan dimensi sementara beberapa teknik yang berbeda untuk
setiap iterasi berdasarkan poin-poin ditugaskan untuk
cluster. K-means clustering data diuji untuk langkah clustering. Seperti ICA dan
hanya menemukan cluster bola dalam data [36]. K-
berarti masih salah satu Isomap, jumlah PC yang digunakan oleh model PCA digunakan untuk
algoritma yang paling banyak digunakan untuk
clustering karena kesederhanaan dan menentukan jumlah variabel skor output dengan SE.
Efisiensi [9] dan diakui sebagai salah satu dari 10 algoritma data mining oleh IEEE [37]
4. Data pengelompokan
Mengingat jumlah tertentu cluster dalam data sampel, K- berarti algoritma untuk meminimalkan jumlah kesalahan kuadrat
(SSE )
tujuan dari clustering data adalah klasifikasi terawasi
antaramasing-masing berarti
k
data ke dalam kelompok sekitar homogen atau cluster berdasarkan kemiripan ukuran dipilih sedemikian rupa sehingga kesamaan
antara objek dalam subkelompok lebih besar dari kesamaan antara objek milik subkelompok yang berbeda [4 ]. Dengan
menggunakan data clustering, peristiwa penting dalam proses database sejarah dapat diidentifikasi dan dihubungkan dengan
kondisi operasi yang berarti dalam tanaman. The tech-
diberikan oleh:
SSE (C) =
tiap cluster c

K
Σ
k=1
x
i
x
i
-
k
2
∈ c
k
Meminimalkan fungsi tujuan SSE masalah NP-keras, sehingga K-berarti akan bertemu untuk minimum lokal [9]. Tasi yang
implemen- digunakan di sini secara acak memilih k poin dari kumpulan data dan
Silakan mengutip artikel ini dalam pers sebagai:. MC Thomas, et al, Data mining dan clustering di database proses kimia untuk
pemantauan dan penemuan pengetahuan, J. Process Control (2017 ), http://dx.doi.org/10.1016/j.jprocont.2017.02.006
PASAL DALAM PERS G Model JJPC-2122; Jumlah Halaman 16
MC Thomas et al. / Jurnal Pengendalian Proses xxx (2017) xxx-xxx 7
Gambar. 6. Proyeksi dalam data dapat memberikan wawasan ke perilaku kesalahan yang berbeda, dan apa klaster algoritma yang
menemukan. Proyeksi PCA data diwarnai oleh kelompok kesalahan mereka benar dalam (a). Kita dapat memperbesar data
dikelompokkan sekitar normal dalam (b) untuk melihat bahwa beberapa kesalahan terjadi secara eksklusif dekat dan di sekitar
operasi normal. Clustering dengan k-means (c) dan DBSCAN (d) menempatkan beberapa kelompok, meskipun masalah dengan
data yang tidak terkait dan data kebisingan tetap tantangan.
Gambar. 7. Proses Sederhana aliran lembar.
mengatur titik-titik ini sebagai pusat massa awal jumlah yang ditentukan cluster algoritma harus menemukan. Semua poin yang
ditugaskan untuk cluster dengan menghubungkan dengan pusat massa terdekat. Kemudian massa dari masing-masing cluster
kemudian dihitung dan menjadi mean baru. Sekali lagi, semua titik ditugaskan untuk cluster dengan berasosiasi dengan rata-rata
baru terdekat. Langkah di atas diulang sampai konvergensi tercapai.
4.2. DBSCAN
berbasis Density pengelompokan menempatkan daerah kepadatan tinggi dari setiap bentuk yang dipisahkan satu sama lain
oleh daerah kepadatan rendah. DBSCAN membagi semua data dalam satu set menjadi tiga kelompok: Inti poin yang membentuk
tubuh cluster, titik perbatasan di lebih daerah sekering dif- dari data tapi dekat beberapa poin inti, dan titik noise
Silakan mengutip artikel ini dalam pers sebagai :. MC Thomas, et al, data mining dan clustering di database proses kimia untuk
pemantauan dan penemuan pengetahuan, J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006
PASAL DI PRESS G Model JJPC-2122; Jumlah Halaman 16
8 MC Thomas et al. / Jurnal Pengendalian Proses xxx (2017) xxx-xxx
Gambar. 8. Proyeksi 9 bulan data dari menara pemisahan menggunakan (a) PCA (b) ICA, dan (c) Isomap (d) SE. PCA dan ICA
melestarikan kepadatan operasi normal, sementara Isomap semburan operasi normal menjadi kelompok-kelompok kecil. SE
memisahkan data dengan baik, tetapi proyeksi tersebut kurang intuitif.
jauh dari kelompok terkonsentrasi data. DBSCAN cocok untuk mengelompokkan data yang proses kimia, karena cluster di set
data real jarang bulat, dan sering tertutup oleh suara [36].
Dalam algoritma DBSCAN, cluster didefinisikan sebagai set poin kepadatan-terhubung, dan dipisahkan oleh daerah kepadatan
objek yang lebih rendah. Dua parameter yang digunakan untuk menentukan cluster di DBSCAN: ε, ambang jarak dan minPts,
yang ber NUM minimum poin untuk membentuk sebuah cluster. Mengingat ε dan minPts, setiap titik dikategorikan sebagai inti,
kebisingan, atau titik perbatasan. Sebuah titik inti didefinisikan jika ada lebih dari jumlah tertentu poin (minPts) dalam dalam
ambang jarak (ε). Sebuah titik data titik perbatasan jika jumlah titik dalam lingkungan yang kurang dari minPts tetapi terletak di
dalam lingkungan dari titik inti. Setiap poin tidak termasuk dalam poin dan poin perbatasan inti didefinisikan sebagai suara [38].
DBSCAN dimulai dengan titik awal yang sewenang-wenang yang belum dikunjungi. Jika titik puas dengan definisi titik inti, ter
clus- dimulai. Semua poin yang ditemukan dalam ε-lingkungan ditambahkan ke gugus ini. Proses berlanjut sampai sebuah cluster
com- pletely dikembangkan. Kemudian, titik yang belum dikunjungi baru diproses. Karena sifat dari algoritma, itu adalah kuat
untuk data yang bising karena sejumlah kecil outlier dapat secara otomatis didefinisikan sebagai kebisingan.
4.3. BIRCH
Berbeda dari metode pengelompokan dibahas sebelumnya, BIRCH menemukan subclusters data dan mengembun mereka ke
dalam data vektor tiga elemen. The Clustering Fitur (CF) vektor dari ters subclus- digabungkan menggunakan struktur pohon
khusus untuk menghasilkan cluster output. Pendekatan ini memberi keuntungan BIRCH lebih teknik pengelompokan lain,
terutama dalam komputasi environ- ment dengan sumber daya memori terbatas [39]. Dikombinasikan CF pohonmemperlakukan
dan vektor pendekatan daerah padat data sebagai vektor tunggal, dan dapat memungkinkan BIRCH untuk mendapatkan
pengelompokan data dengan satu scan input data. Dengan kata lain, keputusan untuk menggabungkan dan cluster perpecahan
yang dibuat secara lokal, tanpa perlu menghitung jarak berpasangan atas seluruh data set.
Vektor CF mewakili subclusters individu direpresentasikan
sebagai CF
=)
di mana N adalah jumlah titik data dalamclus-,
ter

(→
→ N,
LS,
SS
Σ

N i = 1 dan
LS → SS adalah adalah jumlah linear N titik data Σ
dihitung dengan
X
i
Birch dengan jumlah persegi dihitung secara akurat dan secara bertahap dari
menggabungkan N
i=1
X2 i subclusters. CF vektor memungkinkan data dalam struktur pohon CF [39].
Sebuah titik data baru atau subcluster X
i
ditambahkan ke pohon dengan mulai-ing pada akar dan turun pohon CF dengan memilih
cabang terdekat berdasarkan jarak yang dipilih metrik, seperti Euclidian. pada simpul daun, tes pertama BIRCH apakah X
i
dapat dimasukkan ke dalam salah satu dari yang subclusters lain yang hadir pada daun.
Jika node daun dapat menyerap X
i,
node daun vektor CF diperbarui dengan data dari X
i,
tetapi jika tidak node perpecahan baru dibuat pada daun
menggunakan sepasang terjauh entri sebagai biji. operasi tambahan memperbaiki cluster yang muncul dari pendekatan ini seperti
yang dijelaskan dalam [3 9]
4.4. Berarti pergeseran pengelompokan
Berarti pergeseran pengelompokan adalah formulasi kepadatan probabilitas dari masalah clustering. Sebagai contoh, dalam
dua dimensi probabil- ity kepadatan fungsi struktur (PDF) bentuk seperti gunung di sekitar cluster, dengan lereng dan puncak di
daerah kepadatan tertinggi di cluster dengan meningkatnya kepadatan cluster puncaknya. Berarti pergeseran pengelompokan
menggunakan teori estimasi kepadatan probabilitas untuk membuat
Silakan mengutip artikel ini dalam pers sebagai:. MC Thomas, et al, Data mining dan clustering di database proses kimia untuk
pemantauan dan penemuan pengetahuan, J. Process Control (2017) , http://dx.doi.org/10.1016/j.jprocont.2017.02.006
PASAL DALAM PERS G Model JJPC-2122; Jumlah Halaman 16
MC Thomas et al. / Jurnal Pengendalian Proses xxx (2017) xxx-xxx 9
Gambar. 9. hasil pengelompokan Berbeda dari Tabel 8 diproyeksikan menggunakan PCA dan menggunakan 3 PC pertama. It
must be noted that higher dimensional data was used for clustering, not just the 3 PCs given in this figure. In (a) and (b) k-means
with k = 2 and 3 respectively both split the normal cluster, in the k = 2 case it erroneously grouped faulty and normal data
together. K-means with k = 3 in (b), DBSCAN in (c), and Meanshift in (d) each successfully assigned the faulty data its own
cluster.
Fig. 10. Adjustments to the eps parameter in DBSCAN finds the smaller clusters in (a). In (b) coloring the resulting data based on
time (blue is older, yellow is newer with dark red being the most recent) reveals that each use of the separation tower at this grade
forms a distinct new cluster, which poses a challenge to the training of a data model. (For interpretation of the references to
colour in this figure legend, the reader is referred to the web version of this article.)
clusters using the mean shift procedure first introduced by Fuku- naga and Hostetler [40].
The most widely used nonparametric technique for finding an estimation of the PDF for a set of data is kernel density
estimation. For data X
i
Where K is a kernel function, h is the bandwidth or window width, and d is the number of dimensions in the data [41]. Selection
of the bandwidth is a crucial parameter for mean shift clustering. In our application we calculated acceptable results using a
heuristic based i = 1, . . ., n, the multivariate kernel estimator with kernel
on the median of pairwise distances. The selection of
the kernel K is defined as:
also affects results, but the common normal or Gaussian kernel K
N is usually most effective

(x) =
1
n∑
(
x−X
i
)
nhd
hi=1
K
Please cite this article in press as: MC Thomas, et al., Data mining and clustering in chemical process databases for monitoring
and knowledge discovery, J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006
ARTICLE G Model JJPC-2122; No. of Pages 16 IN PRESS 10 MC Thomas et al. / Journal of Process Control xxx (2017) xxx–
xxx
Table 1 Clustering Metrics used to compare the quality of clustering results.
1 when. . .
Homogeneity All clusters contain data from a single class Completeness Members of a class are elements of the same cluster V-
measure Harmonic mean of homogeneity and completeness ARI (-1 to 1) Cluster labels match true labels (0 for random
labelling)
Mean shift clustering first finds the zeros of ˆ∇ f (x), which corre- spond to local maxima and minima of the PDF. Towards
this goal, we used the mean shift vector:
m (x) =
Where H(C|K) is the conditional entropy of the classes given the cluster assignments, and H (C) is the entropy of the classes:
H (C|K) = −
[
n
c,kn
(
n
c,kn
k
)]
H (C) = −
|C|∑
c=1
|K|∑
k=1
· log
|C|∑
n
cn
· log
(
n
c
)
nc=1

ni=1
(
) x−xh
i
where n is the total number of data points, n
c,k
is the number of

n
x
i
g
(
data points that are members of class c and cluster k, n
c
i=1
2
x−x
ih
and n
k
are
)
−x
i
the number of data points in class c and cluster k respectively.
Finally, we judge the similarity of a given clustering result to the true clusters of data using the Adjusted Rand Index (ARI) of
Hubert and Arabie [45]. In this study we calculate the ARI by the equation Where g is defined as
g (x) = −k (x)
ARI = Which arises from the “shadow” of the kernel K, a
concept intro- duced by Cheng [42]. The resulting mean shift vector always points towards the direction of maximum increase in
probability density, and following the mean shift vector through the PDF leads us to a zero of
g
2
(
n
ij
2
)

(
n
i
2
)

j
(
n
j
2
)
/
(
n2
)
12

i,j

i(

i
(
n
i.
2
)
+

(
n
.j
))
−2

(
n
i.
)

(
n
.j
j
i
2
j
2
)
/
(
n2
)
where two clusterings of the data, U and V, are compared. The
ˆ∇ f (x). Derivations and additional details about the mean shift procedure can be found in Fukunaga and Hostetler [40] and
indices n
·j
i and j refer to groups within U and V respectively: n

and
Cheng [42].
In the mean shift clustering approach presented by Comaniciu and Meer [43], clusters arise from this mode seeking process.
All the points visited by each execution of the mean shift procedure are associated in the cluster corresponding to the local
maximum the procedure converges upon.
4.5. Supervised cluster evaluation
Almost every clustering algorithm will find clusters in a data set, even if that data set has no natural cluster structure. Cluster
evalu- ation metrics are important to give an idea of the validity of a given clustering generated by an algorithm. This study uses
four cluster evaluation metrics: homogeneity, completeness, V-measure [44], and Adjusted Rand Index (ARI) [45]. Each metric
gives the output of a clustering algorithm a score from 0 (corresponding to a poor or random clustering) to 1 calculated from the
cluster labels and the correct labels of the data, meaning that these metrics can be con- sidered supervised. A brief summary of
these clustering metrics is given in Table 1.
Homogeneity determines whether data points defined in the same cluster are from the same single class. The score is between
0 to 1, where 1 represents for perfectly homogeneous labelling. Com- pleteness determines whether data from the same single
group is defined in the same cluster. The score is between 0 to 1, where 1 represents for perfectly complete labelling. V-measure
is the har- monic mean between homogeneity and completeness. Formulas for homogeneity, completeness, and V-measure are:
h=1−
refer to the number of objects in class u
i
in U and class v
j
in V. The contingency table in Hubert and Arabie [45] fully
illustrates this notation.
Fig. 2 illustrates the meaning of the various clustering metrics using the Fischer Iris data set [46]. The Iris data is composed of
3 species of flowers, and Fig. 2 gives several possible clustering results found by K-means similar to good and bad clustering
results: 1. all data in one cluster, 2. Data is separated into many clusters, and 3. Data is separated into 3 clusters (which closely
match the true clusters). The sample cases in Fig. 2 illustrate how homogeneity and completeness give us insight into how the
clusters separate the data, particularly their relative size to each other, whether they might be too general or too specific. ARI
gives an evaluation of how accurately the clustering results capture the true grouping of the data (assuming the true clusters are
known).
5. Specification of parameters
Each DR and clustering technique had one or more parameters which needed to be specified. The determination of parameters
has a big effect on clustering performance and finding parameters is often a trial and error process. Here we use consistent rules
to deter- mine cluster parameters to avoid tuning to the data. In order to set some benchmark in finding cluster parameters, in
some cases we did not attempt to avoid using our knowledge of the sets, such as k-means where we took the number of clusters
to be the number of groups known to be in the data. All data studied was first nor- malized to zero mean and unit variance before
DR and clustering.
The parameters used for each clustering technique were:
H (C|K)
• DBSCAN: minPts was fixed at 10, while eps was
determined using H (C)
the k-nearest neighbors (kNN) graph as suggested by Ester et al. [38]. We used 95th and 70th percentile for the tower and TEP
c=1−
HH (K|C)
(K)
data sets respectively.
• BIRCH: the cluster diameter threshold was determined heuristi- cally using the eps parameter found from the DBSCAN kNN
result. The branching factor had a limited effect on results and was set
v=2·
h·Ch+C
at 50.
• K-means: the number of clusters was fixed as the number of TEP faults that were known to be in the data (8 for the reduced set,
20
Please cite this article in press as: MC Thomas, et al., Data mining and clustering in chemical process databases for monitoring
and knowledge discovery, J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006
ARTICLE G Model JJPC-2122; No. of Pages 16
IN PRESS MC Thomas et al. / Journal of Process Control xxx (2017) xxx–xxx 11
for the full set). In the tower data set, results were obtained for 2 and 3 clusters.
• The bin width parameter of Meanshift was fixed using the method of Comaniciu and Meer [43], meaning that our Meanshift
imple- mentation had no parameter that needed to be tuned by the user, an advantage for unsupervised learning tasks.
The dimensionality reduction techniques used also required some parameters to be specified:
• PCA: Cross validation was used such that 95% of the variance was preserved in the projection.
• KPCA: we used the average eigenvalue approach utilized by Lee et al. [21] which accepts al components with eigenvalues
above the average eigenvalue.
• ICA, Isomap, and SE each required an estimate of the intrinsic dimensionality for the projection. In practice this can be diffi-
cult to estimate, so as a benchmark we used the same number of components as PCA.
The clustering results in the following sections present the ARI (accuracy) and other metrics of clusterings of process data
using the parameter specifications above. It should be noted that in a clustering study without any a priori knowledge of the true
data groups, ARI cannot be calculated. Without true cluster labels, only unsupervised clustering metrics like the Davies-Bouldin
Index [47] provide a benchmark for the usefulness of a clustering of the data.
6. Case 1: Tennessee Eastman Process
6.1. Tennessee Eastman Process (TEP) description
First introduced as a process control challenge problem by Downs and Vogel [48], the TEP is a realistic simulation based on a
real chemical process and has become an important benchmark in the evaluation of process control and process monitoring tech-
niques. The process uses four gaseous reactants (A, C, D, and E) to produce two liquid products (G and H) in competition with an
unwanted by product (F) and in the presence of an inert (B). There are four competing reactions related to temperature through
Arrhenius laws, two producing desired products, the others pro- ducing the byproduct. The entire simulation includes five unit
operations: a reactor, condenser, separator, compressor, and a stripper and has 41 measured variables along with 12 manipulated
variables for a total of 53 process variables. Downs and Vogel [48] also defined 20 disturbances or faults for the challenge
process (see Table 2).
The data was generated using the control scheme and Simulink code from Ricker [49], who applied a decentralized control
strategy to the process which involved partitioning the plant into subunits and the creation of a controller for each. The process
flow sheet and controller scheme is given in Fig. 3.
In initial clustering studies including faults with random vari- ations like Fault 13 (slow drift in kinetics), the dynamical faults
primarily contributed noise without forming the dense groups that can be found by data clustering. Therefore, in addition to the
full data set with fault data sets, we studied a reduced dataset in more detail. The reduced dataset primarily contained step change
faults with fewer time varying dynamics that could obfuscate our anal- ysis. The reduced data set consists of data from faults 0, 1,
2, 4, 6, 7, 8, and 14, with 8 and 14 possessing time varying dynamics that might be more challenging to learn than the step faults.
The goal in our study of clustering and dimensionality reduction on the TEP is to study how effectively different approaches
to clus- tering extract different process operating regimes from the data.
Table 2 TEP process faults description.
Fault No. Description Type
1 A/C Feed Ration, B Composition
Constant (Stream 4)
Step
2 B Composition, A/C Ratio Constant
(Stream 4)
Step
3 D Feed Temperature (Stream 2) Step 4 Reactor Cooling Water Inlet
Temperature
Step
5 Condenser Cooling Water Inlet
Temperature
Step
6 A Feed Loss (Stream 1) Step 7 C Header Pressure Loss – Reduced
Availability (Stream 4)
Step
8 A, B, C Feed Composition (Stream 4) Random Variation 9 D Feed Temperature (Stream 2) Random Variation 10 C Feed
Temperature (Stream 2) Random Variation 11 Reactor Cooling Water Inlet
Temperature
Random Variation
12 Condenser Cooling Water Inlet
Temperature
Random Variation
13 Reaction Kinetics Slow Drift 14 Reactor Cooling Water Valve Sticking 15 Condenser Cooling Water Valve Sticking 16
Unknown 17 Unknown 18 Unknown 19 Unknown 20 Unknown
In contrast to the separation tower study discussed later where the data contain one large normal cluster and a much smaller fault
cluster, the data set studied contains a variety of differ ent behaviors including step changes, random variations, and other plant
trends. An additional advantage to using the simulation is that the ground truth classes are known with certainty, again enabling
the use of supervised cluster evaluation metrics.
6.2. Normal and fault 1: basic case
We first demonstrate our proposed approach to clustering in a simple case with two simple operating regimes: normal
operations and Fault 1, which is a step change in one of the feeds to the process. Here, we would expect the clustering algorithm
to reproduce the groups in the data that might be difficult to find without projection and clustering. We project the data using
PCA and DBSCAN for this example, but any technique in this paper could accomplish this task.
Fig. 4a projects the data to 3 principal components, showing the dense cluster corresponding to normal operations as well as
the transition to Fault 1 s steady state. Fig. 4b shows the result of DBSCAN applied to the data set. Blue corresponds to the faulty
data, green is the normal cluster, and the black data is identified by the DBSCAN algorithm as noise. Fig. 4c and d point to how
to use clustering results to reveal knowledge from data sets. Coloring a time series plot of the evolution of the Stream 4 flow with
the clus- ters found by DBSCAN, green, blue, and noise groups (black) can be clearly connected to changes in Stream 4 and
studied as separate process states. This result can reveal the dominant behavior of each cluster and, if the ultimate goal is the
creation of a process mon- itoring algorithm, exploited to separate normal and faulty groups for training.
6.3. Reduced TEP data set
We consider a reduced data set consisting of TEP faults 0, 1, 2, 4, 6, 7, 8, and 14 because the results are simpler to analyze
and visualize than a data set including all 20 TEP faults studied in Sec-
Please cite this article in press as: MC Thomas, et al., Data mining and clustering in chemical process databases for monitoring
and knowledge discovery, J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006
ARTICLE G Model JJPC-2122; No. of Pages 16 IN PRESS 12 MC Thomas et al. / Journal of Process Control xxx (2017) xxx–
xxx
Table 3 Number of components used by DR projections in clustering TEP data.
PCA ICA KPCA Isomap SE
Reduced 7 7 8 7 7 Full 9 9 11 9 9
Table 4 Clustering Results on reduced TEP data set.
Reduced data set
DBSCAN K-means Mean Shift BIRCH
NO DR Homogeneity 0.86 0.60 0.43 0.56 Completeness 0.86 0.81 0.79 0.85 V-measure 0.86 0.69 0.56 0.68 ARI 0.81 0.40 0.24
0.36
DBSCAN K-means Mean Shift BIRCH PCA Homogeneity 0.66 0.60 0.57 0.58 Completeness 0.88 0.81 0.81 0.85 V-measure
0.76 0.69 0.67 0.69 ARI 0.53 0.41 0.38 0.39
DBSCAN K-means Mean Shift BIRCH ICA Homogeneity 0.67 0.69 0.44 0.69 Completeness 0.85 0.82 0.73 0.83 V-measure
0.75 0.75 0.54 0.75 ARI 0.52 0.56 0.24 0.56
DBSCAN K-means Mean Shift BIRCH KPCA Homogeneity 0.65 0.68 0.36 0.69 Completeness 0.68 0.78 0.71 0.79 V-measure
0.66 0.72 0.48 0.74 ARI 0.45 0.47 0.17 0.49
DBSCAN K-means Mean Shift BIRCH Isomap Homogeneity 0.80 0.70 0.53 0.71 Completeness 0.87 0.81 0.83 0.89 V-measure
0.83 0.75 0.65 0.79 ARI 0.72 0.58 0.37 0.57
DBSCAN K-means Mean Shift BIRCH SE Homogeneity 0.81 0.81 0.33 0.74 Completeness 0.73 0.86 0.58 0.79 V-measure 0.77
0.84 0.42 0.76 ARI 0.65 0.68 0.15 0.61
tion 6.1.3. Most of these faults are step changes that are simpler to detect, but faults 8 and 14 express dynamic, non-linear varia-
tions that do not form into a dense group, and might disrupt the clustering of other data. All data studied were first normalized to
zero mean and unit variance with respect to normal operations, which is common with plant data due to the overabundance of
data from normal operations. Table 3 gives the number of components used by each DR technique in calculating clustering
results accord- ing to the heuristics given in Section 5. Clustering results were also calculated without using any DR to evaluate
how important dimen- sionality reduction is to preserving the clustering structures in the data.
Table 4 gives the cluster evaluation results of four data clustering techniques and DR techniques (including a “No DR” case
where we cluster the data with all variables monitored). The best homogene- ity, completeness, V-measure, and ARI observed on
each data set is bolded. The highest ARI, and therefore, the most accurate recon- struction of the original TEP classes was
DBSCAN working without dimensionality reduction. DBSCAN successfully found groups of all step faults except Fault 7, and
even grouped data from valve sticking in Fault 14. Data from Fault 8 (random feed composition variations) was all classified into
the “noise”, which may favorably skew the clustering metrics. In some cases k-means was close to or better than DBSCAN, but
overall DBSCAN performed the best over most DR techniques. Mean shift clustering performed relatively poorly compared to
the other clustering techniques across all DR methods.
Based on the mean shift clustering's' relatively low homogeneity and high completeness, we can deduce that the algorithm is fre-
quently grouping together unrelated data, a disadvantage shared by k-means. This behavior is visualized in Fig. 6c.
While the highest ARI observed was calculated by DBSCAN applied to the full data set with no DR, in general projection
improved clustering results for other clustering techniques. In comparing the different dimensionality reduction results, the non-
linear dimensionality reduction techniques SE and Isomap generally outperformed the matrix decomposition methods (PCA,
ICA, and KPCA). This agrees with the finding of van der Maaten [24] who observed that non-linear dimensionality reduction
methods were generally better at DR on artificial data sets. Less consistent results were observed on results on the Tower data set
in Section 7.
In addition to evaluations of the overall clustering, we can use a time series plot of cluster membership where vertical position
indi- cates cluster membership to evaluate how well the individual faults were learned. Fig. 5a–d gives a sampling of cluster
series plots. Clus- ters found by DBSCAN with No DR largely correspond to the original sets from the TEP simulation, though
transitions between steady states as well as all of Fault 8 and some of Fault14 were designated as “noise”. In Fig. 5b, DBSCAN
with PCA finds many of the same clusters but incorrectly combined data from faults 4, 6, and 14. In the simulation, Fault 4 and
14 both affect the cooling water of the
Please cite this article in press as: MC Thomas, et al., Data mining and clustering in chemical process databases for monitoring
and knowledge discovery, J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006
ARTICLE G Model JJPC-2122; No. of Pages 16
IN PRESS MC Thomas et al. / Journal of Process Control xxx (2017) xxx–xxx 13
Table 5 Data clustering and DR applied to the full TEP data set.
Full data set
DBSCAN K-means Mean Shift BIRCH
NO DR Homogeneity 0.40 0.44 0.29 0.39 Completeness 0.80 0.72 0.69 0.74 V-measure 0.54 0.54 0.41 0.51 ARI 0.15 0.11 0.06
0.08
DBSCAN K-means Mean Shift BIRCH PCA Homogeneity 0.37 0.45 0.29 0.44 Completeness 0.84 0.71 0.69 0.73 V-measure
0.52 0.55 0.41 0.55 ARI 0.15 0.12 0.06 0.12
DBSCAN K-means Mean Shift BIRCH ICA Homogeneity 0.37 0.46 0.33 0.44 Completeness 0.80 0.71 0.68 0.71 V-measure
0.51 0.56 0.44 0.54 ARI 0.15 0.12 0.08 0.11
DBSCAN K-means Mean Shift BIRCH KPCA Homogeneity 0.33 0.43 0.17 0.36 Completeness 0.57 0.53 0.59 0.58 V-measure
0.42 0.47 0.26 0.44 ARI 0.11 0.17 0.03 0.11
DBSCAN K-means Mean Shift BIRCH Isomap Homogeneity 0.40 0.45 0.28 0.39 Completeness 0.76 0.69 0.70 0.75 V-measure
0.52 0.55 0.40 0.52 ARI 0.15 0.13 0.06 0.09
DBSCAN K-means Mean Shift BIRCH SE Homogeneity 0.50 0.52 0.31 0.52 Completeness 0.62 0.54 0.73 0.54 V-measure 0.55
0.53 0.43 0.53 ARI 0.17 0.33 0.10 0.31
reactor, so the PCA clustering results suggest that PCA removed the information in the cooling water temperature sensor's data.
Figs. 6a–d provide a view of how dimensionality reduction affects the data being clustered using a PCA projection to the first
3 components. However, recall that in the practical case where data labels are not known, the comparison between clustering
results and true labels typically is not possible without more knowledge of the data set. Coloring the data by cluster, as in Fig. 6a,
gives us further insight into the results in Table 4. Fig. 6b shows a detail of the cluster from normal operations where we can see
the close- ness of normal data and data from Faults 2, 4, 14. Fig. 6c shows how K-means attempts to fit the data into
hyperspherical clusters, which causes long, narrow transitions between steady states to be grouped into different clusters. Fig. 6d
shows how DBSCAN effec- tively identifies dense groups of related data but removes most data from transitions as noise.
6.4. Full TEP data set
Finally, Table 5 shows DR/clustering results over the full TEP data set consisting of behavior from all 20 Faults. As might be
expected, the results are lower owing to the greatly increased complexity of the data. While all ARI are low and closer to 0
(corresponding to random cluster labels) that in the reduced data set, SE reduced data yielded the highest ARI values across all
clustering techniques. Mean shift clustering consistently yielded ARI values close to zero, corresponding to random cluster
labels, while k-means and BIRCH (with SE) yielded the highest metrics.
Table 6 Process measurements.
Variable Name Description
F1 Feed to upstream reactor T1 Tank1 Temperature P1 Tank 1 feed pressure P2 Tank1 pressure L1 Tank1 level T2 Tower feed
temperature T3 Middle Tower temperature L2 Tower level T4 Tower overhead temperature T5 Cooling water temperature T6
Tower overhead temperature P3 Overhead Pressure 3 F2 Bottoms flow T7 Bottoms temperature T8 Bottoms Product temperature
SG Specific gravity sensor F3 Total Overhead product flow F4 Non-recycle overhead product flow T9 Overhead Product
temperature P4 Vapor Purge L3 Tank 2 Level
7. Case 2: industrial separation tower
7.1. Industrial separation tower description
The data used in this study came from an industrial scale reactor and separation system as shown in Fig. 7, with the
measurements indicated explained in Table 6. The feed to the system is produced by a reactor upstream and varies depending on
the petroleum grade fed. The reactor and separation system is fed a number of different grades, including “standby” grades thus
leading to number of start-
Please cite this article in press as: MC Thomas, et al., Data mining and clustering in chemical process databases for monitoring
and knowledge discovery, J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006
ARTICLE G Model JJPC-2122; No. of Pages 16 IN PRESS 14 MC Thomas et al. / Journal of Process Control xxx (2017) xxx–
xxx
Table 7 Number of components used by DR projection in clustering Tower data.
PCA ICA KPCA Isomap SE
12 12 6 12 12
Table 8 Supervised clustering metrics on tower data set.
DBSCAN K-means K-means Mean Shift BIRCH*
(k = 2) (k = 3)
No DR Homogeneity 0.63 0.07 0.59 0.43 0.88 Completeness 0.25 0.03 0.24 0.23 0.09 V measure 0.36 0.05 0.34 0.30 0.16 ARI
0.40 0.08 0.25 0.40 0.02
DBSCAN (k = 2) (k = 3) Mean Shift BIRCH* PCA Homogeneity 0.64 0.07 0.59 0.42 0.87 Completeness 0.20 0.04 0.24 0.23
0.09 V measure 0.31 0.05 0.34 0.30 0.16 ARI 0.25 0.08 0.25 0.37 0.02
DBSCAN (k = 2) (k = 3) Mean Shift BIRCH*
ICA Homogeneity 0.44 0.00 0.51 0.43 0.86 Completeness 0.28 0.00 0.21 0.21 0.08 V measure 0.34 0.00 0.30 0.28 0.15 ARI 0.46
0.01 0.18 0.34 0.02
DBSCAN (k = 2) (k = 3) Mean Shift BIRCH* Isomap Homogeneity 0.73 0.47 0.59 0.39 0.88 Completeness 0.16 0.68 0.24 0.21
0.09 V measure 0.26 0.55 0.34 0.28 0.16 ARI 0.18 0.67 0.26 0.42 0.02
DBSCAN (k = 2) (k = 3) Mean Shift BIRCH* KPCA Homogeneity 0.31 0.31 0.08 0.18 0.84 Completeness 0.08 0.15 0.03 0.181
0.07 V measure 0.13 0.21 0.04 0.18 0.13 ARI 0.01 0.14 −0.01 0.37 0.01
DBSCAN (k = 2) (k = 3) Mean Shift BIRCH* SE Homogeneit y 0.88 0.02 0.09 0.33 0.98 Completeness 0.12 0.03 0.04 0.15 0.07
V measure 0.21 0.02 0.06 0.20 0.13 ARI 0.06 −0.06 −0.11 0.26 0.01
up conditions during the grade changes. Different grades can result in large differences between many process variables.
Before entering the Tower outlined in Fig. 7, the feed is passed through Tank 1 to remove water. Feed then enters the Tower
at a high temperature and pressure, and a mixture of solvent and prod- uct leaves out the bottoms with extra solvent and any
water leaving out of the top of the column. Tank 2 removes any remaining water before recycling the solvent. To give a sense of
scale, the tower is approximately two stories tall. The specific gravity sensor at the bottom of the column is used to evaluate the
quality of the separa- tion and to manually control the feed to the tower by manipulating the flow of steam to Tank 2. The product
quality specification is loosely based on the composition of the polymer product in the bot- toms of the tower evaluated by the
specific gravity analyzer (SG). The specific gravity is controlled by manipulating the amount of steam fed to Tank 1.
Recently a fault occurred which created changes in many dis- parate process variables and incurred significant financial
losses. Our goal is to isolate data from this fault and distinguish it from the much larger volume of data from normal operations.
We stud- ied about 7 months of measurements from the tower taken at 10 min intervals from one of several different feed
compositions or “grades” fed to the process. The total data set consisted of about 4500 data points.
7.2. Separation tower DR and clustering
The goal of data mining on the tower is to identify the faulty series of data from the fault event among the larger amount of
data from normal operations. Working within the workflow described in Fig. 1, the data will be projected, clustered, and
evaluated using clustering metrics. Here, because expert analysis already deter- mined which data are faulty and which are
normal, we can use supervised cluster evaluation methods. Table 7 gives the number of components used by each DR technique.
Fig. 8a–d show different 3 dimensional projections of data from the tower made by 4 different dimensionality reduction
techniques for visualization of the data. PCA in Fig. 8a and ICA in Fig. 8b yield qualitatively similar projection results and
preserve the density of normal operations. Both have large, dense normal regions in blue and a smaller cluster for the fault event
in red. In contrast, Isomap in Fig. 8c and SE in Fig. 8d break apart the dense normal cluster into smaller clusters (which from Fig.
10b, we can see are related to the time). The data in the faulty group could be straightforwardly linked to a fault event using latent
variable methods and time series plots of the original sensor data.
For data clustering, we study a problem where the faulty period of data was not known beforehand to analyze how effectively
data clustering techniques isolate the faulty data series and check the results against the known groups in the data. Table 8 shows
the
Please cite this article in press as: MC Thomas, et al., Data mining and clustering in chemical process databases for monitoring
and knowledge discovery, J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006
ARTICLE G Model JJPC-2122; No. of Pages 16
IN PRESS MC Thomas et al. / Journal of Process Control xxx (2017) xxx–xxx 15
quality of the dimensionality reduction and data clustering applied to the reduced data set, with great variations in the quality of
clustering. Based on ARI, the true clusters were most accurately recreated by DBSCAN and ICA. Mean shift also performed as
strong as DBSCAN based on ARI. K-means with k = 2 (finding two clusters) yields different information compared to
calculating with k = 3. The reason for this difference is given in Fig. 9a and b: while two is a good guess as to the number of
clusters, in this case k-means incor- rectly divided both clusters, which could also be the result of a poor initialization of the k-
means centroids. Fig. 9c and d also shows that, while DBSCAN and mean shift yielded lower evaluation met- rics than on the
TEP study, the clusters found by most techniques applied captured the essential grouping in the data. However, most found one
or more large clusters for normal as well as separate clusters containing the faulty data. Using the kNN selected BIRCH
parameter for clustering did not work as well on the tower as it did on the TEP data, however using other selections of parameters
may significantly improve BIRCH clustering.
If the time of the fault was not known beforehand, data clus- tering, dimensionality reduction, as well as time series plots of
the original data could be used in tandem to analyze the significance of clusters found, as in the basic approach in Fig. 5. DR
projections to two or three dimensions can display the general clustering struc- ture of the data. The clusters found can be used to
isolate sections of a time series plot of raw sensor data to locate and guide analysis of the data isolated by the cluster algorithm.
Manually adjusting and visualizing this data set produced an interesting finding among the normal data. Applying the
DBSCAN to this data with the eps parameter set to 1 and removing data clas- sified as “noise” by DBSCAN yields the clustering
shown in Fig. 10a, which separates the normal cluster into several smaller clusters. While nothing in particular distinguishes
these clusters from each other, Fig. 10b shows the clusters colored based on the time of observation. Each cluster has a consistent
color, meaning that the dense normal cluster is composed of multiple smaller, time depen- dent clusters. The clusters could be
distinguished by factors not immediately obvious from the sensors such as maintenance oper- ations or the ambient temperature.
A new cluster may be formed during each new run of the tower. This behavior poses a significant challenge to all modelling of
this process because the parameters of the system are gradually and subtly changing with time, requiring models and controls to
be constantly adjusted.
8. A note about time series clustering
A key disadvantage of this work, visible in the results in Fig. 10 for example, is that in our approach we directly cluster time
mea- surements of data and assume all observations are independent from time. Our results demonstrate that assuming time
indepen- dence works effectively in the case of “step faults” where the process switches from one steady state to another,
however, often the time series of process measurements are changing with time. In these dynamic faults the process is unstable or
fluctuating, and assuming time independence of data can fail because data may not form dense, contiguous clusters of data.
Searching for faults with time dependent dynamics requires more advanced time series clustering. Methods for time series
clustering generally modify existing clustering algorithms for time series data or transform the time series data into a form that
allows the application of clustering techniques for static data [50]. However, applying clus- tering approaches to identify
frequently appearing patterns has been shown to be meaningless [51]. Esling and Agon [52] and Wang et al. [53] review many
specialized methods needed for the time series clustering tasks of data representation, similarity measure- ment, and indexing.
Some previous process monitoring studies have considered time series clustering. Srinivasan et al. [54] developed a dynamic
PCA- based similarity factor for clustering transitions between different process states in agile chemical plants. Beaver and
Palazoglu [55] used a moving window clustering algorithm based on PCA to detect process states and transition points disturbed
by a periodic signal. Abonyi et al. [56] developed a fuzzy time series clustering algorithm and applied it to data from a
polymerization reactor. Bo and Hao [57] used qualitative trend analysis for the hierarchical clustering of data from a blast
furnace. Time series clustering is an active area of research [52,53], particularly the multivariate time series clustering that would
be needed to analyze chemical processes [58].
9. Conclusions
This study sought to fill the gap between the need for labelled data for training supervised monitoring algorithms and the raw,
unclassified data that have accumulated in process his- torical databases. We demonstrated how unsupervised learning techniques
drawn from the computer science literature can iden- tify fault states and extract knowledge from chemical process databases. A
selection of dimensionality reduction and data clus- tering techniques identified different operating and fault states in data from
real and simulated chemical processes. On the Tennessee Eastman Process simulation, data clustering and DR functioned in
tandem to isolate data from the different faults in the process, information which could be used to train a supervised classifica-
tion technique for fault detection. On an industrial scale separation tower, data clustering identified a large, dense normal region
cor- responding to normal process operations and distinguished it from data from a fault that had occurred during the months of
opera- tions considered. Further analysis reveals that at the grade studied each start-up of the column formed a new cluster in the
dimension- ally reduced space, as visualized by a PCA projection of the clusters found by DBSCAN.
More ongoing work will study how unsupervised learning can improve process data analytics. While the data clustering tech-
niques in this study performed satisfactorily on the data from the industrial separation tower, further work will study multistate
pro- cesses where the steady state may move more often based on the rate of production or other frequent changes to the process
steady state. Additionally, further tools are needed to leverage process knowledge in explaining the meaning and significance of
clusters, such as identifying which sensors measurements contribute most to the separation between two given clusters. Finally, a
weakness of this research is that supervised clustering metrics were used to evaluate the different clustering strategies which
require labelled process data. The methods used to evaluate the quality of the clusters found are nearly as important as the cluster
algorithms themselves. Several different clustering algorithms may find good clusters in the data, but identifying the right
parameter values for a given technique and data set can be a challenging task. Unsuper- vised clustering metrics can provide
crucial insight into identifying good parameter settings.
References
[1] SJ Qin, Survey on data-driven industrial process monitoring and diagnosis,
Annu. Rev. Control 36 (2012) 220–234. [2] Z. Ge, Z. Song, F. Gao, Review of recent research on data-Based process
monitoring, Ind. Eng. Res. Chem. 52 (2013) 3543–3562. [3] S. Yin, X. Li, H. Gao, O. Kaynak, Data-Based techniques
focused on modern
industry: an overview, IEEE Trans. Ind. Electron. 62 (1) (2015) 657–667. [4] R. Xu, D. Wunsch, Survey of clustering algorithms,
IEEE Trans. Saraf jar.
16 (2005). [5] AK Jain, Data clustering: 50 years beyond K-means, Pattern Recognit. Lett. 31
(2010) 651–666.
Please cite this article in press as: MC Thomas, et al., Data mining and clustering in chemical process databases for monitoring
and knowledge discovery, J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006
ARTICLE G Model JJPC-2122; No. of Pages 16 IN PRESS 16 MC Thomas et al. / Journal of Process Control xxx (2017) xxx–
xxx
[6] L. Chen, SD Brown, Bayesian estimation of membership uncertainty in
model-based clustering, J. Chemom. 28 (2014) 358–369. [7] M. Gardner, J. Bieker, Data mining solves tough semiconductor
manufacturing
problems, in: KDD, Boston, MA, USA, 2000. [8] AJ Torabi, X. Li, BE Lim, GO Peen, Application of clustering methods for
online tool condition monitoring and fault diagnosis in high-Speed milling processes, IEEE Syst. J. 10 (2) (2016) 721–732. [9]
JA Harding, M. Shahbaz, S. Srinivas, A. Kusiak, Data mining in manufacturing:
a review, J. Manuf. Sci. Eng. 128 (2006). [10] SG Munoz, JF MacGregor, Success stories in process industries, Chem. Eng.
Prog. 11 (March (3)) (2016) 36–40. [11] XZ Wang, C. McGreavy, Automatic classification for mining process
operational data, Ind. Eng. Chem. Res. 37 (1998) 2215–2222. [12] Bhushan, Romagnoli, Self-organizing, self-clustering
network: a strategy for
unsupervised pattern classification with its application to fault diagnosis, Ind. Eng. Chem. Res. 47 (2008) 4209–4219. [13] M.
Maestri, A. Farall, P. Groisman, M. Cassanello, G. Horowitz, A robust
clustering method for detection of abnormal situations in a process with multiple steady-state operation modes, Comput. Chem.
Eng. 34 (2010) 223–231. [14] Z. Zhu, Z. Song, A. Palazoglu, Transition process modeling and monitoring
based on dynamic ensemble clustering and multiclass support vector data description, Ind. Eng. Chem. Res. 50 (2011) 13969–
13983. [15] Singhal, Seborg, Clustering multivariate time-series data, in: Proceedings of
the American Control Conference, Anchorage, AK USA, 2005. [16] JF Barragan, CH Fontes, M. Embirucu, A wavelet-based
clustering of
multivariate time series using a multiscale SPCA approach, Comput. Ind. Eng. 95 (2016) 144–155. [17] NF Thornhill, H. Melbo,
J. Wiik, Multidimensional visualization and clustering
of historical process data, Ind. Eng. Chem. Res. 45 (2006) 5971–5985. [18] C. Ding, X. He, K-means clustering via principal
component analysis, in:
Proceedings of 21 st International Conference on Machine Learning, Banff, Canada, 2004. [19] LH Chiang, EL Russell, RD
Braatz, Fault Detection and Diagnosis in
Industrial Systems, Springer-Verlag, London, 2001. [20] J. Lee, C. Yoo, I. Lee, Statistical process monitoring with
independent
component analysis, J. Process Control 14 (2004) 468–485. [21] J. Lee, C. Yoo, SW Choi, PA Vanrolleghem, I. Lee, Nonlinear
process
monitoring using kernel principal component analysis, Chem. Eng. Sci. 59 (2004) 223–234. [22] F. Pedregosa, et al., Scikit-learn:
machine learning in python, J. Mach. Belajar.
Res. 12 (2011) 2825–2830. [23] SJ Qin, Statistical process monitoring: basics and beyond, J. Chemom. 17
(2003) 480–502. [24] L. var der Maaten, E. Postma, J. van den Herik, Dimensionality Reduction: A
Comparative Review, 2008, Online Preprint. [25] JA Lee, M. Verleysen, Nonlinear Dimensionality, Springer Reduction,
New
York, 2007. [26] J. Lee, SJ Qin, I. Lee, Fault detection and diagnosis based on modified
independent component analysis, AIChE J. 52 (10) (2006) 3501–3514. [27] A. Hyvarinen, E. Oja, Independent component
analysis: algorithms and
applications, Neural Netw. 13 (2000) 411–430. [28] S. Yin, SX Ding, A. Haghani, H. Hao, P. Zhang, A comparison study of
basic data-driven fault diagnosis and process monitoring methods based on the benchmark Tennessee Eastman process, J. Process
Control 22 (2012) 1567–1581. [29] B. Scholkopf, A. Smola, KR Muller, Kernel principal component analysis, in:
Advances in Kernel Methods –Support Vector Learning, MIT Press, Cambridge, 1999, pp. 327–352. [30] J. Tenenbaum,
Mapping a manifold of perceptual observations, NIPS 97 (1997)
682–688. [31] MAA Cox, TF Cox, Multidimensional scaling, in: Handbook of Data
Visualization, Springer Heidelberg, 1994, 2017, pp. 315–347. [32] M. Belkin, P. Niyogi, Laplacian eigenmaps for dimensionality
reduction and
data representation, Neural Comput. 15 (6) (2002) 1373–1396.
[33] U. von Luxburg, A tutorial on spectral clustering, Stat. Comput. 17 (2007)
395–416. [34] J. Shi, J. Malik, Normalized cuts and image segmentation, IEEE Trans. Pattern
Anal. Mach. Intell. 22 (8) (2016) 888–905 (200). [35] A. Ng, M. Jordan, Y. Weiss, On spectral clustering: analysis and an
algorithm,
in: T. Dietterich, S. Becker, Z. Ghahramani (Eds.), Advances in Neural Information Processing Systems, MIT Press, Cambridge,
2002, pp. 849–856. [36] P. Tan, M. Steinbach, V. Kumar, Introduction to Data Mining, Longman,
Boston, 2005. [37] X. Wu, et al., Top 10 algorithms in data mining, Knowl. Inf. Syst. 14 (2008)
1–37. [38] M. Ester, HP Kriegel, J. Sander, X. Xu, A density based algorithm for
discovering clusters in large spatial databases with noise, Proceedings of the 2nd International Conference on Knowledge
Discovery and Data Mining (1996). [39] T. Zhang, R. Ramakrishnan, M. Livny, BIRCH: an efficient data clustering
method for very large databases, in: Sigmod, 1996, pp. 103–114. [40] K. Fukunaga, LD Hostetler, The estimation of the gradient
of a density
function, with applications in pattern recognition, IEEE Trans. Inf. Theory 21 (1) (1975) 32–40. [41] BW Silverman, Density
Estimation for Statistics and Data Analysis, Chapman
and Hall, London, 1986. [42] Y. Cheng, Mean shift, mode seeking, and clustering, IEEE Trans. Pola Anal.
Mach. Intell. 17 (8) (1995) 790–799. [43] D. Comaniciu, P. Meer, Mean Shift: a robust approach toward feature space
analysis, IEEE Trans. Pola Anal. Mach. Intell. 24 (5) (2002) 603–619. [44] A. Rosenberg, J. Hirschberg, V-Measure: a
conditional entropy-based external cluster evaluation measure, Proceedings of the 2007 Joint Conference on Empirical Methods
in Natural Language Processing and Computational Natural Language Learning (2007) 410–420. [45] L. Hubert, P. Arabie,
Comparing patterns, Journal of Classification 2 (1985)
193–218. [46] RA Fisher, The use of multiple measurements in taxonomic problems, Annals
Eugen. 7 (1936) 179–188. [47] DL Davies, DW Bouldin, A cluster separation measure, IEEE Trans. Pattern
Anal. Mach. Intell. 1 (1979) 224–227. [48] JJ Downs, EF Vogel, A plant-wide industrial process control problem,
Comput. Chem. Eng. 17 (1993) 245–255. [49] NL Ricker, Decentralized control of the tennessee eastman challenge process,
J. Proc. Cont. 6 (1996) 205–221. [50] TW Liao, Clustering of time series data –a survey, Pattern Recogn. 38 (2005)
1857–1874. [51] E. Keogh, J. Lin, Clustering of time-series subsequences is meaningless:
implications for previous future research, Knowl. Inf. Syst. 8 (2005) 154–177. [52] P. Esling, C. Agon, Time-series data
mining, ACM Comput. Surv. 45 (1) (2012)
(12:1-12:34). [53] X. Wang, A. Mueen, H. Ding, G. Trajcevski, P. Scheuermann, E. Keogh,
Experimental comparison of representation methods and distance measures for time series data, Data Min. Knowl. Discov. 26
(2013) 275–309. [54] R. Srinivasan, C. Wang, WK Ho, KW Lim, Dynamic principal component
analysis based methodology for clustering process states in agile chemical plants, Ind. Eng. Chem. Res. 43 (2004) 2123–2139.
[55] S. Beaver, A. Palazoglu, Cluster analysis for autocorrelated and cyclic chemical
process data, Ind. Eng. Chem. Res. 46 (2007) 3610–3622. [56] J. Abonyi, B. Feil, S. Nemeth, P. Arva, Modified Gath-Geva
clustering for fuzzy segmentation of multivariate time-series, Fuzzy Sets Syst. 149 (2005) 39–56. [57] Z. Bo, Y. Hao, Qualitative
trend clustering of process data for fault diagnosis,
in: IEEE International Conference on Automation Science and Engineering, Gothenburg, Sweden, 2015. [58] T. Fu, A review on
time series data mining, Eng. Appl. Artif. Intell. 24 (2011)
164–181.
Please cite this article in press as: MC Thomas, et al., Data mining and clustering in chemical process databases for monitoring
and knowledge discovery, J. Process Control (2017), http://dx.doi.org/10.1016/j.jprocont.2017.02.006

Das könnte Ihnen auch gefallen