Dasar Klasterisasi


Berbeda dengan aturan asosiasi dan klasifikasi dimana kelas data telah ditentukan sebelumnya, klasterisasi melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan klasterisasi dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu klasterisasi sering digolongkan sebagai metode unsupervised learning.

 

Prinsip dari klasterisasi adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/klaster. Klasterisasi dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Ilustrasi dari klasterisasi dapat dilihat di Gambar 4 dimana lokasi, dinyatakan dengan bidang dua dimensi, dari pelanggan suatu toko dapat dikelompokkan menjadi beberapa klaster dengan pusat klaster ditunjukkan oleh tanda positif (+).

 

Banyak algoritma klasterisasi memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data.

 

Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan klaster kecil menjadi klaster lebih besar dan top-down yang memecah klaster besar menjadi klaster yang lebih kecil. Kelemahan metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan klaster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode klasterisasi lainnya seperti yang dilakukan oleh Chameleon6.

 

Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu klaster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan dalam klaster. Kelebihan metode ini adalah bentuk klaster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN2.