Clustering

Clustering adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain.

Ada beberapa pendekatan yang digunakan dalam mengembangkan metode clustering. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan hirarki. Clustering dengan pendekatan partisi atau sering disebut dengan partition-based clustering mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan. Di samping kedua pendekatan tersebut, ada juga clustering dengan pendekatan automatic mapping (Self-Organising Map/SOM)

Clustering Dengan Pendekatan Partisi

K-Means

Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi ini adalah metode k-means. Secara umum metode k-means ini melakukan proses pengelompokan dengan prosedur sebagai berikut:

Tentukan jumlah cluster
Alokasikan data secara random ke cluster yang ada
Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya
Alokasikan kembali semua data ke cluster terdekat
Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi masih sudah di bawah treshold

Prosedur dasar ini bisa berubah mengikuti pendekatan pengalokasian data yang diterapkan, apakah crisp atau fuzzy. Setelah meneliti clustering dari sudut yang lain, saya menemukan bahwa k-means clustering mempunyai beberapa kelemahan.
Hal-hal terkait dengan metode k-means saya rangkum dalam tulisan saya yang dapat di-download di sini (k-means – penerapan, permasalahan dan metode terkait).

Penjelasan lengkap tentang k-means dapat juga dilihat pada Yudi Agusta’s K-Means Page.

Mixture Modelling (Mixture Modeling)

Mixture modelling (mixture modeling) merupakan metode pengelompokan data yang mirip dengan k-means dengan kelebihan penggunaan distribusi statistik dalam mendefinisikan setiap cluster yang ditemukan. Dibandingkan dengan k-means yang hanya menggunakan cluster center, penggunaan distribusi statistik ini mengijinkan kita untuk:

Memodel data yang kita miliki dengan setting karakteristik yang berbeda-beda
Jumlah cluster yang sesuai dengan keadaan data bisa ditemukan seiring dengan proses pemodelan karakteristik dari masing-masing cluster
Hasil pemodelan clustering yang dilaksanakan bisa diuji tingkat keakuratannya

Distribusi statistik yang digunakan bisa bermacam-macam mulai dari yang digunakan untuk data categorical sampai yang continuous, termasuk di antaranya distribusi binomial, multinomial, normal dan lain-lain. Beberapa distribusi yang bersifat tidak normal seperti distribusi Poisson, von-Mises, Gamma dan Student t, juga diterapkan untuk bisa mengakomodasi berbagai keadaan data yang ada di lapangan. Beberapa pendekatan multivariate juga banyak diterapkan untuk memperhitungkan tingkat keterkaitan antara variabel data yang satu dengan yang lainnya.

Klik Yudi Agusta’s Mixture Modelling Page untuk penjelasan lebih rinci.

Clustering dengan Pendekatan Hirarki

Clustering dengan pendekatan hirarki mengelompokkan data yang mirip dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang sering diterapkan yaitu agglomerative hieararchical clustering dan divisive hierarchical clustering. Agglomerative melakukan proses clustering dari N cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data, sedangkan divisive melakukan proses clustering yang sebaliknya yaitu dari satu cluster menjadi N cluster.

Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage dan lain-lainnya. Seperti juga halnya dengan partition-based clustering, kita juga bisa memilih jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.

Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti dengan Euclidean Distance Space. Berangkat dari similarity matrix ini, kita bisa memilih lingkage jenis mana yang akan digunakan untuk mengelompokkan data yang dianalisa.

Clustering Dengan Pendekatan Automatic Mapping

Self-Organising Map (SOM)

Self-Organising Map (SOM) merupakan suatu tipe Artificial Neural Networks yang di-training secara unsupervised. SOM menghasilkan map yang terdiri dari output dalam dimensi yang rendah (2 atau 3 dimensi). Map ini berusaha mencari property dari input data. Komposisi input dan output dalam SOM mirip dengan komposisi dari proses feature scaling (multidimensional scaling).

Walaupun proses learning yang dilakukan mirip dengan Artificial Neural Networks, tetapi proses untuk meng-assign input data ke map, lebih mirip dengan K-Means dan kNN Algorithm. Adapun prosedur yang ditempuh dalam melakukan clustering dengan SOM adalah sebagai berikut:

Tentukan weight dari input data secara random
Pilih salah satu input data
Hitung tingkat kesamaan (dengan Eucledian) antara input data dan weight dari input data tersebut dan pilih input data yang memiliki kesamaan dengan weight yang ada (data ini disebut dengan Best Matching Unit (BMU))
Perbaharui weight dari input data dengan mendekatkan weight tersebut ke BMU dengan rumus:
Wv(t+1) = Wv(t) + Theta(v, t) x Alpha(t) x (D(t) – Wv(t))

Dimana:
- Wv(t): Weight pada saat ke-t
- Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan.
- Alpha (t): Learning Coefficient yang berkurang secara monotonic
- D(t): Input data
Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah iterasi

Variasi Metode Clustering

Quality Threshold Clustering Method
Locality Sensitive Hashing
Algoritma Rock
Hierarchical Frequent Term-Base Clustering
Suffix Tree Clustering
Single Pass Clustering
Neighborhood Clustering
Sequence Clustering
Spectral Clustering
Clustering on Frequent Tree
Latent Class Cluster Analysis a.k.a. Latent Profile Analysis a.k.a. Mixture Model for Continuous Variabel
Latent Class Analysis a.k.a. Mixture Model for Categorical Variable

Hal-hal Terkait Dengan Clustering

Analisa Faktor
Singular Value Decomposition
Eigen Value and Eigen Vector
Similarity Measure
Feature Discretisation
Feature Selection
Feature Scaling
Indexing Method For Searching

Clustering Implementation

Corat-coret Saya Mengenai Clustering

K-Means – Penerapan, Permasalahan dan Metode Terkait; Akurasi Hasil Pemodelan K-Means

Links Tentang Clustering

Under Construction. Sorry!Co

308 responses

17 01 2019: fachruddin mansyur (01:37:43) :

untuk mengklaster data kategirik pake apa ya?

Reply
9 09 2018: kiki (14:39:42) :

pak,tesis saya judulnya perancangan SIM pendapatan parkir dengan sistem cluster..itu bagaimana yah cara hitung clusternya? terus terang saya masih bingung

Reply
30 04 2018: origindio3 (10:56:04) :

pak tanya .. saya dapat tugas untuk menghapus data dgn jarak terdekat.. dan menghapus data dgn jarak terjauh ..? saya d beri bantuan menghitung jarak.ya dahulu ..

setelah saya buat matriks dgn pdktan Hamming distance.. saya coba terus pake single linkage…

Nah saya bingun jarak terjauh pada single linkage itu gimana..?? atau bisa d kasih solusi ..?

Reply
13 04 2018: Salma (10:39:35) :

Permisi,, untuk mengklasifikasikan kayu kalau ada 3 pilihan metode, SVM, Bayesian dan KNN manakah yg paling sederhana, mudah, dan akurat utk mengkalsifikasikan spesies kayu? Trims.

Reply
9 12 2017: apa itu clastering – Vilang Dwi Irawan (03:42:30) :

[…] https://yudiagusta.wordpress.com/clustering/ […]

Reply
14 10 2017: von haydes (10:55:13) :

pak saya mau bertanya soal clustering files itu keuntungan dan kerugiannya apa…???
terimah kasih

Reply
25 07 2017: Ika (09:44:25) :

pak saya mengajukan judul, penggunaan PSO pada k-means dalam pengelompokkan wajib pajak, pso gunanya untuk optimasi inisialisasi k pd k-means. variabel data nya hanya tanggal pembayaran wajib pajak dalam beberapa thn terakhir, output nya hny berupa WP yg patuh dan tidak patuh dalam membayar pajak, dosen pembimbing sy tdk mempermasalahkan objeknya krn alasan nya penelitiannya lebih ke analisis metodenya, tetapi dosen lain yg sy tanyai selalu berpendapat “objek terlalu sederhana jika variabel hny dari tanggal pembayaran, pakai excel jg bisa”. saya bingung pak semoga bpk ada masukan terimakasih

Reply
19 03 2017: Fachrul Kurniansyah (18:17:30) :

Bapak Yudi, apabila penelitian menggunakan analisis cluster dengan variabel campuran, model cluster apa saja yang dapat saya terapkan? Mohon bantuannya, Pak.

Terima kasih.

Reply
2 03 2017: sylva (12:55:57) :

Pak yudi punya ga sumber-sumber buku atau artikel yang khusus membahas secara lengkap tentang algoritma hierarchical agglomerative clustering? Saya sangat membutuhkannya untuk penelitian saya pak

Reply
27 01 2017: sipardosi29 (16:01:59) :

minta tlong jga lh skalian.. bagaimana cara menentukan jumlah cluster dalam C-Means??

#Salam !!!

Reply
24 01 2017: septia (11:50:31) :

maaf pak mau menanyakan untuk skripsi saya tentang sweep algorithm, di bagian clustering sayan menggunakan teori euclid dimana pengclustern menggunakan sudut polar terkecil k terbesar., mau tanya apa bisa sperti itu?

Reply
22 11 2016: Mirqoh (12:30:45) :

pak, saya mau menanyakan terkait perhitungan tingkat akurasi pada clustering, apa ada buku atau referensi yang membahas tingkat akurasi pada clustering terutama pada metode FCM (Fuzzy C-Means)?
Karena,yang sekarang saya ketahui, untuk clustering hanya ada perhitungan validitas saja,sedangkan tingkat akurasi untuk klasifikasi.
Mohon bantuannya, Terimakasih.

Reply
27 10 2016: virliana (16:16:43) :

Pak maaf saya mau tanya.. Saat ini saya sedang mengajukan judul untuk skripsi tapi bingung menggunakn metode apa untuk tingkt kematangn pada buah… Mohon bantuannya pak untuk bisa tau paling baik menggunakan metode apa terima kasih

Reply
27 10 2016: virliana (16:10:04) :

Pak maaf saya mau tanya.. Sekarang saya sedng mengajukan judul skripsi untuk tingkat kematngn pada buah sebaik nya menggunakan metode apa untuk bisa menyelsaikannya… Mohon bantuannya pak terima kasih

Reply
8 08 2016: Sri wahyuni (15:03:18) :

pak mau nanya perbedaan Clustering dengan Clasification apa?

Reply

	Erwan Herdi on Akurasi Hasil Pemodelan K…
	Yudi Agusta on Akurasi Hasil Pemodelan K…
	Erwan Herdi on Akurasi Hasil Pemodelan K…
	ev on TIPS: Pembuatan Literature…
	TUGAS 2 BIG DATA (Me… on K-Means

Rehat With Yudi Agusta

Clustering

308 responses

Leave a comment Cancel reply

Personal Info

Recent Posts

Favorite Posts (31-12-2013)

Recommended Pages

Related Links

Recent Comments

Posting Calendar

CATEGORY

Archives

Rehat With Yudi Agusta

Clustering

Share this:

308 responses

Leave a comment Cancel reply

Personal Info

Recent Posts

Favorite Posts (31-12-2013)

Recommended Pages

Related Links

Recent Comments

Posting Calendar

CATEGORY

Archives