Clustering Untuk Categorical Data

14 05 2008

Dalam sebuah diskusi di suatu milis, ada yang menanyakan tentang metode untuk melakukan clustering terhadap categorical data. Dari beberapa masukan yang ada, ada beberapa metode yang bisa digunakan untuk melakukan clustering jenis ini, termasuk di antaranya metode K-Modes clustering yang algoritmanya mirip dengan k-means (penjelasan tentang k-modes ada di dalam k-means page ini), ada yang mengusulkan tree models (CART) yang dapat didownload free, ada yang mengusulkan sebuah paket program yang disebut Party, Algoritma TWOSTEP, PREFSCAL dari SPSS yang dokumentasinya ada di sini, dan Latent Class Analysis.

Penanya awal dari diskusi ini ingin menggunakan K-Modes untuk melakukan analisa, tetapi dari diskusi yang muncul, ternyata banyak juga algoritma yang bisa digunakan untuk ini. Dan dari beberapa sumber di internet, ternyata K-Modes banyak mempunyai kelemahan. Beberapa kelemahan k-modes antara lain hasil clustering yang berbeda-beda tergantung pada proses initialisasi, dan juga error rate yang tinggi. Mungkin ada satu lagi metode yang secara prinsip sama dengan algoritma yang diusulkan terakhir (Latent Class Analysis) yang bisa digunakan untuk clustering jenis ini. Metode tersebut adalah Mixture Modelling. Metode ini merepresentasikan data categorical menjadi suatu bentuk distribusi Binomial atau Multinomial sebagai pengganti distribusi continuous seperti Gaussian. Penjelasan tentang mixture model dapat dilihat di My Mixture Model Page untuk lebih jelasnya.


Actions

Information

8 responses

23 03 2011
febrina

assalam.
maaf bapak punya referensi tentang pengelompokan data kategorik dengan algoritma ant colony optimization ndak..?
kebetulan saya lagi skripsi judul ini buat referens2 pak..
terima kasih sebelumnya

5 10 2011
Yudi Agusta

Kebetulan saya tidak punya referensi. Mungkin bisa di-search di internet. Pada intinya konsep ACO umum bisa dimanfaatkan, kecuali penghitungan jarak antar data saja yang perlu diubah dengan distance space yang khusus untuk data categorical.

Demikian dan semoga membantu.

16 08 2008
fie

pak saya mo tanya ….
saya mahasiswa yang sedang menyelesaikan skripsi dengan topik data kategori dengan menggunakan algoritma ROCK.
kira2 permasalahan yang dapat saya jadikan tema bwt skripsi saya apa yah pak..?
permasalahan apa saja yang dapat diselesaikan dengan algoritma tersebut.
tolong pak kasi saya pilihan masalahanya…
plizzzzzzzzzzzz………..
urgent..

5 10 2011
Yudi Agusta

Algoritma Rock adalah untuk mengelompokkan data/record menjadi kelompok-kelompok. Data apa saja yang terdiri dari record-record akan dapat diaplikasikan dalam pengelompokan menggunakan Algoritma Rock.

Semoga menjawab.

14 07 2008
Yudi Agusta

Aplikasi SOM untuk data categorical mengharuskan vector weight yang digunakan bertipe data categorical juga, karena dalam algoritma SOM diperlukan untuk menghitung jarak antara data categorical yang tersedia dengan weight yang dipilih secara random. Kalau hasil weightnya masih bertipe data bukan categorical, penghitungan jarak tidak akan bisa dilaksanakan. Kalau ini sudah bisa disediakan, pemodelan tinggal mengikuti algoritma SOM yang sudah umum digunakan.

13 07 2008
Lala

Dear P Agusta,
Ma’af Pak saya mo nanya juga:
1. Artificial Neural Network dengan SOM juga bisa digunakan untuk clustering data categorical, gimana caranya Pak? Tolong dijelasin dong Pak cz skripsi saya embahas tentang itu.
Untuk sementara cukup satu aja pertanyaan daru saya, moga bapak berkenan berbagi ilmu dengan saya. Atas perhatian dan kerja samanya saya ucapkan terima kasih.

Wassalam,

Lala

27 06 2008
Yudi Agusta

Dik Shofie,

Ada banyak sekali data kategori contohnya di perbankan, di BPS atau di kampus kalau mau juga ada. Coba dicari-cari di sekitarnya. Tapi kalau mau untuk percobaan, ada banyak sekali repository yang sudah menjadi rujukan untuk penelitian.

Untuk referensi mungkin bisa lihat TIPS saya untuk mencari artikel ilmiah gratis.

Semoga menjawab.

18 06 2008
shofie

pa mo nanya…
1. dmana yah saya bisa ngambil data kategori?
tapi yang real dan klo bisa datanya kasus di indonesia..

2. bapak tau tentang algoritma QROCK gak?
dimana yah saya bisa cari referensinya….

makasi pak…

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s




%d bloggers like this: