Akurasi Hasil Pemodelan K-Means

11 03 2008

Ada yang menanyakan tentang bagaimana mengetahui apakah model clustering yang didapatkan dengan k-means sudah cukup akurat atau tidak?

Memang sedikit susah kalau kita ingin menilai tingkat akurasi pemodelan clustering yang kita dapatkan kalau kita menggunakan metode k-means. Ada suatu pendekatan yang sering dipasangkan dengan k-means dalam pemodelannya yaitu Partition Entroy (PE). Tetapi saya selalu mendapat hasil yang mengecewakan pada saat menggunakan metode ini.

Sebagai alternatif, mungkin anda bisa menggunakan suatu trik yang menurut saya lebih aplikatif dan rasional berikut ini:

  • Pertama, pilah data yang dimiliki menjadi dua set data yang mungkin ukuran tertentu, mungkin sekitar 80%:20%. Yang 80% dipakai sebagai training data, data yang digunakan untuk memodel. Sedangkan yang 20% digunakan sebagai validation data. Gunakan metode random dalam memilah data tersebut.
  • Selanjutnya lakukan pemodelan menggunakan k-means terhadap training data. Catat persentase data yang menjadi bagian masing-masing cluster dan cluster center dari masing-masing cluster.
  • Kemudian, model validation data dengan k-means. Bandingkan persentase data yang menjadi bagian dari masing-masing cluster yang terbentuk dengan persentase yang didapat dengan memodel training data. Bandingkan pula cluster center dari kelompok yang dihasilkan dalam pemodelan validation data dan pemodelan training data. Metode membandingkan bisa saja dengan melihat jarak cluster center dan perbedaan persentase antara kedua model yang didapat. Tentu saja cluster mana yang cocok dengan cluster mana harus dicari suatu trik sehingga jarak terdekat ‘dan’ perbedaan persentase terkecillah yang menjadi hasil perbandingan.
  • Model yang mempunyai perbedaan antara training data dan validation data terkecil yang dipilih sebagai model yang paling tepat. Contohnya, apabila model k-means dengan dua kelompok lebih bagus daripada dengan tiga kelompok, maka model dengan dua kelompok itulah yang paling akurat.

Untuk menambah akurasi, proses tahap 1 sampai 3 mungkin bisa dilakukan berulang beberapa kali (misalnya 10 kali), dan perbedaan antara hasil pemodelan training data dan test data pada tahap 4 dicari dengan nilai rata-rata perbedaan setiap pemodelan yang dilakukan.

Mudah-mudahan membantu.


Actions

Information

4 responses to “Akurasi Hasil Pemodelan K-Means”

26 03 2008
umie (11:38:39) :

pak, maaf saya masih kurang ngerti?tentang pembagian 80% dan 20 %. diprogramnya saya punya kendala .saya kemaren juga membagi kedalam 2 cluster sampai dengan 6 cluster.tapi sempat ditanya kenapa seperti itu?
jadi solusinya diambil yang 6 cluster aja…
bpk, bisa pemrograman java ?bisa bantun saya? maksih udh bantu.

26 03 2008
Yudi Agusta (12:40:04) :

80% dan 20% itu hanya ancer-ancer saja. Bisa menggunakan perbandingan persentase lainnya. Cara membagi ke dalam training data dan validation data, bisa dengan menggunakan metode simple random sampling.

9 04 2008
umi (10:22:52) :

Pak, klo mencari errornya seperti apa? apakah sama dengan mencari tingkat akurasi ?Berarti untuk mencari tingkat akurasi cluster tidak ada persamaan baku ya, pak?

9 04 2008
Yudi Agusta (10:44:45) :

Clustering merupakan unsupervised classification method. Berbeda dengan supervised classification, metode ini umumnya tidak mencari tingkat error model yang dihasilkan, karena data yang tersedia memang tidak ada label/class-nya.

Kalau memang ingin mengeluarkan tingkat error, bisa diakali dengan menyediakan test data (selain training dan validation data di atas) dan mengulangi prosedur tahap ke-tiga dan ke-empat dalam tulisan di atas. Tetapi yang dibandingkan kali ini adalah training data dan test data (bukan validation data).

Semoga membantu.

Leave a comment

You can use these tags : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>