Clustering

Clustering adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain.

Ada beberapa pendekatan yang digunakan dalam mengembangkan metode clustering. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan hirarki. Clustering dengan pendekatan partisi atau sering disebut dengan partition-based clustering mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan. Di samping kedua pendekatan tersebut, ada juga clustering dengan pendekatan automatic mapping (Self-Organising Map/SOM)

Clustering Dengan Pendekatan Partisi

K-Means

Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi ini adalah metode k-means. Secara umum metode k-means ini melakukan proses pengelompokan dengan prosedur sebagai berikut:

  • Tentukan jumlah cluster
  • Alokasikan data secara random ke cluster yang ada
  • Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya
  • Alokasikan kembali semua data ke cluster terdekat
  • Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi masih sudah di bawah treshold

Prosedur dasar ini bisa berubah mengikuti pendekatan pengalokasian data yang diterapkan, apakah crisp atau fuzzy. Setelah meneliti clustering dari sudut yang lain, saya menemukan bahwa k-means clustering mempunyai beberapa kelemahan.
Hal-hal terkait dengan metode k-means saya rangkum dalam tulisan saya yang dapat di-download di sini (k-means – penerapan, permasalahan dan metode terkait).

Penjelasan lengkap tentang k-means dapat juga dilihat pada Yudi Agusta’s K-Means Page.

Mixture Modelling (Mixture Modeling)

Mixture modelling (mixture modeling) merupakan metode pengelompokan data yang mirip dengan k-means dengan kelebihan penggunaan distribusi statistik dalam mendefinisikan setiap cluster yang ditemukan. Dibandingkan dengan k-means yang hanya menggunakan cluster center, penggunaan distribusi statistik ini mengijinkan kita untuk:

  • Memodel data yang kita miliki dengan setting karakteristik yang berbeda-beda
  • Jumlah cluster yang sesuai dengan keadaan data bisa ditemukan seiring dengan proses pemodelan karakteristik dari masing-masing cluster
  • Hasil pemodelan clustering yang dilaksanakan bisa diuji tingkat keakuratannya

Distribusi statistik yang digunakan bisa bermacam-macam mulai dari yang digunakan untuk data categorical sampai yang continuous, termasuk di antaranya distribusi binomial, multinomial, normal dan lain-lain. Beberapa distribusi yang bersifat tidak normal seperti distribusi Poisson, von-Mises, Gamma dan Student t, juga diterapkan untuk bisa mengakomodasi berbagai keadaan data yang ada di lapangan. Beberapa pendekatan multivariate juga banyak diterapkan untuk memperhitungkan tingkat keterkaitan antara variabel data yang satu dengan yang lainnya.

Klik Yudi Agusta’s Mixture Modelling Page untuk penjelasan lebih rinci.

Clustering dengan Pendekatan Hirarki

Clustering dengan pendekatan hirarki mengelompokkan data yang mirip dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang sering diterapkan yaitu agglomerative hieararchical clustering dan divisive hierarchical clustering. Agglomerative melakukan proses clustering dari N cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data, sedangkan divisive melakukan proses clustering yang sebaliknya yaitu dari satu cluster menjadi N cluster.

Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage dan lain-lainnya. Seperti juga halnya dengan partition-based clustering, kita juga bisa memilih jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.

Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti dengan Euclidean Distance Space. Berangkat dari similarity matrix ini, kita bisa memilih lingkage jenis mana yang akan digunakan untuk mengelompokkan data yang dianalisa.

Clustering Dengan Pendekatan Automatic Mapping

Self-Organising Map (SOM)

Self-Organising Map (SOM) merupakan suatu tipe Artificial Neural Networks yang di-training secara unsupervised. SOM menghasilkan map yang terdiri dari output dalam dimensi yang rendah (2 atau 3 dimensi). Map ini berusaha mencari property dari input data. Komposisi input dan output dalam SOM mirip dengan komposisi dari proses feature scaling (multidimensional scaling).

Walaupun proses learning yang dilakukan mirip dengan Artificial Neural Networks, tetapi proses untuk meng-assign input data ke map, lebih mirip dengan K-Means dan kNN Algorithm. Adapun prosedur yang ditempuh dalam melakukan clustering dengan SOM adalah sebagai berikut:

  • Tentukan weight dari input data secara random
  • Pilih salah satu input data
  • Hitung tingkat kesamaan (dengan Eucledian) antara input data dan weight dari input data tersebut dan pilih input data yang memiliki kesamaan dengan weight yang ada (data ini disebut dengan Best Matching Unit (BMU))
  • Perbaharui weight dari input data dengan mendekatkan weight tersebut ke BMU dengan rumus:

    Wv(t+1) = Wv(t) + Theta(v, t) x Alpha(t) x (D(t) – Wv(t))

    Dimana:

    • Wv(t): Weight pada saat ke-t
    • Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan.
    • Alpha (t): Learning Coefficient yang berkurang secara monotonic
    • D(t): Input data
  • Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah iterasi

Variasi Metode Clustering

Hal-hal Terkait Dengan Clustering

  • Analisa Faktor
  • Singular Value Decomposition
  • Eigen Value and Eigen Vector
  • Similarity Measure
  • Feature Discretisation
  • Feature Selection
  • Feature Scaling
  • Indexing Method For Searching

Clustering Implementation

Corat-coret Saya Mengenai Clustering

K-Means – Penerapan, Permasalahan dan Metode Terkait; Akurasi Hasil Pemodelan K-Means

Links Tentang Clustering

Under Construction. Sorry!Co

250 responses

28 06 2015
Alexandro Pranata

Algoritma Mixture Modelling itu apa pak?
tolong penjelasannya.

14 06 2015
putra irawan

maaf om saya mau tanya,apakah metode cluestering ada yang menggunakan algoritma atau tidak ? jika ada apa om algoritma nya . terima kasih

18 06 2015
Yudi Agusta

Metode clustering ada bermacam-macam. Yang umum, fuzzy c-means, c-means, mixture modelling, dll. Metodenya tergantung pada sejauh mana data akan diexplore untuk pemodelan, karena masing-masing metode mempunyai kekhasan baik itu kelebihan maupun kekurangannya. Demikian dan semoga bisa menjawab

14 06 2015
deri

pak saya mau tanya tentang FCM …
untuk menentukan pangkat pembobot dan pangkat minimum error, untuk mendapatkan hasil yg baik berapa pangkat pembobot dan pangkat minimum error yg akan dipakai dan apa alasanya pak ???
mohon bantuannya pak …
trims …

18 06 2015
Yudi Agusta

Pangkat pembobot tidak pernah diteliti secara ilmiah. Umumnya pangkat pembobot diset pada angka 2, tanpa suatu alasan tertentu. Ada yang mengatakan karena penggunakan FCM banyak di Euclidean Distance maka pangkat pembobot yang digunakan lebih sering di angka 2. Demikian dan semoga bisa menjawab

6 06 2015
wakhid

Pak mohon bantuanya saya sengan skripsi. Judul saya spk penentua. Jurusan ke prrguruan tinggi dg data uN siswa kls 3. Adakan contoh perhitungan dengan matlab smpek runus akhit penentuan jurusanya. Dan adakah web yg sudah jadi untuk penentuan hal sperti itu. Soalnya sya bingung rumus yg hrs di masukan ke dlm scrib webnya.

12 06 2015
Yudi Agusta

Saya jarang memakai matlab untuk keperluan itu. Kalau biasa dengan pemrograman java, bisa dicarikan library fuzzy c-means di internet untuk digunakan. Tks

8 05 2015
eva4arasid

selamat sore pak,,
maaf pak mau nanya apakah bapak punya tulisan tentang metode KNN pak.
trus pak apa bedanya KNN dengan K-mean dalam mengklasifikasi dan mengidentifikasi pak.
trimakasih sebelumnya pak,,

8 05 2015
Yudi Agusta

Ada di link ini (Catatan Tentang KNN Algorithm). KNN merupakan metode klasifikasi yang berfungsi untuk merekomendasikan data baru masuk ke class yang mana (pilihannya biasanya 2 atau 3 class), sedangkan k-means adalah metode clustering/pengelompokan yang mengelompokkan data ke dalam cluster-cluster yang sesuai. KNN mengklasifikasi data berdasarkan beberapa data terdekat dengan data baru yang ingin diklasifikasi, sedang k-means mengelompokkan seluruh data yang dimiliki dan memasukkan ke kelompok-kelompok yang sesuai. Demikian dan tks

20 05 2015
eva4arasid

ya pak,trima kasih sudah direspon.
ohya pak sy kirim pesan ke emailnya bpk tapi gak bs terkirim dia pak eror trus,,

18 04 2015
Muhammad

Saat ini saya sedang mengerjakan tugas kuliah, yang mana pada data yang saya miliki terdapat Outlier, namun outlier tersebut benar-benar ada dan representasi populasi.

Pertanyaan saya:

1. Metode clustering apa saja yang robust/kurang terpengaruh terhadap outlier?

2. Manakah yang terbaik di antara semua itu?

Terima kasih saya sampaikan atas penjelasan dan pengertian yang Bapak berikan.

Salam,

Muhammad

21 04 2015
Yudi Agusta

Outlier merupakan sudah kondisi yang sering terjadi dalam data. Terkadang outlier di-preproses terlebih dahulu untuk dihilangkan atau dinormalisasi. Akan tetapi tentu hal tersebut akan mengurangi keabsahan model yang didapat. Untuk melakukan pemodelan tanpa harus menghilangkan outlier dalam data, perlu untuk menggunakan metode yang bisa mengakomodasi outliers. Salah satu metode yang dapat digunakan untuk itu adalah dengan memodel outlier bersama dengan data yang lain. Asumsi model yang dapat digunakan antara lain model distribusi Student t. Dengan asumsi ini, cluster yang dihasilkan akan dapat mengakomodasi keberadaan outlier. Sebagai kelanjutannya, untuk pemodelan clustering sendiri, dapat menggunakan metode mixture model, dengan masing-masing cluster/class diasumsikan terdistribusi Student t. Untuk mixture model sendiri ada banyak yang bisa digunakan baik untuk pemodelan class maupun pemilihan model clusternya. Maximum Likelihood dan Minimum Message Length untuk pemodelan class, dan Bayesian Information Criterion atau Minimum Message Length untuk pemilihan model clusteringnya. Mungkin begitu dulu informasi yang bisa diberikan. Semoga membantu.

21 04 2015
muhammadbd

Bisakah kita mengomparasi hasil metode tersebut dengan K-means? Apakah hanya metode tersebut saja yang robust/less affected by outlier?

21 04 2015
Yudi Agusta

K-means kurang begitu bagus untuk outliers. Yang sy tahu hanya metode tersebut yg secara eksplisit menghandle outliers. Metode lain yg tdk berbasis pemodelan kelas seperti SOM, mungkin jg bs, ttp tentu metoda dgn basic yg berbeda tdk akan bs dibandingkan. Tks

22 04 2015
muhammadbd

software apa yang dapat digunakan untuk melakukan clustering metode mixture modeling dengan pemodelan class yang bapak sarankan tsb?

23 04 2015
Yudi Agusta

Untuk software, coba snob, mclust, tapi sy tidak yakin distribusi student t sdh masuk di dalamnya…..

22 04 2015
muhammadbd

bagaimana interpretasi data/cluster pada mixture modeling? Kalo di K-means, dengan melihat nilai centroidnya bukan. Maksud saya, seandainya saya mengomparasi hasil K-means dan Mixture Modelling melalui validitas Silhouette Index atau Dunn Index?

23 04 2015
Yudi Agusta

Kl memakai distribusi student t, parameternya menjadi, rata-rata, standar deviasi, dan degree of freedom. Sebanyak 3 parameter, sementara, kl k-means hanya menggunakan 1 parameter saja, centroid……

9 04 2015
okky

selamat malam pak….
saya okky, saat ini sedang skripsi dengan sistem pakar diagnosa penyakit dengan metode K-Means. yg saya maksudkan disini utk hasil output nya berupa % dari tiap gejala yg dipilih ke masing2 pengelompokan penyakit.
jika dari gejala tsb point2 untuk penyakit 1 terpenuhi maka output nya dya 100% sakit penyakit 1, jika tidak terpenuhi (mis: 7 point yg harus dipenuhi tetapi hanya dipilih 3 gejala, maka persentasenya hanya 42% untuk penyakit 1)
menurut bapak apakah yg saya angkat ini bermasalah?

9 04 2015
Yudi Agusta

Untuk kasus yang ditanyakan lebih patut disebut dengan kasus klasifikasi. Kasus klasifikasi umumnya, tidak bisa dipecahkan dengan metode clustering seperti k-means. Untuk klasifikasi, ada beberapa metode yang bisa digunakan seperti: Artificial Neural Networks, Support Vector Machine, Naive Bayes, kNN Algorithm atau metode-metode yang lainnya. Tks

31 03 2015
Riska

pak saya mau tanya , saya kan mau ngerjakan tugas akhir tentang penjualan pada alfamart , metode sebelumnya pakai cluestering , apakah ada saran lain buat metodenya?

1 04 2015
Yudi Agusta

Data yang dipakai data apa saja, dan outputnya kira-kira bentuknya seperti apa ya?

16 03 2015
mario anggara

pak saya mau nanya,, saya sedang mengerjakan tugas TA nih,,
sistem pakar menentukan program latihan pembentukan otot dengan metode k-means clustering nih,, kira-kira gimana algoritmanya pak,, saat ini saya masih bingung pak,,
terimakasih,,

18 03 2015
Yudi Agusta

Output sistem yang anda buat kira-kira berbentuk seperti apa ya?

19 03 2015
mario anggara

Rencananya program latihan nntiny,, jd d btsi bbrpa program latihan,,
Program latihan dsni nntiny akan d jadikan cluster”nya pak,,
Jd prosesny gmn yg bgus pak?
Terimakasih

19 03 2015
Yudi Agusta

Bagus idenya. Kl k-means sdh punya pola tersendiri, jadi tinggal mengikuti. Kl datanya data kategori, mungkin perlu menggunakan k-mode. Tks

19 03 2015
mario anggara

Tp kategori sya brupa angka pak,,
K mode itu yg kyk gmn pak?
Terimakasih

21 03 2015
Yudi Agusta

Kategori adalah data yang tidak bs diukur dgn jarak berkoordinat, misalnya data jenis kelamin atau data pendidikan. Kl bukan kategori, bisa pakai k-means. Tks

1 04 2015
mario anggara

pak mau nanya lagi,,
semisal datanya sudah di cluster dgn k means dan mendapat centroid dari setiap cluster,,
peranan pakarnya kira” dimananya yah pak?
thnx,,

1 04 2015
Yudi Agusta

Peranan PAKAR? Maksudnya apa ya?

1 04 2015
mario anggara

Kan klo d jdiin sistem pakar,,
Pastiny ad pranan seorang pakar dalam sistem tersebut,,
Kra” peranan pakarnya dmna pak?

1 04 2015
Yudi Agusta

Sistem Pakar Berbasis K-Means, artinya model cluster k-means yang didapatkan akan menjadi pakar dari sistem pakar tersebut. Jadi yang menjadi pakar adalah data yang dimodel dengan metode k-means. Tks

2 04 2015
mario anggara

Ada contoh jurnal sistem pakar dengan metode k means gak pak?
Soalny dosen sya msh lom stuju klo data model clustering di jadikan pakar dalam sistem pakar,,
Menurut dosen saya, pakar dari sistem pakar adalah seorang pakar
Ad saran gak pak?
Terimakasih

4 04 2015
Yudi Agusta

Iya memang, kalau menggunakan suatu metode seperti metode clustering sebagai dasar pakarnya, memang sering disebut dengan Sistem Pintar (Intelligence Systems). Tapi keduanya mempunyai tujuan yang sama. Yang satu menggunakan pengetahuan yang masuk di dalam otak seorang pakar, yang satu lagi menggunakan pengetahuan yang didapat dari data yang ada. Dan pada dasarkan, seorang pakar khan mendapatkan pengetahuan dari buku atau data yang diolah/dianalisa olehnya khan? Sebenarnya sih secara globalnya sama saja. Tks

1 04 2015
mario anggara

Owh,, dpat pencerahan pak,, terimakasih telah membantu :)

4 04 2015
Yudi Agusta

Sama-sama. Tks

15 03 2015
maman

pak saya mau tanya ?
bisa minta contoh kasus k-means clustering yang paling mudahh ?
biar gampang dimengerti

18 03 2015
Yudi Agusta

Pengelompokan data nasabah bank dengan k-means biasa dilakukan pak. Tks

16 02 2015
remon

Selamat siang pak yudi, saya mw tanya.
Saya sedang mengerjakan sebuah studi kasus dimana hasil ny adalah SPK untuk menentukan penjurusan dalam sebuah SMA, kira2 menurut bapak metode apa yg tepat untuk saya gunakan? Dan saran/solusi jika ada.
Terimakasih

1 03 2015
Yudi Agusta

Kalau untuk SPK sebaiknya menggunakan metode klasifikasi seperti decision trees, naive bayes, artificial neural networks dll. Tks

16 02 2015
remon

S

1 03 2015
Yudi Agusta

S?

8 02 2015
Maria Sarah Silalahi

maaf pak. mau nanya.
k-media sama gak dengan k-medoid?

1 03 2015
Yudi Agusta

Saya rasa sama ya. Tks

3 02 2015
dwi

mau nanya
pak saya lagi mnegerjakan TA tentang pengelompokan berita, kira2 kalo saya memakai metode FCM cocok gak ya pak?/
soalnya saya mencari referensi tentang peneltian orang belum bnyak yg menggunakan FCM di bidang pengelompokan berita ini, kalo menurut bapak gimana?
atau perlu di hybrid dgn metode lain supaya hasilnya optimal, karena saya baca2 FCM itu optimasinya kurang bagus,, terus kalo ada refersnsi tlg bagi pak,,
mohon dijawab terimah kasih

1 03 2015
Yudi Agusta

Bisa, sangat bagus temanya. Iya bisa mencari pendekatan lain yang lebih bagus, mixture model merupakan bentuk k-means yang lebih komprehensif. Itu bisa memberikan hasil yang lebih akurat. Tks

8 01 2015
Andi

Pak sy minta totong arahannya untuk tesis nantinya. sy punya data fisika kimia pencemaran udara. parameternya ada SO2, NO2, CO, Pb, TSP, Kebisingan dll. saya mau mengclusterkannya. tapi metode clustering yg cocok apa?? harapannya setelah di clusterkan bisa diklasifikasikan lagi berdasar sumber pencemarannya.
terima kasih

1 03 2015
Yudi Agusta

Kalau data numerik bisa dicluster menggunakan metode k-means. Kalau bukan numerik, bisa dengan k-medoid. UNtuk selanjutnya klasifikasi, agak berbeda konsepnya. Kalau memang sudah ada sumber pencemarannya sebagai classnya, data bisa dimodel dengan metode klasifikasi seperti decision trees, naive bayes, atau artificial neural networks. Tks

30 11 2014
Fahmi

Salam kenal Pak.
sebelumnya saya sudah membaca kasus menentukan nilai akhir kuliah dengan fuzzy c-means yang bapak share. namun saya masih belum mengerti pada bagian membangkitkan nilai random U. pada beberapa referensi yg saya baca juga langsung mengeluarkan hasil dari proses random tersebut. bisa tolong jelaskan langkah-langkah pada bagian tersebut. saya ucapkan terima kasih. semoga ilmunya bermanfaat.

1 03 2015
Yudi Agusta

U itu nilainya antara 0 sampai 1. Bisa saja ditentukan secara random antara nilai tersebut, dengan ketentuan jumlah nilai u untuk semua cluster sama dengan 1. Atau kalau tidak mau sibuk, tentukan saja nilai 1 untuk cluster yang satu, sedangkan cluster yang lain nilai 0. Tks

17 11 2014
ratna

Pa saya mau tanya , metode clustering bisa dipake untuk membuat cluster pada data gizi ga? dimana penghitungan status gizi yang sudah ada adalah dengan menentukan BB/U dan BB/TB

1 03 2015
Yudi Agusta

Tergantung jenis datanya. Bisa dijelaskan datanya dengan lebih detil?

1 11 2014
detiik $ema$a

nice blog.
Sangat bermanfaat .

1 03 2015
Yudi Agusta

Tks

10 09 2014
QWeRTY

Pak saya sedang skripsi nih, namun konsep2 seperti data nasabah, data mhswa, data tiketing sudah terlalu umum..
Mau tanya nih pak, konsep2 untuk klastering yg unik apa saja ya pak? terimakasih :)

1 03 2015
Yudi Agusta

Market segmention banyak menggunakan clustering, untuk mencari tahu pola konsumen yang ada. Tks

5 05 2014
Antox

Selamat Malam pak… Bisa tolong petunjuk perhitungan manual metode SOM. Mohon petunjuknya pak,.. Terima Kasih..

19 06 2014
Yudi Agusta

Mmm perhitungan akan sulit sekali dituliskan di sini, coba direfer rumus di atas untuk kasus yang sedang dianalisa. Umumnya dengan data yang dimiliki dan penerapan ke rumus yang ada di atas, akan bisa menggambarkan. Mungkin coba saja dengan data dalam jumlah sedikit dulu.

26 04 2014
yuni

terimakasih unt bagi2 ilmunya ya pak. tapi sy masih bingung. mau bertanya pak. saya mempunyai 30 karakter yang akan saya ujikan untuk 50 lebih objek. saya ingin mengetahui hubungan kekerabatan antara 50 lebih objek, maka apa yg harus sy lakukan? mohon pencerahan….trimakasih pak

19 06 2014
Yudi Agusta

Bisa saja 50 objek tersebut dibuatkan model clusteringnya. Nanti kelompok yang terbentuk, bisa dikatakan menggambarkan kedekatan dari objek-objek yang tergabung dalam masing-masing kelompok.

15 03 2014
dyah

pak saya mau nanya, saya punya data penjualan sepatu dengan variabel daerah (akan tetapi cuma 6 daerah), kode barang, jumlah terjual, invoice dan kategori. kira2 metode clustering apa ya yang cocok dengan data tersebut? kira2 data tersebut akan saya gunakan untuk TA

19 06 2014
Yudi Agusta

Data yang dijelaskan ini, bisa saja dibuatkan model clusteringnya, tapi hasilnya hanya berupa kelompok-kelompok transaksi yang mirip satu dengan yang lainnya. Bisa saja setelah dihasilkan kelompok-kelompok tersebut digunakan untuk melakukan marketing berbasis transaksi yang ada. Metode yang digunakan bisa dengan k-means, atau hierarchical clustering, atau SOM kalau mau.

Untuk clustering, yang paling banyak aplikasinya adalah dalam hal market segmentation untuk mengelompokkan customer-customer yang dimiliki oleh suatu perusahaan.

Demikian dan semoga menjawab.

12 03 2014
ounowey

pak yudi, saya ada baca jurnal penggunaan metode pengklasteran untuk menentukan bidang tugas akhir,yg dipake single linkage, centroid linkage sama k-means. disana disebutkan yg dicluster adalah nilai2 matkul dr semester awal smpe smster sblm pngambilan TA. trs cluster yg terbentuk dilabeli dengan bidang TA. saya ga paham dengan pelabelannya. mohon bantuannya.

19 06 2014
Yudi Agusta

Untuk clustering sebenarnya pelabelan tidak bisa dilakukan, karena clustering mengelompokkan data tanpa supervisi. Cluster yang terbentuk hanya berupa potret kelompok yang dihasilkan, tanpa harus mengetahui sebenarnya kelompok itu labelnya apa. Demikian dan tks

8 03 2014
surya

pak saya mahasiswa yang sedang TA, mau minta penjelasan perhitungan manual atau konsep mengenai klasifikasi menggunakan QUEST..
ada materi yang bisa dipelajari ga pak,,yang mudah dipahami…
terima kasih..

20 11 2013
Fajar Febriano

pak mau nanya,
petunjuk apa saja ya yang dipergunakan untuk memutuskan banyaknya cluster?

26 02 2014
Yudi Agusta

Untuk penentuan jumlah cluster, tergantung pada metode yang digunakan untuk melakukan proses clustering. Kalau k-means biasanya menggunakan Partition Entropy. Kalau menggunakan model clustering mixture modelling, bisa menggunakan Akaike Information Criterion, Bayesian Information Criterion, Minimum Message Length dll. Demikian juga dengan metode clustering yang lainnya.

Regards,

4 11 2013
wawan

pak yudi saya mau bertanya, jika kita mempunyai data berupa data penjualan rokok kira2 bagaimana penerapan clustering atau klasifikasi.
judul yg tepat kira-kira apa ya pak?

26 02 2014
Yudi Agusta

Mungkin bisa dijelaskan apa saja variabel yang tercakup dalam data penjualan, sehingga pertama bisa ditentukan apakah pemecahan diperoleh dengan model clustering atau model klasifikasi. Kalau sudah tahu variabelnya bisa nanti ditentukan metode apa yang paling cocok.

Regards,

16 10 2013
ervin

selamat sore, pak caranya menentukan cluster untuk algoritma SOM bagaimana ya pak?

26 02 2014
Yudi Agusta

SOM belum sempat saya membuat tulisannya. Nanti ke depan akan saya coba untuk membuat tulisannya.

Regards,

27 09 2013
nissa

selamat malam pak….
saya nissa yang sedang menulis tugas akhir yang mana penelitian saya membandingkan metode k-means dan fuzzy k-means dalam pengelompokkan desa tertinggal di kabupaten kutai kartanegara, apakah judul yang saya ambil ini sangat berisiko? dan saya ingin tanya ukuran jarak kemiripan yang cocok untuk k-means dan fuzzy k-means itu apa?

26 02 2014
Yudi Agusta

Kalau dilihat dari metode yang diperbandingkan, bisa saja dilakukan, tetapi sebenarnya secara konsep saja kedua metode ini sudah dapat dibedakan. K-means menggunakan konsep crisp, sedang fuzzy c-means menggunakan konsep fuzzy. Dilihat dari konsep yang digunakan, fuzzy c-means akan mempunyai keunggulan karena dalam setiap tahapan kita mempertimbangkan bahwa suatu keadaan tidak diputuskan dengan kondisi ya atau tidak saja (0 atau 1), tetapi juga dengan konsep antara ya atau tidak (antara 1 dan 0). Jadi secara hasil menjadi sedikit lebih halus.

Regards,

15 09 2013
Wawan Darmawan

met malem pak……
saya mau tanya menggunakan metode clustering untuk pendeteksi jenis hama tanaman padi sawah , kira2 bisa gak dan bagaimana penyelesaiannya…?
saya buat TA Aplikasi sistem pakar tapi dengan metode clustering.
Masih bingung algoritmanya seperti apa ya pak ,, mohon solusinya pak.?
Trims.

26 02 2014
Yudi Agusta

Tergantung variabel apa saja yang tersedia di dalam data tersebut. Karena ada beberapa keadaan, suatu data bisa tidak digunakan untuk proses clustering. Mungkin kalau mau konsultasi, silahkan disebutkan variabel apa saja yang tercakup di dalam data tersebut.

Regards,

24 04 2013
Julius Candra Ardiana

Pak, mau tanya penjelasan tentang automatic k untuk k-means. Mohon bantuannya.

26 02 2014
Yudi Agusta

k itu merupakan jumlah cluster. Untuk mendapatkan jumlah cluster secara otomatis, bisa menggunakan beberapa cara seperti menggunakan metode partition entropy, bootstrapped, dan lain-lain. Akan tetapi untuk model k-means, kelemahannya, sering nilai k ditentukan di awal sebelum proses clustering dimulai.

Beberapa metode clustering seperti mixture modellng, menentukan jumlah cluster seiring dengan proses pemodelan yang dilakukan.

Demikian, mudah-mudahan bisa menjawab.

Regards,

21 03 2013
irwansyah

Pak saya mw tanya…
gimana caranya membangkitkan membership function pada logika fuzzy secara otomatis….

26 02 2014
Yudi Agusta

Untuk membangkitkan nilai membership function secara otomatis, bisa dengan proses random antara nilai 0 dan 1. Tetapi, kalau dibandingkan membuat nilai random untuk membership function yang jumlahnya akan banyak yaitu sebanyak data dan sebanyak variabel, maka ada baiknya menentukan variabel yang lainnya dulu seperti variabel centroid dalam pemodelan clustering, baru menentukan nilai membership function secara otomatis.

Regards,

22 02 2013
hilmy

pak,,, mau minta tolong,,, saya mau cari coding voting KNN dari jarak euclidian… bisa banttu gak yah ?? pleease,,
A.N mahasiswa tingkat akhir

26 02 2014
Yudi Agusta

Mmmm saya tidak menyediakan coding, mungkin melalui jaringan web, bisa dicari-cari via uncle google.

Regards,

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s




Follow

Get every new post delivered to your Inbox.

Join 32 other followers

%d bloggers like this: