Clustering adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain.
Ada beberapa pendekatan yang digunakan dalam mengembangkan metode clustering. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan hirarki. Clustering dengan pendekatan partisi atau sering disebut dengan partition-based clustering mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan. Di samping kedua pendekatan tersebut, ada juga clustering dengan pendekatan automatic mapping (Self-Organising Map/SOM)
Clustering Dengan Pendekatan Partisi
K-Means
Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi ini adalah metode k-means. Secara umum metode k-means ini melakukan proses pengelompokan dengan prosedur sebagai berikut:
- Tentukan jumlah cluster
- Alokasikan data secara random ke cluster yang ada
- Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya
- Alokasikan kembali semua data ke cluster terdekat
- Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi masih sudah di bawah treshold
Prosedur dasar ini bisa berubah mengikuti pendekatan pengalokasian data yang diterapkan, apakah crisp atau fuzzy. Setelah meneliti clustering dari sudut yang lain, saya menemukan bahwa k-means clustering mempunyai beberapa kelemahan.
Hal-hal terkait dengan metode k-means saya rangkum dalam tulisan saya yang dapat di-download di sini (k-means – penerapan, permasalahan dan metode terkait).
Penjelasan lengkap tentang k-means dapat juga dilihat pada Yudi Agusta’s K-Means Page.
Mixture Modelling (Mixture Modeling)
Mixture modelling (mixture modeling) merupakan metode pengelompokan data yang mirip dengan k-means dengan kelebihan penggunaan distribusi statistik dalam mendefinisikan setiap cluster yang ditemukan. Dibandingkan dengan k-means yang hanya menggunakan cluster center, penggunaan distribusi statistik ini mengijinkan kita untuk:
- Memodel data yang kita miliki dengan setting karakteristik yang berbeda-beda
- Jumlah cluster yang sesuai dengan keadaan data bisa ditemukan seiring dengan proses pemodelan karakteristik dari masing-masing cluster
- Hasil pemodelan clustering yang dilaksanakan bisa diuji tingkat keakuratannya
Distribusi statistik yang digunakan bisa bermacam-macam mulai dari yang digunakan untuk data categorical sampai yang continuous, termasuk di antaranya distribusi binomial, multinomial, normal dan lain-lain. Beberapa distribusi yang bersifat tidak normal seperti distribusi Poisson, von-Mises, Gamma dan Student t, juga diterapkan untuk bisa mengakomodasi berbagai keadaan data yang ada di lapangan. Beberapa pendekatan multivariate juga banyak diterapkan untuk memperhitungkan tingkat keterkaitan antara variabel data yang satu dengan yang lainnya.
Klik Yudi Agusta’s Mixture Modelling Page untuk penjelasan lebih rinci.
Clustering dengan Pendekatan Hirarki
Clustering dengan pendekatan hirarki mengelompokkan data yang mirip dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang sering diterapkan yaitu agglomerative hieararchical clustering dan divisive hierarchical clustering. Agglomerative melakukan proses clustering dari N cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data, sedangkan divisive melakukan proses clustering yang sebaliknya yaitu dari satu cluster menjadi N cluster.
Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage dan lain-lainnya. Seperti juga halnya dengan partition-based clustering, kita juga bisa memilih jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.
Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti dengan Euclidean Distance Space. Berangkat dari similarity matrix ini, kita bisa memilih lingkage jenis mana yang akan digunakan untuk mengelompokkan data yang dianalisa.
Clustering Dengan Pendekatan Automatic Mapping
Self-Organising Map (SOM)
Self-Organising Map (SOM) merupakan suatu tipe Artificial Neural Networks yang di-training secara unsupervised. SOM menghasilkan map yang terdiri dari output dalam dimensi yang rendah (2 atau 3 dimensi). Map ini berusaha mencari property dari input data. Komposisi input dan output dalam SOM mirip dengan komposisi dari proses feature scaling (multidimensional scaling).
Walaupun proses learning yang dilakukan mirip dengan Artificial Neural Networks, tetapi proses untuk meng-assign input data ke map, lebih mirip dengan K-Means dan kNN Algorithm. Adapun prosedur yang ditempuh dalam melakukan clustering dengan SOM adalah sebagai berikut:
- Tentukan weight dari input data secara random
- Pilih salah satu input data
- Hitung tingkat kesamaan (dengan Eucledian) antara input data dan weight dari input data tersebut dan pilih input data yang memiliki kesamaan dengan weight yang ada (data ini disebut dengan Best Matching Unit (BMU))
- Perbaharui weight dari input data dengan mendekatkan weight tersebut ke BMU dengan rumus:
Wv(t+1) = Wv(t) + Theta(v, t) x Alpha(t) x (D(t) – Wv(t))
Dimana:
- Wv(t): Weight pada saat ke-t
- Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan.
- Alpha (t): Learning Coefficient yang berkurang secara monotonic
- D(t): Input data
- Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah iterasi
Variasi Metode Clustering
- Quality Threshold Clustering Method
- Locality Sensitive Hashing
- Algoritma Rock
- Hierarchical Frequent Term-Base Clustering
- Suffix Tree Clustering
- Single Pass Clustering
- Neighborhood Clustering
- Sequence Clustering
- Spectral Clustering
- Clustering on Frequent Tree
- Latent Class Cluster Analysis a.k.a. Latent Profile Analysis a.k.a. Mixture Model for Continuous Variabel
- Latent Class Analysis a.k.a. Mixture Model for Categorical Variable
Hal-hal Terkait Dengan Clustering
- Analisa Faktor
- Singular Value Decomposition
- Eigen Value and Eigen Vector
- Similarity Measure
- Feature Discretisation
- Feature Selection
- Feature Scaling
- Indexing Method For Searching
Clustering Implementation
Corat-coret Saya Mengenai Clustering
K-Means – Penerapan, Permasalahan dan Metode Terkait; Akurasi Hasil Pemodelan K-Means
Links Tentang Clustering
Under Construction. Sorry!Co
pak,, kalo pseudocode algoritma suffix tree clustering ada referensinya pak ?
saya masih bingung dengan algoritma STC ini…
Salam, Pak Yudi,
Saya mau bertanya, apakah ada metode clustering yang dapat diterapkan pada time-based database, misal, untuk database dari sistem regulasi temperatur?
Terimakasih sebelumnya.
saya mau nanya pak..
saya sedang mengerjakan skripsi tentang klasifikasi menggunakan algoritma KNN, ada gak materi lengkap atau link tentang KNN sama bapak, serta contoh soal selain yang diatas tentang jarak euclidian ?
terimakasih sebelumnya
mau nanya ni…
saya sedang mengerjakan skripsi tentang klasifikasi menggunakan KNN, sama bapak ada gak materi lengkap tengtang KNN, contoh lainnya selain diatas tentang jarak euclidian?
makasih atas bantuannya
Aslmkm Pak Yudi..
Saya Mahasiswa TI pak..
Saya lg membandingkan 2 metode clustering ne pak,, kira2 ada gak cara untuk mengetahui keakuratan nilai pusat cluster masing-masing pak??? kalo dari segi hasil, kayaknya sama pak hasil klusterny.. tp berbeda dalam nilai pusat clusterny.. gmn kira2 pak..
salam pak,
saya sedang menyelesaikan skripsi tentang fcm,
saya mau tanya, apa bisa fcm di bandingkan dengan varian k-means yang lainnya, kalau bisa, dibandingkan dari segi apanya, apakah dari keakuratan data, performance, atau lainnya.
trimksh sebelumnya,
Pak, saya mau menanyakan latent descriptor clustering itu seperti apa ya?
adakah penjelasan lengkapnya?
terima kasih.
pak, saya mau tanya tentang algoritma suffix tree clustering itu penjelasan lengkapnya seperti apa..ada contoh algoritmanya ga pak ? makasih..
pak,saya mahasiswa matematika di pontianak,skrg saya lg TA.saya msh bingung dg langkah2 cluster dg metode ward.langkah2 penyelesaian dg metode Ward ap2 saja ya pak???
pak mau tanya ada clustering dengan menggunakan algoritma bee …mohon pencerahannya….
pak saya mau tanya judul TA saya PENGGUNAAN METODE ALGORITHM HIERARCHICAL CLUSTERING (AHC) PADA DATA MINING kiri2 data yang saya gunakan bisa ga pak hnya mngunkan 17 data dan dasar teori ygy bisa saya masukan tntang apa aja pak,mhon bntuan nya ya pak,tks
rasanya pala udah hampir meledak gara2 data mining ni
pak yudi saya mau tanya tentang perbandingan dari algoritma k-means dengan algorima clasterisasi yang lain pak…mungkin bapak punya refrensi dari perbandingan kelebihan dan kekurangan dari algoritma-algoritma clasterisasi..
maaf mas,, sy saya lagi membuat tubes datamining dengan menggunakan hirarchical clusterer… tp masih terbatas di data… data yg saya ajukan ke dosen ditolak entah krna apa,, hanya bilang intinya tidak cocok… kalau boleh sy minta tolong, contoh data yg baik untuk metode tersebut itu yg kaya gimana,, aplikasi yg saya gunakan “weka” …. mgkin kalau boleh sy minta contoh data.nya langsung… *.arff … terimakasih atas bantuannya.
Data yang bagus untuk clustering biasanya data konsumen suatu perusahaan, karena berguna untuk customer segmentation. Nasabah bank, mahasiswa perguruan tinggi, nasabah asuransi dll.
Mungkin bisa mulai dari sana.
Pak Yudi, yang saya inginkan keluarannya berupa cluster 1 isinya data apa saja, cluster 2 data apa saja.. saya meng-clusterkan 2 kelas pak.. kira-kira metode clustering apa saja yang bisa pak? pengelompokan data keuangan sebaiknya menggunakan metode clustering berbasis apa ya pak?
berarti menggunakan klastering non-hierarki ya pak, kira2 saya harus membandingkan metode apa dengan apa? bila saya membandingkan metode FCM dan K-Means apakah bisa pak?
dan apakah setiap data sebelum diolah harus dipreprocesing (centering, normalisasi, scaling) Pak? terimakasih Pak, maaf banyak bertanya, saya tunggu jawaban anda..
FCM dan K-Means pada dasarnya sama, FCM sudah tentu hasilnya lebih halus. Kalau jumlah clusternya sudah pasti, berarti tinggal karakteristiknya saja yang bisa dibandingkan. Kalau jumlah cluster masih bisa berubah-ubah, cara mencari jumlah cluster yang paling tepat yang bisa dibandingkan. Kalau dalam k-means ada partition entropy, boostrapped method, elbow method dll.
Untuk data preprocessing, perlu untuk dilaksanakan agar tidak menyebabkan bias yang terlalu besar, misalnya kalau mendapatkan data yang terlalu menyebar, perlu untuk dinormalisasi atau discale.
Semoga membantu.
Pak, saya baru belajar data mining dan disuruh mencari metode2 clustering untuk menentukan anggota cluster. kira-kira metodenya apa saja ya pak? terima kasih sebelumnya pak.
Mulai saja dengan k-means (http://yudiagusta.wordpress.com/k-means/) dan variannya seperti fuzzy c-means, k-modes, k-harmony dll. Bisa juga menggunakan clustering yang berbasis probability seperti mixture model (http://yudiagusta.wordpress.com/mixture-modelling/). Atau menggunakan metode berbasis soft computing seperti self organizing map dll.
Semoga menjawab.
saya ingin bertanya algoritma apa yg ingin digunakan jika saya ingin mengklasterkan pemilihan jurusan dimana ada 4 jurusan…terima kasih
Untuk masalah yang anda tanyakan ini, mungkin bukan clustering yang perlu dilakukan tetapi klasifikasi. Klasifikasi yang tujuannya untuk membuat model, agar semua record bisa diklasifikasikan menjadi empat jurusan.
Ada beberapa metode yang bisa digunakan seperti: Artificial Neural Networks (http://yudiagusta.wordpress.com/2008/10/09/artificial-neural-networks/), Decision Tree (http://yudiagusta.wordpress.com/2008/07/16/decision-trees/), Naive Bayes (http://yudiagusta.wordpress.com/2008/04/03/note-on-naive-bayes/), dll.
Semoga membantu.
Pak Yudi, saya mahasiswa yang sedang menyelesaikan Tugas Akhir saya mengelompokkan data rasio keuangan dengan clustering, dan clustering yang unsupervised learning karena data saya tidak memiliki label..
saya ingin menanyakan:
1. Apa sajakah teknik clustering yang banyak digunakan di dunia sampai saat ini?
2. Dari bermacam teknik clustering, apa saja yang cocok digunakan untuk mengelompokkan data rasio keuangan (data-nya berbentuk angka, contoh: -0.276, 1.356, -112.095) ?
3. Bagaimana cara membandingkan antar metode clustering? apakah cukup dilihat tingkat error tiap klastering dengan melihat nilai SSE?
mohon bantuannya Pak, terimakasiih..
Ada banyak metode clustering yang sudah diciptakan. Yang paling klasik adalah k-means, fuzzy c-means, expectation maximisation, clustering berbasis hirarki, self organizing map, dll.
Untuk data rasio keuangan, bisa menggunakan yang mana saja. Yang perlu dilihat adalah bentuk hasil yang nanti didapatkan. Karena setiap metode clustering mempunyai bentuk keluaran yang berbeda-beda, metode peng-cluster-annya juga berbeda-beda, serta asumsi yang diterapkan juga berbeda-beda.
Membandingkan data antar cluster bisa dengan cara bermacam-macam, tergantung pada metode peng-cluster-an yang digunakan serta asumsi yang diterapkan. Metode clustering berbasis probability misalnya bisa menggunakan probability bit cost, sedangkan yang berbasis jarak, bisa dengan sistem pembagian data training dan testing untuk dibandingkan hasilnya, dll.
Semoga menjawab.
Terimakasih Pak, apakah bapak bisa memberikan referensi terkait dengan macam2 clustering diatas, karena saya mahasiswa teknik industri yang masih sangat awam dengan data mining dan Matlab serta kesulitan mencari jurnal2 terkait..
saya telah mengirim email kepada bapak (yudiagustabali@yahoo.com, yudiagusta@bps.go.id, yudi@stikom-bali.ac.id) dengan alamat email saya nabila.firdausi@gmail.com, mohon bantuannya Pak, terimakasih banyak..
Menurut bapak, metode apa saja yang cocok dengan data rasio keuangan (seperti angka 0.24533, -1.3444, -122.45) ya Pak? namanya metodenya apa saja? terimakasih banyak Pak…
Mungkin yang paling umum digunakan yaitu metode k-means bisa digunakan. Silahkan melihat tulisan saya tentang k-means di http://yudiagusta.wordpress.com/k-means/
Terkait data yang akan di-cluster, karena range nilainya berbeda-beda, mungkin untuk setiap variabel perlu untuk dinormalisasi terlebih dahulu agar range nilai tidak terlalu beda antara satu variabel dengan variabel yang lain.
Demikian semoga membantu.
pak saya mau buat TA terkait clustering data administrasi desa terkait dengan data desa dll. kira2 cocoknya pakek algoritma apa ya? terima kasih bapak baik sekali mau menjawab pertanyaan2 kami.
Data desa itu maksudnya, recordnya desa ya, variabelnya data administrasi. Kalau benar begitu, fuzzy c-means bisa digunakan.
Semoga menjawab.
mau tanya tentang algoritma,konsep maupun penggunaan subspace cluster,,mohon infonya y,,klo bsa secepatnya y maz
Saya kurang mengerti maksud pertanyaannya, bisa dijelaskan lagi?
mau nanya pak…
saya mau ambil TA dengan menggunakan metode clustering. namun saya kesulitan dalam menemukan buku referensi yang ada.
apa bapak bisa bantu memberi referensi buku yang tepat?
terima kasih
Buku-buku data mining umumnya membahas tentang clustering sebagai salah satu bagiannya. Kalau mau melihat bibliography saya lihat di: http://yudiagusta.wordpress.com/2009/12/04/my-clustering-bibliography/
Semoga membantu.
kalo tentang expectation – maximization clustering gmn pak??
Bisa dilihat di tulisan saya: http://yudiagusta.wordpress.com/2008/05/07/em-algorithm/ atau http://yudiagusta.wordpress.com/mixture-modelling/
Semoga membantu.
Ass… Pak Saya Sedang Mengerjakan Tugas Akhir dan belum paham tentang menggunkan Diagram Dendogram…. Apa bisa tlg dijelaskan Pak….
Trima Kasih
Dendogram adalah reprentasi visual hasil dari proses hierarchical clustering. Tidak ada kaitannya dengan proses clustering.
Salam
mas, saya tanya donk
algoritma single linkage dengan KNN clustering sama atau beda????
trimakasih
Berbeda, single linkage untuk hierarchical clustering, sedangkan knn umumnya untuk mengklasifikasikan suatu data berbasis pada data di sekitarnya sejumlah k.
Semoga menjawab.
mas nanya dunk metode clustring ini bisa buat membatu memberikan keputusan kredit kendaraan (layak tidaknya seseorang diberikan kredit) kaga ya..
soalnya TA saya bersangkutan dengan clustering..
trima kasih atas infonya
Sebaiknya menggunakan metode Decision Tree (http://yudiagusta.wordpress.com/2008/07/16/decision-trees/), atau Neural Networks (http://yudiagusta.wordpress.com/2008/10/09/artificial-neural-networks/), dan bukan metode clustering, karena kelompok yang didefinisikan sebagai hasil akhir dari proses clustering, tidak bisa menjelaskan layak tidaknya seseorang diberikan kredit.
Demikian dan semoga menjawab.
saya mahasiswa UPN ‘V’ jogja semester akhir yg sedang mengerjakan tugas akhir tentang fuzzy FCM. awalnya saya mendapatkan jurnal ini >>http://www.waset.org/journals/waset/v39/v39-41.pdf << yang ingin saya lakukan Optimizing of Fuzzy C-Means Clustering Algorithm Using Mamdani bagaimana menurut bpk? apakah optimasi bisa dilakukan? jika bisa di lakukan bagaimana langkah2nya? karena saya mahasiswa jurusan teknik industri yang tidak bnyak tahu tentang MATLAB.
terimakasih
Di paper disebutkan pemilihan model menggunakan Genetic Algorithm. Hal ini bisa dilakukan untuk memberikan alternative pemilihan model pada algoritma umum yang biasanya digunakan.
Semoga membantu.
malam pak.Saya Edward , salah satu mahasiswa perguruan tinggi di Jakarta. Saya Semester depan akan mengambil skripsi dengan topik EM Clustering.Semoga pilihan ini adalah pilihan tepat yang saya pilih.hehehe…Semoga bapak tidak keberatan untuk membantu saya dalam mendalami dan membuat topik skripsi ini…Salam Kenal dari
Edward – Jakarta
Salam kenal juga….
pak saya bsa minta referensi buku untuk pengertian k-means clustering??
terimakasih.
mau nanya :
pak saya sedang menyusun Skripsi, kebetulan menggunakan algoritma K-means Clustering. bisa tidak membantu saya, dalam referensi buku pak.
sebelumnya saya ucapkan terima kasih.
Tulisan saya tentang k-means bisa dijadikan referensi. Linknya ada di atas. Salam
sir..,
gimana niy kalo kita menemukan ada 2 atau 3 lebih jarak yang minimal yang sama dalam single linkage…?
what should i do?
-thx b4-
Sudah dijawab di pertanyaan sebelumnya.
permisi ,, pak pernah dengar tentang cannopy clustering yg d terapan pada dokumen clustering ga ? ,,
apakah cannopy clustering hampir mirip dengan fuzzy logic ?
thanks pa ,,,
Canopy algorithm adalah metode yang diterapkan sebelum melakukan proses k-means. Istilahnya adalah pre-processing. Yang dilakukan adalah membagi data ke dalam kelompok-kelompok yang saling overlap (dinamakan canopy).
Demikian dan semoga menjawab.
Pak mau tanya..,
saya menemukan kasus untuk single linkage..,
“bagaimana kalau jarak minimal itu ada yang sama???”
mana yang harus saya pilih…?
menindaklanjuti TA kemaren
-mohon bantuannya-
-regards-
Kalau ukuran jarak ada yang sama dalam satu perhitungan, pemilihan bisa dilakukan dengan cara random. Kecuali kalau ada metode tambahan yang diterapkan untuk itu.
Semoga menjawab.
mas mw tanya bisa ga data2 yg udh di olah di excel
pake alg kmeans di convert ke matlab??
klo bsa cara nya gmn ya mas??
trs cara pmbntukan cluster di matlab nya gmn?
terimakasih atas respon dari postingan saya sebelumnya dan..,
ada gak tulisan bapak yang menyinggung masalah tersebut.,
khususnya single dan average beserta studi kasusnya., hehehe
maklum saya bukan jurusan Matematik tapi jursan Informatika..,
Matematika saya lemah Pak
Salah satu penjelasan detail bisa ditemukan di http://www.resample.com/xlminer/help/HClst/HClst_intro.htm
Dalam bahasa Inggris tapinya.
Demikian semoga membantu
saya sedang mengerjakan TA “penjurusan SMA dengan hirarcical clustering”
dengan membandingkan method single dan average.., bisa kah penerangannya tentang single dan average linkage, karna di situ hanya dijelaskan pengertian dasarnya saja.,
-nuhun-
Single dan average linkage method hanya digunakan untuk hierarchical clustering berbasis agglomerative (dari N cluster menjadi 1 cluster hirarki). Single linkage dilakukan dengan melihat jarak dari data yang terdekat antara dua cluster yang dibandingkan. Average linkage dilakukan dengan melihat jarak rata-rata antara masing-masing data di cluster yang satu ke masing-masing data di cluster yang lain. Dalam setiap tahapan penggabungan hirarki selalu akan dilakukan evaluasi seperti ini untuk melihat cluster mana yang bisa digabung ke cluster yang lainnya. Sehingga, sesuai dengan konsep agglomerative di akhir akan didapatkan satu kesatuan cluster.
Demikian dan semoga membantu.
terimakasih sebelumnya dan..,
apakah metode yang saya gunakan sudah tepat Pak?
ada gak tulisan bapak yang menyinggung masalah tersebut.,
khususnya single dan average beserta studi kasusnya., hehehe
maklum saya bukan jurusan Matematik tapi jursan Informatika..,
Matematika saya lemah Pak
bagaimana untuk clustering pada data stream? dan pejelasan dari clustering pada data stream…?
trimakasih atas bantuannya
Kalau data stream dapat dianggap sebagai sequence data, maka hal di atas bisa dipecahkan dengan metode sequence clustering. Salah satu penjelasannya dapat dilihat di tulisan saya tentang sequence clustering http://yudiagusta.wordpress.com/2008/06/24/sequence-clustering/.
Kalau bukan sequence, data stream harus diekstrak dulu menjadi feature-feature yang berguna untuk keperluan pemodelan clustering. Pemilihan jenis feature dilihat dari data stream yang akan dimodel.
Demikian dan semoga membantu.
gunanya threshold pada data stream?? penjelasan threshold sendiri gmn?? terima kasih
mohon bantuannya ya… untuk clustering data stream…
Mohon Bantuannya Mas
sya punya data 3 jenis gambar, masing2 gambar ada 50. jadi total keseluruhan da 150 data.
klo mau buat maps pada SOMnya gimana yah,…
Maksih Mas sebelumnya,.
Untuk sampai ke tingkat penggunaan SOM, feature di dalam gambar harus di-extract dulu. Feature extraction untuk gambar ada banyak jenisnya, bisa dicari dari di internet. Ada yang berbasis pixel, ada yang berbasis warna, ada yang berbasis arah/sumbu dll. Setelah feature ditentukan baru bisa masuk ke SOM dengan mengikuti algoritma yang telah disebutkan di atas.
Mudahan ini menjawab.
gambarnya sudah saya ekstraksi mas,.
klo saya buat ukuran maps somnya dengan 3×1. pa tu sudah bisa memenuhi keinginan saya..
saya ingin ada 3 cluster mas..
terima kasih
maaf Pak, mohon penjelasanx lbh lanjut mengenai rumus manual dalam mencari nilai2 dari similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan menggunakan jarak Euclidean? Kalau bisa disertakan dengan sedikit contoh soal.
di tugas akhir saya, dosen saya meminta hitungan manualnya…
makasih sebelumnya Pak.
^_^
Misalkan saja ada dua titik X(0, 0) dan Y(3, 4), jarakEuclidean itu sama dengan rumus pitagoras = akar dari (3-0)^2 + (4-0)^2 = 5.
Begitu kira-kira yang paling sederhana.
mau tanya soal SOM..
bisa gak bang lebih detail lagi diperjelasnya…
makasih
Belum sempat nulis yang lebih lengkap lagi…..
mau nanya,
keunggulan algoritma STING pada clustering apa yah.. terima kasiih
Yang saya pernah baca, Algoritma Sting itu untuk analisis data spatial, bukan untuk clustering…. Ataupun kalau untuk clustering, data clusteringnya diasumsikan atau berbentuk data spatial
maaf , saya bertanya aga keluar dari bahasan..
mau nanya tentang Algoritma QUEST.
kenapa Algoritma QUEST dikatakan Cepat (Quick) ?
kenapa Algoritma QUEST dikatakan Tak bias (Unbiased) ?
kenapa Algoritma QUEST dikatakan Efisien?
terimakasih
mau nanya..
kalo kita mau melakukan peng-cluster-an untuk suatu topik tertentu yang banyak direspon (pada data sms) cocoknya pake algoritma clustering yang mana??
mohon pencerahannya..terimakasih..
Mungkin tidak perlu menggunakan clustering, cukup dengan counting saja sudah bisa dipecahkan, saya pikir…..
Semoga menjawab.