Clustering adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain.
Ada beberapa pendekatan yang digunakan dalam mengembangkan metode clustering. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan hirarki. Clustering dengan pendekatan partisi atau sering disebut dengan partition-based clustering mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan. Di samping kedua pendekatan tersebut, ada juga clustering dengan pendekatan automatic mapping (Self-Organising Map/SOM)
Clustering Dengan Pendekatan Partisi
K-Means
Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi ini adalah metode k-means. Secara umum metode k-means ini melakukan proses pengelompokan dengan prosedur sebagai berikut:
- Tentukan jumlah cluster
- Alokasikan data secara random ke cluster yang ada
- Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya
- Alokasikan kembali semua data ke cluster terdekat
- Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi masih sudah di bawah treshold
Prosedur dasar ini bisa berubah mengikuti pendekatan pengalokasian data yang diterapkan, apakah crisp atau fuzzy. Setelah meneliti clustering dari sudut yang lain, saya menemukan bahwa k-means clustering mempunyai beberapa kelemahan.
Hal-hal terkait dengan metode k-means saya rangkum dalam tulisan saya yang dapat di-download di sini (k-means – penerapan, permasalahan dan metode terkait).
Penjelasan lengkap tentang k-means dapat juga dilihat pada Yudi Agusta’s K-Means Page.
Mixture Modelling (Mixture Modeling)
Mixture modelling (mixture modeling) merupakan metode pengelompokan data yang mirip dengan k-means dengan kelebihan penggunaan distribusi statistik dalam mendefinisikan setiap cluster yang ditemukan. Dibandingkan dengan k-means yang hanya menggunakan cluster center, penggunaan distribusi statistik ini mengijinkan kita untuk:
- Memodel data yang kita miliki dengan setting karakteristik yang berbeda-beda
- Jumlah cluster yang sesuai dengan keadaan data bisa ditemukan seiring dengan proses pemodelan karakteristik dari masing-masing cluster
- Hasil pemodelan clustering yang dilaksanakan bisa diuji tingkat keakuratannya
Distribusi statistik yang digunakan bisa bermacam-macam mulai dari yang digunakan untuk data categorical sampai yang continuous, termasuk di antaranya distribusi binomial, multinomial, normal dan lain-lain. Beberapa distribusi yang bersifat tidak normal seperti distribusi Poisson, von-Mises, Gamma dan Student t, juga diterapkan untuk bisa mengakomodasi berbagai keadaan data yang ada di lapangan. Beberapa pendekatan multivariate juga banyak diterapkan untuk memperhitungkan tingkat keterkaitan antara variabel data yang satu dengan yang lainnya.
Klik Yudi Agusta’s Mixture Modelling Page untuk penjelasan lebih rinci.
Clustering dengan Pendekatan Hirarki
Clustering dengan pendekatan hirarki mengelompokkan data yang mirip dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang sering diterapkan yaitu agglomerative hieararchical clustering dan divisive hierarchical clustering. Agglomerative melakukan proses clustering dari N cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data, sedangkan divisive melakukan proses clustering yang sebaliknya yaitu dari satu cluster menjadi N cluster.
Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage dan lain-lainnya. Seperti juga halnya dengan partition-based clustering, kita juga bisa memilih jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.
Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti dengan Euclidean Distance Space. Berangkat dari similarity matrix ini, kita bisa memilih lingkage jenis mana yang akan digunakan untuk mengelompokkan data yang dianalisa.
Clustering Dengan Pendekatan Automatic Mapping
Self-Organising Map (SOM)
Self-Organising Map (SOM) merupakan suatu tipe Artificial Neural Networks yang di-training secara unsupervised. SOM menghasilkan map yang terdiri dari output dalam dimensi yang rendah (2 atau 3 dimensi). Map ini berusaha mencari property dari input data. Komposisi input dan output dalam SOM mirip dengan komposisi dari proses feature scaling (multidimensional scaling).
Walaupun proses learning yang dilakukan mirip dengan Artificial Neural Networks, tetapi proses untuk meng-assign input data ke map, lebih mirip dengan K-Means dan kNN Algorithm. Adapun prosedur yang ditempuh dalam melakukan clustering dengan SOM adalah sebagai berikut:
- Tentukan weight dari input data secara random
- Pilih salah satu input data
- Hitung tingkat kesamaan (dengan Eucledian) antara input data dan weight dari input data tersebut dan pilih input data yang memiliki kesamaan dengan weight yang ada (data ini disebut dengan Best Matching Unit (BMU))
- Perbaharui weight dari input data dengan mendekatkan weight tersebut ke BMU dengan rumus:
Wv(t+1) = Wv(t) + Theta(v, t) x Alpha(t) x (D(t) – Wv(t))
Dimana:
- Wv(t): Weight pada saat ke-t
- Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan.
- Alpha (t): Learning Coefficient yang berkurang secara monotonic
- D(t): Input data
- Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah iterasi
Variasi Metode Clustering
- Quality Threshold Clustering Method
- Locality Sensitive Hashing
- Algoritma Rock
- Hierarchical Frequent Term-Base Clustering
- Suffix Tree Clustering
- Single Pass Clustering
- Neighborhood Clustering
- Sequence Clustering
- Spectral Clustering
- Clustering on Frequent Tree
- Latent Class Cluster Analysis a.k.a. Latent Profile Analysis a.k.a. Mixture Model for Continuous Variabel
- Latent Class Analysis a.k.a. Mixture Model for Categorical Variable
Hal-hal Terkait Dengan Clustering
- Analisa Faktor
- Singular Value Decomposition
- Eigen Value and Eigen Vector
- Similarity Measure
- Feature Discretisation
- Feature Selection
- Feature Scaling
- Indexing Method For Searching
Corat-coret Saya Mengenai Clustering
K-Means – Penerapan, Permasalahan dan Metode Terkait; Akurasi Hasil Pemodelan K-Means
Links Tentang Clustering
Under Construction. Sorry!Co
assalau’alaikum?
pa’mau tanyaneh peredaan homogenitasdan heterogenitas itu apa?
bisa ga’dijelaskan arti maksud kata terebut?
Homogenitas adalah tingkat “kesamaan” data yang ada di dalam “satu kelompok”.
Heterogenitas adalah tingkat “perbedaan” antara data yang ada di dalam “dua kelompok yang berbeda”.
Kira-kira demikian artinya.
Semoga menjawab
aslm.
salam, pak mw tanya
1. kelemahan masing-masing analisis cluster biasa, k-means cluster, fuzzy cluster dan latent class cluster apa ?
2. kelebihannya masing-masing analisis cluster biasa, k-means cluster, fuzzy cluster dan latent class cluster apa ?
3. kapan kita menggunakan analisis cluster biasa, k-means cluster, fuzzy cluster dan latent class cluster ?
4. perbandingan satu (analisis cluster biasa, k-means cluster, fuzzy cluster dan latent class cluster ) dengan yang lainnya
mohon bantuannya..terima kasih banyak
Salam…
Pak, Mana lebih bagus clustering method antara k-mean dengan k-median(k-medoid)?
Dimana bisa saya dapatkan pepar atau jurnal yang membahas k-medoid?
Terima kasih…
Means dan median mempunyai kekhasannya masing-masing, dan umumnya akan langsung mempengaruhi proses clustering. Tentang mana yang lebih bagus, mungkin tidak bisa diukur. Mungkin dilihat saja apakah data yang dicluster lebih cocok dengan means atau median dalam merepresentasikan kelompok data yang dihasilkan.
Semoga bisa menjawab.
pak saya mau nanya, kami ada topik tentang Analyzed and Compare the result of K-means & EM(Expectation Maximization) on several data set. saya masih samar dengan kedua algoritma ini, memang untuk Kmeans saya menemukan banyak artikel tapi untuk algoritma yang satu lagi masih samar, mohon pencerahannya pak.. trimakasih…..
EM pada dasarnya secara algoritma sama dengan K-Means, tetapi asumsi yang digunakan berbeda. Perbedaan terletak pada cara menghitung membership function, kalau EM biasanya memanfaatkan distribusi Normal. Selain itu, EM biasanya memanfaatkan asumsi yang ada dalam memilih jumlah cluster yang paling tepat, sedangkan K-Means biasanya memakai metode lain untuk menentukan jumlah cluster dan dilaksanakan juga dengan sistem pre-processing.
Demikian dan semoga membantu.
pak…saya mau mengcluster nota penjualan brg di supermarket. sy mengcluster berdasarkan brg2 apa saja yg tejual dlm tiap notany
hasil dr cluster…nota2 yg mirip berdasarkan brg2 yg terbeli pd tiap clusterny
yg mau sy tanyakan…kr2 setelah cluster terbentuk…analisis apa y pak yg bs sy lakukan?
kl utk mengetahui penjualan yg laris…bs pk query kn?
mhn bantuan bpk
Dari penjelasan diberikan ada beberapa arah analisa yang bisa dilakukan. Tetapi pertama, untuk mengolah data nota secara langsung tidak memungkinkan, karena jumlah barang di supermarket sangat banyak dan dari nota pembelian akan sangat banyak yang nilainya nol.
Untuk keperluan tersebut, mungkin data nota perlu diolah/dikonversi dulu menjadi data menurut jenis/type barang yang yang dibeli. Misalnya tentukan berdasarkan jenis barang: barang pake habis, barang tahan lama, barang tidak tahan lama, makanan dll. Sehingga variabel yang didapatkan menjadi terbatas, tidak seperti data awalnya dengan jumlah barang yang tidak terbatas.
Alternatif kedua, kalau tidak ingin melakukan analisa dengan mengkonversi, mungkin bisa menggunakan metode association rule, atau market basket analysis, yang berusaha menganalisa keterkaitan antara satu barang dengan barang yang lain. Hasil analisa yang didapat bisa berupa kalau barang A dibeli, konsumen juga akan membeli barang B, dengan kemungkinan 80%. Contoh riilnya: kalau konsumen membeli KOPI, pasti juga membeli GULA, dengan kemungkinan 80%. Metode Association Rule atau Market Basket Analysis ini bukan metode Clustering. Jadi hasilnya bukan kelompok-kelompok, tetapi aturan-aturan rule.
Demikian dan semoga membantu.
pak, saya mau tanya, metode clustering yang digunakan untuk data kuersioner itu pake clustering yang single linkage atau pake yang K-means clustering?!karena saya sedang membuat tugas akhir yang menggunakan metode clustering yang datanya adalah kuersioner…….makacih pak atas bantuannya…………
Saya kurang mengerti dengan data kuersioner? Apa yang dimaksud adalah data yang dikumpulkan menggunakan kuesioner?
pak Yudi…saya ingin bertannya tentang single pass clustering, saya ingin tau apa dah bagaimana proses metode ini… mohon bantuannya pak…
Saya belum pernah memakainya. Tetapi secara garis besar mungkin prosedurnya seperti ini:
1. Buat satu cluster dengan satu data pertama
2. Bandingkan data kedua dengan cluster pertama dengan rumus jarak yang ditentukan
3. Apabila jarak antara data yang dianalisa dengan cluster yang ada masih di bawah threshold, maka masukkan data ke dalam cluster tersebut. Ini berlaku untuk semua cluster yang telah dibentuk. Kalau jarak antara data tersebut dengan semua cluster yang telah terbentuk, tidak ada yang di bawah threshold, maka bentuk cluster yang baru.
4. Lakukan perbandingan sampai semua data teralokasikan ke dalam cluster.
Demikian mungkin yang bisa diinformasikan. Mudah-mudahan ke depan saya bisa menulisnya dalam bentuk yang lebih lengkap.
Semoga membantu
trimakasih atas jawabannya pak…(^_^)
memang sumber2 yang saya dapat jg hanya menjelaskan secara umum saja..dan susah mencari tentang singlepass clustering ini..dan kadang sumber2 tersebut membuat saya bingung, yang mana yg benar tentang singlepass clustering..karena setiap sumber menjelaskannya beda2..
tp sepertinya singlepass clustering ini termasuk dalam information retrieval….
Bisa melihat tulisan saya tentang Akurasi Pemodelan K-Means.
Pak Yudi, saya sedang mengerjakan tugas akhir tentang K-Mean. Saya bingung bagaimana menentukan cluster yang baik dilihat dari mananya?
Terima kasih
Pak Yudi, bagaimana melihat homogenitas dan heterogenitas dari suatu cluster yang terbentuk? Apakah dari centroidnya? Bisa tolong berikan contoh tentang data yang homogenitas dan heterogenitas?
Terima kasih
Sama dengan ulasan saya di comment sebelumnya.
Pak Yudi, saya sedang mengerjakan skripsi tentang cluster K-Mean, namun saya bingung bagaimana melihat homogenitas dan heterogenitas dari hasil cluster yang sudah dihasilkan, apakah dari centroid atau dari membership clusternya atau dari yang lain ?
Sebab yang saya baca bahwa cluster yang baik memiliki intra-kelas tinggi (homogenitas) dan inter-kelas tinggi (heterogenitas).
Terima kasih Pak Yudi
Mohon bantuannya
Tingkat homogenitas dan heterogenitas dalam suatu model cluster pada metode k-means dapat dilihat dengan membandingkan membership function masing-masing data ke masing-masing cluster. Kalau membership function masing-masing data ke cluster makin distinc (mendekati 0 atau mendekati 1, maka tingkat homogenitas dan heterogenitas model cluster itu sangat tinggi.
Demikian semoga membantu.
Pak Yudi, saya ingin bertanya apa itu homogenitas dan heterogenitas dalam cluster beserta dengan contohnya misalnya seperti apa data yang homogenitas/heterogenitas? Terima kasih
Kalau kita melakukan pemodelan berbasis cluster, kita mencari tingkat homogenitas di dalam suatu cluster dan heterogenitas antar cluster. Makin besar homogenitas dalam suatu cluster dan heterogenitas antar cluster, mengindikasikan bahwa cluster-cluster yang terbentuk mempunyai karakteristik yang benar-benar berbeda.
Demikian dan semoga membantu.
Halo Pak Yudi, maaf mengganggu.
Saya ingin mengerjakan tugas akhir tentang perbandingan cluster EM dengan cluster K-Mean. Saya ingin bertanya bagaimana mengetahui cluster mana yang lebih baik dari salah satu metode cluster yang saya pakai diatas, apakah ada suatu kriteria khusus dalam melihat cluster yang baik. Kalau ada, bisa Bapak jelaskan kepada saya beserta dengan contohnya.
Terima kasih Pak Yudi
Mohon bantuannya
Cluster EM dan Cluster K-Means berbeda dari segi asumsi yang digunakan. Jadi untuk membandingkan cluster mana yang lebih bagus tidak memungkinkan. Ulasan perbandingan mungkin bisa dilakukan dengan mengkritisi asumsi-asumsi yang digunakan, apakah cocok dengan data yang dimodel atau tidak. Detail asumsi-asumsi yang digunakan bisa dibaca pada tulisan saya di atas.
Semoga membantu.
Salam kenal Pak Yudi,
Saya mhs tingkat akhir yg sedang ambil topik skripsi mengenai clustering. Mau tanya Pak.
Dalam artikel Bapak disebutkan bahwa slh satu kelemahan k-means (hard clustering) yaitu kegagalan untuk converge. Maksudnya converge itu kegagalan suatu data untuk membentuk kelompok dgn data lainnya bkn Pak?
Nah trs dijelaskan pula, perpindahan data dlm hard clustering dari suatu cluster ke cluster lainnya dpt merubah karakteristik model cluster yg terbentuk, kok bisa Pak suatu data dipindah-pindah dari satu cluster ke cluster lainnya. memangnya fungsi data dipindah2 itu untuk apa kl hal itu menyebabkan terjadinya gagal converge, kan datanya sudah dikelompokan oleh k-means nya? Dlm hal apa perlunya dilakukan pemindahan data dari suatu cluster ke cluster lainnya?
Mohon pencerahannya Pak
Terimakasih sebelumnya.
Pak, Tau tentang Neighbourhood Clustering kan???
Pa si itu Pak????
Mohon Bantuannya.
Sdr/i me, Clustering itu mempunyai tujuan mengelompokkan data yang kita miliki menjadi beberapa kelompok. Hasil dari penggunaan metode clustering adalah kelompok-kelompok data dan karakteristik dari masing-masing kelompok. Pemanfaatannya banyak sekali, mulai dari pengelompokan data sosial ekonomi, perbankan seperti customer segmentation, image clustering, sequence clustering, dll. Anda bisa search di internet, karena pemanfaatannya sangat luas sekali.
Demikian
Sdr/i Ardi, clustering merupakan salah satu metode yang juga sering dimasukkan sebagai salah satu metode data mining. Mengenai Variasi Metode Clustering, saya kurang mengerti maksudnya. Kalau melihat pada keadaan metode clustering yang ada memang banyak sekali variasi yang ada. Kita dapat memilih metode clustering mana yang akan kita gunakan dengan melihat data yang kita miliki.
Demikian dan semoga menjawab
Sdr/sdri Dian,
Dari informasi yang diberikan, saya belum bisa memastikan apakah clustering bisa diaplikasikan di sini atau tidak. Clustering pada intinya bertujuan untuk mengelompokkan data yang kita miliki menjadi bebeberapa kelompok, berdasarkan pada variabel yang tersedia di dalam data yang kita miliki. Kalau untuk automatic mapping, ada metode Self Organising Map (SOM) yang bisa digunakan. Tetapi untuk sistem informasi geografis, bisa diaplikasikan, tetapi memerlukan proses clustering dilaksanakan terlebih dahulu.
Demikian dan semoga menjawab
pak yudi, mau tanya sebenarnya kalo dilihat dari konsep clustering,apa sih tujuan utama dan hasil yang bisa diberikan oleh metode penganalisaan seperti ini? kemudian bidang2 pengaplikasian yang memungkinkan untuk dianalisa menggunakan clustering tu apa saja? terima kasih..
pak yudi, terima kasih banyak, artikel bapak banyak membantu saya dalam memahami clustering dalam data mining.
pertanyaan saya pak,
1. clustering disini sama tidak dengan clustering detection dalam data mining ?? maaf klo pertanyaan gk jelas, tp ini sangat membantu saya pak.
2. selain 3 metode clustering di atas (partition-based clustering, hierarchical clustering dan automatic mapping (Self-Organising Map/SOM)), terdapat Variasi Metode Clustering, pertanyaan saya variasi tersebut masuk dalam 3 kategori diatas apa tidak pak? atau sebagai metode lepas yg berdiri sendiri?
terima kasih banyak sekali lagi pak sebelumnya
pak… saya mw nanya.
saya ingin menyusun tugas akhir mengenai sistem informasi geografis penyebaran yang berhak menerima zakat. apakah metode clustering dengan p
endekatan automatic mapping bisa digunakan? tp saya kurang faham dengan rumus nya. apakah bapak bisa membantu saya?
Sdr. Sajadin, clustering merupakan teknik unsupervised classification. Kita tidak tahu menahu keadaan data kita saat ini. Semua metode clustering bisa dicoba. Tetapi saran saya, buatlah suatu prosedur untuk bisa membandingkan antara satu metode dengan metode yang lain. Salah satu cara untuk membandingkannya adalah dengan membagi data yang ada menjadi data training dan data test. Model yang didapat dengan data training, diuji kelayakannya dengan data test. Permasalahan yang sering dihadapi adalah mencari metode yang sama untuk menguji kelayakan metode-metode tersebut, karena setiap metode mempunyai asumsi yang berbeda-beda. K-Means dan Fuzzy C-Means menggunakan asumsi jarak (umumnya Eucledian) untuk memodel data. Kernel C-Means melakukan konversi dulu ke dimensi yang lebih tinggi sebelum memulai memodel. Sehingga secara keseluruhan metode-metode tersebut sulit untuk dibandingkan. Secara keseluruhan, silahkan dicoba-coba, cari prior knowledge yang berkembang mengenai data anda, dan pilih metode yang paling mendekati prior knowledge yang sudah berkembang tersebut.
Semoga membantu.
Pak Yudi, terima kasih atas kesediaannya membantu saya.
sekarang saya sedang mempelajari beberapa technik clustering yg nantinya akan di aplikasikan untuk meng explorasi data academic performance di perguruan tinggi. saya masih bingung dalam memodelkan datanya pak, dan saya belum faham apa langkah yg harus saya mulai, harap maklum pak sy masih pemula. Tujuan saya mau mencari mana technik yg terbaik digunakan pada area ini. Rencana sy mau membuat study comparative terhadap technik2 berikut ini : Original K-Means, MaxD K-means, Fuzzy C-Means dan kernel K-means. Mohon saran bapak, bagaimana seharusnya sy memodelkan datanya, dan apakah ada saran technik clustering apa yg lebih baik sy gunakan.
Trimakasih sebelumnya
Bisa menggunakan distance space yang berbeda-beda. Tergantung pada bagaimana kita mendefinisikan domain permasalahan kita.
pak… saya mw nanya…
dalam tulisan bapak tentang K-MEANS penerapan, permasalahan dan metode terkait khan ngebahas tentang perkembangan penerapan k-means di situ ad point tentang distance space.
maksudnya ap yah pak???
apakah dlm k-means menggunakan distance space yang berbeda2?
reperensinya ap az yah pak…
terima kasih
Dendogram hanya bentuk dari hasil clustering berbasis hirarki. Tentang pruning, banyak ada ulasannya di internet. Kalau mau membaca dari blog ini, saya ada nulis tentang pruning pada bahasan Decision Trees.
Pak… saya mau nanya mengenai dendogram. Apakah setiap klasterisasi hasil akhirnya selalu dalam bentuk dendogram ? Saya sekarang sedang mengerjakan tentang penggalian frequent tree dalam klasterisasi dokumen xml. dimana untuk mengukur kedekatan antar klaster saya menghitung nilai inter_klaster. Kalau saya buat dendogram siapa Y?
Pak.. saya juga kebingungan dengan proses prunning. apakah ada aturan untuk melakukan prunning data?
Terima kasih atas bantuannya.
Gimana mas Lukman, ada perkembangan?
Pak… saya mau nanya mengenai analisa data daerah, baik itu ipm ikk dengan pengalokasian dana ke daerah (dana transfer: dau, dak, dbh) dan potensi daerah melalui pad. dengan data yang ada kita ingin melihat hubungan alokasi dana di daerah dengan pengaruh ke ikk dan ipm tersebut… terima kasih atas bantuannya…
lukman adi
Kalau memang dari 4026 dimensi itu dirasa ada feature (variabel) yang mempunyai ketergantungan satu dengan yang lainnya, memang perlu untuk melakukan feature reduction/selection. Cuman perlu juga diperhatikan, metode apa yang dipilih untuk feature reduction. Lebih baiknya memilih metode feature reduction yang tidak menghilangkan informasi yang terkandung di dalam data. Principal Component Analysis misalnya, variabel yang dihasilkan merupakan komposisi gabungan dari variabel yang ada. Kalau tidak semua variabel hasil tidak digunakan berarti ada informasi yang hilang dari data. Metode mutual information mungkin bisa digunakan untuk memilih variabel mana yang diikutkan dan variabel mana yang tidak perlu diikutkan. Saya sempat membuat catatan tentang kNN Algorithm, dimana di dalamnya juga ada ulasan mengenai feature selection.
Semoga membantu.
Pak, mau nanya tentang SOM.
saya berencana membuat skripsi dengan SOM untuk data dengan dimensi yg cukup tinggi yaitu 4026 dimensi.
Apakah bisa langsung dilakukan clustering dengan SOM karena SOM efektif untuk menangani data dimensi tinggi atau harus tetap melalui proses preprocessing terlebih dahulu.
kemudian preprocessing apa yang dipakai, apakah dengan menggunakan reduksi dimensi?
makasi
Single linkage pada dasarnya mencari jarak antar kelompok (cluster) dengan mendefinisikan jarak antar cluster tersebut dengan jarak terpendek dari setiap data yang ada di cluster yang satu dengan setiap data yang ada di cluster yang lain. Secara matematika D(C1,C2) = min D(x1 in C1, x2 in C2).
Tentang referensi, saya rasa tema ini sudah dicover dalam semua referensi tentang hierarchical clustering atau Data Mining secara umum. Google mungkin bisa membantu.
Semoga bermanfaat.
pak yudi, TA yang saya adalah segmentasi data menggunakan klusterisasi secara hierarchi, mohon bantuan penjelasan tentang varian dari hierarchical clustering yang ada y (khususnya single linkage), karena penjelasan diatas masih belum mencover kebutuhan saya dan kalau da referensi (ex.algorithm or pseudocode) saya berterima kasih sekali kalau bapak berkenan mengirimkannya ke email saya,any helps will be great
Mmm, referensi yang lain, saya sendiri jarang make yang Bahasa Indonesia
Bisa saja diperbandingkan. Tetapi karena secara prinsip, kedua metode adalah sama, hasilnya tidak akan jauh berbeda. Seperti yang pernah saya sampaikan sebelumnya, memperbandingkan dua metode clustering sangat sulit, karena pendekatannya berbeda-beda dan biasanya disesuaikan dengan jenis datanya. Tetapi bisa saja membandingkan beberapa metode clustering yang berbeda prinsip untuk melihat data jenis apa saja yang cocok untuk dianalisa oleh masing-masing metode. Beberapa metode clustering yang ada bisa lihat di atas.
Mudahan membantu.
pa makasi atas jawabannya….
klo saya mo nyari referensi yang lain tapi dalam bahasa indoenesia lebih baik di mana pak ???
klo saya mo membandingkan hard k-means dan fuzzy k-means menurut bapak gmana???
Metode Data Mining ada banyak sekali. Kalau dikelompokkan ada dua kelompok: supervised dan unsupervised. Clustering termasuk yang unsupervised i.e. datanya tidak mempunyai informasi label atau kelas.
Susah membandingkan dua teknik clustering karena pada dasarnya basicnya semuanya berbeda-beda.
Coba dibaca lagi. Kalau tulisan saya tidak mencukupi, cari referensi yang lain sebagai pembanding.
Semoga membantu.
Pa saya mo nanya
1. sebenernya teknik dalam data mining ada berapa? soalnya dari beberapa sumber yang saya baca memiliki berbagai versi.
2. klo saya mo membandingkan dua teknik dalam clustering lebih baik apa? mohon bimbingannya!!!
3. saya sudah membaca tulisan bapak tentang k-means, tapi saya kurang mengerti.
4. makasi sebelumnya. mohon di jawab secepatnya
Silahkan. Saya akan bantu tentunya sebatas kemampuan saya
. Penjelasan singkat tentang Kernel K-Means saya tambahkan pada halaman K-Means.
Trimakasih atas tulisan Pak Yudi, tentang Clustering dan beberapa technik yang digunakan seperti K-means Cluatering, Mixture Modelling. Fuzzy C-Means,dll. Saat ini saya sedang melakukan research, pada bidang data mining, yg saya ambil adalah Aplikasi Data Mining untuk mengukur student academic performance, perguruan tinggi, saya menggunakan data clustering technique. kalau boleh saya minta tolong dengan pak Yudi, rencana saya menggunakan kernel K-means Clustering technique. Tolong Pak Yudi bantu saya bagaimana penerapan teknik2 clustering ini dapat digunakan untuk tujuan research diatas.
Trima kasih sebelumnya
Mungkin yang dimaksud Elbow Criterion. Criterion ini membandingkan nilai RMSSTD dan RS Statistik dari model clustering yang didapatkan. Selengkapnya bisa lihat halaman K-Means blog saya ini.
Mau tanya, gimana c cara menentukan jumlah cluster dalam k-means?
saya baca buku nya aaker et.al tahun 2001 katanya menentukan jumlah cluster dgn cara melihat grafik erroe mean square dr cluster yang bertambah, apabila terjadi lekukan atau tikungan tajam, itulah jumlah cluster yg terpilih…apa benar?..karena saya g punya asumsi apapun untuk menentukan jumlah cluster
Mohon bantuannya langsung ke e-mail saya. terima kasih