Image Clustering

25 04 2011

Image Clustering merupakan suatu proses data mining yang bertujuan untuk mengelompokkan gambar menjadi kelompok-kelompok dimana gambar dalam satu kelompok akan memiliki karakteristik yang sama, sedangkan image dalam kelompok yang berbeda memiliki karakteristik yang berbeda.

Karakteristik gambar yang dijadikan dasar untuk pengelompokan ada bermacam-macam bentuknya. Ada yang berupa variabel yang diekstrak dari gambarnya seperti komposisi warna, komposisi warna pixel di sekeliling suatu pixel, dan lan-lain. Karakteristik yang digunakan ada juga yang mengharuskan campur tangan manusia untuk mendeskripsikan terlebih dahulu gambar yang ada menjadi keywords atau narasi, sehingga pengelompokan dilakukan berdasarkan keywords atau narasi tersebut. Disamping itu, karakteristik gambar juga dapat diekstrak berdasarkan arah gambar dan jumlah garis yang ada pada gambar, seperti halnya gambar huruf Chinese atau Japanese.

Sehingga secara keseluruhan kegiatan image clustering mempunyai tahapan-tahapan sebagai berikut:
1. Memasukkan semua input gambar yang akan dikelompokkan
2. Mengekstrak variabel (karakteristik) dari gambar-gambar yang telah diinputkan
3. Melakukan proses clustering (pengelompokan) menggunakan metode clustering yang ditentukan.

1. Memasukkan semua input gambar yang akan dikelompokkan

Proses ini sangat umum dilakukan dalam kegiatan entry data atau sistem informasi. Data gambar yang dimasukkan akan disimpan di dalam database untuk selanjutnya variabel gambar terkait akan diekstrak. Ukuran gambar dapat berbeda-beda.

2. Mengekstrak variabel (karakteristik) dari gambar-gambar yang telah diinputkan

Proses ini dapat dilaksanakan secara otomatis begitu suatu gambar diinputkan, tetapi dapat juga dilakukan secara bersama-sama setelah beberapa gambar diinputkan. Proses ekstraksi variabel (karakteristik) ditentukan berdasarkan jenis karakteristik (variabel) yang diekstrak. Apabila variabel (karakteristik) yang diekstrak itu berasal langsung dari informasi yang ada dalam gambar, maka suatu program ekstraksi perlu untuk dikembangkan.

File gambar umumnya mempunyai beberapa informasi yang terkandung di dalamnya seperti ukuran gambar, bit pixelnya, informasi warna setiap pixelnya dll. Untuk melihat komposisi informasi dalam gambar bisa dilihat di Format File BMP, Format File TIFF, dan Format File JPG. Untuk dapat mengekstraksi variabel yang didapat dari informasi gambar perlu untuk mengerti komposisi informasi dari gambar tersebut, sehingga variabel dapat diekstraksi dengan tepat.

Sedangkan apabila variabel (karakteristik) yang diekstraksi berasal dari keywords atau narasi yang diberikan user, maka perlu untuk menyediakan program entry untuk menginputkan keywords dan narasi yang bersangkutan.

3. Melakukan proses clustering (pengelompokan) menggunakan metode clustering yang ditentukan

Ada beberapa metode clustering yang dapat digunakan untuk melakukan proses pengelompokan. Ada yang berbasis partition-base seperti fuzzy c-means, ada yang berbasis mixture model, dan ada yang berbasis hierarchical clustering.

Pada dasarnya, tujuan dari metode-metode ini adalah sama yaitu untuk menghasilkan gambar-gambar yang dikelompokkan ke masing-masing kelompok yang sesuai. Yang berbeda dari mereka adalah basis yang digunakan untuk mengukur kesamaan masing-masing gambar. Ada yang mengukur tingkat kesamaan gambar dari jarak antar variabelnya, ada yang mengukur berdasarkan komposisi distribusi masing-masing gambar dll. Untuk lebih jelasnya mengenai clustering, silahkan baca tulisan saya tentang Clustering, K-Means, dan Mixture Model.

Demikian sedikit informasi, semoga bermanfaat.

Advertisements