Document Clustering

24 07 2008

Document Clustering adalah suatu kegiatan mengelompokkan dokumen berdasarkan pada karakteristik yang terkandung di dalamnya. Proses analisa document clustering pada intinya ada dua tahapan: yang pertama mentransformasi document ke dalam bentuk quantitative data dan yang kedua menganalisa dokumen dalam bentuk quantitative data tersebut dengan metode clustering yang ditentukan. Untuk proses tahapan kedua ada berbagai jenis metode clustering yang bisa digunakan. Lihat tulisan saya mengenai clustering, k-means, mixture modelling atau tulisan-tulisan clustering lainnya.

Yang umumnya menjadi permasalahan dalam pelaksanaan document clustering ini adalah bagaimana cara merepresentasikan dokumen ke dalam bentuk data quantitative. Ada beberapa cara yang umum digunakan, salah satunya adalah vector space model yang merepresentasikan dokumen ke dalam bentuk vector dari term yang muncul dalam dokumen yang dianalisa. Salah satu bentuk representasinya adalah term-frequency (TF) vector yang bisa dilambangkan dengan:

dtf = (tf1, tf2, . . . , tfm)

dimana
tfi: adalah frekuensi dari term ke-i di dalam suatu dokumen.

Model ini biasanya diperbaiki dengan memberikan weight untuk setiap term dengan alasan term yang sering muncul dalam banyak dokumen tidak mempunyai descriminant power. Dengan alasan ini mereka perlu untuk di-de-emphasised. Ini umumnya dilakukan dengan mengalikan frekuensi yang ada dengan log(N/fi) dimana N adalah jumlah dokumen yang ada dan dfi adalah jumlah dokumen yang mengandung term ke-i. Sehingga didapatkan suatu tf-idf representasi sebagai berikut:

dtfidf = (tf1 log(N/df1), tf2 log(N/df2), . . . , tfm log(N/dfm))

Untuk mengakomodasikan, dokumen dengan panjang berbeda, panjang dokumen dinormalisasikan menjadi suatu unit length, dimana 1 dtfidf = 1 yang artinya setiap dokumen adalah suatu vector dalam unit hypershpere.

Referensi:
G. Salton (1989). Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Addison-Wesley.


Actions

Information

3 responses

10 01 2009
Yudi Agusta

Mmm, mungkin perlu dibedakan antara proses clustering dengan optimasi, kalau dikatakan melakukan clustering terhadap dokumen menggunakan algoritma Genetik. Karena sepanjang yang saya tahu algoritma itu digunakan hanya untuk proses optimasi, bukan untuk proses clusteringnya. Coba dipastikan lagi clusteringnya menggunakan apa, sedangkan optimasinya bisa menggunakan algoritma Genetik.

Semoga menjawab.

4 01 2009
ndank

pak Yudi, saya lagi ada tugas UAS untuk melakukan klasterisasi dokumen dengan algoritma Genetik. Dataset yang digunakan berasal dari http://archive.ics.uci.edu/ml/datasets/Bag+of+Words. Dalam dataset tersebut terdiri dari 4 macam sumber dokumen. Tiap dokumen berisi dokumen-dokumen, kata-kata yang ada pada dokumen, dan jumlah kata yang ada pada tiap dokumen.

Namun saya masih bingung bagaimana pengklasteran dengan data seperti itu. Mohon Penjelasannnya.

Terima Kasih.

26 07 2008
.:. F u n k y L o v e .:. » Sudden Deafness and Hyperbaric Chamber

[…] kita ga pernah kopdaran*, Putri yang rela menanti janji-janjiku, dan terakhir buat dosenku aja deh, Pak Yudi yang selama ini ngajarin aku Sistem Pakar n bimbing TA ku dengan sukses. Yang belum kusebutin, maap […]

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s




%d bloggers like this: