Feature Selection

13 01 2009

Feature Selection atau Feature Reduction adalah suatu kegiatan yang umumnya bisa dilakukan secara preprocessing dan bertujuan untuk memilih feature yang berpengaruh dan mengesampingkan feature yang tidak berpengaruh dalam suatu kegiatan pemodelan atau penganalisaan data. Ada banyak alternatif yang bisa digunakan dan harus dicoba-coba untuk mencari yang cocok. Secara garis besar ada dua kelompok besar dalam pelaksanaan feature selection: Ranking Selection dan Subset Selection.

Ranking Selection

Ranking selection secara khusus memberikan ranking pada setiap feature yang ada dan mengesampingkan feature yang tidak memenuhi standar tertentu. Ranking selection menentukan tingkat ranking secara independent antara satu feature dengan feature yang lainnya. Feature yang mempunyai ranking tinggi akan digunakan dan yang rendah akan dikesampingkan. Ranking selection ini biasanya menggunakan beberapa cara dalam memberikan nilai ranking pada setiap feature misalnya regression, correlation, mutual information dan lain-lain.

Subset Selection

Subset selection adalah metode selection yang mencari suatu set dari features yang dianggap sebagai optimal feature. Ada tiga jenis metode yang bisa digunakan yaitu selection dengan tipe wrapper, selection dengan tipe filter dan selection dengan tipe embedded.

Feature Selection Tipe Wrapper: feature selection tipe wrapper ini melakukan feature selection dengan melakukan pemilihan bersamaan dengan pelaksanaan pemodelan. Selection tipe ini menggunakan suatu criterion yang memanfaatkan classification rate dari metode pengklasifikasian/pemodelan yang digunakan. Untuk mengurangi computational cost, proses pemilihan umumnya dilakukan dengan memanfaatkan classification rate dari metode pengklasifikasian/pemodelan untuk pemodelan dengan nilai terendah (misalnya dalam kNN, menggunakan nilai k terendah). Untuk tipe wrapper, perlu untuk terlebih dahulu melakukan feature subset selection sebelum menentukan subset mana yang merupakan subset dengan ranking terbaik. Feature subset selection bisa dilakukan dengan memanfaatkan metode sequential forward selection (dari satu menjadi banyak feature), sequential backward selection (dari banyak menjadi satu), sequential floating selection (bisa dari mana saja), GA, Greedy Search, Hill Climbing, Simulated Annealing, among others.

Feature Selection Tipe Filter: feature selection dengan tipe filter hampir sama dengan selection tipe wrapper dengan menggunakan intrinsic statistical properties dari data. Tipe filter berbeda dari tipe wrapper dalam hal pengkajian feature yang tidak dilakukan bersamaan dengan pemodelan yang dilakukan. Selection ini dilakukan dengan memanfaatkan salah satu dari beberapa jenis filter yang ada. Contohnya: Individual Merit-Base Feature Selection dengan selection criterion: Fisher Criterion, Bhattacharyya, Mahalanobis Distance atau Divergence, Kullback-Leibler Distance, Entropy dan lain-lain. Metode filter ini memilih umumnya dilakukan pada tahapan preprocessing dan mempunyai computational cost yang rendah.

Feature Selection Tipe Embedded: feature selection jenis ini memanfaatkan suatu learning machine dalam proses feature selection. Dalam sistem selection ini, feature secara natural dihilangkan, apabila learning machine menganggap feature tersebut tidak begitu berpengaruh. Beberapa learning machine yang bisa digunakan antara lain: Decision Trees, Random Forests dan lain-lain.

Sumber: J.Kittler, “Feature Selection & Extraction”, in Handbook of Pattern Recognition and Image Processing, Tzay Y. Young, King Sun Fu Ed. Academic Press, 1986.


Actions

Information

13 responses

3 08 2016
yohana

slmt mlm pak yudi,saya mau brtanya..
Saya memiliki 2 file excel mengenai izin usaha pertambangan (iup), dimana masing2 file memiliki field (atribut) yg berbeda (ada yg sama dan ada yg berbeda)
untuk data iup tahun 2011 memiliki 11 atribut, dan utk yg 2013 memiliki 9 atribut.
Kedua file tsb akan diintegrasikan menjadi 1 database dengan hanya memilih 5 atribut saja.
Pertanyaan saya, bagaimanakah caranya untuk dapat memilih 5 atribut yg tepat dengan menggunakan feature selection di WEKA? bagaimana langkah2nya?
Mohon bantuannya ya pak, terima kasih

22 03 2016
pilo

Mohon pencerahannya. Apakah di dalam feature selection harus selalu berbasis data transaksi dlm jumlah besar. Apakah metode2 feature selection bisa digunakan dengan menggunakan data beberapa pendapat pakar terutama ketika melakukan reduksi thd beberapa feature. Trims

23 03 2016
Yudi Agusta

Makin banyak jumlah data makin akurat, karena kondisi data makin dekat jumlah data dengan populasi sesungguhnya. Pendapat pakar bisa saja, karena pengetahuan pakar juga bisa saja dari hasil eksplorasi data dan pengalaman atau hasil penelitian yang telah ada. Tks

3 03 2014
rha

permisi.. sebenernya masih bingung ttg fitur subset selection ini..
aq dapet tugas bikin dec.tree pke subset selection… nah, kata senior saya ID3 udah ada fitur ini…

msih bgung penerapannya sperti apa yaa…

14 10 2013
Agus Tallo

permisi, mau nanya,, saya sdg kbingungan apakah lgkah2 sperti eliminasi stopword,number removal,lematisasi,tokenisasi itu trmasuk dalam feature selection atw tidak? dan kalau diperkenankan saya ingin skali mmperoleh softcopy dari sumber yg anda pkai (J.Kittler, “Feature Selection & Extraction”, in Handbook of Pattern Recognition and Image Processing, Tzay Y. Young, King Sun Fu Ed. Academic Press, 1986.) kalau bisaa.. soalnya saya sudah cri2 tpi tdk ktmu😀
maksih sblmnya . God bless

31 03 2011
mira

saya punya dataset yang cukup besar, sekitar 5 juta row dan 40an kolom. pada kasus ini, lebih baik saya lakukan feature selection terlebih dahulu atau normalisasi? terimakasih..

6 10 2011
Yudi Agusta

Ada baiknya melakukan feature selection terlebih dahulu, untuk memastikan bahwa karakteristik dari data terwakili dalam hasil yang didapatkan dari proses feature selection. Hal ini penting, karena model yang didapatkan di akhir nanti, masih mencerminkan keadaan data aslinya.

Demikian dan semoga membantu.

23 03 2011
matgrob

Mau nanya lagi, terima kasih bnyak sebelumnya
atas info di atas.
Salam, saya matgrob (yg udah nanya di atas)

MAu tanya, apa ya yang disebut dengan
‘Ensemble Feature Selection’?
Bagaimana proses-proses nya ya?
Cara melakukan ensemble feature selection di
WEKA apakah Anda tau caranya?
Kalo bisa bagaimana ya?

Makasih banyak sebelumnya atas jawabannya

6 10 2011
Yudi Agusta

Ensemble feature selection adalah proses pemilihan variabel/feature yang menggabungkan beberapa metode feature selection yang ada. Metode-metode tersebut diatur sedemikian rupa sehingga hasil yang didapatkan mengoptimalkan semua kelebihan yang dimiliki oleh masing-masing metode.

Salam

26 09 2010
matgrob

Mw nny,,,

apakah Genetik Algo bs dipakai pd subset feture selection pada text preprocessing? apakah itu perlu dilakukan rangking selection dahulu? bagaimana menguji nilai fitness nya? apakah hubungannya dengan subset feature selectionnya (<–ini intinya)??

Mohon bantuannya dr sang ahli ^^

10 02 2011
Yudi Agusta

Pake GA, bisa…..
Kalau pake GA, ada nilai fitness, ya……
Digunakan untuk text preprocessing, bisa……
Subset feature selection, akan lebih mempercepat proses seleksi…..
Feature selection yang digunakan, bisa yang mana saja……

Mudahan tulisan ini menjawab pertanyaannya….

31 03 2010
hapi

mw nanya donk,, kalo yang dipakai buat feature selection menggunakan pendekatan filter kan biasanya dipakai untuk pemrosesan klasifikasi, kalau diterapkan di clustering bagaimana?
apakah sesuai?

31 03 2010
Yudi Agusta

Ya benar, karena clustering biasanya melakukan pemilihan model bersamaan dengan estimasi parameter yang diperlukan. Kecuali kalau pemilihan model dilakukan pada tahapan pre-processing, dan sebelum melakukan proses clustering, dilakukan terlebih dahulu feature selection. Dalam kasus seperti itu, feature selection tipe filter bisa digunakan.

Demikian semoga membantu

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s




%d bloggers like this: