Mix Model

Mixture modelling (Mixture Modeling atau Mixture Model) adalah suatu metode penganalisaan data atau data mining yang juga disebut dengan istilah-istilah lain seperti clustering, intrinsic classification dan numerical taxonomy. Metode ini memodel atau mengelompokkan data-data di dalam suatu dataset menjadi kelompok-kelompok data yang sebelumnya tidak terdifinisikan. Di dalam tulisan ini, metode yang diulas adalah pengelompokan data yang memodel suatu distribusi statistik bercampur dengan distribusi statistik yang lain dalam bentuk mixture (penjumlahan berproporsi). Penganalisaan data menggunakan mixture modelling (mixture modeling atau mixture model) menghasilkan analisa berupa jumlah kelompok di dalam model tersebut, persentase data di dalam setiap kelompok relatif terhadap jumlah keseluruhan data (mixing proportion), parameter yang menerangkan setiap kelompok yang ditemukan dan keterangan data-data yang tercakup di dalam setiap kelompok. Mixture modelling (mixture modeling atau mixture model) dirumuskan dengan persamaan sebagai berikut:

f(x|M,Pi_1,…,Pi_M-1,Theta_1,…,Theta_M) = SUM(m=1 to M) Pi_m x f_m(x|Theta_m)

Dengan:

  • M : Jumlah kelompok
  • Pi_m : Mixing proportion kelompok ke-m
  • Theta_m : Parameter kelompok ke-m
  • f_m(x|Theta_m) : fungsi likelihood dari kelompok ke-m

Dalam melakukan mixture modelling (mixture modeling atau mixture model), penentuan jumlah kelompok yang paling sesuai untuk dataset yang sedang dianalisa merupakan masalah yang cukup komplek. Untuk bisa melaksanakan proses ini, keseimbangan antara kesempurnaan suatu model dengan pas tidaknya suatu model terhadap data yang dianalisa harus benar-benar terjaga. Dengan kata lain, model yang dipilih untuk suatu dataset haruslah cukup sempurna agar bisa mencakup semua informasi yang terkandung di dalam dataset tersebut, tetapi tidak harus terlalu sempurna agar tidak mengalami permasalahan over-fit.

Banyak teori yang telah digunakan dalam mengembangkan metode ini, termasuk diantaranya Minimum Message Length (MML), Maximum Likelihood (ML), Akaike Information Criterion (AIC), Schwarz’s Bayesian Information Criterion (BIC), Maximum A Posterior (MAP) dan Markov Chain Monte Carlo (MCMC). Teori-teori ini juga telah diimplementasikan menjadi paket-paket program pengelompokan data seperti SNOB yang menggunakan MML dalam proses pengestimasian parameter dan pemilihan model, EMMIX yang menggunakan ML untuk pengestimasian parameter dan AIC serta BIC untuk pemilihan model dan MCLUST yang juga menggunakan ML untuk pengestimasian parameter dan BIC untuk pemilihan model.

Berikut ini beberapa kumpulan link yang terkait dengan mixture modelling:
David Dowe Mixture Modelling (Mixture Modeling atau Mixture Model) Page memuat link yang lengkap terkait Mixture Modelling (Mixture Modeling atau Mixture Model) dan orang-orang yang menelitinya. David Dowe dengan beberapa peneliti lainnya mengembangkan program Mixture Modelling (Mixture Modeling atau Mixture Model) Snob yang menggunakan prinsip Minimum Message Length dalam pemodelannya. Beberapa peneliti lainnya (berikut software yang dikembangkan) termasuk Geoff McLachlan (EMMIX), Peter Cheeseman (AutoClass), Chris Fraley (MClust), Murray Jorgensen (MultiMix) dan peneliti-peneliti lainnya.

Gaussian Mixture dengan EM Algorithm

Expectation Maximisation (EM) algorithm adalah salah satu alternatif algoritma yang banyak digunakan dalam melakukan pemodelan mixture (mixture modelling – mixture modeling – mixture model). Penjelasan singkat mengenai EM Algoritm dapat dilihat di posting ini.

Dalam sebuah model Gaussian Mixture, data sebanyak m (y_1,…, y_m) diasumsikan berasal dari satu atau lebih distribusi Gaussian (diasumsikan sejumlah n). Kalau z_j diasumsikan sebagai distribusi Gaussian dari mana y_j berasal, maka probabilitas dari suatu y untuk berasal dari distribusi Gaussian tersebut dirumuskan sebagai:

p(y|z=i,theta) = N(mu_i, sigma_i)
= (2*PI)^(D/2) * |sigma_i|^(-1/2) * exp(-(y-mu_i)^T*sigma_i^(-1)*(y-mu_i)/2)

Tujuannya di sini adalah mengestimate parameter yang tidak diketahui theta = {mu_1, …,mu_n,sigma_1,…,sigma_n,p(z=1),…,p(z=n)}

Expectation Step

Dalam E-Step, dilakukan pengestimasian nilai z, dengan kondisi yang terdapat di dalam sample yang ada dan nilai estimasi parameter yang didapatkan dari tahap M-Step sebelumnya dengan rumus seperti berikut ini:

p(z_j=i|y_j,theta_t) = p(z_j=i,y_j|theta_t)/p(y_j|theta_t)
=p(y_j|z_j=i,theta_t)*p(z_j=i|theta_t)/SUM(k=1ton)(p(y_j|z_j=k,theta_t)*p(z_i=k,theta_t))

Maximisation Step

Dalam M-Step, kita perlu untuk memaksimalkan expected log-likelihood dari probability density function (pdf) sebagai berikut:

Q(theta) = E_z [ln TIMES(j=1 to m) p(y_j,z|theta)|y_j)]
= E_z [SUM (j=1 to m) ln p(y_j,z|theta)|y_j]
= SUM (j=1 to m) E_z [ln p(y_j,z|theta)|y_j]
= SUM (j=1 to m) SUM (i=1 to n) p(z_j = i|y_j,theta_t) ln p(z_j=i,y_j|theta)
= SUM (j=1 to m) SUM (i=1 to n) p(z_j = i|y_j,theta_t) ln (p(y_j|z_j=i,theta)*p(z_j=i| theta))

Di sini, terdapat contsrain :

SUM(i=1 to n) p(z_j = i|theta) = 1

Dengan menggunakan Lagrange Multiplier, pdf di atas dapat dikembangkan menjadi:

L(theta) = (SUM (j=1 to m) SUM (i=1 to n) p(z_j = i|y_j,theta_t)
* (-D*ln(2*PI)-ln|sigma_i|/2 – (y-mu_i)^T*sigma_i^(-1)*(y-mu_i)/2 + ln (p(z_j=i|
theta)))) + lambda (SUM(i=1 to n) p(z_j = i|theta) – 1)

Estimasi terhadap theta_(t+1) didapatkan dengan mencari nilai maksimum dari pdf terhadap parameter yang diestimasi dimana dL(theta)/dtheta = 0

Dari hasil penurunan didapatkan (selengkapnya dapat dilihat di wikipedia), estimasi parameter mu_i, sigma_i dan p(z_j=i|theta) dihitung dengan rumus sebagai berikut :

mu_i = (SUM (j=1 to m) p(z_j = i|y_j,theta_t) * y_j) / SUM (j=1 to m) p(z_j = i|y_j,theta_t)

sigma_i = (SUM (j=1 to m) p(z_j = i|y_j,theta_t)*(y-mu_i)*(y-mu_i)^T) / SUM (j=1 to m) p(z_j = i|y_j,theta_t)

p(z_j=i|theta) = SUM (j=1 to m) p(z_j = i|y_j,theta_t) / m

Referensi:
Dempster A., Laird N., and Rubin D. (1977). Maximum Likelihood From Incomplete Data Via the EM Algorithm. Journal of the Royal Statistical Society, Series B, 39(1): 1-38.

Modelling Criteria

Likelihood Ratio
Under Construction.

Akaike Information Criterion (AIC)
Under Construction

Schwarz’s Bayesian Information Criterion (BIC)
Under Construction

Information Bottleneck
Under Construction

86 responses

30 12 2008
Yudi Agusta

Sesuai dengan namanya tujuan dari ‘pencarian model’ adalah mencari model yang paling cocok merepresentasikan data yang kita miliki. Banyak metode yang bisa digunakan dan semuanya ada kelebihan dan kekurangannya.

27 12 2008
mega

thank pak!, setelah kita estimasi dataset, langkah selanjutnya kita kan menentukan model(misal pakai BIC/AIC/MML).
Pertanyaanya, apa tujuan dari pencarian model itu dan salah satu cara terbaiknya pakai apa pak?
thank you for attention and your answer!

24 12 2008
Yudi Agusta

Mega, klasifikasi dengan supervisi itu, dalam melakukan proses pengklasifikasian dipandu/diarahkan oleh klasifikasi yang sudah ada. Misalnya data mahasiswa yang ada diklasifikasikan menurut hasil akhirnya lulus memuaskan, baik atau cukup. Klasifikasi memuaskan, baik atau cukup ini dijadikan pemandu dalam melakukan pengklasifikasian.

Sedangkan untuk klasifikasi tanpa supervisi, dalam melakukan proses pengklasifikasian tidak dipandu sama sekali. Data dikelompokkan berdasarkan karakteristiknya, dan kita tidak akan tahu berapa kelompok yang menjadi hasil akhirnya, bisa satu kelompok, dua, tiga, empat dan seterusnya.

Sedangkan partisi itu, proses pengelompokan dilakukan dengan melakukan partisi/pembagian berdasarkan kemiripan karakteristik masing-masing data. Beda dengan hirarki, data dikelompokkan berdasarkan kemiripan anak dan orang tuanya.

Estimasi dalam clustering itu untuk menentukan nilai yang akan digunakan untuk merepresentasikan data-data yang termasuk di dalam suatu kelompok. Misalnya kalau kelompok yang ditemukan ingin direpresentasikan dalam bentuk rata-rata nilai data di dalam kelompok tersebut, berarti kita perlu melakukan estimasi nilai rata-rata dari kelompok tersebut. Cara untuk melakukan estimasi tergantung pada karakteristik yang ingin diestimasi nilainya.

Gitu dulu Mega, selamat mencoba.

20 12 2008
mega

apa itu estimation dalam clusstering?? dan bagaimana cara?

2 12 2008
mega

pak! apa yang dimaksud clustering dengan supervisi/unsupervisi dengan partisi/tanpa partisi.
maksudnya !
1. apa itu supervisi
2. apa itu partisi
mohon pejelasannya, terimakasih !

2 12 2008
mega

pak! bagai mana cara pengelompokkan data dengan metode Bayes!! jika datanya lebih dari 2.mohon bantuannya.

22 09 2008
Yudi Agusta

Masing-masing cluster akan mempunyai nilai means untuk masing-masing variabel. Demikian.

18 09 2008
budi

Mohon maaf Pak Yudi, ada yang ingin saya tanyakan lagi mengenai mixture model. Saya ingin bertanya pada tahap b-1 dikatakan bahwa hitung means (sama dgn centroid pada K-Mean) untuk masing2 cluster.

Yang ingin saya tanyakan adalah jika saya mempunyai 2 variabel dan ingin membuat 2 cluster, Maka mean (centroid) pada tiap cluster ada 2 nilai yaitu
cluster 1 (V11 & V12) dan cluster 2 (V21 & V22) atau nilai mean (centroid) pada tiap cluster ada 1 nilai yaitu nilai mean (V11&V22) dirata2 kan lagi sehingga menjadi 1 nilai mean untuk tiap cluster.

Mohon bantuannya Pak Yudi.
Terima kasih

18 09 2008
budi

Saya ingin bertanya pada tahap b-1 dikatakan bahwa hitung means (sama dgn centroid pada K-Mean) untuk masing2 cluster.

Yang ingin saya tanyakan adalah jika saya mempunyai 2 variabel dan ingin membuat 2 cluster, Maka mean (centroid) pada tiap cluster ada 2 nilai yaitu
cluster 1 (V11 & V12) dan cluster 2 (V21 & V22) atau nilai mean (centroid) pada tiap cluster ada 1 nilai yaitu nilai mean (V11&V22) dirata2 kan lagi sehingga menjadi 1 nilai mean untuk tiap cluster.

Mohon bantuannya Pak Yudi.
Terima kasih

17 09 2008
alan

Saya belum mengerti maksud Bapak, bisa tolong dipermudah penjelasannya
Terima kasih

17 09 2008
Yudi Agusta

Untuk penghitungan standar deviasi, tergantung apakah pemodelan dengan mixture ini memperhitungkan tingkat korelasi antar variabel atau tidak. Kalau ya, maka penghitungan standar deviasi dilakukan dengan penghitungan covariance matrix. Kalau tidak, cukup dengan menghitung standar deviasi untuk masing-masing variabel.

Probabilitas dihitung dengan memanfaatkan fungsi distribusi yang digunakan sebagai dasar. Misalnya memakai fungsi Gaussian, karena nilai data dan means serta standar deviasi sudah didapatkan maka akan bisa dihitung dengan mudah. Jangan lupa bahwa dalam mixture model, penghitungan probabilitas juga harus memikirkan mixing proportion atau relative abundance dari masing-masing grup.

Semoga menjawab.

17 09 2008
alan

Pak Yudi, saya ada masalah ttg masalah mixture model.
Yang ingin saya tanyakan pada mixture model adalah pada tahap b-3 dalam menghitung nilai probabilitas masing2 data ke masing2 cluster. Bagaimana saya menghitung nilai probabilitas masing2 data jika

Saya mempunyai 4 buah data dan 2 variabel X1 & X2

1) Pada tahap b-1 ada 2 nilai mean(centroid) untuk masing2 variabel pada tiap cluster, dan Apakah nilai standar deviasi ada 2 nilai untuk masing2 variabel pada tiap cluster atau nilai standar deviasi hanya ada 1 nilai dimana kita menghitung 2 variabel secara sekaligus?

2) Bukankah untuk menghitung probabilitas dibutuhkan 1 nilai mean dan 1 nilai mean, sehingga nilai mean (centroid) untuk masing2 variabel digabungkan menjadi 1 nilai mean dan menghitung standar deviasi untuk kedua variabel sehingga menjadi 1 nilai standar deviasi?

Mohon bantuannya Pak Yudi
Terima kasih

16 09 2008
alan

Saya ada masalah ttg mixture model via EM. Yang ingin saya tanyakan adalah pada tahap b-2. dituliskan hitung standar deviasi untuk setiap cluster.

Saya memiliki 4 buah data dengan 2 variabel X1 dan X2.Saya ingin membagi menjadi 2 cluster.

Yang ingin saya tanyakan adalah
1) Apakah variabel X1 dan X2 memiliki standar deviasi masing2 seperti pada mean/centroid jadi ada 2 standar deviasi masing2 untuk X1 dan X2?

2) Apakah variabel X1 dan X2 memiliki 1 standar deviasi dimana nilai variabel X1 dan X2 dijadikan satu variabel dgn jumlah data = 8?

3) Bagaimana menghitung probabilitas masing2 cluster pd tahap b-3 apabila hanya 1 nilai standar deviasi dan 2 nilai mean (X1&X2) apabila menghitung probabilitas menggunakan Gaussian dimana hanya ada 1 mean dan 1 standar deviasi?

Mohon dijawab Pak.
Terima kasih

16 09 2008
budi

Terima kasih Pak Yudi, sekarang saya sudah mengerti tentang K-Mean, Fuzzy C-Mean, dan Mixture Model

16 09 2008
Yudi Agusta

K-Means berbeda dengan Fuzzy k-means dan mixture model. K-Means menggunakan crisp set ( 0 dan 1) sedangkan Fuzzy k-means dan mixture model menggunakan derajat keanggotaan (0 sampai 1). Cuman cara menghitung derajat keanggotaan antara Fuzzy k-means dan mixture model berbeda. Fuzzy k-means menggunakan rumus penghitungan membership function sedangkan mixture model menggunakan distribusi statistik.

Semoga menjawab.

15 09 2008
budi

Terima kasih Pak Yudi atas jawabannya.

Tetapi yg saya baca himpunan yg dipakai oleh mixture model adalah kaidah probabilitias yang bernilai 0 – 1 sama seperti himpunan fuzzy yg bernilai 0 – 1 sedangkan himpunan yg dipakai K-Mean adalah himpunan klasik yg bernilai 0 dan 1. Jadi bukannkah himpunan yg dipakai Mixture Model dan K-Mean berbeda?
Terima kasih

15 09 2008
Yudi Agusta

Benar sekali, pengalokasian pertama adalah sama untuk kedua metode. Mixture model juga mempunyai weight seperti Fuzzy C-Means tetapi cara penghitungannya didasarkan pada distribusi statistik yang digunakan.

Semoga menjawab.

14 09 2008
budi

Pak Yudi, saya sudah baca tentang tulisan bapak tentang K-Mean dan permasalahannya.Yang ingin saya tanyakan adalah di dalam mixture modelling pada tahap b alokasikan data secara acak ke masing2 cluster. Apakah data yg dialokasikan pada mixture model = alokasi data pada K-Mean yg bernilai 0 dan 1. ?

Apakah dalam mixture model ada weight yang sama dengan weight di Fuzzy C-Mean?

Terima kasih

11 08 2008
alan

Kalau langkah2 dalam mixture model sama dengan cluster EM, tentunya ada langkah2 yang berbeda.Bisa tolong dijelaskan Pak Yudi?
Parameter apa saja yang diperlukan dalam cluster EM?
Terima kasih

9 08 2008
Yudi Agusta

Ya pada intinya sama. Hanya EM itu merupakan definisi yang lebih umum yang biasanya menyangkut lebih banyak parameter.

7 08 2008
alan

Pak Yudi,saya sudah baca tentang tulisan bapak tentang K-Mean dan permasalahannya.Yang ingin saya tanyakan apakah langkah-langkah dalam mixture model sama dengan langkah-langkah cluster EM. Terima kasih

28 07 2008
Yudi Agusta

Variabel z itu adalah indeks clusternya. z = 1, cluster/kelompok ke-1, z = 2, cluster/kelompok ke-2 dst

28 07 2008
leny

bapak,
dalam model mixture diperkenalkan var indikator (z), ini untuk apa pak?
len

28 07 2008
Yudi Agusta

Distance space yang digunakan tergantung pada asumsi yang kita pakai. Kalau karakteristik model yang kita inginkan terdapat pada Eucledian Distance, cukup pake Eucledian, kalau harus memakai Mahalanobis, ya pake distance space itu. Jadi tergantung pada asumsi yang ingin kita terapkan.

23 07 2008
budi

Maaf nih pak, saya ada pertanyaan lagi
Jadi EM juga memakai Eulidean distance untuk menghitung jarak dari centroid. dan asumsi model yang lain apa yang dipakai untuk menentukan parameter selain centroid.

Yang saya baca EM menggunakan Malahanois distance bukan Eulidean distance mana yang benar, pak?

Tetapi kalau EM memperhitungkan centroid apakah sudah cukup?

23 07 2008
Yudi Agusta

1. dan 2. EM itu pada dasarnya bentuk umum dari K-Means. Cuman K-Means hanya memperhatikan centroid, sedangkan EM bisa centroid saja, bisa juga parameter lainnya sesuai dengan asumsi model yang dipakai.
3. Terminasi EM sama dengan K-Means.
4. Lihat tulisan saya tentang EM algorithm.

Semoga membantu.

23 07 2008
budi

saya sedang membuat ta tentang cluster EM mengenai kasus nilai mata pelajaran (kimia, fisika, bahasa indonesia) siswa sma yang akan dicluster menjadi 3 cluster.Saya sudah mengerti tentang K-Mean tapi saya kurang mengerti tentang tahapan dalam membuat cluster EM.

1. Apakah bapak bisa menjelaskan tahapan2 dalam membuat cluster EM?
Yang saya baca di internet tahapannya sama dengan K-Mean tapi tidak dijelaskan perbedaannya.
2. Apakah cluster EM menghitung pusat cluster (centroid) sama seperti KMean dan menghitung jarak dari pusat cluster menggunakan Eulidean distance?
3. Kapan proses EM selesai?Kalau Kmean kan membandingkan dengan hasil cluster n+1 dengan cluster n.
4. Apakah bapak bisa mendapatkan informasi lebih jelas mengenai cluster EM sekaligus dengan perhitungannya. Terimakasih

22 07 2008
Yudi Agusta

1. Mungkin bisa di-’normalisasi’-kan dulu
2. Mmm, yang ini terlalu rumit untuk dijelaskan, silahkan cari referensi lain di internet
3. Proses pengestimasian menggunakan Maximum Likelihood bisa menggunakan EM Algorithm, dimana parameter yang ingin dicari, diestimasi secara bergantian sesuai dengan prosedur EM Algorithm.

Demikian, semoga bisa memperjelas

17 07 2008
leny

Bapak..
terimaksih atas penjelasannya,
len

17 07 2008
atmaja

Maaf nih kalau ganggu saya masih ada pertanyaan mengenai EM
1. data yang saya pakai dalam cluster EM ada variabel yang satuannya ribuan dan satu lagi variabel satuannya puluhan. Yang saya baca jarak antara variabel yang berjauhan harus ditransformasi atau diubah tapi saya kurang mengerti rumus yang dipakai dalam tranformasi variabel tersebut. Mohon bantuannya pak.
2. Bapak bisa berikan contoh perhitungan memakai Distribusi Gaussian?
3. EM apakah ada hubungan dengan Maximum Likehood dan apa hubungannya?
Terima kasih pak

17 07 2008
Yudi Agusta

Gaussian paling banyak digunakan, karena umumnya kita mengasumsikan data yang kita miliki normal. Kalau kita mencurigai atau mengasumsikan data kita tidak normal, kita bisa menggunakan yang lain juga: Gamma, Student t, Poisson, von Mises dan lain-lain.

Benar sekali. KMeans sebenarnya memanfaatkan EM juga, tapi tidak explisit, karena prosedurnya terlalu sederhana antara centroid dan model saja. Jadi EM kalau bisa dibilang mirip KMeans, atau mungkin kita harus mengatakan sebaliknya KMeans yang mirip EM :)

17 07 2008
atmaja

Seperti bapak bilang kan ada hubungannya dengan Gaussian jadi cluster dengan EM berhubungan dengan apa saja pak selain Gaussian?
Apakah benar tahapan cluster Em hampir sama dengan Kmean Misal
langkah 1 tentukan cluster
langkah 2 hitung pusat cluster dan seterusnya
yang menjadi perbedaan mungkin cara menghitung jarak dengan pusat cluster dimana Kmean menggunakan Euclidean Distance dan mengukur konvergen tidaknya cluster tersebut dibandingkan dengan cluster sesudahnya.
Terima kasih

17 07 2008
atmaja

Terima kasih pak atas jawabannya.

16 07 2008
Yudi Agusta

Dik Atmaja,

Mmm, pertanyaannya buanyak sekali. Mudah-mudahan tulisan di bawah ini bisa menjawab:
1. Umumnya EM itu memodel distribusi statistik. Jadi himpunan nilai keanggotaan umumnya harus mengikuti kaidah probabilitas distribusi statistik.
2. EM itu metode untuk melakukan clustering yang secara bergantian melakukan prosedur expectation dan maximisation. Lihat tulisan saya tentang expectation maximisation algorithm.
3. Seperti yang telah diutarakan pada poin 1, clustering dengan EM umumnya terkait dengan distribusi statistik. Distribusi statistik yang banyak digunakan adalah Gaussian, jadi EM sering dikaitkan dengan Gaussian Mixture.
4. Clustering dengan EM, melakukan pengelompokan data berdasarkan probabilitas, jadi ada ketidakpastian di dalamnya. KMeans, seperti yang dik Atmaja katakan memakai nilai 1 dan 0, jadi normal kalau EM dikatakan soft dan KMeans dikatakan hard.
5. Bisa dilihat di tulisan saya tentang EM Algorithm.
6. KMeans: Hard dan hanya memperhatikan centroid, EM: Soft dan bisa memperhatikan parameter selain centroid seperti spread, mixing proportion/relative abundance dan lain-lain.

Semoga menjawab.

16 07 2008
atmaja

Saya ada pertanyaan mengenai cluster EM (Expectation Maximation)
1. Himpunan apa yang dipakai oleh cluster EM? Kalau K-Mean kan menggunakan himpunan klasik 0 & 1 dan Fuzzy CMean menggunakan himpunan fuzzy yaitu interval nilai 0-1

2. EM menggunakan metode clustering apa? Setahu saya kan kalau K-Mean dan Fuzzy C-Mean menggunakan centroid method dan menggunakan Euclidean untuk menghitung jarak ke pusat cluster

3. Mengapa EM disangkutpautkan dengan Gaussian Mixture apa hubungannya, dan apakah cluster EM sama dengan Gaussian Means?

4. Mengapa cluster Em dikatakan soft clustering berbeda dengan KMean yang dikatakan hard clustering.

5.Bapak bisa beritahukan tahap-tahap , rumus yang berlaku, dan keterangan notasi dalam rumus yang dipakai dalam melakukan cluster EM.

6.Keuntungan dan kekurangan EM dibandingkan KMean?
Terima kasih.

14 07 2008
Yudi Agusta

Mixing proportion itu, sesuai dengan terjemahan literalnya adalah proporsi dari percampuran yang terjadi. Proporsi ini dipengaruhi oleh jumlah data dalam setiap kelompok dan jumlah keseluruhan data yang dimodel. Persentase adalah salah satu contoh bentuk mixing proportion. Tetapi dalam mixture modelling, mixing proportion ini sering dimodel menggunakan distribusi multinomial.

13 07 2008
leny

dear pak yudi,
saya mau tanya lagi pak :-)
tentang proporsi dalam model mixture, Apakah ini menunjukkan banyaknya data dari sub populasi yang membentuk populasinya?
maksud dari persentase data di dalam setiap kelompok relatif terhadap jumlah keseluruhan data (mixing proportion), itu apa pak?

thank u very much
(it takes more than twice for me to ask u bout mixture…)
leny

27 06 2008
Yudi Agusta

Dik Leny,

1. Distribusi statistik apapun bisa digunakan. Tinggal menyesuaikan saja dengan perkiraan distribusi datanya.
2. Data yang tidak terdefinisikan, maksudnya bukan datanya yang tidak terdefinisikan, tetapi kelompok dari data-data tersebut tidak terdefinisikan. Ini yang membedakan clustering/mixture model dengan neural networks, decision trees atau metode supervised classification lainnya. Kalau contoh realnya misalnya customer segmentation – untuk menentukan berapa banyak kelompok sebenarnya dari customer yang dimiliki suatu perusahaan, image clustering juga, dan lain-lain.

Semoga menjawab pertanyaannya.

27 06 2008
Yudi Agusta

Untuk Sdr Gusti,
EM Algorithm yang dijelaskan di atas untuk mixture modelling, dapat digunakan untuk mencari parameter yang terkait dengan mixture modelling. Beberapa parameter terkait antara lain mixing proportion (perbandingan antara satu cluster dengan cluster yang lain), parameter yang menjelaskan distribusi statistik yang digunakan (kalau menggunakan Gaussian berarti perlu mengestimasi means/mu dan standar deviasi/sigma). Setelah proses EM di atas selesai, perlu untuk mencari model mixture yang paling cocok untuk datanya. Saya belum sempat menuliskan beberapa criteria yang bisa digunakan termasuk Likelihood Ratio, Akaike Information Criterion (AIC), Bayesian Information Criterion (BIC), Information Bottleneck dan lain-lain. Mungkin bisa dicari di google untuk penjelasan mengenai criteria ini.

Semoga membantu.

26 06 2008
leny

Ass, bapak.
saya ingin bertanya lagi:
1. apakah distribusi Hyperexponential bisa dikatakan sebagai model mixture dari distribusi exponensial, mengingat bentuk PDF nya sama?
2. dalam penjelasan bapak di atas: maksud dari “data yang sebelumnya tidak terdifinisikan” bagaimana pak ? kalao dalam real life contohnya seperti apa?
terima kasih pak..
leny

26 06 2008
gusti

saya mau nanya pak !. tentang metode clustering khususnya dalam Mixture modelling di mana cara pengelompokkan suatu data tidak ditentukan sebelumnya tidak seperti k mean. pertannyaan saya bagaimana cara menentukan clusternya ? tolong penjelasannya dari awal menggunakan metode ini !!.
terus bisa kah bapak memberikan contoh dalam menggunakan metode clustering ini !
dan jika bapak ada waktu saya mau bertanya secara langsung !terimakasih !!!

24 06 2008
Yudi Agusta

Coba lihat TIPS saya tentang mencari artikel ilmiah gratis. Tx

24 06 2008
reza

askum
Pak..saya punya problem dalam tugas mata kul metpen.Kebetulan saya pakai EM dan MLE ,tapi saya bingung apa kegunaannya!?…Saya pake jurnal dengan judul fitting a finite mixture distribution to variable subject to heteroscedastic measurement error (markus thamerus).mungkin Bpk bisa bantu saya DiMana saya bisa cari buku,jurnal,atau literatur yang ada hubungannya dengan judul tugas saya!
trima kasih Pak,Kalau bisa tlong kirim ke-Email saya.

19 06 2008
Bang Je

Wah, saya juga lagi penelitian tentang Fungsi Sebaran Mixture of Mixture dari SUSENAS kota semarang tapi masih kurang referensi. Kalau boleh tahu, apakah bisa saya mendapatkan referensi baik jurnal, makalah, buku dan lain-lain dari Bapak. Kalau bisa, berapa ongkos yang harus saya keluarkan untuk memperolehnya. Mungkin bisa lewat e-mail saya Pak. Terima Kasih.

30 05 2008
Yudi Agusta

Saya tidak punya tulisan EM dalam Bahasa Indonesia selain di blog ini, juga papernya Sunberg. Maaf sekali tidak bisa membantu. Mungkin bisa cari di internet. Beberapa tempat seperti CiteULike atau Google Scholar atau Citeseer bisa membantu.

16 05 2008
Dadang

Assalaamua’laikum…siang Pak…pertama-tama perkenalkan nama saya Dadang Ramdhan…saya mahasiswa S-1 tingkat akhir di jurusan statistika UNPAD…kebetulan saya sedang dalam proses TA…saya lihat td bapa menulis sekilas tentang artikel algoritma EM yang sumbernya kebetulan jg saya miliki, yaitu dari Dempster, Laird, & Rubin…tema skripsi saya kali ini adalah ttng penaksiran ekspektasi frekuensi sel dalam tabel kontingensi dengan nilai-nilai yang hilang dengan menggunakan algorima EM…kebetulan sampai saat ini saya belum memahami teori EM tersebut…jika bapak berkenan dan saya memohon dengan amat sangat saya mau meminta file pdf artikel/diktat kuliah yang bapak tulis ataupun jurnal/makalah yang bapak miliki baik dalam format bahasa inggris,terutama lagi dalam format bahasa indonesia yang membahas teori EM….kalau ada jurnal yang ditulis oleh Sunberg, R. (1974), “Maximum Likelihood Theory for Incomplete Data From an Exponential Family,” Scandinavian Journal of Statistics, Vol 1, Page 49-58…demikian pa…sekali lagi salam hangat dr saya…apabila file-file pdf tersebut ada atau sekiranya bapak mempunyai solusi/petunjuk atas permasalahn saya ini,saya mohon bapak menghubungi saya secepatnya di email da2nkz@yahoo.com….Trimaksih banyak pa…..

2 05 2008
Yudi Agusta

He he banyak kali pertanyaannya :)

Saya jawab seperti ini ya:
1. Bisa ya bisa bukan. Bingung khan. Ya: kalau dibilang masih ada data yang tidak kelihatan (berupa laten variabel) yang diperhitungkan di dalam EM dalam mencari solusi ML. Bukan: karena hasil akhir dari EM adalah juga solusi di Maximum Likelihood, walaupun bukan solusi ML untuk data yang kelihatan saja, tetapi juga mencakup laten variabel. Penjelasan rincinya lihat di atas.
2. Saya pernah download, kalau gak salah ada di Canada sana deh. Coba disearch lagi
3. Semua data riil yang belum mempunyai informasi label/kelas bisa dijadikan data untuk proses clustering dengan mixture model
4. He he apa perlu saya jawab yang ini ;)

Yudi

2 05 2008
leny

dear : p’yudi..
here i am again,
pak, mungkin bapak bisa membantu saya untuk beberapa hal yang connect dengan Mixture model. this is about :
1. EM algorithm. apakah ini perluasan dari maxsimum likelihood method?
2. saya mencoba download MIX Software for Mixture Distributions(http://cran.us.r-project.org/), tapi belum bisa pak..
3. saya belum menemukan data riil yang mencerminkan distribusi mixture.
4. what make u interest in mixture model, pak?

may u can help me to find out my “four” things above.
with all my hope,
len

2 05 2008
Yudi Agusta

Mudah-mudahan bisa bermanfaat ;)

30 04 2008
leny

assalamuaikum
dear : pak Yudi
saya lagi bingung pak, lagi garap TA bout mixture model
i still confuse about what mixture model is..
semoga dengan membaca ‘rehat” bapak ini lebih memahamkan saya.

terima kasih pak,
leny

Leave a comment