Minimum Message Length

4 07 2014

Melihat dari namanya Minimum Message Length sering dikonotasikan dengan pengiriman data melalui media telekomunikasi, yang kalau diterjemahkan langsung dalam Bahasa Indonesia akan mempunyai arti Panjang Pesan Minimum. Melihat arti langsungnya ini, memang prinsip Minimum Message Length berkaitan erat dengan bagaimana suatu pesan dikirimkan. Akan tetapi, konsep Minimum Message Length ini, sebenarnya tidak mengharuskan kita untuk mengirimkan pesan secara riil, tetapi hanya melakukan perkiraan, apabila kita harus mengirim data melalui media telekomunikasi, akan lebih hemat kalau kita mencari bentuk yang paling minimal dari data yang ingin dikirimkan, sehingga data akan bisa dikirimkan dengan lebih efisien.

Prinsip Minimum Message Length sebenarnya merupakan teori optimasi yang berbasis pada Teori Bayesian dan Teori Informasi. Teori ini banyak digunakan untuk melakukan kegiatan estimasi parameter suatu distribusi statistik dan pemilihan model dalam suatu proses pemodelan. Dalam prinsip Minimum Message Length ini, Teori Bayesian digunakan untuk menentukan suatu estimasi atau model dengan memikirkan, pertama, data yang sedang dianalisa (berupa likelihood function) dan kedua, pengetahuan yang ada tentang nilai estimasi atau nilai pemodelan di masa yang lalu (prior probability). Karena secara umum, Teori Bayesian disimbolkan dengan rumus sebagai berikut:

posterior probability = prior probability x likelihood function

Sedangkan, penggunaan Teori Informasi dalam prinsip Minimum Message Length adalah bahwa data dalam bentuk apapun dapat ditransfer melalui suatu channel informasi dalam bentuk bits (log2). Akan tetapi, informasi yang dikirimkan kalau tidak disederhanakan, akan menjadi proses transfer yang panjang dan memerlukan waktu yang lama. Oleh karena itu, prinsip Minimum Message Length berusaha untuk mencari bentuk pengiriman data dalam bentuk bits (log2) dengan kondisi yang paling pendek, sehingga proses transfer menjadi optimal dan memerlukan waktu yang minimal.

Prinsip Minimum Message Length, dalam context estimasi parameter, sama dengan prinsip Maximum Likelihood dengan tambahan pemikiran penambahan konsep prior probability. Prinsip Maximum Likelihood juga sering dikatakan sudah memikirkan nilai prior probability, dimana nilai dari prior probability tersebut diseimbangkan dengan nilai Fisher Information. Hal ini akhirnya menyebabkan kedua nilai (prior dan Fisher) saling cancel out, sehingga nilai estimasi hanya tergantung pada nilai likelihood function dari data yang dianalisa saja.

Untuk bisa mendapatkan estimasi dengan memperhitungkan prior dan likelihood, tidaklah mudah. Beberapa hal yang sudah diusulkan adalah dengan menggunakan Compact Coding untuk melakukan estimasi dan pemilihan model. Compact Coding ini mencakup pencarian second derivative dari log2 prior dan log2 likelihood, yang dalam pembentukan Compact Coding, direpresentasikan dalam bentuk Fisher Information. Akan tetapi, pendekatan Compact Coding ini juga hanya memungkinkan apabila bentuk distribusi dari data yang sedang diestimasi atau dimodel adalah sederhana seperti distribusi Normal atau multinomial. Untuk distribusi yang lain seperti Gamma, Student t, dan distribusi kompleks lainnya, dan khususnya yang bersifat multivariat, agak sedikit sulit untuk diterapkan. Hal ini disebabkan karena adanya bagian yang tereliminasi dalam Compact Coding yang dihasilkan, yang dapat mengakibatkan hasil estimasi dan pemilihan model menjadi kurang akurat.

Penerapan prinsip Minimum Message Length, dengan memanfaatkan likelihood function dari data yang dimiliki dan prior probability dari nilai estimasi ini, juga dapat dilakukan dengan menciptakan sebanyak mungkin sample estimasi dari distribusi posterior terhadap data yang kita miliki. Selanjutnya, dari estimasi yang didapatkan tersebut, dipilih estimasi yang fit dan berada dalam batas wilayah estimasi dalam prinsip Minimum Message Length. Karena estimasi dari prinsip Maximum Likelihood merupakan nilai estimasi maximum, maka estimasi tersebut menjadi sample estimasi yang pertama yang dipastikan masuk di dalam batas wilayah estimasi sesuai prinsip Minimum Message Length. Dari semua estimasi yang didapatkan dan yang memenuhi prinsip batas wilayah nilai estimasi dari prinsip Minimum Message Length tersebut, maka akan didapat nilai estimasi Minimum Message Length dengan menghitung nilai rata-rata dari semua estimasi yang sudah dikonfirmasi valid tersebut.

Secara teori, kelihatan memang, bahwa estimasi atau model terpilih tidak begitu mudah untuk didapatkan dengan menggunakan prinsip Minimum Message Length. Hal ini terjadi karena prinsip Minimum Message Length menganut nilai kesempuraan yang tidak hanya melihat data yang ada di tangan, tetapi juga kemungkinan data-data lain yang tidak muncul, sebagai bagian dari populasi yang ada secara keseluruhan. Hal ini menekankan bahwa, kalau memang data yang kita miliki adalah berasal dari data sensus, maka prinsip Maximum Likelihood bisa digunakan. Akan tetapi apabila data yang kita miliki hanya merupakan sample dari sebuah populasi secara keseluruhan, maka sangat perlu untuk memikirkan data-data lain yang tidak terkena sample. Sehingga dalam melakukan estimasi data survei, pemanfaatan prinsip Minimum Message Length sangat diperlukan.

Tulisan selengkapnya dari Prinsip Minimum Message Length ini dapat dilihat dari PhD Thesis saya di Chapter III, IV, dan V.


Actions

Information

Leave a comment