Data Warehousing

3 09 2014

Data Warehousing adalah sebuah sistem yang mempunyai tujuan untuk mempermudah pengguna mendapatkan data summary terhadap aktivitas entitas yang terkait dengan suatu perusahaan. Data Warehousing merupakan suatu konsep yang muncul karena sulitnya para manajer mendapatkan data yang diperlukan dalam proses pengambilan keputusan, kalau dengan hanya bermodalkan pada konsep sistem informasi atau sistem pemrosesan transaksi. Dengan penerapan Data Warehousing, data yang umumnya bisa ditampilkan dengan memakan waktu yang panjang, dapat ditampilkan dalam hitungan detik dalam bentuk tabel dan grafik dalam berbagai kombinasi.

Data Warehouse Concept

Data Warehousing merupakan konsep OLAP (OnLine Analytical Processing) yang melakukan pemrosesan data secara online. Penamaan ini sebenarnya agak menyimpang, karena sebenarnya data yang ditampilkan menggunakan konsep data warehouse ini tidak diakses secara langsung (online) ke record datanya, tetapi data/informasi yang diinginkan dipersiapkan terlebih dulu (atau dalam istilah Data Warehouse, di-ETL (Extraction Transformation Loading) terlebih dulu) dari record data transaksi yang tersedia. Proses ETL ini merupakan kunci dari konsep Data Warehouse ini, karena data yang ada dalam jumlah besar bisa diformat sesuai dengan keinginan para manajer, sebelum mereka benar-benar menggunakannya untuk analisa. Dengan konsep itu, data yang diinginkan oleh manajer melalui data warehouse dapat diakses dengan cepat, layaknya kita melakukan penganalisaan secara online.

Data Warehousing memperkenalkan konsep tabel Fakta dan tabel Dimensi, yang sedikit berbeda dengan konsep database secara umumnya, walaupun bentuk penyimpanan data dalam data warehouse merupakan bentuk database juga.

  • Tabel Fakta menyimpan berbagai fakta informasi yang ingin ditampilkan nantinya dalam bentuk tabel ataupun grafik. Contoh isi dari tabel fakta, misalnya dalam data warehouse retail adalah: jumlah barang terjual, jumlah omset, jumlah pajak yang dibayarkan dll.
  • Tabel Dimensi mempunyai struktur yang benar-benar berbeda dengan tabel fakta, dimana tabel dimensi ini terisi dengan data-data terkait dimensi informasi fakta yang ingin ditampilkan. Contoh isi dari tabel dimensi misalnya: tahun, bulan, tanggal, lokasi toko, kategori barang (Makanan atau Non Makanan) dll.

Sehingga kalau kedua tabel tersebut dikombinasikan, data warehouse retail ini akan bisa menjawab permintaan manajer terkait informasi tentang misalnya: trend omset penjualan barang kategori makanan per tahun dari tahun 2000 – 2014 di toko seluruh Denpasar, baik dalam bentuk tabel maupun grafik.

Sebagai kelanjutannya, dalam konsep data warehouse, dalam melakukan penampilan data baik dalam bentuk tabel maupun grafik, dikenal juga istilah roll up and drill down, dan, slice and dice.

  • Roll up and drill down digunakan untuk melihat data lebih rinci atau lebih global. Misalnya, dari dimensi waktu, data omset misalnya bisa dilihat per tahun, atau lebih detail per bulan, atau lebih detail lagi per tanggal. Demikian pula dengan dimensi tempat, data omset bisa dilihat per provinsi, kabupaten/kota, atau per tokonya.
  • Berbeda dengan roll up dan drill down, slice and dice mengenalkan konsep memilah dan memutar. Memilah (slice) artinya, data yang ditampilkan bisa dipilah-pilah. Misalnya kita mempunyai data omset dari tahun 1980 – 2004, tapi yang ditampilkan bisa dipilah, misalnya hanya dari tahun 2000 – 2014. Memutar (dice) artinya, dimensi data yang ditampilkan bisa diputar-putar. Misalnya dari contoh di paragraf sebelumnya, dimana sumbu x-nya adalah lokasi, dan sumbu y-nya adalah waktu, bisa diputar menjadi misalnya: omset penjualan barang kategori makanan di toko seluruh denpasar dari tahun 2000 – 2014, dimana sumbu x-nya adalah waktu, dan sumbu y-nya adalah lokasi.

Dalam pemanfaatannya, sekarang ini banyak yang memperkenalkan sebuah konsep Dashboard Systems. Konsep dashboard system merupakan suatu bentuk penampilan yang lain dari sistem data warehouse. Konsep dalam hal menampilkan informasi fakta yang diinginkan, sesuai dimensi yang disediakan, tetap menjadi konsep dasar dari suatu sistem dashboard system, tetapi tampilannya agar sedikit berbeda dan lebih menyerupai sebuah dashboard mobil. Tampilan ini lebih menarik untuk kasus-kasus pemantauan progress atau kondisi suatu penyelesaian permasalahan.

Dashboard Systems

Sebagai kesimpulan, data warehouse merupakan suatu konsep yang sangat bagus dan merupakan suatu konsep yang dapat menguntungkan pengguna, karena data yang telah tertumpuk dan tidak termanfaatkan bisa digunakan dengan tepat sasaran dan bisa termanfaatkan dengan hasil guna tinggi. Pemanfaatan data warehouse dengan instensif oleh suatu perusahaan akan memberikan suatu kelebihan (competitive advantage) bagi perusahaan tersebut kalau ingin bersaing dengan perusahaan competitornya.

Keywords: Data Warehouse, Extraction Transformation Loading (ETL), Tabel Fakta, Tabel Dimensi, Roll Up and Drill Down, Slice and Dice, Dashboard System





2014 Montpellier Internship

23 08 2014

This year, there are two internships from Polytech of Montpellier, France: Adrien Claudin and Florian Guihard. They are working on a template project for a web system which includes a generic user administration module, a data maintenance module, a data warehouse module, and data mining modules implementing two data mining methods: naive bayes and k-means algorithm. They are staying in Bali for three months (June 2nd – August 28th, 2014).

Today (August 23rd, 2014), they presented their work in front of students and lecturers, in conjunction to a final project presentation by Forth year student group at Stikom Bali’s Dual Degree program. The project went well, despite of new technologies that they have to implement. The user administration module is a generic module to administrate users of the systems. The data warehouse module is also new to them, and they make to the end an analysis of user activity data warehouse systems. For the data mining module, they manage to implement two methods out of three methods I have asked them in the beginning. All applications are implemented using the Java EE with the Model View Controller (MVC) concept as well as Data Access Object (DAO) design pattern. They also implemented the JFreeChart library for graph display and the WEKA library for implementing the naive Bayes data mining method. The whole project is intended to become a system template for students who will be taking web application, data warehouse, and data mining subjects, so they do not have to build a system from scratch for the sake of learning Data Warehouse or Data Mining alone.

This year. the result of the internship is very good, and very useful for the next teaching as well as the next internship program.

Despite of the hard working, the two internships have also enjoyed to stay in Bali. They have played the things that they have planned such as kite surfing and diving. Hope they will have a lot of memories and experiences while staying in Bali both in terms of the Balinese culture and the technology learning.

This is a picture taken at the end of their presentation time. Form the left: Adrien Claudine, Me, Nico Bruhne (Forth Year Stikom Bali’s Dual Degree Program), Florian Guihard, Putu Sri Sasmitha Dewi (Forth Year Stikom Bali’s Dual Degree Program), and Klinton Putra B.B.M. (Forth Year Stikom Bali’s Dual Degree Program).
2004 France Internship





Minimum Message Length

4 07 2014

Melihat dari namanya Minimum Message Length sering dikonotasikan dengan pengiriman data melalui media telekomunikasi, yang kalau diterjemahkan langsung dalam Bahasa Indonesia akan mempunyai arti Panjang Pesan Minimum. Melihat arti langsungnya ini, memang prinsip Minimum Message Length berkaitan erat dengan bagaimana suatu pesan dikirimkan. Akan tetapi, konsep Minimum Message Length ini, sebenarnya tidak mengharuskan kita untuk mengirimkan pesan secara riil, tetapi hanya melakukan perkiraan, apabila kita harus mengirim data melalui media telekomunikasi, akan lebih hemat kalau kita mencari bentuk yang paling minimal dari data yang ingin dikirimkan, sehingga data akan bisa dikirimkan dengan lebih efisien.

Prinsip Minimum Message Length sebenarnya merupakan teori optimasi yang berbasis pada Teori Bayesian dan Teori Informasi. Teori ini banyak digunakan untuk melakukan kegiatan estimasi parameter suatu distribusi statistik dan pemilihan model dalam suatu proses pemodelan. Dalam prinsip Minimum Message Length ini, Teori Bayesian digunakan untuk menentukan suatu estimasi atau model dengan memikirkan, pertama, data yang sedang dianalisa (berupa likelihood function) dan kedua, pengetahuan yang ada tentang nilai estimasi atau nilai pemodelan di masa yang lalu (prior probability). Karena secara umum, Teori Bayesian disimbolkan dengan rumus sebagai berikut:

posterior probability = prior probability x likelihood function

Sedangkan, penggunaan Teori Informasi dalam prinsip Minimum Message Length adalah bahwa data dalam bentuk apapun dapat ditransfer melalui suatu channel informasi dalam bentuk bits (log2). Akan tetapi, informasi yang dikirimkan kalau tidak disederhanakan, akan menjadi proses transfer yang panjang dan memerlukan waktu yang lama. Oleh karena itu, prinsip Minimum Message Length berusaha untuk mencari bentuk pengiriman data dalam bentuk bits (log2) dengan kondisi yang paling pendek, sehingga proses transfer menjadi optimal dan memerlukan waktu yang minimal.

Prinsip Minimum Message Length, dalam context estimasi parameter, sama dengan prinsip Maximum Likelihood dengan tambahan pemikiran penambahan konsep prior probability. Prinsip Maximum Likelihood juga sering dikatakan sudah memikirkan nilai prior probability, dimana nilai dari prior probability tersebut diseimbangkan dengan nilai Fisher Information. Hal ini akhirnya menyebabkan kedua nilai (prior dan Fisher) saling cancel out, sehingga nilai estimasi hanya tergantung pada nilai likelihood function dari data yang dianalisa saja.

Untuk bisa mendapatkan estimasi dengan memperhitungkan prior dan likelihood, tidaklah mudah. Beberapa hal yang sudah diusulkan adalah dengan menggunakan Compact Coding untuk melakukan estimasi dan pemilihan model. Compact Coding ini mencakup pencarian second derivative dari log2 prior dan log2 likelihood, yang dalam pembentukan Compact Coding, direpresentasikan dalam bentuk Fisher Information. Akan tetapi, pendekatan Compact Coding ini juga hanya memungkinkan apabila bentuk distribusi dari data yang sedang diestimasi atau dimodel adalah sederhana seperti distribusi Normal atau multinomial. Untuk distribusi yang lain seperti Gamma, Student t, dan distribusi kompleks lainnya, dan khususnya yang bersifat multivariat, agak sedikit sulit untuk diterapkan. Hal ini disebabkan karena adanya bagian yang tereliminasi dalam Compact Coding yang dihasilkan, yang dapat mengakibatkan hasil estimasi dan pemilihan model menjadi kurang akurat.

Penerapan prinsip Minimum Message Length, dengan memanfaatkan likelihood function dari data yang dimiliki dan prior probability dari nilai estimasi ini, juga dapat dilakukan dengan menciptakan sebanyak mungkin sample estimasi dari distribusi posterior terhadap data yang kita miliki. Selanjutnya, dari estimasi yang didapatkan tersebut, dipilih estimasi yang fit dan berada dalam batas wilayah estimasi dalam prinsip Minimum Message Length. Karena estimasi dari prinsip Maximum Likelihood merupakan nilai estimasi maximum, maka estimasi tersebut menjadi sample estimasi yang pertama yang dipastikan masuk di dalam batas wilayah estimasi sesuai prinsip Minimum Message Length. Dari semua estimasi yang didapatkan dan yang memenuhi prinsip batas wilayah nilai estimasi dari prinsip Minimum Message Length tersebut, maka akan didapat nilai estimasi Minimum Message Length dengan menghitung nilai rata-rata dari semua estimasi yang sudah dikonfirmasi valid tersebut.

Secara teori, kelihatan memang, bahwa estimasi atau model terpilih tidak begitu mudah untuk didapatkan dengan menggunakan prinsip Minimum Message Length. Hal ini terjadi karena prinsip Minimum Message Length menganut nilai kesempuraan yang tidak hanya melihat data yang ada di tangan, tetapi juga kemungkinan data-data lain yang tidak muncul, sebagai bagian dari populasi yang ada secara keseluruhan. Hal ini menekankan bahwa, kalau memang data yang kita miliki adalah berasal dari data sensus, maka prinsip Maximum Likelihood bisa digunakan. Akan tetapi apabila data yang kita miliki hanya merupakan sample dari sebuah populasi secara keseluruhan, maka sangat perlu untuk memikirkan data-data lain yang tidak terkena sample. Sehingga dalam melakukan estimasi data survei, pemanfaatan prinsip Minimum Message Length sangat diperlukan.

Tulisan selengkapnya dari Prinsip Minimum Message Length ini dapat dilihat dari PhD Thesis saya di Chapter III, IV, dan V.





Rules Vs Policies

1 06 2014

The main purpose we work everyday is to get salary to support our live as well as our family live. But, sometimes because of the situation, we often lost our grip and put too much attention to a condition involving human relationship as well the money involved in the process of finishing our work. To that, in order to avoid putting too much attention to people relationship or the money involved, a number of rules are setup.

Based on that, rules are meant to be used for avoiding conflict between people in a workplace. Rules are also meant to be used to make us understand what we have to do for our work. Furthermore, rules are meant to be used to say what is right and what is wrong during the process of finishing our work.

However, is a workplace working based only on rules?

If so, working place will be a heaven place to be. A couple of things can be working against rules. The number one thing that can work against rule is the policy (leader’s policy). Policy made often overrules the existing rules. For some, even the number of policies made amount to a number which can create confusion among workers, including confusion about the work to be finished, confusion which to be done and which to be left for others to do. With a policy, we also sometimes have to knowingly leave people to finish their work with incorrect procedures.

We knew that the one task of a leader is to make policies. But, how far a leader has to deliver this responsibility. One thing for sure, we want to keep the working balance in our workplace. From what I understand, if there are rules, then we have to follow. If there is no rule and a decision has to be made, then there is a responsibility for a leader to produce a policy. I can also say here that, if a leader produces too many policies even for the simplest matters, then he/she, can be said, is not anymore a LEADER or failed to be a LEADER, and he/she at the end only performs as a very common BOSS. A BOSS (red: a bad leader), even, sometimes, cannot recognize whether he/she is about to setup a policy or a general rule. At least, that is my current point of view for this matter.

So, are you a good LEADER or a good BOSS?





Nulis Huruf Jepang (日本語) Lagi, Horray!!

8 05 2014

Setelah sekian lama berpikir, mau nulis Bahasa Jepang gak bisa-bisa, ternyata ada juga tempatnya di internet. Tempatnya di Lexilogos – Words and Wonders of The World. Saya sudah coba mengetikkan Bahasa Jepang dari bahasa sederhana yang masih langsung teringat dan berikut adalah hasilnya. Menyenangkan sekali rasanya dan ke depan akan bisa menulis hal-hal yang lain lagi dalam Bahasa Jepang. Menghilangkan rindu dan mengembalikan memori-memori yang sempat hilang.

日本語を書けるように、いろいろ考えたのですが、

ネットのほうにこういうふうなキーボードがあつて、つぐ試して、こういうことを書いたのです。

うれしいです。なつかしいです。

これからいろいろなことが書けるようになります。

メモリーを戻せるようにもなります。

日本語 Horray!!