Saturday, July 4, 2015

How MPEG Works

Kita sudah mengetahui bahwa standar codec video keluarga MPEG yang sering digunakan adalah:

MPEG-1 part 2 (disebut MPEG-1)
MPEG-2 part 2 (disebut MPEG-2)
MPEG-4 part 2 (disebut MPEG-4)
MPEG-4 part 10 (disebut H.264 atau AVC)

Bagaimana cara kerja codec video tsb secara basic?

Kita sudah membahas cara kerja kompresi JPEG menggunakan DCT (Discrete Courier Transform). Pada dasarnya kompresi MPEG juga menggunakan DCT.

MPEG mendefinisikan GOP (Group of Picture), biasanya 30 (atau bisa di set saat dilakukan kompresi) dalam satu GOP. Isi dari satu GOP itu terdiri dari gambar-gambar (ada 30 gambar). Dari 30 gambar (atau di sebut 30 frame) ada 3 jenis frame:

I-frame (Intra Frame, atau Key Frame)
P-frame (Predictive Frame)
B-frame (Bi directional Frame)

Gambar yang utuh hanya I-frame. Sedangkan P-frame dan B-frame hanya selisih gambar saja.

Misal ada video latar belakang gunung, dan ada mobil melintas. Maka I-frame akan terdiri dari gambar utuh gunung dan mobil, sedangkan P-Frame dan B-frame terdiri dari gambar mobilnya saja.

Sebagai contoh lain: video orang berlari.


I-frame adalah gambar utuh pohon dan orang. P-frame adalah gambar orang yang berlari.

I-frame 1 MB apabila di kompress pakai kompresi JPEG akan menjadi 40 kb.


Sedangkan P-frame karena hanya memuat selisih gambar, maka di kompress mejadi 5 KB.


Dan B-frame karena memuat selisih 2 gambar, maka apabila di kompress akan menjadi lebih kecil lagi yaitu 1 KB.

Dari hal ini dapat dibayangkan, apabila 1 file gambar raw di kompress menjadi JPEG maka bisa didapatkan rasio kompresi 1:20, sedangkan 1 file video raw apabila dikompres MPEG-4 part 10 (sering disebut H.264) maka bisa di dapatkan kompresi 1:200. (Lebih dalam pembahasan tentang I, P, dan B frame ini dapat di baca di artikel ini).

Profiles dan Level

Mengapa MPEG-1, MPEG-2, MPEG-4, dan H.264 sama-sama pakai DCT tapi kompresi H.264 menghasilkan kompresi dengan kualitas video terbaik?

Hal ini disebabkan selain ada teknik DCT, ada seperangkat "tools" yang terus ditambahkan sejak kelahiran MPEG-1. Sebagai contoh, pada MPEG-2 tools untuk motion compensation, dan variasi sampling Kroma dimana sudah tersedia 4:2:0, 4:2:2, dan 4:4:4. Pada MPEG-4 part 2 tersedia tools untu global motion compensation, sub-pixel motion compensation, shaped coding, dsb. Sedangkan pada H.264 tersedia tools untuk Logaritmic Quantization, De-blocking fillter, dsb.
 
Gambar konversi RGB ke YUV (atau YCbCr)

Sebagaimana disebutkan sebelumnya dengan berkembangkanya teknologi MPEG (walau basisnya tetap dari DCT) semakin banyak tools yang dimasukkan di masing-masing standard. Disebabkan banyaknya tools yang tersedia, perlu di set 2 hal: Profile dan Level. Profile mendefinisikan tools apa saja yang dipakai, sedangkan Level adalah resolusi yang akan di handle.

Pada MPEG-2 dan MPEG-4 part 2, Profiles nya banyak sekali. Kemudian pada MPEG-4 part 10 (atau H.264) profilenya disederhanakan menjadi 3 saja:
- Baseline
- Main
- Extended

Baseline menggunakan tools yang terbatas. HP dengan prosesor rendah (lowspeed) biasanya hanya bisa play profile Baseline saja. Saat kita melakukan encoding (misalkan dengan ffmpeg) kita perlu mendefinisikan output file kita menggunakan profile apa. Jika kita mensasar HP low-end, maka gunakan profile Baseline. Akan tetapi karena tools yang tersedia kurang, maka kompresi yang dilakukan juga terbatas, efeknya tingkat kompresi yang dihasilkan rendah. Untuk profile diatasnya spt Main dan Extended jumlah tools lebih banyak tersedia, sehingga kompresi dilakukan dalam beberapa tahap, dengan hasil akhirnya sebuah file dengan tingkat kompresi yang tinggi.

Dengan cara pendefinisian Profile dan Level tsb, pembuat player bisa fokus membuat player nya pada Profile dan Level tertentu saja. Sebagai contoh HP iPhone versi awal kelahiran, hanya support Profile Baseline. Akan tetapi perangkat iPhone dan iPad terkini support Profile Extended.


Motion Compensation

Motion compensation adalah teknik yang digunakan untuk mereduksi bit yang dikirim. Idenya adalah dengan menganggap sebuah block pixel 8x8 bergerak dari waktu ke waktu. Sehingga informasi yang dikirim tidak perlu informasi isi (value) dari pixel 8x8, tapi cukup kordinat perubahannya.

Perhatikan gambar berikut:

Gambar I-frame adalah latar belakang. Gambar P-frame adalah gambar akhir dari sebuah mobil yang melaju. Gambar B-frame adalah gambar diantara I dan P. Terlihat bahwa B-frame bisa di dapat dengan memundurkan gambar mobil yang ada di P frame. Dengan demikian tiap blok pixel 8x8 di P-frame bisa di buatkan vektor perubahannya. Sehingga praktis B-frame hanya berisi kordinat perubahan dari blok pixel 8x8 tsb. Cara seperti ini sangat memberikan kompresi yang tinggi.

 
Bitrate pada proses Encoding/Decoding

Bitrate pada video bisa VBR maupun CBR (bedakan dengan ABR). Variable Bit Rate (VBR) biasanya digunakan oleh jaringan Kontribusi (dari Studio ke Pemancar Pusat). Sedangkan Constant Bit Rate (CBR) biasanya diguakan oleh jaringan Distribusi (dari Pemancar Pusat ke Pemancar Daerah).

VBR menghasilkan kualitas yang bagus, tetapi bandwidth transmisi yang dibutuhkan besar. Video api unggun salah satu contoh video yang detik ke detik tidak ada frame yang sama bentuk gambar api nya. Beda dengan gambar mobil bergerak diatas. Efekya api unggun biasanya kompresi yang dihasilkan rendah. Bisa di katakan bahwa pada video api unggun semua frame nya adalah I-frame. Ingat bahwa I-frame kompresi nya tidak sebagus P-frame dan B-frame. Apabila video api unggun hendak di siarkan dari Studio ke Pemancar Pusat, dengan kualitas yang bagus, maka video tsb perlu disalurkan secara VBR, sehingga saluran transmisi nya harus besar (mungkin 20 Mbps). Padahal average video dengan kualitas SD, hanya perlu saluran transmisi 3 Mbps.

Apabila saluran transmisi hanya tersedia 3 Mbps, maka video tsb perlu di transmisikan dengan CBR 3 Mbps. Efeknya adalah pada saat video api unggun muncul terjadi pixelized. Hal ini disebabkan setelah proses DCT, dan masuk ke fase Quantization nilai Quality nya dibesarkan sehingga kompresi bisa tinggi (agar bisa muat di saluran transmisi 3 Mbps) tapi gambar pixelized (tentang Quantization baca "How JPEG Works (Part-4)"). Dengan cara tsb, video tetap bisa di transmisikan dengan 3 Mbps saja, tapi ada efek, pas pergerakan cepat (spt video balapan mobil), atau gambar sangat berubah cepat (spt video api unggun), akan terjadi adalah pixelized.

De-blocking pada H.264

Salah satu kelebihan H.264 adalah adanya filter de-blocking. Akibat quantisasi yang terlalu dalam (nilai quality terlalu besar) maka tidak jarang antara blok 8x8 terjadi perbedaan warna yang tajam. De-blocking membuat pergantian warna ini lebih smooth, dengan me-rata-ratakan value antara ke dua warna tsb.


Sehingga efek pixelized pada kompresi yang sangat tinggi menjadi tidak begitu terasa, seperti contoh berikut.


Gambar kiri adalah gambar tanpa de-blocking (dimana terdapat pixelized ataupun"dust" pada wajah). Sedangkan bagian kanan setelah penerapan filter de-blocking, dimana pixelized tidak begitu terasa.