Teknologi VoIP : Digitalisasi Suara dan Pengkodean

Voice over Internet Protocol (VoIP) merupakan teknologi transmisi pengiriman komunikasi suara yang berbentuk paket melalui jaringan internet. Konsep dasar dari telepon internet adalah mengkonversi sinyal suara analog menjadi format digital dan mengkompresi atau menerjemahkan dari sinyal menjadi paket-paket untuk ditansmisikan. Banyak keutungan yang didapat dari teknologi VoIP ini sendiri, contohnya dari segi biaya dimana untuk melakukan percakapan internasional dapat ditekan hingga 70%. Hal ini dikarena jaringan internet bersifat global. Selain itu, dari segi pemeliharaan lebih mudah karena voice dan data network dibuat terpisah sehingga IP Phone dapat ditambah, dipindah, dan diubah. Hal ini dikarenakan VoIP dapat dipasang di sembarang ethernet dan alamat IP, tidak seperti halnya dengan telepon konvesional yang harus mempunyai port tersendiri di pusat atau PBX (Private branch exchange).

Standarisasi komunikasi pada VoIP menurut ITU-T adalah H. 323. Standar H. 323 terdiri dari komponen, protokol, dan prosedur yang menyediakan komunikasi multimedia melalui jaringan packet-based. H. 323 dapat digunakan untuk layanan dengan suara (video telephony), dan gabungan suara, video dan data. Tujuan desain dan pengembangan H. 323 adalah untuk memungkinkan adanya interoperabilitas dengan tipe terminal multimedia lainnya. Jadi terminal dengan standar H. 323 dapat berkomunikasi dengan terminal H. 320 pada ISDN, terminal H. 321 pada ATM, dan terminal H. 324 pada Public Switched Telephone Network (PSTN). Selain itu terminal H. 323 memungkinkan komunkasi real time dua arah berupa suara, video dan data.

Dalam membangun teknologi VoIP, terdapat dua hal yang harus diperhatikan yaitu delay dan bandwith. Delay didefinisikan sebagai waktu yang dibutuhkan untuk mengirimkan data dari sumber (pengirim) ke tujuan (penerima), sedangkan bandwith adalah kecepatan maksimum yang dapat digunakan untuk melakukan transmisi data antar komputer pada jaringan IP atau internet.

Delay

Baik buruknya kualitas suara ditentukan dari waktu delay. Besarnya delay maksimum yang direkomendasikan ITU untuk aplikasi suara adalah 150 ms, sedangkan delay maksimum dengan kualitas suara yang masih dapat diterima pengguna adalah 250 ms.

Jitter merupakan variasi delay yang terjadi akibat adanya selisih waktu atau interval antar kedatangan paket di penerima. Untuk mengatasinya, paket yang datang dikumpulkan dahulu dalam jitter buffer selama waktu yang telah ditentukan sampai paket dapat diterima pada sisi penerima dengan urutan yang benar. Echo disebabkan perbedaan impedansi dari jaringan yang menggunakan four-wire dengan two-wire. Efek echo adalah suatu efek yang dialami mendengar suara sendiri ketika sedang melakukan percakapan. Mendengar suara sendiri pada waktu lebih dari 25 ms dapat menyebabkan terhentinya pembicaraan. Lost packet (kehilangan paket) ketika terjadi peak load dan congestion (kemacetan transmisi paket akibat padatnya traffic yang harus dilayani) dalam batas waktu tertentu, maka frame (gabungan data payload dan header yang ditransmisikan) suara akan dibuang sebagaimana perlakuan terhadap frame data lainnya pada jaringan berbasis internet.

Berikut beberapa kelompok delay yang dapat menggangu kualitas suara dalam perancangan jaringan VoIP :

  1. Propagation delay : delay yang terjadi karena transmisi melalui jarak antar pengirim dan penerima.
  2. Serilization delay : delay pada saat proses peletakkan bit ke dalam sirkuit.
  3. Processing delay : delay yang terjadi saat proses coding, compression, decompression dan decoding.
  4. Packetization delay : delay yang terjadi saat proses paketisasi digital voice sample.
  5. Queuing delay : delay akibat waktu tunggu paket sampai dilayani.
  6. Jitter buffer : delay akibat adanya buffer untuk mengatasi jitter.

Selain itu terdapat paramater-parameter lain yang memperngaruhi yaitu Quality of Service (Qos), agar suara yang dihasilkan dari VoIP sama dengan menggunakan telepon konvensional. Beberapa parameter tersebut yaitu :

  1. Pemenuhan kebutuhan bandwith.
  2. Keterlambatan data (latency).
  3. Packet loss dan desquencing.
  4. Jenis kompresi data.
  5. Interopabilitas peralatan(vendor yang berbeda).
  6. Jenis standar multimedia yang digunakan (H. 323/SIP/MGCP).

Salah satu alternatif solusi dari permasalahan di atas adalah membangun link antar node pada jaringanVoIP dengan spsesifikasi dan dimensi dengan Qos yang baik dan dapat mengantisipasi perubahan lonjakan trafik hingga pada suatu batas tertentu.

Digitalisasi Suara dan Pengkodean

Terdapat dua metode yang digunakan untuk melakukan digitalisasi suara dan pengkodean. Pada level bit rendah yang umumnya diimplementasikan untuk jaringan paket yaitu dengan menggunakan kompresi suara berkisar 8 kbps atau kurang, sedangkan pada level makro, yaitu dengan mengumpulkan suara, mendigitalisasi dan mengirimkan suara dengan delay rendah, jitter rendah, lost packet rendah dan mis-sequacing rendah.

Metode Enkoding Suara

Terdapat 2 teknik yang digunakan dalam menganalisa suara yaitu pengkodean waveform dan vocoding. Pengkodean waveform digunakan pada jaringan telepon konvensional, voATM, dan beberapa implementasi voMPLS. Sedangkan pengkodean vocoding berlaku untuk VoIP atau aplikasi seluler. Pengkodean waveform dikembangkan (pada tingkat praktis) pada awal 1960-an, sedangkan vocoding dikembangkan (pada tingkat praktis) pada awal 1990-an (dimulai dengan layanan seluler GSM).

Metode Aspek
Gelombang waveform PCM (Pulse Code Modulation) : Metode standar telepon untuk kualitas suara.
ADCPM (Adaptive Differential PCM) : Pengkodean adapive untuk tingkat 40, 32, 24, dan 16 kbps. Menggunakan adaptif kuantisasi dan prediksi.
Vocoding : mendigitalkan spektrum suara di beberapa band frekuensi. Mendukung pada tingkat 16 dan 8 kbps. Suara ini dibagi atas band frekuensi dan menggunakan strategi yang berbeda yang dipilih berdasarkan pendengaran dan beberapa ukuran prediksi dari spketrum masukkan.
Pengkodean Multipulse Linear Predictive : mendukung pada tingkat 8 dan 4 kbps.
Linear Predictive Coding (LPS) : mendukung pada tingkat 8 sampai 2 kbps.

Dalam pengkodean waveform, kegiatan pengkodean, transmisi, dan kemudian mereproduksi waktu suara analog dimodelkan dalam bentuk amplitudo. Jumlah bit per detik untuk merepresentasikan suara dengan metode ini adalah “tinggi” sekitar 64, 32, atau 16 kbps (tergantung pada teknologi).

Pengkodean vocoding mereproduksi kurva suara analog dengan melakukan analisis matematis (transformasi spektral). Jumlah bit per detik untuk merepresentasikan suara dengan metode ini adalah “rendah” sekitar 9, 6, 6.3, 5, 3 kbps dan bahkan lebih rendah (tergantung pada teknologi). Namun, kualitas suara menjadi rusak dan kurang dari 4.8 kbps. Kualitas suara, kecepatan bit, kompleksitas, dan waktu tunda (delay) dipengaruhi oleh pemrosesan dan pengkodean. Kualitas berdampak negatif apabila kecepatan bit mengalami penurunan, tetapi efek ini dapat dikurangi sampai batas tertentu dengan menambahkan kompleksitas pengolahan. Sebagian besar aplikasi VoIP telah beroperasi di kisaran 8 kbps, tidak menutup kemungkinan untuk tingkat yang lebih tinggi terutama untuk aplikasi intraenterprise.

Teori Nyquist menyatakan gelombang suara analog dengan bandwidth sebagai W,  dengan teknik Pulse Code Modulation (PCM) dibutuhkan 2W sampel per detik. Untuk suara, ketika band terbatas pada 4.000 Hz atau 4 kHz bandwith, dapat menangkap 8000 sampel per detik. Teknik PCM tidak memerlukan teknik pemrosesan sinyal canggih dan sirkuit yang terkait sehingga metode ini telah digunakan terlebih dahulu dan merupakan metode yang lazim digunakan di pabrik telepon (PCM pertama kali dikembangkan awal tahun 1960). Permasalahan yang dihadapi dengan teknik ini yaitu membutuhkan bandwith yang cukup tinggi untuk mewakili sinyal suara.

Salah satu cara untuk mengurangi kecepatan bit dalam pengkodean waveform yaitu menggunakan metode encoding diferensial. Masalah yang dihadapi dengan metode pengkodean suara ini yaitu jika sinyal masukan analog bervariasi dengan cepat diantara sampel, teknik diferensial tidak dapat mewakili dengan akurasi yang cukup untuk sinyal yang masuk. Hanya dalam teknik PCM, kliping dapat terjadi ketika masukkan ke quantizer terlalu besar, dalam hal ini, sinyal masukkan adalah perubahan sinyal dari sampel sebelumnya. Distorsi yang dihasilkan dikenal sebagai slope-oveload.

Masalah ini ditujukan oleh skema Adaptive Differential Pulse Code Manipulation (ADPCM).  ADPCM menyediakan kualitas suara dengan minimal degradasi pada 32 kbps. Metode suara kecepatan bit rendah seperti ADPCM mengurangi tidak hanya kapasitas yang dibutuhkan untuk mentransmisi suara digital tetapi juga untuk data band suara seperti fax dan akses internet dial-up.

ITU-T (International Telecommunication Union – Telecommunication Sector) membuat beberapa standar untuk voice coding yang direkomendasikan untuk implementasi VoIP. Tabel berikut menunjukkan koleksi standar dan spesifikasi dari ITU-T :

Coder Deskripsi
G. 711 Pulse Code Modulation (PCM) dari frekuensi suara.
G. 712 Karakteristik kinerja transmisi dari PCM. Menggantikan G. 712, G. 713, G. 714, dan G. 715.
G. 713 (Dicabut) Karakteristik kinerja dari PCM diantara dua kawat pada frekeunsi suara.
G. 714 (Dicabut) Performa terpisah untuk encoding dan decoding sisi saluran PCM, berlaku untuk empat kawat pada frekuensi suara.
G. 715 (Dicabut) Performa terpisah untuk encoding dan decoding sisi saluran PCM, berlaku untuk dua kawat pada frekuensi suara.
G. 720 Karakteristik dari performa suara digital tingkat rendah dengan sinyal non voice.
G. 721 (Dicabut) 32 kbps Adaptive Differential Pulse Code Modulation (ADPCM). Diganti dengan G. 726.
G. 722 7 kHz pengkodean audio dengan 64 kbps.
G. 722.1 Pengkodean pada 224 dan 32 kbps untuk operasi hands-free di sistem dengan frame rendah.
G. 722.2 Pengkodean wideband di sekitar 16 kbps menggunakan Multirate Adaptive Wideband (AMR-WB).
G. 723 (Dicabut) Diferensial adaptif dari PCM sampai 24 dan 40 kbps. Sekarang diganti dengan G. 726.
G. 723.1 Suara dengan 2 tingkat untuk transmisi komunikasi multimedia pada 5.3 dan 6.3 kbps.
G. 724 Karakteristik saluran 48 dengan kecepatan bit rendah dan operasi multiplex utama beroperasi pada 1544 kbps.
G. 725 Aspek sistem untuk penggunaan dari 7 kHz audio codec dalam 64 kbps.
G. 726 40, 32, 24, 1 kbps Adaptive Differential Pulse Code Modulation (ADPCM).
G. 727 5, 4, 3 dan 2 bit/sampel Adaptive Differential Pulse Code Modulation (ADPCM).
G. 728 Pengkodean suara di 16 kbps menggunakan penundaan (delay) rendah pengkodeaan excited linear prediction.
G. Imp728 Pelaksana panduan untuk ITU-T rekomendasi G. 728.
G. 729 Pengkodean suara di 8 kbps menggunakan Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP).

Tabel berikut menggambarkan beberapa kunci aspek teknis yang relevan untuk vocoder yang berlaku untuk VoIP :

Coder Deskripsi
G. 711 Speech Coder A-Law/µ-Law Pulse Code Modulation (PCM) pengkodean suara pada 64 kbps. Merupakan implementasi sebagai encoder dan decoder dengan pilihan frame A-Law/µ-Law dan multiple pada saat kompilasi / run time.
G. 722 Speech Coder Encoder yang mengkompres dari 16 kHz PCM linear ke 48/56/64 kbps dan men-decode menjadi salah satu dari tiga bit rate tersebut.
G.723.1 Dual Rate Speech Coder with Annex A Encoding 8 kHz sinyal sampel suara untuk transmisi pada tingkat baik 6.3 kbps atau 5.3 kbps. G 723.1 mendekati kualitas performa yang baik. Coder beroperasi di 30 ms frames dengan 7.5 ms. Cocok untuk aplikasi seperti voice over frame relay, telekonferensi, dan telepon nirkabel.
G.726 ADPCM Waveform Coder G. 726 Adaptive Differntial PCM (ADPCM) mengkompres suara dan beberapa komponen sinyal audio dari multimedia. Coder ini menerima A-law atau µ-law PCM sampel suara dan mengkompres itu di tingkat 40, 32, 24 atau 16 kbps. Algoritma G. 726 telah dioptimasi untuk mengkompres suara ke kualitas tinggi. Coder ini didasarkan pada gelombang diferensial adaptif kuantisasi dan melalui fax, Dual Tone MultiFrequency (DTMF) dan beberapa nada telepon lain.
G.729 with Annex-B CSACELP VoiceCode Conjugate Structure Algebraic Code Excited Linear Prediction, 8 kHz sampel sinayl suara untuk transmisi melalui saluran 8 kbps. Juga mencakup implementasi dari G. 729B untuk tingkat kecepatan tetap. G. 729 meng-encode 80 sampel frame (10 ms) dari 16 bit linear PCM data ke sepuuh kode 8 bit kata-kata, dan menyediakan kualitas performa yang baik. Cocok untuk aplikasi seperti voice over frame relay, telekonferensi, dan telepon nirkabel.
GSM-FR Speech Coder Mendukung pengkodean 8 kHz sampel sinyal suara untuk transmisi dengan kecepatan 13 kbps. Enkoder ini mengkompres linear PCM suara dan menggunakan Regular Pulse Excitation dengan algoritma Long Term Prediction (RPE-LTP). Coder ini telah dioptimalkan untuk kompres suara kualitas tertinggi.

Standar Kompresi Data Suara

Sebuah kanal video yang baik tanpa di kompresi akan mengambil bandwith sekitar 9 Mbps, sebuah kanal suara (audio) yang baik tanpa di kompresi akan mengambil bandwith sekitar 64 Kbps. Melalui teknik kompresi sebuah kanal video dapat dipangkas menjadi sekitar 30 Kbps dan kanal suara menjadi 6 Kbps (half-duplex).

G. 711

Coder ini menggunakan teknik Pulse Code Modulatin (PCM) dalam pengiriman suara. Standar ini banyak digunakan oleh operator Telekomunikasi termasuk PT. Telkom sebagai penyedia jaringan telepon terbesar di Indonesia.

PCM mengkonversikan sinyal analog ke bentuk digital dengan melakukan sampling sinyal analog tersebut 8000 kali/detik dan dikodekan dalam kode angka. Jarak antar sampel adalah 125 µ detik. Sinyal analog pada suatu percakapan diasumsikan berfrekuensi 300 Hz – 3400 Hz. Sinyal tersampel lalu dikonversikan ke bentuk diskrit. Sinyal diskrit ini direpresentasikan dengan kode yang disesuaikan dengan amplitudo dari sinyal sampel. Format PCM menggunakan 8 bit untuk pengkodeannya. Laju transmisi diperoleh dengan mengkalikan 8000 sampel /detik dengan 8 bit/sampel,  menghasilkan 64.000 bit/detik . Bit rate 64 kbps ini merupakan standar transmisi untuk satu kanal telepon digital.

Percakapan berupa sinyal analog yang melalui jaringan PSTN mengalami kompresi dan pengkodean menjadi sinyal digital oleh PCM G.711 sebelum memasuki VoIP gateway . Pada VoIP gateway, di bagian terminal, terdapat audio codec melakukan proses framing (pembentukan frame datagram IP yang dikompresi) dari sinyal suara terdigitasi (hasil PCM G.711) dan juga melakukan rekonstruksi pada sisi receiver. Frame – frame yang merupakan paket – paket informasi ini lalu di transmisikan melalui jaringan IP  dengan suatu standar komunikasi jaringan  packet – based. Standar G.711 merupakan teknik kompresi yang tidak effisien, karena akan memakan bandwidth 64Kbps untuk kanal pembicaraan. Agar bandwidth yang digunakan tidak besar dan tidak mengesampingkan kualitas suara, maka solusi yang digunakan untuk pengkompresi diguanakan standar G.723.1.

G. 723.1

Pengkode sinyal suara G.723.1 adalah jenis pengkode suara yang direkomendasikan untuk terminal multimedia dengan bit rate rendah. G.723.1 memiliki dual rate speech coder yang dapat di-switch pada  batas 5.3 kbit/s dan 6.3 kbit/s. Dengan memiliki dual  rate speech coder ini maka G.723.1 memiliki fleksibilitas dalam beradaptasi terhadap informasi yang dikandung oleh sinyal suara G.723.1 dilengkapi dengan fasilitas untuk memperbagus sinyal suara hasil sintesis. Pada bagian encoder G.723.1 dilengkapi dengan formant perceptual weighting filter dan harmonic noise shaping filter sementara di bagian decoder-nya G.723.1 memiliki  pitch postfilter dan  formant postfilter sehingga sinyal suara hasil rekonstruksi menjadi sangat mirip dengan aslinya. Sinyal eksitasi untuk bit rate rendah dikodekan dengan Algebraic Code Excited Linier Prediction (ACELP) sedangkan untuk rate tinggi dikodekan dengan menggunakan Multipulse Maximum Likelihood Quantization (MP-MLQ). Rate yang lebih tinggi menghasilkan kualitas yang lebih baik. Masukan bagi G.723.1 adalah sinyal suara digital yang di-sampling dengan frekuensi sampling 8.000 Hz dan dikuantisas dengan PCM 16 bit. Delay algoritmik dari G.723.1 adalah 37.5 msec (panjang frame ditambah lookahead), delay pemrosesannya sangat ditentukan oleh prosesor yang mengerjakan perhitungan-perhitungan pada algoritma G.723.1. Dengan menggunakan DSP priosesor maka delay pemrosesan dapat diperkecil. Selain itu kompresi data suara yang direkomendasikan ITU adalah  G.726, merupakan teknik pengkodean suara ADPCM dengan hasil pengkodean pada 40, 32, 24, dan 16 kbps. Biasanya juga digunakan pada pengiriman paket data pada telepon publik maupun peralatan PBX yang mendukung ADPCM. G.728, merupakan teknik pengkodean suara CELP dengan hasil pengkodean 16 kbps. G.729 merupakan pengkodean suara jenis CELP dengan hasil kompresi pada 8kbps.

Berikut adalah table perbandingan beberapa teknik kompresi standar ITU-T :

Teknik Kompresi Bit Rate (Kbps) Sample size (ms) MOS
G.711  PCM 64 0,125 4,1
G.726  ADPCM 32 0,125 3,85
G.728  LD-CELP 16 0,625 3,61
G.729  CS-ACELP 8 10 3,92
G.723.1 MP-MLQ 6,3 30 3,9
G.723.1 ACELP 5,3 30 3,65

Sumber : Cisco Labs

Kualitas

Dalam hal kualitas, ukuran yang digunakan dalam perbandingan adalah seberapa baik suara pembicaraan untuk kondisi ideal, bersih, tidak ada kesalahan transmisi. Tabel berikut menunujukkan kualitas pengkodean yang digunakan dalam suara melalui jaringan data.

Algorithm G.723.1 G.729

G.729A

G.728 G.726

G.727

G.711
Rate (bps) 5.3–6.3 8 16 32 64
Quality Good Good Good Good Good
Complexity Highest High Lower Low Lowest

Sumber :

  1. M. Iskandarsyah H, Dasar-Dasar Jaringan VoIP, IlmuKomputer.com
  2. Daniel Minoli, Voice Over IPv6 – Architectures for Next Generation VoIP Networks, ELSEVIER.

3 responses to this post.

  1. thnks,helpfull

    Balas

  2. Posted by diamond Albarn on Juni 10, 2010 at 4:56 am

    bukanya standar protocol untuk VoIP itu SIP ya, menurut referensi IETF.
    cmiiw..

    Balas

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

%d blogger menyukai ini: