GARA-gara gemar menonton film futuristik "Startrek", Arry Akhmad
Arman, dosen Departemen Elektro Institut Teknologi Bandung (ITB) berangan-angan
ingin memiliki sebuah mesin yang dapat berkomunikasi aktif dengan dirinya. Tetapi
dunia nyata bukanlah film, tidak mudah mewujudkan angan itu.
"Mungkin karena kebanyakan nonton film "Startrek" saya jadi
ingin sekali punya mesin komputer yang bisa diajak bicara, bisa memberi respon
ketika mendengar perintah yang saya ucapkan," ujar Arry yang kini mendalami
bidang kajian human machine interface.
Arry membayangkan dirinya memiliki sebuah sistem yang memungkinkan terjadinya
dialog lisan dengan komputer pribadinya. Dia mencontohkan, suatu saat setelah
mengaktifkan komputer, dirinya tinggal berkata "komputer, tolong cek e-mail".
Perintah itu diucapkan, bukan diketik.
Alangkah menyenangkan jika beberapa saat kemudian komputer menjawab "ada
5 e-mail baru, apakah ingin dibacakan?". Lalu, Arry kembali membayangkan
dirinya menjawab "ya" sambil melanjutkan aktifitas membuat kopi di
pagi hari. Respon dari komputer setelah itu adalah memberitahu siapa pengirimnya
dan apa isi e-mail tersebut. Arry pun dapat mendengarkannya sambil membaca koran.
Memang, perjalanan ke arah itu masih agak jauh. Tetapi menurut Arry, jalur
menuju terciptanya sistem seperti itu sudah dapat terlihat. Semua teknologi
yang berkaitan dengan hal tersebut sudah ada, jadi bukan tidak mungkin sistem
itu akan segera terwujud.
Teknologi pengenalan suara oleh mesin sudah biasa digunakan, salah satunya
menjadi aplikasi voice dialing di telefon selular. Proses perubahan ucapan menjadi
perintah-perintah yang dimengerti oleh mesin dilakukan melalui teknologi natural
language processing (NLP). Kemampuan mesin mengeluarkan ucapan manusia terbantu
oleh teknologi text to speech (TTS).
Nah, belum lama ini ini Arry meluncurkan program IndoTTS, sebuah program text
to speech yang menghasilkan pengucapan dalam bahasa Indonesia. Program ini dapat
menjadi modal agar semua sistem yang masih angan-angan seperti diceritakan tadi,
nantinya tidak hanya bisa berbicara bahasa Inggris atau Jepang, tetapi juga
berbahasa Indonesia.
Dengan bantuan IndoTTS, Anda dapat memasukkan teks bahasa Indonesia apapun
dan tinggal memencet satu tombol untuk memerintahkan program ini membacakan
teks tersebut.
Boleh jadi Anda sekarang sedang membayangkan suara yang keluar mirip dengan
suara robot di film-film, kaku dan datar. Silakan kaget karena ternyata kualitas
suara yang dihasilkan lebih baik dari itu. IndoTTS menghasilkan suara yang berintonasi
dan tentu saja berlogat Indonesia.
Untuk membuktikannya, silakan download IndoTTS secara gratis di http://indotts.melsa.net.id.
Bagi mereka yang ingin mengembangkan program lain dengan memanfaatkan IndoTTS,
Arry pun mempersilakan mereka menghubungi dirinya untuk mendapatkan --juga secara
gratis-- system development kit yang memungkinkan IndoTTS digabungkan dengan
aplikasi lain.
"IndoTTS gratis asal digunakan untuk keperluan nonkomersial dan militer.
Silakan kembangkan, banyak aplikasi nonkomersial yang dapat dibuat oleh orang
lain. Inilah kontribusi saya untuk Indonesia. Di luar itu, mohon maaf, kita
harus bicara bisnis," ujar suami dari Ratih Huriyati yang telah dikaruniai
dua orang anak.
**
UNTUK mengubah teks menjadi ucapan, bagaimana sebenarnya yang terjadi di tubuh
IndoTTS? Meski pengoperasiannya sangat mudah, jangan coba-coba berpikir proses
yang dilakukannya sederhana, pun dengan proses pembuatannya. Arry menghabiskan
waktu kurang lebih 10 tahun untuk mewujudkan IndoTTS, tetapi memang ia merancangnya
di sela rutinitas utamanya sebagai dosen dan peneliti di ITB, tidak mengalokasikan
waktu khusus kecuali saat merekam diphone database di Belgia pada tahun 2000
lalu. Arry memaparkan, unit terkecil bentuk tulisan adalah huruf, sedangkan
unit terkecil bentuk lisan adalah fonem. Fonem tidak identik dengan huruf karena
gabungan huruf "n" dan "g", misalnya, menjadi fonem "ng".
Mengingat hasil akhir TTS adalah ucapan maka fokus tertuju pada fonem yang dalam
bahasa Indonesia berjumlah 35.
Arry membangun IndoTTS dengan teknologi diphone concatenation, suatu teknik
membangkitkan ucapan dengan cara menyambung-nyambung diphone yang direkam dari
ucapan manusia. Diphone adalah dua fonem berurutan, dari 35 fonem akan tercipta
1.296 diphone termasuk diphone "silence" untuk awal dan akhir kata.
Penentuan fonem saja belum cukup karena untuk keperluan perekaman masih dibutuhkan
informasi tentang durasi sebuah fonem yang pada umumnya diucapkan. Jika dipukul
rata, diperkirakan butuh waktu 70 milisecond untuk mengucapkan satu fonem. Selesai?
Belum, agar ucapan yang dihasilkan tidak kaku dan datar seperti robot, perlu
diketahui frekuensi suara untuk intonasi.
"Semua itu butuh riset, dan itu membuka wawasan saya bahwa dibutuhkan
kerjasama antar beberapa bidang ilmu dalam membangun teknologi baru. Dalam hal
ini, saya butuh data dari ilmu bahasa. Sayangnya saya tidak menemukan itu, bahkan
untuk data berapa lama pengucapan setiap fonem," ujar Arry.
Untuk identifikasi karakteristik kuantitatif bahasa Indonesia itu, Arry melibatkan
sejumlah mahasiswa untuk membantunya. Pada tahun 2000, berkat bantuan dana dari
sebuah perusahaan perbankan di Indonesia, Arry dapat membuat diphone database
bahasa Indonesia di salah satu universitas di Mons, Belgia.
Setelah semua tersedia, IndoTTS siap bekerja. Rangkaian huruf yang dimasukkan
akan diubah menjadi rangkaian fonem lengkap dengan durasi dan frekuensinya.
Data itu akan diumpankan ke modul Mbrola, metode speech synthesizer (penyusunan
ucapan) dengan menggunakan metode diphone buatan Belgia, yang kemudian akan
menyambung diphone sesuai database yang disediakan serta memanipulasi durasi
dan frekuensinya. Akhirnya, keluarlah ucapan dari IndoTTS yang berlogat Indonesia.
Suara yang dihasilkan IndoTTS adalah suara Arry yang direkam di Mons, Belgia.
"Kalau ada yang menginginkan suara itu diganti oleh suara Krisdayanti,
mari minta kesediaan Krisdayanti merekam ribuan diphone ke Belgia. Di sana alat-alatnya
lengkap," ujar Arry.
Sampai saat ini, Arry mengaku masih terpengaruh oleh film "Startrek".
Mimpinya untuk memiliki komputer yang bisa diajak bicara pun belum enyah dari
pikirannya. Untuk mewujudkan mimpi itu, dia memasang strategi melebarkan penelitian
ke bidang speech recognition --merupakan kebalikan dari TTS-- dan natural language
processing (NLP).
Arry optimis, teknologi yang terkait dengan itu akan berkembang
semakin cepat dalam 5 tahun ke depan. Jadi, 5 tahun lagi bisa memerankan sendiri
peran-peran dalam film "Startrek"? Arry hanya tersenyum, dan sambil
mengangguk-angguk mengatakan, "mudah-mudahan bisa". (Ifa/Erm/"PR")
***
-----------
sumber : HU. Pikiran Rakyat