Fitur Text-to-Speech Google Terdengar Lebih Alami

Qonita Chairunnisa, Jurnalis · Sabtu 30 Desember 2017 07:30 WIB
https: img-z.okeinfo.net content 2017 12 29 207 1837554 fitur-text-to-speech-google-terdengar-lebih-alami-csjXTbppGn.jpg (Foto: Reuters)

JAKARTA - Google telah mencanangkan sistem text-to-speech baru dengan suara asisten AI yang terdengar jauh lebih alami seperti suara manusia. Alat yang disebut Tacotron 2, dilatih dengan contoh dialog manusia dan naskah transkrip agar bisa menghasilkan suara yang lebih realistis.

Sebuah demonstrasi sistemnya mengungkap bagaimana alat tersebut dapat dengan mudah membaca beberapa teks dengan keras tanpa melewatkan satu ketukan, termasuk ‘Peter Piper’ tongue-twister’. Namun, ia masih terkecoh dengan kata-kata sulit.

Para peneliti Google menjelaskan bahwa sistem text-to-speech (TTS) terbaru dapat berbicara sendiri berdasarkan yang dipelajari. Hal itu bertentangan dengan penggunaan input seperti linguistik yang rumit dan fitur akustik yang terlihat pada sistem TTS lainnya.

Baca juga: Google hingga Facebook Diizinkan Beroperasi di China, tapi...

Tacotron 2 meningkatkan usaha sebelumnya, termasuk Tacotron dan WaveNet. Tim tersebut mengatakan bahwa para pendengar telah menilainya sebanding dengan rekaman profesional.

Tacotron 2 menggunakan model sequence-to-sequence, yakni memetakan huruf ke fitur yang menyandikan audio. Prosesnya mencakup pengucapan, volume, kecepatan, dan intonasi.

Baca juga: Google Rekrut Engineer Apple Demi Chip Smartphone

Fitur tersebut diubah dalam bentuk gelombang 24 kHz. Sampel audio dari penelitian ini menunjukkan bagaimana Tacotron dapat berbicara dengan membaca teks tertentu.

Namun, sistem tersebut belum sempurna, masih terdapat beberapa kendala yang harus ditangani.

“Walaupun sampel kami terdengar bagus, masih ada beberapa masalah yang harus ditangani. Misalnya, sistem kami mengalami kesulitan dalam mengucapkan kata-kata rumit (seperti ‘decorum’ dan ‘merlot’), dan dalam kasus ekstrem bahkan bisa memunculkan suara-suara aneh,” kata tim peneliti dikutip dari Daily Mail, Jumat (29/12/2017).

Mereka juga menyampaikan, sistem tersebut belum bisa menghasilkan audio secara real time. Tim juga belum bisa mengendalikan suara, seperti mengarahkannya untuk terdengar bahagia atau sedih.

Proyek ini dibangun berdasarkan beberapa gagasan dari WaveNet, yang konon mampu menciptakan suara ucapan disintesis yang terdengar alami, dengan menganalisis gelombang suara dari vokal manusia. Tahun lalu, para peneliti DeepMind mengklaim bahwa proyek inovasi ini telah mengurangi separuh kesenjangan kualitas antara sistem komputer dan suara alami manusia.

(ahl)

Bagikan Artikel Ini

Cari Berita Lain Di Sini