Share

Teknologi AI Kini Lebih Pintar dari Manusia untuk Baca Gerak Bibir

Tangguh Yudha, Jurnalis · Sabtu 01 Oktober 2022 08:36 WIB
https: img.okezone.com content 2022 10 01 56 2678609 teknologi-ai-kini-lebih-pintar-dari-manusia-untuk-baca-gerak-bibir-de78SxxKlt.jpg Teknologi AI kini lebih pintar dari manusia untuk baca gerak bibir (Foto: iStock)

JAKARTA - Kemampuan membaca gerak bibir temasuk hal yang sulit dilakukan. Berdasarkan studi University of Oklahoma pada tahun 2009 saja, kebanyakan orang hanya mampu melakukannya dengan tingkat akurasi 20%.

Menurut CDC's Hearing Loss in Children Parent's Guide, pembaca pidato terbaik pun hanya dapat melihat 4 hingga 5 kata dari kalimat 12 kata.

Namun, seperti dilansir dari Engadget, Sabtu (1/10/2022), berbeda dengan manusia, teknologi kecerdasan buatan (AI) disebut sudah lebih pintar dalam melakukan hal ini.

Dengan sistem tercanggih masa kini, akurasi AI dalam membaca gerak bibir sudah menyentuh angka 95% dalam membaca kata tingkat kalimat. Dan diprediksi kemampuan ini akan terus meningkat.

Artinya, bukan tidak mungkin tugas-tugas membaca gerak bibir atau bahkan identifikasi biometrik akan mulai ditangani oleh sistem AI meskipun kemampuan membaca bibir manusia dengan AI sebenarnya berbeda.

Tujuan membaca bibir oleh AI adalah untuk mengubah informasi visual menjadi kata-kata. Sedangkan, tujuan membaca bibir oleh manusia untuk memahami setiap ucapan.

Kendala utama agar AI memiliki kemampuan membaca gerak bibir yang sempurna hanya sebatas di kurangnya database yang standar dan praktis.

Menurut seorang peneliti dari Xinjiang University, Mingfeng Hao, ukuran dan kualitas database menentukan efek pelatihan dari model ini, database yang sempurna juga akan mendorong penemuan dan solusi dari masalah yang semakin kompleks dan sulit dalam tugas membaca gerak bibir.

Hambatan lain dapat mencakup faktor lingkungan seperti pencahayaan yang buruk dan latar belakang yang bergeser yang dapat mengacaukan sistem penglihatan mesin.

Sebagai contoh, perbedaan karena warna kulit pembicara, sudut rotasi kepala mereka yang menggeser sudut pandang dari mulut dan kehadiran kerutan serta jenggot yang mengganggu.

"Sementara lipreading sering kali perlu mengekstrak fitur yang terkait dengan konten ucapan dari satu gambar dan menganalisis hubungan waktu antara seluruh urutan gambar untuk menyimpulkan konten. Ini adalah kendala yang membutuhkan kemampuan pemrosesan bahasa alami dan penglihatan mesin," ungkapnya.

Saat ini, pengenalan suara hadir dalam tiga model, tergantung pada sumber inputnya.

Dalam kasus ini, berada di bawah penelitian Visual Speech Recognition (VSR), yaitu hanya menggunakan sarana visual untuk memahami apa yang disampaikan.

Teknologi ini berbanding terbalik dengan Automated Speech Recognition (ASR) yang sepenuhnya mengandalkan audio.

“Pengenalan ucapan visual VSR masih pada tahap eksploitasi yang relatif awal dan sistem akan terus matang. Ini dapat menggunakan kedua mode informasi untuk membantu mengatasi kekurangan yang lain. Di masa depan pasti akan ada sistem yang menggunakan isyarat tambahan untuk mendukung pemahaman," ujar Fabian Campbell-West, CTO pengembang aplikasi pembaca bibir, Liopa.

Lebih lanjut, Campbell mengatakan bahwa masa depan VSR bisa sangat mirip dengan masa lalu ASR meskipun ada banyak hambatan untuk adopsi VSR, seperti halnya ASR selama pengembangannya selama beberapa dekade terakhir.

Ia pun mengaku bersemangat untuk menyempurnakan kemampuan ini untuk generasi masa depan.

“Saya membayangkan sistem subtitle real-time sehingga Anda bisa mendapatkan subtitle langsung di kacamata Anda saat berbicara dengan seseorang. Bagi siapa pun yang memiliki gangguan pendengaran, ini bisa menjadi aplikasi yang mengubah hidup, tetapi bahkan untuk penggunaan umum di lingkungan yang bising, ini bisa berguna," ungkapnya.

1
2

Berita Terkait

Bagikan Artikel Ini

Cari Berita Lain Di Sini