Jaringan Saraf Diajarkan Untuk Menyalin Suara Manusia Dengan Hampir Sempurna - Pandangan Alternatif

Daftar Isi:

Jaringan Saraf Diajarkan Untuk Menyalin Suara Manusia Dengan Hampir Sempurna - Pandangan Alternatif
Jaringan Saraf Diajarkan Untuk Menyalin Suara Manusia Dengan Hampir Sempurna - Pandangan Alternatif

Video: Jaringan Saraf Diajarkan Untuk Menyalin Suara Manusia Dengan Hampir Sempurna - Pandangan Alternatif

Video: Jaringan Saraf Diajarkan Untuk Menyalin Suara Manusia Dengan Hampir Sempurna - Pandangan Alternatif
Video: Jaringan Saraf 2024, Maret
Anonim

Tahun lalu, perusahaan kecerdasan buatan DeepMind membagikan detail tentang proyek barunya WaveNet, jaringan saraf pembelajaran mendalam yang digunakan untuk mensintesis ucapan manusia yang realistis. Baru-baru ini, versi perbaikan dari teknologi ini dirilis, yang akan digunakan sebagai dasar asisten seluler digital Google Assistant.

Sistem sintesis suara (juga dikenal sebagai fungsi teks-ke-ucapan, TTS) biasanya dibangun dengan salah satu dari dua metode dasar. Metode concatenative (atau kompilasi) melibatkan konstruksi frasa dengan mengumpulkan potongan kata-kata yang direkam dan bagian-bagian yang direkam sebelumnya dengan keterlibatan pengisi suara. Kerugian utama dari metode ini adalah kebutuhan untuk secara konstan mengganti pustaka suara setiap kali ada pembaruan atau perubahan yang dilakukan.

Metode lain disebut parametrik TTS, dan fiturnya adalah penggunaan set parameter yang digunakan komputer untuk menghasilkan frase yang diinginkan. Kerugian dari metode ini adalah hasil yang paling sering memanifestasikan dirinya dalam bentuk suara yang tidak realistis atau yang disebut robotik.

WaveNet, di sisi lain, menghasilkan gelombang suara dari awal menggunakan sistem jaringan saraf konvolusional di mana suara dihasilkan dalam beberapa lapisan. Pertama, untuk melatih platform untuk mensintesis ucapan "langsung", platform tersebut "diberi" sejumlah besar sampel, sambil memperhatikan sinyal suara mana yang terdengar realistis dan mana yang tidak. Ini memberi penyintesis suara kemampuan untuk mereproduksi intonasi naturalistik dan bahkan detail seperti bibir yang berdesir. Bergantung pada contoh ucapan mana yang dijalankan melalui sistem, ini memungkinkannya mengembangkan "aksen" unik, yang dalam jangka panjang dapat digunakan untuk menciptakan banyak suara yang berbeda.

Tajam di lidah

Mungkin batasan terbesar dari sistem WaveNet adalah bahwa ia membutuhkan sejumlah besar daya komputasi untuk dijalankan, dan bahkan ketika kondisi ini terpenuhi, kecepatannya tidak berbeda. Misalnya, butuh waktu sekitar 1 detik untuk menghasilkan suara 0,02 detik.

Setelah setahun bekerja, para insinyur DeepMind masih menemukan cara untuk meningkatkan dan mengoptimalkan sistem sehingga sekarang mampu menghasilkan suara mentah satu detik hanya dalam 50 milidetik, yang 1000 kali lebih cepat dari kemampuan aslinya. Selain itu, para spesialis berhasil meningkatkan laju pengambilan sampel audio dari 8-bit menjadi 16-bit, yang berdampak positif pada pengujian yang melibatkan pendengar. Keberhasilan ini telah membuka jalan bagi WaveNet untuk berintegrasi ke dalam produk konsumen seperti Asisten Google.

Video promosi:

Saat ini WaveNet dapat digunakan untuk menghasilkan suara bahasa Inggris dan Jepang melalui Google Assistant dan semua platform yang menggunakan asisten digital ini. Karena sistem dapat membuat jenis suara khusus, bergantung pada kumpulan sampel yang diberikan untuk pelatihan, dalam waktu dekat Google kemungkinan besar akan menerapkan dukungan untuk mensintesis ucapan realistis di WaveNet dalam bahasa lain, termasuk mempertimbangkannya. dialek lokal.

Antarmuka ucapan menjadi semakin umum di berbagai platform, tetapi sifat suaranya yang tidak wajar membuat banyak calon pengguna tidak dapat melihatnya. Upaya DeepMind untuk meningkatkan teknologi ini tentunya akan berkontribusi pada adopsi yang lebih luas dari sistem suara tersebut, serta meningkatkan pengalaman pengguna dari penggunaannya.

Contoh ucapan sintesis bahasa Inggris dan Jepang menggunakan jaringan saraf WaveNet dapat ditemukan dengan mengikuti tautan ini.

Nikolay Khizhnyak

Direkomendasikan: