Kapan Kecerdasan Buatan Mulai Menyuarakan Seri - Pandangan Alternatif

Daftar Isi:

Kapan Kecerdasan Buatan Mulai Menyuarakan Seri - Pandangan Alternatif
Kapan Kecerdasan Buatan Mulai Menyuarakan Seri - Pandangan Alternatif

Video: Kapan Kecerdasan Buatan Mulai Menyuarakan Seri - Pandangan Alternatif

Video: Kapan Kecerdasan Buatan Mulai Menyuarakan Seri - Pandangan Alternatif
Video: Artificial Intelligence: Inilah Hebatnya Kecerdasan Buatan 2024, April
Anonim

Penerbit Rusia sudah bereksperimen dengan mesin rekaman buku audio; di masa depan, kecerdasan buatan dapat dipercaya untuk menerjemahkan serial dan menyulihnya dengan suara aktor favorit mereka. Tentang fitur-fitur teknologi tersebut dan berapa lama waktu yang dibutuhkan untuk membuatnya.

Pidato lisan menjadi tertulis

Di YouTube, subtitle otomatis untuk video dibuat dengan pengenalan suara dan perangkat lunak terjemahan ucapan-ke-teks. Ini didasarkan pada jaringan saraf belajar mandiri. Opsi ini sudah berumur lebih dari sepuluh tahun, namun hasilnya masih jauh dari ideal. Lebih sering daripada tidak, Anda hanya bisa menangkap makna umum dari apa yang dikatakan. Apa kesulitannya?

Katakanlah, Andrey Filchenkov menjelaskan, kepala laboratorium Machine Learning di ITMO University, bahwa kami sedang membangun algoritme untuk pengenalan ucapan. Ini membutuhkan pelatihan jaringan saraf pada larik data yang besar.

Diperlukan ratusan, ribuan jam rekaman ucapan dan perbandingan yang benar dengan teks, termasuk menandai awal dan akhir frasa, mengubah lawan bicara, dan sebagainya. Ini disebut kandang. Semakin besar, semakin baik pelatihan jaringan sarafnya. Perusahaan yang sangat besar telah dibuat untuk bahasa Inggris, jadi pengenalan jauh lebih baik. Tetapi untuk bahasa Rusia atau, katakanlah, Spanyol, data jauh lebih sedikit, dan untuk banyak bahasa lain tidak ada data sama sekali.

“Dan hasilnya sesuai,” ilmuwan itu menyimpulkan.

“Selain itu, kami menilai makna sebuah kata, frase dalam sebuah film tidak hanya dari suara, intonasi aktor dan ekspresi wajahnya juga penting. Bagaimana Anda menafsirkan ini? - tambah Sergey Aksenov, profesor madya dari Departemen Teknologi Informasi dari Tomsk Polytechnic University.

Video promosi:

“Bagaimana menangani ciri-ciri bicara yang lancar? Artikulasi kabur, sketsa, interjections, jeda? Bagaimanapun, tergantung pada ini, artinya berubah, seperti dalam "Anda tidak dapat diampuni". Bagaimana cara mengajarkan mesin untuk menentukan di mana pembicara memiliki koma? Dan dalam puisi? " - Daftar Marina Bolsunovskaya, kepala laboratorium "Sistem pemrosesan data streaming industri" dari NTI SPbPU Center.

Proyek yang paling sukses, menurut ahli, berada di area yang sempit. Misalnya, sistem untuk mengenali ucapan profesional dokter menggunakan istilah medis, yang dikembangkan oleh grup perusahaan RTC, membantu dokter menyimpan riwayat medis.

“Di sini Anda dapat dengan jelas menguraikan bidang subjek dan menyoroti kata-kata kunci dalam pidato. Dokter secara khusus menekankan bagian tertentu dengan intonasi: keluhan pasien, diagnosis,”jelas Bolsunovskaya.

Masalah lain ditunjukkan oleh Mikhail Burtsev, kepala laboratorium sistem saraf dan pembelajaran mendalam di MIPT. Faktanya adalah sejauh ini mesin lebih berhasil dalam mengenali teks ketika satu orang berbicara daripada beberapa, seperti dalam film.

Terjemahan dengan konteks

Mari kita ambil video berbahasa Inggris, misalnya, potongan dari serial TV "Game of Thrones", dan aktifkan subtitel Rusia otomatis. Apa yang kita lihat kemungkinan besar akan membuat kita tertawa.

Cuplikan dari * Game of Thrones *
Cuplikan dari * Game of Thrones *

Cuplikan dari * Game of Thrones *.

Namun, dalam terjemahan mesin, teknologi telah mencapai kesuksesan yang mengesankan. Jadi, Google Terjemahan menerjemahkan teks dalam bahasa umum dengan cukup lumayan, seringkali hanya diperlukan pengeditan minimal.

Faktanya adalah bahwa penerjemah jaringan saraf juga dilatih pada sejumlah besar data awal yang diberi label dengan benar - korpus paralel, yang menunjukkan tampilan setiap frasa dalam bahasa asli dalam bahasa Rusia.

“Membangun gedung seperti itu sangat melelahkan, mahal dan memakan waktu, butuh berbulan-bulan dan bertahun-tahun. Untuk melatih jaringan saraf, kita membutuhkan teks sebesar Perpustakaan Alexandria. Modelnya universal, tetapi banyak tergantung pada bahasanya. Jika Anda memberikan banyak data, misalnya, dalam Avar, dan terjemahannya akan berkualitas tinggi, tetapi untuk Avar tidak ada jumlah data sebanyak itu,”kata Andrey Filchenkov.

“Terjemahan adalah produk terpisah yang terkait dengan aslinya, tetapi tidak sama dengan itu,” kata Ilya Mirin, direktur Sekolah Ekonomi Digital di Universitas Federal Timur Jauh. - Contoh tipikal adalah terjemahan film asing Dmitry Puchkov (Goblin) pada tahun 90-an. Hanya setelah pekerjaannya menjadi jelas apa yang terjadi di sana. Kami tidak dapat menemukan sesuatu yang memadai dari versi VHS. Sebagai alternatif, cobalah menerjemahkan ke dalam bahasa yang Anda kuasai dengan baik, sesuatu dari The Master dan Margarita. Misalnya, "dalam jubah hitam dengan lapisan berdarah". Mesin tidak bisa melakukan itu."

Jaringan saraf belajar dengan baik dari banyak contoh tipikal, tetapi film penuh dengan makna dan konotasi kompleks, lelucon yang tidak dapat diakses oleh mesin - tidak dapat membedakannya.

“Di setiap episode serial animasi Futurama ada referensi ke bioskop Amerika klasik - Casablanca, Roman Holiday dan sebagainya. Pada saat-saat seperti itu, untuk menangkap dan mengemas ulang makna bagi mereka yang belum menonton film-film ini, penerjemah perlu menemukan analogi yang dekat dari konteks Rusia. Terjemahan mesin yang salah bisa sangat mengecewakan pemirsa,”lanjut Mirin.

Menurutnya, kualitas mesin terjemahan mendekati 80 persen, selebihnya adalah kekhususan yang harus ditambah secara manual dengan melibatkan tenaga ahli. "Dan jika 20-30 persen frasa memerlukan koreksi manual, lalu apa gunanya terjemahan mesin?" - kata peneliti.

“Penerjemahan adalah tahap yang paling bermasalah,” Sergey Aksenov menyetujui. - Semuanya tergantung pada semantik dan konteks. Alat yang tersedia dapat digunakan untuk terjemahan dan mesin pengisi suara, misalnya kartun anak-anak dengan kosakata sederhana. Tetapi dengan interpretasi unit fraseologis, nama yang tepat, kata-kata yang merujuk pemirsa ke beberapa realitas budaya, kesulitan muncul."

Dalam film dan video, konteksnya selalu visual dan sering kali disertai dengan musik dan kebisingan. Kami berspekulasi dari gambar apa yang pahlawan itu bicarakan. Pidato berubah menjadi teks tanpa informasi ini, jadi terjemahannya sulit. Ini adalah situasi bagi penerjemah yang bekerja dengan subtitle teks tanpa melihat filmnya. Mereka seringkali salah. Terjemahan mesin adalah cerita yang sama.

AI menyuarakan pidato

Untuk menyulih suara seri yang diterjemahkan ke dalam bahasa Rusia, Anda memerlukan algoritme untuk menghasilkan ucapan alami dari teks - penyintesis. Mereka dibuat oleh banyak perusahaan IT, termasuk Microsoft, Amazon, Yandex, dan mereka melakukannya dengan cukup baik.

Menurut Andrey Filchenkov, beberapa tahun yang lalu, satu menit untuk mengisi suara sebuah synthesizer ucapan membutuhkan waktu beberapa jam, sekarang kecepatan pemrosesannya telah meningkat pesat. Tugas sintesis ucapan untuk beberapa area di mana dialog netral diperlukan diselesaikan dengan cukup baik.

Banyak yang sudah menerima begitu saja percakapan dengan robot di telepon, eksekusi perintah dari navigator mobil, dialog dengan Alice di mobil Yandex. Drive. Namun untuk serial TV dubbing, teknologi tersebut belumlah memadai.

“Masalahnya adalah emosi dan akting. Kami telah belajar untuk menjadikan mesin bersuara manusia, tetapi agar tetap terdengar sesuai dengan konteks dan menginspirasi kepercayaan masih jauh. Akting suara yang buruk dapat dengan mudah membunuh persepsi sebuah film,”kata Filchenkov.

Menurut Mikhail Burtsev, sintesis wicara cukup nyata. Namun, ini intensif secara komputasi dan tidak dapat dilakukan secara real time dengan harga yang wajar.

“Ada algoritma yang mensintesis ucapan yang mirip dengan suara aktor tertentu. Inilah timbre, cara berbicara, dan banyak lagi. Jadi aktor asing mana pun akan benar-benar berbicara bahasa Rusia,”prediksi Burtsev. Dia mengharapkan kemajuan nyata di tahun-tahun mendatang.

Sergei Aksenov memberikan waktu lima hingga sepuluh tahun untuk mengembangkan alat untuk menerjemahkan dan menyulih suara karya kompleks dari bahasa yang paling umum seperti bahasa Inggris. Ilmuwan mengutip contoh Skype, yang beberapa tahun lalu menunjukkan kemungkinan menyelenggarakan pelajaran online untuk anak sekolah yang berbicara bahasa yang berbeda. Tetapi meskipun demikian, sistemnya tidak akan ideal, ia harus terus belajar: mendapatkan kosakata, mempertimbangkan konteks budaya.

Direkomendasikan: