Kapan Kecerdasan Buatan Mulai Menyuarakan Seri - Pandangan Alternatif

Video: Kapan Kecerdasan Buatan Mulai Menyuarakan Seri - Pandangan Alternatif

Video: Artificial Intelligence: Inilah Hebatnya Kecerdasan Buatan 2024, April

2024 Pengarang: Keith Bush | [email protected]. Terakhir diubah: 2023-12-16 14:25

Penerbit Rusia sudah bereksperimen dengan mesin rekaman buku audio; di masa depan, kecerdasan buatan dapat dipercaya untuk menerjemahkan serial dan menyulihnya dengan suara aktor favorit mereka. Tentang fitur-fitur teknologi tersebut dan berapa lama waktu yang dibutuhkan untuk membuatnya.

Pidato lisan menjadi tertulis

Di YouTube, subtitle otomatis untuk video dibuat dengan pengenalan suara dan perangkat lunak terjemahan ucapan-ke-teks. Ini didasarkan pada jaringan saraf belajar mandiri. Opsi ini sudah berumur lebih dari sepuluh tahun, namun hasilnya masih jauh dari ideal. Lebih sering daripada tidak, Anda hanya bisa menangkap makna umum dari apa yang dikatakan. Apa kesulitannya?

Katakanlah, Andrey Filchenkov menjelaskan, kepala laboratorium Machine Learning di ITMO University, bahwa kami sedang membangun algoritme untuk pengenalan ucapan. Ini membutuhkan pelatihan jaringan saraf pada larik data yang besar.

Diperlukan ratusan, ribuan jam rekaman ucapan dan perbandingan yang benar dengan teks, termasuk menandai awal dan akhir frasa, mengubah lawan bicara, dan sebagainya. Ini disebut kandang. Semakin besar, semakin baik pelatihan jaringan sarafnya. Perusahaan yang sangat besar telah dibuat untuk bahasa Inggris, jadi pengenalan jauh lebih baik. Tetapi untuk bahasa Rusia atau, katakanlah, Spanyol, data jauh lebih sedikit, dan untuk banyak bahasa lain tidak ada data sama sekali.

“Dan hasilnya sesuai,” ilmuwan itu menyimpulkan.

“Selain itu, kami menilai makna sebuah kata, frase dalam sebuah film tidak hanya dari suara, intonasi aktor dan ekspresi wajahnya juga penting. Bagaimana Anda menafsirkan ini? - tambah Sergey Aksenov, profesor madya dari Departemen Teknologi Informasi dari Tomsk Polytechnic University.

Video promosi:

“Bagaimana menangani ciri-ciri bicara yang lancar? Artikulasi kabur, sketsa, interjections, jeda? Bagaimanapun, tergantung pada ini, artinya berubah, seperti dalam "Anda tidak dapat diampuni". Bagaimana cara mengajarkan mesin untuk menentukan di mana pembicara memiliki koma? Dan dalam puisi? " - Daftar Marina Bolsunovskaya, kepala laboratorium "Sistem pemrosesan data streaming industri" dari NTI SPbPU Center.

Proyek yang paling sukses, menurut ahli, berada di area yang sempit. Misalnya, sistem untuk mengenali ucapan profesional dokter menggunakan istilah medis, yang dikembangkan oleh grup perusahaan RTC, membantu dokter menyimpan riwayat medis.

“Di sini Anda dapat dengan jelas menguraikan bidang subjek dan menyoroti kata-kata kunci dalam pidato. Dokter secara khusus menekankan bagian tertentu dengan intonasi: keluhan pasien, diagnosis,”jelas Bolsunovskaya.

Masalah lain ditunjukkan oleh Mikhail Burtsev, kepala laboratorium sistem saraf dan pembelajaran mendalam di MIPT. Faktanya adalah sejauh ini mesin lebih berhasil dalam mengenali teks ketika satu orang berbicara daripada beberapa, seperti dalam film.

Terjemahan dengan konteks

Mari kita ambil video berbahasa Inggris, misalnya, potongan dari serial TV "Game of Thrones", dan aktifkan subtitel Rusia otomatis. Apa yang kita lihat kemungkinan besar akan membuat kita tertawa.

Cuplikan dari * Game of Thrones *.

Namun, dalam terjemahan mesin, teknologi telah mencapai kesuksesan yang mengesankan. Jadi, Google Terjemahan menerjemahkan teks dalam bahasa umum dengan cukup lumayan, seringkali hanya diperlukan pengeditan minimal.

Faktanya adalah bahwa penerjemah jaringan saraf juga dilatih pada sejumlah besar data awal yang diberi label dengan benar - korpus paralel, yang menunjukkan tampilan setiap frasa dalam bahasa asli dalam bahasa Rusia.

“Membangun gedung seperti itu sangat melelahkan, mahal dan memakan waktu, butuh berbulan-bulan dan bertahun-tahun. Untuk melatih jaringan saraf, kita membutuhkan teks sebesar Perpustakaan Alexandria. Modelnya universal, tetapi banyak tergantung pada bahasanya. Jika Anda memberikan banyak data, misalnya, dalam Avar, dan terjemahannya akan berkualitas tinggi, tetapi untuk Avar tidak ada jumlah data sebanyak itu,”kata Andrey Filchenkov.

“Terjemahan adalah produk terpisah yang terkait dengan aslinya, tetapi tidak sama dengan itu,” kata Ilya Mirin, direktur Sekolah Ekonomi Digital di Universitas Federal Timur Jauh. - Contoh tipikal adalah terjemahan film asing Dmitry Puchkov (Goblin) pada tahun 90-an. Hanya setelah pekerjaannya menjadi jelas apa yang terjadi di sana. Kami tidak dapat menemukan sesuatu yang memadai dari versi VHS. Sebagai alternatif, cobalah menerjemahkan ke dalam bahasa yang Anda kuasai dengan baik, sesuatu dari The Master dan Margarita. Misalnya, "dalam jubah hitam dengan lapisan berdarah". Mesin tidak bisa melakukan itu."

Jaringan saraf belajar dengan baik dari banyak contoh tipikal, tetapi film penuh dengan makna dan konotasi kompleks, lelucon yang tidak dapat diakses oleh mesin - tidak dapat membedakannya.

“Di setiap episode serial animasi Futurama ada referensi ke bioskop Amerika klasik - Casablanca, Roman Holiday dan sebagainya. Pada saat-saat seperti itu, untuk menangkap dan mengemas ulang makna bagi mereka yang belum menonton film-film ini, penerjemah perlu menemukan analogi yang dekat dari konteks Rusia. Terjemahan mesin yang salah bisa sangat mengecewakan pemirsa,”lanjut Mirin.

Menurutnya, kualitas mesin terjemahan mendekati 80 persen, selebihnya adalah kekhususan yang harus ditambah secara manual dengan melibatkan tenaga ahli. "Dan jika 20-30 persen frasa memerlukan koreksi manual, lalu apa gunanya terjemahan mesin?" - kata peneliti.

“Penerjemahan adalah tahap yang paling bermasalah,” Sergey Aksenov menyetujui. - Semuanya tergantung pada semantik dan konteks. Alat yang tersedia dapat digunakan untuk terjemahan dan mesin pengisi suara, misalnya kartun anak-anak dengan kosakata sederhana. Tetapi dengan interpretasi unit fraseologis, nama yang tepat, kata-kata yang merujuk pemirsa ke beberapa realitas budaya, kesulitan muncul."

Dalam film dan video, konteksnya selalu visual dan sering kali disertai dengan musik dan kebisingan. Kami berspekulasi dari gambar apa yang pahlawan itu bicarakan. Pidato berubah menjadi teks tanpa informasi ini, jadi terjemahannya sulit. Ini adalah situasi bagi penerjemah yang bekerja dengan subtitle teks tanpa melihat filmnya. Mereka seringkali salah. Terjemahan mesin adalah cerita yang sama.

AI menyuarakan pidato

Untuk menyulih suara seri yang diterjemahkan ke dalam bahasa Rusia, Anda memerlukan algoritme untuk menghasilkan ucapan alami dari teks - penyintesis. Mereka dibuat oleh banyak perusahaan IT, termasuk Microsoft, Amazon, Yandex, dan mereka melakukannya dengan cukup baik.

Menurut Andrey Filchenkov, beberapa tahun yang lalu, satu menit untuk mengisi suara sebuah synthesizer ucapan membutuhkan waktu beberapa jam, sekarang kecepatan pemrosesannya telah meningkat pesat. Tugas sintesis ucapan untuk beberapa area di mana dialog netral diperlukan diselesaikan dengan cukup baik.

Banyak yang sudah menerima begitu saja percakapan dengan robot di telepon, eksekusi perintah dari navigator mobil, dialog dengan Alice di mobil Yandex. Drive. Namun untuk serial TV dubbing, teknologi tersebut belumlah memadai.

“Masalahnya adalah emosi dan akting. Kami telah belajar untuk menjadikan mesin bersuara manusia, tetapi agar tetap terdengar sesuai dengan konteks dan menginspirasi kepercayaan masih jauh. Akting suara yang buruk dapat dengan mudah membunuh persepsi sebuah film,”kata Filchenkov.

Menurut Mikhail Burtsev, sintesis wicara cukup nyata. Namun, ini intensif secara komputasi dan tidak dapat dilakukan secara real time dengan harga yang wajar.

“Ada algoritma yang mensintesis ucapan yang mirip dengan suara aktor tertentu. Inilah timbre, cara berbicara, dan banyak lagi. Jadi aktor asing mana pun akan benar-benar berbicara bahasa Rusia,”prediksi Burtsev. Dia mengharapkan kemajuan nyata di tahun-tahun mendatang.

Sergei Aksenov memberikan waktu lima hingga sepuluh tahun untuk mengembangkan alat untuk menerjemahkan dan menyulih suara karya kompleks dari bahasa yang paling umum seperti bahasa Inggris. Ilmuwan mengutip contoh Skype, yang beberapa tahun lalu menunjukkan kemungkinan menyelenggarakan pelajaran online untuk anak sekolah yang berbicara bahasa yang berbeda. Tetapi meskipun demikian, sistemnya tidak akan ideal, ia harus terus belajar: mendapatkan kosakata, mempertimbangkan konteks budaya.

Direkomendasikan:

Notre Dame De Paris Membakar &Ldquo; Viking &Rdquo;, &Ldquo; Yunani Kuno &Rdquo; Dan Secara Umum Keseluruhan &Ldquo; Kronologi "resmi - Tampilan Alternatif

Sepanjang abad ke-19 dan ke-20, kepala semua orang waras di dunia, termasuk sejarawan resmi yang mengajar di universitas, tersiksa oleh pemikiran yang menghujat dan liar: bagaimana orang Mesir kuno berhasil membangun piramida di Giza? Banyak megalit kuno lainnya mengajukan pertanyaan serupa, karena teori tim gajah dan kerumunan budak tidak berhasil

Siapa Yang Membangun Seperti Itu ?! Siapa Yang Membangun Seperti Itu !!! "Atau Teka-teki Rumah Yang Terkubur .. - Pemandangan Alternatif

Pemikiran tentang topik lantai pertama bangunan yang terisi.Jadi, selama berhari-hari, saya berjalan melewati satu rumah terkenal di kota kami.- Salik.bizOh! sungguh pria yang tampan! Lantai yang simetris!nKeajaiban ini didirikan oleh arsitek Afanasy Grigorievich Grigoriev - selanjutnya kutipan dari wiki - "Arsitek terkemuka gaya Kekaisaran Moskow

Pembangkit Listrik Tenaga Gelombang Pelamis P-750 Atau "ular Laut" Pemandangan Alternatif

Raksasa ular logam menaklukkan energi lautan dan samudra dengan izin manusia. Kedengarannya seperti dongeng, bukan? Gelombang samudra dan lautan menghasilkan banyak energi

"Chess Turk" Oleh Wolfgang Von Kempelen - Pemandangan Alternatif

Pada 1770, mekanisme catur pertama dibuat oleh insinyur Hongaria Wolfgang von Kempelen. Perangkat berbentuk orang Turki yang duduk ini menjadi mesin catur paling terkenal dalam sejarah umat manusia.Seperti apa "catur Turki" itu? Terdiri dari kotak kayu setinggi 1 meter dengan papan catur besar di atasnya

Kisah Dramatis "anak Yatim" Dari Titanic - Michel Dan Edmond Navratil - Pemandangan Alternatif

Pada malam tanggal 15 April 1912, Michelle yang berusia tiga tahun dan Edmond yang berusia dua tahun menaiki kapal terakhir yang berangkat dari Titanic yang hancur. Tetapi fakta bahwa mereka meninggalkan kapal yang hilang belum mengakhiri cerita mereka dengan bahagia

Kapan Kecerdasan Buatan Mulai Menyuarakan Seri - Pandangan Alternatif

Daftar Isi:

Video: Kapan Kecerdasan Buatan Mulai Menyuarakan Seri - Pandangan Alternatif

Pidato lisan menjadi tertulis

Terjemahan dengan konteks

AI menyuarakan pidato

Direkomendasikan:

Notre Dame De Paris Membakar &Ldquo; Viking &Rdquo;, &Ldquo; Yunani Kuno &Rdquo; Dan Secara Umum Keseluruhan &Ldquo; Kronologi "resmi - Tampilan Alternatif

Siapa Yang Membangun Seperti Itu ?! Siapa Yang Membangun Seperti Itu !!! "Atau Teka-teki Rumah Yang Terkubur .. - Pemandangan Alternatif

Pembangkit Listrik Tenaga Gelombang Pelamis P-750 Atau "ular Laut" Pemandangan Alternatif

"Chess Turk" Oleh Wolfgang Von Kempelen - Pemandangan Alternatif

Kisah Dramatis "anak Yatim" Dari Titanic - Michel Dan Edmond Navratil - Pemandangan Alternatif

Pesawat Menghilang Di Death Caravan - Pandangan Alternatif

Nama "terkutuk" Yang Tidak Boleh Diberikan Ke Kapal - Pandangan Alternatif

Pesawat Amelia Earhart Yang Hilang: Pencarian Berlanjut - Pandangan Alternatif

Pesan Misterius Tentang "Bukan Orang" Akan Mengungkap Rahasia Hilangnya Boeing Malaysia? - Pandangan Alternatif

Jatuhnya Boeing Malaysia Yang Hilang Itu Disengaja - Pandangan Alternatif

Menemukan Taman Kuno Eden? - Pandangan Alternatif

Rekaman UFO Yang Menakjubkan Diambil Oleh Wisatawan Di Seluruh Dunia - Pandangan Alternatif

Teknologi Yang Terlupakan (lanjutan) - Pandangan Alternatif

Chrysler TV-8 - Tangki Nuklir Terapung - Pandangan Alternatif

Tu-144: Mengapa "Concorde Rusia" Berhenti Terbang - Pandangan Alternatif

Pemalsuan Ilmu - Sama Lumrahnya Dengan Memalsukan Sejarah - Pandangan Alternatif

Lingkaran Muncul Di Dekat Kota Carmen D'Areco - Pandangan Alternatif

Pemalsuan Sejarah Global. Bagian Satu - Pandangan Alternatif

"Penemuan Keajaiban" Yang Tidak Ada. TOP-10 - Pandangan Alternatif

Shroud Of Turin - Asli? - Pandangan Alternatif