Jaringan Saraf Diajarkan Untuk "menganimasikan" Potret Hanya Berdasarkan Satu Gambar Statis - Pandangan Alternatif

Jaringan Saraf Diajarkan Untuk "menganimasikan" Potret Hanya Berdasarkan Satu Gambar Statis - Pandangan Alternatif
Jaringan Saraf Diajarkan Untuk "menganimasikan" Potret Hanya Berdasarkan Satu Gambar Statis - Pandangan Alternatif

Video: Jaringan Saraf Diajarkan Untuk "menganimasikan" Potret Hanya Berdasarkan Satu Gambar Statis - Pandangan Alternatif

Video: Jaringan Saraf Diajarkan Untuk
Video: Membuat Deepfakes: Menganimasikan Gambar dengan AI 2024, Mungkin
Anonim

Spesialis Rusia dari Samsung AI Center-Moscow Center for Artificial Intelligence, bekerja sama dengan para insinyur dari Institut Sains dan Teknologi Skolkovo, telah mengembangkan sistem yang mampu membuat gambar animasi realistis dari wajah manusia hanya berdasarkan beberapa bingkai statis manusia. Biasanya, dalam hal ini, penggunaan database gambar yang besar diperlukan, namun, dalam contoh yang disajikan oleh pengembang, sistem dilatih untuk membuat gambar animasi wajah manusia hanya dari delapan frame statis, dan dalam beberapa kasus satu sudah cukup. Untuk detail lebih lanjut tentang pengembangan, lihat artikel yang diterbitkan di repositori online ArXiv.org.

Image
Image

Biasanya, agak sulit untuk mereproduksi modul fotorealistik yang dipersonalisasi dari wajah manusia karena kompleksitas fotometrik, geometris, dan kinematik yang tinggi dalam mereproduksi kepala manusia. Ini dijelaskan tidak hanya oleh kompleksitas pemodelan wajah secara keseluruhan (untuk ini ada banyak pendekatan untuk pemodelan), tetapi juga oleh kompleksitas pemodelan fitur-fitur tertentu: rongga mulut, rambut, dan sebagainya. Faktor rumit kedua adalah kecenderungan kita untuk menangkap bahkan kekurangan kecil dalam model akhir kepala manusia. Toleransi rendah untuk kesalahan pemodelan ini menjelaskan prevalensi saat ini dari avatar non-fotorealistik yang digunakan dalam telekonferensi.

Menurut penulis, sistem tersebut, yang disebut pembelajaran Fewshot, mampu menciptakan model yang sangat realistis dari kepala orang yang berbicara dan bahkan lukisan potret. Algoritme tersebut mensintesis gambar kepala orang yang sama dengan garis referensi wajah yang diambil dari fragmen video lain, atau menggunakan titik referensi wajah orang lain. Sebagai sumber materi untuk pelatihan sistem, para pengembang menggunakan database gambar video selebriti yang ekstensif. Untuk mendapatkan kepala bicara seakurat mungkin, sistem perlu menggunakan lebih dari 32 gambar.

Untuk membuat gambar wajah animasi yang lebih realistis, pengembang menggunakan pengembangan sebelumnya dalam pemodelan adversarial generatif (GAN, di mana jaringan saraf memikirkan detail gambar, menjadi seorang seniman), serta pendekatan pembelajaran meta mesin, di mana setiap elemen sistem dilatih dan dirancang untuk menyelesaikan beberapa tugas spesifik.

Skema pembelajaran meta
Skema pembelajaran meta

Skema pembelajaran meta.

Image
Image
Image
Image

Video promosi:

Tiga jaringan saraf digunakan untuk memproses gambar statis kepala orang dan mengubahnya menjadi animasi: Embedder (jaringan implementasi), Generator (jaringan pembangkitan) dan Diskriminator (jaringan diskriminator). Partisi pertama gambar kepala (dengan perkiraan landmark wajah) menjadi vektor embedding, yang berisi informasi yang tidak bergantung pada pose, jaringan kedua menggunakan landmark wajah yang diperoleh dari jaringan embedding dan menghasilkan data baru berdasarkan gambar tersebut melalui serangkaian lapisan konvolusional yang memberikan ketahanan terhadap perubahan skala, perpindahan, belokan, perubahan sudut dan distorsi lain dari gambar wajah asli. Diskriminator jaringan digunakan untuk menilai kualitas dan keaslian dari dua jaringan lainnya. Hasilnya, sistem mengubah landmark wajah seseorang menjadi foto hasil personalisasi yang tampak realistis.

Image
Image
Image
Image

Pengembang menekankan bahwa sistem mereka mampu menginisialisasi parameter jaringan generator dan jaringan diskriminator secara individual untuk setiap orang dalam gambar, sehingga proses pembelajaran dapat didasarkan hanya pada beberapa gambar, yang meningkatkan kecepatannya, meskipun perlu memilih puluhan juta parameter.

Nikolay Khizhnyak

Direkomendasikan: