Serangan Permusuhan: Mengapa Jaringan Saraf Mudah Ditipu? - Pandangan Alternatif

Daftar Isi:

Serangan Permusuhan: Mengapa Jaringan Saraf Mudah Ditipu? - Pandangan Alternatif
Serangan Permusuhan: Mengapa Jaringan Saraf Mudah Ditipu? - Pandangan Alternatif

Video: Serangan Permusuhan: Mengapa Jaringan Saraf Mudah Ditipu? - Pandangan Alternatif

Video: Serangan Permusuhan: Mengapa Jaringan Saraf Mudah Ditipu? - Pandangan Alternatif
Video: jaringan hewan jaringan saraf 2024, Mungkin
Anonim

Dalam beberapa tahun terakhir, ketika sistem pembelajaran mendalam menjadi lebih umum, para ilmuwan telah menunjukkan bagaimana pola permusuhan dapat memengaruhi apa pun dari pengklasifikasi gambar sederhana hingga sistem diagnostik kanker - dan bahkan menciptakan situasi yang mengancam jiwa. Terlepas dari semua bahaya mereka, bagaimanapun, contoh permusuhan kurang dipahami. Dan para ilmuwan khawatir: dapatkah masalah ini diselesaikan?

Apa itu serangan permusuhan? Ini adalah cara untuk mengelabui jaringan saraf agar menghasilkan hasil yang salah. Mereka terutama digunakan dalam penelitian ilmiah untuk menguji ketahanan model terhadap data non-standar. Namun dalam kehidupan nyata, sebagai contoh, Anda dapat mengubah beberapa piksel pada gambar panda sehingga jaringan saraf akan memastikan bahwa ada owa dalam gambar tersebut. Meski para ilmuwan hanya menambahkan "noise" pada gambar.

Serangan musuh: bagaimana cara mengelabui jaringan saraf?

Pekerjaan baru dari Massachusetts Institute of Technology menunjukkan cara yang mungkin untuk mengatasi masalah ini. Dengan menyelesaikannya, kita dapat membuat model pembelajaran mendalam yang jauh lebih andal yang akan jauh lebih sulit untuk dimanipulasi dengan cara yang jahat. Tapi mari kita lihat dasar-dasar pola permusuhan terlebih dahulu.

Seperti yang Anda ketahui, kekuatan pembelajaran mendalam berasal dari kemampuannya yang superior untuk mengenali pola (pola, pola, diagram, pola) dalam data. Memberi makan jaringan saraf puluhan ribu foto hewan yang diberi tag, dan mempelajari pola mana yang terkait dengan panda dan mana yang terkait dengan monyet. Dia kemudian dapat menggunakan pola ini untuk mengenali gambar baru hewan yang belum pernah dia lihat sebelumnya.

Namun model pembelajaran yang mendalam juga sangat rapuh. Karena sistem pengenalan gambar hanya mengandalkan pola piksel dan bukan pada pemahaman yang lebih konseptual tentang apa yang dilihatnya, mudah untuk mengelabui agar melihat sesuatu yang sama sekali berbeda - cukup dengan memecahkan pola dengan cara tertentu. Contoh klasik: Tambahkan beberapa noise ke gambar panda dan sistem mengklasifikasikannya sebagai owa dengan kepastian hampir 100 persen. Suara ini akan menjadi serangan musuh.

Image
Image

Video promosi:

Selama beberapa tahun, para ilmuwan telah mengamati fenomena ini, terutama dalam sistem penglihatan komputer, tanpa benar-benar mengetahui bagaimana cara menghilangkan kerentanan tersebut. Faktanya, pekerjaan yang dipresentasikan minggu lalu di konferensi besar tentang penelitian kecerdasan buatan - ICLR - mempertanyakan keniscayaan serangan permusuhan. Tampaknya tidak peduli berapa banyak gambar panda yang Anda masukkan ke pengklasifikasi gambar, akan selalu ada semacam kemarahan yang membuat Anda merusak sistem.

Tetapi pekerjaan baru dari MIT menunjukkan bahwa kami berpikir secara salah tentang serangan musuh. Alih-alih menemukan cara untuk mengumpulkan lebih banyak data berkualitas yang memberi makan sistem, kami perlu memikirkan kembali pendekatan kami untuk melatihnya.

Karya ini mendemonstrasikan hal ini dengan mengungkapkan properti yang cukup menarik dari contoh permusuhan yang membantu kita memahami mengapa mereka efektif. Apa triknya: noise atau stiker yang tampaknya acak yang membingungkan jaringan saraf, pada kenyataannya, menggunakan pola yang sangat tajam dan halus yang telah dipelajari oleh sistem visualisasi untuk dikaitkan dengan kuat dengan objek tertentu. Dengan kata lain, mesin tidak akan crash saat kita melihat owa di mana kita melihat panda. Nyatanya, dia melihat susunan piksel yang teratur, tidak terlihat oleh manusia, yang muncul lebih sering pada gambar dengan owa daripada pada gambar dengan panda selama pelatihan.

Para ilmuwan telah mendemonstrasikan hal ini melalui eksperimen: mereka membuat kumpulan data gambar anjing, yang semuanya diubah sedemikian rupa sehingga pengklasifikasi gambar standar secara keliru mengidentifikasi mereka sebagai kucing. Mereka kemudian menandai gambar ini dengan "kucing" dan menggunakannya untuk melatih jaringan saraf baru dari awal. Setelah pelatihan, mereka menunjukkan jaringan saraf gambar nyata dari kucing, dan dia dengan benar mengidentifikasi mereka semua sebagai kucing.

Para peneliti berhipotesis bahwa ada dua jenis korelasi dalam setiap dataset: pola yang benar-benar berkorelasi dengan makna data, seperti kumis pada gambar kucing atau pewarnaan bulu pada gambar panda, dan pola yang ada pada data latih tetapi tidak disebarkan. ke konteks lain. Korelasi "menyesatkan" terakhir ini, sebut saja begitu, digunakan dalam serangan permusuhan. Sebuah sistem pengenalan, dilatih untuk mengenali pola-pola yang "menyesatkan", menemukannya dan mengira ia melihat seekor monyet.

Ini memberitahu kita bahwa jika kita ingin menghilangkan risiko serangan musuh, kita perlu mengubah cara kita melatih model kita. Saat ini kami mengizinkan jaringan saraf untuk memilih korelasi yang ingin digunakannya untuk mengidentifikasi objek dalam gambar. Akibatnya, kami tidak memiliki kendali atas korelasi yang ditemukannya, apakah itu nyata atau menyesatkan. Sebaliknya, jika kami melatih model kami untuk mengingat hanya pola nyata - yang terkait dengan piksel bermakna - secara teori, dimungkinkan untuk menghasilkan sistem pembelajaran mendalam yang tidak dapat disalahartikan.

Ketika para ilmuwan menguji ide ini, hanya menggunakan korelasi nyata untuk melatih model mereka, mereka benar-benar mengurangi kerentanannya: itu dimanipulasi hanya 50% dari waktu, sementara model yang dilatih pada korelasi nyata dan palsu dimanipulasi 95% dari waktu.

Singkatnya, Anda bisa bertahan dari serangan musuh. Tetapi kami membutuhkan lebih banyak penelitian untuk menghilangkannya sepenuhnya.

Ilya Khel

Direkomendasikan: