Ilmuwan Telah Menciptakan AI Belajar Mandiri Yang Mampu Memainkan Semua Permainan - Pandangan Alternatif

Daftar Isi:

Ilmuwan Telah Menciptakan AI Belajar Mandiri Yang Mampu Memainkan Semua Permainan - Pandangan Alternatif
Ilmuwan Telah Menciptakan AI Belajar Mandiri Yang Mampu Memainkan Semua Permainan - Pandangan Alternatif

Video: Ilmuwan Telah Menciptakan AI Belajar Mandiri Yang Mampu Memainkan Semua Permainan - Pandangan Alternatif

Video: Ilmuwan Telah Menciptakan AI Belajar Mandiri Yang Mampu Memainkan Semua Permainan - Pandangan Alternatif
Video: Artificial Intelligence: Inilah Hebatnya Kecerdasan Buatan 2024, Maret
Anonim

Pengembang sistem kecerdasan buatan pembelajaran mandiri yang revolusioner, AlphaGo Zero, telah mengumumkan pembuatan versi baru mesin ini, yang secara mandiri dapat belajar memainkan permainan papan apa pun dan mengalahkan seseorang. Deskripsinya disajikan dalam jurnal Science.

Kedalaman Pikiran

Sistem AlphaGo AI dikembangkan oleh David Silver dan rekan-rekannya pada akhir 2014, dan pekerjaannya "diuji" pada juara Eropa Fan Hui, yang kalah dalam lima pertandingan dari mesin tersebut. Pada Maret 2016, AlphaGo mengalahkan Juara Dunia Go Lee Sedol dalam rangkaian lima pertandingan, hanya satu yang berakhir dengan kemenangan manusia.

Silver dan rekan-rekannya dapat mencapai keberhasilan ini dengan membangun AI mereka tidak hanya berdasarkan satu, tetapi dua jaringan saraf sekaligus - algoritme khusus yang meniru kerja rantai neuron di otak manusia. Salah satunya bertanggung jawab untuk mengevaluasi posisi saat ini di papan, dan yang kedua menggunakan hasil analisis yang disiapkan oleh jaringan pertama untuk memilih langkah berikutnya.

Langkah logis berikutnya dalam pengembangan AlphaGo adalah menghilangkan kelemahan utama dari semua jaringan saraf dan sistem kecerdasan buatan yang ada - kebutuhan untuk mengajari mereka apa yang harus mereka lakukan dengan menggunakan arsip data besar yang diproses secara manual oleh seseorang, atau dengan partisipasi langsung dari seseorang, seperti yang terjadi pada tahap pertama pengembangan AlphaGo.

Silver dan timnya memecahkan masalah ini dengan membuat jaringan saraf baru yang fundamental berdasarkan apa yang disebut algoritme pembelajaran penguatan. Jaringan saraf ini, tidak seperti pendahulunya, yang awalnya dilatih dalam permainan dengan sukarelawan dan memiliki beberapa strategi permainan primitif bawaan, memulai pekerjaannya sebagai pemula mutlak dengan basis pengetahuan nol.

Dengan kata lain, dia hanya mengetahui aturan main Go, kondisi awal dan kondisi kemenangan, lalu komputer secara mandiri belajar memainkan strategi Tiongkok kuno ini, bermain dengan dirinya sendiri dan bertindak dengan coba-coba. Satu-satunya batasan dalam pekerjaannya adalah waktu maksimum untuk memikirkan tentang kepindahan itu - sekitar 0,4 detik.

Video promosi:

Setelah setiap permainan seperti itu, sistem AI menganalisis semua gerakannya dan mengingat gerakan yang membawa salah satu "bagian" -nya lebih dekat ke kemenangan, dan masuk ke dalam semacam "daftar hitam" langkah-langkah yang terus terang kalah. Dengan menggunakan data ini, jaringan saraf membangun kembali dirinya sendiri, secara bertahap mencapai tingkat yang dicapai versi pertama dari AlphaGo sebelum seri permainan dengan Lee Sedol.

Pergeseran ke algoritme belajar mandiri tidak hanya memungkinkan AlphaGo Zero melampaui level pendahulunya dan mengalahkannya dengan skor 100-0, tetapi juga meningkatkan banyak aspek lain dari pekerjaannya. Secara khusus, proses pelatihannya hanya memakan waktu tiga hari dan sekitar lima juta game, yang besarnya kurang dari permintaan versi pertama AI.

Jalan menuju keunggulan

Percobaan yang berhasil diselesaikan dengan AlphaGo Zero membuat Silver dan timnya mempertimbangkan apakah jaringan saraf serupa dapat digunakan untuk memenangkan mahkota juara dalam jenis permainan strategi dan papan lainnya.

Untuk melakukan ini, para ilmuwan membangun elemen baru lainnya ke dalam AlphaGo Zero - algoritme heuristik untuk pencarian solusi secara acak, serta kode yang memperhitungkan keberadaan hasil imbang di beberapa game. Selain itu, versi baru alfa terus menyempurnakan strukturnya, bukan diperbarui secara bertahap seperti pendahulunya.

Perubahan yang relatif sederhana ini, seperti yang ditunjukkan oleh eksperimen lebih lanjut, secara signifikan meningkatkan kecepatan pembelajaran mandiri sistem kecerdasan buatan ini dan mengubahnya menjadi mesin universal yang mampu memainkan semua jenis strategi papan.

Para ilmuwan telah menguji karyanya pada tiga jenis permainan - go, catur biasa dan variasi Jepangnya, shogi. Dalam ketiga kasus tersebut, gagasan baru Silver mencapai tingkat grandmaster dalam waktu kurang dari satu juta permainan, mencapai selektivitas yang hampir manusiawi dalam pilihan gerakan yang mungkin hanya dalam 9-12 jam pelatihan untuk catur, dan 13 hari untuk pergi.

Sebelumnya, dia mengalahkan program komputer paling canggih yang memainkan permainan ini - Algoritma Stockfish menyerah pada jam keempat pelatihan AlphaZero, sementara Elmo, juara shogi saat ini, hanya bertahan dua jam. Akhirnya, versi pertama dari AlphaGo mulai menyerah pada "cucunya" sekitar 30 jam pelatihannya.

"Korban" berikutnya dari AlphaZero, seperti yang dicatat para ilmuwan, mungkin adalah game komputer "nyata", seperti Starcraft II dan Dota 2. Mengambil kejuaraan dalam disiplin esports semacam itu, menurut mereka, akan membuka jalan bagi AI pembelajaran mandiri untuk menembus ke bidang sains dan budaya yang kurang formal dan teknologi.

Direkomendasikan: