Apakah Neuron Memimpikan Domba Listrik? Pencipta Jaringan Saraf Pertama Menceritakan Tentang Evolusi Mereka Dan Masa Depan - Pandangan Alternatif

Daftar Isi:

Apakah Neuron Memimpikan Domba Listrik? Pencipta Jaringan Saraf Pertama Menceritakan Tentang Evolusi Mereka Dan Masa Depan - Pandangan Alternatif
Apakah Neuron Memimpikan Domba Listrik? Pencipta Jaringan Saraf Pertama Menceritakan Tentang Evolusi Mereka Dan Masa Depan - Pandangan Alternatif

Video: Apakah Neuron Memimpikan Domba Listrik? Pencipta Jaringan Saraf Pertama Menceritakan Tentang Evolusi Mereka Dan Masa Depan - Pandangan Alternatif

Video: Apakah Neuron Memimpikan Domba Listrik? Pencipta Jaringan Saraf Pertama Menceritakan Tentang Evolusi Mereka Dan Masa Depan - Pandangan Alternatif
Video: Jaringan Saraf 2024, Mungkin
Anonim

Jeffrey Hinton adalah salah satu pencipta konsep deep learning, pemenang Turing Award 2019 dan insinyur Google. Minggu lalu, selama konferensi pengembang I / O, Wired mewawancarainya dan membahas ketertarikannya pada otak dan kemampuannya untuk membuat model komputer berdasarkan struktur saraf otak. Untuk waktu yang lama, ide-ide ini dianggap aneh. Percakapan yang menarik dan menghibur tentang kesadaran, rencana masa depan Hinton dan apakah komputer dapat diajarkan untuk bermimpi.

Apa yang akan terjadi pada jaringan saraf?

Mari kita mulai dengan hari-hari ketika Anda menulis artikel pertama Anda yang sangat berpengaruh. Semua orang berkata, "Itu ide yang cerdas, tetapi kami benar-benar tidak dapat mendesain komputer dengan cara ini." Jelaskan mengapa Anda bersikeras dan mengapa Anda begitu yakin telah menemukan sesuatu yang penting.

Image
Image

Bagi saya, otak tidak dapat bekerja dengan cara lain. Dia harus bekerja dengan mempelajari kekuatan koneksi. Dan jika Anda ingin membuat perangkat melakukan sesuatu yang cerdas, Anda memiliki dua pilihan: Anda memprogramnya atau belajar. Dan tidak ada yang memprogram orang, jadi kami harus belajar. Metode ini harus benar.

Jelaskan apa itu jaringan saraf. Jelaskan konsep aslinya

Anda mengambil elemen pemrosesan yang relatif sederhana yang sangat samar-samar menyerupai neuron. Mereka memiliki koneksi masuk, setiap koneksi memiliki bobot, dan bobot ini dapat berubah selama latihan. Apa yang dilakukan neuron adalah melakukan tindakan pada koneksi dikalikan dengan bobot, menjumlahkannya, dan kemudian memutuskan apakah akan mengirim data. Jika jumlah yang diketik cukup besar, itu membuat keluaran. Jika jumlahnya negatif, itu tidak mengirim apa pun. Itu saja. Yang harus Anda lakukan adalah menghubungkan awan neuron ini ke bobot dan mencari cara untuk mengubah bobot tersebut, lalu mereka akan melakukan apa pun. Satu-satunya pertanyaan adalah bagaimana Anda akan mengubah bobot.

Video promosi:

Kapan Anda menyadari bahwa ini adalah gambaran kasar tentang cara kerja otak?

Oh, ya, semuanya semula dimaksudkan. Dirancang agar menyerupai otak yang sedang bekerja.

Jadi di beberapa titik dalam karier Anda, Anda mulai memahami cara kerja otak. Mungkin Anda berumur dua belas tahun, mungkin dua puluh lima. Kapan Anda memutuskan untuk mencoba membuat model komputer seperti otak?

Ya segera. Itulah intinya. Seluruh gagasan ini adalah untuk menciptakan perangkat pembelajaran yang belajar seperti otak, menurut gagasan orang-orang tentang bagaimana otak belajar, dengan mengubah kekuatan koneksi. Dan itu bukan ideku, Turing punya ide yang sama. Meskipun Turing menemukan banyak dasar ilmu komputer standar, dia percaya bahwa otak adalah perangkat yang tidak teratur dengan bobot acak dan menggunakan pembelajaran penguatan untuk mengubah koneksi, sehingga dia dapat mempelajari apa pun. Dan dia percaya bahwa ini adalah jalan terbaik menuju kecerdasan.

Dan Anda mengikuti gagasan Turing bahwa cara terbaik untuk membuat mesin adalah dengan mendesainnya seperti otak manusia. Beginilah cara kerja otak manusia, jadi mari kita buat mesin serupa

Ya, tidak hanya Turing yang berpikir demikian. Banyak yang berpikir demikian.

Kapan saat-saat gelap tiba? Kapan orang lain yang mengerjakannya dan percaya bahwa ide Turing benar mulai mundur, dan Anda terus membengkokkan garis?

Selalu ada segelintir orang yang percaya apa pun yang terjadi, terutama di bidang psikologi. Tapi di kalangan ilmuwan komputer, saya kira di tahun 90-an, kebetulan set data cukup kecil, dan komputer tidak secepat itu. Dan dengan kumpulan data kecil, metode lain seperti mesin vektor dukungan bekerja sedikit lebih baik. Mereka tidak terlalu malu dengan suara itu. Jadi semuanya menyedihkan karena di tahun 80-an kami mengembangkan metode propagasi balik, yang sangat penting untuk jaringan saraf. Kami pikir dia akan menyelesaikan segalanya. Dan mereka bingung karena dia tidak memutuskan apapun. Pertanyaannya sebenarnya dalam skala, tapi kemudian kita tidak mengetahuinya.

Image
Image

Menurut Anda, mengapa itu tidak berhasil?

Kami pikir itu tidak berhasil karena kami tidak memiliki algoritme yang benar dan fungsi objektif yang tidak tepat. Saya sudah lama berpikir bahwa ini karena kami mencoba melakukan pembelajaran yang diawasi saat Anda memberi label pada data, dan kami harus melakukan pembelajaran tanpa pengawasan saat pembelajaran dilakukan pada data yang tidak berlabel. Ternyata pertanyaannya sebagian besar pada skala.

Ini menarik. Jadi masalahnya adalah Anda tidak memiliki cukup data. Anda mengira Anda memiliki jumlah data yang benar, tetapi Anda salah menandainya. Jadi, Anda salah mendiagnosis masalahnya?

Saya pikir kesalahannya adalah kita sama sekali menggunakan label. Sebagian besar pelatihan Anda terjadi tanpa menggunakan label apa pun, Anda hanya mencoba membuat model struktur dalam data. Saya sebenarnya masih berpikir demikian. Saya pikir karena komputer menjadi lebih cepat, jika komputer cukup cepat, maka untuk set data apa pun dengan ukuran tertentu, lebih baik berlatih tanpa pengawasan. Dan setelah Anda menyelesaikan pembelajaran tanpa pengawasan, Anda dapat belajar dengan lebih sedikit tag.

Jadi di tahun 1990-an Anda melanjutkan penelitian Anda, Anda berada di akademisi, Anda masih menerbitkan, tetapi Anda tidak memecahkan masalah besar. Pernahkah Anda mengalami saat ketika Anda berkata, “Kamu tahu apa, itu sudah cukup. Akankah saya mencoba melakukan sesuatu yang lain”? Atau apakah Anda hanya mengatakan pada diri sendiri bahwa Anda akan terus melakukan pembelajaran mendalam [yaitu, konsep pembelajaran mendalam, pembelajaran mendalam tentang jaringan saraf

Iya. Sesuatu seperti ini seharusnya berhasil. Maksud saya, koneksi di otak belajar dengan cara tertentu, kita hanya perlu memikirkan caranya. Dan mungkin ada banyak cara berbeda untuk memperkuat koneksi dalam proses pembelajaran; otak menggunakan salah satunya. Mungkin ada cara lain. Tetapi Anda pasti membutuhkan sesuatu yang dapat memperkuat hubungan ini sambil belajar. Saya tidak pernah meragukannya.

Anda tidak pernah meragukannya. Kapan sepertinya itu berhasil?

Salah satu kekecewaan terbesar di tahun 80-an adalah jika kami membuat jaringan dengan banyak lapisan tersembunyi, kami tidak dapat melatihnya. Ini tidak sepenuhnya benar, karena Anda dapat melatih proses yang relatif sederhana seperti menulis tangan. Tapi kami tidak tahu cara melatih jaringan saraf paling dalam. Dan sekitar tahun 2005, saya menemukan cara untuk melatih jaringan yang dalam tanpa pengawasan. Anda memasukkan data, misalnya piksel, dan melatih beberapa detektor detail, yang menjelaskan dengan baik mengapa piksel seperti itu. Kemudian Anda memberi data pada detektor bagian ini dan melatih kumpulan detektor bagian yang berbeda sehingga kami dapat menjelaskan mengapa detektor bagian tertentu memiliki korelasi tertentu. Anda terus melatih lapis demi lapis. Tapi yang paling menarik adalahyang dapat diuraikan secara matematis dan membuktikan bahwa setiap kali Anda melatih lapisan baru, Anda tidak perlu menyempurnakan model data, tetapi Anda akan berurusan dengan rentang seberapa baik model Anda. Dan kisaran itu menjadi lebih baik dengan setiap lapisan ditambahkan.

Apa yang Anda maksud dengan rentang seberapa bagus model Anda?

Setelah Anda mendapatkan modelnya, Anda mungkin mengajukan pertanyaan, "Seberapa tidak biasa model ini menemukan data ini?" Anda menunjukkan datanya dan mengajukan pertanyaan: "Apakah menurut Anda semua ini seperti yang diharapkan, atau tidak biasa?" Dan ini bisa diukur. Dan saya ingin mendapatkan model, model bagus yang melihat data dan berkata, "Ya, ya. Aku tahu itu. Ini tidak mengherankan ". Selalu sangat sulit untuk menghitung dengan tepat seberapa tidak biasa model akan menemukan data. Tapi Anda bisa menghitung kisaran ini. Kita dapat mengatakan bahwa model akan menganggap data ini tidak biasa dari ini. Dan dapat ditunjukkan bahwa saat lapisan baru ditambahkan ke detektor detail, model terbentuk, dan dengan setiap lapisan ditambahkan saat menemukan data, rentang pemahaman tentang betapa tidak biasa data tersebut ditemukan menjadi lebih baik.

Jadi, sekitar tahun 2005, Anda membuat terobosan matematika ini. Kapan Anda mulai mendapatkan jawaban yang benar? Data apa yang Anda gunakan? Terobosan pertama Anda adalah dengan data ucapan, bukan?

Itu hanya angka tulisan tangan. Sangat sederhana. Dan sekitar waktu yang sama, pengembangan GPU (Graphics Processing Units) dimulai. Dan orang-orang yang menggunakan jaringan saraf mulai menggunakan GPU pada tahun 2007. Saya memiliki siswa yang sangat baik yang mulai menggunakan GPU untuk menemukan jalan dalam foto udara. Dia menulis kode tersebut, yang kemudian diadopsi oleh siswa lain dengan menggunakan GPU untuk mengenali fonem dalam ucapan. Mereka menggunakan ide pra-pelatihan ini. Dan ketika pra-pelatihan selesai, mereka hanya menggantungkan tag di atas dan menggunakan propagasi mundur. Ternyata dimungkinkan untuk membuat jaringan yang sangat dalam yang sebelumnya dilatih dengan cara ini. Dan kemudian propagasi mundur dapat diterapkan dan itu benar-benar berhasil. Dalam pengenalan ucapan, ini bekerja dengan baik. Namun pada awalnya,itu tidak jauh lebih baik.

Apakah itu lebih baik daripada pengenalan ucapan yang tersedia secara komersial? Dilewati oleh makalah ilmiah terbaik tentang pengenalan suara?

Pada kumpulan data yang relatif kecil yang disebut TIMIT, ini sedikit lebih baik daripada karya akademis terbaik. IBM juga telah melakukan banyak pekerjaan.

Orang-orang segera menyadari bahwa semua ini - karena mengabaikan model standar yang telah dikembangkan selama 30 tahun - akan bekerja dengan baik jika dikembangkan sedikit. Lulusan saya pergi ke Microsoft, IBM dan Google, dan Google dengan sangat cepat membuat pengenal ucapan yang berfungsi. Pada 2012, pekerjaan ini, yang telah dilakukan pada tahun 2009, telah mencapai Android. Android tiba-tiba jauh lebih baik dalam pengenalan ucapan.

Ceritakan tentang saat Anda, yang telah menyimpan ide-ide ini selama 40 tahun, telah menerbitkan topik ini selama 20 tahun, tiba-tiba mengabaikan kolega Anda. Seperti apa perasaan ini?

Nah, saat itu saya hanya menyimpan ide-ide tersebut selama 30 tahun!

Benar, benar

Ada perasaan yang luar biasa bahwa semua ini akhirnya berubah menjadi masalah nyata.

Apakah Anda ingat saat pertama kali mendapatkan data yang menunjukkan ini?

Tidak.

Baik. Jadi Anda mendapatkan ide bahwa ini berfungsi dengan pengenalan ucapan. Kapan Anda mulai menerapkan jaringan saraf ke masalah lain?

Pada awalnya, kami mulai menerapkannya pada semua jenis masalah lain. George Dahl, yang awalnya bekerja dengan kami pada pengenalan ucapan, menggunakannya untuk memprediksi apakah sebuah molekul dapat mengikat sesuatu dan menjadi obat yang baik. Dan ada kompetisi. Dia hanya menerapkan teknologi standar kami, yang dibuat untuk pengenalan suara, untuk memprediksi aktivitas narkoba dan memenangkan persaingan. Itu adalah tanda bahwa kami sedang melakukan sesuatu yang sangat serbaguna. Kemudian seorang siswa muncul yang berkata, “Anda tahu, Jeff, benda ini akan bekerja dengan pengenalan gambar, dan Fei-Fei Li membuat kumpulan data yang cocok untuk itu. Ada kompetisi publik, mari kita lakukan sesuatu."

Kami mendapatkan hasil yang jauh melampaui visi komputer standar. Itu tahun 2012.

Artinya, dalam tiga bidang ini Anda telah unggul: bahan kimia pemodelan, ucapan, suara. Dimana kamu gagal?

Apakah Anda memahami bahwa kemunduran bersifat sementara?

Nah, apa yang membedakan area di mana semuanya bekerja paling cepat dan area di mana yang paling lama bekerja? Sepertinya pemrosesan visual, pengenalan ucapan, dan sesuatu seperti hal-hal dasar manusia yang kita lakukan dengan persepsi sensorik dianggap sebagai hambatan pertama yang harus diatasi, bukan?

Ya dan tidak, karena ada hal lain yang kita lakukan dengan baik - keterampilan motorik yang sama. Kami sangat pandai mengontrol motorik. Otak kita pasti diperlengkapi untuk ini. Dan baru sekarang jaringan saraf mulai bersaing dengan teknologi terbaik lainnya untuk ini. Mereka akan menang pada akhirnya, tetapi sekarang mereka baru saja mulai menang.

Saya pikir berpikir, berpikir abstrak adalah hal terakhir yang kita pelajari. Saya pikir mereka akan menjadi salah satu hal terakhir yang dipelajari oleh jaringan saraf ini.

Jadi, Anda terus mengatakan bahwa jaringan saraf pada akhirnya akan menang di mana saja

Nah, kami adalah jaringan saraf. Semua yang kita bisa, mereka bisa.

Benar, tetapi otak manusia jauh dari mesin komputasi paling efisien yang pernah dibuat

Tentu saja tidak.

Jelas bukan otak manusiaku! Adakah cara untuk membuat model mesin yang jauh lebih efisien daripada otak manusia?

Image
Image

Secara filosofis, saya tidak keberatan dengan gagasan bahwa mungkin ada cara yang sama sekali berbeda untuk melakukan semua ini. Mungkin jika Anda memulai dengan logika, mencoba untuk mengotomatiskan logika, membuat beberapa teorema prover yang mewah, alasan, dan kemudian memutuskan bahwa melalui penalaran Anda sampai pada persepsi visual, mungkin pendekatan ini akan menang. Tapi belum saatnya. Saya tidak memiliki keberatan filosofis atas kemenangan seperti itu. Kami hanya tahu bahwa otak mampu melakukannya.

Tetapi ada juga hal-hal yang otak kita tidak bisa melakukannya dengan baik. Apakah ini berarti jaringan saraf tidak akan dapat melakukannya dengan baik?

Sangat mungkin, ya.

Dan ada masalah tersendiri, yaitu kita tidak sepenuhnya memahami cara kerja jaringan saraf, bukan?

Ya, kami tidak begitu mengerti cara kerjanya.

Kami tidak memahami cara kerja jaringan neural top-down. Ini adalah elemen dasar dari cara kerja jaringan saraf yang tidak kami pahami. Jelaskan ini, dan kemudian izinkan saya mengajukan pertanyaan berikutnya kepada saya: jika kita tahu bagaimana semuanya bekerja, lalu bagaimana cara kerjanya?

Bila Anda melihat sistem visi komputer modern, kebanyakan dari mereka kebanyakan memandang ke depan; mereka tidak menggunakan koneksi umpan balik. Dan kemudian ada hal lain dalam sistem visi komputer modern yang sangat rentan terhadap kesalahan permusuhan. Anda dapat sedikit mengubah beberapa piksel, dan apa yang tadinya gambar panda dan masih terlihat persis seperti panda bagi Anda tiba-tiba akan menjadi burung unta dalam pemahaman Anda tentang jaringan saraf. Jelas, metode penggantian piksel dipikirkan sedemikian rupa untuk mengelabui jaringan saraf agar berpikir tentang burung unta. Tapi intinya, itu masih panda bagimu.

Awalnya, kami pikir semuanya bekerja dengan baik. Tapi kemudian, dihadapkan pada fakta bahwa mereka sedang melihat panda dan yakin itu burung unta, kami khawatir. Dan saya pikir sebagian dari masalahnya adalah mereka tidak mencoba merekonstruksi dari pandangan tingkat tinggi. Mereka mencoba belajar dalam isolasi, di mana hanya lapisan detektor detail yang belajar, dan keseluruhan tujuannya adalah mengubah bobot untuk menjadi lebih baik dalam menemukan jawaban yang tepat. Kami baru-baru ini menemukan, atau Nick Frost menemukan, di Toronto, bahwa menambahkan rekonstruksi meningkatkan resistensi permusuhan. Menurut saya, dalam penglihatan manusia, rekonstruksi digunakan untuk pembelajaran. Dan karena kita belajar banyak saat melakukan rekonstruksi, kita jauh lebih tahan terhadap serangan permusuhan.

Anda yakin bahwa komunikasi hilir dalam jaringan neural memungkinkan Anda menguji bagaimana sesuatu sedang direkonstruksi. Anda memeriksanya dan memastikan bahwa itu panda, bukan burung unta

Saya pikir ini penting, ya.

Tetapi para ilmuwan otak tidak setuju dengan ini?

Ilmuwan otak tidak membantah bahwa jika Anda memiliki dua wilayah korteks di jalur persepsi, akan selalu ada koneksi terbalik. Mereka berdebat untuk apa itu. Mungkin diperlukan untuk perhatian, untuk pembelajaran, atau untuk rekonstruksi. Atau untuk ketiganya.

Jadi kami tidak tahu apa itu umpan balik. Apakah Anda membangun jaringan saraf baru, dimulai dari asumsi bahwa … tidak, bahkan tidak - Anda membangun umpan balik, karena itu diperlukan untuk rekonstruksi jaringan saraf Anda, meskipun Anda bahkan tidak benar-benar memahami cara kerja otak?

Iya.

Bukankah ini tipuan? Yaitu, jika Anda mencoba melakukan sesuatu seperti otak, tetapi Anda tidak yakin apakah otak yang melakukannya?

Tidak juga. Saya tidak dalam ilmu saraf komputasi. Saya tidak mencoba mencontoh cara kerja otak. Saya melihat ke otak dan berkata, "Itu berhasil, dan jika kita ingin melakukan hal lain yang berhasil, kita harus menonton dan terinspirasi olehnya." Kami terinspirasi oleh neuron, bukan membangun model saraf. Dengan demikian, seluruh model neuron yang kami gunakan terinspirasi oleh fakta bahwa neuron memiliki banyak koneksi dan bobotnya berubah.

Ini menarik. Jika saya adalah seorang ilmuwan komputer yang bekerja pada jaringan saraf dan ingin mengenal Jeff Hinton, salah satu pilihan adalah membangun komunikasi ke bawah dan mendasarkannya pada model ilmu otak lainnya. Berdasarkan pelatihan, bukan rekonstruksi

Jika ada model yang lebih baik, Anda pasti menang. Iya.

Sangat, sangat menarik. Mari kita bahas topik yang lebih umum. Jadi, jaringan saraf dapat menyelesaikan semua kemungkinan masalah. Apakah ada teka-teki dalam otak manusia yang tidak dapat atau tidak dapat ditutupi oleh jaringan saraf? Misalnya emosi

Tidak.

Jadi cinta dapat direkonstruksi dengan jaringan saraf? Kesadaran dapat direkonstruksi?

Benar. Setelah Anda mengetahui apa artinya ini. Kami jaringan saraf, bukan? Kesadaran adalah topik yang sangat menarik bagi saya. Tapi … orang tidak benar-benar tahu apa yang mereka maksud dengan kata ini. Ada banyak definisi berbeda. Dan saya pikir itu istilah yang cukup ilmiah. Karena itu, jika 100 tahun yang lalu Anda bertanya kepada orang-orang: apakah hidup itu? Mereka akan menjawab, “Nah, makhluk hidup memiliki kekuatan hidup, dan ketika mereka mati, kekuatan hidup meninggalkan mereka. Inilah perbedaan antara yang hidup dan yang mati, apakah Anda memiliki vitalitas atau tidak. Sekarang kami tidak memiliki kekuatan hidup, kami pikir konsep ini datang sebelum sains. Dan begitu Anda mulai memahami sedikit tentang biokimia dan biologi molekuler, Anda tidak lagi membutuhkan gaya hidup, Anda akan memahami bagaimana semuanya bekerja. Dan hal yang sama, menurut saya, akan terjadi dengan kesadaran. Kupikir,kesadaran itu adalah upaya untuk menjelaskan fenomena mental menggunakan entitas. Dan esensi ini, tidak diperlukan. Setelah Anda dapat menjelaskannya, Anda dapat menjelaskan bagaimana kami melakukan segala sesuatu yang membuat orang menjadi makhluk sadar, menjelaskan arti kesadaran yang berbeda tanpa melibatkan entitas khusus.

Ternyata tidak ada emosi yang tidak bisa diciptakan? Tidak ada pikiran yang tidak bisa diciptakan? Tidak ada yang mampu dilakukan oleh pikiran manusia yang secara teoritis tidak dapat diciptakan kembali oleh jaringan saraf yang berfungsi penuh begitu kita benar-benar memahami cara kerja otak?

John Lennon menyanyikan hal serupa di salah satu lagunya.

Apakah Anda 100% yakin tentang ini?

Tidak, saya Bayesian, jadi saya 99,9% yakin.

Oke, lalu apa 0,01%?

Misalnya, kita semua bisa menjadi bagian dari simulasi yang lebih besar.

Cukup adil. Jadi apa yang kita pelajari tentang otak dari pekerjaan kita di komputer?

Menurut saya, dari apa yang telah kita pelajari selama 10 tahun terakhir, sangat menarik bahwa jika Anda mengambil sistem dengan miliaran parameter dan fungsi objektif - misalnya, untuk mengisi celah dalam sebaris kata - ini bekerja lebih baik dari yang seharusnya. Ini akan bekerja jauh lebih baik dari yang Anda harapkan. Anda mungkin berpikir, dan banyak orang dalam penelitian AI tradisional akan berpikir bahwa Anda dapat mengambil sistem dengan satu miliar parameter, menjalankannya pada nilai acak, mengukur gradien fungsi tujuan, dan kemudian menyesuaikannya untuk meningkatkan fungsi tujuan. Anda mungkin berpikir bahwa algoritme tanpa harapan pasti akan macet. Tapi tidak, ternyata ini adalah algoritme yang sangat bagus. Dan semakin besar skalanya, semakin baik kerjanya. Dan penemuan ini pada dasarnya bersifat empiris. Ada beberapa teori di balik itu semua, tentu saja, tapi penemuan itu empiris. Dan sekarang,karena kami menemukan ini, tampaknya lebih mungkin otak menghitung gradien dari beberapa fungsi objektif dan memperbarui bobot dan kekuatan koneksi sinaptik untuk mengikuti gradien ini. Kita hanya perlu mencari tahu apa fungsi target ini dan bagaimana hal itu menjadi lebih buruk.

Tapi kami tidak memahami ini dengan contoh otak? Tidak memahami pembaruan saldo?

Itu teori. Dulu orang mengira itu mungkin. Tetapi di latar belakang selalu ada beberapa ilmuwan komputer yang berkata: "Ya, tetapi gagasan bahwa semuanya acak dan pembelajaran disebabkan oleh penurunan gradien tidak akan berfungsi dengan satu miliar parameter, Anda harus menghubungkan banyak pengetahuan." Sekarang kita tahu bahwa bukan itu masalahnya. Anda tinggal memasukkan parameter acak dan mempelajari semuanya.

Mari selami lebih dalam. Saat kita belajar lebih banyak, kita mungkin akan terus belajar lebih banyak tentang bagaimana otak manusia bekerja saat kita melakukan tes besar-besaran model berdasarkan pemahaman kita tentang fungsi otak. Begitu kita memahami semua ini dengan lebih baik, akankah ada titik di mana kita pada dasarnya mengubah otak kita menjadi mesin yang jauh lebih efisien?

Jika kita benar-benar mengerti apa yang sedang terjadi, kita bisa meningkatkan beberapa hal seperti pendidikan. Dan saya pikir kami akan meningkat. Akan sangat aneh untuk akhirnya memahami apa yang terjadi di otak Anda, bagaimana otak Anda belajar, dan tidak beradaptasi untuk belajar lebih baik.

Bagaimana menurut Anda, dalam beberapa tahun, kita akan menggunakan apa yang telah kita pelajari tentang otak dan seberapa dalam pembelajaran bekerja untuk mengubah pendidikan? Bagaimana Anda akan mengubah kelas?

Saya tidak yakin kita akan belajar banyak dalam beberapa tahun. Saya pikir akan butuh waktu lebih lama untuk mengubah pendidikan. Tapi ngomong-ngomong tentang itu, asisten [digital] semakin pintar. Dan ketika asisten dapat memahami percakapan, mereka dapat berbicara dan mendidik anak-anak.

Dan secara teori, jika kita memahami otak dengan lebih baik, kita dapat memprogram pembantu untuk berkomunikasi lebih baik dengan anak-anak, berdasarkan apa yang telah mereka pelajari

Ya, tapi saya tidak terlalu memikirkannya. Saya melakukan sesuatu yang lain. Tetapi semua ini tampaknya sangat mirip dengan kebenaran.

Bisakah kita memahami bagaimana mimpi bekerja?

Ya, saya sangat tertarik dengan mimpi. Saya sangat tertarik sehingga saya memiliki setidaknya empat teori mimpi yang berbeda.

Ceritakan tentang mereka - tentang yang pertama, kedua, ketiga, keempat

Dahulu kala ada hal yang disebut jaringan Hopfield, dan mereka mempelajari ingatan sebagai penarik lokal. Hopfield menemukan bahwa jika Anda mencoba memasukkan terlalu banyak kenangan, mereka akan kacau balau. Mereka akan mengambil dua penarik lokal dan menggabungkannya menjadi satu penarik di suatu tempat di tengah-tengahnya.

Kemudian Francis Crick dan Graham Mitchison datang dan berkata bahwa kita dapat menyingkirkan posisi terendah yang salah ini dengan belajar (yaitu, melupakan apa yang telah kita pelajari). Kami mematikan input data, meletakkan jaringan saraf dalam keadaan acak, membiarkannya tenang, mengatakan bahwa itu buruk, mengubah koneksi agar tidak jatuh ke dalam keadaan ini, dan dengan demikian kami dapat membuat jaringan menyimpan lebih banyak memori.

Kemudian Terry Seinowski dan saya masuk dan berkata, "Lihat, jika kita tidak hanya memiliki neuron yang menyimpan memori, tetapi juga sekumpulan neuron lain, dapatkah kita menemukan algoritme yang menggunakan semua neuron lain ini untuk membantu mengingat memori?" … Hasilnya, kami membuat algoritme pembelajaran mesin Boltzmann. Dan algoritme pembelajaran mesin Boltzmann memiliki properti yang sangat menarik: Saya menunjukkan datanya, dan itu melewati unit-unit lainnya hingga menjadi sangat bahagia, dan setelah itu meningkatkan kekuatan semua koneksi, berdasarkan fakta bahwa dua unit aktif pada waktu yang sama.

Selain itu, Anda harus memiliki fase di mana Anda mematikan input, biarkan algoritme "berdesir" dan menempatkannya dalam keadaan di mana dia senang, sehingga dia berfantasi, dan segera setelah dia memiliki fantasi, Anda berkata: “Ambil semua pasang neuron yang aktif dan mengurangi kekuatan koneksi."

Saya menjelaskan algoritme kepada Anda sebagai prosedur. Namun kenyataannya, algoritme ini adalah produk matematika dan pertanyaannya: "Bagaimana Anda perlu mengubah rantai koneksi ini sehingga jaringan saraf dengan semua unit data tersembunyi ini tampaknya tidak mengejutkan?" Dan juga harus ada fase lain, yang kami sebut fase negatif, ketika jaringan bekerja tanpa input data dan tidak dipelajari, apa pun status Anda memasukkannya.

Kami bermimpi berjam-jam setiap malam. Dan jika anda tiba-tiba terbangun, anda bisa mengatakan bahwa anda baru saja bermimpi, karena mimpi itu tersimpan dalam ingatan jangka pendek. Kita tahu bahwa kita melihat mimpi selama berjam-jam, tetapi di pagi hari, setelah bangun, kita hanya dapat mengingat mimpi terakhir, dan kita tidak mengingat yang lain, yang sangat berhasil, karena orang dapat salah mengira mimpi itu sebagai kenyataan. Jadi mengapa kita tidak mengingat mimpi kita sama sekali? Menurut Crick, inilah makna mimpi: melupakan hal-hal ini. Anda belajar sebaliknya.

Terry Seinovski dan saya telah menunjukkan bahwa ini sebenarnya adalah prosedur pembelajaran kemungkinan maksimum untuk mesin Boltzmann. Ini adalah teori pertama tentang mimpi.

Image
Image

Saya ingin beralih ke teori Anda yang lain. Tetapi pertanyaan saya adalah: Apakah Anda mampu melatih algoritme pembelajaran mendalam Anda untuk benar-benar bermimpi?

Beberapa algoritme pertama yang bisa belajar bekerja dengan unit tersembunyi adalah mesin Boltzmann. Mereka sangat tidak efektif. Tetapi kemudian saya menemukan cara untuk bekerja dengan perkiraan, yang ternyata efisien. Dan itu sebenarnya berfungsi sebagai pendorong untuk memulai kembali pekerjaan dengan pembelajaran mendalam. Ini adalah hal-hal yang melatih satu lapisan pendeteksi fitur pada satu waktu. Dan itu adalah bentuk efektif dari mesin restriktif Boltzmann. Jadi dia melakukan pembelajaran terbalik semacam ini. Tetapi alih-alih tertidur, dia hanya bisa berfantasi sedikit setelah setiap tanda data.

Oke, jadi android sebenarnya bermimpi tentang domba elektrik. Mari beralih ke teori dua, tiga, dan empat

Teori kedua itu disebut Algoritma Bangun Tidur. Anda perlu melatih model generatif. Dan Anda memiliki ide untuk membuat model yang dapat menghasilkan data, memiliki lapisan detektor fitur, dan mengaktifkan lapisan yang lebih tinggi dan lebih rendah, dan seterusnya, hingga aktivasi piksel - pada dasarnya membuat gambar. Tapi Anda ingin mengajari dia sesuatu yang lain. Anda ingin itu mengenali datanya.

Jadi Anda harus membuat algoritme dengan dua fase. Pada fase kebangkitan, data masuk, dia mencoba mengenalinya, dan alih-alih mempelajari koneksi yang dia gunakan untuk pengenalan, dia mempelajari koneksi generatif. Datanya masuk, saya mengaktifkan unit tersembunyi. Dan kemudian saya mencoba untuk mengajarkan unit tersembunyi ini untuk memulihkan data ini. Dia belajar merekonstruksi di setiap lapisan. Tetapi pertanyaannya adalah, bagaimana cara mempelajari koneksi langsung? Jadi idenya adalah jika Anda mengetahui koneksi langsung, Anda dapat mempelajari koneksi balik, karena Anda dapat belajar merekayasa balik.

Sekarang ternyata juga jika Anda menggunakan gabungan terbalik, Anda juga dapat mempelajari gabungan langsung, karena Anda dapat memulai dari atas dan menghasilkan beberapa data. Dan karena Anda menghasilkan data, Anda mengetahui status semua lapisan tersembunyi dan dapat mempelajari koneksi langsung untuk memulihkan status tersebut. Dan inilah yang terjadi: jika Anda memulai dengan koneksi acak dan mencoba menggunakan kedua fase secara bergantian, Anda akan berhasil. Agar berfungsi dengan baik, Anda harus mencoba opsi yang berbeda, tetapi itu akan berhasil.

Oke, lalu bagaimana dengan dua teori lainnya? Kita hanya punya delapan menit lagi, kurasa aku tidak akan punya waktu untuk bertanya tentang semuanya

Beri aku satu jam lagi dan aku akan memberitahumu tentang dua lainnya.

Mari kita bicara tentang apa selanjutnya. Kemana tujuan penelitian Anda? Masalah apa yang Anda coba selesaikan sekarang?

Pada akhirnya, Anda harus mengerjakan sesuatu yang pekerjaan itu belum selesai. Saya rasa saya mungkin sedang mengerjakan sesuatu yang tidak akan pernah saya selesaikan - disebut kapsul, teori tentang bagaimana persepsi visual dilakukan dengan menggunakan rekonstruksi dan bagaimana informasi diarahkan ke tempat yang tepat. Dua faktor pendorong utama adalah bahwa dalam jaringan saraf standar, informasi, aktivitas di lapisan secara otomatis dikirim ke suatu tempat, dan Anda tidak membuat keputusan tentang ke mana akan mengirimkannya. Ide di balik kapsul itu adalah membuat keputusan tentang ke mana harus mengirim informasi.

Sekarang saya mulai mengerjakan kapsul, orang yang sangat pintar di Google telah menemukan transformer yang melakukan hal yang sama. Mereka memutuskan ke mana akan mengirim informasi, dan itu kemenangan besar.

Kami akan kembali tahun depan untuk membicarakan teori mimpi nomor tiga dan nomor empat.

Ilya Khel

Direkomendasikan: