Mac 15, 2023

Facebook Membangunkan Kaedah Baharu untuk Menggandakan Prestasi AI Transformers

Diterbitkan: 15 Mac 2023 jam 4:00 petang Kemas kini: 15 Mac 2023 jam 4:00 petang

Secara ringkas

Facebook telah membangunkan kaedah baharu untuk menggandakan prestasi pengubah AI berdasarkan seni bina pengubah.

Kaedah baharu ini menemui tampalan yang paling serupa dalam jurang antara memproses blok yang berbeza dan menggabungkannya untuk mengurangkan kerumitan pengiraan.

Facebook telah membangunkan a kaedah baru untuk menggandakan prestasi pengubah AI. Kaedahnya ialah berdasarkan seni bina transformer dan direka khusus untuk teks bentuk panjang seperti buku, artikel dan blog. Matlamat pengubah AI baharu adalah untuk meningkatkan prestasi model berasaskan transformer pada teks bentuk panjang dengan menjadikannya lebih cekap dan berkesan dalam mengendalikan urutan yang panjang. Keputusan pengubah AI sangat menjanjikan, dan kaedah baharu ini berpeluang membantu meningkatkan prestasi model berasaskan pengubah dalam pelbagai tugas.

Kaedah baharu ini dijangka memberi impak yang ketara pada tugas pemprosesan bahasa semula jadi, seperti terjemahan bahasa, ringkasan dan sistem menjawab soalan. Ia juga dijangka membawa kepada pembangunan model AI yang lebih canggih yang boleh mengendalikan teks yang lebih panjang dan lebih kompleks.

Facebook membangunkan kaedah baharu untuk menggandakan prestasi pengubah AI

Baca lebih lanjut: 10+ Editor Foto AI Terbaik 2023: Dalam Talian dan Percuma

Untuk memproses imej, transformer moden memotongnya menjadi tampalan (biasanya segi empat sama: lihat gif di bawah) dan kemudian beroperasi pada perwakilan zarah ini, setiap satunya diwakili oleh "token". Transformer, seperti yang kita ketahui, berfungsi dengan lebih perlahan lebih banyak kepingan token ini (ini terpakai pada kedua-dua teks dan imej), dan pengubah yang paling biasa mempunyai hubungan kuadratik. Iaitu, apabila lebih banyak token ditambah, semakin perlahan pemprosesan menjadi. Untuk menangani isu ini, penyelidik telah mencadangkan pelbagai teknik untuk mengurangkan bilangan token yang diperlukan untuk pemprosesan imej, seperti pengumpulan hierarki dan penyesuaian. Kaedah ini bertujuan untuk mengekalkan kualiti output sambil meminimumkan kos pengiraan.

Kaedah baharu ini menemui tampalan yang paling serupa dalam jurang antara memproses blok yang berbeza dan menggabungkannya untuk mengurangkan kerumitan pengiraan. Bahagian token yang digabungkan ialah hiperparameter; semakin tinggi ia, semakin rendah kualiti tetapi juga semakin tinggi pecutan. Eksperimen menunjukkan bahawa adalah mungkin untuk menggabungkan kira-kira 40% token dengan kehilangan kualiti 0.1-0.4% dan mendapat pecutan dua kali ganda (dengan itu mengambil kurang memori). Kaedah baharu ini merupakan penyelesaian yang menjanjikan untuk mengurangkan kerumitan pengiraan pemprosesan imej dan boleh membolehkan pemprosesan yang lebih pantas dan cekap tanpa menjejaskan kualiti output akhir.

Apabila kita memvisualisasikan patch mana yang kita cantumkan, kita dapat melihat bahawa ia adalah 1) berdekatan antara satu sama lain dan 2) menerangkan objek yang sama (lihat kawasan dengan warna yang sama pada GIF). Iaitu, tiada maklumat penting yang hilang; objek kekal "dalam bidang pandangan" model. Semakin lama ini digunakan dalam pengubah, semakin banyak token digabungkan (kerana ini adalah perwakilan peringkat lebih tinggi yang menggambarkan kandungan imej dengan baik).

Pendekatan kejuruteraan sedemikian berdasarkan kepintaran dan pemahaman bagaimana sesuatu berfungsi kelihatan sangat menarik. Selain itu, pembangun Meta berjanji untuk membawa lebih banyak lagi kepada StableDiffusion untuk mempercepatkan perkara di sana juga. Sungguh mengagumkan, kerana transformer ada di mana-mana, helah sedemikian boleh dilaksanakan dengan cepat dalam pelbagai model. Ini menunjukkan potensi penyelesaian kejuruteraan untuk memberi impak yang luas merentas pelbagai industri. Ia akan menjadi menarik untuk melihat bagaimana kemajuan ini model pengubah akan terus berkembang dan bertambah baik dari semasa ke semasa.

Meta AI dan Paperswithcode telah mengeluarkan model 120B pertama Galactica yang dilatih mengenai teks saintifik, membolehkan ramalan yang lebih tepat dan lebih pantas. Matlamat Galactica adalah untuk membantu penyelidik memisahkan yang penting daripada yang tidak relevan.

Baca lebih banyak berita berkaitan:

Tags:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.

lebih banyak artikel

Damir Yalalov