15 Mei 2023

Program LLM: Jalan Baru untuk Menyempurnakan Model Neural dalam Situasi Kompleks

Diterbitkan: 15 Mei 2023 pukul 3:42 Diperbarui: 15 Mei 2023 pukul 3:42

Diedit dan diperiksa faktanya: 15 Mei 2023 pukul 3

Singkatnya

Penulis mengusulkan jalur alternatif yang disebut Program LLM, yang dapat dianggap sebagai pengembangan pembelajaran dalam konteks.

Kunci pemecahan masalah melalui Program LLM adalah kemampuan untuk menguraikan solusi suatu masalah menjadi urutan langkah-langkah yang lebih sederhana.

Ada dua area utama penyesuaian LLM: penyempurnaan (atau pelatihan tambahan) model dasar pra-pelatihan dan pembelajaran dalam konteks. Penyempurnaan membutuhkan sumber daya komputasi, pengumpulan data, dan infrastruktur yang signifikan untuk melakukan ini dan kemudian menghosting model yang disempurnakan. Sementara itu, pembelajaran dalam konteks melibatkan penyusunan prompt yang tepat dengan contoh penyelesaian masalah, seperti Chain-of-Thought (CoT). Namun, ada beberapa kesulitan, seperti ukuran teks yang terbatas yang dapat dikirimkan ke model dan fakta bahwa dalam prompt multi-pass yang kompleks, langkah-langkahnya dapat saling mengganggu, dan model dapat terganggu oleh sesuatu. yang seharusnya tidak terganggu saat ini. Penulis mengusulkan jalur alternatif yang disebut Program LLM, yang dapat dianggap sebagai pengembangan pembelajaran dalam konteks.

Program LLM: Jalan Baru untuk Menyempurnakan Model Neural dalam Situasi Kompleks

Rekomendasi: Panduan Utama Rekayasa Cepat 2023

LLM dibangun ke dalam program (dalam konvensional bahasa pemrograman, misalnya, dengan Python). Kode eksternal ini bertanggung jawab untuk menyimpan status dan memelihara model langkah demi langkah. Ini memiliki beberapa keuntungan utama: Bahasa pemrograman diadaptasi untuk ini, ukuran konteks yang tersedia bertambah, dan langkah-langkahnya tidak saling mengganggu. Kunci pemecahan masalah melalui Program LLM adalah kemampuan untuk menguraikan solusi suatu masalah menjadi urutan langkah-langkah yang lebih sederhana. Pendekatan ini berbeda dengan karya sebelumnya, dimana model menggunakan alat eksternal seperti kalkulator atau penafsir kode untuk mempertahankan negara. Pendekatan ini bagus karena memungkinkan untuk mendeskripsikan tugas yang kompleks dan menyebar dengan cara ini, membuatnya lebih mudah untuk menguji, men-debug, dan mengevaluasi kualitas.

Selain itu, tidak ada gangguan di antara langkah-langkah tersebut, sehingga lebih mudah untuk bekerja dengan LLM. Sistem tanya jawab juga bukan hal baru; mereka sudah ada jauh sebelum LLM. Bagaimana tugas menjawab pertanyaan diselesaikan sekarang?

Situs sering diperbarui, jadi a model beku bukanlah suatu pilihan; itu akan cepat menjadi usang dan tidak dapat menjawab pertanyaan tentang produk baru. Pelatihan ulang model yang konstan untuk setiap pembaruan bukanlah pilihan yang realistis: Ini mahal dan memakan waktu. Sebaliknya, halaman situs web biasanya diindeks, dimasukkan ke dalam semacam database, dan sering kali dibuat vektor. Atas permintaan pengguna, dokumen yang relevan ditarik dan dikirim sebagai konteks ke LLM.

Dalam paradigma seperti itu, masalah secara alami diselesaikan melalui Program LLM. Sebagai bonus, itu menjadi mungkin untuk mengimplementasikan logika multi-pass yang lebih kompleks yang tidak sepenuhnya cocok dengan konteksnya.

Diuji pada Kumpulan data StrategyQA berisi masalah klasifikasi biner, yang solusinya melibatkan penalaran multi-arah. Seperti “Apakah sinar matahari menembus ke tempat terdalam di Laut Hitam?”. Untuk menjawabnya, Anda perlu mencari kedalaman maksimum (2 km) dan seberapa dalam cahaya menembus air (1 km), lalu menarik kesimpulan. Mari kita lihat contoh pertanyaan lainnya: “Apakah Aristoteles menggunakan laptop?” Pertanyaan ini tidak sesederhana dan tidak mengikuti urutan langkah penalaran secara eksplisit seperti “Apakah Aristoteles masih hidup ketika laptop ditemukan?” melakukan. Kumpulan data berfokus pada pertanyaan di mana urutan seperti itu tersirat. Hanya ada 2,780 pertanyaan dalam kumpulan data, yang mana hanya 918 yang memiliki paragraf dengan bukti yang memperkuat semua langkah penalaran. Dalam pekerjaan saat ini, terbatas pada subset ini; jika tidak, kami harus mengandalkan LLM untuk mempelajari beberapa fakta selama prapelatihan.

LLM OPT-175B, secara default, tidak pandai mengikuti instruksi; itu tidak harus menyempurnakan instruksi atau data percakapan. Untuk memecahkan masalah pertanyaan-jawaban yang didukung bukti, dibagi menjadi tahap penyaringan data dan tahap pencarian pohon.

Pada tahap pemfilteran, memiliki pertanyaan, pengembang menelusuri semua paragraf dan memilih yang paling relevan. Misalnya, dengan prompt beberapa tembakan, minta LLM untuk menjawab (ya/tidak) apakah paragraf tertentu relevan dengan pertanyaan yang diajukan. Diuji pada 300 subset StrategyQA, di mana setiap pertanyaan dicocokkan dengan satu paragraf, relevan atau tidak, 50/50. OPT-175B dan text-davinci-002 tidak memiliki a kualitas yang jauh lebih tinggi dari garis dasar acak: hingga 56%. Semakin maju 11B Tk-Instruksikan tidak jauh lebih baik di 61.6%.

Karena kualitas yang buruk dari pendekatan ini, sebuah alternatif disatukan yang mempertimbangkan kemungkinan log-kemungkinan negatif (NLL) rata-rata dari pertanyaan yang dikombinasikan dengan paragraf teks sebelumnya dan kemudian memeringkat hasilnya. Dievaluasi pada kumpulan data di mana untuk setiap pertanyaan, ada 100 paragraf, dan hanya satu yang relevan (jadi tebakan acak menghasilkan 1%). Kami mendapat akurasi top-1 di 79% dan top-5 di 93%. Untuk penghitungan ini, Anda biasanya memerlukan akses ke model itu sendiri, yang tidak selalu dilakukan di API.

Berikutnya adalah tahap membangun rantai keluaran. Ini dilakukan melalui pencarian melalui pohon di mana pertanyaannya adalah akar, dan pada setiap tingkat, ada banyak paragraf dengan bukti yang mungkin digunakan sebagai konteks untuk menghasilkan langkah selanjutnya. Setiap jalur melalui pohon adalah rantai keluaran potensial. Tidak realistis untuk menarik kesimpulan pada semua rantai yang mungkin, jadi semua rantai yang tersedia diberi peringkat, dan rantai dengan peringkat tertinggi diperluas. Ini adalah variasi pencarian balok. Proses berhenti ketika respons dibuat atau jumlah langkah maksimum yang diizinkan telah berlalu.

Detail terpenting adalah dua strategi pemeringkatan yang diuji untuk langkah pencarian pohon. Strategi pertama didasarkan pada rata-rata NLL dari seluruh rantai, sedangkan strategi kedua melihat perbedaan rata-rata NLL dengan dan tanpa paragraf (P), dengan dan tanpa pertanyaan (Q). Pada 918 pertanyaan yang tersedia dari StrategyQA, pendekatan ini secara signifikan meningkatkan kualitas jawaban relatif terhadap baseline dengan CoT (60%); kedua opsi pencarian memberikan sekitar 66% (strategi dengan delta sedikit lebih tinggi). Jika fakta emas diajukan, kualitasnya menjadi sekitar 81%, yang merupakan batas atas untuk OPT. Darklang sepertinya pergi ke suatu tempat tapi dengan cara yang sedikit berbeda.

Artikel ini didasarkan pada Telegram pos.

Baca lebih lanjut tentang AI:

Tags:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.

lebih artikel

Damir Yalalov