Peneliti AI Telah Mengajarkan Model Bahasa Besar untuk Mengurangi Kebohongan


Upaya kolaboratif yang melibatkan lebih dari 20 peneliti dari berbagai bidang telah melahirkan domain yang berkembang – rekayasa representasi (RepE). Meskipun ini bukan eksplorasi pertama, penulis menyajikan wawasan deskriptif dan menetapkan tolok ukur penting.

Jadi, apa sebenarnya rekayasa representasi itu? Hal ini berkisar pada gagasan bahwa jaringan saraf memiliki “keadaan tersembunyi”, yang, terlepas dari namanya, tidak terselubung dalam kerahasiaan. Status-status ini dapat diakses, dimodifikasi, dan diamati (asalkan seseorang mempunyai akses terhadap bobot model). Berbeda dengan parameter, ini adalah “reaksi” jaringan terhadap masukan tertentu, khususnya dalam kasus LLM, masukan tekstual. Representasi tersembunyi ini seperti jendela menuju cara kerja kognitif model, sebuah fitur yang jelas berbeda dari otak manusia.
Dengan menyamakannya dengan ilmu kognitif, penulis menyoroti potensi eksplorasi analog. Di bidang aktivasi saraf, sebuah domain yang dianalogikan dengan neuron otak, terdapat janji makna. Sama seperti neuron tertentu di otak manusia yang terkait dengan konsep seperti Kanada atau kejujuran, aktivasi ini dapat memberikan wawasan.
Ide utamanya di sini adalah untuk menguraikan bagaimana kita dapat memengaruhi aktivasi saraf ini untuk mengarahkan model ke arah yang diinginkan. Misalnya, menjadi masuk akal untuk menunjukkan dengan tepat sebuah vektor yang mewakili “kejujuran” dan kemudian, secara teoritis, dengan mengarahkan model ke arah ini, mengurangi kemungkinan model tersebut menghasilkan keluaran yang menipu. Eksperimen sebelumnya, “Intervensi Waktu Inferensi: Memunculkan Jawaban yang Benar dari Model Bahasa,” menunjukkan kepraktisan konsep ini.
Dalam penelitian mereka saat ini, para peneliti menyelidiki beberapa domain, termasuk moralitas, emosionalitas, tidak menyakiti, dan menghafal. Mereka mengusulkan solusi dalam bentuk LoRRA (Adaptasi Representasi Tingkat Rendah), sebuah teknik yang melibatkan pelatihan pada kumpulan data berlabel kecil yang berisi sekitar 100 contoh. Setiap contoh diberi anotasi, yang menunjukkan atribut seperti kepalsuan (walaupun ada pendekatan alternatif yang menggunakan prompt).
Hasilnya menarik. LLAMA-2-70B melampaui GPT-4 dengan selisih yang luar biasa pada benchmark TruthfulQA, mencapai akurasi hampir sepuluh persen lebih baik (59% dibandingkan dengan sekitar 69%). Selain itu, para peneliti telah memasukkan banyak contoh yang menunjukkan pergeseran respons model ke berbagai arah, sehingga menyoroti keserbagunaan dan kemampuan beradaptasi model tersebut.




Hijau, tentu saja, menunjukkan bahwa semuanya beres, dan merah menunjukkan bahwa pemantauan telah berhasil dan memberikan sinyal. Hal ini dilakukan pada tingkat masing-masing token individu (bagian dari sebuah kata).

Pendekatan perintis ini mewujudkan jalur alternatif menuju penyelarasan model, sekaligus menawarkan perspektif baru tentang interpretasi dan kontrol model. Ini adalah sebuah terobosan yang menjanjikan, dan antisipasi akan kelanjutan evolusinya sangat jelas terlihat.
Untuk eksplorasi lebih dalam dengan contoh praktis, Anda dapat mengunjungi situs web khusus mereka: AI-Transparansi.org.
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikel

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.