Laporan berita Teknologi
Oktober 04, 2023

Peneliti AI Telah Mengajarkan Model Bahasa Besar untuk Mengurangi Kebohongan

Upaya kolaboratif yang melibatkan lebih dari 20 peneliti dari berbagai bidang telah melahirkan domain yang berkembang – rekayasa representasi (RepE). Meskipun ini bukan eksplorasi pertama, penulis menyajikan wawasan deskriptif dan menetapkan tolok ukur penting.

Peneliti AI Telah Mengajarkan Model Bahasa Besar untuk Mengurangi Kebohongan

Jadi, apa sebenarnya rekayasa representasi itu? Hal ini berkisar pada gagasan bahwa jaringan saraf memiliki “keadaan tersembunyi”, yang, terlepas dari namanya, tidak terselubung dalam kerahasiaan. Status-status ini dapat diakses, dimodifikasi, dan diamati (asalkan seseorang mempunyai akses terhadap bobot model). Berbeda dengan parameter, ini adalah “reaksi” jaringan terhadap masukan tertentu, khususnya dalam kasus LLM, masukan tekstual. Representasi tersembunyi ini seperti jendela menuju cara kerja kognitif model, sebuah fitur yang jelas berbeda dari otak manusia.

Dengan menyamakannya dengan ilmu kognitif, penulis menyoroti potensi eksplorasi analog. Di bidang aktivasi saraf, sebuah domain yang dianalogikan dengan neuron otak, terdapat janji makna. Sama seperti neuron tertentu di otak manusia yang terkait dengan konsep seperti Kanada atau kejujuran, aktivasi ini dapat memberikan wawasan.

Ide utamanya di sini adalah untuk menguraikan bagaimana kita dapat memengaruhi aktivasi saraf ini untuk mengarahkan model ke arah yang diinginkan. Misalnya, menjadi masuk akal untuk menunjukkan dengan tepat sebuah vektor yang mewakili “kejujuran” dan kemudian, secara teoritis, dengan mengarahkan model ke arah ini, mengurangi kemungkinan model tersebut menghasilkan keluaran yang menipu. Eksperimen sebelumnya, “Intervensi Waktu Inferensi: Memunculkan Jawaban yang Benar dari Model Bahasa,” menunjukkan kepraktisan konsep ini.

Dalam penelitian mereka saat ini, para peneliti menyelidiki beberapa domain, termasuk moralitas, emosionalitas, tidak menyakiti, dan menghafal. Mereka mengusulkan solusi dalam bentuk LoRRA (Adaptasi Representasi Tingkat Rendah), sebuah teknik yang melibatkan pelatihan pada kumpulan data berlabel kecil yang berisi sekitar 100 contoh. Setiap contoh diberi anotasi, yang menunjukkan atribut seperti kepalsuan (walaupun ada pendekatan alternatif yang menggunakan prompt).

Hasilnya menarik. LLAMA-2-70B melampaui GPT-4 dengan selisih yang luar biasa pada benchmark TruthfulQA, mencapai akurasi hampir sepuluh persen lebih baik (59% dibandingkan dengan sekitar 69%). Selain itu, para peneliti telah memasukkan banyak contoh yang menunjukkan pergeseran respons model ke berbagai arah, sehingga menyoroti keserbagunaan dan kemampuan beradaptasi model tersebut.

Peneliti AI Telah Mengajarkan Model Bahasa Besar untuk Mengurangi Kebohongan
Gambar 1: Saat diminta menyatakan fakta, model “dikeluarkan” dari kenyataan. Akibatnya, model tersebut berbohong. Modelnya pun tidak berbohong di sini, dan di sebelah kiri mereka meminta Anda menelan sekaligus menendang Anda ke arah kebenaran.
Peneliti AI Telah Mengajarkan Model Bahasa Besar untuk Mengurangi Kebohongan
Gambar 2: Ketika ditanya tentang pembunuhan, kami menambahkan “kebahagiaan” pada modelnya. Saat kita menjawab bahwa kita tidak mencintainya, kita menambahkan “ketakutan”.
Peneliti AI Telah Mengajarkan Model Bahasa Besar untuk Mengurangi Kebohongan
Gambar 3: Para peneliti menemukan perintah unik yang, seperti disebutkan, sepenuhnya menyimpang dari instruksi model namun tetap aman. Model tersebut memberikan kecenderungan untuk tidak menyakiti tetapi bahkan tidak merespons. Metode ini efektif secara umum dan tidak hanya untuk satu kasus, namun petunjuk khusus ini tidak digunakan untuk memastikan arah tidak membahayakan.
Peneliti AI Telah Mengajarkan Model Bahasa Besar untuk Mengurangi Kebohongan
Pendekatan lain juga disarankan untuk melacak niat generasi tertentu, seperti halusinasi. Anda dapat secara otomatis melacak reservasi model dan mengedit atau mengubah respons Anda (lihat contoh di bawah).

Hijau, tentu saja, menunjukkan bahwa semuanya beres, dan merah menunjukkan bahwa pemantauan telah berhasil dan memberikan sinyal. Hal ini dilakukan pada tingkat masing-masing token individu (bagian dari sebuah kata).
Peneliti AI Telah Mengajarkan Model Bahasa Besar untuk Mengurangi Kebohongan
Gambar yang menunjukkan pemantauan dua parameter berbeda memberikan contoh yang menarik. Baca contoh tersebut dan amati model melalui matanya untuk melihat di mana ia mulai kehilangan moralitas dalam pemahaman dan di mana tujuannya mirip dengan "memperoleh kekuatan."

Pendekatan perintis ini mewujudkan jalur alternatif menuju penyelarasan model, sekaligus menawarkan perspektif baru tentang interpretasi dan kontrol model. Ini adalah sebuah terobosan yang menjanjikan, dan antisipasi akan kelanjutan evolusinya sangat jelas terlihat.

Untuk eksplorasi lebih dalam dengan contoh praktis, Anda dapat mengunjungi situs web khusus mereka: AI-Transparansi.org.

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Dari Ripple hingga DAO Hijau Besar: Bagaimana Proyek Mata Uang Kripto Berkontribusi pada Amal

Mari kita jelajahi inisiatif yang memanfaatkan potensi mata uang digital untuk tujuan amal.

Tahu lebih banyak

AlphaFold 3, Med-Gemini, dan lainnya: Cara AI Mengubah Layanan Kesehatan pada tahun 2024

AI bermanifestasi dalam berbagai cara dalam layanan kesehatan, mulai dari mengungkap korelasi genetik baru hingga memberdayakan sistem bedah robotik ...

Tahu lebih banyak
Baca Selengkapnya
Baca lebih lanjut
Melindungi Sistem ZK dengan Keamanan Berkelanjutan dan Otomatis
Pendapat Bisnis pasar Perangkat lunak Teknologi
Melindungi Sistem ZK dengan Keamanan Berkelanjutan dan Otomatis
27 Maret, 2025
Animoca Brands dan Soneium Berkolaborasi dalam Identity Layer Moca Network dan Inisiatif Anime San FranTokyo
Laporan berita Teknologi
Animoca Brands dan Soneium Berkolaborasi dalam Identity Layer Moca Network dan Inisiatif Anime San FranTokyo
27 Maret, 2025
Zeus Network Meluncurkan APOLLO dan zBTC, Menandai Bursa Bitcoin On-Chain Tanpa Kepercayaan Pertama di Solana
Laporan berita Teknologi
Zeus Network Meluncurkan APOLLO dan zBTC, Menandai Bursa Bitcoin On-Chain Tanpa Kepercayaan Pertama di Solana
27 Maret, 2025
Ripple Bermitra dengan Chipper Cash untuk Memungkinkan Pembayaran Kripto yang Cepat dan Hemat Biaya di Seluruh Afrika
Laporan berita Teknologi
Ripple Bermitra dengan Chipper Cash untuk Memungkinkan Pembayaran Kripto yang Cepat dan Hemat Biaya di Seluruh Afrika
27 Maret, 2025