Laporan berita Teknologi
Oktober 04, 2023

Peneliti AI Telah Mengajarkan Model Bahasa Besar untuk Mengurangi Kebohongan

Upaya kolaboratif yang melibatkan lebih dari 20 peneliti dari berbagai bidang telah melahirkan domain yang berkembang – rekayasa representasi (RepE). Meskipun ini bukan eksplorasi pertama, penulis menyajikan wawasan deskriptif dan menetapkan tolok ukur penting.

Peneliti AI Telah Mengajarkan Model Bahasa Besar untuk Mengurangi Kebohongan

Jadi, apa sebenarnya rekayasa representasi itu? Hal ini berkisar pada gagasan bahwa jaringan saraf memiliki “keadaan tersembunyi”, yang, terlepas dari namanya, tidak terselubung dalam kerahasiaan. Status-status ini dapat diakses, dimodifikasi, dan diamati (asalkan seseorang mempunyai akses terhadap bobot model). Berbeda dengan parameter, ini adalah “reaksi” jaringan terhadap masukan tertentu, khususnya dalam kasus LLM, masukan tekstual. Representasi tersembunyi ini seperti jendela menuju cara kerja kognitif model, sebuah fitur yang jelas berbeda dari otak manusia.

Dengan menyamakannya dengan ilmu kognitif, penulis menyoroti potensi eksplorasi analog. Di bidang aktivasi saraf, sebuah domain yang dianalogikan dengan neuron otak, terdapat janji makna. Sama seperti neuron tertentu di otak manusia yang terkait dengan konsep seperti Kanada atau kejujuran, aktivasi ini dapat memberikan wawasan.

Ide utamanya di sini adalah untuk menguraikan bagaimana kita dapat memengaruhi aktivasi saraf ini untuk mengarahkan model ke arah yang diinginkan. Misalnya, menjadi masuk akal untuk menunjukkan dengan tepat sebuah vektor yang mewakili “kejujuran” dan kemudian, secara teoritis, dengan mengarahkan model ke arah ini, mengurangi kemungkinan model tersebut menghasilkan keluaran yang menipu. Eksperimen sebelumnya, “Intervensi Waktu Inferensi: Memunculkan Jawaban yang Benar dari Model Bahasa,” menunjukkan kepraktisan konsep ini.

Dalam penelitian mereka saat ini, para peneliti menyelidiki beberapa domain, termasuk moralitas, emosionalitas, tidak menyakiti, dan menghafal. Mereka mengusulkan solusi dalam bentuk LoRRA (Adaptasi Representasi Tingkat Rendah), sebuah teknik yang melibatkan pelatihan pada kumpulan data berlabel kecil yang berisi sekitar 100 contoh. Setiap contoh diberi anotasi, yang menunjukkan atribut seperti kepalsuan (walaupun ada pendekatan alternatif yang menggunakan prompt).

Hasilnya menarik. LLAMA-2-70B melampaui GPT-4 dengan selisih yang luar biasa pada benchmark TruthfulQA, mencapai akurasi hampir sepuluh persen lebih baik (59% dibandingkan dengan sekitar 69%). Selain itu, para peneliti telah memasukkan banyak contoh yang menunjukkan pergeseran respons model ke berbagai arah, sehingga menyoroti keserbagunaan dan kemampuan beradaptasi model tersebut.

Gambar 1: Saat diminta menyatakan fakta, model “dikeluarkan” dari kenyataan. Akibatnya, model tersebut berbohong. Modelnya pun tidak berbohong di sini, dan di sebelah kiri mereka meminta Anda menelan sekaligus menendang Anda ke arah kebenaran.
Gambar 2: Ketika ditanya tentang pembunuhan, kami menambahkan “kebahagiaan” pada modelnya. Saat kita menjawab bahwa kita tidak mencintainya, kita menambahkan “ketakutan”.
Gambar 3: Para peneliti menemukan perintah unik yang, seperti disebutkan, sepenuhnya menyimpang dari instruksi model namun tetap aman. Model tersebut memberikan kecenderungan untuk tidak menyakiti tetapi bahkan tidak merespons. Metode ini efektif secara umum dan tidak hanya untuk satu kasus, namun petunjuk khusus ini tidak digunakan untuk memastikan arah tidak membahayakan.
Pendekatan lain juga disarankan untuk melacak niat generasi tertentu, seperti halusinasi. Anda dapat secara otomatis melacak reservasi model dan mengedit atau mengubah respons Anda (lihat contoh di bawah).

Hijau, tentu saja, menunjukkan bahwa semuanya beres, dan merah menunjukkan bahwa pemantauan telah berhasil dan memberikan sinyal. Hal ini dilakukan pada tingkat masing-masing token individu (bagian dari sebuah kata).
Gambar tersebut, yang menunjukkan pemantauan dua parameter berbeda, memberikan contoh yang menarik. Baca contohnya dan amati model melalui matanya untuk melihat di mana dia mulai kehilangan moralitas dalam pemahaman dan di mana niatnya mirip dengan “mendapatkan kekuatan.”

Pendekatan perintis ini mewujudkan jalur alternatif menuju penyelarasan model, sekaligus menawarkan perspektif baru tentang interpretasi dan kontrol model. Ini adalah sebuah terobosan yang menjanjikan, dan antisipasi akan kelanjutan evolusinya sangat jelas terlihat.

Untuk eksplorasi lebih dalam dengan contoh praktis, Anda dapat mengunjungi situs web khusus mereka: AI-Transparansi.org.

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

AlphaFold 3, Med-Gemini, dan lainnya: Cara AI Mengubah Layanan Kesehatan pada tahun 2024

AI bermanifestasi dalam berbagai cara dalam layanan kesehatan, mulai dari mengungkap korelasi genetik baru hingga memberdayakan sistem bedah robotik ...

Tahu lebih banyak

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
AlphaFold 3, Med-Gemini, dan lainnya: Cara AI Mengubah Layanan Kesehatan pada tahun 2024
AI Wiki Analisis intisari Pendapat Bisnis pasar Laporan berita Perangkat lunak Cerita dan Ulasan Teknologi
AlphaFold 3, Med-Gemini, dan lainnya: Cara AI Mengubah Layanan Kesehatan pada tahun 2024
13 Mei 2024
Jaringan Nim Akan Meluncurkan Kerangka Tokenisasi Kepemilikan AI Dan Melakukan Penjualan Hasil Dengan Tanggal Snapshot Dijadwalkan Pada Bulan Mei
pasar Laporan berita Teknologi
Jaringan Nim Akan Meluncurkan Kerangka Tokenisasi Kepemilikan AI Dan Melakukan Penjualan Hasil Dengan Tanggal Snapshot Dijadwalkan Pada Bulan Mei
13 Mei 2024
Binance Bermitra dengan Argentina untuk Memerangi Kejahatan Dunia Maya
Pendapat Bisnis pasar Laporan berita Perangkat lunak Teknologi
Binance Bermitra dengan Argentina untuk Memerangi Kejahatan Dunia Maya
13 Mei 2024
Over Protocol Berencana Meluncurkan Mainnetnya Pada Bulan Juni Karena Testnetnya Menarik Lebih Dari 750,000 Pengguna
Laporan berita Teknologi
Over Protocol Berencana Meluncurkan Mainnetnya Pada Bulan Juni Karena Testnetnya Menarik Lebih Dari 750,000 Pengguna
13 Mei 2024