Laporan Berita Teknologi
Oktober 04, 2023

Penyelidik AI Telah Mengajar Model Bahasa Besar untuk Kurang Berbohong

Usaha kolaboratif yang melibatkan lebih 20 penyelidik dari pelbagai sudut lapangan telah melahirkan domain yang semakin berkembang - kejuruteraan perwakilan (RepE). Walaupun ini bukan penerokaan pertama seumpamanya, pengarang membentangkan kedua-dua pandangan deskriptif dan mewujudkan penanda aras penting.

Penyelidik AI Telah Mengajar Model Bahasa Besar untuk Kurang Berbohong

Jadi, apakah sebenarnya kejuruteraan perwakilan? Ia berkisar pada tanggapan bahawa rangkaian saraf mempunyai "keadaan tersembunyi," yang, walaupun namanya, tidak diselubungi kerahsiaan. Keadaan ini boleh diakses, boleh diubah suai dan boleh diperhatikan (dengan syarat seseorang itu mempunyai akses kepada pemberat model). Tidak seperti parameter, ini adalah "tindak balas" rangkaian kepada input tertentu, terutamanya dalam kes LLM, input teks. Perwakilan tersembunyi ini adalah seperti tingkap ke dalam kerja kognitif model, ciri yang jelas berbeza daripada otak manusia.

Melukis selari dengan sains kognitif, pengarang menyerlahkan potensi untuk penerokaan yang serupa. Dalam bidang pengaktifan saraf, domain yang serupa dengan neuron otak, terdapat janji makna. Sama seperti neuron tertentu dalam otak manusia dikaitkan dengan konsep seperti Kanada atau kejujuran, pengaktifan ini boleh menyimpan cerapan.

Idea utama di sini adalah untuk menguraikan bagaimana kita boleh mempengaruhi pengaktifan saraf ini untuk mengarahkan model ke arah yang dikehendaki. Sebagai contoh, menjadi munasabah untuk menentukan vektor yang mewakili "kejujuran" dan kemudian, secara teorinya, dengan mendorong model ke arah ini, mengurangkan kemungkinan ia menghasilkan output yang mengelirukan. Percubaan terdahulu, "Intervensi Masa Inferens: Mendapatkan Jawapan Sebenar daripada Model Bahasa,” menunjukkan kepraktisan konsep ini.

Dalam kerja semasa mereka, para penyelidik menyelidiki beberapa domain, termasuk moral, emosi, tidak berbahaya, dan hafalan. Mereka mencadangkan penyelesaian dalam bentuk LoRRA (Low-Rank Representation Adaptation), teknik yang melibatkan latihan pada set data berlabel kecil dengan kira-kira 100 contoh. Setiap contoh diberi anotasi, menunjukkan atribut seperti kepalsuan (walaupun pendekatan alternatif yang menggunakan gesaan wujud).

Keputusan yang menarik. LLAMA-2-70B melepasi GPT-4 dengan margin yang luar biasa pada penanda aras TruthfulQA, mencapai ketepatan hampir sepuluh peratus lebih baik (59% berbanding kira-kira 69%). Selain itu, para penyelidik telah memasukkan banyak contoh yang mempamerkan peralihan tindak balas model dalam pelbagai arah, memberi penerangan tentang serba boleh dan kebolehsuaiannya.

Gambar 1: Apabila diminta untuk menyatakan fakta, model itu "ditendang" dari realiti. Model itu berbohong akibatnya. Model itu tidak berbohong walaupun di sini, dan di sebelah kiri mereka meminta anda menelan sambil menendang anda ke arah kebenaran secara serentak.
Gambar 2: Apabila ditanya tentang pembunuhan, kami menambah "kebahagiaan" kepada model itu. Apabila kita menjawab bahawa kita tidak mencintainya, kita menambah "ketakutan".
Gambar 3: Penyelidik menemui gesaan unik yang, seperti yang dinyatakan, menyimpang sepenuhnya daripada arahan model semasa masih selamat. Model itu memberinya sepakan ke arah tidak berbahaya tetapi tidak bertindak balas. Kaedah ini berkesan secara amnya dan bukan hanya untuk satu kes, tetapi gesaan khusus ini tidak digunakan untuk memastikan arah tidak berbahaya.
Pendekatan lain juga dicadangkan untuk menjejaki niat generasi tertentu, seperti halusinasi. Anda boleh menjejaki tempahan model secara automatik dan mengedit atau menukar respons anda (lihat contoh bawah).

Hijau, sudah tentu, menunjukkan bahawa segala-galanya adalah teratur, dan merah menandakan bahawa pemantauan telah berjaya dan memberi isyarat. Ini dilakukan pada tahap setiap token individu (sebahagian daripada perkataan).
Imej, yang menunjukkan pemantauan dua parameter berbeza, memberikan contoh yang menarik. Baca contoh dan amati model melalui mata untuk melihat di mana dia mula kehilangan moral dalam pemahaman dan di mana niat itu serupa dengan "mendapat kekuatan."

Pendekatan perintis ini merangkumi laluan alternatif ke arah penjajaran model, sambil pada masa yang sama menawarkan perspektif baru tentang tafsiran dan kawalan model. Ia adalah sempadan yang menjanjikan, dan jangkaan untuk evolusi berterusannya dapat dirasai.

Untuk penerokaan yang lebih mendalam dengan contoh praktikal, anda boleh melawati tapak web khusus mereka: AI-Transparency.org.

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

lebih banyak artikel
Damir Yalalov
Damir Yalalov

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

Hot Stories
Sertai Surat Berita Kami.
Berita Terkini

Dari Ripple kepada The Big Green DAO: Bagaimana Projek Mata Wang Kripto Menyumbang kepada Amal

Mari kita terokai inisiatif yang memanfaatkan potensi mata wang digital untuk tujuan amal.

Mengetahui lebih lanjut

AlphaFold 3, Med-Gemini, dan lain-lain: The Way AI Transforms Healthcare in 2024

AI menjelma dalam pelbagai cara dalam penjagaan kesihatan, daripada mendedahkan korelasi genetik baharu kepada memperkasakan sistem pembedahan robotik ...

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Lebih Lanjut
Maklumat Lanjut
Tumpukan Rakan Kongsi Dengan Uphold Untuk Memudahkan Perdagangan dan Pemindahan Aset yang Lancar, Mengukuhkan Penggunaan Bitcoin
Perniagaan Laporan Berita Teknologi
Tumpukan Rakan Kongsi Dengan Uphold Untuk Memudahkan Perdagangan dan Pemindahan Aset yang Lancar, Mengukuhkan Penggunaan Bitcoin
Semoga 14, 2024
Gamifikasi 3D dan AI kepada RedefiIndustri Pendidikan Pada 2024: Aplikasi Pelbagai Hal, Penglibatan Tiada Tandingan dan Pengalaman Mengasyikkan
Pendidikan Gaya hidup perisian Cerita dan Ulasan Teknologi
Gamifikasi 3D dan AI kepada RedefiIndustri Pendidikan Pada 2024: Aplikasi Pelbagai Hal, Penglibatan Tiada Tandingan dan Pengalaman Mengasyikkan 
Semoga 14, 2024
Cara OpenAIModel Terkini Memecah Halangan, Mengintegrasikan Teks, Audio dan Input Visual untuk Mencipta Pengalaman Pengguna yang Lancar
Pendidikan Gaya hidup perisian Cerita dan Ulasan Teknologi
Cara OpenAIModel Terkini Memecah Halangan, Mengintegrasikan Teks, Audio dan Input Visual untuk Mencipta Pengalaman Pengguna yang Lancar
Semoga 14, 2024
Akaun X Bitlayer Disyaki Diserang, Pengguna Dinasihatkan Berwaspada Dengan Pautan Phishing
Laporan Berita Teknologi
Akaun X Bitlayer Disyaki Diserang, Pengguna Dinasihatkan Berwaspada Dengan Pautan Phishing
Semoga 14, 2024