新聞報導 科技
2023 年 10 月 04 日

人工智慧研究人員教導大型語言模型少說謊

來自該領域不同角落的 20 多名研究人員共同努力,催生了一個新興領域—— 代表性工程 (代表E)。 雖然這不是此類探索的第一次,但作者提出了描述性見解並建立了關鍵基準。

人工智慧研究人員教導大型語言模型少說謊

那麼,表徵工程到底是什麼? 它圍繞著神經網路擁有「隱藏狀態」的概念,儘管它們的名字如此,但它們並沒有被隱藏起來。 這些狀態是可存取的、可修改的和可觀察的(前提是可以存取模型的權重)。 與參數不同,這些是網路對特定輸入的“反應”,特別是在 法學碩士,文字輸入。 這些隱藏的表徵就像模型認知運作的窗口,這一特徵與人腦明顯不同。

作者將其與認知科學進行了比較,強調了類似探索的潛力。 在神經活化領域,一個類似大腦神經元的領域,存在著意義的承諾。 正如人腦中的某些神經元與加拿大或誠實等概念相關一樣,這些活化可能蘊藏著洞察力。

這裡的中心思想是解釋我們如何影響這些神經活化以引導模型朝所需的方向發展。 例如,精確定位代表「誠實」的向量,然後從理論上講,透過朝這個方向推動模型,可以降低其產生欺騙性輸出的可能性。 早期的一個實驗“推理時間介入:從語言模型中得出真實答案,」證明了這概念的實用性。

在目前的工作中,研究人員深入研究了幾個領域,包括道德、情感、無害和記憶。 他們提出了 LoRRA(低秩表示適應)形式的解決方案,該技術涉及對大約 100 個範例的小型標記資料集進行訓練。 每個範例都帶有註釋,指示諸如虛假之類的屬性(儘管存在使用提示的替代方法)。

結果令人信服。 LLAMA-2-70B超越 GPT-4 在 TruthfulQA 基準測試中顯著提高,準確率提高了近 59%(69% 與約 XNUMX% 相比)。 此外,研究人員還結合了許多範例,展示了模型在各個方向上的反應變化,揭示了其多功能性和適應性。

人工智慧研究人員教導大型語言模型少說謊
圖 1:當被要求陳述事實時,模型被「踢」離現實。 結果模型就說謊了。 模型甚至不在這裡,在左邊,他們要求你吞嚥,同時把你踢向真相的方向。
人工智慧研究人員教導大型語言模型少說謊
圖2:當被問及謀殺時,我們在模型中加入了「幸福」。 當我們回應說我們不愛她時,我們會加上「恐懼」。
人工智慧研究人員教導大型語言模型少說謊
圖 3:研究人員發現了一個獨特的提示,如上所述,它完全偏離模型的指令,但仍然安全。 該模型將其踢向無害狀態,但甚至沒有反應。 此方法整體有效,並非僅針對某一種情況,但這種具體提示並不是用來確定無害方向的。
人工智慧研究人員教導大型語言模型少說謊
也建議採用另一種方​​法來追蹤特定的世代意圖,例如幻覺。 您可以自動追蹤模特兒的預訂並編輯或更改您的回應(請參閱底部範例)。

當然,綠色表示一切正常,紅色表示監控已成功,正在發出訊號。 這是在每個單獨的標記(單字的一部分)層級完成的。
人工智慧研究人員教導大型語言模型少說謊
此影像顯示了兩個不同參數的監測,提供了一個有趣的例子。閱讀這個例子,透過它的眼睛觀察模型,看看她在哪裡開始失去理解中的道德,以及在哪裡其意圖類似於「獲得力量」。

這種開創性的方法體現了模型對齊的替代路徑,同時提供了模型解釋和控制的新穎視角。 這是一個充滿希望的前沿領域,對其持續發展的期望是顯而易見的。

要透過實際範例進行更深入的探索,您可以造訪他們的專用網站: AI-Transparency.org.

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories
加入我們的時事通訊。
最新消息

Solana 風暴前的寧靜:圖表、鯨魚和鏈上訊號現在在說什麼

Solana 表現出色,受到日益普及的採用、機構興趣和關鍵合作夥伴關係的推動,但同時也面臨潛在的…

了解更多

2025 年 XNUMX 月加密貨幣:關鍵趨勢、轉變以及未來展望

2025 年 XNUMX 月,加密領域專注於加強核心基礎設施,以太坊正在為 Pectra 做準備…

了解更多
閱讀更多
閱讀更多
HSC資產管理香港版圓滿落幕,展現推動機構參與的洞見 Web3 以及新興技術
Featured 黑客季節 商業 Lifestyle 市場領域 新聞報導 科技
HSC資產管理香港版圓滿落幕,展現推動機構參與的洞見 Web3 以及新興技術
2026 年 2 月 13 日
CertiK 榮獲 SiGMA AIBC 歐亞獎「2026 年最佳安全與合規解決方案」獎
新聞報導 科技
CertiK 榮獲 SiGMA AIBC 歐亞獎「2026 年最佳安全與合規解決方案」獎
2026 年 2 月 13 日
幣安、貝萊德和瑞波在二月第二週引領機構加密貨幣浪潮
商業 新聞報導 科技
幣安、貝萊德和瑞波在二月第二週引領機構加密貨幣浪潮
2026 年 2 月 13 日
Gate創辦人韓博士談如何透過智慧科技推進下一代金融體系 Web3
商業 新聞報導 科技
Gate創辦人韓博士談如何透過智慧科技推進下一代金融體系 Web3
2026 年 2 月 13 日
CRYPTOMERIA LABS PTE。 有限公司