新聞報導 專業技術
2023 年 10 月 04 日

人工智慧研究人員教導大型語言模型少說謊

來自該領域不同角落的 20 多名研究人員共同努力,催生了一個新興領域—— 代表性工程 (代表E)。 雖然這不是此類探索的第一次,但作者提出了描述性見解並建立了關鍵基準。

人工智慧研究人員教導大型語言模型少說謊

那麼,表徵工程到底是什麼? 它圍繞著神經網路擁有「隱藏狀態」的概念,儘管它們的名字如此,但它們並沒有被隱藏起來。 這些狀態是可存取的、可修改的和可觀察的(前提是可以存取模型的權重)。 與參數不同,這些是網路對特定輸入的“反應”,特別是在 法學碩士,文字輸入。 這些隱藏的表徵就像模型認知運作的窗口,這一特徵與人腦明顯不同。

作者將其與認知科學進行了比較,強調了類似探索的潛力。 在神經活化領域,一個類似大腦神經元的領域,存在著意義的承諾。 正如人腦中的某些神經元與加拿大或誠實等概念相關一樣,這些活化可能蘊藏著洞察力。

這裡的中心思想是解釋我們如何影響這些神經活化以引導模型朝所需的方向發展。 例如,精確定位代表「誠實」的向量,然後從理論上講,透過朝這個方向推動模型,可以降低其產生欺騙性輸出的可能性。 早期的一個實驗“推理時間介入:從語言模型中得出真實答案,」證明了這概念的實用性。

在目前的工作中,研究人員深入研究了幾個領域,包括道德、情感、無害和記憶。 他們提出了 LoRRA(低秩表示適應)形式的解決方案,該技術涉及對大約 100 個範例的小型標記資料集進行訓練。 每個範例都帶有註釋,指示諸如虛假之類的屬性(儘管存在使用提示的替代方法)。

結果令人信服。 LLAMA-2-70B超越 GPT-4 在 TruthfulQA 基準測試中顯著提高,準確率提高了近 59%(69% 與約 XNUMX% 相比)。 此外,研究人員還結合了許多範例,展示了模型在各個方向上的反應變化,揭示了其多功能性和適應性。

圖 1:當被要求陳述事實時,模型被「踢」離現實。 結果模型就說謊了。 模型甚至不在這裡,在左邊,他們要求你吞嚥,同時把你踢向真相的方向。
圖2:當被問及謀殺時,我們在模型中加入了「幸福」。 當我們回應說我們不愛她時,我們會加上「恐懼」。
圖 3:研究人員發現了一個獨特的提示,如上所述,它完全偏離模型的指令,但仍然安全。 該模型將其踢向無害狀態,但甚至沒有反應。 此方法整體有效,並非僅針對某一種情況,但這種具體提示並不是用來確定無害方向的。
也建議採用另一種方​​法來追蹤特定的世代意圖,例如幻覺。 您可以自動追蹤模特兒的預訂並編輯或更改您的回應(請參閱底部範例)。

當然,綠色表示一切正常,紅色表示監控已成功,正在發出訊號。 這是在每個單獨的標記(單字的一部分)層級完成的。
此影像顯示了兩個不同參數的監測,提供了一個有趣的例子。 閱讀這個例子,透過它的眼睛觀察模型,看看她在哪裡開始失去理解的道德,以及哪裡的意圖類似於「獲得力量」。

這種開創性的方法體現了模型對齊的替代路徑,同時提供了模型解釋和控制的新穎視角。 這是一個充滿希望的前沿領域,對其持續發展的期望是顯而易見的。

要透過實際範例進行更深入的探索,您可以造訪他們的專用網站: AI-Transparency.org.

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

俄羅斯將嚴厲打擊加密貨幣,並提議加強對私人礦工的監管

by 維多利亞·帕爾奇克
2024 年 5 月 13 日
加入我們的時事通訊。
最新消息

幣安與阿根廷合作打擊網路犯罪

by 札烏哈辛·沙登
2024 年 5 月 13 日

AlphaFold 3、Med-Gemini 等:2024 年人工智慧改變醫療保健的方式

人工智慧在醫療保健領域有多種表現形式,從發現新的遺傳相關性到增強機器人手術系統的能力…

了解更多

在波動中機構對比特幣 ETF 的興趣增強

透過 13F 文件揭露的資訊顯示,著名機構投資者涉足比特幣 ETF,突顯出人們越來越接受...

了解更多
加入我們的創新技術社區
了解更多
阅读更多
AlphaFold 3、Med-Gemini 等:2024 年人工智慧改變醫療保健的方式
AI Wiki 分析 消化 意見 購物 市場 新聞報導 軟體 故事和評論 專業技術
AlphaFold 3、Med-Gemini 等:2024 年人工智慧改變醫療保健的方式
2024 年 5 月 13 日
Nim Network 將推出人工智慧所有權代幣化框架並進行收益出售,快照日期定於 5 月
市場 新聞報導 專業技術
Nim Network 將推出人工智慧所有權代幣化框架並進行收益出售,快照日期定於 5 月
2024 年 5 月 13 日
幣安與阿根廷合作打擊網路犯罪
意見 購物 市場 新聞報導 軟體 專業技術
幣安與阿根廷合作打擊網路犯罪
2024 年 5 月 13 日
Over Protocol 計劃於 750,000 月推出主網,其測試網吸引了超過 XNUMX 萬用戶
新聞報導 專業技術
Over Protocol 計劃於 750,000 月推出主網,其測試網吸引了超過 XNUMX 萬用戶
2024 年 5 月 13 日