人工智慧研究人員教導大型語言模型少說謊
來自該領域不同角落的 20 多名研究人員共同努力,催生了一個新興領域—— 代表性工程 (代表E)。 雖然這不是此類探索的第一次,但作者提出了描述性見解並建立了關鍵基準。
那麼,表徵工程到底是什麼? 它圍繞著神經網路擁有「隱藏狀態」的概念,儘管它們的名字如此,但它們並沒有被隱藏起來。 這些狀態是可存取的、可修改的和可觀察的(前提是可以存取模型的權重)。 與參數不同,這些是網路對特定輸入的“反應”,特別是在 法學碩士,文字輸入。 這些隱藏的表徵就像模型認知運作的窗口,這一特徵與人腦明顯不同。
作者將其與認知科學進行了比較,強調了類似探索的潛力。 在神經活化領域,一個類似大腦神經元的領域,存在著意義的承諾。 正如人腦中的某些神經元與加拿大或誠實等概念相關一樣,這些活化可能蘊藏著洞察力。
這裡的中心思想是解釋我們如何影響這些神經活化以引導模型朝所需的方向發展。 例如,精確定位代表「誠實」的向量,然後從理論上講,透過朝這個方向推動模型,可以降低其產生欺騙性輸出的可能性。 早期的一個實驗“推理時間介入:從語言模型中得出真實答案,」證明了這概念的實用性。
在目前的工作中,研究人員深入研究了幾個領域,包括道德、情感、無害和記憶。 他們提出了 LoRRA(低秩表示適應)形式的解決方案,該技術涉及對大約 100 個範例的小型標記資料集進行訓練。 每個範例都帶有註釋,指示諸如虛假之類的屬性(儘管存在使用提示的替代方法)。
結果令人信服。 LLAMA-2-70B超越 GPT-4 在 TruthfulQA 基準測試中顯著提高,準確率提高了近 59%(69% 與約 XNUMX% 相比)。 此外,研究人員還結合了許多範例,展示了模型在各個方向上的反應變化,揭示了其多功能性和適應性。
這種開創性的方法體現了模型對齊的替代路徑,同時提供了模型解釋和控制的新穎視角。 這是一個充滿希望的前沿領域,對其持續發展的期望是顯而易見的。
要透過實際範例進行更深入的探索,您可以造訪他們的專用網站: AI-Transparency.org.
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。