新聞報導 專業技術
2023 年 5 月 15 日

法學碩士課程:在復雜情況下微調神經模型的新途徑

簡單來說

作者提出了一種稱為 LLM Programs 的替代路徑,可以將其視為情境學習的發展。

通過 LLM 計劃解決問題的關鍵是能夠將問題的解決方案分解為一系列更簡單的步驟。

LLM 定制有兩個主要領域:微調(或額外訓練)預訓練基礎模型和上下文學習。 微調需要大量的計算資源、數據收集和基礎設施來執行此操作,然後託管經過微調的模型。 同時,情境學習涉及使用解決問題的示例來編譯正確的提示,例如思維鏈 (CoT)。 然而,存在一些困難,例如可以提交給模型的文本大小有限,以及在復雜的多遍提示中,步驟可能會相互干擾,模型可能會被某些東西分散注意力現在不應該分心。 作者提出了一種替代路徑,稱為 法學碩士課程,這可以被認為是情境學習的發展。

法學碩士課程:在復雜情況下微調神經模型的新途徑
推薦: 提示工程終極指南 2023

LLM 內置於程序中(在傳統的 編程語言,例如,在 Python 中)。 該外部代碼負責存儲狀態並逐步維護模型。 它有幾個主要優點:編程語言適應了這一點,可用上下文的大小不斷增長,並且步驟不會相互干擾。 通過法學碩士課程解決問題的關鍵是能夠將問題的解決方案分解為一系列更簡單的步驟。 這種方法與以前的工作不同,以前的模型使用外部工具,例如計算器或 代碼解釋器 來維持狀態。 這種方法很好,因為可以用這種方式描述複雜且分散的任務,從而更容易測試、調試和評估質量。

此外,步驟之間沒有乾擾,使得使用 LLM 更容易。 問答系統也不是新的; 他們早在法學碩士之前就存在了。 現在答題任務是怎麼解決的?

網站經常更新,所以 冷凍模型 不是一個選項; 它很快就會過時,並且無法回答有關新產品的問題。 為每次更新不斷地重新訓練模型是不現實的選擇:它既昂貴又耗時。 相反,網站的頁面通常被編入索引,放入某種數據庫中,並且通常是矢量化的。 根據用戶的請求,相關文檔被提取並作為上下文發送給 LLM。

在這樣的範式下,問題自然是通過LLM Program來解決的。 作為獎勵,它 成為可能 實現不完全適合上下文的更複雜的多通道邏輯。

測試於 StrategyQA數據集 包含二元分類問題,其解決方案涉及多路推理。 就像“陽光能穿透黑海的最深處嗎?”。 要回答,你需要找出最大深度(2公里)和光線穿透水的深度(1公里),然後得出結論。 讓我們看一下另一個示例問題:“亞里士多德使用筆記本電腦嗎?” 這個問題不像“發明筆記本電腦時亞里士多德還活著嗎?”那樣直截了當,也沒有明確遵循推理步驟的順序。 做。 該數據集側重於此類序列是隱含的問題。 數據集中只有 2,780 個問題,其中只有 918 個具有加強推理所有步驟的證據的段落。 在目前的工作中,它僅限於這個子集; 否則,我們將不得不依賴 LLM 在預訓練期間學習一些事實。

默認情況下,OPT-175B LLM 不太擅長遵循說明; 它不必微調指令或對話數據。 為解決證據支持的問答問題,分為數據過濾階段和樹搜索階段。

在過濾階段,如果有問題,開發人員會檢查所有段落並選擇最相關的段落。 例如,通過幾次提示,要求 LLM 回答(是/否)給定段落是否與所提問題相關。 在 StrategyQA 的 300 個子集上進行測試,其中每個問題都與一個段落匹配,無論相關與否,50/50。 OPT-175B 和 text-davinci-002 沒有 更高的質量 比隨機基線:高達 56%。 更先進的 11B Tk-指令 也好不到 61.6%。

由於這種方法的質量很差,因此提出了一種替代方法,即考慮問題的平均負對數似然 (NLL) 並結合前面的文本段落,然後對結果進行排名。 在數據集上進行評估,其中每個問題有 100 個段落,只有一個是相關的(因此隨機猜測給出 1%)。 我們得到了 1% 的 top-79 準確率和 5% 的 top-93 準確率。 對於此計算,您通常需要訪問模型本身,這並不總是在 API 中完成。

接下來是構建輸出鏈的階段。 這是通過搜索以問題為根的樹來完成的,在每個級別上,都有許多段落和可能的證據用作生成下一步的上下文。 通過樹的每條路徑都是一個潛在的輸出鏈。 對所有可能的鏈下結論是不現實的,因此對所有可用的鏈進行排序,並擴展排名最高的鏈。 這是波束搜索的一種變體。 當做出響應或已超過允許的最大步數時,該過程將停止。

最重要的細節是為樹搜索步驟測試的兩種排序策略。 第一個策略是基於整個鏈的平均 NLL,而第二個策略是看 NLL 中有和沒有段落(P)、有和沒有問題(Q)的平均差異。 在 StrategyQA 提供的 918 個問題上,這種方法相對於 CoT 基線(60%)顯著提高了答案質量; 兩個搜索選項都給出了大約 66%(增量略高的策略)。 如果提交golden facts,質量就變成81%左右,這是OPT的上限。 Darklang 似乎要去某個地方,但方式略有不同。

文章基於Telegram 發表.

閱讀有關人工智能的更多信息:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性

by 艾莉莎戴維森
2024 年 5 月 03 日

Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸

by 艾莉莎戴維森
2024 年 5 月 03 日

CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵

by 艾莉莎戴維森
2024 年 5 月 03 日
加入我們的時事通訊。
最新消息

Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性

by 艾莉莎戴維森
2024 年 5 月 03 日

Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸

by 艾莉莎戴維森
2024 年 5 月 03 日

CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵

by 艾莉莎戴維森
2024 年 5 月 03 日

在波動中機構對比特幣 ETF 的興趣增強

透過 13F 文件揭露的資訊顯示,著名機構投資者涉足比特幣 ETF,突顯出人們越來越接受...

了解更多

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多
加入我們的創新技術社區
了解更多
阅读更多
Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性
購物 新聞報導 專業技術
Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性
2024 年 5 月 3 日
Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸
市場 新聞報導 專業技術
Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸
2024 年 5 月 3 日
Velodrome 將在未來幾週內推出 Superchain Beta 版本,並在 OP 堆疊第 2 層區塊鏈上進行擴展
市場 新聞報導 專業技術
Velodrome 將在未來幾週內推出 Superchain Beta 版本,並在 OP 堆疊第 2 層區塊鏈上進行擴展
2024 年 5 月 3 日
CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵
購物 新聞報導 專業技術
CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵
2024 年 5 月 3 日