意見 專業技術
2023 年 8 月 23 日

研究人員挑戰大型語言模型“新興能力”的概念

簡單來說

由於突然出現大型語言模型的現象,AGI 末日令人擔憂 展示能力 較小的型號似乎沒有。

這種現像被稱為“大型語言模型的新興能力”。

《大型語言模型的湧現能力是海市蜃樓嗎?》一文的作者認為新興能力的效果並不是海市蜃樓,而是執行任務能力的可預測增長。

他們表明,至少 92% 的 Big Bench 問題對於大型模型來說不會突然突破,並且隨著模型尺寸的增加,模型的質量會平穩且可預測地增長。

在最近對大型語言模型的潛在功能的檢查中,研究人員挑戰了“新興能力”的概念,並揭示了其功能的更可預測的方面。 文章標題為“揭示大型語言模型新興能力的現實”引起了人們對指標的誤解,這種誤解導致人們錯誤地認為這些模型會自發地獲得高級技能。

研究人員挑戰大型語言模型“新興能力”的概念
信用: Metaverse Post / Stable Diffusion

新興能力「在大型語言模型的背景下,例如 GPT 系列,引發了人們對這些模型發展出類似於人類意識的不可預見能力的潛力的擔憂。 本文斷言,這些假設是基於對模型實際行為和功能的錯誤理解。

常見的現像是,較大的模型似乎獲得了新的能力,例如抽象推理、解決問題甚至幽默,被稱為“大型語言模型的新興能力”。 文章的作者認為,這些能力並不像看上去那麼自發,而是誤導性評估指標的結果。

為了說明他們的觀點,研究人員考慮了“猜謎語”的任務,在這個問題中,語言模型需要理解自然語言謎語並用自然語言給出正確答案。 傳統上,響應的質量是使用二元指標來評估的:如果響應與正確答案完全匹配,則為 1 分,否則為 0 分。

問題的關鍵在於該指標對任務複雜性和模型參數數量的敏感性。 研究人員揭示,這種二元度量導致 欺騙性的認知 “新興能力”。 較小的模型通常在此指標上表現出可忽略不計的準確度(eps),而較大的模型,尤其是具有高參數計數的模型,似乎達到了顯著的準確度水平(acc > 0.5) 。

文章認為,這種明顯的能力轉變並不表明模型自發地獲得了複雜的技能。 相反,模型理解和生成更細緻的響應的能力源於對其輸出進行更細緻的評估。 通過關注概率匹配和語義一致性而不是精確的字符串匹配,研究人員表明 模型的進展 無論規模大小,性能都遵循更合乎邏輯的軌跡。

有關: T9 時代聊天機器人的演變 GPT-1 至 ChatGPT

研究參數變化時模型性能的演變

研究參數變化時模型性能的演變
信用: Metaverse Post / Stable Diffusion

在一項分析調查中,研究人員揭示了被感知的“新興能力”背後的微妙機制。 大型語言模型。 該研究質疑超離散指標在評估模型性能方面的影響,並闡明隨著模型參數的擴展,對其能力進行更具預測性的理解。

擴展語言模型中“新興能力”的流行概念引發了討論,並引發了對潛在突破的擔憂。 這項研究旨在理清這種現象背後的機制,並解讀這些模型是否確實表現出突然的、前所未有的能力,或者這些感知到的進步是否可以歸因於不同的原因。

這項研究的核心是對用於衡量模型性能的指標進行細緻的評估。 研究人員認為,使用超離散指標,特別是確定精確字符串匹配的傳統二進制指標,可能會扭曲大數據的解釋。 語言模型能力。 該研究仔細分析了模型生成答案的概率分佈如何隨著模型參數的變化而演變。

與“新興能力”的概念相反,該研究揭示了一種更加系統化的趨勢。 隨著模型規模的增加,其為正確答案分配更高概率、為錯誤答案分配更低概率的能力也會提高。 這反映出模型在各種規模上熟練解決問題的能力不斷增強。 從本質上講,研究表明模型的學習過程遵循良好的-defi改進的軌跡而不是突然的飛躍。

作者提出了一種範式轉變,建議用連續指標代替離散指標。 這一變化提供了更清晰的性能演變圖景。 通過分析,研究人員確定大約 92% 大板凳問題 隨著模型尺寸的擴大,質量呈現出平穩且可預測的增長。 這一發現挑戰了較大模型會經歷突然突破的觀念,而是強調了更加漸進和預期的進展。

該研究擴展了其見解以驗證其主張。 它表明可以使用傳統的自動編碼器人工模擬相同的“新興能力”效應,這表明指標的選擇會顯著影響感知結果。 這一發現擴大了該研究的影響範圍,證明其相關性超越了語言模型本身。

研究人員強調,他們的結果並不 defi明確否定大型語言模型中“新興能力”或意識的潛力。 然而,他們的發現確實鼓勵研究人員以細緻入微的視角來處理這些主張。 該研究強調細緻調查和全面分析的重要性,而不是倉促推斷和得出極端結論。

閱讀有關人工智能的更多信息:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6

by 艾莉莎戴維森
2024 年 5 月 08 日
加入我們的時事通訊。
最新消息

Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6

by 艾莉莎戴維森
2024 年 5 月 08 日

2024 年 7 月新 Meme 幣:加密貨幣愛好者的 XNUMX 個精選

by 維多利亞·帕爾奇克
2024 年 5 月 08 日

在波動中機構對比特幣 ETF 的興趣增強

透過 13F 文件揭露的資訊顯示,著名機構投資者涉足比特幣 ETF,突顯出人們越來越接受...

了解更多

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多
加入我們的創新技術社區
了解更多
阅读更多
Nexo 發起「狩獵」活動,獎勵參與其生態系統的用戶 12 萬美元的 NEXO 代幣
市場 新聞報導 專業技術
Nexo 發起「狩獵」活動,獎勵參與其生態系統的用戶 12 萬美元的 NEXO 代幣
2024 年 5 月 8 日
Revolut 的 Revolut X 交易所以零製造商費用和進階分析吸引加密貨幣交易者
市場 軟體 故事和評論 專業技術
Revolut 的 Revolut X 交易所以零製造商費用和進階分析吸引加密貨幣交易者
2024 年 5 月 8 日
Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6
新聞報導 專業技術
Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6
2024 年 5 月 8 日
2024 年 7 月新 Meme 幣:加密貨幣愛好者的 XNUMX 個精選
消化 市場 專業技術
2024 年 7 月新 Meme 幣:加密貨幣愛好者的 XNUMX 個精選
2024 年 5 月 8 日