新聞報導 專業技術
2023 年 3 月 15 日

GPT-4 性能優於 GPT-3.5 全面採用各種研究基準

簡單來說

GPT-4 已達到比 GPT-3.5 在各種基準上。

這是一項重大成就,因為它表明機器不僅具有類似人類的智能,而且還可以勝過我們,這引發了人們對人工智能的未來及其對就業市場的潛在影響的質疑。

GPT-4 明顯優於最先進的(SOTA)模型,包括那些使用額外的訓練協議或特定基準設計的模型,以及現有的大語言模型。

GPT-4 取得了比 GPT-3.5 在各種基準上。 這對機器來說是一個重大突破,因為它證明它們現在不僅可以解決最初設計的問題,而且可以比大學生做得更好。

GPT-4 性能優於 GPT-3.5 全面採用各種研究基準

查看此結果時需要考慮一些事項。 首先, GPT-4 沒有接受過任何針對這些考試的具體訓練。 它是透過使用最新的公開測試(在奧林匹克競賽和 AP 自由回答問題的情況下)或購買 2022-2023 年版本的練習考試來進行。 其次,值得注意的是, GPT-4的表現可能不一定反映人類測試者的能力,因為它是基於不同的原理和演算法。

這是一項重大成就,因為 表明 機器不僅具有類似人類的智能,而且還可以勝過我們。 這為機器可以承擔越來越複雜的任務的未來鋪平了道路,最終導致它們可以在日常生活中協助我們的未來。

GPT-4在某些任務中超越人類的能力引發了人們對未來的疑問 人工智能 及其對就業市場的潛在影響。 它還強調了在該領域繼續研究和開發的必要性,以確保以合乎道德和負責任的方式使用人工智能。
閱讀更多: 5 年最受期待的 2023 種以上文本到圖像 AI 模型

GPT-4例如,通過了模擬律師考試,成績位於考生前 10%; GPT-3.5的分數處於倒數10%。 這項重大改進 GPT-4其性能得益於其更大的訓練資料和改進的架構。 預計它將在自然語言處理和自動寫作等各個領域有廣泛的應用。

 
GPT-4 在大多數專業和學術考試中都表現出了人類水平的表現。 值得注意的是,它通過了模擬版的統一律師考試,成績位於考生前 10% 之內。 此模型的考試能力似乎主要源自於預訓練過程,且不受 RLHF 的顯著影響。 在多項選擇題中,基礎 GPT-4 模型和 RLHF 模型在接受測試的開發人員中平均表現同樣出色。

大多數最先進的 (SOTA) 模型,包括那些可能使用額外訓練協議或基準特定設計的模型,以及現有的大型模型 語言模型,明顯優於 GPT-4.

GPT-4在學術標準方面的表現。 開發商對比 GPT-4 具有 LM 評估的少數樣本的最佳 SOTA 以及具有特定基準訓練的最佳 SOTA。 除了 DROP 之外, GPT-4 在所有基準測試和針對特定基準訓練的 SOTA 上均優於目前所有 LM。

在內部,開發人員一直在利用 GPT-4,這對程式設計、銷售、支援和內容審核等活動產生了重大影響。 我們的對齊方法的第二階段正在進行中,開發人員使用它來幫助人類審查人工智慧結果。

MMLU(Massive Multi-Task Language Understanding)數據集包含來自不同任務中語言理解的非常廣泛主題的問題(跨越 57 個領域,包括數學、生物學、法律、社會和人文科學等)。 這個問題有四種可能的答案,其中一種是正確的。 也就是說,隨機猜測顯示 25% 正確答案的結果。 有關問題及其困難的示例,請參見下圖。 一般的 person-marker(也就是說,這不是科學家,不是教授——兼職做標記的普通人)正確回答了 35% 的問題; 但是,專家可以達到 +/- 90% 的分數。

的表演 GPT-4 與 MMLU 上早期的英語模型相比,該模型具有多種語言版本。 GPT-4 對於大多數被檢查的語言,包括拉脫維亞語、威爾斯語和斯瓦希里語等資源匱乏的語言,其表現超過了現有語言模型的英語表現。
閱讀更多: 使用 AI 驅動的 Bing 而不是 Google 的 5 個理由

最初,整個資料集都是英文的。 但是,如果問題和答案被翻譯成其他語言,尤其是不太常見的語言呢? 這個模型對他們有用嗎? 在本次測試中,使用 Microsoft Azure Translate 服務進行翻譯。 翻譯不完美; 在某些情況下,重要資訊會遺失。 然而,即使在這種情況下, GPT-4 在其他語言中表現良好。 在 MMLU 的翻譯版本中, GPT-4 在檢查的 24 種語言中,有 26 種語言的英語程度優於其他大型模型(包括 Google 的)。

更重要的是, GPT-4 在稀有語言的表現優於 ChatGPT 用英語做了(ChatGPT 得分為 70.1%,而新型號的泰語得分為 71.8%)。 英語考試得分最高, GPT-4 比其他型號(包括 Google 最大的 PaLM)表現好 10%。 它的得分為86.4%,而專家組的得分為90%。

  • 到 2023 年夏天,人工智能可能會達到一個新的水平,這要歸功於 ChatGPT,一個聊天機器人,使用 GPT-4 演算法和 性能優於 GPT-3 570 倍。 多種元素有助於 ChatGPT的成功,包括其設計更加“人性化”,以及使用尖端的數據挖掘和自然語言處理來提高其有效性和準確性。
  • 微軟和 OpenAI 一月宣布了雙方的合作續約,並計劃讓 Bing 搜尋採用人工智慧增強的查找功能。 非常複雜的 GPT3.5型號的更換, GPT4, 剛剛推出,它有可能大大增強 Bing 搜索理解自然語言查詢和提供更準確結果的能力。 有一個好的備份計劃是個好主意,以防出現問題。

閱讀更多相關新聞:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性

by 艾莉莎戴維森
2024 年 5 月 03 日

Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸

by 艾莉莎戴維森
2024 年 5 月 03 日

CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵

by 艾莉莎戴維森
2024 年 5 月 03 日
加入我們的時事通訊。
最新消息

Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性

by 艾莉莎戴維森
2024 年 5 月 03 日

Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸

by 艾莉莎戴維森
2024 年 5 月 03 日

CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵

by 艾莉莎戴維森
2024 年 5 月 03 日

在波動中機構對比特幣 ETF 的興趣增強

透過 13F 文件揭露的資訊顯示,著名機構投資者涉足比特幣 ETF,突顯出人們越來越接受...

了解更多

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多
加入我們的創新技術社區
了解更多
阅读更多
Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性
購物 新聞報導 專業技術
Injective 與 AltLayer 聯手為 inEVM 帶來重新抵押安全性
2024 年 5 月 3 日
Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸
市場 新聞報導 專業技術
Masa 與 Teller 合作推出 MASA 借貸池,支援 USDC 借貸
2024 年 5 月 3 日
Velodrome 將在未來幾週內推出 Superchain Beta 版本,並在 OP 堆疊第 2 層區塊鏈上進行擴展
市場 新聞報導 專業技術
Velodrome 將在未來幾週內推出 Superchain Beta 版本,並在 OP 堆疊第 2 層區塊鏈上進行擴展
2024 年 5 月 3 日
CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵
購物 新聞報導 專業技術
CARV 宣布與 Aethir 合作,以分散其數據層並分配獎勵
2024 年 5 月 3 日