GPT-4 性能優於 GPT-3.5 全面採用各種研究基準
簡單來說
GPT-4 已達到比 GPT-3.5 在各種基準上。
這是一項重大成就,因為它表明機器不僅具有類似人類的智能,而且還可以勝過我們,這引發了人們對人工智能的未來及其對就業市場的潛在影響的質疑。
GPT-4 明顯優於最先進的(SOTA)模型,包括那些使用額外的訓練協議或特定基準設計的模型,以及現有的大語言模型。
GPT-4 取得了比 GPT-3.5 在各種基準上。 這對機器來說是一個重大突破,因為它證明它們現在不僅可以解決最初設計的問題,而且可以比大學生做得更好。
查看此結果時需要考慮一些事項。 首先, GPT-4 沒有接受過任何針對這些考試的具體訓練。 它是透過使用最新的公開測試(在奧林匹克競賽和 AP 自由回答問題的情況下)或購買 2022-2023 年版本的練習考試來進行。 其次,值得注意的是, GPT-4的表現可能不一定反映人類測試者的能力,因為它是基於不同的原理和演算法。
這是一項重大成就,因為 表明 機器不僅具有類似人類的智能,而且還可以勝過我們。 這為機器可以承擔越來越複雜的任務的未來鋪平了道路,最終導致它們可以在日常生活中協助我們的未來。
GPT-4例如,通過了模擬律師考試,成績位於考生前 10%; GPT-3.5的分數處於倒數10%。 這項重大改進 GPT-4其性能得益於其更大的訓練資料和改進的架構。 預計它將在自然語言處理和自動寫作等各個領域有廣泛的應用。
大多數最先進的 (SOTA) 模型,包括那些可能使用額外訓練協議或基準特定設計的模型,以及現有的大型模型 語言模型,明顯優於 GPT-4.
在內部,開發人員一直在利用 GPT-4,這對程式設計、銷售、支援和內容審核等活動產生了重大影響。 我們的對齊方法的第二階段正在進行中,開發人員使用它來幫助人類審查人工智慧結果。
MMLU(Massive Multi-Task Language Understanding)數據集包含來自不同任務中語言理解的非常廣泛主題的問題(跨越 57 個領域,包括數學、生物學、法律、社會和人文科學等)。 這個問題有四種可能的答案,其中一種是正確的。 也就是說,隨機猜測顯示 25% 正確答案的結果。 有關問題及其困難的示例,請參見下圖。 一般的 person-marker(也就是說,這不是科學家,不是教授——兼職做標記的普通人)正確回答了 35% 的問題; 但是,專家可以達到 +/- 90% 的分數。
最初,整個資料集都是英文的。 但是,如果問題和答案被翻譯成其他語言,尤其是不太常見的語言呢? 這個模型對他們有用嗎? 在本次測試中,使用 Microsoft Azure Translate 服務進行翻譯。 翻譯不完美; 在某些情況下,重要資訊會遺失。 然而,即使在這種情況下, GPT-4 在其他語言中表現良好。 在 MMLU 的翻譯版本中, GPT-4 在檢查的 24 種語言中,有 26 種語言的英語程度優於其他大型模型(包括 Google 的)。
更重要的是, GPT-4 在稀有語言的表現優於 ChatGPT 用英語做了(ChatGPT 得分為 70.1%,而新型號的泰語得分為 71.8%)。 英語考試得分最高, GPT-4 比其他型號(包括 Google 最大的 PaLM)表現好 10%。 它的得分為86.4%,而專家組的得分為90%。
- 到 2023 年夏天,人工智能可能會達到一個新的水平,這要歸功於 ChatGPT,一個聊天機器人,使用 GPT-4 演算法和 性能優於 GPT-3 570 倍。 多種元素有助於 ChatGPT的成功,包括其設計更加“人性化”,以及使用尖端的數據挖掘和自然語言處理來提高其有效性和準確性。
- 微軟和 OpenAI 一月宣布了雙方的合作續約,並計劃讓 Bing 搜尋採用人工智慧增強的查找功能。 非常複雜的 GPT3.5型號的更換, GPT4, 剛剛推出,它有可能大大增強 Bing 搜索理解自然語言查詢和提供更準確結果的能力。 有一個好的備份計劃是個好主意,以防出現問題。
閱讀更多相關新聞:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。