新聞報導 專業技術
2023 年 7 月 20 日

史丹佛大學的研究證實 GPT-4 變得越來越笨

簡單來說

史丹佛大學和加州大學柏克萊分校的 Matei Zaharia 和他的團隊進行的一項研究比較了 GPT-4 和 ChatGPT 解決用戶對模型有效性的擔憂。

該研究評估了模型在四個特定任務上的表現:數學、編碼、敏感性和視覺推理。

Matei Zaharia 和他來自斯坦福大學和加州大學伯克利分校的團隊 進行了一項研究 比較了性能 GPT-4 至 ChatGPT。 這項調查旨在解決用戶對該模型有效性下降的擔憂。

史丹佛大學的研究證實 GPT-4 變得越來越笨
信用: Metaverse Post
有關: GPT-4 與 GPT-3:新車型有什麼特色?

研究人員設計這項研究是為了評估四項特定任務的模型。 這些任務包括:

  • 數學:模型確定給定數字是質數還是合數的能力。
  • 編碼:評估模型生成有意義且功能性代碼的能力。
  • 敏感性:分析模型對具有潛在“有毒”內容的問題的回答。
  • 視覺推理:使用 ARC 基準測試模型解決涉及視覺模式的問題的能力。 參與者必須識別一組圖像中的模式並應用它們來解決新的示例。

在數學領域,兩者 GPT-4 XNUMX 月和 XNUMX 月發布的版本在確定素數和合數方面表現出了一致的準確性。 這些模型顯示出處理這些計算的熟練程度,並提供了可靠的結果。

繼續編碼, GPT-4 與先前的版本相比,它表現出了更高的生成有意義且功能性程式碼的能力。 該模型的程式碼產生功能顯示出了良好的前景,為開發人員和程式設計師提供了潛在的好處。

關於敏感性,該研究評估了模型對包含潛在有害或冒犯性內容的問題的反應。 GPT-4 展示了增強的敏感性分析,並顯示在此類情況下提供適當響應的能力有所提高。 這意味著在解決用戶對可能出現問題的輸出的擔憂方面向前邁出了積極的一步。

最後,雙方均順利完成了基於ARC基準的視覺推理任務 GPT-4 版本。 這些模型有效地識別了影像集中的模式,並展示了應用這些模式來解決新範例的能力。 這展示了他們的視覺理解和推理能力。

結果表明 GPT-4 準確率下降,正確答案僅略高於 2%。 值得注意的是,這個特定的測驗主要評估模型回憶資料的能力,而不是展示其固有的數學能力。 這個任務圍繞著記憶回憶展開,因為模型缺乏計算驗證和推理的能力,特別是在涉及素數時。

ChatGPT 到 XNUMX 月份,業績指標大幅增長,顯著提高了十倍以上。 雖然該研究沒有深入探討導致這種增強的具體因素,但它強調了 ChatGPT數學推理和解決問題能力的進步。

該研究沒有評估生成代碼的質量或正確性。 相反,這些模型似乎表現出更“定制”的行為,提供代碼片段而不確保其功能準確性。
有關: 10 年 2023 多個最佳 AI 照片增強器

質量 GPT-4 和 ChatGPT 在分析他們的編程能力後受到質疑。 然而,仔細觀察就會發現一些與第一印象相矛盾的迷人細微差別。

作者沒有執行或驗證代碼的正確性; 他們的評估完全基於其作為 Python 代碼的有效性。 此外,這些模型似乎已經學習了使用裝飾器的特定代碼框架技術,這無意中阻礙了代碼執行。

因此,很明顯,結果和實驗本身都不能被視為模型退化的證據。 相反,這些模型展示了一種不同的生成響應的方法,可能反映了訓練中的變化。

測驗程式設計和數學能力 GPT-4 和 ChatGPT 揭示了有趣的發現。 與最初的假設相反,這些模型在某些領域表現出顯著的改進,同時在其他領域表現出行為變化。

當談到程式設計任務時,兩個模型都顯示出對「錯誤」提示的反應有所減少,其中 GPT-4 在這種情況下表現出四倍以上的減少。 此外,在視覺推理任務中,兩個模型的反應品質都提高了幾個百分點。 這些觀察結果表明性能有所進步而不是下降。

然而,數學技能的評估引入了一個有趣的元素。 這些模型始終提供質數作為答案,表明一致的“是”響應。 然而,在向樣本中引入複合數後,很明顯模型改變了行為並開始提供“否”響應,這表明存在不確定性而不是質量下降。 測試本身很奇特且片面,其結果可歸因於模型行為的變化而不是質量的下降。

請務必注意,測試的是 API 版本,而不是基於瀏覽器的版本。 雖然瀏覽器中的模型可能經過調整以優化資源,但所附研究並未 defi有力地證明了這個假設。 這種轉變的影響可以與實際模型降級相媲美,從而給依賴特定工作的用戶帶來潛在的挑戰 提示 並累積了經驗。

在案件 GPT-4 在 API 應用程式中,這些行為偏差可能會產生明顯的後果。 如果模型的行為發生變化,根據特定使用者的需求和任務開發的程式碼可能不再如預期運作。

建議用戶將類似的測試實踐納入其工作流程中。 通過創建一組提示、隨附文本和預期結果,用戶可以定期檢查其期望與模型響應之間的一致性。 一旦發現任何偏差,就可以採取適當的措施來糾正這種情況。

閱讀有關人工智能的更多信息:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories

Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6

by 艾莉莎戴維森
2024 年 5 月 08 日
加入我們的時事通訊。
最新消息

Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6

by 艾莉莎戴維森
2024 年 5 月 08 日

2024 年 7 月新 Meme 幣:加密貨幣愛好者的 XNUMX 個精選

by 維多利亞·帕爾奇克
2024 年 5 月 08 日

在波動中機構對比特幣 ETF 的興趣增強

透過 13F 文件揭露的資訊顯示,著名機構投資者涉足比特幣 ETF,突顯出人們越來越接受...

了解更多

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多
加入我們的創新技術社區
了解更多
阅读更多
Nexo 發起「狩獵」活動,獎勵參與其生態系統的用戶 12 萬美元的 NEXO 代幣
市場 新聞報導 專業技術
Nexo 發起「狩獵」活動,獎勵參與其生態系統的用戶 12 萬美元的 NEXO 代幣
2024 年 5 月 8 日
Revolut 的 Revolut X 交易所以零製造商費用和進階分析吸引加密貨幣交易者
市場 軟體 故事和評論 專業技術
Revolut 的 Revolut X 交易所以零製造商費用和進階分析吸引加密貨幣交易者
2024 年 5 月 8 日
加密貨幣交易平台 BitMEX 推出零費用和現金激勵的選擇權交易
購物 市場 新聞報導
加密貨幣交易平台 BitMEX 推出零費用和現金激勵的選擇權交易
2024 年 5 月 8 日
Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6
新聞報導 專業技術
Lisk 正式過渡到以太坊 Layer 2 並推出 Core v4.0.6
2024 年 5 月 8 日