新聞報導 專業技術
2023 年 6 月 01 日

OpenAI:新的流程監督獎勵模型改進了人工智能推理

簡單來說

OpenAI的過程監督獎勵模型(PRM)旨在評估人工智能模型的中間步驟和推理,從而提高性能和指標。

OpenAI 以其在過程監督獎勵模型方面的開創性工作再次引起了人工智能界的關注(的PRM). 這種創新方法旨在評估 AI 模型的中間步驟和推理,從而提高性能和指標。

OpenAI:新的流程監督獎勵模型改進了人工智能推理
信用: Metaverse Post (mpost.io)
推薦的: ChatGPT 可以通過讓交易變得更容易來改變華爾街

在傳統的人類反饋強化學習中(左高頻),模型反饋通常是根據模型生成的總體結果給出的。 然而, OpenAI的新研究探索了評估模型所執行的各個步驟和推理過程的想法。 通過這樣做,他們可以提供更細粒度的評估和反饋。

為了解決這個問題, OpenAI 選擇需要多種操作的數學問題。 獨立 模型 接受過有效評估中間步驟的培訓,充當批評家以識別主要模型做出的任何錯誤判斷。 此過程不僅提高了整體性能,而且改進了用於評估模型功能的指標。

OpenAI 在這一領域取得了重大進展,發布了精心策劃的數據集,其中包括 800,000個標記判斷. 每個判斷代表解決數學問題的一個單獨階段,並且是手動創建的。 這凸顯了奉獻精神和資源水平 OpenAI 投資開發高質量數據集,提出有關為其他領域收集的數據量的問題,例如編程或開放式問題。

的培訓 GPT-4, OpenAI的最新版本 GPT 系列,已經在有條不紊地進行中。 雖然 RLHF 組件沒有納入目前的實驗中,但使用了純語言模型。 尤其, OpenAI 提到有多個版本 GPT-4,即使是最小的版本也需要更少的訓練資源——大約減少 200 倍。

分享的一個有趣的例子 OpenAI 展示模型如何評估每個單獨的決策步驟。 在帖子中包含的屏幕截圖中,解決方案中的錯誤被標記,並給出最低的正確性分數,以紅色突出顯示。
信用: OpenAI

分享的一個有趣的例子 OpenAI 展示模型如何評估 每個單獨的決策步驟。 在帖子中包含的屏幕截圖中,解決方案中的錯誤被標記,並給出最低的正確性分數,以紅色突出顯示。 該演示強調了模型的推理能力,並為其決策過程提供了寶貴的見解。 OpenAI 還提供了加價說明,為眾包者提供了貢獻並從其工作中受益的機會。

As OpenAI 不斷突破人工智能研究的界限,他們對模型推理和過程監督獎勵建模的關注為增強人工智能能力帶來了新的可能性。 這一最新突破展示了他們對提高模型性能的承諾,並為該領域的進一步進步打開了大門。

閱讀有關人工智能的更多信息:

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories
加入我們的時事通訊。
最新消息

在波動中機構對比特幣 ETF 的興趣增強

透過 13F 文件揭露的資訊顯示,著名機構投資者涉足比特幣 ETF,突顯出人們越來越接受...

了解更多

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多
加入我們的創新技術社區
了解更多
阅读更多
唐納德·川普向加密貨幣的轉變:從反對者到倡導者,以及這對美國加密貨幣市場意味著什麼
購物 市場 故事和評論 專業技術
唐納德·川普向加密貨幣的轉變:從反對者到倡導者,以及這對美國加密貨幣市場意味著什麼
2024 年 5 月 10 日
Layer3 將於今年夏天推出 L3 代幣,將總供應量的 51% 分配給社區
市場 新聞報導 專業技術
Layer3 將於今年夏天推出 L3 代幣,將總供應量的 51% 分配給社區
2024 年 5 月 10 日
愛德華·斯諾登對比特幣開發者的最後警告:「讓隱私成為協議級別的優先事項,否則就有失去隱私的風險
市場 安全性 Wiki 軟體 故事和評論 專業技術
愛德華·斯諾登對比特幣開發者的最後警告:「讓隱私成為協議級別的優先事項,否則就有失去隱私的風險
2024 年 5 月 10 日
樂觀情緒驅動的以太坊 Layer 2 Network Mint 將於 15 月 XNUMX 日推出主網
新聞報導 專業技術
樂觀情緒驅動的以太坊 Layer 2 Network Mint 將於 15 月 XNUMX 日推出主網
2024 年 5 月 10 日