OpenAI:新的流程監督獎勵模型改進了人工智能推理
簡單來說
OpenAI的過程監督獎勵模型(PRM)旨在評估人工智能模型的中間步驟和推理,從而提高性能和指標。
OpenAI 以其在過程監督獎勵模型方面的開創性工作再次引起了人工智能界的關注(的PRM). 這種創新方法旨在評估 AI 模型的中間步驟和推理,從而提高性能和指標。
在傳統的人類反饋強化學習中(左高頻),模型反饋通常是根據模型生成的總體結果給出的。 然而, OpenAI的新研究探索了評估模型所執行的各個步驟和推理過程的想法。 通過這樣做,他們可以提供更細粒度的評估和反饋。
為了解決這個問題, OpenAI 選擇需要多種操作的數學問題。 獨立 模型 接受過有效評估中間步驟的培訓,充當批評家以識別主要模型做出的任何錯誤判斷。 此過程不僅提高了整體性能,而且改進了用於評估模型功能的指標。
OpenAI 在這一領域取得了重大進展,發布了精心策劃的數據集,其中包括 800,000個標記判斷. 每個判斷代表解決數學問題的一個單獨階段,並且是手動創建的。 這凸顯了奉獻精神和資源水平 OpenAI 投資開發高質量數據集,提出有關為其他領域收集的數據量的問題,例如編程或開放式問題。
的培訓 GPT-4, OpenAI的最新版本 GPT 系列,已經在有條不紊地進行中。 雖然 RLHF 組件沒有納入目前的實驗中,但使用了純語言模型。 尤其, OpenAI 提到有多個版本 GPT-4,即使是最小的版本也需要更少的訓練資源——大約減少 200 倍。
分享的一個有趣的例子 OpenAI 展示模型如何評估 每個單獨的決策步驟。 在帖子中包含的屏幕截圖中,解決方案中的錯誤被標記,並給出最低的正確性分數,以紅色突出顯示。 該演示強調了模型的推理能力,並為其決策過程提供了寶貴的見解。 OpenAI 還提供了加價說明,為眾包者提供了貢獻並從其工作中受益的機會。
As OpenAI 不斷突破人工智能研究的界限,他們對模型推理和過程監督獎勵建模的關注為增強人工智能能力帶來了新的可能性。 這一最新突破展示了他們對提高模型性能的承諾,並為該領域的進一步進步打開了大門。
- 最近, 據報導,蘋果公司限制員工使用 ChatGPT 和其他人工智能驅動的聊天機器人由於隱私問題。 《華爾街日報》報導稱,員工還被限制使用 GitHub 的人工智能工具 Copilot,該工具 使用戶能夠自動編寫軟件代碼. ChatGPT 是一個由人工智能驅動的聊天機器人 OpenAI,因侵犯隱私而受到批評。
閱讀有關人工智能的更多信息:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。