OpenAI 發布 Evals,一個用於評估 AI 模型的開源軟件框架
簡單來說
OpenAI 希望眾包基準來評估人工智慧模型,例如 GPT-4.
支付處理公司 Stripe 已經使用 Evals 來衡量其支付的準確性 GPT- 驅動的文件工具。
OpenAI 將授予 GPT-4 那些貢獻高品質評估的人可以在有限的時間內訪問。
伴隨著公告 GPT-4, OpenAI 宣布了開源軟件框架 OpenAI 評估。 該工具旨在創建和運行基準測試來評估模型的性能,例如 GPT-4。 與埃瓦爾斯一起, OpenAI 希望眾包人工智能模型測試的基準。
“我們使用 Evals 來指導我們模型的開發(識別缺點和防止回歸),我們的用戶可以應用它來跟踪模型版本(現在將定期發布)和不斷發展的產品集成的性能,”該公司在A 博客文章.
Stripe 是一家受歡迎的支付處理公司,它已經使用 Evals 來補充其手動評估並衡量其準確性 GPT- 驅動的文件工具。
開發人員可以使用 Evals 創建和運行評估:
- 使用數據集生成提示,
- 衡量由供應商提供的完工質量 OpenAI 模型和
- 比較不同數據集和模型的性能。
使用開源代碼,開發人員還可以編寫和添加 自定義評估 以及 幾個模板 可以適應不同的基準。 該公司包含了內部最有用的模板,其中包括「模型分級評估」模板,該模板 GPT-4 可以用來檢查自己的工作。 作為一個例子,該公司創建了一個邏輯謎題評估,其中包含十個提示,其中 GPT-4 將失敗。
Evals 還與實施現有基準兼容,包括幾個實施學術基準的筆記本和集成 CoQA 小子集的一些變體。
雖然開發人員不會因貢獻評估而獲得報酬, OpenAI 將授予 GPT-4 那些貢獻“高品質評估”的人可以在有限的時間內訪問。
Evals 的宣布是在 OpenAI 最近說 它將停止使用客戶通過其 API 提交的數據來訓練或改進其模型,除非客戶決定選擇加入。該公司與 Meta 一起參與眾包基準測試,因為後者的任務是人類“尋找愚弄當前狀態的對抗性例子” -藝術模型”為其 動態台 平台。
閱讀更多:
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
辛迪是一名記者 Metaverse Post,涵蓋相關主題 web3, NFT、元宇宙和人工智能,重點是採訪 Web3 行業參與者。她曾與 30 多位 C 級高管進行過交談,並將他們的寶貴見解帶給讀者。辛蒂來自新加坡,現居住在喬治亞第比利斯。她擁有南澳大利亞大學傳播與媒體研究學士學位,並擁有十年的新聞和寫作經驗。透過以下方式與她聯繫 [電子郵件保護] 有新聞發布會、公告和採訪機會。
更多文章辛迪是一名記者 Metaverse Post,涵蓋相關主題 web3, NFT、元宇宙和人工智能,重點是採訪 Web3 行業參與者。她曾與 30 多位 C 級高管進行過交談,並將他們的寶貴見解帶給讀者。辛蒂來自新加坡,現居住在喬治亞第比利斯。她擁有南澳大利亞大學傳播與媒體研究學士學位,並擁有十年的新聞和寫作經驗。透過以下方式與她聯繫 [電子郵件保護] 有新聞發布會、公告和採訪機會。