OpenAI: Nové modelování odměn pod dohledem procesu zlepšuje uvažování AI
Stručně
OpenAIProcesem řízené modelování odměny (PRM) se zaměřuje na hodnocení mezikroků a zdůvodnění modelů umělé inteligence, což vede ke zlepšení výkonu a metrik.
OpenAI opět upoutal pozornost komunity AI svou průkopnickou prací v modelování odměn pod dohledem procesů (PRM). Tento inovativní přístup si klade za cíl vyhodnotit mezikroky a uvažování modelů AI, což vede ke zlepšení výkonu a metrik.
V tradičním posilování učení z lidské zpětné vazby (RLHF), zpětná vazba modelu je obvykle poskytována na základě celkového výsledku generovaného modelem. Nicméně, OpenAINový výzkum zkoumá myšlenku hodnocení jednotlivých kroků a procesů uvažování prováděných modelem. Díky tomu mohou poskytovat jemnější hodnocení a zpětnou vazbu.
Chcete-li tento problém vyřešit, OpenAI vybrané matematické problémy, které vyžadovaly více akcí. Oddělený model byl trénován, aby efektivně vyhodnotil mezikroky a působil jako kritik k identifikaci jakýchkoli chybných úsudků provedených primárním modelem. Tento proces nejen zlepšuje celkový výkon, ale také zlepšuje metriky používané k hodnocení schopností modelu.
OpenAI dosáhla v této oblasti významného pokroku vydáním pečlivě zpracovaného souboru dat sestávajícího z 800,000 XNUMX označených rozsudků. Každý úsudek představuje samostatnou fázi řešení matematických problémů a byl vytvořen ručně. To zdůrazňuje úroveň obětavosti a zdrojů OpenAI investuje do vývoje vysoce kvalitních datových sad, což vyvolává otázky ohledně objemu dat shromážděných pro jiné oblasti, jako je programování nebo otevřené otázky.
Školení GPT-4, OpenAInejnovější iterace GPT série, je již v plném proudu. Zatímco složka RLHF není začleněna do současných experimentů, používá se čistý jazykový model. Zejména, OpenAI uvádí, že existuje více verzí GPT-4, přičemž i ta nejmenší verze vyžaduje výrazně méně prostředků na školení – přibližně 200krát méně.
Zajímavý příklad sdílený uživatelem OpenAI ukazuje, jak model hodnotí každý jednotlivý krok rozhodnutí. Na snímku obrazovky zahrnutém v příspěvku jsou chyby v řešení označeny a mají nejnižší skóre správnosti, zvýrazněné červeně. Tato ukázka zdůrazňuje schopnost modelu uvažovat a poskytuje cenné poznatky o jeho rozhodovacím procesu. OpenAI také poskytla pokyny pro značkování a nabídla crowdsourcerům příležitosti, jak přispět a těžit z jejich práce.
As OpenAI nadále posouvají hranice výzkumu AI, jejich zaměření na modelové uvažování a modelování odměn pod dohledem procesů přináší nové možnosti pro vylepšené schopnosti AI. Tento nejnovější průlom ukazuje jejich odhodlání zlepšovat výkon modelu a otevírá dveře dalšímu pokroku v této oblasti.
- Nedávno, Apple údajně omezuje používání zaměstnanců ChatGPT a další chatboty s umělou inteligencí kvůli obavám o soukromí. The Wall Street Journal uvedl, že pracovníci mají také zakázáno používat AI nástroj Copilot na GitHubu, který umožňuje uživatelům automaticky psát softwarový kód. ChatGPT je chatbot s umělou inteligencí vyvinutý společností OpenAI, která byla kritizována za porušování soukromí.
Přečtěte si více o AI:
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.
Další článkyDamir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.