Novinky Technika
Června 01, 2023

OpenAI: Nové modelování odměn pod dohledem procesu zlepšuje uvažování AI

Stručně

OpenAIProcesem řízené modelování odměny (PRM) se zaměřuje na hodnocení mezikroků a zdůvodnění modelů umělé inteligence, což vede ke zlepšení výkonu a metrik.

OpenAI opět upoutal pozornost komunity AI svou průkopnickou prací v modelování odměn pod dohledem procesů (PRM). Tento inovativní přístup si klade za cíl vyhodnotit mezikroky a uvažování modelů AI, což vede ke zlepšení výkonu a metrik.

OpenAI: Nové modelování odměn pod dohledem procesu zlepšuje uvažování AI
Credit: Metaverse Post (mpost.io)
Doporučená: ChatGPT Mohl změnit Wall Street zjednodušením obchodování

V tradičním posilování učení z lidské zpětné vazby (RLHF), zpětná vazba modelu je obvykle poskytována na základě celkového výsledku generovaného modelem. Nicméně, OpenAINový výzkum zkoumá myšlenku hodnocení jednotlivých kroků a procesů uvažování prováděných modelem. Díky tomu mohou poskytovat jemnější hodnocení a zpětnou vazbu.

Chcete-li tento problém vyřešit, OpenAI vybrané matematické problémy, které vyžadovaly více akcí. Oddělený model byl trénován, aby efektivně vyhodnotil mezikroky a působil jako kritik k identifikaci jakýchkoli chybných úsudků provedených primárním modelem. Tento proces nejen zlepšuje celkový výkon, ale také zlepšuje metriky používané k hodnocení schopností modelu.

OpenAI dosáhla v této oblasti významného pokroku vydáním pečlivě zpracovaného souboru dat sestávajícího z 800,000 XNUMX označených rozsudků. Každý úsudek představuje samostatnou fázi řešení matematických problémů a byl vytvořen ručně. To zdůrazňuje úroveň obětavosti a zdrojů OpenAI investuje do vývoje vysoce kvalitních datových sad, což vyvolává otázky ohledně objemu dat shromážděných pro jiné oblasti, jako je programování nebo otevřené otázky.

Školení GPT-4, OpenAInejnovější iterace GPT série, je již v plném proudu. Zatímco složka RLHF není začleněna do současných experimentů, používá se čistý jazykový model. Zejména, OpenAI uvádí, že existuje více verzí GPT-4, přičemž i ta nejmenší verze vyžaduje výrazně méně prostředků na školení – přibližně 200krát méně.

Zajímavý příklad sdílený uživatelem OpenAI ukazuje, jak model vyhodnocuje každý jednotlivý rozhodovací krok. Na snímku obrazovky zahrnutém v příspěvku jsou chyby v řešení označeny a mají nejnižší skóre správnosti, zvýrazněné červeně.
Credit: OpenAI

Zajímavý příklad sdílený uživatelem OpenAI ukazuje, jak model hodnotí každý jednotlivý krok rozhodnutí. Na snímku obrazovky zahrnutém v příspěvku jsou chyby v řešení označeny a mají nejnižší skóre správnosti, zvýrazněné červeně. Tato ukázka zdůrazňuje schopnost modelu uvažovat a poskytuje cenné poznatky o jeho rozhodovacím procesu. OpenAI také poskytla pokyny pro značkování a nabídla crowdsourcerům příležitosti, jak přispět a těžit z jejich práce.

As OpenAI nadále posouvají hranice výzkumu AI, jejich zaměření na modelové uvažování a modelování odměn pod dohledem procesů přináší nové možnosti pro vylepšené schopnosti AI. Tento nejnovější průlom ukazuje jejich odhodlání zlepšovat výkon modelu a otevírá dveře dalšímu pokroku v této oblasti.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Posun Donalda Trumpa ke kryptoměnám: od oponenta k obhájci a co to znamená pro americký trh s kryptoměnami
Business Trhy Příběhy a recenze Technika
Posun Donalda Trumpa ke kryptoměnám: od oponenta k obhájci a co to znamená pro americký trh s kryptoměnami
10
Layer3 spustí letos v létě token L3 a přidělí komunitě 51 % celkové dodávky
Trhy Novinky Technika
Layer3 spustí letos v létě token L3 a přidělí komunitě 51 % celkové dodávky
10
Poslední varování Edwarda Snowdena pro vývojáře bitcoinů: „Udělejte ze soukromí prioritu na úrovni protokolu nebo riskujte jeho ztrátu
Trhy Bezpečnost Wiki Vývoj Příběhy a recenze Technika
Poslední varování Edwarda Snowdena pro vývojáře bitcoinů: „Udělejte ze soukromí prioritu na úrovni protokolu nebo riskujte jeho ztrátu
10
Optimismem poháněná síť Ethereum Layer 2 Network Mint spustí svou hlavní síť 15. května
Novinky Technika
Optimismem poháněná síť Ethereum Layer 2 Network Mint spustí svou hlavní síť 15. května
10
CRYPTOMERIA LABS PTE. LTD.