Ziņojums Tehnoloģija
Jūnijs 01, 2023

OpenAI: Jauna procesa uzraudzīta atlīdzības modelēšana uzlabo AI argumentāciju

Īsumā

OpenAIProcesu pārraudzītās atlīdzības modelēšanas (PRM) mērķis ir novērtēt AI modeļu starpposmus un pamatojumu, tādējādi uzlabojot veiktspēju un rādītājus.

OpenAI ir atkal piesaistījis AI kopienas uzmanību ar savu revolucionāro darbu procesa uzraudzītā atalgojuma modelēšanā (PRM). Šīs novatoriskās pieejas mērķis ir novērtēt AI modeļu starpposmus un pamatojumu, tādējādi uzlabojot veiktspēju un rādītājus.

OpenAI: Jauna procesa uzraudzīta atlīdzības modelēšana uzlabo AI argumentāciju
Kredīts: Metaverse Post (mpost.io)
ieteicams: ChatGPT Varētu mainīt Volstrītu, atvieglojot tirdzniecību

Tradicionālajā pastiprināšanā, mācoties no cilvēku atgriezeniskās saites (RLHF), modeļa atgriezeniskā saite parasti tiek sniegta, pamatojoties uz kopējo modeļa radīto rezultātu. tomēr OpenAIJaunais pētījums pēta ideju novērtēt modeļa veiktos atsevišķus soļus un argumentācijas procesus. To darot, viņi var sniegt precīzākus novērtējumus un atsauksmes.

Lai risinātu šo problēmu, OpenAI atlasītas matemātiskas problēmas, kurām bija nepieciešamas vairākas darbības. Atsevišķs modelis tika apmācīts efektīvi novērtēt starpposmus, darbojoties kā kritiķis, lai identificētu visus kļūdainos spriedumus, ko pieņēmis primārais modelis. Šis process ne tikai uzlabo vispārējo veiktspēju, bet arī uzlabo metriku, ko izmanto, lai novērtētu modeļa iespējas.

OpenAI ir guvis ievērojamus panākumus šajā jomā, izlaižot rūpīgi izstrādātu datu kopu, kas sastāv no 800,000 XNUMX atzīmēti spriedumi. Katrs spriedums ir atsevišķs matemātisko problēmu risināšanas posms un tika izveidots manuāli. Tas izceļ centības un resursu līmeni OpenAI iegulda augstas kvalitātes datu kopu izstrādē, izvirzot jautājumus par citās jomās savākto datu apjomu, piemēram, programmēšanu vai atvērtiem jautājumiem.

Apmācība GPT-4, OpenAI's jaunākā iterācija GPT sērija, jau ir labi uzsākta. Lai gan RLHF komponents nav iekļauts pašreizējos eksperimentos, tiek izmantots tīrs valodas modelis. Īpaši OpenAI piemin, ka ir vairākas versijas GPT-4, pat mazākajai versijai apmācībai ir nepieciešams ievērojami mazāk resursu — aptuveni 200 reižu mazāk.

Intriģējošs piemērs, ar kuru dalījās OpenAI parāda, kā modelis novērtē katru individuālo lēmuma soli. Ziņojumā iekļautajā ekrānuzņēmumā risinājuma kļūdas ir atzīmētas ar karodziņu, un tām tiek piešķirts zemākais pareizības rādītājs, kas iezīmēts sarkanā krāsā.
Kredīts: OpenAI

Intriģējošs piemērs, ar kuru dalījās OpenAI parāda, kā modelis vērtē katrs individuālais lēmuma solis. Ziņojumā iekļautajā ekrānuzņēmumā risinājuma kļūdas ir atzīmētas ar karodziņu, un tām tiek piešķirts zemākais pareizības rādītājs, kas iezīmēts sarkanā krāsā. Šī demonstrācija izceļ modeļa spēju spriest un sniedz vērtīgu ieskatu tā lēmumu pieņemšanas procesā. OpenAI ir arī sniedzis norādījumus par uzcenojumiem, piedāvājot iespējas pūļa avotu izmantotājiem sniegt ieguldījumu un gūt labumu no sava darba.

As OpenAI turpina virzīt AI pētniecības robežas, to koncentrēšanās uz modeļu spriešanu un procesa uzraudzītu atalgojuma modelēšanu sniedz jaunas iespējas uzlabotām AI iespējām. Šis jaunākais sasniegums parāda viņu apņemšanos uzlabot modeļu veiktspēju un paver durvis turpmākiem sasniegumiem šajā jomā.

Lasiet vairāk par AI:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Vairāk rakstus
Damirs Jalalovs
Damirs Jalalovs

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Hot Stories
Pievienojieties mūsu informatīvajam izdevumam.
Jaunākās ziņas

Nepastāvības apstākļos institucionālā apetīte pieaug pret Bitcoin ETF

Informācijas atklāšana, izmantojot 13F pieteikumus, atklāj ievērojamus institucionālos investorus, kas iesaistās Bitcoin ETF, uzsverot pieaugošo pieņemšanu ...

Uzziniet vairāk

Pienāk notiesāšanas diena: CZ liktenis ir līdzsvarā, jo ASV tiesa izskata DOJ lūgumu

Šodien ASV tiesā Sietlā Čanpens Džao ir gatavs notiesāt.

Uzziniet vairāk
Pievienojieties mūsu novatoriskajai tehnoloģiju kopienai
Lasīt vairāk
Vairāk
Donalda Trampa pāreja uz kriptovalūtu: no pretinieka par aizstāvi un ko tas nozīmē ASV kriptovalūtu tirgum
bizness Markets Stāsti un atsauksmes Tehnoloģija
Donalda Trampa pāreja uz kriptovalūtu: no pretinieka par aizstāvi un ko tas nozīmē ASV kriptovalūtu tirgum
10. gada 2024. maijs
Layer3, lai šovasar laistu klajā L3 marķieri, piešķirot 51% no kopējā piedāvājuma kopienai
Markets Ziņojums Tehnoloģija
Layer3, lai šovasar laistu klajā L3 marķieri, piešķirot 51% no kopējā piedāvājuma kopienai
10. gada 2024. maijs
Edvarda Snoudena pēdējais brīdinājums Bitcoin izstrādātājiem: “Padariet privātumu par protokola līmeņa prioritāti vai riskējiet to zaudēt
Markets Drošība Wiki programmatūra Stāsti un atsauksmes Tehnoloģija
Edvarda Snoudena pēdējais brīdinājums Bitcoin izstrādātājiem: “Padariet privātumu par protokola līmeņa prioritāti vai riskējiet to zaudēt
10. gada 2024. maijs
Ar optimismu darbināms Ethereum Layer 2 Network Mint, lai palaistu savu galveno tīklu 15. maijā
Ziņojums Tehnoloģija
Ar optimismu darbināms Ethereum Layer 2 Network Mint, lai palaistu savu galveno tīklu 15. maijā
10. gada 2024. maijs
CRYPTOMERIA LABS PTE. LTD.