OpenAI: Jauna procesa uzraudzīta atlīdzības modelēšana uzlabo AI argumentāciju
Īsumā
OpenAIProcesu pārraudzītās atlīdzības modelēšanas (PRM) mērķis ir novērtēt AI modeļu starpposmus un pamatojumu, tādējādi uzlabojot veiktspēju un rādītājus.
OpenAI ir atkal piesaistījis AI kopienas uzmanību ar savu revolucionāro darbu procesa uzraudzītā atalgojuma modelēšanā (PRM). Šīs novatoriskās pieejas mērķis ir novērtēt AI modeļu starpposmus un pamatojumu, tādējādi uzlabojot veiktspēju un rādītājus.
Tradicionālajā pastiprināšanā, mācoties no cilvēku atgriezeniskās saites (RLHF), modeļa atgriezeniskā saite parasti tiek sniegta, pamatojoties uz kopējo modeļa radīto rezultātu. tomēr OpenAIJaunais pētījums pēta ideju novērtēt modeļa veiktos atsevišķus soļus un argumentācijas procesus. To darot, viņi var sniegt precīzākus novērtējumus un atsauksmes.
Lai risinātu šo problēmu, OpenAI atlasītas matemātiskas problēmas, kurām bija nepieciešamas vairākas darbības. Atsevišķs modelis tika apmācīts efektīvi novērtēt starpposmus, darbojoties kā kritiķis, lai identificētu visus kļūdainos spriedumus, ko pieņēmis primārais modelis. Šis process ne tikai uzlabo vispārējo veiktspēju, bet arī uzlabo metriku, ko izmanto, lai novērtētu modeļa iespējas.
OpenAI ir guvis ievērojamus panākumus šajā jomā, izlaižot rūpīgi izstrādātu datu kopu, kas sastāv no 800,000 XNUMX atzīmēti spriedumi. Katrs spriedums ir atsevišķs matemātisko problēmu risināšanas posms un tika izveidots manuāli. Tas izceļ centības un resursu līmeni OpenAI iegulda augstas kvalitātes datu kopu izstrādē, izvirzot jautājumus par citās jomās savākto datu apjomu, piemēram, programmēšanu vai atvērtiem jautājumiem.
Apmācība GPT-4, OpenAI's jaunākā iterācija GPT sērija, jau ir labi uzsākta. Lai gan RLHF komponents nav iekļauts pašreizējos eksperimentos, tiek izmantots tīrs valodas modelis. Īpaši OpenAI piemin, ka ir vairākas versijas GPT-4, pat mazākajai versijai apmācībai ir nepieciešams ievērojami mazāk resursu — aptuveni 200 reižu mazāk.
Intriģējošs piemērs, ar kuru dalījās OpenAI parāda, kā modelis vērtē katrs individuālais lēmuma solis. Ziņojumā iekļautajā ekrānuzņēmumā risinājuma kļūdas ir atzīmētas ar karodziņu, un tām tiek piešķirts zemākais pareizības rādītājs, kas iezīmēts sarkanā krāsā. Šī demonstrācija izceļ modeļa spēju spriest un sniedz vērtīgu ieskatu tā lēmumu pieņemšanas procesā. OpenAI ir arī sniedzis norādījumus par uzcenojumiem, piedāvājot iespējas pūļa avotu izmantotājiem sniegt ieguldījumu un gūt labumu no sava darba.
As OpenAI turpina virzīt AI pētniecības robežas, to koncentrēšanās uz modeļu spriešanu un procesa uzraudzītu atalgojuma modelēšanu sniedz jaunas iespējas uzlabotām AI iespējām. Šis jaunākais sasniegums parāda viņu apņemšanos uzlabot modeļu veiktspēju un paver durvis turpmākiem sasniegumiem šajā jomā.
- Nesen, Tiek ziņots, ka Apple ierobežo darbinieku lietošanu ChatGPT un citi ar AI darbināmi tērzēšanas roboti privātuma apsvērumu dēļ. Wall Street Journal ziņoja, ka darbiniekiem ir arī aizliegts izmantot GitHub AI rīku Copilot, kas ļauj lietotājiem automātiski rakstīt programmatūras kodu. ChatGPT ir ar AI darbināms tērzēšanas robots, ko izstrādājis OpenAI, kas ir kritizēta par privātuma pārkāpumiem.
Lasiet vairāk par AI:
Atbildības noraidīšana
Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.
Par Autors
Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.
Vairāk rakstusDamirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.