OpenAI: Naujas proceso prižiūrimas atlygio modeliavimas pagerina AI samprotavimą
Trumpai
OpenAIProceso prižiūrimo atlygio modeliavimo (PRM) tikslas – įvertinti AI modelių tarpinius žingsnius ir motyvus, kad būtų pagerintas našumas ir metrika.
OpenAI dar kartą patraukė AI bendruomenės dėmesį savo novatorišku darbu kuriant proceso prižiūrimą atlygio modeliavimą (PRM). Šiuo novatorišku metodu siekiama įvertinti AI modelių tarpinius žingsnius ir pagrindimą, kad būtų pagerintas našumas ir metrika.
Rekomenduojama: ChatGPT Galėtų pakeisti Volstritą, palengvinant prekybą |
Tradiciškai stiprinant mokymąsi iš žmogaus grįžtamojo ryšio (RLHF), modelio grįžtamasis ryšys paprastai pateikiamas remiantis bendru modelio sugeneruotu rezultatu. Tačiau OpenAINaujajame tyrime nagrinėjama idėja įvertinti atskirus modelio veiksmus ir samprotavimo procesus. Tai darydami jie gali pateikti tikslesnius vertinimus ir atsiliepimus.
Norėdami išspręsti šią problemą, OpenAI pasirinktos matematinės problemos, reikalaujančios kelių veiksmų. Atskiras modelis buvo išmokytas efektyviai įvertinti tarpinius žingsnius, veikdamas kaip kritikas, siekiant nustatyti bet kokius klaidingus pirminio modelio sprendimus. Šis procesas ne tik pagerina bendrą našumą, bet ir pagerina metriką, naudojamą modelio galimybėms įvertinti.
OpenAI padarė didelę pažangą šioje srityje, kai buvo išleistas kruopščiai kuruojamas duomenų rinkinys, kurį sudaro 800,000 XNUMX pažymėtų nuosprendžių. Kiekvienas sprendimas yra atskiras matematinių problemų sprendimo etapas ir buvo sukurtas rankiniu būdu. Tai pabrėžia atsidavimo ir išteklių lygį OpenAI investuoja į aukštos kokybės duomenų rinkinių kūrimą, keliantys klausimus apie kitų sričių, pvz., programavimo ar atvirų klausimų, surinktų duomenų kiekį.
Mokymai GPT-4, OpenAInaujausia iteracija GPT serija, jau gerokai įsibėgėjusi. Nors RLHF komponentas nėra įtrauktas į dabartinius eksperimentus, naudojamas grynos kalbos modelis. Pažymėtina, OpenAI mini, kad yra kelios versijos GPT-4, net ir mažiausia versija reikalauja žymiai mažiau išteklių mokymui – maždaug 200 kartų mažiau.
Intriguojantis pavyzdys, kuriuo pasidalino OpenAI parodo, kaip modelis vertina kiekvienas individualus sprendimo žingsnis. Į įrašą įtrauktoje ekrano kopijoje sprendimo klaidos pažymimos ir jiems suteikiamas žemiausias teisingumo balas, paryškintas raudonai. Ši demonstracija pabrėžia modelio gebėjimą mąstyti ir suteikia vertingų įžvalgų apie jo sprendimų priėmimo procesą. OpenAI taip pat pateikė instrukcijas dėl antkainių, suteikdama galimybę sutelktiniams šaltiniams prisidėti ir gauti naudos iš savo darbo.
As OpenAI ir toliau plečia dirbtinio intelekto tyrimų ribas, jų dėmesys modelių samprotavimams ir proceso prižiūrimam atlygio modeliavimui suteikia naujų galimybių tobulinti AI galimybes. Šis naujausias proveržis parodo jų įsipareigojimą gerinti modelio veikimą ir atveria duris tolesnei pažangai šioje srityje.
- Pastaruoju metu, Pranešama, kad „Apple“ riboja darbuotojų naudojimą ChatGPT ir kiti AI varomi pokalbių robotai dėl privatumo problemų. „The Wall Street Journal“ pranešė, kad darbuotojams taip pat draudžiama naudoti „GitHub“ AI įrankį „Copilot“, kuris leidžia vartotojams automatiškai rašyti programinės įrangos kodą. ChatGPT yra AI varomas pokalbių robotas, kurį sukūrė OpenAI, kuri buvo kritikuojama dėl privatumo pažeidimų.
Skaitykite daugiau apie AI:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.