Naujienų ataskaita Technologija
Birželio 01, 2023

OpenAI: Naujas proceso prižiūrimas atlygio modeliavimas pagerina AI samprotavimą

Trumpai

OpenAIProceso prižiūrimo atlygio modeliavimo (PRM) tikslas – įvertinti AI modelių tarpinius žingsnius ir motyvus, kad būtų pagerintas našumas ir metrika.

OpenAI dar kartą patraukė AI bendruomenės dėmesį savo novatorišku darbu kuriant proceso prižiūrimą atlygio modeliavimą (PRM). Šiuo novatorišku metodu siekiama įvertinti AI modelių tarpinius žingsnius ir pagrindimą, kad būtų pagerintas našumas ir metrika.

OpenAI: Naujas proceso prižiūrimas atlygio modeliavimas pagerina AI samprotavimą
Kreditas: Metaverse Post (mpost.io)
Rekomenduojama: ChatGPT Galėtų pakeisti Volstritą, palengvinant prekybą

Tradiciškai stiprinant mokymąsi iš žmogaus grįžtamojo ryšio (RLHF), modelio grįžtamasis ryšys paprastai pateikiamas remiantis bendru modelio sugeneruotu rezultatu. Tačiau OpenAINaujajame tyrime nagrinėjama idėja įvertinti atskirus modelio veiksmus ir samprotavimo procesus. Tai darydami jie gali pateikti tikslesnius vertinimus ir atsiliepimus.

Norėdami išspręsti šią problemą, OpenAI pasirinktos matematinės problemos, reikalaujančios kelių veiksmų. Atskiras modelis buvo išmokytas efektyviai įvertinti tarpinius žingsnius, veikdamas kaip kritikas, siekiant nustatyti bet kokius klaidingus pirminio modelio sprendimus. Šis procesas ne tik pagerina bendrą našumą, bet ir pagerina metriką, naudojamą modelio galimybėms įvertinti.

OpenAI padarė didelę pažangą šioje srityje, kai buvo išleistas kruopščiai kuruojamas duomenų rinkinys, kurį sudaro 800,000 XNUMX pažymėtų nuosprendžių. Kiekvienas sprendimas yra atskiras matematinių problemų sprendimo etapas ir buvo sukurtas rankiniu būdu. Tai pabrėžia atsidavimo ir išteklių lygį OpenAI investuoja į aukštos kokybės duomenų rinkinių kūrimą, keliantys klausimus apie kitų sričių, pvz., programavimo ar atvirų klausimų, surinktų duomenų kiekį.

Mokymai GPT-4, OpenAInaujausia iteracija GPT serija, jau gerokai įsibėgėjusi. Nors RLHF komponentas nėra įtrauktas į dabartinius eksperimentus, naudojamas grynos kalbos modelis. Pažymėtina, OpenAI mini, kad yra kelios versijos GPT-4, net ir mažiausia versija reikalauja žymiai mažiau išteklių mokymui – maždaug 200 kartų mažiau.

Intriguojantis pavyzdys, kuriuo pasidalino OpenAI parodo, kaip modelis įvertina kiekvieną atskirą sprendimo žingsnį. Į įrašą įtrauktoje ekrano kopijoje sprendimo klaidos pažymimos ir jiems suteikiamas žemiausias teisingumo balas, paryškintas raudonai.
Kreditas: OpenAI

Intriguojantis pavyzdys, kuriuo pasidalino OpenAI parodo, kaip modelis vertina kiekvienas individualus sprendimo žingsnis. Į įrašą įtrauktoje ekrano kopijoje sprendimo klaidos pažymimos ir jiems suteikiamas žemiausias teisingumo balas, paryškintas raudonai. Ši demonstracija pabrėžia modelio gebėjimą mąstyti ir suteikia vertingų įžvalgų apie jo sprendimų priėmimo procesą. OpenAI taip pat pateikė instrukcijas dėl antkainių, suteikdama galimybę sutelktiniams šaltiniams prisidėti ir gauti naudos iš savo darbo.

As OpenAI ir toliau plečia dirbtinio intelekto tyrimų ribas, jų dėmesys modelių samprotavimams ir proceso prižiūrimam atlygio modeliavimui suteikia naujų galimybių tobulinti AI galimybes. Šis naujausias proveržis parodo jų įsipareigojimą gerinti modelio veikimą ir atveria duris tolesnei pažangai šioje srityje.

Skaitykite daugiau apie AI:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Institucinis apetitas Bitcoin ETF atžvilgiu auga dėl nepastovumo

13F paraiškų atskleidimas atskleidžia žymius institucinius investuotojus, kurie naudojasi Bitcoin ETF, o tai rodo, kad vis labiau pritariama...

Žinoti daugiau

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
Donaldo Trumpo perėjimas prie kriptovaliutų: iš oponento į advokatą ir ką tai reiškia JAV kriptovaliutų rinkai
Atsakingas verslas rinkos Istorijos ir apžvalgos Technologija
Donaldo Trumpo perėjimas prie kriptovaliutų: iš oponento į advokatą ir ką tai reiškia JAV kriptovaliutų rinkai
Gali 10, 2024
3 sluoksnis šią vasarą pristatys L3 žetoną, skirdamas 51 % visos tiekimo bendruomenei
rinkos Naujienų ataskaita Technologija
3 sluoksnis šią vasarą pristatys L3 žetoną, skirdamas 51 % visos tiekimo bendruomenei
Gali 10, 2024
Paskutinis Edwardo Snowdeno įspėjimas „Bitcoin“ kūrėjams: „Padarykite privatumą protokolo lygio prioritetu arba rizikuok jį prarasti
rinkos saugumas Wiki programinė įranga Istorijos ir apžvalgos Technologija
Paskutinis Edwardo Snowdeno įspėjimas „Bitcoin“ kūrėjams: „Padarykite privatumą protokolo lygio prioritetu arba rizikuok jį prarasti
Gali 10, 2024
„Optimizmo“ maitinama „Ethereum Layer 2 Network Mint“, kurios pagrindinis tinklas bus paleistas gegužės 15 d.
Naujienų ataskaita Technologija
„Optimizmo“ maitinama „Ethereum Layer 2 Network Mint“, kurios pagrindinis tinklas bus paleistas gegužės 15 d.
Gali 10, 2024
CRYPTOMERIA LABS PTE. LTD.