OpenAI: Uus protsesside järelevalvega preemiate modelleerimine parandab tehisintellekti põhjendamist
Põgusalt
OpenAIProtsessi järelevalvega tasu modelleerimise (PRM) eesmärk on hinnata tehisintellektimudelite vahepealseid samme ja põhjendusi, mis viib parema jõudluse ja mõõdikuteni.
OpenAI on taas pälvinud tehisintellekti kogukonna tähelepanu oma murrangulise tööga protsesside järelevalvega tasu modelleerimisel (Piiratud liikumisvõimega inimesed). Selle uuendusliku lähenemisviisi eesmärk on hinnata tehisintellektimudelite vaheetappe ja põhjendusi, mis toob kaasa parema jõudluse ja mõõdikute.
Traditsioonilises tugevdamises inimese tagasisidest õppides (RLHF), antakse mudeli tagasiside tavaliselt mudeli loodud üldise tulemuse põhjal. Kuid, OpenAIUus uurimus uurib ideed hinnata mudeli üksikuid samme ja arutlusprotsesse. Seda tehes saavad nad anda täpsemaid hinnanguid ja tagasisidet.
Selle probleemi lahendamiseks OpenAI valitud matemaatilised ülesanded, mis nõudsid mitut tegevust. Eraldi mudel koolitati vaheetappe tõhusalt hindama, toimides kriitikuna, et tuvastada kõik esmase mudeli tehtud ekslikud otsused. See protsess mitte ainult ei paranda üldist jõudlust, vaid parandab ka mõõdikuid, mida kasutatakse mudeli võimaluste hindamiseks.
OpenAI on teinud selles valdkonnas olulisi edusamme, avaldades hoolikalt kureeritud andmekogu, mis koosneb 800,000 XNUMX märgistatud kohtuotsust. Iga kohtuotsus kujutab endast matemaatiliste probleemide lahendamise eraldi etappi ja on käsitsi loodud. See tõstab esile pühendumise ja ressursside taseme OpenAI investeerib kvaliteetsete andmekogumite arendamisse, tekitades küsimusi muude valdkondade jaoks kogutud andmete mahu kohta, nagu programmeerimine või avatud küsimused.
Koolitus GPT-4, OpenAIi uusim iteratsioon GPT seeria on juba käimas. Kuigi praegustesse katsetesse RLHF komponenti ei kaasata, kasutatakse puhast keelemudelit. Eelkõige OpenAI mainib, et sellest on mitu versiooni GPT-4, kusjuures isegi väikseim versioon nõuab treenimiseks oluliselt vähem ressursse – ligikaudu 200 korda vähem.
Intrigeeriv näide, mida jagab OpenAI näitab, kuidas modell hindab iga üksiku otsuse samm. Postituses sisalduval ekraanipildil on lahenduse vead märgistatud ja neile antakse madalaim korrektsusskoor, mis on punasega esile tõstetud. See demonstratsioon tõstab esile mudeli võimet arutleda ja annab väärtuslikku teavet selle otsustusprotsessi kohta. OpenAI on andnud ka juhiseid juurdehindluste kohta, pakkudes võimalusi ühisturu hankijatele panustada ja oma tööst kasu saada.
As OpenAI jätkab tehisintellekti uurimise piiride nihutamist, nende keskendumine mudeli arutluskäigule ja protsesside järelevalvega tasu modelleerimisele toob uusi võimalusi täiustatud tehisintellekti võimete jaoks. See viimane läbimurre näitab nende pühendumust mudeli jõudluse parandamisele ja avab uksed valdkonna edasisteks edusammudeks.
- Hiljuti Väidetavalt piirab Apple töötajate kasutamist ChatGPT ja muud AI-toega vestlusbotid privaatsusprobleemide tõttu. Wall Street Journal teatas, et töötajatel on keelatud kasutada ka GitHubi AI tööriista Copilot, mis võimaldab kasutajatel tarkvarakoodi automaatselt kirjutada. ChatGPT on AI-toega vestlusbot, mille on välja töötanud OpenAI, mida on kritiseeritud privaatsusrikkumiste pärast.
Loe AI kohta lähemalt:
Kaebused
Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.
Umbes Autor
Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.
Veel artikleidDamir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.