Tudósítást Technológia
Június 01, 2023

OpenAI: Az új folyamat által felügyelt jutalommodellezés javítja a mesterséges intelligencia érvelését

Röviden

OpenAIA folyamat által felügyelt jutalommodellezés (PRM) célja az AI-modellek köztes lépéseinek és érvelésének értékelése, ami jobb teljesítményt és mérőszámokat eredményez.

OpenAI ismét felkeltette az AI közösség figyelmét a folyamatok által felügyelt jutalommodellezés terén végzett úttörő munkájukkal (PRM). Ennek az innovatív megközelítésnek az a célja, hogy értékelje az AI-modellek közbenső lépéseit és érvelését, ami jobb teljesítményt és mérőszámokat eredményez.

OpenAI: Az új folyamat által felügyelt jutalommodellezés javítja a mesterséges intelligencia érvelését
jóváírás: Metaverse Post (mpost.io)
Ajánlott: ChatGPT Megváltoztathatja a Wall Streetet a kereskedés megkönnyítésével

A hagyományos megerősítésben az emberi visszajelzésekből való tanulás (RLHF), a modell visszajelzése általában a modell által generált összesített eredmény alapján történik. Azonban, OpenAIÚj kutatása a modell által végrehajtott egyes lépések és érvelési folyamatok értékelésének gondolatát tárja fel. Ezáltal finomabb értékeléseket és visszajelzéseket tudnak adni.

A probléma megoldásához OpenAI kiválasztott matematikai feladatok, amelyek több műveletet igényeltek. Egy külön modell arra képezték ki, hogy hatékonyan értékelje a közbenső lépéseket, és kritikusként viselkedett az elsődleges modell által hozott hibás ítéletek azonosításában. Ez a folyamat nemcsak az általános teljesítményt javítja, hanem javítja a modell képességeinek felmérésére használt mérőszámokat is.

OpenAI jelentős előrelépést tett ezen a területen, egy aprólékosan összeállított adatkészlet kiadásával, amely a következőkből áll 800,000 XNUMX megjelölt ítélet. Minden ítélet egy külön szakaszt jelent a matematikai problémák megoldásában, és manuálisan jött létre. Ez kiemeli az elkötelezettség és az erőforrások szintjét OpenAI kiváló minőségű adatkészletek fejlesztésébe fektet be, kérdéseket vet fel a más területeken gyűjtött adatok mennyiségével kapcsolatban, mint például a programozás vagy a nyílt végű kérdések.

Képzése GPT-4, OpenAIlegújabb iterációja a GPT sorozat, már javában zajlik. Bár az RLHF komponenst nem építik be a jelenlegi kísérletekbe, tiszta nyelvi modellt használnak. Nevezetesen, OpenAI megemlíti, hogy ennek több verziója is létezik GPT-4, még a legkisebb verzió is lényegesen kevesebb erőforrást igényel a képzéshez – körülbelül 200-szor kevesebbet.

Érdekes példa, amelyet megosztott OpenAI bemutatja, hogy a modell hogyan értékeli az egyes döntési lépéseket. A bejegyzésben található képernyőképen a megoldás hibáit megjelölik, és a legalacsonyabb helyességi pontszámot kapják, pirossal kiemelve.
jóváírás: OpenAI

Érdekes példa, amelyet megosztott OpenAI bemutatja, hogyan értékel a modell minden egyes döntési lépés. A bejegyzésben található képernyőképen a megoldás hibáit megjelölik, és a legalacsonyabb helyességi pontszámot kapják, pirossal kiemelve. Ez a bemutató rávilágít a modell érvelési képességére, és értékes betekintést nyújt a döntéshozatali folyamatába. OpenAI utasításokat is adott a jelölésekhez, lehetőséget kínálva a crowdsourcersnak, hogy hozzájáruljanak munkájukhoz, és hasznot húzzanak belőle.

As OpenAI továbbra is feszegeti az AI-kutatás határait, a modell-gondolkodásra és a folyamatok által felügyelt jutalommodellezésre való összpontosításuk új lehetőségeket kínál a továbbfejlesztett AI-képességekhez. Ez a legújabb áttörés megmutatja elkötelezettségüket a modellek teljesítményének javítása iránt, és ajtót nyit a területen a további fejlesztések előtt.

Tudjon meg többet az AI-ról:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
Donald Trump átállása a kriptográfia felé: az ellenfélből a szószólóvá, és mit jelent ez az amerikai kriptovaluta piac számára
üzleti piacok Történetek és vélemények Technológia
Donald Trump átállása a kriptográfia felé: az ellenfélből a szószólóvá, és mit jelent ez az amerikai kriptovaluta piac számára
May 10, 2024
3. réteg az L3 Token bevezetésére ezen a nyáron, amely a teljes kínálat 51%-át a közösségnek osztja
piacok Tudósítást Technológia
3. réteg az L3 Token bevezetésére ezen a nyáron, amely a teljes kínálat 51%-át a közösségnek osztja
May 10, 2024
Edward Snowden utolsó figyelmeztetése a Bitcoin fejlesztői számára: „Tegye az adatvédelmet protokollszintű prioritássá, vagy kockáztassa az elvesztését
piacok Biztonság Wiki szoftver Történetek és vélemények Technológia
Edward Snowden utolsó figyelmeztetése a Bitcoin fejlesztői számára: „Tegye az adatvédelmet protokollszintű prioritássá, vagy kockáztassa az elvesztését
May 10, 2024
Az Optimism-alapú Ethereum Layer 2 Network Mint május 15-én elindítja a hálózatát
Tudósítást Technológia
Az Optimism-alapú Ethereum Layer 2 Network Mint május 15-én elindítja a hálózatát
May 10, 2024
CRYPTOMERIA LABS PTE. KFT.