OpenAI: Az új folyamat által felügyelt jutalommodellezés javítja a mesterséges intelligencia érvelését
Röviden
OpenAIA folyamat által felügyelt jutalommodellezés (PRM) célja az AI-modellek köztes lépéseinek és érvelésének értékelése, ami jobb teljesítményt és mérőszámokat eredményez.
OpenAI ismét felkeltette az AI közösség figyelmét a folyamatok által felügyelt jutalommodellezés terén végzett úttörő munkájukkal (PRM). Ennek az innovatív megközelítésnek az a célja, hogy értékelje az AI-modellek közbenső lépéseit és érvelését, ami jobb teljesítményt és mérőszámokat eredményez.
A hagyományos megerősítésben az emberi visszajelzésekből való tanulás (RLHF), a modell visszajelzése általában a modell által generált összesített eredmény alapján történik. Azonban, OpenAIÚj kutatása a modell által végrehajtott egyes lépések és érvelési folyamatok értékelésének gondolatát tárja fel. Ezáltal finomabb értékeléseket és visszajelzéseket tudnak adni.
A probléma megoldásához OpenAI kiválasztott matematikai feladatok, amelyek több műveletet igényeltek. Egy külön modell arra képezték ki, hogy hatékonyan értékelje a közbenső lépéseket, és kritikusként viselkedett az elsődleges modell által hozott hibás ítéletek azonosításában. Ez a folyamat nemcsak az általános teljesítményt javítja, hanem javítja a modell képességeinek felmérésére használt mérőszámokat is.
OpenAI jelentős előrelépést tett ezen a területen, egy aprólékosan összeállított adatkészlet kiadásával, amely a következőkből áll 800,000 XNUMX megjelölt ítélet. Minden ítélet egy külön szakaszt jelent a matematikai problémák megoldásában, és manuálisan jött létre. Ez kiemeli az elkötelezettség és az erőforrások szintjét OpenAI kiváló minőségű adatkészletek fejlesztésébe fektet be, kérdéseket vet fel a más területeken gyűjtött adatok mennyiségével kapcsolatban, mint például a programozás vagy a nyílt végű kérdések.
Képzése GPT-4, OpenAIlegújabb iterációja a GPT sorozat, már javában zajlik. Bár az RLHF komponenst nem építik be a jelenlegi kísérletekbe, tiszta nyelvi modellt használnak. Nevezetesen, OpenAI megemlíti, hogy ennek több verziója is létezik GPT-4, még a legkisebb verzió is lényegesen kevesebb erőforrást igényel a képzéshez – körülbelül 200-szor kevesebbet.
Érdekes példa, amelyet megosztott OpenAI bemutatja, hogyan értékel a modell minden egyes döntési lépés. A bejegyzésben található képernyőképen a megoldás hibáit megjelölik, és a legalacsonyabb helyességi pontszámot kapják, pirossal kiemelve. Ez a bemutató rávilágít a modell érvelési képességére, és értékes betekintést nyújt a döntéshozatali folyamatába. OpenAI utasításokat is adott a jelölésekhez, lehetőséget kínálva a crowdsourcersnak, hogy hozzájáruljanak munkájukhoz, és hasznot húzzanak belőle.
As OpenAI továbbra is feszegeti az AI-kutatás határait, a modell-gondolkodásra és a folyamatok által felügyelt jutalommodellezésre való összpontosításuk új lehetőségeket kínál a továbbfejlesztett AI-képességekhez. Ez a legújabb áttörés megmutatja elkötelezettségüket a modellek teljesítményének javítása iránt, és ajtót nyit a területen a további fejlesztések előtt.
- Legutóbb, Az Apple állítólag korlátozza az alkalmazottak használatát ChatGPT és más mesterséges intelligencia által üzemeltetett chatbotok az adatvédelmi aggályok miatt. A Wall Street Journal arról számolt be, hogy a dolgozóknak a GitHub Copilot mesterséges intelligencia-eszközét is korlátozták lehetővé teszi a felhasználók számára a szoftverkód automatikus írását. ChatGPT egy mesterséges intelligencia alapú chatbot, amelyet a OpenAI, amelyet az adatvédelem megsértése miatt kritizáltak.
Tudjon meg többet az AI-ról:
A felelősség megtagadása
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.
További cikkekDamir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.