Október 27, 2023

A kutatók megismételték OpenAIAz RLHF proximális irányelv-optimalizálásán (PPO) alapuló munkája

Közzétéve: 27. október 2023., 8:56 Frissítve: 27. október 2023., 8:56

Szerkesztve és tényekkel ellenőrzött: 27. október 2023. 8:56

Az emberi visszajelzésből való tanulás megerősítése (RLHF) olyan képzési rendszerek szerves része, mint pl ChatGPT, és speciális módszerekre támaszkodik a siker elérése érdekében. E módszerek egyike, a Proximal Policy Optimization (PPO) kezdetben az volt megfogant falai között OpenAI 2017-ben. A PPO első pillantásra kitűnt a megvalósítás egyszerűségének ígéretével és a modell finomhangolásához szükséges hiperparaméterek viszonylag alacsony számával. Azonban ahogy mondani szokás, az ördög a részletekben rejlik.

A kutatók megismételték OpenAIAz RLHF proximális irányelv-optimalizálásán (PPO) alapuló munkája

Nemrég megjelent egy blogbejegyzés a következő címmel:A proximális házirend-optimalizálás 37 megvalósítási részlete” rávilágított a PPO fortélyaira (az ICLR konferenciára készült). Már a név is utal arra, hogy milyen kihívásokkal kell szembenézni ennek az egyszerűnek tűnő módszernek a megvalósítása során. Meglepő módon a szerzőknek három évbe telt, mire összeszedték az összes szükséges információt és reprodukálták az eredményeket.

Nehezen olvastad be a tensorflow 1.x kódot? openai/alapvonalak PPO?

Blogbejegyzésünk segít megérteni *mindent*, ami benne van

1) 🎥 oktatóvideó
2) 📜 részletes hivatkozások és magyarázatok
3) ⌨️ Nagyon egyszerű kód

Ez a munka 3 évig tartott. 2/32 pic.twitter.com/w5jpQZkD6L
— Costa Huang (@vwxyzjn) April 25, 2022

A kód a OpenAI A repository jelentős változásokon ment keresztül a verziók között, néhány szempont tisztázatlan maradt, és a hibaként megjelenő sajátosságok valahogy eredményt hoztak. A PPO összetettsége nyilvánvalóvá válik, ha belemélyed a részletekbe, és azok számára, akik érdeklődnek a mélyreható megértés vagy önfejlesztés iránt, elérhető egy erősen ajánlott videós összefoglaló.

De a történet ezzel nem ér véget. Ugyanezek a szerzők úgy döntöttek, hogy újra átnézik a openai/lm-human-preferences repository 2019-től, amely döntő szerepet játszott az emberi preferenciákon alapuló nyelvi modellek PPO segítségével történő finomhangolásában. Ez az adattár jelezte a korai fejlesztéseket ChatGPT. A legutóbbi blogbejegyzés: "Az RLHF N megvalósítási részletei a PPO-val” – ismétli szorosan OpenAIműködik, de PyTorch-ot és modern könyvtárakat használ az elavult TensorFlow helyett. Ez az átállás saját kihívásokkal járt, mint például az Adam-optimalizáló megvalósításának különbségei a keretrendszerek között, ami lehetetlenné tette a képzés módosítások nélküli megismétlését.

1. (legérdekesebb) A TF-nek és a PT-nek eltérő Adam optimalizáló impl-je van, és ezek befolyásolják a teljesítményt. PT Ádámja különösen agresszívebb frissítéseket produkál az edzés elején. pic.twitter.com/lJ99KTmD8M
— Costa Huang (@vwxyzjn) Október 24, 2023

Ennek az utazásnak talán a legérdekesebb aspektusa az a törekvés, hogy kísérleteket hajtsunk végre meghatározott GPU-beállításokon, hogy eredeti mutatókat és tanulási görbéket kapjunk. Ez egy kihívásokkal teli utazás, a különböző GPU-típusok memóriakorlátaitól a GPU-k migrálásáig OpenAI adatkészletek a tárolóhelyek között.

Összefoglalva, a Proximal Policy Optimization (PPO) feltárása az emberi visszajelzésekből való tanulás megerősítésében (RLHF) a komplexitások lenyűgöző világát tárja fel.

Címkék:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.

További cikkek

Damir Jalalov